向學習者推薦情境敏感的學習資源與學習路徑,能夠有效降低學習者在互聯網遠程教育中的時間成本,并且幫助其提高學習效率、增強學習興趣、優化學習效果。然而學習資源的組織結構比較複雜,資源關系存在孤立化的問題。如何基于當前學習情境采用合适的感知技術和關聯分析方法,推薦恰當的個性化學習内容是一個非常關鍵的問題。本研究提出結合情境感知技術和多層次、多關系的關聯算法來實現學習資源的個性化推薦,探索基于情境感知的行為特征分析和提取流程,詳細闡述了基于情境描述和關聯推薦的機制,以期提高個性化學習内容推薦的服務質量和效果。
【關鍵詞】情境感知;關聯分析;數據挖掘;資源推薦
【中圖分類号】G434【文獻标識碼】A【文章編号】1009-458x(2017)02-0059-07
*本文系湖北省教育科學“十二五”規劃重點課題“數字化導學資源建設與教學模式改進研究”(編号:2013A001)和中國博士後科學基金第58批一等資助“大數據環境下基于本體關聯的學習資源個性化推薦研究”(編号:2015M580661)的研究成果。
一、引言
随着移動通信技術的迅猛發展和移動設備感知化、智能化、小型化程度的提高,人們逐漸适應了通過随身攜帶的各類移動終端獲取信息。同時,越來越快的生活節奏決定了學習者的學習時間呈現碎片化的趨勢,更傾向于利用空閑時間觀看和學習各類微小課程來獲取知識(陳媛嫄,2012)。在移動智能終端成為學習載體的同時,傳感器網絡、物聯網以及雲計算和大數據等最新的信息技術相互融合,使得學習系統獲取學習者的時間、位置、行為活動更加容易。根據數據利用模型計算事物發展趨勢的方法和技術已經得到全面發展,需要遠程學習系統能夠強化情境敏感化的學習資源推送能力。作為智慧學習環境構建的基本策略,情境感知指的是系統主動感知情境變化,根據用戶的學習需求提供恰當的學習資源和服務。在遠程教育領域,網絡教育資源出現了前所未有的爆發式增長,給學習者提供了海量的資源,資源增長速度過快,造成了學習者的選擇困難,也弱化了不同情境下學習者的學習體驗。智能化的學習資源推送應該具備學習對象排序、學習路徑推薦和學習風格識别等能力,通過數據挖掘等大數據領域的新技術,提升情境感知改善在線學習體驗的效果。
二、推薦模式
基于情境感知的學習資源智能推薦的推理邏輯基礎是學習者的用戶模型與知識模型之間的關聯。用戶模型需要體現學習者的學習風格和認知水平,并且能夠關聯具有适應學習者能力的動态課程内容,智能地向用戶推薦最佳學習活動序列和學習資源(Schilit,Adams,&Want,1994)。這種動态的學習活動序列生成能夠根據具體的學習目标、依據學習者的個性差異修正出一套切實可行的學習方案,實時觀測和分析系統中用戶的學習風格和資源媒體格式的選擇傾向,整合用戶的學習目标、學習任務、操作步驟、交互形式和評價機制等,形成一個有機的、動态化的學習過程(Wang,Dong,&Chin,2004)。
情境感知推動學習資源精确推薦的核心是基于規則分析的資源搜索引擎。引擎的規則來源需要通過智能裝備感知到學習者所處的情境,然後通過情境特征明确其學習需求。情境感知特征根據不同的感知軟硬件模塊可以分為不同的種類,最基本的包括各種豐富的物理傳感器信息,通過綜合分析這些特征,生成用戶情境化的信息需求并進行語義化表示,盡可能真實地還原用戶的行為模式和實時場景,并對信息資源的适用情境進行語義化标注,判斷和預測學習者的行為目标,實現精準的信息推薦(Rani&Vyas,2015)。情境建模的重點是情境上下文的構建,首先需要确定的是需要獲取哪些情境要素,基本的學習情境要素可以包括人物屬性、軟硬件數據上下文、學習習慣和偏好、當前的學習目的及任務等,然後再根據要素進行推理,理解學習者的行為模式和當前的意圖,提升面向移動用戶的推薦系統(錢增瑾,孫東平,2013)。
随着學習者在遠程移動學習活動中參與度的增強,用戶情境與學習需求的關聯準确度直接決定着學習資源推薦質量的高低。而移動用戶自身位置敏感性等特點又要求學習系統的反饋能夠更加及時,相關的資源推薦能反應學習者的短期興趣及情境變化等。這需要增強自适應學習中有關情境要素與學習者行為之間關聯信息的數據挖掘技術,揭示不同用戶不同情境特征與學習資源之間最直接的關系,探索學習者在自适應學習中的行為規律,輔助提高學習者的學習效率(如圖1所示)。
圖1基于情境感知的資源推薦流程三、情境要素的收集與處理
情境要素是表征任何情境實體狀态的相關信息元素,包括相關的人、事物或抽象模型。情境要素的屬性值是具有限定範圍的,屬性之間相互關聯,并且與具體的環境或場景緊密聯系(何軍,劉紅岩,杜小勇,2007)。情境模型的構建首先必須确定情境要素的類型與範圍,構建的流程并沒有統一的定義,在學習資源推薦系統中對情境要素的界定需要考慮學習者使用的設備和所處的學習環境,比商業服務中隻對位置和用戶偏好敏感的情境感知更加複雜。學習環境中情境要素可以從不同的角度進行大緻的劃分,從時間維度上可以分為曆史情境和實時情境,還有些情境要素是通過物理傳感設備實時獲取的,更多的要素則是通過數據的收集整理歸納得到,所以也可以分為直接情境和間接情境。
情境要素的分類可以參考表1。實時情境基本上來源于物理傳感信息和應用軟件的實時數據和使用參數,例如用戶所處的時間、位置、網絡狀況和運動參數,以及正在使用軟件應用的具體行為,包括浏覽網址,正在學習的課程和網絡社交行為等(徐光祐,史元春,謝偉凱,2003)。曆史情境是非常重要的情境判斷背景因素,例如學習者的身份信息、學習背景和學習偏好可以視為用戶的學習曆史情境,其中一部分身份信息相關數據可以事先錄入到系統中,其他信息則是經過長期的曆史數據和情境日志分析進行信息過濾和合成而組成的新的情境要素。實時情境的各項數據基本上都可以通過歸納整理形成對應的曆史情境,如用戶具有規律性的位置變化形成用戶的運動路徑情境,運動參數的變化可以構成行為或行動分析的數據基礎,學習課程的曆史數據可以提煉出用戶的學習習慣與興趣偏好等。
表1常見情境要素分類與說明
随着數據挖掘等新技術對情境感知智能化的提升,系統對情境數據的深入分析能力進一步增強,間接情境逐漸具有重要的地位。如圖2所示,普通的情境要素收集和獲取更多的是直接從原始數據進行歸納和推理,而直接獲取的情境要素可以作為數據來源構成間接情境要素的分析和分類依據。間接情境的獲取不需要用戶介入,主要通過統計分析、推理規則或數據挖掘的方法從軟硬件環境中直接獲取的數據推理得到用戶的間接情境要素(莫同,李偉平,吳中海,褚偉傑,2010)。這部分要素是自适應學習資源推送的基礎與支撐,因為它是不會随着時間改變或者改變很慢的信息,能夠大緻圈定用戶所屬的學習風格和學習資源的推薦範圍;而直接情境要素對于精确定位用戶的實時需求起着關鍵作用,兩者共同構成自适應學習資源推薦中情境模型建立的基礎。
圖2直接情境和間接情境的轉換流程
四、情境描述與推理
1.推理過程
為實現情境感知的信息服務自适應個性化,首先必須識别獲取用戶當前的實時情境信息,再根據曆史情境進行推理判斷,獲取用戶的學習目标和最佳的學習方式,這不是通過簡單直接的方式就能确定的,需要對學習者的行為進行動态采集、分析和評價三個階段(童恩棟,2011)。首先跟蹤和分析自适應學習資源推薦系統中學習者學習的過程,建立學習者行為模型,然後根據收集的學習行為曆史數據,采用關聯分析和數據挖掘的方法尋求情境數據與學習資源知識庫之間的聯系,構建動态關聯模型。其中動态關聯是指在不同的情境空間和時間維度上,不同的情境要素具有不同的權重和相關系數,需要根據學習者的實時反饋和學習效果形成評估結果,對個性化的學習資源進行檢索和動态的推薦。
過去的情境描述與推理模型大部分是在本體構建和語義檢索的基礎上建立的,這種情境推理的個性化學習服務方法一般至少需要構建兩個情境本體:用戶情境本體和知識本體,同時還需要建立用戶情境到知識推薦之間的推理規則,由推理規則生成适應不同情境的具體推理規則實例,最後形成通過用戶具體的情境狀态推理出滿足其情境期望的服務集合的資源推薦過程(Premlatha&Geetha,2015)。這種方法能夠清晰地描述情境元素以及精确地定位知識本體數據資源,因為事先已經通過本體相關的推理工具完成了知識庫的構建。但這種推理過程必須建立在前期大量的數據分析和準備工作之上,包括本體元素的描述約束和知識庫的本體化構建等,雖然有将模糊的情境信息精确化的優點,但是數據的預處理非常繁雜,難以滿足大規模學習資源數據集搜索的需要。為了避免大量的本體描述和标注工作,目前更傾向于采用大數據技術的相關數據挖掘處理方法來構建關聯模型,使用過濾、分類、聚類、關聯、序列分析等方法實現情境數據到知識推送的邏輯推理過程(趙宏,陳麗,趙玉婷,2015)。
2.情境特征提取
首先需要關注的是用戶情境特征的表示,給定情境數據時間序列R=r1r2…rn,其中ri(1in)表示一個情境片段,每個片段包含了該時間點采集的所有情境要素數值,相鄰的情境片段具有相似的情境要素(陳毅波,2012)。由于不同學習者在學習的不同階段會有不同的情境切換模式,因此我們需要利用情境數據的内在統計相關特性,對情境數據進行分類,提取情境會話的關鍵特征。
由于情境數據的維度是相對固定的,情境特征的多維數據正好構成向量表達,而多維向量可以放置到多維空間中,通過計算多維空間的餘弦距離或歐氏距離形成情境之間的關系,然後通過聚類算法提取和描述用戶的關鍵特征。目前,主流的聚類算法有很多,包括基于劃分的聚類算法、基于密度的聚類算法和基于流的聚類算法(吳鵬飛,餘勝泉,2015)。因為不同用戶學習情境的差别可能會很大,所以需要根據不同的場景選擇合适的聚類規模參數。以常用的K-means聚類算法為例,提取情境特征時向量之間的差異值計算公式可以為:
式(1)中f為情境要素類型,d(f)ij表示情境會話向量i和j在情境要素f上的差異值,α(f)ij表示向量i和j在f上的指示項,xif表示i在情境要素f的取值,d(f)ij的計算如下:
通過K-means對情境會話聚類的細節描述如下:首先根據情境要素的取值頻率和大緻範圍确定情境會話的初始數量K,即期望的情境種類的個數。在數據稀疏或者缺少曆史數據的情況下,可以先大緻确定一個初始數值,再根據初步的聚類結果疊代改進K的取值範圍。接下來随機選取K個中心節點,計算其他情境會話最近的中心節點,獲得相同的簇标識,最終得到新的每個聚類的質心。該過程需要不停地疊代,直到聚類結果穩定或者達到疊代阈值次數(魏欣楠,郝忠孝,2009)。每一個情境會話聚類共同反映了一類學習情境,可以将該聚類作為數據源來提取用戶情境的描述。
五、關聯分析與推薦
情境與行為的關聯分析最主要的目的是根據學習者目前所處的情境在學習資源庫中搜索并返回最适合的資源提供給他們使用。關聯分析的數據檢索過程是動态的,它會根據每一次推薦結果的使用狀況對自身的關聯數據進行反饋和修正,同時它也會根據使用者的學習背景和偏好自動适應。與推薦相關的數據挖掘算法有很多,包括協同過濾算法和關聯分析算法等。
1.關聯規則分析
學習資源的關聯規則發現是将學習者使用的學習資源具體類型和順序構成一個學習會話,通過關聯規則挖掘情境會話與學習會話之間的關系,并按照一定的支持度和置信度提取和保留有用的規則進行學習推薦應用。關聯規則挖掘一般被用來描述數據項之間關系的規則,即某些項可能會同時出現在一個事務中(楊現民,餘勝泉,張芳,2013)。關聯規則的數據挖掘一般分為兩步:第一步是從數據集合中找出所有的頻繁項集(FrequentItemSets),第二步是根據頻繁項集分析得到關聯規則(AssociationRules)。
關聯規則的數據挖掘有兩種,最基本的是針對單層關系的數據集分析。其流程為:假設I={I1,I2,…Im}為一個或一個以上的項目組成的集合,稱為項目集,事務(Transaction)t是I的非空子集,即t∈I,關聯形式表現為X⇒Y的蘊涵式。其中X,Y∈I且X∩Y∈φ,X和Y分别稱為關聯規則的先導和後繼,關聯規則X⇒Y在D中的支持度(support)為D中事務包含X∪Y的百分比,置信度(confi⁃dence)是包含X的事務中同時包含Y的百分比。如果數據結果的支持度和置信度均超過阈值,則認為該關聯規則有效(白雲龍,2014)。
以表2為例,學習資源的項集I={I1,I2,I3,I4}。對于關聯規則:I1⇒I2,支持度support=3/6=0.5,置信度confidence=3/5=0.6。若給定最小支持度和最小置信度均為0.5,即可以認為I1與I2之間存在關聯。
關聯規則的數據挖掘算法有很多,其中最基本的無監督學習算法為Apriori算法,該算法屬于單維、單層的關聯規則挖掘算法,主要利用了頻繁項集的非空子集也是頻繁的先驗性質。算法的主要過程為:首先掃描數據庫,确定各“1項集”的支持度,篩選滿足最小支持度的集合L1,L1用于找頻繁“2項集”的集合L2,以此類推,直到因為無法滿足最小支持度要求而不能産生頻繁項集為止。
Apriori算法的改進有很多,例如增加抽樣(Sampling)技術、分區(PARTITION)算法和DHP(Direct-HushandPrune)算法等,提高了算法的計算效率,以及泛化關聯規則和周期性關聯規則等。
2.多層關聯規則分析
針對單層的關聯規則數據挖掘隻能發現學習資源庫内部的各項關聯,如果要考察情境向量實體與學習資源之間的關聯,還要涉及多層關聯規則。采用多層關聯規則可以有效地發現情境因素與學習者學習偏好之間的隐藏關系,協助系統自動生成知識學習序列,提高資源推薦的精度。多層關聯規則挖掘的研究一般針對基于星型數據模式(multi-dimensionaldatamodel)的數據庫,處于核心的稱之為事實表(facttable),并且有多個維表(dimensionaltable)與事實表通過外鍵關聯,與事實表形成一對多的聯系(王衛軍,2015)。事實表一般隻包含外鍵關系,如果還有其他屬性,可以分離出來形成單獨的維度表(如圖3所示)。
從圖3所示的數據表中可以得出支持度和置信度為:
Support(Address=University→Prefer=Logis⁃tics)=4/7
Confidence(Address=University→Prefer=Lo⁃gistics)=4/5
假設最小支持度和最小置信度都超過阈值1/2,可以得到符合要求的關聯規則:
Address=University→Prefer=Logistics
圖3星型數據模式示例3.基于ILP的多關系關聯規則分析
歸納邏輯程序設計(ILP)是機器學習與邏輯程序設計的交叉研究領域。歸納邏輯程序設計使用了一階邏輯框架,将傳統的單表關聯規則挖掘算法更好地擴展到了多表情況。ILP在多關系環境下使用一階謂詞邏輯語言表示機制,通常利用Prolog語言,在其形式化系統中允許在一個模式中使用多個變量與關系,為機器學習提供了更深入的理論和方法,從而克服了描述能力和背景知識利用的限制(寶騰飛,2012)。在ILP中,所有的表達式由常量、變量、謂詞符号和函數符号組成,這些符号可以組成項、句節和子句等表達式。關聯規則是一組具有類似X←Y的形式的語句,其中X、Y均由一組謂詞組成。如果元組給每一變量賦值後使謂詞取值為真的就是支持本謂詞的元組,而同時滿足關聯規則箭頭兩端的謂詞的元組就是關聯規則的支持元組。
以如圖4所示的數據庫為例,這是一個由表stu⁃dent、prefer、where、study組成的多維關系型數據庫,每個表所代表的關系用謂詞的形式可以表示為:student(name)、prefer(name,subject)、where(name,address,time)、study(name,subject)。對于該數據庫,某個position與subject的關聯規則以Prolog查詢形式可以表現為:
Student(name),prefer(name,Y),where(name,X,time)→study(name,X,Y)
當且僅當該查詢返回非空解∂時,稱這個查詢符合數據庫D。對于一個特定的數據庫,每一個謂詞的支持度計算公式為:
支持度=符合這個謂詞的元組數/所有的元組數一個關聯規則的支持度為:支持度=同時符合條件謂詞和結果謂詞的元組數/符合條件謂詞的元組數。
實體表中的某一個屬性值是否為真,或者關系表中某一種關系是否成立均可以轉換為一種謂詞,然後根據所關注的謂詞和相應的形式,過濾出那些支持度小于最小支持度阈值的謂詞組合,得到符合要求的關聯規則。
基于ILP的技術挖掘多表關聯規則的典型算法有WARMR和FARMER。這類算法使用邏輯原子的方式取代Apriori算法中的項集,使用基于邏輯的DATALOG數據查詢語言實現對數據的演繹推理,通過分層疊代的方法找到大于阈值的候選集合關聯規則。以WARMR算法為例,該算法采用寬度優先的分層方法查找頻繁Prolog查詢,首先使用具體化算子和剪枝操作層層疊代産生候選項集,然後通過計算候選查詢的支持度确定頻繁項集,整個疊代過程持續到沒有新頻繁查詢出現時終止。基于ILP的多關系關聯規則分析算法具有更強的知識表達能力與更大的搜索空間,但在查詢速度優化和海量數據處理能力上還有不足,近幾年來已經有一些性能更高、伸縮性更強的方法被相繼提出。
4.推薦的産生
通過不同層次的關聯規則挖掘之後,即可以根據情境會話的狀态對學習者産生推薦。推薦的産生是以“支持—置信”為基礎的,首先根據不同推薦内容的需要進行數據清理,過濾掉一些相對稀疏的數據和冷門的學習資源,然後根據關聯規則的支持度和置信度等參數和相應的阈值進行剪枝,把低于最小值的規則扔掉,最後按照置信度降序排序,Top-N即為當前情境最合适的學習資源。基于情境感知的關聯規則的挖掘最重要的是數據粒度的合适程度,并非數據粒度和分辨率越高效果越好,因為情境會話或者學習資源的分類如果過于細緻,容易造成數據過于稀疏,數據幹擾較大,在數據挖掘時無法形成有效的數據關聯。
圖4多維關系型數據庫示例
六、模型的局限性和适用範圍
在數據挖掘的各類關聯分析方法中,多關系關聯規則的提取是比較重要的一種無監督學習方法,關聯規則的發現也是整個算法流程中最為關鍵且最耗時的步驟,因此,使用該模型形成個性化推薦有一些前提條件以保證數據的可靠性和準确性。
1.在處理數據前,需要保證對業務邏輯和數據關系的充分理解以及明确目标規則提取的範圍,設定合理的支持度等查詢參數大小。由于關聯規則的提取是無監督的,使用DATALOG數據查詢語言對數據的演繹推理能夠發現滿足條件的關聯規則,但它不能判定關聯規則的實際意義。在系統分析提取的關聯規則當中,可能出現主觀上認為沒有多大關系的數據,它們之間的關聯規則支持度和可信度卻很高,這需要數據分析人員具有足夠豐富的業務經驗對數據有深入的理解,從各個角度判斷不同關聯規則内在的合理性;反之,可能有主觀上認為關系密切的物品,結果卻顯示它們之間相關性不強。隻有很好地理解業務邏輯和關聯規則的意義,才能合理地調整支持度和可信度等相關參數,提高關聯規則數據分析的準确性。
2.在處理大數據時,DATALOG數據查詢算法的效率仍有待提高。與傳統數據挖掘比較,多關系數據挖掘要搜索的假設空間變得更大,模式語言強大的表達能力使它相對于數據庫查詢語句需要花費更高昂的計算代價。目前,雖然也有一些分布式的并行計算方法,但由于數據的分區通常是不對稱的,如何克服分布式計算間的數據傳輸效率是一個亟待解決的問題。本文采用了聚類方法盡可能地提高模型處理大規模數據和高維數據的能力,但是現實數據通常是很複雜的,會有數據噪聲的産生,即在一組數據中無法解釋的數據變動和一些不和其他數據相一緻的數據。因此,如何有效地消除噪聲的影響,提高處理現實數據的能力,還有待進一步提高。
3.關聯規則與其他推薦算法的融合及比較。數據分類、關聯規則挖掘和推薦算法之間有一些基本的差别,關聯規則不涉及預測,也不用提供防止低于或超過給定支持度的機制。然而,如何将關聯規則與其他推薦算法進行融合,揚長避短,解決傳統算法無法解決的實踐問題,也是有待研究與探讨的。
七、結語
本文探讨了個性化學習資源推薦中的情境作用機制,明确了情境感知特征要素的類型和特征,梳理了直接情境和間接情境的轉換過程。在情境感知的分析理論基礎之上,提出了一個情境敏感的學習資源關聯分析與推薦參考模型,并對其中的情境要素的數據處理、特征提取和規則分析等關鍵環節進行了深入的分析,探讨了如何将情境元素融入到各類資源推薦算法中。在以後的研究中,将圍繞自适應個性化服務的用戶模型和知識模型展開更深入的研究,探析動态環境下情境推理的方法等,并對具體的算法流程作進一步的實證研究和比較分析。
[參考文獻]
白雲龍.2014.基于Hadoop的數據挖掘算法研究與實現[D].北京:北京郵電大學.
寶騰飛.2012.面向移動用戶數據的情境識别與挖掘[D].合肥:中國科學技術大學.
陳毅波.2012.基于關聯數據和用戶本體的個性化知識服務關鍵技術研究[D].武漢:武漢大學.
陳媛嫄.2012.基于活動的情境感知模型與情境感知交互設計[D].大連:大連海事大學.
何軍,劉紅岩,杜小勇.2007.挖掘多關系關聯規則[J].軟件學報(11):2752-2765.
莫同,李偉平,吳中海,褚偉傑.2010.一種情境感知服務系統框架[J].計算機學報(11):2084-2092.
錢增瑾,孫東平.2013.數據挖掘在研究生教育管理信息系統中的應用[J].學位與研究生教育(5):46-49.
童恩棟.2011.物聯網情景感知技術研究[J].計算機科學(4):9-16.
王衛軍.2015.高校圖書館情景敏感服務及其情景模型構建[J].情報理論與實踐(2):88-92.
魏欣楠,郝忠孝.2009.多關系數據庫中的關聯規則挖掘[J].自動化技術與應用(3):41-43.
吳鵬飛,餘勝泉.2015.語義網教育應用研究新進展:關聯數據視角[J].電化教育研究(7):66-72.
徐光祐,史元春,謝偉凱.2003.普适計算[J].計算機學報(9):1042-1050.
楊現民,餘勝泉,張芳.2013.學習資源動态語義關聯的設計與實現[J].中國電化教育(1):70-75.
趙宏,陳麗,趙玉婷.2015.基于學習風格的個性化學習策略指導系統設計[J].中國電化教育(5):67-72.
Premlatha,K.R.,&Geetha,T.V.2015.Learningcontentdesignandlearneradaptationforadaptivee-learningenvironment.ArtificialIn⁃telligenceReview:1-23.
Rani,M.,&Vyas,O.P.2015.Anontology-basedadaptivepersonalizede-learningsystem,assistedbysoftwareagentsoncloudstorage.Knowledge-BasedSystems,(10):33-48.
Schilit,B.,Adams,N.,&Want,R.1994.Context-awarecomputingap⁃plications.IEEEworkshoponMobileComputingSystemsandApplica⁃tions:85-90.
WangXiaohang,DongJinsong,&Chin,C.Y.2004.SemanticSpace:AnInfrastructureforSmartSpaces.IEEEPervasiveComputing,3(3):32-39.
收稿日期:2016-04-11定稿日期:2016-08-25作者簡介:吳笛,博士,博士後;李保強,博士,教授,博士生導師,武漢大學教育科學學院(430072)。
責任編輯韓世梅編校韓世梅