【摘要】教育數據挖掘是一門新興學科,通過分析學習行為記錄歸納學習者的行為特點以提高教育質量,大規模在線開放課程學習者的學習行為記錄為此提供充足素材。2012-2013學年哈佛大學和麻省理工學院在edX平台上開設了17門課程,本文選擇其中16門課程60餘萬人次學習行為記錄,歸納學習者學習行為特征,對部分典型行為特征進行數據挖掘,采用邏輯斯谛回歸方法對成績進行預測。實驗表明,通過學習者的典型學習行為分析可以有效地判别其是否可以完成學習任務并獲得證書。
【關鍵詞】慕課;學習行為;數據挖掘;成績預測;學習者特征
【中圖分類号】G420【文獻标識碼】A【文章編号】1009—458x(2016)06—0054—06
MOOCs(MassiveOpenOnlineCourses),即大規模在線開放課程(慕課),是由加拿大學者Bry⁃anAlexander和DaveCormier在2008年提出的。2012年《科學》雜志上出現了研究人員對慕課的介紹,并展望它将改變未來的教育[1]。2013年《自然》雜志詳細介紹慕課的發展、現狀和趨勢[2]。以edX、Coursera和Udacity為代表,慕課理念和實踐得到了哈佛大學、麻省理工學院等國際優秀大學的認同[3]。北京大學李曉明教授認為兩個因素:一是信息技術,主要是網絡基礎設施、Web2.0、音視頻和雲計算四個方面,使得慕課教學的良好體驗成為可能;二是以學習者為中心的教育技術思想的成熟,使得慕課得以迅速流行[4]。慕課以其獨特的共享優勢,使教育機會和教育公平變為現實,并得到廣大學習者的高度認可,近千萬用戶通過網絡學習優秀大學的優質課程,世界範圍内大規模在線教育時代已經到來。
不同于傳統的通過電視廣播、互聯網、輔導專線、函授等形式的遠程教育,也不完全等同于近期興起的教學視頻網絡共享公開課,更不同于基于網絡的學習軟件或在線應用。與傳統的授課過程相比,慕課主要呈現出以下特點:①慕課提供了豐富的課程資源,學習者可以根據自己的興趣愛好,選擇不同的授課者進行學習。②慕課課程以知識點為一個授課環節,一般時間在10-20分鐘之間。③學習者可以根據課程進度安排,随意選擇學習地點,重複學習課程内容。④慕課學習者的問題一般能得到及時回複。⑤慕課的成績評價則結合學習者在整個學習過程中的表現。此外,在慕課模式下,課堂教學、學習進程、學生者的體驗、師生互動過程、學習者互動過程等被完整、系統地在線實現。慕課的主體是學習者,慕課最大的特點在于海量的學習者和各種各樣的學習者群體。學習者的學習動機、受教育程度、學習态度、學習方法也呈現多樣性。慕課平台上學習者的相關資料(如年齡、性别、受教育程度、來自國家和地區等)和學習行為(如觀看授課視頻次數、參與教學互動次數、浏覽教學内容次數、解答問題數、學習者之間的交互學習等)都會以豐富多樣的形式記錄下來。如何充分利用數據,根據學習者的相關資料及學習行為記錄,對其學習成績進行評定是一個挑戰。
一、相關工作
教育數據挖掘是一門新興學科,關注從海量數據中挖掘出對教育者和學習者有用的信息,以提高教育管理效率和學習效率。慕課處于高速發展階段,已經有學者利用教育數據挖掘方法對慕課學習行為數據進行分析。Ho等分析了edX平台上的慕課學習者,認為:學習者已經遍布全球,歐洲學習者學習的課程數量最多,參與率最高,而東亞的少;男性學習者比例較高;慕課對于已經獲得學士學位的學習者更有吸引力;學習者的平均年齡為24歲;半數學習者從未完成課程的學習;社會科學類課程的參與率最高,而人文科學類課程的參與率最低;課程參與率最高的人群是已獲得博士學位的學習者;大多數學習者僅注冊了一門課程,注冊了多門課程的學習者的參與率更高,而注冊課程多于6門的學習者參與率則下降[5]。國内也有學者采用問卷調查等形式對MOOC課程學習過程進行研究[6]。
對慕課學習者的學習行為分析與成績預測的研究從方法上可以分為以下4類。
1.通過率預測
Jiang等人根據學習者一周的學習記錄對其最終成績進行預測[7]。Ramesh等人對學習者的線上學習行為進行了區分,作為預測最終成績的潛在特征[8],也用于預測學習者是否會參加最終測試[9]。
2.退出率預測
Balakrishnan等分析了伯克利大學開設的一門課程的退出情況,采用隐形馬爾科夫模型,主要根據學習者觀看授課視頻的時間、浏覽學習論壇帖子的數目、發帖數和學習所用的時間4個因素,判定學習者退出學習的機率[10]。Halawa、Greene和Mitchell通過學習者的學習特征判定是否對學習失去興趣,對退出率給出較準确的預測[11]。Kloft采用決策支持向量機分析學習者的點擊序列,對退出率進行判定[12]。Taylor等基于學習者的群體特征進行判定[13]。
3.幹預式預測
edX、Coursera、Udacity等平台上的慕課通過率都很低。一種解決辦法是及時識别學習困難者,并及時幹預,給予學習者一定的提醒和幫助。Williams從認知心理學的角度進行了深入的研究,通過在MOOC課程視頻中添加提問的方式提高學習者的積極性,對減少退出率的有效性進行了驗證,并分析了不同交流措施對通過率的影響[14][15][16]。He等人根據多維因素對邏輯斯谛回歸方法進行改進,通過預測,對處于邊緣的學習者進行幹預[17]。
4.關系挖掘
主要是分析哪些因素影響課程通過率或失敗率。DeBoer等研究了年齡、性别、地區等人口統計特征對課程通過率的影響[18]。Yang等研究了學習行為和在學習論壇中的地位對通過率的影響,以及學習者在論壇中的評論和學習者之間的相互作用對通過率的影響[19][20]。這些研究對慕課課程設計有很大幫助。
二、學習者特征
傳統教育活動中,學習者群體的學習動機基本相同,學習者的心智發展和知識水平大體相當。慕課環境下,學習者的學習動機和知識背景差異呈現多樣化。2012年秋季到2013年夏季,哈佛大學和麻省理工學院在edX平台上開設了17門課程。本文選定其中16門課程60餘萬條學習行為記錄進行學習者特征的統計分析,16門課程的信息(如課程代碼、課程名稱、注冊時間、開始時間、終止時間、課程天數、注冊學生數、通過考試獲得證書學生數、通過率等)如表1所示。
1.學習者類别
根據平台上的學習記錄,将學習者分為3類:注冊者(onlyregistered):注冊賬号後,未完成任何一項學習任務。
浏覽者(onlyviewed):注冊賬号後,學習内容少于課程内容的一半。
探索者(onlyexplored):注冊賬号後,學習内容超過課程内容的一半。
每類學習者所占比例、性别、教育程度、年齡以及課程開始前注冊人數、課程進行中注冊人數及課程結束後注冊人數等信息如表2所示。
2.教育背景
按照初級教育水平、中級教育水平、高級教育水平、副學士、學士、碩士、博士7個等級進行統計,學習者的平均受教育水平是學士,HealthStat課程學習者平均受教育水平是碩士,擁有博士學位的學習者占10%。通過考試并取得證書的學習者中,教育水平在學士學位以上的占54%。
3.年齡
每門課程學習者的平均年齡均小于30歲,通過考核獲得證書的學習者平均年齡略高。可能是課程主題的關系,哈佛大學慕課學習者的年齡和受教育程度均高于麻省理工學院。每門課程的學習者年齡分布和完成學習獲得證書的學習者年齡分布如圖1所示。
4.性别
圖2表示女性學習者各門課程中所占的比例以及完成學習獲得證書的比例。科學類、工程類、技術類、數學類課程女性學習者的比例比人文和社會科學類的課程低,完成學習獲得證書的比例更低。
三、典型學習行為選取
除了受學習者年齡、性别、教育背景等因素影響外,學習動機和投入程度也很大程度上影響着學習效果。為了準确地描述學習者行為,本文選取了學習時間、學習事件次數、抽樣統計學習次數、觀看視頻次數、學習章節數以及在學習論壇上發帖數等作為學習行為分析的客觀依據,以此為基礎進行成績預測。
時間:在開課前幾周就有注冊課程的記錄,一半以上的學習者在課程開始前完成注冊。約有8%的學習者在課程結束後注冊課程。文中的學習時間用學習者最後學習記錄日期減去注冊時間。
學習事件次數:通過分析系統日志,得到學習者與課程交互活動的次數。
抽樣統計學習次數:系統在特定的時間對學習行為進行的抽樣統計。
觀看視頻次數:學習期間觀看視頻的次數。學習章節數:從課程開始到課程結束,學習者學習的内容章節數。
發帖數:學習者關于課程内容在學習論壇上發起的話題,包括回複别人提出的問題等。
圖1學習者平均年齡與獲得證書者平均年齡關系圖
圖2注冊者與證書獲得者中女性比例圖四、邏輯斯谛回歸算法框架
邏輯斯谛回歸算法主要包括對學習記錄數據的歸一化處理、構造預測函數、構造損失函數、采用優化算法求解等過程(如圖3所示)。
圖3邏輯斯谛回歸算法
五、實驗結果與分析
1.實驗數據集
本文用到的數據集包括641,138個注冊學習者在學習16門課程期間的相關學習記錄,删除了特征記錄不完整的數據,有效記錄338,888條,按課程以80%和20%比例拆分,得到訓練集和測試集。
2.評價指标
為了衡量算法的效果,文中采用了準确率、精确率、召回率和調和值作為評價指标。
TP:記錄值為1,預測值為1的記錄數;
FN:記錄值為1,預測值為0的記錄數;
FP:記錄值為0,預測值為1的記錄數;
TN:記錄值為0,預測值為0的記錄數;
準确率=(TP+TN)/(TP+FN+FP+TN);
精确率=TP/(TP+FP);
召回率=TP/(TP+FN);
調和值=2TP/(2TP+FP+FN);疊代次數達到40次時,準确率、精确率、召回率、調和值均達到最佳值(如圖4所示)。
圖4疊代次數與準确率、精确率、召回率、調和值關系圖3.學習效果
預測對16門課程進行了實驗分析,結果如表3所示。實驗結果表明,應用邏輯斯谛回歸方法,根據學習者的學習記錄,能比較準确地預測後期學習效果,充分說明了本文提出的算法的合理性和有效性。
4.其他數據分析
實驗結果表明,選取的學習者行為特征可以在課程進行中有效地區分學習者,在全部課程上均有較好的實驗效果。從數據中發現的現象和主要結論如下:
(1)可以根據學習記錄較準确地預測學習效果雖然學習者的學習動機、學習目的以及想要達成的目标等主觀情感無法計算,但可根據學習者的年齡、教育背景、學習行為的過程化記錄數據(觀看視頻數、學習章節數、抽樣學習行為記錄數、學習論壇發帖數、學習課程用時數等)等客觀數據預測學習者的最終學習效果。實驗證明,采用邏輯斯谛回歸方法進行預測效果較好。
(2)學習者教育背景對學習效果影響不大實驗中完成學習環節、獲得證書的學習者中初等及以下的受教育者占3%,獲得博士學位的占3%,中等教育占28%,本科占35%,碩士占31%。初中等教育的學習者與本科和碩士學習效果區分不顯著。
(3)性别因素對學習效果影響不大實驗表明,性别與學習效果間沒有顯著關系。
六、結論
本文對edX平台上開設的16門課程60餘萬條學習行為記錄進行了分析,選取了學習時間、學習事件次數、抽樣統計學習次數、觀看視頻次數、學習章節數、發帖數等作為學習行為關鍵記錄,對學習者是否可以完成學習任務并獲得證書進行了預測。實驗證明,可以通過分析學習行為關鍵記錄預測學習效果。
學習效果是學習行為的最終體現,受動機、目的、情感等多方面的影響。edX平台上的學習行為主要是學習者的一些客觀行為表現。雖然采用邏輯斯谛回歸方法可以準确判定學習效果,但是學習過程中的主觀因素未得到體現。如何體現主觀因素,并應用于學習效果預測,是一個有趣且複雜的課題,對充分理解學習者的學習行為、提高學習效率、科學地設置課程内容、幹預學習進程等都有很大的幫助。
[參考文獻]
[1]SteinLA.Castingawidernet[J].Science,2012,338(6113):1422-1423.
[2]WaldropMM.Onlinelearning:Campus2.0[J].Nature,2013,495(7440):160-163.
[3]蔣卓軒,張岩,李曉明.基于MOOC數據的學習行為分析與預測[J].計算機研究與發展,2015,52(3):614-628
[4]李曉明.慕課:是櫥窗?還是店堂?[J].中國計算機學會通訊,2013,9(12):24-28.
[5]Ho,A.D.,Reich,J.,Nesterko,S.,SeatonD.T.,Mullaney,T.,Waldo,J.,&Chuang,I.[2014].HavardXandMITX:Thefirstyearofopenonlinecourses.(HarvardXandMITxWorkingPaperNo.1).http://dx.doi.org/10.2139/ssrn.2381263
[6]範逸洲,王宇,馮菲,汪瓊,李曉明.MOOCS課程學習與評價調查[J].中國遠程教育,2014,20(3):27-35.
[7]S.Jiang,A.E.Williams,K.Schenke,M.Warschauer,D.O’Dowd.PredictingMOOCperformancewithweek1behavior[C].InProceed⁃ingsofthe7thInternationalConferenceonEducationalDataMining.2014.
[8]RameshA,GoldwasserD,HuangB,etal.Modelinglearnerengage⁃mentinMOOCsusingprobabilisticsoftlogic[C].NIPSworkshopondatadriveeducation,2013.
[9]Ramesh,A.Goldwasser,D.Huang,B.DaumeIII,H.andGetoor,L.Learninglatentengagementpatternsofstudentsinonlinecourses.[C]InProceedingsoftheTwentyEighthAAAIConferenceonArtifi⁃cialIntelligence.AAAIPress.2014.
[10]BalakrishnanG.Predictingstudentretentioninmassiveopenon⁃linecoursesusinghiddenmarkovmodels,UCB/EECS2013-109.Berkeley:UniversityofCalifornia,Berkeley.2013.http://www.eecs.berkeley.edu/Pubs/TechRpts/2013/EECS-2013-109.pdf
[11]Halawa,S.,Greene,D.,andMitchell,J.DropoutpredictioninMOOCsusinglearneractivityfeatures[C].InProceedingsoftheEuro⁃peanMOOCSummit.2014.
[12]Kloft,M.Stiehler,F.Zheng,Z.andPinkwart,N.PredictingMOOCdropoutoverweeksusingmachinelearningmethods[C].InProceed⁃ingsoftheEMNLPWorkshoponModelingLargeScaleSocialInter⁃actioninMassivelyOpenOnlineCourses.2014.
[13]Taylor,C.Veeramachaneni,K.andO’Reilly,U.-M.2014.Likelytostop?predictingspoutinmassiveopenonlinecourses[J].EprintarXiv.2014.
[14]WillamsJJ,WilliamsB.Usinginterventionstoimproveonlinelearning[C].NIPSworkshopondatadriveneducation,2013.
[15]WillamsJJ,ImprovingLearninginMOOCsbyApplyingCognitiveScience[C]PaperpresentedattheMOOCshopWorkshop,Internation⁃alConferenceonArtificialIntelligenceinEducation,Memphis,TN.
[16]Williams,J.J.,Paunesku,D.,Haley,B.,&Sohl-Dickstein,J..Mea⁃surablyIncreasingMotivationinMOOCs[C].TalkpresentedattheMOOCshopWorkshop,InternationalConferenceonArtificialIntelli⁃genceinEducation,Memphis,TN.2013.
[17]He.J.,BaileyJ.,RubinsteinZhangR.,Identifyingatriskstudentsinmassiveopenonlinecourses[C]Twenty-NinthAAAIConferenceonArtificialIntelligence.2015.
[18]DeBoer,J.Stump,G.Seaton,D.andBreslow,L.DiversityinMOOCstudents’backgroundsandbehaviorsinrelationshiptoperformancein6.002x[C].InProceedingsoftheSixthLearningInternationalNet⁃worksConsortiumConference.2013.
[19]Yang,D.,Wen,M.,andRose,C.Peerinfluenceonattritioninmas⁃siveopenonlinecourses[C].ProceedingsofEducationalDataMin⁃ing.2014.
[20]Wen,M.;Yang,D.;andRose,C.P.Sentimentanalysis'inMOOCdiscussionforums:Whatdoesittellus?[C].ProceedingsofEduca⁃tionalDataMining.2014.
收稿日期:2015-11-23
定稿日期:2016-01-31
作者簡介:賀超凱,南京郵電大學計算機學院(210003)。
吳蒙,南京郵電大學通信與信息工程學院(210003)。