仲兆滿, 施 珺, 管 燕
(江蘇海洋大學(xué)計算機工程學(xué)院,江蘇連云港222005)
在Web 2.0 時代,互聯(lián)網(wǎng)上積累了海量的教育大數(shù)據(jù),有的來源于企業(yè)、高校構(gòu)建的權(quán)威教育資源平臺,有的是教師、學(xué)生、專家等各類網(wǎng)民在互聯(lián)網(wǎng)上生成的數(shù)據(jù),包括博客、貼吧、論壇、微信等社交媒體。學(xué)習(xí)者面對的學(xué)習(xí)資源已經(jīng)從權(quán)威的“中心化”數(shù)據(jù),向大量個體生成的“碎片化”數(shù)據(jù)拓展。
面對互聯(lián)網(wǎng)上豐富的學(xué)習(xí)資源,學(xué)習(xí)者如何快速、精準的獲取自己感興趣的知識是教學(xué)改革迫切需要解決的問題。教育推薦服務(wù)的目的在于根據(jù)學(xué)習(xí)者的愛好,使用推薦算法從海量的學(xué)習(xí)資源中為用戶推薦精準的學(xué)習(xí)資源,是解決“信息過載”的有效途徑。
從2000 年開始,國際上就有學(xué)者將推薦系統(tǒng)引入到教育改革領(lǐng)域。目前,國內(nèi)外的諸多學(xué)者圍繞推薦服務(wù)的系統(tǒng)框架、教育資源的建設(shè)、學(xué)習(xí)者模型的構(gòu)建、推薦算法應(yīng)用等領(lǐng)域進行了廣泛的研究探索。國內(nèi)的諸多研究成果發(fā)表在《中國電化教育》《電化教育研究》《中國遠程教育》《現(xiàn)代教育技術(shù)》《遠程教育雜志》等核心期刊。與此同時,一些教育機構(gòu)、IT 企業(yè)、數(shù)據(jù)公司開始運用大數(shù)據(jù)、人工智能、云計算、區(qū)塊鏈、物聯(lián)網(wǎng)等新一代信息技術(shù),研究與開發(fā)互聯(lián)網(wǎng)教育大數(shù)據(jù)背景下的教學(xué)資源推薦系統(tǒng),包括科大訊飛、網(wǎng)易、百度等大型IT企業(yè)。
本文研究的主要內(nèi)容為:①結(jié)合學(xué)習(xí)資源推薦,定義了多異構(gòu)信息網(wǎng)絡(luò)融合的相關(guān)概念并進行了形式化描述;②針對學(xué)習(xí)資源產(chǎn)生于各種互聯(lián)網(wǎng)媒體的現(xiàn)狀,研究了面向多異構(gòu)信息網(wǎng)絡(luò)融合的在線學(xué)習(xí)資源推薦;③對多異構(gòu)信息網(wǎng)絡(luò)的學(xué)習(xí)資源推薦的共性關(guān)鍵模塊進行了研究和實踐,包括學(xué)習(xí)者學(xué)習(xí)興趣建模、基于學(xué)習(xí)興趣相似度的學(xué)習(xí)資源推薦以及基于學(xué)習(xí)者相似度的學(xué)習(xí)資源推薦等。
推薦服務(wù)系統(tǒng)是在分析用戶歷史行為的基礎(chǔ)上,構(gòu)建信息與用戶的表示與相似性度量模型,為用戶推薦興趣匹配的信息。亞馬遜、豆瓣、當當網(wǎng)、MovieLens、Tapestry、Netflix 等都已成功運用推薦服務(wù)系統(tǒng)為用戶提供智能化服務(wù)。
對學(xué)習(xí)資源推薦而言,就是要構(gòu)建學(xué)習(xí)者與學(xué)習(xí)資源的表示與相似性度量模型,為學(xué)習(xí)者推薦興趣匹配的學(xué)習(xí)資源。Salehi等[1]提出了基于多維度屬性的學(xué)習(xí)素材推薦系統(tǒng),將各種推薦算法進行了結(jié)合。而后,他們通過對學(xué)習(xí)資源的建模評分,進一步提升了推薦的精準性[2]。Aher等[3]根據(jù)用戶的選課歷史記錄,將集群和關(guān)聯(lián)規(guī)則等機器學(xué)習(xí)算法應(yīng)用到課程推薦。王劍等[4]提出的e-Learning 協(xié)作學(xué)習(xí)推薦包含課程推薦、協(xié)作學(xué)習(xí)和過程評估及反饋3 個部分。劉靜等[5]根據(jù)學(xué)習(xí)者的基本信息、行為信息和需求信息構(gòu)建學(xué)習(xí)者模型,基于資源庫的基本特征、標簽信息和價值信息構(gòu)建資源模型,在決策系統(tǒng)的支持下為學(xué)習(xí)者提供個性化服務(wù),進而構(gòu)建了教育資源個性化推薦的服務(wù)框架。李寶等[6]提出了包含數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理和展現(xiàn)的個性化學(xué)習(xí)資源推送框架,將資源最鄰近、相似用戶矩陣、特征匹配、學(xué)習(xí)者反饋以及混合推薦技術(shù)應(yīng)用于推薦。丁繼紅等[7]研究了大數(shù)據(jù)環(huán)境下基于多維關(guān)聯(lián)分析和張量算法的學(xué)習(xí)資源精準推薦。馬秀麟等[8]研究了面向?qū)W校教育的個性化資源推薦的關(guān)鍵要素,提出了一種個性化智能推薦模型,確定了影響資源推薦的核心要素和關(guān)鍵因子。
隨著信息技術(shù)的發(fā)展,“互聯(lián)網(wǎng)+開放教育資源”的模式得以推廣,極大地拓展了學(xué)習(xí)者的時空邊界。2001 年,麻省理工學(xué)院的OCW(Open Course Ware)項目率先將其自身課程資源在互聯(lián)網(wǎng)上免費向全世界開放。隨后,國際上出現(xiàn)了以在線視頻課程資源為主的平臺(Coursera 和Khan Academy),全媒體資源共享平臺(Openstax 和OpenLearnCreate),教育書籍開放資源平臺(WikiBooks)以及資源共享與教學(xué)活動度融合的學(xué)習(xí)平臺(OpenLearn)等。這些平臺大多支持用戶評分、課程熱度計算,個別平臺支持課程資源的推薦,比如Khan Academy。
從2003 年起,我國加快了開放教育資源的建設(shè)。2010 年,《國家中長期教育改革和發(fā)展規(guī)劃綱要》中提出“建設(shè)覆蓋各級各類教育的教學(xué)資源庫和服務(wù)平臺”。2015 年,教育部提出建設(shè)“能學(xué)、輔教”的教學(xué)系統(tǒng),實現(xiàn)對資源庫應(yīng)用推廣。國內(nèi)也建成了有影響力的在線開放教育資源平臺,包括中國大學(xué)MOOC、網(wǎng)易公開課、華文MOOC、學(xué)堂在線、ShareCourse 和精品課等。
一些學(xué)者圍繞互聯(lián)網(wǎng)教育資源的建設(shè)取得了一些研究成果。郭光友等[9]圍繞教學(xué)資源的表征,提出了教學(xué)資源的主要屬性包括編號、名稱、說明簡介、關(guān)鍵詞、學(xué)科歸屬、通用對象、編著者、創(chuàng)建時間、媒體格式、文件大小等。丁繼紅[10]提出了基于教育元數(shù)據(jù)、社會標注和社會網(wǎng)絡(luò)分析的教育資源聚合模型,基于社會標注的教育資源表示為:
式中:S 為學(xué)習(xí)者集;T 為標簽集;R 為教學(xué)資源集;Y為S、T和R之間的關(guān)系集。
陳路萍[11]調(diào)研了遠程教育學(xué)習(xí)資源的建設(shè)現(xiàn)狀并提出了建設(shè)策略。劉豐源等[12]借鑒區(qū)塊鏈的共識驗證安全技術(shù),設(shè)計了包含資源存儲、資源評估和互連的教育資源共享框架。熊明巧等[13]面向社區(qū)教育資源,提出了構(gòu)建社區(qū)教育資源的約束、協(xié)調(diào)及運行機制。孫卓[14]研究了遠程學(xué)習(xí)資源的建設(shè)策略,包括學(xué)習(xí)資源的真實性、針對性、建設(shè)體系、評價反饋機制等要素。何文濤[15]借鑒眾籌的思想研究了教育資源的整合問題,精英教師、大眾教師、學(xué)生在整個知識圖譜中承擔了不同的眾籌角色。趙磊等[16]認為MOOC 是“互聯(lián)網(wǎng)+教育”的有效模式,可以促進教育公平。張俊飛等[17]利用分布式處理技術(shù),設(shè)計了針對大文件教學(xué)資源的分布式文件系統(tǒng)(HDFS)存儲方案和小文件教學(xué)資源的DFS存儲方案。
推薦對象作為推薦服務(wù)的核心要素,具有復(fù)雜的表征形式,既有靜態(tài)的背景屬性,又有動態(tài)的生成內(nèi)容。構(gòu)建推薦對象模型,以期給出精準的用戶畫像,是實現(xiàn)智能化推薦的基礎(chǔ)。
對學(xué)習(xí)資源推薦而言,需要為每一個學(xué)習(xí)者構(gòu)建興趣模型,進而為學(xué)習(xí)者與學(xué)習(xí)資源的精準匹配提供支撐。丁旭[18]設(shè)計了以學(xué)習(xí)者為中心的學(xué)習(xí)行為分析模型,主要分析學(xué)習(xí)者的需要、興趣和行為習(xí)慣。孫歆等[19]建立了用戶的學(xué)習(xí)行為模型,關(guān)注的是用戶的主觀評價數(shù)據(jù)收集與分析。Xu等[20]對傳統(tǒng)向量空間方法進行了改進,使用遞歸算法挖掘?qū)W習(xí)者的興趣。白雪等[21]在研究教育資源管理與推薦模型時,使用了用戶對教育資源的標記、收藏、使用資源的行為等數(shù)據(jù)。牟智佳等[22]提出了使用個人、學(xué)業(yè)、關(guān)系、偏好、績效等信息構(gòu)建學(xué)習(xí)者模型。馬志強等[23]將學(xué)習(xí)者模型分為知識模型、認知模型、情感模型、行為模型等類別。黃昌勤等[24]使用了動態(tài)可視化方法揭示學(xué)習(xí)者的行為關(guān)聯(lián)。
(1)異構(gòu)信息網(wǎng)絡(luò)。表示為一個三元組:
式中:V為實體類型的集合;E為關(guān)系類型的集合;L為描述語言的集合。對異構(gòu)網(wǎng)絡(luò)而言,>1 或者>1。
比如,新浪微博包含用戶和博文兩種實體類型,用戶之間可以建立關(guān)注關(guān)系,博文之間可以建立評論關(guān)系,以中文描述信息為主,是一種典型的異構(gòu)信息網(wǎng)絡(luò)。
(2)多異構(gòu)信息網(wǎng)絡(luò)學(xué)習(xí)者融合。異構(gòu)信息網(wǎng)絡(luò)HINi,HINj通過學(xué)習(xí)者的對齊進行融合,LA ={u1Align u2)|l1∈HINi,l2∈HINj,i≠j},l1,l2是同一學(xué)習(xí)者在不同信息網(wǎng)絡(luò)的賬號。
(3)多異構(gòu)信息網(wǎng)絡(luò)學(xué)習(xí)資源融合。異構(gòu)信息網(wǎng)絡(luò)HINi,HINj通過學(xué)習(xí)資源的對齊進行融合,CI ={c1Align c2)|c1∈HINi,c2∈HINj,i≠j},c1,c2是相同學(xué)習(xí)資源在不同信息網(wǎng)絡(luò)的描述。
學(xué)習(xí)資源在不同異構(gòu)信息網(wǎng)絡(luò)的呈現(xiàn)一種是顯示模式,即同一學(xué)習(xí)資源在不同信息網(wǎng)絡(luò)上的復(fù)制;另一種是隱式模式,即采用不同的表達方式對相同的學(xué)習(xí)內(nèi)容進行描述,各個描述內(nèi)容獨立,但又關(guān)聯(lián)到了同一學(xué)習(xí)資源。
學(xué)習(xí)資源推薦服務(wù)通過構(gòu)建用戶興趣模型、挖掘?qū)W習(xí)資源主題、度量學(xué)習(xí)資源與學(xué)習(xí)者的興趣相似度、度量學(xué)習(xí)者之間的相似度,為學(xué)習(xí)者推薦精準的學(xué)習(xí)資源,從而促進學(xué)習(xí)資源的有效傳播。本文提出的學(xué)習(xí)資源推薦系統(tǒng)總體設(shè)計如圖1 所示。
圖1 學(xué)習(xí)資源推薦系統(tǒng)總體設(shè)計
圖1 所示所設(shè)計的學(xué)習(xí)資源推薦系統(tǒng)核心部件包括:①梳理、采集、構(gòu)建多異構(gòu)信息網(wǎng)絡(luò)學(xué)習(xí)資源庫,為學(xué)習(xí)者提供學(xué)習(xí)資源;②學(xué)習(xí)者學(xué)習(xí)興趣建模,包括基于學(xué)習(xí)興趣標簽的學(xué)習(xí)者靜態(tài)學(xué)習(xí)興趣,以及基于閱讀、收藏歷史學(xué)習(xí)資源挖掘的學(xué)習(xí)者動態(tài)興趣;③基于學(xué)習(xí)興趣相似度的學(xué)習(xí)資源推薦,從學(xué)習(xí)資源中挖掘主題,計算學(xué)習(xí)資源與學(xué)習(xí)者學(xué)習(xí)興趣的相似度,相似度達到一定閾值就進行推薦;④基于學(xué)習(xí)者相似度的學(xué)習(xí)資源推薦,有些學(xué)習(xí)者缺少學(xué)習(xí)興趣標簽而且學(xué)習(xí)內(nèi)容很少,難以有效挖掘?qū)W習(xí)者的學(xué)習(xí)興趣,可以將相似學(xué)習(xí)者閱讀、收藏的學(xué)習(xí)資源在相似用戶間推薦。
2.3.1 學(xué)習(xí)者學(xué)習(xí)興趣建模
(1)學(xué)習(xí)者靜態(tài)學(xué)習(xí)興趣。指從學(xué)習(xí)者的興趣標簽中挖掘出的學(xué)習(xí)興趣點,記為:
每個學(xué)習(xí)興趣點為:
式中:kwi為興趣詞;wi為學(xué)習(xí)者的興趣詞權(quán)重。
(2)學(xué)習(xí)者動態(tài)學(xué)習(xí)興趣。指從學(xué)習(xí)者的學(xué)習(xí)內(nèi)容中挖掘出的隨時間變化的學(xué)習(xí)興趣點,記為:
其中,topici是由多個關(guān)鍵詞組成的興趣點,wi為學(xué)習(xí)者的話題權(quán)重,T ={t1,t2,…,ts}為學(xué)習(xí)者對興趣話題topici的時間分布。
學(xué)習(xí)者的學(xué)習(xí)興趣分為兩種情況:①長期學(xué)習(xí)興趣,由學(xué)習(xí)興趣標簽反映,比如學(xué)習(xí)者的學(xué)習(xí)興趣標簽為“編程、Java 語言、面向?qū)ο蟆?;②短期學(xué)習(xí)興趣,由瀏覽、收藏的學(xué)習(xí)資源反映,比如學(xué)習(xí)者臨時對“區(qū)塊鏈”“中美貿(mào)易戰(zhàn)”等話題感興趣。
學(xué)習(xí)者學(xué)習(xí)興趣標簽,可以讓學(xué)習(xí)者手工勾選或者由學(xué)習(xí)者自由填寫若干關(guān)鍵詞,將用戶的學(xué)習(xí)興趣標簽記為:
用戶動態(tài)學(xué)習(xí)興趣模型的更新是實現(xiàn)個性化學(xué)習(xí)資源推薦的關(guān)鍵。由于學(xué)習(xí)者的學(xué)習(xí)興趣在不斷變化,需要根據(jù)學(xué)習(xí)者所累積的學(xué)習(xí)資源不斷調(diào)整,以達到準確描述學(xué)習(xí)者真實學(xué)習(xí)興趣的目的。學(xué)習(xí)者動態(tài)學(xué)習(xí)興趣更新模型如圖2 所示。
圖2 學(xué)習(xí)者動態(tài)學(xué)習(xí)興趣更新模型
2.3.2 基于學(xué)習(xí)興趣相似度的資源推薦模型
基于學(xué)習(xí)興趣相似度的學(xué)習(xí)資源推薦模型如圖3所示。
圖3 所示模型中,首先,從學(xué)習(xí)資源中挖掘主題并進行向量化表示,比如采用向量空間模型(VSM),某一學(xué)習(xí)資源表示為:
式中:kw為學(xué)習(xí)資源的主題;w 為主題的權(quán)重。然后,分別計算學(xué)習(xí)資源與學(xué)習(xí)者靜態(tài)學(xué)習(xí)興趣的相似度、學(xué)習(xí)資源與學(xué)習(xí)者動態(tài)興趣的相似度。最后,加權(quán)靜態(tài)學(xué)習(xí)興趣和動態(tài)學(xué)習(xí)興趣得到學(xué)習(xí)資源與學(xué)習(xí)者的相似度,滿足一定的閾值后,決定是否將該學(xué)習(xí)資源推薦給學(xué)習(xí)者。對于多個學(xué)習(xí)資源,按照相似度從大到小排序,選取top-k個學(xué)習(xí)資源推薦給用戶。
圖3 基于學(xué)習(xí)興趣相似度的學(xué)習(xí)資源推薦模型
用戶閱讀、收藏的學(xué)習(xí)資源可以通過分詞構(gòu)建詞匯庫。詞匯庫中的每個詞相互獨立,可以使用word2vec方法將學(xué)習(xí)資源向量化表示。word2vec有兩種模型Skip-gram和CBOW,CBOW模型通過一個詞的上下文詞匯來推測目標詞匯,Skip-gram模型通過目標詞匯推測上下文詞匯。對CBOW模型而言,已知詞匯w與其上下文詞匯context(w),目標函數(shù)為:
對Skip-gram 模型而言,已知詞匯w 與其上下文詞匯context(w),目標函數(shù)為:
2.3.3 基于學(xué)習(xí)者相似度的資源推薦模型
基于學(xué)習(xí)者相似度的學(xué)習(xí)資源推薦模型如圖4 所示。學(xué)習(xí)資源推薦模型通過計算學(xué)習(xí)者之間的相似度達到學(xué)習(xí)資源推薦的目的,可以有效避免單純依靠學(xué)習(xí)資源與學(xué)習(xí)者學(xué)習(xí)興趣相似度推薦方法的缺陷。該推薦模型核心的問題是學(xué)習(xí)者之間相似度的度量。
圖4 基于學(xué)習(xí)者相似度的學(xué)習(xí)資源推薦模型
學(xué)習(xí)者相似度計算模型如圖5 所示。
圖5 學(xué)習(xí)者相似度計算模型
學(xué)習(xí)者間的社交關(guān)系指學(xué)習(xí)者關(guān)注的社交圈子情況,相似度計算可以使用Jaccard方式:
學(xué)習(xí)者間的靜態(tài)學(xué)習(xí)興趣相似度計算可以使用Jaccard方式:
學(xué)習(xí)者間的動態(tài)學(xué)習(xí)興趣相似度計算可以使用余弦相似度的方式:
筆者所在的智慧教育團隊多年來一直從事教育資源庫建設(shè)、課程改革、教學(xué)平臺、學(xué)習(xí)推薦等領(lǐng)域的研究。在上述多異構(gòu)信息網(wǎng)絡(luò)融合的學(xué)習(xí)資源推薦模型的指導(dǎo)下,選取了中國大學(xué)MOOC、博客、論壇、貼吧等異構(gòu)信息網(wǎng)絡(luò)作為學(xué)習(xí)資源的采集目標,使用搜索采集的網(wǎng)絡(luò)爬蟲策略采集了幾個平臺的部分學(xué)習(xí)資源。根據(jù)學(xué)習(xí)者融合、學(xué)習(xí)者學(xué)習(xí)興趣建模、學(xué)習(xí)資源主題挖掘向量化表示、學(xué)習(xí)興趣相似度計算、學(xué)習(xí)者相似度計算等模型和方法,開發(fā)了多異構(gòu)信息網(wǎng)絡(luò)融合的學(xué)習(xí)資源推薦原型平臺-“江蘇海洋大學(xué)學(xué)習(xí)資源推薦系統(tǒng)”,探索了面向多異構(gòu)信息網(wǎng)絡(luò)融合的教學(xué)改革,為學(xué)生精準獲取在線學(xué)習(xí)資源提供支持。圖6 所示為系統(tǒng)的登錄頁面。
學(xué)習(xí)者的靜態(tài)學(xué)習(xí)興趣主要通過學(xué)習(xí)者的興趣標簽反映。學(xué)習(xí)者在定制學(xué)習(xí)興趣標簽時,系統(tǒng)既支持學(xué)習(xí)者從系統(tǒng)標簽庫中選取,也支持學(xué)習(xí)者自由輸入,輸入多個興趣點時,興趣點之間用分號隔開。圖7 所示為學(xué)習(xí)者興趣標簽定制頁面。
圖6 系統(tǒng)登錄頁
圖7 學(xué)習(xí)者學(xué)習(xí)興趣定制頁
從各類信息網(wǎng)絡(luò)采集獲取學(xué)習(xí)資源后,基于學(xué)習(xí)興趣相似度的學(xué)習(xí)資源推薦模型和基于學(xué)習(xí)者相似度的學(xué)習(xí)資源推薦模型,向?qū)W習(xí)者自動推薦的學(xué)習(xí)資源如圖8 所示。
教學(xué)改革已經(jīng)從課堂授課向課外獲取拓展知識。在人人都是自媒體的時代,互聯(lián)網(wǎng)上包含了大量學(xué)習(xí)資源,已經(jīng)不再局限于特定的教學(xué)平臺,而是分散于各類信息網(wǎng)絡(luò)中,包括微博、博客、貼吧、論壇、微信等社交媒體。如何改革已有的教學(xué)模式,為學(xué)生提供精準的學(xué)習(xí)資源,是智慧教育研究的一部分。對學(xué)習(xí)者而言,推薦系統(tǒng)可以有效解決學(xué)習(xí)者海量信息背景下的“信息過載”問題,節(jié)省他們獲取信息的時間和精力。面向?qū)W習(xí)者的學(xué)習(xí)資源推薦應(yīng)注重各類媒體信息的深度融合,已經(jīng)引起了研究者的廣泛關(guān)注。本文研究并實踐了多異構(gòu)信息網(wǎng)絡(luò)融合的學(xué)習(xí)資源推薦,從相關(guān)概念、系統(tǒng)總體設(shè)計、核心模塊設(shè)計等各個方面進行了詳細的描述,相關(guān)教改成果可為學(xué)生精準獲取在線學(xué)習(xí)資源提供支持。
圖8 學(xué)習(xí)資源推薦頁