邵禮旭,段玉聰+,周長(zhǎng)兵,高洪皓,陳世展
1.海南大學(xué) 信息科學(xué)技術(shù)學(xué)院,南海資源利用海洋國家重點(diǎn)實(shí)驗(yàn)室,海口 570228
2.中國地質(zhì)大學(xué) 信息工程學(xué)院,北京 100083
3.上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444
4.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300072
互聯(lián)網(wǎng)信息的指數(shù)增長(zhǎng)造成的信息過載和信息迷航等問題制約了用戶對(duì)資源的高效使用,隨著知識(shí)經(jīng)濟(jì)的發(fā)展,當(dāng)今社會(huì)對(duì)人們的知識(shí)掌握程度提出了更高的要求。知識(shí)圖譜已經(jīng)成為用標(biāo)記的有向圖形式表示知識(shí)的強(qiáng)大工具,并能賦予文本信息語義。知識(shí)圖譜是通過結(jié)點(diǎn)的形式將項(xiàng)目、實(shí)體或用戶表示出來,通過邊的形式將彼此相互作用的結(jié)點(diǎn)鏈接起來構(gòu)造的圖形,結(jié)點(diǎn)之間的邊可以表示任何語義關(guān)系。知識(shí)庫包含一組概念,實(shí)例和關(guān)系[1]。劉嶠等[2]將知識(shí)圖譜的構(gòu)建按照知識(shí)獲取的過程分為信息抽取、知識(shí)融合和知識(shí)加工三個(gè)層次,定義知識(shí)圖譜是一個(gè)具有屬性的實(shí)體通過關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫,其研究?jī)r(jià)值在于能以最小的代價(jià)將互聯(lián)網(wǎng)中積累的信息組織成可被利用的知識(shí),從而通過推理實(shí)現(xiàn)概念檢索和圖形化知識(shí)展示。
Cowie等[3]將信息抽取劃分為實(shí)體、關(guān)系和屬性三個(gè)層次,基于對(duì)現(xiàn)有知識(shí)圖譜概念的拓展,可將知識(shí)圖譜劃分為數(shù)據(jù)圖譜、信息圖譜、知識(shí)圖譜和智慧圖譜[4],并可應(yīng)用于回答與5W相關(guān)的問題[5]。Malin等[6]提出利用隨機(jī)漫步模型對(duì)演員合作網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)體消歧,并取得了比基于文本相似度模型更好的消歧效果。Wu等[7]選擇維基百科作為數(shù)據(jù)源,通過自動(dòng)抽取生成訓(xùn)練語料,用于訓(xùn)練實(shí)體屬性標(biāo)注模型,然后將其應(yīng)用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的實(shí)體屬性抽取。對(duì)于關(guān)系抽取,出現(xiàn)了大量基于特征向量或核函數(shù)[8]的監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法[9]和弱監(jiān)督學(xué)習(xí)方法[10]。Etzioni等[11]提出了面向開放域的信息抽取方法框架,并發(fā)布了基于自監(jiān)督學(xué)習(xí)方式的開放信息抽取原型系統(tǒng)。郭劍毅等[12]采用支持向量機(jī)算法實(shí)現(xiàn)了人物屬性抽取與關(guān)系預(yù)測(cè)模型。Zins[13]闡述了定義數(shù)據(jù)、信息和知識(shí)等概念。數(shù)據(jù)是通過觀察數(shù)字或其他基本個(gè)體項(xiàng)目得到的。信息通過數(shù)據(jù)和數(shù)據(jù)組合的背景傳達(dá),適用于分析和解釋。知識(shí)是從積累的信息中獲得的一般理解和經(jīng)驗(yàn),根據(jù)知識(shí)能推測(cè)出新的背景。
現(xiàn)有的個(gè)性化信息服務(wù)系統(tǒng)方面的研究并沒有考慮到上下文的信息,比如時(shí)間和地理位置等。從對(duì)現(xiàn)有知識(shí)圖譜概念的拓展的角度出發(fā),本文提出了一種基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜三層的可自動(dòng)抽象調(diào)整的解決架構(gòu),通過對(duì)海量資源進(jìn)行建模,快速、準(zhǔn)確地在資源處理架構(gòu)中找到用戶所需要的信息,并且以更加人性化的方式為用戶提供服務(wù)。本文對(duì)資源形態(tài)和三層圖譜的定義如下:
定義1(資源元素)資源元素包括數(shù)據(jù)資源、信息資源和知識(shí)資源三種形態(tài)。ElementsDIK:= < DataDIK,InformationDIK,KnowledgeDIK>
定義2(圖譜)本文對(duì)已有知識(shí)圖譜(Knowledge Graph)的概念進(jìn)行拓展,將圖譜的表達(dá)分為數(shù)據(jù)圖譜(DataGraphDIK,DGDIK)、信息圖譜(InformationGraphDIK,IGDIK)和知識(shí)圖譜(KnowledgeGraphDIK,KGDIK)三層。
GraphDIK:= <(DGDIK),(IGDIK),(KGDIK)>
本文對(duì)資源在DataDIK、InformationDIK和KnowledgeDIK三個(gè)層面上建模,借助從DGDIK上以實(shí)體綜合頻度計(jì)算為核心的分析到IGDIK和KGDIK上的自適應(yīng)的自動(dòng)抽象的資源優(yōu)化過程(DIK方法)支持兼容經(jīng)驗(yàn)知識(shí)引入和高效自動(dòng)語義分析,表1給出了資源類型的漸進(jìn)形式,借助對(duì)應(yīng)5W(who/when/where,what and how)問題[14]的分類接口銜接用戶的學(xué)習(xí)需求、學(xué)習(xí)過程和學(xué)習(xí)目標(biāo)等的資源化描述,每一個(gè)“W”都可以廣泛用于探索和評(píng)估各種知識(shí)理論和系統(tǒng),為用戶提供個(gè)性化學(xué)習(xí)服務(wù)推薦。圖1給出了面向5W的基于DGDIK、IGDIK和KGDIK三層架構(gòu)的資源處理框架示意。
Table 1 Explanation of resource types表1 資源類型的解釋
DataDIK、InformationDIK、KnowledgeDIK和智慧是漸進(jìn)關(guān)系的層次,從DataDIK挖掘到InformationDIK,從InformationDIK中獲取KnowledgeDIK,從KnowledgeDIK中獲得智慧。本文對(duì)應(yīng)于DataDIK、InformationDIK、KnowledgeDIK和智慧的遞進(jìn)層次在整體上澄清知識(shí)圖譜的表達(dá),將知識(shí)圖譜劃分為DGDIK、IGDIK、KGDIK和智慧圖譜四個(gè)層面。
圖2展示了5W問題的分類及轉(zhuǎn)化和四層圖譜之間的關(guān)系?,F(xiàn)階段本文基于前三層架構(gòu)對(duì)資源進(jìn)行語義建模,在DGDIK層面上計(jì)算DataDIK的三種頻度,在IGDIK和KGDIK上分析自適應(yīng)的自動(dòng)抽象的資源優(yōu)化過程以支持兼容經(jīng)驗(yàn)知識(shí)的引入和高效的自動(dòng)語義分析。本文提出的框架借助對(duì)應(yīng)5W問題的分類接口銜接用戶學(xué)習(xí)需求、學(xué)習(xí)過程和學(xué)習(xí)目標(biāo)等資源化描述,為用戶提供個(gè)性化學(xué)習(xí)服務(wù)推薦。
DGDIK能記錄DataDIK出現(xiàn)的頻度,包括結(jié)構(gòu)、時(shí)間和空間三個(gè)層次的頻度。本文定義結(jié)構(gòu)頻度為DataDIK出現(xiàn)在不同數(shù)據(jù)結(jié)構(gòu)中的次數(shù),時(shí)間頻度為DataDIK的時(shí)間軌跡,空間頻度被定義為DataDIK的空間軌跡。
定義3(結(jié)構(gòu)頻度)結(jié)構(gòu)頻度(stru_f)表示DataDIK出現(xiàn)在不同數(shù)據(jù)結(jié)構(gòu)中的次數(shù)。DataDIK的結(jié)構(gòu)頻度應(yīng)根據(jù)DataDIK出現(xiàn)的最大數(shù)據(jù)結(jié)構(gòu)進(jìn)行計(jì)算。例如,如果在圖形結(jié)構(gòu)的分支中以樹結(jié)構(gòu)出現(xiàn)的DataDIK,將按圖結(jié)構(gòu)來計(jì)算DataDIK的結(jié)構(gòu)頻度為1,不重復(fù)計(jì)算DataDIK在樹結(jié)構(gòu)中出現(xiàn)的頻度。
Fig.1 5W oriented resource processing architecture based on DGDIK,IGDIKand KGDIK圖1 面向5W基于DGDIK、IGDIK和KGDIK的資源處理框架
Fig.2 Type division of 5W problems and relationships among graphs圖2 5W問題類型劃分及圖譜關(guān)系
定義4(空間頻度)本文將空間頻度(spat_f)定義為DataDIK在不同空間位置出現(xiàn)的次數(shù),描述多個(gè)對(duì)象的相對(duì)位置,空間頻度用來標(biāo)識(shí)實(shí)體之間的空間關(guān)系。
定義5(時(shí)間頻度)時(shí)間頻度(temp_f)表示DataDIK在不同時(shí)間段內(nèi)出現(xiàn)的次數(shù)。初始獲取到的DataDIK集合可能不完整,對(duì)于具有時(shí)間性的流式數(shù)據(jù),如果觀察到流式DataDIK,應(yīng)該及時(shí)做出響應(yīng),因?yàn)檫^期的DataDIK是無意義的。
定義6(綜合頻度)綜合頻度(DFreq)為一個(gè)三元組,包含DataDIK的結(jié)構(gòu)頻度、空間頻度和時(shí)間頻度。
DFreq:=
本文給出對(duì)學(xué)習(xí)點(diǎn)DataDIK資源進(jìn)行建模時(shí),對(duì)DataDIK的頻度統(tǒng)計(jì)示例,如圖3所示,知識(shí)點(diǎn)DataDIK的時(shí)間頻度表示該DataDIK的課時(shí)數(shù),空間頻度為該DataDIK出現(xiàn)在不同專業(yè)體系的次數(shù),結(jié)構(gòu)頻度表示為該DataDIK的教育方式。但DGDIK上未對(duì)DataDIK的準(zhǔn)確性進(jìn)行分析,可能出現(xiàn)不同名稱的DataDIK但表達(dá)相同含義,即冗余。DGDIK只能對(duì)圖譜上表示的DataDIK進(jìn)行靜態(tài)分析,無法分析和預(yù)測(cè)DataDIK的動(dòng)態(tài)變化。DataDIK是通過觀察獲得的數(shù)字或其他類型信息的基本個(gè)體項(xiàng)目,但是在沒有上下文語境的情況下,它們本身沒有意義。
2.2.1 基于IGDIK記錄結(jié)點(diǎn)的交互度
InformationDIK是通過DataDIK和DataDIK組合之后的上下文傳達(dá)的,經(jīng)過概念映射和相關(guān)關(guān)系組合之后的適合分析和解釋的信息。IGDIK通過關(guān)系數(shù)據(jù)庫來表達(dá)。在IGDIK上進(jìn)行數(shù)據(jù)清洗,消除冗余數(shù)據(jù),根據(jù)結(jié)點(diǎn)之間的交互度進(jìn)行初步抽象,提高設(shè)計(jì)的內(nèi)聚性。
信息交互是業(yè)務(wù)處理、信息協(xié)作和系統(tǒng)集成的域信息系統(tǒng)的基礎(chǔ)。在IGDIK上記錄實(shí)體之間的交互頻度,只考慮實(shí)體之間交互的方向,而不考慮交互關(guān)系的類型。本文將IGDIK定義為有向圖G(V,E),其中V表示結(jié)點(diǎn)的集合,E表示邊集合,使用綜合度(Com_degree)來衡量信息圖譜上結(jié)點(diǎn)的重要性,計(jì)算方式如式(1)所示:
其中,deg+是結(jié)點(diǎn)的入度,deg-表示結(jié)點(diǎn)的出度。如圖4所示,結(jié)點(diǎn)E1和E2在DGDIK上屬于低頻結(jié)點(diǎn),結(jié)點(diǎn)E3和E4在DGDIK上屬于高頻結(jié)點(diǎn),但在IGDIK上E1和E2兩個(gè)結(jié)點(diǎn)之間交互頻繁,僅通過綜合頻度來衡量結(jié)點(diǎn)的重要性容易丟失信息。因此在IGDIK通過計(jì)算Impor來進(jìn)一步衡量結(jié)點(diǎn)的重要性,計(jì)算方式如式(2)所示:
Fig.3 Statistics on stru_f,temp_f and spat_f of DataDIK圖3 統(tǒng)計(jì)DataDIK的結(jié)構(gòu)頻度、時(shí)間頻度和空間頻度
其中,α和β分別表示結(jié)點(diǎn)在DGDIK上和綜合頻度和在IGDIK上的交互度對(duì)衡量該結(jié)點(diǎn)重要性所占的權(quán)重,可以通過數(shù)據(jù)訓(xùn)練獲得。
2.2.2 根據(jù)交互度處理DataDIK集成和實(shí)體抽象
IGDIK反映了實(shí)體之間的對(duì)話和多重交互。如圖5所示,通過將圖3中的DataDIK形態(tài)的資源進(jìn)行集成,生成了新的概念。線性表、隊(duì)列和樹等DataDIK資源聯(lián)系緊密,為提高資源架構(gòu)的表達(dá),可將聯(lián)系緊密的DataDIK進(jìn)行集成,得到了InformationDIK資源“數(shù)據(jù)結(jié)構(gòu)”。通過圈定特定數(shù)量的實(shí)體,計(jì)算內(nèi)部交互度和外部交互度,如式(3)所示,內(nèi)聚性(cohesion)等于內(nèi)部交互度和外部交互度的比值,約束所圈定的實(shí)體之間必須相互連通。內(nèi)聚度是衡量實(shí)體之間關(guān)聯(lián)程度的指標(biāo)。IFreqEI表示實(shí)體之間外部交互的次數(shù),IFreqII表示實(shí)體之間內(nèi)部交互的次數(shù)。將具有最大內(nèi)聚度的不同實(shí)體以屬性或操作的形式集成到同一模塊中,以增強(qiáng)模型設(shè)計(jì)的內(nèi)聚性并提高抽象度。新集成的模塊在IGDIK上以新結(jié)點(diǎn)的形式被標(biāo)記,并在DGDIK的層次上重新統(tǒng)計(jì)該結(jié)點(diǎn)的結(jié)構(gòu)頻度、空間頻度和時(shí)間頻度。
Fig.4 Measuring importance of entity through DFreq and Impor圖4 通過綜合頻度和交互度衡量實(shí)體重要性
Fig.5 Automatic abstraction results of entities on IGDIK圖5 IGDIK上實(shí)體的自動(dòng)抽象結(jié)果
2.3.1 在KGDIK上進(jìn)行信息推理和知識(shí)預(yù)測(cè)
KnowledgeDIK是從積累的InformationDIK中獲得的總體理解和意識(shí),將InformationDIK進(jìn)行進(jìn)一步的抽象和歸類形成KnowledgeDIK。KGDIK通過包含結(jié)點(diǎn)和結(jié)點(diǎn)之間關(guān)系的有向圖來表達(dá)。KGDIK蘊(yùn)含各種語義關(guān)系,在KGDIK上能進(jìn)行信息推理和實(shí)體鏈接。KGDIK的無結(jié)構(gòu)特性使得KGDIK可以無縫鏈接,從而提高KGDIK的邊緣密度和結(jié)點(diǎn)密度。信息推理需要有相關(guān)關(guān)系規(guī)則的支持,這些規(guī)則可以由人手動(dòng)構(gòu)建,但往往耗時(shí)費(fèi)力。目前,它主要依賴于關(guān)系的同現(xiàn),并使用關(guān)聯(lián)挖掘技術(shù)自動(dòng)查找推理規(guī)則。路徑排序算法使用每個(gè)不同的關(guān)系路徑作為一維特征,通過在KGDIK中構(gòu)建大量的關(guān)系路徑來構(gòu)建關(guān)系分類的特征向量和關(guān)系分類器來提取關(guān)系。根據(jù)式(4)計(jì)算關(guān)系的正確度Cr,Q表示實(shí)體E1到實(shí)體E2的所有完整路徑,π表示一條路徑,θ(π)表示路徑π的權(quán)重,最后正確度超過某一閾值后認(rèn)為該關(guān)系成立,路徑的權(quán)重以及正確度的閾值均可由訓(xùn)練得出。
2.3.2 結(jié)合關(guān)系語義類型衡量結(jié)點(diǎn)重要性
KGDIK的廣泛采用,在很大程度上是由于它的無模式性質(zhì),使得KGDIK可以無縫擴(kuò)展,并允許根據(jù)需要添加新的關(guān)系和實(shí)體。在KGDIK上標(biāo)記并處理實(shí)體之間不同類型的語義關(guān)系。每個(gè)語義關(guān)系都由自己的權(quán)重(θ)來表示該關(guān)系的重要性,根據(jù)式(5)來全面評(píng)估結(jié)點(diǎn)在KGDIK上的重要性(Final_impor):
其中,λi是關(guān)系Reli的權(quán)重,n是關(guān)系類型的數(shù)量。
如圖6所示,綜合DGDIK、IGDIK和KGDIK三層架構(gòu),衡量結(jié)點(diǎn)的重要性有三個(gè)指標(biāo):DGDIK上結(jié)點(diǎn)的綜合頻度,在IGDIK上與其他實(shí)體的交互程度,以及在KGDIK層面上與外部結(jié)點(diǎn)交互的語義關(guān)系類型。通過綜合考慮結(jié)點(diǎn)在三層圖譜上的重要性,設(shè)計(jì)人員可以避免頻度低但與外部實(shí)體有重要關(guān)系交互的結(jié)點(diǎn)被誤刪除。
Fig.6 Resource processing based on DGDIK,IGDIKand KGDIK圖6 基于DGDIK、IGDIK和KGDIK對(duì)資源的處理示意圖
資源有 DataDIK、InformationDIK和 KnowledgeDIK等形態(tài),對(duì)這些DataDIK、InformationDIK和KnowledgeDIK等形態(tài)的資源的原始表述的自然語言的機(jī)器理解、自動(dòng)處理、自動(dòng)綜合和自動(dòng)分析等成為了巨大的挑戰(zhàn)。基于DGDIK、IGDIK和KGDIK的三層資源處理框架能夠有效地將經(jīng)驗(yàn)知識(shí)與訓(xùn)練模型結(jié)合在一起,減少人工專家交互負(fù)擔(dān)。DataDIK是通過采集或觀測(cè)得到的離散資源,存在缺失、錯(cuò)誤、冗余和不一致等問題。通過對(duì)DataDIK在DGDIK上進(jìn)行頻度統(tǒng)計(jì)和計(jì)算,過濾綜合頻度較低的DataDIK,減少錯(cuò)誤DataDIK、無用DataDIK的出現(xiàn);在IGDIK上對(duì)DataDIK的表達(dá)形式進(jìn)行統(tǒng)一,消除冗余DataDIK,將交互頻繁的DataDIK進(jìn)行集成和抽象,得到總結(jié)性的規(guī)律InformationDIK資源。DataDIK和InformationDIK之間的關(guān)系缺乏層次性和邏輯性,對(duì)InformationDIK進(jìn)行分類和統(tǒng)計(jì),納入經(jīng)驗(yàn)性知識(shí),從而對(duì)未知的信息進(jìn)行推測(cè),得到概率性答案。受DataDIK、InformationDIK和 KnowledgeDIK之間的關(guān)系限制,用戶無法在DataDIK上直接獲得InformationDIK和KnowledgeDIK,在InformationDIK層面無法直接獲得KnowledgeDIK??鐚硬檎屹Y源存在查找不到、無盡查找、查找得出的資源與問題不匹配等情況,如在DGDIK層上無法找到KnowledgeDIK。但在IGDIK上一定能找到DataDIK資源,在KGDIK上一定能查到DataDIK和InformationDIK等資源。通過對(duì)資源進(jìn)行建模,在整合后的資源里分層對(duì)應(yīng)查找相關(guān)資源,不同情形下應(yīng)用不同的資源框架,在DGDIK上查找DataDIK,在IGDIK上查找InformationDIK,在KGDIK上查找KnowledgeDIK。
資源有 DataDIK、InformationDIK和 KnowledgeDIK等形態(tài),對(duì)用戶來講,學(xué)習(xí)點(diǎn)就是資源,因此在構(gòu)建學(xué)習(xí)點(diǎn)資源處理架構(gòu)時(shí),將學(xué)習(xí)點(diǎn)對(duì)應(yīng)到DataDIK、InformationDIK和KnowledgeDIK三個(gè)層面上去處理,不同情形下應(yīng)用不同的資源。本文提出的DGDIK、IGDIK和KGDIK三層資源處理架構(gòu)借助對(duì)應(yīng)5W問題的分類接口銜接用戶的學(xué)習(xí)需求、學(xué)習(xí)過程和學(xué)習(xí)目標(biāo)等的資源化描述,每一個(gè)“W”都可以廣泛用于探索和評(píng)估各種知識(shí)理論和系統(tǒng),并能根據(jù)5W引入的DataDIK、InformationDIK和KnowledgeDIK等資源不斷更新處理資源框架,自適應(yīng)地為用戶提供個(gè)性化學(xué)習(xí)服務(wù)推薦,通過建立學(xué)習(xí)者模型,根據(jù)用戶的當(dāng)前學(xué)習(xí)狀況、能力水平和學(xué)習(xí)目標(biāo)有針對(duì)性地為用戶提供一個(gè)高效的導(dǎo)學(xué)策略,考慮用戶之間特征的差異,因材施教,保證用戶按需學(xué)習(xí)。
在建立學(xué)習(xí)者模型時(shí),顯性模型必須先了解用戶的信息,而現(xiàn)實(shí)情況下,存在用戶不愿透露的信息,以及顯性模型無法度量的信息,隱性模型通過挖掘用戶的行為得到用戶自己可能無法表達(dá)的信息,比顯性模型的準(zhǔn)確率更高。本文提出將學(xué)習(xí)者的學(xué)習(xí)情況看作數(shù)據(jù)、信息和知識(shí)等類型化資源的集合,基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜對(duì)學(xué)習(xí)者進(jìn)行建模,以結(jié)點(diǎn)和邊的形式表達(dá)學(xué)習(xí)者對(duì)學(xué)習(xí)點(diǎn)的掌握情況。學(xué)習(xí)者模型的構(gòu)建包括資源和能力構(gòu)建兩部分,分別對(duì)應(yīng)學(xué)習(xí)者的學(xué)習(xí)情況和學(xué)習(xí)能力。資源包括學(xué)習(xí)者已學(xué)知識(shí)點(diǎn)、未學(xué)知識(shí)點(diǎn)和目標(biāo)知識(shí)三個(gè)組成部分,用于統(tǒng)計(jì)學(xué)習(xí)者的知識(shí)掌握情況和知識(shí)需求。能力構(gòu)建部分包括用戶的記憶能力、計(jì)算能力和邏輯能力的評(píng)估。學(xué)習(xí)者能力水平分為三個(gè)等級(jí),分別是“弱”“中”“強(qiáng)”。通過提示用戶進(jìn)行習(xí)題測(cè)試統(tǒng)計(jì)用戶的知識(shí)掌握情況,評(píng)估學(xué)習(xí)能力。
圖7展示了基于DGDIK、IGDIK和KGDIK三層資源處理架構(gòu)的學(xué)習(xí)推薦服務(wù)流程,根據(jù)現(xiàn)有海量DataDIK、InformationDIK和KnowledgeDIK等資源構(gòu)建學(xué)習(xí)點(diǎn)資源處理架構(gòu),通過大數(shù)據(jù)訓(xùn)練得出用戶群體學(xué)習(xí)每個(gè)學(xué)習(xí)點(diǎn)所要花費(fèi)時(shí)間和精力的平均水平,即學(xué)習(xí)投入,作為學(xué)習(xí)點(diǎn)的權(quán)重在資源處理框架上做出標(biāo)記。
獲取學(xué)習(xí)者預(yù)期的學(xué)習(xí)投入(Expected_effort)和學(xué)習(xí)目標(biāo),學(xué)習(xí)者預(yù)期的學(xué)習(xí)效率(Expected_effi)計(jì)算公式如式(6)所示:
其中,Total_know表示目標(biāo)知識(shí)包含的學(xué)習(xí)點(diǎn)總量。根據(jù)用戶的學(xué)習(xí)目標(biāo)類型,確定在哪一層資源處理框架上進(jìn)行遍歷。若用戶學(xué)習(xí)目標(biāo)比較簡(jiǎn)單,預(yù)期學(xué)習(xí)投入較少,學(xué)習(xí)能力較弱,則基于DGDIK向該用戶推薦學(xué)習(xí)點(diǎn)和學(xué)習(xí)路徑;若用戶學(xué)習(xí)目標(biāo)難度一般,預(yù)期學(xué)習(xí)投入一般,學(xué)習(xí)能力一般,則基于IGDIK向該用戶推薦學(xué)習(xí)點(diǎn)和學(xué)習(xí)路徑;若用戶學(xué)習(xí)目標(biāo)難度較大,預(yù)期學(xué)習(xí)投入多,學(xué)習(xí)能力較強(qiáng),則基于KGDIK向用戶推薦學(xué)習(xí)點(diǎn)和學(xué)習(xí)路徑。在資源處理框架上標(biāo)記學(xué)習(xí)者已學(xué)知識(shí)和目標(biāo)知識(shí)點(diǎn),遍歷圖譜,獲取目標(biāo)知識(shí)點(diǎn)的所有先序結(jié)點(diǎn)。將存在“或”關(guān)系的知識(shí)點(diǎn)按學(xué)習(xí)該知識(shí)點(diǎn)所需要的學(xué)習(xí)投入(即權(quán)重)進(jìn)行排序,輸出完整的學(xué)習(xí)路徑并推薦給用戶。用戶按照推薦的學(xué)習(xí)路徑進(jìn)行學(xué)習(xí),在學(xué)習(xí)過程中,系統(tǒng)不斷獲取用戶反饋并監(jiān)測(cè)外部學(xué)習(xí)環(huán)境的變化。用戶實(shí)際的學(xué)習(xí)效率(Actual_effi)計(jì)算公式如式(7)所示:
其中,Got_know表示學(xué)習(xí)者已學(xué)到的學(xué)習(xí)點(diǎn),Actual_effort表示學(xué)習(xí)者的實(shí)際學(xué)習(xí)投入,統(tǒng)計(jì)學(xué)習(xí)者的能力變化,更新學(xué)習(xí)者模型;根據(jù)外部學(xué)習(xí)環(huán)境的變化,更新處理資源框架。按照更新后的學(xué)習(xí)者模型和處理資源框架,重新獲取學(xué)習(xí)者的學(xué)習(xí)目標(biāo)及預(yù)期的學(xué)習(xí)投入,根據(jù)用戶當(dāng)前學(xué)習(xí)狀況重新規(guī)劃學(xué)習(xí)路徑。
圖8給出了關(guān)于計(jì)算機(jī)系課程的部分知識(shí)體系,假設(shè)用戶的學(xué)習(xí)目標(biāo)是要掌握數(shù)據(jù)挖掘這門課,當(dāng)前已掌握和未掌握課程已經(jīng)在資源體系中作出標(biāo)記,每門課程標(biāo)記的數(shù)字代表學(xué)習(xí)這門課所需投入的平均水平,獲取用戶的預(yù)期學(xué)習(xí)投入后,則可以向其推薦圖中所示三種學(xué)習(xí)方案。
Fig.8 Example of learning service recommendation based on DGDIK,IGDIKand KGDIK圖8 基于DGDIK、IGDIK和KGDIK架構(gòu)學(xué)習(xí)推薦服務(wù)例子
隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的引入,共指消解技術(shù)進(jìn)入了快速發(fā)展階段。McCarthy等[15]使用決策樹來解決商業(yè)合資企業(yè)領(lǐng)域分類不同短語的系統(tǒng)中的共指消解問題。本體被用作語義網(wǎng)中的知識(shí)表示的標(biāo)準(zhǔn)形式[16],微軟發(fā)布的Probase利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法抽取出概念之間的“IsA”關(guān)系[17]。對(duì)于復(fù)雜的實(shí)體關(guān)系,借助TBox和ABox將基于描述邏輯的推理歸結(jié)為一致性檢驗(yàn)問題[18]。楊志等[19]利用動(dòng)態(tài)規(guī)劃的思想提出了一種基于本體的服務(wù)推薦方法。彭建偉[20]提出了一種改進(jìn)的Memetic算法以及一種基于Memetic算法的個(gè)性化學(xué)習(xí)路徑推薦策略。Fader等[21]提出一種開放問答(open question answering,OQA)方法,從未標(biāo)記的問題語料庫和多個(gè)知識(shí)庫中挖掘數(shù)百萬個(gè)規(guī)則來解決問題解析和查詢重構(gòu)等問題。Wang等[22]提出一種通過概念注釋來促進(jìn)跨語言知識(shí)鏈接的方法。Trojahn等[23]提出了一種語義導(dǎo)向的跨語言本體映射框架,以增強(qiáng)涉及多語言知識(shí)庫系統(tǒng)的互操作性。Liu等[24]利用K-最近鄰算法和條件隨機(jī)場(chǎng)模型,實(shí)現(xiàn)了對(duì)Twitter文本數(shù)據(jù)中實(shí)體的識(shí)別。王泊學(xué)[25]設(shè)計(jì)了一種基于上下文感知的自適應(yīng)服務(wù)組合系統(tǒng),將上下文環(huán)境轉(zhuǎn)移到服務(wù)組合系統(tǒng)中。潘偉豐等[26]提出的服務(wù)分類方法為服務(wù)提供分類信息,提高服務(wù)發(fā)現(xiàn)、檢索及服務(wù)資源管理的效率。
如何快速、準(zhǔn)確地在網(wǎng)絡(luò)中找到用戶所需要的資源,并且以人性化的方式為用戶提供服務(wù),已經(jīng)成為一項(xiàng)挑戰(zhàn)。本文的貢獻(xiàn)在于綜合性地處理互聯(lián)網(wǎng)上的資源,通過分析和抽象海量的DataDIK、InformationDIK和KnowledgeDIK等形態(tài)的資源,消除概念的歧義,剔除冗余和錯(cuò)誤概念,提高DataDIK、InformationDIK和KnowledgeDIK等資源的質(zhì)量?;贒GDIK、IGDIK和KGDIK建立資源處理框架,對(duì)不同資源需求在最匹配的資源層面上進(jìn)行查找,有效提高查找效率。本文提出的架構(gòu)借助從DGDIK上以實(shí)體綜合頻度計(jì)算為核心的分析到IGDIK和KGDIK上自適應(yīng)的自動(dòng)抽象的資源優(yōu)化過程,支持兼容經(jīng)驗(yàn)知識(shí)引入和高效自動(dòng)語義分析,將經(jīng)驗(yàn)性和理論性DataDIK、InformationDIK、KnowledgeDIK和智慧融入學(xué)習(xí)推薦的方法中,協(xié)助用戶隱含意圖的信息表達(dá),并能有效處理資源不一致、冗余、缺失等問題,通過自動(dòng)抽象和動(dòng)態(tài)規(guī)劃進(jìn)行有效和自適應(yīng)的資源搜索和自組織,進(jìn)而向用戶推薦和優(yōu)化服務(wù)。當(dāng)前工作在各個(gè)環(huán)節(jié)進(jìn)行了實(shí)例討論,下一步將擴(kuò)大數(shù)據(jù)規(guī)模進(jìn)行驗(yàn)證。