馮 瑤 馮錫煒
(遼寧石油化工大學計算機與通信工程學院 遼寧 撫順 113001)
?
基于本體的教育資源推理查詢原型系統(tǒng)設計與實現
馮瑤馮錫煒
(遼寧石油化工大學計算機與通信工程學院遼寧 撫順 113001)
針對當前教育資源庫存在的通用性差和缺乏語義查詢等缺陷,將語義Web的重要基礎本體及其推理和查詢技術應用到教育資源領域,實現一個基于本體的教育資源推理查詢原型系統(tǒng)。利用本體構建方法及建模工具protégé,以數據結構課程為例,構建一個基于元數據標準的教育資源領域本體;制定教育資源領域本體知識點推理規(guī)則,提出改進的語義相似度算法;設計并實現基于本體的教育資源推理查詢原型系統(tǒng)。通過實驗驗證,該系統(tǒng)的查全率與查準率均高于基于關鍵字的查詢。
教育資源本體本體推理本體查詢原型系統(tǒng)
近年來E-Learning正被廣泛關注,E-Learning的基礎和核心是建立專業(yè)教育資源庫。但當前Web上的各種教育資源缺乏一致的標準,無法通用和共享;同時,資源的知識組織缺乏語義關聯,無法進行智能檢索等服務。本體是實現語義Web的重要基礎和技術,廣泛應用于知識表示、知識共享與重用、邏輯推理等領域。本體是使用特定詞匯來描述具有明確觀點的實體、類、屬性和相關函數的形式化概念模型。本體可以從已知有限的語義關系中推理出更豐富更深層的語義關系,從而增強了本體的表達性。近十年來,很多機構和組織都致力于對本體的研究并把其應用到各種實際領域中來。文獻[1]對本體建模進行深入研究,構建了一個地理領域本體,并在推理機制和語義檢索技術的基礎上設計了一個應用地理領域本體的旅行檢索和推薦的原型系統(tǒng)。文獻[2]在醫(yī)療本體的基礎上,利用語義查詢擴展技術,提出了一個基于本體的醫(yī)療領域語義查詢系統(tǒng)。文獻[3]構建了玉米種植領域本體,并應用語義標注和查詢擴展等技術實現了一個語義檢索系統(tǒng)。文獻[4]在專利領域本體的基礎上,通過本體推理和查詢等關鍵技術,使用語義Web框架Jena實現了專利本體的語義推理和查詢系統(tǒng)。
本文將本體技術應用到教育資源領域,構建層次劃分清晰、語義關系豐富的教育資源本體庫,可以優(yōu)化知識表示,同時為教育資源的語義查詢和個性化自主學習做好準備。本文首先結合教育資源元數據標準,以“數據結構”課程為例構建了一個教育資源領域本體;其次結合SPARQL查詢語言和查詢擴展技術,針對教育資源本體制定了推理規(guī)則,并提出了改進的相似度算法;最后將本文的推理查詢方法與Java EE 架構相關技術結合,實現了一個基于本體的教育資源推理查詢原型系統(tǒng)。通過實驗與基于關鍵字的查詢作了比較,并驗證了系統(tǒng)的可行性。
1.1教育資源元數據標準
教育資源元數據能夠對資源進行形式上以及內容上的描述,為教育資源標注提供了統(tǒng)一的標準。國外對其標準的研究開始于20世紀90年代,其中影響較大的有:IEEE LOM、ADL SCORM、Dublin DC。我國在2000年11月成立了全國信息技術標準化技術委員會教育分技術委員會CELTSC(Chinese E-Learing Technology Standardization Committee),制定了符合我國國情的教育資源元數據標準《CELTS-31學習對象元數據規(guī)范》[5]和《CELTS-41教育資源建設技術規(guī)范》[6]。本文參考ACM(Association for Computing Machinery)的CC2005(Computing Curricula 2005)[7]確定學科知識層次劃分,以CELTS-31和CELTS-41兩個教育資源元數據標準為藍本,將元數據進行知識關聯;利用本體技術,以“數據結構”課程為例,構建教育資源領域本體。教育資源領域本體提供了描述資源的組織框架。通過這個框架來對資源進行標注,并將學科知識中所有的概念劃分,形成分類層次結構,為通過概念間的語義關聯實現對資源的查詢和檢索做準備。
1.2教育資源本體的具體建模——以數據結構課程為例
本文參考7步法,結合CELTS元數據標準及CC2005,以“數據結構”為例,構建了一個教育資源領域本體。
(1) 確定了本體的領域和范圍。教育資源庫學科眾多、分類復雜。本文將本體的領域范圍限定在計算機領域,力圖今后可以供其他學科的教育資源本體復用所參考。
(2) 復用現有本體。由于目前比較成熟的本體集中在醫(yī)學、生物、地理等領域,我們所要涉及的領域并沒有可以復用的本體。所以本文通過對元數據項及其與教育資源間的關系進行分析和抽象,找出語義關聯性,定義類及類的屬性,建立教育資源領域本體。
(3) 確定本體的類和層級。教育資源領域本體參考CC2005和CELTS-41確定類和層級,將計算機學科的教育資源本體劃分為學科(Discipline)、資源(Resource)和課程知識點(Concept)三大子類。
本文參考CC2005對學科類進行劃分;采用CELTS-41標準對資源類進行細分;將課程類劃分為具體知識點集并對其進行語義關聯,通過知識點間的語義關聯可以實現對資源的推理和查詢。課程知識點的組織結構參考CC2005,由上至下分為知識域(KnowledgeArea)、知識單元(KnowledgeUnit)和知識主題(KnowledgeTopic)。
參考國內多本數據結構教材以及網絡課程,按照上文所述的知識點組織結構,將數據結構課程的核心知識點劃分為5個知識域,15個知識單元,100多個知識主題,基本覆蓋整個數據結構課程的核心知識內容。本文使用protégé 4.0構建教育資源本體。在protégé 4.0中建分類和層次,如圖1所示。
圖1 protégé類圖
(4) 本體的類及層次確定以后,要確定本體類之間的屬性關系。本體的屬性分為數據屬性(DataProperty)和對象屬性(ObjectProperty)兩部分。數據屬性的定義域是本體的類,值域是數據類型,例如int型、string型等。對象屬性(ObjectProperty)是表示所有個體之間關系的屬性。
① 數據屬性。為了使網絡上分散的教育資源庫有統(tǒng)一的語義標注標準,我們對CELTS-31的每一個子元數據項進行分析,抽取出數據屬性,如表1所示。
表1 教育資源本體的數據屬性
② 對象屬性。本文構建的教育資源領域本體的主要對象屬性是知識點類的對象屬性。由于課程知識點之間具有豐富的語義關系,從而可以通過這些語義關系建立本體屬性,并利用這些屬性進行本體推理和查詢,作為教育資源語義搜索的基礎。為了確定知識點類的屬性關系,根據課程特點,對知識點間關系進行分析抽象得到如表2所示的對象屬性。
表2 教育資源本體的對象屬性
續(xù)表2
(5) 屬性約束。OWL使用屬性約束來描述那些特定類的屬性條件,屬性的基數約束舉例如表3所示。
表3 屬性的基數約束
(6) 實例。類和屬性建立之后,用實例對本體進行填充。定義本體的類和屬性相當于建立描述邏輯知識庫中TBox的過程,定義實例相當于建立描述邏輯知識庫中的ABox的過程。在protégé中構建實例,如圖2所示。
圖2 本體實例圖(部分)
本文在第1節(jié)構建的教育資源領域本體的基礎上構建了教育資源領域本體的推理和查詢原型系統(tǒng),系統(tǒng)架構如圖3所示。
圖3 教育資源推理查詢系統(tǒng)架構圖
數據層是教育資源本體庫和資源數據庫。業(yè)務邏輯層是系統(tǒng)的核心,主要實現的功能有本體邏輯檢測、本體規(guī)則推理、查詢預處理和擴展、本體查詢。通過本體邏輯檢測模塊確定了本體邏輯正確、分類合理、沒有沖突,可以進一步提高推理的效率。規(guī)則推理模塊負責對本體的自定義推理,因為該系統(tǒng)資源的查詢是通過查詢知識點實現的,所以該系統(tǒng)主要是對知識點類進行推理。根據知識點之間的對象屬性可以指定豐富的自定義推理規(guī)則,經過推理可以得到查詢知識點的相關知識點集作為查詢詞匯集。推理得到的詞匯集里面可能有些與查詢知識點關聯不大,需要通過查詢擴展模塊進一步篩選。查詢擴展通過把查詢知識點與推理得到的詞匯集里的知識點經過語義相似度算法計算,再與設定的閾值比較,來確定與知識點關聯的查詢擴展詞匯集,然后可以通過SPARQL查詢得到相關的資源??刂茖觼碜鲇脩艉蜆I(yè)務邏輯層的橋梁,當接到來自表示層的用戶請求時,決定由業(yè)務邏輯層的哪一個功能模塊來完成工作。表示層將返回的結果顯示給用戶。
2.1邏輯推理模塊
本體進行邏輯推理對領域本體的構建至關重要,它優(yōu)化了本體質量,是本體評價和本體進化的重要手段;同時又是規(guī)則推理的重要基礎,在邏輯推理之上通過本體公理和自定義規(guī)則推理擴充本體的語義關系,從而為實現語義查詢和檢索服務提供依據。本文采用Pellet推理機對本體進行邏輯推理。通過對教育資源領域本體進行一致性分析,發(fā)現了3個概念定義錯誤和7個實例歸類錯誤,為下一步的規(guī)則推理做好了邏輯保證,提高了推理效率。
2.2SPARQL查詢模塊
Jena查詢工廠類(QueryFactory)提供的一些方法可實現SPARQL查詢。Query對象在調用create()方法后被返回,Query對象封裝了解析RDF模型后的查詢。對于簡單的查詢操作,可以使用提供的execSelect()方法,該方法將返回查詢結果集 ResultSet類型數據。通過SPARQL查詢可以得到與指定知識點相關的知識點集。
2.3規(guī)則推理模塊
知識點之間的語義關系可以制定豐富的自定義推理規(guī)則,經過推理可以進一步擴展查詢知識點集。若a、b表示知識點,p、q表示屬性,p具有傳遞性,p和q互逆:
(1) 傳遞性規(guī)則
(?a p ?b)(?b p ?c)→(?a p ?c)
如果知識點a與b之間具有屬性p,知識點b和c之間也具有屬性p,由于屬性p具有傳遞性,則可以推理得到知識點a與c之間也具有屬性p。
(2) 互逆規(guī)則
(?a p ?b)→(?b q ?a)
如果知識點a與b之間具有屬性p,由于屬性p和q互逆,則可以推理得到知識點b和知識點a之間具有屬性q。
本文根據對教育資源領域本體知識點類的屬性特征和性質的分析,制定了如表4所示的推理規(guī)則。為了節(jié)省篇幅,用前綴lr表示http://www.semantic web.org/ontologies/learningres- ource.owl#。
表4 教育資源本體知識點推理規(guī)則
2.4查詢擴展模塊
通過規(guī)則推理可以擴展查詢關鍵詞的相關詞匯,會得到查詢知識點的所有相關(同義、蘊含、屬于、依賴、兄弟、參考)知識點。但得到的詞匯可能有的與查詢知識點關系不大,所以在推理得到的結果集上可以采用語義相似度算法來做進一步篩選。用語義相似度公式來計算詞匯之間的關聯度,并設定閾值,確定查詢詞匯集。教育資源本體推理查詢流程如圖4所示。
圖4 教育資源本體推理查詢流程
Step 1輸入查詢語句;
Step 2分詞處理得到關鍵知識點集;
Step 3對關鍵知識點集通過自定義的推理規(guī)則推理得到知識點擴展集合S1;
Step 4對S1中的每個知識點關鍵詞,根據相似度計算公式,計算其相似度;
Step 5相似度計算結果與設定的閾值μ進行比較,如果大于閾值μ,就把知識點放到相關知識點集S2;
Step 6對S2中的每一個知識點概念,都對資源本體庫進行查詢,查詢到的資源返回給用戶。
本文將綜合考慮影響語義相似度的3種因素(語義距離、節(jié)點密度、節(jié)點深度)和知識點間6種關系(同義關系、蘊含關系、依賴關系、參考關系、兄弟關系、平行關系),提出改進的語義相似度計算方法。
3.1語義距離
根據它們的本體層次計算節(jié)點的語義距離:距離越近,相似度越高。在節(jié)點中存在多條路徑的情況下,考慮所有路徑的最短路徑。知識點c1和c2的基于語義距離的相似度如下:
(1)
3.2節(jié)點密度
本體樹的密度越高,概念的劃分越細,語義相似度越大。由此得到基于節(jié)點密度的相似度公式:
(2)
其中,lso(c1,c2)表示節(jié)點c1和c2的最近共同祖先節(jié)點,degree(lso(c1,c2))表示lso(c1,c2)的度,degree(Tree)表示本體樹的度。
3.3節(jié)點深度
節(jié)點的位置越深,概念劃分得越具體,節(jié)點表示的概念越相似。基于節(jié)點深度的語義相似度公式如下:
(3)
其中,depth(c1)表示概念c1的深度,depth(c2)表示概念c2的深度。depth(lso(c1,c2))表示c1和c2最近共同祖先節(jié)點的深度。
3.4關系類型
最常見的關系就是is-a關系,其他關系例如part-of關系、substance-of等關系,都與邊的權值相關[8]。連接一個結點和它所有孩子結點的邊的權值可能各不相等。在節(jié)點間距離相等的情況下,存在其他關系的節(jié)點間的相似度較大。基于關系的語義相似度計算公式如下:
Simtype(c1,c2)=type(c1,c2)
(4)
其中,type(c1,c2)表示c1和c2之間的不同關系的權值。通常權值的確定需要領域專家的意見,本文參考了所在學院多名數據結構課程教師意見。根據不同的關系強度,分配權值如下:
(5)
綜合以上四個因素,得到語義相似度計算公式,如式(6)所示:
(6)其中,α、β、λ、γ為調節(jié)因子,分別表示距離、節(jié)點密度、節(jié)點深度、節(jié)點間不同關系的強度對相似度的影響。經過實驗,公式的調節(jié)因子取α=0.2、β=0.05、γ=0.15、λ=0.6時效果較好。
4.1系統(tǒng)實現
本文在構建的教育資源領域本體的基礎上,使用邏輯推理、規(guī)則推理、查詢擴展等本體推理及查詢關鍵技術對教育資源領域本體進行推理和查詢,最后遵循MVC模式的SSH2框架實現了教育資源領域本體的推理和查詢原型系統(tǒng)。系統(tǒng)使用MyEclipse 10開發(fā),本體構建工具采用Protégé 4.0,本體解析和推理工具采用Jena 2.6.4,描述邏輯推理機使用Pellet 2.2,數據庫使用MySQL 5.6,Web服務器使用Tomcat 6.0,中文分詞工具使用IKAnalyzer。
4.2運行結果分析
本文對網絡上以及本地文件共200個不同類型的數據結構課程的教育資源進行語義標注后,形成了資源本體庫。判斷一個查詢系統(tǒng)好壞的指標是查全率和查準率,查全率和查準率公式如式(7)和式(8)所示:
(7)
(8)
用本文介紹的查詢方法與傳統(tǒng)的關鍵字查詢對200個文本、動畫、試卷、課件、視頻等資源從查全率和查準率兩個方面作了比較,根據四個常用知識點進行查詢,得到的查詢結果對比如圖5和圖6所示。相似度計算的閾值分別取0.55、0.6和0.65。
圖5 查全率比較圖
圖6 查準率比較圖
圖5和圖6更直觀地表示查全率和查準率。通過查全率和查準率的數據圖表可以看出:在查全率方面,使用本文方法查詢要高出關鍵字查詢方法很多。因為關鍵字的查詢只是針對標題上是否包含所查詢的知識點,沒有任何語義關聯;而本文的方法由于本體中包含豐富的知識點的各種關系,通過推理和查詢擴展等技術就可以獲得與查詢知識點相關聯知識點的資源。比如查詢“鏈表”知識點,那么它的上下位、兄弟、依賴等知識點的資源都會被查詢出來,可以方便用戶自主學習。而本文方法的查全率和查準率主要取決于閾值μ的設定。當閾值μ設定為0.55的時候查全率是最高的,閾值μ設定為0.65的時候查全率較低。這是由于當閾值μ升高后查出的相關資源會減少。
在查準率方面,兩種方法差別不大。本體模型在概念與概念之間的關系基礎上進行查詢,一些無關的分類信息不會被查詢出來,從而提高了系統(tǒng)的查準率;而傳統(tǒng)關鍵字查詢的關鍵字也是資源的知識點,基本上也不會出現查詢到的資源與知識點無關的情況。所以這兩種方法在查準率方面都表現較好。但是就查詢到的資源總量而言,關鍵字查詢要遠遠低于本體查詢。這是因為對于視頻、圖片、動畫等標題上沒有所查詢知識點而實際內容又與知識點相關的資源,基于關鍵字的方法是查詢不到的。本文在本體中已經對資源進行標注,查詢時不是通過標題查詢,而是通過對資源的屬性,只要資源與包含的知識點做了標注就可以被查詢出來。本文方法當閾值取μ為0.65時查準率最高。綜合查全率和查準率兩個方面分析,并且從實際用戶角度出發(fā),閾值取μ為0.6時查詢效果較為理想。閾值μ=0.6時的系統(tǒng)運行如圖7所示。
圖7 系統(tǒng)頁面截圖
本文從教育資源元數據標準及數據結構課程的知識點中分析、提取語義關聯,利用本體構建工具protégé構建了一個數據結構課程的教育資源領域本體。用Pellet對本體進行一致性檢測,用Jena對本體進行規(guī)則推理,并根據教育資源領域本體知識點關系制定了推理規(guī)則,改進了基于語義距離的相似度算法。實現了一個基于本體的推理查詢原型系統(tǒng)——數據結構課程教育資源推理查詢原型系統(tǒng),并通過實驗比較了傳統(tǒng)的關鍵字查詢與本文的語義推理查詢的查全率和查準率;同時對不同閾值的相似度算法做了實驗,通過實驗結果確定了查詢閾值。下一步的研究:擴大本體庫規(guī)模,實現自動標注。本體庫規(guī)模越大,說明系統(tǒng)的性能越優(yōu)越;由于基于本體的查詢,需要一個龐大的本體庫,手工標注信息已不能滿足需要。對查詢擴展增加用戶興趣模型,把用戶真正想學習、感興趣的知識點與資源的知識點結合起來,實現真正的個性化自主學習。
[1] 韓冬梅,王雯,杭麗娜.基于語義Web的地理領域本體建模及推理研究[J].情報科學,2013,31(8):53-56,160.[2] 李鵬飛,黃冉,姚琴,等.面向醫(yī)學信息交換的語義查詢系統(tǒng)設計[J].中國數字醫(yī)學,2012,7(12):24-27.
[3] 齊紅,張亮亮,李昕.基于玉米本體的語義檢索系統(tǒng)[J].計算機工程,2011,37(4),34-36,48.
[4] 許鑫,谷俊,袁豐平,等.面向專利本體的語義檢索分析系統(tǒng)的設計與實現[J].圖書情報工作,2014,58(9):96-104.
[5] 信息技術標準化技術委員會教育分技術委員會.CELTS-31學習對象元數據標準[EB/OL].http://www.celtsc.edu.cn/content/jxzyl/40288b88391ed5fd0139leddc93d0014.html.
[6] 信息技術標準化技術委員會教育分技術委員會.CELT-41教育資源建設技術規(guī)范[EB/OL].http://www.celtsc.edu.cn/content/jxzyl/40288b88391ed5fd01391edbb05d000e.html.
[7]ACM,AIS,IEEE-CS.Computingcurricula2005:Theoverviewreport[EB/OL].http://www.acm.org/education/curric_vols/CC2005-March06Final.pdf.
[8]EklundP,DucrouJ,DauF.ConceptSimilarityandRelatedCategoriesinInformationRetrievalUsingFormalConceptAnalysis[J].InternationalJournalofGeneralSystems,2012,41(8):826-846.
DESIGN AND IMPLEMENTATION OF ONTOLOGY-BASED PROTOTYPE SYSTEM OF EDUCATION RESOURCES REASONING AND QUERY
Feng YaoFeng Xiwei
(SchoolofComputerandCommunicationEngineering,LiaoningShihuaUniversity,Fushun113001,Liaoning,China)
In view of the defects such as poor universality and lack of semantic query in current education resource, we applied the important basic ontology and its reasoning and query technologies of semantic Web to education resources, and implemented an ontology-based prototype system of education resources reasoning and query. We made use of ontology construction method and modelling tools protégé, and took the course of data structure as an example to construct a metadata standard-based education resource domain ontology; We formulated the inference rules of knowledge points for education resources domain ontology, and put forward the modified semantic similarity algorithm; finally we designed and implemented an ontology-based prototype system of education resources reasoning and query. It is verified through experiment that the recall and precision of the system are both higher than the keyword-based query.
Education resource ontologyOntology reasoningOntology queryPrototype system
2015-08-01。遼寧省普通高等學校本科教育教學改革研究項目(UPRP20140914);遼寧省教育科學“十二五”規(guī)劃立項課題(JG13DB077)。馮瑤,碩士,主研領域:人工智能,語義網。馮錫煒,教授。
TP391
A
10.3969/j.issn.1000-386x.2016.10.004