司莉,李鑫
?
基于多語言領域本體的知識挖掘研究**本文系教育部人文社會科學重點研究基地重大項目“基于內(nèi)容的多語言信息組織與檢索研究”(項目編號:14JJD870001)研究成果之一
司莉,李鑫
摘要文章提出基于多語言領域本體的知識挖掘框架,選取和利用知識挖掘方法中基于規(guī)則的語義推理方法對該框架進行實現(xiàn)。實驗過程包括構建一個實驗型的中英雙語本體,定義本體實例的規(guī)則并對規(guī)則進行形式化處理,實現(xiàn)基于規(guī)則的語義推理,即利用編程工具和算法完成對中英雙語本體的知識挖掘。
關鍵詞知識挖掘語義推理多語言本體
引用本文格式司莉,李鑫.基于多語言領域本體的知識挖掘研究[J].圖書館論壇,2016(2):27- 34.
A Study of Knowledge Mining Based on Multilingual Ontology
SI Li,LI Xin
Abstract This paper proposes a framework for knowledge mining based on multilingual ontology,and carries out an experiment using the rules -based semantic reasoning method to confirm the feasibility of the framework proposed. The experiment process includes three main steps:construct a bilingual ontology;set the rules of instances and make them formalization;carry out the rule-based semantic reasoning and complete knowledge mining using programming tools and algorithms.
Keywords knowledge mining;semantic reasoning;multilingual ontology
當前,網(wǎng)絡信息資源的多語種化和網(wǎng)絡用戶分布國際化兩大趨勢日漸凸顯,用戶獲取多語言信息資源面臨的語言壁壘以及用戶對多語言語義信息資源的需求亟需解決,多語言的信息組織與檢索和知識挖掘?qū)⒅饾u成為研究熱點。一方面,多語言信息檢索至今仍停留在基于關鍵詞匹配的文獻檢索階段,且以文本檢索為主。多語言檢索系統(tǒng)的概念識別能力較弱,無法精確化地識別用戶查詢請求中的語義,無法準確分析目標對象與查詢請求中語義相關性,檢索結果冗余度高、相關性較低、效率和精度還不夠理想,尚未實現(xiàn)細粒度、語義化的知識檢索。另一方面,知識挖掘雖然已經(jīng)形成了較完整理論與技術體系,但如何將這些理論與技術運用于多語言領域,進行多語言、動態(tài)化、細粒度的知識抽取與組織,進而實現(xiàn)基于語義的挖掘,尚需進行深入探究。而基于多語言領域本體的語義知識挖掘從多語言信息資源中抽取隱含的、細粒度和語義(關聯(lián))化的知識,克服了傳統(tǒng)知識挖掘與多語言信息檢索在隱含信息、語義關聯(lián)信息的挖掘與檢索等方面的不足。本研究的目的是構建一個基于多語言領域本體的知識挖掘框架,在此基礎上,選取和利用知識挖掘方法中合適的技術與方法對所設計的框架進行實現(xiàn)。
筆者遵循系統(tǒng)設計原則,提出基于多語言領域本體的知識挖掘的框架與內(nèi)容,并闡述實現(xiàn)該框架的關鍵技術。
1.1多語言領域本體知識挖掘框架的構成
基于多語言領域本體知識挖掘的框架如圖1所示,包括原始數(shù)據(jù)層、語義知識表示層、知識挖掘?qū)?、知識服務與應用層。
圖1 多語言領域本體知識挖掘框架
(1)原始數(shù)據(jù)層。該層主要存放來自不同數(shù)據(jù)源的、不同類型的、異構的多語言信息資源。涉及多個語種,包含圖像、文本、視頻、音頻等多種類型;覆蓋不同學科、不同領域的結構化、半結構化和非結構化信息資源;在進行知識挖掘時,需要對其中的數(shù)據(jù)進行抽取和預處理。
(2)語義知識表示層。數(shù)據(jù)層中的數(shù)據(jù)缺乏明確的、形式化的語義表示,因此需要對其隱含的、潛在的概念、知識和語義進行規(guī)范化、形式化的表達和處理。語義知識表示層主要包括了語義網(wǎng)技術、自然語言處理技術、多語言領域本體、多語言領域本體規(guī)則庫、專家經(jīng)驗本體、用戶偏好本體及其他的本體和知識庫等,其主要功能有四個:一是對多語言信息資源進行語義化表示。主要借助語義網(wǎng)技術以及自然語言處理技術等對多語言信息資源進行語義層面的初步分析和處理,并利用多語言本體進行語義標注,識別信息資源中有意義的、能夠表達信息資源內(nèi)容和特征的概念和實體及其之間的關系。二是根據(jù)多語言領域本體和領域知識,建立基于多語言領域本體的規(guī)則庫。三是為知識挖掘?qū)犹峁┱Z義數(shù)據(jù)。利用多語言本體對不同類型的多語言信息資源進行知識表示和語義標注等,識別和抽取信息資源中的概念及其關系,并以機器可理解(如RDF)的形式編碼后存儲在信息資源語義元數(shù)據(jù)庫中,實現(xiàn)對多語言信息資源內(nèi)容的準確理解和表達,從而為知識挖掘提供良好的數(shù)據(jù)基礎。四是檢驗知識挖掘結果。利用本體的推理功能對知識挖掘的結果進行語義推理,去掉無用或冗余的規(guī)則或知識。
(3)知識挖掘?qū)?。?jīng)過規(guī)范化和形式化處理的多語言信息資源,對資源間的深層次或隱含的相互關系以及細粒度的語義知識還是缺乏揭示。知識挖掘?qū)拥墓δ馨▋蓚€方面:第一,知識發(fā)現(xiàn)。知識挖掘技術能夠充分利用多語言領域本體、用戶偏好本體、規(guī)則庫等提供的豐富的概念層次結構和領域先驗知識對其進行語義層面的深度知識挖掘,獲得深層次或多維度的知識、規(guī)則等。第二,不斷更新語義知識表示層中的本體。利用知識挖掘?qū)拥耐诰蛩玫恼Z義關聯(lián)知識、規(guī)則等,并結合專家經(jīng)驗知識指導多語言本體的動態(tài)構建和多語言本體學習。
(4)知識服務與應用層。該層的主要功能是利用知識挖掘?qū)又蝎@取的知識或規(guī)則,實現(xiàn)多種知識服務如多語言知識挖掘、多語言信息檢索、知識導航、個性化推薦服務等,以及各種應用如多語言問答系統(tǒng)、多語言領域本體的學習和構建。用戶可采用任一種自然語言提問,利用多語言本體的術語服務機制中的查詢詞擴展與精煉功能以及本體間的映射關系和推理功能,在語義層面上精確地表達自己的信息需求,并利用知識挖掘結果修正信息檢索的范圍和結果。
1.2基于多語言領域本體的知識挖掘特征
1.2.1信息資源的語義化表示
實現(xiàn)在語義層面上的知識挖掘是提高挖掘結果質(zhì)量的關鍵問題,語義網(wǎng)技術、本體的出現(xiàn)為解決這一問題提供了一種新的思路。多語言領域本體主要提供學科領域內(nèi)的核心概念、知識和概念間的關系,為語義分析和標注、知識挖掘、語義推理等提供可靠的先驗知識。利用多語言領域本體可以實現(xiàn)對多語言信息資源的一致性解釋和表示,表達信息資源內(nèi)部隱含的語義知識及其關聯(lián)關系,并解決了多語言信息資源的異構問題。
1.2.2挖掘準確度與共享性高
利用語義網(wǎng)、本體技術從語義層面對知識進行表示,通過導入多語言領域本體等提供的語義概念,實現(xiàn)對信息資源進行語義層面的知識挖掘,利用知識挖掘技術與方法提供給用戶高度相關的挖掘結果,提高了挖掘過程中知識抽取的可靠性,從而提高知識挖掘的準確性。同時,實現(xiàn)了知識的無障礙共享。多語言領域本體、用戶偏好本體等為個人、組織以及機器間的相互理解和交流提供了共同的、規(guī)范的概念定義和關系描述,消除了人們對語義的概念或知識的表達差異,從而實現(xiàn)挖掘所得知識、規(guī)則的無障礙共享。
1.2.3注重用戶偏好
筆者在建立知識挖掘過程中應用多語言領域本體、用戶偏好本體等。用戶偏好本體由高層次的抽象概念組成,全面真實地反映了用戶的需求類信息如個性化定制服務、用戶的行為類信息如信息檢索記錄、用戶反饋類信息如用戶服務評價信息等,提高了用戶的參與度,使挖掘的結果更易符合用戶的需求,減少無意義或無效的結果。
1.3實現(xiàn)多語言領域本體知識挖掘的關鍵技術
1.3.1構建多語言領域本體技術
多語言本體的構建有三種途徑:一是從頭開始構建新的語言本體;二是合并兩種或多種現(xiàn)有不同語言的本體成為一種新的多語言本體,即多語言本體間的映射;三是將現(xiàn)有的一種語言的本體翻譯成其他語言的本體從而構建多語言本體,即本體翻譯或本地化。在本文的實驗部分構建了一個小型的實驗本體,主要采用手工方法從頭開始構建中英雙語本體。通過設置數(shù)據(jù)屬性(Data Property)實現(xiàn)雙語本體相同語義概念的映射,包括相同語言中同義概念間的映射以及不同語言間的同義概念之間的映射。
1.3.2基于規(guī)則的推理技術
該技術是依靠推理工具或推理引擎利用規(guī)則推理算法,從已有的領域知識庫或本體庫中推理出隱含的知識、關系的過程。首先要在領域知識庫或本體庫的基礎上結合規(guī)則推理技術建立適用于領域知識的規(guī)則庫,然后推理系統(tǒng)借助推理工具或推理引擎以及利用一定的推理算法完成知識庫、規(guī)則庫的加載與解析,在此基礎上完成本體庫或基于本體庫的推理。規(guī)則庫主要有兩種來源:一是本體庫中本體自身蘊含的規(guī)則;二是在本體庫和知識庫的基礎上建立適用于領域的規(guī)則。在定義了領域規(guī)則后,采用合適的規(guī)則描述語言對所構建的規(guī)則進行形式化描述,從語言的權威性、表達能力和推理引擎的支持等角度考慮,選用SWRL作為規(guī)則描述語言。
2.1實驗環(huán)境
本實驗的計算機操作系統(tǒng)是Win7,所需要的工具包括本體構構建與編輯工具Protégé、Java集成開發(fā)環(huán)境與工具Eclipse、基于Java的開源代碼本體操作工具包Jena以及Jena自帶的推理機。Protégé作為本體的編輯工具是一個免費和開源的工具,界面友好,用戶不用掌握本體描述語言也可以直接對類、屬性等進行檢查、瀏覽、編輯和修改等操作,它支持RDF、OWL等多種本體描述語言。Eclipse是一個開放源代碼的、基于Java可擴展的開發(fā)框架與平臺,可以將Eclipse作為Java的集成開發(fā)環(huán)境(IDE)使用。Jena是由惠普實驗室開發(fā)的Java開發(fā)開源工具包,用于語義網(wǎng)中應用程序的開發(fā)。Jena框架功能主要包括:以RDF/XML、三元組形式解析RDF文件;對RDFS、OWL、DAML+OIL等本體進行操作;利用數(shù)據(jù)庫保存數(shù)據(jù);提供查詢模型;基于Jena推理引擎進行基于規(guī)則的推理等。
2.2實驗內(nèi)容
本實驗中知識挖掘?qū)ο蟀▋煞矫?,即構建的中英雙語領域本體以及中英雙語對照信息資源,所使用的知識挖掘技術為基于規(guī)則的語義推理技術。
遵循本體構建原則,利用上文中介紹的本體構建的技術體系,使用本體編輯工具Protégé構建中英雙語本體,給定一段中英對照文本,對文本中的實體及其關系進行分析,利用本體對文本進行標注,并將標注的結果作為本體的實例添加在本體中并進行存儲。分析文本中實體之間的關系,在此基礎上建立實例的規(guī)則并使用SWRL規(guī)則描述語言對其進行形式化形成規(guī)則庫文件。在Eclipse環(huán)境下加載本體和相應的規(guī)則庫文件,采用Java語言編程,利用規(guī)則進行本體的語義推理,從而實現(xiàn)中英雙語本體的知識挖掘。
2.3實現(xiàn)過程
2.3.1多語言領域本體的構建
本實驗使用Protégé4.3.0手工構建雙語本體,步驟如下:
(1)確定主要的概念,建立類及類的層次。構建大學課程教育的中英雙語本體,該本體包括1個一級類為大學教育;5個二級類為課程、教師、教師職稱、學生、教育層次;6個三級類:在課程類型下建立3個三級類,分別為本科課程、碩士課程、博士課程;在教育層次下建立3個三級類,分別為本科教育、碩士教育和博士教育。利用Protégé建立類以及類與類之間的等級結構,完成后選擇“OWLViz”,本體的結構圖如圖2所示。
圖2 大學課程教育本體的可視化結構圖
筆者通過設置數(shù)據(jù)屬性(Data Property)實現(xiàn)雙語本體相同語義概念的映射,包括相同語言中同義概念間的映射和不同語言間的同義概念之間的映射,從而構建中英雙語本體。具體而言,在數(shù)據(jù)屬性中的Annotation Properties(注釋屬性)選項下建立數(shù)據(jù)屬性hasName,利用hasName屬性添加不同語言的同義概念。利用hasName屬性下建立的子屬性hasSynonymous,可添加每個類的同義中文和英文的概念或詞匯。
在數(shù)據(jù)屬性中的Annotation Properties下建立類的數(shù)據(jù)屬性hasName屬性,對建立的本體中的每一個類分別添加hasName屬性,輸入屬性值為相應的類的中文和英文名稱,從而完成中英概念類的對照。以“課程”類為例,在Protégé中選擇Annotation選項卡,選擇屬性“hasName”,在屬性值Value中輸入“Course”,在Lang中輸入“en”以表示為英文類名,則完成英文類名的添加(見圖3)。采用同樣的方式添加類的中文名稱,只需在Lang中輸入“zh”以表示中文即可?!罢n程”類建立的中英文對照類名如圖4所示。采用上述方式對構建的中英雙語本體中的每一個類添加相應的中英文類名,即完成大學課程教育中英雙語本體的構建。
圖3 “課程”類的英文類名添加過程圖
圖4 “課程”類所建立的中英文對照類名
(2)建立屬性及屬性的約束。在OWL本體中,屬性關系可以分為對象屬性(Object Property)和數(shù)據(jù)屬性(Data Property),前者表示概念之間的關系,后者表示每個概念的基本信息。大學課程教育中英雙語本體中各個概念之間的語義關系是通過設置對象的屬性完成的,共建立了30個對象屬性(見表1),具有互逆關系的對象屬性在Protégé中通過設置“Inverse Of”來實現(xiàn)。在Protégé中對相應的類分別設置其對象屬性,對于具有屬性約束的要設置相應的屬性約束。
表1 大學教育本體中設置的對象屬性
(3)本體存儲,將已構建的本體存儲為OWL文件,以便用于語義推理和挖掘。
2.3.2語義標注與本體規(guī)則庫的構建
給定圖5所示中英雙語對照文本,分析并提取文本中的實體以及實體間的關系,利用上面構建的學校本體對其進行語義標注,標注的結果作為本體的實例添加在本體中。
圖5 中英雙語對照文本
筆者抽取中英對照實體18對36個,分別在本體類本科課程下建立信息管理、圖書館學概論2個實例;在碩士課程下建立信息檢索、信息資源建設2個實例;在博士課程下建立數(shù)據(jù)挖掘、信息服務2個實例;在教師下建立楊靜、裴蓓和劉然3個實例;在學生下李靜、李娜和蕭涵3個實例。以同樣的方法對在相應的概念類中分別建立相應的英文實例,然后分別對每一個實例設置其對象屬性和屬性的約束,并保存為owl格式的文件,作為下面語義推理與挖掘的輸入。由于實例以及實例之間的對象關系較多,不再一一贅述。
對構建的學校教育雙語本體中實例之間的關系進行分析,定義本體的推理規(guī)則。對分析的規(guī)則采用SWRL規(guī)則描述語言形式化描述,可得到多語言本體實例的完整的規(guī)則庫文件,其中包含64條實例的對象屬性推理規(guī)則。因篇幅有限,本文僅給出部分形式化的SWRL規(guī)則庫文件(見圖6)。在此基礎上,利用Jena包中的推理引擎中綁定所建立的規(guī)則庫文件以及所建立的學校教育中英雙語本體文件,然后進行多語言領域本體的基于規(guī)則推理的知識挖掘。
圖6 本體的規(guī)則庫文件(部分)
2.3.3基于語義推理的知識挖掘
筆者主要利用Java編程工具E-clipse、Jena工具包進行基于本體規(guī)則的語義推理,挖掘?qū)嵗须[含的知識和關系,實現(xiàn)知識的挖掘。在Eclipse中通過修改工程的Java創(chuàng)建路徑的方法導入Jena jar文件,可以在Eclipse中調(diào)用Jena API完成本體知識庫(文件)和規(guī)則庫(文件)的加載、解析和處理。然后編寫相應的程序處理本體庫和規(guī)則庫,實現(xiàn)基于規(guī)則的語義推理,關鍵的代碼如下:
public class JenaInf{
public void getInf(){
//加載規(guī)則文件
Modelm = ModelFactory.createDefaultModel();
Resource configuration = m.createResource();
configuration.addProperty (ReasonerVocabulary.
PROPruleMode,"hybrid");
configuration.addProperty (ReasonerVocabulary.
PROPruleSet,"data/rules.rules");/
//創(chuàng)建推理機
Reasonerreasoner=GenericRuleReasonerFactory.
theInstance().create(configuration);
//加載本體文件
Model data = FileManager.get ().loadModel ("file:
data/UniversityEducation.owl");
//獲取具有本體數(shù)據(jù)和規(guī)則的模型
InfModelinfmodel= ModelFactory.createInfModel
(reasoner,data);
//獲取規(guī)則推理結果
StmtIteratori = infmodel.getDeductionsModel ().
listStatements();
while (i.hasNext()){
String st =PrintUtil.print(i.nextStatement());
if(st.startsWith("(http://www.semanticweb.
org/lixin")){
System.out.println (st.replaceAll("http://www.se
manticweb.org/lixin/ontologies/2015/3/Universi
tyEducation#",""));
}
}
}
public static void main(String[]args){ newJenaInf().getInf();
}
}
2.4實驗結果與分析
運行該程序,可得到基于規(guī)則的語義推理的部分結果,見圖7。
圖7 基于規(guī)則的語義推理程序運行結果(部分)
由于Eclipse界面有限,無法展示全部推理結果,且推理結果中包含一些無用的結果,因此得到的結果進行整理并剔除部分無用結果,得到推理的結果見表2(篇幅有限,僅列出部分結果)。由表2可知,基于規(guī)則的語義推理挖掘出了李靜(Jing Lee)可以上的課程有信息管理、Information Management、圖書館學概論、Library Introduction,副教授裴蓓(Bee Pei)可以教的課程有信息管理、Information Management、圖書館學概論、Library Introduction、信息資源建設、Information Construction、信息檢索、Information Retrieval等實體之間隱含的知識與關系,實現(xiàn)了基于規(guī)則推理的中英雙語本體的知識挖掘。
表2 基于規(guī)則的部分推理結果
2.5多語言領域本體知識挖掘的應用
(1)應用于知識服務?;诙嗾Z言領域本體的知識挖掘技術可對多語言信息資源進行處理,以挖掘其隱含的、具有潛在價值的知識,分析知識內(nèi)容之間的關聯(lián),從而提供基于語義的、面向內(nèi)容的知識服務。這種深層次的知識服務依靠多語言領域本體進行語義特征的提取,利用知識挖掘技術進行分類、聚類分析等處理,從而挖掘出多語言信息資源中隱藏的知識及其之間的語義關聯(lián)關系。圖書館可以利用基于多語言領域本體的知識挖掘結果開展學科知識服務,對用戶的需求進行收集、分析、規(guī)范化處理和表達;采用多語言知識挖掘技術對圖書館數(shù)據(jù)庫進行知識挖掘,獲取隱藏的、深層次的學科知識以及知識之間的語義關聯(lián),將滿足用戶需求的知識挖掘的結果提供給用戶。
(2)應用于多語言信息檢索。將知識挖掘技術應用于多語言信息檢索,挖掘并分析用戶需求與多語言信息資源之間主題的相關性,有助于實現(xiàn)用戶需求和多語言信息資源之間的精確匹配,提高檢索效率并優(yōu)化檢索結果,具體方法有:①提高檢索效率。利用基于多語言領域本體的知識挖掘技術可以對檢索對象進行預處理,例如利用知識挖掘中的聚類分析技術將文檔按照其語義聚類到特定的類別,在進行多語言信息檢索時可以直接將檢索目標定位到具體的類別,只需對該類別進行處理和檢索,從而減少了檢索所需的時間并提高了檢索效率。②優(yōu)化多語言檢索結果。多語言信息檢索是用戶需求與多語言信息資源的自動匹配過程,這一過程中以及在檢索的結果中利用知識挖掘技術可以獲取細粒度語義知識,解決檢索結果的優(yōu)化問題。檢索結果優(yōu)化的過程可抽象成對目標數(shù)據(jù)庫進行知識挖掘的過程,即將檢索結果的文檔集看作目標數(shù)據(jù)庫。多語言信息檢索結果中符合用戶需求的目標往往會頻繁出現(xiàn),可以利用基于本體的知識挖掘技術對結果進行挖掘,提取其中有價值的頻繁模式或規(guī)則等,然后利用其對檢索結果進行過濾和優(yōu)化。
筆者把基于多語言本體的知識挖掘作為研究目標,旨在利用知識挖掘技術從多語言信息資源挖掘出隱含的、未知的、有潛在應用價值的細粒度的語義知識,圍繞著該主題進行了相關研究,具體來說有兩方面:第一,構建了一個實驗型的中英雙語本體。利用Protégé構建了一個實驗型的中英雙語本體,實現(xiàn)了對多語言信息資源語義化、關聯(lián)化的組織與揭示。第二,提出了一個基于多語言本體的知識挖掘的框架并對其進行實現(xiàn)。首先,構建了一個實驗型的中英雙語本體。其次,利用該中英雙語本體對一段給定的中英對照文本進行語義標注,標注結果作為實例存儲在本體中,并在此基礎上構建了該中英雙語本體的規(guī)則庫。最后,選取Eclipse作為編程環(huán)境與工具,利用Jena本體推理機解析本體和規(guī)則文件,對文本中隱藏的知識和關系進行基于規(guī)則推理的知識挖掘。本文選取了基于規(guī)則的語義推理技術作為主要的實現(xiàn)技術,未來還可以探究其他傳統(tǒng)的知識挖掘技術在多語言語義知識挖掘中應用,具體的內(nèi)容包括基于內(nèi)容的多語言關聯(lián)挖掘研究、基于語義的概念挖掘研究、關聯(lián)規(guī)則、決策樹技術、神經(jīng)網(wǎng)絡技術以及機器學習技術在基于內(nèi)容的多語言知識挖掘中的應用研究。
參考文獻
[1] Internet World States[EB/OL]. [2014- 10- 02]. http:// www.internetworldstats.com/stats.htm.
[2]歐石燕.基于SOA架構的術語注冊和服務系統(tǒng)設計與應用[J].中國圖書館學報,2011,37(5):13- 25.
[3]周倩.基于User- Ontology的圖書館用戶數(shù)據(jù)挖掘研究[J].圖書館雜志,2006(10):58- 63.
[4]章成志.多語言領域本體學習研究[M].南京:南京大學出版社,2012:21- 22.
[5]王進.基于本體的語義信息檢索研究[D].合肥:中國科學技術大學,2006.
理論研究
收稿日期2015- 10- 22
作者簡介司莉,博士生導師,武漢大學信息資源研究中心教授,圖書館學系主任;李鑫,武漢大學信息管理學院碩士研究生。