常寶嫻,陳瑋瑋,李素娟
(南京工業(yè)大學(xué)理學(xué)院,南京 211816)
一種基于分布式rough本體的語(yǔ)義相似度計(jì)算方法
常寶嫻,陳瑋瑋,李素娟*
(南京工業(yè)大學(xué)理學(xué)院,南京 211816)
針對(duì)傳統(tǒng)的語(yǔ)義相似度計(jì)算方法缺少相應(yīng)領(lǐng)域本體和精確知識(shí)支撐等缺陷,提出一種基于分布式rough本體的語(yǔ)義相似度計(jì)算方法.通過(guò)半自動(dòng)構(gòu)建領(lǐng)域本體保證語(yǔ)義相似度計(jì)算的準(zhǔn)確度,采用rough的上下近似提高語(yǔ)義相似度計(jì)算的精確性,并通過(guò)實(shí)例驗(yàn)證了該算法的有效性.結(jié)果表明:該文方法不僅可減弱對(duì)領(lǐng)域?qū)<业囊蕾?lài),而且還能大幅提高語(yǔ)義相似度計(jì)算的查全率和準(zhǔn)確率.
rough本體;語(yǔ)義相似度;分布式;遠(yuǎn)程教育
互聯(lián)網(wǎng)作為人們獲取信息的重要渠道,其規(guī)模在不斷擴(kuò)大,如何提高信息的準(zhǔn)確度成為目前研究的熱點(diǎn)之一.針對(duì)現(xiàn)有的網(wǎng)絡(luò)信息難以運(yùn)用計(jì)算機(jī)進(jìn)行處理的現(xiàn)狀,Bemers-Lee[1-2]提出了語(yǔ)義網(wǎng)的概念.而作為語(yǔ)義網(wǎng)基礎(chǔ)的本體則采用了規(guī)范化語(yǔ)言對(duì)概念和關(guān)系進(jìn)行形式化說(shuō)明,使得計(jì)算機(jī)理解及互操作成為可能[3-4].與基于語(yǔ)法的信息檢索不同,本體在信息檢索中的應(yīng)用能夠顯著提高檢索的精確率和返回率[5].本體信息檢索領(lǐng)域中概念的語(yǔ)義相似度計(jì)算起著重要的作用.語(yǔ)義相似度的計(jì)算通過(guò)對(duì)本體要素的語(yǔ)義距離或者貼近度的度量,能綜合評(píng)價(jià)本體的復(fù)用及重用的可能性,也可作為本體融合與集成等任務(wù)的前期評(píng)估[6].近年來(lái),國(guó)內(nèi)外出現(xiàn)的語(yǔ)義相似度計(jì)算的相關(guān)研究成果大多根據(jù)某種分類(lèi)體系來(lái)計(jì)算,或利用大規(guī)模的語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),如李鵬等[7]提出基于語(yǔ)義詞典的樹(shù)狀層次結(jié)構(gòu)中的路徑長(zhǎng)度計(jì)算語(yǔ)義相似度;夏天[8]提出基于詞語(yǔ)空間向量模型統(tǒng)計(jì)并計(jì)算特征詞向量間的相似度.然而,由于分類(lèi)體系受主觀因素影響較大,難以反映客觀性能,語(yǔ)料庫(kù)統(tǒng)計(jì)法則因依賴(lài)于語(yǔ)料庫(kù)的優(yōu)劣而存在數(shù)據(jù)稀疏的問(wèn)題,并伴有噪聲干擾;因此,Slowinski[9],Ishizu[10]等提出利用rough集擴(kuò)展本體,以rough關(guān)系作為概念的上下近似,從原始語(yǔ)義和數(shù)據(jù)層面規(guī)避了主觀性和稀疏性等問(wèn)題.本文應(yīng)用rough本體改善基于經(jīng)典本體的信息檢索方法,探討了rough本體的構(gòu)建、計(jì)算、匹配等關(guān)鍵技術(shù),采用分布式計(jì)算方法從現(xiàn)有網(wǎng)頁(yè)頁(yè)面提取并構(gòu)建rough領(lǐng)域本體,建立rough本體語(yǔ)義相似度計(jì)算模型,設(shè)計(jì)相關(guān)語(yǔ)義相似度計(jì)算算法,并通過(guò)遠(yuǎn)程教育領(lǐng)域語(yǔ)義相似度的計(jì)算驗(yàn)證該方法的可行性和有效性.
基本步驟:首先根據(jù)基于主題相似度判定的垂直搜索引擎框架Nutch算法從初始地址集合中搜集出與研究主題相關(guān)的網(wǎng)頁(yè)集合,然后采用自然語(yǔ)言處理(natural language processing,NLP)處理網(wǎng)頁(yè)內(nèi)容,得出資源描述框架(resource description framework,RDF)數(shù)據(jù)并存入已設(shè)計(jì)的分布式非關(guān)系數(shù)據(jù)庫(kù)HBASE(Hadoop database),最后通過(guò)本文語(yǔ)義相似度計(jì)算算法計(jì)算概念間的語(yǔ)義相似度.
采用Nutch搜索引擎框架,有針對(duì)性地建立初始網(wǎng)頁(yè)地址集,利用Nutch垂直搜索算法對(duì)網(wǎng)頁(yè)進(jìn)行抓取,創(chuàng)建動(dòng)態(tài)判定矩陣
進(jìn)行主題相關(guān)性識(shí)別,其中wURL(u)為頁(yè)面u對(duì)應(yīng)的地址的權(quán)值,wCLK(u)為頁(yè)面u的點(diǎn)擊次數(shù)對(duì)應(yīng)的權(quán)值.wURL(u)=w(u)[δ+(1-δ)S(T,Q)],w(u)為頁(yè)面的PageRank值,S(T,Q)為所得鏈接文本T和主題詞集Q的相似度,δ為調(diào)整參數(shù),一般取0.4~0.8.
資源描述框架可通過(guò)斷言三元組表示為
下文簡(jiǎn)稱(chēng)SPO.斷言的主語(yǔ)必須通過(guò)通用資源標(biāo)識(shí)符 (uniform resource identifier,URI)識(shí)別.謂語(yǔ)必須在詞匯表中定義,以便與詞匯表的名稱(chēng)空間URI關(guān)聯(lián).賓語(yǔ)可以通過(guò)URI或文本識(shí)別,如果該賓語(yǔ)是另一個(gè)斷言的主語(yǔ),則其必須通過(guò)URI識(shí)別.謂語(yǔ)的主要作用是定義主語(yǔ)和賓語(yǔ)之間的關(guān)系.通過(guò)NLP文本處理工具處理大量文本數(shù)據(jù)得到相應(yīng)的斷言三元組.
根據(jù)斷言三元組設(shè)計(jì)成不同的HBASE表結(jié)構(gòu):SPO(主謂賓)、POS(謂賓主)與OSP(賓主謂).3張表的表定義相同,每張表只包含一個(gè)簇列(分布式數(shù)據(jù)庫(kù)的訪問(wèn)控制單元),每行數(shù)據(jù)均存儲(chǔ)在一個(gè)簇列中.區(qū)別在于所存放的數(shù)據(jù)不同,SPO表的分布式數(shù)據(jù)庫(kù)的主鍵是(主語(yǔ),謂語(yǔ)),簇列中存放賓語(yǔ)值;POS表的分布式數(shù)據(jù)庫(kù)的主鍵是(謂語(yǔ),賓語(yǔ)),簇列中存放主語(yǔ)值;OSP表的分布式數(shù)據(jù)庫(kù)的主鍵是(賓語(yǔ),主語(yǔ)),簇列中存放謂語(yǔ)值.將NLP文本處理得到的斷言三元組,根據(jù)其位置關(guān)系及內(nèi)容存儲(chǔ)至對(duì)應(yīng)的SPO、POS或OSP表中.
將處理得到的SPO近似空間的整個(gè)個(gè)體全集U劃分成等價(jià)類(lèi)集合,即以屬性集Q作為等價(jià)關(guān)系構(gòu)造近似空間所得到的結(jié)果.
定義1 對(duì)于概念A(yù),其等價(jià)概念集R(A)為所有(S,P,O)三元組中P(O,S)=A的概念的集合,即
定義2 概念A(yù)的上近似概念集
定義3 概念A(yù)的下近似概念集
定義4 概念A(yù)與概念B的粗糙相似度S(A,B)為概念A(yù)、B的上近似概念集的交集與概念A(yù)、B下近似概念集的交集之和,即
通過(guò)上下近似關(guān)系可進(jìn)一步得到
其中sum(·)表示概念出現(xiàn)的次數(shù).
本文算法具體步驟如下:
步驟1 通過(guò)HBASE簇分割數(shù)據(jù)至HBASE每個(gè)子域.
步驟2 映射.
1)通過(guò)各個(gè)子域U i計(jì)算概念A(yù),B的等價(jià)概念子集R i(A),Ri(B);
2)參考定義2,3計(jì)算概念A(yù),B在每個(gè)子域里的上下近似概念集R*i(A),(A),R*i(B),(B);
3)計(jì)算在每個(gè)子域里概念A(yù),B的相似度
步驟3 約簡(jiǎn).統(tǒng)計(jì)所有子域的相似度,加權(quán)求和得到概念A(yù),B的相似度
通過(guò)遠(yuǎn)程教育領(lǐng)域的相關(guān)數(shù)據(jù)測(cè)試本文算法,初始網(wǎng)頁(yè)地址集合選取了教育領(lǐng)域內(nèi)比較著名的幾個(gè)網(wǎng)站,如中國(guó)現(xiàn)代遠(yuǎn)程與繼續(xù)教育網(wǎng)、中國(guó)遠(yuǎn)程教育網(wǎng)、21互聯(lián)遠(yuǎn)程教育網(wǎng)、中國(guó)農(nóng)村遠(yuǎn)程教育網(wǎng)等,將其網(wǎng)址作為Nutch搜索的輸入.抓取網(wǎng)站中涉及遠(yuǎn)程教育資源的頁(yè)面,參考幾個(gè)主要網(wǎng)站中重要詞匯表選取遠(yuǎn)程教育資源的重要概念,如課件、試題、教案、素材、問(wèn)題、答疑、名師、測(cè)評(píng)、名師課堂、教學(xué)視頻、試聽(tīng)課程、論文、備課筆記、聽(tīng)課筆記、教育禮儀、教學(xué)媒體、學(xué)習(xí)難點(diǎn)、相似課程、隨堂問(wèn)題、課堂反饋、輔導(dǎo)、信譽(yù)評(píng)價(jià)、學(xué)員動(dòng)態(tài)、學(xué)生作品、教育評(píng)估、模擬考試、技能培訓(xùn)等.根據(jù)Nutch垂直搜索算法,篩選出有效頁(yè)面1 235個(gè),然后對(duì)這些頁(yè)面采用SPO三元組參考重要概念進(jìn)行數(shù)據(jù)提取,得到37 542個(gè)三元組存入HBASE,依據(jù)公式(8)分為10個(gè)子域循環(huán)計(jì)算每?jī)蓚€(gè)重要概念間的相似度,最后對(duì)每個(gè)子域的計(jì)算值進(jìn)行加權(quán)求和得到每?jī)蓚€(gè)概念的相似度,并與基于Word Net語(yǔ)義相似度[11]的計(jì)算結(jié)果進(jìn)行比較,部分結(jié)果如表1所示.
由表1可見(jiàn),本文算法相比簡(jiǎn)單的關(guān)鍵詞匹配算法相似度較高,且在進(jìn)行大量數(shù)據(jù)處理時(shí)效率較高.
表1 語(yǔ)義相似度計(jì)算結(jié)果Tab.1 Result of computation
本文提出了一種基于分布式rough本體的語(yǔ)義相似度計(jì)算方法,其相似度計(jì)算準(zhǔn)確率較一般語(yǔ)義相似度計(jì)算方法高,且處理效率高,為大量數(shù)據(jù)的查詢(xún)處理提供了新的方法,對(duì)于構(gòu)建領(lǐng)域本體具備較強(qiáng)的借鑒意義.然而,本文在進(jìn)行SPO三元組數(shù)據(jù)提取時(shí),未考慮謂語(yǔ)詞匯對(duì)概念的影響,一定程度上影響了概念間相似度的準(zhǔn)確值,今后將在謂語(yǔ)詞匯對(duì)語(yǔ)義相似度的影響及領(lǐng)域本體的自動(dòng)化構(gòu)建方面作進(jìn)一步的研究.
[1]BERNERS-LEE T.Long live the web:a call for continued open standards and neutrality[J].Sci Am,2010,303(6):80-85.
[2]BERNERS-LEE T,HENDLER J,LASSILA O.The semantic web:a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities[J].Sci Am,2001,284(5):34-43.
[3]HITZLER P,HARMELEN F V.A reasonable semantic web[J].Semant Web,2010,1(1):39-44.
[4]孫茂圣,朱俊武,李斌.一個(gè)基于agent組織的web服務(wù)集成框架 [J].揚(yáng)州大學(xué)學(xué)報(bào):自然科學(xué)版,2009,12(4):60-65.
[5]TAGARELLI A,GULLO F.Evaluating PageRank methods for structural sense ranking in labeled tree data[C]//Proceedings of the 2nd International Conference on Web Intelligence,Mining and Semantics.New York,USA:ACM,2012:129-174.
[6]徐健,方安,洪娜.一種基于詞語(yǔ)相似度計(jì)算的本體映射方法 [J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013,29(2):36-42.
[7]李鵬,陶蘭,王弼佐.一種改進(jìn)的本體語(yǔ)義相似度計(jì)算及其應(yīng)用 [J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(1):227-229.
[8]夏天.漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算研究 [J].計(jì)算機(jī)工程,2007,33(6):191-194.
[9]SLOWINSKI R,GRECO S,MATARAZZO B.Rough sets in decision making[M]//MEYERS R A.Encyclopedia of complexity and systems science.New York:Springer,2009:7753-7787.
[10]ISHIZU S,GEHRMANN A,NAGAI Y,et al.Rough ontology:Extension of ontologies by rough sets[M]//HUTCHISON D,KANADE T,KITTLER J,et al.Lecture notes in computer science.Berlin:Springer-Verlag,2007,4557:456-462.
[11]ZHAO Lihua,ICHISE R.Aggregation of similarity measures in ontology matching[C]//The 5th International Workshop on Ontology Matching.Shanghai:[s.n.],2010:423-441.
A distributed computing method of semantic similarity based on rough ontology
CHANG Baoxian,CHEN Weiwei,LI Sujuan*
(Coll of Sci,Nanjing Univ of Technol,Nanjing 211816,China)
This paper presents a distributed computing method of semantic similarity based on rough ontology and improves the precision according to ontology,the completeness according to the upper approximation and low approximation of rough theory.It also improves the independence according to distributed data processing.An experiment of gathering web pages automatically of remote education is used to construct domain rough ontology and compute the semantic similarity.The experiment shows that the algorithm not only reduces the dependence of domain experts,but also greatly enhances the rates of completeness and precision.
rough ontology;semantic similarity;distributed;remote education
TP 311.51
A
1007-824X(2014)01-0060-03
2013-09-05.* 聯(lián)系人,E-mail:lisujuan1978@126.com.
江蘇省高校自然科學(xué)基金資助項(xiàng)目(11KJB520006).
常寶嫻,陳瑋瑋,李素娟.一種基于分布式rough本體的語(yǔ)義相似度計(jì)算方法 [J].揚(yáng)州大學(xué)學(xué)報(bào):自然科學(xué)版,2014,17(1):60-62,66.
(責(zé)任編輯 林 子)