亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于本體的農(nóng)業(yè)數(shù)據(jù)語義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)*

2012-08-08 00:51:34徐曉文陳維斌李海波

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2012年19期

徐曉文，陳維斌，李海波

（華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，福建廈門 361000）

傳統(tǒng)的檢索大都是基于關(guān)鍵字的檢索，這種檢索只是在字面匹配上處理，不能充分表達(dá)語義信息，用戶的滿意度不高。針對(duì)這些問題，國內(nèi)外一些學(xué)者提出采用語義檢索的方法來解決。劉群等人提出對(duì)董振東先生創(chuàng)建的《知網(wǎng)》的研究，將每個(gè)詞的語義用多維義原表示，從義原相似度的角度出發(fā)解決詞語間相似性和相關(guān)性[1]；翟裕忠等人在語義網(wǎng)檢索方面開展了研究工作，開發(fā)了一個(gè)面向領(lǐng)域的語義搜索系統(tǒng)，該系統(tǒng)采用基于圖的查詢機(jī)制檢索出與被檢概念相關(guān)聯(lián)的語義對(duì)象列表[2]；田萱等人設(shè)計(jì)了一種計(jì)算語義相關(guān)度的模型，采用權(quán)重的思想描述概念間的聯(lián)系程度，通過在不同領(lǐng)域本體中的實(shí)驗(yàn)證明，語義相關(guān)度計(jì)算在查詢擴(kuò)展方面有顯著優(yōu)點(diǎn)[3]。國內(nèi)外對(duì)語義檢索及語義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)的研究已逐步預(yù)熱。本文主要研究基于農(nóng)業(yè)本體的語義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)，從領(lǐng)域本體的角度出發(fā)，融入關(guān)聯(lián)關(guān)系發(fā)現(xiàn)算法，實(shí)現(xiàn)較普通檢索更合理的語義關(guān)聯(lián)檢索。

1 語義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)相關(guān)理論

1.1 本體

本體（ontology）源自哲學(xué)上的一個(gè)概念，關(guān)注的是存在的本質(zhì)。斯坦福大學(xué)的 Gruber最早給出本體的定義：“本體是大多數(shù)人認(rèn)同、對(duì)概念體系的明確的、形式化的規(guī)范說明”[4]。W3C推薦的 OWL語言（Web Ontology Language，Web本體語言）是用戶可清晰編寫、機(jī)器可理解的、用于描述本體的形式化語言。

本文結(jié)合斯坦福大學(xué)提出的七步法[5]和農(nóng)業(yè)情報(bào)部編制的《農(nóng)業(yè)科學(xué)敘詞表》，對(duì)農(nóng)業(yè)領(lǐng)域本體的構(gòu)建過程描述如下：

（1）確定研究領(lǐng)域?yàn)檗r(nóng)業(yè)，根據(jù)《農(nóng)表》中的敘詞及關(guān)系描述，抽取類及子類；

（2）定義類間的等同、等級(jí)和相關(guān)關(guān)系；

（3）定義類的屬性和屬性類型等；

（4）采用 OWL 語言描述本體。

1.2 語義相關(guān)

基于本體的概念間的語義關(guān)系主要分為3種：父子關(guān)系、相等關(guān)系和相關(guān)關(guān)系。對(duì)于前2種關(guān)系，在構(gòu)建本體的時(shí)候就可以定義；對(duì)于第3種關(guān)系，根據(jù)關(guān)聯(lián)的緊密程度，又分為直接相關(guān)和間接相關(guān)。直接相關(guān)指本體中直接定義了概念間的關(guān)系，沒有經(jīng)過任何其他的概念；間接相關(guān)指某兩概念在本體中雖然沒有直接定義關(guān)系，卻通過其他概念產(chǎn)生了關(guān)聯(lián)。如在農(nóng)業(yè)本體中，“茶”和“肥料”是其中定義的相關(guān)的兩概念，“茶”和“產(chǎn)量”也是其中定義的相關(guān)的兩概念，依據(jù)間接相關(guān)，“肥料”和“產(chǎn)量”也是相互關(guān)聯(lián)的。

本文引用語義相關(guān)度來衡量概念之間的關(guān)聯(lián)度。定義若兩個(gè)概念沒有任何關(guān)聯(lián)，則其語義相關(guān)度為0；反之若兩個(gè)概念是完全相關(guān)的，則其語義相關(guān)度為1；若兩個(gè)概念存在一定的聯(lián)系，但聯(lián)系程度是未知的，定義其相關(guān)度的取值范圍為（0，1）。

2 基于本體的語義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)

語義檢索的目標(biāo)在于關(guān)聯(lián)發(fā)現(xiàn)，即從語義的角度發(fā)現(xiàn)與檢索概念相關(guān)的概念。本文在傳統(tǒng)檢索模型的基礎(chǔ)上，以語義相關(guān)度作為概念間相互關(guān)系的度量，提出了基于本體的語義關(guān)聯(lián)發(fā)現(xiàn)模型。該模型依據(jù)語義關(guān)聯(lián)發(fā)現(xiàn)算法發(fā)現(xiàn)相關(guān)概念，返回一系列滿足條件的結(jié)果。

2.1 基于本體的語義關(guān)聯(lián)發(fā)現(xiàn)模型

本文用一個(gè)四元組＜Q、O、F、S（q，o）＞表示語義關(guān)聯(lián)發(fā)現(xiàn)模型，該模型結(jié)構(gòu)如圖1所示。

圖1 基于本體的語義關(guān)聯(lián)發(fā)現(xiàn)模型

模型中各元素表示含義如下：

（1）Q是查詢?nèi)肟冢从脩糨斎氲牟樵冋?qǐng)求；

（2）O是領(lǐng)域本體庫，包含領(lǐng)域?qū)＜叶x的本體中的任何信息；

（3）F是構(gòu)建O與Q關(guān)系的機(jī)制，即用于發(fā)現(xiàn)與檢索概念相關(guān)概念的語義關(guān)聯(lián)算法；

（4）S（q，o）是模型出口，是經(jīng)由模型發(fā)現(xiàn)按相關(guān)度排序輸出的相關(guān)概念。

2.2 基于本體的語義關(guān)聯(lián)發(fā)現(xiàn)算法

2.2.1 傳統(tǒng)的概念相關(guān)度計(jì)算方法

傳統(tǒng)的基于本體的概念相關(guān)度計(jì)算方法是以本體的結(jié)構(gòu)信息為依據(jù)進(jìn)行計(jì)算。

中國科學(xué)院軟件研究所的朱禮軍[6]提出，兩個(gè)概念i與j之間的路徑距離越大，則其相關(guān)度就越低，由式（1）可知：

其中，dij指概念 i與 j的相關(guān)度，|Dij|表示概念 i與 j的路徑距離，α是當(dāng)i與j相關(guān)度為0.5時(shí)的路徑距離。

Rocha[7]等借鑒信息檢索中常用的IDF方法，采用式（2）計(jì)算概念間的相關(guān)度：

其中，dij是概念 i與 j的語義相關(guān)度，Dij是概念 i與 j在本體層次樹中的路徑長度。

2.2.2 本文提出的概念相關(guān)度計(jì)算方法

本文借鑒Rocha等人提出的概念間的長度越長，其關(guān)聯(lián)程度則越弱，以及共有屬性越多，相關(guān)度就越大的思想，改進(jìn)了計(jì)算概念A(yù)、B的相關(guān)度的方法，如式（3）：

其中，Rel（A，B）是檢索概念 A與目標(biāo)概念 B的語義相關(guān)度；WAtB代表概念 A、B共有的相關(guān)概念數(shù) （若相關(guān)，則增1），WtA是所有與概念A(yù)相關(guān)的概念數(shù)，DAB是檢索概念A(yù)和B在本體定義中的路徑長度（從0開始，若經(jīng)過概念數(shù)增 1，則長度增1）。

2.2.3 語義關(guān)聯(lián)發(fā)現(xiàn)算法

本文定義概念A(yù)、C在以概念B為條件下的相關(guān)度Rel（A，C）計(jì)算如式（4）：

為了比較實(shí)驗(yàn)結(jié)果和清晰顯示便于用戶選擇，需要對(duì)數(shù)據(jù)進(jìn)行歸一處理，方法如式（5）：

其中，Rel（M，i）代表歸一化后與概念 M相關(guān)的概念 i的語義相關(guān)度，Rel′（M，i）代表由式（3）或式（4）計(jì)算出的檢索概念M與概念i的相關(guān)度。

語義關(guān)聯(lián)發(fā)現(xiàn)算法處理步驟如下：

步驟（1）：輸入檢索概念 A；

步驟（2）：根據(jù)領(lǐng)域?qū)＜叶x的領(lǐng)域知識(shí)庫，得出與概念A(yù)直接相關(guān)的概念BList，及相關(guān)度BValueList；

步驟（3）：以檢索到的概念 BList為檢索條件，繼續(xù)查詢知識(shí)庫，得到與BList有關(guān)的概念CList，及相關(guān)度CValueList；

步驟（4）：根據(jù)間接語義相關(guān)度計(jì)算方法，得出與檢索概念A(yù)有關(guān)的間接相關(guān)概念CList并計(jì)算修正相關(guān)度CValueList；

步驟（5）：查看是否有已知概念或參照概念，若有則輸入已知概念D，若無則跳入步驟（8）；

步驟（6）：由專家知識(shí)庫，計(jì)算概念 A、D的相關(guān)度大小 DValue；

步驟（7）：采用間接相關(guān)度計(jì)算方法得出在概念 D為參照的前提下，與檢索概念A(yù)相關(guān)的概念DList，并將DList加入CList中，修正其參照后的相關(guān)度CValueList；

步驟（8）：歸一處理 BValueList、CValueList與檢索概念A(yù)的相關(guān)度；

步驟（9）：由排序函數(shù)將相關(guān)概念按照相關(guān)度從大到小的順序輸出。

2.3 算法性能與實(shí)驗(yàn)結(jié)果比較

本文根據(jù)1.1節(jié)的方法構(gòu)建了茶葉領(lǐng)域本體。選取朱禮軍提出的路徑距離計(jì)算方法（見式（1），簡稱朱禮軍法）、Rocha提出的方法（見式（2），簡稱 Rocha法）進(jìn)行實(shí)驗(yàn)參照對(duì)比。挑選10對(duì)概念，分別計(jì)算這10對(duì)概念的相關(guān)度，并將計(jì)算結(jié)果與傳統(tǒng)的語義相關(guān)度計(jì)算方法比較，結(jié)果如圖 2所示。

通過圖2在茶葉知識(shí)庫中三種方法對(duì)以“產(chǎn)量”為檢索目標(biāo)的與其相關(guān)的一系列相關(guān)概念的對(duì)比發(fā)現(xiàn)，朱禮軍法和Rocha法除了圖表中列出的相關(guān)概念外，不能檢索出其他的相關(guān)概念，而本文方法還能檢索出1.65%的其他概念，因此，本文方法在發(fā)現(xiàn)隱含資源方面，比傳統(tǒng)方法有很大改進(jìn)。

觀察圖2數(shù)據(jù)，本文方法與朱禮軍法和Rocha法計(jì)算出的茶葉“產(chǎn)量”與“色澤”的相關(guān)度存在明顯差異，它們計(jì)算出來的這個(gè)值均是與“產(chǎn)量”相關(guān)的最大值，這是有悖于專家經(jīng)驗(yàn)的，且它們?cè)诰C合計(jì)算與“產(chǎn)量”相關(guān)的概念時(shí)，除了“色澤”（與常理相悖的誤差結(jié)果），其他結(jié)果均無明顯的差異，沒有關(guān)系的權(quán)重的分配。在經(jīng)驗(yàn)知識(shí)中，茶葉的“產(chǎn)量”與“水”存在很大關(guān)聯(lián)，從數(shù)據(jù)對(duì)比顯示說明本文方法計(jì)算出的結(jié)果不僅符合專家經(jīng)驗(yàn)，而且各個(gè)相關(guān)值權(quán)重分配清晰明顯。由結(jié)果可知，該方法符合領(lǐng)域相關(guān)性，計(jì)算得出的結(jié)果可用于完善領(lǐng)域知識(shí)庫。

3 茶葉語義檢索原型系統(tǒng)的實(shí)現(xiàn)

3.1 系統(tǒng)結(jié)構(gòu)模型設(shè)計(jì)

采用 MVC（Model View Controller）設(shè)計(jì)模型的思想，將系統(tǒng)分為三層，分別為模型層、表現(xiàn)層和邏輯層。模型層是數(shù)據(jù)模型，包含本體知識(shí)庫和用戶信息庫；表現(xiàn)層包含用戶注冊(cè)登錄模塊和檢索結(jié)果的展示模塊；運(yùn)行層包含本體解析模塊、關(guān)鍵詞匹配模塊以及語義關(guān)聯(lián)發(fā)現(xiàn)模塊。

3.2 系統(tǒng)運(yùn)行結(jié)果

采用Java語言實(shí)現(xiàn)，調(diào)用開源工具包jena，對(duì)owl語言描述的本體進(jìn)行語義計(jì)算，檢索系統(tǒng)如下。輸入查詢請(qǐng)求 Q：產(chǎn)量，如圖 3所示。

采用排序函數(shù) S（q，o）輸出與檢索概念“產(chǎn)量”相關(guān)的概念，如圖4所示。得出的結(jié)果是在茶葉領(lǐng)域，與“產(chǎn)量”相關(guān)的按照從大到小的順序排列的一些概念及對(duì)應(yīng)的相關(guān)度大小。結(jié)果表明，該語義檢索系統(tǒng)能夠?qū)⒄Z義檢索融入到語義Web的實(shí)際應(yīng)用系統(tǒng)中，為各自的領(lǐng)域活動(dòng)進(jìn)行指導(dǎo)作用。

本文從本體語義深度及廣度方面，提出了基于本體的語義關(guān)聯(lián)發(fā)現(xiàn)模型，并將此模型應(yīng)用于農(nóng)業(yè)領(lǐng)域檢索，改進(jìn)了語義相關(guān)度計(jì)算方法。實(shí)驗(yàn)數(shù)據(jù)表明，新模型得到的結(jié)果與傳統(tǒng)的計(jì)算相關(guān)度的方法得到的結(jié)果相比，更符合人們對(duì)領(lǐng)域的認(rèn)識(shí)，結(jié)果更合理。但是還存在一些不足，如檢索效率的提高和智能問答如何實(shí)現(xiàn)等，這些不足有待在后續(xù)工作中得到改進(jìn)。

[1]劉群，李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].中文計(jì)算語言學(xué)，2002，7（2）：59-76.

[2]李景，孟憲學(xué)，蘇曉路.領(lǐng)域本體的構(gòu)建方法與應(yīng)用研究[M].北京：中國農(nóng)業(yè)科學(xué)技術(shù)出版社，2009.

[3]TIAN X， DU X， LI H.Computing degree of association based on different semantic relationships[C].Database and Expert Systems Applications of 2007.DEXA 07.18th International Workshop.IEEE Press，2007.

[4]GRUBER T R.Toward principles forthe design of ontologiesused forknowledge sharing [J].International Journal of Human Computer Studies，1995，43（5）：907-928.

[5]NOY N F，MCGUINNESSD L.Ontologydevelopment 101：A guide to creating your first ontology[C].Standford Knowledge Systems Laboratory Technical report KSL-01-05 and Standford Medical Informatics Technical Seport SMI-2001-0880，March 2001.

[6]朱禮軍，陶蘭，劉慧.領(lǐng)域本體中的概念相似度計(jì)算[J].華南理工大學(xué)學(xué)報(bào)（自然科學(xué)版）.2004，32（11）：148-149.

[7]ROCHA C， SCHWABE D， ARAGAO M P.Ahybrid approach for searching in the semantic web[C].Proceedings of the 13th International Conference on World Wide Web.ACM，2004.