周 宇
ZHOU Yu
(河南教育學(xué)院 信息技術(shù)系,鄭州 450046)
基于領(lǐng)域本體的Web服務(wù)發(fā)現(xiàn)研究
Research on Web service discovery based on domain ontology
周 宇
ZHOU Yu
(河南教育學(xué)院 信息技術(shù)系,鄭州 450046)
隨著對Web服務(wù)復(fù)用、組合研究的不斷深入,Web服務(wù)發(fā)現(xiàn)已成為一個主要面向服務(wù)計算領(lǐng)域的研究熱點問題,并以查準(zhǔn)率、查全率和查詢效率作為評價其效能的主要指標(biāo)。據(jù)此本文提出了一個領(lǐng)域本體的構(gòu)建方法來擴(kuò)展用戶查詢端查詢的語義精確性,可以提高服務(wù)構(gòu)件的查準(zhǔn)率和查全率。另外本文還實現(xiàn)了一個基于領(lǐng)域本體的服務(wù)搜索引擎原型系統(tǒng),可以很好地達(dá)到對服務(wù)查詢效能方面的提高。
領(lǐng)域本體;服務(wù)發(fā)現(xiàn);查詢;搜索引擎
發(fā)現(xiàn)服務(wù)是面向服務(wù)Web軟件開發(fā)中的一個關(guān)鍵技術(shù),近年來關(guān)于服務(wù)發(fā)現(xiàn)的研究都是考慮到當(dāng)前公共UDDI上注冊的Web服務(wù)缺少語義描述,于是都各自增加了對Web服務(wù)的語義描述,但這些方法在實際操作上仍然存在諸多困難[1]我們提出的方法與其它方法的不同及優(yōu)勢在于:
1)擴(kuò)展及求精客戶端查詢請求,提高查準(zhǔn)率和查全率;
2)對現(xiàn)有搜索引擎擴(kuò)展實現(xiàn)了一個原型服務(wù)搜索引擎。解決了其它方法實際操作比較困難的問題。因為目前我們的服務(wù)庫仍然是傳統(tǒng)意義上的www,而非語義Web,所以考慮如何在目前的www上提高服務(wù)的搜索效率是有意義的。
Web服務(wù)使用標(biāo)準(zhǔn)的、規(guī)范的XML進(jìn)行描述,該描述包括消息格式、傳輸協(xié)議和位置,能夠快速地開發(fā)、發(fā)現(xiàn)、發(fā)布和動態(tài)地綁定應(yīng)用服務(wù)[2]。Web服務(wù)發(fā)現(xiàn)是Web服務(wù)中的關(guān)鍵問題之一,Web服務(wù)發(fā)現(xiàn)則是使服務(wù)使用者找到合適的功能,并使Web服務(wù)的自動組合成為可能??梢圆捎眯畔z索中的某些評價標(biāo)準(zhǔn)來評價Web服務(wù)發(fā)現(xiàn)技術(shù)的性能,例如查準(zhǔn)率和查全率等[3]。
本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關(guān)系的明確定義。OWL-S[4]就是一種采用本體描述語言O(shè)WL定義的一套專門描述Web服務(wù)的本體。 OWLS作為一個本體,其頂層結(jié)構(gòu)分為服務(wù)概要、服務(wù)模型、服務(wù)綁定三個部分。
領(lǐng)域本體的目標(biāo)是捕獲相關(guān)的領(lǐng)域知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的概念,并給出這些概念和概念之間相互關(guān)系的明確定義,減少了由于概念理解的歧異所產(chǎn)生的錯誤和失誤,方便了基于功能的服務(wù)發(fā)現(xiàn)和組合,同時還彌補(bǔ)了UDDI基于關(guān)鍵字的查找技術(shù)的不足[5]。
目前服務(wù)發(fā)現(xiàn)方法都是考慮到當(dāng)前公共UDDI上注冊的Web服務(wù)缺少語義描述,于是都各自增加了對Web服務(wù)的語義描述。本文提出的方法主要是通過建立領(lǐng)域本體來擴(kuò)展用戶查詢端查詢的語義精確性。我們建立了一個領(lǐng)域本體,服務(wù)查詢是基于領(lǐng)域本體的。領(lǐng)域本體為服務(wù)查詢提供專門領(lǐng)域知識。
我們用RDF (Resource Description Framework,資源描述框架)建立了一個計算機(jī)領(lǐng)域本體。RDF是一個表示www上資源信息的語言,用來處理元數(shù)據(jù)的XML應(yīng)用,能夠清楚地表示信息語義,并且是機(jī)器可理解的,提供推理支持。RDF 使用 Web 標(biāo)識符來標(biāo)識事物,并通過屬性和屬性值來描述資源。一個RDF文件包含多個資源描述,而一個資源描述是由多個語句構(gòu)成,一個語句是由資源、屬性類型、屬性值構(gòu)成的三元體,表示資源具有的一個屬性。RDF用于描述Web站點和頁面,由于使用的是結(jié)構(gòu)化的XML數(shù)據(jù),搜索引擎可以理解元數(shù)據(jù)的精確含義,使得搜索變得更為智能和準(zhǔn)確,
在RDF中,如下的英文陳述:" http://www.example.org/index.htmlhasacreatorwhosevalueisJohnSmith",用RDF圖的描述如圖1所示。
圖1 用RDF圖描述的一個陳述
在RDF圖中利用節(jié)點和弧作為表達(dá)陳述的元素。一個陳述用RDF圖可以表示為:
一個表示主體的節(jié)點(http://www.example.org/index.html) :
一個表示客體的節(jié)點(John Smith ) ;
一個由主體節(jié)點指向客體節(jié)點的表示謂詞的弧 (http://www.example.org/terms/creator);
圖1用RDF/XML可以用來表示如下:
在服務(wù)發(fā)現(xiàn)的研究中,基于關(guān)鍵詞匹配的服務(wù)查詢具有以下缺陷:1)對所需查詢的目標(biāo)不能準(zhǔn)確描述;2)不能度量候選者和查詢目標(biāo)間的符合程度。這兩點直接影響到搜索的查準(zhǔn)率。而基于領(lǐng)域本體的服務(wù)查詢則可以避免上述缺陷。
基于領(lǐng)域本體的服務(wù)查詢主要步驟如下:1)轉(zhuǎn)換初始化查詢?yōu)镽DF查詢;2)查詢推理和查詢擴(kuò)展?;陬I(lǐng)域本體的服務(wù)查詢系統(tǒng)體系結(jié)構(gòu)如圖2所示。
圖2 基于領(lǐng)域本體的服務(wù)查詢系統(tǒng)結(jié)構(gòu)圖
用戶可以用自然語言設(shè)置服務(wù)構(gòu)件查詢。系統(tǒng)轉(zhuǎn)換這種查詢?yōu)镽DF圖,這個RDF圖將與表示為RDF圖的www資源進(jìn)行匹配。例如:查詢:"what are the components of Application system?",可以表示為圖3所示的RDF圖:
圖3 服務(wù)構(gòu)件查詢圖
利用以上構(gòu)造好的領(lǐng)域本體我們實現(xiàn)了一個的基于本體的服務(wù)搜索工具,能對用戶的初始查詢進(jìn)行擴(kuò)展,從而構(gòu)造一個更加完整和準(zhǔn)確的概念和知識,并以修正后的查詢利用檢索引擎來匹配資源。該搜索引擎系統(tǒng),包括用戶數(shù)據(jù)庫服務(wù)器、用戶接口及登錄、資源描述、Web信息搜集器、檢索器、索引器和用戶分析器等功能部分。其結(jié)構(gòu)如圖4所示。
搜索引擎主要組成部分介紹:
1)Web信息采集器:信息采集器對整個搜索引擎的體系結(jié)構(gòu)有很大影響,是搜索引擎的一個重要組成部分?;诒倔w的Web信息采集的功能包括爬蟲管理、爬蟲算法、信息監(jiān)控、數(shù)據(jù)更新、數(shù)據(jù)存儲以及數(shù)據(jù)壓縮和通信模塊。
移動爬蟲運行在遠(yuǎn)程Web服務(wù)器上,將集中在服務(wù)器端的處理在信息采集過程中,移動爬蟲將在Internet中Web站點之間的移動,對Web站點進(jìn)行“本地采集”以及對采集的數(shù)據(jù)進(jìn)行處理,最后將壓縮的數(shù)據(jù)傳回服務(wù)器端處理;接著移動爬蟲繼續(xù)遷移到其它Web站點進(jìn)行信息采集,其遷移路徑采用自適應(yīng)遷移策略控制,采用該策略可以減少網(wǎng)絡(luò)數(shù)據(jù)傳輸量和縮短工作時間;移動爬蟲的并行度控制策略可以控制信息采集器中移動爬蟲的個數(shù),這樣就不會過分加重遠(yuǎn)程Web站點的負(fù)載,增強(qiáng)系統(tǒng)的穩(wěn)定性。
圖4 基于領(lǐng)域本體的搜索引擎結(jié)構(gòu)示意圖
圖5 基于領(lǐng)域本體的網(wǎng)絡(luò)爬蟲工作流程圖
網(wǎng)絡(luò)爬蟲與本體技術(shù)的融合是搜索引擎的一種新的模式。 圖5描述了基于本體的網(wǎng)絡(luò)爬蟲工作流程圖。
2)索引器:索引器把下載的網(wǎng)頁進(jìn)行關(guān)鍵字提取,把這個文檔內(nèi)的全部單詞分別提取出來放在數(shù)組或者鏈表中,然后依次對每個單詞進(jìn)行索引,得到的索引庫為全文索引數(shù)據(jù)庫。充分利用分布式本體的計算優(yōu)勢,將索引器的一部分功能如對文本解析建立文本索引、建立圖像內(nèi)容的特征索引等處理分布式到遠(yuǎn)程Web站點上處理,最后由移動爬蟲將壓縮后的結(jié)果傳送到索引服務(wù)器端進(jìn)行匯總、分類處理,減輕了服務(wù)器端的負(fù)載。檢索器將這兩部分索引文件組織成特定的數(shù)據(jù)結(jié)構(gòu)供檢索器查詢檢索。當(dāng)Web頁面數(shù)據(jù)發(fā)生更新時索引數(shù)據(jù)也需要更新,網(wǎng)頁數(shù)據(jù)的更新可以觸發(fā)索引的更新,因為網(wǎng)頁數(shù)據(jù)的更新可以根據(jù)駐留在服務(wù)器端的模塊及時反饋到服務(wù)器端。
3)檢索器:檢索器模塊具有以下四項功能:匹配計算、相關(guān)反饋、結(jié)果排序和日志分析。
功能就是接受用戶提交的查詢請求,按照查詢條件在索引庫中搜索滿足條件的文件,并根據(jù)用戶定制的過濾條件和排序因素組織搜索結(jié)果集,返回給用戶接口。本文搜索引擎的檢索器就是利用索引數(shù)據(jù)庫提供的特征索引庫、圖片對應(yīng)網(wǎng)頁的全文索引庫、關(guān)鍵字索引庫以及超鏈接分析庫和查詢歷史庫等多個數(shù)據(jù)源,實現(xiàn)對用戶輸入關(guān)鍵字的準(zhǔn)確、快速的匹配。
4)用戶接口
用戶接口提供一系列查詢方式、選項以滿足用戶不同的查詢要求,將用戶的查詢請求提交給檢索器去匹配。檢索器將排序后的結(jié)果集返回給用戶。
用戶接口具備的主要功能為:待查文本的輸入、圖像特征提取、關(guān)鍵字和其他輸入的選擇、生成查詢描述、結(jié)果顯示、相關(guān)反饋方式查詢。在獲取了文本關(guān)鍵字或圖像的特征向量以及其他的一些輔助信息后,根據(jù)一定的規(guī)則和格式生成查詢描述,提交給檢索匹配模塊。從檢索器接收排序后的查詢結(jié)果后顯示在用戶界面中。
本文提出了一個領(lǐng)域本體的構(gòu)建方法,基于這個領(lǐng)域本體,表示了服務(wù)構(gòu)件的檢索過程,并且實現(xiàn)了一個基于領(lǐng)域本體的服務(wù)搜索引擎原型系統(tǒng),優(yōu)點是求精和擴(kuò)展用戶的初始查詢,支持用戶的模糊查詢,查全率和查準(zhǔn)率都得到了提高。特別是隨著Internet變成可重用軟件資源庫,搜索引擎支持構(gòu)件查詢是必須的。
[1] F.Baader,D.McGuinness,D.Nardi,and P.F.Patel-Schneider.Description Logic Handbook:Theory,Implemtation,and Applications.Cambridge University Press,2002.
[2] Gilmer Orth.The Web Services Framework:A Survey of WSDL,SOAP and UDDL Master's thesis,Vienna University of Technology,May,2002.
[3] Ankolekar A.,Burstein M.,Hobbs.J.R,et al.DAML-S:A Semantic Markup Language for Web Services.In:Proc.of International Semantic Web Conference (ISWC),pp.348-363,Sardinia,Italy,2002.
[4] OWL-S Coalition,OWL-S,available at http://www.daml.org/secviceslowl-s/,2005.
[5] DAML-S Coalition.OWL-S:Semantic Markup for Web Services.http://www.daml.org/services/owl-s/1.0/.in:ProceedingsoftheInternationalSemanticWebWorkingSymposium(SWWS)July30-Augustl,2001.
TP391
A
1009-0134(2010)12(上)-0217-03
10.3969/j.issn.1009-0134.2010.12(上).70
2010-08-21
周宇(1964 -),男,湖北人,講師,研究方向為計算機(jī)技術(shù)及應(yīng)用。