亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于領(lǐng)域本體的Web服務(wù)發(fā)現(xiàn)研究

2010-04-11 08:08:00周宇

制造業(yè)自動化 2010年14期

關(guān)鍵詞：查準(zhǔn)率爬蟲服務(wù)器端

周宇

ZHOU Yu

（河南教育學(xué)院信息技術(shù)系，鄭州 450046）

基于領(lǐng)域本體的Web服務(wù)發(fā)現(xiàn)研究

Research on Web service discovery based on domain ontology

周宇

ZHOU Yu

（河南教育學(xué)院信息技術(shù)系，鄭州 450046）

隨著對Web服務(wù)復(fù)用、組合研究的不斷深入，Web服務(wù)發(fā)現(xiàn)已成為一個主要面向服務(wù)計算領(lǐng)域的研究熱點問題，并以查準(zhǔn)率、查全率和查詢效率作為評價其效能的主要指標(biāo)。據(jù)此本文提出了一個領(lǐng)域本體的構(gòu)建方法來擴(kuò)展用戶查詢端查詢的語義精確性，可以提高服務(wù)構(gòu)件的查準(zhǔn)率和查全率。另外本文還實現(xiàn)了一個基于領(lǐng)域本體的服務(wù)搜索引擎原型系統(tǒng)，可以很好地達(dá)到對服務(wù)查詢效能方面的提高。

領(lǐng)域本體；服務(wù)發(fā)現(xiàn)；查詢；搜索引擎

0 引言

發(fā)現(xiàn)服務(wù)是面向服務(wù)Web軟件開發(fā)中的一個關(guān)鍵技術(shù)，近年來關(guān)于服務(wù)發(fā)現(xiàn)的研究都是考慮到當(dāng)前公共UDDI上注冊的Web服務(wù)缺少語義描述，于是都各自增加了對Web服務(wù)的語義描述，但這些方法在實際操作上仍然存在諸多困難[1]我們提出的方法與其它方法的不同及優(yōu)勢在于：

1）擴(kuò)展及求精客戶端查詢請求，提高查準(zhǔn)率和查全率；

2）對現(xiàn)有搜索引擎擴(kuò)展實現(xiàn)了一個原型服務(wù)搜索引擎。解決了其它方法實際操作比較困難的問題。因為目前我們的服務(wù)庫仍然是傳統(tǒng)意義上的www，而非語義Web，所以考慮如何在目前的www上提高服務(wù)的搜索效率是有意義的。

1 基于領(lǐng)域本體的Web服務(wù)發(fā)現(xiàn)

Web服務(wù)使用標(biāo)準(zhǔn)的、規(guī)范的XML進(jìn)行描述，該描述包括消息格式、傳輸協(xié)議和位置，能夠快速地開發(fā)、發(fā)現(xiàn)、發(fā)布和動態(tài)地綁定應(yīng)用服務(wù)[2]。Web服務(wù)發(fā)現(xiàn)是Web服務(wù)中的關(guān)鍵問題之一，Web服務(wù)發(fā)現(xiàn)則是使服務(wù)使用者找到合適的功能，并使Web服務(wù)的自動組合成為可能?？梢圆捎眯畔z索中的某些評價標(biāo)準(zhǔn)來評價Web服務(wù)發(fā)現(xiàn)技術(shù)的性能，例如查準(zhǔn)率和查全率等[3]。

本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識，提供對該領(lǐng)域知識的共同理解，確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯，并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關(guān)系的明確定義。OWL-S[4]就是一種采用本體描述語言O(shè)WL定義的一套專門描述Web服務(wù)的本體。 OWLS作為一個本體，其頂層結(jié)構(gòu)分為服務(wù)概要、服務(wù)模型、服務(wù)綁定三個部分。

領(lǐng)域本體的目標(biāo)是捕獲相關(guān)的領(lǐng)域知識，提供對該領(lǐng)域知識的共同理解，確定該領(lǐng)域內(nèi)共同認(rèn)可的概念，并給出這些概念和概念之間相互關(guān)系的明確定義，減少了由于概念理解的歧異所產(chǎn)生的錯誤和失誤，方便了基于功能的服務(wù)發(fā)現(xiàn)和組合，同時還彌補(bǔ)了UDDI基于關(guān)鍵字的查找技術(shù)的不足[5]。

2 基于領(lǐng)域本體的服務(wù)查詢方法

2.1 領(lǐng)域本體的構(gòu)建

目前服務(wù)發(fā)現(xiàn)方法都是考慮到當(dāng)前公共UDDI上注冊的Web服務(wù)缺少語義描述，于是都各自增加了對Web服務(wù)的語義描述。本文提出的方法主要是通過建立領(lǐng)域本體來擴(kuò)展用戶查詢端查詢的語義精確性。我們建立了一個領(lǐng)域本體，服務(wù)查詢是基于領(lǐng)域本體的。領(lǐng)域本體為服務(wù)查詢提供專門領(lǐng)域知識。

我們用RDF (Resource Description Framework，資源描述框架)建立了一個計算機(jī)領(lǐng)域本體。RDF是一個表示www上資源信息的語言，用來處理元數(shù)據(jù)的XML應(yīng)用，能夠清楚地表示信息語義，并且是機(jī)器可理解的，提供推理支持。RDF 使用 Web 標(biāo)識符來標(biāo)識事物，并通過屬性和屬性值來描述資源。一個RDF文件包含多個資源描述，而一個資源描述是由多個語句構(gòu)成，一個語句是由資源、屬性類型、屬性值構(gòu)成的三元體，表示資源具有的一個屬性。RDF用于描述Web站點和頁面，由于使用的是結(jié)構(gòu)化的XML數(shù)據(jù)，搜索引擎可以理解元數(shù)據(jù)的精確含義，使得搜索變得更為智能和準(zhǔn)確，

在RDF中，如下的英文陳述:" http://www.example.org/index.htmlhasacreatorwhosevalueisJohnSmith"，用RDF圖的描述如圖1所示。

圖1 用RDF圖描述的一個陳述

在RDF圖中利用節(jié)點和弧作為表達(dá)陳述的元素。一個陳述用RDF圖可以表示為：

一個表示主體的節(jié)點(http://www.example.org/index.html) ：

一個表示客體的節(jié)點(John Smith ) ；

一個由主體節(jié)點指向客體節(jié)點的表示謂詞的弧 (http://www.example.org/terms/creator)；

圖1用RDF/XML可以用來表示如下：

2.2 轉(zhuǎn)換查詢?yōu)镽DF查詢

在服務(wù)發(fā)現(xiàn)的研究中，基于關(guān)鍵詞匹配的服務(wù)查詢具有以下缺陷：1）對所需查詢的目標(biāo)不能準(zhǔn)確描述；2）不能度量候選者和查詢目標(biāo)間的符合程度。這兩點直接影響到搜索的查準(zhǔn)率。而基于領(lǐng)域本體的服務(wù)查詢則可以避免上述缺陷。

基于領(lǐng)域本體的服務(wù)查詢主要步驟如下：1）轉(zhuǎn)換初始化查詢?yōu)镽DF查詢；2）查詢推理和查詢擴(kuò)展?；陬I(lǐng)域本體的服務(wù)查詢系統(tǒng)體系結(jié)構(gòu)如圖2所示。

圖2 基于領(lǐng)域本體的服務(wù)查詢系統(tǒng)結(jié)構(gòu)圖

用戶可以用自然語言設(shè)置服務(wù)構(gòu)件查詢。系統(tǒng)轉(zhuǎn)換這種查詢?yōu)镽DF圖，這個RDF圖將與表示為RDF圖的www資源進(jìn)行匹配。例如：查詢:"what are the components of Application system?＂，可以表示為圖3所示的RDF圖：

圖3 服務(wù)構(gòu)件查詢圖

3 基于領(lǐng)域本體的全文搜索引擎設(shè)計與實現(xiàn)

利用以上構(gòu)造好的領(lǐng)域本體我們實現(xiàn)了一個的基于本體的服務(wù)搜索工具，能對用戶的初始查詢進(jìn)行擴(kuò)展，從而構(gòu)造一個更加完整和準(zhǔn)確的概念和知識，并以修正后的查詢利用檢索引擎來匹配資源。該搜索引擎系統(tǒng)，包括用戶數(shù)據(jù)庫服務(wù)器、用戶接口及登錄、資源描述、Web信息搜集器、檢索器、索引器和用戶分析器等功能部分。其結(jié)構(gòu)如圖4所示。

搜索引擎主要組成部分介紹：

1）Web信息采集器：信息采集器對整個搜索引擎的體系結(jié)構(gòu)有很大影響，是搜索引擎的一個重要組成部分?；诒倔w的Web信息采集的功能包括爬蟲管理、爬蟲算法、信息監(jiān)控、數(shù)據(jù)更新、數(shù)據(jù)存儲以及數(shù)據(jù)壓縮和通信模塊。

移動爬蟲運行在遠(yuǎn)程Web服務(wù)器上，將集中在服務(wù)器端的處理在信息采集過程中，移動爬蟲將在Internet中Web站點之間的移動，對Web站點進(jìn)行“本地采集”以及對采集的數(shù)據(jù)進(jìn)行處理，最后將壓縮的數(shù)據(jù)傳回服務(wù)器端處理；接著移動爬蟲繼續(xù)遷移到其它Web站點進(jìn)行信息采集，其遷移路徑采用自適應(yīng)遷移策略控制，采用該策略可以減少網(wǎng)絡(luò)數(shù)據(jù)傳輸量和縮短工作時間；移動爬蟲的并行度控制策略可以控制信息采集器中移動爬蟲的個數(shù)，這樣就不會過分加重遠(yuǎn)程Web站點的負(fù)載，增強(qiáng)系統(tǒng)的穩(wěn)定性。

圖4 基于領(lǐng)域本體的搜索引擎結(jié)構(gòu)示意圖

圖5 基于領(lǐng)域本體的網(wǎng)絡(luò)爬蟲工作流程圖

網(wǎng)絡(luò)爬蟲與本體技術(shù)的融合是搜索引擎的一種新的模式。圖5描述了基于本體的網(wǎng)絡(luò)爬蟲工作流程圖。

2）索引器：索引器把下載的網(wǎng)頁進(jìn)行關(guān)鍵字提取，把這個文檔內(nèi)的全部單詞分別提取出來放在數(shù)組或者鏈表中，然后依次對每個單詞進(jìn)行索引，得到的索引庫為全文索引數(shù)據(jù)庫。充分利用分布式本體的計算優(yōu)勢，將索引器的一部分功能如對文本解析建立文本索引、建立圖像內(nèi)容的特征索引等處理分布式到遠(yuǎn)程Web站點上處理，最后由移動爬蟲將壓縮后的結(jié)果傳送到索引服務(wù)器端進(jìn)行匯總、分類處理，減輕了服務(wù)器端的負(fù)載。檢索器將這兩部分索引文件組織成特定的數(shù)據(jù)結(jié)構(gòu)供檢索器查詢檢索。當(dāng)Web頁面數(shù)據(jù)發(fā)生更新時索引數(shù)據(jù)也需要更新，網(wǎng)頁數(shù)據(jù)的更新可以觸發(fā)索引的更新，因為網(wǎng)頁數(shù)據(jù)的更新可以根據(jù)駐留在服務(wù)器端的模塊及時反饋到服務(wù)器端。

3）檢索器：檢索器模塊具有以下四項功能：匹配計算、相關(guān)反饋、結(jié)果排序和日志分析。

功能就是接受用戶提交的查詢請求，按照查詢條件在索引庫中搜索滿足條件的文件，并根據(jù)用戶定制的過濾條件和排序因素組織搜索結(jié)果集，返回給用戶接口。本文搜索引擎的檢索器就是利用索引數(shù)據(jù)庫提供的特征索引庫、圖片對應(yīng)網(wǎng)頁的全文索引庫、關(guān)鍵字索引庫以及超鏈接分析庫和查詢歷史庫等多個數(shù)據(jù)源，實現(xiàn)對用戶輸入關(guān)鍵字的準(zhǔn)確、快速的匹配。

4）用戶接口

用戶接口提供一系列查詢方式、選項以滿足用戶不同的查詢要求，將用戶的查詢請求提交給檢索器去匹配。檢索器將排序后的結(jié)果集返回給用戶。

用戶接口具備的主要功能為：待查文本的輸入、圖像特征提取、關(guān)鍵字和其他輸入的選擇、生成查詢描述、結(jié)果顯示、相關(guān)反饋方式查詢。在獲取了文本關(guān)鍵字或圖像的特征向量以及其他的一些輔助信息后，根據(jù)一定的規(guī)則和格式生成查詢描述，提交給檢索匹配模塊。從檢索器接收排序后的查詢結(jié)果后顯示在用戶界面中。

4 結(jié)論

本文提出了一個領(lǐng)域本體的構(gòu)建方法，基于這個領(lǐng)域本體，表示了服務(wù)構(gòu)件的檢索過程，并且實現(xiàn)了一個基于領(lǐng)域本體的服務(wù)搜索引擎原型系統(tǒng)，優(yōu)點是求精和擴(kuò)展用戶的初始查詢，支持用戶的模糊查詢，查全率和查準(zhǔn)率都得到了提高。特別是隨著Internet變成可重用軟件資源庫，搜索引擎支持構(gòu)件查詢是必須的。

[1] F.Baader,D.McGuinness,D.Nardi,and P.F.Patel-Schneider.Description Logic Handbook:Theory,Implemtation,and Applications.Cambridge University Press,2002.

[2] Gilmer Orth.The Web Services Framework:A Survey of WSDL,SOAP and UDDL Master's thesis,Vienna University of Technology,May,2002.

[3] Ankolekar A.,Burstein M.,Hobbs.J.R,et al.DAML-S:A Semantic Markup Language for Web Services.In:Proc.of International Semantic Web Conference (ISWC),pp.348-363,Sardinia,Italy,2002.

[4] OWL-S Coalition,OWL-S,available at http://www.daml.org/secviceslowl-s/,2005.

[5] DAML-S Coalition.OWL-S:Semantic Markup for Web Services.http://www.daml.org/services/owl-s/1.0/.in:ProceedingsoftheInternationalSemanticWebWorkingSymposium(SWWS)July30-Augustl,2001.

TP391

1009-0134(2010)12(上)-0217-03

10.3969/j.issn.1009-0134.2010.12(上).70

2010-08-21

周宇（1964 -），男，湖北人，講師，研究方向為計算機(jī)技術(shù)及應(yīng)用。