亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于本體的自動(dòng)化網(wǎng)頁(yè)搜集器

2011-03-18 08:11:14江河

河北軟件職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2011年1期

江河

（太原大學(xué)外語(yǔ)師范學(xué)院，山西太原 030012）

0 引言

Google采用關(guān)鍵詞查詢方式，僅使用少量的關(guān)鍵詞查詢，卻往往傳回?cái)?shù)量龐大的查詢結(jié)果。如此冗長(zhǎng)的查詢結(jié)果及排列方式，讓使用者必須費(fèi)時(shí)費(fèi)工地仔細(xì)瀏覽后，才能挑選出有用的信息，這表明搜尋系統(tǒng)本身無(wú)法完整精準(zhǔn)地了解使用者的查詢意圖。在網(wǎng)絡(luò)時(shí)代，人們要在網(wǎng)絡(luò)上搜索想要的有用信息，就必須使用各個(gè)獨(dú)立的搜索引擎，輸入關(guān)鍵詞來(lái)查找信息。為了讓使用者能以更快速、更有效率的方式，從大量的網(wǎng)絡(luò)資料中獲取所需的有用信息與知識(shí)，我們期望設(shè)計(jì)出一個(gè)主動(dòng)比對(duì)的整合式主題搜集器，不僅能協(xié)助使用者查詢信息，降低使用者查詢作業(yè)上的負(fù)擔(dān)，還能支持網(wǎng)頁(yè)搜索的核心組件，進(jìn)而提升其系統(tǒng)效能。綜上所述，論文的研究主題在于應(yīng)用知識(shí)本體技術(shù)設(shè)計(jì)出相關(guān)的知識(shí)本體并用Java語(yǔ)言建構(gòu)出整合式主題搜集器。

1 相關(guān)開發(fā)技術(shù)

1.1 本體論應(yīng)用

本體原是哲學(xué)領(lǐng)域中的觀點(diǎn)，主要探討生命或現(xiàn)實(shí)事物的知識(shí)本質(zhì)，并能提供完整的語(yǔ)意模型，具有共享與重復(fù)使用的特性。通過本體論來(lái)描述知識(shí)內(nèi)容的架構(gòu)，可以完整地呈現(xiàn)一個(gè)特定領(lǐng)域的知識(shí)核心，自動(dòng)地了解相關(guān)領(lǐng)域信息、溝通及存取，甚或更進(jìn)一步推演出新的知識(shí)與結(jié)果，對(duì)于信息系統(tǒng)的建立與維護(hù)，是個(gè)非常有力的工具。

1.2 相關(guān)開發(fā)技術(shù)

系統(tǒng)的開發(fā)工具為MyEclipse，它是Java技術(shù)平臺(tái)的整合式開發(fā)環(huán)境，具備良好的人機(jī)接口及程序偵錯(cuò)機(jī)制。當(dāng)系統(tǒng)開發(fā)時(shí)，能快速整合程序區(qū)塊，并縮短系統(tǒng)發(fā)展時(shí)程。此外，Java也提供諸多整合網(wǎng)際網(wǎng)絡(luò)應(yīng)用與資料庫(kù)的函數(shù)與方法。從系統(tǒng)延展性的觀點(diǎn)來(lái)看，Java絕對(duì)是解決跨平臺(tái)問題的首選技術(shù)。

系統(tǒng)采用SQL Server做為本體知識(shí)資料庫(kù)分享平臺(tái)。MS SQL Server是目前最常被使用的一種關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。本體論建構(gòu)工具Protégé是由美國(guó)斯坦福大學(xué)研究開發(fā)的知識(shí)本體自由軟件。Protégé是全球支持本體論的平臺(tái)中最廣為使用的一個(gè)。

2 系統(tǒng)架構(gòu)

2.1 構(gòu)建本體數(shù)據(jù)庫(kù)

現(xiàn)今本體的研究大致可分為兩個(gè)方向：一是針對(duì)特定領(lǐng)域構(gòu)建大量的本體，通過建立特定領(lǐng)域的本體，支持該領(lǐng)域的知識(shí)剖析；二是研究如何建構(gòu)與表示本體。本系統(tǒng)的本體構(gòu)建屬前者。系統(tǒng)的本體論建置即利用建置好的Java程序代碼本體論資料庫(kù)，支持系統(tǒng)進(jìn)行相關(guān)Java網(wǎng)頁(yè)的過濾搜集。Java程序代碼本體論資料庫(kù)的建置包括Java程序代碼相關(guān)概念統(tǒng)計(jì)與分析及本體論資料庫(kù)的建立兩階段。

2.2 系統(tǒng)架構(gòu)

圖1描繪出系統(tǒng)的架構(gòu)，其各部分功能及相關(guān)技術(shù)詳述如下。

（1）關(guān)鍵字及下載目錄：執(zhí)行網(wǎng)頁(yè)搜集的前置工作包括：將輸出區(qū)域清空、將輸入位所輸入的文字轉(zhuǎn)成URL碼嵌入搜索網(wǎng)址、將預(yù)設(shè)下載預(yù)設(shè)位置的輸入字串轉(zhuǎn)成儲(chǔ)存位置的文件名稱，并清除該位；最后，系統(tǒng)將提醒使用者輸入相關(guān)預(yù)設(shè)作業(yè)。

（2）谷歌鏈接：提取一個(gè)URL組件并把Action方法中轉(zhuǎn)換好的URL加上搜索網(wǎng)址；接著使用一個(gè)緩沖讀取，并使用while循環(huán)逐行加入String組件line；最后，把line輸出成txt文件，作為分析時(shí)的參考，檔案內(nèi)容即為該頁(yè)面的html原始文檔。

圖1 系統(tǒng)架構(gòu)圖

（3）檢索鏈接：使用前述的正規(guī)表示法從line中尋找是否有符合的URL，符合者會(huì)下載URL，并輸出成txt文件提供給系統(tǒng)做進(jìn)一步的處理。

（4）檢索內(nèi)容：使用SearchMatches（）方法來(lái)判定該網(wǎng)頁(yè)是否為我們所設(shè)定的網(wǎng)頁(yè)搜集范圍，如果是，就將html原始文件之中的html標(biāo)簽移除，只剩下純文字內(nèi)容，方便系統(tǒng)做進(jìn)一步的后續(xù)處理與分析。最后，把搜集過的網(wǎng)頁(yè)數(shù)除以總網(wǎng)頁(yè)數(shù)，該值即為目前的搜集總進(jìn)度。

3 系統(tǒng)驗(yàn)證

我們以“JAVA程序”為關(guān)鍵詞進(jìn)行Java開放原始碼相關(guān)網(wǎng)頁(yè)搜集為例，并在Google進(jìn)行搜索。系統(tǒng)定義網(wǎng)頁(yè)準(zhǔn)確率（RP）及回取率（RR）。NWT表示所有的回傳網(wǎng)頁(yè)數(shù)；NWC為正確的回傳網(wǎng)頁(yè)數(shù)；NWR則為相關(guān)回傳網(wǎng)頁(yè)數(shù)。表1是經(jīng)領(lǐng)域?qū)＜抑鹨槐葘?duì)回傳頁(yè)面后，得到Google的準(zhǔn)確率及回取率分別為6%與67%，以及系統(tǒng)輸入同樣關(guān)鍵詞后所得結(jié)果。從上述比較中可以看出，除了顯現(xiàn)系統(tǒng)比搜索引擎Google有較高的準(zhǔn)確率及回取率外，更展現(xiàn)并驗(yàn)證了論文提出技術(shù)的可行性。

表1 搜索比較結(jié)果

表2 系統(tǒng)性能比較

4 結(jié)論

本系統(tǒng)以Java為技術(shù)平臺(tái)提出本體支持的智能型網(wǎng)頁(yè)搜集分析軟件系統(tǒng)。通過軟件間的合作與協(xié)調(diào)，來(lái)進(jìn)行相關(guān)網(wǎng)頁(yè)信息的獲取。在系統(tǒng)中本體概念結(jié)合相關(guān)自由軟件，將相關(guān)網(wǎng)頁(yè)管理運(yùn)作信息完整儲(chǔ)存在后端資料庫(kù)，再提供給后端系統(tǒng)做進(jìn)一步分析處理。初步系統(tǒng)呈現(xiàn)及實(shí)驗(yàn)結(jié)果驗(yàn)證，此技術(shù)不僅對(duì)于網(wǎng)頁(yè)實(shí)時(shí)狀態(tài)的瀏覽、分析、處理行為分析精確，而且針對(duì)網(wǎng)頁(yè)的處理時(shí)間也有效縮短，對(duì)使用者有較大的幫助。

［1］李善平，胡玉杰，郭鳴，等.本體論研究綜述［J］.計(jì)算機(jī)研究與發(fā)展，2004（7）.

［2］郁書好，郭學(xué)俊.基于本體的教學(xué)知識(shí)庫(kù)研究與應(yīng)用［J］.計(jì)算機(jī)研究與發(fā)展.2007（8）：161-164.

［3］汪鵬.Ontology知識(shí)表示的藝術(shù)［J］.計(jì)算機(jī)教育，2004（7）：41-43.

［4］王莉.基于Protégé的本體建模方法研究——以學(xué)位論文服務(wù)系統(tǒng)為例［J］.現(xiàn)代圖書情報(bào)技術(shù)，2006（10）：55-59.