江河
(太原大學(xué)外語(yǔ)師范學(xué)院,山西 太原 030012)
Google采用關(guān)鍵詞查詢方式,僅使用少量的關(guān)鍵詞查詢,卻往往傳回?cái)?shù)量龐大的查詢結(jié)果。如此冗長(zhǎng)的查詢結(jié)果及排列方式,讓使用者必須費(fèi)時(shí)費(fèi)工地仔細(xì)瀏覽后,才能挑選出有用的信息,這表明搜尋系統(tǒng)本身無(wú)法完整精準(zhǔn)地了解使用者的查詢意圖。在網(wǎng)絡(luò)時(shí)代,人們要在網(wǎng)絡(luò)上搜索想要的有用信息,就必須使用各個(gè)獨(dú)立的搜索引擎,輸入關(guān)鍵詞來(lái)查找信息。為了讓使用者能以更快速、更有效率的方式,從大量的網(wǎng)絡(luò)資料中獲取所需的有用信息與知識(shí),我們期望設(shè)計(jì)出一個(gè)主動(dòng)比對(duì)的整合式主題搜集器,不僅能協(xié)助使用者查詢信息,降低使用者查詢作業(yè)上的負(fù)擔(dān),還能支持網(wǎng)頁(yè)搜索的核心組件,進(jìn)而提升其系統(tǒng)效能。綜上所述,論文的研究主題在于應(yīng)用知識(shí)本體技術(shù)設(shè)計(jì)出相關(guān)的知識(shí)本體并用Java語(yǔ)言建構(gòu)出整合式主題搜集器。
本體原是哲學(xué)領(lǐng)域中的觀點(diǎn),主要探討生命或現(xiàn)實(shí)事物的知識(shí)本質(zhì),并能提供完整的語(yǔ)意模型,具有共享與重復(fù)使用的特性。通過本體論來(lái)描述知識(shí)內(nèi)容的架構(gòu),可以完整地呈現(xiàn)一個(gè)特定領(lǐng)域的知識(shí)核心,自動(dòng)地了解相關(guān)領(lǐng)域信息、溝通及存取,甚或更進(jìn)一步推演出新的知識(shí)與結(jié)果,對(duì)于信息系統(tǒng)的建立與維護(hù),是個(gè)非常有力的工具。
系統(tǒng)的開發(fā)工具為MyEclipse,它是Java技術(shù)平臺(tái)的整合式開發(fā)環(huán)境,具備良好的人機(jī)接口及程序偵錯(cuò)機(jī)制。當(dāng)系統(tǒng)開發(fā)時(shí),能快速整合程序區(qū)塊,并縮短系統(tǒng)發(fā)展時(shí)程。此外,Java也提供諸多整合網(wǎng)際網(wǎng)絡(luò)應(yīng)用與資料庫(kù)的函數(shù)與方法。從系統(tǒng)延展性的觀點(diǎn)來(lái)看,Java絕對(duì)是解決跨平臺(tái)問題的首選技術(shù)。
系統(tǒng)采用SQL Server做為本體知識(shí)資料庫(kù)分享平臺(tái)。MS SQL Server是目前最常被使用的一種關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。本體論建構(gòu)工具Protégé是由美國(guó)斯坦福大學(xué)研究開發(fā)的知識(shí)本體自由軟件。Protégé是全球支持本體論的平臺(tái)中最廣為使用的一個(gè)。
現(xiàn)今本體的研究大致可分為兩個(gè)方向:一是針對(duì)特定領(lǐng)域構(gòu)建大量的本體,通過建立特定領(lǐng)域的本體,支持該領(lǐng)域的知識(shí)剖析;二是研究如何建構(gòu)與表示本體。本系統(tǒng)的本體構(gòu)建屬前者。系統(tǒng)的本體論建置即利用建置好的Java程序代碼本體論資料庫(kù),支持系統(tǒng)進(jìn)行相關(guān)Java網(wǎng)頁(yè)的過濾搜集。Java程序代碼本體論資料庫(kù)的建置包括Java程序代碼相關(guān)概念統(tǒng)計(jì)與分析及本體論資料庫(kù)的建立兩階段。
圖1描繪出系統(tǒng)的架構(gòu),其各部分功能及相關(guān)技術(shù)詳述如下。
(1)關(guān)鍵字及下載目錄:執(zhí)行網(wǎng)頁(yè)搜集的前置工作包括:將輸出區(qū)域清空、將輸入位所輸入的文字轉(zhuǎn)成URL碼嵌入搜索網(wǎng)址、將預(yù)設(shè)下載預(yù)設(shè)位置的輸入字串轉(zhuǎn)成儲(chǔ)存位置的文件名稱,并清除該位;最后,系統(tǒng)將提醒使用者輸入相關(guān)預(yù)設(shè)作業(yè)。
(2)谷歌鏈接:提取一個(gè)URL組件并把Action方法中轉(zhuǎn)換好的URL加上搜索網(wǎng)址;接著使用一個(gè)緩沖讀取,并使用while循環(huán)逐行加入String組件line;最后,把line輸出成txt文件,作為分析時(shí)的參考,檔案內(nèi)容即為該頁(yè)面的html原始文檔。
圖1 系統(tǒng)架構(gòu)圖
(3)檢索鏈接:使用前述的正規(guī)表示法從line中尋找是否有符合的URL,符合者會(huì)下載URL,并輸出成txt文件提供給系統(tǒng)做進(jìn)一步的處理。
(4)檢索內(nèi)容:使用SearchMatches( )方法來(lái)判定該網(wǎng)頁(yè)是否為我們所設(shè)定的網(wǎng)頁(yè)搜集范圍,如果是,就將html原始文件之中的html標(biāo)簽移除,只剩下純文字內(nèi)容,方便系統(tǒng)做進(jìn)一步的后續(xù)處理與分析。最后,把搜集過的網(wǎng)頁(yè)數(shù)除以總網(wǎng)頁(yè)數(shù),該值即為目前的搜集總進(jìn)度。
我們以“JAVA程序”為關(guān)鍵詞進(jìn)行Java開放原始碼相關(guān)網(wǎng)頁(yè)搜集為例,并在Google進(jìn)行搜索。系統(tǒng)定義網(wǎng)頁(yè)準(zhǔn)確率(RP)及回取率(RR)。NWT表示所有的回傳網(wǎng)頁(yè)數(shù);NWC為正確的回傳網(wǎng)頁(yè)數(shù);NWR則為相關(guān)回傳網(wǎng)頁(yè)數(shù)。表1是經(jīng)領(lǐng)域?qū)<抑鹨槐葘?duì)回傳頁(yè)面后,得到Google的準(zhǔn)確率及回取率分別為6%與67%,以及系統(tǒng)輸入同樣關(guān)鍵詞后所得結(jié)果。從上述比較中可以看出,除了顯現(xiàn)系統(tǒng)比搜索引擎Google有較高的準(zhǔn)確率及回取率外,更展現(xiàn)并驗(yàn)證了論文提出技術(shù)的可行性。
表1 搜索比較結(jié)果
表2 系統(tǒng)性能比較
本系統(tǒng)以Java為技術(shù)平臺(tái)提出本體支持的智能型網(wǎng)頁(yè)搜集分析軟件系統(tǒng)。通過軟件間的合作與協(xié)調(diào),來(lái)進(jìn)行相關(guān)網(wǎng)頁(yè)信息的獲取。在系統(tǒng)中本體概念結(jié)合相關(guān)自由軟件,將相關(guān)網(wǎng)頁(yè)管理運(yùn)作信息完整儲(chǔ)存在后端資料庫(kù),再提供給后端系統(tǒng)做進(jìn)一步分析處理。初步系統(tǒng)呈現(xiàn)及實(shí)驗(yàn)結(jié)果驗(yàn)證,此技術(shù)不僅對(duì)于網(wǎng)頁(yè)實(shí)時(shí)狀態(tài)的瀏覽、分析、處理行為分析精確,而且針對(duì)網(wǎng)頁(yè)的處理時(shí)間也有效縮短,對(duì)使用者有較大的幫助。
[1]李善平,胡玉杰,郭鳴,等.本體論研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2004(7).
[2]郁書好,郭學(xué)俊.基于本體的教學(xué)知識(shí)庫(kù)研究與應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展.2007(8):161-164.
[3]汪鵬.Ontology知識(shí)表示的藝術(shù)[J].計(jì)算機(jī)教育,2004(7):41-43.
[4]王莉.基于Protégé的本體建模方法研究——以學(xué)位論文服務(wù)系統(tǒng)為例[J].現(xiàn)代圖書情報(bào)技術(shù),2006(10):55-59.