馬雷雷,梁汝鵬,連世偉, ,陳 虎
(1.信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450052;2.77526部隊(duì),西藏 拉薩 850000;3.國(guó)防信息學(xué)院,湖北 武漢 430010)
互聯(lián)網(wǎng)包含海量的數(shù)據(jù)和信息,傳統(tǒng)的搜索引擎基于關(guān)鍵詞進(jìn)行檢索,僅限于詞匯的語法分析,缺乏語義信息,不能較好地理解用戶的真正需求,致使查準(zhǔn)率和查全率較低。為了解決上述問題,本文限定周邊地緣環(huán)境主題,提出了一種基于主題本體的語義檢索引擎框架,介紹了各個(gè)模塊實(shí)現(xiàn)的關(guān)鍵技術(shù),并對(duì)該搜索引擎的爬蟲性能進(jìn)行了測(cè)試和分析。
本體是對(duì)一個(gè)領(lǐng)域內(nèi)被共享的概念的形式化和顯式的說明[1],在信息科學(xué)領(lǐng)域本體主要用于知識(shí)的共享和重用。本體在地理信息科學(xué)領(lǐng)域中的應(yīng)用被表示成為地理本體,即是對(duì)地理領(lǐng)域被共享的概念的形式化說明[2]。
主題本體實(shí)際上就是一種針對(duì)特定主題的領(lǐng)域本體,如針對(duì)周邊地緣環(huán)境、人文地理、計(jì)算機(jī)網(wǎng)絡(luò)等這樣的主題范圍時(shí)才稱為主題本體。主題本體既能較好地描述主題內(nèi)容,又能揭示概念之間的語義關(guān)系,顯著提高主題描述的準(zhǔn)確度[3]。本文構(gòu)建的周邊地緣環(huán)境主題本體是一種典型的地理本體。
語義搜索是在傳統(tǒng)搜索引擎的基礎(chǔ)上發(fā)展起來的,它把關(guān)鍵詞擴(kuò)展到語義的層次,查詢條件不僅包含關(guān)鍵詞的語法信息,還包含了關(guān)鍵詞與相關(guān)聯(lián)的語義信息,能夠準(zhǔn)確地捕捉到用戶輸入查詢語句背后的真正意圖,顯著提高搜索信息的準(zhǔn)確性和相關(guān)性,返回符合要求的結(jié)果集。現(xiàn)階段國(guó)外比較成熟的語義搜索引擎有 Hakia、Kngine、Kosmix、Powerset、DuckDuckGo和Sensebot等[4],國(guó)內(nèi)在語義搜索領(lǐng)域進(jìn)展比較緩慢,目前比較成熟的語義搜索引擎主要是海天語義搜索引擎Laiseek。
本文設(shè)計(jì)了一個(gè)面向周邊地緣環(huán)境主題的語義搜索引擎框架,如圖1所示。該框架主要包含3個(gè)技術(shù)模塊(爬蟲模塊、索引模塊和查詢模塊)和一個(gè)本體知識(shí)庫(kù)(周邊地緣環(huán)境本體庫(kù)),它們各自負(fù)責(zé)整體功能的一部分。
圖1 面向主題本體的語義搜索引擎框架圖
框架中的本體知識(shí)庫(kù)就是周邊地緣環(huán)境主題本體庫(kù),主要包含了周邊地緣環(huán)境領(lǐng)域的概念知識(shí)、關(guān)系、實(shí)例及其語義描述。它主要輔助爬蟲模塊進(jìn)行主題網(wǎng)絡(luò)爬蟲和查詢模塊與用戶響應(yīng)的關(guān)鍵字語義擴(kuò)展,起到中流砥柱的驅(qū)動(dòng)作用。
爬蟲模塊位于語義搜索引擎框架的底層,主要負(fù)責(zé)在后臺(tái)爬取與主題相關(guān)的網(wǎng)頁并保存在網(wǎng)頁庫(kù)中,限定特定的主題能顯著提升爬取網(wǎng)頁的效率;索引模塊主要是對(duì)爬蟲模塊爬取的海量周邊地緣環(huán)境頁面庫(kù)進(jìn)行中文分詞后構(gòu)建倒排索引,供查詢模塊使用,以便快速查找到包含用戶查詢擴(kuò)展的所有網(wǎng)頁;查詢模塊主要是與用戶交互的模塊,能夠正確判斷和分析用戶的真正搜索意圖,返回的是與用戶查詢相對(duì)應(yīng)的顧及語義的準(zhǔn)確的搜索結(jié)果,該模塊可以看作是語義搜索引擎的前臺(tái)計(jì)算系統(tǒng)。爬蟲模塊和索引模塊主要是從互聯(lián)網(wǎng)上獲取并存儲(chǔ)海量的主題相關(guān)網(wǎng)頁集,不需要實(shí)時(shí)顯示和計(jì)算,可以看成是語義搜索引擎的后臺(tái)計(jì)算系統(tǒng)。
本文面向周邊地緣環(huán)境這一主題構(gòu)建本體庫(kù)。由于我國(guó)獨(dú)特的地理位置,陸海兼?zhèn)?、鄰?guó)眾多,周邊地緣環(huán)境十分復(fù)雜,這就增加了構(gòu)建周邊地緣環(huán)境本體庫(kù)的難度。設(shè)計(jì)的周邊地緣環(huán)境本體的概念模型如圖2所示。
利用國(guó)內(nèi)外本體構(gòu)建理論、方法。明確周邊地緣環(huán)境本體庫(kù)構(gòu)建的目標(biāo)和準(zhǔn)則,通過領(lǐng)域?qū)<沂止?gòu)造本體和自動(dòng)化構(gòu)造本體方法相結(jié)合,研究從多種信息源(相關(guān)主題詞表、測(cè)繪學(xué)敘詞表、相關(guān)標(biāo)準(zhǔn)規(guī)范和已有地名庫(kù))進(jìn)行領(lǐng)域本體的構(gòu)建,并利用構(gòu)建的本體對(duì)各種信息源進(jìn)行語義標(biāo)注。
圖2 一種面向周邊地緣環(huán)境主題的本體概念分類模型
提出了一個(gè)面向周邊地緣環(huán)境主題的網(wǎng)絡(luò)爬蟲流程,如圖3所示。主題網(wǎng)頁爬蟲的算法流程如下:
1)首先選擇一個(gè)與周邊地緣環(huán)境相關(guān)并且認(rèn)可度較高的初始URL放入種子列表;
2)依據(jù)主題URL種子列表依次從互聯(lián)網(wǎng)上抓取網(wǎng)頁;
3)對(duì)抓取的網(wǎng)頁進(jìn)行主題信息、時(shí)空信息和URL鏈接信息的提取處理;
4)對(duì)網(wǎng)頁內(nèi)容進(jìn)行主題相關(guān)度評(píng)價(jià),符合主題的網(wǎng)頁存入主題頁面庫(kù);
5)對(duì)網(wǎng)頁中的URL鏈接信息進(jìn)行分析與過濾,將符合主題的URL鏈接放入主題URL種子列表,重復(fù)1)~ 4)步驟,直至完成全部主題網(wǎng)頁的抓取。
圖3 基于本體的主題網(wǎng)絡(luò)爬蟲流程圖
本模塊主要涉及2個(gè)關(guān)鍵技術(shù),即基于本體的語義相似度計(jì)算及URL鏈接分析技術(shù)。
基于本體的語義相似度計(jì)算主要用于對(duì)網(wǎng)頁內(nèi)容的主題相似度計(jì)算,通過計(jì)算爬取的網(wǎng)頁內(nèi)容與周邊地緣環(huán)境主題的相關(guān)度,根據(jù)計(jì)算結(jié)果來決定是否將頁面保存,限定主題爬蟲為索引模塊減輕負(fù)擔(dān),現(xiàn)階段的算法已相對(duì)成熟[5,6],擬綜合這些算法進(jìn)行網(wǎng)頁的主題相關(guān)度計(jì)算;URL鏈接分析技術(shù)主要是對(duì)URL中的title、錨文本等信息進(jìn)行語義相似度計(jì)算,過濾掉與主題無關(guān)的URL,有效地提升主題URL列表的運(yùn)作效率,現(xiàn)階段算法也相對(duì)成熟[5-7],擬結(jié)合構(gòu)建的主題本體庫(kù)中概念描述信息,并綜合這些算法進(jìn)行URL鏈接分析與過濾。
該語義搜索引擎的索引模塊主要是為了查詢模塊快速找到與用戶查詢相關(guān)的所有網(wǎng)頁,主要有中文分詞技術(shù)、倒排索引庫(kù)的建立和維護(hù)2個(gè)關(guān)鍵技術(shù)。中文分詞技術(shù)現(xiàn)階段已較成熟,通過改進(jìn)Lucene軟件的中文分詞技術(shù)來實(shí)現(xiàn)語義搜索引擎索引模塊的分詞。倒排索引是一種經(jīng)典的索引實(shí)現(xiàn)方式,也就是對(duì)主題網(wǎng)頁文檔建立倒排索引。改進(jìn)現(xiàn)有的倒排索引技術(shù),采用改進(jìn)的TFIDF權(quán)重計(jì)算公式來建立索引庫(kù),供查詢模塊使用[8]。
查詢模塊是語義搜索引擎與用戶交互的模塊,主要包含3個(gè)關(guān)鍵算法,即基于領(lǐng)域本體的關(guān)鍵字查詢擴(kuò)展算法[9]、基于向量空間模型的語義檢索算法和顧及時(shí)空關(guān)系的PageRank算法?;陬I(lǐng)域本體的關(guān)鍵字查詢擴(kuò)展算法主要是依據(jù)主題本體實(shí)現(xiàn)對(duì)用戶查詢關(guān)鍵字的語義擴(kuò)展,然后將獲得的擴(kuò)展概念集合作為新的查詢條件進(jìn)行查找;基于向量空間模型的語義檢索算法主要實(shí)現(xiàn)語義搜索引擎的檢索功能;顧及時(shí)空關(guān)系的PageRank算法主要用于對(duì)檢索到的網(wǎng)頁進(jìn)行排序,考慮時(shí)間和空間關(guān)系的影響,按優(yōu)先條件返回用戶最需要的結(jié)果。
本文基于上述方法設(shè)計(jì)了一個(gè)簡(jiǎn)易的語義搜索引擎原型系統(tǒng)SemSear1.0,目前只是實(shí)現(xiàn)了周邊地緣環(huán)境本體庫(kù)的構(gòu)建和周邊地緣環(huán)境主題網(wǎng)絡(luò)爬蟲。
依據(jù)圖2設(shè)計(jì)的面向周邊地緣環(huán)境主題的本體概念分類模型,利用Protégé 3.4.8軟件構(gòu)建了周邊地緣環(huán)境主題本體庫(kù),詳細(xì)設(shè)置了各個(gè)概念和實(shí)例,并進(jìn)行了語義擴(kuò)展和描述。
結(jié)合主題本體庫(kù),使用Eclipse和Heritrix進(jìn)行了主題爬蟲模塊的開發(fā)。本文對(duì)主題網(wǎng)絡(luò)爬蟲模塊的性能進(jìn)行了實(shí)驗(yàn)測(cè)試,通過分析抓取收獲率來測(cè)試其性能,其中抓取收獲率是衡量大多數(shù)網(wǎng)絡(luò)爬蟲器性能的流行指標(biāo),可表示為[10]:
hr = r / p,hr?[0,1]
式中,r表示滿意的網(wǎng)頁,如果抓取到的網(wǎng)頁中包含主題詞,則此網(wǎng)頁可稱為滿意的網(wǎng)頁;p表示抓取到的網(wǎng)頁。收獲率越高說明抓取效果越好。
以國(guó)土資源部網(wǎng)站作為種子URL,采用通用爬蟲策略和本文提出的主題爬蟲策略分別進(jìn)行網(wǎng)頁抓取,通過實(shí)時(shí)分析得出抓取的網(wǎng)頁數(shù)量與抓取收獲率之間的關(guān)系如圖4所示。
圖4 爬蟲性能評(píng)價(jià)結(jié)果圖
本文提出的面向周邊地緣環(huán)境的語義搜索引擎主要有4個(gè)應(yīng)用方向,即周邊態(tài)勢(shì)輿情監(jiān)測(cè)、地理空間情報(bào)服務(wù)、輔助決策和周邊態(tài)勢(shì)信息可視化。本文只是針對(duì)當(dāng)前外交領(lǐng)域獲取周邊地緣環(huán)境信息的迫切需求而提出的一種新型的語義檢索方法,實(shí)現(xiàn)方面還存在著很多的不足,有很多的工作需要進(jìn)一步展開。
[1]Neches R, Fikes R, Gruber T, et al.Enabling Technology for Knowledge Sharing[J].AI Magazine, 1991, 12(3):36-56
[2]李宏偉,成毅,李勤超.地理本體與地理信息服務(wù)[M].西安:西安地圖出版社,2008
[3]拜戰(zhàn)勝,徐德智,彭佳紅,等.基于主題本體的信息采集模型研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(10):102-105
[4]Sudeepthi G, Anuradha G, Surendra M.A Survey on Semantic Web Search Engine[J].International Journal of Computer Science Issues, 2012, 9(2):241-245
[5]武昊,廖安平,何超英,等.基于主題相關(guān)度的地理信息我Web服務(wù)爬蟲研究[J].地理與地理信息科學(xué),2012,28(2):27-30
[6]鄭國(guó)良,葉飛躍,林國(guó)俊,等.基于領(lǐng)域本體的主題信息采集方法[J].計(jì)算機(jī)應(yīng)用,2008,28(12):3 274-3 277
[7]蔣宗禮,徐學(xué)可,李帥.一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J].計(jì)算機(jī)應(yīng)用,2008,28(4):942-944
[8]粱云娟,張麗君.倒排索引技術(shù)在信息檢索中的應(yīng)用[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2011,22:14-16
[9]趙宏亮,楊鶴標(biāo).面向領(lǐng)域的語義搜索引擎的應(yīng)用研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(5):1 801-1 805
[10]Aggarwal C, Al-Garawi F, Yu P.Intelligent Crawling on the World Wide Web with Arbitrary Predicates[C].The 10th Intl.World Wide Web Conference, Hong Kong, 2001