袁 輝,李延香
(1.陜西工業(yè)職業(yè)技術學院 陜西 咸陽 712000;2.咸陽師范學院 信息工程學院,陜西 咸陽 712000)
在互聯(lián)網(wǎng)上,專門提供查詢服務的網(wǎng)站即為搜索引擎,其利用網(wǎng)絡搜索軟件將互聯(lián)網(wǎng)上的網(wǎng)站頁面收集起來進行加工處理,然后建立數(shù)據(jù)庫,以此回應用戶的各種查詢,并給出信息答案。對于Web信息檢索與海量信息之間的矛盾,谷歌、百度等搜索引擎在一定程度上發(fā)揮了緩解作用,但這種搜索引擎更多的是對關鍵字的搜索,通常情況下,關鍵字與用戶的檢索需求并不相符,結果很多與用戶需求無關的網(wǎng)頁也被檢索出來,嚴重影響檢索的效率和質量。而如果采用語義Web搜索引擎,那么就能更好地理解和判斷用戶需求,使搜索更加精準。
伴隨著信息社會的快速發(fā)展,網(wǎng)絡信息資源如潮水般源源不斷,而同時信息魚目混珠、真?zhèn)坞y辨,這樣一來信息檢索就顯著非常重要了。在信息檢索領域中,現(xiàn)有互聯(lián)網(wǎng)技術越發(fā)顯得捉襟見肘。對于現(xiàn)有互聯(lián)網(wǎng)技術來說,超文本系統(tǒng)是其核心,而HTML缺陷頗多,超文本標記語言的標簽集只是標記了內(nèi)容的顯示格式,而在數(shù)據(jù)內(nèi)容上缺少針對性的標簽?;诔谋緲擞浾Z言的特征,導致機器很難理解和辨別萬維網(wǎng)上的信息內(nèi)容,所以影響了對萬維網(wǎng)上數(shù)據(jù)進行自動化處理應用的開發(fā)需要。而語義Web為網(wǎng)頁擴展了計算機可處理的語義信息,較好地彌補了HTML的缺陷。語義Web中的各種資源代表不同的語義信息,對于這些語義信息,計算機不但能進行甄別和分辨,還能較好地進行解釋、交換和處理。相對于現(xiàn)有的Web,它將語義進行了擴展,使計算機能夠更好地辨別和處理,如果從性能上來看,它更是一個智能網(wǎng)絡,更能夠“揣摩”人類信息[1]。
語義Web體系結構是由Berners-Lee在2000年提出來的,如圖1。在該體系結構中,自下而上共有7層,且功能呈直線上升。
1)Unicode和URI 作為一種全新的字符編碼標準,Unicode可代表的字符數(shù)是65 536個,幾乎所有國家的語言Unicode都支持。對于一個字符來說,不管其在何種平臺、何種系統(tǒng)、何種程序、何種語言中,其Unicode編碼值都是唯一的[2]。Unicode和URI是語義Web的基礎,在語義Web體系結構中,它處于最底層。
圖1 語義Web的體系結構Fig.1 Semantic web system structure
2)XML+NS+XML Schema 從語法上,該層對數(shù)據(jù)的內(nèi)容和結構進行處理,然后利用標準語言來分離網(wǎng)絡信息的表現(xiàn)形式、數(shù)據(jù)結構和數(shù)據(jù)內(nèi)容。
3)RDF+RDF Schema 對于RDF來說,建立一種供多種元數(shù)據(jù)標準共存的框架是其主要目標,它是基于描述WWW信息資源的一種語言。對于RDF Schema來說,提供詞匯嵌入的機制或框架是其主要目標,在這個框架下,多種詞匯集合起來描述Web資源[3]。
4)Ontology Vocabulary Ontology Vocabulary是基于 RDF/RDFS的一種改進,它能夠對概念的語義及概念之間的關系進行定義,并能夠提供明確的形式化語言。
5)Logic,Proof,Trust 本體層語言在邏輯上的深入和發(fā)展即為Logic,Logic所具有的功能就是表示應用領域動態(tài)變化知識。Logic層具有運用知識進行推理、推理的功能,以及對推理過程的表示。這些功能是以Proof為基礎來實現(xiàn)的。針對Web下的信任管理,Trust是借助一些方法和機制來實現(xiàn)的,如數(shù)字簽名、“證明交換”等。整個Web潛力和作用是否能被充分激發(fā)出來,取決于使用者是否對Web的操作安全及信息質量放心和信任,所以說在整個分層結構中,處于“金字塔”頂端的Trust至關重要[4]。
從信息資料管理和不同用戶需求這兩個維度去考慮,再針對傳統(tǒng)文獻資料管理系統(tǒng)存在的缺陷,對基于語義Web技術文獻檢索系統(tǒng)需具備的功能及設計目標提出如下設想:傳統(tǒng)文獻資料管理系統(tǒng)對用戶檢索項進行檢索時所采用的都是全文檢索技術,因此常常出現(xiàn)檢索結果同用戶的實際需求有天壤之別[5]。而基于語義Web技術文獻檢索系統(tǒng)能夠對用戶輸入的關鍵字進行分析和理解,對用戶需求進行更為精準的檢索,從而實現(xiàn)語義檢索這項功能。
表現(xiàn)層、業(yè)務層和數(shù)據(jù)層共同組建了基于語義Web技術文獻檢索系統(tǒng)的框架結構。用戶訪問功能以及管理員系統(tǒng)管理功能的實現(xiàn)都是通過表現(xiàn)層這一平臺完成的?;赪eb的服務器模式是基于語義Web技術文獻檢索系統(tǒng)所采用的服務器模式,因此用戶和管理員可利用Web瀏覽器對服務器進行直接訪問;作為信息檢索的基礎環(huán)節(jié),業(yè)務層對檢索結果質量的高低起著決定性作用;數(shù)據(jù)層是用戶順利實現(xiàn)檢索功能的有力保障,它包含多方面內(nèi)容,比如用戶訪問對象以及可以對用戶檢索內(nèi)容進行有效理解并實施語義擴展的Ontology等。
整個基于語義Web技術文獻檢索系統(tǒng)的功能流程圖如圖2所示。
圖2 基于語義Web技術文獻檢索系統(tǒng)的功能流程圖Fig.2 Based on semantic web technology literature retrieval system function flow chart
由上圖可知,該系統(tǒng)主要由用戶檢索訪問層、語義轉換處理層和資源處理層這3部分構成。
1)用戶檢索訪問層。其主要功能就是用戶在系統(tǒng)中輸入諸如關鍵字等檢索條件,然后系統(tǒng)以此為依據(jù)對用戶檢索意圖進行分析并顯示相應的檢索結果,從而實現(xiàn)人機交互功能。
2)語義轉換處理層。其主要功能是利用Ontology對用戶輸入的檢索條件實施分析和理解,從而實現(xiàn)語義擴展功能,然后系統(tǒng)對采用語義擴展后所獲得的檢索條件集合實施檢索[6]。
3)資源處理層。通過網(wǎng)絡蜘蛛對互聯(lián)網(wǎng)中的Web資源進行抓取并實施結構化和非結構化文檔的下載,然后對抓取的Web資源實施分析,對下載的非結構文檔的解析是通過解析器來完成的。相關度的判斷是基于分析或解析的內(nèi)容基礎上實施的,之后以獲得的相關度判斷對檢索到的資源信息進行刪除或者是加權、減權等操作。在完成上述所有操作后,創(chuàng)建索引文件將得到的內(nèi)容在指定位置進行存儲。
1)實現(xiàn)語義的擴充查詢
基于語義Web技術文獻檢索系統(tǒng)不但實現(xiàn)了語義檢索功能,同時還實現(xiàn)了語義的擴充查詢功能,對用戶來說,該項功能的主要表現(xiàn)有:
輸入關鍵詞:用戶不但能夠獲得同關鍵詞相關的資源信息,同時還能夠獲得與關鍵詞同義的資源信息,例如用戶輸入“魯迅文章”這一關鍵詞后,在檢索結果中就會得到“《吶喊》”、“《野草》”等相關資源信息,這一檢索結果證明該系統(tǒng)真正做到了對關鍵字的同義查詢,而基于關鍵字的檢索是無法實現(xiàn)的語義擴充查詢的。
能夠獲得概念的上、下位關系的查詢:例如魯迅是我國著名的思想家和文學家,那么在本體體系中,“魯迅”和“思想家、文學家”之間就是一種上下位的關系,如果用戶需要在系統(tǒng)中檢索“魯迅”這一關鍵字的有關信息,在系統(tǒng)中輸入“思想家、文學家”同樣能夠獲得,即實現(xiàn)概念的上下位關系查詢功能。
上述兩種功能的實現(xiàn)能夠確保檢索功能的查全率?;谡Z義Web技術文獻檢索系統(tǒng)還能夠有效保證檢索的查準率,這是因為在該系統(tǒng)中,采用本體中所定義的概念和概念屬性對信息資源進行描述,因此系統(tǒng)能夠以用戶輸入的概念和概念屬性實現(xiàn)對信息資源的準確定位。例如對“現(xiàn)代作家”的具體描述為:
用戶需要利用該檢索系統(tǒng)查詢“現(xiàn)代作家”的相關信息,當輸入“浙江”、“思想家”或者“文學家”這些關鍵詞時,該系統(tǒng)會準確定位于“魯迅”并對其作品信息進行顯示。對于用戶而言,這樣的搜索結果一步到位,不會顯示其他無關信息,從而保證了檢索結果的查準率。
總計有小說集3部,雜文集19部,散文集2部,其他作品5部。
2)語義網(wǎng)絡的實現(xiàn)
由于本體能夠對領域概念及概念之間的關系進行準確表述,所以是基于本體技術而實現(xiàn)系統(tǒng)功能的。系統(tǒng)可以實現(xiàn)查全率和查準率,從一定意義上來講,查全率與查準率是相互矛盾的,本系統(tǒng)通過擴展同義及上下位關系來緩解這一矛盾,從而使系統(tǒng)的查全率和查準率提高。
本文的語義網(wǎng)絡模型是基于計算機領域構建的,語義網(wǎng)絡是一個由節(jié)點和有向弧所組成的語義網(wǎng)絡有向圖。其中節(jié)點代表概念,邊表示的是這些概念之間存在的語義關系。實心點和空心點分別代表主題詞和非主題詞。不同層次的概念所表現(xiàn)出來的抽象程度也各不相同,層次越高,其所包含的下位概念就會越多并且概括性也會越強。一組下位概念組合在一起就形成了上位概念,通常情況下,上位概念是下位概念的一種抽象化表示;而下位概念則通常是對上位概念的進一步細化和補充,對自己獨有屬性進行描述的同時也同樣具有上位概念的屬性[7]。由此來看,語義模型就像一個分類樹,其第一層為分類樹的最高層,表示的是一個獨立的主題,然后之下各層逐漸對該主題實施細化。基于樹型結構基礎上所添加的橫向關系是為了將各個相對獨立的概念串聯(lián)起來,例如“魯迅”和“周樹人”之間屬于同義關系,而“魯迅”和“社戲”之間屬于上下位關系,最終形成語義網(wǎng)絡。
綜上所述,針對傳統(tǒng)搜索引擎存在的搜索不準確問題,本文基于語義Web提出一種新的文獻檢索引擎,實現(xiàn)了對關鍵詞的準確檢索。在語義Web環(huán)境下文獻檢索系統(tǒng)設計過程中,我們對系統(tǒng)的功能需求、設計、實現(xiàn)進行了探討,并提出了文獻檢索系統(tǒng)的功能流程圖??傮w來說,本系統(tǒng)基本實現(xiàn)了語義檢索功能。但由于受時間和精力所限,本文提出的語義Web文獻搜索系統(tǒng)還不夠全面,有待日后進行完善和細化。作為一個新的研究方向,基于語義Web的搜索引擎必將取代傳統(tǒng)的搜索引擎技術,即將成為一種全新的搜索引擎技術。
[1]曹利培,張志亮.語義Web服務及其在搜索引擎上的應用[J].計算機與信息技術,2008(9):156-157.CAO Li-pei,ZHANG Zhi-liang.Semantic web services and in the search engine applications[J].Computer and information technology,2008(9):156-157.
[2]代金晶,紀希禹.基于語義網(wǎng)的智能搜索引擎在數(shù)字圖書館中的應用[J].圖書館學研究,2008(9):59-60.DAI Jin-jing,JI Xi-yu.Based on the semantic web of intelligent search engine in the digital library application[J].Jlibrary science research,2008(9):59-60.
[3]高一波,趙先章,孫碩.面向垂直搜索引擎的基于知識的語義關聯(lián)算法[J].計算機工程,2009(11):125-127.GAO Yi-bo,ZHAO Xian-zhang,Sun Shuo.Face vertical search engine based on knowledge of the semantic correlation algorithm[J].Computer engineering,2009(11):125-127.
[4]黎慧.語義Web環(huán)境下的搜索引擎 [J].桂林航天工業(yè)高等??茖W校學報,2009(3):89-91.LI Hui.Semantic web environment search engine[J].Guilin aerospace industry college journal,2009(3):89-91.
[5]李延香,黃素萍.基于語義Web的搜索引擎研究[J].咸陽師范學院學報,2008(4):258-260.LI Yan-xiang,HUANG Su-ping.Based on the semantic Web search engine[J].Journal of xianyang normal university,2008(4):258-260.
[6]胡世港.語義Web與下一代互聯(lián)網(wǎng)搜索引擎[J].軟件導刊,2008(4):78-79.HU Shi-gang.Semantic web and the next generation of the Internet search engine[J].Jsoftware guide,2008(4):78-79.
[7]胡軍,李志露.一種基于Rough本體的語義搜索引擎模型[J].微計算機信息,2008(24):55-56.WU Jun,LI Zhi-lu.A rough ontology based on the semantic search engine model[J].journal of micro computer information,2008(24):55-56.