摘要:目前在全球市場里占據(jù)主要份額的谷歌、雅虎、百度等搜索引擎,提供給人們的依舊是比較笨拙的工具,因為它們始終受制于傳統(tǒng)Web,對搜索關(guān)鍵字的精確度要求苛刻,處理自然語言的能力很低。語義網(wǎng)(SW)的提出、研究和發(fā)展,給搜索引擎帶來了新的希望。而基于語義Web的智能搜索引擎,則是下一代搜索引擎的必然選擇。
關(guān)鍵詞:中文分詞;網(wǎng)絡(luò)蜘蛛;XML;Web本體語言(OWL);資源描述框架(RDF)
中圖分類號:TP393文獻標(biāo)識碼:A文章編號:1009-3044(2008)14-20840-02
1 搜索引擎的現(xiàn)狀
對搜索關(guān)鍵字的精確度要求苛刻,處理自然語言的能力很低;融合不同來源相關(guān)信息的能力不高;不利于弱勢群體。正如搜索領(lǐng)域的科學(xué)家們常說的那樣:人們關(guān)于搜索的問題只有5%解決了,而我們還沒有利用到搜索潛力的10%。
2 搜索引擎的工作原理
2.1 搜索引擎的系統(tǒng)架構(gòu)
2.1.1 從互聯(lián)網(wǎng)上抓取網(wǎng)頁
網(wǎng)絡(luò)蜘蛛是一種能夠自動從互聯(lián)網(wǎng)上抓取網(wǎng)頁的HTML代碼并沿著一個網(wǎng)頁中的所有URL爬到其它網(wǎng)頁的機器人程序,它重復(fù)此過程,并把爬過的所有網(wǎng)頁收集到服務(wù)器中。網(wǎng)絡(luò)蜘蛛在搜索引擎中占有重要位置,對搜索引擎的查全、查準(zhǔn)都有影響,并決定了搜索引擎數(shù)據(jù)容量的大小,而且網(wǎng)絡(luò)蜘蛛的好壞直接影響搜索結(jié)果頁中死鏈接(即鏈接所指向的網(wǎng)頁已經(jīng)不存在)的個數(shù)。目前如何才能發(fā)現(xiàn)更多的網(wǎng)頁、如何才能令提取的網(wǎng)頁內(nèi)容更精確,如何才能進一步提高蜘蛛的抓取速度以及辨別和處理死鏈、孤鏈等的能力都是網(wǎng)絡(luò)蜘蛛需要進一步改進的問題。
2.1.2 建立索引數(shù)據(jù)庫
由索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
2.1.3 在索引數(shù)據(jù)庫中搜索
當(dāng)用戶輸入關(guān)鍵詞搜索后,分解搜索請求,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。
2.1.4 對搜索結(jié)果進行處理排序
所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)信息在索引庫中都有記錄,只需綜合相關(guān)信息和網(wǎng)頁級別形成相關(guān)度數(shù)值,然后進行排序,相關(guān)度越高,排名越靠前。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。
2.2 中文分詞
英文是以單詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文詞組“Henan Normal University”,用中文則為:“河南師范大學(xué)”。計算機可以很簡單通過空格知道“Normal”是一個單詞,但是不能很容易明白“師”、“范”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞?!昂幽蠋煼洞髮W(xué)”,分詞的結(jié)果是:“河南|師范|大學(xué)”。由此可見,語義劃分的合適與否直接關(guān)系到搜索引擎的搜索結(jié)果。
3 語義Web
語義網(wǎng)(SW)是由公認(rèn)的互聯(lián)網(wǎng)之父, W3C的始創(chuàng)者伯納斯·李(Tim Berners-Lee)提出的。其目標(biāo)是使得Web上的信息具有計算機可以理解的語義,并使計算機能夠根據(jù)語義進行判斷。在SW中,信息都被賦予了明確的含義,機器能夠自動地處理和集成網(wǎng)上可用的信息。 語義網(wǎng)使用XML來定義定制的標(biāo)簽格式,用RDF的靈活性來表達數(shù)據(jù)。語義網(wǎng)的基本體系結(jié)構(gòu)如圖1,語義網(wǎng)的工作流程如圖2。
開發(fā)語義網(wǎng)的兩個重要技術(shù)己經(jīng)就緒,它們是XML(可擴展標(biāo)記語言)和RDF(資源描述框架)。XML讓每個人都能創(chuàng)建自己的標(biāo)簽,來對網(wǎng)頁或頁面的部分文字進行注釋。它允許用戶在文檔中加人任意的結(jié)構(gòu),但無需說明這些結(jié)構(gòu)的含意。含意由RDF來表達。RDF中的代碼包含一組組的三元組,每個三元組相當(dāng)像句子中的主語、動詞和賓語。在RDF中,文檔中的聲明通常是某個事物(人、網(wǎng)頁或其他任何東西)對于某些值(另一個人、另一網(wǎng)頁)擁有某些屬性(例如“是姐姐”,“是作者”)。這種結(jié)構(gòu)用于描述由機器處理的大量數(shù)據(jù),是非常自然的方法。
4 基于語義Web的ISE雛形
4.1 ISE雛形圖
ISE雛形圖如圖3所示。
4.2 可擴展標(biāo)記語言(XML)
XML包括XML元數(shù)據(jù)文件、Schema文件、XSLT顯示文件、XLink、Xpath等一系列相關(guān)部分,但對非計算機人士,可以只看它的元數(shù)據(jù)文件。XML的特點主要是開發(fā)靈活。因為它數(shù)據(jù)和格式分離設(shè)計,并不再局限于HTML文件中標(biāo)準(zhǔn)的TAG。而且又支持Unicode,所以可使用中文標(biāo)記。
4.3 資源描述框架(RDF)
RDF是一個處理元數(shù)據(jù)的XML應(yīng)用。眾所周知,對資源的描述是領(lǐng)域和應(yīng)用相關(guān)的,比如對一本書的描述和對一個Web站點的描述是不一樣的,即對不同資源的描述需要采取不同的詞匯表。因此RDF規(guī)范并沒有定義描述資源所用的詞匯表,而是定義了一些規(guī)則,這些規(guī)則是各領(lǐng)域和應(yīng)用定義用于描述資源的詞匯表時必須遵循的。RDF也提供了描述資源時具有基礎(chǔ)性的詞匯表。
通過RDF,可以使用自己的詞匯表描述任何資源,由于使用的是結(jié)構(gòu)化的XML數(shù)據(jù),搜索引擎可以理解元數(shù)據(jù)的精確含義,使得搜索變得更為智能和準(zhǔn)確,完全可以避免當(dāng)前搜索引擎經(jīng)常返回?zé)o關(guān)數(shù)據(jù)的情況。
4.4 Ontology
僅有XML和RDF是不夠的,因為XML中的標(biāo)簽和RDF中的屬性集都沒有任何限制。例如:XML可以用“
”描述了Web頁的創(chuàng)建者問題,上面的Author和Creator完全可以用Writer來代替。由于XML和RDF在處理語義上存在“一詞多義”和“一義多詞”的不足,才產(chǎn)生了Ontology 。
Ontology通過對概念的嚴(yán)格定義和概念之間的關(guān)系來確定概念的精確含義,可以表示共同認(rèn)可的、可共享的知識,從而解決上面產(chǎn)生的問題。它是解決語義層次上Web信息共享和交換的基礎(chǔ),所以O(shè)WL相對XML、RDF和RDF Schema擁有更多的機制來表達語義。不足之處是Ontology在建模時必須有領(lǐng)域?qū)<业膮⑴c,相對更加嚴(yán)格和困難。它在語義web中的應(yīng)用雖剛剛起步,但前途一片光明。
5 結(jié)論
任何搜索引擎的最終目標(biāo)都是最準(zhǔn)確、最全面、最快速的給用戶以其需求信息,從這個意義上看,研究和開發(fā)基于語義Web的ISE應(yīng)該是很有必要和迫在眉睫的。 一旦它的研究取得進展,其應(yīng)用前景是不可估量的,想象一下:
如果互聯(lián)網(wǎng)上的信息資源具有應(yīng)用程序能夠理解的含義,并且信息資源的處理過程實現(xiàn)了自動化、智能化會是什么樣子;如果有這么一種搜索引擎,能對任何特定領(lǐng)域中積累的大量信息資源進行有效管理,使用戶所問即所得會是一種什么樣子;如果還有一種搜索引擎,能根據(jù)信息資源所具有的領(lǐng)域知識含義,將分散在各種異構(gòu)系統(tǒng)中的相關(guān)信息方便、快速地融合后呈現(xiàn)給用戶又會是什么樣子!
人類的知識建立在兩個基石之上:語義學(xué)和數(shù)學(xué)。在數(shù)字計算方面,計算機已遠遠超越了人類,而幫助計算機理解與掌握語言邏輯將成為下一階段的重點。
在超文本技術(shù)基礎(chǔ)上開發(fā)的超文本傳輸協(xié)議(Http)以及超級鏈接技術(shù)令互聯(lián)網(wǎng)上的網(wǎng)頁可以連接,構(gòu)成了二維的應(yīng)用。而源自語義學(xué)的語義網(wǎng)不僅使網(wǎng)頁,以及互聯(lián)網(wǎng)上所有的內(nèi)容都得以溝通,并將互聯(lián)網(wǎng)從二維帶入三維,毫無疑問會成為下一代互聯(lián)網(wǎng)的神經(jīng)系統(tǒng),令互聯(lián)網(wǎng)的巨大潛能真正得以釋放。
所以說,構(gòu)建有關(guān)語義Web的智能搜索引擎,是下一代搜索引擎的必然選擇。
參考文獻:
[1] W3C, ExtensibleMarkupLanguage(XML 1.0(SecondEdition).http://www.w3.org/TR/REC-xml.
[2] W3C, ResourceDescriptionFramework(RDF)ModelandSyntaxSpecification.http://www.w3.org/lR/1999/REC-rdf-syntax-1999022/.
[3] Google Search Engine.http/:/www.google.com/.
[4] Baidu Search Engine ,http://www.baidu.com/.
[5] MarkBirbeck,著,裴劍鋒,高偉,徐繼偉,等,譯.XML高級編程(第二版).北京:機械工業(yè)出版社,2002.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文