亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語義網(wǎng)的研究和發(fā)展對未來搜索引擎的影響

2008-12-31 00:00:00陳鑫石俊飛

電腦知識與技術(shù) 2008年14期

摘要：目前在全球市場里占據(jù)主要份額的谷歌、雅虎、百度等搜索引擎，提供給人們的依舊是比較笨拙的工具，因為它們始終受制于傳統(tǒng)Web，對搜索關(guān)鍵字的精確度要求苛刻，處理自然語言的能力很低。語義網(wǎng)（SW）的提出、研究和發(fā)展，給搜索引擎帶來了新的希望。而基于語義Web的智能搜索引擎，則是下一代搜索引擎的必然選擇。

關(guān)鍵詞：中文分詞；網(wǎng)絡(luò)蜘蛛；XML；Web本體語言(OWL)；資源描述框架(RDF)

中圖分類號：TP393文獻標(biāo)識碼：A文章編號：1009-3044(2008)14-20840-02

1 搜索引擎的現(xiàn)狀

對搜索關(guān)鍵字的精確度要求苛刻，處理自然語言的能力很低；融合不同來源相關(guān)信息的能力不高；不利于弱勢群體。正如搜索領(lǐng)域的科學(xué)家們常說的那樣：人們關(guān)于搜索的問題只有5%解決了，而我們還沒有利用到搜索潛力的10%。

2 搜索引擎的工作原理

2.1 搜索引擎的系統(tǒng)架構(gòu)

2.1.1 從互聯(lián)網(wǎng)上抓取網(wǎng)頁

網(wǎng)絡(luò)蜘蛛是一種能夠自動從互聯(lián)網(wǎng)上抓取網(wǎng)頁的HTML代碼并沿著一個網(wǎng)頁中的所有URL爬到其它網(wǎng)頁的機器人程序，它重復(fù)此過程，并把爬過的所有網(wǎng)頁收集到服務(wù)器中。網(wǎng)絡(luò)蜘蛛在搜索引擎中占有重要位置，對搜索引擎的查全、查準(zhǔn)都有影響，并決定了搜索引擎數(shù)據(jù)容量的大小，而且網(wǎng)絡(luò)蜘蛛的好壞直接影響搜索結(jié)果頁中死鏈接（即鏈接所指向的網(wǎng)頁已經(jīng)不存在）的個數(shù)。目前如何才能發(fā)現(xiàn)更多的網(wǎng)頁、如何才能令提取的網(wǎng)頁內(nèi)容更精確，如何才能進一步提高蜘蛛的抓取速度以及辨別和處理死鏈、孤鏈等的能力都是網(wǎng)絡(luò)蜘蛛需要進一步改進的問題。

2.1.2 建立索引數(shù)據(jù)庫

由索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析，提取相關(guān)網(wǎng)頁信息（包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等），根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算，得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

2.1.3 在索引數(shù)據(jù)庫中搜索

當(dāng)用戶輸入關(guān)鍵詞搜索后，分解搜索請求，由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。

2.1.4 對搜索結(jié)果進行處理排序

所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)信息在索引庫中都有記錄，只需綜合相關(guān)信息和網(wǎng)頁級別形成相關(guān)度數(shù)值，然后進行排序，相關(guān)度越高，排名越靠前。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

2.2 中文分詞

英文是以單詞為單位的，詞和詞之間靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文詞組“Henan Normal University”，用中文則為：“河南師范大學(xué)”。計算機可以很簡單通過空格知道“Normal”是一個單詞，但是不能很容易明白“師”、“范”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞?！昂幽蠋煼洞髮W(xué)”，分詞的結(jié)果是：“河南|師范|大學(xué)”。由此可見，語義劃分的合適與否直接關(guān)系到搜索引擎的搜索結(jié)果。

3 語義Web

語義網(wǎng)(SW）是由公認(rèn)的互聯(lián)網(wǎng)之父， W3C的始創(chuàng)者伯納斯·李(Tim Berners-Lee)提出的。其目標(biāo)是使得Web上的信息具有計算機可以理解的語義，并使計算機能夠根據(jù)語義進行判斷。在SW中，信息都被賦予了明確的含義，機器能夠自動地處理和集成網(wǎng)上可用的信息。語義網(wǎng)使用XML來定義定制的標(biāo)簽格式，用RDF的靈活性來表達數(shù)據(jù)。語義網(wǎng)的基本體系結(jié)構(gòu)如圖1，語義網(wǎng)的工作流程如圖2。

開發(fā)語義網(wǎng)的兩個重要技術(shù)己經(jīng)就緒，它們是XML(可擴展標(biāo)記語言)和RDF(資源描述框架)。XML讓每個人都能創(chuàng)建自己的標(biāo)簽，來對網(wǎng)頁或頁面的部分文字進行注釋。它允許用戶在文檔中加人任意的結(jié)構(gòu)，但無需說明這些結(jié)構(gòu)的含意。含意由RDF來表達。RDF中的代碼包含一組組的三元組，每個三元組相當(dāng)像句子中的主語、動詞和賓語。在RDF中，文檔中的聲明通常是某個事物(人、網(wǎng)頁或其他任何東西)對于某些值(另一個人、另一網(wǎng)頁)擁有某些屬性(例如“是姐姐”，“是作者”)。這種結(jié)構(gòu)用于描述由機器處理的大量數(shù)據(jù)，是非常自然的方法。

4 基于語義Web的ISE雛形

4.1 ISE雛形圖

ISE雛形圖如圖3所示。

4.2 可擴展標(biāo)記語言(XML)

XML包括XML元數(shù)據(jù)文件、Schema文件、XSLT顯示文件、XLink、Xpath等一系列相關(guān)部分，但對非計算機人士，可以只看它的元數(shù)據(jù)文件。XML的特點主要是開發(fā)靈活。因為它數(shù)據(jù)和格式分離設(shè)計，并不再局限于HTML文件中標(biāo)準(zhǔn)的TAG。而且又支持Unicode，所以可使用中文標(biāo)記。

4.3 資源描述框架（RDF）

RDF是一個處理元數(shù)據(jù)的XML應(yīng)用。眾所周知，對資源的描述是領(lǐng)域和應(yīng)用相關(guān)的，比如對一本書的描述和對一個Web站點的描述是不一樣的，即對不同資源的描述需要采取不同的詞匯表。因此RDF規(guī)范并沒有定義描述資源所用的詞匯表，而是定義了一些規(guī)則，這些規(guī)則是各領(lǐng)域和應(yīng)用定義用于描述資源的詞匯表時必須遵循的。RDF也提供了描述資源時具有基礎(chǔ)性的詞匯表。

通過RDF，可以使用自己的詞匯表描述任何資源，由于使用的是結(jié)構(gòu)化的XML數(shù)據(jù)，搜索引擎可以理解元數(shù)據(jù)的精確含義，使得搜索變得更為智能和準(zhǔn)確，完全可以避免當(dāng)前搜索引擎經(jīng)常返回?zé)o關(guān)數(shù)據(jù)的情況。

4.4 Ontology

僅有XML和RDF是不夠的，因為XML中的標(biāo)簽和RDF中的屬性集都沒有任何限制。例如：XML可以用“Tom”表示Tom是教師，而RDF片段“

Ora Lassila

”描述了Web頁的創(chuàng)建者問題，上面的Author和Creator完全可以用Writer來代替。由于XML和RDF在處理語義上存在“一詞多義”和“一義多詞”的不足，才產(chǎn)生了Ontology 。

Ontology通過對概念的嚴(yán)格定義和概念之間的關(guān)系來確定概念的精確含義，可以表示共同認(rèn)可的、可共享的知識，從而解決上面產(chǎn)生的問題。它是解決語義層次上Web信息共享和交換的基礎(chǔ)，所以O(shè)WL相對XML、RDF和RDF Schema擁有更多的機制來表達語義。不足之處是Ontology在建模時必須有領(lǐng)域?qū)＜业膮⑴c，相對更加嚴(yán)格和困難。它在語義web中的應(yīng)用雖剛剛起步，但前途一片光明。

5 結(jié)論

任何搜索引擎的最終目標(biāo)都是最準(zhǔn)確、最全面、最快速的給用戶以其需求信息，從這個意義上看，研究和開發(fā)基于語義Web的ISE應(yīng)該是很有必要和迫在眉睫的。一旦它的研究取得進展，其應(yīng)用前景是不可估量的，想象一下：

如果互聯(lián)網(wǎng)上的信息資源具有應(yīng)用程序能夠理解的含義，并且信息資源的處理過程實現(xiàn)了自動化、智能化會是什么樣子；如果有這么一種搜索引擎，能對任何特定領(lǐng)域中積累的大量信息資源進行有效管理，使用戶所問即所得會是一種什么樣子；如果還有一種搜索引擎，能根據(jù)信息資源所具有的領(lǐng)域知識含義，將分散在各種異構(gòu)系統(tǒng)中的相關(guān)信息方便、快速地融合后呈現(xiàn)給用戶又會是什么樣子！

人類的知識建立在兩個基石之上：語義學(xué)和數(shù)學(xué)。在數(shù)字計算方面，計算機已遠遠超越了人類，而幫助計算機理解與掌握語言邏輯將成為下一階段的重點。

在超文本技術(shù)基礎(chǔ)上開發(fā)的超文本傳輸協(xié)議(Http)以及超級鏈接技術(shù)令互聯(lián)網(wǎng)上的網(wǎng)頁可以連接，構(gòu)成了二維的應(yīng)用。而源自語義學(xué)的語義網(wǎng)不僅使網(wǎng)頁，以及互聯(lián)網(wǎng)上所有的內(nèi)容都得以溝通，并將互聯(lián)網(wǎng)從二維帶入三維，毫無疑問會成為下一代互聯(lián)網(wǎng)的神經(jīng)系統(tǒng)，令互聯(lián)網(wǎng)的巨大潛能真正得以釋放。

所以說，構(gòu)建有關(guān)語義Web的智能搜索引擎，是下一代搜索引擎的必然選擇。

參考文獻：

[1] W3C， ExtensibleMarkupLanguage(XML 1.0(SecondEdition).http://www.w3.org/TR/REC-xml.

[2] W3C， ResourceDescriptionFramework(RDF)ModelandSyntaxSpecification.http://www.w3.org/lR/1999/REC-rdf-syntax-1999022/.

[3] Google Search Engine.http/:/www.google.com/.

[4] Baidu Search Engine ，http://www.baidu.com/.

[5] MarkBirbeck，著，裴劍鋒，高偉，徐繼偉，等，譯.XML高級編程（第二版）.北京：機械工業(yè)出版社，2002.

注：本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文

電腦知識與技術(shù)2008年14期

電腦知識與技術(shù)的其它文章: 虛擬機在實驗教學(xué)中的應(yīng)用; 淺議中職數(shù)學(xué)教學(xué)的思想教育; 基于網(wǎng)絡(luò)模式下的中學(xué)英語教學(xué)探討; 高校英語網(wǎng)絡(luò)教學(xué)資源庫的建設(shè)思路; Ｌｉｎｕｘ高性能計算集群的設(shè)計與實現(xiàn); 基于ＵＭＬ計算機聯(lián)鎖控制系統(tǒng)的設(shè)計