亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語義網(wǎng)的研究和發(fā)展對未來搜索引擎的影響

        2008-12-31 00:00:00石俊飛
        電腦知識與技術(shù) 2008年14期

        摘要:目前在全球市場里占據(jù)主要份額的谷歌、雅虎、百度等搜索引擎,提供給人們的依舊是比較笨拙的工具,因為它們始終受制于傳統(tǒng)Web,對搜索關(guān)鍵字的精確度要求苛刻,處理自然語言的能力很低。語義網(wǎng)(SW)的提出、研究和發(fā)展,給搜索引擎帶來了新的希望。而基于語義Web的智能搜索引擎,則是下一代搜索引擎的必然選擇。

        關(guān)鍵詞:中文分詞;網(wǎng)絡(luò)蜘蛛;XML;Web本體語言(OWL);資源描述框架(RDF)

        中圖分類號:TP393文獻標(biāo)識碼:A文章編號:1009-3044(2008)14-20840-02

        1 搜索引擎的現(xiàn)狀

        對搜索關(guān)鍵字的精確度要求苛刻,處理自然語言的能力很低;融合不同來源相關(guān)信息的能力不高;不利于弱勢群體。正如搜索領(lǐng)域的科學(xué)家們常說的那樣:人們關(guān)于搜索的問題只有5%解決了,而我們還沒有利用到搜索潛力的10%。

        2 搜索引擎的工作原理

        2.1 搜索引擎的系統(tǒng)架構(gòu)

        2.1.1 從互聯(lián)網(wǎng)上抓取網(wǎng)頁

        網(wǎng)絡(luò)蜘蛛是一種能夠自動從互聯(lián)網(wǎng)上抓取網(wǎng)頁的HTML代碼并沿著一個網(wǎng)頁中的所有URL爬到其它網(wǎng)頁的機器人程序,它重復(fù)此過程,并把爬過的所有網(wǎng)頁收集到服務(wù)器中。網(wǎng)絡(luò)蜘蛛在搜索引擎中占有重要位置,對搜索引擎的查全、查準(zhǔn)都有影響,并決定了搜索引擎數(shù)據(jù)容量的大小,而且網(wǎng)絡(luò)蜘蛛的好壞直接影響搜索結(jié)果頁中死鏈接(即鏈接所指向的網(wǎng)頁已經(jīng)不存在)的個數(shù)。目前如何才能發(fā)現(xiàn)更多的網(wǎng)頁、如何才能令提取的網(wǎng)頁內(nèi)容更精確,如何才能進一步提高蜘蛛的抓取速度以及辨別和處理死鏈、孤鏈等的能力都是網(wǎng)絡(luò)蜘蛛需要進一步改進的問題。

        2.1.2 建立索引數(shù)據(jù)庫

        由索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

        2.1.3 在索引數(shù)據(jù)庫中搜索

        當(dāng)用戶輸入關(guān)鍵詞搜索后,分解搜索請求,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。

        2.1.4 對搜索結(jié)果進行處理排序

        所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)信息在索引庫中都有記錄,只需綜合相關(guān)信息和網(wǎng)頁級別形成相關(guān)度數(shù)值,然后進行排序,相關(guān)度越高,排名越靠前。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

        2.2 中文分詞

        英文是以單詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文詞組“Henan Normal University”,用中文則為:“河南師范大學(xué)”。計算機可以很簡單通過空格知道“Normal”是一個單詞,但是不能很容易明白“師”、“范”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞?!昂幽蠋煼洞髮W(xué)”,分詞的結(jié)果是:“河南|師范|大學(xué)”。由此可見,語義劃分的合適與否直接關(guān)系到搜索引擎的搜索結(jié)果。

        3 語義Web

        語義網(wǎng)(SW)是由公認(rèn)的互聯(lián)網(wǎng)之父, W3C的始創(chuàng)者伯納斯·李(Tim Berners-Lee)提出的。其目標(biāo)是使得Web上的信息具有計算機可以理解的語義,并使計算機能夠根據(jù)語義進行判斷。在SW中,信息都被賦予了明確的含義,機器能夠自動地處理和集成網(wǎng)上可用的信息。 語義網(wǎng)使用XML來定義定制的標(biāo)簽格式,用RDF的靈活性來表達數(shù)據(jù)。語義網(wǎng)的基本體系結(jié)構(gòu)如圖1,語義網(wǎng)的工作流程如圖2。

        開發(fā)語義網(wǎng)的兩個重要技術(shù)己經(jīng)就緒,它們是XML(可擴展標(biāo)記語言)和RDF(資源描述框架)。XML讓每個人都能創(chuàng)建自己的標(biāo)簽,來對網(wǎng)頁或頁面的部分文字進行注釋。它允許用戶在文檔中加人任意的結(jié)構(gòu),但無需說明這些結(jié)構(gòu)的含意。含意由RDF來表達。RDF中的代碼包含一組組的三元組,每個三元組相當(dāng)像句子中的主語、動詞和賓語。在RDF中,文檔中的聲明通常是某個事物(人、網(wǎng)頁或其他任何東西)對于某些值(另一個人、另一網(wǎng)頁)擁有某些屬性(例如“是姐姐”,“是作者”)。這種結(jié)構(gòu)用于描述由機器處理的大量數(shù)據(jù),是非常自然的方法。

        4 基于語義Web的ISE雛形

        4.1 ISE雛形圖

        ISE雛形圖如圖3所示。

        4.2 可擴展標(biāo)記語言(XML)

        XML包括XML元數(shù)據(jù)文件、Schema文件、XSLT顯示文件、XLink、Xpath等一系列相關(guān)部分,但對非計算機人士,可以只看它的元數(shù)據(jù)文件。XML的特點主要是開發(fā)靈活。因為它數(shù)據(jù)和格式分離設(shè)計,并不再局限于HTML文件中標(biāo)準(zhǔn)的TAG。而且又支持Unicode,所以可使用中文標(biāo)記。

        4.3 資源描述框架(RDF)

        RDF是一個處理元數(shù)據(jù)的XML應(yīng)用。眾所周知,對資源的描述是領(lǐng)域和應(yīng)用相關(guān)的,比如對一本書的描述和對一個Web站點的描述是不一樣的,即對不同資源的描述需要采取不同的詞匯表。因此RDF規(guī)范并沒有定義描述資源所用的詞匯表,而是定義了一些規(guī)則,這些規(guī)則是各領(lǐng)域和應(yīng)用定義用于描述資源的詞匯表時必須遵循的。RDF也提供了描述資源時具有基礎(chǔ)性的詞匯表。

        通過RDF,可以使用自己的詞匯表描述任何資源,由于使用的是結(jié)構(gòu)化的XML數(shù)據(jù),搜索引擎可以理解元數(shù)據(jù)的精確含義,使得搜索變得更為智能和準(zhǔn)確,完全可以避免當(dāng)前搜索引擎經(jīng)常返回?zé)o關(guān)數(shù)據(jù)的情況。

        4.4 Ontology

        僅有XML和RDF是不夠的,因為XML中的標(biāo)簽和RDF中的屬性集都沒有任何限制。例如:XML可以用“Tom”表示Tom是教師,而RDF片段“

        Ora Lassila

        ”描述了Web頁的創(chuàng)建者問題,上面的Author和Creator完全可以用Writer來代替。由于XML和RDF在處理語義上存在“一詞多義”和“一義多詞”的不足,才產(chǎn)生了Ontology 。

        Ontology通過對概念的嚴(yán)格定義和概念之間的關(guān)系來確定概念的精確含義,可以表示共同認(rèn)可的、可共享的知識,從而解決上面產(chǎn)生的問題。它是解決語義層次上Web信息共享和交換的基礎(chǔ),所以O(shè)WL相對XML、RDF和RDF Schema擁有更多的機制來表達語義。不足之處是Ontology在建模時必須有領(lǐng)域?qū)<业膮⑴c,相對更加嚴(yán)格和困難。它在語義web中的應(yīng)用雖剛剛起步,但前途一片光明。

        5 結(jié)論

        任何搜索引擎的最終目標(biāo)都是最準(zhǔn)確、最全面、最快速的給用戶以其需求信息,從這個意義上看,研究和開發(fā)基于語義Web的ISE應(yīng)該是很有必要和迫在眉睫的。 一旦它的研究取得進展,其應(yīng)用前景是不可估量的,想象一下:

        如果互聯(lián)網(wǎng)上的信息資源具有應(yīng)用程序能夠理解的含義,并且信息資源的處理過程實現(xiàn)了自動化、智能化會是什么樣子;如果有這么一種搜索引擎,能對任何特定領(lǐng)域中積累的大量信息資源進行有效管理,使用戶所問即所得會是一種什么樣子;如果還有一種搜索引擎,能根據(jù)信息資源所具有的領(lǐng)域知識含義,將分散在各種異構(gòu)系統(tǒng)中的相關(guān)信息方便、快速地融合后呈現(xiàn)給用戶又會是什么樣子!

        人類的知識建立在兩個基石之上:語義學(xué)和數(shù)學(xué)。在數(shù)字計算方面,計算機已遠遠超越了人類,而幫助計算機理解與掌握語言邏輯將成為下一階段的重點。

        在超文本技術(shù)基礎(chǔ)上開發(fā)的超文本傳輸協(xié)議(Http)以及超級鏈接技術(shù)令互聯(lián)網(wǎng)上的網(wǎng)頁可以連接,構(gòu)成了二維的應(yīng)用。而源自語義學(xué)的語義網(wǎng)不僅使網(wǎng)頁,以及互聯(lián)網(wǎng)上所有的內(nèi)容都得以溝通,并將互聯(lián)網(wǎng)從二維帶入三維,毫無疑問會成為下一代互聯(lián)網(wǎng)的神經(jīng)系統(tǒng),令互聯(lián)網(wǎng)的巨大潛能真正得以釋放。

        所以說,構(gòu)建有關(guān)語義Web的智能搜索引擎,是下一代搜索引擎的必然選擇。

        參考文獻:

        [1] W3C, ExtensibleMarkupLanguage(XML 1.0(SecondEdition).http://www.w3.org/TR/REC-xml.

        [2] W3C, ResourceDescriptionFramework(RDF)ModelandSyntaxSpecification.http://www.w3.org/lR/1999/REC-rdf-syntax-1999022/.

        [3] Google Search Engine.http/:/www.google.com/.

        [4] Baidu Search Engine ,http://www.baidu.com/.

        [5] MarkBirbeck,著,裴劍鋒,高偉,徐繼偉,等,譯.XML高級編程(第二版).北京:機械工業(yè)出版社,2002.

        注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文

        国产草草视频| 国产精品国产三级国产aⅴ下载| 国模精品一区二区三区| 人妻丝袜无码国产一区| 人妻丰满熟妇岳av无码区hd| 玩弄丰满奶水的女邻居| 欧美性大战久久久久久久| 亚洲Va欧美va国产综合| 丰满熟妇人妻av无码区| 国产优质av一区二区三区| 日本黄色影院一区二区免费看 | 91日韩东京热中文字幕| av黄色在线免费观看| 看久久久久久a级毛片| 欧美真人性野外做爰| 人人妻人人澡av天堂香蕉| 久久天天爽夜夜摸| 自拍视频国产在线观看| 亚洲一区二区三区毛片| 女同精品一区二区久久| 无码aⅴ精品一区二区三区| 99re热视频这里只精品| 一本久道久久综合五月丁香| 国产av无码专区亚洲草草| 亚洲国产日韩综合天堂| 高清午夜福利电影在线| 国产精品久久久久久久免费看| 久久婷婷综合色丁香五月| 日韩亚洲制服丝袜中文字幕| 免费看男女啪啪的视频网站| 亚洲国产精品av在线| 亚洲精品一区国产欧美| 亚洲综合伊人制服丝袜美腿| 99久久亚洲精品加勒比| 亚洲精品av一区二区| 日本老熟妇乱| 亚洲AV无码成人网站久久精品| 国产一区二区三区乱码在线| 曰批免费视频播放免费| 婷婷五月综合丁香在线| 久草热这里只有精品在线|