亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談搜索引擎的體系結(jié)構(gòu)與索引技術(shù)

        2010-07-27 06:40:18徐舒
        中國新技術(shù)新產(chǎn)品 2010年1期
        關(guān)鍵詞:分詞搜索引擎文檔

        徐舒

        (杭州師范大學(xué)錢江學(xué)院 電氣機械工程系 計算機科學(xué)與技術(shù)專業(yè),浙江 杭州 310012)

        1 搜索引擎的分類

        1.1 目錄式搜索引擎

        目錄式搜索引擎(也稱分類式搜索引擎)主要通過人工發(fā)現(xiàn)信息,由編輯人員根據(jù)信息資源的內(nèi)容按一定的主題進行分類組織,并形成信息摘要,將信息置于事先確定的分類框架中,組織成一層一層的分類目錄,目錄下面有更具體的子目錄。信息的類別也由大到小、由粗到細,整個搜索引擎形成了一個層次型的類別目錄。用戶可以逐層瀏覽,選擇不同的主題對網(wǎng)絡(luò)信息進行過濾,所選擇的主題類別越小,信息的相關(guān)性就越高,用戶就越有可能找到自己所需要的信息。這類搜索引擎的性能主要取決于對所獲取網(wǎng)頁的人工歸類或自動分類算法的精確度如何。其代表有:Yahoo,LookSmart,Open,Directory,GoGuide等。例如,中文雅虎(Yahoo)有14個一級目錄,最深有6級子目錄,其使用的是手工錄入方式得到Web頁面摘要信息,而非全頁面內(nèi)容信息。其形成的具體方式是:首先維護人員對新Web站點進行瀏覽,然后對瀏覽內(nèi)容進行內(nèi)容提取,并形成摘要信息和關(guān)鍵字,最后將這些信息分類進行存儲。由于Yahoo的普及程度非常高,因此現(xiàn)在Yahoo系統(tǒng)的維護人員不再需要到Internet上去尋找新Web站點,而是由新Web站點的發(fā)布者主動通過頁面提交本站點的有關(guān)信息,系統(tǒng)的維護人員只需要對這些提交的信息進行歸類存儲,然后對外發(fā)布公開。

        Yahoo給用戶提供了兩種查詢方式:漫游查詢和關(guān)鍵詞自動搜索。漫游查詢即用戶利用瀏覽器在Yahoo的Web頁面上按主題目錄進行逐層深入地查找所需要的內(nèi)容信息。關(guān)鍵詞自動搜索方式是系統(tǒng)根據(jù)用戶提交的查詢關(guān)鍵詞,自動對目錄樹結(jié)構(gòu)進行搜索查找,返回符合條件的結(jié)果集。目錄式搜索引擎的突出特點是具有比較好的信息質(zhì)量,但由于采用手工進行Web頁面信息的獲取和維護,所以存在以下不足:信息覆蓋率低,信息實時更新不夠及時,目錄維護耗費的人力資源大;基于關(guān)鍵詞而非全文進行查詢,可能在查詢時造成某些相關(guān)信息的遺漏;采用漫游查詢方式的效率不高,并且由于目錄查詢樹結(jié)構(gòu)的不斷增大,查詢某一特定主題的代價和時間開銷會越來越大。

        為了解決目錄式搜索引擎存在的問題,人們引入了人工智能技術(shù),用機器人(也稱之為Robot,Spider,Wanderer,Worm)代替手工去發(fā)現(xiàn)、加工、整理信息,這樣就出現(xiàn)了機器人搜索引擎。

        1.2 機器人搜索引擎

        為了解決目錄式搜索引擎存在的問題人們引入了人工智能技術(shù)用機器人代替手工去發(fā)現(xiàn)加工整理信息這樣就出現(xiàn)了機器人搜索引擎,機器人搜索引擎不需要人工收集信息而是由一個被稱作"機器人"的計算機程序在網(wǎng)絡(luò)上不停地爬行和搜索,依據(jù)一定的網(wǎng)絡(luò)協(xié)議在Internet中自動獲取網(wǎng)頁信息并通過對網(wǎng)頁內(nèi)容和特征的分析采用一定的策略組織信息并建立自己的索引數(shù)據(jù)庫為用戶提供查詢務(wù)。HotBot,InfoSeek,Google,Excite、天網(wǎng)等就是這類檢索系統(tǒng)的典型代表。

        1.3 元搜索引擎

        由于單個搜索引擎的覆蓋范圍往往不會太廣,為了找到自己所需要的信息,用戶常常需要使用多個搜索引擎,以期望找到更多、更全、更準(zhǔn)確的信息。但由于不同的搜索引擎在其查詢語法以及接口界面上往往不同,需要用戶重新學(xué)習(xí)和適應(yīng)不同的檢索方法,這給用戶使用多個搜索引擎帶來了極大的不便。為了解決這個問題,研究人員開發(fā)了元搜索引擎。元搜索引擎統(tǒng)一了不同搜索引擎的查詢接口,由統(tǒng)一的元搜索引擎接口對用戶提交的查詢請求進行處理,分別將其轉(zhuǎn)換為符合底層搜索引擎查詢語法要求的子查詢,同時向多個搜索引擎提交查詢的結(jié)果,由底層搜索引擎在各自的索引數(shù)據(jù)庫中進行查詢。在各個搜索引擎返回檢索結(jié)果后,元搜索引擎將子查詢結(jié)果進行匯總、去重、重新排序等處理,最后向用戶返回最終的檢索結(jié)果。元搜索引擎系統(tǒng)一般都沒有自己的索引數(shù)據(jù)庫,而是以一個代理的角色,利用其它搜索引擎的數(shù)據(jù)庫來進行服務(wù)。在層次上,元搜索引擎要比機器人搜索引擎和目錄式搜索引擎要高。元搜索引擎系統(tǒng)的底層搜索引擎可以是機器人搜索引擎,也可以是目錄式搜索引擎。元搜索引擎的優(yōu)點是返回結(jié)果的信息量更大、更全,其查全率較高,解決了單個搜索引擎覆蓋范圍相對狹窄的局限,缺點是不能夠充分利用下層搜索引擎的排序功能,用戶需要做更多的篩選。這類搜索引擎的代表是MetaCrawler,SawyScarch,InfoMarket等。

        2 搜索引擎的工作原理和體系結(jié)構(gòu)

        2.1 搜索引擎的工作原理

        以機器人搜索引擎為例。機器人搜索引擎的工作過程分為三大步:一是在網(wǎng)上發(fā)現(xiàn)信息,如www網(wǎng)頁、Newsgroup文章、FTP文件等等;二是把發(fā)現(xiàn)的信息收集到本地,經(jīng)過信息分類和索引等加工處理把信息存儲在本地數(shù)據(jù)庫;三是提供服務(wù),即通過相應(yīng)的算法和接口在本地數(shù)據(jù)庫中查找到信息,并以一定的形式返回給用戶。搜索引攀主要由三個模塊組成,分別為搜集模塊,預(yù)處理模塊和服務(wù)模塊。搜索引擎三段式工作流程如圖1所示:

        圖1 搜索引擎三段式工作流程

        其中搜集模塊即為網(wǎng)頁搜集,由網(wǎng)絡(luò)爬取器自動完成。預(yù)處理是對抓取到的原始網(wǎng)頁數(shù)據(jù)進行索引處理,獲得索引數(shù)據(jù)庫。服務(wù)指的就是檢索系統(tǒng),為用戶提供查詢服務(wù)。

        2.2 搜索引擎的體系結(jié)構(gòu)

        由圖2可知,搜索引擎主要由搜集器,索引器,檢索器,日志分析器組成。搜索引擎先由搜集器到網(wǎng)上搜集網(wǎng)頁原始數(shù)據(jù),然后由索引器對原始數(shù)據(jù)進行處理,建立索引數(shù)據(jù)庫,最后由檢索系統(tǒng)向用戶提供查詢服務(wù)。這其中還有日志分析器對過程進行記錄,便于日后對用戶行為進行分析,獲得有用信息,有助于改進系統(tǒng)。

        圖2 搜索引擎體系結(jié)構(gòu)

        3 搜索引擎索引技術(shù)

        信息索引就是從已發(fā)現(xiàn)的網(wǎng)頁中提取一些特征,以便用戶很容易地檢索到所需的信息。即通過一定的方法產(chǎn)生一個索引項集合來作為一篇文檔或查詢請求的內(nèi)部表示。

        索引的方法主要分為兩種:一種基于關(guān)鍵詞的索引;另一種是基于概念的索引。第一種是大多數(shù)搜索引擎使用的方法,是從文檔中提取重要的詞作索引。在文檔中頂部出現(xiàn)的詞以及在整個文檔中出現(xiàn)多次的詞可以認為是比較重要的。第二種方法與前種不同之處在于試著了解語義,用一個詞能代表許多意義相近的詞,這樣既節(jié)省了索引空間,也為檢索時可返回有關(guān)主題的所有文檔,甚至這些文檔中的詞與檢索詞并不精確匹配。Excite是當(dāng)前網(wǎng)絡(luò)中比較著名的基于概念檢索的搜索引擎。本文中僅介紹基于關(guān)鍵詞的全文索引,也就是對每篇文檔全文提取關(guān)鍵詞進行索引。建立索引需要進行兩方面的技術(shù)處理:關(guān)鍵詞的提取,建立倒排文檔索引。

        分詞就是從每個頁面文檔中提取一定數(shù)量的關(guān)鍵詞或者知識。為了提取關(guān)鍵詞或知識,必須分割出單個詞或句子??梢酝ㄟ^對英文文章或句子的語法和語義分析來提取出該文章的主要意思。但這些方法都是基于英文本身就有明顯的詞間分割這個事實上的,因而英文根本不存在分詞問題。但對于漢語等無明顯詞間隔的語言來說,必須要先對原文進行分詞,然后再提取它。

        中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解,其處理過程就是分詞算法?,F(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。

        [1]劉琨,鄭有才.搜索引擎剖析[J].微機發(fā)展,2005.

        [2]化柏林.Google搜索引擎技術(shù)實現(xiàn)探究[J].現(xiàn)代圖書情報技術(shù),2004.

        [3]郭少友.元搜索引擎的原理和設(shè)計[J].情報科學(xué),2005.

        猜你喜歡
        分詞搜索引擎文檔
        有人一聲不吭向你扔了個文檔
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        基于RI碼計算的Word復(fù)制文檔鑒別
        值得重視的分詞的特殊用法
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        高考分詞作狀語考點歸納與疑難解析
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        初尝人妻少妇中文字幕在线| 日韩在线不卡一区三区av| 一道之本加勒比热东京| 男男啪啪激烈高潮无遮挡网站网址| 国产网站一区二区三区| 少女韩国电视剧在线观看完整| 中文字幕亚洲欧美日韩2019| 不卡国产视频| 91麻豆精品一区二区三区| 深夜一区二区三区视频在线观看| 亚洲av五月天一区二区| 亚洲一区二区三区四区五区黄| 少妇熟女天堂网av| 内射无码专区久久亚洲| 国产又黄又爽又无遮挡的视频| 亚州毛色毛片免费观看| 国产av熟女一区二区三区蜜臀 | 熟女少妇内射日韩亚洲| 性一乱一搞一交一伦一性| 96精品免费视频大全| 青青草好吊色在线视频| 日韩精品久久中文字幕| 欧美一区二区三区久久综| 这里有精品可以观看| 久久狠狠爱亚洲综合影院| 高清不卡日本v二区在线| 午夜天堂精品久久久久| 亚洲午夜福利在线观看| 狠狠躁夜夜躁人人爽天天不卡| 女人天堂国产精品资源麻豆| 亚洲综合天堂av网站在线观看| 国产黄在线观看免费观看不卡| 国产aⅴ天堂亚洲国产av| 一区二区三区av资源网| 久久熟妇少妇亚洲精品| 农村欧美丰满熟妇xxxx| 精品人妻系列无码人妻免费视频| 人妻少妇看A偷人无码电影| 丝袜美腿一区在线观看| 国产69精品久久久久9999apgf| 久久久精品人妻久久影视|