亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        搜索引擎的體系結(jié)構(gòu)與索引技術(shù)探析

        2011-04-01 00:14:44王改香山西金融職業(yè)學(xué)院信息技術(shù)系山西太原030008
        關(guān)鍵詞:搜索引擎頁面用戶

        王改香 (山西金融職業(yè)學(xué)院信息技術(shù)系,山西太原030008)

        從20世紀(jì)末開始,經(jīng)濟(jì)文化領(lǐng)域就迅速進(jìn)入了信息時代,知識和信息的爆炸式發(fā)展與網(wǎng)絡(luò)的應(yīng)用成為信息擴(kuò)張的先鋒。面對著網(wǎng)絡(luò)中浩如星海的龐大知識信息庫,無法準(zhǔn)確全面的找到所需要的信息成為制約網(wǎng)絡(luò)信息發(fā)展的枷鎖。信息檢索的索引技術(shù)發(fā)展彌補了這一缺陷,搜索引擎應(yīng)運而生,成為海量網(wǎng)絡(luò)信息準(zhǔn)確全面定位的應(yīng)用技術(shù)。搜索引擎是網(wǎng)絡(luò)信息精準(zhǔn)定位的應(yīng)用,實現(xiàn)了龐大網(wǎng)絡(luò)信息量的查詢。而索引技術(shù)是搜索引擎的核心技術(shù)。下面,筆者對搜索引擎體系結(jié)構(gòu)和索引技術(shù)進(jìn)行分析。

        1 搜索引擎的體系結(jié)構(gòu)

        搜索引擎的基本結(jié)構(gòu)一般包括數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)組織、數(shù)據(jù)檢索和信息挖掘5個功能模塊。數(shù)據(jù)采集是負(fù)責(zé)按照一定的方式和要求對網(wǎng)絡(luò)上的WWW站點等資源進(jìn)行搜集,并將搜集到的WWW網(wǎng)頁信息經(jīng)過網(wǎng)絡(luò)傳輸,存儲到搜索引擎的搜索端數(shù)據(jù)庫中;數(shù)據(jù)分析負(fù)責(zé)對收集到的網(wǎng)頁信息進(jìn)行分析,按照特定的算法,從中提取有檢索或查詢價值的內(nèi)容 (網(wǎng)頁關(guān)鍵詞、網(wǎng)頁的分類類別、被其他網(wǎng)頁鏈接次數(shù)等);數(shù)據(jù)組織是形成規(guī)范的索引數(shù)據(jù)庫或便于瀏覽的層次型分類目錄結(jié)構(gòu);數(shù)據(jù)檢索負(fù)責(zé)幫助用戶用一定的檢索方式來檢索索引數(shù)據(jù)庫或瀏覽分類目錄結(jié)構(gòu),以獲取用戶所需的信息;信息挖掘負(fù)責(zé)提取用戶相關(guān)信息,以利用這些信息來提高檢索服務(wù)的質(zhì)量。如根據(jù)用戶以前檢索行為的學(xué)習(xí)統(tǒng)計及其登記的信息,可以實現(xiàn)個性化檢索[1]。這5個功能模塊構(gòu)成了搜索引擎的基本體系結(jié)構(gòu),而不同的搜索引擎體系結(jié)構(gòu)也有很多不同,下面筆者以幾個典型的搜索引擎為例來分析搜索引擎的體系結(jié)構(gòu)。

        1)獨立搜索引擎 實際中,獨立搜索引擎就是以搜索引擎的結(jié)構(gòu)為基礎(chǔ)建立而成的。現(xiàn)在主流應(yīng)用的第二代搜索引擎的構(gòu)成具有結(jié)構(gòu)上的統(tǒng)一和相似性:以搜集器完成廣域網(wǎng)中網(wǎng)頁信息和超鏈接信息的獲取;網(wǎng)頁數(shù)據(jù)庫儲存已經(jīng)獲取的網(wǎng)頁信息與超鏈接結(jié)構(gòu)的信息,做為備用等待分析器進(jìn)行處理分析;分析器以網(wǎng)絡(luò)中數(shù)據(jù)信息的特點為依據(jù),以一定的算法作為分析方法,對網(wǎng)頁數(shù)據(jù)庫中儲存的網(wǎng)絡(luò)與超鏈接信息進(jìn)行處理分析,提取與用戶檢索內(nèi)容相關(guān)的頁面描述信息,將分析后的信息傳送到索引器建立結(jié)構(gòu)索引;索引器將分析器所處理分析的頁面抽象數(shù)據(jù)建立索引,分析器處理分析的頁面描述信息,是頁面與頁面之間數(shù)據(jù)描述的正派表;索引數(shù)據(jù)庫將與用戶檢索內(nèi)容相關(guān)的信息進(jìn)行存儲,其中包括頁面描述信息、各種索引數(shù)據(jù)、對檢索結(jié)果有影響的用戶信息等;檢索器對用戶檢索請求進(jìn)行響應(yīng),并對用戶的檢索進(jìn)行跟蹤;用戶信息庫將檢索用戶的相關(guān)信息進(jìn)行存儲,包括用戶的IP地址、所有檢索串和用戶對檢索的不同響應(yīng);挖掘器用于用戶信息的獲取,并以這些信息為依據(jù)對檢索服務(wù)質(zhì)量進(jìn)行調(diào)整;用戶接口為搜索引擎在用戶端所顯示的界面,提供用戶的相關(guān)查詢、結(jié)果顯示與相關(guān)的反饋機(jī)制。

        2)元搜索引擎 元搜索引擎的基本原理是調(diào)用各獨立搜索引擎進(jìn)行檢索,并提供統(tǒng)一的用戶界面和結(jié)果輸出,因此,可將其按照功能分為3大部分:用戶接口、查詢代理和結(jié)果匯總。元搜索引擎采用統(tǒng)一的檢索界面,供用戶輸入查詢請求。用戶接口包括請求提交和檢索接口兩部分組成。其中,請求提交的功能是將用戶檢索請求發(fā)送至成員搜索引擎。通常情況下,元搜索引擎對所能調(diào)動的成員搜索引擎進(jìn)行設(shè)定;也存在部分元搜索引擎提供成員搜索引擎給用戶進(jìn)行選擇;還有部分元搜索引擎以用戶的搜索信息與網(wǎng)絡(luò)的及時狀況為用戶提供成員搜索引擎,對用戶的查詢的響應(yīng)速度和準(zhǔn)確率進(jìn)行優(yōu)化。

        元搜索引擎的優(yōu)點從元搜索引擎的結(jié)構(gòu)可以看出,元搜索引擎的技術(shù)重點在于查詢前的處理 (檢索請求的分發(fā)和轉(zhuǎn)換)和檢索結(jié)果的集成。一般來說,元搜索引擎都是選擇那些比較典型的、性能優(yōu)異的獨立搜索引擎作為其成員搜索引擎。這樣,與獨立搜索引擎相比,元搜索引擎具有如下主要優(yōu)點:搜索信息的覆蓋面廣、搜索結(jié)果具有權(quán)威性、可靠性、易維護(hù)性。元搜索引擎的出現(xiàn)大大提高了用戶查詢信息的覆蓋面。由于它能夠在多個搜索引擎中搜索,必然能夠為檢索提供更多的機(jī)會。但它在查詢的準(zhǔn)確度上卻不一定強于獨立搜索引擎。元搜索引擎的主要局限性體現(xiàn)在以下幾個方面:調(diào)用搜索引擎的局限性、查詢請求上的局限性、查詢結(jié)果數(shù)量上的局限性、查詢結(jié)果排序上的局限性。

        3)分布式搜索引擎 以機(jī)器人為基礎(chǔ)的搜索引擎 (Alta Vista)與目錄式搜索引擎 (Yahoo!)在體系結(jié)構(gòu)的角度皆為集中形式,工作方式都是通過自動搜索程序在廣域網(wǎng)中抓取Web頁面,在處理之后將信息集中存儲在站點中,用戶查詢中通過對站點的訪問實現(xiàn)查詢過程[2]。一般情況下,集中式搜索引擎各部分都是獨立對信息進(jìn)行抓取和處理分析,沒有協(xié)作性,從而造成工作的無效重復(fù),也是對網(wǎng)絡(luò)帶寬資源極大的浪費,也成為各Web站點中無謂的負(fù)擔(dān)。所以說,集中式搜索引擎的結(jié)構(gòu)體系不能夠適應(yīng)現(xiàn)在網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大的形式。

        而分布式搜索引擎是針對這種先天不足的搜索引擎而產(chǎn)生的,建立的中心思想是將IP地址、所在地域和主題等劃分標(biāo)準(zhǔn)為依據(jù),將廣域網(wǎng)絡(luò)劃分為不同的搜索域,在搜索域中分別設(shè)置不同的檢索服務(wù)器 (Index Server)。各個分域中的檢索服務(wù)器由代理 (Broker)、信息搜集軟件 (Gatherer)和索引數(shù)據(jù)庫 (Index Database)3個部分構(gòu)成。代理的任務(wù)是為用戶提供查詢服務(wù)的借口,實現(xiàn)與其他代理之間的互通,完成不同檢索服務(wù)器之間的信息交換;信息搜索軟件的功能是對本域內(nèi)的數(shù)據(jù)信息進(jìn)行抓取,在索引信息的處理后將信息發(fā)送到索引數(shù)據(jù)庫。用戶的查詢要求通過代理完成定向的重置,在當(dāng)前索引庫無法完成用戶的查詢?nèi)蝿?wù)請求時,將請求發(fā)送至其他檢索服務(wù)器,實現(xiàn)查詢的分布式搜索。

        2 索引技術(shù)

        Indexer模塊及Collection Analysis模塊為頁面集合創(chuàng)建了許多種類型的索引。Indexer模塊創(chuàng)建2種基本索引,即文本索引 (網(wǎng)頁的內(nèi)容索引)及鏈接索引 (超鏈接結(jié)構(gòu))[3]。Collection Analysis模塊利用這2種索引創(chuàng)建許多其他的輔助索引。

        1)文本索引 文本索是查找與用戶查詢詞相關(guān)頁面的主要方法??梢允褂萌魏蝹鹘y(tǒng)索引方法為頁面內(nèi)容建立索引,如倒排文件、倒排索引、后綴數(shù)組、簽名文件等。倒排索引方式是Web環(huán)境中最常用的索引方法。

        2)鏈接索引 為了創(chuàng)建鏈接索引,可以將Web看做是一個巨大的圖,圖中的節(jié)點表示頁面。從頁面A到頁面B的超鏈接構(gòu)成圖的邊。鏈接索引的目的是實現(xiàn)對圖的高效訪問。搜索算法最常用的訪問方式是找出與某一頁面鄰接的頁面。使用Web構(gòu)成的圖及其補圖的鄰接鏈表可以有效地對這種鄰接信息進(jìn)行訪問。其他類型的鏈接信息也可以通過鄰接鏈表方便地得到。例如,若要獲得某一頁面的 “兄弟”節(jié)點,可以通過2個鄰接矩陣得到。

        3)輔助索引 輔助索引的數(shù)量及類型是Collection Analysis模塊根據(jù)搜索引擎的特色及搜索算法所利用的Web特性所決定的。例如,若需要在指定網(wǎng)站范圍內(nèi)響應(yīng)查詢,建立網(wǎng)站索引將會高效率地處理該查詢。同樣,采用鏈接索引包含的鄰接信息,可以比較容易地計算每個頁面的PageRank權(quán)值。

        4)倒排索引 倒排索引由倒排列表構(gòu)成。每個詞對應(yīng)一個倒排列表。倒排列表是詞在頁面中的位置的有序列表。在最簡單情況下,位置信息包括頁面標(biāo)識及詞在頁面中出現(xiàn)的位置。查詢算法通常還要用到詞的其他特征信息。例如,該詞是否被加粗,是否在標(biāo)題中,是否是超鏈接的錨文本。評估算法可能對這樣的詞分配高的權(quán)重。為了實現(xiàn)這樣的功能,需要為每個詞配置一些額外的信息。除了倒排列表之外,許多文本索引還保存語匯信息。語匯信息列出所有在倒排索引中出現(xiàn)的詞及其統(tǒng)計信息,例如,某個詞在頁面集中出現(xiàn)的次數(shù)。這些統(tǒng)計信息同樣也被評估算法使用。

        由于Web的數(shù)據(jù)規(guī)模龐大,為Web建立倒排索引是一個極具挑戰(zhàn)性的工作。一般地,建立倒排索引首先需要按詞排序,然后再按詞位置排序,最后將這些信息保存到磁盤中。對于小規(guī)模的數(shù)據(jù)集,例如,傳統(tǒng)的信息檢索 (IR)系統(tǒng),建立索引的時間可以忽略不計[4]。但是對于Web上的中大規(guī)模數(shù)據(jù)集,這種簡單的建立索引的方案不可操作,需要耗費很大的資源及時間。例如,WebBase存儲了4百萬的頁面,只占可索引Web信息總量的4%,但這已經(jīng)比最大的IR測試數(shù)據(jù)集TREC-7(100GB)大了許多。

        此外,由于Web內(nèi)容不斷變化,需要定時地對索引進(jìn)行更新,以便保持?jǐn)?shù)據(jù)的 “新鮮”程度。這樣,也需要不斷地重建索引。通常的增量式索引更新方法對于Web的情況不適用,因為通常相鄰時間采集的2個頁面集合差別很大。倒排索引的存儲格式必須仔細(xì)考慮。有效的壓縮方法對索引訪問性能的影響很大,因為在內(nèi)存中同時可以保存更多的索引條目。此時,必須對性能上的收益與解壓縮的代價進(jìn)行權(quán)衡。

        3 搜索引擎的發(fā)展趨勢

        隨著網(wǎng)絡(luò)信息的爆炸式增長和內(nèi)容形式的不斷出新,搜索引擎越來越不能滿足客戶的各種信息需求,目前的搜索引擎仍然存在著不少的局限性:搜索引擎對信息的標(biāo)引深度不夠,搜索引擎的信息量占有不足,搜索引擎的檢準(zhǔn)率不高,檢索功能單一、缺乏靈活性,搜索引擎自身的技術(shù)局限。所以,搜索引擎發(fā)展的方向是以更先進(jìn)、更高效的搜索技術(shù)為基礎(chǔ),為用戶提供更精準(zhǔn)、更適用的專業(yè)搜索工具,從而滿足用戶搜索查詢需求。

        1)發(fā)展垂直化專業(yè)領(lǐng)域搜索 隨著社會分工的細(xì)化,不同領(lǐng)域的用戶所提出的查詢要求也更精細(xì)、更專業(yè)。以綜合門戶性質(zhì)為特點的搜索引擎對不同方面、不同學(xué)科、不同行業(yè)的信息收錄過多,查詢的精準(zhǔn)度受到了嚴(yán)重影響。垂直結(jié)構(gòu)的專業(yè)搜索引擎面向特定的領(lǐng)域,對專業(yè)內(nèi)的搜索需求和技術(shù)要求研究更為深入,能夠確保本領(lǐng)域內(nèi)數(shù)據(jù)信息收錄的完全性和及時性。

        2)搜索引擎的智能化 傳統(tǒng)搜索引擎的搜索模式是被動的,而搜索行為的準(zhǔn)確性是對所收錄的信息和搜索請求有更精準(zhǔn)的理解。以自然語言的理解技術(shù)為基礎(chǔ)的搜索引擎,能夠完成與客戶的自然語言溝通,對用戶的搜索請求理解更深入,所產(chǎn)生的結(jié)果更精準(zhǔn)。智能代理是信息化的另一種機(jī)制,它使用自動獲得的領(lǐng)域模型、用戶模型知識進(jìn)行信息搜集、索引、過濾,并自動將用戶感興趣的、對用戶有用的信息提交給用戶[5]。智能代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動態(tài)變化的能力,可提供個性化的服務(wù)。智能代理可在用戶端進(jìn)行,也可在服務(wù)器端進(jìn)行。

        3)開展搜索引擎的本地化服務(wù) 世界上許多著名的搜索引擎都在美國,這些綜合性的搜索引擎已不能滿足非美國網(wǎng)民的信息需求,因此搜索引擎必須本土化。Yahoo!、Lycos等著名公司已陸續(xù)推出適合不同國家、不同地區(qū)的本地搜索網(wǎng)站,搜索的本地化已勢不可擋。而中文搜索引擎自然成為搜索引擎本地化的最大潛在市場。

        4)采用分布式并行處理技術(shù)提高系統(tǒng)規(guī)模和性能 當(dāng)搜索引擎的規(guī)模達(dá)到一定程度 (網(wǎng)頁數(shù)達(dá)到億級)時,如何及時地獲取新網(wǎng)頁和刷新數(shù)據(jù)庫,保證查詢效率不會明顯降低,這就要依賴于設(shè)計合理的并行處理技術(shù),采用某種分布式方法,以提高系統(tǒng)性能。

        [1]徐舒.淺談搜索引擎的體系結(jié)構(gòu)與索引技術(shù) [J].中國新技術(shù)新產(chǎn)品,2010(1):43.

        [2]禹喆.對于搜索引擎的體系結(jié)構(gòu)與索引技術(shù)的研究 [J].中國農(nóng)業(yè)會計,2010(18):190.

        [3]王錚,胡永杰.元搜索引擎的設(shè)計與實現(xiàn) [J].河北師范大學(xué)學(xué)報(自然科學(xué)版),2010,25(2):175-178.

        [4]鄒海華.基于網(wǎng)站信息組織的搜索引擎優(yōu)化策略[J].素質(zhì)教育論壇,2010(18):5-7.

        [5]梁靜,葛宇,洪潔.搜索引擎優(yōu)化初探探 [J].河北師范大學(xué)學(xué)報(自然科學(xué)版),2010,25(5):194-197.

        猜你喜歡
        搜索引擎頁面用戶
        大狗熊在睡覺
        刷新生活的頁面
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        如何獲取一億海外用戶
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        同一Word文檔 縱橫頁面并存
        国产尤物精品视频| 在线免费午夜视频一区二区| 日韩精品中文字幕第二页| 狠狠色噜噜狠狠狠777米奇| 亚洲男同志网站| 在线精品日韩一区二区三区| 亚洲人妻av在线播放| 国产精品无码久久久久下载| 国产精品三级在线不卡| 多毛小伙内射老太婆| 白天躁晚上躁麻豆视频| 精品免费人伦一区二区三区蜜桃| 久久精品一区二区三区不卡牛牛| 日本人妻伦理在线播放| 777亚洲精品乱码久久久久久 | 日韩有码中文字幕在线观看| 特级毛片爽www免费版| 国产女人18一级毛片视频| 免费看男女啪啪的视频网站| 国产精品一区二区三区自拍| 国产成人精品一区二区不卡| 一区二区三区不卡在线| av在线一区二区三区不卡| av在线免费高清观看| 激情综合色综合久久综合| 亚洲国产精品国自产电影| 日本一区二区啪啪视频| 人妻丰满熟妇aⅴ无码| 色翁荡息又大又硬又粗又视频图片| 高清国产亚洲va精品| 国产一区二区在三区在线观看| 美女视频黄是免费| 无码熟妇人妻av在线影片| 亚洲va中文字幕欧美不卡| 国产实拍日韩精品av在线| 久久99精品久久久久久秒播| 69av在线视频| 国产亚洲一二三区精品| 国产狂喷潮在线观看| 一级片麻豆| 国产二区中文字幕在线观看|