亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        搜索引擎綜述

        2012-12-31 00:00:00呂學(xué)軍

        摘要:本文系統(tǒng)地介紹了搜索引擎的工作原理、目前常用的幾種搜索引擎,以及最新的幾種搜索引擎新技術(shù),最后分析了搜索引擎未來的發(fā)展方向。

        關(guān)鍵詞:搜索引擎;新技術(shù);工作原理;網(wǎng)絡(luò)

        中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 22-0000-02

        在互聯(lián)網(wǎng)日益發(fā)達(dá)的今天,搜索無處不在,網(wǎng)絡(luò)已成為人類生活的主導(dǎo)。當(dāng)代中國(guó)國(guó)學(xué)大師翟鴻燊曾說過:“在當(dāng)今時(shí)代,知識(shí)甚至不需要積累,會(huì)搜索就行”。這里說的搜索,實(shí)際指的是使用搜索引擎進(jìn)行的一種搜索行為,這是一種根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。

        1 搜索引擎的工作原理

        搜索引擎的工作原理可以分為三個(gè)部分 :

        1.1 抓取網(wǎng)頁:每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。

        1.2 處理網(wǎng)頁:搜索引擎抓取到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁、分析超鏈接、計(jì)算網(wǎng)頁的重要度等。

        1.3 提供檢索服務(wù):用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會(huì)提供一段來自網(wǎng)頁的摘要以及其他信息。

        2 目前常用的搜索引擎

        說到搜索引擎,就必定要說到Google(谷歌)和Baidu(百度)這兩個(gè)搜索引擎。一個(gè)是世界上最大的搜索引擎,一個(gè)是最大的中文搜索引擎。在世界范圍內(nèi),Google絕對(duì)是領(lǐng)頭羊,當(dāng)然,千萬別忘了還有一個(gè)軟件巨頭——微軟。

        信息搜索如今已成為僅次于電子郵件的因特網(wǎng)第二大應(yīng)用,而當(dāng)今世界第一大網(wǎng)絡(luò)搜索引擎Google取得的輝煌業(yè)績(jī)?cè)诰W(wǎng)絡(luò)世界已經(jīng)成為一個(gè)令人嘆為觀止的神話般的創(chuàng)業(yè)成功故事。Google目前在傳統(tǒng)的網(wǎng)絡(luò)搜索中的地位無人能出其右,甚至微軟也有些無可奈何。Google在美國(guó)搜索市場(chǎng)的份額為68%,Yahoo(雅虎)的市場(chǎng)份額為20%,而微軟的市場(chǎng)份額只有6%。微軟是這個(gè)市場(chǎng)的后來者,但卻一直希望在高速增長(zhǎng)的網(wǎng)絡(luò)搜索廣告市場(chǎng)追趕Google和Yahoo。

        截至2011年底,作為最大的中文搜索引擎,Baidu已在中國(guó)搜索引擎市場(chǎng)穩(wěn)穩(wěn)占據(jù)70%以上的市場(chǎng)份額。競(jìng)價(jià)排名是Baidu的主要盈利模式,自推出以來就飽受爭(zhēng)議,但事實(shí)上,Baidu競(jìng)價(jià)排名已成為中國(guó)廣大中小企業(yè)最有效的營(yíng)銷推廣利器之一。根據(jù)Baidu公布的2008年第2季度財(cái)報(bào)顯示,Baidu目前已經(jīng)為接近20萬家中小企業(yè)提供卓有成效的競(jìng)價(jià)排名推廣業(yè)務(wù),并已經(jīng)成為中國(guó)最大的互聯(lián)網(wǎng)營(yíng)銷推廣平臺(tái)。

        除Google、Baidu、微軟之外,還有AOL、Lycos、ASK、sina、搜狗等知名搜索引擎正日益加強(qiáng)彼此的競(jìng)爭(zhēng)。

        3 搜索引擎新技術(shù)

        目前,除了Google、Baidu、微軟這些較大的搜索引擎外,世界上還有100多個(gè)各式各樣的搜索引擎,他們都在努力采用各種新型的搜索引擎技術(shù),以圖挑戰(zhàn)Google以及其它大型搜索引擎的地位。當(dāng)然,Google、Baidu等也不會(huì)坐以待斃,這些大的搜索引擎以雄厚的人力和財(cái)力,積極研發(fā)新的搜索技術(shù),努力維護(hù)其強(qiáng)勢(shì)地位。

        3.1 語義搜索引擎(Semantic Search Engine,SSE)

        語義索引擎,是指從詞語所表達(dá)的語義層次上來認(rèn)識(shí)和處理用戶的檢索請(qǐng)求,通過對(duì)網(wǎng)絡(luò)中的資源對(duì)象進(jìn)行語義上的標(biāo)注,以及對(duì)用戶的查詢表達(dá)進(jìn)行語義處理、語義推理,從而更加準(zhǔn)確、全面的實(shí)現(xiàn)用戶的檢索。

        語義搜索技術(shù)的開發(fā)已經(jīng)30年,但近年來才逐漸應(yīng)用到網(wǎng)絡(luò)搜索,包括Powerset和Cognition Technologies等在內(nèi)的這類公司運(yùn)用語義搜素匯集信息,今后最有可能超越Google的是那些所謂的語義搜索公司。

        3.2 微軟的專業(yè)化搜索技術(shù)

        微軟采取專業(yè)化搜索的戰(zhàn)術(shù)來挑戰(zhàn)谷歌的權(quán)威地位,并迅速占領(lǐng)了一定的市場(chǎng)份額。微軟近期致力于在購物搜索技術(shù)上的開發(fā),并發(fā)布了一款Live搜索現(xiàn)金返還產(chǎn)品。當(dāng)用戶在網(wǎng)絡(luò)上購物時(shí),微軟只向相關(guān)廣告客戶收費(fèi),這樣整個(gè)服務(wù)就變成免費(fèi)的了。

        3.3 搜索引擎能夠收錄Flahsh頁面

        過去網(wǎng)頁里面Flash的內(nèi)容是不能被搜索引擎索引到的。現(xiàn)在Google開發(fā)出一項(xiàng)新搜索技術(shù),終于能讓搜索引擎收錄Flash頁面了。

        3.4 搜索引擎可以搜索PDF格式的文件

        Google很少在自己的搜索結(jié)果中包含掃描的文件,因?yàn)樗鼪]有辦法確定這個(gè)內(nèi)容的性質(zhì)。它現(xiàn)在可以使用光學(xué)字符識(shí)別(OCR)軟件讓網(wǎng)絡(luò)瀏覽者搜索Adobe公司開發(fā)的PDF文件格式存儲(chǔ)的任何文件。谷歌先把掃描的文件轉(zhuǎn)換為文本文件。這樣就可以對(duì)文件進(jìn)行搜索、索引和返回為Google搜索查詢的答案。

        3.5 硬盤內(nèi)容搜索

        Google推出一款硬盤內(nèi)容搜索軟件的升級(jí)版本Google Desktop Search,用戶就能夠方便地存取在其他電腦中保存的信息。 用戶在安裝這款軟件后,Google將暫時(shí)存儲(chǔ)用戶在本機(jī)保存的文本內(nèi)容,然后再將其傳送至用戶登錄的另一臺(tái)電腦中。Google會(huì)安全可靠地存儲(chǔ)和傳送這些數(shù)據(jù),但用戶也需要權(quán)衡這類功能可能存在的隱私漏洞。

        3.6 雅虎中國(guó)旗下的獨(dú)立搜索門戶“一搜”宣布推出“按時(shí)間段檢索”的新武器,

        “一搜”采用搜索獨(dú)有的linkflux技術(shù)對(duì)網(wǎng)頁搜索結(jié)果進(jìn)行排序,linkflux技術(shù)是利用文本、來源、及其他特定文件的特征進(jìn)行分析,以決定文件與查詢的相關(guān)性,這一技術(shù)在同行業(yè)中非常獨(dú)特。這次“一搜”推出的按時(shí)間段檢索功能,結(jié)合Linkflux技術(shù)對(duì)時(shí)間特性進(jìn)行了優(yōu)化,使用戶可以有效地搜索自己感興趣的時(shí)間段內(nèi),互聯(lián)網(wǎng)上最有價(jià)值的信息。

        3.7 自然語言處理

        這一功能最初是由Ask.com開創(chuàng)的。同期最著名的例子是Hakia和Powerset,二者以不同的方式試圖理解用戶查詢背后的語義或意思。這些搜索引擎與Google的有很大的不同,是他們認(rèn)為\"忽略詞\"(stopwords)非常重要,如次要的連詞,像by,for,about,of,in等,Google通常會(huì)忽略它們。

        除此之外,一些小型網(wǎng)站也在嘗試通過新技術(shù)來完善搜索服務(wù),新的搜索服務(wù)提供的都是傳統(tǒng)搜索引擎辦不到的。如PubSub是一套自動(dòng)系統(tǒng),它不間斷地在數(shù)以百萬計(jì)的博客、在線討論、新聞稿和美國(guó)證券交易委員會(huì)(SEC)存檔文件中尋找和你的關(guān)鍵詞匹配的內(nèi)容,一旦找到就會(huì)通知你。Rollyo則允許用戶創(chuàng)建自己的小型搜索引擎,把焦點(diǎn)放在感興趣的話題以及偏好的資源上。Rollyo允許用戶把檢索的網(wǎng)站限制在那些相信能產(chǎn)生最佳效果的網(wǎng)址上,從而鎖定查詢。如果想找關(guān)于面包的信息,那么就可以把搜索限制在一系列認(rèn)為能提供最佳相關(guān)信息的網(wǎng)址上。

        4 搜索引擎新技術(shù)展望

        時(shí)代在發(fā)展,新的需求不斷產(chǎn)生,促使搜索引擎技術(shù)的不斷產(chǎn)生與融合。現(xiàn)代搜索引擎技術(shù)要用到信息檢索、數(shù)據(jù)庫、數(shù)據(jù)挖掘、系統(tǒng)技術(shù)、多媒體、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)字圖書館、自然語言處理等許多領(lǐng)域的理論和技術(shù),成為一種綜合性的技術(shù)。

        在搜索引擎的發(fā)展方向上,一方面是追求質(zhì)量,另一方面是模式取勝。人們對(duì)質(zhì)量的追求總是無窮無盡,新的搜索引擎技術(shù)將會(huì)“更快”——更新快、速度快;“更大”——數(shù)據(jù)容量更大;“更強(qiáng)”——智能化、結(jié)果更讓人滿意。更多新技術(shù)的應(yīng)用與融合,如無線網(wǎng)絡(luò)、P2P等,更會(huì)給搜索引擎技術(shù)帶來新的動(dòng)力,也會(huì)產(chǎn)生更多優(yōu)秀、先進(jìn)、高端的搜素引擎,搜索引擎技術(shù)必將會(huì)有一個(gè)美好的未來。

        參考文獻(xiàn):

        [1]裴有柱.計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)[M].電子工業(yè)出版社

        [2]武馬群.Internet應(yīng)用基礎(chǔ)[M].北京工業(yè)大學(xué)出版社

        [3]朱乃立.計(jì)算機(jī)網(wǎng)絡(luò)實(shí)用技術(shù)[M].高等教育出版社

        中文字幕被公侵犯的丰满人妻| 国产成a人亚洲精v品无码性色| 四虎影视亚洲精品| 亚洲国产日韩精品综合| 亚洲av熟女中文字幕| 久久综合亚洲色一区二区三区| 免费精品无码av片在线观看| 成人午夜免费福利| 亚洲日产乱码在线中文字幕| 国产69久久精品成人看| 少妇白浆高潮无码免费区| 色婷婷久久免费网站| 日韩精品极视频在线观看免费| 777精品出轨人妻国产| 国产成人精品一区二区视频| 8090成人午夜精品无码| 久久国产精品美女厕所尿尿av| 国内免费高清在线观看| 国产午夜福利短视频| 中文字幕亚洲区第一页| 久久99精品国产麻豆| 久久久精品人妻无码专区不卡| 最新国产在线精品91尤物| 日本在线一区二区三区四区| 亚洲youwu永久无码精品| 久热综合在线亚洲精品| 亚洲国产AⅤ精品一区二区不卡| 在线观看国产一区二区av| 久久精品国产精品青草| 911精品国产91久久久久| 一区二区三区精品偷拍| 先锋影音人妻啪啪va资源网站| 亚洲精品国产av成拍色拍| 官网A级毛片| 日本黄色3级一区二区| 亚洲人成影院在线观看| 精品少妇爆乳无码aⅴ区| 国产极品大秀在线性色| 亚洲a∨无码男人的天堂| 国产真实露脸4p视频| 亚洲精品熟女av影院|