亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Web搜索引擎技術(shù)研究

2016-02-23 12:12:02柴艷娜

計(jì)算機(jī)技術(shù)與發(fā)展 2016年12期

關(guān)鍵詞：搜索引擎網(wǎng)頁頁面

申健，柴艷娜

(長安大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心，陜西西安 710064)

Web搜索引擎技術(shù)研究

申健，柴艷娜

(長安大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心，陜西西安 710064)

科技的進(jìn)步導(dǎo)致了互聯(lián)網(wǎng)中的信息以指數(shù)級(jí)速度增長。如何有效地管理和組織信息，幫助用戶在海量的信息里獲取有用的信息，并快速定位和索引，既是搜索引擎的目標(biāo)，也是搜索引擎能夠成為網(wǎng)絡(luò)用戶不可或缺的基礎(chǔ)工具的原因。對(duì)搜索引擎技術(shù)進(jìn)行了研究，討論其內(nèi)在原理和運(yùn)行機(jī)制，分析其技術(shù)架構(gòu)和信息抓取方法，并從工作原理上對(duì)其采用的算法和策略進(jìn)行了分析。同時(shí)，對(duì)實(shí)際中Google搜索引擎所采用的核心技術(shù)和算法進(jìn)行研究并與傳統(tǒng)技術(shù)進(jìn)行了對(duì)比，分析其所具備的先進(jìn)性。另外，對(duì)搜索引擎工作流程涉及到的索引問題、SEO等都分別進(jìn)行了探討。指出信息檢索工具對(duì)于海量信息數(shù)據(jù)處理的重要性，以及在信息檢索方面搜索引擎體現(xiàn)的優(yōu)越性，它的不斷發(fā)展必將帶動(dòng)信息科學(xué)的進(jìn)步。

搜索引擎；蜘蛛；檢索排序；SEO

0 引言

全球互連網(wǎng)革命所引發(fā)的的信息浪潮已經(jīng)使互聯(lián)網(wǎng)成為海量信息的重要來源地。搜索引擎作為互聯(lián)網(wǎng)用戶必不可少的信息獲取工具，其主要作用是運(yùn)用專門的策略和程序從網(wǎng)絡(luò)上尋找、收集、提取、匯總、排序和處理信息，向用戶提供數(shù)據(jù)信息檢索服務(wù)和導(dǎo)航服務(wù)，將最終內(nèi)容顯示給用戶的系統(tǒng)。經(jīng)過調(diào)查，網(wǎng)絡(luò)信息搜索在互聯(lián)網(wǎng)服務(wù)中已經(jīng)成為繼E-mail后的第二大應(yīng)用[1]。

目前，常用的搜索引擎有全文索引、目錄索引、元搜索引擎等，其中Google、Bing、Yahoo和Baidu等則是搜索引擎的代表。

1 搜索引擎架構(gòu)

搜索引擎(Search Engines)是指在互聯(lián)網(wǎng)環(huán)境中能夠響應(yīng)用戶提交的搜索請(qǐng)求，通過已經(jīng)制定好的策略和程序從互聯(lián)網(wǎng)上搜集信息，對(duì)信息進(jìn)行處理和歸納，并將檢索相關(guān)的結(jié)果展示給用戶的提供檢索服務(wù)的系統(tǒng)。這類系統(tǒng)一般由搜集、整理和查詢?nèi)齻€(gè)模塊組成[2]。

在搜索引擎的結(jié)構(gòu)和執(zhí)行模式的設(shè)計(jì)中，將信息檢索系統(tǒng)內(nèi)許多有價(jià)值的經(jīng)驗(yàn)吸收進(jìn)來，并且通過兩種系統(tǒng)使用用戶的不同，針對(duì)他們的特點(diǎn)進(jìn)行了許多修改。搜索引擎系統(tǒng)的內(nèi)容處理功能和查詢功能同一般信息檢索系統(tǒng)類似，在對(duì)繁雜數(shù)據(jù)對(duì)象的處理方面搜索引擎對(duì)系統(tǒng)結(jié)構(gòu)進(jìn)行了針對(duì)性的調(diào)整，以適應(yīng)處理數(shù)據(jù)和用戶查詢的需要[3]。圖1為搜索引擎系統(tǒng)架構(gòu)。

圖1 搜索引擎架構(gòu)

1.1 搜索引擎的工作原理

搜索引擎的工作原理如圖2所示。

圖2 搜索引擎工作原理示意圖

首先，利用網(wǎng)絡(luò)蜘蛛進(jìn)行全網(wǎng)搜索，自動(dòng)抓取網(wǎng)頁；其次，對(duì)獲取到的網(wǎng)頁信息進(jìn)行索引，同時(shí)記錄與檢索有關(guān)的信息(如果是中文搜索引擎就需要中文分詞)；最后，接收用戶查詢請(qǐng)求，按照設(shè)定好的參數(shù)對(duì)索引文件進(jìn)行計(jì)算，并將結(jié)果向用戶顯示。簡單概括為：抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在數(shù)據(jù)庫中排序→結(jié)果反饋。搜索引擎抓取數(shù)據(jù)與分析過程如圖3所示。

1.2 網(wǎng)絡(luò)蜘蛛

它是按照一定的規(guī)則，自動(dòng)抓取萬維網(wǎng)信息的程序或者腳本的半自動(dòng)化資源獲取方式[4]，因?yàn)樯形磳?duì)獲取的數(shù)據(jù)進(jìn)行處理，所以只能稱作是一種半自動(dòng)化的資源而不是信息。半自動(dòng)化是指需要人工指定起始網(wǎng)絡(luò)資源(Uniform Resource Locator，URL)進(jìn)行搜索，并按照URL的結(jié)果指向獲取網(wǎng)絡(luò)資源，然后分析、獲取與該資源有關(guān)的所有其他資源。例如Google，它利用蜘蛛程序獲取資源，先由一個(gè)管理程序進(jìn)行任務(wù)分配并處理結(jié)果，然后由多個(gè)分布式的蜘蛛程序接受任務(wù)，最后將獲取的資源作為結(jié)果返回，再重新獲得任務(wù)。

圖3 搜索引擎的數(shù)據(jù)與分析過程

搜索引擎的蜘蛛抓取網(wǎng)頁有一定的規(guī)律，主要有以下幾種策略：

(1)深度優(yōu)先搜索策略。網(wǎng)絡(luò)蜘蛛通過頁面發(fā)現(xiàn)的一個(gè)鏈接，順著鏈接的頁面又發(fā)現(xiàn)一個(gè)鏈接，并且將發(fā)現(xiàn)的頁面全部抓取。

(2)寬度優(yōu)先搜索策略。先搜索完一個(gè)Web頁面中所有的超級(jí)鏈接，然后再繼續(xù)搜索下一層,直到底層為止并進(jìn)行抓取。

(3)權(quán)重優(yōu)先策略。即深度優(yōu)先+寬度優(yōu)先。參照鏈接的權(quán)重進(jìn)行網(wǎng)絡(luò)抓取，對(duì)權(quán)重高的鏈接采用深度優(yōu)先策略，而對(duì)權(quán)重低的鏈接則采用寬度優(yōu)先策略。也就是綜合層次的多與少以及這個(gè)鏈接的外鏈多少與質(zhì)量等因素獲取鏈接的權(quán)重。

(4)重訪抓取策略。包括全部重訪與單個(gè)重訪。

1.3 建立索引

建立索引數(shù)據(jù)庫的過程是利用索引器從搜索器搜索到的資源中抽取信息，建立檢索所需的索引表[5]。

通常情況下，網(wǎng)絡(luò)蜘蛛抓獲的資源需要去掉控制代碼和其他不相關(guān)信息，提取有用信息并通過模型將信息表示出來，這樣能夠使查詢結(jié)果更為準(zhǔn)確。就像網(wǎng)頁上的信息是以Web形式進(jìn)行表現(xiàn)，在查詢結(jié)果的頁面中網(wǎng)頁要生成摘要，摘要會(huì)向用戶顯示網(wǎng)頁的大概內(nèi)容，并將模型化的信息存放在臨時(shí)數(shù)據(jù)庫中。網(wǎng)頁上的數(shù)據(jù)量非常巨大，為提高檢索效率，搜索引擎會(huì)按照設(shè)定好的規(guī)則對(duì)資源建立索引。不同的搜索引擎會(huì)分別按照全文索引、無用詞匯過濾，或者根據(jù)meta信息建立索引。在該過程中，需要進(jìn)行的資源分析處理可概括為以下幾個(gè)方面：

(1)網(wǎng)頁結(jié)構(gòu)化。即將html代碼全部刪掉，提取出內(nèi)容。

(2)消噪。留下網(wǎng)頁的主題內(nèi)容，刪掉沒用的內(nèi)容。

(3)查重。由搜索引擎查找重復(fù)的網(wǎng)頁與內(nèi)容，如果找到重復(fù)的頁面與內(nèi)容，即刪除。

(4)分詞。提取出正文的內(nèi)容，將其分成N個(gè)詞語，并排列出來，存入索引庫，同時(shí)計(jì)算該詞在頁面出現(xiàn)的頻率。

(5)鏈接分析。分析頁面的反向鏈接數(shù)、導(dǎo)出鏈接數(shù)以及內(nèi)鏈數(shù)，然后鏈接加上權(quán)重等。

(6)用戶查詢(Query)解析。最大可能地分析出用戶想要表達(dá)的查詢目的，然后將用戶的需求轉(zhuǎn)化成信息模型供數(shù)據(jù)庫檢索使用；根據(jù)用戶的需求模型，在索引數(shù)據(jù)庫中找出結(jié)果；對(duì)結(jié)果進(jìn)行排序。由于Web數(shù)據(jù)的內(nèi)容量大、結(jié)果模糊性高，檢索結(jié)果通常很多，如何將用戶感興趣的結(jié)果排在前面去設(shè)計(jì)結(jié)果集的排序算法十分重要。

2 搜索索引

搜索索引的核心結(jié)構(gòu)是倒排索引，如圖4所示。

倒排索引實(shí)際應(yīng)用中需要根據(jù)非主屬性(也叫副鍵)值來查找記錄，其特殊性在于不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置，帶有倒排索引的文件稱作倒排文件，即次索引。文檔的關(guān)鍵詞作為索引(就像普通書籍中索引是關(guān)鍵詞，頁面符號(hào)是目標(biāo))，文檔就是索引目標(biāo)的一種結(jié)構(gòu)。

圖4 倒排索引

倒排索引是以倒排索引包括所有副鍵值，并列出相關(guān)的記錄主鍵值，它主要應(yīng)用于復(fù)雜查詢。與通常的結(jié)構(gòu)化查詢語言(SQL)的差別在于，搜索引擎收集完數(shù)據(jù)后在預(yù)處理的步驟，通常利用高效的數(shù)據(jù)結(jié)構(gòu)來提供檢索服務(wù)，而現(xiàn)階段“倒排索引”就是效率最高的數(shù)據(jù)結(jié)構(gòu)。

2.1 構(gòu)建索引

1)簡單法。

構(gòu)建索引就是從正排表到倒排表的建立過程。首先對(duì)網(wǎng)頁進(jìn)行分析，建立以網(wǎng)頁為主碼的索引表[6]；其次在索引建立完成后得到倒排表。構(gòu)建倒排索引的具體流程如圖5所示。

圖5 倒排索引構(gòu)建示意圖

流程描述如下：

(1)將文檔分析用term標(biāo)記；

(2)利用hash去重單詞term；

(3)生成倒排列表。

倒排列表就是文檔編號(hào)DocID，不包含其他信息(詞語的頻率、位置等)，這就是簡單索引。簡單索引的功能可以用在數(shù)據(jù)量小的內(nèi)容，例如對(duì)幾千個(gè)文檔進(jìn)行索引。不過它有兩點(diǎn)限制：

(1)需要足夠大的內(nèi)存空間存儲(chǔ)倒排表。對(duì)于搜索引擎來說，都是以G為單位的數(shù)據(jù)量，在其規(guī)模不斷擴(kuò)大的同時(shí)不能確保內(nèi)存的空間能夠得到相應(yīng)的增長。

(2)算法是按照一定順序來執(zhí)行，對(duì)于并行處理造成不便。

2)合并法。

即歸并法。每一次內(nèi)存數(shù)據(jù)在寫入磁盤的時(shí)候，包括詞典在內(nèi)的所有中間結(jié)果信息都被寫入磁盤，這樣內(nèi)存中的所有內(nèi)容都被清空，之后建立的索引可以使用全部的內(nèi)存空間。合并流程如下：

(1)頁面分析。首先生成臨時(shí)倒排數(shù)據(jù)索引A和B，一旦索引A和B占滿內(nèi)存空間后，將索引A和B寫入臨時(shí)文件來生成臨時(shí)倒排文件。

(2)多路歸并。對(duì)已經(jīng)生成的臨時(shí)文件來執(zhí)行多路歸并，得到最終的倒排文件(invertedfile)。

在創(chuàng)建索引的過程中，頁面分析特別是中文分詞是消耗時(shí)間的主要步驟，而第二步就快得多了，對(duì)創(chuàng)建算法進(jìn)行優(yōu)化重點(diǎn)在于提高中文分詞的效率。

2.2 更新策略

包括四個(gè)方面：完全重建策略、再合并策略、原地更新策略以及混合策略。

(1)完全重建策略。一旦新增文檔滿足一定數(shù)量標(biāo)準(zhǔn)，就對(duì)新增文檔和原文檔進(jìn)行整合，再對(duì)生成的文檔創(chuàng)建靜態(tài)索引，保留新建索引并刪除原索引。此法代價(jià)高，但是主流商業(yè)搜索引擎一般采用此方式來維護(hù)索引的更新[7]。

(2)再合并策略。對(duì)進(jìn)入系統(tǒng)的新文檔進(jìn)行解析，更新內(nèi)存中保留的臨時(shí)索引，在文檔中每個(gè)單詞的倒排列表末尾追加倒排表列表項(xiàng)；當(dāng)臨時(shí)索引占消耗完指定內(nèi)存后，進(jìn)行索引合并，這里需要倒排文件里的倒排列表存放順序是按照索引單詞字典順序由低到高排序，這樣按順序可以直接掃描合并。其缺點(diǎn)是：在生成新的倒排索引文件時(shí)，會(huì)將老索引倒排列表中很多未發(fā)生變化的單詞也取出并寫入新索引中，這樣增加了對(duì)磁盤的消耗。

(3)原地更新策略?；境霭l(fā)點(diǎn)，可以認(rèn)為是試圖改進(jìn)再合并策略的缺點(diǎn)，在原地合并倒排表，這需要預(yù)留空間給未來插入，如果預(yù)留的空間不夠就要進(jìn)行遷移。遷移的過程中會(huì)破壞老索引中某些單詞的連續(xù)性，不能順序進(jìn)行讀取，并且需要足夠大的磁盤連續(xù)存儲(chǔ)。實(shí)際操作中表明，其原地更新的效率比再合并策略要低。

(4)混合策略：其目地是將不同策略的優(yōu)勢(shì)結(jié)合到一起，混合其他索引更新策略，形成一種更加高效的方法。

3 Google搜索引擎

3.1 Google技術(shù)

“完美的搜索引擎”是Google堅(jiān)持的開發(fā)目標(biāo)。正如公司創(chuàng)始人之一Larry Page所定義的那樣，可以“確解用戶之意，切返用戶之需”。為了能夠達(dá)到這個(gè)目標(biāo)，Google堅(jiān)持“不受現(xiàn)有模型限制，不斷追求創(chuàng)新”，通過開發(fā)具有自身特色和突破性的服務(wù)基礎(chǔ)結(jié)構(gòu)和Page Rank技術(shù)，從而根本性地改變基于互聯(lián)網(wǎng)的信息搜索方式。

為此，Google開發(fā)人員采用了一種全新的服務(wù)器設(shè)置，利用相互鏈接的PC來快速查找每個(gè)搜索答案，以最快的速度為用戶提供最精確的搜索結(jié)果的設(shè)計(jì)理念，從而避免了因使用少量大型服務(wù)器導(dǎo)致搜索引擎在訪問高峰期相應(yīng)速度會(huì)減慢的缺陷。應(yīng)用這種技術(shù)能夠降低成本、縮短響應(yīng)時(shí)間、提高可擴(kuò)展性。與此同時(shí)，Google對(duì)其內(nèi)部技術(shù)的持續(xù)改進(jìn)使得該技術(shù)的效率得到不斷提升。

Google搜索技術(shù)的特點(diǎn)是利用的軟件能夠在同一時(shí)間進(jìn)行一系列運(yùn)算，且都能在很短的時(shí)間內(nèi)完成；Page Rank技術(shù)通過對(duì)整個(gè)網(wǎng)絡(luò)鏈接進(jìn)行檢查，依據(jù)每個(gè)網(wǎng)頁的重要性進(jìn)行排序；進(jìn)行超文本匹配分析，判斷出預(yù)指定搜索有關(guān)聯(lián)的網(wǎng)頁；綜合考慮特定查詢與整體重要性的相關(guān)性，將關(guān)系最密切并且可靠性最強(qiáng)的結(jié)果放在首位。與此不同的是，普通搜索引擎一般都是以網(wǎng)頁上文字的出現(xiàn)頻率高低作為排序的重要依據(jù)。

3.2 Google搜索關(guān)鍵技術(shù)

1)Page Rank技術(shù)。

Page Rank(網(wǎng)頁排名)是根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算的技術(shù)，讓鏈接來“投票”。其特點(diǎn)是：

(1)不計(jì)算直接鏈接的數(shù)量，而是將從網(wǎng)頁A指向網(wǎng)頁B的鏈接解釋為由網(wǎng)頁A對(duì)網(wǎng)頁B所投的一票[8]，頁面的超鏈接就表示對(duì)該頁面投一票，頁面的重要性由它的“得票數(shù)”來決定；

(2)通過對(duì)投票價(jià)值的評(píng)估，擁有較高投票價(jià)值的網(wǎng)頁可以獲得較高的評(píng)價(jià)；

(3)重要網(wǎng)頁的網(wǎng)頁排名高，顯示在搜索結(jié)果的較高處；

(4)利用反饋的綜合信息確定單個(gè)網(wǎng)頁的重要性；

(5)沒有人為因素干擾到搜索結(jié)果。

Google能夠成為一個(gè)公正的、得到用戶信任的、不受付費(fèi)排名影響的客觀信息來源，這個(gè)技術(shù)起到了重要的推動(dòng)作用。

GooglePageRank技術(shù)的PR值算法如式(1)所示[9]：

PR(A)=

(1)

其中，PR(A)指網(wǎng)頁A的佩奇等級(jí)(PR值)；PR(B)，PR(C)，…，PR(N)表示鏈接網(wǎng)頁A的網(wǎng)頁N的佩奇等級(jí)(PR)；N是鏈接總數(shù)，這個(gè)鏈接可以是來自任何網(wǎng)站的導(dǎo)入鏈接(反向鏈接)；L(N)是網(wǎng)頁N往其他網(wǎng)站鏈接的數(shù)量(網(wǎng)頁N的導(dǎo)出鏈接數(shù)量)；q是阻尼系數(shù)，介于0～1之間，Google設(shè)為0.85[10]。

2)超文本匹配分析。

Google的搜索引擎也對(duì)網(wǎng)頁文本內(nèi)容進(jìn)行分析。它并不僅僅只局限于網(wǎng)頁文本的掃描方式，還對(duì)包括本網(wǎng)頁和相鄰網(wǎng)頁的字體、分區(qū)和文字精確位置等等內(nèi)容進(jìn)行分析，以確保向用戶反饋查詢最匹配的結(jié)果[11]。

對(duì)于通過便攜式終端訪問網(wǎng)絡(luò)的用戶，Google推出了行業(yè)內(nèi)第一款無線搜索技術(shù)，將HTML即時(shí)轉(zhuǎn)換為針對(duì)WAP、I-mode、J-SKY和EZWeb優(yōu)化的格式[12]，保障用戶能夠快速獲得精確的搜索結(jié)果，這是一項(xiàng)并不限于臺(tái)式機(jī)的創(chuàng)新。

3)查詢的全過程。

Google查詢過程需要在短時(shí)間內(nèi)(一般不超過0.5s)完成多個(gè)步驟，而后將搜索結(jié)果向用戶顯示。

(1)服務(wù)器將查詢內(nèi)容發(fā)送給索引服務(wù)器。索引服務(wù)器所包含的內(nèi)容與索引目錄相似，即顯示與查詢內(nèi)容匹配的都有哪些網(wǎng)頁。

(2)查詢內(nèi)容傳輸?shù)轿臋n服務(wù)器，后者檢索存儲(chǔ)的文檔，然后生成描述結(jié)果的摘錄。

(3)返回用戶需要的搜索結(jié)果。

4 SEO優(yōu)化

SEO(Search Engine Optimization，搜索引擎優(yōu)化)是指在了解搜索引擎自然排名機(jī)制的基礎(chǔ)上，利用搜索引擎的搜索規(guī)則來提高目前網(wǎng)站在有關(guān)搜索引擎內(nèi)的自然排名，以獲得更多流量，實(shí)現(xiàn)網(wǎng)絡(luò)營銷及品牌建設(shè)的目標(biāo)[13]。它能夠使網(wǎng)站更適合搜索引擎的索引原則，這樣不僅在用戶面前提高了搜索引擎的效果，還會(huì)使顯示的網(wǎng)站相關(guān)信息對(duì)用戶來說更具有吸引力。

搜索引擎SEO的搜索方法如圖6所示。

圖6 SEO搜索方法

5 結(jié)束語

Internet提供了多種不同的檢索工具，它們有各自的語言、數(shù)據(jù)庫、檢索功能和顯示方式，對(duì)于用戶來說了解這些工具的性能，掌握檢索技巧，提高檢索命中率是最重要的。掌握了方法與技巧并且經(jīng)常進(jìn)行實(shí)踐操作，就能夠方便快捷地利用搜索引擎獲取更多符合需求的有價(jià)值的信息。

目前，搜索引擎在擴(kuò)大覆蓋范圍的同時(shí)，正在趨向個(gè)性化、智能化、專業(yè)化、多媒體、多語言搜索和實(shí)用性的模糊檢索方面發(fā)展，并已取得了較大技術(shù)進(jìn)步。隨著需求的提高和互聯(lián)網(wǎng)技術(shù)的發(fā)展，不斷應(yīng)用新的技術(shù)和策略，搜索將會(huì)向著更加方便、快速、準(zhǔn)確的目標(biāo)前進(jìn)，這已成為搜索引擎的發(fā)展方向[14]。

[1] 梁斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社,2007.

[2] 吳澤欣.搜索引擎優(yōu)化入門與進(jìn)階[M].北京:人民郵電出版社,2008.

[3] 盧亮.搜索引擎原理、實(shí)踐與應(yīng)用[M].北京:電子工業(yè)出版社,2007.

[4] Lawrence S,Giles C L.Accessibility of information on the web[J].Nature,1999,400(6740):107-109.

[5] Lawrence S,Giles C L.Searching the World Wide Web[J].Journal of the American Society for Informationence & Technology,1998,280(1):8-14.

[6] 張園園.基于用戶興趣的個(gè)性化搜索引擎的分析與研究[D].秦皇島:燕山大學(xué),2006.

[7] 王濤.基于行業(yè)的個(gè)性化搜索引擎的應(yīng)用[D].北京:北方工業(yè)大學(xué),2008.

[8] Vazirgiannis M,Drosos D,Vlachou A,et al.Web page rank prediction with Markov models[C]//WWW 2008.Beijing,China:ACM,2008.

[9] Wills R S.Google's page rank:the math behind the search engine[J].The Mathematical Intelligencer,2006,28(4):6-11.

[10] Lo S.全球最強(qiáng)搜索引擎谷歌Google[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2007.

[11] 林中.Google搜索引擎的關(guān)鍵詞檢索[J].中國信息導(dǎo)報(bào),2003(3):60-61.

[12] 陳鋼.搜索引擎優(yōu)化寶典[M].北京:清華大學(xué)出版社,2009 .

[13] 周元興.Google入門與實(shí)例教程[M].北京:電子工業(yè)出版社,2007.

[14] 萬勝林,王祖榮.搜索引擎的類型及其功能分析[J].中國信息導(dǎo)報(bào),2003(5):52-54.

Research on Web Search Engine Technology

SHEN Jian,CHAI Yan-na

(Education Technology and Network Center,Chang’an University,Xi’an 710064,China)

Information in Internet is exponential growth with the development of science and technology.There should be a tool to help users to manage the big data effectively and get the useful information what they want,and locate and index information quickly and properly,which is the target of search engine,and why search engine has been an essential tool in daily life.The search engine technologies are researched and their internal principle and mechanism are discussed,and their technical architecture and the information retrieval are analyzed.In the working principle,the relative algorithm and strategy is studied.At the same time,the core technology and algorithm adopted by Google’s search engine are studied and compared with the traditional technology,analyzing their superiority.In addition,the indexes and SEO the search engine working process involves are discussed respectively.It is pointed out that the information retrieval tools are important for huge amounts of information processing and advanced in information retrieval,the development of which will drive the progress of information science.

search engine;spider;index sorting;SEO

2016-01-06

2016-05-11

時(shí)間：2016-11-22

陜西省信息化重點(diǎn)建設(shè)項(xiàng)目(2171-20120042)

申健(1980-)，男，碩士，工程師，研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)技術(shù)。

http://www.cnki.net/kcms/detail/61.1450.TP.20161122.1233.050.html

TP31

1673-629X(2016)12-0030-05

10.3969/j.issn.1673-629X.2016.12.007

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Web搜索引擎技術(shù)研究

0 引 言

1 搜索引擎架構(gòu)

2 搜索索引

3 Google搜索引擎

4 SEO優(yōu)化

5 結(jié)束語

0 引言