暢玉潔
(晉中職業(yè)技術(shù)學(xué)院,山西 晉中 030600)
搜索引擎是一個(gè)廣義的因特網(wǎng)信息搜索系統(tǒng),包括信息輸入、信息管理和信息搜索;嚴(yán)格地說,它是一個(gè)搜索軟件,用于在因特網(wǎng)上搜索網(wǎng)頁(yè)。從理論上講,網(wǎng)絡(luò)搜索引擎實(shí)際上是一個(gè)專用的網(wǎng)頁(yè)服務(wù)器,它包含一個(gè)龐大的索引數(shù)據(jù)庫(kù),收集了全世界數(shù)以千計(jì)的網(wǎng)頁(yè)。這些信息的收集主要是通過自動(dòng)提取程序(機(jī)器人)或網(wǎng)絡(luò)沿著一個(gè)超文本鏈接到網(wǎng)站www,定期搜索整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè),然后索引圖書館的數(shù)據(jù)。一些現(xiàn)有的公共搜索引擎網(wǎng)站,如Google、Baidu和Yahoo,目前是最受歡迎的網(wǎng)站,都采用這一技術(shù)架構(gòu)。本文檔中主要提到的科學(xué)和技術(shù)資源平臺(tái)是一個(gè)主要的公共平臺(tái),是一個(gè)自然科學(xué)平臺(tái)的集合,涵蓋科學(xué)研究、科學(xué)和技術(shù)成就、專利、標(biāo)準(zhǔn)、科學(xué)數(shù)據(jù)、科學(xué)數(shù)據(jù)和信息,科學(xué)和技術(shù)文獻(xiàn),主要的實(shí)驗(yàn)儀器等等,資源的數(shù)量是非常龐大的,用戶連接平臺(tái)查詢信息,逐漸接近搜索引擎的啟動(dòng)模式,但搜索目前是流行的[1]。
DNS緩存在LRU隊(duì)列中記錄DNS域名、IP地址和第一分辨率(最后的最小使用),通過DNS緩存直接獲得下一個(gè)DNS域名分辨率,從而減少DNS域名分辨率。對(duì)于無效的DNS域名,添加無效值指示符。由于內(nèi)部存儲(chǔ)限制,LRU隊(duì)列不能是無限的??紤]到DNS域名的動(dòng)態(tài)演變,也就是說在一段時(shí)間之后,有效的DNS域名可能無效,而無效的DNS域名可能由DNS服務(wù)器創(chuàng)建,因此,也需要確定有效期,有效期之后的數(shù)據(jù)總是從高速緩存中刪除,并且必須重新解決存取問題。這才能夠保證高速緩存數(shù)據(jù)適應(yīng)DNS名稱的動(dòng)態(tài)變化。因此可以看出dns緩存優(yōu)化也是搜索引擎優(yōu)化的一種方式。
與DNS緩存不同,有效數(shù)據(jù)未被記錄在IP地址和端口緩存中。但只在無法訪問地址和端口的IP地址被保存在LRU隊(duì)列中的LRU和IP地址以及數(shù)據(jù)所在的服務(wù)器側(cè)上,在搜索程序檢索到數(shù)據(jù)的端口有效性之前,確定數(shù)據(jù)所在的服務(wù)器側(cè)直接放棄捕獲,從而減少無效訪問的數(shù)量。根據(jù)IP地址和端口有效性變化的頻率,LRU隊(duì)列大小選擇大約在5000左右,高速緩存數(shù)據(jù)的有效期約為30分鐘。遠(yuǎn)遠(yuǎn)低于DNS緩存數(shù)據(jù)的壽命,因此可以看出對(duì)IP地質(zhì)端口的緩存進(jìn)行一個(gè)優(yōu)化也是非常重要的優(yōu)化方式之一[2]。
所有已建立的HTTP連接也必須記錄在LRU隊(duì)列中,這將會(huì)讓隨后出現(xiàn)的的連接都可以被緩存。根據(jù)計(jì)算機(jī)的性能,LRU隊(duì)列的大小限制在200到300,而超大的隊(duì)列可以導(dǎo)致計(jì)算機(jī)的網(wǎng)絡(luò)連接負(fù)荷的大小增加,而不是提高信息捕獲速度。由于計(jì)算機(jī)工作量增加而減少??紤]到LRU的等待隊(duì)列是很小的,在此不再限制數(shù)據(jù)存儲(chǔ)時(shí)間,那么整個(gè)捕獲過程就符合最新最小使用的原則,反而HTTP連接將很快從等待隊(duì)列中刪除。從而就能夠得出將HTP鏈接緩存進(jìn)行優(yōu)化對(duì)于搜索引擎的優(yōu)化來說也是非常重要的。
首先,根據(jù)Hilltop算法的指導(dǎo)原則制定網(wǎng)頁(yè)鏈接的數(shù)量和質(zhì)量,并使用目錄索引根據(jù)所屬每一網(wǎng)頁(yè)的歸屬值排序搜索結(jié)果。當(dāng)搜索引擎使用了一段時(shí)間之后,搜索引擎將根據(jù)用戶的搜索習(xí)慣搜索一個(gè)關(guān)鍵詞。用戶經(jīng)常尋找的類別是優(yōu)先事項(xiàng)。例如,在搜索“病毒”時(shí),當(dāng)用戶第一次和第一次搜索時(shí),如果使用全文搜索引擎類型的搜索引擎,這就會(huì)讓用戶在點(diǎn)擊屬于計(jì)算機(jī)病毒類的網(wǎng)頁(yè)時(shí),Web類授權(quán)值會(huì)發(fā)生變化,用戶就可以在此后的文字使用中對(duì)密鑰進(jìn)行新的搜索。搜索引擎認(rèn)為,用戶更愿意獲得關(guān)于計(jì)算機(jī)病毒的信息,從而能夠調(diào)節(jié)整個(gè)搜索結(jié)果,計(jì)算機(jī)類別的網(wǎng)頁(yè)按優(yōu)先順序排列,從而更好地滿足用戶的需要。但其他條件不應(yīng)在世界各地改變[3]。要定制排序,有兩種方式記錄用戶的搜索行為(即用戶搜索的網(wǎng)頁(yè))和類別加權(quán)值。第一種選擇是將這種授權(quán)信息記錄在服務(wù)器當(dāng)中,這需要用戶的注釋,與容積的連接會(huì)大大增加服務(wù)器的工作量,使用戶難以使用,從而服務(wù)不被用于執(zhí)行。作品保存用戶恢復(fù)行為模式。第二種辦法是將網(wǎng)頁(yè)類別授權(quán)信息記錄在客戶上,并在驅(qū)動(dòng)程序選擇對(duì)話框中保存圖表,以記錄網(wǎng)頁(yè)類別授權(quán)信息。根據(jù)目錄索引的分類,定義一個(gè)字的加權(quán),按字節(jié)描述:網(wǎng)頁(yè)類別的加權(quán)信息。
網(wǎng)站數(shù)據(jù)收集是優(yōu)化網(wǎng)站結(jié)構(gòu)的第一步。這也是一項(xiàng)后續(xù)工作,而網(wǎng)站數(shù)據(jù)收集這項(xiàng)工作的基礎(chǔ)就是一個(gè)在網(wǎng)站上獲得原始數(shù)據(jù)和相關(guān)信息的問題。網(wǎng)站數(shù)據(jù)收集的相位控制器可分為四個(gè)形狀,分別是Web服務(wù)器側(cè)數(shù)據(jù)采集,客戶側(cè)數(shù)據(jù)采集,應(yīng)用服務(wù)器數(shù)據(jù)采集和代理服務(wù)器側(cè)數(shù)據(jù)采集。Web服務(wù)器的區(qū)段數(shù)據(jù)收集包括Web服務(wù)器的原始報(bào)紙文件,Web服務(wù)器的許多信息都記錄在文檔中。客戶數(shù)據(jù)收集主要取決于客戶,通過在Web服務(wù)器上的點(diǎn)擊行為、生成的IP地址、點(diǎn)擊時(shí)間、點(diǎn)擊次數(shù)和點(diǎn)擊序列,可以獲得用戶對(duì)網(wǎng)站不同頁(yè)面感興趣的數(shù)據(jù)。以獲得相應(yīng)用戶的興趣,網(wǎng)站數(shù)據(jù)收集的設(shè)計(jì)方法和系統(tǒng)有許多種方式,但最常見的是WEH服務(wù)器和客戶端數(shù)據(jù)收集。設(shè)計(jì)工藝的白色數(shù)據(jù)收集引擎是萬(wàn)維網(wǎng)上商店中的。但也有一部分人在進(jìn)行使用的過程當(dāng)中提出了使用XML和關(guān)系數(shù)據(jù)庫(kù)的解決辦法,以便利用大量現(xiàn)有、低成本或免費(fèi)的數(shù)據(jù)信息[4]。因此可以看出如果想要對(duì)網(wǎng)址進(jìn)行優(yōu)化最先需要做到的就是做好數(shù)據(jù)采集工作。
網(wǎng)站上的信息是復(fù)雜的,包含各種錯(cuò)誤的內(nèi)容和錯(cuò)誤的信息。這些數(shù)據(jù)必須進(jìn)行預(yù)處理并轉(zhuǎn)換為可操作數(shù)據(jù),選擇“CSV文本”。數(shù)據(jù)預(yù)處理階段包括預(yù)處理、數(shù)據(jù)清理、用戶標(biāo)識(shí)和訪問路徑校正4個(gè)模塊:日志預(yù)處理模塊包括從日志文件到數(shù)據(jù)的傳輸。根據(jù)日志格式字段;刪除數(shù)據(jù)管理從WEH日志文件而不是工作頁(yè)請(qǐng)求過濾不相關(guān)的頁(yè)面查詢(繪圖等)。在一些文檔中定義為數(shù)據(jù)凈化,即刪除與WEH日志檢索無關(guān)的數(shù)據(jù);用戶標(biāo)識(shí)提及WEH日志的寄存,以識(shí)別訪問網(wǎng)站的用戶,可以使用IP+Agnt機(jī)構(gòu);路徑校正(或路徑改進(jìn))可能導(dǎo)致日志文件中的重大損失,因?yàn)榫彌_存儲(chǔ)住宅接入鏈接的記錄是根據(jù)以上結(jié)構(gòu)優(yōu)化模塊的站點(diǎn)結(jié)構(gòu)完成的。為了能夠提供更精確的用戶訪問記錄。許多研究人員對(duì)WH數(shù)據(jù)預(yù)處理進(jìn)行了研究,設(shè)計(jì)了三個(gè)關(guān)鍵步驟,如用戶識(shí)別、訪問操作和路徑改進(jìn)。因此可以看出在網(wǎng)站優(yōu)化設(shè)計(jì)的過程當(dāng)中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理非常重要[5]。
模式發(fā)現(xiàn)階段主要包含的內(nèi)容就是模式挖掘、關(guān)聯(lián)規(guī)則和技術(shù),聚類分析的三個(gè)部分是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)。序列勘探是指相對(duì)于時(shí)間或其他模式的勘探頻率較高所提出來的一種勘探挖掘方式。此技術(shù)廣泛應(yīng)用于各種序列數(shù)據(jù)集,例如文檔序列字,研究不同文檔中出現(xiàn)一系列單詞的概率,在數(shù)據(jù)網(wǎng)站上的點(diǎn)擊流量,從而來探索用戶頻繁點(diǎn)擊的模式等。在一個(gè)網(wǎng)站上,相關(guān)規(guī)則主要用于發(fā)現(xiàn)頁(yè)面、和潛在用戶之間的關(guān)系,以及瀏覽頁(yè)面和網(wǎng)絡(luò)的用戶之間的關(guān)系,還有就是線上操作者行為之間的關(guān)系。也就是說,挖掘可以使用戶在兩個(gè)之間的訪問會(huì)話期間從服務(wù)器訪問的頁(yè)面或文件被打開[6-7]。分組分類是對(duì)不同類別或群集中的數(shù)據(jù)進(jìn)行分類的過程。一個(gè)聚類對(duì)象非常相似,而一個(gè)聚類對(duì)象非常各向異性。分類可以做同樣的事情而模式分析包括從數(shù)據(jù)集搜索一般關(guān)系。它逐漸成為許多領(lǐng)域的核心,從神經(jīng)網(wǎng)絡(luò)到識(shí)別所謂的語(yǔ)法模型,統(tǒng)計(jì)模型識(shí)別自動(dòng)學(xué)習(xí)和數(shù)據(jù)探索。
總而言之,優(yōu)化網(wǎng)站結(jié)構(gòu)非常重要,經(jīng)過諸多科研人員的不懈努力,得到了許多優(yōu)化網(wǎng)站設(shè)計(jì)的方案。但還存在需要改善的問題,如果想要讓通信網(wǎng)址的設(shè)計(jì)研究更上一層樓,這就需要科研人員能夠繼續(xù)堅(jiān)持不懈的去奮斗,找出當(dāng)中可以改善的問題,從而為人們創(chuàng)造出一個(gè)更加優(yōu)質(zhì)量的網(wǎng)絡(luò)通信環(huán)境,讓人們能夠在應(yīng)用的過程中變得更加方便更加快捷。因此可以看出對(duì)搜鎖引擎優(yōu)化視角通信系統(tǒng)網(wǎng)址設(shè)計(jì)方面的研究進(jìn)行是非常有必要的一件事情。