亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

搜索引擎優(yōu)化視角通信系統(tǒng)網(wǎng)址設(shè)計(jì)研究

2020-12-12 12:57:29暢玉潔

電子元器件與信息技術(shù) 2020年2期

暢玉潔

（晉中職業(yè)技術(shù)學(xué)院，山西晉中 030600）

0 引言

搜索引擎是一個(gè)廣義的因特網(wǎng)信息搜索系統(tǒng)，包括信息輸入、信息管理和信息搜索；嚴(yán)格地說，它是一個(gè)搜索軟件，用于在因特網(wǎng)上搜索網(wǎng)頁(yè)。從理論上講，網(wǎng)絡(luò)搜索引擎實(shí)際上是一個(gè)專用的網(wǎng)頁(yè)服務(wù)器，它包含一個(gè)龐大的索引數(shù)據(jù)庫(kù)，收集了全世界數(shù)以千計(jì)的網(wǎng)頁(yè)。這些信息的收集主要是通過自動(dòng)提取程序(機(jī)器人)或網(wǎng)絡(luò)沿著一個(gè)超文本鏈接到網(wǎng)站www，定期搜索整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè)，然后索引圖書館的數(shù)據(jù)。一些現(xiàn)有的公共搜索引擎網(wǎng)站，如Google、Baidu和Yahoo，目前是最受歡迎的網(wǎng)站，都采用這一技術(shù)架構(gòu)。本文檔中主要提到的科學(xué)和技術(shù)資源平臺(tái)是一個(gè)主要的公共平臺(tái)，是一個(gè)自然科學(xué)平臺(tái)的集合，涵蓋科學(xué)研究、科學(xué)和技術(shù)成就、專利、標(biāo)準(zhǔn)、科學(xué)數(shù)據(jù)、科學(xué)數(shù)據(jù)和信息，科學(xué)和技術(shù)文獻(xiàn)，主要的實(shí)驗(yàn)儀器等等，資源的數(shù)量是非常龐大的，用戶連接平臺(tái)查詢信息，逐漸接近搜索引擎的啟動(dòng)模式，但搜索目前是流行的[1]。

1 搜索引擎的優(yōu)化

1.1 DNS緩存優(yōu)化

DNS緩存在LRU隊(duì)列中記錄DNS域名、IP地址和第一分辨率(最后的最小使用)，通過DNS緩存直接獲得下一個(gè)DNS域名分辨率，從而減少DNS域名分辨率。對(duì)于無效的DNS域名，添加無效值指示符。由于內(nèi)部存儲(chǔ)限制，LRU隊(duì)列不能是無限的?？紤]到DNS域名的動(dòng)態(tài)演變，也就是說在一段時(shí)間之后，有效的DNS域名可能無效，而無效的DNS域名可能由DNS服務(wù)器創(chuàng)建，因此，也需要確定有效期，有效期之后的數(shù)據(jù)總是從高速緩存中刪除，并且必須重新解決存取問題。這才能夠保證高速緩存數(shù)據(jù)適應(yīng)DNS名稱的動(dòng)態(tài)變化。因此可以看出dns緩存優(yōu)化也是搜索引擎優(yōu)化的一種方式。

1.2 IP地址端口緩存優(yōu)化

與DNS緩存不同，有效數(shù)據(jù)未被記錄在IP地址和端口緩存中。但只在無法訪問地址和端口的IP地址被保存在LRU隊(duì)列中的LRU和IP地址以及數(shù)據(jù)所在的服務(wù)器側(cè)上，在搜索程序檢索到數(shù)據(jù)的端口有效性之前，確定數(shù)據(jù)所在的服務(wù)器側(cè)直接放棄捕獲，從而減少無效訪問的數(shù)量。根據(jù)IP地址和端口有效性變化的頻率，LRU隊(duì)列大小選擇大約在5000左右，高速緩存數(shù)據(jù)的有效期約為30分鐘。遠(yuǎn)遠(yuǎn)低于DNS緩存數(shù)據(jù)的壽命，因此可以看出對(duì)IP地質(zhì)端口的緩存進(jìn)行一個(gè)優(yōu)化也是非常重要的優(yōu)化方式之一[2]。

1.3 HTP鏈接緩存優(yōu)化

所有已建立的HTTP連接也必須記錄在LRU隊(duì)列中，這將會(huì)讓隨后出現(xiàn)的的連接都可以被緩存。根據(jù)計(jì)算機(jī)的性能，LRU隊(duì)列的大小限制在200到300，而超大的隊(duì)列可以導(dǎo)致計(jì)算機(jī)的網(wǎng)絡(luò)連接負(fù)荷的大小增加，而不是提高信息捕獲速度。由于計(jì)算機(jī)工作量增加而減少?？紤]到LRU的等待隊(duì)列是很小的，在此不再限制數(shù)據(jù)存儲(chǔ)時(shí)間，那么整個(gè)捕獲過程就符合最新最小使用的原則，反而HTTP連接將很快從等待隊(duì)列中刪除。從而就能夠得出將HTP鏈接緩存進(jìn)行優(yōu)化對(duì)于搜索引擎的優(yōu)化來說也是非常重要的。

1.4 優(yōu)化搜索排序

首先，根據(jù)Hilltop算法的指導(dǎo)原則制定網(wǎng)頁(yè)鏈接的數(shù)量和質(zhì)量，并使用目錄索引根據(jù)所屬每一網(wǎng)頁(yè)的歸屬值排序搜索結(jié)果。當(dāng)搜索引擎使用了一段時(shí)間之后，搜索引擎將根據(jù)用戶的搜索習(xí)慣搜索一個(gè)關(guān)鍵詞。用戶經(jīng)常尋找的類別是優(yōu)先事項(xiàng)。例如，在搜索“病毒”時(shí)，當(dāng)用戶第一次和第一次搜索時(shí)，如果使用全文搜索引擎類型的搜索引擎，這就會(huì)讓用戶在點(diǎn)擊屬于計(jì)算機(jī)病毒類的網(wǎng)頁(yè)時(shí)，Web類授權(quán)值會(huì)發(fā)生變化，用戶就可以在此后的文字使用中對(duì)密鑰進(jìn)行新的搜索。搜索引擎認(rèn)為，用戶更愿意獲得關(guān)于計(jì)算機(jī)病毒的信息，從而能夠調(diào)節(jié)整個(gè)搜索結(jié)果，計(jì)算機(jī)類別的網(wǎng)頁(yè)按優(yōu)先順序排列，從而更好地滿足用戶的需要。但其他條件不應(yīng)在世界各地改變[3]。要定制排序，有兩種方式記錄用戶的搜索行為(即用戶搜索的網(wǎng)頁(yè))和類別加權(quán)值。第一種選擇是將這種授權(quán)信息記錄在服務(wù)器當(dāng)中，這需要用戶的注釋，與容積的連接會(huì)大大增加服務(wù)器的工作量，使用戶難以使用，從而服務(wù)不被用于執(zhí)行。作品保存用戶恢復(fù)行為模式。第二種辦法是將網(wǎng)頁(yè)類別授權(quán)信息記錄在客戶上，并在驅(qū)動(dòng)程序選擇對(duì)話框中保存圖表，以記錄網(wǎng)頁(yè)類別授權(quán)信息。根據(jù)目錄索引的分類，定義一個(gè)字的加權(quán)，按字節(jié)描述：網(wǎng)頁(yè)類別的加權(quán)信息。

2 網(wǎng)址設(shè)計(jì)研究

2.1 數(shù)據(jù)采集

網(wǎng)站數(shù)據(jù)收集是優(yōu)化網(wǎng)站結(jié)構(gòu)的第一步。這也是一項(xiàng)后續(xù)工作，而網(wǎng)站數(shù)據(jù)收集這項(xiàng)工作的基礎(chǔ)就是一個(gè)在網(wǎng)站上獲得原始數(shù)據(jù)和相關(guān)信息的問題。網(wǎng)站數(shù)據(jù)收集的相位控制器可分為四個(gè)形狀，分別是Web服務(wù)器側(cè)數(shù)據(jù)采集，客戶側(cè)數(shù)據(jù)采集，應(yīng)用服務(wù)器數(shù)據(jù)采集和代理服務(wù)器側(cè)數(shù)據(jù)采集。Web服務(wù)器的區(qū)段數(shù)據(jù)收集包括Web服務(wù)器的原始報(bào)紙文件，Web服務(wù)器的許多信息都記錄在文檔中。客戶數(shù)據(jù)收集主要取決于客戶，通過在Web服務(wù)器上的點(diǎn)擊行為、生成的IP地址、點(diǎn)擊時(shí)間、點(diǎn)擊次數(shù)和點(diǎn)擊序列，可以獲得用戶對(duì)網(wǎng)站不同頁(yè)面感興趣的數(shù)據(jù)。以獲得相應(yīng)用戶的興趣，網(wǎng)站數(shù)據(jù)收集的設(shè)計(jì)方法和系統(tǒng)有許多種方式，但最常見的是WEH服務(wù)器和客戶端數(shù)據(jù)收集。設(shè)計(jì)工藝的白色數(shù)據(jù)收集引擎是萬(wàn)維網(wǎng)上商店中的。但也有一部分人在進(jìn)行使用的過程當(dāng)中提出了使用XML和關(guān)系數(shù)據(jù)庫(kù)的解決辦法，以便利用大量現(xiàn)有、低成本或免費(fèi)的數(shù)據(jù)信息[4]。因此可以看出如果想要對(duì)網(wǎng)址進(jìn)行優(yōu)化最先需要做到的就是做好數(shù)據(jù)采集工作。

2.2 數(shù)據(jù)預(yù)處理

網(wǎng)站上的信息是復(fù)雜的，包含各種錯(cuò)誤的內(nèi)容和錯(cuò)誤的信息。這些數(shù)據(jù)必須進(jìn)行預(yù)處理并轉(zhuǎn)換為可操作數(shù)據(jù)，選擇“CSV文本”。數(shù)據(jù)預(yù)處理階段包括預(yù)處理、數(shù)據(jù)清理、用戶標(biāo)識(shí)和訪問路徑校正4個(gè)模塊：日志預(yù)處理模塊包括從日志文件到數(shù)據(jù)的傳輸。根據(jù)日志格式字段；刪除數(shù)據(jù)管理從WEH日志文件而不是工作頁(yè)請(qǐng)求過濾不相關(guān)的頁(yè)面查詢(繪圖等)。在一些文檔中定義為數(shù)據(jù)凈化，即刪除與WEH日志檢索無關(guān)的數(shù)據(jù)；用戶標(biāo)識(shí)提及WEH日志的寄存，以識(shí)別訪問網(wǎng)站的用戶，可以使用IP+Agnt機(jī)構(gòu)；路徑校正(或路徑改進(jìn))可能導(dǎo)致日志文件中的重大損失，因?yàn)榫彌_存儲(chǔ)住宅接入鏈接的記錄是根據(jù)以上結(jié)構(gòu)優(yōu)化模塊的站點(diǎn)結(jié)構(gòu)完成的。為了能夠提供更精確的用戶訪問記錄。許多研究人員對(duì)WH數(shù)據(jù)預(yù)處理進(jìn)行了研究，設(shè)計(jì)了三個(gè)關(guān)鍵步驟，如用戶識(shí)別、訪問操作和路徑改進(jìn)。因此可以看出在網(wǎng)站優(yōu)化設(shè)計(jì)的過程當(dāng)中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理非常重要[5]。

2.3 模式發(fā)現(xiàn)和分析

模式發(fā)現(xiàn)階段主要包含的內(nèi)容就是模式挖掘、關(guān)聯(lián)規(guī)則和技術(shù)，聚類分析的三個(gè)部分是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)。序列勘探是指相對(duì)于時(shí)間或其他模式的勘探頻率較高所提出來的一種勘探挖掘方式。此技術(shù)廣泛應(yīng)用于各種序列數(shù)據(jù)集，例如文檔序列字，研究不同文檔中出現(xiàn)一系列單詞的概率，在數(shù)據(jù)網(wǎng)站上的點(diǎn)擊流量，從而來探索用戶頻繁點(diǎn)擊的模式等。在一個(gè)網(wǎng)站上，相關(guān)規(guī)則主要用于發(fā)現(xiàn)頁(yè)面、和潛在用戶之間的關(guān)系，以及瀏覽頁(yè)面和網(wǎng)絡(luò)的用戶之間的關(guān)系，還有就是線上操作者行為之間的關(guān)系。也就是說，挖掘可以使用戶在兩個(gè)之間的訪問會(huì)話期間從服務(wù)器訪問的頁(yè)面或文件被打開[6-7]。分組分類是對(duì)不同類別或群集中的數(shù)據(jù)進(jìn)行分類的過程。一個(gè)聚類對(duì)象非常相似，而一個(gè)聚類對(duì)象非常各向異性。分類可以做同樣的事情而模式分析包括從數(shù)據(jù)集搜索一般關(guān)系。它逐漸成為許多領(lǐng)域的核心，從神經(jīng)網(wǎng)絡(luò)到識(shí)別所謂的語(yǔ)法模型，統(tǒng)計(jì)模型識(shí)別自動(dòng)學(xué)習(xí)和數(shù)據(jù)探索。

4 結(jié)論

總而言之，優(yōu)化網(wǎng)站結(jié)構(gòu)非常重要，經(jīng)過諸多科研人員的不懈努力，得到了許多優(yōu)化網(wǎng)站設(shè)計(jì)的方案。但還存在需要改善的問題，如果想要讓通信網(wǎng)址的設(shè)計(jì)研究更上一層樓，這就需要科研人員能夠繼續(xù)堅(jiān)持不懈的去奮斗，找出當(dāng)中可以改善的問題，從而為人們創(chuàng)造出一個(gè)更加優(yōu)質(zhì)量的網(wǎng)絡(luò)通信環(huán)境，讓人們能夠在應(yīng)用的過程中變得更加方便更加快捷。因此可以看出對(duì)搜鎖引擎優(yōu)化視角通信系統(tǒng)網(wǎng)址設(shè)計(jì)方面的研究進(jìn)行是非常有必要的一件事情。