亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Web數(shù)據(jù)挖掘在搜索引擎中的運用

2013-12-31 00:00:00王剛張順

計算機光盤軟件與應(yīng)用 2013年16期

摘要：隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，在網(wǎng)絡(luò)中數(shù)據(jù)與信息不斷增多的背景下，就需要利用數(shù)據(jù)搜索引擎的方式來尋找出用戶想要查詢的信息，進而達到收集信息的目的。本文主要探討的是Web挖掘技術(shù)在搜索引擎中的應(yīng)用，首先分析了Web挖掘的概念及其內(nèi)容，在此基礎(chǔ)上闡述了搜索引擎存在的不足，最后敘述了Web挖掘技術(shù)在搜索引擎中的應(yīng)用。

關(guān)鍵詞：數(shù)據(jù)挖掘；互聯(lián)網(wǎng)；搜索引擎

中圖分類號：TP391.3

1 Web挖掘的概念及其內(nèi)容

對于Web挖掘來說，經(jīng)過了幾年的發(fā)展我們并不陌生，但是對于不同人來說Web挖掘都有著不同的理解方式，而現(xiàn)階段的Web挖掘內(nèi)容主要包含著三個方面。

1.1 Web內(nèi)容挖掘

Web內(nèi)容挖掘是整個Web數(shù)據(jù)挖掘技術(shù)的核心，對互聯(lián)網(wǎng)中的信息進行分析后我們可以看出，其主要是通過互聯(lián)網(wǎng)中的各種類型的服務(wù)、數(shù)據(jù)源以及信息源組成的，例如FTP、Telnet和WWW等。由于Web內(nèi)容挖掘具有很多優(yōu)勢，因此數(shù)字圖書館、政府辦公和電子商務(wù)等都是采用Web的方式來對數(shù)據(jù)庫進行訪問的。同時Web內(nèi)容挖掘所涉及的范圍也是非常廣泛的，除了圖像和文本外，還包含了視頻、音頻以及多媒體等。

1.2 Web結(jié)構(gòu)挖掘

對于Web結(jié)構(gòu)挖掘來說主要是針對Web中的文檔結(jié)構(gòu)進行分析，從組織之間的結(jié)構(gòu)模式來獲取有價值的信息。Web的結(jié)構(gòu)挖掘技術(shù)具體來說就是在互聯(lián)網(wǎng)中的超鏈接之間的關(guān)系和Web文檔自身的結(jié)構(gòu)綜合到一起而推導(dǎo)出的一種超出Web以外的信息。

1.3 Web行為挖掘

所謂Web行為挖掘技術(shù)，就是通過互聯(lián)網(wǎng)中的Web服務(wù)器所包含的日志文件以及互聯(lián)網(wǎng)中用戶的信息進行統(tǒng)計與處理進而獲取有用的信息反饋給查詢者。具體的工作模式是在WWW服務(wù)器中用戶登錄的信息進行后臺備份后進行歸類并分析，最終達到獲取用戶行為的目標。

2 現(xiàn)階段搜索引擎的不足

由于在互聯(lián)網(wǎng)中主要是通過HTML語言規(guī)范來對信息進行描述的，并且對互聯(lián)網(wǎng)中的信息進行包裝、傳輸以及發(fā)布也都是經(jīng)過Web的方式來處理的。但是值得注意的是HTML主要是一種標記類型的語言，這種語言類型決定著Web的數(shù)據(jù)挖掘過程中是非常困難與繁瑣的。也就是說每一個站點的數(shù)據(jù)都是相互獨立，平時我們都認為Web的數(shù)據(jù)是很有條理的，但是由于每個數(shù)據(jù)都是獨立存在的，進而形成了一種半結(jié)構(gòu)化數(shù)據(jù)的模式，這也是當前互聯(lián)網(wǎng)中數(shù)據(jù)最大的特點。就是這種半結(jié)構(gòu)化數(shù)據(jù)的模式導(dǎo)致了數(shù)據(jù)處理技術(shù)相對落后，現(xiàn)階段主要存在著以下兩個方面的問題：首先在搜索引擎的使用過程中，所查詢到的信息中沒有關(guān)系的信息太多，并且準確率較低，即使瀏覽成百上千條信息也查詢不到有價值的信息。其次是搜索引擎中查詢到的信息一般情況下順序都是比較亂的，對所查詢的信息沒有很好的分類與排序。因此在以后的研究過程中應(yīng)該從以上幾個方面問題入手，完善互聯(lián)網(wǎng)中的搜索引擎技術(shù)。

3 Web挖掘技術(shù)在搜索引擎中的應(yīng)用

我們都知道Web數(shù)據(jù)挖掘技術(shù)和搜索引擎之間的關(guān)系是相互補充的，并不是搜索引擎完全依靠Web數(shù)據(jù)挖掘的。另一方面，正是通過Web數(shù)據(jù)挖掘技術(shù)才使得搜索引擎中的檢索效率得到了很大程度的改善，現(xiàn)階段Web挖掘技術(shù)在搜索引擎中的技術(shù)主要包含了以下三個方面。

3.1 Web文檔挖掘技術(shù)在搜索引擎中的應(yīng)用

搜索引擎技術(shù)是由傳統(tǒng)的檢索技術(shù)而演變來的，因此在對Web的文檔處理不夠徹底，那么就需要利用Web文檔挖掘技術(shù)對搜索引擎進行優(yōu)化，其中主要包含了文本總結(jié)技術(shù)、文本分類技術(shù)與文本聚類技術(shù)三個方面。

對于文本總結(jié)技術(shù)來說，主要是指從互聯(lián)網(wǎng)中的每個文檔中提取出一些關(guān)鍵的信息，并且對文檔信息進行書簽標記。在這種背景下互聯(lián)網(wǎng)用戶就可以通過瀏覽每個文檔的關(guān)鍵詞就可以確認該文檔是否符合查詢的標準，對大致的內(nèi)容進行了解后對在決定對其是否收取。

其次是文本分類技術(shù)，該類文檔挖掘技術(shù)主要是計算機對文檔集合中所有的文檔進行分類，因此在用戶檢索的過程中就會到制定的文檔集合中進行搜索。本文分類技術(shù)的主要目標是縮小用戶在互聯(lián)網(wǎng)中的檢索范圍而提升檢索效率。

最后是文本聚類技術(shù)，文本類聚的工作原理與文本分類技術(shù)的工作原理是相反的，也就是說需要要求同一簇內(nèi)的文檔之間的相似性盡可能大，另外而簇與簇之間的關(guān)系盡可能小，這些簇就相當于分類表中的類目。

3.2 Web結(jié)構(gòu)挖掘在搜索引擎中的應(yīng)用

此外，對于互聯(lián)網(wǎng)的用戶來說，他們都希望可以搜索到對自己有用的信息，并且這些信息都是具有權(quán)威性的，那么就需要通過Web結(jié)構(gòu)挖掘來進行完善，當前Web結(jié)構(gòu)挖掘技術(shù)主要有兩個方面。

3.2.1 頁面等級（Page-rank）方法

頁面等級的方法主要是在其中的一個Web文檔中建立另外一個Web文檔作為超鏈接的時候，就可以將其理解為該Web文檔是另外一個文檔的注解，也就是說他們之間存在著一種引用與被引用的關(guān)系。具體來說，就是一個Web文檔被引用的次數(shù)越多，就證明該文檔頁面的登記越高，那么在互聯(lián)網(wǎng)中該Web文檔所處的位置也就越重要。另外，一個Web文檔被一個高等級頁面引用后，那么這個Web文檔等級也就隨之變高。采用這種頁面等級的搜索引擎方法，可以首先對檢索的提問進檢索，在此基礎(chǔ)上在對檢索的結(jié)果進行頁面等級分析，最終達到輸出最重要的頁面的一種形式。

3.2.2 關(guān)鍵頁/權(quán)威頁（Hub/Authority）方法

關(guān)于關(guān)鍵頁/權(quán)威頁的方法，其執(zhí)行的主要思想是在互聯(lián)網(wǎng)中存在著一種重要的頁面，那么這種重要的頁面一定在某種學科中處于權(quán)威的、重要的位置，但是這種關(guān)鍵頁/權(quán)威頁并不是具有很多個連接的。對于這種類型的關(guān)鍵頁，不但起到了隱含性的說明了其他Web文檔中重要性外，還體現(xiàn)了關(guān)鍵頁所能發(fā)揮的作用。作為權(quán)威頁來說，它應(yīng)該是被多個關(guān)鍵頁所引用的，并且每個引用的關(guān)鍵頁也具有很多個權(quán)威頁的連接，進而計算機就會根據(jù)算法來計算出用戶所要查詢的網(wǎng)頁。

3.3 Web行為挖掘在搜索引擎中的應(yīng)用

最后是Web行為挖掘，最近幾年主要體現(xiàn)在電子商務(wù)的運用，而對于搜索引擎來說，Web行為挖掘主要是通過挖掘來對用戶的檢索行為進行歸類與統(tǒng)計。并且互聯(lián)網(wǎng)的信息檢索行為也是研究的主要對象，搜索引擎通過采用Web行為挖掘?qū)τ脩羝綍r所檢索的內(nèi)容進行分析，其中包括檢索詞、檢索時間以及檢索方式等。也就是說采用Web行為挖掘的模式對檢索日志進行分析后可以簡單的判斷，對用戶所潛在的共同檢索行為進行統(tǒng)計，進而可以更好的對搜索引擎的效果進行反饋，經(jīng)過一系列的總結(jié)與歸納后可以進一步完善搜索引擎。

4 總結(jié)

通過對文章的分析可以看出，經(jīng)過了多年的發(fā)展后Web的數(shù)據(jù)挖掘技術(shù)已經(jīng)可以很好的融入到搜索引擎當中，但是值得注意的是Web數(shù)據(jù)挖掘技術(shù)所能實現(xiàn)的功能不止是這些，其在搜索引擎中的功能也沒有徹底的發(fā)揮出來，在以后的工作當中應(yīng)該從搜索引擎的查全率和查準率等方面進行進一步的完善。另外，關(guān)于個性化搜索和語義相關(guān)性搜索也是未來研究的主要方向。

參考文獻：

[1]阮忠，鄧春燕.Web文本挖掘的方法及其應(yīng)用研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息，2008（09）.

[2]董彩云，呂秀榮.數(shù)據(jù)挖掘技術(shù)在個性化學習指導(dǎo)中的應(yīng)用[J].山東廣播電視大學學報，2010（01）.

[3] 付曉翠，許盈.基于Web數(shù)據(jù)挖掘的個性化搜索引擎研究綜述[J].現(xiàn)代計算機（專業(yè)版），2008（03）.

[4]鄒芳紅.Web數(shù)據(jù)挖掘與個性化搜索引擎綜述[J].計算機與現(xiàn)代化，2007（08）.

計算機光盤軟件與應(yīng)用2013年16期

計算機光盤軟件與應(yīng)用的其它文章: 淺談游戲開發(fā)中的AI技術(shù); 規(guī)劃局內(nèi)部交流及信息系統(tǒng)集中認證體系建設(shè); 基于速度選擇的RoboCup傳球策略; 淺析傳感器件在智能遙控器上的應(yīng)用; 論貪心算法在圖論中的應(yīng)用; 局域網(wǎng)計算機及網(wǎng)絡(luò)維護