摘 要:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,在網(wǎng)絡(luò)中數(shù)據(jù)與信息不斷增多的背景下,就需要利用數(shù)據(jù)搜索引擎的方式來尋找出用戶想要查詢的信息,進而達到收集信息的目的。本文主要探討的是Web挖掘技術(shù)在搜索引擎中的應(yīng)用,首先分析了Web挖掘的概念及其內(nèi)容,在此基礎(chǔ)上闡述了搜索引擎存在的不足,最后敘述了Web挖掘技術(shù)在搜索引擎中的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;互聯(lián)網(wǎng);搜索引擎
中圖分類號:TP391.3
1 Web挖掘的概念及其內(nèi)容
對于Web挖掘來說,經(jīng)過了幾年的發(fā)展我們并不陌生,但是對于不同人來說Web挖掘都有著不同的理解方式,而現(xiàn)階段的Web挖掘內(nèi)容主要包含著三個方面。
1.1 Web內(nèi)容挖掘
Web內(nèi)容挖掘是整個Web數(shù)據(jù)挖掘技術(shù)的核心,對互聯(lián)網(wǎng)中的信息進行分析后我們可以看出,其主要是通過互聯(lián)網(wǎng)中的各種類型的服務(wù)、數(shù)據(jù)源以及信息源組成的,例如FTP、Telnet和WWW等。由于Web內(nèi)容挖掘具有很多優(yōu)勢,因此數(shù)字圖書館、政府辦公和電子商務(wù)等都是采用Web的方式來對數(shù)據(jù)庫進行訪問的。同時Web內(nèi)容挖掘所涉及的范圍也是非常廣泛的,除了圖像和文本外,還包含了視頻、音頻以及多媒體等。
1.2 Web結(jié)構(gòu)挖掘
對于Web結(jié)構(gòu)挖掘來說主要是針對Web中的文檔結(jié)構(gòu)進行分析,從組織之間的結(jié)構(gòu)模式來獲取有價值的信息。Web的結(jié)構(gòu)挖掘技術(shù)具體來說就是在互聯(lián)網(wǎng)中的超鏈接之間的關(guān)系和Web文檔自身的結(jié)構(gòu)綜合到一起而推導(dǎo)出的一種超出Web以外的信息。
1.3 Web行為挖掘
所謂Web行為挖掘技術(shù),就是通過互聯(lián)網(wǎng)中的Web服務(wù)器所包含的日志文件以及互聯(lián)網(wǎng)中用戶的信息進行統(tǒng)計與處理進而獲取有用的信息反饋給查詢者。具體的工作模式是在WWW服務(wù)器中用戶登錄的信息進行后臺備份后進行歸類并分析,最終達到獲取用戶行為的目標。
2 現(xiàn)階段搜索引擎的不足
由于在互聯(lián)網(wǎng)中主要是通過HTML語言規(guī)范來對信息進行描述的,并且對互聯(lián)網(wǎng)中的信息進行包裝、傳輸以及發(fā)布也都是經(jīng)過Web的方式來處理的。但是值得注意的是HTML主要是一種標記類型的語言,這種語言類型決定著Web的數(shù)據(jù)挖掘過程中是非常困難與繁瑣的。也就是說每一個站點的數(shù)據(jù)都是相互獨立,平時我們都認為Web的數(shù)據(jù)是很有條理的,但是由于每個數(shù)據(jù)都是獨立存在的,進而形成了一種半結(jié)構(gòu)化數(shù)據(jù)的模式,這也是當前互聯(lián)網(wǎng)中數(shù)據(jù)最大的特點。就是這種半結(jié)構(gòu)化數(shù)據(jù)的模式導(dǎo)致了數(shù)據(jù)處理技術(shù)相對落后,現(xiàn)階段主要存在著以下兩個方面的問題:首先在搜索引擎的使用過程中,所查詢到的信息中沒有關(guān)系的信息太多,并且準確率較低,即使瀏覽成百上千條信息也查詢不到有價值的信息。其次是搜索引擎中查詢到的信息一般情況下順序都是比較亂的,對所查詢的信息沒有很好的分類與排序。因此在以后的研究過程中應(yīng)該從以上幾個方面問題入手,完善互聯(lián)網(wǎng)中的搜索引擎技術(shù)。
3 Web挖掘技術(shù)在搜索引擎中的應(yīng)用
我們都知道Web數(shù)據(jù)挖掘技術(shù)和搜索引擎之間的關(guān)系是相互補充的,并不是搜索引擎完全依靠Web數(shù)據(jù)挖掘的。另一方面,正是通過Web數(shù)據(jù)挖掘技術(shù)才使得搜索引擎中的檢索效率得到了很大程度的改善,現(xiàn)階段Web挖掘技術(shù)在搜索引擎中的技術(shù)主要包含了以下三個方面。
3.1 Web文檔挖掘技術(shù)在搜索引擎中的應(yīng)用
搜索引擎技術(shù)是由傳統(tǒng)的檢索技術(shù)而演變來的,因此在對Web的文檔處理不夠徹底,那么就需要利用Web文檔挖掘技術(shù)對搜索引擎進行優(yōu)化,其中主要包含了文本總結(jié)技術(shù)、文本分類技術(shù)與文本聚類技術(shù)三個方面。
對于文本總結(jié)技術(shù)來說,主要是指從互聯(lián)網(wǎng)中的每個文檔中提取出一些關(guān)鍵的信息,并且對文檔信息進行書簽標記。在這種背景下互聯(lián)網(wǎng)用戶就可以通過瀏覽每個文檔的關(guān)鍵詞就可以確認該文檔是否符合查詢的標準,對大致的內(nèi)容進行了解后對在決定對其是否收取。
其次是文本分類技術(shù),該類文檔挖掘技術(shù)主要是計算機對文檔集合中所有的文檔進行分類,因此在用戶檢索的過程中就會到制定的文檔集合中進行搜索。本文分類技術(shù)的主要目標是縮小用戶在互聯(lián)網(wǎng)中的檢索范圍而提升檢索效率。
最后是文本聚類技術(shù),文本類聚的工作原理與文本分類技術(shù)的工作原理是相反的,也就是說需要要求同一簇內(nèi)的文檔之間的相似性盡可能大,另外而簇與簇之間的關(guān)系盡可能小,這些簇就相當于分類表中的類目。
3.2 Web結(jié)構(gòu)挖掘在搜索引擎中的應(yīng)用
此外,對于互聯(lián)網(wǎng)的用戶來說,他們都希望可以搜索到對自己有用的信息,并且這些信息都是具有權(quán)威性的,那么就需要通過Web結(jié)構(gòu)挖掘來進行完善,當前Web結(jié)構(gòu)挖掘技術(shù)主要有兩個方面。
3.2.1 頁面等級(Page-rank)方法
頁面等級的方法主要是在其中的一個Web文檔中建立另外一個Web文檔作為超鏈接的時候,就可以將其理解為該Web文檔是另外一個文檔的注解,也就是說他們之間存在著一種引用與被引用的關(guān)系。具體來說,就是一個Web文檔被引用的次數(shù)越多,就證明該文檔頁面的登記越高,那么在互聯(lián)網(wǎng)中該Web文檔所處的位置也就越重要。另外,一個Web文檔被一個高等級頁面引用后,那么這個Web文檔等級也就隨之變高。采用這種頁面等級的搜索引擎方法,可以首先對檢索的提問進檢索,在此基礎(chǔ)上在對檢索的結(jié)果進行頁面等級分析,最終達到輸出最重要的頁面的一種形式。
3.2.2 關(guān)鍵頁/權(quán)威頁(Hub/Authority)方法
關(guān)于關(guān)鍵頁/權(quán)威頁的方法,其執(zhí)行的主要思想是在互聯(lián)網(wǎng)中存在著一種重要的頁面,那么這種重要的頁面一定在某種學科中處于權(quán)威的、重要的位置,但是這種關(guān)鍵頁/權(quán)威頁并不是具有很多個連接的。對于這種類型的關(guān)鍵頁,不但起到了隱含性的說明了其他Web文檔中重要性外,還體現(xiàn)了關(guān)鍵頁所能發(fā)揮的作用。作為權(quán)威頁來說,它應(yīng)該是被多個關(guān)鍵頁所引用的,并且每個引用的關(guān)鍵頁也具有很多個權(quán)威頁的連接,進而計算機就會根據(jù)算法來計算出用戶所要查詢的網(wǎng)頁。
3.3 Web行為挖掘在搜索引擎中的應(yīng)用
最后是Web行為挖掘,最近幾年主要體現(xiàn)在電子商務(wù)的運用,而對于搜索引擎來說,Web行為挖掘主要是通過挖掘來對用戶的檢索行為進行歸類與統(tǒng)計。并且互聯(lián)網(wǎng)的信息檢索行為也是研究的主要對象,搜索引擎通過采用Web行為挖掘?qū)τ脩羝綍r所檢索的內(nèi)容進行分析,其中包括檢索詞、檢索時間以及檢索方式等。也就是說采用Web行為挖掘的模式對檢索日志進行分析后可以簡單的判斷,對用戶所潛在的共同檢索行為進行統(tǒng)計,進而可以更好的對搜索引擎的效果進行反饋,經(jīng)過一系列的總結(jié)與歸納后可以進一步完善搜索引擎。
4 總結(jié)
通過對文章的分析可以看出,經(jīng)過了多年的發(fā)展后Web的數(shù)據(jù)挖掘技術(shù)已經(jīng)可以很好的融入到搜索引擎當中,但是值得注意的是Web數(shù)據(jù)挖掘技術(shù)所能實現(xiàn)的功能不止是這些,其在搜索引擎中的功能也沒有徹底的發(fā)揮出來,在以后的工作當中應(yīng)該從搜索引擎的查全率和查準率等方面進行進一步的完善。另外,關(guān)于個性化搜索和語義相關(guān)性搜索也是未來研究的主要方向。
參考文獻:
[1]阮忠,鄧春燕.Web文本挖掘的方法及其應(yīng)用研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2008(09).
[2]董彩云,呂秀榮.數(shù)據(jù)挖掘技術(shù)在個性化學習指導(dǎo)中的應(yīng)用[J].山東廣播電視大學學報,2010(01).
[3] 付曉翠,許盈.基于Web數(shù)據(jù)挖掘的個性化搜索引擎研究綜述[J].現(xiàn)代計算機(專業(yè)版),2008(03).
[4]鄒芳紅.Web數(shù)據(jù)挖掘與個性化搜索引擎綜述[J].計算機與現(xiàn)代化,2007(08).