摘要:隨著網(wǎng)絡(luò)的飛速發(fā)展,Web挖掘技術(shù)已成為一個(gè)研究熱點(diǎn)。本文就Web挖掘與相關(guān)研究進(jìn)行了對(duì)比,介紹了Web挖掘的概念、分類(lèi)及步驟,最后給出了Web挖掘的研究方向。
關(guān)鍵詞:Web挖掘;數(shù)據(jù)挖掘;信息檢索
隨著數(shù)字化信息時(shí)代的到來(lái),網(wǎng)絡(luò)日漸成為人們獲得信息的重要途徑。然而網(wǎng)絡(luò)中信息量巨大且分散無(wú)序,Web用戶(hù)經(jīng)常發(fā)現(xiàn)難以找到其所需的信息,造成“信息過(guò)載,知識(shí)匱乏”[1]的現(xiàn)狀。通用搜索引擎給人們提供了進(jìn)行信息檢索的方法,但也存在查準(zhǔn)率不高、查全率不能保證等問(wèn)題。Web挖掘技術(shù)正是應(yīng)這一需求而出現(xiàn)的一項(xiàng)新技術(shù)。人們運(yùn)用Web挖掘技術(shù),尋找網(wǎng)絡(luò)中有趣的、潛在的、有用的模式或隱藏的信息,并利用這些信息加快用戶(hù)檢索的效率,從而使網(wǎng)絡(luò)資源更好的為人們服務(wù)。
1 Web挖掘定義與相關(guān)研究
1.1 Web挖掘的定義
Web挖掘[2]就是從Web頁(yè)面和Web用戶(hù)訪(fǎng)問(wèn)活動(dòng)中發(fā)現(xiàn)、抽取有用模式和隱藏的信息。它是以從Web上挖掘有用知識(shí)為目標(biāo),以數(shù)據(jù)挖掘、文本挖掘、多媒體挖掘?yàn)榛A(chǔ),并綜合運(yùn)用計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)儲(chǔ)、人工智能、信息檢索等技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來(lái)的一門(mén)新興學(xué)科。
1.2 Web挖掘與數(shù)據(jù)挖掘
數(shù)據(jù)挖掘[3]是從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、潛在有用信息的頻繁過(guò)程。從廣義觀(guān)點(diǎn)來(lái)說(shuō),數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息庫(kù)中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過(guò)程。
Web 挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),在研究方法上有很多相似之處。但是,Web 挖掘與數(shù)據(jù)挖掘相比有許多獨(dú)特之處。首先,Web 挖掘的對(duì)象是大量、異質(zhì)、分布的 Web 文檔。其次,Web 在邏輯上是一個(gè)由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖,因此 Web 挖掘所得到的模式可能是關(guān)于 Web 內(nèi)容的,也可能是關(guān)于Web 結(jié)構(gòu)的。
1.3 Web挖掘與信息檢索
信息檢索[4]是自動(dòng)獲取相關(guān)文檔的同時(shí)盡可能少的獲取不相關(guān)文檔,其主要的目標(biāo)是索引文本,尋找有用的文檔。
Web挖掘與信息檢索在一些方面有所不同。首先,信息檢索是目標(biāo)驅(qū)動(dòng)的,用戶(hù)需要明確提出查詢(xún)要求,其目的在于幫助用戶(hù)發(fā)現(xiàn)資源;Web 挖掘是機(jī)會(huì)主義的,其結(jié)果獨(dú)立于用戶(hù)的信息需求,揭示文檔中隱含的知識(shí)是它的目標(biāo);第二,信息檢索使用精度和查全率來(lái)評(píng)價(jià)其性能;而 Web挖掘采用受益度、置信度、簡(jiǎn)潔性等來(lái)衡量所發(fā)現(xiàn)知識(shí)的有效性、可用性和可理解性。
2 Web挖掘的分類(lèi)
Web挖掘大致分為三類(lèi):Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Web structure mining)、Web使用記錄挖掘(Web usage mining).下圖為Web挖掘的分類(lèi)圖:
xieht01.tif
2.1 Web內(nèi)容挖掘
Web內(nèi)容挖掘是指從 Web上的網(wǎng)頁(yè)內(nèi)容及其描述信息中獲取潛在的、有價(jià)值的知識(shí)模式,以實(shí)現(xiàn)Web資源的自動(dòng)檢索,提高Web數(shù)據(jù)利用率的過(guò)程。Web內(nèi)容挖掘根據(jù)不同的標(biāo)準(zhǔn),有多種不同的分類(lèi)方法。按挖掘?qū)ο髞?lái)劃分包括對(duì)文本文檔的挖掘和多媒體文檔的挖掘 ;按方法來(lái)劃分有信息查詢(xún)觀(guān)點(diǎn)的挖掘和數(shù)據(jù)庫(kù)觀(guān)點(diǎn)的挖掘;按內(nèi)容又可分為對(duì)Web 文檔的挖掘和對(duì)搜索結(jié)果的挖掘。
2.2 Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘的基本思想是將Web看作一個(gè)有向圖,它的頂點(diǎn)是Web頁(yè)面,頁(yè)面間的超鏈接就是有向圖的邊。然后利用圖論對(duì) Web的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。這種思想源于引文分析,即通過(guò)分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象來(lái)建立Web自身的鏈接結(jié)構(gòu)模式。在Web結(jié)構(gòu)挖掘領(lǐng)域最著名的兩個(gè)算法是:PageRank算法和HITS算法。它們的共同點(diǎn)是使用一定方法計(jì)算Web頁(yè)面之間的超鏈接質(zhì)量,從而得到頁(yè)面的權(quán)重。
2.3 Web使用記錄挖掘
Web使用記錄挖掘又稱(chēng)為Web日志挖掘,主要目標(biāo)是從Web的訪(fǎng)問(wèn)記錄中發(fā)現(xiàn)感興趣的模式;分析不同Web站點(diǎn)的訪(fǎng)問(wèn)日志可以幫助人們理解用戶(hù)的行為和Web結(jié)構(gòu),從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩?hù)提供個(gè)性化的服務(wù)。Web使用挖掘的基本流程包括四個(gè)階段:數(shù)據(jù)預(yù)處理、挖掘算法實(shí)施、模式分析、可視化。
3 Web挖掘的過(guò)程
Web挖掘的處理流程[5]包括如下四個(gè)步驟:資源發(fā)現(xiàn)、信息選擇和預(yù)處理、模式發(fā)現(xiàn)、模式分析。
1)資源發(fā)現(xiàn)
網(wǎng)絡(luò)爬蟲(chóng)在線(xiàn)收集Web文檔、網(wǎng)站的日志等數(shù)據(jù),并從中得到有用的數(shù)據(jù)。
2)信息選擇和預(yù)處理
剔除Web資源中無(wú)用信息并將信息進(jìn)行必要的整理,如Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、英文單詞的詞干提取、高額低頻詞的過(guò)濾、漢語(yǔ)詞的切分等。
3)模式發(fā)現(xiàn)
自動(dòng)進(jìn)行模式發(fā)現(xiàn)。可以在同一個(gè)站點(diǎn)內(nèi)部或多個(gè)站點(diǎn)之間進(jìn)行,以自動(dòng)發(fā)現(xiàn)Web站點(diǎn)的共有模式。
4)模式分析
驗(yàn)證、解釋上一步驟產(chǎn)生的模式,并進(jìn)行可視化。
4 Web挖掘研究方向
Web挖掘的應(yīng)用非常廣闊,不但涉及頁(yè)面信息的提取、站點(diǎn)的分析和設(shè)計(jì),而且在基于Internet 的電子商務(wù)方面也有很好的應(yīng)用前景。
今后幾年Web挖掘研究的主要方向有:(1)Web知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)、更新,各種知識(shí)和模式的融合、提升,以及知識(shí)的評(píng)價(jià)綜合方法;(2)基于Web挖掘和信息檢索的、高效的、具有自動(dòng)導(dǎo)航功能的智能搜索引擎相關(guān)技術(shù)的研究;(3)研究和開(kāi)發(fā)基于Web的多層數(shù)據(jù)體系結(jié)構(gòu)和智能集成系統(tǒng),提供相應(yīng)的查詢(xún)語(yǔ)言,優(yōu)化和維護(hù)機(jī)制;(4)現(xiàn)有的數(shù)據(jù)挖掘方法與技術(shù)的改進(jìn)及其向Web數(shù)據(jù)的擴(kuò)展,挖掘算法的適應(yīng)性和時(shí)效性的研究;(5)Web挖掘的相關(guān)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用研究等。
5 總結(jié)
隨著網(wǎng)絡(luò)的飛速發(fā)展,Web挖掘技術(shù)已成為一個(gè)研究熱點(diǎn)。本文就Web挖掘與相關(guān)研究進(jìn)行了對(duì)比,介紹了Web挖掘的概念、分類(lèi)及步驟,最后給出了Web挖掘的研究方向。
參考文獻(xiàn):
[1]Raymond Kosala,and Hendrik Blockeel.Web Mining Research: A Survey[J]. SKGKDD Explorations,July 2000.
[2] 韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計(jì)算機(jī)研究與發(fā)展,2001,38(4):405-410.
[3] Jiawei Han,Micheline Kamber 。范明譯。數(shù)據(jù)挖掘概念與技術(shù)[M]。北京,機(jī)械工業(yè)出版社,2000.
[4] 王繼成,蕭嶸,孫正興,等.Web信息檢索研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2001(2).
[5]Yuefeng Lia,Ning Zhong.Web mining mobel and its applications for information gathering[J].Knowledge-Based Systems,2004(17):207-217.
收稿日期:2009-04-28
作者簡(jiǎn)介: 謝海艇(1982-),男,山東淄博人。研究方向:信息檢索、數(shù)據(jù)挖掘等。