李培培 曹 芳(北京吉利大學信息學院 中國 北京 102202)
隨著Internet/Intranet技術(shù)的發(fā)展,尤其是Web的全球普及使得Web上信息量無比豐富,Web已經(jīng)成為人們獲取信息的重要途徑,但最先進的搜索引擎也只能找到Web網(wǎng)頁上面很少的網(wǎng)頁,而且無論怎么選擇關(guān)鍵詞都會返回大量并不需要的結(jié)果。如何從非格式化數(shù)據(jù)信息中有效地挖掘出有用的信息是對數(shù)據(jù)挖掘領域的一個新挑戰(zhàn)。
Web上的數(shù)據(jù)信息不同于數(shù)據(jù)庫。它主要是些大量的、異質(zhì)的Web信息資源,文檔結(jié)構(gòu)性差,其數(shù)據(jù)多為半結(jié)構(gòu)化或非結(jié)構(gòu)化,信息不能清楚地用數(shù)據(jù)模型來表示。因此在Web的數(shù)據(jù)挖掘需要用到很多不同于單個數(shù)據(jù)倉庫挖掘的技術(shù)。
Web數(shù)據(jù)挖掘是一項綜合技術(shù),是利用數(shù)據(jù)挖掘技術(shù)從WWW數(shù)據(jù)資源中抽取信息的過程,結(jié)合了數(shù)據(jù)挖掘、信息處理、可視化、數(shù)理統(tǒng)計等領域的成熟技術(shù),是對Web數(shù)據(jù)資源中蘊含的未知的有潛在應用價值的模式的提取。
通常Web挖掘過程可以分為以下幾個處理階段:資源發(fā)現(xiàn)、數(shù)據(jù)抽取及數(shù)據(jù)預處理、數(shù)據(jù)匯總及模式識別、分折驗證。目標數(shù)據(jù)集根據(jù)用戶需求,從Web數(shù)據(jù)源中提取的相關(guān)數(shù)據(jù),Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進行數(shù)據(jù)提取;預處理過程從數(shù)據(jù)中去除明顯錯誤或冗余的數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)換成為有效和易于理解的形式;模式分析對發(fā)現(xiàn)的模式進行解釋和評估;最后將發(fā)現(xiàn)的知識以用戶能理解的方式提供給用戶。
根據(jù)挖掘?qū)ο蟮牟煌?,Web挖掘可以分為三類,Web內(nèi)容挖掘 (WCM)、Web結(jié)構(gòu)挖掘 (WSM) 和 Web使用挖掘(WUM)。
1.3.1 Web內(nèi)容挖掘
Web內(nèi)容挖掘?qū)嶋H上是從Web文檔及描述中獲取知識,具體來說就是對Web上大量的文檔集合的內(nèi)容進行摘要、分類、聚類、關(guān)聯(lián)分析、以及利用Web文檔進行趨勢預測等。Web內(nèi)容挖掘的對象包括文本、圖像、音頻、視頻、多媒體等各種類型的數(shù)據(jù)。其中聚類是事先沒有確定類別,但要求把相似度高的文檔歸于相同的類。
1.3.2 Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導知識的過程。主要是通過對Web站點的結(jié)構(gòu)進行歸納、分析和變形,將Web頁面進行分類,以利于信息搜索。HTML頁面所包含的知識不僅存在于各個頁面的內(nèi)容中,也存在于這些頁面之間的相互鏈接中。利用這方面的知識可以對頁面進行排序以發(fā)現(xiàn)重要的頁面。
1.3.3 Web使用挖掘
Web使用挖掘就是對用戶訪問Web時在服務器留下的訪問記錄進行挖掘,也叫網(wǎng)絡使用挖掘。挖掘?qū)ο笫窃诜掌魃系娜罩拘畔ⅲ卜QWeb日志挖掘。它通過分析日志記錄中的規(guī)律,可以識別用戶的忠實度、喜好、滿意度,發(fā)現(xiàn)潛在用戶,增強站點的服務競爭力。Web使用記錄數(shù)據(jù)除了服務器的日志記錄外還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、鼠標點擊流等一切用戶與站點之間可能的交互記錄。
Web數(shù)據(jù)挖掘中常用的技術(shù)有Web使用的特有路徑分析技術(shù)和數(shù)據(jù)挖掘領域常用的關(guān)聯(lián)規(guī)則、序列模式、分類聚類技術(shù)以及中文分詞處理和詞頻統(tǒng)計技術(shù)等。
使用路徑分析技術(shù)進行Web數(shù)據(jù)挖掘時,最常用的是圖。圖最直接的來源是網(wǎng)站結(jié)構(gòu)圖,網(wǎng)站上的頁面定義為節(jié)點,頁面之間的超鏈接定義為圖中的邊?;赪eb的數(shù)據(jù)挖掘,就是從圖中確定最頻繁的路徑訪問模式。
關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則。在Web數(shù)據(jù)挖掘中,它負責挖掘出用戶在一個訪問期間從服務器上訪問的頁面/文件之間的聯(lián)系,這些頁面之間可能并不存在直接的參引關(guān)系。
序列模式數(shù)據(jù)挖掘負責挖掘交易集之間的有時間序列的模式。例如,最出名的尿布與啤酒,這種信息對于電子商務網(wǎng)站非常有用。
分類規(guī)則可以挖掘某些共同的特性。這個特性可用來對新添到數(shù)據(jù)庫里的數(shù)據(jù)項進行分類。
中文信息處理的一大障礙是詞與詞之間沒有物理的分隔符。因此在進行詞頻統(tǒng)計等處理前先要進行詞條切分處理。中文文本的分詞方法有很多種,一般采用較為簡單的基于詞典的正向匹配遍歷分詞方法。詞典的選取通常根據(jù)挖掘目標建立專業(yè)的分詞詞典,以提高系統(tǒng)的運行效率。
3.1.1 異構(gòu)數(shù)據(jù)庫環(huán)境
從數(shù)據(jù)庫研究的角度出發(fā),Web網(wǎng)站上的信息也可以看作一個更大、更復雜的數(shù)據(jù)庫,每個站點之間的信息和組織都不一樣。如果想要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘,首先必須要研究站點之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點的數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取信息。其次還要解決Web上的數(shù)據(jù)查詢問題,因為如果不能有效地得到所需的信息,則對這些數(shù)據(jù)進行分析、集成、處理就無從談起。
3.1.2 半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)
Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同,Web上的每一站點的數(shù)據(jù)都各自獨立設計,數(shù)據(jù)沒有特定的模型描述,并且數(shù)據(jù)本身具有自述性和動態(tài)可變性。因而,Web上的數(shù)據(jù)這也被稱之為半結(jié)構(gòu)化數(shù)據(jù)。
針對Web上的數(shù)據(jù)半結(jié)構(gòu)化的特點,XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應起來,實施精確的查詢與模型抽取。
XML是一種中介標示語言,可提供描述結(jié)構(gòu)化資料的格式。XML解決了兩個Web問題,即Internet發(fā)展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的信息的問題。運用XML的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網(wǎng)絡業(yè)務量。
其實現(xiàn)過程可以由以下四個步驟來實現(xiàn):第一步得到XHTML格式的源信息,即確定了信息源,將數(shù)據(jù)從HTML轉(zhuǎn)換成XML,目前在高級語言中例如JAVA、VC等都有專門的函數(shù)或類來實現(xiàn);第二步查找數(shù)據(jù)的引用點,完成這一任務的最簡單的辦法通常是,檢查Web頁面,然后使用XML。只需要看一下頁面,記下觀察到的內(nèi)容,考慮頁面所生成的XHTML,并將把記錄的信息作為引用點;第三步將數(shù)據(jù)映射成XML,找到了這個引用點,就可以創(chuàng)建實際抽取數(shù)據(jù)的代碼;第四步合并與處理結(jié)果,需要反復執(zhí)行抽取過程,把結(jié)果合并到單個XML數(shù)據(jù)文件中。可以再次使用XSL執(zhí)行,也可以創(chuàng)建類的方法把在當前抽取中獲得的數(shù)據(jù)合并到包含以前抽取數(shù)據(jù)的文檔中。
基于WWW技術(shù)的應用正以驚人的速度向社會生活的方方面面滲透,人類交互信息不可避免地電子化和海量化,從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的重要的知識是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的是一個重要研究和應用領域。本文討論了Web數(shù)據(jù)挖掘的一些基本知識、方法、技術(shù)。Web挖掘是一項綜合技術(shù)涉及多個領域,目前隨著XML技術(shù)的成熟,研究利用XML技術(shù)進行Web的數(shù)據(jù)挖掘必將越來越深入。
[1]王志明,沙莎.Web 數(shù)據(jù)挖掘技術(shù)及其應用.軟件導刊,2006,10.
[2]李健.Web 的數(shù)據(jù)挖掘.電腦知識與技術(shù),2006.
[3]原嬌杰,趙杰文.基于 Web 的數(shù)據(jù)挖掘.軟件導刊,2006,10.
[4]于升峰.Web 使用挖掘的模式發(fā)現(xiàn).情報學報,2006-10-25.
[5]崔建群,何炎祥.基于XML的Web數(shù)據(jù)挖掘關(guān)鍵技術(shù)的研究.計算機工程,2006-10-32.