摘要:因特網自上世紀九十年代出現(xiàn)以來,得以迅速發(fā)展,因特網已經成為一個分布式、全球性的信息服務中心,已經悄然進入了人們的日常生活,而且其信息量還在不斷的快速擴充。根據一項調查,WEB擁有的部分信息空間已經超過了數十億頁面,更為恐怖的是這個數字還在以大約每五個月翻一番的速度增長。對WEB數據的挖掘具有重大的現(xiàn)實意義,也是目前各學者研究的重點。本文主要簡單介紹WEB數據挖掘的定義和WEB數據挖掘的內容,最后概括闡述了其應用。
關鍵詞:WEB數據挖掘;內容;應用
中圖分類號:TP393 文獻標識碼:A 文章編號:1007-9599 (2012) 18-0000-02
1 WEB數據挖掘的定義
到目前為止,對于WEB數據挖掘的確切定義還沒有明確的說法。WEB數據挖掘其實就是數據挖掘的一種,其對象是WEB而已,可以從數據挖掘的定義中探索WEB數據挖掘(Web Mining)的定義:從WWW(World Wide Web)相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,即為用戶提取和挖掘WEB頁面的信息,從而最終應用于商業(yè)運作以滿足管理者的需要。WEB數據挖掘的定義非常簡單,但是實際中提取信息是非常難的,首先,因特網是一個開放性、動態(tài)性以及異構性的全球分布式網絡,資源的分布非常分散,而且動態(tài)變化莫測,也沒有統(tǒng)一的管理組織,想要獲取定向的信息是一件非常難得的事情。
其次,WEB數據最大的特點就是半結構化。簡單說就是,WEB數據實際是有一定的結構的,但是它的結構受到了自述層次的影響,它并不是非常完整的結構。而傳統(tǒng)的數據庫,其數據的結構性非常強,因此可以建立一定的數據模型,在數據處理的時候就可以根據一定的描述尋找特定的數據。WEB數據非常的復雜,由于其是半結構化的數據,因此不具備可描述性,它的數據在每一個站點都是相互獨立的,具有自述性和動態(tài)可變性。WEB數據的挖掘相對傳統(tǒng)的數據庫模式要困難得多,WEB信息量的增加一直誘惑著人們不斷的探究更好的數據挖掘方式。
2 WEB數據挖掘的內容
WEB上含有豐富的信息,而且其信息的增長速度也非???。首先是頁面本身包含的信息,這是WEB頁面信息的基礎。其次,用戶使用WEB信息時會留下一些瀏覽記錄,這些記錄也是非常寶貴的資源,它體現(xiàn)了客戶的需求和習慣。最后,客戶使用還會留下一些超鏈接,這也是一部分資源。因此,根據不同的挖掘對象,WEB數據挖掘內容一般包括三部分:WEB內容挖掘(Web Content Mining)、WEB結構挖掘(Web Structure Mining)和WEB使用挖掘(Web Usage Mining)。
2.1 WEB內容挖掘。內容挖掘也就是對WEB頁面信息的提取,從頁面的文檔內容以及其描述中提取信息的過程。這是一種基于索引的信息挖掘,類似的代理技術都是一類。挖掘的信息主要是文本信息,近些年隨著多媒體技術的應用越來越廣泛,多媒體信息也是內容挖掘的對象。文本挖掘的主要目的是對頁面信息進行分類、摘要以及關聯(lián)分析,最主要的功能就是分類和聚類。多媒體信息挖掘則是利用多媒體提取工具進行特征提取,抽列出圖形、語音、視頻等的文件名、類型、URL、父URL、關鍵字、顏色向量等,形成特征二維表,然后采用傳統(tǒng)的數據挖掘方法進行挖掘。大多是關聯(lián)規(guī)則或者分類。
一般情況下,對于WEB內容的挖掘可以采取兩種主要的策略:一是對于有鎖定網絡的查詢語言,采取直接挖掘文件內容的策略;二是在其他工具搜索的基礎上加以改進,主要是對查詢結果進一步處理,從而得到更有價值、更準確的信息。
2.2 WEB的使用挖掘。WEB使用挖掘又被稱為日志挖掘,其他兩種數據挖掘的對象是網上的原始數據對象,而此類挖掘的對象是用戶訪問WEB服務器以后留下的信息,主要是網絡服務器訪問記錄、用戶注冊信息等。通過對訪問記錄的數據挖掘,可以發(fā)現(xiàn)用戶感興趣的內容以及喜歡的訪問方式。其實現(xiàn)的主要方式是對站點的日志文件和相關數據進行分析,所以又被稱為日志挖掘。WEB使用挖掘的信息有助于幫助分析客戶的喜好,了解用戶的網絡行為數據所具有的意義,從而改進服務系統(tǒng)。
WEB使用挖掘主要在兩個方面比較吸引人,也是比較具有市場開發(fā)價值的:一般訪問模式追蹤和個性化的使用記錄。WEB使用記錄的挖掘方法也主要有兩種:基于WEB事物的方法和基于數據立方體的方法,對Web日志文件的研究,主要能完成簡單的統(tǒng)計分析和智能分析兩大任務。
2.3 WEB結構挖掘。WEB結構的挖掘是從WWW的整體結構和連接關系中發(fā)現(xiàn)知識,是對頁面進行排序,重建WEB站點結構的過程,對于網絡資源的檢索結果具有重要的意義。
這一類型挖掘的目標是尋找頁面的結構,尋找頁面的更過組織信息,以此對頁面進行分類和聚類等處理,通過對頁面信息的處理,尋找到權威頁面,也就是精準信息。因此,可以看出WEB結構挖掘的主要是指從WWW的組織結構,以及結構中的超鏈接推導出用戶想要的信息。并不僅僅是網頁的挖掘,還有很多超鏈接信息。WEB結構挖掘主要還是依靠數據挖掘技術,重新建立曲站點的結構,對WEB頁面的文檔結構、文檔的路徑以及頁面的超鏈接進行挖掘,舉例來說,如果用戶搜索了某個頁面,這個頁面存在一個超鏈接,那么這個頁面實際上就包含了超鏈接指向的頁面的信息。目前,具有廣泛影響的超鏈接分析算法主要是Page-Rank算法和HITS算法,相比較之下Page-Rank算法更為著名,搜索引擎Google的核心算法就是Page-Rank算法。
3 WEB數據挖掘的應用
如今的互聯(lián)網市場競爭越來越激烈,電商已經成為很大的產業(yè)規(guī)模,涉及到人們的日常生活以及各行各業(yè)。對各大電商而言,用戶數量和架構是非常關鍵的因素,直接關系到投放廣告的收入。而且現(xiàn)在用戶對因特網的認識越來越深入,簡單依靠大信息量已經很難留住用戶了,提高服務質量已經成為必然選擇。目前,WEB的應用越來越個性化,效果越來越好,這是客戶和企業(yè)發(fā)展的必然,因此WEB挖掘的應用主要表現(xiàn)在個性化服務、完善網站設計、商業(yè)智能化、完善系統(tǒng)性能以及定性描述上,具體到現(xiàn)在,主要的研究對象是個性化服務、推薦系統(tǒng)和自適應站點。個性化服務就是網站根據用戶的訪問情況,為用戶提供個性化的信息服務,減少用戶索引的時間,方面用戶的使用。推薦系統(tǒng)顧名思義就是根據用戶以前的使用情況,為用戶推薦可能感興趣的信息。自適應站點是一種更加有效、自動化程度更高的方法。
WEB數據挖掘的應用不僅可以為管理者提供個性化網站,還可以比較準確的測定投資回報率,查看網站流量模式,發(fā)現(xiàn)用戶的興趣和需要,優(yōu)化用戶需求強烈的地方,從而有目的有依據的穩(wěn)步提高用戶的滿意度。
4 結束語
目前,WEB擁有的部分信息空間已經超過了數十億頁面,更為恐怖的是這個數字還在以大約每五個月翻一番的速度增長,巨大信息蘊含了巨大的市場。WEB可以以長文本的形式展現(xiàn)給用戶,而且可以轉化為更多類別的數據,甚至包括動態(tài)網頁鏈接、讀取等,是一個具有巨大開發(fā)價值的信息源。但是,面臨巨大的信息量,很多用戶不知所從,如何讓獲取想要的信息是普遍的問題。因此,基于WEB的數據挖掘成為近年來的研究熱點。本文主要簡單介紹WEB數據挖掘的定義和WEB數據挖掘的內容,最后概括闡述了其應用。
參考文獻:
[1]陳文偉,黃金才,趙新昱.數據挖掘技術[M].北京:北京工業(yè)大學出版社,2002,12.
[2]徐寶文,張衛(wèi)豐.數據挖掘技術在Web預取中的應用研究[J].計算機學報,2001,4.
[3]王書舟.基于Web挖掘的自適應網站研究[D].哈爾濱理工大學碩士學位論文,2003.