[摘要] 隨著互聯(lián)網(wǎng)內容指數(shù)級的增長,以及數(shù)據(jù)挖掘等新技術的出現(xiàn),信息服務方式從傳統(tǒng)的“一對多”發(fā)展到“一對一”的個性化用戶服務方式。而利用web挖掘技術已經(jīng)成為個性化服務的一個研究熱點。
[關鍵詞] web挖掘 個性化服務 用戶建模 聚類
一、引言
web目前是一個巨大的、分布廣泛的、全球性的信息服務中心,它涉及新聞、廣告、消息信息、金融管理、教育、政府、電子商務和許多其他信息服務。Web還包含了豐富和動態(tài)的超鏈接信息,以及web頁面的訪問和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源。但如何滿足各種用戶不同的個性化需求,卻成為了新的信息服務系統(tǒng)面臨的挑戰(zhàn)性課題。
二、web挖掘技術
1.web內容挖掘。web內容挖掘是從web文檔的內容或其描述中提取知識的過程,目的是實現(xiàn)web資源的自動檢索,提供web資源的利用率?;趙eb文檔的文本挖掘是web內容挖掘的主要研究內容。在文本挖掘中,通常利用向量來表示文檔。文本挖掘中主要有文本分析、文本解釋、文本分類和文檔可視化等挖掘技術。文本挖掘目前主要用于web頁面歸納和搜索結果歸納。
2.web結構挖掘。web結構挖掘可以被視為一種替網(wǎng)絡之間網(wǎng)頁的鏈接組織構架建立一個模式,透過這個模式可以了解到網(wǎng)頁與網(wǎng)頁之間的關聯(lián)性,因而可用來提升網(wǎng)站瀏覽或搜索的效率。web結構挖掘技術通常將網(wǎng)站鏈接結構對應成有向圖或無向圖的形式,分析鏈接的各條路徑結構,整合網(wǎng)站路徑資源。此外,還可以結合網(wǎng)站使用者的瀏覽動態(tài),發(fā)現(xiàn)重要頁面,從而改進網(wǎng)站的鏈接結構及內容呈現(xiàn)的方式,如將重要頁面放在網(wǎng)站醒目的位置,簡化瀏覽路徑等。從而,提高網(wǎng)站架構的合理性。
3.web日志挖掘。web日志挖掘是通過分析web服務器的日志文件,已發(fā)現(xiàn)用戶訪問站點的瀏覽模式,為站點管理員提供各種利于web站點改進或可以帶來經(jīng)濟效益的信息,web日志挖掘的過程一般分為4部分:數(shù)據(jù)預處理、挖掘算法實施、模式分析、可視化。如圖1所示。
三、利用web挖掘進行個性化服務
個性化服務技術是為不同用戶提供不同的服務,以滿足不同的需求。個性化服務通過收集和分析用戶信息來學習用戶的興趣和行為,從而實現(xiàn)主動推薦的目的。個性化服務技術能夠充分提高站點的服務質量和訪問效率,以吸引更多的訪問者。
1.用戶建模。個性化服務的形式多種多樣,但無論何種形式,都需要首先建立對用戶的描述,然后才能據(jù)此提供針對不同用戶的個性化服務,因此用戶建模是個性化服務的基礎和核心。簡單地說,用戶建模是指根據(jù)訪問者對一個web站點上web頁面的訪問情況模型化用戶的自身特性。用戶建模主要有三種途徑:一是推斷匿名訪問者的人口統(tǒng)計特性。由于web訪問者大都是匿名的,所以需要根據(jù)匿名訪問者的訪問內容推斷訪問者的特性。這類挖掘的最常用技術是分類和聚類方法。二是在不打擾用戶的情況下,得到用戶概貌文件。三是根據(jù)用戶的訪問模式來聚類用戶。
2.個性化服務系統(tǒng)?;趙eb挖掘的個性化服務系統(tǒng)的出現(xiàn)是對傳統(tǒng)的個性化服務系統(tǒng)的挑戰(zhàn),也是個性化服務發(fā)展的必然結果。基于web挖掘的個性化服務系統(tǒng)主要應用web挖掘中的內容挖掘、結構挖掘和日志挖掘,并根據(jù)挖掘所獲取的有趣的信息來為用戶提供個性化服務。
基于web挖掘的個性化服務系統(tǒng)一般由離線和在線兩部分組成,圖2給出通用的web個性化服務系統(tǒng)的服務過程。
離線部分主要用于挖掘用戶的特性信息,可以被看作個性化服務的準備部分,由兩個階段組成:第一個階段是對原始數(shù)據(jù)和相關數(shù)據(jù)進行預處理。高質量的決策必然依賴于高質量的數(shù)據(jù),因此數(shù)據(jù)預處理是web挖掘的重要步驟。數(shù)據(jù)預處理技術包括數(shù)據(jù)清理、會話識別、瀏覽頁識別、事務識別、路徑完善和用戶識別。第二個階段是模式提取階段,即使用數(shù)據(jù)挖掘技術對處理過的數(shù)據(jù)進行挖掘,進行模式獲取,以便以后在線部分的實時推薦。
在線部分為推薦引擎,主要是為用戶提供推薦從而實現(xiàn)個性化服務。推薦引擎的任務是計算出當前會話的推薦集,根據(jù)當前的用戶會話和挖掘結果,應用推薦機制產(chǎn)生實時的推薦集。
3.實現(xiàn)方法。
(1)離線聚類和動態(tài)鏈接結合。將用戶訪問模式進行聚類,系統(tǒng)將離線的模塊用于聚類,在線的模塊用于web頁面的動態(tài)鏈接產(chǎn)生。每個訪問站點的用戶根據(jù)其當前的訪問模式被指定到一個聚類中,在該聚類中其他用戶所選擇的頁面被動態(tài)地附加在該用戶當前所訪問的頁面下面,由此提供個性化的服務。
(2)識別感興趣的鏈接。監(jiān)測用戶對web頁面的瀏覽,為用戶識別出那些用戶可能感興趣的鏈接。利用互信息和MDL等作為相似性比較的手段,根據(jù)當前用戶的訪問和其他具有相似性興趣的用戶的訪問就可以來評估一個新頁面的興趣程度。
(3)自動定制不同的用戶訪問界面。利用用戶建模技術自動定制不同的用戶訪問界面,是個性化的一個重要方面。
(4)聚類推薦。根據(jù)服務器日志聚類用戶頁面,把和當前用戶事務最相近的聚類中的頁面推薦給用戶。
參考文獻:
[1]毛國君段麗娟:《數(shù)據(jù)挖掘原理與算法》,清華大學出版社
[2]蘇新寧楊建林:《數(shù)據(jù)殘酷和數(shù)據(jù)挖掘》,清華大學出版社
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。