摘 要 當今社會,網(wǎng)絡(luò)的發(fā)展日益成為人們生活的重要組成部分。隨之而來的,網(wǎng)絡(luò)中的巨大數(shù)據(jù)資源亦得到了廣大學者越來越多的重視。因此,許多學者致力于數(shù)據(jù)挖掘技術(shù)與人類動力學研究的結(jié)合,并應(yīng)用于實踐當中。
關(guān)鍵詞 網(wǎng)頁 群體用戶 模式
中圖分類號: TP311 文獻標識碼:A
著名學者Barabasi 在2005年的一篇文章中,提出了一個基于決策的優(yōu)先權(quán)模型,自此開啟了人類動力學方向的熱烈討論。隨后,Vazquez又得到了對該模型的精確解。我們發(fā)現(xiàn)這些模型都是從排隊論的任務(wù)模型中角度來研究人類動力學。其實,生活中的人類行為紛繁復(fù)雜,何止是完成任務(wù)這類行為。比如說興趣愛好往往也是人類的一種重要行為去向,諸如電影點播、發(fā)短息和網(wǎng)頁瀏覽等行為就是典型的興趣愛好。
在當前階段,挖掘用戶興趣行為的方式有兩種:一是單純從用戶行為的歷史信息中發(fā)現(xiàn)隱藏的規(guī)律;一種是基于瀏覽內(nèi)容和行為相結(jié)合的方式。我們認為,單純從一個方面來分析用戶的興趣是不夠的,應(yīng)該從各個角度,各個層面來建立用戶的興趣模簇,在此基礎(chǔ)上,從網(wǎng)頁瀏覽日志中提取出若干關(guān)鍵字,進行分類統(tǒng)計分析。
1 用戶興趣的挖掘——興趣的分類標準
利用文本分類技術(shù),首先對用戶瀏覽過的頁面進行內(nèi)容分析, 并根據(jù)主題信息對頁面進行聚類;在聚類的過程中除了考慮頁面內(nèi)容的相近程度外還輔以頁面路徑進行歸類判斷。在最后得到頁面的興趣簇。最后,我們?yōu)榱溯^為準確的反映用戶的真實興趣,將用戶的網(wǎng)絡(luò)
行為分為了18類:搜索引擎、教育、新聞門戶、論壇博客、交友聊天、娛樂、網(wǎng)上購物、生活相關(guān)、游戲、體育、電影音樂、網(wǎng)頁瀏覽郵件、文學、財經(jīng)、求職招聘、房產(chǎn)裝修、股票交易、軍事。鑒于所選對象為高校師生,因此這18類興趣可基本代表這一特定群體的主流興趣取向。
2 運用關(guān)聯(lián)規(guī)則和頻繁模式發(fā)現(xiàn)群體用戶興趣的頻繁模式
2.1什么是關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則反映了一個事務(wù)與其他事務(wù)之間的相互依存性和關(guān)聯(lián)性。如果兩個或多個事務(wù)之間存在著一定的關(guān)聯(lián)關(guān)系,那么,其中一個事務(wù)就一定能通過其他與之相關(guān)的事務(wù)進行預(yù)測。最經(jīng)典的例子是超市中尿片和啤酒的關(guān)系。
2.2關(guān)聯(lián)規(guī)則的基本模型
設(shè) = {,,…}為所有項目的集合,為事務(wù)數(shù)據(jù)庫,事務(wù)是一個項目子集(€H眨C懇桓鍪攣窬哂形ㄒ壞氖攣瘛I枋且桓鲇上钅抗鉤傻募希晌羆J攣癜羆鼻醫(yī)齙眬H鍘H綣謔攣袷菘庵諧魷值拇問賈兇蓯攣竦陌俜直冉兇魷羆鬧С侄取H綣羆鬧С侄瘸沒Цǖ淖钚≈С侄茹兄擔統(tǒng)聘孟羆鈉搗畢羆ɑ虼笙羆?
2.3 規(guī)則度量:支持度和置信度
查找所有的規(guī)則€H!具有最小支持度和可信度。
支持度:一次交易中包含{}的可能性。
置信度:包含{}的交易中也包含的條件概率。
3 結(jié)合數(shù)據(jù),具體分析
3.1 群體用戶的網(wǎng)絡(luò)訪問興趣統(tǒng)計
這里的群體用戶是指把所以用戶看成一個整體,即按照訪問網(wǎng)絡(luò)的時間來進行群體用戶訪問量的排序,以考察所有用戶瀏覽網(wǎng)頁的行為特征。我們發(fā)現(xiàn),在這兩周時間內(nèi),群體用戶的興趣保持了一定的穩(wěn)定性,搜索引擎的訪問量居高不下,其次,教育類、新聞類、交友聊天類成為搜索引擎之后的主流;對于體育、電影音樂和軍事屬于特定人群的興趣。另外,途中第四天是5月12號紀念汶川地震日,娛樂活動暫停,故而訪問量大幅下降。
3.2 運用軟件進行分析
軟件中設(shè)定最小支持度和置信度均為90%,在此規(guī)則下,共得出27組頻繁模式,例如98.2%的用戶會通過搜索引擎,新聞門戶來瀏覽娛樂網(wǎng)頁,其置信度為92.8%;而且99.6%的用戶會直接選擇搜索引擎來去瀏覽娛樂信息,置信度為92.8%等。詳細結(jié)果如表1。
4 結(jié)束語
網(wǎng)頁瀏覽記錄對于研究人類動力學具有重要的實際意義。文章的核心思想是從實證角度利用關(guān)聯(lián)規(guī)則對日志中群體用戶的興趣簇進行頻繁訪問模式挖掘,使用的是經(jīng)典的Apriori算法。該算法一直是關(guān)聯(lián)規(guī)則中被使用次數(shù)最多的算法。但是,在處理web日志時卻存在著兩個不容忽視的問題:(1)web日志的數(shù)據(jù)量是制約算法實現(xiàn)效率的一大瓶頸,從而對數(shù)據(jù)的先期預(yù)處理提出了更高的要求;(2)在進行興趣模式挖掘的時候,我們事先給定的18個興趣類,也是人為的劃分,因此也容易產(chǎn)生人為因素的干擾。
文章用關(guān)聯(lián)規(guī)則來研究人們的興趣模式,并從實證角度為人類動力學研究提出了一個切實可行的思路。
參考文獻
[1] 陳文偉 越新且. 數(shù)據(jù)挖掘技術(shù)[M]. 北京:北京工業(yè)大學出版社,2002.
[2] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘[M]. 北京:機械工業(yè)出版社,2008.
[3] 王繼成. Web文本挖掘技術(shù)研究[J].計算機研究與發(fā)展 2000(37).