亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于網(wǎng)頁瀏覽的群體用戶興趣模式挖掘

2013-01-01 00:00:00許國迎

電腦迷 2013年1期

摘要當今社會，網(wǎng)絡(luò)的發(fā)展日益成為人們生活的重要組成部分。隨之而來的，網(wǎng)絡(luò)中的巨大數(shù)據(jù)資源亦得到了廣大學者越來越多的重視。因此，許多學者致力于數(shù)據(jù)挖掘技術(shù)與人類動力學研究的結(jié)合，并應(yīng)用于實踐當中。

關(guān)鍵詞網(wǎng)頁群體用戶模式

中圖分類號： TP311 文獻標識碼：A

著名學者Barabasi 在2005年的一篇文章中，提出了一個基于決策的優(yōu)先權(quán)模型，自此開啟了人類動力學方向的熱烈討論。隨后，Vazquez又得到了對該模型的精確解。我們發(fā)現(xiàn)這些模型都是從排隊論的任務(wù)模型中角度來研究人類動力學。其實，生活中的人類行為紛繁復(fù)雜，何止是完成任務(wù)這類行為。比如說興趣愛好往往也是人類的一種重要行為去向，諸如電影點播、發(fā)短息和網(wǎng)頁瀏覽等行為就是典型的興趣愛好。

在當前階段，挖掘用戶興趣行為的方式有兩種：一是單純從用戶行為的歷史信息中發(fā)現(xiàn)隱藏的規(guī)律；一種是基于瀏覽內(nèi)容和行為相結(jié)合的方式。我們認為，單純從一個方面來分析用戶的興趣是不夠的，應(yīng)該從各個角度，各個層面來建立用戶的興趣模簇，在此基礎(chǔ)上，從網(wǎng)頁瀏覽日志中提取出若干關(guān)鍵字，進行分類統(tǒng)計分析。

1 用戶興趣的挖掘——興趣的分類標準

利用文本分類技術(shù)，首先對用戶瀏覽過的頁面進行內(nèi)容分析，并根據(jù)主題信息對頁面進行聚類；在聚類的過程中除了考慮頁面內(nèi)容的相近程度外還輔以頁面路徑進行歸類判斷。在最后得到頁面的興趣簇。最后，我們?yōu)榱溯^為準確的反映用戶的真實興趣，將用戶的網(wǎng)絡(luò)

行為分為了18類：搜索引擎、教育、新聞門戶、論壇博客、交友聊天、娛樂、網(wǎng)上購物、生活相關(guān)、游戲、體育、電影音樂、網(wǎng)頁瀏覽郵件、文學、財經(jīng)、求職招聘、房產(chǎn)裝修、股票交易、軍事。鑒于所選對象為高校師生，因此這18類興趣可基本代表這一特定群體的主流興趣取向。

2 運用關(guān)聯(lián)規(guī)則和頻繁模式發(fā)現(xiàn)群體用戶興趣的頻繁模式

2.1什么是關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則反映了一個事務(wù)與其他事務(wù)之間的相互依存性和關(guān)聯(lián)性。如果兩個或多個事務(wù)之間存在著一定的關(guān)聯(lián)關(guān)系，那么，其中一個事務(wù)就一定能通過其他與之相關(guān)的事務(wù)進行預(yù)測。最經(jīng)典的例子是超市中尿片和啤酒的關(guān)系。

2.2關(guān)聯(lián)規(guī)則的基本模型

設(shè) = {，，…}為所有項目的集合，為事務(wù)數(shù)據(jù)庫，事務(wù)是一個項目子集（€H眨C懇桓鍪攣窬哂形ㄒ壞氖攣瘛I枋且桓鲇上钅抗鉤傻募希晌羆J攣癜羆鼻醫(yī)齙眬H鍘H綣謔攣袷菘庵諧魷值拇問賈兇蓯攣竦陌俜直冉兇魷羆鬧С侄取H綣羆鬧С侄瘸沒Цǖ淖钚≈С侄茹兄擔統(tǒng)聘孟羆鈉搗畢羆ɑ虼笙羆？

2.3 規(guī)則度量：支持度和置信度

查找所有的規(guī)則€H！具有最小支持度和可信度。

支持度：一次交易中包含{}的可能性。

置信度：包含{}的交易中也包含的條件概率。

3 結(jié)合數(shù)據(jù)，具體分析

3.1 群體用戶的網(wǎng)絡(luò)訪問興趣統(tǒng)計

這里的群體用戶是指把所以用戶看成一個整體，即按照訪問網(wǎng)絡(luò)的時間來進行群體用戶訪問量的排序，以考察所有用戶瀏覽網(wǎng)頁的行為特征。我們發(fā)現(xiàn)，在這兩周時間內(nèi)，群體用戶的興趣保持了一定的穩(wěn)定性，搜索引擎的訪問量居高不下，其次，教育類、新聞類、交友聊天類成為搜索引擎之后的主流；對于體育、電影音樂和軍事屬于特定人群的興趣。另外，途中第四天是5月12號紀念汶川地震日，娛樂活動暫停，故而訪問量大幅下降。

3.2 運用軟件進行分析

軟件中設(shè)定最小支持度和置信度均為90%，在此規(guī)則下，共得出27組頻繁模式，例如98.2%的用戶會通過搜索引擎，新聞門戶來瀏覽娛樂網(wǎng)頁，其置信度為92.8%；而且99.6%的用戶會直接選擇搜索引擎來去瀏覽娛樂信息，置信度為92.8%等。詳細結(jié)果如表1。

4 結(jié)束語

網(wǎng)頁瀏覽記錄對于研究人類動力學具有重要的實際意義。文章的核心思想是從實證角度利用關(guān)聯(lián)規(guī)則對日志中群體用戶的興趣簇進行頻繁訪問模式挖掘，使用的是經(jīng)典的Apriori算法。該算法一直是關(guān)聯(lián)規(guī)則中被使用次數(shù)最多的算法。但是，在處理web日志時卻存在著兩個不容忽視的問題：（1）web日志的數(shù)據(jù)量是制約算法實現(xiàn)效率的一大瓶頸，從而對數(shù)據(jù)的先期預(yù)處理提出了更高的要求；（2）在進行興趣模式挖掘的時候，我們事先給定的18個興趣類，也是人為的劃分，因此也容易產(chǎn)生人為因素的干擾。

文章用關(guān)聯(lián)規(guī)則來研究人們的興趣模式，并從實證角度為人類動力學研究提出了一個切實可行的思路。

參考文獻

[1] 陳文偉越新且. 數(shù)據(jù)挖掘技術(shù)[M]. 北京：北京工業(yè)大學出版社，2002.

[2] Jiawei Han，Micheline Kamber.數(shù)據(jù)挖掘[M]. 北京：機械工業(yè)出版社，2008.

[3] 王繼成. Web文本挖掘技術(shù)研究[J].計算機研究與發(fā)展 2000（37）.

電腦迷2013年1期

電腦迷的其它文章: 淺談虛擬校園導航技術(shù)與校園環(huán)境建設(shè); 淺論高職計算機教學中對學生綜合能力的培養(yǎng); 《網(wǎng)頁制作》教學方法的探討; 淺談中職計算機教學中任務(wù)驅(qū)動教學方法; 高校校園網(wǎng)絡(luò)安全管理問題與策略研究; 云計算在電子政務(wù)中的應(yīng)用