亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)頁瀏覽的群體用戶興趣模式挖掘

        2013-01-01 00:00:00許國迎
        電腦迷 2013年1期

        摘 要 當今社會,網(wǎng)絡(luò)的發(fā)展日益成為人們生活的重要組成部分。隨之而來的,網(wǎng)絡(luò)中的巨大數(shù)據(jù)資源亦得到了廣大學者越來越多的重視。因此,許多學者致力于數(shù)據(jù)挖掘技術(shù)與人類動力學研究的結(jié)合,并應(yīng)用于實踐當中。

        關(guān)鍵詞 網(wǎng)頁 群體用戶 模式

        中圖分類號: TP311 文獻標識碼:A

        著名學者Barabasi 在2005年的一篇文章中,提出了一個基于決策的優(yōu)先權(quán)模型,自此開啟了人類動力學方向的熱烈討論。隨后,Vazquez又得到了對該模型的精確解。我們發(fā)現(xiàn)這些模型都是從排隊論的任務(wù)模型中角度來研究人類動力學。其實,生活中的人類行為紛繁復(fù)雜,何止是完成任務(wù)這類行為。比如說興趣愛好往往也是人類的一種重要行為去向,諸如電影點播、發(fā)短息和網(wǎng)頁瀏覽等行為就是典型的興趣愛好。

        在當前階段,挖掘用戶興趣行為的方式有兩種:一是單純從用戶行為的歷史信息中發(fā)現(xiàn)隱藏的規(guī)律;一種是基于瀏覽內(nèi)容和行為相結(jié)合的方式。我們認為,單純從一個方面來分析用戶的興趣是不夠的,應(yīng)該從各個角度,各個層面來建立用戶的興趣模簇,在此基礎(chǔ)上,從網(wǎng)頁瀏覽日志中提取出若干關(guān)鍵字,進行分類統(tǒng)計分析。

        1 用戶興趣的挖掘——興趣的分類標準

        利用文本分類技術(shù),首先對用戶瀏覽過的頁面進行內(nèi)容分析, 并根據(jù)主題信息對頁面進行聚類;在聚類的過程中除了考慮頁面內(nèi)容的相近程度外還輔以頁面路徑進行歸類判斷。在最后得到頁面的興趣簇。最后,我們?yōu)榱溯^為準確的反映用戶的真實興趣,將用戶的網(wǎng)絡(luò)

        行為分為了18類:搜索引擎、教育、新聞門戶、論壇博客、交友聊天、娛樂、網(wǎng)上購物、生活相關(guān)、游戲、體育、電影音樂、網(wǎng)頁瀏覽郵件、文學、財經(jīng)、求職招聘、房產(chǎn)裝修、股票交易、軍事。鑒于所選對象為高校師生,因此這18類興趣可基本代表這一特定群體的主流興趣取向。

        2 運用關(guān)聯(lián)規(guī)則和頻繁模式發(fā)現(xiàn)群體用戶興趣的頻繁模式

        2.1什么是關(guān)聯(lián)規(guī)則

        關(guān)聯(lián)規(guī)則反映了一個事務(wù)與其他事務(wù)之間的相互依存性和關(guān)聯(lián)性。如果兩個或多個事務(wù)之間存在著一定的關(guān)聯(lián)關(guān)系,那么,其中一個事務(wù)就一定能通過其他與之相關(guān)的事務(wù)進行預(yù)測。最經(jīng)典的例子是超市中尿片和啤酒的關(guān)系。

        2.2關(guān)聯(lián)規(guī)則的基本模型

        設(shè) = {,,…}為所有項目的集合,為事務(wù)數(shù)據(jù)庫,事務(wù)是一個項目子集(€H眨C懇桓鍪攣窬哂形ㄒ壞氖攣瘛I枋且桓鲇上钅抗鉤傻募希晌羆J攣癜羆鼻醫(yī)齙眬H鍘H綣謔攣袷菘庵諧魷值拇問賈兇蓯攣竦陌俜直冉兇魷羆鬧С侄取H綣羆鬧С侄瘸沒Цǖ淖钚≈С侄茹兄擔統(tǒng)聘孟羆鈉搗畢羆ɑ虼笙羆?

        2.3 規(guī)則度量:支持度和置信度

        查找所有的規(guī)則€H!具有最小支持度和可信度。

        支持度:一次交易中包含{}的可能性。

        置信度:包含{}的交易中也包含的條件概率。

        3 結(jié)合數(shù)據(jù),具體分析

        3.1 群體用戶的網(wǎng)絡(luò)訪問興趣統(tǒng)計

        這里的群體用戶是指把所以用戶看成一個整體,即按照訪問網(wǎng)絡(luò)的時間來進行群體用戶訪問量的排序,以考察所有用戶瀏覽網(wǎng)頁的行為特征。我們發(fā)現(xiàn),在這兩周時間內(nèi),群體用戶的興趣保持了一定的穩(wěn)定性,搜索引擎的訪問量居高不下,其次,教育類、新聞類、交友聊天類成為搜索引擎之后的主流;對于體育、電影音樂和軍事屬于特定人群的興趣。另外,途中第四天是5月12號紀念汶川地震日,娛樂活動暫停,故而訪問量大幅下降。

        3.2 運用軟件進行分析

        軟件中設(shè)定最小支持度和置信度均為90%,在此規(guī)則下,共得出27組頻繁模式,例如98.2%的用戶會通過搜索引擎,新聞門戶來瀏覽娛樂網(wǎng)頁,其置信度為92.8%;而且99.6%的用戶會直接選擇搜索引擎來去瀏覽娛樂信息,置信度為92.8%等。詳細結(jié)果如表1。

        4 結(jié)束語

        網(wǎng)頁瀏覽記錄對于研究人類動力學具有重要的實際意義。文章的核心思想是從實證角度利用關(guān)聯(lián)規(guī)則對日志中群體用戶的興趣簇進行頻繁訪問模式挖掘,使用的是經(jīng)典的Apriori算法。該算法一直是關(guān)聯(lián)規(guī)則中被使用次數(shù)最多的算法。但是,在處理web日志時卻存在著兩個不容忽視的問題:(1)web日志的數(shù)據(jù)量是制約算法實現(xiàn)效率的一大瓶頸,從而對數(shù)據(jù)的先期預(yù)處理提出了更高的要求;(2)在進行興趣模式挖掘的時候,我們事先給定的18個興趣類,也是人為的劃分,因此也容易產(chǎn)生人為因素的干擾。

        文章用關(guān)聯(lián)規(guī)則來研究人們的興趣模式,并從實證角度為人類動力學研究提出了一個切實可行的思路。

        參考文獻

        [1] 陳文偉 越新且. 數(shù)據(jù)挖掘技術(shù)[M]. 北京:北京工業(yè)大學出版社,2002.

        [2] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘[M]. 北京:機械工業(yè)出版社,2008.

        [3] 王繼成. Web文本挖掘技術(shù)研究[J].計算機研究與發(fā)展 2000(37).

        波多野结衣一区二区三区免费视频| 性xxxx18免费观看视频| 精品久久久久久久久久中文字幕| 久久久久亚洲女同一区二区| 男女性搞视频网站免费| 91精品久久久老熟女91精品| 人人妻人人狠人人爽| 亚洲永久无码动态图| 婷婷精品国产亚洲av| 24小时在线免费av| 日日噜噜夜夜狠狠va视频| 国产麻豆精品一区二区三区v视界| 在线观看极品裸体淫片av| 九九久久精品国产免费av| 亚洲一区免费视频看看| 图片小说视频一区二区| 四川老熟妇乱子xx性bbw| 日本在线观看不卡| 老熟妇嗷嗷叫91九色| 久久无码人妻丰满熟妇区毛片| 制服丝袜人妻中文字幕在线| 国产亚洲欧洲三级片A级| 日韩av水蜜桃一区二区三区| 国产福利永久在线视频无毒不卡| 在线观看免费a∨网站| 久久国产亚洲中文字幕| 粉嫩极品国产在线观看免费一区| 中文字幕久久久人妻无码| 一本大道东京热无码中字| 亚洲精品成人久久av| 亚洲av午夜精品无码专区| 久久精品黄aa片一区二区三区| 热99精品| 丝袜美腿诱惑一二三区| 国产精品亚洲精品日韩已方| 国产99久久亚洲综合精品 | 日韩精品极品系列在线免费视频 | 无码国产精品一区二区免费式芒果 | 精品一区二区三区蜜桃麻豆| 久久天堂综合亚洲伊人hd妓女| 波多野结衣国产一区二区三区|