亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于網(wǎng)頁(yè)瀏覽的用戶興趣度研究

2013-10-10 12:09:34許國(guó)迎

上海理工大學(xué)學(xué)報(bào) 2013年5期

許國(guó)迎，張寧

（上海理工大學(xué) 管理學(xué)院，上海 200093）

當(dāng)今時(shí)代，網(wǎng)絡(luò)的發(fā)展日益成為人們生活的重要組成部分.隨之而來(lái)的，網(wǎng)絡(luò)中的巨大數(shù)據(jù)資源亦得到了廣大學(xué)者越來(lái)越多的重視.因此，許多學(xué)者致力于數(shù)據(jù)挖掘技術(shù)與人類動(dòng)力學(xué)研究的結(jié)合，并應(yīng)用于實(shí)踐當(dāng)中.

學(xué)者Barabasi曾在《Nature》上提出了一個(gè)基于決策的優(yōu)先權(quán)模型［1］，自此開(kāi)啟了人類動(dòng)力學(xué)方面的熱烈討論.隨后，Vazquez又得到了對(duì)該模型的精確解［2］，這些模型都是從排隊(duì)論的任務(wù)模型角度來(lái)研究人類動(dòng)力學(xué)的.其實(shí)，生活中的人類行為紛繁復(fù)雜，何止是完成任務(wù)這類行為.比如說(shuō)興趣愛(ài)好往往也是人類的一種重要行為去向，有學(xué)者就結(jié)合QQ群的聊天記錄［3］，對(duì)單個(gè)用戶和群里所有用戶發(fā)言的時(shí)間間隔進(jìn)行了研究，證明了群體間這種網(wǎng)絡(luò)即時(shí)溝通行為具有人類動(dòng)力學(xué)特征.更有文獻(xiàn)從人類行為、復(fù)雜網(wǎng)絡(luò)和信息挖掘的角度給后續(xù)的研究和學(xué)習(xí)提供了不可多得的重要資料［4］.

現(xiàn)階段，個(gè)性化推薦已經(jīng)成為了熱門(mén)的研究方向，特別體現(xiàn)在網(wǎng)絡(luò)購(gòu)物中，各商家都希望能夠獲取用戶最真實(shí)的興趣所在，并為之進(jìn)行準(zhǔn)確合適的個(gè)性化信息推薦.這些問(wèn)題都需要深入挖掘用戶興趣，也蘊(yùn)含了巨大的商業(yè)價(jià)值.由此，不難看出，如何得到用戶的興趣取向以及興趣的度量方式成為了至關(guān)重要的課題.

當(dāng)前挖掘用戶興趣行為的方式有兩種，一種是單純從用戶行為的歷史信息中發(fā)現(xiàn)其中所隱藏的規(guī)律，另一種是基于瀏覽內(nèi)容和行為相結(jié)合的方式［5］來(lái)研究用戶的興趣行為.事實(shí)上單純從一個(gè)方面來(lái)分析用戶的興趣是不夠的，應(yīng)該從各個(gè)角度，不同層面來(lái)建立用戶的興趣簇.因此本文根據(jù)用戶的網(wǎng)頁(yè)瀏覽記錄，利用文本分類技術(shù)提取出若干興趣關(guān)鍵詞，并進(jìn)行分類統(tǒng)計(jì)分析.在得到用戶訪問(wèn)量的基礎(chǔ)上，運(yùn)用歸一化的方法，實(shí)現(xiàn)用戶興趣的度量和相互比較的目標(biāo).

1 用戶興趣的挖掘

1.1 興趣的聚類分析

聚類分析就是將一組對(duì)象集合按照相似性分成若干類別，目的是使得同一類別的對(duì)象之間的相似度最大，而不同類別的對(duì)象間相似度最小.聚類的思想源于很多學(xué)科，如數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、統(tǒng)計(jì)學(xué)和經(jīng)濟(jì)學(xué)等.在不同的領(lǐng)域里，這種技術(shù)都被用于描述數(shù)據(jù)、衡量數(shù)據(jù)源之間的相似性，并把數(shù)據(jù)源分類到不同的簇中.特別是在商業(yè)領(lǐng)域，經(jīng)常會(huì)通過(guò)聚類分析來(lái)發(fā)現(xiàn)不同類型的客戶群，進(jìn)而刻畫(huà)不同客戶群的特征，從而可以更好地幫助商家了解自己的客戶，向客戶提供更好的服務(wù).聚類分析的算法［6］主要包括層次聚類法、基于密度的方法、平面劃分方法、基于網(wǎng)格的方法和基于模型的方法.

層次聚類算法，又稱系統(tǒng)聚類法，是被廣泛應(yīng)用的算法之一.雖然復(fù)雜度較高，不適合大數(shù)據(jù)的計(jì)算，但操作步驟簡(jiǎn)單方便.本文利用層次聚類的方法，深入分析群體用戶的網(wǎng)頁(yè)瀏覽記錄，并從中得到相關(guān)的用戶興趣類.

1.2 興趣的分類標(biāo)準(zhǔn)

在得到用戶興趣簇之后，綜合利用文本分類技術(shù)提取出用戶的興趣關(guān)鍵詞.首先對(duì)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析，并根據(jù)主題信息對(duì)頁(yè)面再進(jìn)行聚類分析.在聚類的過(guò)程中除了考慮頁(yè)面內(nèi)容的相近程度外，還輔以頁(yè)面路徑進(jìn)行歸類判斷，從而得到網(wǎng)頁(yè)頁(yè)面的興趣簇.最后，本文為了較為準(zhǔn)確地反映用戶的真實(shí)興趣，將用戶的上網(wǎng)行為分為18類：搜索引擎、教育、新聞門(mén)戶、論壇博客、交友聊天、娛樂(lè)、網(wǎng)上購(gòu)物、生活相關(guān)、游戲、體育、電影音樂(lè)、web郵件、文學(xué)、財(cái)經(jīng)、求職招聘、房產(chǎn)裝修、股票交易和軍事.鑒于所選對(duì)象為高校師生，因此這18類興趣關(guān)鍵詞可基本代表了這一特定群體的主流興趣取向.

1.3 用戶興趣度模型

興趣度，就是用來(lái)衡量人們對(duì)某事物的感興趣程度.個(gè)性化推薦系統(tǒng)對(duì)于這種抽象的概念，一般是通過(guò)模型的方法，先給出相應(yīng)的興趣度定義，再加以數(shù)據(jù)的實(shí)證研究.目前主要有傳統(tǒng)的基于瀏覽內(nèi)容的興趣度模型［7－8］、基于用戶瀏覽行為的興趣度模型［9］和動(dòng)態(tài)變化的用戶興趣模型，這3種模型各有所長(zhǎng)，代表了研究水平的不斷深入和提高.

基于瀏覽內(nèi)容的用戶興趣模型一般是考慮用戶在某一興趣類中的訪問(wèn)頻繁度，即興趣類頁(yè)面集的頁(yè)面總數(shù)或用戶會(huì)話總數(shù).如果某一興趣類的頁(yè)面總數(shù)最多，那么對(duì)該類興趣的傾向程度也就最高.然而，這種方法的不足之處是將用戶訪問(wèn)的所有頁(yè)面等同地看待，沒(méi)有分出主次輕重.事實(shí)上，每張頁(yè)面所包含的信息并非總是單一，用戶對(duì)頁(yè)面中不同內(nèi)容的興趣程度也有所區(qū)別.

基于用戶瀏覽行為的模型主要是分析用戶的行為模式，并結(jié)合用戶的瀏覽內(nèi)容，挖掘用戶的興趣及給出相應(yīng)的度量標(biāo)準(zhǔn)和計(jì)算方法.因?yàn)橛脩舻男枨蟛煌?，從而用戶的各種瀏覽行為也就體現(xiàn)出不同的興趣傾向.一般來(lái)說(shuō)，用戶瀏覽行為有頁(yè)面標(biāo)記行為（包括增加書(shū)簽、刪除書(shū)簽、保持頁(yè)面和打印頁(yè)面行為）和頁(yè)面操作行為（包括復(fù)制、粘貼、剪切、拉動(dòng)滾動(dòng)條、點(diǎn)擊鏈接和移動(dòng)鼠標(biāo)行為）.這種模型引入了用戶的瀏覽行為作為興趣度的變量，從而可以更準(zhǔn)確地度量用戶的興趣度.

不難發(fā)現(xiàn)，上述兩種興趣度模型都是假設(shè)用戶的興趣不變，但實(shí)際生活中用戶的興趣卻是動(dòng)態(tài)變化的，既可以是逐漸增加，愈加感興趣，也可以是一時(shí)興起，繼而逐漸淡忘.因此，有學(xué)者提出了動(dòng)態(tài)變化的用戶興趣度模型，如蔣翀等［10］建立基于線性衰減的用戶興趣度模型，單蓉［11］建立了基于遺忘機(jī)制的用戶興趣度模型，兩者分別選用不同的數(shù)學(xué)方法來(lái)分析和量化用戶動(dòng)態(tài)變化的興趣.

1.4 用戶興趣度計(jì)算公式

本文中用戶興趣度是指用戶對(duì)某一興趣關(guān)鍵詞的感興趣程度，是對(duì)興趣的一個(gè)量化指標(biāo).綜合分析各種興趣度模型的優(yōu)缺點(diǎn)后，結(jié)合研究數(shù)據(jù)的特點(diǎn)，本文選擇歸一化的方法來(lái)度量用戶的興趣度.計(jì)算公式為

其中，Li表示用戶對(duì)第i個(gè)興趣關(guān)鍵詞的興趣度，xi指用戶對(duì)第i個(gè)興趣關(guān)鍵詞的訪問(wèn)量，max（x1，x2，…，xn）表示訪問(wèn)量的最大值，min（x1，x2，…，xn）為訪問(wèn)量的最小值.

2 典型用戶的興趣模式

對(duì)每個(gè)興趣關(guān)鍵詞，選取典型個(gè)體用戶進(jìn)行網(wǎng)頁(yè)瀏覽記錄的統(tǒng)計(jì)分析.對(duì)于上述18個(gè)關(guān)鍵詞，本文選取了8位典型用戶的網(wǎng)頁(yè)瀏覽記錄加以分析，為表述方便，分別用英文字母A，B，…，H表示.統(tǒng)計(jì)出的用戶訪問(wèn)量變化規(guī)律如圖1～8所示.

圖2 用戶B的網(wǎng)頁(yè)瀏覽記錄（教育）Fig.2 Web browser log of the user B （education）

圖3 用戶C的網(wǎng)頁(yè)瀏覽記錄（新聞門(mén)戶）Fig.3 Web browser log of the user C （news portal）

圖4 用戶D的網(wǎng)頁(yè)瀏覽記錄（論壇博客）Fig.4 Web browser log of the user D （forum biog）

圖5 用戶E的網(wǎng)頁(yè)瀏覽記錄（交友聊天）Fig.5 Web browser log of the user E （online chatting）

圖6 用戶F的網(wǎng)頁(yè)瀏覽記錄（娛樂(lè)）Fig.6 Web browser log of the user F （entertainment）

圖7 用戶G的網(wǎng)頁(yè)瀏覽記錄（網(wǎng)上購(gòu)物）Fig.7 Web browser log of the user G （online shopping）

圖8 用戶H的網(wǎng)頁(yè)瀏覽記錄（生活相關(guān)）Fig.8 Web browser log of the user H （life－related）

這8幅圖顯示的是典型用戶在14d時(shí)間內(nèi)的訪問(wèn)量曲線圖，以天為單位，分別以上述18類興趣關(guān)鍵詞作為統(tǒng)計(jì)對(duì)象，統(tǒng)計(jì)出用戶對(duì)這些興趣關(guān)鍵詞的訪問(wèn)量.從圖中可以看出，每個(gè)典型用戶都有自己特有的興趣傾向面，訪問(wèn)曲線也呈現(xiàn)出形態(tài)各異的波動(dòng)性.如從用戶A的瀏覽記錄里發(fā)現(xiàn)該用戶更多的是使用搜索引擎網(wǎng)站，常用的有百度、谷歌等熱門(mén)搜索引擎網(wǎng)站；用戶B和D表現(xiàn)出對(duì)某一個(gè)興趣關(guān)鍵詞有極大興趣，而對(duì)其它興趣類則很少瀏覽的特點(diǎn).因此，在個(gè)性化推薦系統(tǒng)中，像此類興趣單一型的用戶，可以從群體用戶中顯著地分離開(kāi)來(lái).另外，可設(shè)置個(gè)性化信息推送系統(tǒng)，迎合該類特定用戶的興趣，有針對(duì)性地推薦信息，一定會(huì)達(dá)到事半功倍的效果.用戶C，E，F(xiàn)，G和H則都表現(xiàn)出對(duì)某幾類興趣關(guān)鍵詞的較高關(guān)注.具體來(lái)說(shuō)，用戶C關(guān)注新聞，用戶E喜歡交友聊天，用戶F更多的是瀏覽娛樂(lè)信息，用戶G在上網(wǎng)時(shí)，傾向于瀏覽與網(wǎng)絡(luò)購(gòu)物相關(guān)的信息，用戶H喜歡與生活相關(guān)的內(nèi)容.這些性格多樣、興趣廣泛的用戶在群體用戶中占有相當(dāng)大的比重，可以對(duì)該類用戶作多樣性信息推薦.曲線圖的優(yōu)勢(shì)在于直觀，易分析出典型用戶的最大興趣關(guān)注領(lǐng)域，但對(duì)于其它興趣關(guān)鍵詞之間的區(qū)別如何、它們之間又有什么聯(lián)系，無(wú)法從圖中直接得知.為此，用戶興趣度的量化就顯得十分必要，這也是本文興趣度模型的重點(diǎn)所在.

3 典型用戶的興趣度計(jì)算

針對(duì)典型個(gè)體用戶的網(wǎng)頁(yè)瀏覽記錄，運(yùn)用興趣度計(jì)算公式分別進(jìn)行歸一化處理，具體結(jié)果如表1所示.

表1 典型個(gè)體用戶的興趣度Tab.1 Degree of typical individual user’s interest

有了歸一化的度量結(jié)果后，就可以比較清晰地看出每一個(gè)用戶的興趣關(guān)鍵詞之間的區(qū)別和聯(lián)系.如用戶A對(duì)搜索引擎的興趣度是1.000，充分說(shuō)明了該用戶對(duì)搜索引擎網(wǎng)站的興趣度是最高的，對(duì)教育類信息的興趣度是0.021，而對(duì)游戲類信息的興趣度是0.100，新聞?lì)惡蛙娛骂愋畔⒌呐d趣度都是大于0.100.由此可以推斷，用戶A不僅傾向于用搜索引擎網(wǎng)站，還對(duì)新聞?lì)惡蛙娛骂愋畔⑾喈?dāng)關(guān)注，并且關(guān)注程度是高于游戲類信息的.不妨大膽預(yù)測(cè)，這是一位朝氣蓬勃，喜歡軍事的年輕男性.綜合所選取的8位典型用戶，也只有該用戶表現(xiàn)出對(duì)軍事信息最高的興趣，非常具有代表意義.若是在個(gè)性化推薦系統(tǒng)中，這樣的用戶就可以作為典型的用戶類型，個(gè)性化地為其推送軍事相關(guān)的信息.用戶B則是非常個(gè)性化的典型個(gè)體用戶，在他的網(wǎng)頁(yè)瀏覽記錄中，幾乎全部瀏覽的是教育類信息，可見(jiàn)其對(duì)教育領(lǐng)域的關(guān)注程度是非常高的，甚至可以大膽推測(cè)，該用戶極有可能是一位教師，非常關(guān)注國(guó)家的教育事業(yè).用戶C瀏覽新聞信息的興趣度為1.000，并且瀏覽教育信息的興趣度是0.664，除了這兩類興趣關(guān)鍵詞外，甚少瀏覽其它興趣關(guān)鍵詞的信息，說(shuō)明了該用戶是不僅關(guān)注新聞，尤其是關(guān)注教育領(lǐng)域新聞的人，他的興趣傾向也會(huì)更多地偏向于教育領(lǐng)域.從用戶聚類分析的角度，用戶B和C可以說(shuō)是歸于一類.用戶D瀏覽論壇博客新聞興趣度為1.000，其它興趣關(guān)鍵詞為0.000，充分展現(xiàn)了這是一個(gè)喜歡交友，喜歡網(wǎng)絡(luò)聊天的用戶，可以想見(jiàn)，他對(duì)交友類信息會(huì)比他人更為敏感和關(guān)注.用戶E則是一個(gè)興趣較為廣泛的人，表現(xiàn)出喜歡看新聞、聽(tīng)音樂(lè)、交友聊天和網(wǎng)上購(gòu)物，而且興趣度相差不大.對(duì)于其他用戶，也可以通過(guò)類似的比較方法，發(fā)現(xiàn)不同用戶的不同興趣傾向，以及進(jìn)行相互之間的縱向比較.

可以展望，用上述興趣度計(jì)算方法，可以很好地定位互聯(lián)網(wǎng)中成千上萬(wàn)用戶的興趣傾向及興趣度，對(duì)網(wǎng)站的設(shè)計(jì)和建立個(gè)性化推薦系統(tǒng)有一定的參考意義.

4 結(jié)束語(yǔ)

從實(shí)證角度利用興趣聚類方法對(duì)網(wǎng)頁(yè)瀏覽日志中群體用戶的興趣進(jìn)行挖掘，分析提取出群體用戶的18類興趣關(guān)鍵詞，并運(yùn)用統(tǒng)計(jì)學(xué)方法，對(duì)8位典型用戶的網(wǎng)頁(yè)瀏覽記錄進(jìn)行分析，統(tǒng)計(jì)各自的興趣關(guān)鍵詞訪問(wèn)量.然后根據(jù)興趣度的計(jì)算公式，給出了用戶興趣的度量方法，得到了理論模型和實(shí)證結(jié)果.文章提供了一個(gè)尋找用戶興趣傾向、度量用戶興趣度的方法，從而為人類動(dòng)力學(xué)研究提供了一個(gè)切實(shí)可行的思路，并且對(duì)個(gè)性化推薦系統(tǒng)的研究也具有較好的指導(dǎo)意義.

［1］Barabasi A L.The origin of bursts and heavy tails in human dynamics［J］.Nature，2005，435（7039）：207－211.

［2］Vazqueza A.Exact results for the Barabasi model of human dynamics［J］.Physical Review Letters，2005，95（24）：248710.

［3］羅芳，楊建梅，李志宏.QQ群消息中的人類動(dòng)力學(xué)研究［J］.華南理工大學(xué)學(xué)報(bào)，2011，13（4）：14－19.

［4］汪秉宏，周濤，周昌松.人類行為，復(fù)雜網(wǎng)絡(luò)及信息挖掘的統(tǒng)計(jì)物理研究［J］.上海理工大學(xué)學(xué)報(bào)，2012，34（2）：103－117.

［5］趙銀春，付關(guān)友，朱征宇.基于 Web瀏覽內(nèi)容和行為相結(jié)合的用戶興趣挖掘［J］.計(jì)算機(jī)工程，2005，31（12）：93－94.

［6］Han J W，Kamber M.數(shù)據(jù)挖掘概念與技術(shù)［M］.北京：機(jī)械工業(yè)出版社，2001.

［7］呂佳.基于興趣度的web用戶訪問(wèn)模式分析［J］.計(jì)算機(jī)工程與設(shè)計(jì)，2007，28（10）：2403－2407.

［8］郭巖.網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用［D］.北京：中國(guó)科學(xué)院計(jì)算技術(shù)研究所，2004.

［9］王微微，夏秀峰，李曉明.一種基于用戶行為的興趣度建模［J］.計(jì)算機(jī)工程與應(yīng)用，2012，48（8）：148－151.

［10］蔣翀，費(fèi)洪曉.基于線性衰減的用戶興趣建模［J］.計(jì)算機(jī)系統(tǒng)應(yīng)用，2010，19（6）：140－143.

［11］單蓉.用戶興趣模型的更新與遺忘機(jī)制研究［J］.微型電腦應(yīng)用，2011，27（7）：10－11.