亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)頁瀏覽的用戶興趣度研究

        2013-10-10 12:09:34許國迎
        上海理工大學學報 2013年5期
        關(guān)鍵詞:訪問量網(wǎng)頁頁面

        許國迎, 張 寧

        (上海理工大學 管理學院,上海 200093)

        當今時代,網(wǎng)絡(luò)的發(fā)展日益成為人們生活的重要組成部分.隨之而來的,網(wǎng)絡(luò)中的巨大數(shù)據(jù)資源亦得到了廣大學者越來越多的重視.因此,許多學者致力于數(shù)據(jù)挖掘技術(shù)與人類動力學研究的結(jié)合,并應用于實踐當中.

        學者Barabasi曾在《Nature》上提出了一個基于決策的優(yōu)先權(quán)模型[1],自此開啟了人類動力學方面的熱烈討論.隨后,Vazquez又得到了對該模型的精確解[2],這些模型都是從排隊論的任務(wù)模型角度來研究人類動力學的.其實,生活中的人類行為紛繁復雜,何止是完成任務(wù)這類行為.比如說興趣愛好往往也是人類的一種重要行為去向,有學者就結(jié)合QQ群的聊天記錄[3],對單個用戶和群里所有用戶發(fā)言的時間間隔進行了研究,證明了群體間這種網(wǎng)絡(luò)即時溝通行為具有人類動力學特征.更有文獻從人類行為、復雜網(wǎng)絡(luò)和信息挖掘的角度給后續(xù)的研究和學習提供了不可多得的重要資料[4].

        現(xiàn)階段,個性化推薦已經(jīng)成為了熱門的研究方向,特別體現(xiàn)在網(wǎng)絡(luò)購物中,各商家都希望能夠獲取用戶最真實的興趣所在,并為之進行準確合適的個性化信息推薦.這些問題都需要深入挖掘用戶興趣,也蘊含了巨大的商業(yè)價值.由此,不難看出,如何得到用戶的興趣取向以及興趣的度量方式成為了至關(guān)重要的課題.

        當前挖掘用戶興趣行為的方式有兩種,一種是單純從用戶行為的歷史信息中發(fā)現(xiàn)其中所隱藏的規(guī)律,另一種是基于瀏覽內(nèi)容和行為相結(jié)合的方式[5]來研究用戶的興趣行為.事實上單純從一個方面來分析用戶的興趣是不夠的,應該從各個角度,不同層面來建立用戶的興趣簇.因此本文根據(jù)用戶的網(wǎng)頁瀏覽記錄,利用文本分類技術(shù)提取出若干興趣關(guān)鍵詞,并進行分類統(tǒng)計分析.在得到用戶訪問量的基礎(chǔ)上,運用歸一化的方法,實現(xiàn)用戶興趣的度量和相互比較的目標.

        1 用戶興趣的挖掘

        1.1 興趣的聚類分析

        聚類分析就是將一組對象集合按照相似性分成若干類別,目的是使得同一類別的對象之間的相似度最大,而不同類別的對象間相似度最小.聚類的思想源于很多學科,如數(shù)學、計算機科學、生物學、統(tǒng)計學和經(jīng)濟學等.在不同的領(lǐng)域里,這種技術(shù)都被用于描述數(shù)據(jù)、衡量數(shù)據(jù)源之間的相似性,并把數(shù)據(jù)源分類到不同的簇中.特別是在商業(yè)領(lǐng)域,經(jīng)常會通過聚類分析來發(fā)現(xiàn)不同類型的客戶群,進而刻畫不同客戶群的特征,從而可以更好地幫助商家了解自己的客戶,向客戶提供更好的服務(wù).聚類分析的算法[6]主要包括層次聚類法、基于密度的方法、平面劃分方法、基于網(wǎng)格的方法和基于模型的方法.

        層次聚類算法,又稱系統(tǒng)聚類法,是被廣泛應用的算法之一.雖然復雜度較高,不適合大數(shù)據(jù)的計算,但操作步驟簡單方便.本文利用層次聚類的方法,深入分析群體用戶的網(wǎng)頁瀏覽記錄,并從中得到相關(guān)的用戶興趣類.

        1.2 興趣的分類標準

        在得到用戶興趣簇之后,綜合利用文本分類技術(shù)提取出用戶的興趣關(guān)鍵詞.首先對用戶瀏覽過的頁面進行內(nèi)容分析,并根據(jù)主題信息對頁面再進行聚類分析.在聚類的過程中除了考慮頁面內(nèi)容的相近程度外,還輔以頁面路徑進行歸類判斷,從而得到網(wǎng)頁頁面的興趣簇.最后,本文為了較為準確地反映用戶的真實興趣,將用戶的上網(wǎng)行為分為18類:搜索引擎、教育、新聞門戶、論壇博客、交友聊天、娛樂、網(wǎng)上購物、生活相關(guān)、游戲、體育、電影音樂、web郵件、文學、財經(jīng)、求職招聘、房產(chǎn)裝修、股票交易和軍事.鑒于所選對象為高校師生,因此這18類興趣關(guān)鍵詞可基本代表了這一特定群體的主流興趣取向.

        1.3 用戶興趣度模型

        興趣度,就是用來衡量人們對某事物的感興趣程度.個性化推薦系統(tǒng)對于這種抽象的概念,一般是通過模型的方法,先給出相應的興趣度定義,再加以數(shù)據(jù)的實證研究.目前主要有傳統(tǒng)的基于瀏覽內(nèi)容的興趣度模型[7-8]、基于用戶瀏覽行為的興趣度模型[9]和動態(tài)變化的用戶興趣模型,這3種模型各有所長,代表了研究水平的不斷深入和提高.

        基于瀏覽內(nèi)容的用戶興趣模型一般是考慮用戶在某一興趣類中的訪問頻繁度,即興趣類頁面集的頁面總數(shù)或用戶會話總數(shù).如果某一興趣類的頁面總數(shù)最多,那么對該類興趣的傾向程度也就最高.然而,這種方法的不足之處是將用戶訪問的所有頁面等同地看待,沒有分出主次輕重.事實上,每張頁面所包含的信息并非總是單一,用戶對頁面中不同內(nèi)容的興趣程度也有所區(qū)別.

        基于用戶瀏覽行為的模型主要是分析用戶的行為模式,并結(jié)合用戶的瀏覽內(nèi)容,挖掘用戶的興趣及給出相應的度量標準和計算方法.因為用戶的需求不同,從而用戶的各種瀏覽行為也就體現(xiàn)出不同的興趣傾向.一般來說,用戶瀏覽行為有頁面標記行為(包括增加書簽、刪除書簽、保持頁面和打印頁面行為)和頁面操作行為(包括復制、粘貼、剪切、拉動滾動條、點擊鏈接和移動鼠標行為).這種模型引入了用戶的瀏覽行為作為興趣度的變量,從而可以更準確地度量用戶的興趣度.

        不難發(fā)現(xiàn),上述兩種興趣度模型都是假設(shè)用戶的興趣不變,但實際生活中用戶的興趣卻是動態(tài)變化的,既可以是逐漸增加,愈加感興趣,也可以是一時興起,繼而逐漸淡忘.因此,有學者提出了動態(tài)變化的用戶興趣度模型,如蔣翀等[10]建立基于線性衰減的用戶興趣度模型,單蓉[11]建立了基于遺忘機制的用戶興趣度模型,兩者分別選用不同的數(shù)學方法來分析和量化用戶動態(tài)變化的興趣.

        1.4 用戶興趣度計算公式

        本文中用戶興趣度是指用戶對某一興趣關(guān)鍵詞的感興趣程度,是對興趣的一個量化指標.綜合分析各種興趣度模型的優(yōu)缺點后,結(jié)合研究數(shù)據(jù)的特點,本文選擇歸一化的方法來度量用戶的興趣度.計算公式為

        其中,Li表示用戶對第i個興趣關(guān)鍵詞的興趣度,xi指用戶對第i個興趣關(guān)鍵詞的訪問量,max(x1,x2,…,xn)表示訪問量的最大值,min(x1,x2,…,xn)為訪問量的最小值.

        2 典型用戶的興趣模式

        對每個興趣關(guān)鍵詞,選取典型個體用戶進行網(wǎng)頁瀏覽記錄的統(tǒng)計分析.對于上述18個關(guān)鍵詞,本文選取了8位典型用戶的網(wǎng)頁瀏覽記錄加以分析,為表述方便,分別用英文字母A,B,…,H表示.統(tǒng)計出的用戶訪問量變化規(guī)律如圖1~8所示.

        圖2 用戶B的網(wǎng)頁瀏覽記錄(教育)Fig.2 Web browser log of the user B (education)

        圖3 用戶C的網(wǎng)頁瀏覽記錄(新聞門戶)Fig.3 Web browser log of the user C (news portal)

        圖4 用戶D的網(wǎng)頁瀏覽記錄(論壇博客)Fig.4 Web browser log of the user D (forum biog)

        圖5 用戶E的網(wǎng)頁瀏覽記錄(交友聊天)Fig.5 Web browser log of the user E (online chatting)

        圖6 用戶F的網(wǎng)頁瀏覽記錄(娛樂)Fig.6 Web browser log of the user F (entertainment)

        圖7 用戶G的網(wǎng)頁瀏覽記錄(網(wǎng)上購物)Fig.7 Web browser log of the user G (online shopping)

        圖8 用戶H的網(wǎng)頁瀏覽記錄 (生活相關(guān))Fig.8 Web browser log of the user H (life-related)

        這8幅圖顯示的是典型用戶在14d時間內(nèi)的訪問量曲線圖,以天為單位,分別以上述18類興趣關(guān)鍵詞作為統(tǒng)計對象,統(tǒng)計出用戶對這些興趣關(guān)鍵詞的訪問量.從圖中可以看出,每個典型用戶都有自己特有的興趣傾向面,訪問曲線也呈現(xiàn)出形態(tài)各異的波動性.如從用戶A的瀏覽記錄里發(fā)現(xiàn)該用戶更多的是使用搜索引擎網(wǎng)站,常用的有百度、谷歌等熱門搜索引擎網(wǎng)站;用戶B和D表現(xiàn)出對某一個興趣關(guān)鍵詞有極大興趣,而對其它興趣類則很少瀏覽的特點.因此,在個性化推薦系統(tǒng)中,像此類興趣單一型的用戶,可以從群體用戶中顯著地分離開來.另外,可設(shè)置個性化信息推送系統(tǒng),迎合該類特定用戶的興趣,有針對性地推薦信息,一定會達到事半功倍的效果.用戶C,E,F(xiàn),G和H則都表現(xiàn)出對某幾類興趣關(guān)鍵詞的較高關(guān)注.具體來說,用戶C關(guān)注新聞,用戶E喜歡交友聊天,用戶F更多的是瀏覽娛樂信息,用戶G在上網(wǎng)時,傾向于瀏覽與網(wǎng)絡(luò)購物相關(guān)的信息,用戶H喜歡與生活相關(guān)的內(nèi)容.這些性格多樣、興趣廣泛的用戶在群體用戶中占有相當大的比重,可以對該類用戶作多樣性信息推薦.曲線圖的優(yōu)勢在于直觀,易分析出典型用戶的最大興趣關(guān)注領(lǐng)域,但對于其它興趣關(guān)鍵詞之間的區(qū)別如何、它們之間又有什么聯(lián)系,無法從圖中直接得知.為此,用戶興趣度的量化就顯得十分必要,這也是本文興趣度模型的重點所在.

        3 典型用戶的興趣度計算

        針對典型個體用戶的網(wǎng)頁瀏覽記錄,運用興趣度計算公式分別進行歸一化處理,具體結(jié)果如表1所示.

        表1 典型個體用戶的興趣度Tab.1 Degree of typical individual user’s interest

        有了歸一化的度量結(jié)果后,就可以比較清晰地看出每一個用戶的興趣關(guān)鍵詞之間的區(qū)別和聯(lián)系.如用戶A對搜索引擎的興趣度是1.000,充分說明了該用戶對搜索引擎網(wǎng)站的興趣度是最高的,對教育類信息的興趣度是0.021,而對游戲類信息的興趣度是0.100,新聞類和軍事類信息的興趣度都是大于0.100.由此可以推斷,用戶A不僅傾向于用搜索引擎網(wǎng)站,還對新聞類和軍事類信息相當關(guān)注,并且關(guān)注程度是高于游戲類信息的.不妨大膽預測,這是一位朝氣蓬勃,喜歡軍事的年輕男性.綜合所選取的8位典型用戶,也只有該用戶表現(xiàn)出對軍事信息最高的興趣,非常具有代表意義.若是在個性化推薦系統(tǒng)中,這樣的用戶就可以作為典型的用戶類型,個性化地為其推送軍事相關(guān)的信息.用戶B則是非常個性化的典型個體用戶,在他的網(wǎng)頁瀏覽記錄中,幾乎全部瀏覽的是教育類信息,可見其對教育領(lǐng)域的關(guān)注程度是非常高的,甚至可以大膽推測,該用戶極有可能是一位教師,非常關(guān)注國家的教育事業(yè).用戶C瀏覽新聞信息的興趣度為1.000,并且瀏覽教育信息的興趣度是0.664,除了這兩類興趣關(guān)鍵詞外,甚少瀏覽其它興趣關(guān)鍵詞的信息,說明了該用戶是不僅關(guān)注新聞,尤其是關(guān)注教育領(lǐng)域新聞的人,他的興趣傾向也會更多地偏向于教育領(lǐng)域.從用戶聚類分析的角度,用戶B和C可以說是歸于一類.用戶D瀏覽論壇博客新聞興趣度為1.000,其它興趣關(guān)鍵詞為0.000,充分展現(xiàn)了這是一個喜歡交友,喜歡網(wǎng)絡(luò)聊天的用戶,可以想見,他對交友類信息會比他人更為敏感和關(guān)注.用戶E則是一個興趣較為廣泛的人,表現(xiàn)出喜歡看新聞、聽音樂、交友聊天和網(wǎng)上購物,而且興趣度相差不大.對于其他用戶,也可以通過類似的比較方法,發(fā)現(xiàn)不同用戶的不同興趣傾向,以及進行相互之間的縱向比較.

        可以展望,用上述興趣度計算方法,可以很好地定位互聯(lián)網(wǎng)中成千上萬用戶的興趣傾向及興趣度,對網(wǎng)站的設(shè)計和建立個性化推薦系統(tǒng)有一定的參考意義.

        4 結(jié)束語

        從實證角度利用興趣聚類方法對網(wǎng)頁瀏覽日志中群體用戶的興趣進行挖掘,分析提取出群體用戶的18類興趣關(guān)鍵詞,并運用統(tǒng)計學方法,對8位典型用戶的網(wǎng)頁瀏覽記錄進行分析,統(tǒng)計各自的興趣關(guān)鍵詞訪問量.然后根據(jù)興趣度的計算公式,給出了用戶興趣的度量方法,得到了理論模型和實證結(jié)果.文章提供了一個尋找用戶興趣傾向、度量用戶興趣度的方法,從而為人類動力學研究提供了一個切實可行的思路,并且對個性化推薦系統(tǒng)的研究也具有較好的指導意義.

        [1]Barabasi A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.

        [2]Vazqueza A.Exact results for the Barabasi model of human dynamics[J].Physical Review Letters,2005,95(24):248710.

        [3]羅芳,楊建梅,李志宏.QQ群消息中的人類動力學研究[J].華南理工大學學報,2011,13(4):14-19.

        [4]汪秉宏,周濤,周昌松.人類行為,復雜網(wǎng)絡(luò)及信息挖掘的統(tǒng)計物理研究[J].上海理工大學學報,2012,34(2):103-117.

        [5]趙銀春,付關(guān)友,朱征宇.基于 Web瀏覽內(nèi)容和行為相結(jié)合的用戶興趣挖掘[J].計算機工程,2005,31(12):93-94.

        [6]Han J W,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.

        [7]呂佳.基于興趣度的web用戶訪問模式分析[J].計算機工程與設(shè)計,2007,28(10):2403-2407.

        [8]郭巖.網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用[D].北京:中國科學院計算技術(shù)研究所,2004.

        [9]王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度建模[J].計算機工程與應用,2012,48(8):148-151.

        [10]蔣翀,費洪曉.基于線性衰減的用戶興趣建模[J].計算機系統(tǒng)應用,2010,19(6):140-143.

        [11]單蓉.用戶興趣模型的更新與遺忘機制研究[J].微型電腦應用,2011,27(7):10-11.

        猜你喜歡
        訪問量網(wǎng)頁頁面
        大狗熊在睡覺
        刷新生活的頁面
        基于CSS的網(wǎng)頁導航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        高職院校圖書館電子資源中數(shù)據(jù)庫的使用情況分析
        卷宗(2016年12期)2017-04-19 20:57:30
        如何做好搜索引擎優(yōu)化(SEO)提高新聞網(wǎng)站訪問量
        活力(2016年9期)2016-08-01 22:41:45
        一所大學有40人被確診為抑郁癥
        健康管理(2016年7期)2016-05-14 11:38:41
        網(wǎng)頁制作在英語教學中的應用
        電子測試(2015年18期)2016-01-14 01:22:58
        10個必知的網(wǎng)頁設(shè)計術(shù)語
        同一Word文檔 縱橫頁面并存
        大伊香蕉在线精品视频75| 亚洲一区二区三区蜜桃| 国模冰莲自慰肥美胞极品人体图| 精品人妻人人做人人爽| 无码人妻AⅤ一区 二区 三区| 日本女优中文字幕四季视频网站| 国产午夜视频一区二区三区 | 亚洲av成熟国产精品一区二区| 97se色综合一区二区二区| 人人爽人人爱| 国产一级在线现免费观看| 人妻中文字幕一区二区三区| 在线观看av网站永久| 乌克兰粉嫩xxx极品hd| av无码精品一区二区乱子| 国产成av人在线观看| 99精品视频69v精品视频| 亚洲∧v久久久无码精品| av无码一区二区三| 国产精品亚洲综合久久系列| 性色欲情网站| 亚洲人成网站77777在线观看| 亚洲啪啪AⅤ一区二区三区| av免费一区二区久久| 国产色在线 | 日韩| 国内精品一区二区三区| 91精品人妻一区二区三区蜜臀 | 初尝人妻少妇中文字幕在线| 三级国产精品久久久99| 亚洲精品乱码久久久久久日本蜜臀| 成黄色片视频日本秘书丝袜| 国产精品一区又黄又粗又猛又爽| 夜夜高潮夜夜爽夜夜爱爱一区| 国产三级在线观看播放视频| 男女高潮免费观看无遮挡| 精品日本一区二区三区| 亚洲中文字幕在线第二页| 国产女高清在线看免费观看| 白色月光免费观看完整版| 欧美不卡一区二区三区| 久久无码人妻一区二区三区午夜|