許國迎, 張 寧
(上海理工大學 管理學院,上海 200093)
當今時代,網(wǎng)絡(luò)的發(fā)展日益成為人們生活的重要組成部分.隨之而來的,網(wǎng)絡(luò)中的巨大數(shù)據(jù)資源亦得到了廣大學者越來越多的重視.因此,許多學者致力于數(shù)據(jù)挖掘技術(shù)與人類動力學研究的結(jié)合,并應用于實踐當中.
學者Barabasi曾在《Nature》上提出了一個基于決策的優(yōu)先權(quán)模型[1],自此開啟了人類動力學方面的熱烈討論.隨后,Vazquez又得到了對該模型的精確解[2],這些模型都是從排隊論的任務(wù)模型角度來研究人類動力學的.其實,生活中的人類行為紛繁復雜,何止是完成任務(wù)這類行為.比如說興趣愛好往往也是人類的一種重要行為去向,有學者就結(jié)合QQ群的聊天記錄[3],對單個用戶和群里所有用戶發(fā)言的時間間隔進行了研究,證明了群體間這種網(wǎng)絡(luò)即時溝通行為具有人類動力學特征.更有文獻從人類行為、復雜網(wǎng)絡(luò)和信息挖掘的角度給后續(xù)的研究和學習提供了不可多得的重要資料[4].
現(xiàn)階段,個性化推薦已經(jīng)成為了熱門的研究方向,特別體現(xiàn)在網(wǎng)絡(luò)購物中,各商家都希望能夠獲取用戶最真實的興趣所在,并為之進行準確合適的個性化信息推薦.這些問題都需要深入挖掘用戶興趣,也蘊含了巨大的商業(yè)價值.由此,不難看出,如何得到用戶的興趣取向以及興趣的度量方式成為了至關(guān)重要的課題.
當前挖掘用戶興趣行為的方式有兩種,一種是單純從用戶行為的歷史信息中發(fā)現(xiàn)其中所隱藏的規(guī)律,另一種是基于瀏覽內(nèi)容和行為相結(jié)合的方式[5]來研究用戶的興趣行為.事實上單純從一個方面來分析用戶的興趣是不夠的,應該從各個角度,不同層面來建立用戶的興趣簇.因此本文根據(jù)用戶的網(wǎng)頁瀏覽記錄,利用文本分類技術(shù)提取出若干興趣關(guān)鍵詞,并進行分類統(tǒng)計分析.在得到用戶訪問量的基礎(chǔ)上,運用歸一化的方法,實現(xiàn)用戶興趣的度量和相互比較的目標.
聚類分析就是將一組對象集合按照相似性分成若干類別,目的是使得同一類別的對象之間的相似度最大,而不同類別的對象間相似度最小.聚類的思想源于很多學科,如數(shù)學、計算機科學、生物學、統(tǒng)計學和經(jīng)濟學等.在不同的領(lǐng)域里,這種技術(shù)都被用于描述數(shù)據(jù)、衡量數(shù)據(jù)源之間的相似性,并把數(shù)據(jù)源分類到不同的簇中.特別是在商業(yè)領(lǐng)域,經(jīng)常會通過聚類分析來發(fā)現(xiàn)不同類型的客戶群,進而刻畫不同客戶群的特征,從而可以更好地幫助商家了解自己的客戶,向客戶提供更好的服務(wù).聚類分析的算法[6]主要包括層次聚類法、基于密度的方法、平面劃分方法、基于網(wǎng)格的方法和基于模型的方法.
層次聚類算法,又稱系統(tǒng)聚類法,是被廣泛應用的算法之一.雖然復雜度較高,不適合大數(shù)據(jù)的計算,但操作步驟簡單方便.本文利用層次聚類的方法,深入分析群體用戶的網(wǎng)頁瀏覽記錄,并從中得到相關(guān)的用戶興趣類.
在得到用戶興趣簇之后,綜合利用文本分類技術(shù)提取出用戶的興趣關(guān)鍵詞.首先對用戶瀏覽過的頁面進行內(nèi)容分析,并根據(jù)主題信息對頁面再進行聚類分析.在聚類的過程中除了考慮頁面內(nèi)容的相近程度外,還輔以頁面路徑進行歸類判斷,從而得到網(wǎng)頁頁面的興趣簇.最后,本文為了較為準確地反映用戶的真實興趣,將用戶的上網(wǎng)行為分為18類:搜索引擎、教育、新聞門戶、論壇博客、交友聊天、娛樂、網(wǎng)上購物、生活相關(guān)、游戲、體育、電影音樂、web郵件、文學、財經(jīng)、求職招聘、房產(chǎn)裝修、股票交易和軍事.鑒于所選對象為高校師生,因此這18類興趣關(guān)鍵詞可基本代表了這一特定群體的主流興趣取向.
興趣度,就是用來衡量人們對某事物的感興趣程度.個性化推薦系統(tǒng)對于這種抽象的概念,一般是通過模型的方法,先給出相應的興趣度定義,再加以數(shù)據(jù)的實證研究.目前主要有傳統(tǒng)的基于瀏覽內(nèi)容的興趣度模型[7-8]、基于用戶瀏覽行為的興趣度模型[9]和動態(tài)變化的用戶興趣模型,這3種模型各有所長,代表了研究水平的不斷深入和提高.
基于瀏覽內(nèi)容的用戶興趣模型一般是考慮用戶在某一興趣類中的訪問頻繁度,即興趣類頁面集的頁面總數(shù)或用戶會話總數(shù).如果某一興趣類的頁面總數(shù)最多,那么對該類興趣的傾向程度也就最高.然而,這種方法的不足之處是將用戶訪問的所有頁面等同地看待,沒有分出主次輕重.事實上,每張頁面所包含的信息并非總是單一,用戶對頁面中不同內(nèi)容的興趣程度也有所區(qū)別.
基于用戶瀏覽行為的模型主要是分析用戶的行為模式,并結(jié)合用戶的瀏覽內(nèi)容,挖掘用戶的興趣及給出相應的度量標準和計算方法.因為用戶的需求不同,從而用戶的各種瀏覽行為也就體現(xiàn)出不同的興趣傾向.一般來說,用戶瀏覽行為有頁面標記行為(包括增加書簽、刪除書簽、保持頁面和打印頁面行為)和頁面操作行為(包括復制、粘貼、剪切、拉動滾動條、點擊鏈接和移動鼠標行為).這種模型引入了用戶的瀏覽行為作為興趣度的變量,從而可以更準確地度量用戶的興趣度.
不難發(fā)現(xiàn),上述兩種興趣度模型都是假設(shè)用戶的興趣不變,但實際生活中用戶的興趣卻是動態(tài)變化的,既可以是逐漸增加,愈加感興趣,也可以是一時興起,繼而逐漸淡忘.因此,有學者提出了動態(tài)變化的用戶興趣度模型,如蔣翀等[10]建立基于線性衰減的用戶興趣度模型,單蓉[11]建立了基于遺忘機制的用戶興趣度模型,兩者分別選用不同的數(shù)學方法來分析和量化用戶動態(tài)變化的興趣.
本文中用戶興趣度是指用戶對某一興趣關(guān)鍵詞的感興趣程度,是對興趣的一個量化指標.綜合分析各種興趣度模型的優(yōu)缺點后,結(jié)合研究數(shù)據(jù)的特點,本文選擇歸一化的方法來度量用戶的興趣度.計算公式為
其中,Li表示用戶對第i個興趣關(guān)鍵詞的興趣度,xi指用戶對第i個興趣關(guān)鍵詞的訪問量,max(x1,x2,…,xn)表示訪問量的最大值,min(x1,x2,…,xn)為訪問量的最小值.
對每個興趣關(guān)鍵詞,選取典型個體用戶進行網(wǎng)頁瀏覽記錄的統(tǒng)計分析.對于上述18個關(guān)鍵詞,本文選取了8位典型用戶的網(wǎng)頁瀏覽記錄加以分析,為表述方便,分別用英文字母A,B,…,H表示.統(tǒng)計出的用戶訪問量變化規(guī)律如圖1~8所示.
圖2 用戶B的網(wǎng)頁瀏覽記錄(教育)Fig.2 Web browser log of the user B (education)
圖3 用戶C的網(wǎng)頁瀏覽記錄(新聞門戶)Fig.3 Web browser log of the user C (news portal)
圖4 用戶D的網(wǎng)頁瀏覽記錄(論壇博客)Fig.4 Web browser log of the user D (forum biog)
圖5 用戶E的網(wǎng)頁瀏覽記錄(交友聊天)Fig.5 Web browser log of the user E (online chatting)
圖6 用戶F的網(wǎng)頁瀏覽記錄(娛樂)Fig.6 Web browser log of the user F (entertainment)
圖7 用戶G的網(wǎng)頁瀏覽記錄(網(wǎng)上購物)Fig.7 Web browser log of the user G (online shopping)
圖8 用戶H的網(wǎng)頁瀏覽記錄 (生活相關(guān))Fig.8 Web browser log of the user H (life-related)
這8幅圖顯示的是典型用戶在14d時間內(nèi)的訪問量曲線圖,以天為單位,分別以上述18類興趣關(guān)鍵詞作為統(tǒng)計對象,統(tǒng)計出用戶對這些興趣關(guān)鍵詞的訪問量.從圖中可以看出,每個典型用戶都有自己特有的興趣傾向面,訪問曲線也呈現(xiàn)出形態(tài)各異的波動性.如從用戶A的瀏覽記錄里發(fā)現(xiàn)該用戶更多的是使用搜索引擎網(wǎng)站,常用的有百度、谷歌等熱門搜索引擎網(wǎng)站;用戶B和D表現(xiàn)出對某一個興趣關(guān)鍵詞有極大興趣,而對其它興趣類則很少瀏覽的特點.因此,在個性化推薦系統(tǒng)中,像此類興趣單一型的用戶,可以從群體用戶中顯著地分離開來.另外,可設(shè)置個性化信息推送系統(tǒng),迎合該類特定用戶的興趣,有針對性地推薦信息,一定會達到事半功倍的效果.用戶C,E,F(xiàn),G和H則都表現(xiàn)出對某幾類興趣關(guān)鍵詞的較高關(guān)注.具體來說,用戶C關(guān)注新聞,用戶E喜歡交友聊天,用戶F更多的是瀏覽娛樂信息,用戶G在上網(wǎng)時,傾向于瀏覽與網(wǎng)絡(luò)購物相關(guān)的信息,用戶H喜歡與生活相關(guān)的內(nèi)容.這些性格多樣、興趣廣泛的用戶在群體用戶中占有相當大的比重,可以對該類用戶作多樣性信息推薦.曲線圖的優(yōu)勢在于直觀,易分析出典型用戶的最大興趣關(guān)注領(lǐng)域,但對于其它興趣關(guān)鍵詞之間的區(qū)別如何、它們之間又有什么聯(lián)系,無法從圖中直接得知.為此,用戶興趣度的量化就顯得十分必要,這也是本文興趣度模型的重點所在.
針對典型個體用戶的網(wǎng)頁瀏覽記錄,運用興趣度計算公式分別進行歸一化處理,具體結(jié)果如表1所示.
表1 典型個體用戶的興趣度Tab.1 Degree of typical individual user’s interest
有了歸一化的度量結(jié)果后,就可以比較清晰地看出每一個用戶的興趣關(guān)鍵詞之間的區(qū)別和聯(lián)系.如用戶A對搜索引擎的興趣度是1.000,充分說明了該用戶對搜索引擎網(wǎng)站的興趣度是最高的,對教育類信息的興趣度是0.021,而對游戲類信息的興趣度是0.100,新聞類和軍事類信息的興趣度都是大于0.100.由此可以推斷,用戶A不僅傾向于用搜索引擎網(wǎng)站,還對新聞類和軍事類信息相當關(guān)注,并且關(guān)注程度是高于游戲類信息的.不妨大膽預測,這是一位朝氣蓬勃,喜歡軍事的年輕男性.綜合所選取的8位典型用戶,也只有該用戶表現(xiàn)出對軍事信息最高的興趣,非常具有代表意義.若是在個性化推薦系統(tǒng)中,這樣的用戶就可以作為典型的用戶類型,個性化地為其推送軍事相關(guān)的信息.用戶B則是非常個性化的典型個體用戶,在他的網(wǎng)頁瀏覽記錄中,幾乎全部瀏覽的是教育類信息,可見其對教育領(lǐng)域的關(guān)注程度是非常高的,甚至可以大膽推測,該用戶極有可能是一位教師,非常關(guān)注國家的教育事業(yè).用戶C瀏覽新聞信息的興趣度為1.000,并且瀏覽教育信息的興趣度是0.664,除了這兩類興趣關(guān)鍵詞外,甚少瀏覽其它興趣關(guān)鍵詞的信息,說明了該用戶是不僅關(guān)注新聞,尤其是關(guān)注教育領(lǐng)域新聞的人,他的興趣傾向也會更多地偏向于教育領(lǐng)域.從用戶聚類分析的角度,用戶B和C可以說是歸于一類.用戶D瀏覽論壇博客新聞興趣度為1.000,其它興趣關(guān)鍵詞為0.000,充分展現(xiàn)了這是一個喜歡交友,喜歡網(wǎng)絡(luò)聊天的用戶,可以想見,他對交友類信息會比他人更為敏感和關(guān)注.用戶E則是一個興趣較為廣泛的人,表現(xiàn)出喜歡看新聞、聽音樂、交友聊天和網(wǎng)上購物,而且興趣度相差不大.對于其他用戶,也可以通過類似的比較方法,發(fā)現(xiàn)不同用戶的不同興趣傾向,以及進行相互之間的縱向比較.
可以展望,用上述興趣度計算方法,可以很好地定位互聯(lián)網(wǎng)中成千上萬用戶的興趣傾向及興趣度,對網(wǎng)站的設(shè)計和建立個性化推薦系統(tǒng)有一定的參考意義.
從實證角度利用興趣聚類方法對網(wǎng)頁瀏覽日志中群體用戶的興趣進行挖掘,分析提取出群體用戶的18類興趣關(guān)鍵詞,并運用統(tǒng)計學方法,對8位典型用戶的網(wǎng)頁瀏覽記錄進行分析,統(tǒng)計各自的興趣關(guān)鍵詞訪問量.然后根據(jù)興趣度的計算公式,給出了用戶興趣的度量方法,得到了理論模型和實證結(jié)果.文章提供了一個尋找用戶興趣傾向、度量用戶興趣度的方法,從而為人類動力學研究提供了一個切實可行的思路,并且對個性化推薦系統(tǒng)的研究也具有較好的指導意義.
[1]Barabasi A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.
[2]Vazqueza A.Exact results for the Barabasi model of human dynamics[J].Physical Review Letters,2005,95(24):248710.
[3]羅芳,楊建梅,李志宏.QQ群消息中的人類動力學研究[J].華南理工大學學報,2011,13(4):14-19.
[4]汪秉宏,周濤,周昌松.人類行為,復雜網(wǎng)絡(luò)及信息挖掘的統(tǒng)計物理研究[J].上海理工大學學報,2012,34(2):103-117.
[5]趙銀春,付關(guān)友,朱征宇.基于 Web瀏覽內(nèi)容和行為相結(jié)合的用戶興趣挖掘[J].計算機工程,2005,31(12):93-94.
[6]Han J W,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
[7]呂佳.基于興趣度的web用戶訪問模式分析[J].計算機工程與設(shè)計,2007,28(10):2403-2407.
[8]郭巖.網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用[D].北京:中國科學院計算技術(shù)研究所,2004.
[9]王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度建模[J].計算機工程與應用,2012,48(8):148-151.
[10]蔣翀,費洪曉.基于線性衰減的用戶興趣建模[J].計算機系統(tǒng)應用,2010,19(6):140-143.
[11]單蓉.用戶興趣模型的更新與遺忘機制研究[J].微型電腦應用,2011,27(7):10-11.