張志強
(西安外事學院 陜西 西安 710077)
基于數(shù)據(jù)挖掘的網(wǎng)絡用戶興趣分類研究
張志強
(西安外事學院 陜西 西安 710077)
在移動互聯(lián)網(wǎng)發(fā)展快速的今天,數(shù)據(jù)是最寶貴的資源之一,如何利用海量數(shù)據(jù)完成特定應用。本文基于數(shù)據(jù)挖掘技術實現(xiàn)網(wǎng)絡用戶興趣分類為用戶提供特定服務,設定合理的用戶興趣模型確保個性化服務優(yōu)劣的核心。提出一種基于HITS算法通過用戶訪問量實現(xiàn)興趣分類的策略,通過網(wǎng)絡數(shù)據(jù)采集、模型分析完成對興趣數(shù)據(jù)的處理,得出了HITS在用戶興趣分類方面有較大的優(yōu)勢。
移動互聯(lián)網(wǎng);海量數(shù)據(jù);數(shù)據(jù)挖掘;興趣分類
數(shù)據(jù)挖掘的基礎技術研究已經進展了將近十年,各類基于數(shù)據(jù)挖掘的應用服務已經得到了廣泛的推廣。對于互聯(lián)網(wǎng)的使用,如何實現(xiàn)面向用戶群的特定服務推廣是學者專家以及各類互聯(lián)網(wǎng)公司研究的熱點問題,本文提出了一種面向用戶興趣分類的移動互聯(lián)網(wǎng)數(shù)據(jù)分類算法。
數(shù)據(jù)挖掘技術的發(fā)展推進了移動互聯(lián)網(wǎng)應用的廣泛推廣,根據(jù) CNNIC (China Internet Network Information Center)公布的統(tǒng)計結果表明,截止到2015年12月,中國網(wǎng)民規(guī)模達到6.88億,手機用戶也達到了1.27億,如何提升用戶上網(wǎng)感知度是當前互聯(lián)網(wǎng)研究的熱點問題。
網(wǎng)絡用戶興趣分類是指根據(jù)互聯(lián)網(wǎng)用戶的訪問點擊量來實現(xiàn)自動分類推薦功能,常見有通過統(tǒng)計關鍵詞、點擊鏈接等方式來統(tǒng)計用戶的興趣熱點,比如用戶輸入關鍵詞“蘋果”,有些用戶關注水果“蘋果”方面的知識,有些用戶關注“IPhone”等系列電子產品的知識,通過這種方式形成個性化服務。利用數(shù)據(jù)挖掘技術完成個性化服務的研究[5]。
當前對于興趣分類研究,國內外學者已經做了大量的研究工作,Cantador I[1]等人提出了一種從個人配置的語義信息文件中獲取用戶興趣的方法。主要策略是對用戶共享的這些語義信息文件進行聚類,得到若干類簇,并根據(jù)聚類結果,建立多層結果的興趣模型。Kramar T[2]等人提出了一種基于元數(shù)據(jù)的用戶興趣模型,其中元數(shù)據(jù)是由從用戶訪問的每個頁面提取的關鍵字,術語和標記等詞組與擴展的詞組合而成的序列。當用戶使用短語進行搜索時,可以根據(jù)這種擴展的詞組能準確的獲取用戶所需要的信息。Liu Z,Chen X[3]等人針對微博用戶發(fā)表的信息的嘈雜性和詞語的多樣性,提出一種將基于轉化的方法和基于頻次的方法相結合的關鍵詞提取方法來挖掘用戶的興趣。
文中提出一種利用數(shù)據(jù)挖掘技術實現(xiàn)網(wǎng)絡用戶興趣分類的應用模型,首先介紹了經典的HITS模型理論,從數(shù)據(jù)采集、理論分析等方面介紹模型的具體實現(xiàn)過程,并通過實驗分析了模型的性能特性。
在互聯(lián)網(wǎng)搜索領域中,HITS(Hypertext Induced Topic Search)算法是一種重要的基于權重排序的互聯(lián)網(wǎng)數(shù)據(jù)搜索算法,HITS算法的核心是利用網(wǎng)頁設計中兩個通用的值:hub值與authority值,所謂hub值是由頁面所指向的所有網(wǎng)頁的authority值構成;而authority值由指向該頁面的所有網(wǎng)頁hub值構成。在互聯(lián)網(wǎng)應用中,通常采用較高權值的網(wǎng)頁更加傾向與其它相關網(wǎng)頁進行連接,換句話說,多個權值高的網(wǎng)頁若指向同一個未知網(wǎng)頁,那么該網(wǎng)頁具備更高權值的可能性會很大[5-7]。
HITS的邏輯實現(xiàn)過程如下公式如下所示,描述過程如下:假設在實際網(wǎng)絡中節(jié)點i在時刻t時的authority值由所有指向i節(jié)點在t-1時刻的hub值累加構成,如公式(1)所示,而公式(2)中表示節(jié)點i在時刻t的hub值由節(jié)點i所指向的所有節(jié)點的t-1時刻的authority值累加構成,而公式(3)和公式(4)是權值計算的迭代過程,經過 n次迭代后實現(xiàn)authority值和hub值的歸一化,直到排序結果趨于穩(wěn)定后停止迭代。
文中針對HITS模型在實際互聯(lián)網(wǎng)應用中存在的問題進行改進,傳統(tǒng)的HITS模型通常在網(wǎng)頁訪問中將hub中每一個指向的鏈接都將指定一個權重高的值,假若頁面中僅有1條鏈接,那么hub值會被傳遞給連接頁面的authority值,但如果一個頁面存在大量的連接時,將會有大量的hub值被傳遞給頁面的authority值,這顯然是不符合實際應用情況的。為此本文對公式(2)提出進行了修改,如公式(5)所示,在模型中增加了網(wǎng)絡流的方向性,Oi,out表示用戶i的出度。
2.1 數(shù)據(jù)采集
數(shù)據(jù)采集主要完成模型數(shù)據(jù)的采集工作,通過對互聯(lián)網(wǎng)上所關注用戶-數(shù)據(jù)的抓取,利用文獻[4]中所提的HTML頁面數(shù)據(jù)收集算法,通過wireshark網(wǎng)絡工具采集具體的數(shù)據(jù)信息。采集結果如表1所示。
表1 數(shù)據(jù)采集結果
通過將用戶瀏覽的html頁面內容表示成文本的特征向量形式,作為數(shù)據(jù)預處理的過程,便于后續(xù)模型的使用。
2.2 模型實現(xiàn)
文中通過Hadoop框架進行模型的實現(xiàn)設計,通過IE瀏覽器實現(xiàn)搜索引擎的連接,在Hadoop的編程框架中利用MapReduce函數(shù)匹配搜索引擎并進行分析處理[6]。在Map階段對數(shù)據(jù)進行預處理,去除字段不完整的記錄,按照設定的規(guī)則拆分相應字段,用于匹配各個搜索引擎的Host字段,然后根據(jù)各個搜索引擎的特點,進行相應的解碼[10]。采取這種處理模式,實現(xiàn)了對多個搜索引擎(也可認為是多業(yè)務輸出的目的)的處理,偽代碼如下:
2.3 實驗驗證
在本節(jié)中,我們評估使用相應的測試集本文提出的分類器的性能。該實驗基于SVM根據(jù)該信息在個人網(wǎng)站發(fā)布的用戶的消費意愿進行分類。本章中所使用的所有數(shù)據(jù)均來自Amazon.com。
在亞馬遜的網(wǎng)站有10個大類和60多萬的采購數(shù)據(jù),這些數(shù)據(jù)從數(shù)字設備選定表1所示。從所有的采購數(shù)據(jù),2 000條記錄,隨機拿起本實驗中使用amazon.com的數(shù)據(jù)類別。我們刪除了這些短信息,最后剩下的是第1 898個標記后,我們獲得了990個消費意圖的信息和908個沒有信息消費的意圖[11-15]。
通過獲人工標注的方法得測試數(shù)據(jù),我們從個人網(wǎng)站隨機抽取的發(fā)布信息的記錄。然后手動注明這些記錄是否與消費興趣相關,依照本文提出的分類算法得出如表3所示的分類結果。
表2 測試數(shù)據(jù)
表3 改進的HITS分類性能
通過該測試結果顯示在本文提出HITS算法在網(wǎng)絡用戶興趣分類上有明顯的應用效果。
文中利用數(shù)據(jù)挖掘的思想設計實現(xiàn)了用于解決互聯(lián)網(wǎng)用戶興趣分類的研究,利用經典的HITS算法的迭代思想,對算法進行部分改進實現(xiàn),并且按照數(shù)據(jù)采集、模型實現(xiàn),采用Hadoop的挖掘框架完成整個模型的設計,實驗證明模型的性能的優(yōu)勢。
[1]Cantador I,Castells R.Extracting multilayered communities of Interest from semantic user profiles:Application to group modeling and hybrid recommendations[J].Computers in Human Behavior,201l,27(4):1321-1336.
[2]Kramar T,Barla M,Bielikovi M.Personalizing search using socially enhanced interest model builtfrom the stream of User’S activity[J].J.Web Eng.,2013,12(1&2):65-92.
[3]Liu Z,Chen X,Sun M.Mining the interests of Chinese microbloggers via keyword extraction[J],F(xiàn)rontiers of Computer Science,2012,6(1):76-87.
[4]梅佩.基于瀏覽內容的用戶興趣研究[M].北京:北京交通大學,2015.
[5]陳如明.大數(shù)據(jù)時代的挑戰(zhàn),價值與應對策略[J].移動通信,2012(17):14-15.
[6]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述 [J].計算機工程與科學,2013,35(10):25-35.
[7]Liu C, Zhou W X.Heterogeneity in initial resource configurationsimproves a networkbasedhybrid recommendation algorithm[J].Physica A:Statistical Mechanics and itsApplications,2012,391(22):5704-5711.
[8]Nacher J C,Akutsu T.On the degree distribution of projected networks mapped frombipartite networks[J].Physica A:Statistical Mechanics and its Applications,2011,390(23):4636-4651.
[9]Pieter N,Michiel H.Mining twitter in the Cloud: A Case Study [C]//CLOUD 2010,Miami,F(xiàn)L,United states, IEEE Computer Society, 2010: 107-114.
[10]Abraham R,Martinez T.Twitter:Network properties analysis[C]//CONIELECOMP 2010,Cholula Puebla,Mexico,IEEE Computer Society,2010:180-184.
[11]余肖生,孫珊.基于網(wǎng)絡用戶信息行為的個性化推薦模型 [J].重慶理工大學學報自然科學版,2013,27(1):47-50.
[12]Garcia L M.Programming with Libpcap Sniffing the Network From OurOwn Application[J]. Hakin9-ComputerSecurityMagazine,2008:2-2008.
[13]XurenW,F(xiàn)amei H,An implement of broadband network monitoring system based on libnidsand winpcap [C]//New Trendsin Information and Service Science,2009-NISS!09.International Conference on.IEEE,2009:812-814.
Research on data mining classification based on user interest
ZHANG Zhi-qiang
(Xi'an International University,Xi'an 710077,China)
In today's rapid development of mobile Internet,data is the most precious resources,how to use the vast amounts of data to complete a specific application.Thispaperproposedthatthedata mining technology network user interest classification is to provide users with a particular service,andset a reasonable user interest model is to ensure that the core of personalized service merits.Also presenting a user views HITS algorithm to achieve the classification of interest policy,through the network data collection,analysis model to complete the processing of the data of interest,and by examples demonstrate obtain the advantages of the policy.
mobile Internet;vast amounts of data;data mining;classification of Interest
TN929.5
A
1674-6236(2017)10-0034-04
2016-07-18稿件編號:201607130
教育部信息管理中心項目(EIJYB2015053);西安市專項基金項目(16IN08)
張志強(1978—),男,河南許昌人,碩士,講師。研究方向:數(shù)據(jù)挖掘、云計算、計算機網(wǎng)絡。