李春英, 湯 庸, 賀超波, 湯志康, 黃泳航
(1. 華南師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510631; 2. 廣東技術(shù)師范學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)中心, 廣州 510665;3. 仲愷農(nóng)業(yè)工程學(xué)院信息科學(xué)與技術(shù)學(xué)院, 廣州 510225; 4. 廣東技術(shù)師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510665)
?
在線社交網(wǎng)絡(luò)用戶分析研究綜述
李春英1,2, 湯 庸1*, 賀超波3, 湯志康4, 黃泳航1
(1. 華南師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510631; 2. 廣東技術(shù)師范學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)中心, 廣州 510665;3. 仲愷農(nóng)業(yè)工程學(xué)院信息科學(xué)與技術(shù)學(xué)院, 廣州 510225; 4. 廣東技術(shù)師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510665)
在對國內(nèi)外在線社交網(wǎng)絡(luò)用戶分析相關(guān)研究歸納總結(jié)的基礎(chǔ)上,綜述了在線社交網(wǎng)絡(luò)用戶分析的最新進(jìn)展,主要包括通過用戶影響力和用戶偏好進(jìn)行用戶行為分析、采用隱式和顯式的分類方法對用戶屬性預(yù)測算法進(jìn)行綜述,簡述了基于用戶屬性特征或(和)用戶關(guān)系拓?fù)浣Y(jié)構(gòu)的用戶分類研究進(jìn)展,并分析了動態(tài)社交網(wǎng)絡(luò)、并行算法及社交用戶語義信息給在線社交網(wǎng)絡(luò)用戶分析所帶來的機(jī)遇和挑戰(zhàn),對該研究方向上的發(fā)展趨勢進(jìn)行了展望.
在線社交網(wǎng)絡(luò); 行為分析; 影響力分析; 偏好分析; 屬性預(yù)測; 用戶分類
隨著網(wǎng)絡(luò)技術(shù)和智能終端的快速發(fā)展,在線社交網(wǎng)絡(luò)(Online Social Network,OSN)已成為人們?nèi)粘1夭豢缮俚墓ぞ咧唬?截至2014年12月一些日常通用的主流社交網(wǎng)絡(luò)(包括Facebook、Twitter、QQ、QQ空間、微信、Wechat、Amazon及新浪微博等)月活躍用戶之和已經(jīng)達(dá)到40億人次,超過了目前世界總?cè)丝诘囊话耄?另外,一些垂直社交網(wǎng)絡(luò)(如用于旅游、飲食、購物、醫(yī)療、農(nóng)業(yè)和學(xué)術(shù)研究等)通過提供優(yōu)質(zhì)便捷的專業(yè)服務(wù)也吸引了眾多用戶. 實(shí)際上,OSN平臺在跨越時空限制、便捷共享信息、交友、娛樂、購物和商務(wù)合作的同時,產(chǎn)生了各種各樣的海量數(shù)據(jù). 這些迅速增長的海量社交信息為社會發(fā)展和經(jīng)濟(jì)建設(shè)提供了寶貴的資源. 因此,近些年OSN受到計(jì)算機(jī)科學(xué)、物理學(xué)、數(shù)學(xué)、生物學(xué)、管理學(xué)、心理學(xué)、社會學(xué)以及復(fù)雜性系統(tǒng)科學(xué)等多學(xué)科的廣泛關(guān)注,成為科學(xué)研究者們關(guān)注的熱點(diǎn)問題.
在線社交網(wǎng)絡(luò)服務(wù)是典型的以人為中心的計(jì)算(Human Centered Computing,HCC),用戶是在線社交網(wǎng)絡(luò)的主體[1]. 在線社交網(wǎng)絡(luò)以用戶相互建立關(guān)系為基礎(chǔ),以實(shí)名或者非實(shí)名的方式自主構(gòu)建社交關(guān)系網(wǎng)絡(luò)服務(wù). 在線社交網(wǎng)絡(luò)在為用戶提供便利的同時,也帶來了用戶隱私數(shù)據(jù)泄露的問題. 為了防止隱私數(shù)據(jù)泄露,一些社交用戶隱藏了自己的個人信息. 研究表明,社交網(wǎng)絡(luò)50%左右的用戶選擇了隱藏他們的用戶信息,近70%的用戶選擇了隱藏他們的興趣愛好[2]. 盡管社交網(wǎng)絡(luò)用戶隱藏了部分信息,但通過他們在線創(chuàng)建的內(nèi)容、群體互動及信息傳播等,仍可以挖掘用戶隱藏的信息,并進(jìn)一步跟蹤用戶的動向,對維護(hù)國家信息安全、社會穩(wěn)定、經(jīng)濟(jì)發(fā)展以及改善人們的日常工作和生活等均具有積極作用. 例如,SANDRA等[3]基于在線社交網(wǎng)絡(luò)大數(shù)據(jù)研究了網(wǎng)絡(luò)抗議招募的動態(tài)變化規(guī)律,并揭示其對政治走向的影響. TUMASJAN等[4]使用文本分析軟件LIWC(Linguistic Inquiry and Word Count)對Twitter上任何一個政黨或者政客的參考信息進(jìn)行分析,結(jié)果表明Twitter確實(shí)廣泛用于政治協(xié)商,從一個政黨少數(shù)的消息上便可以預(yù)測選舉結(jié)果. 因此,分析在線社交網(wǎng)絡(luò)用戶數(shù)據(jù),能夠準(zhǔn)確把握用戶在社交網(wǎng)絡(luò)上的行為規(guī)律和發(fā)展動態(tài),有助于對網(wǎng)絡(luò)事件進(jìn)行分析、引導(dǎo)、監(jiān)控和為OSN用戶提供精確的個性化服務(wù),對規(guī)范社交網(wǎng)絡(luò)的管理和服務(wù),保障國家政治、經(jīng)濟(jì)和社會安全具有重要的理論研究意義和現(xiàn)實(shí)應(yīng)用價值.
社交網(wǎng)絡(luò)用戶分析是一個熱門研究領(lǐng)域,同時也是多學(xué)科交叉研究領(lǐng)域. 《Science》發(fā)表了多篇論文闡述社交網(wǎng)絡(luò)中用戶的互動行為及其相互影響關(guān)系、社交網(wǎng)絡(luò)的隱私行為特征和動機(jī)、社交網(wǎng)絡(luò)用戶行為預(yù)測等[5-7]. 在針對社交網(wǎng)絡(luò)用戶分析的研究中,代表性研究話題主要包括用戶行為分析、屬性預(yù)測及分類. 因此,本文將詳細(xì)闡述這3個角度的研究現(xiàn)狀,并指出目前該領(lǐng)域研究存在的問題和挑戰(zhàn).
楊善林等[8]從在線社交網(wǎng)絡(luò)的用戶采納與持續(xù)使用行為、用戶個體使用行為和用戶群體互動行為等3個方面對社交網(wǎng)絡(luò)用戶行為的影響因素、行為特征和一般行為規(guī)律等進(jìn)行了詳細(xì)的闡述,論述了用戶為什么使用社交網(wǎng)絡(luò)、如何使用社交網(wǎng)絡(luò)和用戶之間的互動機(jī)理等,指出了在線社交網(wǎng)絡(luò)用戶行為在用戶行為一致性、用戶間行為的相互影響、監(jiān)管政策與用戶行為間的相互作用等方面的研究機(jī)會. TANG等[9]研究OSN結(jié)構(gòu)的演化規(guī)律和信息傳播規(guī)律的理論基礎(chǔ),提出OSN用戶行為的跨學(xué)科、跨領(lǐng)域、跨機(jī)構(gòu)、跨組織的交叉研究是未來的研究模式. 實(shí)際上,社交網(wǎng)絡(luò)用戶(簡稱用戶)行為主導(dǎo)著社交網(wǎng)絡(luò)的發(fā)展和演變規(guī)律,分析用戶的行為與特征,能夠?qū)?fù)雜社交網(wǎng)絡(luò)的發(fā)展與演變進(jìn)行宏觀分析. 分析結(jié)果能夠進(jìn)一步有效挖掘深層次的社交關(guān)系和社交網(wǎng)絡(luò)的發(fā)展演變規(guī)律. 目前,用戶行為分析可以粗略地分為用戶影響力分析和用戶偏好分析,用戶影響力和用戶偏好在社交網(wǎng)絡(luò)演化、信息傳播及推薦系統(tǒng)中扮演著重要角色.
1.1 用戶影響力分析
在線社交網(wǎng)絡(luò)用戶影響力在虛擬網(wǎng)絡(luò)社區(qū)、網(wǎng)絡(luò)群體、信息傳播以及話題發(fā)展趨勢中發(fā)揮著巨大的作用,能夠激發(fā)輿論、推動話題迅速擴(kuò)散進(jìn)而導(dǎo)致社交網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展和演變以及對真實(shí)世界產(chǎn)生實(shí)質(zhì)性的影響. 近年來,研究人員對用戶影響力進(jìn)行了多方面的研究探索,并取得了豐富的研究成果:研究了用戶在社交網(wǎng)絡(luò)中的影響力,在130萬Facebook用戶數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明:年輕人比老年人更易受到影響,男人比女人更有影響力,女人在男人中的影響力比在女人中的影響力強(qiáng),已婚女士更易接受推薦的商品,有影響力的個人不易受到?jīng)]有影響力的個人的影響,有影響力的社交網(wǎng)絡(luò)用戶很可能是傳播網(wǎng)絡(luò)產(chǎn)品的工具,以及具有影響力的用戶更傾向于在彼此之間形成社交圈等[6];基于新浪微博大規(guī)模數(shù)據(jù)集,結(jié)合用戶社會影響力在微博中的傳播情況,分析用戶行為因素之間的關(guān)系,提出了通過預(yù)測用戶傳播信息能力大小來分析和度量用戶社會影響力的方法(該方法結(jié)合來自社交網(wǎng)絡(luò)結(jié)構(gòu)和用戶行為因素兩方面的信息進(jìn)行研究),實(shí)驗(yàn)結(jié)果表明用戶訪問微博的時間分布、微博對用戶來說的時效性以及用戶轉(zhuǎn)發(fā)微博的偏好等用戶行為相關(guān)的因素會影響用戶的轉(zhuǎn)發(fā)行為,進(jìn)而影響用戶在微博平臺上傳播信息的能力[10];基于社會影響理論探討了社會影響力的3個過程(順從、認(rèn)同和內(nèi)化)和社會影響類型(信息性影響和規(guī)范性影響),結(jié)果表明服務(wù)提供商對這3個因素的處理情況和用戶隱私保護(hù)問題對OSN用戶持續(xù)使用意愿有顯著的影響作用[11].
目前相關(guān)研究主要從用戶在整個社交網(wǎng)絡(luò)中的影響力和社交網(wǎng)絡(luò)中用戶間相互影響的能力2個方面來度量用戶的影響力,可以從3個方面進(jìn)行闡述:
(1)基于社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的度量. 主要采用節(jié)點(diǎn)度量法和節(jié)點(diǎn)間關(guān)系的度量法. 在節(jié)點(diǎn)度量法中,節(jié)點(diǎn)的度在一定程度上可以表示節(jié)點(diǎn)的影響力大小,它們的方向可以表示用戶影響力或者信息傳播的方向[12]. 節(jié)點(diǎn)的出度可以理解為該節(jié)點(diǎn)對他人的影響程度或節(jié)點(diǎn)的活躍度,節(jié)點(diǎn)的入度則可以表示節(jié)點(diǎn)的受歡迎程度[13].具體度量方法主要包括度中心度[14]、介數(shù)中心度[14]、緊密中心度[15]、特征向量中心度[16]、Katz中心度[17]、PageRank度量[18]及局部聚集系數(shù)度量方法[19]等. 節(jié)點(diǎn)間關(guān)系強(qiáng)弱的度量方法可以用Jaccard相似度[20]、邊介數(shù)[21]、Overlap相似度和Cosine相似度等計(jì)算連接關(guān)系上的影響力[22]. 總體來講,依靠網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對用戶影響力進(jìn)行度量的方法具有模型簡單、計(jì)算效率高和易于應(yīng)用等特點(diǎn),但其忽略了個體的行為特征信息及個體間交互的頻度情況,導(dǎo)致這種方法的度量結(jié)果準(zhǔn)確性不佳.
(2) 基于用戶行為的度量. 通過分析在線社交用戶的行為軌跡數(shù)據(jù)(包括瀏覽/發(fā)布/轉(zhuǎn)發(fā)信息、購買商品、話題評論和建立好友關(guān)系等),能夠評估用戶在社交網(wǎng)絡(luò)平臺上的影響力以及預(yù)測用戶可能產(chǎn)生的行為. XIANG等[23]在Facebook和LinkedIn數(shù)據(jù)集上利用用戶之間的交互信息和話題相似性,提出了潛在變分模型來評估用戶之間的影響強(qiáng)度. SAITO等[24]將用戶影響力模型轉(zhuǎn)化成一種最大似然問題,并且利用期望最大化[25](Expectation Maximization,EM)算法進(jìn)行求解[12]. YANG和LESKOVEC[26]基于影響力函數(shù)和信息的談?wù)摯螖?shù)建立了一種線性影響力模型LIM(Linear Influence Model)對用戶的影響力進(jìn)行度量. TAN等[27]綜合使用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、用戶特征和用戶行為數(shù)據(jù)預(yù)測當(dāng)前時刻的用戶行為. 雖然基于用戶行為的方法比基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)方法預(yù)測精度更好,但是由于一半以上的社交網(wǎng)絡(luò)用戶選擇了隱藏個人的用戶信息[2]以及基于商業(yè)上的原因很難獲取社交網(wǎng)絡(luò)用戶的全部數(shù)據(jù),導(dǎo)致這種模型的度量效果和精度受到影響.
(3)基于話題等的度量. 在社交活動中,大部分信息是以話題(Topic)的形式產(chǎn)生和傳播的. 話題作為社交網(wǎng)絡(luò)中信息存在的重要形式和傳播基礎(chǔ),使用話題能夠從多個角度對用戶的影響力進(jìn)行度量. 相關(guān)研究從話題內(nèi)容和用戶對話題的參與度構(gòu)建用戶和話題之間的關(guān)系. 這種模型無需使用社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)作為模型的輸入,解決了社交網(wǎng)絡(luò)中孤立用戶節(jié)點(diǎn)的影響力評價問題. 相關(guān)研究方法包括:TANG等[28]提出的話題因子圖TFG(Topical Factor Graph)模型;LIU等[29]將用戶和各種話題信息相結(jié)合進(jìn)行建模,并利用文本內(nèi)容的相似性挖掘用戶之間的隱性影響;WENG等[18]提出PageRank算法的擴(kuò)展算法TwitterRank,并基于用戶和鏈接結(jié)構(gòu)兩部分信息去評估Twitter用戶的影響力;TANG等[30]利用PageRank算法對網(wǎng)絡(luò)用戶進(jìn)行打分,并將分值最高的1%的用戶作為最具影響力的用戶.
隨著社交網(wǎng)絡(luò)的快速發(fā)展,社交用戶數(shù)量呈現(xiàn)快速增長的態(tài)勢,導(dǎo)致用戶之間形成的社交關(guān)系錯綜復(fù)雜、信息量非常龐大,加之涉及用戶隱私保護(hù)等問題,對社交用戶影響力進(jìn)行分析和評測會受到很多因素的影響和干擾. 實(shí)際上,對于真實(shí)社交網(wǎng)絡(luò)可以考慮采用兩階段選擇策略,即先利用基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的算法篩選符合條件的影響力用戶集合,在此基礎(chǔ)上再利用基于用戶行為數(shù)據(jù)或者基于話題等方法選取真正具有影響力的社交網(wǎng)絡(luò)用戶.
1.2 用戶偏好分析
用戶偏好分析可以從計(jì)算用戶與用戶之間、用戶與物品之間的相似性來考慮. 皮爾遜相關(guān)系數(shù)[31]、余弦相似度[32]、Jaccard系數(shù)[20]和斯皮爾曼排序相關(guān)系數(shù)[33]等方法可以用于計(jì)算用戶間的相似性并將最近鄰用戶的偏好作為目標(biāo)用戶的行為預(yù)測結(jié)果. 通過在線社交網(wǎng)絡(luò)平臺用戶間交換的文本信息,文獻(xiàn)[34]提出B-LDA模型以深入挖掘用戶興趣和行為模式. B-LDA模型基于LDA(Latent Dirichlet Allocation)行為主題模型、聯(lián)合模型用戶主題興趣和行為模式,在擁有豐富用戶交互短文本內(nèi)容的微博Twitter上的實(shí)驗(yàn)結(jié)果表明,B-LDA能夠找到主導(dǎo)行為的主題以及描述行為驅(qū)動的追隨者用戶. 文獻(xiàn)[35]基于改進(jìn)的LDA模型研究了不同年齡段的用戶與話題偏好之間的關(guān)系,發(fā)現(xiàn)了很多有意思的不同年齡階段特定的話題,并據(jù)此預(yù)測社交網(wǎng)絡(luò)用戶的年齡. 文獻(xiàn)[36]基于用戶日常移動通信模式發(fā)現(xiàn)幾個有趣的社交現(xiàn)象,如:年輕人更積極擴(kuò)展自己的社交圈、女性比男性更注重跨代間的溝通交流,并首次發(fā)現(xiàn)在人的一生中同性三元模式更持久,而更復(fù)雜的異性三元模式僅在年輕人中有所體現(xiàn). 并通過提取用戶的個人特征,朋友特征和用戶的朋友圈特征推斷用戶的年齡和性別. 文獻(xiàn)[37]通過構(gòu)造主題模型與語言模型相結(jié)合的雙層模型,利用朋友關(guān)系與組織關(guān)系解決微博的個性化搜索問題. 文獻(xiàn)[38]提出一種針對社交網(wǎng)絡(luò)用戶生成內(nèi)容和用戶關(guān)注信息的用戶偏好挖掘方法:首先通過概率潛在語義模型PLSA訓(xùn)練得到貼近興趣類別的話題模型,然后從訓(xùn)練結(jié)果中抽取可靠的話題并以此構(gòu)建分類器,對用戶的分享數(shù)據(jù)進(jìn)行分類,并根據(jù)分類結(jié)果對用戶的偏好進(jìn)行分析. 現(xiàn)實(shí)生活中,興趣相投的人們之間的交流更加密切,在社交網(wǎng)絡(luò)中,這種密切的社交關(guān)系會體現(xiàn)在網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)上. 文獻(xiàn)[39-41]單純使用社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息挖掘社交用戶的朋友圈(社區(qū))去預(yù)測用戶的偏好,取得了一定的效果. 另外,DEERWESTER等[42]利用潛在語義分析LSA(Latent Semantic Analysis)、HOFMANN[43]利用概率潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)、BLEI等[44]提出LDA模型以及SAID等[45]針對用戶冷啟動問題將主題模型應(yīng)用于標(biāo)簽系統(tǒng)中提出混合PLSA模型等研究方法去計(jì)算用戶和資源之間的相似性,分析用戶的偏好進(jìn)而產(chǎn)生推薦目錄. 目前,基于社交網(wǎng)絡(luò)數(shù)據(jù)的用戶偏好分析已經(jīng)成為社交研究中的熱點(diǎn)問題,其在電子商務(wù)、個性化產(chǎn)品推薦、輿情分析和預(yù)測等領(lǐng)域得到了廣泛的應(yīng)用.
社交網(wǎng)絡(luò)用戶的屬性信息能夠?yàn)榫W(wǎng)絡(luò)演化、用戶群組劃分、信息傳播、內(nèi)容分享及推薦系統(tǒng)等提供信息基礎(chǔ). 然而在許多真實(shí)的社交網(wǎng)絡(luò)中,相當(dāng)數(shù)量的社交網(wǎng)絡(luò)用戶只提供部分屬性信息,或者故意隱藏自己的部分屬性. 但是,基于社交網(wǎng)絡(luò)現(xiàn)實(shí)應(yīng)用需求,常常需要推測用戶未知的信息. 通過直接或間接的方式獲取用戶已知屬性、好友關(guān)系、群組關(guān)系和行為軌跡等數(shù)據(jù)來推測用戶的未知信息(隱私數(shù)據(jù)). 實(shí)際上,在社交網(wǎng)絡(luò)現(xiàn)實(shí)應(yīng)用中,屬性預(yù)測可以分為隱式方式和顯式方式. 隱式屬性預(yù)測指根據(jù)用戶可能具有某種屬性而提供精確的個性化服務(wù),而顯式屬性預(yù)測則指直接通過某種方法預(yù)測用戶可能具有的屬性.
2.1 隱式屬性預(yù)測
社交網(wǎng)絡(luò)通??梢阅P突癁閳D結(jié)構(gòu)G(V,E),其中V表示用戶節(jié)點(diǎn)集合、E表示節(jié)點(diǎn)間的連接關(guān)系(邊)的集合. 文獻(xiàn)[39-40]對學(xué)術(shù)社交網(wǎng)絡(luò)進(jìn)行圖結(jié)構(gòu)的形式化描述,利用學(xué)術(shù)社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息及標(biāo)簽傳播技術(shù)進(jìn)行社區(qū)劃分,認(rèn)為具有相同標(biāo)簽的用戶屬于同一個社區(qū). 這里的形式化標(biāo)簽指用戶具有的屬性信息,因此社區(qū)內(nèi)用戶具有相同屬性(相似的興趣). 據(jù)此對社區(qū)內(nèi)的用戶進(jìn)行相關(guān)的推薦服務(wù),并取得了較好的推薦效果. 此研究表面上看和研究用戶屬性預(yù)測不相關(guān),但實(shí)際上推薦的動機(jī)是根據(jù)社區(qū)內(nèi)用戶具有相似屬性(興趣)的假設(shè). 我們把這類研究稱為隱式屬性預(yù)測.
2.2 顯式屬性預(yù)測
本文提出的顯式屬性預(yù)測指直接挖掘用戶屬性的相關(guān)算法. 如文獻(xiàn)[46]利用交友關(guān)系和可見的群關(guān)系等結(jié)構(gòu)化數(shù)據(jù)來推測用戶的屬性,并指出了群組信息能夠更高精度地發(fā)現(xiàn)用戶的隱私屬性,實(shí)驗(yàn)結(jié)果證明了交友關(guān)系和可見的群組關(guān)系包含了大量的用戶潛在信息. 但在大部分社交網(wǎng)絡(luò)中,除了結(jié)構(gòu)化數(shù)據(jù),每個用戶還具有或多或少的屬性數(shù)據(jù),單純利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息往往不能滿足社交網(wǎng)絡(luò)用戶的精確分析需求. 因此,文獻(xiàn)[47]將用戶的屬性信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息進(jìn)行結(jié)合,指出具有相同屬性的用戶更有可能成為朋友或者形成一個密集的社區(qū)團(tuán)體,提出了一種基于用戶已知屬性的社區(qū)發(fā)現(xiàn)方法挖掘在線社交網(wǎng)絡(luò)用戶的潛在屬性信息. 文獻(xiàn)[48]利用樸素貝葉斯分類器推測社交網(wǎng)絡(luò)用戶屬性,利用用戶的節(jié)點(diǎn)信息和節(jié)點(diǎn)間的鏈接信息(好友關(guān)系)推測社交網(wǎng)絡(luò)中用戶的政治傾向. 該文指出同時利用用戶屬性信息和用戶間的關(guān)系信息比單獨(dú)使用屬性信息具有更好的預(yù)見性. 文獻(xiàn)[49]首次使用鏈接預(yù)測方法發(fā)現(xiàn)用戶的屬性信息,結(jié)果表明鏈接預(yù)測方法能夠推斷用戶的未知屬性.
(1)
(2)
圖1 屬性-社交網(wǎng)絡(luò)(SAN)示例圖
(1)監(jiān)督學(xué)習(xí)算法. 傳統(tǒng)的社交用戶屬性預(yù)測采用監(jiān)督學(xué)習(xí)算法.RAO等[54-55]提出了監(jiān)督層次貝葉斯方法,從用戶姓名和用戶產(chǎn)生的文本內(nèi)容數(shù)據(jù)中抽取特征數(shù)據(jù)進(jìn)行用戶潛在屬性推測. 嚴(yán)格來講,該研究屬于文本分類問題,沒有考慮社交網(wǎng)絡(luò)的拓?fù)湫畔⒑蜕缃魂P(guān)系信息.BACKSTROM和LESKOVEC[56]提出一種監(jiān)督隨機(jī)游走(SupervisedRandomWalk,SRW)算法,利用網(wǎng)絡(luò)結(jié)構(gòu)和邊的屬性信息進(jìn)行鏈接預(yù)測. 但是這種方法沒有充分利用節(jié)點(diǎn)的屬性數(shù)據(jù), 僅僅考慮相鄰節(jié)點(diǎn)的信息,如果2個節(jié)點(diǎn)不相鄰,則它們之間的屬性信息無法被使用. 文獻(xiàn)[57]采用幾個主要的監(jiān)督鏈接預(yù)測算法對SAN框架進(jìn)行了擴(kuò)展,指出預(yù)測用戶的屬性能夠提高鏈路預(yù)測的準(zhǔn)確性. 在SAN模型的屬性預(yù)測監(jiān)督算法中,屬性預(yù)測被轉(zhuǎn)換為屬性鏈接預(yù)測問題. 算法通過為每一個正面的和反面的屬性鏈接抽取一組拓?fù)涮卣鳎?而且,正面屬性鏈接被作為正面的例子,反面屬性鏈接被作為反面例子. 算法使用支持向量機(jī)SVM(SupportVectorMachine)訓(xùn)練一個二元分類器,并應(yīng)用它推斷屬性鏈接. 但實(shí)際上,監(jiān)督學(xué)習(xí)算法通常需要較多已知類別的標(biāo)記樣本,訓(xùn)練過程中不能有效利用大量未知類別標(biāo)記數(shù)據(jù)改善訓(xùn)練效果. 對于用戶屬性數(shù)據(jù)不充分的社交網(wǎng)絡(luò),監(jiān)督學(xué)習(xí)算法會受到一定程度的限制.
(2)無監(jiān)督學(xué)習(xí)算法. 文獻(xiàn)[58]把社交網(wǎng)絡(luò)無監(jiān)督鏈路預(yù)測算法粗略地劃分為局部算法和全局度量算法. 局部算法包括CN(CommonNeighbor)[59]和AA(Adamic-Adar)[60]等. 其中,CN方法最直接的解釋是把2個節(jié)點(diǎn)擁有共同鄰居節(jié)點(diǎn)的數(shù)量定義為2個節(jié)點(diǎn)的鏈接預(yù)測評分:
score(u,v)=|Γ(u)∩Γ(v) |,
(3)
其中,Γ(u)表示節(jié)點(diǎn)u所有鄰居節(jié)點(diǎn)的集合.
AA方法用于測量2個個人主頁的相關(guān)程度,首先計(jì)算個人主頁的特征進(jìn)而以2個主頁間的共同特征為基準(zhǔn)進(jìn)行計(jì)算,計(jì)算公式如下:
(4)
其中,z表示主頁x、y的共同特征.
全局度量算法包括LRA(Low-rankApproximation)[61]和RWwR(RandomWalkwithRestart)[53]等.LRA度量方法采用鄰接矩陣M表示一個圖. 在M中,所有的鏈接預(yù)測方法都可以有一個等價的表示方式. 比如使用CN方法度量節(jié)點(diǎn)u、v之間鏈接預(yù)測的評分,并將評分結(jié)果作為鄰接矩陣M相應(yīng)行列的值.RWwR方法通過使用隨機(jī)游走算法在增強(qiáng)社交圖上預(yù)測2個節(jié)點(diǎn)間的鏈接相關(guān)性.
文獻(xiàn)[57]在其基礎(chǔ)上對代表性無監(jiān)督鏈路預(yù)測算法進(jìn)行了擴(kuò)展,提出SAN框架下的局部算法、全局算法和局部全局混合算法. 在這些無監(jiān)督SAN系列算法中僅僅使用正面的社交(屬性)鏈接進(jìn)行評分. 如,局部算法:CN-SAN算法和AA-SAN算法.CN-SAN算法使用節(jié)點(diǎn)u、v共同鄰居的權(quán)重之和作為(u,v)之間社交鏈接或者屬性鏈接的預(yù)測評分:
(5)
AA-SAN算法認(rèn)為節(jié)點(diǎn)u、v的鏈接預(yù)測評分與它們共同鄰居的權(quán)重之和成正比,而與它們共同鄰居數(shù)的log函數(shù)成反比:
(6)
而對于其中的屬性鏈接預(yù)測,則與節(jié)點(diǎn)間的鏈接預(yù)測方法類似:
(7)
其中Γ+(u)表示節(jié)點(diǎn)u所有鄰居節(jié)點(diǎn)的集合,Γs+(u)表示所有通過社交鏈接(或正面屬性鏈接)到節(jié)點(diǎn)u的鄰居節(jié)點(diǎn)的集合.
SAN框架下的全局算法包括LRA-SAN算法和RWwR-SAN算法.LRA-SAN算法的相關(guān)評分計(jì)算采用奇異值矩陣分解方法(SingularValueDecomposition(SVD)). 在RWwR-SAN算法中,隨機(jī)游走使用1個固定重啟概率α返回節(jié)點(diǎn)u,從節(jié)點(diǎn)u重新啟動并使用概率比例鏈接權(quán)重w(u,t) 迭代行走至節(jié)點(diǎn)t,節(jié)點(diǎn)t是節(jié)點(diǎn)u的鄰居節(jié)點(diǎn)之一.SAN框架下的局部全局混合算法包括CN+LRA-SAN算法和AA+LRA-SAN算法,CN+LRA-SAN算法首先使用SAN模型的CN-SAN進(jìn)行評分,然后在評分結(jié)果矩陣中使用LRA算法;AA+LRA-SAN算法則先使用模型AA-SAN進(jìn)行評分,然后在評分結(jié)果矩陣中使用LRA算法.
由于用戶隱私保護(hù)問題以及商業(yè)上的限制,很難獲取社交網(wǎng)絡(luò)用戶非常豐富的屬性特征,這為用戶屬性預(yù)測算法的研究帶來了一定的影響和限制.
社交用戶屬性預(yù)測問題實(shí)際上可以理解為是一個用戶分類問題. OSN用戶分類是一個有監(jiān)督的機(jī)器學(xué)習(xí)問題,即需要首先確定用戶的類別范圍,然后通過訓(xùn)練分類模型預(yù)測用戶的類別[62]. 在OSN中,用戶通過維護(hù)個人Profile、社會化標(biāo)簽以及發(fā)布個人動態(tài)來積累文本內(nèi)容數(shù)據(jù). 此外,通過加好友操作可以擴(kuò)大自己的關(guān)系網(wǎng)絡(luò). 文本內(nèi)容以及關(guān)系網(wǎng)絡(luò)信息都蘊(yùn)含著用戶的個性化特征,是進(jìn)行用戶分類的主要信息來源. 目前,有一些OSN用戶分類方法基于文本內(nèi)容信息,采用成熟的文本分類模型進(jìn)行用戶分類. 例如,ZUBIAGA等[63]通過采集用戶的社會化標(biāo)簽數(shù)據(jù),并應(yīng)用支持向量機(jī)分類模型進(jìn)行分類;RAO等[54]基于用戶的Profile數(shù)據(jù),利用改進(jìn)的棧式支持向量機(jī)模型有效地對Twitter上的用戶進(jìn)行分類屬性預(yù)測;PENNACCHIOTT等[64]則利用Latent Dirichlet Allocation (LDA)模型對Twitter用戶的個人動態(tài)文本進(jìn)行建模,并基于文本分類結(jié)果預(yù)測用戶的分類屬性. 與以上利用用戶文本內(nèi)容信息進(jìn)行分類的方法不同,有一些綜合利用文本內(nèi)容和用戶關(guān)系網(wǎng)絡(luò)信息的分類方法則更多采用標(biāo)簽傳播(Label Propagation)的思想進(jìn)行用戶類別標(biāo)簽預(yù)測,其基本原理是首先標(biāo)注一定比例的用戶類別標(biāo)簽,然后基于“OSN上2個互相連接的用戶之間存在類別相似性”這種源于社會學(xué)的同質(zhì)性原理(homophily)”進(jìn)行類別標(biāo)簽傳播,而這可以采用迭代推導(dǎo)算法(Iterative inference algorithm)框架實(shí)現(xiàn). 例如,NEVILLE和JENSEN[65]、KAZIENKO和KAJDANOWICZ[66]、MACSKASSY和PROVOST[67]等均采用該框架學(xué)習(xí)用戶的類別標(biāo)簽. 迭代推導(dǎo)涉及2個重要問題:用戶類別標(biāo)簽初始化以及迭代收斂條件,其中類別標(biāo)簽初始化可以采用手工標(biāo)注或者利用傳統(tǒng)的文本分類模型確定,迭代推導(dǎo)可以在所有節(jié)點(diǎn)的類別標(biāo)簽分布都趨于穩(wěn)定時收斂. 總的來說,綜合利用用戶文本內(nèi)容以及關(guān)系網(wǎng)絡(luò)信息進(jìn)行分類的方法具有明顯優(yōu)勢. 首先,只需要標(biāo)注部分節(jié)點(diǎn)的類別標(biāo)簽就可以通過“同質(zhì)性”原理預(yù)測其余節(jié)點(diǎn)的標(biāo)簽,這提高了用戶分類的效率. 其次,一些沒有文本內(nèi)容信息或者關(guān)系網(wǎng)絡(luò)信息的用戶也可以通過本地文本分類模型或者標(biāo)簽傳播獲得分類標(biāo)簽,這提高了用戶分類方法的魯棒性. 此外,融合OSN用戶文本內(nèi)容以及關(guān)系網(wǎng)絡(luò)信息進(jìn)行分類的方法具有更好的分類精度. 例如,MLCMRW方法[68]、集體分類(Collective Classification)方法[69-70]均通過實(shí)驗(yàn)證明了綜合利用2類信息可以顯著提高分類精度.
由于OSN用戶具有興趣多樣性特征,對其分類屬于多標(biāo)簽分類問題,需要比傳統(tǒng)的單一標(biāo)簽分類模型具有更復(fù)雜的性能評價準(zhǔn)則,文獻(xiàn)[69]提出了4種較為常用的多標(biāo)簽分類性能評價準(zhǔn)則,包括Hamming loss、Subset 0/1 Loss、Micro F1和Macro-F1. 假設(shè)Dosn表示包含n個多標(biāo)簽節(jié)點(diǎn)(vi,yi)的OSN數(shù)據(jù)集,C(vi)表示使用某種分類方法對節(jié)點(diǎn)vi生成的預(yù)測標(biāo)簽集,各評價準(zhǔn)則的定義如下.
(1)Hamming loss:Hamming loss是一種較頻繁使用的分類評價準(zhǔn)則,通過計(jì)算分類結(jié)果標(biāo)簽中沒有被正確預(yù)測的數(shù)量來評價分類性能,計(jì)算公式如下:
(8)
(2)Subset0/1Loss:用于嚴(yán)格評價分類結(jié)果的預(yù)測標(biāo)簽集是否完全正確,計(jì)算公式如下:
(9)
其中I(·)表示指示函數(shù),當(dāng)且僅當(dāng)π成立時,I(π)=1,否則I(π)=0,該公式的計(jì)算結(jié)果越小則表示分類結(jié)果越好.
(3)MicroF1:通過綜合考慮預(yù)測標(biāo)簽集預(yù)測精度和召全率的微平均來評估分類方法的性能,其計(jì)算結(jié)果越大則表示分類結(jié)果越好,計(jì)算公式如下:
micro-F1(C,Dosn)=
(10)
(4)Macro-F1:通過考慮在預(yù)測標(biāo)簽結(jié)果集上的F1 測度的平均值來評價分類器的性能,計(jì)算公式如下:
macro-F1(C,Dosn)=
(11)
隨著以人為中心的在線社交網(wǎng)絡(luò)的快速發(fā)展以及其對社會政治、經(jīng)濟(jì)等領(lǐng)域的重要作用,促使學(xué)術(shù)界和工業(yè)界廣泛關(guān)注針對在線社交網(wǎng)絡(luò)用戶的分析和建模工作,并產(chǎn)生了大量的研究成果. 本文對社交網(wǎng)絡(luò)用戶的影響力分析、偏好研究、屬性預(yù)測及用戶分類等代表性研究話題涉及的理論和方法進(jìn)行了簡要分析. 雖然相關(guān)領(lǐng)域已經(jīng)取得了豐碩的研究成果,但總體來說,在線社交網(wǎng)絡(luò)用戶分析的相關(guān)研究仍是一個充滿問題與挑戰(zhàn)的新興研究領(lǐng)域. 隨著社交網(wǎng)絡(luò)的快速發(fā)展,需要處理的數(shù)據(jù)越來越龐大,社交用戶的分析和挖掘工作將面臨著新的問題和挑戰(zhàn). 我們認(rèn)為可以深入研究并可能取得成果的方向主要包括以下3點(diǎn).
(1)目前的算法都是基于靜態(tài)社交網(wǎng)絡(luò)的分析研究,而社交網(wǎng)絡(luò)結(jié)構(gòu)是無時無刻都在動態(tài)變化的,如何在動態(tài)變化的社交網(wǎng)絡(luò)中進(jìn)行分析挖掘并實(shí)時給出計(jì)算結(jié)果是需要解決的問題.
(2)面對快速發(fā)展的社交網(wǎng)絡(luò)大數(shù)據(jù),單機(jī)系統(tǒng)的性能受到考驗(yàn),需要相關(guān)的并行算法對社交網(wǎng)絡(luò)用戶進(jìn)行分析和挖掘.
(3)社交網(wǎng)絡(luò)用戶的信息數(shù)據(jù)通常存在模糊、歧義、二義性、信息不全等問題,需要綜合利用自然語言處理技術(shù)、語義分析技術(shù)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等進(jìn)行綜合分析和處理. 另外,對于真實(shí)在線社交網(wǎng)絡(luò),很難有事實(shí)上的評價標(biāo)準(zhǔn). 因此,對這類算法優(yōu)劣的客觀評價存在一定的困難.
[1]TANGY.Scholar-centeredcomputing:researchandpractice[C]∥ProceedingsoftheInternationalConferenceonHumanCenteredComputing.Switzerland:Springer,2016:6-8.
[2] 丁宇新,肖驍,吳美晶,等. 基于半監(jiān)督學(xué)習(xí)的社交網(wǎng)絡(luò)用戶屬性預(yù)測[J]. 通信學(xué)報(bào),2014,35(8):15-22.
DINGYX,XIAOX,WUMJ,etal.Predictingusers’profilesinsocialnetworkbasedonsemi-supervisedlearning[J].JournalonCommunications,2014,35(8):15-22. [3]GONZLEZ-BAILNS,BORGE-HOLTHOEFERJ,RIVEROA,etal.Thedynamicsofprotestrecruitmentthroughanonlinenetwork[J].ScientificReports,2011,1:Art197,7pp.
[4]TUMASJANA,SPRENGERTO,SANDNERPG,etal.Predictingelectionswithtwitter:what140charactersrevealaboutpoliticalsentiment[C]∥ProceedingsoftheFourthInternationalAAAIConferenceonWeblogsandSocialMedia.Washington:[s.n.],2010:178-185.
[5]VESPIGNANIA.Predictingthebehavioroftechno-socialsystems[J].Science,2009,325:425-428.
[6]ARALS,WALKERD.Identifyinginfluentialandsusceptiblemembersofsocialnetworks[J].Science,2012,337(6092):337-41.
[7]ACQUISTIA,BRANDIMARTEL,LOEWENSTEING.Privacyandhmanbehaviorintheageofinformation[J].Science,2015,347(6221):509-14.
[8] 楊善林,王佳佳,代寶,等. 在線社交網(wǎng)絡(luò)用戶行為研究現(xiàn)狀與展望[J]. 中國科學(xué)院院刊,2015,30(2):200-215.YANGSL,WANGJJ,DAIB,etal.Stateoftheartinsocialnetworkuserbehaviorsanditsfuture[J].BulletinoftheChineseAcademyofSciences,2015,30(2):200-215. [9]TANGJ,CHANGY,LIUH.Miningsocialmediawithsocialtheories:asurvey[J].ACMSIGKDDExplorationsNewsletter,2014,15(2):20-29.
[10] 毛佳昕,劉奕群,張敏,等. 基于用戶行為的微博用戶社會影響力分析[J]. 計(jì)算機(jī)學(xué)報(bào),2014,37(4):1-10.
MAOJX,LIUYQ,ZHANGM,etal.Socialinfluenceanalysisformicor-bloguserbasedonuserbehavior[J].ChineseJournalofComputers,2014,37(4):1-10.
[11]ZHOUT,LIH.UnderstandingmobileSNScontinuanceusageinChinafromtheperspectivesofsocialinfluenceandprivacyconcern[J].ComputersinHumanBehavior,2014,37:283-289.
[12]吳信東,李毅,李磊. 在線社交網(wǎng)絡(luò)影響力分析[J]. 計(jì)算機(jī)學(xué)報(bào),2014(4):735-752.
[13]WOLFEAW.Socialnetworkanalysis:methodsandapplications[J].ContemporarySociology,1994,91(435):219-220. [14]FREEMANLC.Centralityinsocialnetworksconceptualclarification[J].SocialNetworks,2012,1(3):215-239.
[15]SABIDUSSIG.Thecentralityindexofagraph[J].Psychometrika,1966,31(4):581-603.
[16]BONACICHP.Someuniquepropertiesofeigenvectorcentrality[J].SocialNetworks,2007,29(4):555-564.
[17]KATZL.Anewstatusindexderivedfromsociometricanalysis[J].Psychometrika,1953,18(1):39-43.
[18]WENGJ,LIMEP,JIANGJ,etal.TwitterRank:findingtopic-sensitiveinfluentialtwitterers[C]∥Proceedingsofthe3rdACMInternationalConferenceonWebSearchandDataMining.NewYork:ACM,2010:261-270.
[19]WATTSDJ,STROGATZSH.Collectivedynamicsof‘small-world’networks[J].Nature,1998:440-442.
[20]JACCARDP.Distributiondelaflorealpinedanslebassindesdransesetdansquelquesrégionsvoisines[J].BulletinDeLaSocieteVaudoiseDesSciencesNaturelles,1901,37(140):241-72.
[21]GIRVANM,NEWMANMEJ.Communitystructureinsocialandbiologicalnetworks[J].ProceedingsoftheNationalAcademyofSciences,2002,99(12):7821-7826.
[22]CRANDALLD,COSLEYD,HUTTENLOCHERD,etal.Feedbackeffectsbetweensimilarityandsocialinfluenceinonlinecommunities[C]∥Proceedingsofthe14thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2008:160-168.
[23]XIANGR,NEVILLEJ,ROGATIM.Modelingrelationshipstrengthinonlinesocialnetworks[C]∥Proceedingofthe19thInternationalConferenceonWorldWideWeb(WWW2010).NewYork:ACM,2010:981-990.
[24]SAITOK,KIMURAM,OHARAK,etal.Selectinginformationdiffusionmodelsoversocialnetworksforbehavioralanalysis[J].JournaloftheOpticalSocietyofAmericaB,2010,20(1):91-96.
[25]MCLACHLANGJ,KRISHNANT.TheEMalgorithmandextensions:wileyseriesinprobabilityandstatistics[J].JournalofClassification,2007,15(1):154-156.
[26]YANGJ,LESKOVECJ.Modelinginformationdiffusioninimplicitnetworks[C]∥Proceedingsofthe2010IEEEInternationalConferenceonDataMining.Washington:IEEE,2010:599-608. [27]TANC,TANGJ,SUNJ,etal.Socialactiontrackingvianoisetoleranttime-varyingfactorgraphs[C]∥Proceedingsofthe16thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2010:1049-1058.
[28]TANGJ,SUNJ,WANGC,etal.Socialinfluenceanalysisinlarge-scalenetworks[C]∥Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2009:807-816.
[29]LIUL,TANGJ,HANJ,etal.Miningtopic-levelinfluenceinheterogeneousnetworks[C]∥Proceedingsofthe19thACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACM,2010:199-208. [30]TANGJ,LOUT,KLEINBERGJ.Inferringsocialtiesacrossheterogenousnetworks[C]∥Proceedingsofthe5thACMInternationalConferenceonWebSearchandWebDataMining.NewYork:ACM,2012:743-752.
[31]RESNICKP,IACOVOUN,SUCHAKM,etal.GroupLens:anopenarchitectureforcollaborativefilteringofnetnews[C]∥ProceedingsoftheACMConferenceonComputerSupportedCooperativeWork.NewYork:ACM,1994:175-186.
[32]BREESEJS,HECKEMIAND,KADIEC.Empiricalanalysisofpredictivealgorithmsforcollaborativefiltering[C]∥Proceedingsofthe14thConferenceonUncertaintyinArtificialIntelligence.Madison:[s.n.],1998:43-52.
[33]HERLOCKERJL,KONSTANJA,BORCHERSA,etal.Analgorithmicframeworkforperformingcollaborativefiltering[C]∥Proceedingsofthe22ndAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACM,1999:230-237.
[34]QIUMH,ZHUFD,JIANGJ.Itisnotjustwhatwesay,buthowwesaythem:LDA-basedbehavior-topicmodel[C]∥Proceedingsofthe2013SIAMInternationalConferenceonDataMining.Texax:[s.n.],2013:794.
[35]LIAOL,JIANGJ,DINGY,etal.Lifetimelexicalvariationinsocialmedia[C]∥Proceedingsofthe28thAAAIConferenceonArtificialIntelligence.Québec:[s.n.],2014:1643-1649. [36]DONGY,YANGY,TANGJ,etal.Inferringuserdemographicsandsocialstrategiesinmobilesocialnetworks[C]∥Proceedingsofthe20thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2014:15-24.
[37]VOSECKYJ,LEUNGWT,NGW.Collaborativepersonalizedtwittersearchwithtopic-languagemodels[C]∥Proceedingsofthe37thInternationalACMSIGIRConfe-renceonResearch&DevelopmentinInformationRetrie-val.NewYork:ACM,2014:53-62.
[38] 何炎祥,劉續(xù)樂,陳強(qiáng),等. 社交網(wǎng)絡(luò)用戶興趣挖掘研究[J]. 小型微型計(jì)算機(jī)系統(tǒng),2014,35(11):2385-2389.
HEYX,LIUXL,CHENQ,etal.Userinterestminningresearchbasedonsocialnetworkservice[J].JournalofChineseComputerSystems,2014,35(11):2385-2389.
[39] 黃泳航,湯庸,李春英,等. 基于社區(qū)劃分的學(xué)術(shù)論文推薦模型[J]. 計(jì)算機(jī)應(yīng)用,2016,36(5):1279-1283;1289.
HUANGYH,TANGY,LICY,etal.Academicpaperrecommendationmodelbasedoncommunitypartition[J].JournalofComputerApplications,2016,36(5):1279-1283;1289.
[40]HUANGYH,TANGY,LICY,etal.Amethodforlatent-friendshiprecommendationbasedoncommunitydetectioninsocialnetwork[C]∥Proceedingin12thWebInformationSystemandApplicationConference.Washington:IEEE,2015:3-8.
[41]KIMHN,SADDIKAE.Exploringsocialtaggingforpersonalizedcommunityrecommendations[J].UserModelingandUser-AdaptedInteraction,2012,23(2/3):249-285.
[42]DEERWESTERS,DUMAISST,FURNASGW,etal.Indexingbylatentsemanticanalysis[J].JournaloftheAmericanSocietyforInformationScience,1990,41(6):391-407.
[43]HOFMANNT.Probabilisticlatentsemanticindexing[C]∥ProceedingoftheInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACM,1999:56-73.
[44]BLEIDM,NGAY,JORDANMI.Latentdirichletallocation[J].JournalofMachineLearningResearch,2003,3:993-1022.
[45]SAIDA,WETZKERR,UMBRATHW,etal.AhybridPLSAapproachforwarmercoldstartinfolksonomyrecommendation[C]∥ProceedingsoftheRecSys’09WorkshoponRecommenderSystems&theSocialWeb.NewYork:[s.n.],2009:87-90.
[46]ZHELEVAE,GETOORL.Tojoinornottojoin:theillusionofprivacyinsocialnetworkswithmixedpublicandprivateuserprofiles[C]∥Proceedingsofthe18thInternationalConferenceonWorldWideWeb.NewYork:ACM,2009:531-540.
[47]MISLOVEA,VISWANATHB,GUMMADIKP,etal.Youarewhoyouknow:inferringuserprofilesinonlinesocialnetworks[C]∥ProceedingsofthethirdACMinternationalconferenceonWebsearchanddatamining.NewYork:ACM,2010:4-6.
[48]HEATHERLYR,KANTARCIOGLUM,THURAISINGHAMB.Preventingprivateinformationinferenceattacksonsocialnetworks[J].IEEETransactionsonKnowledge&DataEngineering,2013,25(25):1849-1862.
[49]MILLERKT,GRIFFITHSTL,JORDANMI.Nonparametriclatentfeaturemodelsforlinkprediction[J].NeuralInformationProcessingSystems,2009:1276-1284.
[50]MOM,WANGD.Exploitofonlinesocialnetworkswithsemi-supervisedlearning[J].LectureNotesinComputerScience,2010,6443:1-8.
[51]DINGYX,YANSL,ZHANGYB,etal.Predictingtheattributesofsocialnetworkusersusingagraph-basedmachinelearningmethod[J].ComputerCommunications,2016,73:3-11.
[52]YINZ,GUPTAM,WENINGERT,etal.Linkrec:aunifiedframeworkforlinkrecommendationwithuserattributesandgraphstructure[C]∥ProceedingoftheInternationalConferenceonWorldWideWeb.NewYork:ACM,2010:1211-1212.
[53]YINZ,GUPTAM,WENINGERT,etal.Aunifiedframeworkforlinkrecommendationusingrandomwalks[C]∥Proceedingsofthe2010InternationalConferenceonAdvancesinSocialNetworksAnalysisandMining.Washington:IEEE,2010:152-159.
[54]RAOD,YAROWSKYD,SHREEVATSA,etal.Classifyinglatentuserattributesintwitter[C]∥Proceedingsofthe2ndInternationalWorkshoponSearchandMiningUser-GeneratedContents.NewYork:ACM,2010:37-44.
[55]RAOD,PAULM,FINKC,etal.Hierarchicalbayesianmodelsforlatentattributedetectioninsocialmedia[C]∥ProceedingsoftheFifthInternationalAAAIConferenceonWeblogsandSocialMedia.California:theAAAIPress,2011:598-601.
[56]BACKSTROML,LESKOVECJ.Supervisedrandomwalks:predictingandrecommendinglinksinsocialnetworks[C]∥ProceedingsoftheACMInternationalConferenceonWebSearch&DataMining.NewYork:ACM,2010:635-644. [57]GONGNZ,TALWALKARA,MACKEYL,etal.Jointlypredictinglinksandinferringattributesusingasocial-attributenetwork[J].ACMTransactionsonIntelligentSystemsandTechnology,2014,5(2):1-20.
[58]LIBEN-NOWELLD,KLEINBERGJ.Thelinkpredictionproblemforsocialnetworks[J].JournaloftheAmericanSocietyforInformationScience&Technology,2010,58(7):1019-1031. [59]NEWMANMEJ.Clusteringandpreferentialattachmentingrowingnetworks[J].PhysicalReviewE,2001,64(2):025102.
[60]ADAMICLA,ADARE.FriendsandneighborsontheWeb[J].SocialNetworks,2003,25(3):211-230.
[61]MARKOVSKYI.Structuredlow-rankapproximationanditsapplications[J].Automatica,2008,44(4):891-909.
[62] 賀超波,湯庸,麥輝強(qiáng),等. 在線社交網(wǎng)絡(luò)挖掘綜述[J]. 武漢大學(xué)學(xué)報(bào)(理學(xué)版),2014,60(3):189-200.
HECB,TANGY,MAIHQ,etal.Asurveyononlinesocialnetworkmining[J].JournalofWuhanUniversity(NaturalScienceEdition),2014,60(3):189-200.
[63]ZUBIAGAA,K?RNERC,STROHMAIERM.Tagsvsshelves:fromsocialtaggingtosocialclassification[C]∥Proceedingsofthe22ndACMConferenceonHypertextandHypermedia.NewYork:ACM,2011:93-102.
[64]PENNACCHIOTTIM,POPESCUAM.Amachinelearningapproachtotwitteruserclassification[C]∥Proceedingsofthe5thInternationalAAAIConferenceonWeblogsandSocialMedia.California:AAAIPress,2011:281-288. [65]NEVILLEJ,JENSEND.Iterativeclassificationinrelationaldata[C]∥ProceedingoftheAAAI2000WorkshoponStatisticalRelationalLearningoftheNationalConferenceonArtificialIntelligence.Washington:[s.n.],2000:42-49.
[66]KAZIENKOP,KAJDANOWICZT.Label-dependentnodeclassificationinthenetwork[J].Neurocomputing,2012,75(1):199-209.
[67]MACSKASSYSA,PROVOSTFJ.Asimplerelationalclassifier[C]∥ProceedingsoftheSIGKDD2002WorkshoponMulti-RelationalDataMining.California:ACM,2003:64-76.
[68] 賀超波,楊鎮(zhèn)雄,洪少文,等. 應(yīng)用隨機(jī)游走的社交網(wǎng)絡(luò)用戶分類方法[J]. 計(jì)算機(jī)科學(xué),2015,42(2):198-203.
HECB,YANGZX,HONGSW,etal.Userclassificationmethodinonlinesocialnetworkusingrandomwalks[J].ComputerScience,2015,42(2):197-203.
[69]KONGX,SHIX,YUPS.Multi-labelcollectiveclassification[C]∥ProceedingsoftheEleventhSIAMInternationalConferenceonDataMining.Arizona:OmniPress,2011:618-629.
[70]SHIX,LIY,YUP.Collectivepredictionwithlatentgraphs[C]∥Proceedingsofthe20thACMInternationalConferenceonInformationandknowledgeManagement.NewYork:ACM,2011:1127-1136.
【中文責(zé)編:莊曉瓊 英文責(zé)編:肖菁】
A Survey of Online Social Network Based Users Analysis
LI Chunying1,2, TANG Yong1*, HE Chaobo3, TANG Zhikang4, HUANG Yonghang1
(1. School of Computer Science, South China Normal University, Guangzhou 510631, China; 2. Computer Network Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China; 3. School of Information Science and Technology, Zhongkai University of Agriculture and Engineering, Guangzhou 510225, China; 4. School of Computer Science, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
The latest development of online social network user analysis based on the related domestic and foreign research is reviewed,including user behavior analysis by user influence and user p
, user attribute prediction algorithm using implicit and explicit classification methods. The research progress of user classification based on user attributes or (and) user relationship topology is briefly described.Finally,the opportunities and challenges brought by the dynamic social network, parallel algorithms and social user semantic information to online social network users are analyzed,and the development trend of online social network user analysis is proposed.
online social network; behavior analysis; influence analysis; preference analysis; attribute forecast; users catalog
2016-07-07 《華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》網(wǎng)址:http://journal.scnu.edu.cn/n
國家自然科學(xué)基金項(xiàng)目(61272067,61502180);廣東省重大科技專項(xiàng)項(xiàng)目(2014B010116002);廣東省自然科學(xué)基金項(xiàng)目(2014A030310238);廣東省科技計(jì)劃項(xiàng)目(2015B010109003,2015A020209178,2016A030303058)
TP391
A
1000-5463(2016)05-0107-09
*通訊作者:湯庸,教授,Email:YTANG@m.scnu.edu.cn.