網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.tp.20150403.1732.001.html
社交網(wǎng)站中用戶評(píng)論行為預(yù)測(cè)
孔慶超,毛文吉,張育浩
(中國(guó)科學(xué)院自動(dòng)化研究所 復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
摘要:社交網(wǎng)站為用戶相互交流、發(fā)表意見(jiàn)和觀點(diǎn)提供了非常便利的平臺(tái)。對(duì)社交網(wǎng)站的用戶行為進(jìn)行建模和預(yù)測(cè)對(duì)于安全、商業(yè)等多個(gè)領(lǐng)域具有十分重要的社會(huì)意義和應(yīng)用價(jià)值,近年來(lái)逐漸得到研究者的重視。面向社交網(wǎng)站中用戶評(píng)論行為,預(yù)測(cè)用戶是否會(huì)參與討論。采用基于特征的機(jī)器學(xué)習(xí)方法,其中特征包括討論帖子及其內(nèi)容、用戶行為特征和社交關(guān)系,并引入?yún)?shù)控制數(shù)據(jù)集的不平衡性。實(shí)驗(yàn)采用來(lái)自豆瓣小組的真實(shí)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,新提出的用戶行為和社交關(guān)系特征以及對(duì)不平衡數(shù)據(jù)集的處理方法能夠有效提高用戶評(píng)論行為的預(yù)測(cè)效果,進(jìn)一步說(shuō)明用戶的歷史行為和所在的社交關(guān)系網(wǎng)絡(luò)對(duì)當(dāng)前的評(píng)論行為有較大影響。
關(guān)鍵詞:社交網(wǎng)絡(luò);用戶評(píng)論;機(jī)器學(xué)習(xí);行為建模;行為預(yù)測(cè);不平衡性數(shù)據(jù)集
DOI:10.3969/j.issn.1673-4785.201403019
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
收稿日期:2014-03-05. 網(wǎng)絡(luò)出版日期:2015-04-03.
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61175040, U1435221).
作者簡(jiǎn)介:
中文引用格式:孔慶超,毛文吉,張育浩. 社交網(wǎng)站中用戶評(píng)論行為預(yù)測(cè)[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(3): 349-353.
英文引用格式:KONG Qingchao, MAO Wenji, ZHANG Yuhao. User comment behavior prediction in social networking sites[J]. CAAI Transactions on Intelligent Systems, 2015, 10(3): 349-353.
User comment behavior prediction in social networking sites
KONG Qingchao, MAO Wenji, ZHANG Yuhao
(State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Science, Beijing 100190, China)
Abstract:Social networking sites provide a convenient way for users to communicate with others and to present opinions. Related researches on modeling and predicting user behaviors in social networking sites are of vital importance for many applications in the domains of security and business. The aim of this paper is to predict user comment behavior based on postings in social networking sites. A feature-based machine learning approach is employed, which includes features from the postings, content, user behaviors and social relations, and introduces a parameter to control the imbalanceness of the dataset. Real-world datasets from Douban Group were used in the experiments. The experimental results showed that the user behavior and social relation features and the imbalance processing technique effectively improved the prediction performance of user comment behaviors. This further demonstrates that the user comment behavior is largely affected by their behavior history and social network.
Keywords:social network; user comments; machine learning; behavior modeling; behavior prediction; imbalance dataset
通信作者:毛文吉. E-mail: wenji.mao@ia.ac.cn.
社交網(wǎng)站如Facebook、Twitter等對(duì)人們的生活產(chǎn)生了巨大影響。人們?cè)谏缃痪W(wǎng)站中更新?tīng)顟B(tài)或發(fā)送廣播,以此來(lái)展現(xiàn)自己的生活狀態(tài)、發(fā)表感想或與朋友們分享信息。社交網(wǎng)站已成為人們獲取信息、參與討論和表達(dá)觀點(diǎn)的重要平臺(tái)。另一方面,用戶在社交網(wǎng)站中的行為則體現(xiàn)了用戶的行為模式和興趣。由于社交網(wǎng)站中用戶眾多,并且具有實(shí)時(shí)性的特點(diǎn),人們討論的話題能夠迅速在網(wǎng)絡(luò)上傳播和演化,因此理解他們的行為,并對(duì)其進(jìn)行建模和分析顯得十分重要。例如,在信息檢索領(lǐng)域,預(yù)測(cè)參與哪些話題的討論可以幫助服務(wù)提供者了解更多有關(guān)用戶興趣和需求的信息;在情報(bào)安全領(lǐng)域,追蹤和預(yù)測(cè)用戶參與的話題討論可以幫助決策者更好地了解和掌握用戶的行為特點(diǎn)。
面向社交網(wǎng)站的討論組用戶,本文提出一種預(yù)測(cè)用戶是否會(huì)參與討論的計(jì)算方法。具體而言,采用基于特征的方法,考慮了影響用戶評(píng)論行為的多種主要因素,并使用機(jī)器學(xué)習(xí)算法結(jié)合所有的特征,最終得到用戶對(duì)某個(gè)帖子進(jìn)行回復(fù)的概率。此外,由于一個(gè)帖子中的評(píng)論用戶數(shù)量相對(duì)于討論組中的用戶總數(shù)而言總是很少,往往造成了數(shù)據(jù)集中的類(lèi)不平衡問(wèn)題,本文還針對(duì)這一問(wèn)題做了相應(yīng)處理。本文主要貢獻(xiàn)在于:結(jié)合多類(lèi)不同類(lèi)型的特征,通過(guò)與評(píng)論行為相關(guān)聯(lián)的社交關(guān)系特征,如用戶活躍度、用戶間的關(guān)注關(guān)系等預(yù)測(cè)評(píng)論行為,并通過(guò)對(duì)類(lèi)不平衡問(wèn)題的處理提升預(yù)測(cè)的效果。
1相關(guān)研究工作
在博客和論壇中,網(wǎng)站大多都會(huì)提供用戶評(píng)論功能。用戶評(píng)論能夠促進(jìn)用戶之間的交流,發(fā)帖人也能夠通過(guò)用戶評(píng)論得到反饋。目前已經(jīng)有一些預(yù)測(cè)博客評(píng)論數(shù)量的相關(guān)工作。M. Tsagkias等[1]基于文本、語(yǔ)義和現(xiàn)實(shí)世界特征預(yù)測(cè)一篇博文是否會(huì)有評(píng)論以及評(píng)論數(shù)量的多少。T. Yano和N. A. Smith[2]采用主題模型預(yù)測(cè)博客的評(píng)論數(shù)量。預(yù)測(cè)微博的轉(zhuǎn)發(fā)量[3-6]和博客中的評(píng)論數(shù)量這2項(xiàng)研究具有一定的相似性,如L. Hong等[4]通過(guò)抽取Twtiter中評(píng)論內(nèi)容、時(shí)序信息、評(píng)論及用戶的元數(shù)據(jù)以及用戶社交網(wǎng)絡(luò)的結(jié)構(gòu)關(guān)系等,基于特征的模型預(yù)測(cè)微博的轉(zhuǎn)發(fā)數(shù)量。其他的相關(guān)研究還包括視頻[7-8]、圖片[9-10]瀏覽數(shù)的預(yù)測(cè)等。
相對(duì)于預(yù)測(cè)用戶的評(píng)論數(shù)量,預(yù)測(cè)用戶評(píng)論行為(即用戶是否會(huì)對(duì)某個(gè)帖子進(jìn)行回復(fù))是一項(xiàng)更具挑戰(zhàn)性的工作。T. Yano等[11]構(gòu)建了一個(gè)能夠同時(shí)生成評(píng)論和博文內(nèi)容的概率模型預(yù)測(cè)用戶會(huì)評(píng)論哪一篇博文。Tang等[12]構(gòu)建了一個(gè)用戶興趣和話題檢測(cè)模型(UTD)。在給定已有部分用戶對(duì)某個(gè)帖子進(jìn)行回復(fù)的條件下,UTD模型通過(guò)獲取話題內(nèi)容和發(fā)展趨勢(shì)預(yù)測(cè)哪些用戶會(huì)對(duì)新的帖子產(chǎn)生興趣。
上述工作中提出了一系列影響用戶在博客和討論組評(píng)論行為的因素,如帖子和內(nèi)容信息。然而,除了帖子本身和話題相關(guān)的內(nèi)容信息以外,社交網(wǎng)絡(luò)中還存在著多個(gè)與用戶評(píng)論行為密切相關(guān)的社會(huì)關(guān)系、用戶行為特征等因素,充分利用這些信息可以更好地預(yù)測(cè)用戶行為。例如,用戶之間的“粉絲”關(guān)系可能會(huì)影響用戶對(duì)發(fā)帖人所發(fā)帖子的回復(fù)。
本文分析了影響用戶評(píng)論行為的主要因素,并構(gòu)建了一個(gè)結(jié)合多個(gè)關(guān)鍵影響因素、基于特征的評(píng)論行為預(yù)測(cè)模型。這些因素不僅包括話題內(nèi)容特征,也包括社會(huì)關(guān)系和行為特征。采用邏輯回歸模型進(jìn)行分類(lèi),并通過(guò)采樣方法解決類(lèi)不平衡問(wèn)題,最終預(yù)測(cè)用戶評(píng)論某個(gè)帖子的可能性。
2問(wèn)題定義
用U表示討論組中的用戶集合,D表示帖子的集合,每個(gè)帖子d(d∈D)包括標(biāo)題、內(nèi)容和發(fā)帖者ud(ud∈U)的信息,其中標(biāo)題和內(nèi)容都采用詞袋(bag of words, BOW)模型表示。除了帖子本身的內(nèi)容外,已知的信息還包括用戶間的關(guān)注關(guān)系和用戶的歷史行為信息。將問(wèn)題定義為:給定帖子d的信息,預(yù)測(cè)目標(biāo)用戶u(u∈U)對(duì)帖子d進(jìn)行評(píng)論的概率。
3用戶評(píng)論行為建模與預(yù)測(cè)
針對(duì)用戶評(píng)論行為,詳細(xì)介紹特征選取、如何計(jì)算內(nèi)容相似度以及構(gòu)建邏輯回歸模型進(jìn)行預(yù)測(cè),并討論對(duì)類(lèi)不平衡問(wèn)題的處理。
3.1特征選取和內(nèi)容相似度計(jì)算
考慮采用4類(lèi)可能影響用戶評(píng)論行為的因素作為特征,包括帖子本身、內(nèi)容相似度、用戶行為和社交關(guān)系等特征。
1)帖子特征:包括標(biāo)題長(zhǎng)度、正文長(zhǎng)度、圖片和外鏈的數(shù)量,共4個(gè)特征。
2)內(nèi)容相似度特征:包括帖子內(nèi)容和目標(biāo)用戶興趣之間的相似度以及發(fā)帖者興趣和目標(biāo)用戶興趣之間的相似度,共2個(gè)特征。
3)用戶行為特征:包括發(fā)帖者和目標(biāo)用戶各自發(fā)過(guò)的帖子數(shù)量以及評(píng)論回復(fù)數(shù)量,共4個(gè)特征。
4)社交關(guān)系特征:包括發(fā)帖者和目標(biāo)用戶各自的關(guān)注和粉絲的數(shù)量,以及目標(biāo)用戶是否關(guān)注了發(fā)帖者,共5個(gè)特征。
在計(jì)算內(nèi)容相似度特征時(shí),應(yīng)用LDA模型[13]得到用戶關(guān)注內(nèi)容在不同主題(topic)的分布情況來(lái)刻畫(huà)用戶興趣。LDA模型是近年來(lái)非常受關(guān)注的主題模型,其數(shù)學(xué)表達(dá)簡(jiǎn)潔,而且文本建模效果很好。具體來(lái)說(shuō),首先,在整個(gè)數(shù)據(jù)集上訓(xùn)練得到一個(gè)LDA模型;然后,將每個(gè)用戶曾經(jīng)發(fā)布的所有帖子和評(píng)論組成一個(gè)文檔;最后,將該文檔輸入LDA模型中得到用戶感興趣的主題分布,即一定長(zhǎng)度的向量(長(zhǎng)度為訓(xùn)練LDA模型時(shí)指定的主題個(gè)數(shù))。通過(guò)應(yīng)用LDA模型,所有的文檔和用戶興趣可以表示為主題分布向量,而文本內(nèi)容之間的相似度則定義為2個(gè)主題分布之間的歐氏距離。
將以上4類(lèi)特征(共15個(gè))組成15維向量作為特征向量。需要注意的是,特征向量中的特征具有不同的數(shù)值類(lèi)型,如“標(biāo)題長(zhǎng)度”為離散型特征,而內(nèi)容相似度為連續(xù)型特征,取值范圍也不盡相同,所以需要在模型訓(xùn)練前對(duì)特征進(jìn)行歸一化處理。本文分別對(duì)于每個(gè)特征進(jìn)行歸一化:
(1)
式中:f為樣本的特征取值,fmin為該特征在所有樣本(包括訓(xùn)練集和測(cè)試集)中的最小取值,fmax為該特征在所有樣本中的最大取值。
3.2模型建立及類(lèi)不平衡的處理
邏輯回歸(LR)模型是一種線性分類(lèi)模型,可以得到樣本屬于每個(gè)類(lèi)別的概率。對(duì)于每個(gè)目標(biāo)用戶和帖子,抽取出上面列舉的所有特征,組成一個(gè)特征向量。令x表示特征向量,w表示特征的權(quán)重向量。Y表示預(yù)測(cè)結(jié)果,為二值隨機(jī)變量,當(dāng)目標(biāo)用戶評(píng)論時(shí)Y=1,目標(biāo)用戶不評(píng)論時(shí)Y=0。
(2)
式中:g(x)=w1x1+w2x2+…+wnxn,P(Y=1|x)表示目標(biāo)用戶評(píng)論帖子的概率。根據(jù)式(1),g(x)>0時(shí)模型預(yù)測(cè)y(x)=1,g(x)>0時(shí)模型預(yù)測(cè)y(x)=0。
在構(gòu)建分類(lèi)器的訓(xùn)練集和測(cè)試集時(shí),對(duì)于一個(gè)帖子來(lái)說(shuō),可以認(rèn)為所有真正參與評(píng)論的用戶為正樣本,而沒(méi)有參與評(píng)論的用戶為負(fù)樣本。一般而言,由于負(fù)樣本的數(shù)量遠(yuǎn)大于正樣本數(shù)量,這就造成數(shù)據(jù)集中存在類(lèi)不平衡問(wèn)題。在給定特征集合的條件下,如果數(shù)據(jù)集中類(lèi)不平衡性較大,那么采用分類(lèi)學(xué)習(xí)算法最終將預(yù)測(cè)所有樣本為負(fù)樣例。這樣的預(yù)測(cè)結(jié)果雖然準(zhǔn)確率很高,但實(shí)質(zhì)上完全忽略了正樣本的重要性,即人們真正關(guān)心的是哪些用戶會(huì)參與評(píng)論,而不是哪些用戶不參與評(píng)論。
解決類(lèi)不平衡問(wèn)題的方法有多種,其中采樣法是最常采用的一種方法。具體來(lái)說(shuō),本文采用的采樣算法包括隨機(jī)上采樣和下采樣、EasyEnsemble[14]和SMOTE算法[15],其中EasyEnsemble的性能相對(duì)較好[14]。需要說(shuō)明的是,在使用EsayEnsemble算法時(shí),我們將原文獻(xiàn)中EasyEnsemble的基本分類(lèi)器AdaBoost替換為L(zhǎng)R模型。
綜上,構(gòu)建分類(lèi)預(yù)測(cè)框架的主要步驟是:首先構(gòu)建訓(xùn)練集與測(cè)試集并抽取和計(jì)算特征,然后采用以上采樣方法提高正樣例在訓(xùn)練集中所占的比例,最后建立LR模型得到用戶評(píng)論某個(gè)帖子的預(yù)測(cè)結(jié)果。
4實(shí)驗(yàn)結(jié)果與分析
4.1數(shù)據(jù)集和預(yù)處理
實(shí)驗(yàn)的數(shù)據(jù)集來(lái)自豆瓣小組。豆瓣是國(guó)內(nèi)流行的社交網(wǎng)站,有超過(guò)七千萬(wàn)用戶。作為豆瓣網(wǎng)站的一部分,豆瓣小組允許用戶建立不同主題的小組。小組成員可以發(fā)布帖子,其他人可以對(duì)帖子進(jìn)行評(píng)論,點(diǎn)擊“喜歡”或者推薦給關(guān)注自己的用戶。實(shí)驗(yàn)抓取的是豆瓣“美劇fans”小組所有的帖子和評(píng)論。
訓(xùn)練集包括從2012-8-1—2012-12-1期間發(fā)布的所有帖子及評(píng)論,測(cè)試集包括從2012-12-1—2013-1-1發(fā)布的所有帖子及評(píng)論。在測(cè)試集中,實(shí)驗(yàn)移除了一些用戶和帖子,以保證測(cè)試集中每個(gè)用戶至少發(fā)表過(guò)2次評(píng)論,每個(gè)帖子至少有5個(gè)用戶評(píng)論。
表1展示了預(yù)處理后訓(xùn)練集和測(cè)試集中帖子、評(píng)論和用戶數(shù)量的統(tǒng)計(jì)數(shù)據(jù)。
表 1 訓(xùn)練集和測(cè)試集統(tǒng)計(jì)數(shù)據(jù)
4.2目標(biāo)用戶集合
在進(jìn)行模型訓(xùn)練和測(cè)試時(shí),由于豆瓣小組中成員眾多(截止到目前,“美劇fans”小組共有178 298個(gè)成員),因此需要選擇構(gòu)建一個(gè)較小的且大小可控的目標(biāo)用戶集。
用TSd表示帖子d的目標(biāo)用戶集合。對(duì)于每個(gè)帖子d,通過(guò)如下方式構(gòu)建TSd:首先將Sd中的所有用戶加入TSd,于是Sd∈TSd,然后從不在Sd中的其他小組成員中隨機(jī)選擇R×|Sd|個(gè)用戶放入TSd中,其中|Sd|代表集合Sd中的用戶數(shù)目,R為實(shí)驗(yàn)中設(shè)定的正整數(shù)。于是,對(duì)數(shù)據(jù)集中的每個(gè)帖子d,都有|Sd|個(gè)正樣例(真正參與評(píng)論的用戶)和|TSd|-|Sd|個(gè)負(fù)樣例(沒(méi)有參與評(píng)論的用戶)。顯然,R越大,數(shù)據(jù)集不平衡問(wèn)題就越嚴(yán)重,換句話說(shuō),R控制著數(shù)據(jù)集的不平衡性。
4.3評(píng)價(jià)標(biāo)準(zhǔn)
(3)
4.4實(shí)驗(yàn)結(jié)果
4.4.1用戶行為和社交關(guān)系特征的作用
首先考察用戶行為和社交關(guān)系這2類(lèi)特征對(duì)Precision@K的作用。圖1(a)和(b)分別展示了R=5和R=10時(shí),測(cè)試集中每個(gè)帖子的Precision@5分布情況,其中黑色線表示加入了用戶行為和社交關(guān)系特征的Precision@5分布,淺色線表示沒(méi)有考慮這2類(lèi)特征的Precision@5分布。圖中所有帖子按Precision@5值降序排列。
從圖1中可以看出,在不考慮用戶行為和社交關(guān)系這2類(lèi)特征時(shí),雖然對(duì)于一小部分帖子,其Precision@5比考慮這2類(lèi)特征時(shí)要高,但整體而言后者的效果更好。表2中的數(shù)據(jù)同樣支持這個(gè)結(jié)論。表2展示了當(dāng)R取不同值時(shí),包含和不包含用戶行為和社交關(guān)系2類(lèi)特征下的平均Precision@5。
表 2 平均Precision@5對(duì)比
4.4.2類(lèi)不平衡性的影響
這里考察類(lèi)不平衡問(wèn)題對(duì)預(yù)測(cè)結(jié)果的影響。圖1(c)和(d)分別展示了R=5和R=10時(shí),測(cè)試集中每個(gè)帖子的Precision@5分布情況,其中黑色線表示采用了EasyEnsemble采樣方法后的Precision@5分布,淺色線表示沒(méi)有對(duì)數(shù)據(jù)集進(jìn)行采樣處理的帖子的Precision@5分布。圖中所有帖子按Precision@5值降序排列。從圖中可以看出,在對(duì)數(shù)據(jù)集進(jìn)行采樣處理后,預(yù)測(cè)結(jié)果得到明顯提升。從表3中同樣可以看出,在對(duì)數(shù)據(jù)集進(jìn)行采樣處理之后,當(dāng)R取不同值時(shí),平均的Precision@K都有顯著提高。
(a)不包括用戶行為和社交關(guān)系特征 vs. 所有特征(R=5)
(b)不包括用戶行為和社交關(guān)系特征 vs. 所有特征(R=10)
(c)基準(zhǔn)方法 vs. EasyEnsemble(R=5)
(d)基準(zhǔn)方法 vs. EasyEnsemble(R=10) 圖1 當(dāng)R取5和10時(shí)不同方法的實(shí)驗(yàn)結(jié)果比較 Fig. 1 Experimental results comparison of different methods when R=5 and R=10
數(shù)據(jù)集R=5R=10R=15R=20不采樣處理0.380.250.180.14EasyEnsemble0.470.360.310.27
4.4.3Precision@K分布
圖2展示了當(dāng)R取不同值時(shí),預(yù)測(cè)結(jié)果Precision@5的分布情況。從圖中可以看出,本文的預(yù)測(cè)框架的性能尚不夠穩(wěn)定,對(duì)于一些帖子的Precision@5接近1,而對(duì)于另一些帖子的Precision@5卻較低。
圖2 當(dāng)R取不同值時(shí)的實(shí)驗(yàn)結(jié)果 Fig. 2 Experimental results with varying R
5結(jié)束語(yǔ)
本文以用戶評(píng)論行為為例,給出一種基于特征的行為預(yù)測(cè)方法。實(shí)驗(yàn)結(jié)果表明,新提出的2種新特征,即用戶行為特征和社交關(guān)系特征,以及控制數(shù)據(jù)集的不平衡性的參數(shù)能夠有效提升行為預(yù)測(cè)準(zhǔn)確度。同時(shí),進(jìn)一步說(shuō)明用戶在社交網(wǎng)站中的評(píng)論行為受到其歷史行為和社交關(guān)系的影響。未來(lái)的研究工作將嘗試分析用戶評(píng)論行為的生成過(guò)程,探討其中起關(guān)鍵作用的因素并建立生成式模型,以提高預(yù)測(cè)結(jié)果的準(zhǔn)確度和可解釋性。
參考文獻(xiàn):
[1]TSAGKIAS M, WEERKAMP W, De RIJKE M. Predicting the volume of comments on online news stories[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York, USA, 2009: 1765-1768.
[2]YANO T, SMITH N A. What’s worthy of comment? Content and comment volume in political blogs[C]//Proceedings of the Fourth International Conference on Weblogs and Social Media. Washington, DC, USA, 2010: 359-362.
[3]ZAMAN T, FOX E B, BRADLOW E T. A bayesian approach for predicting the popularity of tweets[J]. The Annals of Applied Statistics, 2014, 8(3): 1583-1611.
[4]HONG L, DAN O, Davison B D. Predicting popular messages in Twitter[C]//Proceedings of the 20th International Conference Companion on World Wide Web. New York, USA, 2011: 57-58.
[5]MA Haixin, QIAN Weining, XIA Fan, et al. Towards modeling popularity of microblogs[J]. Frontiers of Computer Science, 2013, 7(2): 171-184.
[6]JENDERS M, KASNECI G, NAUMANN F. Analyzing and predicting viral tweets[C]//Proceedings of the 22nd International Conference on World Wide Web Companion. Geneva, Switzerland, 2013: 657-664.
[7]FIGUEIREDO F. On the prediction of popularity of trends and hits for user generated videos[C]//Proceedings of the Sixth ACM International Conference on Web Search and Data Mining. New York, USA, 2013: 741-746.
[8]PINTO H, ALMEIDA J M, GONCALVES M A. Using early view patterns to predict the popularity of Youtube videos[C]//Proceedings of the Sixth ACM International Conference on Web Search and Data Mining. New York, USA, 2013: 365-374.
[9]KHOSLA A, DAS SARMA A, HAMID R. What makes an image popular?[C]//Proceedings of the 23rd International Conference on World Wide Web. Seoul, Korea, 2014: 1-10.
[10]CHENG J, ADAMIC L, DOW P A, et al. Can cascades be predicted?[C]//Proceedings of the 23rd International Conference on World Wide Web. Seoul, Korea, 2014: 925-936.
[11]YANO T, COHEN W W, SMITH N A. Predicting response to political blog posts with topic models[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, USA, 2009: 477-485.
[12]TANG X N, YANG C C, ZHANG M. Who will be participating next? Predicting the participation of dark web community[C]//Proceedings of the ACM SIGKDD Workshop on Intelligence and Security Informatics. New York, USA, 2012: 1-7.
[13]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[14]LIU Xuying, WU Jianxin, ZHOU Zhihua. Exploratory undersampling for class-imbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2009, 39(2): 539-550.
[15]CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.
孔慶超,男,1987年生,博士研究生,主要研究方向?yàn)樯鐣?huì)媒體信息分析與處理、數(shù)據(jù)挖掘。
毛文吉,女,1968年生,研究員,博士生導(dǎo)師,主要研究方向?yàn)橹悄苄畔⑻幚?、人工智能、社?huì)計(jì)算。曾獲國(guó)家科技進(jìn)步二等獎(jiǎng),“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”創(chuàng)新二等獎(jiǎng),“中國(guó)自動(dòng)化學(xué)會(huì)科學(xué)技術(shù)進(jìn)步獎(jiǎng)”一等獎(jiǎng),發(fā)表學(xué)術(shù)論文40余篇。
張育浩,男,1989年生,博士研究生,主要研究方向?yàn)樯鐣?huì)建模與計(jì)算。