劉培玉,侯秀艷+,朱振方,劉 芳,蔡肖紅
1.山東師范大學(xué)信息科學(xué)與工程學(xué)院,濟(jì)南2500142.山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室,濟(jì)南2500143.山東交通學(xué)院信息科學(xué)與電氣工程學(xué)院,濟(jì)南250357
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(04)-0573-09
?
基于熱度聯(lián)合排序的微博熱點(diǎn)話題發(fā)現(xiàn)*
劉培玉1,2,侯秀艷1,2+,朱振方3,劉芳1,2,蔡肖紅1,2
1.山東師范大學(xué)信息科學(xué)與工程學(xué)院,濟(jì)南250014
2.山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室,濟(jì)南250014
3.山東交通學(xué)院信息科學(xué)與電氣工程學(xué)院,濟(jì)南250357
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(04)-0573-09
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant No. 61373148 (國(guó)家自然科學(xué)基金); the National Social Science Foundation of China under Grant No. 12BXW040 (國(guó)家社科基金); the Outstanding Young Scientist Award Fund of Shandong Province under Grant No. BS2013DX033 (山東省優(yōu)秀中青年科學(xué)家獎(jiǎng)勵(lì)基金); the Natural Science Foundation of Shandong Province under Grant No. ZR2012FM038 (山東省自然科學(xué)基金); the Humanity and Social Science Foundation of the Ministry of Education of China under Grant No. 14YJC860042 (教育部人文社科基金); the Social Science Planning Project of Shandong Province under Grant No. 12BXWJ01 (山東省社科規(guī)劃項(xiàng)目).
Received 2015-08,Accepted 2015-10.
CNKI網(wǎng)絡(luò)優(yōu)先出版: 2015-10-28, http://www.cnki.net/kcms/detail/11.5602.TP.20151028.1509.006.html
摘要:微博熱點(diǎn)話題發(fā)現(xiàn)對(duì)于輿情分析和觀點(diǎn)挖掘具有重要作用,提出了一種基于熱度聯(lián)合排序的微博熱點(diǎn)話題發(fā)現(xiàn)方法,并構(gòu)建統(tǒng)一的模型框架將微博文本和熱點(diǎn)主題詞之間的各種關(guān)系進(jìn)行了有機(jī)融合;考慮微博用戶的權(quán)威性以及主題詞的時(shí)間段相關(guān)特性,對(duì)微博文本和主題詞的熱度進(jìn)行了聯(lián)合排序并互相增強(qiáng);使用主題詞組合支持度作為閾值對(duì)熱度序列中的主題詞進(jìn)行聚類以表征熱點(diǎn)話題。實(shí)驗(yàn)表明,所提方法對(duì)于熱點(diǎn)主題詞的抽取以及熱點(diǎn)話題發(fā)現(xiàn)具有較高準(zhǔn)確性,可以及時(shí)有效地發(fā)現(xiàn)特定時(shí)間段內(nèi)的微博熱點(diǎn)話題。
關(guān)鍵詞:熱點(diǎn)話題;主題詞;微博文本;聯(lián)合排序;熱度序列
隨著微博平臺(tái)的蓬勃發(fā)展,微博已成為人們互動(dòng)交流、抒發(fā)情感、表達(dá)訴求的實(shí)時(shí)性工具,同時(shí)也是熱點(diǎn)話題產(chǎn)生和傳播的重要場(chǎng)所。微博熱點(diǎn)話題的發(fā)現(xiàn)有助于政府及時(shí)了解網(wǎng)絡(luò)輿情,以便正確疏導(dǎo)社情民意;有助于商家及時(shí)得到顧客反饋,以便調(diào)整市場(chǎng)策略。然而,微博數(shù)據(jù)呈現(xiàn)實(shí)時(shí)性、大規(guī)模性、短文本以及富含噪音數(shù)據(jù)等特性,為話題事件的分析和挖掘帶來(lái)了新的挑戰(zhàn)[1]。
近年來(lái),國(guó)內(nèi)外針對(duì)微博話題和事件的檢測(cè)開(kāi)展了大量研究。Popescu等人[2]利用監(jiān)督機(jī)器學(xué)習(xí)的方法發(fā)現(xiàn)Twitter中的熱點(diǎn)爭(zhēng)議事件。Becker等人[3]根據(jù)特定時(shí)段內(nèi)話題被檢測(cè)到的次數(shù),提出基于時(shí)序和社會(huì)關(guān)系評(píng)價(jià)的Twitter話題發(fā)現(xiàn)方法。另外,為了避免微博短文本,數(shù)據(jù)稀疏,用詞不規(guī)范,噪聲數(shù)據(jù)等因素的影響,許多研究構(gòu)建用于話題發(fā)現(xiàn)的新穎模型。李勁等人[4]對(duì)潛在狄利克雷分配(latent Dirichlet allocation,LDA)話題模型進(jìn)行擴(kuò)展,建模微博之間的跟帖關(guān)系,挖掘特定領(lǐng)域的中文微博熱點(diǎn)話題。路榮等人[5]利用隱主題模型和文本聚類方法發(fā)現(xiàn)微博中的新聞話題,有效地解決了短文本的數(shù)據(jù)稀疏性問(wèn)題。Ritter等人[6]提出一種方法抽取開(kāi)放領(lǐng)域事件,并利用潛在變分模型來(lái)發(fā)現(xiàn)Twitter中的重要事件類別。Hong等人[7]利用稀疏編碼技術(shù)和統(tǒng)計(jì)話題模型構(gòu)建了稀疏產(chǎn)生式模型,以此發(fā)現(xiàn)微博中的地理位置話題。也有學(xué)者認(rèn)為熱點(diǎn)話題的產(chǎn)生會(huì)引起用戶情感的波動(dòng),從而將情感分析融入話題檢測(cè)。楊亮等人[8]提出情感分布語(yǔ)言模型(emotion distribution language model,ELM)來(lái)發(fā)現(xiàn)微博中的熱點(diǎn)事件。時(shí)達(dá)明[9]通過(guò)計(jì)算評(píng)論與話題的相關(guān)度,對(duì)相關(guān)的評(píng)論內(nèi)容進(jìn)行情感分析,并進(jìn)行Blog熱點(diǎn)話題的發(fā)現(xiàn)。
微博文本和主題詞對(duì)于熱點(diǎn)話題發(fā)現(xiàn)的作用是相輔相成的。當(dāng)一個(gè)熱點(diǎn)話題出現(xiàn)時(shí),與該話題密切相關(guān)的熱點(diǎn)主題詞大量涌現(xiàn),與該話題密切相關(guān)的微博也大量涌現(xiàn),并且這些熱點(diǎn)主題詞在這些微博文本中占有比較大的權(quán)重。因此,從兩個(gè)方面判斷一條微博反映一個(gè)熱點(diǎn)話題的程度:第一,在特定時(shí)間段中,與該微博文本內(nèi)容相似的微博數(shù)量多少;第二,在特定時(shí)間段中,該微博中包含熱點(diǎn)主題詞的數(shù)量多少。同樣從兩個(gè)方面判斷一個(gè)主題詞是不是熱點(diǎn)主題詞:第一,在特定時(shí)間段中,該主題詞與其他熱點(diǎn)主題詞的共現(xiàn)情況;第二,在特定時(shí)間段中,包含該主題詞的微博數(shù)量多少。其中特定時(shí)間段即為熱點(diǎn)話題發(fā)生和存在的階段。
因此,本文綜合考慮了微博文本特征和主題詞特征,挖掘特定時(shí)間段內(nèi)的微博文本之間的基于特征向量的內(nèi)容相似度關(guān)系、主題詞之間的共現(xiàn)關(guān)系以及主題詞在微博文本中的權(quán)重關(guān)系,構(gòu)建統(tǒng)一的關(guān)系模型框架;同時(shí)將微博文本本身的權(quán)威性以及主題詞的時(shí)間段相關(guān)特性融合到該關(guān)系模型,運(yùn)用聯(lián)合排序算法得出特定時(shí)間段內(nèi)的微博文本熱度序列和主題詞熱度序列;基于主題詞的熱度序列及主題詞共現(xiàn)次數(shù)提出主題詞組合支持度,將其作為閾值對(duì)主題詞進(jìn)行凝聚式層次聚類以表示熱點(diǎn)話題。
隨著熱點(diǎn)話題的發(fā)生,在特定的時(shí)間段內(nèi),主題詞會(huì)在數(shù)量龐大的微博文本中突然大量集中涌現(xiàn)。主題詞具有代表性、簡(jiǎn)潔性、時(shí)效性、信息量大、相關(guān)詞語(yǔ)關(guān)聯(lián)度高等特點(diǎn),能夠最大程度地以最小的信息量涵蓋熱點(diǎn)話題的主題和內(nèi)涵[10]。通常用幾個(gè)相關(guān)主題詞就能夠表示一個(gè)熱點(diǎn)話題。
雖然依靠詞典可以快速地對(duì)傳統(tǒng)主題詞進(jìn)行提取,但是對(duì)于隨熱點(diǎn)話題的發(fā)生而在短時(shí)間內(nèi)層出不窮的新詞提取效果不佳,而這些新詞往往包含重要信息,很可能是當(dāng)前的熱點(diǎn)。為了全面提取主題詞,通過(guò)對(duì)微博主題詞的特點(diǎn)進(jìn)行研究發(fā)現(xiàn),微博主題詞具有突然大量涌現(xiàn),存續(xù)周期較短的特點(diǎn),并且與某一特定時(shí)間段強(qiáng)相關(guān),而在特點(diǎn)時(shí)間段之前或之后的時(shí)期里出現(xiàn)頻率不高甚至很低。鑒于此,參照文獻(xiàn)[11]中的領(lǐng)域相關(guān)性度量概念構(gòu)建時(shí)間段相關(guān)性度量(TR)進(jìn)行熱點(diǎn)主題詞的提取。如式(1)所示。
本文建立圖Gww來(lái)描述Tn時(shí)間段內(nèi)主題詞之間的關(guān)系,圖中的節(jié)點(diǎn)表示Vw中的主題詞。如果Tn時(shí)間段內(nèi)主題詞wi和wj在同一條微博共同出現(xiàn)過(guò),則wi和wj之間生成一條邊,邊的權(quán)重用式(4)計(jì)算。
其中,c(wi,wj)表示Tn時(shí)間段內(nèi)同時(shí)包含主題詞wi和wj的微博文本數(shù);c(wi)和c(wj)分別表示Tn時(shí)間段內(nèi)wi和wj各自出現(xiàn)的微博數(shù);N表示Tn時(shí)間段內(nèi)的微博文本總數(shù)。
本文建立圖Gdw來(lái)描述Tn時(shí)間段內(nèi)微博文本集合Vd和熱點(diǎn)主題詞集合Vw之間的關(guān)系,圖中的每個(gè)節(jié)點(diǎn)表示Vd中的一個(gè)微博文本或Vw中的一個(gè)主題詞。如果主題詞wj出現(xiàn)在微博文本di中,則在wj和di之間生成一條邊。邊的權(quán)重wei(di,wj)用主題詞wj在微博文本di中的權(quán)重來(lái)計(jì)算:
如果一個(gè)微博文本能夠反映該時(shí)間段內(nèi)的熱點(diǎn)話題,那么一定存在大量的與之內(nèi)容相似的微博文本,而且這些文本中一定包含大量的能夠反映當(dāng)前熱點(diǎn)話題的主題詞;如果一個(gè)主題詞是能夠反映當(dāng)前熱點(diǎn)話題的主題詞之一,那么一定存在大量的與之共同出現(xiàn)能夠聯(lián)合反映熱點(diǎn)話題的主題詞,并且這些主題詞分布在熱點(diǎn)微博文本中?;谠摾碚摽梢钥闯觯瑢?duì)于特定時(shí)間段內(nèi)的熱點(diǎn)話題挖掘,微博文本和主題詞起著相輔相成的作用,利用微博文本和主題詞之間的相互依存關(guān)系可以更全面有效地發(fā)現(xiàn)熱點(diǎn)話題。
由此,參照文獻(xiàn)[13]用于抽取評(píng)價(jià)詞和評(píng)價(jià)對(duì)象的聯(lián)合排序算法,利用上面構(gòu)建的3個(gè)矩陣,設(shè)計(jì)微博文本和主題詞的熱度聯(lián)合排序算法,對(duì)3個(gè)子圖所描述的各種關(guān)系進(jìn)行擬合,將它們?nèi)诤系浇y(tǒng)一的框架中使關(guān)系相互增強(qiáng),并且在該框架中融入微博文本權(quán)威性和主題詞時(shí)間段相關(guān)特性,最終產(chǎn)生微博文本和主題詞的熱度序列。如式(6)所示。
其中,Hd是時(shí)間段Tn內(nèi)所有微博文本的熱度序列,熱度值越大的微博文本能夠反映該時(shí)間段熱點(diǎn)話題的能力越大。Hw是時(shí)間段Tn內(nèi)所有主題詞的熱度序列,熱度值越大的主題詞能夠反映該時(shí)間段熱點(diǎn)話題的能力也越大。Id表示微博文本的本身權(quán)威性,用發(fā)布該微博文本的用戶是否屬于VIP用戶來(lái)衡量,如果用戶是VIP用戶,則Id對(duì)應(yīng)的條目為1,反之為0。利用主題詞wi歸一化的時(shí)間段相關(guān)性度量來(lái)表示Iw中的每個(gè)條目。λ和μ為擬合參數(shù),λ∈[0,1],μ∈[0,1],且λ+μ<1。算法運(yùn)行直至收斂或迭代次數(shù)達(dá)到50次。
經(jīng)過(guò)上面的工作,得到Tn時(shí)間段內(nèi)所有微博文本的熱度序列和Tn時(shí)間段內(nèi)所有主題詞的熱度序列,微博文本熱度序列里所包含的眾多微博文本用于詳細(xì)描述熱點(diǎn)話題,主題詞熱度序列里數(shù)量有限的熱點(diǎn)主題詞用于概括話題。下面對(duì)熱點(diǎn)主題詞進(jìn)行簡(jiǎn)單聚類以概括表示熱點(diǎn)話題。
同理,n個(gè)詞w1,w2,…,wn的組合支持度為:
算法1熱點(diǎn)話題聚類算法
輸入:Tn時(shí)間段內(nèi)主題詞及其熱度序列Hw。
輸出:主題詞類簇集。
步驟1將熱度序列中的每個(gè)主題詞作為一個(gè)類簇。
步驟2計(jì)算各個(gè)類簇之間的組合支持度,即類簇內(nèi)所有主題詞的組合支持度,將組合支持度最大的兩個(gè)類簇進(jìn)行合并。
步驟3重復(fù)步驟2,直至達(dá)到組合支持度的最小閾值minSupport或者類簇內(nèi)主題詞達(dá)到5個(gè)。
步驟4刪除少于3個(gè)主題詞的類簇,剩余的每個(gè)類簇即可表示一個(gè)熱點(diǎn)話題。
6.1實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)標(biāo)準(zhǔn)
本文采用的實(shí)驗(yàn)數(shù)據(jù)來(lái)自新浪微博2014年7月21日—2014年7月26日共158 430條微博,利用爬蟲(chóng)工具抽取其中的微博文本信息和用戶類型信息。為了消除噪聲數(shù)據(jù),過(guò)濾掉無(wú)用信息,首先對(duì)微博數(shù)據(jù)進(jìn)行預(yù)處理,去除以下內(nèi)容:粉絲數(shù)接近0的用戶所發(fā)布的微博,微博中的“@用戶”字段,“#話題名?!辈糠?,URL鏈接。然后,采用中科院ICTCLAS分詞系統(tǒng)對(duì)微博文本數(shù)據(jù)進(jìn)行分詞并且標(biāo)注詞性,根據(jù)哈工大的停用詞表(1 208個(gè))過(guò)濾掉停用詞和分詞。人工標(biāo)注這段時(shí)間內(nèi)的主要熱點(diǎn)話題有:北京T3航站樓發(fā)生爆炸,北京被重摔女童已死亡嫌犯被刑拘,奶粉沖兌液態(tài)奶,快餐店食用冰塊比馬桶水臟,氣功大師王林變蛇等,這些話題都是人工高度概括的。對(duì)于每個(gè)熱點(diǎn)話題,人工挑選能夠概括表達(dá)該熱點(diǎn)話題的幾個(gè)熱點(diǎn)主題詞,考慮到不同詞性的詞對(duì)主題表達(dá)的貢獻(xiàn)程度不同,其中對(duì)主題表達(dá)和辨識(shí)作用最大的是動(dòng)詞和名詞[14],因此只挑選這兩種詞性,忽略其他詞性的詞。
本文采用信息檢索領(lǐng)域常用的準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-measure)作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo),具體的計(jì)算公式如下:
將人工挑選的熱點(diǎn)主題詞與本文方法識(shí)別出的主題詞進(jìn)行對(duì)比,并對(duì)人工主觀性概括出來(lái)的熱點(diǎn)話題與本文方法聚類產(chǎn)生的熱點(diǎn)話題進(jìn)行比較。實(shí)驗(yàn)中用以上指標(biāo)評(píng)價(jià)熱點(diǎn)主題詞的提取效果和熱點(diǎn)話題的檢測(cè)結(jié)果。其中,System.correct表示正確識(shí)別的熱點(diǎn)主題詞數(shù)或熱點(diǎn)話題數(shù);System.output表示能夠識(shí)別到的熱點(diǎn)主題詞數(shù)或熱點(diǎn)話題數(shù);Human. labeled表示人工標(biāo)注的該時(shí)間段內(nèi)的熱點(diǎn)主題詞總數(shù)或所有話題數(shù)。
6.2參數(shù)設(shè)置
首先,研究參數(shù)μ和λ的不同取值對(duì)熱點(diǎn)主題詞提取結(jié)果的影響。所謂熱點(diǎn)主題詞提取結(jié)果,是指最終聚成的主題詞簇中的主題詞與人工挑選的主題詞相對(duì)比的結(jié)果。參數(shù)μ表示考慮微博用戶的自身權(quán)威性和主題詞的時(shí)間段相關(guān)性時(shí)對(duì)熱點(diǎn)主題詞提取結(jié)果的貢獻(xiàn)大??;λ表示考慮微博文本之間的相似度關(guān)系或主題詞之間的共現(xiàn)關(guān)系時(shí)對(duì)熱點(diǎn)主題詞提取結(jié)果的貢獻(xiàn)大??;1-λ-μ則表示考慮微博文本和主題詞之間的重要性關(guān)系時(shí)對(duì)熱點(diǎn)主題詞提取結(jié)果的貢獻(xiàn)大小。
Fig.1 Influence of μ on hot topic keywords extraction圖1 參數(shù)μ對(duì)熱點(diǎn)主題詞提取結(jié)果的影響
圖1中,λ取固定值0.5,μ值從0到0.9變化,可以看出,當(dāng)μ值取0.1時(shí),準(zhǔn)確率、召回率和F值最高。這說(shuō)明考慮微博用戶自身權(quán)威性和主題詞的時(shí)間段相關(guān)性對(duì)熱點(diǎn)主題詞提取是有一定作用的。但是隨著μ值增加,性能曲線趨于下降,當(dāng)μ值超過(guò)0.5后,下降速度變得更快。這說(shuō)明如果過(guò)多地考慮微博用戶的本身權(quán)威性和主題詞的時(shí)間段相關(guān)性,而沒(méi)有充分考慮或忽視微博文本之間的相似度關(guān)系、主題詞之間的共現(xiàn)關(guān)系、微博文本和主題詞之間的重要性關(guān)系,熱點(diǎn)主題詞的提取效果會(huì)適得其反。
圖2中,μ取固定值0.1,λ值從0到0.9變化,可以看出,隨著λ值增大,準(zhǔn)確率、召回率和F值上升,當(dāng)λ值取0.5時(shí),實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)。這說(shuō)明微博文本之間的相似度關(guān)系、主題詞之間的共現(xiàn)關(guān)系、微博文本和主題詞之間的權(quán)重關(guān)系對(duì)熱點(diǎn)主題詞提取都有重要作用,同時(shí)考慮這3種關(guān)系有利于提高熱點(diǎn)主題詞的提取效果。
Fig.2 Influence of λon hot topic keywords extraction圖2 參數(shù)λ對(duì)熱點(diǎn)主題詞提取結(jié)果的影響
其次,考慮閾值minSupport對(duì)熱點(diǎn)話題檢測(cè)結(jié)果的影響。閾值minSupport影響熱點(diǎn)主題詞的聚類效果,從而影響熱點(diǎn)話題的檢測(cè)效果。當(dāng)μ設(shè)置為0.1,λ設(shè)置為0.5時(shí),閾值minSupport取不同值,熱點(diǎn)話題的檢測(cè)效果如表1所示。
從表1可以看出,當(dāng)閾值minSupport取30時(shí),準(zhǔn)確率、召回率、F值分別取得最優(yōu)值。隨著聚類閾值minSupport的增大,召回率變化很小,而準(zhǔn)確率持續(xù)降低,這是因?yàn)檫^(guò)大的閾值minSupport會(huì)將不屬于同一話題的主題詞聚成一個(gè)類簇,導(dǎo)致熱點(diǎn)話題識(shí)別錯(cuò)誤的發(fā)生,降低了熱點(diǎn)話題檢測(cè)的準(zhǔn)確率。若閾值minSupport取值過(guò)小,導(dǎo)致無(wú)法將描述同一熱點(diǎn)話題的主題詞聚成一類,造成熱點(diǎn)主題詞識(shí)別不全,降低了召回率。因此閾值minSupport取30時(shí)熱點(diǎn)話題檢測(cè)效果最佳,準(zhǔn)確率達(dá)到58.34%,召回率達(dá)到76.21%,F(xiàn)值達(dá)到66.09%。
取閾值minSupport為30時(shí),對(duì)2014年7月21日—2014年7月26日期間的微博進(jìn)行熱點(diǎn)話題檢測(cè),得到12個(gè)能夠正確表示熱點(diǎn)話題的主題詞類簇。如表2所示。
Table 1 Influence of minSupport on hot topic detection表1 閾值minSupport對(duì)熱點(diǎn)話題檢測(cè)結(jié)果的影響
6.3實(shí)驗(yàn)對(duì)比
選擇文獻(xiàn)[10]和文獻(xiàn)[15]提出的方法作為兩種Baseline方法,并且與本文方法進(jìn)行微博熱點(diǎn)話題發(fā)現(xiàn)結(jié)果對(duì)比。文獻(xiàn)[10]提出的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)方法(記為Baseline1),主要思想是通過(guò)主題詞表和識(shí)別有意義串優(yōu)化主題詞候選集,采用多特征融合計(jì)算主題詞權(quán)重,然后進(jìn)行詞聚類表示熱點(diǎn)話題。本文將之用于微博熱點(diǎn)話題識(shí)別。文獻(xiàn)[15]提出基于速度增長(zhǎng)的微博熱點(diǎn)話題發(fā)現(xiàn)(記為Baseline2),主要通過(guò)詞頻和詞的增長(zhǎng)速度、用戶增長(zhǎng)速度、微博增長(zhǎng)速度等來(lái)選取熱點(diǎn)主題詞,同樣進(jìn)行詞聚類。本文方法與兩種Baseline方法在熱點(diǎn)話題檢測(cè)的準(zhǔn)確率、召回率、F值方面的對(duì)比結(jié)果如圖3所示。
由圖3可以看出,與Baseline1相比,本文方法的召回率和F值略低。分析可能的原因是微博語(yǔ)料過(guò)少,導(dǎo)致選取的主題詞數(shù)量不足,另外微博噪音太多,選取主題詞質(zhì)量不夠高。而B(niǎo)aseline1方法是通過(guò)采集搜狗、百度等網(wǎng)站的熱門搜索詞,并利用有意義串進(jìn)行新詞識(shí)別,主題詞選取效果較好。但是本文方法省去了人工構(gòu)建詞典和有意義串的繁瑣工作。
與Baseline2方法相比,本文無(wú)論是準(zhǔn)確率、召回率還是F值都較大提高。分析原因有以下兩點(diǎn):
(1)在提取熱點(diǎn)主題詞方面,Baseline方法只是簡(jiǎn)單將窗口內(nèi)增長(zhǎng)速度大于閾值的詞作為主題詞。本文首先考慮詞的時(shí)間段相關(guān)性及微博用戶類型,將時(shí)間段相關(guān)性較大的主題詞與該時(shí)間段內(nèi)的微博文本進(jìn)行熱度聯(lián)合排序,其中融合了微博文本之間的內(nèi)容相似度關(guān)系、主題詞之間的共現(xiàn)關(guān)系以及主題詞在微博文本中的權(quán)重關(guān)系。最終得到的主題詞熱度序列里熱點(diǎn)主題詞具有較高的可信度和準(zhǔn)確率。
Table 2 Correct topic keywords clusters to express hot topics表2 正確表示熱點(diǎn)話題的主題詞類簇
Fig.3 Comparison of micro-blog hot topic detection methods圖3 微博熱點(diǎn)話題發(fā)現(xiàn)結(jié)果對(duì)比
(2)在話題聚類方面,Baseline方法將相似度大于閾值的主題詞聚類,算法過(guò)于簡(jiǎn)單,只是在相似度計(jì)算方法上有所創(chuàng)新。本文首先提出主題詞之間組合支持度的概念,以主題詞熱度序列為基礎(chǔ),恰當(dāng)?shù)剡x擇初始類簇,同時(shí)由于熱度序列里主題詞數(shù)量有限,聚類算法時(shí)間復(fù)雜度較低,聚類精度較高。
本文通過(guò)研究發(fā)現(xiàn),微博文本和熱點(diǎn)主題詞對(duì)于微博熱點(diǎn)話題的發(fā)現(xiàn)起著相輔相成的作用,于是構(gòu)建關(guān)系模型框架將特定時(shí)間段內(nèi)的微博文本及主題詞之間的各種關(guān)系進(jìn)行有機(jī)融合,進(jìn)行熱度聯(lián)合排序,并對(duì)熱度序列中的主題詞進(jìn)行有效聚類以表征熱點(diǎn)話題。實(shí)驗(yàn)表明,本文方法對(duì)于熱點(diǎn)主題詞提取及微博熱點(diǎn)話題發(fā)現(xiàn)具有一定可行性。
文中人為地選取時(shí)間段相關(guān)性大的主題詞作為初始熱點(diǎn)主題詞加入關(guān)系模型,具體選取的數(shù)量或閾值是否應(yīng)該根據(jù)時(shí)間段的長(zhǎng)短來(lái)決定有待進(jìn)一步研究。另外,熱點(diǎn)話題識(shí)別的準(zhǔn)確率還有很大的提升空間,主題詞聚類算法需要進(jìn)一步優(yōu)化,這些都是后續(xù)工作研究重點(diǎn)。
References:
[1] Ding Zhaoyun, Jia Yan, Zhou Bin. Survey of data mining for microblogs[J]. Journal of Computer Research and Development, 2014, 51(4): 691-706.
[2] Popescu A M, Pennacchiotti M. Detecting controversial events from Twitter[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management, Toronto, Canada, Oct 25-29, 2010. New York, USA:ACM, 2010: 1827-1836.
[3] Becker H, Naaman M, Gravano L. Beyond trending topics: real-world event identification on Twitter[C]//Proceedings of the 5th International AAAI Conference on Weblogs and Social Media, Barcelona, Spain, Jul 17-21, 2011. Menlo Park, USA:AAAI, 2011: 438-441.
[4] Li Jin, Zhang Hua, Wu Haoxiong, et al. BTopicMiner: domainspecific topic mining system for Chinese microblog[J]. Journal of Computer Applications, 2012, 32(8): 2346-2349.
[5] Lu Rong, Xiang Liang, Liu Mingrong, et al. Extracting news topics from microblogs based on hidden topics analysis and text clustering[C]//Proceedings of the 6th China Conference on Information Retrieval. Beijing: Chinese Information Processing Society of China, 2010: 291-298.
[6] Ritter A, Mausam B, Etzioni O, et al. Open domain event extraction from Twitter[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Beijing, China, Aug 12-16, 2012. New York, USA:ACM, 2012: 1104-1112.
[7] Hong L,Amr A, Gurumurthy S, et al. Discovering geographical topics in the Twitter stream[C]//Proceedings of the 12th International Conference on World Wide Web, Lyon, France, Apr 16-20, 2012. New York, USA:ACM, 2012: 769-778.
[8] Yang Liang, Lin Yuan, Lin Hongfei. Micro-blog hot events detection based on emotion distribution[J]. Journal of Chinese Information Processing, 2012, 26(1): 84-90.
[9] Shi Daming. Blog hot post discovery and author reputation degree research[D]. Dalian: Dalian University of Technology, 2007.
[10] Li Hengxun, Zhang Huaping, Qin Peng, et al. Keywords based hot topic detection on Internet[C]//The 5th China Conference on Information Retrieval. Beijing: Chinese Information Processing Society of China, 2009: 134-143.
[11] Zhen Hai, Chang Kuiyu, Kim Jung-Jae, et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(3): 623-634.
[12] Wu Qiong, Tan Songbo, Xu Hongbo, et al. Cross-domain opinion analysis based on random-walk model[J]. Journal of Computer Research and Development, 2010, 47(12): 2123-2131.
[13] Liu Kang, Xu Liheng, Zhao Jun. Extracting opinion targets and opinion words from online reviews with graph co-ranking [C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, USA, Jun 23-25, 2014. Stroudsburg, USA:ACL, 2014: 314-324.
[14] Zheng Feiran, Miao Duoqian, Zhang Zhifei, et al. News topic detection approach on Chinese microblog[J]. Computer Science, 2012, 39(1):138-141.
[15] Xue Suzhi, Lu Ran, Ren Yuanyuan. Hot topics found on microblog based on speed growth[J]. Application Research of Computers, 2013, 30(9): 2598-2601.
附中文參考文獻(xiàn):
[1]丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展, 2014, 51(4): 691-706.
[4]李勁,張華,吳浩雄,等.基于特定領(lǐng)域的中文微博熱點(diǎn)話題挖掘系統(tǒng)BTopicMiner[J].計(jì)算機(jī)應(yīng)用, 2012, 32(8): 2346-2349.
[5]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集.北京:中國(guó)中文信息學(xué)會(huì), 2010: 291-298.
[8]楊亮,林原,林鴻飛.基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J].中文信息學(xué)報(bào), 2012, 26(1): 84-90.
[9]時(shí)達(dá)明. Blog熱點(diǎn)話題發(fā)現(xiàn)及其作者聲譽(yù)度研究[D].大連:大連理工大學(xué), 2007.
[10]李恒訓(xùn),張華平,秦鵬,等.基于話題詞的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)[C]//第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集.北京:中國(guó)中文信息學(xué)會(huì), 2009: 134-143.
[12]吳瓊,譚松波,許洪波,等.基于隨機(jī)游走模型的跨領(lǐng)域傾向性分析研究[J].計(jì)算機(jī)研究與發(fā)展, 2010, 47(12): 2123-2131.
[14]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測(cè)方法[J].計(jì)算機(jī)科學(xué), 2012, 39(1): 138-141.
[15]薛素芝,魯燃,任圓圓.基于速度增長(zhǎng)的微博熱點(diǎn)話題發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究, 2013, 30(9): 2598-2601.
LIU Peiyu was born in 1960. He received the M.S. degree in computer application from East China Normal University in 1986. Now he is a professor and Ph.D. supervisor at Shandong Normal University, and the senior member of CCF. His research interests include network information security and natural language processing, etc.
劉培玉(1960—),男,山東臨朐人,1986年于華東師范大學(xué)獲得碩士學(xué)位,現(xiàn)為山東師范大學(xué)教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息安全,自然語(yǔ)言處理等。發(fā)表學(xué)術(shù)論文60余篇,主編教材8部,主持或參加縱向課題11項(xiàng)。
HOU Xiuyan was born 1990. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interests include natural language processing and Chinese opinion analysis, etc.
侯秀艷(1990—),女,山東文登人,山東師范大學(xué)碩士研究生,CCF學(xué)生會(huì)員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,中文傾向性分析等。
ZHU Zhenfang was born in 1980. He received the Ph.D. degree from Shandong Normal University. He is a lecturer at Shandong Traffic Institute. His research interests include information security and information filtering, etc.
朱振方(1980—),男,山東臨沂人,博士,山東交通學(xué)院講師,主要研究領(lǐng)域?yàn)樾畔踩?,信息過(guò)濾等。
LIU Fang was born in 1990. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interest is computer security.
劉芳(1990—),女,山東臨沂人,山東師范大學(xué)碩士研究生,CCF學(xué)生會(huì)員,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)安全。
CAI Xiaohong was born in 1988. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interests include natural language processing and Chinese opinion analysis, etc.
蔡肖紅(1988—),女,山東泰安人,山東師范大學(xué)碩士研究生,CCF學(xué)生會(huì)員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,中文傾向性分析等。
Micro-Blog Hot Topic Detection Based on Heat Co-ranking?
LIU Peiyu1,2, HOU Xiuyan1,2+, ZHU Zhenfang3, LIU Fang1,2, CAI Xiaohong1,2
1. School of Information Science&Engineering, Shandong Normal University, Jinan 250014, China
2. Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology, Jinan 250014, China
3. College of Information Science and Electrical Engineering, Shandong Traffic Institute, Jinan 250357, China
+ Corresponding author: E-mail: alicehouhxy@163.com
LIU Peiyu, HOU Xiuyan, ZHU Zhenfang, et al. Micro-blog hot topic detection based on heat co-ranking. Journal of Frontiers of Computer Science and Technology, 2016, 10(4): 573-581.
Abstract:Micro-blog hot topic detection plays an important role in public opinion analysis and opinion mining. In order to reduce the impact of data sparsity on topic detection, this paper proposes an approach for micro-blog hot topic detection based on heat co-ranking, builds a unified model framework to organically integrate all relationships between micro-blog texts and topic keywords. The authority of micro-blog user and the time-related characteristics of topic keywords are simultaneously considered, and the heat of micro-blog texts and topic keywords gets mutual reinforcement and co-ranking. Topic keywords in hot sequence are clustered by using the combination support confidencebook=574,ebook=128as a threshold. The experimental results show that the proposed method has high accuracy for hot keywords extraction and hot topic detection, can effectively discover micro-blog hot topics in a specific period.
Key words:hot topic; topic keywords; micro-blog text; co-ranking; heat sequence
文獻(xiàn)標(biāo)志碼:A
中圖分類號(hào):TP391
doi:10.3778/j.issn.1673-9418.1509078