王和勇 洪 明
(華南理工大學(xué)電子商務(wù)系 ,廣東 廣州510006)
特征融合在微博數(shù)據(jù)挖掘中的應(yīng)用研究
王和勇洪明
(華南理工大學(xué)電子商務(wù)系 ,廣東 廣州510006)
針對(duì)傳統(tǒng)的微博聚類(lèi)分析中,只單獨(dú)針對(duì)微博閱讀數(shù)、評(píng)論數(shù)等數(shù)據(jù) (下稱(chēng)微博結(jié)構(gòu)化數(shù)據(jù))進(jìn)行分類(lèi)或者單獨(dú)針對(duì)由微博內(nèi)容進(jìn)行文本分詞得到的分詞數(shù)據(jù) (下稱(chēng)微博分詞)進(jìn)行分類(lèi)的問(wèn)題,本文采用了Kohonen聚類(lèi),研究結(jié)合微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞的融合數(shù)據(jù)聚類(lèi)的效果是否比單獨(dú)對(duì)微博結(jié)構(gòu)化數(shù)據(jù)或?qū)ξ⒉┓衷~聚類(lèi)有所提高。實(shí)證數(shù)據(jù)實(shí)驗(yàn)結(jié)果顯示 ,微博結(jié)構(gòu)化數(shù)據(jù)單獨(dú)聚類(lèi)會(huì)出現(xiàn)一個(gè)類(lèi)的標(biāo)準(zhǔn)差特別大 (本文稱(chēng)為離群類(lèi)),而對(duì)融合數(shù)據(jù)聚類(lèi) ,微博結(jié)構(gòu)化數(shù)據(jù)則不會(huì)出現(xiàn)離群類(lèi);融合數(shù)據(jù)聚類(lèi)結(jié)果對(duì)微博分詞的影響不顯著。
微博 ;聚類(lèi);融合數(shù)據(jù)
微博是當(dāng)今流行的信息發(fā)布和交流的工具,微博蘊(yùn)含著大量的信息資源,成為數(shù)據(jù)分析的重要數(shù)據(jù)來(lái)源。微博數(shù)據(jù)可以分為兩類(lèi) ,一類(lèi)是結(jié)構(gòu)化數(shù)據(jù),微博的用戶名、閱讀數(shù)、轉(zhuǎn)播數(shù)、發(fā)表日期等微博相關(guān)的信息 (下稱(chēng) “微博結(jié)構(gòu)化數(shù)據(jù)”);另一類(lèi)是非結(jié)構(gòu)化數(shù)據(jù)即微博用戶發(fā)表微博內(nèi)容的文本數(shù)據(jù) (下稱(chēng) “微博內(nèi)容”)。
在微博研究中,往往需要對(duì)微博數(shù)據(jù)進(jìn)行分類(lèi)以發(fā)現(xiàn)某些數(shù)據(jù)間有趣的規(guī)律和模式。而從微博中收集的現(xiàn)實(shí)數(shù)據(jù)往往沒(méi)有預(yù)先定義的分類(lèi) ,由于微博數(shù)據(jù)龐大 ,無(wú)法進(jìn)行手工分類(lèi),必須采用一些分類(lèi)方法進(jìn)行處理。由于微博非結(jié)構(gòu)化數(shù)據(jù)都是經(jīng)過(guò)文本分詞轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有關(guān)分類(lèi)研究,由微博內(nèi)容轉(zhuǎn)化成的結(jié)構(gòu)化數(shù)據(jù)下文稱(chēng)為“微博分詞”。
文獻(xiàn)中,馬彬、洪宇、陸劍江、姚建民和朱巧明(2012)利用線索樹(shù)雙層聚類(lèi)過(guò)濾垃圾微博,進(jìn)而實(shí)現(xiàn)微博話題檢測(cè) (微博分詞聚類(lèi))[1];張國(guó)安和鐘紹輝 (2012)分析用戶數(shù)據(jù),利用K均值聚類(lèi)研究微博用戶分類(lèi) (微博結(jié)構(gòu)化數(shù)據(jù)聚類(lèi))[2];路榮、項(xiàng)亮、劉明榮和楊青 (2012)利用兩層K均值和層次聚類(lèi)的混和聚類(lèi)方法對(duì)微博文本進(jìn)行聚類(lèi)從而檢測(cè)出新聞話題 (微博分詞聚類(lèi))[3];潘大慶(2012)利用層次聚類(lèi)以敏感話題為單位對(duì)微博進(jìn)行分類(lèi)(微博分詞聚類(lèi))[4];熊祖濤 (2013)基于文本稀疏性問(wèn)題,描述了多種微博文本聚類(lèi)的方法 (微博分詞聚類(lèi))[5];英文文獻(xiàn)中,Yang C,Ding H,Yang J等 (2012)利用K-均值聚類(lèi)算法發(fā)現(xiàn)微博中的用戶社區(qū) (微博分詞聚類(lèi))[6];Olariu A.(2013)利用層次聚類(lèi)對(duì)Twitter的文本進(jìn)行分類(lèi)從而提高微博流匯總算法的有效性(微博分詞聚類(lèi))[7];Muhammad Atif Qureshi,Colm O'Riordan,Gabriella Pasi(2013)利用聚類(lèi)分析來(lái)檢測(cè)Twitter上公司的聲望 (微博分詞聚類(lèi))[8];Huang B、Yang Y、Mahmood A等 (2013)利用單遍聚類(lèi)方法來(lái)發(fā)現(xiàn)微博話題 (微博分詞聚類(lèi))[9];Elena Baralis、Tania Cerquitelli、Silvia Chiusano等 (2013)對(duì)Twitter同一話題發(fā)表內(nèi)容的用戶進(jìn)行聚類(lèi)以發(fā)現(xiàn)相似的群組 (微博分詞聚類(lèi))[10]。目前的文獻(xiàn)都只是單獨(dú)針對(duì)微博結(jié)構(gòu)化數(shù)據(jù)或者單獨(dú)針對(duì)微博分詞進(jìn)行聚類(lèi)分析,得到一個(gè)分類(lèi),本文將微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞結(jié)合起來(lái)形成融合數(shù)據(jù),研究對(duì)融合數(shù)據(jù)進(jìn)行聚類(lèi)的分類(lèi)效果是否比單獨(dú)對(duì)微博結(jié)構(gòu)化數(shù)據(jù)或微博分詞聚類(lèi)的分類(lèi)效果有所優(yōu)化。
通過(guò)軟件抓取騰訊微博 “房?jī)r(jià)”話題的數(shù)據(jù) ,首先提取出用戶名,閱讀數(shù)等微博結(jié)構(gòu)化數(shù)據(jù)和微博內(nèi)容的文本 ,對(duì)微博內(nèi)容的文本進(jìn)行文本分詞形成微博分詞,然后將微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞結(jié)合形成包含微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞的融合數(shù)據(jù)。聚類(lèi)實(shí)驗(yàn)部分分別進(jìn)行對(duì)微博結(jié)構(gòu)化數(shù)據(jù)、微博分詞和融合數(shù)據(jù)所有字段的Kohonen神經(jīng)網(wǎng)絡(luò)聚類(lèi)分析,通過(guò)字段聚類(lèi)后的標(biāo)準(zhǔn)差比較聚類(lèi)結(jié)果的相對(duì)好壞,驗(yàn)證融合了微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞的數(shù)據(jù)是否比單獨(dú)的微博結(jié)構(gòu)化數(shù)據(jù)和單獨(dú)的微博分詞聚類(lèi)效果有所提高。
1.1數(shù)據(jù)搜集
本文利用軟件搜集騰訊微博2011年11月8日 -2014年2月15日話題為 “房?jī)r(jià)”的數(shù)據(jù)共2 000條。搜集來(lái)的數(shù)據(jù)是HTML形式,需要進(jìn)一步的處理提取出結(jié)構(gòu)化字段和微博的文本內(nèi)容,原始數(shù)據(jù)具體的情況如表1所示。
表1 R微博原始數(shù)據(jù)
1.2數(shù)據(jù)整理
采集的數(shù)據(jù)是HTML的形式,為半結(jié)構(gòu)化的數(shù)據(jù),因此需要提取出結(jié)構(gòu)化的字段微博結(jié)構(gòu)化數(shù)據(jù)和微博的內(nèi)容。經(jīng)過(guò)閱讀THML代碼,代碼中可以提取的結(jié)構(gòu)化字段名稱(chēng),含義及格式如表2所示。
表2 R微博結(jié)構(gòu)化數(shù)據(jù)
本文使用R語(yǔ)言提取HTML文件中的微博結(jié)構(gòu)化數(shù)據(jù)和微博內(nèi)容。提取的過(guò)程如圖1所示。
圖1 RR提取微博結(jié)構(gòu)化數(shù)據(jù)和微博內(nèi)容
用R語(yǔ)言提取出的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在EXCEL表格中,去掉重復(fù)的數(shù)據(jù)。在過(guò)程中發(fā)現(xiàn)有些微博的時(shí)間是 “今天10∶10”這樣沒(méi)有確切時(shí)間的數(shù)據(jù),將其作為缺失處理,用NULL補(bǔ)全數(shù)據(jù),因?yàn)椴磺宄l(fā)表日期,所以發(fā)表時(shí)間意義不大,因此發(fā)表日期為 NULL的條目發(fā)表時(shí)刻也設(shè)為NULL。微博內(nèi)容的文本數(shù)據(jù)存儲(chǔ)在文本文件中。去掉了重復(fù)的數(shù)據(jù)后,現(xiàn)存的數(shù)據(jù)有1 672條,如果去掉發(fā)表時(shí)間和發(fā)表時(shí)刻為NULL的數(shù)據(jù),則剩余1 399條。
微博內(nèi)容數(shù)據(jù)存放在TXT文本文件中,每一條微博為一行。
2.1文本分詞
文本屬于非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)利用現(xiàn)有的技術(shù)無(wú)法直接處理,因此需要將文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。根據(jù)一個(gè)文本中詞語(yǔ)的意義將文本劃分為一個(gè)一系列的有意義的詞的向量并統(tǒng)計(jì)每個(gè)有意義詞在一個(gè)文本中出現(xiàn)的次數(shù)即詞頻,這樣就將一個(gè)文本有非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。有意義的詞是字段,詞頻是字段的值。非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化過(guò)程如圖2所示。
圖2 RR文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)過(guò)程
語(yǔ)料庫(kù)是匯總非結(jié)構(gòu)化文本 ,一個(gè)文檔就是一個(gè)獨(dú)立的文本,本文把每一條微博內(nèi)容作為一個(gè)文檔,文本庫(kù)是在語(yǔ)料庫(kù)的基礎(chǔ)上去掉了停用詞,數(shù)字等無(wú)用信息的非結(jié)構(gòu)化純文本,而且初始的非結(jié)構(gòu)化文本可能是HTML,XML等文件,因此由語(yǔ)料庫(kù)轉(zhuǎn)化為文本庫(kù)是必要的。文檔詞條矩陣是將每一個(gè)文檔分詞 ,然后統(tǒng)計(jì)每個(gè)文檔中詞條 (即前文說(shuō)的有意義的詞)的詞頻,形成的一個(gè)以文檔為行,詞條為列的矩陣。文檔詞條矩陣是非結(jié)構(gòu)化文本的結(jié)構(gòu)化表現(xiàn)形式。
本文以R語(yǔ)言的tm包為基礎(chǔ),構(gòu)建語(yǔ)料庫(kù)和文本庫(kù)以及文檔詞條矩陣,使用Rwordseg包分詞。
2.2文本分詞實(shí)驗(yàn)
利用本文數(shù)據(jù)和R語(yǔ)言進(jìn)行文本分詞的過(guò)程如圖3所示。
圖3 RRR語(yǔ)言文本分詞過(guò)程
在建立結(jié)構(gòu)化數(shù)據(jù)的過(guò)程中,對(duì)分詞進(jìn)行了兩次篩選,第一次是篩選出分詞中的名詞,因?yàn)槊~的意義比較大 ,含義比較豐富。第二次是根據(jù)文檔詞條矩陣篩選出了詞頻大于200的詞,因?yàn)榻⒌木仃囅∈瑁矣行┰~的詞頻很小,很難有代表性,因此人為選擇詞頻大于200的分詞。實(shí)驗(yàn)過(guò)程中提取出詞頻100以上,200以上,300以上,400以上和500以上的詞。
實(shí)驗(yàn)中發(fā)現(xiàn),詞頻大于100的詞太多,會(huì)導(dǎo)致文檔詞條矩陣過(guò)于稀疏,不利于進(jìn)一步實(shí)驗(yàn),詞頻大于200的詞數(shù)量比較適中,而選擇詞頻大于300的詞數(shù)量稀少,因此選擇詞頻大于200的詞。在詞頻大于200的詞中,有些詞跟房?jī)r(jià)的關(guān)聯(lián)性不大,因此進(jìn)一步人為篩選,人工去掉“價(jià)”,“房?jī)r(jià)”,“錢(qián)”,“人”,“問(wèn)題”,“新聞”和 “中國(guó)”去掉,這些詞語(yǔ)跟房?jī)r(jià)沒(méi)有太大的關(guān)聯(lián)性。因此 ,整理后的微博文本結(jié)構(gòu)化數(shù)據(jù)的字段即微博分詞如表3所示。
2.3數(shù)據(jù)融合
在原來(lái)的結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上 ,把微博分詞融合到微博結(jié)構(gòu)化數(shù)據(jù)當(dāng)中,形成一個(gè)新的數(shù)據(jù)表,該數(shù)據(jù)表的字段匯總?cè)绫?所示。
表3 R微博分詞字段
表4 R融合數(shù)據(jù)字段
3.1Kohonen神經(jīng)網(wǎng)絡(luò)聚類(lèi)簡(jiǎn)介
Kohonen神經(jīng)網(wǎng)絡(luò)聚類(lèi)的原理大致是:當(dāng)一條數(shù)據(jù)輸入到輸入層,輸入層將數(shù)據(jù)項(xiàng)的變量特征作為刺激信號(hào)傳遞給輸出層,輸出層中對(duì)該信號(hào)最為敏感的節(jié)點(diǎn) “獲勝”,作為最能解釋該數(shù)據(jù)項(xiàng)的節(jié)點(diǎn)。對(duì)每條數(shù)據(jù)進(jìn)行相同的操作,最后輸出層形成一個(gè)二維的結(jié)構(gòu),即是聚類(lèi)的輸出結(jié)果。
Kohonen神經(jīng)網(wǎng)絡(luò)聚類(lèi)的過(guò)程如下:
3.1.1確定聚類(lèi)的初始中心
設(shè)有p個(gè)輸入節(jié)點(diǎn),則在時(shí)刻 t第j個(gè)輸出節(jié)點(diǎn)和p個(gè)輸入節(jié)點(diǎn)的中心Wj(t)為:
其中,w1j(t)(i=1,2,3,…,p)是連接的權(quán)值。剛開(kāi)始時(shí)權(quán)值是隨機(jī)的,因此,剛開(kāi)始的聚類(lèi)中心也是隨機(jī)的。
3.1.2確定獲勝節(jié)點(diǎn)
在時(shí)刻 t,一條數(shù)據(jù)X(t)到達(dá)輸入層,根據(jù)X(t)屬性計(jì)算其與類(lèi)中心的歐氏距離 d(t),最后選出d(t)最小的類(lèi)中心Wc(t),Wc(t)便是獲勝節(jié)點(diǎn)。
3.1.3調(diào)整獲勝節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)的類(lèi)中心位置
當(dāng)Wc(t)對(duì)一條數(shù)據(jù) X(t)勝出時(shí),Wc(t)及其鄰居節(jié)點(diǎn)對(duì)輸入層節(jié)點(diǎn)的權(quán)值需要調(diào)整 ,也就調(diào)整了類(lèi)中心。調(diào)整Wc(t)類(lèi)中心的方法如下:
其中,η(t)表示時(shí)刻 t的學(xué)習(xí)率。
Wc(t)鄰居節(jié)點(diǎn)指的是以Wc(t)為圓心 ,指定半徑內(nèi)的節(jié)點(diǎn),鄰居節(jié)點(diǎn)Wj(t)的調(diào)整方法如下:
其中,hjc(t)是時(shí)刻Wj(t)和Wc(t)的距離的度量。hjc(t)的一種形式是切比雪夫距離:
3.1.4判斷是否迭代終止
迭代終止的條件一般是權(quán)值基本穩(wěn)定或者到達(dá)預(yù)定義的迭代次數(shù),如果滿足條件,終止,否則回到第二步。
3.2Kohonen神經(jīng)網(wǎng)絡(luò)聚類(lèi)實(shí)驗(yàn)
本文使用SPSSClementine軟件作為實(shí)驗(yàn)環(huán)境,以6種比例的訓(xùn)練集來(lái)進(jìn)行實(shí)驗(yàn),分別使用50% ,60% ,70% ,80% ,90%和100%的數(shù)據(jù)進(jìn)行聚類(lèi)實(shí)驗(yàn)。利用融合數(shù)據(jù)隨機(jī)篩選出上述比例的數(shù)據(jù),實(shí)驗(yàn)時(shí)分別提取出融合數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),文本結(jié)構(gòu)化數(shù)據(jù)分別進(jìn)行聚類(lèi)實(shí)驗(yàn),最后再進(jìn)行融合數(shù)據(jù)聚類(lèi)實(shí)驗(yàn)。實(shí)驗(yàn)中剔除 “用戶名”、“發(fā)表日期”和 “發(fā)表時(shí)刻”以確保所有字段都是數(shù)字類(lèi)型,使得微博結(jié)構(gòu)化數(shù)據(jù)的字段和文微博分詞的字段具有可比性。具體的實(shí)驗(yàn)步驟如圖4所示。
3.3實(shí)驗(yàn)結(jié)果對(duì)比分析
按照實(shí)驗(yàn)步驟對(duì)各個(gè)比例的融合數(shù)據(jù)分別進(jìn)行微博結(jié)構(gòu)化數(shù)據(jù)聚類(lèi),微博分詞聚類(lèi)以及融合數(shù)據(jù)聚類(lèi)。聚類(lèi)結(jié)果顯示,在6個(gè)不同比例的訓(xùn)練集實(shí)驗(yàn)數(shù)據(jù)下,微博結(jié)構(gòu)化數(shù)據(jù)聚類(lèi),微博分詞聚類(lèi),融合數(shù)據(jù)聚類(lèi)都分為12類(lèi)。
評(píng)判聚類(lèi)效果的方法很多,本文使用標(biāo)準(zhǔn)差來(lái)評(píng)價(jià)聚類(lèi)的相對(duì)好壞,1個(gè)類(lèi)中相同字段的標(biāo)準(zhǔn)差越小,說(shuō)明該字段的值相差越小,也就越相似。用函數(shù) std(字段)表示在聚類(lèi)結(jié)果中1個(gè)字段的12個(gè)類(lèi)的標(biāo)準(zhǔn)差的匯總折線,如std(閱讀數(shù))表示一個(gè)聚類(lèi)結(jié)果中閱讀數(shù)的12個(gè)類(lèi)的標(biāo)準(zhǔn)差的匯總折線。比較兩組結(jié)果:微博結(jié)構(gòu)化數(shù)據(jù)聚類(lèi)和融合數(shù)據(jù)聚類(lèi) ,微博分詞聚類(lèi)和融合數(shù)據(jù)聚類(lèi),通過(guò)匯總折線的比較,評(píng)價(jià)聚類(lèi)的效果的相對(duì)好壞,兩組比較具體的比較內(nèi)容如表所示。對(duì)于微博結(jié)構(gòu)化數(shù)據(jù)聚類(lèi),只需要把3個(gè)結(jié)構(gòu)化字段的12個(gè)類(lèi)的標(biāo)準(zhǔn)差折線和融合數(shù)據(jù)聚類(lèi)中對(duì)應(yīng)的字段的標(biāo)準(zhǔn)差折線分別比較,對(duì)于微博分詞數(shù)據(jù),則要比較9個(gè)字段。具體如表5所示。
圖4 RR聚類(lèi)實(shí)驗(yàn)過(guò)程
表5 R實(shí)驗(yàn)結(jié)果比較方法
3.3.1微博結(jié)構(gòu)化數(shù)據(jù)聚類(lèi)和融合數(shù)據(jù)聚類(lèi)比較
將微博結(jié)構(gòu)化數(shù)據(jù)聚類(lèi)結(jié)果和融合數(shù)據(jù)聚類(lèi)結(jié)果中微博結(jié)構(gòu)化數(shù)據(jù)和融合數(shù)據(jù)共有的3個(gè)字段——閱讀數(shù),評(píng)論數(shù)和轉(zhuǎn)播數(shù)的12個(gè)類(lèi)的標(biāo)準(zhǔn)差繪制成折線圖,選擇80%訓(xùn)練集的實(shí)驗(yàn)結(jié)果展示如下 ,其他比例下的訓(xùn)練集實(shí)驗(yàn)結(jié)果類(lèi)似 (fusion表示融合數(shù)據(jù),structured表示微博結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù))。
圖5 RR80%實(shí)驗(yàn)數(shù)據(jù)3個(gè)字段的比較
從圖5可以看出,微博結(jié)構(gòu)化數(shù)據(jù)聚類(lèi)的結(jié)果往往出現(xiàn)一個(gè)這樣一個(gè)類(lèi),類(lèi)中3個(gè)字段的標(biāo)準(zhǔn)差都很大,偏離平均水平很多,本文稱(chēng)為 “離群類(lèi)”。而融合數(shù)據(jù)的結(jié)果則能夠縮小離群類(lèi)和其他類(lèi)的差異性。微博結(jié)構(gòu)化數(shù)據(jù)的字段融入微博分詞聚類(lèi)以后,能夠把 “離群類(lèi)”的標(biāo)準(zhǔn)差的差異分?jǐn)偟狡渌?lèi),從而把 “離群類(lèi)”拉回平均水平附近 ,這樣的代價(jià)是其他類(lèi)的標(biāo)準(zhǔn)差會(huì)有所增加,但是整體的聚類(lèi)效果得到提升,因?yàn)榫垲?lèi)中 “離群類(lèi)”的與其他類(lèi)的差異性變小,其他類(lèi)的標(biāo)準(zhǔn)差影響不大。
3.3.2微博分詞聚類(lèi)和融合數(shù)據(jù)聚類(lèi)比較
將微博分詞聚類(lèi)結(jié)果和融合數(shù)據(jù)聚類(lèi)結(jié)果中共有的9個(gè)字段的12個(gè)類(lèi)的標(biāo)準(zhǔn)差繪制成折線圖 ,選擇80%訓(xùn)練集的實(shí)驗(yàn)結(jié)果展示如下,其他比例下的訓(xùn)練集實(shí)驗(yàn)結(jié)果一致(Fusion表示融合數(shù)據(jù),Non-structured表微博分詞)。
圖6 RR80%實(shí)驗(yàn)數(shù)據(jù)9個(gè)字段的比較
從圖6可以看出,融入微博結(jié)構(gòu)化數(shù)據(jù)的字段聚類(lèi)后,微博分詞字段的標(biāo)準(zhǔn)差沒(méi)有明顯下降,跟微博分詞單獨(dú)聚類(lèi)沒(méi)有明顯差異,因此,融合數(shù)據(jù)對(duì)微博分詞聚類(lèi)沒(méi)有明顯幫助。
傳統(tǒng)的微博聚類(lèi)分析針對(duì)微博結(jié)構(gòu)化數(shù)據(jù) (結(jié)構(gòu)化字段)分類(lèi)或者微博分詞 (通過(guò)某種方法轉(zhuǎn)化為結(jié)構(gòu)化字段)分類(lèi)。本文采用Kohonen神經(jīng)網(wǎng)絡(luò)聚類(lèi),研究對(duì)結(jié)合了微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞 (通過(guò)某種方法轉(zhuǎn)化為結(jié)構(gòu)化字段)的融合數(shù)據(jù)聚類(lèi)的效果是否比單獨(dú)對(duì)結(jié)構(gòu)化字段或文本結(jié)構(gòu)化字段聚類(lèi)有所提高。從數(shù)據(jù)中提取實(shí)證數(shù)據(jù)實(shí)驗(yàn)結(jié)果顯示,結(jié)構(gòu)化字段單獨(dú)聚類(lèi)會(huì)出現(xiàn)一個(gè)類(lèi)的標(biāo)準(zhǔn)差特別大的 “離群類(lèi)”,而對(duì)融合數(shù)據(jù)聚類(lèi),結(jié)構(gòu)化字段則不會(huì)出現(xiàn) “離群類(lèi)”,融合了微博分詞一起分類(lèi)后,結(jié)構(gòu)化字段的 “離群類(lèi)”的標(biāo)準(zhǔn)差變小,被拉近標(biāo)準(zhǔn)
差的平均水平。另一方面,融合數(shù)據(jù)聚類(lèi)對(duì)微博分詞的效果不太明顯,融合了微博結(jié)構(gòu)化數(shù)據(jù)再聚類(lèi)和微博分詞單獨(dú)聚類(lèi),結(jié)果不太顯著。
[1]馬彬 ,洪宇 ,陸劍江 ,等 .基于線索樹(shù)雙層聚類(lèi)的微博話題檢測(cè) [J].中文信息學(xué)報(bào) ,2012,26(6):121-128.
[2]張國(guó)安,鐘紹輝.基于K均值聚類(lèi)的微博用戶分類(lèi)的研究[J].電腦知識(shí)與技術(shù),2012,8(26):6273-6275.
[3]路榮,項(xiàng)亮 ,劉明榮,等.基于隱主題分析和文本聚類(lèi)的微博客中新聞話題的發(fā)現(xiàn) [J].模式識(shí)別與人工智能,2012,25 (3):382-387.
[4]潘大慶 .基于層次聚類(lèi)的微博敏感話題檢測(cè)算法研究 [J].廣西民族大學(xué)學(xué)報(bào) ,2012,18(4):56-59.
[5]熊祖濤.基于稀疏特征的中文微博短文本聚類(lèi)方法研究 [J].軟件導(dǎo)刊,2014,13(1):133-134.
[6]Changchun Yang,Hong Ding,Jing Yang,Hengxin Xue.Mining Microblog Community Based on Clustering Analysis[C]∥Proceedings of the International Conference on Information Engineering and Applications(IEA)2012.Springer London,2013:825-832.
[7]Olariu A.Hierarchical clustering in improvingmicroblog stream summarization[M]∥Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2013:424-435.
[8]Muhammad Atif Qureshi,Colm O'Riordan,Gabriella Pasi.Clustering with Error-Estimation forMonitoring Reputation of Companieson Twitter[M]∥Information Retrieval Technology Lecture Notes in Computer Science,2013:170-180.
[9]Bo Huang,Yan Yang,Amjad Mahmood,Hongjun Wang.Microblog topic detection based on LDA model and single-pass clustering[C]∥Rough Sets and Current Trends in Computing.Springer Berlin Heidelberg,2012:166-171.
[10]Elena Baralis,Tania Cerquitelli,Silvia Chiusano,Luigi Grimaudo,Xin Xiao.Analysis of Twitter Data Using a Multiple-level Clustering Strategy[C]∥Model and Data Engineering Lecture Notes in Computer Science,2013:13-24.
[11]Jiawei Han,M icheline Kamber.數(shù)據(jù)挖掘概念與技術(shù) [M].北京 :機(jī)械工業(yè)出版社,2008:283-284.
(本文責(zé)任編輯:郭沫含)
The Study of M icroblog Data M ining Using Feature Fusion
Wang Heyong Hong Ming
(Departmentof E-Business,South China University of Technology,Guangzhou 510006,China)
This paper focused the problem that traditional clustering analysis have focused on only structured data such as microblog reading numbers andmicroblog commentnumbers(microblog segmentation)oronlymicroblog text.In thispaper,microblogmetadata are combinedwithmicroblog text to form fusion data and Kohonen Network Clustering is applied to test if fusion data clustering is better thanmicroblogmetadata clustering and thanmicroblog text clustering.Experiments indicates thatmicroblog metadata clusteringmay causea classwith large standard deviation(outlier class)and on the contrary,fusion data clustering does not.Microblog text clustering performs aswell as fusion clustering.
microblog;clustering;fusion data
王和勇 (1973-),男,提前上崗教授,研究方向:數(shù)據(jù)挖掘、文本挖掘和大數(shù)據(jù)挖掘。
10.3969/j.issn.1008-0821.2015.05.013
G250.78
A
1008-0821(2015)05-0068-05
2015-03-05