劉曉琳,曹付元,梁吉業(yè)+
1.山西大學(xué) 計算機與信息技術(shù)學(xué)院,太原 030006
2.山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,太原 030006
隨著Web2.0技術(shù)的快速發(fā)展,民眾獲取新聞信息的方式已經(jīng)轉(zhuǎn)移到了網(wǎng)絡(luò)媒體?;ヂ?lián)網(wǎng)成為新聞的輿論源頭,新聞評論成為網(wǎng)民自發(fā)聚集的輿論平臺。新聞的議論話題雖然龐雜,但是網(wǎng)民對新聞的關(guān)注點卻非常集中,其態(tài)度有時也表現(xiàn)出一致性。從新聞評論中總結(jié)出網(wǎng)民的觀點,為政府和相關(guān)部門提供決策參考,具有非常重要的意義。因此,如何有效地從評論中發(fā)現(xiàn)網(wǎng)絡(luò)輿情話題,即對新聞評論進行快速準(zhǔn)確的聚類,是輿情分析領(lǐng)域面臨的重要問題。
受新聞評論篇幅限制,新聞評論常以短文本的形式出現(xiàn),短文本特征稀疏,描述信息能力較弱,因此很難準(zhǔn)確提取主題信息。針對這一問題,通常的做法是對短文本進行語義概念擴展和關(guān)聯(lián)[1]。一種有效的方法是借助外部資源,比如語義詞典等[2],對短文本進行語義擴充,豐富短文本的特征語義,但這種方法嚴(yán)重依賴于知識庫的質(zhì)量,計算量大,計算復(fù)雜度高[3-4]。另一種方法是使用基于關(guān)聯(lián)規(guī)則的頻繁詞集文本表示模型,在大規(guī)模語料中,如果兩個詞經(jīng)常共同出現(xiàn)在文本同一窗口單元,則認(rèn)為這兩個詞在意義上相互關(guān)聯(lián),頻繁詞集反映了特征項之間的關(guān)聯(lián)性,包含更多潛在語義的同時還起到降維的作用,但該模型在聚類質(zhì)量上并沒有得到明顯改善[5]。近年來,隨著主題模型的廣泛使用,Blei等人在2003年提出了隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型[6],可以深度挖掘文本內(nèi)部語義知識和隱含話題[7-8],但從大量離散短文本中發(fā)現(xiàn)話題的效果不佳,因為大規(guī)模短文本的詞數(shù)量很大,表示潛在結(jié)構(gòu)矩陣的維度非常大。另外,如果只用文檔的主題分布作為特征,特征粒度較粗,對于短文本的主題刻畫比較模糊。
新聞評論話題發(fā)現(xiàn)的主要方法是對新聞評論的主題進行聚類,國內(nèi)外研究者多采用基于劃分的K-means聚類算法和基于層次的聚類算法對文本進行聚類[9]。李勝東等人[10]利用基于劃分的K-means聚類算法實現(xiàn)話題監(jiān)測,但是對于網(wǎng)絡(luò)話題的捕捉,難以事先確定待劃分類簇數(shù)目,不能保證聚類結(jié)果是最優(yōu)解,而且K-means算法本身對噪聲數(shù)據(jù)較為敏感,因此K-means算法對流數(shù)據(jù)的話題監(jiān)測存在一定的局限性。Gao等人[11]利用報道內(nèi)容的時間和地點信息度量文本間的相似度,基于組平均距離的凝聚層次聚類算法對大規(guī)模新聞報道進行話題監(jiān)測,但層次一旦確定就不能更改,有新的數(shù)據(jù)到來時必須重新計算當(dāng)前整個文本集合,無法滿足實時話題監(jiān)測的需求。因此,傳統(tǒng)的聚類算法已經(jīng)不能適應(yīng)網(wǎng)絡(luò)信息增量式文本挖掘的需求,適應(yīng)增量式數(shù)據(jù)輸入的聚類算法漸漸得到學(xué)者的廣泛關(guān)注。典型的增量式聚類算法為Single-Pass算法,也是話題發(fā)現(xiàn)中最常用的聚類算法,其在動態(tài)聚類和速度上表現(xiàn)良好。該算法按數(shù)據(jù)輸入的順序每次處理一個數(shù)據(jù),因此可以實現(xiàn)流式數(shù)據(jù)的增量聚類。不足之處主要表現(xiàn)在該算法具有輸入次序依賴特性,即對于同一聚類對象按不同的次序輸入,會出現(xiàn)不同的聚類結(jié)果。近年來,國內(nèi)相關(guān)學(xué)者對此算法進行了改進,取得了不錯的結(jié)果。稅儀冬等人[12]提出一種周期性分類和Single-Pass聚類結(jié)合的話題識別和跟蹤方法,為解決Single-Pass的順序敏感問題,在聚類階段引入“代”的概念,對文本不再是一次一個地輸入,而是按批次添加,并且在每一批數(shù)據(jù)到來時先進行初步聚類,然后再將初步聚類結(jié)果與已有話題類簇進行Single-Pass聚類,一定程度上緩解了算法本身的缺點,但是初步聚類算法的選擇會影響最終的聚類效果。
本文針對新聞評論文本表示與文本聚類兩方面開展研究。首先,構(gòu)建一種多特征組合的短文本表示模型,從而比較全面地包含短文本主題信息。其次,在已有研究基礎(chǔ)上,提出一種基于待定循環(huán)策略的增量聚類算法(uncertain cyclic Single-Pass,UCSP),有效避免因文本輸入順序?qū)垲惤Y(jié)果產(chǎn)生影響,以此整合網(wǎng)絡(luò)上大量輿論觀點,達到自動發(fā)現(xiàn)話題的目的。在爬取的5個騰訊新聞評論數(shù)據(jù)集上進行實驗,并與傳統(tǒng)的文本表示模型和聚類算法進行對比分析,結(jié)果表明,本文算法能更有效地提高聚類質(zhì)量。
短文本聚類的首要任務(wù)就是將非結(jié)構(gòu)化的文本數(shù)據(jù)表示成計算機容易處理的結(jié)構(gòu)化數(shù)據(jù)。Salton等人提出的向量空間模型(vector space model,VSM)[13]常被應(yīng)用于文本建模?,F(xiàn)將一條新聞評論作為一個文本,該模型將文本中包含的詞項作為表示文本的基本單位,將文本數(shù)據(jù)表示成向量空間中的一個向量,建模過程如下所示:
其中,Vvsm(di)為文本di的特征權(quán)重向量表示;wij表示文本di的第j個特征項tij所對應(yīng)的權(quán)重,即文本話題表達的貢獻度,文本的特征項互不相同,且無順序關(guān)系;n為文本di特征項的個數(shù)。
如果將文本中所有詞項作為特征項來表示文本內(nèi)容,會造成特征空間維度災(zāi)難,因此需對文本進行特征選擇。傳統(tǒng)特征選擇算法是Salton等人提出的TF-IDF(term frequency/inverse document frequency)[14],其主要思想為:假設(shè)某個詞項在一個文本中出現(xiàn)的頻率高,在其他文本中出現(xiàn)的頻率低,就認(rèn)為該詞項對文本有較強的區(qū)分性,計算公式如式(2)所示:
其中,tfij表示詞項tij在文本di中出現(xiàn)的絕對詞頻(term frequency,TF);idfij表示詞項tij的倒排文檔頻度(inverse document frequency,IDF),常見的計算公式如式(3)所示:
其中,N表示集合中文本的總數(shù);nj表示包含詞項tij的文本數(shù)。
TF-IWF(inverse word frequency)算法[15]是在TFIDF算法的基礎(chǔ)上由Basili等人提出的,TF-IWF算法中用特征頻率倒數(shù)的對數(shù)平方值IWF代替IDF,如式(4)所示:
其中,ntj表示詞項tij在文本集合中出現(xiàn)的次數(shù);∑ntj表示所有詞項頻數(shù)之和。
事實上,兩種方法在確定特征項權(quán)重時都存在不足。TF-IDF雖然表現(xiàn)出詞項在文本中的重要程度,又能有效區(qū)別其他文本,但是IDF函數(shù)沒有考慮詞項在整個文本集合中分布的情況,認(rèn)為詞項在不同文本中出現(xiàn)一次和出現(xiàn)多次的計算效果相同,這顯然不夠準(zhǔn)確。TF-IWF方法中IWF函數(shù)雖然考慮了詞項在整個文本集合的分布情況,但是忽略了詞項頻繁出現(xiàn)在一個文本和稀疏出現(xiàn)在整個文本集合的差異,這也是片面的。因此,針對新聞評論語言特點,本文提出了一種新的計算公式,如式(5)所示:
為了使不同長度的文本具有可比性,對文本長度進行歸一化處理,刪除文本中出現(xiàn)頻率較低的詞項,從而實現(xiàn)特征選擇,計算公式如式(6)所示:
隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的詞向量模型越來越受到業(yè)界研究者的廣泛關(guān)注,Mikolov等人在2013年提出了一種詞向量計算工具——word2vec,作為谷歌一款基于深度學(xué)習(xí)的開源工具,word2vec利用語料庫中的上下文信息,將每個詞轉(zhuǎn)化成一個固定維數(shù)的向量,語義越相似的詞在向量空間中越相近[16]。
通過借鑒Bengio等人提出的NNLM(neutral network language model)[17]和 Hinton 等人提出的 Log_Linear模型[18],Mikolov等人提出的word2vec主要有CBOW(continuous bag-of-words model)和Skip-gram(continuous Skip-gram model)兩種模型[19]。
本文首先使用2.1節(jié)提出的方法對文本建模,然后使用Skip-gram模型在大規(guī)模無標(biāo)注新聞評論語料中學(xué)習(xí)特征項的語義表示,將其訓(xùn)練成200維實數(shù)向量,并計算每條評論的句向量,計算公式如下所示:
其中,V(tij)表示特征項tij的詞向量;vij k(k=1,2,…,200)表示tij詞向量的第k維;Vw2v(di)表示第i條評論的語義句向量;Ji表示di中特征詞的個數(shù)。
由于詞匯是構(gòu)成句子的基本單元,受短文本篇幅所限,細(xì)粒度的詞匯可以對文本信息表達產(chǎn)生較大的貢獻,特征權(quán)重向量空間模型重點考慮詞頻、詞性、權(quán)重等淺層信息,因此Vvsm(di)是淺層詞匯級特征向量;其次,詞匯所蘊含的義項對于文本的整體語義具有重要影響,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的詞向量,涵蓋了特征項的語義信息,因此Vw2v(di)是深層語義級特征向量。為全面度量兩個短文本之間的相似度,將兩種向量表示進行組合,Vmerge(di)即多特征組合的短文本特征向量表示模型,多特征組合的短文本表示如式(9)所示:
傳統(tǒng)的Single-Pass算法又稱單通道法或單遍法,是流式數(shù)據(jù)聚類經(jīng)典算法之一。對于依次到達的數(shù)據(jù),該算法按輸入順序每次處理一條數(shù)據(jù),依據(jù)當(dāng)前數(shù)據(jù)與已有類簇的相似度,判斷該數(shù)據(jù)屬于已有類或自成新類,從而實現(xiàn)流式數(shù)據(jù)增量聚類。傳統(tǒng)的Single-Pass聚類算法簡單,運行速度快,滿足動態(tài)聚類的需求,但是對文本的輸入順序敏感。本文在傳統(tǒng)Single-Pass聚類算法的基礎(chǔ)上,提出了一種面向新聞評論的UCSP增量聚類算法。
噪聲評論,即離群節(jié)點的錯誤聚類,會導(dǎo)致話題中心發(fā)生漂移。觀點模糊評論是指介于兩個類簇之間的數(shù)據(jù),如果對這些數(shù)據(jù)進行硬劃分會直接影響最終的聚類結(jié)果。噪聲話題,即內(nèi)部節(jié)點個數(shù)極少的少數(shù)類,一般定義所含節(jié)點個數(shù)少于所有評論總數(shù)0.25%的類簇,表明該話題不具有普遍性。本文提出的基于待定循環(huán)策略的增量聚類算法,引入待定列表機制,在聚類過程中,極大地消除由數(shù)據(jù)輸入順序?qū)垲惤Y(jié)果產(chǎn)生的影響,同時對噪聲簇進行篩選,避免新聞評論話題聚類出現(xiàn)類別長尾現(xiàn)象。
在網(wǎng)絡(luò)輿論的形成過程中,意見領(lǐng)袖的影響非常重要,局部觀點在意見領(lǐng)袖的引導(dǎo)下也會演化成為輿論話題,針對新聞評論這一特殊的輿論平臺,意見領(lǐng)袖的觀點往往能極大地概括網(wǎng)民的群體意見,也能潛移默化地影響其他網(wǎng)民的觀點向自己靠攏,因此具有強大的觀點代表性?,F(xiàn)考慮意見領(lǐng)袖對話題簇的影響,將騰訊新聞評論定義的熱門評論視為意見領(lǐng)袖,在增量聚類實現(xiàn)話題發(fā)現(xiàn)的過程中,將意見領(lǐng)袖權(quán)重設(shè)置為0.6,從而動態(tài)強化類簇所表達的話題。
本文使用如式(10)~(12)的3個相似度計算公式。
Vi=(vi1,vi2,…,vik,…,vin)和Vj=(vj1,vj2,…,vjk,…,vjn)表示兩個向量,則兩個向量間的相似度定義為:
Vmerge(d)=(Vvsm(d),Vw2v(d))表示一條新聞評論,則兩個短文本間的相似度計算公式如式(11)所示:
給定一個話題類ck={d1,d2,…,d|ck|},則文本di與話題類ck之間的加權(quán)平均相似度計算公式如式(12)所示:
其中,fd*p為話題類ck中dp的意見權(quán)重,意見領(lǐng)袖的值為0.6,一般評論的值為0.4。
算法UCSP增量聚類算法
輸入:文本集合D;相似度對比閾值T1、T2、T3。
輸出:話題類簇集合CT。
初始化:i=2,MaxSim=0,SecSim=0,L=0,L′=0,maxIndex=0,創(chuàng)建簇c1=? ,創(chuàng)建類簇集合CT=? ,創(chuàng)建待定列表LoopList=? 。
步驟1輸入d1,c1=c1?{d1},CT=CT?{c1}。
步驟 2輸入di,di∈D,計算(Csim(di,ck)),返回當(dāng)前k值,maxIndex=k,新建臨時簇 集 合
步驟3判斷:
若MaxSim≤T1,將di視為噪聲數(shù)據(jù),LoopList=LoopList?{di},i=i+1;
若MaxSim>T1&&MaxSim 若MaxSim≥T2&&MaxSim-SecSim≥T3,則將di加入與其相似度最大的類簇cmaxIndex=cmaxIndex?{di},i=i+1; 若MaxSim≥T2&&MaxSim-SecSim≤T3,di視為觀點模糊數(shù)據(jù),LoopList=LoopList?{di},i=i+1。 步驟4若i≤ ||D,轉(zhuǎn)至步驟2。 步驟5待定列表集合LoopList,?dg∈LoopList,計算返回當(dāng)前k值,maxIndex=k,新建臨時簇集合 步驟6L′=|LoopList|,判斷: 若MaxSim>T1&&MaxSim 若MaxSim≥T2&&MaxSim-SecSim≥T3,cmaxIndex=cmaxIndex?{dg},LoopList=LoopList-{dg},L=|LoopList|。 步驟7若L′≠L,轉(zhuǎn)至步驟5。 步 驟 8 ?ck∈CT,若 |ck|<|D|×0.25%,CT=CT-{ck},即過濾噪聲評論簇。 步驟9輸出CT集合,算法結(jié)束。 本文采用JSON頁面解析技術(shù)爬取新聞評論數(shù)據(jù)。通過輸入騰訊新聞評論頁面的請求鏈接,獲取JSON字符串?dāng)?shù)據(jù),利用Java版本的Gson工具,解析字符串并采用正則表達式匹配規(guī)則獲取所需數(shù)據(jù)集。解析并提取到的新聞評論數(shù)據(jù)結(jié)構(gòu)如表1所示。 Table 1 Data structures of news comments表1 新聞評論的數(shù)據(jù)結(jié)構(gòu) 鑒于單條評論所包含的上下文信息及語義信息匱乏,本文將當(dāng)前評論與其跟帖評論進行合并,從而擴充文本內(nèi)容。本文實驗所采用的數(shù)據(jù)集均為騰訊熱門新聞下的評論數(shù)據(jù),如表2所示。 新聞評論口語化嚴(yán)重,包含大量干擾性的特殊字符,可以采用啟發(fā)式規(guī)則匹配的方法過濾噪聲數(shù)據(jù)。本文采用中科院張華平等人開發(fā)的漢語詞法分析系統(tǒng)NLPIR(ICTCLAS2016版)對文本數(shù)據(jù)進行分詞,并添加用戶詞典,導(dǎo)入分詞系統(tǒng)切分不準(zhǔn)確的網(wǎng)絡(luò)新詞。 Table 2 Data sets of news comments表2 新聞評論數(shù)據(jù) 為提高分詞的準(zhǔn)確性和特征選擇的有效性,本文提出一種兩階段去除停用詞的方案。首先構(gòu)建虛詞停用詞表,在分詞處理之前對新聞評論進行第一次清洗,經(jīng)驗表明,分詞前去除虛詞的方法可以有效提高分詞的準(zhǔn)確性;分詞處理之后,構(gòu)建實詞停用詞表,并人工添加網(wǎng)絡(luò)不規(guī)范用語產(chǎn)生的新停用詞,從而進一步提高分詞的準(zhǔn)確性。 本文采用無監(jiān)督聚類算法,因此使用內(nèi)部評價指標(biāo)緊密性和間隔性來評價聚類結(jié)果[20]。 集合CT表示所有話題簇的集合;ck為CT中第k個話題簇的文本集合,ck中的每條文本dckp均為基于多特征組合的短文本表示 ck類的中心向量表示為計算類內(nèi)平均相似度越大意味類內(nèi)相似度越大,聚類效果越好,重新定義,計算公式為: 其中: SP計算類間平均相似度,SP越小意味類間相似度越小,聚類效果越好,重新定義----SP,計算公式為: 其中: 為了使不同的文本表示模型和聚類算法具有可比性,定義Ratio為的比值,計算公式為:Ratio越大說明聚類效果越好。 為驗證本文方法的有效性,設(shè)計了兩類對比實驗:使用相同聚類算法,比較不同短文本表示模型對聚類效果的影響;使用相同短文本表示模型,比較不同聚類算法的結(jié)果。另外,考慮相似度閾值對聚類算法的影響,進行了閾值分析實驗。 實驗1對比實驗。 表3是基于UCSP聚類算法采用不同文本表示模型的實驗結(jié)果,語義表示模型和多特征組合表示模型設(shè)置閾值T1=0.3,T2=0.55,T3=0.07。由于向量空間模型特征稀疏,設(shè)置相似度閾值T1=0.1,T2=0.25,T3=0.005,以確保與多特征組合的文本表示的聚類個數(shù)基本一致。 通過對比表3中Ratio的值可以看出,基于特征權(quán)重向量空間模型的聚類效果最好,但是該模型沒有結(jié)合語義信息,會產(chǎn)生大量噪聲類,并且造成相同話題的評論分至不同類的現(xiàn)象。例如:兩條關(guān)于家庭教育的評論“有些當(dāng)家長的溺愛孩子!不明白當(dāng)父母的怎么教育孩子的!”和“教育不當(dāng),關(guān)心不夠!家庭教育做人其實是重中之重”,雖然評論主題相同,卻被劃分至不同類簇?;谏窠?jīng)網(wǎng)絡(luò)構(gòu)建的表示模型雖然結(jié)合了語義信息,但是大部分評論圍繞新聞內(nèi)容闡述,語義空間下相似度十分接近,Ratio值最小,聚類效果略差。本文提出的基于多特征組合的短文本表示模型,將兩種模型優(yōu)勢互補,總體來說,更符合話題發(fā)現(xiàn)的要求。 Table 3 Clustering results of different representation models for short texts using UCSP clustering algorithm表3 基于UCSP聚類算法在不同短文本表示模型上的聚類結(jié)果 綜上所述,本文提出的基于多特征組合的短文本表示模型具有一定的可行性與有效性,因此在采用該模型對新聞評論進行表示的基礎(chǔ)上,對3種聚類算法UCSP、K-means和Single-Pass進行了實驗對比,其中將UCSP算法自動生成的類簇個數(shù)作為K-means聚類算法的預(yù)設(shè)K值。 由表4的實驗數(shù)據(jù)可知,本文提出的UCSP增量聚類算法類內(nèi)平均相似度最高,類間平均相似度最低,Ratio比值最大,聚類結(jié)果最好。 實驗2閾值對聚類算法的影響。 本文對多個數(shù)據(jù)集進行了相似度閾值分析實驗,以新聞“17歲高中生刀砍老師后被老師群毆搶救無效死亡”的數(shù)據(jù)為例,在不考慮觀點模糊數(shù)據(jù)的情況下(即T3=0),在[0.15,0.35]范圍內(nèi),以步長0.05選取T1,在[0.35,0.60]范圍內(nèi),以步長0.05選取T2,進行實驗。 T1為判定噪聲評論的閾值,T1設(shè)置太小,起不到過濾噪聲評論的目的,設(shè)置太大,將導(dǎo)致一般評論錯誤劃分;T2為判斷評論是否歸入相似類簇的閾值,T2設(shè)置太小,導(dǎo)致聚類質(zhì)量不高,設(shè)置太大,導(dǎo)致聚類劃分過于詳細(xì)。 由表5和表6的實驗數(shù)據(jù)可知,T1在0.3±0.05的范圍內(nèi),聚類效果最好;T2≥0.55時,聚類效果趨于穩(wěn)定。因此,本文選取T1=0.3,T2=0.55。 T3為區(qū)分模糊觀點評論的閾值,本文在[0.001,0.01]范圍內(nèi),以步長0.001選取T3,進行實驗。 Table 4 Clustering results of different algorithms by using improved texts representation model表4 基于改進的文本表示模型使用不同算法的聚類結(jié)果 Table 5 Influence ofT1andT2to the value of 表5 T1和T2對的影響 Table 5 Influence ofT1andT2to the value of 表5 T1和T2對的影響 ? Table 6 Influence ofT1and T2to the value of表6 T1和T2對的影響 Table 6 Influence ofT1and T2to the value of表6 T1和T2對的影響 ? Fig.1 Effect ofT3on clustering result圖1 T3對聚類效果的影響 Fig.2 Effect ofT3on clustering result圖2 T3對聚類結(jié)果的影響 由圖1和圖2的實驗數(shù)據(jù)可知,隨著T3的增大,簇個數(shù)由多變少,并趨于穩(wěn)定,被過濾的文本個數(shù)增多,類內(nèi)平均相似度----CP逐漸增大,類間平均相似度逐漸減小。綜合圖1和圖2的實驗結(jié)果,T3=0.07時簇個數(shù)穩(wěn)定,被過濾的文本個數(shù)小于評論總數(shù)10%差值最大,聚類效果最好。 通過對多個數(shù)據(jù)集的閾值進行實驗分析,T1=0.3,T2=0.55,T3=0.07時多個數(shù)據(jù)集聚類效果表現(xiàn)良好,說明不同的新聞評論話題分布是相似的。 聚類算法結(jié)束之后,得到的是一個文本簇,并不能直觀地獲得類內(nèi)主題,針對這一問題,本文采用基于TextRank[21]的關(guān)鍵詞抽取算法,自動生成主題詞概述類內(nèi)主題,并使用開源工具Tagxedo生成詞云,將主題詞可視化展示。 以新聞“17歲高中生刀砍老師后被老師群毆搶救無效死亡”為例,抽取其中有代表性的5個類簇將主題詞可視化展示。由圖3可以直觀地看出,網(wǎng)民的觀點主要圍繞在:嚴(yán)懲兇手,社會風(fēng)氣,家庭教育,法理人情和傳統(tǒng)道德等幾方面。因此,通過智能化的信息處理,政府對互聯(lián)網(wǎng)建立網(wǎng)絡(luò)民意的監(jiān)測、匯集、分析、反饋和吸納機制,及時回應(yīng)與疏導(dǎo),對于提高政府回應(yīng)與決策能力,提高決策的科學(xué)性和準(zhǔn)確性,實現(xiàn)開放型、服務(wù)型、責(zé)任型政府具有重要意義。 Fig.3 Visual representations of clustering results圖3 聚類效果展示 本文針對新聞評論主題聚類過程中主題提取困難的問題,首先提出了一種基于多特征組合的短文本表示模型,由淺入深、由粗到細(xì)地挖掘多層次、多粒度的特征表示,從而比較全面地包含短文本的主題信息。針對傳統(tǒng)的主題增量聚類算法對文本輸入順序敏感的缺點,本文提出了一種UCSP增量聚類算法,可以有效地處理噪聲數(shù)據(jù)和觀點模糊數(shù)據(jù),聚類效果明顯提升。本文所實現(xiàn)的是離線式的增量聚類算法,如何將算法應(yīng)用于在線實時發(fā)現(xiàn)話題,將是未來的重點研究方向。 : [1]Xiao Yonglei,Liu Shenghua,Liu Yue,et al.Semantic concept linking and extension for social media short texts[J].Journal of Chinese Information Processing,2014,28(4):21-28. [2]Zhu Xinhua,Ma Runcong,Sun Liu,et al,Word semantic similarity computation based on HowNet and CiLin[J].Journal of Chinese Information Processing,2016,30(4):29-36. [3]Batet M.Ontology-based semantic clustering[J].AI Communications,2011,24(3):291-292. [4]Xun Guangxu,Gopalakrishnan V,Ma Fenglong,et al.Topic discovery for short texts using word embeddings[C]//Proceedings of the 16th IEEE International Conference on Data Mining,Barcelona,Dec 12-15,2016.Piscataway:IEEE,2016:1299-1304. [5]Peng Min,Huang Jiajia,Zhu Jiahui,et al.Mass of short texts clustering and topic extraction based on frequent itemsets[J].Journal of Computer Research and Development,2015,52(9):1941-1953. [6]Blei D M,Ng AY,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022. [7]Wang Zhongyuan,Cheng Jianpeng,Wang Haixun,et al.Short text understanding:a survey[J].Journal of Computer Research and Development,2016,53(2):262-269. [8]Xu Jiajun,Yang Yang,Yao Tianfang,et al.LDA based hot topic detection and tracking for the forum[J].Journal of Chinese Information Processing,2016,30(1):43-49. [9]Peng Zeying,Yu Xiaoming,Xu Hongbo,et al.Incomplete clustering for large scale short texts[J].Journal of Chinese Information Processing,2011,25(1):54-59. [10]Li Shengdong,Lv Xueqiang,Shi Shuicai,et al.Adaptive incrementalK-means algorithm for topic detection[J].Journal of Chinese Information Processing,2014,28(6):190-193. [11]Gao Ni,Gao Ling,He Yiyue,et al.Topic detection based on group average hierarchical clustering[C]//Proceedings of the 2013 International Conference on Advanced Cloud and Big Data,Nanjing,Dec 13-15,2013.Washington:IEEE Computer Society,2013:88-92. [12]Shui Yidong,Qu Youli,Huang Houkuan.A new topic detection and tracking approach combining periodic classification and Single-Pass clustering[J].Journal of Beijing Jiaotong university,2009,33(5):85-89. [13]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[M]//Jones S K,Willett P.Readings in Information Retrieval.San Francisco:Morgan Kaufmann Publishers Inc,1997:273-280. [14]Salton G.The SMART retrieval system:experiments in automatic document processing[M].Upper Saddle River:Prentice Hall,1971. [15]Zong Chengqing.Statistical natural language processing[M].Beijing:Tsinghua University Press,2008. [16]Zhang Dongwen,Xu Hua,Su Zengcai,et al.Chinese comments sentiment classification based on Word2Vec and SVMperf[J].Expert Systems with Applications,2015,42(4):1857-1863. [17]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3(6):1137-1155. [18]Mnih A,Hinton G E.Three new graphical models for statistical language modelling[C]//Proceedings of the 24th International Conference on Machine Learning,Corvallis,Jun 20-24,2007.New York:ACM,2007:641-648. [19]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems,Lake Tahoe,Dec 5-8,2013:3111-3119. [20]Liu Yanchi,Li Zhongmou,Xiong Hui,et al.Understanding of internal clustering validation measures[C]//Proceedings of the 10th IEEE International Conference on Data Mining,Sydney,Dec 14-17,2010.Washington:IEEE Computer Society,2010:911-916. [21]Li Peng,Wang Bin,Shi Zhiwei,et al.Tag-TextRank:a Webpage keyword extraction method based on tags[J].Journal of Computer Research and Development,2012,49(11):2344-2351. 附中文參考文獻: [1]肖永磊,劉盛華,劉悅,等.社會媒體短文本內(nèi)容的語義概念關(guān)聯(lián)和擴展[J].中文信息學(xué)報,2014,28(4):21-28. [2]朱新華,馬潤聰,孫柳,等.基于知網(wǎng)與詞林的詞語語義相似度計算[J].中文信息學(xué)報,2016,30(4):29-36. [5]彭敏,黃佳佳,朱佳暉,等.基于頻繁項集的海量短文本聚類與主題抽取[J].計算機研究與發(fā)展,2015,52(9):1941-1953. [7]王仲遠(yuǎn),程健鵬,王海勛,等.短文本理解研究[J].計算機研究與發(fā)展,2016,53(2):262-269. [8]徐佳俊,楊飏,姚天昉,等.基于LDA模型的論壇熱點話題識別和追蹤[J].中文信息學(xué)報,2016,30(1):43-49. [9]彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報,2011,25(1):54-59. [10]李勝東,呂學(xué)強,施水才,等.基于話題檢測的自適應(yīng)增量K-means算法[J].中文信息學(xué)報,2014,28(6):190-193. [12]稅儀冬,瞿有利,黃厚寬.周期分類和Single-Pass聚類相結(jié)合的話題識別與跟蹤方法[J].北京交通大學(xué)學(xué)報,2009,33(5):85-89. [15]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008. [21]李鵬,王斌,石志偉,等.Tag-TextRank:一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[J].計算機研究與發(fā)展,2012,49(11):2344-2351.4 實驗過程及結(jié)果分析
4.1 數(shù)據(jù)采集
4.2 數(shù)據(jù)預(yù)處理
4.3 評價指標(biāo)
4.4 實驗設(shè)置
4.5 結(jié)果可視化展示
5 結(jié)束語