亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向中文新聞話題檢測的多向量文本聚類方法

2016-06-27 08:16:46李欣雨

鄭州大學(xué)學(xué)報(理學(xué)版) 2016年2期

關(guān)鍵詞：實驗方法模型

李欣雨，袁方，劉宇，李琮

(1.河北大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院河北保定071000；學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院河北保定071000)

面向中文新聞話題檢測的多向量文本聚類方法

李欣雨1，袁方2，劉宇2，李琮1

(1.河北大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院河北保定071000；學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院河北保定071000)

基于多向量模型，給出一種將話題主題信息與話題文本信息相結(jié)合的多向量話題表示方式，使用較低的維度來準(zhǔn)確表示一個話題.針對傳統(tǒng)TFIDF方法在文本分類問題中對特征項在各個類中分布情況考慮不充分的問題，給出了一種TFIDF改進(jìn)方法.在TDT4的中文語料上，與傳統(tǒng)向量空間模型進(jìn)行了對比實驗.實驗結(jié)果表明，給出的話題表示方法和TFIDF改進(jìn)算法能夠在較低的維度上，使聚類的準(zhǔn)確率得到較大提升.

話題檢測；多向量模型； TDT4；改進(jìn)TFIDF算法

0 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)絡(luò)已逐漸成為人們獲取信息的一個主要媒體.網(wǎng)絡(luò)新聞作為互聯(lián)網(wǎng)媒體中最重要的信息類型之一，是人們獲取新聞消息的一個重要途徑.但由于網(wǎng)絡(luò)上的新聞繁雜冗余，依靠人工來查找新聞話題的工作量巨大，人們希望能夠通過計算機(jī)自動獲取新聞話題，話題檢測技術(shù)即是自動獲取新聞話題的技術(shù).

話題檢測的主要任務(wù)是在缺乏話題先驗知識的前提下，檢測出未知的話題，這是一種無監(jiān)督學(xué)習(xí)過程[1-2].聚類算法是實現(xiàn)話題檢測的一個關(guān)鍵點.一般可以分為基于層次的聚類算法、基于密度的聚類算法、基于平面劃分的聚類算法等[3-4].基于層次的聚類算法通?？梢赃_(dá)到較高的精度，因此本文采用凝聚層次聚類算法進(jìn)行聚類.

話題檢測的另一個關(guān)鍵點在于話題的向量化表示，表示模型及其使用方法的好壞通常會對整個系統(tǒng)的性能產(chǎn)生較大影響[5].常用的表示模型可以分為概率模型和向量空間模型(vector space model，VSM).一種典型的概率模型如LDA(latent Dirichlet allocation)模型[6]，是由文本空間到語義空間的映射.通過LDA模型的迭代過程，可以將文本表示成主題向量，但通常LDA模型中的主題，與最終需要的話題是不同的.這一不同，主要體現(xiàn)在語義的粒度上，LDA得到的主題，通常具有較大的語義粒度，因此并不能精確地表示一篇文檔[7-8].使用由文本直接得到的VSM表示文檔時，向量維度通常會非常高[9]，使計算耗時增加.為了減少時間消耗，通常會選用信息量豐富的詞，如：地點詞、人物詞、事件的代表詞等.然而如果僅使用這些重要信息來表示文檔，其攜帶的文本語義信息過少，對文本的表示精度仍然不能滿足要求[10-11].

1 多向量模型

多向量模型[5]是由多個子向量組合而成的向量模型，用MV表示n維多向量，SVi表示其子向量，則有：MV={SV1,SV2,…,SVn}.在計算兩個多向量的相似度時，通常會分別計算每個子向量的相似度，然后采用某種策略對各個子向量的相似度進(jìn)行綜合，從而得到多向量間的相似度.例如，對于兩個n維多向量MV1和MV2，即有

(1)

其中:Sim(·,·)表示計算相似度函數(shù).利用多向量模型，將主題模型和向量空間模型結(jié)合.這樣做的目的是使這兩種模型能夠進(jìn)行優(yōu)勢互補(bǔ)：主題模型為向量空間模型補(bǔ)充其語義上的不足，向量空間模型可以提高主題模型的精度.為了進(jìn)一步提高多向量的表示精度，將文中的地點和人物提取出來，作為多向量中的一個子向量.最后，文本會被表示為3個子向量：主題子向量、地點人物子向量和關(guān)鍵詞子向量.在判斷給定兩篇文檔的話題相似性時，直觀上可以理解為對于兩篇文檔，如果它們的語義相近，并且提到相似的地點人物，又具有相似的關(guān)鍵字，那么兩篇文檔極有可能是在討論同一話題.通過與基準(zhǔn)方法的對比試驗表明，本文給出的這種多向量模型能夠提升話題檢測的性能.

2 基于多向量的話題檢測方法

在基準(zhǔn)方法和多向量方法中均使用基于簇中心的凝聚層次聚類方法，初始時每篇文章單獨作為一個簇，選擇全局最近的兩個簇進(jìn)行合并，更新合并后的簇中心，然后繼續(xù)選取全局最近的兩個簇進(jìn)行合并，直到所有文章合并為一個簇時，聚類停止.

2.1 基準(zhǔn)方法

使用中科院分詞工具ICTCLAS對文檔進(jìn)行分詞，基于停用詞表(509個停用詞)刪除文檔中的停用詞，只保留文檔中的名詞、動詞、形容詞和副詞[12]，計算每篇文檔中詞的TFIDF分值，并保留分值較高的詞.以TFIDF分值作為VSM向量的權(quán)值，構(gòu)造出各篇文檔的VSM向量.使用凝聚層次聚類方法進(jìn)行聚類.其中，凝聚層次聚類方法使用簇中心表示法，簇中心由簇中所有文檔的VSM向量進(jìn)行向量加和運算得到.使用兩個簇中心VSM向量的cosin值作為簇中心的相似度.

2.2 本文使用的方法

本文給出的方法是基于多向量的聚類算法，文檔的表示向量是由3個子向量組成的多向量.3個子向量分別是：主題子向量、地點人物子向量和關(guān)鍵詞子向量，每個子向量都設(shè)有維度上限值，分別為Lt、Lp和Lk.在凝聚層次聚類方法中使用簇中心表示方法，每個簇的簇中心向量同樣由上述多向量表示.兩個簇的相似度通過計算這兩個簇的簇中心相似度得到，簇中心的相似度為其3個對應(yīng)子向量的cosin相似度值之和.用Ci表示簇i，Ti，Pi，Ki分別代表Ci中的主題子向量、地點人物子向量和關(guān)鍵詞子向量，則有：

Sim(C1,C2)=wt1×cosin(T1,T2)+wt2×cosin(P1,P2)+wt3×cosin(K1,K2)，

(2)

2.2.1 主題子向量的構(gòu)造與更新方法本文的主題子向量使用的是由LDA模型得到的主題向量.LDA模型是一種3層貝葉斯生成的概率模型[13]，模型表示如圖1所示[6].M代表所有文檔個數(shù)；H代表所有隱含主題個數(shù)；N代表一篇文檔中詞的個數(shù)；α和β是超參數(shù)；θ表示文檔的主題分布；φ表示主題的詞分布；z代表一個主題h(h∈{1,2,…,H})；w代表文檔的一個詞.該模型假設(shè)每篇文檔均包含全部H個隱含主題，而每個主題均包含所有文檔的不重復(fù)詞，并通過隱含主題來將文檔和詞匯進(jìn)行關(guān)聯(lián).這一模型生成文檔的過程可用圖2表示.

根據(jù)圖2，在生成第m篇文檔時，先根據(jù)超參數(shù)α生成第m篇文檔的θm，然后根據(jù)θm生成第m篇文檔的第n個詞的主題zm,n，不妨假設(shè)zm,n=h，接著根據(jù)超參數(shù)β生成的φh來生成第m篇文檔的第n個詞wm,n.LDA模型中應(yīng)用了詞袋模型[14]，這表明LDA模型假設(shè)文檔中詞的順序是可交換的，同時LDA模型中假設(shè)各篇文檔獨立，因此各篇文檔之間的順序也是可交換的.LDA模型在初始時對所有文檔中的詞進(jìn)行隨機(jī)主題賦值，然后通過不斷隨機(jī)抽樣迭代，最終可以得到每篇文檔的主題分布的估計向量θ，本文使用這一向量作為多向量的主題子向量.

圖1 LDA模型Fig.1 LDA model

圖2 LDA模型生成文檔的過程
Fig.2 Process of generating documents using LDA model

主題向量θ是表示文檔的主題分布情況的向量，其含意可解釋為，當(dāng)人們在寫一篇文檔時，會通過在文檔中安排各個主題寫多少來表達(dá)自己的語義，例如：現(xiàn)有3篇文檔和3個主題，這3篇文檔分別對應(yīng)3個主題分布θ1=(0.8,0.1,0.1)，θ2=(0.7,0.2,0.1)，θ3=(0.1,0.2,0.7)，則可以看到，θ1所屬文檔主要通過主題1表達(dá)語義，θ2中主要通過主題2表達(dá)語義，θ3主要通過主題3表達(dá)語義，則通?？梢哉J(rèn)為θ1與θ2語義相近.將θ1和θ2對應(yīng)維度值進(jìn)行加和求平均，得到θ′=(0.75,0.15,0.1).用θ′來近似表示θ1和θ2共同表達(dá)的語義，可以理解為：θ′代表為了表達(dá)某一特定語義而對各個主題的平均使用率.因此，簇中心的主題子向量采用如下方式進(jìn)行更新：簇中各篇文檔的主題子向量的對應(yīng)維度值加和求平均，得到的平均θ′向量作為簇中心的主題子向量.

2.2.2 地點人物子向量的構(gòu)造與更新方法地點人物子向量使用由中科院分詞工具ICTCLAS分詞結(jié)果中的人名詞和地名詞組成.地點人物子向量只保留具有較高文檔內(nèi)相對詞頻的地點詞和人名詞.考慮到部分文檔中可能包含的地點詞與人名詞非常少，造成在計算多向量的相似度時，地點人物子向量無法提供與主題子向量和關(guān)鍵詞子向量對等的信息量.因此，進(jìn)行相似度計算時，在使用公式(2)中設(shè)定的子向量權(quán)值wt2之前，首先采用公式(3)對地點人物子向量相似度進(jìn)行動態(tài)加權(quán)：

(3)

其中：weight(i,j)表示簇i與簇j的地點人物子向量的動態(tài)權(quán)重；Pi表示第i個簇的地點人物子向量； dim(Pi,Pj)表示簇i和簇j的地點人物子向量組成的VSM向量的維度；Limit表示地點人物子向量的維度上限.

當(dāng)兩個簇進(jìn)行合并時，相同詞的相對詞頻相加，不同詞則直接并入向量，然后按相對詞頻對所有詞進(jìn)行排序，保留其中具有較高相對詞頻的詞.用Ci表示簇i，Pi表示Ci的地點人物子向量，合并C1、C2，得到新簇C′及其地點人物子向量P′，P′=(P1∪P2).對C′中的地點詞和人名詞進(jìn)行排序，保留相對詞頻較高的地點詞和人名詞.當(dāng)P′中的詞數(shù)量超過Limit時，以維度上限值的一半作為地點詞和人名詞的維度警戒線Lm，若地點詞和人名詞的個數(shù)均超過Lm，則各自保留相對詞頻較高的Lm個詞；若它們其中一個的數(shù)量超過了Lm，則通過舍去數(shù)量較多一方的具有較低相對詞頻的詞來保證P′的詞數(shù)量在Limit以內(nèi).

2.2.3 關(guān)鍵詞子向量的構(gòu)造與更新方法文檔的關(guān)鍵詞子向量是對文檔分詞、去停用詞進(jìn)行詞性保留，再去掉文中的人名詞和地名詞后，對各篇文檔剩余詞語進(jìn)行TFIDF計算，最后各篇文檔選出其TFIDF分值較高的一部分詞作為其關(guān)鍵詞子向量.

傳統(tǒng)TFIDF算法在計算時，沒有充分考慮特征項在各個類中的分布情況.當(dāng)某一特征項在某個類內(nèi)大量出現(xiàn)，而在其他類中出現(xiàn)較少時，這樣的特征項是具有較強(qiáng)分類能力的，但傳統(tǒng)的TFIDF算法無法賦予這樣的特征項較高權(quán)值.因此本文在傳統(tǒng)TFIDF權(quán)值的基礎(chǔ)上，通過統(tǒng)計類內(nèi)某一特征的分布情況，將其與其他類中該特征的平均分布情況進(jìn)行比較后，對原有TFIDF計算分值進(jìn)行修正.若該特征在當(dāng)前類內(nèi)分布廣泛，而在其他類中分布較少，則加大其TFIDF分值；若該特征在當(dāng)前類內(nèi)分布較少，在其他類中分布較多，則減少其TFIDF分值；若該特征在當(dāng)前類內(nèi)的分布與其他類中分布接近，則其TFIDF分值保持不變.根據(jù)上述思想，給出計算方法：

(4)

其中：NewTFIDF(t)表示文檔中的特征項t新的TFIDF加權(quán)值；TF為特征項t的相對詞頻；IDF為特征項t的逆文檔頻率；本文定義聚類中文檔數(shù)量大于1的簇為一個類(也即一個話題)，n代表當(dāng)前系統(tǒng)中類的個數(shù)；Ri(t)表示文檔所在類i中，特征項t出現(xiàn)的文檔數(shù)在類i所含文檔中占有的比例，即

(5)

在對兩個簇進(jìn)行合并時，首先使用上述公式對兩個簇中所有文檔的關(guān)鍵詞子向量進(jìn)行更新，即重新計算兩個簇內(nèi)所有文檔詞的權(quán)重，然后每篇文檔保留權(quán)值最高的一部分詞作為新的關(guān)鍵詞；再用更新后的簇中所有文檔的關(guān)鍵詞組成VSM向量，得到的加權(quán)VSM向量作為各篇文檔的新關(guān)鍵詞子向量，至此簇中文檔的關(guān)鍵詞子向量更新完成；再將簇中所有文檔的關(guān)鍵詞子向量的對應(yīng)維度值進(jìn)行加和求平均，并按求得的平均值進(jìn)行排序，保留值較高的一部分詞.由這些關(guān)鍵詞組成的向量作為合并后新簇中心的關(guān)鍵詞子向量.

3 評價方法與數(shù)據(jù)集

使用查全率Rec、查準(zhǔn)率Pre以及F值來對實驗結(jié)果進(jìn)行評價[15].其中，查全率的定義為：被正確分類的文檔數(shù)和被測試文檔中各類別文檔總數(shù)的比值；查準(zhǔn)率的定義為：被正確分類的文檔數(shù)與識別出的類別文檔總數(shù)的比值.計算公式為：

其中:Ce表示在聚類前屬于TDT標(biāo)記的類i，且聚類后仍屬于類i的文檔個數(shù)；Tr1表示聚類前，TDT標(biāo)記的各個類所包含的總文檔數(shù)；Tr2表示聚類后獲得的所有類包含的全部文檔數(shù).本文規(guī)定最小類應(yīng)包含至少2篇文檔.

采用TDT4的中文語料作為實驗數(shù)據(jù)集.在TDT4語料中，共有兩套不重復(fù)的話題標(biāo)注：TDT4-2002話題標(biāo)注和TDT4-2003話題標(biāo)注.TDT4-2002是語言數(shù)據(jù)聯(lián)盟(linguistic data consortium，LDC)在2002年的話題檢測與追蹤(topic detection and tracking，TDT)評測中標(biāo)注并使用的話題，TDT4-2003是LDC在2003年的TDT評測中標(biāo)注并使用的話題.這兩套話題標(biāo)注之間，不存在話題的重復(fù)，也不存在文檔的重復(fù)，即TDT4-2003的話題不包含TDT4-2002的任何話題，且TDT4-2003標(biāo)記的文檔也不包含TDT4-2002標(biāo)記的任何文檔.在這兩套話題標(biāo)注中，具有明確話題標(biāo)注的中文語料在TDT4-2002中有723篇，共涉及40個話題；在TDT4-2003中有580篇，共涉及33個話題.TDT4的語料標(biāo)注存在少數(shù)一篇文檔對應(yīng)多個話題的情況；一篇文檔只對應(yīng)一個話題的語料占多數(shù).其中，一篇文檔僅對應(yīng)一個話題的文檔，在TDT4-2002中有657篇，涉及37個話題，TDT4-2003中有564篇，涉及31個話題.用Tpc1，Doc1和Tpc2，Doc2分別表示TDT4-2002和TDT4-2003的話題、文檔集合，則有Tpc1∩Tpc2=Φ，Doc1∩Doc2=Φ，因此可以將TDT4-2002與TDT4-2003的話題和文檔合并，使用Tpc′=Tpc1∪Tpc2，Doc′=Doc1∪Doc2作為實驗數(shù)據(jù)集，共1 221篇文檔總計68個話題.其中，若一個話題只有一篇文檔，則認(rèn)為該話題的文檔是孤立點，不再當(dāng)作一個話題，這些文檔仍然保留在數(shù)據(jù)集中，但其話題不再計入話題總數(shù)，最終得到61個話題，共計1 221篇文檔.

4 實驗與分析

4.1 基準(zhǔn)方法聚類實驗

在由TDT4-2002與TDT4-2003共同組成的語料集上，使用基準(zhǔn)方法，按如下過程進(jìn)行實驗：聚類開始，直到只剩下3個簇時，聚類停止，然后對聚類過程中的每一次聚類結(jié)果計算出F值，將其中的最大F值及其對應(yīng)的召回率和準(zhǔn)確率作為實驗結(jié)果.再用NewTFIDF方法替換基準(zhǔn)方法中的傳統(tǒng)TFIDF方法，按前述過程再次進(jìn)行實驗.使用兩種不同權(quán)值計算方法得到的實驗結(jié)果如表1所示.

表1 傳統(tǒng)TFIDF與NewTFIDF的實驗結(jié)果

通過表1的實驗結(jié)果可以看到，本文給出的NewTFIDF加權(quán)算法與傳統(tǒng)TFIDF算法相比，聚類結(jié)果的召回率提高了2.51個百分點，準(zhǔn)確率提高了0.36個百分點，最后F值提高了1.48個百分點，表明本文給出的在傳統(tǒng)TFIDF算法基礎(chǔ)上引入特征的類內(nèi)分布情況統(tǒng)計量的方法能夠在一定程度上解決傳統(tǒng)算法中存在的問題.

4.2 基于多向量模型方法實驗

在本文使用的多向量中，每個簇的3個子向量維度上限均取20維.3個子向量的權(quán)值設(shè)置為：wt1=wt2=wt3=1/3. 在獲取主題子向量時，LDA主題模型的主題數(shù)H設(shè)為20，α和β取經(jīng)驗值分別為0.5和0.01，迭代次數(shù)取200次.由于從LDA主題模型獲取的主題子向量具有隨機(jī)性，因此本文進(jìn)行了10次聚類實驗，每次實驗重新構(gòu)造主題子向量，取每次實驗?zāi)軌颢@得的最高F值對應(yīng)的召回率和準(zhǔn)確率作為當(dāng)次實驗的結(jié)果，然后對10次實驗獲得的10組召回率和準(zhǔn)確率進(jìn)行加和求平均，再通過計算出的平均召回率和平均準(zhǔn)確率計算出平均F值，這3個分值一同作為最終聚類評價分?jǐn)?shù).

將基準(zhǔn)方法的 VSM向量分別與傳統(tǒng)TFIDF和NewTFIDF加權(quán)方法進(jìn)行組合，再用本文給出的多向量分別與傳統(tǒng)TFIDF和NewTFIDF加權(quán)方法進(jìn)行組合.這4組方法分兩次在TDT4-2002與TDT4-2003語料上各進(jìn)行一次實驗.實驗結(jié)果如表2所示.

表2 4組方法在兩個語料庫上的聚類結(jié)果

通過4組實驗數(shù)據(jù)的對比，可以得到，與傳統(tǒng)的VSM和TFIDF組合方法相比，多向量模型的使用以及NewTFIDF算法使得在TDT4-2002語料上，聚類結(jié)果的召回率提高了4.08個百分點，準(zhǔn)確率提高了5.54個百分點，F(xiàn)值提高了4.77個百分點；在TDT4-2003語料上，聚類結(jié)果的召回率提高了3.31個百分點，準(zhǔn)確率提高了5.2個百分點，F(xiàn)值提高了4.19個百分點.實驗表明，本文給出的多向量模型和NewTFIDF加權(quán)方法使話題檢測的性能得到提升.

5 總結(jié)

本文通過對話題表示模型的分析，給出了一種基于多向量模型的話題表示方法，將話題表示為主題子向量、地點人物子向量和關(guān)鍵詞子向量.同時針對傳統(tǒng)TFIDF加權(quán)算法存在的不足，給出了一種改進(jìn)的TFIDF算法，將特征項在各個類中的文檔分布信息引入到TFIDF權(quán)值計算當(dāng)中.通過實驗表明，本文給出的方法能有效提高話題檢測的召回率和準(zhǔn)確率.

[1] 洪宇，張宇，劉挺，等．話題檢測與跟蹤的評測及研究綜述[J]．中文信息學(xué)報，2007，21(6)：71-87．

[2] 李勝東，呂學(xué)強(qiáng)，施水才，等．基于話題檢測的自適應(yīng)增量K-means算法[J]．中文信息學(xué)報，2014，28(6)：190-193．

[3] 金建國．聚類方法綜述[J]．計算機(jī)科學(xué)，2014，41(S2)：288-293．

[4] 王祥斌，楊柳，鄧倫治．一種利用高斯函數(shù)的聚類算法[J]．河南科技大學(xué)學(xué)報(自然科學(xué)版)，2014，35(5)：33-36．

[5] 張曉艷，王挺，陳火旺．基于多向量和實體模糊匹配的話題關(guān)聯(lián)識別[J]．中文信息學(xué)報，2008，22(1)：9-14．

[6] JORDAN M I，BLEI D M，NG A Y．Latent dirichlet allocation[J]．Journal of machine learning research，2003，3：993-1022．

[7] 張曉艷，王挺，梁曉波．LDA模型在話題追蹤中的應(yīng)用[J]．計算機(jī)科學(xué)，2011，S1：136-139．

[8] 李湘東，巴志超，黃莉．基于LDA模型和HowNet的多粒度子話題劃分方法[J]．計算機(jī)應(yīng)用研究，2015，32(6)：1625-1629．

[9] 謝林燕，張素香，戚銀城．基于層疊模型的話題檢測方法研究[J]．鄭州大學(xué)學(xué)報(理學(xué)版)，2012，44(2)：43-47．

[10]王振宇，吳澤衡，唐遠(yuǎn)華．基于多向量和二次聚類的話題檢測[J]．計算機(jī)工程與設(shè)計，2012，33(8)：3214-3218．

[11]常寶嫻，陳瑋瑋，李素娟．一種基于分布式rough本體的語義相似度計算方法[J]．揚州大學(xué)學(xué)報(自然科學(xué)版)，2014，17(1)：60-62．

[12]冀俊忠，貝飛，吳晨生，等．詞性對新聞和微博網(wǎng)絡(luò)話題檢測的影響[J]．北京工業(yè)大學(xué)學(xué)報，2015，41(4)：526-533．

[13]王李冬，魏寶剛，袁杰．基于概率主題模型的文檔聚類[J]．電子學(xué)報，2012，40(11)：2346-2350．

[14]蔣玲芳，張偉，司夢．基于詞袋模型的電子報圖像分類方法研究[J]．信陽師范學(xué)院學(xué)報(自然科學(xué)版)，2013，26(1)：124-127．

[15]張小明，李舟軍，巢文涵．基于增量型聚類的自動話題檢測研究[J]．軟件學(xué)報，2012，23(6)：1578-1587．

(責(zé)任編輯：王浩毅)

A Multi-vector Text Clustering Method for Chinese News Topic Detection

LI Xinyu1， YUAN Fang2， LIU Yu2，LI Cong1

(1.CollegeofComputerScienceandTechnology,HebeiUniversity,Baoding071000,China;2.CollegeofMathematicsandInformation,HebeiUniversity,Baoding071000,China)

A multi-vector topic representation method combined with topic information and topic text information was proposed, to accurately represent a topic in a lower dimension. The traditional TFIDF method, during text classification, couldn’t fully cover the distribution of the feature items in each class, so an improved TFIDF method was proposed. Compared with traditional vector space model, the topic representation method and the TFIDF algorithm could effectively improve the accuracy of clustering.

topic detection; multi-vector model; TDT4; improved TFIDF

2015-11-19

河北省軟科學(xué)研究計劃項目(13455317D，12457206D-11).

李欣雨(1989—)，男，河北秦皇島人，碩士研究生，主要從事數(shù)據(jù)挖掘研究，E-mail:lixinyudm@163.com；通訊作者：袁方(1965—)，男，河北安新人，教授，博士，主要從事數(shù)據(jù)挖掘、社會計算研究，E-mail:yuanfang@hbu.edu.cn．

李欣雨，袁方，劉宇，等. 面向中文新聞話題檢測的多向量文本聚類方法[J]. 鄭州大學(xué)學(xué)報(理學(xué)版)，2016，48(2)：47-52.

TP391.1

1671-6841(2016)02-0047-06

10.13705/j.issn.1671-6841.2015277