郭 瑩, 薛 濤, 胡偉華
1(西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 西安 710600)
2(西安工程大學(xué) 人文社會科學(xué)學(xué)院, 西安 710600)
隨著大數(shù)據(jù)時(shí)代的飛速發(fā)展, 如何能夠快速、及時(shí)地從大量的網(wǎng)絡(luò)新聞信息中發(fā)現(xiàn)熱點(diǎn)話題已經(jīng)成為當(dāng)前研究的熱點(diǎn). 話題檢測[1]作為一種有效的能夠自動從大量網(wǎng)絡(luò)數(shù)據(jù)流中挖掘重要信息的研究方法, 在信息檢索[2]、輿情監(jiān)督[3]、輿情預(yù)測[4]等方面有著廣泛的應(yīng)用場景. 如監(jiān)測和把握中國在國際上的受關(guān)注領(lǐng)域和程度, 為中國政府調(diào)整外交策略和媒體建構(gòu)海外中國形象獻(xiàn)計(jì)獻(xiàn)策, 具有重要的研究意義.
文本的話題檢測任務(wù)主要分為文本表示和文本聚類兩個(gè)重要部分. 在文本表示方面, 文中以LDA2Vec主題模型[5]為基礎(chǔ), 結(jié)合LDA模型[6]注重全局文本語義特征和Word2Vec模型[7]注重局部文本語義特征的優(yōu)勢, 將主題向量和詞向量融合到同一語義空間中形成嵌入式向量模型, 進(jìn)而學(xué)習(xí)主題, 產(chǎn)生的主題詞可解釋性更強(qiáng), 更注重上下文語義相似度, 同時(shí)也解決了文本特征維度過高的問題. 但文本表示模型僅考慮了提取隱含語義主題的準(zhǔn)確性, 沒有考慮到全部文本信息,且話題的凝聚度不高, 由此, 本文在文本表示的基礎(chǔ)上,利用文本聚類算法, 對數(shù)據(jù)進(jìn)行熱點(diǎn)話題聚類.
采用增量文本聚類思想, 不需要重新對全部數(shù)據(jù)進(jìn)行訓(xùn)練, 可以更全面、更高效地對動態(tài)實(shí)時(shí)增長的數(shù)據(jù)流進(jìn)行熱點(diǎn)話題聚類. 目前廣泛應(yīng)用的增量文本聚類算法如Single-Pass算法[8], 由于其實(shí)現(xiàn)簡單、高效且不需要提前設(shè)定聚類類別數(shù)量的優(yōu)勢, 被許多學(xué)者研究并改進(jìn), 文獻(xiàn)[9]通過對已經(jīng)標(biāo)注的話題類別和時(shí)間間隔較遠(yuǎn)的文檔類別增加時(shí)間參數(shù)動態(tài)閾值, 證明了不同文檔順序?qū)垲愋Ч挠绊? 文獻(xiàn)[10]提出了一種通過調(diào)整關(guān)鍵詞權(quán)重降低文本噪聲, 將上下文和相似度矩陣相結(jié)合的關(guān)聯(lián)模型, 從而提升算法的話題挖掘速度. 文獻(xiàn)[11]在文本特征詞選取時(shí), 以權(quán)重系數(shù)表達(dá)特征詞位置, 并引入了子話題判斷, 得到了不同粒度的話題聚類效果. 文獻(xiàn)[12]在余弦相似度的基礎(chǔ)上, 考慮從取值和方向兩方面改進(jìn)余弦相似度, 從而提高話題發(fā)現(xiàn)的算法正確率. 上述方法在一定程度上提高了話題聚類的精度, 但隨著數(shù)據(jù)規(guī)模的增長, 時(shí)間復(fù)雜度也急劇增長, 尤其針對動態(tài)增長的數(shù)據(jù)流, 話題檢測的準(zhǔn)確率依然較低, 同時(shí)還會影響到相似度計(jì)算結(jié)果準(zhǔn)確率.
鑒于此, 本文提出一種面向熱點(diǎn)話題檢測的增強(qiáng)文本聚類算法(Single Pass-hot topic detection, SP-HTD).以Single-Pass算法思想為基礎(chǔ), 從文本表示、文本聚類和相似度計(jì)算3個(gè)方面進(jìn)行了改進(jìn), 并通過爬取并預(yù)處理《紐約時(shí)報(bào)》《泰晤士報(bào)》《朝日新聞》等10個(gè)國際主流媒體中的涉華報(bào)道作為數(shù)據(jù)集, 與多個(gè)聚類算法進(jìn)行對比實(shí)驗(yàn). 結(jié)果表明, 在保證聚類精度的前提下, 所提算法能夠取得更優(yōu)的話題檢測效果, 可以有效提升聚類算法對新文本的反應(yīng)能力.
傳統(tǒng)的Single-Pass算法是一種流式處理文本數(shù)據(jù)的聚類算法, 根據(jù)文檔輸入的先后順序, 依次比較要輸入的新文本數(shù)據(jù)與已有類簇的文本相似度來進(jìn)行劃分聚類, 不需要每次對整個(gè)文檔集合重新聚類, 具有實(shí)現(xiàn)便捷、易于理解和應(yīng)用廣泛的特點(diǎn). 它的基本流程是首先將輸入的第一篇文檔作為話題聚類的首個(gè)類簇,并設(shè)定一個(gè)初始的文本相似度閾值, 然后計(jì)算要加入的新文本數(shù)據(jù)與已有的各個(gè)類簇文檔的相似度, 如果該相似度大于初始的相似度閾值, 就把該文本歸為當(dāng)前聚類類簇, 否則以該文檔為聚類中心增加一個(gè)新類簇, 直到所有的文檔數(shù)據(jù)處理完畢, 結(jié)束話題聚類過程.其處理流程如圖1所示.
圖1 Single-Pass算法處理流程
在文本聚類的過程中, Single-Pass聚類算法對整個(gè)文檔集合只需要遍歷一次, 根據(jù)數(shù)據(jù)實(shí)時(shí)情況聚類,不需要給定初始聚類類別的個(gè)數(shù), 所以邏輯簡單且執(zhí)行效率高. 但該算法也存在一定的缺陷, 主要體現(xiàn)在以下兩點(diǎn): (1)對文本數(shù)據(jù)的輸入順序過于敏感, 文檔的輸入順序會影響文本聚類的結(jié)果. (2)對新文檔類簇劃分時(shí), 需要逐一比較文本相似度, 隨著文檔和類簇的增加, 未及時(shí)淘汰舊的類簇, 會導(dǎo)致算法計(jì)算復(fù)雜度增加,影響聚類效率.
熱點(diǎn)話題檢測是以話題為粒度, 考慮語料的實(shí)時(shí)性和數(shù)據(jù)來源等因素, 利用文本聚類算法去發(fā)現(xiàn)新的熱點(diǎn)事件, 將同一話題下的新聞報(bào)道聚合到同一類簇下, 生成不同的聚類類別, 從而可以更好的組織新聞事件, 了解事件的進(jìn)展. 處理流程如圖2所示.
圖2 話題檢測處理流程圖
本文在文本表示模型的基礎(chǔ)上, 改進(jìn)Single-Pass增量文本聚類算法發(fā)現(xiàn)新熱點(diǎn)話題. 首先通過解析LDA2Vec主題模型, 聯(lián)合訓(xùn)練文檔向量和詞向量, 獲得語料數(shù)據(jù)的主題分布, 用來解決在文本聚類過程中產(chǎn)生的文本特征維數(shù)高和數(shù)據(jù)稀疏的問題, 然后基于Single-Pass算法進(jìn)行初始化聚類, 引入時(shí)間閾值, 確定類簇的時(shí)效性, 最后將挖掘的文本語義特征和熱點(diǎn)話題檢測任務(wù)相結(jié)合, 動態(tài)優(yōu)化類簇中心, 進(jìn)行迭代聚類,并在文本相似度方面, 以新聞報(bào)道時(shí)間特性為輔, 優(yōu)化文本相似度計(jì)算方法, 改善Single-Pass算法的缺陷. 主要改進(jìn)內(nèi)容分為文本表示、文本相似度和文本聚類3個(gè)部分.
在熱點(diǎn)話題聚類過程中, 需要用文本表示模型來表示新聞事件. 傳統(tǒng)的LDA及其改進(jìn)模型[13-15]存在主題語義一致性較弱和準(zhǔn)確率較低等問題. 本文依據(jù)文獻(xiàn)[16]提出的NS-LDA2Vec主題模型, 在考慮詞語信息和主題信息的基礎(chǔ)上, 使用LDA和Word2Vec模型對語料庫進(jìn)行預(yù)訓(xùn)練, 然后解析LDA2Vec模型的核心算法, 迭代學(xué)習(xí)語料中含有主題信息的文檔向量, 最后聯(lián)合訓(xùn)練該文檔向量與Word2Vec訓(xùn)練的詞向量得到上下文向量, 利用上下文向量完成熱點(diǎn)主題識別任務(wù).主要分為詞向量表示和文檔向量表示兩個(gè)部分.
在詞向量表示部分, 根據(jù)Skip-gram負(fù)采樣思想[17]訓(xùn)練得到文本的詞向量表示, 采用文獻(xiàn)[7]提出的移動窗口形式來掃描數(shù)據(jù)集, 通過對模型多次迭代訓(xùn)練, 對窗口參數(shù)進(jìn)行調(diào)優(yōu), 文中將滑動窗口的大小設(shè)置為5,即包含中樞詞在內(nèi)的5個(gè)單詞, 然后動態(tài)移動窗口, 利用選定的中樞詞來預(yù)測鄰近窗口內(nèi)出現(xiàn)的目標(biāo)詞, 從而學(xué)習(xí)文本的上下文和主題信息, 學(xué)習(xí)的上下文向量表示表現(xiàn)的更為密集. 文檔向量表示部分主要包括文檔權(quán)重向量和主題向量的計(jì)算. 文檔權(quán)重向量表示文檔中各個(gè)主題的重要性. 主題向量是通過調(diào)節(jié)文檔權(quán)重來更新主題強(qiáng)度. 初始化語料庫中文檔的權(quán)重向量時(shí), 通過約束文檔向量生成一組潛在主題向量計(jì)算公式如式(1)所示:
其中, Pjk表 示單個(gè)文檔中不同主題的百分比;表示文檔k 對應(yīng)主題的向量表示. 在模型迭代訓(xùn)練結(jié)束后, 融合文檔權(quán)重向量和主題向量, 得到含有隱含主題信息的文檔向量, 然后將詞向量表示部分得到的樞軸詞向量與該文檔向量相加得到上下文向量, 以此來最小化主題預(yù)測過程中的負(fù)采樣損失和Dirichlet 似然項(xiàng)總和,生成可解釋的文檔表示.
模型的總損失L是詞向量表示部分的損失與文檔向量表示部分的損失之和, 計(jì)算公式如式(2)所示:
文本相似度作為衡量不同文本間相關(guān)程度的指標(biāo),是熱點(diǎn)話題聚類過程中不可或缺的一部分. 文本間相似度越高, 說明其內(nèi)容語義更接近. 在熱點(diǎn)話題聚類任務(wù)中, 設(shè)計(jì)合理的相似度計(jì)算方法, 可以使聚類的性能更優(yōu), 話題的凝聚度更好. 余弦相似度方法[18]通過計(jì)算兩個(gè)向量在向量空間方向上的余弦值, 來度量文本間相似度. 當(dāng)兩個(gè)向量屬于同一方向時(shí), 余弦值越接近1, 兩個(gè)向量就越相似, 表明該報(bào)道越可能聚類到該話題下.利用余弦相似度計(jì)算向量集合a=(a1,a2,···,ai,···,an)和b=(b1,b2,···,bi,···,bn) 的語義相似度 s im(a,b)的計(jì)算公式如式(3)所示:
其中, ai、 bi表示文本對應(yīng)的主題特征詞概率向量, 表示形式為( ti,wi), ti表 示特征詞, wi表示該特征詞的權(quán)重.
新聞的實(shí)時(shí)增長性決定了一個(gè)話題結(jié)束后, 會繼續(xù)出現(xiàn)新的話題. 利用文本表示模型提取主題特征詞,如果新話題存在很多與舊話題相同的特征詞, 其文本相似度就會超過給定的相似度閾值, 此時(shí)就會將新的話題歸到舊話題中, 這種情況下, 想要改善聚類質(zhì)量,就可以通過新的新聞報(bào)道發(fā)布的時(shí)間和舊話題中最先出現(xiàn)出現(xiàn)的新聞報(bào)道發(fā)布時(shí)間進(jìn)行比較, 時(shí)間差越大,不屬于該話題的可能性就越大. 所以, 在話題生成的過程中, 考慮利用時(shí)間特性優(yōu)化文本相似度算法, 用來更好的區(qū)別當(dāng)前報(bào)道是否屬于已有的話題, 提高聚類精度. 文中結(jié)合聯(lián)合訓(xùn)練得到的熱點(diǎn)主題特征詞和時(shí)間特性, 將文本表示為( ti,wi,(tl,tb)) , 其中ti表示利用本文主題表示模型提取的隱含主題特征詞, wi表示對應(yīng)特征詞的權(quán)重, tl表示話題特征詞在對應(yīng)話題報(bào)道中最后出現(xiàn)的更新時(shí)間, tb表示該話題特征詞在報(bào)道中第一次出現(xiàn)的時(shí)間. 在最新報(bào)道與已有文本出現(xiàn)相同特征詞時(shí), 其與相應(yīng)新聞話題的時(shí)間差dt的計(jì)算如式(4)所示:
其中, tn表示該話題特征詞在報(bào)道中最新出現(xiàn)的時(shí)間,由于新聞報(bào)道隨著時(shí)間差 dt的增大, 文本相似度會降低, 反之, dt減小, 文本相似度會增大, 文中采用增函數(shù)的方式進(jìn)行表示, 即:, 同時(shí)為了保證其在(0, 1]上連續(xù)變化, 文中令 x =tn-tl, 時(shí)間相似度計(jì)算公式如式(5)所示:
基于文中文本表示方法和余弦相似度, 得到報(bào)道的文本相似度算法公式如式(6)所示:
采用式(6)計(jì)算文本語義相似度, 在對新增量的文本進(jìn)行相似度計(jì)算時(shí), 不需要重復(fù)計(jì)算與話題集合下的每篇新聞報(bào)道的相似度, 只需計(jì)算其對應(yīng)文本表示向量與該話題中多篇報(bào)道特征向量平均值的相似度值,這樣不僅提升了文本相似度的計(jì)算效率, 節(jié)省了文本聚類時(shí)間, 也有效提升了聚類算法對新文本的反應(yīng)能力.
增量聚類主要是用來觀察和發(fā)現(xiàn)動態(tài)數(shù)據(jù)流中文本信息的變化趨勢. 與其他聚類算法不同的是, 在算法初始化時(shí), 增量聚類不需要預(yù)先設(shè)定類簇的個(gè)數(shù)、初始中心點(diǎn)和結(jié)束條件, 在對新的文本數(shù)據(jù)加入時(shí), 會依據(jù)一定的類簇劃分規(guī)則形成新的類簇、或加入原有類簇、或造成原有類簇的分裂或合并, 在處理新數(shù)據(jù)時(shí)更便捷、高效, 能夠提升話題聚類的效率.
假設(shè)文本的向量表示為 D=(d1,d2,···,dk,···,dn),其中 dk表示第k 個(gè)特征詞對應(yīng)的向量表示, D0表示初始的文本聚類類簇, 對于動態(tài)增加的文本數(shù)據(jù)流, 具體識別規(guī)則如下: 在整個(gè)聚類過程中, 文本的初始類簇只有一個(gè), 利用當(dāng)前文本和已存在的類簇中心分別計(jì)算相似度, 判斷新數(shù)據(jù)與最大相似度和閾值的關(guān)系, 如果大于閾值, 則歸類到該類簇中, 否則添加新的類簇, 即標(biāo)記新的增量節(jié)點(diǎn), 以此動態(tài)增加類簇, 遍歷至無輸入新數(shù)據(jù)時(shí), 算法結(jié)束, 完成文本的聚類. 可以看出, 對初始類簇的選擇會對聚類結(jié)果產(chǎn)生很大的影響, 且對文本的相似度閾值比較敏感.
針對Single-Pass聚類算法不足, 考慮到熱點(diǎn)話題檢測任務(wù)的擴(kuò)展性和性能需求, 本文做了以下改進(jìn):(1)動態(tài)更新類簇中心, 通過文本發(fā)布時(shí)間和時(shí)間閾值不斷優(yōu)化, 避免重復(fù)的簇內(nèi)相似度比較, 減小算法計(jì)算次數(shù), 提高話題聚類的質(zhì)量. (2)對要聚類的文本數(shù)據(jù)按照話題的發(fā)布時(shí)間進(jìn)行排序, 并采用Single-Pass算法對其進(jìn)行初始化粗聚類, 然后將該聚類結(jié)果作為下一次文本聚類的輸入來進(jìn)行迭代聚類, 以此來降低聚類結(jié)果對文本輸入順序的過于敏感的問題. (3)細(xì)化話題劃分粒度, 選取文本表示模型提取的話題對應(yīng)的主題詞來劃分子話題, 提升對報(bào)道間相似度計(jì)算的準(zhǔn)確性. 算法流程如圖3所示.
圖3 SP-HTD算法流程圖
具體算法步驟如下:
步驟1. 輸入初始文本集合和文本相似度閾值S0;
步驟3. 考慮其文本時(shí)間特性, 按照發(fā)布時(shí)間先后將文本數(shù)據(jù)集進(jìn)行排序;
步驟4. 選取步驟3中得到的當(dāng)前輸入文本對應(yīng)話題的前3個(gè)熱點(diǎn)主題詞分別設(shè)為子話題, 然后初始化設(shè)定類簇中心 D0, 以此代表該聚類中所有文檔具有的共同話題;
步驟5. 依據(jù)本文第2.4節(jié)的文本相似度計(jì)算方法,計(jì)算要新輸入的文本與各子話題之間的相似度 s im;
步驟6. 判斷如果計(jì)算的相似度值 sim大于新文本與子話題的質(zhì)心向量的相似度閾值S1, 則增加新聚類到子話題, 否則執(zhí)行步驟7;
步驟7. 考慮將計(jì)算的 s im 與S0、 S1同時(shí)比較, 若處于兩者之間, 則增加新的子話題, 同時(shí)更新類簇中心.否則執(zhí)行步驟8;
步驟8. 如果計(jì)算的相似度不在S0、 S1之間, 則增加新的初始話題, 同時(shí)更新新話題對應(yīng)子話題的3個(gè)主題詞, 執(zhí)行步驟9;
元代時(shí)期的飲茶方式已近接近現(xiàn)在,茶葉的烘培制作也成熟,茶葉是放在茶壺里用炭爐煮,茶葉的形式是正片的葉子(經(jīng)過殺青發(fā)酵的,葉子成不規(guī)則),叫做“蒸青散茶”。至明代時(shí)終于出現(xiàn)了和今天一樣的綠茶制法——炒青制法。
步驟9. 判斷文本是否處理完畢, 如果處理完畢, 則結(jié)束聚類過程, 否則繼續(xù)輸入新文本, 從步驟5繼續(xù)進(jìn)行迭代聚類, 直至算法結(jié)束;
步驟10. 輸出SP-HTD聚類算法得到的熱點(diǎn)話題聚類結(jié)果.
在處理輸入的新文本時(shí), 通過動態(tài)更新類簇中心,僅僅需要將輸入的新文本與該類簇的子話題質(zhì)心向量比較相似度, 就可以判斷是否屬于該聚類, 減少了比較的次數(shù), 降低了算法運(yùn)算復(fù)雜度, 提高了新文本反應(yīng)能力. 在子話題主題詞選擇時(shí), 選擇前3個(gè)主題詞, 原因在于選取的主題詞太多, 會增加后續(xù)輸入文本與話題類簇中心相似度比較的時(shí)間, 選取的太少又會使得話題劃分不夠精細(xì). 因此本文選擇前3個(gè)主題詞作為對應(yīng)話題的子話題, 在計(jì)算文本相似度時(shí)保留更多新聞文本之間的相似性, 提高熱點(diǎn)話題聚類的效率.
本文通過爬取《紐約時(shí)報(bào)》《泰晤士報(bào)》等10個(gè)國際主流媒體近10年內(nèi)有關(guān)中國的新聞報(bào)道作為語料庫, 并將其分為經(jīng)濟(jì)、政治等8組不同類別的文檔集. 在預(yù)處理階段, 對數(shù)據(jù)進(jìn)行降噪處理, 包括過濾停用詞、去除重復(fù)文本數(shù)據(jù)和對缺失值進(jìn)行正則匹配等操作, 最終獲得22 731篇有效報(bào)道數(shù)據(jù). 實(shí)驗(yàn)將詞向量維度設(shè)置為350維, 初始率設(shè)為0.06, 同時(shí)采用GloVe詞向量模型[19]初始化英文詞向量, 獲得數(shù)據(jù)集的全局共現(xiàn)信息. 具體數(shù)據(jù)組成如表1所列.
表1 實(shí)驗(yàn)數(shù)據(jù)組成表
本文采用熱點(diǎn)話題檢測常用的評價(jià)指標(biāo)準(zhǔn)確率P 、召回率R 和 F 值對話題檢測的精度進(jìn)行評估. 計(jì)算公式如下:
其中, A表示預(yù)測正確, 實(shí)際也正確的聚類元素?cái)?shù)量,B 表示預(yù)測正確, 實(shí)際不正確的聚類元素?cái)?shù)量, C表示預(yù)測不正確, 實(shí)際正確的聚類元素?cái)?shù)量. 可以看出 F 值越大, 說明話題檢測的效果越好.
采用漏檢率Pm(missing detection rate)和誤檢率Pf(false detection rate)對改進(jìn)算法得到的聚類結(jié)果進(jìn)行評測, 評估聚類效果[20]. 計(jì)算公式如下:
其中, Pm表 示相關(guān)文檔的漏檢率. Pf表示不相關(guān)文檔的誤檢率. Da表 示被檢測到的相關(guān)文檔數(shù), Db表示未檢測到的相關(guān)文檔數(shù). Dc表示被檢測到的不相關(guān)文檔數(shù),Dd表示未檢測到的不相關(guān)文檔數(shù).
為了評估本文SP-HTD聚類算法的聚類結(jié)果的可行性和有效性, 在第2.3節(jié)主題模型對數(shù)據(jù)集進(jìn)行文本表示的基礎(chǔ)上, 以Single-Pass (SP)聚類算法、文獻(xiàn)[21]提出的SP-NN和SP-WC聚類算法為基線, 將4種算法在測試集上進(jìn)行話題聚類任務(wù), 其結(jié)果如圖4所示.
圖4 P、R和F值結(jié)果比較
從圖4可以看出, 在熱點(diǎn)話題檢測任務(wù)上, SP-HTD聚類算法的 F值最高可達(dá)89.3%, 相比于SP、SP-NN和SP-WC在準(zhǔn)確率分別提高了15%、3.6%、7.5%, 在召回率上分別提高了10.2%、3.5%、6.3%, 均有更好的效果, 表明SP-HTD聚類算法能夠?qū)⑽谋揪垲惖礁玫脑掝}類別, 熱點(diǎn)話題聚類效果更好. 原因在于本文算法考慮了更全面的語義特征信息, 聯(lián)合訓(xùn)練文檔向量和詞向量, 挖掘的主題表示更為精確, 并且在文本相似度計(jì)算時(shí), 考慮了新聞報(bào)道的時(shí)效性, 通過報(bào)道發(fā)布的時(shí)間差, 動態(tài)更新質(zhì)心向量, 提高了熱點(diǎn)話題聚類的準(zhǔn)確率.
本文采用漏檢率和誤檢率對話題聚類結(jié)果的質(zhì)量進(jìn)行對比評估, 從數(shù)據(jù)集中選取6個(gè)熱點(diǎn)話題, 按8:2的比例選取每個(gè)話題的文本作為聚類訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集, 將其經(jīng)過文本表示模型的建模后作為聚類算法的輸入, 采用SP、SP-NN、SP-WC和SP-HTD聚類算法分別進(jìn)行實(shí)驗(yàn), 其結(jié)果如圖5、圖6所示.
圖5 漏檢率比較
圖6 誤檢率比較
從圖5、圖6可以看出, 對相同的新聞數(shù)據(jù)集進(jìn)行熱點(diǎn)話題檢測的話題聚類任務(wù), 文中提出的SP-HTD聚類算法相比于SP、SP-NN和SP-WC聚類算法得到的漏檢率分別可降低約7.6%、6.1%、4.1%, 誤檢率可降低約3.1%、2.3%、1.5%. 其中, 與SP-WC算法相比,話題1和話題5的漏檢率差距較小, 話題2和話題4的漏檢率差距較大. 與SP算法相比, 在話題4和話題5的誤檢率差距較大, 話題2和話題3的誤差率差異較小, 但綜合來看, 本文提出的SP-HTD聚類算法提高了話題檢測聚類的質(zhì)量. 原因在于本文算法在處理新文本時(shí), 無需重復(fù)計(jì)算整個(gè)文檔集, 并且根據(jù)時(shí)間閾值, 在聚類過程中不斷優(yōu)化類簇中心, 保證了聚類算法對新文本擴(kuò)展性能和聚類質(zhì)量.
本文提出了一種面向熱點(diǎn)話題檢測任務(wù)的增量文本聚類算法(SP-HTD), 針對Single-Pass算法對數(shù)據(jù)的輸入順序過于敏感和聚類效率相對低的問題, 從文本表示、相似度計(jì)算和文本聚類3個(gè)方面進(jìn)行了改善,并與SP、SP-NN和SP-WC聚類算法做對比實(shí)驗(yàn). 結(jié)果表明, 在熱點(diǎn)話題檢測任務(wù)上, 相比傳統(tǒng)的Single-Pass算法, 在保證聚類精度的前提下, 所提算法計(jì)算的聚類中心的代表性更強(qiáng), 可以有效提高話題檢測的準(zhǔn)確性. 在下一階段工作中, 將考慮更進(jìn)一步細(xì)化話題檢測粒度, 對特定話題下的子話題, 研究其內(nèi)部結(jié)構(gòu)和聯(lián)系, 以期實(shí)現(xiàn)更好的熱點(diǎn)話題檢測效果.