亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖模型的多文檔摘要生成算法

2020-08-19 10:42:04張?jiān)萍?/span>徐濟(jì)銘袁衛(wèi)平

計(jì)算機(jī)工程與應(yīng)用 2020年16期

關(guān)鍵詞：文本模型

張?jiān)萍?，?琨，徐濟(jì)銘，袁衛(wèi)平，蔡穎，高雅

1.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，南京 210094

2.國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心江蘇分中心互聯(lián)網(wǎng)信息處，南京 210019

1 引言

人工文本摘要的形成過程十分復(fù)雜，且十分費(fèi)時(shí)費(fèi)力。它需要由具有一定專業(yè)知識并經(jīng)過相關(guān)培訓(xùn)的特定人員，在研習(xí)了相關(guān)資料文獻(xiàn)后，概括成可讀性強(qiáng)、質(zhì)量高的摘要。在這個(gè)信息超負(fù)荷的時(shí)代，對于文本摘要的處理，需要滿足時(shí)效性強(qiáng)、范圍廣、速度快等特征，這顯然是傳統(tǒng)的人工提取文本摘要所不能滿足的。

自動(dòng)文本摘要生成技術(shù)是利用計(jì)算機(jī)技術(shù)從文章中提取內(nèi)容生成摘要，并以語意連貫的段落乃至篇章的形式展現(xiàn)，該技術(shù)能夠幫助人們快速獲取情報(bào)信息，輔助國家輿情監(jiān)測部門采取應(yīng)急響應(yīng)措施。它采用機(jī)器學(xué)習(xí)與自然語言處理技術(shù)進(jìn)行內(nèi)容抽取、分類，并精簡概括全文。出于對信息過載問題的考慮，該技術(shù)在國內(nèi)外正日益受到密切關(guān)注。本文以國外新聞網(wǎng)站的大量新聞文檔為研究對象，利用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)，對新聞文檔進(jìn)行多文檔摘要的生成。

2 相關(guān)研究

自動(dòng)文本摘要生成技術(shù)是自然語言處理領(lǐng)域中較難的技術(shù)，亦是當(dāng)下的研究熱點(diǎn)。國內(nèi)外學(xué)者在自動(dòng)文本摘要領(lǐng)域做了大量的研究。統(tǒng)計(jì)學(xué)模型在自然語言處理領(lǐng)域應(yīng)用廣泛，統(tǒng)計(jì)技術(shù)也是自動(dòng)文本摘要最早應(yīng)用的技術(shù)。統(tǒng)計(jì)技術(shù)相較于其他技術(shù)而言，數(shù)學(xué)模型簡單，實(shí)現(xiàn)方便，出現(xiàn)時(shí)間也最早。文獻(xiàn)[1]最早提出了自動(dòng)文本摘要的概念，運(yùn)用詞頻來衡量句子在一篇文檔中的重要性，即出現(xiàn)越多的單詞越能夠代表文章的主題思想。僅考慮詞頻不夠全面，在實(shí)際提取摘要時(shí)，統(tǒng)計(jì)特征往往會(huì)與句子本身的特征結(jié)合使用，來提高權(quán)重的精確度[2-3]。例如在新聞報(bào)道中，針對首段內(nèi)容往往凝煉了事件的主體信息，段落中的首句和末句能夠概括段落內(nèi)容等特性，設(shè)計(jì)特定的權(quán)重公式來提取摘要句更為恰當(dāng)。Edmundson[4]設(shè)計(jì)了一個(gè)經(jīng)典的抽取式摘要系統(tǒng)。他不僅利用詞頻和段落位置等基本特性，還將提示詞、文檔框架特征納入考慮范圍，對語句的重要程度進(jìn)行評判。

圖模型算法在自動(dòng)文本摘要生成領(lǐng)域亦有著廣泛應(yīng)用，最早的工作可見文獻(xiàn)[5]。文獻(xiàn)[6]提出了一種基于親和圖的自動(dòng)文本摘要生成技術(shù)，該方法考慮句子間的相似性，結(jié)合主題信息抽取出高信息性和高獨(dú)特性的句子，經(jīng)過冗余削減后生成摘要。文獻(xiàn)[7]利用N-Gram圖抽取文檔中的重要成分。文獻(xiàn)[8]使用WordNet 識別文檔中的概念來構(gòu)建文本圖?；趫D排序算法的自動(dòng)文本摘要生成技術(shù)是圖模型在該領(lǐng)域應(yīng)用的一類特例，其因?yàn)榱己玫男Ч约翱蓴U(kuò)展性成為本領(lǐng)域的研究熱點(diǎn)。在圖的構(gòu)建方面，除了應(yīng)用最廣泛的余弦相似度度量外，基于關(guān)聯(lián)規(guī)則挖掘[9]、信息論[10]等衡量文本單元相關(guān)性的方法也有所應(yīng)用，以及基于超圖[11]、聚類[12]、WordNet以及維基百科的方法[13-15]也有所應(yīng)用；在圖排序方面，現(xiàn)有的系統(tǒng)大多是對PageRank或HITS（Hyperlink-Induced Topic Search）算法基于所構(gòu)建的文本圖進(jìn)行相應(yīng)的改進(jìn)，例如TextRank和GraphSum算法將PageRank算法的權(quán)重傳播做了加權(quán)改進(jìn)，Biased-LexRank[16]將馬爾科夫鏈轉(zhuǎn)移到自身的概率進(jìn)行了加權(quán)，文獻(xiàn)[15]從加權(quán)HITS算法中獲得啟發(fā)；也有方法進(jìn)一步擴(kuò)展了現(xiàn)有的圖排序方法，例如文獻(xiàn)[14]用全局排序的結(jié)果對聚類簇做動(dòng)態(tài)更新，然后利用更新過后的聚類簇對句子進(jìn)行重新排序。

多文檔自動(dòng)文本摘要生成技術(shù)以不同主題的文本集合為研究對象，其目的是生成同一主題下多個(gè)文檔的摘要信息，通常在圖模型的基礎(chǔ)上展開研究。目前，研究人員在這一領(lǐng)域也展開了一系列的研究，并取得了階段性成果。文獻(xiàn)[17]提出了一種識別關(guān)鍵主題的方法，以在多個(gè)文檔中提取摘要。文獻(xiàn)[18]通過結(jié)合LDA（Latent Dirichlet Allocation）主題模型，提出了一種新的挖掘主題的方法。文獻(xiàn)[19]主要針對多文檔句子重要度排序的問題，設(shè)計(jì)了一種通用的解決方案。

新聞文檔存在時(shí)效性強(qiáng)、主題明確的特征，傳統(tǒng)的基于統(tǒng)計(jì)學(xué)模型和圖模型的自動(dòng)文本摘要生成方法很難充分考慮這兩個(gè)特征，因而生成的摘要存在冗余度高、新穎性不強(qiáng)等缺點(diǎn)?；诖?，本文對上述圖模型算法進(jìn)行改進(jìn)，實(shí)現(xiàn)對英文文本的多文檔摘要生成。算法采用兩步文本聚類的方法，在提升效率的同時(shí)，更好地發(fā)現(xiàn)文檔主題。此外，在摘要的抽取階段，采用了基于特征融合的算法，充分考慮了位置因素和時(shí)間因素對文檔、句子的影響，提高了文本摘要的新穎性、時(shí)效性和準(zhǔn)確性。

3 基于圖模型的自動(dòng)文本摘要生成算法

為提高摘要句抽取的準(zhǔn)確度，本文首先對傳統(tǒng)的詞頻-逆向文件頻率（Term Frequency-Inverse Document Frequency，TF-IDF）算法進(jìn)行改進(jìn)，以對文本中的單詞進(jìn)行向量表示。在此基礎(chǔ)上，建立圖模型，對多文檔進(jìn)行基于文檔、句子兩階段的文本聚類算法。最后，基于多特征融合的方式，選取句子重要度高的句子作為摘要句，并按照一定的順序生成最終的摘要。算法流程圖詳見圖1。

3.1 基于改進(jìn)的TF-IDF的文本特征向量化算法

文本特征向量化是文本預(yù)處理中最關(guān)鍵的一步，文本特征向量化的效果將直接影響生成的摘要的質(zhì)量。常見的文本特征向量化有三種，即one-hot、TF-IDF、word2vec。one-hot編碼是將標(biāo)記轉(zhuǎn)換為向量的最常用、最基本的方法。one-hot 編碼在文本中的應(yīng)用是，將每個(gè)詞與一個(gè)唯一的整數(shù)索引關(guān)聯(lián)，然后將這個(gè)整數(shù)索引i轉(zhuǎn)換成長度為N（N是詞典大?。┑亩M(jìn)制向量，這個(gè)向量的特點(diǎn)是只有第i個(gè)元素是1，其余元素為0，但它得到的特征往往是離散稀疏的。word2vec不穩(wěn)定，且無法區(qū)分文本中詞匯的重要程度[20]。TF-IDF主要思想是：一個(gè)詞的重要度不僅取決于其出現(xiàn)的頻率，還取決于該詞所具有的代表性。TF-IDF 也存在缺點(diǎn)，因?yàn)槠涮崛￡P(guān)鍵字的能力嚴(yán)重依賴語料庫，所以對語料庫范圍和質(zhì)量要求較高。逆文本頻率（Inverse Document Frequency，IDF）算法本身是一種抑制噪聲的加權(quán)，對文本中頻次較小的詞存在著傾向性，這也影響了TF-IDF 算法的精度。該算法考慮對傳統(tǒng)的TF-IDF 算法進(jìn)行改進(jìn)，實(shí)現(xiàn)文本特征向量化。具體地，該算法將引入一個(gè)熱度系數(shù)Hot，充分考慮到隨著時(shí)間的變化，新聞的熱點(diǎn)話題會(huì)隨之轉(zhuǎn)移的問題，通過該算法得到的詞權(quán)，更能突出實(shí)時(shí)熱點(diǎn)。文本向量空間模型的表示如式（1）所示：

圖1 算法流程圖

式（1）中，tk(k=1,2,…,n)為特征詞，wik為特征詞tk在文本di中的權(quán)重，其具體定義如式（2）所示：

式（2）中，詞頻tfk為特征詞tk在文檔di中出現(xiàn)的頻率次數(shù)，為逆文本詞頻，N為文本集中的文本總數(shù)，nk為包含特征詞tk的文本數(shù)量，Hoti(x)表示文檔di的熱度系數(shù)，x表示文檔di的報(bào)道時(shí)間距離當(dāng)前時(shí)間相隔的天數(shù)。

新聞熱度值的大小取決于兩方面的因素：媒體因素和用戶因素。對于某一新聞，在單位時(shí)間內(nèi)與之相關(guān)的報(bào)道數(shù)量越多，則表明該新聞受到的媒體關(guān)注越多；同樣地，若參與該新聞評論的人數(shù)越多，則表明該新聞受到的用戶關(guān)注越多。因此，根據(jù)媒體關(guān)注度和用戶關(guān)注度，設(shè)計(jì)式（3），計(jì)算新聞的熱度。

其中，sR表示第x天的所有報(bào)道數(shù)量，sr表示第x天與新聞di相關(guān)的報(bào)道數(shù)量，pr為參與討論新聞di的人數(shù)，υ和ν表示權(quán)重調(diào)節(jié)因子，υ=0.9,ν=0.1 。本文針對某一新聞，進(jìn)行了熱度計(jì)算，其熱度系數(shù)Hoti(x)隨天數(shù)變化的示意圖如圖2所示。

圖2 熱度系數(shù)變化圖

由圖可知，新聞的熱度將逐漸消退，其變化趨勢與指數(shù)函數(shù)的遞減趨勢類似，前期波動(dòng)比較大，下降快，后期變化趨于平緩，并大約在30天內(nèi)降為0。這個(gè)權(quán)重被稱為基于熱度的詞頻-逆向文件頻率（Heat factor based Term Frequency-Inverse Document Frequency，TF-IDFH）權(quán)重。本算法將選取TF-IDFH 值最大的前γ個(gè)詞作為特征詞。文檔集合總體的向量空間模型如表1所示。

表1 向量空間模型

3.2 基于文檔、句子兩階段的文本聚類算法

通過文本聚類，能夠使同一簇內(nèi)的節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接緊密，而簇與簇之間的連接比較稀疏，從而找到相似度較高的集合，降低最后提取的文本摘要的冗余性。文本聚類應(yīng)充分體現(xiàn)高內(nèi)聚、低耦合的特性。通過文本聚類算法，可以將同一主題的句子歸為一個(gè)簇。然而，由于多文檔中句子數(shù)量龐大，若直接構(gòu)建句子級的圖模型，勢必會(huì)導(dǎo)致運(yùn)行效率下降。因此，本文采用文檔、句子兩階段的文本聚類算法：首先，構(gòu)建文檔級的圖模型，并進(jìn)行文本聚類；其次，對得到的簇中文檔的句子，仿照文檔級圖模型的構(gòu)建方法，構(gòu)建出句子級的圖模型，再次進(jìn)行文本聚類。如圖3所示，C1、C2、C3為文檔級文本聚類算法得到的簇，對C3中文檔的句子構(gòu)建句子級圖模型，并進(jìn)行文本聚類，得到S1和S2兩個(gè)簇。

3.2.1 文檔級圖模型的構(gòu)建方法

對于已有的文本集D={d1,d2,…,dm} ，根據(jù)文檔的相似度閾值T1構(gòu)造文檔級的圖模型。在文本向量空間模型的基礎(chǔ)上，利用余弦相似度來表示兩文檔之間的相似度，文檔之間的相似度如式（4）所示：

圖3 兩階段文本聚類示意圖

式（4）中，wik為特征詞tk在文本di中的權(quán)重，wjk為特征詞tk在文本dj中的權(quán)重，為兩個(gè)向量的長度。如果兩節(jié)點(diǎn)之間的相似度大于文檔的相似度閾值T1，則認(rèn)為這兩個(gè)文檔相似度較高，并將這兩個(gè)節(jié)點(diǎn)連接。兩點(diǎn)之間邊的權(quán)重即用相似度Sim(di,dj)來表示，依此構(gòu)建一個(gè)文檔級的無向加權(quán)圖。

3.2.2 句子級圖模型的構(gòu)建方法

在構(gòu)建了文檔級圖模型后，將通過文檔級文本聚類算法，得到相似度比較高的文檔簇，即子主題的發(fā)現(xiàn)過程。為了對某一主題進(jìn)行更為細(xì)節(jié)性的劃分，考慮仿照3.2.1小節(jié)文檔級圖模型的構(gòu)建方法，構(gòu)建句子級的圖模型。與文檔級不同的是，句子通常比較簡短，因此考慮多個(gè)因素來計(jì)算句子間的相似度，能夠在不降低算法執(zhí)行效率的基礎(chǔ)上，提升最終抽取的摘要句的準(zhǔn)確度。本文考慮將句子長度以及Jaccard相似度結(jié)合的方式來確定句子之間相似度，進(jìn)而構(gòu)建句子級圖模型。

（1）句長相似度的計(jì)算

句子的長度往往能夠反映句子之間的相似度，句長的差值與句子相似度成反比，長度相差越小，句子相似的可能性越高。假設(shè)len(si)表示句子si的長度，len(sj)表示句子sj的長度，則si和sj的句長相似度如式（5）所示：

（2）Jaccard相似度的計(jì)算

句子的相似度往往和句子中相同的詞匯個(gè)數(shù)成正比，Jaccard 相似度就是衡量重疊性的一個(gè)標(biāo)準(zhǔn)。假設(shè)表示句子si和sj中重疊的詞匯個(gè)數(shù)，則si和sj的Jaccard相似度如式（6）所示：

得到的句子相似度如式（7）所示：

式（6）中，cr為權(quán)重系數(shù)，，若兩節(jié)點(diǎn)之間的相似度大于句子的相似度閾值T2，則認(rèn)為這兩個(gè)句子較為相似，并將這兩個(gè)節(jié)點(diǎn)連接。兩點(diǎn)之間邊的權(quán)重即用相似度sim(si,sj)來表示，依此構(gòu)建一個(gè)句子級的無向加權(quán)圖。

3.2.3 文本聚類算法

在聚類方法中，基于距離的K-Means 聚類方法時(shí)間開銷很大，對于簇的個(gè)數(shù)需要經(jīng)過多次實(shí)驗(yàn)并根據(jù)輪廓系數(shù)來確定，受人工影響較大，且K-Means對于異常點(diǎn)也比較敏感。此外，在數(shù)據(jù)集方面，K-Means方法多適用于凸數(shù)據(jù)集，而文本數(shù)據(jù)一般不具有凸數(shù)據(jù)集的特性。因此，將該方法運(yùn)用于文本聚類時(shí)效果不佳。相比之下，密度聚類不需要規(guī)定簇的個(gè)數(shù)，對異常點(diǎn)亦不敏感，適用于解決文本這類稠密數(shù)據(jù)集的聚類問題。本文采取基于密度的文本聚類算法，通過該方法可以更好體現(xiàn)數(shù)據(jù)分布，得到非圓形的聚類結(jié)果。通過該方法得到的簇的中心密度很大，圍繞著這個(gè)中心的點(diǎn)較多，簇與簇之間的距離較大?；静襟E如下：

步驟1 根據(jù)相似度值的倒數(shù)，確定文檔或句子之間的距離，構(gòu)建文檔級距離矩陣M和句子級距離矩陣N。其中，文檔之間的距離用1/Sim(di,dj)表示；句子之間的距離用1/sim(si,sj)表示。矩陣中第i行、第j列表示di與dj（或si與sj）之間的距離disij。

步驟2 根據(jù)距離矩陣，計(jì)算每個(gè)點(diǎn)的密度。點(diǎn)i的密度，參數(shù)disc為邊界閾值，disc的值越小，則會(huì)在盡可能小的范圍內(nèi)得到簇。

步驟3 根據(jù)距離矩陣，計(jì)算點(diǎn)i到比其密度更高的其他所有點(diǎn)的最小距離。

步驟4 選取ρ和δ都較大的點(diǎn)作為簇的中心點(diǎn)。此處，算法通過乘積因子ψ，綜合衡量兩個(gè)因素對簇中心的影響。對點(diǎn)i的乘積因子ψi的定義如式（8）所示。

其中，normρi和normδi都是歸一化后的值。此處歸一化的方法采用離差歸一化，將值映射在[0，1]的區(qū)間范圍內(nèi)。具體地，以normρi為例：

normδi的計(jì)算方法與此類似，不再贅述。ψ越大，表示簇的中心密度越大，且不同簇的中心相互之間的距離越遠(yuǎn)。將ψ值從大到小進(jìn)行排序，選取ψ值較大的點(diǎn)作為簇中心點(diǎn)。由于從非簇中心點(diǎn)過渡到簇中心點(diǎn)，ψ值會(huì)大幅度地提升，此處將根據(jù)冪次法則，確定簇的個(gè)數(shù)。

步驟5 對于其余非簇中心的數(shù)據(jù)點(diǎn)，將其分配給離它最近且密度比它高的鄰點(diǎn)所在的簇。

3.3 基于特征融合的文本摘要單元提取

基于特征融合的文本摘要單元提取方法基本思想如下：選取句子的若干特征，對其進(jìn)行加權(quán)求和，得到句子重要度。其關(guān)鍵點(diǎn)在于句子特征的選擇上，本文所采用的算法中，抽取的特征信息主要包括段落及句子的位置信息、句子與標(biāo)題之間的相似度等。特別地，考慮到報(bào)道型文檔時(shí)效性強(qiáng)的特征，新聞報(bào)道的時(shí)間也將作為一個(gè)重要因素，融入到權(quán)重的計(jì)算中，并賦予較大的權(quán)重。最終句子的得分，將是多種權(quán)重的線性加權(quán)和。

（1）基于位置信息的句子權(quán)重計(jì)算

句子的重要度受到句子在段落中的位置因素的影響。例如，主旨性的語句放在第一段，且段落首句往往是中心句。根據(jù)人工摘要總結(jié)出的規(guī)律可知，段首句作為摘要句的概率高達(dá)85%。此外，新聞?lì)I(lǐng)域的文檔多具有段落首尾句重要度更高的特征。因此，結(jié)合新聞?lì)I(lǐng)域及余弦函數(shù)的特征，設(shè)計(jì)了基于位置的句子權(quán)重的計(jì)算方法。其核心思想是突出段落首尾句的重要度。

定義countPi為第i篇文檔的段落總數(shù)，則第i篇文檔中第m個(gè)段落的重要度PEim如式（9）所示：

式中，α和β均為常量，在本文中，α=1,β=2 ，這兩個(gè)參數(shù)的意義在于能夠確保PEim的歸一化。

（2）基于標(biāo)題相似度的句子權(quán)重計(jì)算

新聞報(bào)道中的標(biāo)題句往往能夠反映文章的主旨，與標(biāo)題的相似程度也能夠反映句子的重要度。本算法采用余弦相似度，計(jì)算句子與標(biāo)題的相似度。基于標(biāo)題相似度的句子權(quán)重e2如式（10）：

其中，sn為句子向量，ti表示第i篇文章的標(biāo)題向量。

（3）基于報(bào)道時(shí)間的句子權(quán)重計(jì)算

新聞報(bào)道最大的特征是時(shí)效性強(qiáng)。例如，最新發(fā)布的文章，其重要度一定遠(yuǎn)遠(yuǎn)大于10 年前發(fā)布的文章。此外，新聞文檔還滿足越接近當(dāng)下發(fā)表的文章，其重要度波動(dòng)越大的規(guī)律。10年前的文章和11年前的文章相比，其價(jià)值近乎一樣。因此，根據(jù)指數(shù)函數(shù)的特點(diǎn)，設(shè)計(jì)了符合新聞時(shí)效性特征的句子權(quán)重計(jì)算方法。

假設(shè)currentTime表示當(dāng)前時(shí)間，oldestTime表示某主題內(nèi)最早的一篇報(bào)道的發(fā)表時(shí)間。TimeLenth表示時(shí)間區(qū)間，即TimeLenth=currentTime-oldestTime。定義Timei為第i篇文章的發(fā)表時(shí)間。則基于報(bào)道時(shí)間的句子權(quán)重e3如式（11）：

對上述三種句子權(quán)重的結(jié)果進(jìn)行加權(quán)求和，得到句子的融合權(quán)重W，即句子重要度，如式（12）所示：

其中，quo表示權(quán)重系數(shù)，。

4 實(shí)驗(yàn)過程

4.1 數(shù)據(jù)收集

本文算法的數(shù)據(jù)集主要由紐約時(shí)報(bào)、?？怂剐侣劇⑷A爾街日報(bào)、美國之音等國外著名新聞網(wǎng)站的報(bào)道組成，內(nèi)容涉及網(wǎng)絡(luò)、科技、軍事、政治、經(jīng)濟(jì)、安全等領(lǐng)域。實(shí)驗(yàn)采用Python及Java語言，利用主題爬蟲對新聞網(wǎng)站進(jìn)行數(shù)據(jù)的采集，通過對網(wǎng)頁源碼進(jìn)行正則匹配，得到所需格式的數(shù)據(jù)，共計(jì)抓取656 篇報(bào)道，去除篇幅過長和過短的報(bào)道，得到400篇符合要求的文檔。

4.2 數(shù)據(jù)預(yù)處理

（1）去除噪聲。該步驟去除對文本分析貢獻(xiàn)度不大的特殊符號、表格等。

（2）詞干化。此處采用經(jīng)典的波特詞干算法對單詞進(jìn)行詞干化，該方法速度快，準(zhǔn)確度高，目的是刪除單詞的后綴，保留詞根。

（3）文檔分割。首先，利用正則表達(dá)式匹配標(biāo)點(diǎn)符號，將文檔分割為句子集合。然后，通過去除停用詞和標(biāo)點(diǎn)符號，將句子表示為詞項(xiàng)集合。

4.3 過濾句子

過長或過短的句子不適宜作為摘要的候選句，本實(shí)驗(yàn)考慮將長度系數(shù)CL ＞0.8 以及CL ＜0.2 的句子去掉。句子長度系數(shù)的定義如式（13）所示：

其中，L為句子的長度，LM為最長句子的長度。

4.4 文本向量化

通過改進(jìn)的TF-IDF算法，對單詞進(jìn)行詞權(quán)的計(jì)算，選取詞權(quán)最高的50 個(gè)單詞作為特征詞，將文檔轉(zhuǎn)化為50維的向量，用于文檔聚類前的相似度計(jì)算。

4.5 文本聚類

利用上文提到的基于文檔、句子兩階段的文本聚類算法對多文檔進(jìn)行二次聚類，先得到文檔中主要的分類方向，繼而得到每個(gè)類別下的子主題。

4.6 摘要句抽取

利用基于特征融合的方法對摘要進(jìn)行提取。傳統(tǒng)方法沒有考慮文檔的時(shí)效性和新穎性，此處利用余弦函數(shù)及指數(shù)函數(shù)的特性，為句子位置與報(bào)道時(shí)間這兩個(gè)衡量句子重要度的關(guān)鍵因素設(shè)計(jì)了特殊的權(quán)重衡量公式。

4.7 摘要輸出

將每個(gè)子主題中得分高的K個(gè)句子按原文順序及報(bào)道發(fā)表時(shí)間順序輸出，保證生成的摘要的連貫性。K的計(jì)算公式如式（14）所示：

其中，size(topic)表示topic主題下的句子個(gè)數(shù)，根據(jù)經(jīng)驗(yàn)，此處的perc取為20%。

5 結(jié)果分析

實(shí)驗(yàn)中的主要參數(shù)如表2所示。

表2 實(shí)驗(yàn)中的主要參數(shù)

實(shí)驗(yàn)對一階段文本聚類和兩階段文本聚類進(jìn)行了性能的對比，具體運(yùn)行時(shí)間如圖4所示。由圖4可知，一階段聚類和兩階段聚類的消耗時(shí)間均隨著文檔數(shù)量的增加呈現(xiàn)上升的趨勢，其中一階段聚類所消耗的時(shí)間增加得更快。隨著數(shù)據(jù)規(guī)模的增大，一階段聚類的時(shí)間消耗將會(huì)大幅度提升，兩階段文本聚類的優(yōu)勢將逐步顯現(xiàn)。產(chǎn)生這樣的實(shí)驗(yàn)結(jié)果，是因?yàn)閮呻A段文本聚類中的第一階段，已經(jīng)對文本進(jìn)行了初步的分類，為第二階段的句子級聚類縮小了聚類的范圍，從而減少了不必要的時(shí)間開銷。從復(fù)雜度的角度來分析，本文基于密度的聚類方法本身的時(shí)間復(fù)雜度為O(n2)，若對所有文檔中的n個(gè)句子直接進(jìn)行聚類，則時(shí)間復(fù)雜度為O(n2)。本文采用的是兩階段的聚類方法，假設(shè)一階段的聚類將文檔分為m個(gè)主題，則兩階段聚類的平均時(shí)間復(fù)雜度為，由于m的數(shù)量小于n，因此要小于n2，在主題個(gè)數(shù)合理的情況下，兩階段聚類的方法可較大幅度節(jié)省時(shí)間開銷。相較于一階段聚類進(jìn)行主題劃分的算法，本文所采用的兩階段文本聚類進(jìn)行主題劃分的算法運(yùn)行效率更高。

圖4 一階段聚類與兩階段聚類運(yùn)行效率對比圖

圖5 展示了在進(jìn)行文檔級聚類時(shí)，ψ值的變化趨勢。由圖可知，由簇中心點(diǎn)到非簇中心點(diǎn)過渡時(shí)，ψ值存在較大的變化，本實(shí)驗(yàn)選取ψ≥0.2 的16 個(gè)節(jié)點(diǎn)作為簇中心點(diǎn)，共選取了16個(gè)主題。

圖5 ψ 值變化圖

在本實(shí)驗(yàn)中，對自動(dòng)摘要效果的評價(jià)主要是通過與人工撰寫的摘要進(jìn)行對比。實(shí)驗(yàn)采用的數(shù)據(jù)均經(jīng)過國家應(yīng)急響應(yīng)中心專業(yè)人員的交叉審核，標(biāo)準(zhǔn)摘要亦由相關(guān)專業(yè)人士標(biāo)注，準(zhǔn)確性和可靠性高。國際上通用的評價(jià)指標(biāo)為查準(zhǔn)率P（Precision）、F1 分?jǐn)?shù)（F1 Score）、查全率R（Recall）。查準(zhǔn)率P是指正確摘要的句子占全部摘要句子的百分比，主要衡量摘要表現(xiàn)原文主題信息的準(zhǔn)確度。查全率R是指被正確分類的文檔樣本數(shù)量占總文檔樣本數(shù)量的百分比。由于查準(zhǔn)率和查準(zhǔn)率是兩個(gè)不同的指標(biāo)，它們的關(guān)系是二律背反的。F1 分?jǐn)?shù)是二者的調(diào)和平均值，一般來說，F(xiàn)1 分?jǐn)?shù)越高，說明聚類效果越佳。計(jì)算公式詳見式（15）～（17）：

本實(shí)驗(yàn)通過對比三種算法，分別為本文所提的算法、TextRank算法以及TextTeaser，計(jì)算各算法在每種主題下的準(zhǔn)確率P、召回率R及F1 值。由于句子級聚類得到的子主題較多，此處的主題是指文檔級聚類得到的16個(gè)分類，其中的值為各分類中子主題的平均值，算法對比結(jié)果詳見表3。

表3 算法對比結(jié)果

通過求取平均值對三種算法的三個(gè)指標(biāo)進(jìn)行對比，算法效率如圖6所示。

實(shí)驗(yàn)結(jié)果表明，本文算法的平均查準(zhǔn)率能達(dá)到83%，分別比TextRank 算法和TextTeaser 算法高出24%和18%。與此同時(shí)，本文算法的平均查全率為63%，比TextRank 算法高出19%，比TextTeaser 算法高出11%。此外，本文算法的F1 分?jǐn)?shù)也較高，平均F1 分?jǐn)?shù)為71%。綜上，本文算法在自動(dòng)文本摘要生成方面的效果比傳統(tǒng)算法更加優(yōu)化。因?yàn)槔酶倪M(jìn)的TF-IDF文本特征向量化方法，能夠更加突出新聞熱點(diǎn)；基于密度的聚類算法能夠提高運(yùn)行效率，本文所提密度聚類算法可以自動(dòng)確定簇中心個(gè)數(shù)，兩階段的文本聚類，亦使得摘要富有層次性；此外，考慮到新聞時(shí)效性強(qiáng)，報(bào)道時(shí)間及句子位置對句子重要度起關(guān)鍵作用，本文算法利用余弦函數(shù)及指數(shù)函數(shù)的特性，對句子重要度進(jìn)行運(yùn)算，使得得到的摘要句更符合新聞文本的特點(diǎn)。

圖6 算法效率

6 結(jié)束語

自動(dòng)文本摘要技術(shù)應(yīng)需而生，主要運(yùn)用于新聞?lì)I(lǐng)域，旨在幫助群眾快速獲取信息，幫助情報(bào)部門快速了解國內(nèi)外動(dòng)態(tài)。本文算法基于新聞?lì)I(lǐng)域時(shí)效性強(qiáng)、主題明確的特征，對先前學(xué)者的研究進(jìn)行改進(jìn)，算法多次將時(shí)間因素納入考慮的范圍。實(shí)驗(yàn)表明，本文算法可提升摘要的時(shí)效性。此外，兩階段的聚類也在提升效率的同時(shí)，使最終生成的摘要更具層次性。然而，本文算法還存在許多局限性，有待深入研究，例如生成摘要時(shí)，如何使摘要更加通順、連貫。本文研究的兩階段聚類雖然能夠提升效率，但在多個(gè)子主題中抽取摘要容易產(chǎn)生句子不連貫的問題。因此，如何利用語義分析增強(qiáng)摘要的連貫性是未來的研究方向。