張?jiān)萍?,?琨,徐濟(jì)銘,袁衛(wèi)平,蔡 穎,高 雅
1.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094
2.國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心江蘇分中心 互聯(lián)網(wǎng)信息處,南京 210019
人工文本摘要的形成過程十分復(fù)雜,且十分費(fèi)時(shí)費(fèi)力。它需要由具有一定專業(yè)知識并經(jīng)過相關(guān)培訓(xùn)的特定人員,在研習(xí)了相關(guān)資料文獻(xiàn)后,概括成可讀性強(qiáng)、質(zhì)量高的摘要。在這個(gè)信息超負(fù)荷的時(shí)代,對于文本摘要的處理,需要滿足時(shí)效性強(qiáng)、范圍廣、速度快等特征,這顯然是傳統(tǒng)的人工提取文本摘要所不能滿足的。
自動(dòng)文本摘要生成技術(shù)是利用計(jì)算機(jī)技術(shù)從文章中提取內(nèi)容生成摘要,并以語意連貫的段落乃至篇章的形式展現(xiàn),該技術(shù)能夠幫助人們快速獲取情報(bào)信息,輔助國家輿情監(jiān)測部門采取應(yīng)急響應(yīng)措施。它采用機(jī)器學(xué)習(xí)與自然語言處理技術(shù)進(jìn)行內(nèi)容抽取、分類,并精簡概括全文。出于對信息過載問題的考慮,該技術(shù)在國內(nèi)外正日益受到密切關(guān)注。本文以國外新聞網(wǎng)站的大量新聞文檔為研究對象,利用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù),對新聞文檔進(jìn)行多文檔摘要的生成。
自動(dòng)文本摘要生成技術(shù)是自然語言處理領(lǐng)域中較難的技術(shù),亦是當(dāng)下的研究熱點(diǎn)。國內(nèi)外學(xué)者在自動(dòng)文本摘要領(lǐng)域做了大量的研究。統(tǒng)計(jì)學(xué)模型在自然語言處理領(lǐng)域應(yīng)用廣泛,統(tǒng)計(jì)技術(shù)也是自動(dòng)文本摘要最早應(yīng)用的技術(shù)。統(tǒng)計(jì)技術(shù)相較于其他技術(shù)而言,數(shù)學(xué)模型簡單,實(shí)現(xiàn)方便,出現(xiàn)時(shí)間也最早。文獻(xiàn)[1]最早提出了自動(dòng)文本摘要的概念,運(yùn)用詞頻來衡量句子在一篇文檔中的重要性,即出現(xiàn)越多的單詞越能夠代表文章的主題思想。僅考慮詞頻不夠全面,在實(shí)際提取摘要時(shí),統(tǒng)計(jì)特征往往會(huì)與句子本身的特征結(jié)合使用,來提高權(quán)重的精確度[2-3]。例如在新聞報(bào)道中,針對首段內(nèi)容往往凝煉了事件的主體信息,段落中的首句和末句能夠概括段落內(nèi)容等特性,設(shè)計(jì)特定的權(quán)重公式來提取摘要句更為恰當(dāng)。Edmundson[4]設(shè)計(jì)了一個(gè)經(jīng)典的抽取式摘要系統(tǒng)。他不僅利用詞頻和段落位置等基本特性,還將提示詞、文檔框架特征納入考慮范圍,對語句的重要程度進(jìn)行評判。
圖模型算法在自動(dòng)文本摘要生成領(lǐng)域亦有著廣泛應(yīng)用,最早的工作可見文獻(xiàn)[5]。文獻(xiàn)[6]提出了一種基于親和圖的自動(dòng)文本摘要生成技術(shù),該方法考慮句子間的相似性,結(jié)合主題信息抽取出高信息性和高獨(dú)特性的句子,經(jīng)過冗余削減后生成摘要。文獻(xiàn)[7]利用N-Gram圖抽取文檔中的重要成分。文獻(xiàn)[8]使用WordNet 識別文檔中的概念來構(gòu)建文本圖?;趫D排序算法的自動(dòng)文本摘要生成技術(shù)是圖模型在該領(lǐng)域應(yīng)用的一類特例,其因?yàn)榱己玫男Ч约翱蓴U(kuò)展性成為本領(lǐng)域的研究熱點(diǎn)。在圖的構(gòu)建方面,除了應(yīng)用最廣泛的余弦相似度度量外,基于關(guān)聯(lián)規(guī)則挖掘[9]、信息論[10]等衡量文本單元相關(guān)性的方法也有所應(yīng)用,以及基于超圖[11]、聚類[12]、WordNet以及維基百科的方法[13-15]也有所應(yīng)用;在圖排序方面,現(xiàn)有的系統(tǒng)大多是對PageRank或HITS(Hyperlink-Induced Topic Search)算法基于所構(gòu)建的文本圖進(jìn)行相應(yīng)的改進(jìn),例如TextRank和GraphSum算法將PageRank算法的權(quán)重傳播做了加權(quán)改進(jìn),Biased-LexRank[16]將馬爾科夫鏈轉(zhuǎn)移到自身的概率進(jìn)行了加權(quán),文獻(xiàn)[15]從加權(quán)HITS算法中獲得啟發(fā);也有方法進(jìn)一步擴(kuò)展了現(xiàn)有的圖排序方法,例如文獻(xiàn)[14]用全局排序的結(jié)果對聚類簇做動(dòng)態(tài)更新,然后利用更新過后的聚類簇對句子進(jìn)行重新排序。
多文檔自動(dòng)文本摘要生成技術(shù)以不同主題的文本集合為研究對象,其目的是生成同一主題下多個(gè)文檔的摘要信息,通常在圖模型的基礎(chǔ)上展開研究。目前,研究人員在這一領(lǐng)域也展開了一系列的研究,并取得了階段性成果。文獻(xiàn)[17]提出了一種識別關(guān)鍵主題的方法,以在多個(gè)文檔中提取摘要。文獻(xiàn)[18]通過結(jié)合LDA(Latent Dirichlet Allocation)主題模型,提出了一種新的挖掘主題的方法。文獻(xiàn)[19]主要針對多文檔句子重要度排序的問題,設(shè)計(jì)了一種通用的解決方案。
新聞文檔存在時(shí)效性強(qiáng)、主題明確的特征,傳統(tǒng)的基于統(tǒng)計(jì)學(xué)模型和圖模型的自動(dòng)文本摘要生成方法很難充分考慮這兩個(gè)特征,因而生成的摘要存在冗余度高、新穎性不強(qiáng)等缺點(diǎn)?;诖?,本文對上述圖模型算法進(jìn)行改進(jìn),實(shí)現(xiàn)對英文文本的多文檔摘要生成。算法采用兩步文本聚類的方法,在提升效率的同時(shí),更好地發(fā)現(xiàn)文檔主題。此外,在摘要的抽取階段,采用了基于特征融合的算法,充分考慮了位置因素和時(shí)間因素對文檔、句子的影響,提高了文本摘要的新穎性、時(shí)效性和準(zhǔn)確性。
為提高摘要句抽取的準(zhǔn)確度,本文首先對傳統(tǒng)的詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法進(jìn)行改進(jìn),以對文本中的單詞進(jìn)行向量表示。在此基礎(chǔ)上,建立圖模型,對多文檔進(jìn)行基于文檔、句子兩階段的文本聚類算法。最后,基于多特征融合的方式,選取句子重要度高的句子作為摘要句,并按照一定的順序生成最終的摘要。算法流程圖詳見圖1。
文本特征向量化是文本預(yù)處理中最關(guān)鍵的一步,文本特征向量化的效果將直接影響生成的摘要的質(zhì)量。常見的文本特征向量化有三種,即one-hot、TF-IDF、word2vec。one-hot編碼是將標(biāo)記轉(zhuǎn)換為向量的最常用、最基本的方法。one-hot 編碼在文本中的應(yīng)用是,將每個(gè)詞與一個(gè)唯一的整數(shù)索引關(guān)聯(lián),然后將這個(gè)整數(shù)索引i轉(zhuǎn)換成長度為N(N是詞典大?。┑亩M(jìn)制向量,這個(gè)向量的特點(diǎn)是只有第i個(gè)元素是1,其余元素為0,但它得到的特征往往是離散稀疏的。word2vec不穩(wěn)定,且無法區(qū)分文本中詞匯的重要程度[20]。TF-IDF主要思想是:一個(gè)詞的重要度不僅取決于其出現(xiàn)的頻率,還取決于該詞所具有的代表性。TF-IDF 也存在缺點(diǎn),因?yàn)槠涮崛£P(guān)鍵字的能力嚴(yán)重依賴語料庫,所以對語料庫范圍和質(zhì)量要求較高。逆文本頻率(Inverse Document Frequency,IDF)算法本身是一種抑制噪聲的加權(quán),對文本中頻次較小的詞存在著傾向性,這也影響了TF-IDF 算法的精度。該算法考慮對傳統(tǒng)的TF-IDF 算法進(jìn)行改進(jìn),實(shí)現(xiàn)文本特征向量化。具體地,該算法將引入一個(gè)熱度系數(shù)Hot,充分考慮到隨著時(shí)間的變化,新聞的熱點(diǎn)話題會(huì)隨之轉(zhuǎn)移的問題,通過該算法得到的詞權(quán),更能突出實(shí)時(shí)熱點(diǎn)。文本向量空間模型的表示如式(1)所示:
圖1 算法流程圖
式(1)中,tk(k=1,2,…,n)為特征詞,wik為特征詞tk在文本di中的權(quán)重,其具體定義如式(2)所示:
式(2)中,詞頻tfk為特征詞tk在文檔di中出現(xiàn)的頻率次數(shù),為逆文本詞頻,N為文本集中的文本總數(shù),nk為包含特征詞tk的文本數(shù)量,Hoti(x)表示文檔di的熱度系數(shù),x表示文檔di的報(bào)道時(shí)間距離當(dāng)前時(shí)間相隔的天數(shù)。
新聞熱度值的大小取決于兩方面的因素:媒體因素和用戶因素。對于某一新聞,在單位時(shí)間內(nèi)與之相關(guān)的報(bào)道數(shù)量越多,則表明該新聞受到的媒體關(guān)注越多;同樣地,若參與該新聞評論的人數(shù)越多,則表明該新聞受到的用戶關(guān)注越多。因此,根據(jù)媒體關(guān)注度和用戶關(guān)注度,設(shè)計(jì)式(3),計(jì)算新聞的熱度。
其中,sR表示第x天的所有報(bào)道數(shù)量,sr表示第x天與新聞di相關(guān)的報(bào)道數(shù)量,pr為參與討論新聞di的人數(shù),υ和ν表示權(quán)重調(diào)節(jié)因子,υ=0.9,ν=0.1 。本文針對某一新聞,進(jìn)行了熱度計(jì)算,其熱度系數(shù)Hoti(x)隨天數(shù)變化的示意圖如圖2所示。
圖2 熱度系數(shù)變化圖
由圖可知,新聞的熱度將逐漸消退,其變化趨勢與指數(shù)函數(shù)的遞減趨勢類似,前期波動(dòng)比較大,下降快,后期變化趨于平緩,并大約在30天內(nèi)降為0。這個(gè)權(quán)重被稱為基于熱度的詞頻-逆向文件頻率(Heat factor based Term Frequency-Inverse Document Frequency,TF-IDFH)權(quán)重。本算法將選取TF-IDFH 值最大的前γ個(gè)詞作為特征詞。文檔集合總體的向量空間模型如表1所示。
表1 向量空間模型
通過文本聚類,能夠使同一簇內(nèi)的節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接緊密,而簇與簇之間的連接比較稀疏,從而找到相似度較高的集合,降低最后提取的文本摘要的冗余性。文本聚類應(yīng)充分體現(xiàn)高內(nèi)聚、低耦合的特性。通過文本聚類算法,可以將同一主題的句子歸為一個(gè)簇。然而,由于多文檔中句子數(shù)量龐大,若直接構(gòu)建句子級的圖模型,勢必會(huì)導(dǎo)致運(yùn)行效率下降。因此,本文采用文檔、句子兩階段的文本聚類算法:首先,構(gòu)建文檔級的圖模型,并進(jìn)行文本聚類;其次,對得到的簇中文檔的句子,仿照文檔級圖模型的構(gòu)建方法,構(gòu)建出句子級的圖模型,再次進(jìn)行文本聚類。如圖3所示,C1、C2、C3為文檔級文本聚類算法得到的簇,對C3中文檔的句子構(gòu)建句子級圖模型,并進(jìn)行文本聚類,得到S1和S2兩個(gè)簇。
3.2.1 文檔級圖模型的構(gòu)建方法
對于已有的文本集D={d1,d2,…,dm} ,根據(jù)文檔的相似度閾值T1構(gòu)造文檔級的圖模型。在文本向量空間模型的基礎(chǔ)上,利用余弦相似度來表示兩文檔之間的相似度,文檔之間的相似度如式(4)所示:
圖3 兩階段文本聚類示意圖
式(4)中,wik為特征詞tk在文本di中的權(quán)重,wjk為特征詞tk在文本dj中的權(quán)重,為兩個(gè)向量的長度。如果兩節(jié)點(diǎn)之間的相似度大于文檔的相似度閾值T1,則認(rèn)為這兩個(gè)文檔相似度較高,并將這兩個(gè)節(jié)點(diǎn)連接。兩點(diǎn)之間邊的權(quán)重即用相似度Sim(di,dj)來表示,依此構(gòu)建一個(gè)文檔級的無向加權(quán)圖。
3.2.2 句子級圖模型的構(gòu)建方法
在構(gòu)建了文檔級圖模型后,將通過文檔級文本聚類算法,得到相似度比較高的文檔簇,即子主題的發(fā)現(xiàn)過程。為了對某一主題進(jìn)行更為細(xì)節(jié)性的劃分,考慮仿照3.2.1小節(jié)文檔級圖模型的構(gòu)建方法,構(gòu)建句子級的圖模型。與文檔級不同的是,句子通常比較簡短,因此考慮多個(gè)因素來計(jì)算句子間的相似度,能夠在不降低算法執(zhí)行效率的基礎(chǔ)上,提升最終抽取的摘要句的準(zhǔn)確度。本文考慮將句子長度以及Jaccard相似度結(jié)合的方式來確定句子之間相似度,進(jìn)而構(gòu)建句子級圖模型。
(1)句長相似度的計(jì)算
句子的長度往往能夠反映句子之間的相似度,句長的差值與句子相似度成反比,長度相差越小,句子相似的可能性越高。假設(shè)len(si)表示句子si的長度,len(sj)表示句子sj的長度,則si和sj的句長相似度如式(5)所示:
(2)Jaccard相似度的計(jì)算
句子的相似度往往和句子中相同的詞匯個(gè)數(shù)成正比,Jaccard 相似度就是衡量重疊性的一個(gè)標(biāo)準(zhǔn)。假設(shè)表示句子si和sj中重疊的詞匯個(gè)數(shù),則si和sj的Jaccard相似度如式(6)所示:
得到的句子相似度如式(7)所示:
式(6)中,cr為權(quán)重系數(shù),,若兩節(jié)點(diǎn)之間的相似度大于句子的相似度閾值T2,則認(rèn)為這兩個(gè)句子較為相似,并將這兩個(gè)節(jié)點(diǎn)連接。兩點(diǎn)之間邊的權(quán)重即用相似度sim(si,sj)來表示,依此構(gòu)建一個(gè)句子級的無向加權(quán)圖。
3.2.3 文本聚類算法
在聚類方法中,基于距離的K-Means 聚類方法時(shí)間開銷很大,對于簇的個(gè)數(shù)需要經(jīng)過多次實(shí)驗(yàn)并根據(jù)輪廓系數(shù)來確定,受人工影響較大,且K-Means對于異常點(diǎn)也比較敏感。此外,在數(shù)據(jù)集方面,K-Means方法多適用于凸數(shù)據(jù)集,而文本數(shù)據(jù)一般不具有凸數(shù)據(jù)集的特性。因此,將該方法運(yùn)用于文本聚類時(shí)效果不佳。相比之下,密度聚類不需要規(guī)定簇的個(gè)數(shù),對異常點(diǎn)亦不敏感,適用于解決文本這類稠密數(shù)據(jù)集的聚類問題。本文采取基于密度的文本聚類算法,通過該方法可以更好體現(xiàn)數(shù)據(jù)分布,得到非圓形的聚類結(jié)果。通過該方法得到的簇的中心密度很大,圍繞著這個(gè)中心的點(diǎn)較多,簇與簇之間的距離較大?;静襟E如下:
步驟1 根據(jù)相似度值的倒數(shù),確定文檔或句子之間的距離,構(gòu)建文檔級距離矩陣M和句子級距離矩陣N。其中,文檔之間的距離用1/Sim(di,dj)表示;句子之間的距離用1/sim(si,sj)表示。矩陣中第i行、第j列表示di與dj(或si與sj)之間的距離disij。
步驟2 根據(jù)距離矩陣,計(jì)算每個(gè)點(diǎn)的密度。點(diǎn)i的密度,參數(shù)disc為邊界閾值,disc的值越小,則會(huì)在盡可能小的范圍內(nèi)得到簇。
步驟3 根據(jù)距離矩陣,計(jì)算點(diǎn)i到比其密度更高的其他所有點(diǎn)的最小距離。
步驟4 選取ρ和δ都較大的點(diǎn)作為簇的中心點(diǎn)。此處,算法通過乘積因子ψ,綜合衡量兩個(gè)因素對簇中心的影響。對點(diǎn)i的乘積因子ψi的定義如式(8)所示。
其中,normρi和normδi都是歸一化后的值。此處歸一化的方法采用離差歸一化,將值映射在[0,1]的區(qū)間范圍內(nèi)。具體地,以normρi為例:
normδi的計(jì)算方法與此類似,不再贅述。ψ越大,表示簇的中心密度越大,且不同簇的中心相互之間的距離越遠(yuǎn)。將ψ值從大到小進(jìn)行排序,選取ψ值較大的點(diǎn)作為簇中心點(diǎn)。由于從非簇中心點(diǎn)過渡到簇中心點(diǎn),ψ值會(huì)大幅度地提升,此處將根據(jù)冪次法則,確定簇的個(gè)數(shù)。
步驟5 對于其余非簇中心的數(shù)據(jù)點(diǎn),將其分配給離它最近且密度比它高的鄰點(diǎn)所在的簇。
基于特征融合的文本摘要單元提取方法基本思想如下:選取句子的若干特征,對其進(jìn)行加權(quán)求和,得到句子重要度。其關(guān)鍵點(diǎn)在于句子特征的選擇上,本文所采用的算法中,抽取的特征信息主要包括段落及句子的位置信息、句子與標(biāo)題之間的相似度等。特別地,考慮到報(bào)道型文檔時(shí)效性強(qiáng)的特征,新聞報(bào)道的時(shí)間也將作為一個(gè)重要因素,融入到權(quán)重的計(jì)算中,并賦予較大的權(quán)重。最終句子的得分,將是多種權(quán)重的線性加權(quán)和。
(1)基于位置信息的句子權(quán)重計(jì)算
句子的重要度受到句子在段落中的位置因素的影響。例如,主旨性的語句放在第一段,且段落首句往往是中心句。根據(jù)人工摘要總結(jié)出的規(guī)律可知,段首句作為摘要句的概率高達(dá)85%。此外,新聞?lì)I(lǐng)域的文檔多具有段落首尾句重要度更高的特征。因此,結(jié)合新聞?lì)I(lǐng)域及余弦函數(shù)的特征,設(shè)計(jì)了基于位置的句子權(quán)重的計(jì)算方法。其核心思想是突出段落首尾句的重要度。
定義countPi為第i篇文檔的段落總數(shù),則第i篇文檔中第m個(gè)段落的重要度PEim如式(9)所示:
式中,α和β均為常量,在本文中,α=1,β=2 ,這兩個(gè)參數(shù)的意義在于能夠確保PEim的歸一化。
(2)基于標(biāo)題相似度的句子權(quán)重計(jì)算
新聞報(bào)道中的標(biāo)題句往往能夠反映文章的主旨,與標(biāo)題的相似程度也能夠反映句子的重要度。本算法采用余弦相似度,計(jì)算句子與標(biāo)題的相似度。基于標(biāo)題相似度的句子權(quán)重e2如式(10):
其中,sn為句子向量,ti表示第i篇文章的標(biāo)題向量。
(3)基于報(bào)道時(shí)間的句子權(quán)重計(jì)算
新聞報(bào)道最大的特征是時(shí)效性強(qiáng)。例如,最新發(fā)布的文章,其重要度一定遠(yuǎn)遠(yuǎn)大于10 年前發(fā)布的文章。此外,新聞文檔還滿足越接近當(dāng)下發(fā)表的文章,其重要度波動(dòng)越大的規(guī)律。10年前的文章和11年前的文章相比,其價(jià)值近乎一樣。因此,根據(jù)指數(shù)函數(shù)的特點(diǎn),設(shè)計(jì)了符合新聞時(shí)效性特征的句子權(quán)重計(jì)算方法。
假設(shè)currentTime表示當(dāng)前時(shí)間,oldestTime表示某主題內(nèi)最早的一篇報(bào)道的發(fā)表時(shí)間。TimeLenth表示時(shí)間區(qū)間,即TimeLenth=currentTime-oldestTime。定義Timei為第i篇文章的發(fā)表時(shí)間。則基于報(bào)道時(shí)間的句子權(quán)重e3如式(11):
對上述三種句子權(quán)重的結(jié)果進(jìn)行加權(quán)求和,得到句子的融合權(quán)重W,即句子重要度,如式(12)所示:
其中,quo表示權(quán)重系數(shù),。
本文算法的數(shù)據(jù)集主要由紐約時(shí)報(bào)、??怂剐侣劇⑷A爾街日報(bào)、美國之音等國外著名新聞網(wǎng)站的報(bào)道組成,內(nèi)容涉及網(wǎng)絡(luò)、科技、軍事、政治、經(jīng)濟(jì)、安全等領(lǐng)域。實(shí)驗(yàn)采用Python及Java語言,利用主題爬蟲對新聞網(wǎng)站進(jìn)行數(shù)據(jù)的采集,通過對網(wǎng)頁源碼進(jìn)行正則匹配,得到所需格式的數(shù)據(jù),共計(jì)抓取656 篇報(bào)道,去除篇幅過長和過短的報(bào)道,得到400篇符合要求的文檔。
(1)去除噪聲。該步驟去除對文本分析貢獻(xiàn)度不大的特殊符號、表格等。
(2)詞干化。此處采用經(jīng)典的波特詞干算法對單詞進(jìn)行詞干化,該方法速度快,準(zhǔn)確度高,目的是刪除單詞的后綴,保留詞根。
(3)文檔分割。首先,利用正則表達(dá)式匹配標(biāo)點(diǎn)符號,將文檔分割為句子集合。然后,通過去除停用詞和標(biāo)點(diǎn)符號,將句子表示為詞項(xiàng)集合。
過長或過短的句子不適宜作為摘要的候選句,本實(shí)驗(yàn)考慮將長度系數(shù)CL >0.8 以及CL <0.2 的句子去掉。句子長度系數(shù)的定義如式(13)所示:
其中,L為句子的長度,LM為最長句子的長度。
通過改進(jìn)的TF-IDF算法,對單詞進(jìn)行詞權(quán)的計(jì)算,選取詞權(quán)最高的50 個(gè)單詞作為特征詞,將文檔轉(zhuǎn)化為50維的向量,用于文檔聚類前的相似度計(jì)算。
利用上文提到的基于文檔、句子兩階段的文本聚類算法對多文檔進(jìn)行二次聚類,先得到文檔中主要的分類方向,繼而得到每個(gè)類別下的子主題。
利用基于特征融合的方法對摘要進(jìn)行提取。傳統(tǒng)方法沒有考慮文檔的時(shí)效性和新穎性,此處利用余弦函數(shù)及指數(shù)函數(shù)的特性,為句子位置與報(bào)道時(shí)間這兩個(gè)衡量句子重要度的關(guān)鍵因素設(shè)計(jì)了特殊的權(quán)重衡量公式。
將每個(gè)子主題中得分高的K個(gè)句子按原文順序及報(bào)道發(fā)表時(shí)間順序輸出,保證生成的摘要的連貫性。K的計(jì)算公式如式(14)所示:
其中,size(topic)表示topic主題下的句子個(gè)數(shù),根據(jù)經(jīng)驗(yàn),此處的perc取為20%。
實(shí)驗(yàn)中的主要參數(shù)如表2所示。
表2 實(shí)驗(yàn)中的主要參數(shù)
實(shí)驗(yàn)對一階段文本聚類和兩階段文本聚類進(jìn)行了性能的對比,具體運(yùn)行時(shí)間如圖4所示。由圖4可知,一階段聚類和兩階段聚類的消耗時(shí)間均隨著文檔數(shù)量的增加呈現(xiàn)上升的趨勢,其中一階段聚類所消耗的時(shí)間增加得更快。隨著數(shù)據(jù)規(guī)模的增大,一階段聚類的時(shí)間消耗將會(huì)大幅度提升,兩階段文本聚類的優(yōu)勢將逐步顯現(xiàn)。產(chǎn)生這樣的實(shí)驗(yàn)結(jié)果,是因?yàn)閮呻A段文本聚類中的第一階段,已經(jīng)對文本進(jìn)行了初步的分類,為第二階段的句子級聚類縮小了聚類的范圍,從而減少了不必要的時(shí)間開銷。從復(fù)雜度的角度來分析,本文基于密度的聚類方法本身的時(shí)間復(fù)雜度為O(n2),若對所有文檔中的n個(gè)句子直接進(jìn)行聚類,則時(shí)間復(fù)雜度為O(n2)。本文采用的是兩階段的聚類方法,假設(shè)一階段的聚類將文檔分為m個(gè)主題,則兩階段聚類的平均時(shí)間復(fù)雜度為,由于m的數(shù)量小于n,因此要小于n2,在主題個(gè)數(shù)合理的情況下,兩階段聚類的方法可較大幅度節(jié)省時(shí)間開銷。相較于一階段聚類進(jìn)行主題劃分的算法,本文所采用的兩階段文本聚類進(jìn)行主題劃分的算法運(yùn)行效率更高。
圖4 一階段聚類與兩階段聚類運(yùn)行效率對比圖
圖5 展示了在進(jìn)行文檔級聚類時(shí),ψ值的變化趨勢。由圖可知,由簇中心點(diǎn)到非簇中心點(diǎn)過渡時(shí),ψ值存在較大的變化,本實(shí)驗(yàn)選取ψ≥0.2 的16 個(gè)節(jié)點(diǎn)作為簇中心點(diǎn),共選取了16個(gè)主題。
圖5 ψ 值變化圖
在本實(shí)驗(yàn)中,對自動(dòng)摘要效果的評價(jià)主要是通過與人工撰寫的摘要進(jìn)行對比。實(shí)驗(yàn)采用的數(shù)據(jù)均經(jīng)過國家應(yīng)急響應(yīng)中心專業(yè)人員的交叉審核,標(biāo)準(zhǔn)摘要亦由相關(guān)專業(yè)人士標(biāo)注,準(zhǔn)確性和可靠性高。國際上通用的評價(jià)指標(biāo)為查準(zhǔn)率P(Precision)、F1 分?jǐn)?shù)(F1 Score)、查全率R(Recall)。查準(zhǔn)率P是指正確摘要的句子占全部摘要句子的百分比,主要衡量摘要表現(xiàn)原文主題信息的準(zhǔn)確度。查全率R是指被正確分類的文檔樣本數(shù)量占總文檔樣本數(shù)量的百分比。由于查準(zhǔn)率和查準(zhǔn)率是兩個(gè)不同的指標(biāo),它們的關(guān)系是二律背反的。F1 分?jǐn)?shù)是二者的調(diào)和平均值,一般來說,F(xiàn)1 分?jǐn)?shù)越高,說明聚類效果越佳。計(jì)算公式詳見式(15)~(17):
本實(shí)驗(yàn)通過對比三種算法,分別為本文所提的算法、TextRank算法以及TextTeaser,計(jì)算各算法在每種主題下的準(zhǔn)確率P、召回率R及F1 值。由于句子級聚類得到的子主題較多,此處的主題是指文檔級聚類得到的16個(gè)分類,其中的值為各分類中子主題的平均值,算法對比結(jié)果詳見表3。
表3 算法對比結(jié)果
通過求取平均值對三種算法的三個(gè)指標(biāo)進(jìn)行對比,算法效率如圖6所示。
實(shí)驗(yàn)結(jié)果表明,本文算法的平均查準(zhǔn)率能達(dá)到83%,分別比TextRank 算法和TextTeaser 算法高出24%和18%。與此同時(shí),本文算法的平均查全率為63%,比TextRank 算法高出19%,比TextTeaser 算法高出11%。此外,本文算法的F1 分?jǐn)?shù)也較高,平均F1 分?jǐn)?shù)為71%。綜上,本文算法在自動(dòng)文本摘要生成方面的效果比傳統(tǒng)算法更加優(yōu)化。因?yàn)槔酶倪M(jìn)的TF-IDF文本特征向量化方法,能夠更加突出新聞熱點(diǎn);基于密度的聚類算法能夠提高運(yùn)行效率,本文所提密度聚類算法可以自動(dòng)確定簇中心個(gè)數(shù),兩階段的文本聚類,亦使得摘要富有層次性;此外,考慮到新聞時(shí)效性強(qiáng),報(bào)道時(shí)間及句子位置對句子重要度起關(guān)鍵作用,本文算法利用余弦函數(shù)及指數(shù)函數(shù)的特性,對句子重要度進(jìn)行運(yùn)算,使得得到的摘要句更符合新聞文本的特點(diǎn)。
圖6 算法效率
自動(dòng)文本摘要技術(shù)應(yīng)需而生,主要運(yùn)用于新聞?lì)I(lǐng)域,旨在幫助群眾快速獲取信息,幫助情報(bào)部門快速了解國內(nèi)外動(dòng)態(tài)。本文算法基于新聞?lì)I(lǐng)域時(shí)效性強(qiáng)、主題明確的特征,對先前學(xué)者的研究進(jìn)行改進(jìn),算法多次將時(shí)間因素納入考慮的范圍。實(shí)驗(yàn)表明,本文算法可提升摘要的時(shí)效性。此外,兩階段的聚類也在提升效率的同時(shí),使最終生成的摘要更具層次性。然而,本文算法還存在許多局限性,有待深入研究,例如生成摘要時(shí),如何使摘要更加通順、連貫。本文研究的兩階段聚類雖然能夠提升效率,但在多個(gè)子主題中抽取摘要容易產(chǎn)生句子不連貫的問題。因此,如何利用語義分析增強(qiáng)摘要的連貫性是未來的研究方向。