亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖模型的多文檔摘要生成算法

        2020-08-19 10:42:04張?jiān)萍?/span>徐濟(jì)銘袁衛(wèi)平
        關(guān)鍵詞:文本模型

        張?jiān)萍?,?琨,徐濟(jì)銘,袁衛(wèi)平,蔡 穎,高 雅

        1.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094

        2.國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心江蘇分中心 互聯(lián)網(wǎng)信息處,南京 210019

        1 引言

        人工文本摘要的形成過程十分復(fù)雜,且十分費(fèi)時(shí)費(fèi)力。它需要由具有一定專業(yè)知識并經(jīng)過相關(guān)培訓(xùn)的特定人員,在研習(xí)了相關(guān)資料文獻(xiàn)后,概括成可讀性強(qiáng)、質(zhì)量高的摘要。在這個(gè)信息超負(fù)荷的時(shí)代,對于文本摘要的處理,需要滿足時(shí)效性強(qiáng)、范圍廣、速度快等特征,這顯然是傳統(tǒng)的人工提取文本摘要所不能滿足的。

        自動(dòng)文本摘要生成技術(shù)是利用計(jì)算機(jī)技術(shù)從文章中提取內(nèi)容生成摘要,并以語意連貫的段落乃至篇章的形式展現(xiàn),該技術(shù)能夠幫助人們快速獲取情報(bào)信息,輔助國家輿情監(jiān)測部門采取應(yīng)急響應(yīng)措施。它采用機(jī)器學(xué)習(xí)與自然語言處理技術(shù)進(jìn)行內(nèi)容抽取、分類,并精簡概括全文。出于對信息過載問題的考慮,該技術(shù)在國內(nèi)外正日益受到密切關(guān)注。本文以國外新聞網(wǎng)站的大量新聞文檔為研究對象,利用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù),對新聞文檔進(jìn)行多文檔摘要的生成。

        2 相關(guān)研究

        自動(dòng)文本摘要生成技術(shù)是自然語言處理領(lǐng)域中較難的技術(shù),亦是當(dāng)下的研究熱點(diǎn)。國內(nèi)外學(xué)者在自動(dòng)文本摘要領(lǐng)域做了大量的研究。統(tǒng)計(jì)學(xué)模型在自然語言處理領(lǐng)域應(yīng)用廣泛,統(tǒng)計(jì)技術(shù)也是自動(dòng)文本摘要最早應(yīng)用的技術(shù)。統(tǒng)計(jì)技術(shù)相較于其他技術(shù)而言,數(shù)學(xué)模型簡單,實(shí)現(xiàn)方便,出現(xiàn)時(shí)間也最早。文獻(xiàn)[1]最早提出了自動(dòng)文本摘要的概念,運(yùn)用詞頻來衡量句子在一篇文檔中的重要性,即出現(xiàn)越多的單詞越能夠代表文章的主題思想。僅考慮詞頻不夠全面,在實(shí)際提取摘要時(shí),統(tǒng)計(jì)特征往往會(huì)與句子本身的特征結(jié)合使用,來提高權(quán)重的精確度[2-3]。例如在新聞報(bào)道中,針對首段內(nèi)容往往凝煉了事件的主體信息,段落中的首句和末句能夠概括段落內(nèi)容等特性,設(shè)計(jì)特定的權(quán)重公式來提取摘要句更為恰當(dāng)。Edmundson[4]設(shè)計(jì)了一個(gè)經(jīng)典的抽取式摘要系統(tǒng)。他不僅利用詞頻和段落位置等基本特性,還將提示詞、文檔框架特征納入考慮范圍,對語句的重要程度進(jìn)行評判。

        圖模型算法在自動(dòng)文本摘要生成領(lǐng)域亦有著廣泛應(yīng)用,最早的工作可見文獻(xiàn)[5]。文獻(xiàn)[6]提出了一種基于親和圖的自動(dòng)文本摘要生成技術(shù),該方法考慮句子間的相似性,結(jié)合主題信息抽取出高信息性和高獨(dú)特性的句子,經(jīng)過冗余削減后生成摘要。文獻(xiàn)[7]利用N-Gram圖抽取文檔中的重要成分。文獻(xiàn)[8]使用WordNet 識別文檔中的概念來構(gòu)建文本圖?;趫D排序算法的自動(dòng)文本摘要生成技術(shù)是圖模型在該領(lǐng)域應(yīng)用的一類特例,其因?yàn)榱己玫男Ч约翱蓴U(kuò)展性成為本領(lǐng)域的研究熱點(diǎn)。在圖的構(gòu)建方面,除了應(yīng)用最廣泛的余弦相似度度量外,基于關(guān)聯(lián)規(guī)則挖掘[9]、信息論[10]等衡量文本單元相關(guān)性的方法也有所應(yīng)用,以及基于超圖[11]、聚類[12]、WordNet以及維基百科的方法[13-15]也有所應(yīng)用;在圖排序方面,現(xiàn)有的系統(tǒng)大多是對PageRank或HITS(Hyperlink-Induced Topic Search)算法基于所構(gòu)建的文本圖進(jìn)行相應(yīng)的改進(jìn),例如TextRank和GraphSum算法將PageRank算法的權(quán)重傳播做了加權(quán)改進(jìn),Biased-LexRank[16]將馬爾科夫鏈轉(zhuǎn)移到自身的概率進(jìn)行了加權(quán),文獻(xiàn)[15]從加權(quán)HITS算法中獲得啟發(fā);也有方法進(jìn)一步擴(kuò)展了現(xiàn)有的圖排序方法,例如文獻(xiàn)[14]用全局排序的結(jié)果對聚類簇做動(dòng)態(tài)更新,然后利用更新過后的聚類簇對句子進(jìn)行重新排序。

        多文檔自動(dòng)文本摘要生成技術(shù)以不同主題的文本集合為研究對象,其目的是生成同一主題下多個(gè)文檔的摘要信息,通常在圖模型的基礎(chǔ)上展開研究。目前,研究人員在這一領(lǐng)域也展開了一系列的研究,并取得了階段性成果。文獻(xiàn)[17]提出了一種識別關(guān)鍵主題的方法,以在多個(gè)文檔中提取摘要。文獻(xiàn)[18]通過結(jié)合LDA(Latent Dirichlet Allocation)主題模型,提出了一種新的挖掘主題的方法。文獻(xiàn)[19]主要針對多文檔句子重要度排序的問題,設(shè)計(jì)了一種通用的解決方案。

        新聞文檔存在時(shí)效性強(qiáng)、主題明確的特征,傳統(tǒng)的基于統(tǒng)計(jì)學(xué)模型和圖模型的自動(dòng)文本摘要生成方法很難充分考慮這兩個(gè)特征,因而生成的摘要存在冗余度高、新穎性不強(qiáng)等缺點(diǎn)?;诖?,本文對上述圖模型算法進(jìn)行改進(jìn),實(shí)現(xiàn)對英文文本的多文檔摘要生成。算法采用兩步文本聚類的方法,在提升效率的同時(shí),更好地發(fā)現(xiàn)文檔主題。此外,在摘要的抽取階段,采用了基于特征融合的算法,充分考慮了位置因素和時(shí)間因素對文檔、句子的影響,提高了文本摘要的新穎性、時(shí)效性和準(zhǔn)確性。

        3 基于圖模型的自動(dòng)文本摘要生成算法

        為提高摘要句抽取的準(zhǔn)確度,本文首先對傳統(tǒng)的詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法進(jìn)行改進(jìn),以對文本中的單詞進(jìn)行向量表示。在此基礎(chǔ)上,建立圖模型,對多文檔進(jìn)行基于文檔、句子兩階段的文本聚類算法。最后,基于多特征融合的方式,選取句子重要度高的句子作為摘要句,并按照一定的順序生成最終的摘要。算法流程圖詳見圖1。

        3.1 基于改進(jìn)的TF-IDF的文本特征向量化算法

        文本特征向量化是文本預(yù)處理中最關(guān)鍵的一步,文本特征向量化的效果將直接影響生成的摘要的質(zhì)量。常見的文本特征向量化有三種,即one-hot、TF-IDF、word2vec。one-hot編碼是將標(biāo)記轉(zhuǎn)換為向量的最常用、最基本的方法。one-hot 編碼在文本中的應(yīng)用是,將每個(gè)詞與一個(gè)唯一的整數(shù)索引關(guān)聯(lián),然后將這個(gè)整數(shù)索引i轉(zhuǎn)換成長度為N(N是詞典大?。┑亩M(jìn)制向量,這個(gè)向量的特點(diǎn)是只有第i個(gè)元素是1,其余元素為0,但它得到的特征往往是離散稀疏的。word2vec不穩(wěn)定,且無法區(qū)分文本中詞匯的重要程度[20]。TF-IDF主要思想是:一個(gè)詞的重要度不僅取決于其出現(xiàn)的頻率,還取決于該詞所具有的代表性。TF-IDF 也存在缺點(diǎn),因?yàn)槠涮崛£P(guān)鍵字的能力嚴(yán)重依賴語料庫,所以對語料庫范圍和質(zhì)量要求較高。逆文本頻率(Inverse Document Frequency,IDF)算法本身是一種抑制噪聲的加權(quán),對文本中頻次較小的詞存在著傾向性,這也影響了TF-IDF 算法的精度。該算法考慮對傳統(tǒng)的TF-IDF 算法進(jìn)行改進(jìn),實(shí)現(xiàn)文本特征向量化。具體地,該算法將引入一個(gè)熱度系數(shù)Hot,充分考慮到隨著時(shí)間的變化,新聞的熱點(diǎn)話題會(huì)隨之轉(zhuǎn)移的問題,通過該算法得到的詞權(quán),更能突出實(shí)時(shí)熱點(diǎn)。文本向量空間模型的表示如式(1)所示:

        圖1 算法流程圖

        式(1)中,tk(k=1,2,…,n)為特征詞,wik為特征詞tk在文本di中的權(quán)重,其具體定義如式(2)所示:

        式(2)中,詞頻tfk為特征詞tk在文檔di中出現(xiàn)的頻率次數(shù),為逆文本詞頻,N為文本集中的文本總數(shù),nk為包含特征詞tk的文本數(shù)量,Hoti(x)表示文檔di的熱度系數(shù),x表示文檔di的報(bào)道時(shí)間距離當(dāng)前時(shí)間相隔的天數(shù)。

        新聞熱度值的大小取決于兩方面的因素:媒體因素和用戶因素。對于某一新聞,在單位時(shí)間內(nèi)與之相關(guān)的報(bào)道數(shù)量越多,則表明該新聞受到的媒體關(guān)注越多;同樣地,若參與該新聞評論的人數(shù)越多,則表明該新聞受到的用戶關(guān)注越多。因此,根據(jù)媒體關(guān)注度和用戶關(guān)注度,設(shè)計(jì)式(3),計(jì)算新聞的熱度。

        其中,sR表示第x天的所有報(bào)道數(shù)量,sr表示第x天與新聞di相關(guān)的報(bào)道數(shù)量,pr為參與討論新聞di的人數(shù),υ和ν表示權(quán)重調(diào)節(jié)因子,υ=0.9,ν=0.1 。本文針對某一新聞,進(jìn)行了熱度計(jì)算,其熱度系數(shù)Hoti(x)隨天數(shù)變化的示意圖如圖2所示。

        圖2 熱度系數(shù)變化圖

        由圖可知,新聞的熱度將逐漸消退,其變化趨勢與指數(shù)函數(shù)的遞減趨勢類似,前期波動(dòng)比較大,下降快,后期變化趨于平緩,并大約在30天內(nèi)降為0。這個(gè)權(quán)重被稱為基于熱度的詞頻-逆向文件頻率(Heat factor based Term Frequency-Inverse Document Frequency,TF-IDFH)權(quán)重。本算法將選取TF-IDFH 值最大的前γ個(gè)詞作為特征詞。文檔集合總體的向量空間模型如表1所示。

        表1 向量空間模型

        3.2 基于文檔、句子兩階段的文本聚類算法

        通過文本聚類,能夠使同一簇內(nèi)的節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接緊密,而簇與簇之間的連接比較稀疏,從而找到相似度較高的集合,降低最后提取的文本摘要的冗余性。文本聚類應(yīng)充分體現(xiàn)高內(nèi)聚、低耦合的特性。通過文本聚類算法,可以將同一主題的句子歸為一個(gè)簇。然而,由于多文檔中句子數(shù)量龐大,若直接構(gòu)建句子級的圖模型,勢必會(huì)導(dǎo)致運(yùn)行效率下降。因此,本文采用文檔、句子兩階段的文本聚類算法:首先,構(gòu)建文檔級的圖模型,并進(jìn)行文本聚類;其次,對得到的簇中文檔的句子,仿照文檔級圖模型的構(gòu)建方法,構(gòu)建出句子級的圖模型,再次進(jìn)行文本聚類。如圖3所示,C1、C2、C3為文檔級文本聚類算法得到的簇,對C3中文檔的句子構(gòu)建句子級圖模型,并進(jìn)行文本聚類,得到S1和S2兩個(gè)簇。

        3.2.1 文檔級圖模型的構(gòu)建方法

        對于已有的文本集D={d1,d2,…,dm} ,根據(jù)文檔的相似度閾值T1構(gòu)造文檔級的圖模型。在文本向量空間模型的基礎(chǔ)上,利用余弦相似度來表示兩文檔之間的相似度,文檔之間的相似度如式(4)所示:

        圖3 兩階段文本聚類示意圖

        式(4)中,wik為特征詞tk在文本di中的權(quán)重,wjk為特征詞tk在文本dj中的權(quán)重,為兩個(gè)向量的長度。如果兩節(jié)點(diǎn)之間的相似度大于文檔的相似度閾值T1,則認(rèn)為這兩個(gè)文檔相似度較高,并將這兩個(gè)節(jié)點(diǎn)連接。兩點(diǎn)之間邊的權(quán)重即用相似度Sim(di,dj)來表示,依此構(gòu)建一個(gè)文檔級的無向加權(quán)圖。

        3.2.2 句子級圖模型的構(gòu)建方法

        在構(gòu)建了文檔級圖模型后,將通過文檔級文本聚類算法,得到相似度比較高的文檔簇,即子主題的發(fā)現(xiàn)過程。為了對某一主題進(jìn)行更為細(xì)節(jié)性的劃分,考慮仿照3.2.1小節(jié)文檔級圖模型的構(gòu)建方法,構(gòu)建句子級的圖模型。與文檔級不同的是,句子通常比較簡短,因此考慮多個(gè)因素來計(jì)算句子間的相似度,能夠在不降低算法執(zhí)行效率的基礎(chǔ)上,提升最終抽取的摘要句的準(zhǔn)確度。本文考慮將句子長度以及Jaccard相似度結(jié)合的方式來確定句子之間相似度,進(jìn)而構(gòu)建句子級圖模型。

        (1)句長相似度的計(jì)算

        句子的長度往往能夠反映句子之間的相似度,句長的差值與句子相似度成反比,長度相差越小,句子相似的可能性越高。假設(shè)len(si)表示句子si的長度,len(sj)表示句子sj的長度,則si和sj的句長相似度如式(5)所示:

        (2)Jaccard相似度的計(jì)算

        句子的相似度往往和句子中相同的詞匯個(gè)數(shù)成正比,Jaccard 相似度就是衡量重疊性的一個(gè)標(biāo)準(zhǔn)。假設(shè)表示句子si和sj中重疊的詞匯個(gè)數(shù),則si和sj的Jaccard相似度如式(6)所示:

        得到的句子相似度如式(7)所示:

        式(6)中,cr為權(quán)重系數(shù),,若兩節(jié)點(diǎn)之間的相似度大于句子的相似度閾值T2,則認(rèn)為這兩個(gè)句子較為相似,并將這兩個(gè)節(jié)點(diǎn)連接。兩點(diǎn)之間邊的權(quán)重即用相似度sim(si,sj)來表示,依此構(gòu)建一個(gè)句子級的無向加權(quán)圖。

        3.2.3 文本聚類算法

        在聚類方法中,基于距離的K-Means 聚類方法時(shí)間開銷很大,對于簇的個(gè)數(shù)需要經(jīng)過多次實(shí)驗(yàn)并根據(jù)輪廓系數(shù)來確定,受人工影響較大,且K-Means對于異常點(diǎn)也比較敏感。此外,在數(shù)據(jù)集方面,K-Means方法多適用于凸數(shù)據(jù)集,而文本數(shù)據(jù)一般不具有凸數(shù)據(jù)集的特性。因此,將該方法運(yùn)用于文本聚類時(shí)效果不佳。相比之下,密度聚類不需要規(guī)定簇的個(gè)數(shù),對異常點(diǎn)亦不敏感,適用于解決文本這類稠密數(shù)據(jù)集的聚類問題。本文采取基于密度的文本聚類算法,通過該方法可以更好體現(xiàn)數(shù)據(jù)分布,得到非圓形的聚類結(jié)果。通過該方法得到的簇的中心密度很大,圍繞著這個(gè)中心的點(diǎn)較多,簇與簇之間的距離較大?;静襟E如下:

        步驟1 根據(jù)相似度值的倒數(shù),確定文檔或句子之間的距離,構(gòu)建文檔級距離矩陣M和句子級距離矩陣N。其中,文檔之間的距離用1/Sim(di,dj)表示;句子之間的距離用1/sim(si,sj)表示。矩陣中第i行、第j列表示di與dj(或si與sj)之間的距離disij。

        步驟2 根據(jù)距離矩陣,計(jì)算每個(gè)點(diǎn)的密度。點(diǎn)i的密度,參數(shù)disc為邊界閾值,disc的值越小,則會(huì)在盡可能小的范圍內(nèi)得到簇。

        步驟3 根據(jù)距離矩陣,計(jì)算點(diǎn)i到比其密度更高的其他所有點(diǎn)的最小距離。

        步驟4 選取ρ和δ都較大的點(diǎn)作為簇的中心點(diǎn)。此處,算法通過乘積因子ψ,綜合衡量兩個(gè)因素對簇中心的影響。對點(diǎn)i的乘積因子ψi的定義如式(8)所示。

        其中,normρi和normδi都是歸一化后的值。此處歸一化的方法采用離差歸一化,將值映射在[0,1]的區(qū)間范圍內(nèi)。具體地,以normρi為例:

        normδi的計(jì)算方法與此類似,不再贅述。ψ越大,表示簇的中心密度越大,且不同簇的中心相互之間的距離越遠(yuǎn)。將ψ值從大到小進(jìn)行排序,選取ψ值較大的點(diǎn)作為簇中心點(diǎn)。由于從非簇中心點(diǎn)過渡到簇中心點(diǎn),ψ值會(huì)大幅度地提升,此處將根據(jù)冪次法則,確定簇的個(gè)數(shù)。

        步驟5 對于其余非簇中心的數(shù)據(jù)點(diǎn),將其分配給離它最近且密度比它高的鄰點(diǎn)所在的簇。

        3.3 基于特征融合的文本摘要單元提取

        基于特征融合的文本摘要單元提取方法基本思想如下:選取句子的若干特征,對其進(jìn)行加權(quán)求和,得到句子重要度。其關(guān)鍵點(diǎn)在于句子特征的選擇上,本文所采用的算法中,抽取的特征信息主要包括段落及句子的位置信息、句子與標(biāo)題之間的相似度等。特別地,考慮到報(bào)道型文檔時(shí)效性強(qiáng)的特征,新聞報(bào)道的時(shí)間也將作為一個(gè)重要因素,融入到權(quán)重的計(jì)算中,并賦予較大的權(quán)重。最終句子的得分,將是多種權(quán)重的線性加權(quán)和。

        (1)基于位置信息的句子權(quán)重計(jì)算

        句子的重要度受到句子在段落中的位置因素的影響。例如,主旨性的語句放在第一段,且段落首句往往是中心句。根據(jù)人工摘要總結(jié)出的規(guī)律可知,段首句作為摘要句的概率高達(dá)85%。此外,新聞?lì)I(lǐng)域的文檔多具有段落首尾句重要度更高的特征。因此,結(jié)合新聞?lì)I(lǐng)域及余弦函數(shù)的特征,設(shè)計(jì)了基于位置的句子權(quán)重的計(jì)算方法。其核心思想是突出段落首尾句的重要度。

        定義countPi為第i篇文檔的段落總數(shù),則第i篇文檔中第m個(gè)段落的重要度PEim如式(9)所示:

        式中,α和β均為常量,在本文中,α=1,β=2 ,這兩個(gè)參數(shù)的意義在于能夠確保PEim的歸一化。

        (2)基于標(biāo)題相似度的句子權(quán)重計(jì)算

        新聞報(bào)道中的標(biāo)題句往往能夠反映文章的主旨,與標(biāo)題的相似程度也能夠反映句子的重要度。本算法采用余弦相似度,計(jì)算句子與標(biāo)題的相似度。基于標(biāo)題相似度的句子權(quán)重e2如式(10):

        其中,sn為句子向量,ti表示第i篇文章的標(biāo)題向量。

        (3)基于報(bào)道時(shí)間的句子權(quán)重計(jì)算

        新聞報(bào)道最大的特征是時(shí)效性強(qiáng)。例如,最新發(fā)布的文章,其重要度一定遠(yuǎn)遠(yuǎn)大于10 年前發(fā)布的文章。此外,新聞文檔還滿足越接近當(dāng)下發(fā)表的文章,其重要度波動(dòng)越大的規(guī)律。10年前的文章和11年前的文章相比,其價(jià)值近乎一樣。因此,根據(jù)指數(shù)函數(shù)的特點(diǎn),設(shè)計(jì)了符合新聞時(shí)效性特征的句子權(quán)重計(jì)算方法。

        假設(shè)currentTime表示當(dāng)前時(shí)間,oldestTime表示某主題內(nèi)最早的一篇報(bào)道的發(fā)表時(shí)間。TimeLenth表示時(shí)間區(qū)間,即TimeLenth=currentTime-oldestTime。定義Timei為第i篇文章的發(fā)表時(shí)間。則基于報(bào)道時(shí)間的句子權(quán)重e3如式(11):

        對上述三種句子權(quán)重的結(jié)果進(jìn)行加權(quán)求和,得到句子的融合權(quán)重W,即句子重要度,如式(12)所示:

        其中,quo表示權(quán)重系數(shù),。

        4 實(shí)驗(yàn)過程

        4.1 數(shù)據(jù)收集

        本文算法的數(shù)據(jù)集主要由紐約時(shí)報(bào)、??怂剐侣劇⑷A爾街日報(bào)、美國之音等國外著名新聞網(wǎng)站的報(bào)道組成,內(nèi)容涉及網(wǎng)絡(luò)、科技、軍事、政治、經(jīng)濟(jì)、安全等領(lǐng)域。實(shí)驗(yàn)采用Python及Java語言,利用主題爬蟲對新聞網(wǎng)站進(jìn)行數(shù)據(jù)的采集,通過對網(wǎng)頁源碼進(jìn)行正則匹配,得到所需格式的數(shù)據(jù),共計(jì)抓取656 篇報(bào)道,去除篇幅過長和過短的報(bào)道,得到400篇符合要求的文檔。

        4.2 數(shù)據(jù)預(yù)處理

        (1)去除噪聲。該步驟去除對文本分析貢獻(xiàn)度不大的特殊符號、表格等。

        (2)詞干化。此處采用經(jīng)典的波特詞干算法對單詞進(jìn)行詞干化,該方法速度快,準(zhǔn)確度高,目的是刪除單詞的后綴,保留詞根。

        (3)文檔分割。首先,利用正則表達(dá)式匹配標(biāo)點(diǎn)符號,將文檔分割為句子集合。然后,通過去除停用詞和標(biāo)點(diǎn)符號,將句子表示為詞項(xiàng)集合。

        4.3 過濾句子

        過長或過短的句子不適宜作為摘要的候選句,本實(shí)驗(yàn)考慮將長度系數(shù)CL >0.8 以及CL <0.2 的句子去掉。句子長度系數(shù)的定義如式(13)所示:

        其中,L為句子的長度,LM為最長句子的長度。

        4.4 文本向量化

        通過改進(jìn)的TF-IDF算法,對單詞進(jìn)行詞權(quán)的計(jì)算,選取詞權(quán)最高的50 個(gè)單詞作為特征詞,將文檔轉(zhuǎn)化為50維的向量,用于文檔聚類前的相似度計(jì)算。

        4.5 文本聚類

        利用上文提到的基于文檔、句子兩階段的文本聚類算法對多文檔進(jìn)行二次聚類,先得到文檔中主要的分類方向,繼而得到每個(gè)類別下的子主題。

        4.6 摘要句抽取

        利用基于特征融合的方法對摘要進(jìn)行提取。傳統(tǒng)方法沒有考慮文檔的時(shí)效性和新穎性,此處利用余弦函數(shù)及指數(shù)函數(shù)的特性,為句子位置與報(bào)道時(shí)間這兩個(gè)衡量句子重要度的關(guān)鍵因素設(shè)計(jì)了特殊的權(quán)重衡量公式。

        4.7 摘要輸出

        將每個(gè)子主題中得分高的K個(gè)句子按原文順序及報(bào)道發(fā)表時(shí)間順序輸出,保證生成的摘要的連貫性。K的計(jì)算公式如式(14)所示:

        其中,size(topic)表示topic主題下的句子個(gè)數(shù),根據(jù)經(jīng)驗(yàn),此處的perc取為20%。

        5 結(jié)果分析

        實(shí)驗(yàn)中的主要參數(shù)如表2所示。

        表2 實(shí)驗(yàn)中的主要參數(shù)

        實(shí)驗(yàn)對一階段文本聚類和兩階段文本聚類進(jìn)行了性能的對比,具體運(yùn)行時(shí)間如圖4所示。由圖4可知,一階段聚類和兩階段聚類的消耗時(shí)間均隨著文檔數(shù)量的增加呈現(xiàn)上升的趨勢,其中一階段聚類所消耗的時(shí)間增加得更快。隨著數(shù)據(jù)規(guī)模的增大,一階段聚類的時(shí)間消耗將會(huì)大幅度提升,兩階段文本聚類的優(yōu)勢將逐步顯現(xiàn)。產(chǎn)生這樣的實(shí)驗(yàn)結(jié)果,是因?yàn)閮呻A段文本聚類中的第一階段,已經(jīng)對文本進(jìn)行了初步的分類,為第二階段的句子級聚類縮小了聚類的范圍,從而減少了不必要的時(shí)間開銷。從復(fù)雜度的角度來分析,本文基于密度的聚類方法本身的時(shí)間復(fù)雜度為O(n2),若對所有文檔中的n個(gè)句子直接進(jìn)行聚類,則時(shí)間復(fù)雜度為O(n2)。本文采用的是兩階段的聚類方法,假設(shè)一階段的聚類將文檔分為m個(gè)主題,則兩階段聚類的平均時(shí)間復(fù)雜度為,由于m的數(shù)量小于n,因此要小于n2,在主題個(gè)數(shù)合理的情況下,兩階段聚類的方法可較大幅度節(jié)省時(shí)間開銷。相較于一階段聚類進(jìn)行主題劃分的算法,本文所采用的兩階段文本聚類進(jìn)行主題劃分的算法運(yùn)行效率更高。

        圖4 一階段聚類與兩階段聚類運(yùn)行效率對比圖

        圖5 展示了在進(jìn)行文檔級聚類時(shí),ψ值的變化趨勢。由圖可知,由簇中心點(diǎn)到非簇中心點(diǎn)過渡時(shí),ψ值存在較大的變化,本實(shí)驗(yàn)選取ψ≥0.2 的16 個(gè)節(jié)點(diǎn)作為簇中心點(diǎn),共選取了16個(gè)主題。

        圖5 ψ 值變化圖

        在本實(shí)驗(yàn)中,對自動(dòng)摘要效果的評價(jià)主要是通過與人工撰寫的摘要進(jìn)行對比。實(shí)驗(yàn)采用的數(shù)據(jù)均經(jīng)過國家應(yīng)急響應(yīng)中心專業(yè)人員的交叉審核,標(biāo)準(zhǔn)摘要亦由相關(guān)專業(yè)人士標(biāo)注,準(zhǔn)確性和可靠性高。國際上通用的評價(jià)指標(biāo)為查準(zhǔn)率P(Precision)、F1 分?jǐn)?shù)(F1 Score)、查全率R(Recall)。查準(zhǔn)率P是指正確摘要的句子占全部摘要句子的百分比,主要衡量摘要表現(xiàn)原文主題信息的準(zhǔn)確度。查全率R是指被正確分類的文檔樣本數(shù)量占總文檔樣本數(shù)量的百分比。由于查準(zhǔn)率和查準(zhǔn)率是兩個(gè)不同的指標(biāo),它們的關(guān)系是二律背反的。F1 分?jǐn)?shù)是二者的調(diào)和平均值,一般來說,F(xiàn)1 分?jǐn)?shù)越高,說明聚類效果越佳。計(jì)算公式詳見式(15)~(17):

        本實(shí)驗(yàn)通過對比三種算法,分別為本文所提的算法、TextRank算法以及TextTeaser,計(jì)算各算法在每種主題下的準(zhǔn)確率P、召回率R及F1 值。由于句子級聚類得到的子主題較多,此處的主題是指文檔級聚類得到的16個(gè)分類,其中的值為各分類中子主題的平均值,算法對比結(jié)果詳見表3。

        表3 算法對比結(jié)果

        通過求取平均值對三種算法的三個(gè)指標(biāo)進(jìn)行對比,算法效率如圖6所示。

        實(shí)驗(yàn)結(jié)果表明,本文算法的平均查準(zhǔn)率能達(dá)到83%,分別比TextRank 算法和TextTeaser 算法高出24%和18%。與此同時(shí),本文算法的平均查全率為63%,比TextRank 算法高出19%,比TextTeaser 算法高出11%。此外,本文算法的F1 分?jǐn)?shù)也較高,平均F1 分?jǐn)?shù)為71%。綜上,本文算法在自動(dòng)文本摘要生成方面的效果比傳統(tǒng)算法更加優(yōu)化。因?yàn)槔酶倪M(jìn)的TF-IDF文本特征向量化方法,能夠更加突出新聞熱點(diǎn);基于密度的聚類算法能夠提高運(yùn)行效率,本文所提密度聚類算法可以自動(dòng)確定簇中心個(gè)數(shù),兩階段的文本聚類,亦使得摘要富有層次性;此外,考慮到新聞時(shí)效性強(qiáng),報(bào)道時(shí)間及句子位置對句子重要度起關(guān)鍵作用,本文算法利用余弦函數(shù)及指數(shù)函數(shù)的特性,對句子重要度進(jìn)行運(yùn)算,使得得到的摘要句更符合新聞文本的特點(diǎn)。

        圖6 算法效率

        6 結(jié)束語

        自動(dòng)文本摘要技術(shù)應(yīng)需而生,主要運(yùn)用于新聞?lì)I(lǐng)域,旨在幫助群眾快速獲取信息,幫助情報(bào)部門快速了解國內(nèi)外動(dòng)態(tài)。本文算法基于新聞?lì)I(lǐng)域時(shí)效性強(qiáng)、主題明確的特征,對先前學(xué)者的研究進(jìn)行改進(jìn),算法多次將時(shí)間因素納入考慮的范圍。實(shí)驗(yàn)表明,本文算法可提升摘要的時(shí)效性。此外,兩階段的聚類也在提升效率的同時(shí),使最終生成的摘要更具層次性。然而,本文算法還存在許多局限性,有待深入研究,例如生成摘要時(shí),如何使摘要更加通順、連貫。本文研究的兩階段聚類雖然能夠提升效率,但在多個(gè)子主題中抽取摘要容易產(chǎn)生句子不連貫的問題。因此,如何利用語義分析增強(qiáng)摘要的連貫性是未來的研究方向。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产三级视频在线观看国产| 欧美z0zo人禽交欧美人禽交| 久久国产欧美日韩高清专区| 精品久久一区二区av| 久久精品人妻少妇一二三区| 岳毛多又紧做起爽| 无码国产亚洲日韩国精品视频一区二区三区 | 日韩av一区二区不卡| 在线看片免费人成视频电影| 俺来也俺去啦久久综合网| 麻豆人妻无码性色AV专区| 亚洲成人激情深爱影院在线| 亚洲亚洲人成综合丝袜图片| 天码av无码一区二区三区四区| 亚洲最稳定资源在线观看| 日本视频一区二区三区在线| 日本高清视频wwww色| 欧美性群另类交| 日韩精品一区二区三区中文9| 日本免费一二三区在线| 一进一出一爽又粗又大| 国产啪精品视频网给免丝袜| 亚洲影院在线观看av| 免费的日本一区二区三区视频 | 亚洲熟妇无码av不卡在线播放| 免费国人成人自拍视频| 国产一区二区精品人妖系列在线 | 亚洲av午夜成人片精品| 久久午夜av一区二区| 三年片免费观看大全有| 国产日韩欧美网站| 亚洲av成人无网码天堂| 亚洲av成人无码一二三在线观看| 国产乱人伦偷精品视频| 在线观看视频日本一区二区三区| 亚洲综合一区二区三区天美传媒| 51国偷自产一区二区三区| 国产一区二区丰满熟女人妻| 亚洲永久免费中文字幕| 亚洲av日韩av天堂久久| 久久精品国产亚洲vr|