葉 雷,余正濤,高盛祥,劉書龍,張亞飛
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上每天都會(huì)生成大量的文本數(shù)據(jù),從這些數(shù)據(jù)中獲取有用的信息變得越來越難。自動(dòng)摘要技術(shù)利用計(jì)算機(jī)對(duì)文檔進(jìn)行處理,生成包含原文檔核心內(nèi)容的摘要,實(shí)現(xiàn)對(duì)文檔的壓縮,是解決信息爆炸問題的有效方法。隨著“一帶一路”倡議的提出,中越兩國的交流變得愈發(fā)密切。關(guān)于一些重要的新聞事件,兩國媒體會(huì)發(fā)布大量的漢語新聞和越南語新聞。若能利用自動(dòng)摘要技術(shù)處理這些雙語新聞,我們便能快速地獲取這些海量新聞的主要內(nèi)容,這對(duì)于我國與越南的經(jīng)濟(jì)交流、文化交流等有著重要意義。
按照生成摘要的方式,自動(dòng)摘要技術(shù)可以分為抽取式(extractive)摘要和抽象式(abstractive)摘要。前者主要對(duì)原文檔的句子進(jìn)行重要性評(píng)估,再從中選取重要語句構(gòu)成摘要;后者則是在理解原文檔的基礎(chǔ)上,重新組織語言生成摘要。由于越南語的自然語言生成技術(shù)還有一定的局限性,因此本文主要研究抽取式摘要的生成。抽取式摘要按照方法的不同可以分為基于特征統(tǒng)計(jì)的方法、基于機(jī)器學(xué)習(xí)技術(shù)的方法和基于圖模型的方法。
(1) 基于特征統(tǒng)計(jì)的方法使用詞頻、句子位置、是否包含關(guān)鍵詞等這類特征對(duì)句子的重要程度進(jìn)行衡量,然后通過一定的策略選取重要句子構(gòu)成摘要。例如,Luhn利用了最直觀的思想,即詞頻越高的詞匯越有可能描述文檔的主要內(nèi)容[1],因此利用句中詞匯的頻率給句子打分,選擇得分高的句子生成摘要。另外,也有方法根據(jù)原文檔的特點(diǎn),融入句子位置[2]、句子長度、句子與標(biāo)題的相似度[3]等特征來更好地衡量句子的重要性。這類方法應(yīng)用于寫作規(guī)范、結(jié)構(gòu)清晰的文檔時(shí)能取得較好的結(jié)果。
(2) 隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,也逐漸出現(xiàn)了一些基于機(jī)器學(xué)習(xí)技術(shù)的自動(dòng)摘要方法。例如,有研究者利用樸素貝葉斯分類模型[4]判斷文檔里的每個(gè)句子是否為摘要句,也有研究者利用決策樹[5]、隱馬爾科夫模型[6]等算法來生成摘要。這類方法適用于有足夠多的訓(xùn)練語料的情況,而且在處理科技文獻(xiàn)、新聞文檔等結(jié)構(gòu)化文檔時(shí)能取得較好的結(jié)果。
(3) 基于圖模型的方法得到了廣泛的應(yīng)用,這類方法的一般思想是把文檔分解為若干單元(詞或句子),然后以這些單元為頂點(diǎn)、以單元間的關(guān)聯(lián)為邊建立圖模型,通過圖排序算法計(jì)算得到各個(gè)頂點(diǎn)的得分,再通過一定的策略選擇得分高的頂點(diǎn)構(gòu)成摘要。例如,文獻(xiàn)[7]在處理文檔時(shí),以文檔中的句子作為頂點(diǎn)、句子間的相似度作為邊來構(gòu)建句子圖,之后在句子圖上使用TextRank算法對(duì)句子進(jìn)行排序,選擇排序靠前的句子構(gòu)成摘要。這類方法具有一定的擴(kuò)展性,可以方便地融入一些特征。例如,文獻(xiàn)[8]在為醫(yī)學(xué)文獻(xiàn)生成摘要時(shí),用句子含有的醫(yī)學(xué)本體(ontology)來表征每個(gè)頂點(diǎn),通過融入領(lǐng)域知識(shí)來提升文檔摘要的準(zhǔn)確性。另外,句子間的余弦相似度、語義相似性等特征[9-10]也能用于衡量句子間的關(guān)聯(lián)強(qiáng)度,以提升自動(dòng)摘要的效果。
上述的自動(dòng)摘要方法都是應(yīng)用于單語環(huán)境,近年來,研究者們逐漸開始探索跨語言或多語言環(huán)境下的自動(dòng)摘要方法。例如,文獻(xiàn)[11]提出了一種跨語言自動(dòng)摘要方法,旨在為阿拉伯文的新聞文檔生成英文摘要。實(shí)驗(yàn)使用了相關(guān)的雙語新聞文檔集,首先通過機(jī)器翻譯把阿拉伯文文檔翻譯為英文文檔,然后從翻譯后的文檔中抽取摘要,之后計(jì)算這份摘要與英文文檔集中句子的相似度,最后從英文文檔集中挑選出相似度足夠高的句子作為阿拉伯文文檔集的摘要。文獻(xiàn)[12]提出了一種多語言自動(dòng)摘要方法,旨在為相關(guān)的中英文報(bào)道生成兩份摘要,分別代表中文報(bào)道獨(dú)有的觀點(diǎn)和英文報(bào)道獨(dú)有的觀點(diǎn)。該方法也是使用機(jī)器翻譯的方法,把中文文檔翻譯為英文、把英文文檔翻譯為中文,然后在兩種單語環(huán)境下生成摘要?,F(xiàn)有的跨語言、多語言環(huán)境下的自動(dòng)摘要方法,都利用了機(jī)器翻譯技術(shù)。在機(jī)器翻譯效果較好時(shí),能夠取得較好的自動(dòng)摘要結(jié)果。
我們的目標(biāo)是為相關(guān)的漢越雙語新聞生成一份雙語摘要,處理的對(duì)象是漢越雙語新聞文檔。由于漢語和越南語之間的機(jī)器翻譯效果還不理想,因此無法直接借鑒已有的方法。關(guān)于同一事件的新聞文本,不論這些文本是同種語言還是不同語言,其句子之間具有一定的關(guān)聯(lián)關(guān)系,利用這些關(guān)聯(lián)關(guān)系有助于生成自動(dòng)摘要。因此,本文提出了多特征融合的雙語新聞?wù)椒?,通過一定的方法定量分析新聞句子間的關(guān)聯(lián)關(guān)系,并將這些關(guān)聯(lián)關(guān)系融入圖模型,提升自動(dòng)摘要的效果。
關(guān)于同一事件,往往會(huì)有很多新聞對(duì)其進(jìn)行報(bào)道。由于新聞體裁要求用最準(zhǔn)確、簡潔的文字對(duì)事件進(jìn)行描述,故不同的新聞文本在寫作時(shí)往往具有一些相同的特點(diǎn),下面以表1為例對(duì)新聞文本的寫作特點(diǎn)進(jìn)行說明。
表1 兩篇關(guān)于同一事件的新聞
比較兩篇新聞可以發(fā)現(xiàn),關(guān)于同一新聞事件的不同新聞文本,往往會(huì)有如下一些寫作特點(diǎn):
(1) 多篇新聞文本,雖然會(huì)從各個(gè)相同的或不同的角度對(duì)新聞事件進(jìn)行描述,但在描述的過程中會(huì)出現(xiàn)相同的新聞要素,如時(shí)間、地點(diǎn)、參與人、組織機(jī)構(gòu)等;
(2) 多篇新聞文本,會(huì)引用相似的、甚至是相同的句子對(duì)新聞事件進(jìn)行描述;
(3) 新聞文本會(huì)在標(biāo)題、正文第一段、段落第一句等位置,簡明扼要地對(duì)新聞事件進(jìn)行描述或表達(dá)新聞媒體的觀點(diǎn)。
通過以上分析我們認(rèn)為,如果能在漢越雙語新聞的自動(dòng)摘要任務(wù)中利用這些新聞文本的寫作特點(diǎn),就能更好地生成雙語新聞的摘要。
為了獲取關(guān)于同一事件的漢越雙語新聞的主要內(nèi)容,我們利用新聞文本的寫作特點(diǎn),提出了一種融合多特征的漢語雙語新聞?wù)椒ǎw框架如圖1 所示。
圖1 融合多特征的漢越雙語新聞?wù)椒?/p>
本方法的流程是: ①對(duì)雙語新聞文檔集進(jìn)行預(yù)處理,建立以句子為頂點(diǎn)的無向圖;②根據(jù)新聞文本的寫作特點(diǎn),用句子間的新聞要素共現(xiàn)程度以及句子間的相似度來衡量句子間關(guān)聯(lián)關(guān)系的強(qiáng)弱,并以此作為頂點(diǎn)間邊的權(quán)重;③在句子圖上利用圖排序算法計(jì)算句子的重要性并進(jìn)行排序;④結(jié)合句子的位置特征對(duì)排序結(jié)果進(jìn)行調(diào)序;⑤挑選出重要句子并去除冗余,生成漢越雙語新聞文本的摘要。
新聞要素包含了事件發(fā)生的時(shí)間、地點(diǎn)、參與人和涉及到的組織機(jī)構(gòu)等信息。為了用新聞要素共現(xiàn)程度來衡量句子間的關(guān)聯(lián)關(guān)系強(qiáng)弱,我們借鑒文獻(xiàn)[13]的方法對(duì)句子間的要素共現(xiàn)程度進(jìn)行定量分析。首先,使用句子所包含的新聞要素表征句子;然后,使用句子間的新聞要素共現(xiàn)次數(shù)來衡量共現(xiàn)程度,具體步驟如下。
第一步,抽取句子中的命名實(shí)體作為新聞要素并表征句子。
第二步,對(duì)齊漢語新聞要素和越南語新聞要素。
第三步,計(jì)算句子間的新聞要素共現(xiàn)程度。
對(duì)任意句子si=e1,e2,…,en1、sj=e1,e2,…,en2,如果表征si和sj的集合有交集,則si和sj之間具有要素共現(xiàn)關(guān)系。其中,若si和sj是同一語種的句子,則直接做交集運(yùn)算即可判斷,若si和sj是不同語種的句子,則需使用對(duì)齊集合Ecv中的要素重新表征句子si和sj之后,再做交集運(yùn)算進(jìn)行判斷。
考慮到最終生成的交集有大有小,它可能只包含一個(gè)新聞要素,也可能包含多個(gè)新聞要素。句子間的新聞要素共現(xiàn)程度,在交集包含多個(gè)新聞要素時(shí),理所應(yīng)當(dāng)?shù)乇冉患话粋€(gè)要素時(shí)強(qiáng)。此外,包含新聞要素較多的句子與其他句子具有要素共現(xiàn)關(guān)系的概率更大,而句子間的新聞要素共現(xiàn)程度不應(yīng)該受句子本身所包含的新聞要素?cái)?shù)量的影響。根據(jù)上述思想,使用式(1)計(jì)算任意兩個(gè)句子間的新聞要素共現(xiàn)程度。
其中,Countsi∩sj表示句子si和sj的交集中新聞要素的數(shù)量,Countsi表示句子si所包含的新聞要素的數(shù)量。
根據(jù)新聞文本的寫作特點(diǎn),我們還使用句子間的相似度來衡量句子間的關(guān)聯(lián)關(guān)系強(qiáng)弱。句子相似度計(jì)算是自然語言處理領(lǐng)域中的一項(xiàng)重要任務(wù),根據(jù)不同的句子相似度定義方法,可以分為語義(semantic)相似度和主題(topic)相似度。以“他喜歡吃蘋果”和“他不喜歡吃蘋果”兩個(gè)短句為例進(jìn)行說明,由于兩個(gè)句子所表達(dá)的情感極性不同,所以兩個(gè)句子的語義相似度較低,但是由于兩個(gè)句子談?wù)摰膬?nèi)容是相關(guān)的,所以兩個(gè)句子的主題相似度較高。我們根據(jù)任務(wù)需要使用主題相似度,即只要兩個(gè)新聞句子談?wù)摰氖窍嚓P(guān)的內(nèi)容,就認(rèn)為二者具有較高的相似度。為了計(jì)算不同語種句子間的主題相似度,我們使用文獻(xiàn)[14]提出的方法訓(xùn)練漢越雙語詞向量,使用雙語詞向量表征句子,并計(jì)算相似度,具體做法如下。
第一步: 訓(xùn)練漢越雙語詞向量。
利用維基百科語料訓(xùn)練中文詞向量Σ和越南語詞向量Ω,然后使用文獻(xiàn)[14]提出的方法把兩份單語詞向量投影到同一向量空間,得到漢越雙語詞向量。投影后的中文詞向量記為Σ*,投影后的越南語詞向量記為Ω*。
第二步: 利用詞向量表征句子,得到句子的向量表示。
由于計(jì)算的是句子之間的主題相似度,所以在表征句子時(shí),需要剔除那些與新聞事件無關(guān)的、不重要的詞,比如介詞、連詞和冠詞等,具體步驟如下。
首先,對(duì)句子進(jìn)行分詞并標(biāo)注詞性,選擇動(dòng)詞、名詞、形容詞和副詞來表征句子。
第三步: 利用句子的向量表示計(jì)算句子之間的相似度。
上述步驟以雙語句子間的相似度計(jì)算為例進(jìn)行說明,單語句子間的相似度計(jì)算過程與之相似。
在得到句子間的新聞要素共現(xiàn)程度和句子間的相似度之后,就可以建立以句子為頂點(diǎn)、以句子間的關(guān)聯(lián)關(guān)系為邊的無向圖,建立好的句子無向圖如圖2 所示。
圖2 雙語新聞句子無向圖示例
圖中的文檔是關(guān)于同一事件的漢語新聞文檔和越南語新聞文檔。對(duì)任意兩個(gè)句子s1和s2,我們?cè)?.1節(jié)中對(duì)句子間的新聞要素共現(xiàn)程度Res1,s2做了定量分析,在2.2節(jié)中對(duì)句子間的相似度Rsims1,s2做了定量分析,結(jié)合二者如式(3)所示。
其中,Rs1,s2表示句子s1和s2的關(guān)聯(lián)強(qiáng)度,式中α和β是權(quán)重參數(shù),兩個(gè)參數(shù)滿足0<α,β<1且α+β=1。 對(duì)于句子無向圖中的所有頂點(diǎn),兩兩之間利用式(3)計(jì)算關(guān)聯(lián)強(qiáng)度,則可以得到句子無向圖的關(guān)聯(lián)強(qiáng)度矩陣,如式(4)所示。
其中,Ri,j就是句子si和sj的關(guān)聯(lián)強(qiáng)度,即Ri,j=Rsi,sj。 為了簡化后續(xù)的計(jì)算,如果兩個(gè)句子之間的關(guān)聯(lián)強(qiáng)度Ri,j<0.2,則在建立句子關(guān)聯(lián)無向圖時(shí)不連接這兩個(gè)頂點(diǎn)且把關(guān)聯(lián)強(qiáng)度Ri,j置為0。
在建立好句子無向圖并計(jì)算得到相應(yīng)的關(guān)聯(lián)強(qiáng)度矩陣M后,利用TextRank算法在句子無向圖上進(jìn)行排序計(jì)算,得到各個(gè)頂點(diǎn)的權(quán)重得分。Text-Rank算法把PageRank算法的思想擴(kuò)展到了帶權(quán)重的無向圖模型上,其計(jì)算如式(5)所示。
其中,Scoresi表示句子si的權(quán)重得分,d表示阻尼系數(shù),一般設(shè)置為0.85,Ri,j是關(guān)聯(lián)強(qiáng)度矩陣M中的值。算法迭代多次并收斂之后,就能得到每個(gè)句子的重要程度。
在上述計(jì)算句子重要性的過程中,只考慮了新聞句子間的要素共現(xiàn)程度及相似度,二者分析的是句子與句子間的關(guān)系對(duì)句子重要性的影響,沒有考慮到句子在文本中的位置也反映了句子的重要性。已有研究表明: 在一定類型的文檔中,句子重要性與句子位置具有一定的關(guān)系。例如有研究者指出,標(biāo)題后的句子更有可能表達(dá)文檔的中心思想,且重要句子更可能出現(xiàn)在文檔的首段或尾段,以及段落的首句或尾句[16],且這類基于位置評(píng)價(jià)句子重要性的方法,對(duì)新聞文本、科技文獻(xiàn)等寫作規(guī)范的文本效果相對(duì)較好。根據(jù)新聞文本的寫作特點(diǎn)并結(jié)合已有的研究結(jié)果,我們提出以下調(diào)序公式,如式(6)所示。
其中,Scoresi是排序算法得到的句子si的得分,即式(5)的最終結(jié)果,Sreosi是調(diào)序后的句子si的得分。
上述的排序和調(diào)序過程,為新聞文檔集中的每個(gè)句子都分配了重要性得分,得分越高的句子越好地描述了文檔集的主要內(nèi)容。但是,由于新聞文檔集中存在很多相似、甚至是重復(fù)的句子,因此不能直接按照得分高低抽取句子構(gòu)成摘要。需要去除冗余句子提高摘要的可讀性,具體做法如下。
第一步: 設(shè)調(diào)序后的句子集合為C,集合中的句子按照得分從高到低排序,序號(hào)為1至C。
第二步: 選擇集合C中的第一個(gè)句子s1,對(duì)于i=2至i=C,利用公式(3)計(jì)算Rs1,si,如果Rs1,si的值大于閾值θ,則從集合C中刪除句子si。
第三步: 把句子s1加入摘要并從集合C中刪除。對(duì)集合C中的句子重新排序,序號(hào)為1至C。
第四步: 重復(fù)第二步和第三步,直到獲得滿足要求的摘要。
實(shí)驗(yàn)語料包括兩部分,一部分用于訓(xùn)練雙語詞向量,另一部分用于驗(yàn)證我們提出的漢越雙語新聞?wù)椒ǎ唧w信息分別敘述如下。
3.1.1 維基百科語料
考慮到訓(xùn)練單語詞向量的目的,是為了把兩份向量進(jìn)行投影,投影后的兩份詞向量構(gòu)成一個(gè)第三方向量空間,使得語義相近的詞匯(不論是中文詞匯或是越南語詞匯)在空間中的位置也盡量相近。最終我們使用維基百科作為詞向量的訓(xùn)練語料,它有兩個(gè)優(yōu)點(diǎn): 一是維基百科方便獲取且規(guī)模較大;二是從雙語語料的內(nèi)容一致性來說,漢越維基百科所討論的內(nèi)容是天然相關(guān)的,即幾乎每個(gè)越南語維基百科頁面,都有相應(yīng)的漢語維基百科頁面。語料的內(nèi)容越是一致,則語義相近的詞越多,越有利于單語詞向量的投影。
下載得到的維基百科語料包含一些待編輯詞條的頁面,這些頁面詞數(shù)很少,幾乎不含有有用的語義信息,無法用于訓(xùn)練,需要對(duì)其刪減,具體信息如表2 所示。
表2 維基百科語料的具體信息
3.1.2 雙語新聞?wù)Z料
目前還沒有公開的漢越雙語新聞?wù)Z料,因此我們從中國新聞網(wǎng)、新華網(wǎng)、新浪新聞等國內(nèi)新聞網(wǎng)站,以及越南每日快訊、越南通訊社網(wǎng)、中華網(wǎng)越南版等越南新聞網(wǎng)站收集新聞,每個(gè)新聞保留其標(biāo)題、正文、發(fā)布時(shí)間等。人工整理收集來的新聞文本,挑選出三個(gè)在漢越雙方都有較多報(bào)道的新聞事件,同時(shí)根據(jù)關(guān)鍵詞從谷歌檢索、補(bǔ)充一定量的相關(guān)新聞報(bào)道構(gòu)成漢越雙語新聞?wù)Z料。針對(duì)每個(gè)事件,從相關(guān)的新聞文本中人工抽取6個(gè)句子(漢越句子各3個(gè))作為參考摘要。把雙語新聞文檔和人工抽取的摘要作為實(shí)驗(yàn)數(shù)據(jù),具體信息如表3所示。
表3 漢越雙語新聞數(shù)據(jù)的具體信息
采用自動(dòng)摘要任務(wù)中常用的ROUGE值作為評(píng)價(jià)指標(biāo)[17],ROUGE是一種基于召回率的相似性度量方法,它通過比較候選摘要與參考摘要中共現(xiàn)的n元組n-gram來評(píng)價(jià)候選摘要的質(zhì)量。ROUGE值越高說明候選摘要的質(zhì)量越好,計(jì)算方法如式(7)所示。
其中,n表示n元組的長度,R表示構(gòu)成參考摘要的句子的集合,s表示參考摘要中的句子,Countn-gram表示句子s中n元組的數(shù)目,Countmatchn-gram表示候選摘要句與參考摘要句s共同包含的n元組的數(shù)目。通過式(7)可以發(fā)現(xiàn)ROUGE-n反映的是參考摘要句的n元組的召回率。實(shí)驗(yàn)中我們使用ROUGE-1和ROUGE-2來評(píng)價(jià)摘要結(jié)果的好壞。在計(jì)算ROUGE值時(shí),漢語摘要句和越南語摘要句分開計(jì)算,然后再取平均值。
本文包含三個(gè)實(shí)驗(yàn),實(shí)驗(yàn)1訓(xùn)練雙語詞向量并驗(yàn)證其有效性;實(shí)驗(yàn)2通過對(duì)比選擇最佳的α、β參數(shù)以及閾值θ;實(shí)驗(yàn)3通過比較驗(yàn)證所提方法的有效性。
3.3.1 訓(xùn)練雙語詞向量并驗(yàn)證其有效性
首先使用Word2Vec工具訓(xùn)練單語詞向量,訓(xùn)練之前需要對(duì)維基語料進(jìn)行預(yù)處理。中文語料的預(yù)處理包括分詞、去除標(biāo)點(diǎn)與特殊符號(hào),以及繁簡體轉(zhuǎn)換。越南語語料的預(yù)處理包括分詞、去除標(biāo)點(diǎn)及特殊符號(hào)。越南語語料的處理使用Vitk工具包[注]Vitk工具包: https://github.com/phuonglh/vn.vitk。
經(jīng)過多次訓(xùn)練比較,本文的訓(xùn)練參數(shù)設(shè)置如下: 上下文窗口長度為10,詞向量維度設(shè)為100,低頻詞閾值設(shè)為10,采用skip-gram模型進(jìn)行訓(xùn)練,迭代次數(shù)為50次,其余參數(shù)使用默認(rèn)值。訓(xùn)練完畢后使用文獻(xiàn)[14]提供的代碼[注]代碼地址: https://github.com/mfaruqui/crosslingual-cca訓(xùn)練雙語詞向量。從訓(xùn)練完的雙語詞向量中隨機(jī)選擇了幾個(gè)名詞、動(dòng)詞及形容詞,并計(jì)算它們?cè)诹硪环N語言中前5個(gè)相近的詞,結(jié)果如表4所示。
表4 雙語詞向量效果示例
從結(jié)果可以看出,對(duì)于名詞、動(dòng)詞這類具有明確語義信息的詞來說,訓(xùn)練得到的雙語詞向量能取得較好的結(jié)果,形容詞的效果相對(duì)較差,但也能匹配到較為相關(guān)的詞。因此我們認(rèn)為,雙語詞向量可以用于句子間的相似度計(jì)算。
3.3.2 通過對(duì)比選擇最佳參數(shù)
本文提出的摘要方法含有參數(shù)α、β和θ。θ用于去冗余過程中過濾關(guān)聯(lián)強(qiáng)度過高的相似句子,α和β用于確定句子間的要素共現(xiàn)程度和相似度對(duì)句子關(guān)聯(lián)強(qiáng)度的貢獻(xiàn)比例。
先用以下方法確定θ的取值。
首先,在α=1、β=0和α=0、β=1兩種情況下生成摘要;然后,將θ從1逐步減少到0(每次減少0.1),在這個(gè)過程中人工統(tǒng)計(jì)不同θ值下摘要中高度相似的句子的數(shù)量;最后,選擇最大的θ值使得生成的摘要中幾乎沒有高度相似的句子。α=1、β=0時(shí)θ=0.6,α=0、β=1時(shí)θ=0.7。 最終選擇θ=0.65作為去冗余時(shí)的閾值。
在確定θ=0.65后,通過對(duì)比生成摘要的ROUGE值選擇最佳的α和β參數(shù)。具體結(jié)果如圖3 所示。從圖中可以看到在α=0.4、β=0.6時(shí),提出的方法取得了最好的結(jié)果。
圖3 α和β參數(shù)對(duì)ROUGE值的影響
3.3.3 驗(yàn)證漢越雙語新聞?wù)椒ǖ挠行?/p>
為了驗(yàn)證所提方法的有效性,將如下幾個(gè)方法進(jìn)行對(duì)比。
① Multi-Feature: 本文所提出的方法。參數(shù)選擇為α=0.4、β=0.6、θ=0.65。
② Multi-Feature-e: 本文所提出的方法。參數(shù)選擇為α=1、β=0、θ=0.65。
③ Multi-Feature-sim: 本文所提出的方法。參數(shù)選擇為α=0、β=1、θ=0.65。
④ TextRank: 該方法在計(jì)算句子間邊的權(quán)重時(shí),原本使用的是句子間詞的重疊數(shù)量,僅適用于單語文檔。為了使該方法能夠適用于雙語新聞?wù)蝿?wù),使用句子間的新聞要素共現(xiàn)程度來代替句子間詞的重疊數(shù),用于計(jì)算句子間邊的權(quán)重。此外,該方法本身用于單文檔摘要,沒有考慮去冗余,故此處我們?cè)贋槠浼由先ト哂嗟牟襟E。該方法與Multi-Feature-e相比,沒有利用句子的位置對(duì)句子重要性進(jìn)行調(diào)序。實(shí)驗(yàn)結(jié)果如表5所示。
比較Multi-Feature-e和TextRank可以看出,對(duì)排序后的結(jié)果再進(jìn)行調(diào)序, 取得了較大提高。
表5 在三個(gè)新聞事件上的實(shí)驗(yàn)結(jié)果
我們認(rèn)為這驗(yàn)證了把句子位置作為特征的有效性。另外,之所以取得較多提高的原因,我們認(rèn)為是新聞?wù)旧淼奶攸c(diǎn)造成的結(jié)果,因?yàn)樾侣剤?bào)道的標(biāo)題本身就對(duì)新聞文本做了簡練的概括,調(diào)序時(shí)針對(duì)這一特點(diǎn)對(duì)新聞標(biāo)題賦予了較高的權(quán)重。
比較Multi-Feature-e和Multi-Feature-sim可以看出,引入詞向量計(jì)算句子之間的關(guān)聯(lián)強(qiáng)度,相比僅使用詞共現(xiàn)來計(jì)算句子之間的關(guān)聯(lián)強(qiáng)度更為有效,我們認(rèn)為這是因?yàn)樵~向量不僅能計(jì)算共現(xiàn)詞之間的相似度,還能計(jì)算那些相關(guān)詞之間的相似度;另外,在衡量雙語句子間的關(guān)系時(shí),詞向量的效果比雙語詞典要好。
比較Multi-Feature與其他方法可以發(fā)現(xiàn),在漢越雙語新聞?wù)蝿?wù)上,本文所提出的方法取得了較好的結(jié)果,具有有效性。
為了生成漢越雙語新聞的摘要,本文提出了一種融合多特征的漢越雙語新聞?wù)椒?。該方法根?jù)新聞文本的寫作特點(diǎn),分析了句子間的新聞要素共現(xiàn)程度、句子間的相似度以及句子的位置重要性,并把這三個(gè)特征融合到模型中。實(shí)驗(yàn)證明,所提出的方法在漢越雙語新聞?wù)蝿?wù)上取得了較好的結(jié)果。由于在分析句子間的相似度時(shí),僅利用特定類型詞的詞向量加權(quán)來衡量句子相似度,有一定的局限性。在下一步工作中,考慮使用新的方法來衡量句子間的相似度,以提升自動(dòng)摘要效果。