資康莉 王 石 曹存根
(*中國科學院計算技術研究所智能信息處理重點實驗室 北京 100190)
(**中國科學院大學 北京 100049)
隨著海量文本數(shù)據(jù)在新聞網(wǎng)站、社交網(wǎng)絡等網(wǎng)絡空間極速涌現(xiàn),文本摘要作為一種關鍵技術,廣泛用于對海量內容進行提煉總結,方便更多用戶快速瀏覽和了解大量文檔。其中,標題生成作為文本摘要的一個重要應用場景,其主要任務是針對給定的篇章或者短文本,生成能夠概括或評論其主要內容的一段或者一句話作為標題。
標題生成技術已被應用于搜索結果展示、文章摘要生成、新聞標題生成等眾多領域。根據(jù)需要處理的數(shù)據(jù)篇幅的不同,可將其分為單文檔標題生成[1]和多文檔標題生成[2];根據(jù)實現(xiàn)方式的不同可分為抽取式標題生成[3]和生成式標題生成[4];而根據(jù)使用的技術手段,可分為傳統(tǒng)標題生成方法[5]和基于深度學習的標題生成方法[6]。
本文主要關注中文領域基于神經(jīng)網(wǎng)絡的抽取式標題生成方法,該類方法目前仍面臨一個重大挑戰(zhàn):缺乏大規(guī)模、高質量的中文標注數(shù)據(jù)。而產(chǎn)生該挑戰(zhàn)的原因有:(1)標題生成研究工作多在公開的外文數(shù)據(jù)集上開展,中文領域的部分研究工作未公開完整數(shù)據(jù)集,使得后續(xù)研究者無法在其已有工作基礎上繼續(xù)探索并進行研究成果間的比較。(2)現(xiàn)有中文標題標注數(shù)據(jù)多收集于各類新聞網(wǎng)站、社交網(wǎng)站,數(shù)據(jù)繁雜,缺乏統(tǒng)一的分類體系,或數(shù)據(jù)集未提供原分類信息,并且原網(wǎng)站中標題的質量難以保證,有時甚至會使用夸大或缺乏與原內容相關的詞句來構造標題。
因此,針對上述挑戰(zhàn)和問題,考慮到標題往往可直接從原文中抽取詞匯或者句子來構造這一特點,本文采用了基于抽取式的標題生成技術,提出將基于無監(jiān)督學習的聚類模型和主題模型融入到基于有監(jiān)督學習的深度神經(jīng)網(wǎng)絡模型中的方法,使得整個模型在具有潛在主題類別特征的、新聞標題質量參差不齊的數(shù)據(jù)上也能取得較好效果。本文主要的貢獻點如下。
(1) 將抽取式新聞標題生成問題轉化為序列標注問題,并通過在注意力機制中融入聚類特征和主題詞信息等多種特征,增強對新聞內容的上下文表示。
(2) 采用了基于自組織映射(self-organizing map,SOM)的聚類模型[7]和隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型[8],能將表達相同或相似主題的新聞內容進行聚類,并進一步從各數(shù)據(jù)簇中自動挖掘相關的主題詞集合。
(3) 本文從現(xiàn)有公開的中文新聞數(shù)據(jù)集中抽取了部分數(shù)據(jù),并進行了分詞、錯別字糾錯、詞性標注、命名實體信息標注等預處理,再通過人工與半自動核對等策略,得到了一個可用于抽取式中文標題生成的數(shù)據(jù)集。最后,在該數(shù)據(jù)集上進行的實驗表明,本文設計的模型在微觀F1、BLEU、ROUGE、壓縮率等評價指標上都取得了較基準模型更好的效果。
標題生成任務作為文本摘要的一個分支,要求生成精煉且優(yōu)質的標題,使得標題包含不會過分夸大實際內容的具體事實,能夠對原內容信息進行有效地傳遞,并能吸引更多的用戶,提高用戶的閱讀效率,提升閱讀體驗[9]。因此,在生成標題時,該任務要求去掉原文中的冗雜信息,只保留原文中涉及的關鍵信息,得到長度短于原文的、更加簡潔的、可由原文中部分句子組成的集合或者僅為原文中關鍵信息組合成的標題句。標題生成技術有著巨大的應用價值和廣泛的應用場景,例如郵件內容的自動生成、搜索結果展示、文章摘要生成、新聞標題生成、移動設備信息推送、社區(qū)問答等。
根據(jù)標題生成所需處理的數(shù)據(jù)篇幅可以將其分為單文檔標題生成和多文檔標題生成。其中,單文檔標題生成關注的是對短文本或者單文檔進行標題生成[1],多文檔標題生成則是從一組主題或者內容相關的文檔中總結生成標題[10]。而根據(jù)標題生成方法的實現(xiàn)方式或產(chǎn)生輸出結果的類型,可以分為抽取式標題生成[3]和生成式標題生成[4]。其中,抽取式標題生成是從原文檔內容中抽取關鍵詞或關鍵句進行組合來生成標題,也即需要判斷原文檔中各個詞語、語句的重要程度,使得最終生成的標題中的詞或句均來自原文檔;而生成式標題生成則是在充分理解原文檔內容的基礎上,允許模型使用除原文檔內容以外的新詞語、新語句來組成能夠概括原文檔內容的標題。
基于生成式以及基于抽取式的標題生成方法各有其優(yōu)缺點。首先,這2 類方法都要求輸出的標題能夠盡可能全面地包含原文檔內容的關鍵信息?;谏墒降臉祟}生成方法相比于抽取式而言在用詞方面更加靈活,能夠生成多樣化的標題表述,來滿足許多應用領域對于多樣化、個性化的信息展示的需求。而基于抽取式的標題生成方法是抽取原文中的一部分內容(詞或句)作為輸出,它產(chǎn)生的標題的表述會受限于原文。但是,這2 種方法及其對應的模型在實現(xiàn)時都會面臨從互聯(lián)網(wǎng)中獲取到的數(shù)據(jù)及其原標題質量難以保證的問題。在這種現(xiàn)狀下,使用基于生成式的標題生成方法難免會受到數(shù)據(jù)集質量的約束,而采用基于抽取式的標題生成方法,雖然損失了一定的泛化能力,但是因為其并不能“自主”生成不存在于原內容的詞匯或語句,使得其在面對“噪聲”數(shù)據(jù)時能夠具有較好的魯棒性,甚至能夠用于發(fā)現(xiàn)相關數(shù)據(jù)中的“噪聲”或“異常”。其次,近年來快速發(fā)展的深度神經(jīng)網(wǎng)絡技術因其強大的表征能力,給予了這2 類方法更多的可能性,使得標題生成的效果被不斷提升。但是,尤其在面對長文本或者多文檔標題生成時,基于生成式的標題生成方法會因缺少對關鍵信息的控制與定位,而需要額外控制最終模型輸出的標題與原文的相關性(例如:保持原內容的主題信息等)[6],避免出現(xiàn)無法處理未登錄詞、標題與原內容關鍵信息關聯(lián)度不高、詞語重復生成等問題。而基于抽取式的標題生成方法,雖然能更好地控制與原文檔內容的相關性,但是也需要設計較好的衡量原內容中關鍵詞或句的重要程度的方法,避免抽取得到的標題中具有較多冗余信息。
此外,根據(jù)使用的技術手段來劃分,傳統(tǒng)的標題生成方法多基于統(tǒng)計概率與人工特征工程,且多為抽取式標題生成,通過計算得到已有數(shù)據(jù)集中的特征信息(例如句子長度、句子位置、詞序、詞頻、逆文檔頻率、最大公共子串、關鍵詞表、類簇信息等),來判斷并抽取原文中具有較多信息量的詞語和句子組成標題[5,11]。而基于神經(jīng)網(wǎng)絡的標題生成技術多采用“端到端”的神經(jīng)網(wǎng)絡標題生成框架[12],既可以進行抽取式標題生成(將標題生成任務轉化為序列標注任務或者對句法依存樹采取剪枝的任務[13]),也可以直接生成多樣化表達的標題[14]。并且,基于神經(jīng)網(wǎng)絡的標題生成方法在減少人工特征工程的同時,還能夠通過神經(jīng)網(wǎng)絡模型更好地學習到數(shù)據(jù)中潛在的深層信息(例如使用現(xiàn)有流行的大規(guī)模預訓練語言模型獲取句子的語義表示[15]),這些都在一定程度上解決了因為數(shù)據(jù)不均衡導致的統(tǒng)計信息計算不正確、獲取句子表示受到相關領域數(shù)據(jù)量的限制以及難以跨領域復用等問題。
在現(xiàn)實互聯(lián)網(wǎng)中,大多數(shù)獲取到的數(shù)據(jù)是缺乏人工標注的分類信息的,或者一些新興的事物是沒有歷史類別信息的,而文本聚類是對文本數(shù)據(jù)進行聚類分析以解決樣本分類問題的一種方法。它作為一種無監(jiān)督機器學習方法,具有一定的靈活性和自動處理能力,可以通過已有數(shù)據(jù)內部自身的特征,探索性地將相似數(shù)據(jù)進行歸類,來得到數(shù)據(jù)中潛在的自然分組情況,而不依賴預先定義的類別標記。
因此,文本聚類方法可作為一個獨立工具,對數(shù)據(jù)進行類似預處理的操作,來獲得數(shù)據(jù)的基本分類情況。目前,傳統(tǒng)的文本聚類算法有K-means[16]、BIRCH (balanced iterative reducing and clustering using hierarchies)[17]以及高斯混合模型(Gaussian mixture model,GMM)[18]等,這些算法和技術已被應用于自動文摘、信息檢索、推薦系統(tǒng)等領域中。
而本文將采用一種基于神經(jīng)網(wǎng)絡的聚類方法——基于SOM 的聚類方法。該聚類方法由Kohoen[7]提出,對應的網(wǎng)絡模型一般只包含輸入層和輸出層,不包含隱藏層。其中,輸入層用于接收高維的輸入向量,輸出層則由一系列有序節(jié)點構成(例如輸出層神經(jīng)元之間的結構為二維網(wǎng)格,它們存在橫向連接),輸入層與輸出層之間通過權重向量連接。
與傳統(tǒng)聚類算法以及其他基于神經(jīng)網(wǎng)絡的聚類方法不同的是,SOM 聚類方法不需要預先設置聚類數(shù)目,或者僅在傳統(tǒng)聚類算法中融入神經(jīng)網(wǎng)絡訓練得到的詞或句的表示,完全采用神經(jīng)網(wǎng)絡結構,能夠直接應用在輸入數(shù)據(jù)的高維詞向量上,并能夠在輸出層根據(jù)不同的輸入數(shù)據(jù)激活相應的神經(jīng)元的同時,將數(shù)據(jù)進行降維且保留數(shù)據(jù)的拓撲結構。此外,現(xiàn)有神經(jīng)網(wǎng)絡模型一般采用的都是誤差修正學習方式(例如誤差反向傳播算法)來進行模型的訓練和學習,而基于SOM 的聚類模型采用的學習方式為競爭學習。具體地,在模型訓練和學習過程中,各輸出神經(jīng)元會有選擇地適應具有潛在類別的輸入數(shù)據(jù),使得最終輸入某一類的數(shù)據(jù)時,能找到與之距離最短的一個輸出層神經(jīng)元并激活,也即各個輸出神經(jīng)元代表了不同的簇,在輸入某一類的數(shù)據(jù)到模型中時,該類對應的輸出神經(jīng)元會被激活,使得該數(shù)據(jù)劃入該簇中。與此同時,這種競爭學習機制在模型訓練過程中,除了會對被激活的“獲勝”輸出神經(jīng)元與輸入層之間的權重向量進行更新外,還會對設定的鄰近區(qū)域內的其他輸出神經(jīng)元與對應的輸入層之間的權重向量也進行一定程度的權值更新,這使得輸出神經(jīng)元之間能夠保持輸入層向量的拓撲特征。
另外,因為各相似數(shù)據(jù)簇中的新聞數(shù)據(jù)往往會表達相似或者相同主題,而各個主題又是以文本中所有字詞為支撐集的概率分布,所以可以在文本聚類結果上進一步獲取各數(shù)據(jù)簇中的主題詞信息。本文采用的是被廣泛應用的LDA 主題模型[8]來進一步分析各簇中的文本數(shù)據(jù),并獲取各簇中與該簇主題關聯(lián)性高的、有較大出現(xiàn)概率的主題詞集合。
具體地,LDA 主題模型作為一種文檔生成模型,也是一種無監(jiān)督學習技術。它采用詞袋方法,將每篇文檔視為一個詞頻向量,在生成文檔時,認為一篇文檔可以有多個主題,每個主題又對應不同的主題詞。在采用LDA 模型進行文檔生成的過程中,首先以一定概率選擇某個主題,然后在該主題下再以一定概率選擇一個詞,之后不斷重復這個過程,直到整篇文檔生成結束。相應地,在本文中利用LDA 主題模型從聚類模型得到的各簇新聞內容數(shù)據(jù)中獲取主題詞的過程是上述文檔生成過程的逆過程,即根據(jù)數(shù)據(jù)集中的新聞內容的文本集合,找到各簇數(shù)據(jù)的主題以及每一個主題對應的高頻詞集合。
如表1 所示,使用形式化語言對基于抽取式方法的中文新聞標題生成問題進行描述和定義。每一條新聞內容d由句子序列{s1,s2,…,sn} 組成,其中si對應新聞內容中的第i條句子。而si是一條進行了分詞的詞語序列,其中wi,j對應該文檔d中第i條句子中的第j個詞語。則對一條新聞內容d進行抽取式標題生成,是判斷各條句子中哪些詞語應該被保留,并最終產(chǎn)生一條包含了k個詞語的詞語序列(即標題)c={c1,c2,…,ck},其中任意一個詞語cl均來自新聞內容d。
表1 中文新聞標題生成問題的形式化定義
而對于包含了N條新聞數(shù)據(jù)的數(shù)據(jù)集來說,將數(shù)據(jù)集形式化表示為,對應的標簽序列集合表示為,則本文基于抽取式方法的神經(jīng)網(wǎng)絡中文標題生成模型的訓練目標是使用C進行模型訓練,得到神經(jīng)網(wǎng)絡序列標注模型。之后對于任意一條用于測試的中文新聞數(shù)據(jù)dtest,模型可以預測并輸出對應的標簽序列ytest,再根據(jù)標簽序列中標“1”的標簽可以找到新聞內容中相應位置的、構成新聞標題的具體詞匯。
本文采用的SOM 聚類模型是一個一維前向網(wǎng)絡結構,輸入層神經(jīng)元與輸出層神經(jīng)元以及輸出層神經(jīng)元之間都是全連接的結構,具體的模型結構如圖1 左下角所示。
圖1 輔以聚類方法的抽取式神經(jīng)網(wǎng)絡中文標題生成模型的整體框架
其中,som(·) 表示SOM 模型對各條新聞數(shù)據(jù)的計算過程,θs表示SOM 模型中的權重參數(shù)。整個SOM 模型在設置的迭代輪次結束后停止訓練。則針對輸入的單條新聞內容,其對應激活的輸出神經(jīng)元坐標zs可以被轉化為索引表示,也就對應聚類結果中該條新聞內容所歸屬的簇編號。
最后,利用預訓練好的SOM 模型,可以獲取并賦予每一條輸入的新聞內容所對應的簇編號。
2.3.1 基準模型
本文采用了常用的一種神經(jīng)網(wǎng)絡序列標注框架作為基準模型,它由一個雙向的長短期記憶網(wǎng)絡與一個條件隨機場模型組成,且其輸入使用了多種特征信息,包括詞向量、命名實體信息、詞性信息等。
具體地,對每一條新聞內容d,雙向長短期記憶網(wǎng)絡會將其對應的詞向量和詞匯特征(命名實體特征和詞性特征)進行聯(lián)合作為輸入x=(e1,1,e1,2,,其中分別為詞向量、命名實體特征向量、詞性特征向量的維度。之后,雙向長短期記憶網(wǎng)絡的輸出為一條隱層狀態(tài)序列h=(h1,h2,…,hTx),其中Tx為輸入向量x的長度,每一個hi是向前和向后的長短期記憶網(wǎng)絡結構的輸出表示的連接:
隨后,將雙向長短期記憶網(wǎng)絡的輸出h輸入到一個全連接層進行一定程度上的數(shù)據(jù)降維,再將得到的輸出輸入到條件隨機場模型中:
其中,Wd和bd為全連接層的權重和偏置向量。
則根據(jù)條件隨機場模型計算得到的對應當前新聞內容d的一條標簽序列y的得分為
另外,因條件隨機場模型的計算會考慮所有可能預測出的標簽序列,所以y出現(xiàn)的概率最終可以定義為
其中,Wc和bc為模型處理(yi-1,yi) 標簽對時的權重和偏置向量。
在基準神經(jīng)網(wǎng)絡中文標題生成模型的訓練過程中,整個模型的目標是使正確的標簽序列所對應的對數(shù)概率最大化。因而本文采用維特比算法來訓練條件隨機場模型,并使用得分最高的標簽序列y*作為模型預測并輸出的最優(yōu)標簽序列結果。
2.3.2 融入聚類模型的中文標題生成模型
為更好地探索新聞數(shù)據(jù)內部的隱含類別特征信息,本文采用了文獻[19]設計的一種神經(jīng)網(wǎng)絡框架——輔以聚類的神經(jīng)網(wǎng)絡中文句子壓縮模型(SOM-enhanced neural Chinese sentence compression model,SOM-NCSCM),如圖1 中的方法①所示,并將其用于中文新聞標題生成任務。
具體地,為更豐富地表示新聞內容,本文將2.2節(jié)預訓練好的SOM 模型得到的簇編號特征ec與新聞內容各個分詞對應的詞向量以及詞匯特征(命名實體特征和詞性特征)進行連接,得到特征集合x′,其中分別為與基準模型相同的詞向量、命名實體特征向量、詞性特征向量的維度,而dc為隨機初始化的簇編號特征的維度。在得到特征集合之后,將其作為文獻[19]設計和采用的基于注意力機制的雙向長短期記憶網(wǎng)絡模型[20]的輸入,用于將簇編號特征融入對新聞內容的上下文表示中。相應地,針對當前某條新聞內容的輸出,其計算方式如下。
其中,t∈[1,Tx],Wh、Ws和?都是模型中可訓練的參數(shù),而同樣是向前和向后的長短期記憶網(wǎng)絡結構的輸出的連接,使用同式(2)的計算方式。
由此,通過這一額外的神經(jīng)網(wǎng)絡模型,可以得到聚類結果增強的新聞內容句子表示es。最后,再將新聞內容各個分詞對應的詞向量ew與整個新聞內容的句子表示es進行連接,作為基準模型的輸入,以此來改進基準模型:
之后整個模型的訓練過程與2.3.1 節(jié)介紹的基準模型的訓練過程類似。
2.3.3 融入聚類模型和LDA 模型的中文標題生成模型
本文進一步對文獻[19]提出的NCSCM 框架進行了改進,設計了4 種將聚類模型得到的聚類結果和LDA 主題模型獲取的主題詞特征信息進行融合來加強對新聞內容的上下文表示的方法和模型。
首先,利用LDA 主題模型對聚類結果中每個簇內的所有新聞內容進行分析,獲取與該簇主題相關的、出現(xiàn)概率最高的前k個主題關鍵詞。之后,將每一個簇的k個主題詞轉化為主題詞特征向量,并構建了4 種在模型中融合主題詞信息與簇編號信息的方法。各方法對應的模型如圖1 中的方法②~⑤所示,具體的實現(xiàn)方法如下所述。
以上4 種模型在后續(xù)的訓練過程,與2.3.1 節(jié)介紹的基準模型的訓練過程類似,這里不再贅述。
本文在實驗中采用的數(shù)據(jù)集是哈爾濱工業(yè)大學整理的大規(guī)模中文短文摘要數(shù)據(jù)集(large-scale Chinese short text summarization dataset,LCSTS)[1]。其中的摘要數(shù)據(jù)來源于新聞媒體在中國社交平臺新浪微博上發(fā)布的新聞內容,每條數(shù)據(jù)包含一個中文短文本和一條對應標題。另外,根據(jù)抽取式標題生成任務需求,本文對該數(shù)據(jù)集中的數(shù)據(jù)進行了一定的預處理,具體操作包括:
(1) 從原始數(shù)據(jù)集中獲取新聞正文內容和對應標題。
(2) 因數(shù)據(jù)來自網(wǎng)絡,需去掉文本數(shù)據(jù)中的特殊符號。之后再使用jieba 庫對新聞內容和標題進行分詞。
(3) 根據(jù)新聞標題中的分詞,預先在新聞正文內容中依次、自動標注出標題中各詞語出現(xiàn)過的位置。
(4) 人工核對,在新聞正文內容中選擇語義更加連貫的詞語片段,將對應的標題詞語所在位置的標簽標為“1”,得到標簽序列。之后再經(jīng)過一遍自動核對,判斷新聞內容中標為“1”的那些詞語是否與標題中各個詞語一致,也即無漏標、多標等情況。
(5) 隨機抽取標注好的數(shù)據(jù)用于模型訓練、驗證與測試,并使用斯坦福大學提供的自然語言處理工具包CoreNLP 對抽取的數(shù)據(jù)進行命名實體與詞性標注。
最后,本文預處理后隨機抽取LCSTS 得到的用于本文實驗的數(shù)據(jù)集合的統(tǒng)計信息如表2 所示。在實驗時,將其拆分成8000 條訓練數(shù)據(jù),1000 條驗證數(shù)據(jù)以及1064 條測試數(shù)據(jù)。
表2 LCSTS 數(shù)據(jù)集中抽取的新聞數(shù)據(jù)
本文實驗了3 種初始化表示中文新聞數(shù)據(jù)以及主題詞信息的方法,包括以字為基本單位的中文來自變換器的雙向編碼器表征量(bidirectional encoder representation from transformers,BERT) 預訓練模型[21]以及以詞為基本單位的2 種中文預訓練模型(300 維度的Word2Vector 預訓練中文詞向量[22]和中文WoBERT 預訓練模型),并采用MiniSom 庫來構建SOM 模型,且將其輸出層神經(jīng)元結構設置為大小是10 的一維線型結構,其他參數(shù)保持庫中提供的模型默認值。另外,將命名實體特征、詞性特征以及簇信息特征在模型訓練階段都分別初始化為32 維的向量,雙向長短期記憶網(wǎng)絡的隱層維度都設置為128 維,全連接層維度為64 維。而為防止過擬合,在基準模型的雙向長短期記憶網(wǎng)絡與全連接層接受輸入之前使用比例為0.5 的dropout 操作。整個模型在訓練時的批大小為64,并使用學習率為0.001的Adam 算法來進行模型參數(shù)的優(yōu)化和學習。
模型對應的預測結果都是在測試集上進行,且每個模型至少重復訓練過5 次,并最終選擇效果趨于平均值的模型進行效果展示與比較。此外,為評估各新聞標題生成模型的效果,本文采用的主要評價指標為微觀F1 值(microF1)和壓縮率(compression ratio,CR)[23],以及輔助評價指標BLEU 值[24]和ROUGE 值[25]。這4 種評價指標的計算方式分別為
(1) 微觀F1 值:
本文進行實驗和效果評估與對比的各模型如下,在各模型中也分別實驗了3 種初始化詞向量的方法。其中,使用以字為基本單位的預訓練模型時,會對按照分詞進行“0/1”標注的數(shù)據(jù)進一步結合BIO(begin inside outside)標注法進行處理后再訓練和測試模型。
(1) 基準模型:本文2.3.1 節(jié)中介紹的模型。
(2) 融入傳統(tǒng)聚類算法的中文標題生成模型:為了比較SOM 模型的聚類效果,本文在NCSCM 框架中實驗了2種傳統(tǒng)的聚類算法(K-means算法和GMM 模型),并將這2 種算法需要提前設置的聚類數(shù)目設置為與取得較好效果的SOM 模型得到的聚類數(shù)目相同的數(shù)值(聚類數(shù)目設置為10)
(3) SOM-NCSCM:本文2.3.2 節(jié)中的方法①。
(4) 融入SOM 模型和LDA 模型的中文標題生成模型:本文2.3.3 節(jié)中的方法②~⑤,也即對NCSCM 框架的4 種改進模型。
表3 列出了各模型在抽取的LCSTS 的測試數(shù)據(jù)上取得的效果。實驗結果中,加粗字體對應的結果是當前評價指標下的最優(yōu)值,下劃線對應的結果是當前評價指標下的次優(yōu)值,加星號對應的結果是當前預訓練模型下各評價指標中的最優(yōu)值。表4 列出了在取得較好實驗結果的聚類結果中,各簇經(jīng)過LDA 主題模型從訓練數(shù)據(jù)中獲取的具有較高概率的前10 個主題詞。從各個模型在測試集上取得的效果中可以看到:
表3 所有模型在LCSTS 的測試集上的實驗結果
表4 LDA 主題模型從聚類結果的各簇數(shù)據(jù)中抽取的取得較高概率的前個10 主題詞
(1) 整體上看,使用以詞為基本單位的WoBERT 預訓練模型來初始化詞向量的各模型在主要評價指標F1 值上取得的效果均較使用另外2 種預訓練模型的效果好,而使用以字為基本單位的BERT 預訓練模型的各模型效果能夠取得最優(yōu)的壓縮率、BLEU 和ROUGE 值,這也就體現(xiàn)了BERT 預訓練模型能夠輸出語境信息更豐富的詞向量的能力。
(2) 相較于基準模型,融入了聚類結果以及主題詞特征的各模型,其效果都明顯提升。這說明數(shù)據(jù)中相似數(shù)據(jù)之間存在的特征信息(主題類別以及主題詞信息)能夠輔助相似新聞數(shù)據(jù)進行新聞標題詞的選取。
(3) 采用傳統(tǒng)聚類算法的標題生成模型在F1值、壓縮率、BLEU 和ROUGE 指標上都較基準模型的效果有所提升,說明融入聚類特征能夠讓模型保留更多的新聞標題詞,確保沒有過度壓縮新聞數(shù)據(jù)。
(4) 結合表4 展示的主題詞信息可以看到,采用SOM 進行神經(jīng)網(wǎng)絡聚類方法得到的模型較基于傳統(tǒng)聚類算法的模型能夠取得更好效果,且在僅采用聚類編號特征信息的方法①的基礎上,在方法②~⑤中融入主題詞特征信息后,可以進一步提升新聞標題生成的效果。
(5) 此外,本文提出的方法②~⑤實驗了融入主題詞信息的不同方式。從實驗結果中可看到,直接融入主題詞特征信息來增強新聞句子表示的方式(方法②和③)能在各個指標上達到較優(yōu)或者最優(yōu)的效果,而通過更為深入和復雜的融合方式得到的模型(方法④和⑤),能夠取得更佳的F1 值、BLEU和ROUGE 值,但在其訓練過程中,所需訓練時間更長,并因模型參數(shù)更多,更易出現(xiàn)過擬合。
為更好地觀察不同SOM 聚類模型的神經(jīng)元結構大小對設計的標題生成模型效果的影響,本文還進行了針對SOM 聚類模型的消融實驗:
(1) 在方法④對應的SOM-NCSCM_ave 模型上融入不同SOM 神經(jīng)元結構大小的聚類結果和相應LDA 主題模型獲取的主題詞信息,實驗結果如表5所示(使用中文WoBERT 預訓練模型初始化詞向量),“SOM=X”對應著設置的不同SOM 神經(jīng)元結構大小,也即聚類結果中簇的數(shù)量。。
(2) 從傳統(tǒng)聚類方法(K-means 算法和GMM 模型)以及不同SOM 神經(jīng)元結構大小的SOM 聚類模型得到的各簇中分別都抽取了200 條數(shù)據(jù),計算不同聚類模型取得的輪廓系數(shù)(silhouette coefficient),結果如表6 所示。
表6 不同聚類模型的輪廓系數(shù)
當神經(jīng)元結構較小時,聚類得到的簇較少,而隨著神經(jīng)元結構增大,聚類得到的簇數(shù)量也逐漸增多。相應地,簇較少時,新聞數(shù)據(jù)難以得到充分聚類,而簇增多時,聚類到各簇的新聞數(shù)據(jù)量就會減少,導致有些相似新聞數(shù)據(jù)被過度細分。因此,本文采用了聚類效果最佳的、神經(jīng)元結構大小為10 的SOM 模型進行各模型的實驗和效果對比。
表7 舉例展示了3 條測試集中的新聞數(shù)據(jù)以及3 種在測試集上取得較好效果的模型的預測輸出,從表中可以直觀地看到融入SOM 聚類模型與LDA主題模型對新聞標題生成效果的影響。其中,分詞之間使用“/”分隔。
表7 3 條新聞內容以及3 種模型的預測結果
通過分析各模型的預測結果,可以總結出在處理該數(shù)據(jù)集上的新聞標題生成任務時現(xiàn)有模型的優(yōu)勢和存在的問題。
(1) 原標題與預測標題的質量:文獻[1]也說明了其收集的新聞數(shù)據(jù)中原標題質量有好有差的情況。部分原標題包含了充分的新聞信息且語言更簡練,而另一部分原標題相對更抽象、未能概括新聞內容的完整信息。如表6 中的例1 就是原標題缺少地點關鍵詞(“甘肅/定西”)以及更充分的信息量(“296/人/重傷”),而文本設計的各模型能預測并補全其原標題中缺乏的這些關鍵信息;例3 則是原標題較抽象、缺乏事實相關信息的例子。此外,在依據(jù)本文實驗需求進行數(shù)據(jù)標注時,也會存在少量的分詞錯誤或分詞不一致問題,如例1 中的分詞錯誤“中寨至”,例3 中的分詞不一致“冷鮮/雞”與“冷/鮮/雞”。而從各模型的預測結果中可以看到,相較于其原標題,本文設計的模型能生成更可讀的、與新聞內容關聯(lián)更大的、包含更充分的信息量的新聞標題,且在模型中更充分地融入聚類和主題詞信息,能夠對分詞問題導致的影響具有一定的魯棒性。
(2) 新聞數(shù)據(jù)壓縮程度:即新聞標題需要對新聞內容更加精煉的表達,同時不能丟失新聞內容中的關鍵信息。從表6 的例子中可以看到,各模型對新聞標題詞的選取,有時會保留更多的、不存在于原標題中的詞語,但預測的標題在一定程度上也是可讀且合理的。結合表4 的實驗結果,從壓縮率指標上來看,各模型在預測時,總體上仍會傾向于保留較少的詞語,這導致一些關鍵詞被遺漏,例如表6 例2中的“南海/網(wǎng)”,以及“在/海南”在新聞內容出現(xiàn)的順序偏后,沒有得到模型更多的關注而被漏標。
針對中文新聞標題生成任務面臨的大規(guī)模且高質量中文標注數(shù)據(jù)缺乏的問題,本文利用標題往往由原文中的詞匯構成這一特點,將中文抽取式標題生成問題轉化為序列標注問題,并提出了多種在深度神經(jīng)網(wǎng)絡中文標題生成模型中融入聚類和主題模型的方法。利用基于無監(jiān)督學習的SOM 聚類模型和LDA主題模型自動挖掘出表達相同或相似主題的數(shù)據(jù)以及數(shù)據(jù)中的主題詞信息,在基于監(jiān)督學習的深度神經(jīng)網(wǎng)絡模型中融入這些特征,增強對新聞內容的上下文表示,從而輔助中文新聞標題生成。在互聯(lián)網(wǎng)上公開的、缺乏人工標注分類信息的LCSTS 中文新聞數(shù)據(jù)集上的實驗表明,本文提出的模型在各評價指標上的結果較基準模型都有所提升,也提高了中文標題生成的質量。未來的工作可以從提升壓縮率來避免過度壓縮、減少關鍵信息遺漏的角度出發(fā)繼續(xù)研究,也可以設計人工評價策略來更細致地評估模型的效果,允許模型生成多樣化的標題。