劉金碩,劉 寧
(武漢大學(xué) 國(guó)家網(wǎng)絡(luò)安全學(xué)院 空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,武漢 430079)
招標(biāo)文件一般指的是招標(biāo)工程建設(shè)的大綱,是建設(shè)單位實(shí)施工程建設(shè)的工作依據(jù),也是向投標(biāo)單位提供參加投標(biāo)所需要的一切情況。為了做到文件內(nèi)容的規(guī)范統(tǒng)一,招標(biāo)公司通常會(huì)邀請(qǐng)專家參考?xì)v年的招標(biāo)文件編寫(xiě)范本,然而這種方式嚴(yán)重依賴專家的行業(yè)經(jīng)驗(yàn)與知識(shí)水平,自動(dòng)化程度低,需要花費(fèi)大量的人力與時(shí)間,無(wú)法滿足行業(yè)快速發(fā)展的需求。通過(guò)對(duì)人工編制的范本進(jìn)行分析發(fā)現(xiàn),其本質(zhì)上是對(duì)招標(biāo)文件核心內(nèi)容的匯總。采用形式化定義:給定n個(gè)招標(biāo)文件組成的集合D={d1,d2,…,dn},參考范本的內(nèi)容為Y={y1,y2,…,ym},其中yi是文檔集D中的核心內(nèi)容。在自然語(yǔ)言處理領(lǐng)域中,自動(dòng)文摘技術(shù)的目的是對(duì)海量數(shù)據(jù)進(jìn)行提煉總結(jié),以簡(jiǎn)潔直觀的摘要來(lái)概括原始數(shù)據(jù)[1]。
目前,文本摘要按照研究方法可分為生成式文本摘要與抽取式文本摘要[2]。生成式方法通過(guò)理解原始文本,自動(dòng)生成摘要內(nèi)容。文獻(xiàn)[3]提出基于編碼器-解碼器框架的生成式文本摘要,效果得到顯著提升,成為主流方法。文獻(xiàn)[4]提出復(fù)制和覆蓋機(jī)制,改善了生成內(nèi)容重復(fù)及未登錄詞問(wèn)題。文獻(xiàn)[5]建立謂詞-參數(shù)關(guān)系的語(yǔ)義依賴圖,指導(dǎo)摘要生成過(guò)程,以應(yīng)對(duì)語(yǔ)義偏差問(wèn)題。文獻(xiàn)[6]提出復(fù)制結(jié)合重寫(xiě)機(jī)制生成最終摘要。然而,現(xiàn)有生成式文本摘要通常依賴大規(guī)模監(jiān)督語(yǔ)料,無(wú)法應(yīng)對(duì)真實(shí)場(chǎng)景中的資源缺乏問(wèn)題。抽取式方法通過(guò)主題模型、圖模型等實(shí)現(xiàn)文本摘要。文獻(xiàn)[7-8]基于主題模型思想,將文檔映射至矢量語(yǔ)義空間,構(gòu)建句子加權(quán)的詞頻向量,選擇排名靠前的句子組成摘要。主題模型能夠挖掘潛在語(yǔ)義信息,但過(guò)分依賴數(shù)據(jù)集質(zhì)量,容易發(fā)生過(guò)擬合。因此,研究人員將文本構(gòu)建為圖結(jié)構(gòu),采用圖排序算法選擇靠前的文本語(yǔ)句作為摘要。文獻(xiàn)[9]提出TextRank 方法,采用PageRank[10]算法計(jì)算語(yǔ)句得分并排序。文獻(xiàn)[11]采用圖節(jié)點(diǎn)的度作為排序衡量方法。文獻(xiàn)[12]提出句子-實(shí)體二分圖表示文檔,實(shí)現(xiàn)網(wǎng)頁(yè)文本的摘要生成。TextRank[9]等方法簡(jiǎn)單有效,但只考慮了句子之間的相似性關(guān)系,忽略了其他因素,而且生成內(nèi)容多樣性較差。文獻(xiàn)[13]將圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)應(yīng)用在文檔摘要任務(wù)中,取得了不錯(cuò)的效果。文獻(xiàn)[14-15]利用位置關(guān)系或聚類算法對(duì)TextRank 算法進(jìn)行改進(jìn),但依然存在運(yùn)行速度較慢,忽略了時(shí)間特征等問(wèn)題。文獻(xiàn)[16]引入文檔節(jié)點(diǎn)、單詞節(jié)點(diǎn)構(gòu)建異質(zhì)圖,實(shí)現(xiàn)核心詞句的提取。文獻(xiàn)[17]基于圖卷積網(wǎng)絡(luò)與雙注意力機(jī)制實(shí)現(xiàn)醫(yī)療文本摘要生成。圖神經(jīng)網(wǎng)絡(luò)能夠捕獲上下文的長(zhǎng)依賴關(guān)系,但現(xiàn)有方法需要將所有句子構(gòu)成的圖加載到內(nèi)存以執(zhí)行卷積操作,很難應(yīng)用于當(dāng)前的長(zhǎng)文本場(chǎng)景。
綜上,基于圖模型的文本摘要方法作為抽取式文本摘要的主流方法雖然能夠提取核心內(nèi)容,但忽略了文本的主題結(jié)構(gòu),普遍存在運(yùn)行速度慢等問(wèn)題,無(wú)法實(shí)現(xiàn)篇幅較長(zhǎng)且強(qiáng)調(diào)時(shí)效性、結(jié)構(gòu)性以及多樣性的招標(biāo)文件范本生成。本文提出一種基于多頭圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[18]的半結(jié)構(gòu)化文本自動(dòng)生成(Semi-structured automatic text Generation model based on Multi-head GAT,SGMG)模型。將文本內(nèi)容作為輸入,利用異質(zhì)圖對(duì)文本、段落及主題之間的語(yǔ)義關(guān)系進(jìn)行建模,采用多頭圖注意力網(wǎng)絡(luò)加強(qiáng)不同節(jié)點(diǎn)之間的交互,從而提取核心主題結(jié)構(gòu)。通過(guò)融合時(shí)間特征及語(yǔ)義相似關(guān)系的有向圖算法抽取段落中心句,降低計(jì)算成本,保證生成文本的時(shí)效性與多樣性。
基于多頭圖注意力網(wǎng)絡(luò)的半結(jié)構(gòu)化文本自動(dòng)生成模型的核心思想是利用圖模型抽象文檔、段落、語(yǔ)句之間的關(guān)系,提取核心主題與中心語(yǔ)句。模型總體框架如圖1 所示,主要包括預(yù)處理層、主題抽取模塊、中心句抽取模塊、句子選擇模塊。將文本集合作為輸入,在預(yù)處理層將文本轉(zhuǎn)化為上下文編碼表示,抽取主題詞。在主題抽取模塊中,基于主題詞構(gòu)建異質(zhì)圖,運(yùn)用圖注意力網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)信息進(jìn)行傳播更新,提取核心主題與段落集合。在中心語(yǔ)句抽取模塊中,根據(jù)語(yǔ)句的時(shí)間關(guān)系及相似性構(gòu)建有向圖,抽取核心語(yǔ)句。在句子選擇模塊中,應(yīng)用三元詞過(guò)濾法[19]篩選中心句,得到最終的生成文檔。
圖1 模型總體框架Fig.1 Overall framework of the model
SGMG 模型基于BERT 預(yù)訓(xùn)練模型[20]對(duì)文檔集進(jìn)行處理。BERT 預(yù)訓(xùn)練模型是多層雙向的Transformer 編碼器,通過(guò)隨機(jī)屏蔽預(yù)測(cè)以及下一句預(yù)測(cè)任務(wù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,在自然語(yǔ)言處理領(lǐng)域的文本分類、對(duì)話系統(tǒng)等多項(xiàng)任務(wù)中具有優(yōu)越性能。
給定輸入文本詞序列W={w1,w2,…,wn},經(jīng) 過(guò)BERT 模型的詞嵌入層,將文本中的n個(gè)字符轉(zhuǎn)為固定維度d的向量表示VT。本文采用的BERT 模型向量維度為768。段嵌入層的作用是區(qū)分輸入文本,本文中段嵌入向量VS都為0。經(jīng)過(guò)位置嵌入層,學(xué)習(xí)輸入文本的位置表示VP。經(jīng)過(guò)3 個(gè)嵌入層,得到BERT 的最終嵌入表示V=VT+VS+VP,V∈Rnxd。之后,將嵌入向量V送入12 層Transformer 單元,其中多頭注意力層選擇12 個(gè)頭,得到最終的編碼輸出矩陣H={h1,h2,…,hn},hi∈R768,將第一層token 向量h1與最后一層token 向量hn按照式(1)計(jì)算得到BERT編碼向量Vo:
文獻(xiàn)[21-22]在實(shí)驗(yàn)中證明直接使用BERT 模型得到的句向量在語(yǔ)句相似任務(wù)上的效果并不理想。受到以上工作的啟發(fā),對(duì)編碼向量執(zhí)行如式(2)所示的白化操作得到Xw,其中T表示單個(gè)章節(jié)中句向量的總數(shù),使句向量之間滿足各向同性,并通過(guò)前饋神經(jīng)網(wǎng)絡(luò)得到最終的向量表示XS。
平均池化能夠考慮每個(gè)詞的語(yǔ)義信息,最大池化能夠提取顯著特征。由于語(yǔ)料文本中噪聲信息密度較大,采用最大池化能夠聚焦關(guān)鍵信息,因此對(duì)句向量XS采取如式(3)、式(4)所示的最大池化操作,生成段落表示Xsec以及文檔的編碼表示Xd:
其中:n、m分別表示構(gòu)成段落、文檔的句子數(shù)量。
通過(guò)文本處理工具PyPDF 得到原始文檔集的標(biāo)題信息,由LDA 模型[23]生成段落及文檔主題,綜合兩者得到最終的待選主題集合ttheme={t1,t2,…,tk},其中k為主題數(shù)量,通過(guò)BERT 預(yù)訓(xùn)練模型將主題詞映射為向量表示T。
現(xiàn)有自動(dòng)摘要算法解決了核心內(nèi)容提取問(wèn)題,但無(wú)法提取文本的主題結(jié)構(gòu)。文獻(xiàn)[16]通過(guò)共現(xiàn)詞建立文檔與句子的關(guān)系,實(shí)現(xiàn)了核心詞的提取。受到該工作啟發(fā),設(shè)計(jì)由主題、文檔、段落組成的異質(zhì)圖,結(jié)合多頭圖注意力網(wǎng)絡(luò)提取文檔的核心主題。
1.2.1 異質(zhì)圖模型結(jié)構(gòu)
給定文檔集D={d1,d2,…,dn},文 檔di={ssecj}由段落ssecj組成。異質(zhì)圖包含中心節(jié)點(diǎn)與邊緣節(jié)點(diǎn),邊緣節(jié)點(diǎn)之間通過(guò)中心節(jié)點(diǎn)建立語(yǔ)義連接關(guān)系。如圖2 所示,采取主題節(jié)點(diǎn)Vt={Vt1,Vt2,…,Vtk}作為中心節(jié)點(diǎn),文檔節(jié)點(diǎn)Vd={Vd1,Vd2,…,Vdn}及段落節(jié)點(diǎn)Vsec={Vsec1,Vsec2,…,Vsecm}作為邊緣節(jié)點(diǎn)構(gòu)建圖G,圖節(jié)點(diǎn)集合V=Vt∪Vd∪Vsec。
圖2 主題抽取模塊結(jié)構(gòu)Fig.2 Structure of topic extraction module
將段落、文檔與相關(guān)的主題之間建立連接,得到圖的邊集合E={eij},eij表示節(jié)點(diǎn)Vi與Vj之間存在邊。圖節(jié)點(diǎn)通過(guò)多頭圖注意力網(wǎng)絡(luò)層進(jìn)行消息傳播與聚合更新,并通過(guò)分類輸出層預(yù)測(cè)主題節(jié)點(diǎn)是否為范本中采用的真實(shí)主題。
1.2.2 圖初始化
采用段落、文檔及主題詞的上下文表示作為圖節(jié)點(diǎn)的初始化特征向量{hi}。Xdi初始化文檔節(jié)點(diǎn)Vdi,Tj初始化主題節(jié)點(diǎn)Vtj,Xseck初始化段落節(jié)點(diǎn)Vseck。計(jì)算主題詞在文檔與段落中的TF-IDF 值作為邊eij的權(quán)值。
1.2.3 圖更新
在建立異質(zhì)圖并初始化后,采用多頭圖注意力機(jī)制對(duì)節(jié)點(diǎn)信息進(jìn)行消息傳播與聚合更新。圖注意力層使用注意力機(jī)制聚合鄰近節(jié)點(diǎn)特征,如式(5)~式(7)所示:
其中:eij表示節(jié)點(diǎn)之間邊的權(quán)重值;Wa、Wq、Wk、Wv是待訓(xùn)練的權(quán)重向量;αij是兩個(gè)節(jié)點(diǎn)之間的注意力權(quán)重值。
為了進(jìn)一步提高表達(dá)能力,采用多頭自注意力機(jī)制,設(shè)置多個(gè)Wk并對(duì)結(jié)果求取均值,如式(8)所示:
其中:Ni表示節(jié)點(diǎn)Vi的鄰近節(jié)點(diǎn)集;K表示自注意層的數(shù)量。
在節(jié)點(diǎn)狀態(tài)聚合更新階段,主題節(jié)點(diǎn)首先通過(guò)圖注意力層與前饋神經(jīng)網(wǎng)絡(luò)層對(duì)文檔節(jié)點(diǎn)、段落節(jié)點(diǎn)進(jìn)行傳播更新,再由更新過(guò)后的文檔節(jié)點(diǎn)、段落節(jié)點(diǎn)對(duì)主題節(jié)點(diǎn)進(jìn)行反向更新。經(jīng)過(guò)L輪次迭代,得到最終的主題節(jié)點(diǎn)表示。
分類輸出層包括兩層前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Network,F(xiàn)FN)[24],采用Softmax 作為激活函數(shù),對(duì)主題節(jié)點(diǎn)進(jìn)行二分類,預(yù)測(cè)主題詞屬于真實(shí)主題的概率p,p∈[0,1]。在訓(xùn)練階段,采用交叉熵?fù)p失函數(shù)。
在主題抽取模塊中,異質(zhì)圖每輪次傳播與更新的計(jì)算復(fù)雜度為O(|V|+|E|),其中|V|、|E|分別表示圖中節(jié)點(diǎn)和邊的數(shù)量。由于采用文檔與段落級(jí)別進(jìn)行建模,因此相較于直接對(duì)句子建模的方法,降低了時(shí)空復(fù)雜度。經(jīng)過(guò)計(jì)算,最終得到k個(gè)核心主題及其相關(guān)的t個(gè)段落組成的集合P={ssec1,ssec2,…,ssect}。
現(xiàn)有文本摘要模型在提取核心內(nèi)容時(shí),忽略了時(shí)間特征對(duì)語(yǔ)句中心性的影響,無(wú)法保證內(nèi)容的時(shí)效性。因此,設(shè)計(jì)中心句抽取模塊,如圖3 所示。融合時(shí)間特征及語(yǔ)句相似性對(duì)段落集合P構(gòu)建語(yǔ)句關(guān)系有向圖。在提取核心語(yǔ)句的同時(shí),保證了內(nèi)容的時(shí)效性。
圖3 中心句抽取模塊結(jié)構(gòu)Fig.3 Structure of central sentence extraction module
節(jié)點(diǎn)S={S1,S2,…,Sn}表示句子節(jié)點(diǎn),采用語(yǔ)句向量表示XS進(jìn)行初始化,邊集合E={eij},eij表示Si指向Sj的有向邊,Si的時(shí)間信息晚于Sj。根據(jù)式(9)計(jì)算語(yǔ)句向量之間的相似度,作為關(guān)系圖邊eij的權(quán)重:
根據(jù)式(10)定義節(jié)點(diǎn)中心性的計(jì)算方法:
其中:S={S1,S2,…,Sn}表示節(jié) 點(diǎn)集合;time(Si)表示節(jié)點(diǎn)Si的時(shí)間特征信息;λ1與λ2是超參數(shù),分別代表入邊與出邊的權(quán)重,并且滿足式(11),λ2通常小于0,表示相似句子中,越晚出現(xiàn)的句子中心性越低,目的是使模型傾向于輸出較新內(nèi)容。
中心句抽取模塊計(jì)算每個(gè)段落集合P中句子的中心性,時(shí)間復(fù)雜度為O(|S|2),空間復(fù)雜度為O(|S|),其中|S|表示句子節(jié)點(diǎn)的數(shù)量。由于不同主題之間可以并行計(jì)算,因此最終的時(shí)間復(fù)雜度仍為O(|S|2)。
現(xiàn)有文本摘要方法通常選擇對(duì)文本中所有句子進(jìn)行建模[9,11-17]。與這些方法相比,本文提出的模型先對(duì)主題信息進(jìn)行粗粒度篩選,主題之間再采取并行的方式選擇中心句,降低了時(shí)空復(fù)雜度。當(dāng)數(shù)據(jù)規(guī)模較大時(shí),利用節(jié)點(diǎn)中心性計(jì)算過(guò)程的獨(dú)立性,對(duì)節(jié)點(diǎn)采取組內(nèi)串行、組間并行的計(jì)算方式,進(jìn)一步提高模型效率。
文獻(xiàn)[25]采用最大邊緣相關(guān)性(Maximal Marginal Relevance,MMR)算法提高推薦結(jié)果的多樣性。文獻(xiàn)[19]將MMR 算法應(yīng)用在文本摘要任務(wù)中也取得了相同的效果。受到以上工作的啟發(fā),采用一種改進(jìn)的MMR 算法——三元詞過(guò)濾法篩選最終輸出的內(nèi)容,給定已選內(nèi)容S和候選句c,ncountmatch(gram3)表示c與S之間共有的三元詞數(shù)量,當(dāng)數(shù)量大于等于1 時(shí),舍棄候選句c(t=0),否則將其保留(t=1),如式(12)所示:
實(shí)驗(yàn)語(yǔ)料采集自國(guó)家能源集團(tuán)2016 年至2020 年度招投標(biāo)過(guò)程中積累的招標(biāo)技術(shù)文件。文件所屬類型分為貨物類、服務(wù)類和工程類。按照文本數(shù)量以及語(yǔ)料質(zhì)量,選取其中120 類標(biāo)的物對(duì)應(yīng)的共計(jì)8 012 件文件作為實(shí)驗(yàn)的數(shù)據(jù)集,按照8∶1∶1 的比例,劃分出訓(xùn)練集、驗(yàn)證集和測(cè)試集。
原始語(yǔ)料文件數(shù)據(jù)清洗包括:提取文件的發(fā)布日期,清理文件內(nèi)容中頁(yè)碼等無(wú)效成分,按照文檔、段落、語(yǔ)句的層級(jí)整理主體內(nèi)容,提取當(dāng)前文件標(biāo)題等工作。清洗后的語(yǔ)料結(jié)構(gòu)如表1 所示。
表1 數(shù)據(jù)清洗后的語(yǔ)料結(jié)構(gòu)Table 1 Corpus structure after data cleaning
采用ROUGE 作為評(píng)估指標(biāo),如式(13)所示:
其中:Rd表示人工編制的參考范本;S表示人工范本中的句子;表示人工范本與生成文本共有的N元詞個(gè)數(shù);表示人工范本中N 元詞的總數(shù)。
采用ROUGE-1、ROUGE-2 指標(biāo)對(duì)生成文本與人工范本進(jìn)行對(duì)比,采用ROUGE-L 指標(biāo)對(duì)比最長(zhǎng)公共子序列,評(píng)價(jià)生成文本內(nèi)容的流暢性。為了驗(yàn)證本文模型中主題抽取模塊的有效性,采用F1 分?jǐn)?shù)(F)對(duì)主題抽取效果進(jìn)行評(píng)價(jià),計(jì)算公式如式(14)~式(16)所示:
其中:P表示預(yù)測(cè)精確率;R表示召回率;TTP表示預(yù)測(cè)的主題為真實(shí)主題的數(shù)據(jù)數(shù)量;FFP表示預(yù)測(cè)為非真實(shí)主題而實(shí)際為真實(shí)主題的數(shù)據(jù)數(shù)量;TTN表示預(yù)測(cè)為真實(shí)主題而實(shí)際為非真實(shí)主題的數(shù)據(jù)數(shù)量;FFN表示預(yù)測(cè)為非真實(shí)主題而實(shí)際也為非真實(shí)主題的數(shù)據(jù)數(shù)量。
采用base 版本的BERT 預(yù)訓(xùn)練模型,文本向量特征維度為256。為了捕捉更加豐富的語(yǔ)義特征,使用8 個(gè)自注意力層求取均值,圖注意力網(wǎng)絡(luò)隱藏層狀態(tài)向量維度為64。實(shí)驗(yàn)過(guò)程表明,當(dāng)圖節(jié)點(diǎn)消息傳播及更新的迭代次數(shù)設(shè)置為2 時(shí)能夠充分進(jìn)行節(jié)點(diǎn)交互且避免過(guò)擬合。選擇得分前M的句子作為中心句,M采用段落集合句子數(shù)的平均值。
在訓(xùn)練過(guò)程中,采用Adam 優(yōu)化函數(shù)尋找模型最優(yōu)參數(shù)。實(shí)驗(yàn)設(shè)置的批處理大小為32,學(xué)習(xí)率為5e-4,為了防止過(guò)擬合,模型在驗(yàn)證集的連續(xù)10 次迭代中,如果誤差不再下降,則停止訓(xùn)練。
選取TextRank[9]、LexRank[11]、PacSum[14]、Seq2Seq+Attention[27]等4 種常用的文本 摘要方法驗(yàn)證SGMG模型的有效性,并與PacSum、Seq2seq+Attention 方法進(jìn)行對(duì)比以驗(yàn)證SGMG 模型的先進(jìn)性。
1)TextRank[9],基于PageRank 算法實(shí)現(xiàn)抽取式文本摘要,被廣泛應(yīng)用于文本生成任務(wù)[26]。
2)LexRank[11],基于節(jié)點(diǎn)度的定義實(shí)現(xiàn)抽取 式文本摘要,常被應(yīng)用于多文檔文本生成任務(wù)。
3)PacSum[14],重新定義了句子中心性,在無(wú)監(jiān)督文本摘要任務(wù)中取得了較好的效果。
4)Seq2Seq+Attention[27],目前主流的生成式摘要方法,采用編碼器-解碼器結(jié)合注意力機(jī)制實(shí)現(xiàn),實(shí)驗(yàn)中采用RNN 作為神經(jīng)元。
為了比較不同輸入方式對(duì)基準(zhǔn)模型的影響,對(duì)平滑連接(Flat Concatenation,F(xiàn)C)與分層連接(Hierarchical Concatenation,HC)[28]方式進(jìn)行對(duì)比實(shí)驗(yàn),其中:平滑連接將文檔集整體拼接在一起得到D={d1;d2;…;dn};分層連接將文檔集中每篇文檔獨(dú)立地輸入模型D=[d1,d2,…,dn],得到的結(jié)果采用投票法進(jìn)行融合。本文提出的SGMG 模型采用多文檔同時(shí)輸入的方式。
實(shí)驗(yàn)結(jié)果如表2 所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。
表2 文本摘要生成的ROUGE 值對(duì)比Table 2 Comparison of ROUGE value of text summarization generation %
由表1 可以看出:本文提出的SGMG 模型在面向招標(biāo)文本的半結(jié)構(gòu)化文本自動(dòng)生成任務(wù)上的效果要明顯優(yōu)于基線方法。具體分析為:在招標(biāo)文本數(shù)據(jù)集上,采用分層連接的基準(zhǔn)方法優(yōu)于采用平滑連接的基準(zhǔn)方法,TextRank、LexRank 以及PacSum 模型的ROUGE-1 指標(biāo)分別提升了1.9、1.0、5.2 個(gè)百分點(diǎn),實(shí)驗(yàn)結(jié)果表明分層連接能夠提高當(dāng)前任務(wù)下的文本生成效果;PacSum 模型相較于TextRank、LexRank 模型在ROUGE-1、ROUGE-2 及ROUGE-L 指標(biāo)上平均提升了約6.45、9.35、7.35 個(gè)百分點(diǎn);SGMG 模型相較于PacSum+HC 模型在ROUGE-1、ROUGE-2 及ROUGE-L 指標(biāo)上分別提升了3.3、5.2、4.3 個(gè)百分點(diǎn),原因?yàn)槿诤蠒r(shí)間特征及多樣性選擇能夠明顯改善文本生成效果;Seq2Seq+Attention+FC 相比于其他基線方法在ROUGE-2、ROUGE-L 指標(biāo)下取得了最低的分?jǐn)?shù),原因?yàn)樯墒轿谋菊蕾嚧笠?guī)模數(shù)據(jù),不適用于當(dāng)前的低資源場(chǎng)景;SGMG 模型相比于Seq2Seq+Attention+FC 方法,在ROUGE-1、ROUGE-2、ROUGE-L指標(biāo)上分別提升了12.4、17.2、14.7個(gè)百分點(diǎn)。
驗(yàn)證SGMG 主題抽取模塊的有效性,實(shí)驗(yàn)結(jié)果如表3 所示。由表3 可以看出,貨物類、服務(wù)類招標(biāo)文件主題抽取結(jié)果的精確率、召回率及F1 分?jǐn)?shù)整體在75%以上,貨物類招標(biāo)文件主題抽取結(jié)果的精確率最高達(dá)到82.3%,工程類招標(biāo)文件主題抽取結(jié)果的精確率、召回率及F1 分?jǐn)?shù)整體取得了73%以上的結(jié)果。實(shí)驗(yàn)結(jié)果驗(yàn)證了SGMG 模型主題抽取模塊的有效性。
表3 主題抽取模塊的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of subject extraction module %
針對(duì)現(xiàn)有文本摘要方法無(wú)法提取文本主題結(jié)構(gòu)、忽略時(shí)間特征對(duì)文本重要性的影響等問(wèn)題,本文提出一種基于多頭圖注意力網(wǎng)絡(luò)的半結(jié)構(gòu)化文本自動(dòng)生成模型(SGMG)。利用異質(zhì)圖提取核心主題,通過(guò)多頭圖注意力網(wǎng)絡(luò)加強(qiáng)不同節(jié)點(diǎn)之間的交互,結(jié)合時(shí)間特征與語(yǔ)義相似度提取中心句確保生成文本的時(shí)效性,利用三元詞過(guò)濾法提升生成文本的多樣性。實(shí)驗(yàn)結(jié)果表明,在面向招標(biāo)文件的半結(jié)構(gòu)化文本自動(dòng)生成任務(wù)中,SGMG 模型的ROUGE-L 相比于TextRank、LexRank、PacSum、Seq2Seq+Attention等現(xiàn)有文本摘要方法提升了4.3 個(gè)百分點(diǎn)以上,主題提取的F1 分?jǐn)?shù)達(dá)到74.9%以上。下一步將融合主題抽取與中心語(yǔ)句選擇模塊,縮短鏈路生成時(shí)間,降低語(yǔ)義丟失風(fēng)險(xiǎn)。