關(guān)鍵詞:面向查詢;文本摘要;自然語言處理
0 引言(Introduction)
隨著信息技術(shù)的不斷進步,各類信息數(shù)量快速增長,促進了信息的交流與共享。在信息獲取過程中,如何利用先進技術(shù)從海量的復(fù)雜數(shù)據(jù)中更快速、準(zhǔn)確地篩選出有價值的信息,成為各機構(gòu)及專家、學(xué)者的研究熱點。面向查詢的文本摘要(Query-Focused Summarization, QFS)是自動文摘的一個特殊領(lǐng)域,旨在依據(jù)用戶的查詢需求,從源文檔中自動提取重要信息,將其組織成與查詢相關(guān)的簡短摘要進行呈現(xiàn)。與通用文本摘要不同,面向查詢的文本摘要主要面向特定用戶,文本摘要內(nèi)容不僅是對原始靜態(tài)文本的反映,更帶有主觀傾向及側(cè)重,滿足個性化查詢的需求,通常又被稱為針對式文本摘要、面向用戶的文本摘要或面向主題的文本摘要[1-3]。面向查詢的文本摘要在面向查詢的搜索引擎、智能化信息檢索、問答系統(tǒng)中均有著重要的應(yīng)用。
本文基于面向查詢的文本摘要典型技術(shù)框架,從查詢理解、文檔處理和信息組織三個方面對其國內(nèi)外研究現(xiàn)狀進行梳理和分析,總結(jié)當(dāng)前技術(shù)應(yīng)用的現(xiàn)狀、存在的問題及面臨的挑戰(zhàn),分析未來發(fā)展趨勢。
1 研究背景(Research background)
1.1 典型技術(shù)框架
面向查詢的文本摘要任務(wù)的典型技術(shù)框架如圖1所示,輸入的文檔類型包含單文檔與多文檔兩類。與面向查詢的單文檔文本摘要相比,面向查詢的多文檔文本摘要(Query-FocusedMulti-Document Summarization, QMDS)對具有相同話題的文檔集進行了統(tǒng)一處理,可以滿足用戶全方位查詢的需要,具備更高的應(yīng)用價值。但是,鑒于不同文檔可能會包含相同信息,多文檔文摘需要充分考慮信息冗余(Redundancy)因素,消除冗余影響。1997年,CARBONELL[4]首次提出面向查詢的文摘任務(wù),并提出最大邊界相關(guān)(Maximal Marginal Relevance,MMR)算法,考察查詢相關(guān)性,作為語句之間的冗余消除策略[5],提高摘要信息提取的準(zhǔn)確性。針對輸入的查詢和文檔信息處理,包括查詢理解、文檔處理和信息組織三個步驟。查詢理解主要實現(xiàn)對用戶查詢意圖的細化分析和理解;文檔處理主要完成對文檔或文檔集內(nèi)語句信息的處理,摘錄候選語句或生成新的摘要語句;信息組織建模主要實現(xiàn)摘要語句的連貫性處理,保證輸出信息可讀。
針對上述框架,現(xiàn)有研究主要為不同的應(yīng)用場景提供不同的解決方案。針對多個技術(shù)點提供統(tǒng)一的解決方案仍需要技術(shù)突破,其技術(shù)挑戰(zhàn)主要來自三個方面:(1)用戶輸入的查詢信息概括性強,包含內(nèi)容有限,文檔間存在語義描述鴻溝,因此生成與查詢相關(guān)性強的概括性摘要,準(zhǔn)確反映原文檔信息成為難點;(2)信息量的快速增長導(dǎo)致過載問題嚴重,因此在限定空間對文本信息進行合理壓縮,進而容納更多有價值的內(nèi)容成為難點;(3)抽取或生成的文摘語句的排列順序會直接影響文摘可讀性,因此確定生成的文本摘要語句的排列順序成為難點。
1.2 文摘評測
對文摘信息的合理程度進行評測,是保證文摘質(zhì)量的重要方法之一,通??煞譃閮?nèi)部評測和外部評測。文摘評測方法如圖2所示。
外部評測主要是將生成的摘要信息應(yīng)用到實際的信息檢索、問答系統(tǒng)任務(wù)中,根據(jù)對任務(wù)完成的貢獻進行摘要的性能評測,通過與參考摘要進行對比,評測當(dāng)前摘要內(nèi)容的準(zhǔn)確性和對原始內(nèi)容的閱讀理解程度。外部評測受相關(guān)任務(wù)的影響較大,因此對文摘的評測多采用內(nèi)部評測,即根據(jù)獨立的自動文摘系統(tǒng)的語言質(zhì)量、信息概括性和查詢響應(yīng)度進行評測。
早期的內(nèi)部評測多采用語言質(zhì)量和查詢響應(yīng)度等指標(biāo)進行評分。為節(jié)約時間和降低成本,在信息的概括性方面,研究人員提出了多種自動化評測方法。最常用的評測指標(biāo)是由LIN[7]提出的基于內(nèi)容的文本摘要自動評價方法ROUGE(Recall-Oriented Understudy for Gisting Evaluation),其主要思想是將機器生成的文本摘要信息與人工總結(jié)的參考文摘進行對比,通過重疊的單詞序列、N-Gram模型對摘要進行評價,具體準(zhǔn)則包括基于N-Gram召回率的ROUGE-N,通過計算公共子系列匹配率獲取最長公共子序列的ROUGE-L,基于權(quán)重的最長公共子序列的ROUGE-W,基于間隔二元組(Skip-Bigram)重疊度的ROUGE-S等。
對文本摘要生成模型進行訓(xùn)練和自動評測,需要依靠各種數(shù)據(jù)集,目前已公開的經(jīng)典數(shù)據(jù)集概覽如表1所示。
針對尚缺乏大量多文檔摘要數(shù)據(jù)集的問題,PASUNURU等[14]通過匯總有線電視新聞網(wǎng)(CNN)和每日郵件信息以及挖掘搜索日志的方式,形成文檔集,并進行查詢模擬。
2 查詢理解(Query understanding)
根據(jù)用戶有限的輸入理解其查詢意圖,是面向查詢的文本摘要需要解決的重要問題之一。早期研究大多采用在通用文摘中加入查詢相關(guān)特征的方法,對查詢文本做簡單的處理,如關(guān)鍵詞抽取、詞權(quán)重計算,缺少對查詢的深入理解[15]。查詢通常具有概括性,在多文檔中的描述有所不同,存在語義描述鴻溝。通過查詢擴展的方式可以有效解決信息的限制問題,彌補語義的缺失。目前,查詢理解技術(shù)多被應(yīng)用于抽取式摘要中,本文主要介紹基于外部語義知識的查詢擴展和利用源文檔信息的查詢擴展。
2.1 基于外部語義知識的查詢擴展
基于外部語義知識的查詢擴展技術(shù)利用外部知識,學(xué)習(xí)查詢詞與文檔詞的相似性,實現(xiàn)對查詢詞的同義詞進行擴展,達到提高查詢能力的目的。常用的外部語義知識擴展包括基于WordNet的查詢擴展和基于維基百科的查詢擴展兩類。
WordNet是一種基于認知語言學(xué)的英文語義詞典,由普林斯頓大學(xué)設(shè)計開發(fā)。與傳統(tǒng)詞典按照字母順序進行組織不同,WordNet將詞匯劃分為名詞、動詞、形容詞、副詞和虛詞5類,每類詞匯各自被組織成同義詞網(wǎng)絡(luò),代表基本的語義概念,依據(jù)語義關(guān)系進行連接。WordNet常用的語義關(guān)系包括同義關(guān)系、反義關(guān)系、上位關(guān)系、下位關(guān)系、整體關(guān)系、部分關(guān)系、蘊含關(guān)系、因果關(guān)系和等級關(guān)系等。ZHOU 等[16]利用TF-IDF(Term Frequency-Inverse Document Frequency)算法計算查詢詞的重要性程度,基于WordNet對超過重要性閾值的名詞和動詞進行同義詞擴展,再根據(jù)文檔句中的基本要素(BasicElements)對句子進行排序和選擇,使用簡化的MMR(Maximal Marginal Relevance)技術(shù)消除冗余,首次將WordNet應(yīng)用于面向查詢的文摘任務(wù)中。為解決同義詞擴展引入不相關(guān)信息的問題,ABDI等[17]利用WordNet計算了查詢詞和文檔詞的語義相似度,發(fā)現(xiàn)WordNet局限于有限的詞覆蓋范圍,可以利用其他知識資源(如Wikipedia)及大型語料庫解決此問題。
Wikipedia是一個基于超文本系統(tǒng)的網(wǎng)絡(luò)百科全書[18],其中的概念多使用重定向關(guān)系、歧義關(guān)系、類關(guān)系和內(nèi)部維基鏈接,構(gòu)成層次化的網(wǎng)絡(luò)結(jié)構(gòu)。在概念的表示上,Wikipedia為每個概念提供了細致且豐富的描述形式。NASTASE[19]將查詢文本中的命名實體等詞匯與Wikipedia詞條頁面進行匹配,獲取了查詢的概念集合,利用維基詞條的首段文本中相關(guān)概念對查詢進行擴充,以提取面向查詢的文本摘要。不同于詞擴展,MIAO等[20]通過研究句子概念含義,用概念相關(guān)度的向量表示句子,向量值為句子內(nèi)所有概念與Wikipedia內(nèi)某個概念的相關(guān)度。MOHAMED等[21]提出了一種基于增強知識資源的方法用于解決單一知識源覆蓋不全的問題。依靠度量短文本的語義相似度,將WordNet與分類變體數(shù)據(jù)庫(CatVar)以及詞法鏈接(Morphosemantic Links)結(jié)合,利用Wikipedia豐富WordNet,確定查詢詞與句子相似性及句子之間的相似程度。陳維政等[22]把圖排序引入查詢擴展中,抽取文檔集合中頻繁出現(xiàn)的實體對應(yīng)的維基詞條內(nèi)容,形成文檔集合知識庫。利用頁面排序算法(PageRank)對文檔中的句子進行排序,利用改進的DivRank算法對文檔和知識庫詞條句子進行再次排序。通過線性組合,綜合兩次排序的結(jié)果,最終確定句子的排序,從而選擇適當(dāng)?shù)木渥有纬烧?/p>
2.2 利用源文檔信息的查詢擴展
基于外部語義知識的查詢擴展方法存在以下弊端:外部語義知識無法提供與原始文檔相關(guān)的上下文信息;擴展詞有限,受詞覆蓋范圍的限制,不存在于外部語義知識中的單詞無法擴展;引入不相關(guān)或歧義信息,需要詞義消歧,而詞義消歧本身就是一個很難完成的任務(wù),會影響最終摘要的性能。為了避免上述局限性,研究機構(gòu)開始利用源文檔信息進行查詢擴展。
AMINI等[23]基于EM(Expectation Maximization)算法的變形實現(xiàn)對文檔和查詢中詞項的聚類,依靠此方法實現(xiàn)查詢詞擴展,再通過分類模型選取摘要句子。ZHAO 等[24]運用PageRank算法從原始文檔中選擇擴展詞,綜合句子自身的重要性以及句子和詞匯間的關(guān)系。利用句子之間的關(guān)系及句子和詞之間的關(guān)系尋找信息量大且與查詢相關(guān)的詞進行擴充查詢,在引入較少干擾的同時,捕捉到更多有價值的信息。葉娜等[25]采用主題分析技術(shù),識別出當(dāng)前主題的各個子主題,計算子主題重要度及句子所在的子主題與查詢的相關(guān)度,依靠計算結(jié)果選取摘要句,同時根據(jù)詞語在子主題之間的共現(xiàn)信息,結(jié)合外部語義知識,實現(xiàn)查詢擴展。
查詢理解技術(shù)的優(yōu)點和缺點如表2所示。
3 文檔處理(Document processing)
文檔處理是指對原始文檔中文本內(nèi)容進行分析,依據(jù)分析情況對句子進行處理。目前對文檔處理的方式主要有應(yīng)用于抽取式文本摘要任務(wù)的句子選擇技術(shù)和應(yīng)用于生成式文本摘要任務(wù)的句子生成技術(shù)。其中,抽取式文本摘要主要是從原始文檔中抽取單詞或句子組成摘要;生成式文本摘要需要對原始文檔進行理解,通過自然語言處理算法對其內(nèi)容進行轉(zhuǎn)述、壓縮及同義替換,生成摘要信息。抽取式文本摘要與生成式文本摘要對比情況如表3所示。
3.1 句子選擇技術(shù)
3.1.1 基于文本特征的方法
基于文本特征對句子進行選擇,即利用人工智能技術(shù)提取句子特征實現(xiàn)句子選擇,是最常見的方法之一。
(1)基于聚類的方法。當(dāng)文檔信息不帶有標(biāo)簽時,通常采用無監(jiān)督聚類的方法,根據(jù)句子的相似度和權(quán)重對其進行選擇和排序。SCHILDER等[26]提出了一種面向查詢的多文檔文本摘要方法FastSum,依據(jù)文檔集和主題的詞頻特征,應(yīng)用最小角回歸算法對特征進行詳細分析,再利用支持向量機(SVM)輸出摘要。YANG等[27]為了解決詞向量余弦相似度不適用于短句子的問題,將單詞視為獨立的文本對象,提出一種噪聲檢測增強型共聚框架,同時對句子和單詞進行聚類,輸出摘要。YIN等[28]為減小目標(biāo)聚類大小,利用高斯混合模型在特征空間上對句子進行聚類,對文檔集中的句子進行排序。JAGADEESH等[29]把信息查詢技術(shù)與摘要技術(shù)相結(jié)合,使用所有句子中的一組特征對句子進行評分,并以最大分數(shù)進行歸一化,使用各個特征值的加權(quán)線性組合計算句子的最終分數(shù)。FEIGENBLAT等[30]通過提取相關(guān)性、多樣性、長度、位置等特征迭代優(yōu)化目標(biāo)函數(shù),計算句子權(quán)重,取得了較好的效果。
(2)基于分類的方法。基于分類的方法,通常先對文本對象進行打標(biāo)簽處理,再根據(jù)標(biāo)簽信息,將問題轉(zhuǎn)換為二分類問題。應(yīng)用此方法前需要對數(shù)據(jù)進行大量標(biāo)記,不同的標(biāo)記結(jié)果可能導(dǎo)致數(shù)據(jù)含有大量噪聲。
LI等[31]基于貝葉斯主題模型將句子特征融合到主題模型中進行有監(jiān)督訓(xùn)練,嘗試通過在提取的特征中加入句子與查詢語句的相似度提升句子的選擇效果。AZAR等[32]在訓(xùn)練過程中通過添加噪聲改進效果,將查詢語句和文章句子一起使用TF-IDF向量編碼后加入隨機噪聲,放入自編碼器中進行訓(xùn)練。VALIZADEH等[33]采用多模型融合的方法進行分類效果改進,對于給出的多份人工摘要,考慮到每個人的認知和行為偏好各不相同,在使用標(biāo)記語料時保留了每個摘要特點,給每個人單獨摘要建立一個模型。OUYANG等[34]將回歸模型應(yīng)用到面向查詢的多文檔摘要任務(wù)中,使用SVM 評估句子在多文檔中的重要性。
3.1.2 基于圖結(jié)構(gòu)的方法
基于圖結(jié)構(gòu)的方法利用文檔結(jié)構(gòu),將文檔表示成一個圖模型(節(jié)點為文本單元,邊用來連接具有關(guān)聯(lián)的節(jié)點),從全局角度確定詞、句子等文本單元的重要程度,依據(jù)節(jié)點的連接方式有以下兩種方法。
(1)基于傳統(tǒng)圖的方法。LexRank算法[35]首次將圖排序算法引入抽取式文本摘要任務(wù)中,使用圖結(jié)構(gòu)的方法,綜合全文信息,計算句子的權(quán)重。LexRank 算法的變種BiasedLexRank[36-37]是利用馬爾科夫模型統(tǒng)計句子轉(zhuǎn)移到查詢的加權(quán)概率,計算句子的權(quán)重,將圖排序算法應(yīng)用到面向查詢的文本摘要任務(wù)中。BADRINATH 等[38]利用先行策略(LookAhead)尋找與查詢相關(guān)的句子,并對其相似性進行評分。MOHAMED等[39]通過計算句子和查詢的相似性,從文檔中選擇最合適的句子,并按照句子在文檔中出現(xiàn)的時間順序構(gòu)建句子和查詢的關(guān)系圖,形成摘要。WAN等[40]通過分析單文檔內(nèi)句子的關(guān)系和多文檔之間句子的關(guān)系,構(gòu)建跨多文檔的句子關(guān)系圖,采用線性形式、順序形式和得分組合形式3種不同的融合方案,提出一種多模式圖排序算法。WEI等[41]通過計算單文檔之間句子相似度和多文檔之間句子關(guān)聯(lián)關(guān)系,對句子進行排序,充分考慮句子之間和文檔之間的相似性,構(gòu)造了句子層和文檔-句子層的兩層圖。PANDIT等[42]利用離線模型將段落作為節(jié)點,依靠TF-IDF算法計算節(jié)點間的相似度和節(jié)點評分,依據(jù)計算結(jié)果段落分類,再利用在線模型構(gòu)建包含查詢關(guān)鍵詞的子樹,計算查詢語句與類的相似度以及與節(jié)點的相似度,對類和類內(nèi)節(jié)點排序。LI等[43]引入主題信息,基于主題建模技術(shù)構(gòu)造包含句子層和主題層的兩層圖。隨后,CANHASI等[44]通過計算查詢詞與句子的相似度,構(gòu)造包含文檔、句子、主題的3層圖。SAKAMOTO 等[45]通過對文檔、句子、單詞3種異質(zhì)信息進行融合,用來表示不同語言單元間整體與部分的關(guān)系,構(gòu)建3層圖模型。CANHASI[46]構(gòu)建了句子、查詢、段落、文檔、框架5層圖模型,并通過PageRank算法計算每層信息和圖層間信息的相似度,改善了圖模型效果。HU 等[47]通過引入親和圖估算句子之間的相似性,基于局部幾何結(jié)構(gòu)和句子內(nèi)容實現(xiàn)對句子的排序。
(2)基于超圖的方法。傳統(tǒng)圖的一條邊只能連接兩個節(jié)點,無法表示多個句子之間共享的復(fù)雜關(guān)系,導(dǎo)致大量文檔信息損失。超圖的一條邊可以連接多個節(jié)點,應(yīng)用超圖可以簡化句子間關(guān)系的復(fù)雜度,并且利于整合文檔全部信息。WANG等[48]應(yīng)用基于密度的聚類(Density-Based Spatial Clustering ofApplications with Noise, DBSCAN)算法進行聚類,基于聚類結(jié)果構(gòu)建超圖:若兩個句子間的余弦相似度超過設(shè)定閾值或兩個句子在同一個類中,添加一條邊,并依據(jù)節(jié)點間的相似度計算句子權(quán)重。D'SILVA等[49]使用改進的K均值(K-Means)聚類算法代替了DBSCAN算法:根據(jù)詞TF-IDF值、句子間相似度以及與查詢語句的相關(guān)性,選擇距離得分最高的K 個句子作為中心節(jié)點進行聚類,并依據(jù)句子之間的相似度和類之間的相似度構(gòu)建句子關(guān)系圖模型,并通過圖排序算法對模型中的句子進行排序,獲得文本摘要。XIONG等[50]結(jié)合主題模型獲得主題分布,使用超圖獲得詞與主題、句子與句子的主題分布,應(yīng)用節(jié)點增強和隨機游走模型對句子進行排序。ZHENG等[51]從句子中提取概念,構(gòu)建概念與句子、概念與查詢的二分圖,并基于構(gòu)建超圖模型,對句子評分。VAN等[52]引入超圖解決信息冗余或主題覆蓋不全的問題,首先,引入一種基于術(shù)語語義聚類的新主題模型,以發(fā)現(xiàn)語料庫中的主題;其次,將這些主題建模為超圖中的超邊、句子為節(jié)點;最后,通過在超圖中選擇交叉覆蓋所有主題的節(jié)點生成摘要。
3.1.3 基于神經(jīng)網(wǎng)絡(luò)的方法
針對長文檔或文檔集中句子間復(fù)雜的依賴關(guān)系,應(yīng)用深度學(xué)習(xí)技術(shù)中的神經(jīng)網(wǎng)絡(luò)方法對其進行分析,成為當(dāng)前的研究熱點。
LIU等[53]將深度學(xué)習(xí)各個隱藏層看作表示文本的復(fù)雜結(jié)構(gòu),將網(wǎng)絡(luò)結(jié)構(gòu)分成內(nèi)容過濾、結(jié)構(gòu)重組和摘要生成三個部分:通過內(nèi)容過濾實現(xiàn)對非關(guān)鍵詞的過濾,提取重要詞匯,選擇候選句;通過結(jié)構(gòu)重組對網(wǎng)絡(luò)結(jié)構(gòu)進行剪枝優(yōu)化;通過動態(tài)規(guī)劃,選擇可作為摘要的句子。CAO等[54]利用注意力機制實現(xiàn)對相關(guān)性和顯著性的聯(lián)合訓(xùn)練:利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)句子的向量表示,將句子向量加權(quán)求和作為文檔的向量表示,映射句子和文檔到同一向量空間,并在語義層計算其相似度。GAO等[55]提出了一種協(xié)同表示框架,利用當(dāng)前句子表示、單詞內(nèi)容和主題預(yù)測下一個句子的表示,使用句子表示法判斷適合作為摘要的句子。JESSE等[56]通過探索抽取-生成聯(lián)合模型解決面向查詢的文本摘要任務(wù),并結(jié)合了遷移學(xué)習(xí)策略增強模型的性能。
3.2 句子生成技術(shù)
句子生成技術(shù)通過獲取文檔或文檔集的核心思想,以不同的表達方法生成摘要信息,可以滿足多樣性文本摘要的需求。
3.2.1 基于圖結(jié)構(gòu)的方法
SHAFIEIBAVANI等[57]提出一種基于圖結(jié)構(gòu)的生成式方法。首先,用消歧算法計算文檔句子之間以及文檔句子和輸入查詢之間的語義相似性,構(gòu)建無向圖;其次,使用聚類算法對與查詢相關(guān)的句子進行聚類,在每個類中構(gòu)建詞級MSC(Multi-Sentence Compression)網(wǎng)絡(luò);最后,利用語言模型,考慮詞權(quán)重、詞性和語法結(jié)構(gòu),生成文本摘要。
3.2.2 基于深度學(xué)習(xí)的方法
RUSH等[58]提出了一種基于序列到序列模型(Seq2Seq)的生成式摘要方法,正式將深度學(xué)習(xí)應(yīng)用于生成式摘要任務(wù)。NEMA等[10]基于Seq2Seq模型,在查詢中使用Attention的機制獲取查詢相關(guān)的上下文向量,并引入正交變換的方法,解決了生成式摘要當(dāng)中重復(fù)詞的問題。KIMURA等[59]通過實驗證明,當(dāng)輸入序列的長度超過60時,長短期記憶網(wǎng)絡(luò)(LongShort-Term Memory, LSTM)實現(xiàn)的編碼器模型的準(zhǔn)確性會降低。為解決文摘中長文本編碼失敗的問題,可以引入句子向量表示和原始文檔單詞向量表示。
3.3 聯(lián)合訓(xùn)練技術(shù)
為解決句子生成技術(shù)無法準(zhǔn)確地復(fù)述原始文檔中的事實細節(jié)的問題,SEE等[60]對抽取式模型和生成式模型聯(lián)合訓(xùn)練,根據(jù)選擇概率,軟性結(jié)合Seq2Seq模型生成的文本和指針網(wǎng)絡(luò)抽取的關(guān)鍵信息,既可以生成新文本,又可以復(fù)制原文本。
對文檔進行處理的技術(shù)特點及其局限性如表4所示。
4 信息組織(Information organization
句子順序直接影響摘要的可讀性。在單文檔摘要中,依據(jù)句子在原文檔中的順序,即可確定句子順序。在多文檔摘要中,對不同文檔中的句子進行排序,需要考慮句子所處上下文的綜合信息[61]。當(dāng)下,由于對文本摘要中連貫性的研究工作相對缺乏,可以將其分為局部排序和全局排序兩類。
4.1 基于相關(guān)性的局部排序
局部排序是一種貪婪算法,每次對兩個句子進行組織排序。NAYEEM[62]認為實體相同是文本連貫性的標(biāo)志之一,良好的句子順序表示所有相鄰句子之間具有相似性,基于該假設(shè)量化文檔連貫性。
BOLLEGALA等[63]依據(jù)時間、概率、主題相關(guān)性、前序和后序等5種相關(guān)性綜合判斷兩個句子的相關(guān)性,對兩個句子進行排序并得到順序關(guān)系。
4.2 基于圖結(jié)構(gòu)的全局排序
與局部排序不同,全局排序方法要求輸入所有的句子,基于整體篇章的語義邏輯關(guān)系,輸出全局最優(yōu)解。
HE等[64]通過對句子之間的時間關(guān)系、位置關(guān)系、主題關(guān)系和從屬關(guān)系進行抽取,構(gòu)建句子關(guān)系圖,應(yīng)用PageRank算法確定多文檔文本摘要的句子順序。CHOWDARY等[65]基于句子的余弦相似度對每個文檔構(gòu)造圖,按照文檔句子數(shù)量進行排序,構(gòu)建增強集成圖,依據(jù)句子在增強集成圖中的位置進行摘要句子組織和排序。
5 業(yè)務(wù)場景(Business scenario)
近年來,針對不同的業(yè)務(wù)場景,研究人員做了很多適配工作。魏鑫煬等[66]根據(jù)民事裁判文書的文本結(jié)構(gòu)與其信息分布的特點,對裁判文書重要模塊信息文本進行粗粒度抽取,再利用BERT的序列標(biāo)注方法構(gòu)建細粒度的抽取模型,從句子級別對重要信息進一步抽取,形成最終摘要。ALROSHDI等[67]利用深度學(xué)習(xí)算法對電子教育課程的思想、內(nèi)容和培訓(xùn)目標(biāo)等進行文本摘要的抽取,幫助學(xué)生選擇合適的課程來提高成績。XIAO 等[68]提出了一種稱為卷積層次結(jié)構(gòu)注意力網(wǎng)絡(luò)(CHAN)的方法,以用戶查詢和長視頻為輸入,利用編碼網(wǎng)絡(luò)和查詢相關(guān)性計算,生成滿足用戶查詢偏好的文本視頻摘要。
6 結(jié)論(Conclusion)
未來,查詢文本摘要的發(fā)展趨勢主要包括以下內(nèi)容:(1)基于外部語義知識和源文檔信息的查詢理解技術(shù)可以聯(lián)合使用。利用多個模型聯(lián)合進行訓(xùn)練,充分發(fā)揮各自的優(yōu)點,提高生成與原文的相關(guān)性;(2)基于深度學(xué)習(xí)的文本分析技術(shù)將成為未來研究的熱門方向。通過深度學(xué)習(xí)的方法,可以更準(zhǔn)確地表達文本的語義信息,為解決向查詢的文本摘要中的技術(shù)難題提供新的解決思路;(3)面向查詢的文本摘要技術(shù)在跨領(lǐng)域中的應(yīng)用價值將凸顯,如面向查詢的搜索引擎、個性化信息檢索、問答系統(tǒng),將成為研究熱點;(4)針對不同業(yè)務(wù)場景,面向查詢的文本摘要的生成,具有不同的側(cè)重性;(5)針對多文檔的摘要生成,目前尚缺乏大規(guī)模高質(zhì)量的訓(xùn)練及評測數(shù)據(jù)集,因此需要加強數(shù)據(jù)的構(gòu)建、增強、共享與評測。生成符合特定需求的文本摘要是面向查詢的文本摘要的目標(biāo),對于其他方面問題的驗證,則是評估模型的重要指標(biāo)。