亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        案件要素異構(gòu)圖的輿情新聞抽取式摘要

        2023-02-28 09:19:34余正濤黃于欣
        關(guān)鍵詞:文本信息模型

        李 剛,余正濤,黃于欣

        1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500

        2.昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500

        隨著互聯(lián)網(wǎng)的快速發(fā)展,與案件相關(guān)的輿情信息越來越多,從案件相關(guān)的輿情新聞中生成簡(jiǎn)短的摘要對(duì)于快速了解案情,掌握和監(jiān)控輿情的發(fā)展態(tài)勢(shì)有著重要的作用。

        案件輿情摘要可以看作一個(gè)面向特定領(lǐng)域的摘要,目前針對(duì)該任務(wù)主要有抽取式和生成式兩種方法。抽取式摘要指直接從原文中抽取重要的句子作為摘要句,摘要句來自于原文,流暢性好,忠實(shí)度高,在實(shí)際場(chǎng)景下能達(dá)到很好的效果。傳統(tǒng)的抽取式摘要方法包括基于主題模型的方法和基于圖排序的方法?;谥黝}模型的方法指通過隱含狄利克雷分布(latent Dirichlet allocation,LDA)模型得到文本主題,采用不同的算法來計(jì)算句子和主題的相似度,從而得到摘要句。例如劉娜等[1]將LDA 建立的主題分成重要和非重要兩類,并根據(jù)詞頻、位置等統(tǒng)計(jì)特征和LDA 特征一起計(jì)算句子權(quán)重。吳仁守等[2]提出在時(shí)間演化的基礎(chǔ)上同時(shí)考慮主題的演化,最后將標(biāo)題作為摘要輸出?;趫D排序的方法是指將句子作為頂點(diǎn),句子之間的相似度作為邊的權(quán)重,根據(jù)頂點(diǎn)的權(quán)重分?jǐn)?shù)來確定關(guān)鍵句。例如Mihalcea等[3]通過TextRank 圖排序算法抽取文本中重要性較高的句子形成摘要。另一類抽取式摘要方法主要是基于深度神經(jīng)網(wǎng)絡(luò),把抽取式摘要任務(wù)看作句子分類任務(wù),通過給每個(gè)句子打標(biāo)簽來確定其是否屬于摘要句,其核心在于如何更好地生成句子的表征。Nallapati等[4]首次提出將抽取式摘要看作序列分類問題,構(gòu)建SummaRuNNer 文本分類模型,用門控循環(huán)單元(gated recurrent unit,GRU)作為序列分類器的模塊,結(jié)合詞和句子兩層編碼特征來判斷句子是否是摘要句。Zhang等[5]提出一種把抽取的句子標(biāo)簽作為隱藏變量的抽取式摘要模型,將句子和原始摘要進(jìn)行對(duì)比來對(duì)句子進(jìn)行分類,得到摘要。

        以上的研究工作大多集中在開放領(lǐng)域,與通用摘要數(shù)據(jù)相比,案件相關(guān)的輿情新聞通常包含“被害人、犯罪嫌疑人、案發(fā)地點(diǎn)”等信息,這些信息是輿情新聞中的重要部分,同時(shí)對(duì)于摘要生成也具有重要意義。

        如圖1 所示,描述了“新晃操場(chǎng)埋尸案”(鄧世平被殺案)的相關(guān)內(nèi)容,在摘要和正文中都包含“鄧世平、杜少平、黃炳松,新晃操場(chǎng)”等案件要素,因此本文認(rèn)為包含案件要素的句子更易成為摘要句,在句子的建模過程中應(yīng)該考慮案件要素信息。基于此假設(shè),韓鵬宇等[6]提出一種基于案件要素增強(qiáng)的涉案輿情文本摘要方法,通過對(duì)案件要素進(jìn)行獨(dú)立編碼,然后基于注意力機(jī)制融入到詞和句子的編碼層中,取得了很好的效果。但是該方法將案件要素看作一個(gè)序列,基于雙向GRU 網(wǎng)絡(luò)來生成帶有上下文信息的案件要素編碼。這種編碼方式可能會(huì)帶來不必要的噪聲信息,從而影響模型的性能。另外,該方法通過引入基于句子的位置信息、顯著性信息及新穎性信息的多特征分類層來建模句子之間的關(guān)聯(lián)關(guān)系。而本文認(rèn)為,建模不同句子之間的關(guān)聯(lián)關(guān)系對(duì)于摘要抽取有著重要的作用,應(yīng)該被更充分地利用。

        圖1 案件輿情文本數(shù)據(jù)示例Fig.1 Example of case public opinion text data

        基于圖結(jié)構(gòu)的方法能夠更直接地表達(dá)不同節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,近年來在文本分類、閱讀理解、文本摘要等任務(wù)上取得了很好的效果。如Hu 等[7]針對(duì)短文本分類任務(wù),提出一種主題-實(shí)體異構(gòu)神經(jīng)圖,通過構(gòu)造短文本和主題、實(shí)體等信息之間的關(guān)聯(lián)關(guān)系來增強(qiáng)短文本的表示,取得了很好的效果。Tu 等[8]針對(duì)閱讀理解任務(wù),引入包含文檔、實(shí)體及候選對(duì)象的異構(gòu)圖網(wǎng)絡(luò),完成跨文檔的多跳閱讀理解任務(wù)。在文本摘要任務(wù)方面,Tan等[9]提出一種基于句子注意力機(jī)制的摘要方法,在序列到序列的框架中,引入基于句子重要性的圖注意力機(jī)制對(duì)句子進(jìn)行編碼,更好地建模句子之間的關(guān)系,提高了摘要的質(zhì)量。Liu等[10]提出一種基于BERT(bidirectional encoder representations from transformers)[11]預(yù)訓(xùn)練語言模型的抽取式摘要方法,利用BERT 生成句子表示,在此基礎(chǔ)上構(gòu)造分類器,實(shí)現(xiàn)摘要的生成。Zhong 等[12]提出將抽取式摘要任務(wù)轉(zhuǎn)化為語義文本匹配問題的模型,把文檔和候選摘要采用BERT映射到同一個(gè)語義空間中,通過語義文本匹配方法生成摘要。本文提出基于句子、詞和案件要素的異構(gòu)圖神經(jīng)網(wǎng)絡(luò),在句子學(xué)習(xí)過程中引入案件要素作為額外的詞級(jí)節(jié)點(diǎn),通過建模詞及案件要素等詞級(jí)節(jié)點(diǎn)到句子節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系來更好地建模句子信息,從而生成更具客觀性與概括性的案件輿情摘要。

        1 案件要素異構(gòu)圖的摘要方法

        本文提出基于案件要素異構(gòu)圖的案件輿情文本摘要方法。模型包括三個(gè)主要部分,分別是異構(gòu)圖構(gòu)建模塊(包括句子節(jié)點(diǎn)表示、案件要素節(jié)點(diǎn)表示和邊權(quán)重表示)、融合案件要素圖注意力模塊和句子抽取模塊,本節(jié)分別對(duì)以上部分進(jìn)行詳細(xì)介紹。具體模型結(jié)構(gòu)如圖2所示。

        1.1 異構(gòu)圖構(gòu)建模塊

        為了建模句子之間的關(guān)聯(lián)關(guān)系,本文采用一個(gè)包含不同粒度信息的異構(gòu)圖表示一篇文檔,如圖2所示。在這個(gè)圖中,有詞、案件要素、句子三種類型的節(jié)點(diǎn)。詞節(jié)點(diǎn)是最基本的節(jié)點(diǎn),代表文檔的詞級(jí)信息。每個(gè)句子節(jié)點(diǎn)對(duì)應(yīng)文檔中一個(gè)句子,代表一個(gè)句子的全局信息。還定義了兩種類型的邊來表示圖中的兩類結(jié)構(gòu)信息:一是如果詞出現(xiàn)在這個(gè)句子中,就將詞節(jié)點(diǎn)與句子節(jié)點(diǎn)連接;二是將句子節(jié)點(diǎn)與所有案件要素節(jié)點(diǎn)連接。這兩種類型的邊用TFIDF計(jì)算得到。

        圖2 案件要素異構(gòu)圖的案件輿情抽取式摘要模型Fig.2 Case public opinion extractive summary model based on heterogeneous graphs of case elements

        圖的拓?fù)浣Y(jié)構(gòu)用鄰接矩陣A表示,因?yàn)榘瑑煞N邊結(jié)構(gòu)信息,故分為兩種類型的圖:詞-句子圖,案件要素-句子圖。因此本文定義兩種鄰接矩陣:Aw-s由詞、句子節(jié)點(diǎn)與之間的權(quán)重構(gòu)成;Ac-s由案件要素、句子節(jié)點(diǎn)以及權(quán)重構(gòu)成。

        1.1.1 句子節(jié)點(diǎn)表示

        為了更好地獲得句子表征,使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[13]得到句子局部詞級(jí)信息特征,再通過雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)[14]獲得句子級(jí)全局特征,最后拼接局部和全局特征,得到句子的特征表示。

        輸入序列D={s1,s2,…,sn}是含有n個(gè)句子的一篇文檔,si={w1,w2,…,wm}表示第i個(gè)句子中含有m個(gè)詞,m個(gè)詞的局部特征用ls表示,句子全局特征采用gs表示,最后將ls與gs拼接得到句子特征表示:

        式(1)中n表示正文中句子的數(shù)目,ds是每個(gè)句子輸入時(shí)的特征維數(shù)。

        1.1.2 案件要素節(jié)點(diǎn)表示

        在案件要素編碼中,案件要素通過預(yù)訓(xùn)練詞向量得到每一個(gè)要素的特征表示。

        式(2)中p表示案件要素的數(shù)目,dc是輸入案件要素c的特征矩陣維數(shù)。

        同理,將文檔中的句子通過分詞后使用預(yù)訓(xùn)練詞向量得到詞的特征表示。

        式(3)中m表示句子經(jīng)過分詞后詞的數(shù)目,dw表示詞w輸入的特征維數(shù)。

        1.1.3 邊權(quán)重表示

        本文定義了兩種類型的邊:一是詞、句子邊權(quán)重值,用ww,s表示,得到詞、句子節(jié)點(diǎn)權(quán)重構(gòu)成的鄰接矩陣Aw,s;二是案件要素、句子邊權(quán)重值,用cc,s表示,得到案件要素、句子節(jié)點(diǎn)權(quán)重構(gòu)成的鄰接矩陣Ac,s。這兩種邊的權(quán)重值通過TFIDF計(jì)算得到。

        經(jīng)過以上步驟,得到詞節(jié)點(diǎn)矩陣Xw,案件要素矩陣Xc,句子節(jié)點(diǎn)矩陣Xs,邊權(quán)重cc,s、ww,s。得到異構(gòu)圖G={V,E},V=W∪C∪S,E=ww,s∪cc,s。

        1.2 融合案件要素的圖注意力模塊

        為了更新圖的鄰接矩陣A和節(jié)點(diǎn)信息X,本文通過引入圖注意力網(wǎng)絡(luò)(graph attention networks,GAT)[15]聚合要素節(jié)點(diǎn)信息來學(xué)習(xí)每個(gè)節(jié)點(diǎn)的特征表示,具體如圖3所示。

        圖3 融入案件要素的圖注意力模型Fig.3 Graph attention model incorporating case elements

        式(4)中Wa、Wq、Wk是可訓(xùn)練參數(shù),zic表示節(jié)點(diǎn)i與要素節(jié)點(diǎn)c之間的注意力系數(shù)。

        式(5)是對(duì)通過式(4)得到的zic進(jìn)行歸一化操作,Ni是指在鄰接矩陣Ac,s中節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)集合,c∈Ni是指要素節(jié)點(diǎn)c包含在節(jié)點(diǎn)i的所有鄰居節(jié)點(diǎn)集合Ni中,αic是節(jié)點(diǎn)i與c的注意力權(quán)重。

        圖3 中左邊是通過單層圖注意力計(jì)算句子與要素節(jié)點(diǎn)權(quán)重,右邊是通過多頭注意力機(jī)制(圖中K=3)計(jì)算句子與要素節(jié)點(diǎn)權(quán)重,具體過程如下所示:

        式(6)得到了句子節(jié)點(diǎn)i學(xué)習(xí)到的特征,是第k組注意力機(jī)制計(jì)算出的權(quán)重系數(shù),指句子節(jié)點(diǎn)i融合案件要素節(jié)點(diǎn)信息并經(jīng)過GAT后學(xué)到的特征。

        在每個(gè)圖注意力層后,引入一個(gè)前饋網(wǎng)絡(luò)(feed forward networks,F(xiàn)FN)層,對(duì)要素與句子雙向更新,得到從要素節(jié)點(diǎn)更新句子節(jié)點(diǎn)的特征表示。

        同理在鄰接矩陣Aw,s中,得到經(jīng)過詞節(jié)點(diǎn)更新后的句子節(jié)點(diǎn)表示,然后兩者拼接得到最終的句子節(jié)點(diǎn)表示,具體表示如下:

        1.3 句子抽取模塊

        式(8)中pi表示句子節(jié)點(diǎn)i經(jīng)過圖注意力后被標(biāo)注為候選摘要的概率,W是訓(xùn)練參數(shù)。

        對(duì)于輸入文檔樣本D={s1,s2,…,sn},對(duì)應(yīng)的句子真實(shí)標(biāo)簽y={y1,y2…,yn}(yi∈{0,1}),yi=1 表示第i個(gè)句子應(yīng)該包含在摘要中。最終的句子被分為兩種,即摘要句和非摘要句,采用交叉熵作為損失函數(shù):

        式(9)中I是訓(xùn)練集中所有句子的集合,yi表示句子i的標(biāo)簽,pi表示對(duì)應(yīng)句子yi=1 時(shí)的概率。

        2 實(shí)驗(yàn)設(shè)置

        2.1 案件輿情摘要數(shù)據(jù)集

        使用爬蟲程序基于百度百科搜集相關(guān)案件輿情新聞。首先構(gòu)造一個(gè)案件庫(kù),案件庫(kù)中包含著大量的案件名稱,根據(jù)案件名稱在百度百科中去搜索相關(guān)的案件輿情新聞,搜索結(jié)果以網(wǎng)頁的形式展現(xiàn)。數(shù)據(jù)集中定義的案件要素是百度百科網(wǎng)站自帶的對(duì)案件不同側(cè)面的描述,案件要素在正文及摘要中都會(huì)出現(xiàn),這些信息是輿情新聞中的重要部分,同時(shí)對(duì)于摘要生成也具有重要意義,因此定義的案件要素是具有科學(xué)性與準(zhǔn)確性的。

        進(jìn)行人工校準(zhǔn)、清洗,刪除非案件的數(shù)據(jù),去除例如“ ”等噪聲數(shù)據(jù),最后構(gòu)建出案件輿情摘要數(shù)據(jù)集,有效數(shù)據(jù)14 214對(duì)。數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果如表1所示。

        表1 數(shù)據(jù)集統(tǒng)計(jì)Table 1 Data set statistics

        2.2 模型訓(xùn)練設(shè)置

        采用Word2vec 工具,聯(lián)合搜狗新聞數(shù)據(jù)集[16]和本文案件輿情數(shù)據(jù)集預(yù)先訓(xùn)練詞向量,來表示案件輿情文本中的一個(gè)字(詞)。每個(gè)GAT層頭注意力數(shù)目為8,隱藏層維度大小dh=64,采用ds=128 和de=50 進(jìn)行初始化。采用ROUGE(recall-oriented understudy for gisting evaluation)[17]中的RG-1、RG-2 和RG-L 的F 值作為評(píng)價(jià)指標(biāo),訓(xùn)練參數(shù)設(shè)置如表2所示。

        表2 模型訓(xùn)練參數(shù)設(shè)置Table 2 Model training parameter settings

        2.3 基線模型設(shè)置

        本節(jié)選擇了5個(gè)模型作為基準(zhǔn)模型,分別在案件輿情摘要數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),基準(zhǔn)模型為L(zhǎng)EAD-3、TetxRank、MMR、SummaRuNNer、BERT(BertSum+Classifier,BertSum+Transformer)。

        (1)LEAD-3 是一種依靠句子在文章中的位置來抽取摘要的方法,文檔的重要信息易出現(xiàn)在文章開頭部分,抽取文檔前三句作為摘要。

        (2)TextRank 是一種基于圖的摘要提取算法,將句子視為節(jié)點(diǎn),通過計(jì)算圖中每個(gè)節(jié)點(diǎn)的得分,來選擇得分最高的幾個(gè)句子作為摘要。

        (3)MMR(maximal marginal relevance)[18]最大邊界相關(guān)算法,是用于計(jì)算查詢文本與被搜索文檔之間的相似度,再對(duì)文檔進(jìn)行排序,最后選取句子的算法。

        (4)SummaRuNNer[4]是基于序列分類器的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)句子分類訓(xùn)練模型,采用兩層雙向GRU 和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來對(duì)句子進(jìn)行編碼,得到每一個(gè)句子是否為摘要句的分類結(jié)果,最后得到由分類結(jié)果組成的摘要。

        (5)基于BERT[11]預(yù)訓(xùn)練詞向量模型中,“BertSum+Classifier”采用BertSum[10]對(duì)句子進(jìn)行表征,在BERT 輸出句子向量后,增加一個(gè)線性分類層,使用sigmoid函數(shù)提取摘要;“BertSum+Transformer”采用BertSum 對(duì)句子進(jìn)行特征表示,并運(yùn)用多層Transformer[19]從BertSum 輸出的句子向量中提取特征,最后通過sigmoid 分類器輸出摘要。

        (6)MatchSum[12]是把抽取式摘要任務(wù)轉(zhuǎn)化為一個(gè)語義文本匹配問題的模型,主要是將文檔和候選摘要采用BERT映射到同一個(gè)語義空間中,通過語義文本匹配方法生成摘要。

        3 實(shí)驗(yàn)結(jié)果分析

        3.1 基線模型分析

        第一組實(shí)驗(yàn)是本文模型和5 個(gè)基線模型在案件輿情摘要數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),結(jié)果如表3所示。

        表3 基線模型對(duì)比實(shí)驗(yàn)Table 3 Baseline models comparison experiment 單位:%

        從表3實(shí)驗(yàn)結(jié)果可以看出:(1)本文模型與LEAD-3模型相比,LEAD-3模型效果較差,這是由于在案件輿情文本中,前幾個(gè)句子中不全是對(duì)案件的描述,而是對(duì)文本的發(fā)布來源、時(shí)間等與案件信息無關(guān)的描述,這樣的句子不能表達(dá)文本主題,因此文檔中的前三句話不能作為摘要。(2)本文模型與TextRank 模型相比,RG-1 和RG-2 的值分別提升3.19 個(gè)百分點(diǎn)和3.06 個(gè)百分點(diǎn),是因?yàn)楸疚哪P腿谌氚讣爻槿〉木渥优c主題語義相關(guān),而TextRank 的方法沒有考慮與文本之間的語義關(guān)系,生成的摘要不能包含文章的主題信息。(3)本文模型與MMR 模型相比,RG-1 和RG-2 值有2.87 個(gè)百分點(diǎn)和3.62個(gè)百分點(diǎn)的提升,原因是本文模型引入基于案件要素異構(gòu)圖更直觀地表征句子之間的關(guān)聯(lián)關(guān)系,本文模型比僅考慮句子相似度的MMR 方法更能全面地捕捉到文檔中的句子信息,有利于生成結(jié)構(gòu)清晰、語義完整的摘要。(4)本文模型與SummaRuNNer相比,RG-1和RG-2分別提升了6.26 個(gè)百分點(diǎn)和1.8 個(gè)百分點(diǎn),結(jié)果表明本文提出將案件要素作為外部知識(shí)融入的異構(gòu)圖摘要模型,可以有效地提高模型的摘要性能,抽取出的摘要更能貼近案件輿情文本主題,相關(guān)性更高。(5)本文模型與采用Classifier 和Transformer 作為解碼器的模型相比,在RG-1和RG-2上分別提升了1.39個(gè)百分點(diǎn)、3.22個(gè)百分點(diǎn)和1.34個(gè)百分點(diǎn)、3.09個(gè)百分點(diǎn),基于BERT的編碼方式忽略文本的上下文信息,從而無法找到與主題相關(guān)的句子,生成摘要。而本文模型相比于BertSum模型的實(shí)驗(yàn)結(jié)果,說明融入案件要素構(gòu)建異構(gòu)圖的方法是有效的,能夠全面地表征文檔跨句子之間的關(guān)聯(lián)關(guān)系,對(duì)于抽取出更貼近文檔主題的句子有著重要的指導(dǎo)作用。(6)本文模型與MatchSum模型相比,在RG-1和RG-2上分別提升了5.09 個(gè)百分點(diǎn)、2.42 個(gè)百分點(diǎn),說明運(yùn)用圖結(jié)構(gòu)表征文檔跨句子之間的關(guān)聯(lián)關(guān)系,融入案件要素作為輔助信息的方法是有效的,對(duì)于抽取出更貼近文檔主題的句子有著重要的指導(dǎo)作用。

        3.2 不同案件要素抽取方法對(duì)比實(shí)驗(yàn)分析

        第二組實(shí)驗(yàn)主要驗(yàn)證采用不同方法獲取案件要素對(duì)摘要生成的影響,用TFIDF、TextRank 和命名實(shí)體識(shí)別(named entity recognition,NER)抽取關(guān)鍵詞或?qū)嶓w充當(dāng)案件要素,融入到本文模型中生成摘要,“句子+詞+GAT”表示未融入案件要素的異構(gòu)圖方法,基于圖注意力實(shí)現(xiàn)摘要生成,結(jié)果如表4所示。

        從表4 可以看出:(1)本文模型與“句子+詞+GAT”未融入案件要素模型相比,RG-1和RG-2值提升1.35個(gè)百分點(diǎn)、1.68 個(gè)百分點(diǎn),驗(yàn)證了融入案件要素能提高摘要生成的效果。(2)“句子+詞+GAT”、NER 和抽取關(guān)鍵詞方法相比,使用NER 方法的效果比抽取關(guān)鍵詞和未使用要素的方法差,因?yàn)镹ER 識(shí)別文本中具有特定意義的人名、地名、機(jī)構(gòu)名三種實(shí)體,得到大量的冗余信息,不利于圖注意力的學(xué)習(xí),導(dǎo)致摘要效果下降。(3)TFIDF、TextRank 抽取關(guān)鍵詞與NER 的方法相比,抽取關(guān)鍵詞的實(shí)驗(yàn)效果在RG-1上分別提高了1.48個(gè)百分點(diǎn)和1.39個(gè)百分點(diǎn),證明使用關(guān)鍵詞比實(shí)體效果更好,使用關(guān)鍵詞的方法能減少NER 造成摘要性能下降的不利影響。在文中關(guān)鍵詞能更加全面地表達(dá)文章主題信息,從而提高摘要性能。(4)本文模型與TFIDF、TextRank抽取關(guān)鍵詞方法相比,在RG-1和RG-2上分別提升了0.57個(gè)百分點(diǎn)和0.66 個(gè)百分點(diǎn),可以看出差距很小。在實(shí)際應(yīng)用中,當(dāng)只有正文而沒有案件要素時(shí),可以借助關(guān)鍵詞輔助摘要的生成。(5)證明本文數(shù)據(jù)集的案件要素具有科學(xué)性,更能全面地體現(xiàn)文檔的主題信息,包含的案件信息更完整,能生成更加接近案件主題的摘要。

        表4 不同案件要素抽取方法對(duì)比實(shí)驗(yàn)Table 4 Comparative experiment on extraction methods of different case elements 單位:%

        3.3 不同數(shù)據(jù)集對(duì)比實(shí)驗(yàn)分析

        第三組實(shí)驗(yàn)為了進(jìn)一步驗(yàn)證本文模型的泛化能力,分別在韓鵬宇等[6]提出的涉案輿情新聞文本(涉案新聞數(shù)據(jù)集)、NLPCC2017 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其中NLPCC2017 是新聞文本數(shù)據(jù)集,選取15 000 條數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。相比本文的數(shù)據(jù)集,NLPCC2017 中缺失案件要素,根據(jù)3.2節(jié)中驗(yàn)證,采用TFIDF抽取關(guān)鍵詞充當(dāng)要素,實(shí)驗(yàn)結(jié)果如表5所示。

        表5 不同數(shù)據(jù)集對(duì)比分析Table 5 Comparative analysis of different data sets 單位:%

        從表5 可以看出:(1)本文數(shù)據(jù)集與涉案新聞數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果相比,RG-1 和RG-2 值提升2.56 個(gè)百分點(diǎn)、1.05 個(gè)百分點(diǎn),本文模型采用異構(gòu)圖構(gòu)建句子之間的關(guān)聯(lián)關(guān)系,通過聚合鄰居節(jié)點(diǎn)信息來更新句子表示,得到與主題相關(guān)的句子,生成更具客觀性與概括性的案件輿情摘要,驗(yàn)證了本文模型采用異構(gòu)圖構(gòu)建文本句子關(guān)系的準(zhǔn)確性與有效性;在NLPCC2017 數(shù)據(jù)集上結(jié)果較差,NLPCC2017數(shù)據(jù)集是一般性的新聞文本,句子間的關(guān)聯(lián)性不強(qiáng),無法捕捉句子之間的關(guān)聯(lián)關(guān)系,生成的摘要效果較差。(2)本實(shí)驗(yàn)通過在不同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文模型的泛化能力,可以看出本文模型可以很好地遷移到其他的數(shù)據(jù)集上,使用范圍廣,對(duì)于在沒有案件要素的情況下,可以采用TFIDF等方法抽取關(guān)鍵詞作為案件要素,最后得到摘要。

        3.4 不同案件要素融入方法對(duì)比分析

        第四組實(shí)驗(yàn)與文獻(xiàn)[6]提出的基于案件要素指導(dǎo)的涉案輿情新聞文本模型進(jìn)行對(duì)比,模型中分別在詞、句子編碼層融入案件要素注意力機(jī)制。GRU表示不引入任何案件要素和關(guān)鍵詞信息的注意力機(jī)制,GRUcase_Attnall表示使用案件要素和關(guān)鍵詞共同作為注意力機(jī)制。結(jié)果如圖4所示。

        圖4 不同案件要素融入方法分析Fig.4 Analysis of integration methods of elements of different cases

        從圖4可以看出,本文模型與GRU和GRUcase_Attnall模型相比,RG-L 值分別有16.57 個(gè)百分點(diǎn)和14.22 個(gè)百分點(diǎn)的提升,本文模型優(yōu)于通過注意力機(jī)制將案件要素信息融入詞、句子雙層編碼的方法。(1)文獻(xiàn)[6]定義“案件名、案發(fā)地、涉案人員、案件描述”四個(gè)案件要素,主要是從文本中抽取得到,使用雙向GRU編碼對(duì)句子編碼,獲得句子和文本的特征,然后通過注意力機(jī)制將案件要素信息融入文本的詞、句子雙層編碼中。這種方法把每個(gè)句子看作相互獨(dú)立的關(guān)系,側(cè)重關(guān)注句子、詞和句子、案件要素之間的關(guān)系,對(duì)于案件長(zhǎng)文本數(shù)據(jù)還應(yīng)該考慮句子之間的關(guān)聯(lián)關(guān)系。(2)在本文模型中,基于案件要素異構(gòu)圖的方法能有效地表示句子間的關(guān)聯(lián)關(guān)系,融入案件要素的圖注意力機(jī)制,能捕捉與案件要素相關(guān)的句子,生成內(nèi)容更加凝練、簡(jiǎn)潔的摘要。(3)本文模型引入異構(gòu)圖能包含更多豐富的節(jié)點(diǎn)信息和語義信息,將多種類型的節(jié)點(diǎn)與邊信息整合,突出與每個(gè)句子節(jié)點(diǎn)相關(guān)聯(lián)的異構(gòu)屬性、異構(gòu)內(nèi)容,包含的節(jié)點(diǎn)類型更廣,語義更豐富。

        3.5 實(shí)例分析

        為進(jìn)一步驗(yàn)證本文模型的有效性,列舉了不同方法獲取案件要素實(shí)現(xiàn)抽取式摘要的結(jié)果。首先,選取“新晃操場(chǎng)埋尸案”案件的相關(guān)文本,針對(duì)該案件,采用兩種抽取關(guān)鍵詞方法得到案件要素,對(duì)輸出摘要進(jìn)行實(shí)例分析,具體如圖5所示。

        圖5 不同方法抽取關(guān)鍵詞生成摘要對(duì)比示例Fig.5 Comparative example of different methods of extracting keywords to generate abstracts

        根據(jù)圖5可以看出,“新晃操場(chǎng)埋尸案”中案件輿情文本主要描述嫌疑人杜少平及其同伙羅光忠對(duì)被害人鄧世平實(shí)施犯罪,以及對(duì)該案件的起因、經(jīng)過和案發(fā)后所牽連人員的處置等多個(gè)不同層次信息的描述:(1)基于TFIDF 的方法專注于描述嫌疑人杜少平審判結(jié)果的細(xì)節(jié),基于TextRank的方法專注杜少平及其同伙羅光忠被依法逮捕并進(jìn)行審判這一細(xì)節(jié)信息,都沒有關(guān)注到被害人鄧世平相關(guān)的具體內(nèi)容,偏離原文主旨。(2)本文構(gòu)建案件輿情摘要數(shù)據(jù)集中的案件要素包含案件名、案件時(shí)間、地點(diǎn)等信息,這些關(guān)鍵信息在摘要和正文文本中都包含,能對(duì)案件進(jìn)行詳盡描述,這也驗(yàn)證了本文構(gòu)建數(shù)據(jù)集時(shí),定義案件要素的科學(xué)性與準(zhǔn)確性。在構(gòu)圖的過程中,把案件要素融入到異構(gòu)圖注意力過程中,盡可能地關(guān)注到與案件要素相關(guān)的句子。(3)TFIDF和TextRank兩種方法獲得的摘要都沒有體現(xiàn)原文的主題信息。相反,本文定義的案件要素能較全面地概括案件的細(xì)節(jié)信息,融入到圖注意力機(jī)制中并篩選出與主題關(guān)聯(lián)性強(qiáng)的句子,能關(guān)注不同層次的不同細(xì)節(jié)信息,多維度把握文章的主題,擴(kuò)大摘要信息的覆蓋面,生成質(zhì)量更高的文本摘要,從而驗(yàn)證了案件要素對(duì)案件輿情文本摘要生成具有重要的指導(dǎo)作用。

        4 結(jié)束語

        本文針對(duì)案件輿情摘要任務(wù),提出一種基于異構(gòu)圖注意力機(jī)制融入案件要素的抽取式摘要模型。將句子、詞及案件要素構(gòu)建為異構(gòu)圖,并基于異構(gòu)圖注意力網(wǎng)絡(luò)進(jìn)行編碼。實(shí)驗(yàn)結(jié)果表明,針對(duì)案件輿情這一特定領(lǐng)域的摘要任務(wù),案件要素的融入能夠提高句子的表示效果,生成更高質(zhì)量的摘要。另外也驗(yàn)證了利用異構(gòu)圖來建模詞、案件要素及句子之間的關(guān)系,相比直接使用注意力機(jī)制來融入案件要素效果更好。

        在下一步的研究中,擬繼續(xù)探索在同一案件下的多文檔輿情新聞?wù)蝿?wù)中,如何利用案件要素來建模跨句子、跨文檔的關(guān)聯(lián)關(guān)系以及如何更好地表征這些關(guān)聯(lián)關(guān)系,從而提升案件輿情多文檔摘要任務(wù)的性能。

        猜你喜歡
        文本信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        国内精品久久久久伊人av| 亚洲最新中文字幕一区| 国产又湿又爽又猛的视频| 亚洲国产精品无码一线岛国| 久久久久久久久蜜桃| 热久久网站| 国产av一区二区内射| 精品国产一区二区三区三级| 成人欧美一区二区三区1314| 四虎在线播放免费永久视频| 久久精品中文字幕免费| 国产天堂av在线一二三四| 狠狠综合久久av一区二区| 国产精品亚洲欧美天海翼| 日韩极品免费在线观看| 精品亚洲麻豆1区2区3区| 精品av天堂毛片久久久| 国产亚洲sss在线观看| 一区二区三区日韩毛片| av无码小缝喷白浆在线观看| 四房播播在线电影| 欧洲国产成人精品91铁牛tv | 福利在线国产| 91青青草在线观看视频| 中文字幕国产精品一二三四五区| 亚洲av无码专区在线播放中文 | 18黑白丝水手服自慰喷水网站| 欧韩视频一区二区无码| 喷潮出白浆视频在线观看| 精品国产一区二区三区18p| 欧洲熟妇色xxxxx欧美老妇伦| 日韩爱爱视频| 久久久精品国产三级精品| 国产三级精品三级| AV无码最在线播放| 亚洲欧洲国产日产国码无码| 免费国产自拍视频在线观看| 精品久久久久久亚洲综合网| 99久久国产综合精品麻豆 | 精品卡一卡二卡3卡高清乱码| 亚洲色自偷自拍另类小说|