亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BETES:一種中文長文檔抽取式摘要方法

        2022-01-21 02:55:02王宗輝李寶安呂學(xué)強游新冬
        關(guān)鍵詞:文本方法模型

        王宗輝,李寶安,呂學(xué)強,游新冬

        1(北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101)2(北京信息科技大學(xué) 計算機(jī)學(xué)院,北京 100101)

        1 引 言

        隨著互聯(lián)網(wǎng)的快速發(fā)展,面對大量的文本信息,如新聞,文獻(xiàn),報告等,傳統(tǒng)的閱讀方式,需要人們自己閱讀全篇,總結(jié)核心內(nèi)容,效率低,成本高,如何快速、準(zhǔn)確的獲取長文本的概括主旨摘要是一個急需解決的問題.

        Tas[1]等人指出文本摘要是將源文本壓縮為縮小版本,以保留其信息內(nèi)容和整體含義.胡俠[2]等人對于中文的摘要生成方法進(jìn)行闡述,介紹了常見的幾種摘要生成的方法.文本摘要方法可以分為抽取式摘要和生成式摘要,抽取式摘要方法包括根據(jù)單詞和句子的特征從文檔中選擇高等級的句子,并將它們放在一起以生成摘要,句子的重要性取決于句子的統(tǒng)計和語言特征,生成式摘要用于理解給定文檔中的主要概念,然后以清晰自然的語言表達(dá)這些概念.抽取式摘要和生成式摘要具有各自的優(yōu)缺點.本文以抽取式摘要為研究對象.

        抽取式摘要的優(yōu)點,可以最大化地保證摘要內(nèi)容來自于原文,抽取式摘要的任務(wù)對象非常適合科技文獻(xiàn),法律文書,醫(yī)療診斷書等文本載體,可以提高摘要內(nèi)容的正確性,避免生成不準(zhǔn)確甚至是錯誤的信息.然而,抽取式摘要也有一定的缺陷,抽取式摘要的對象是文本中的句子,當(dāng)要抽取的數(shù)值確定時,會有正確的摘要句未被抽取,造成摘要內(nèi)容的缺失,而被抽取的摘要內(nèi)容也會有很大冗余.由于中文表達(dá)規(guī)則的寬泛性問題,一個句子所表達(dá)的內(nèi)容并非都是重要的,并非都可以作為摘要組成部分的,以句子為單位的抽取模式摘要存在的冗余性問題較為嚴(yán)重,在一個句子中,可能只有部分內(nèi)容應(yīng)當(dāng)被抽取,其他部分并不符合作為摘要.

        除了抽取式摘要本身的缺陷,在中文長文本抽取式摘要研究方面面臨更大的挑戰(zhàn),當(dāng)前公開主流語料庫文本和摘要長度不足,大多都是短文本,而中文長文本-摘要語料庫數(shù)量不足.同時,在文本向量化方面,目前在摘要抽取領(lǐng)域還是使用Word2Vec和GloVe等早期的詞向量模型,使用最新的Bert預(yù)訓(xùn)練模型對輸入文本進(jìn)行向量化,可以提高長文本語義的捕捉效果.最后,在摘要抽取模型方面,深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,最新的模型應(yīng)用到摘要抽取中可以提高摘要抽取的準(zhǔn)確性.

        針對抽取式摘要存在的問題以及中文長文本抽取式摘要的難點,本文主要有以下幾點貢獻(xiàn):1)構(gòu)建了一個中文科技文獻(xiàn)長文本-摘要語料庫;2)提出了一個中文基本篇章單元(Edu)解析模型,可以識別文本的基本篇章單元,作為抽取式摘要更細(xì)粒度的對象,降低摘要抽取的冗余度;3)通過Bert預(yù)訓(xùn)練模型對于中文長文本進(jìn)行文本向量化,更好地捕捉文本的語義;4)基于Transformer神經(jīng)網(wǎng)絡(luò),訓(xùn)練中文長文本的摘要抽取模型,提高摘要抽取的準(zhǔn)確性.

        2 相關(guān)工作

        2.1 文本向量化

        文本向量化是自然語言處理任務(wù)極其重要的工作,計算機(jī)無法對文本直接讀取,向量化是將高維文本進(jìn)行數(shù)字化,編碼成低維向量.文本早期的向量化方法是基于統(tǒng)計的方法,例如One-hot編碼、TF-IDF、N-Gram,這些早期的編碼方式,代價成本高,特征表示是離散的,稀疏的,向量的維數(shù)過高,且不能表示一詞多義.為了提高模型的精度,降低成本,谷歌在2013年提出了Word2Vec,它是目前最常用的詞嵌入模型之一.基于Word2Vec文本向量化的表示是應(yīng)用比較成熟,比較廣泛的方法,王雪霏[3]利用Word2Vec進(jìn)行中文自動摘要抽取,較之前的方法維度更少,速度更快,通用性更強.除了Word2Vec,GloVe也是一種常見的詞向量模型,GloVe可以被看作是更換了目標(biāo)函數(shù)和權(quán)重函數(shù)的全局Word2Vec,它更容易并行化,速度更快,容易在大規(guī)模語料上訓(xùn)練.

        雖然Word2Vec和Glove效果很好,但是無法針對特定任務(wù)做動態(tài)優(yōu)化,對于長文本很難獲取上下文特征,Kenton[4]等人提出了Bert,Bert預(yù)訓(xùn)練模型的出現(xiàn),可以很好的解決這個問題,更加高效地捕捉更長距離的依賴,可以更好的進(jìn)行上下文表示,因此,利用Bert進(jìn)行文本向量化可以更好地捕捉文本的語義,進(jìn)而應(yīng)用在下游任務(wù)中具有更好的效果.

        2.2 基本篇章單元識別

        對于基本篇章單元,國內(nèi)外很多學(xué)者給出了自己的定義,不同的理論看法并不完全相同,而漢語在語法和表達(dá)上更為復(fù)雜和豐富,當(dāng)前并未完全定義出漢語的基本篇章單元表達(dá)方式,本文認(rèn)為,比較準(zhǔn)確的定義是李艷翠[5]在文中指出,基本篇章單元可以稱為句子的字句,通常是以逗號、分號、句號等標(biāo)點結(jié)尾,每一個字句至少有一個謂語,表達(dá)一個命題,并且是獨立的,不作為其他字句的結(jié)構(gòu),字句之間發(fā)生命題關(guān)系.

        語篇分析中的基本篇章單元的識別是自然語言處理中一個基礎(chǔ)且重要的研究方向,基本篇章單元的識別大致分為兩種方法,第一種是通過自然語言學(xué)的知識,分析篇章和句式結(jié)構(gòu),確定基本篇章單元的表達(dá)形式,通過制定規(guī)則進(jìn)而識別,例如,李艷翠通過分析逗號和基本篇章單元之間的表達(dá)關(guān)系,進(jìn)而實現(xiàn)漢語基本篇章單元的自動識別,Xue[6]等人提出一種逗號分類和歧義消除的方法,以達(dá)到句子的切分,進(jìn)而得到句子中子句,即句子的話語基本單元.另外,為了進(jìn)一步提高識別的準(zhǔn)確性,目前主流的方法,是通過標(biāo)注漢語篇章話題結(jié)構(gòu)語料庫(CDTC)語料庫,通過深度學(xué)習(xí)訓(xùn)練自動識別模型,例如,葛海柱[7]等基于漢語的主述位,通過LSTM深度學(xué)習(xí)模型來識別基本篇章單元,Kong[8]等采用“連接驅(qū)動的依賴樹”方案的端到端中文語篇解析模型,來獲取基本篇章單元,這些深度學(xué)習(xí)方法,雖然提高了識別準(zhǔn)確度,但是,需要標(biāo)注大量的語料庫,人力和時間成本較大,不利于在其他領(lǐng)域直接靈活使用.

        2.3 抽取式摘要方法

        對于抽取式摘要的方法,Moratanch[9]等人提出提取摘要技術(shù)包括從原始手稿中選擇重要的句子,段落等,并將它們串聯(lián)成較短的形式.句子的重要性嚴(yán)重依賴句子的統(tǒng)計和語言特征.抽取式摘要的方法,在方法類型上大致分為兩類,無監(jiān)督方法和有監(jiān)督方法.在無監(jiān)督方法中,Lin[10]提出了一種基于圖算法思想的方法,為要匯總的文檔建立了語義圖,然后將摘要提取公式化為優(yōu)化語義圖上定義的子模塊函數(shù).Erkan[11]介紹了一種基于隨機(jī)圖的方法來計算自然語言處理中文本單元的相對重要性,提出了一種新的方法LexRank,它基于句子圖形表示中的特征向量中心性概念來計算句子重要性,進(jìn)而對句子抽取.除了基于圖算法思想的無監(jiān)督方法,Sankara[12]使用Wikipedia來獲取每個句子的概念,建立概念矢量或圖形模型來描述概念與句子之間的關(guān)系,應(yīng)用排名算法進(jìn)行評分句子,根據(jù)句子的排名分?jǐn)?shù)生成摘要.另外吳佳偉[13]提出了一種基于Bigram關(guān)鍵詞語義擴(kuò)充的事件摘要方法用于文本摘要的抽取.無監(jiān)督方法應(yīng)用在摘要抽取工作上,方法簡單,摘要句抽取快速,不受語料庫的限制.然而,受制于沒有正確摘要句的參考,抽取算法是根據(jù)人工規(guī)則或者文章的特點來制定,因此,摘要句抽取不準(zhǔn)確,抽取方法應(yīng)用不靈活.

        隨著機(jī)器學(xué)習(xí),深度學(xué)習(xí)等有監(jiān)督的方法的發(fā)展,有監(jiān)督的方法在摘要生成方面應(yīng)用越來越多,有監(jiān)督的方法大致可以分為3種,基于條件隨機(jī)場方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法.早期,Batcha[14]提出了一種基于條件隨機(jī)場(CRF)的ATS,它可以識別和提取正確的特征,使用一種可訓(xùn)練的監(jiān)督方法進(jìn)行摘要生成.Neto[15]等人基于可訓(xùn)練機(jī)器學(xué)習(xí)算法的應(yīng)用提出一個摘要程序,首先統(tǒng)計文本中某些元素的頻率,之后從文本的簡化論證結(jié)構(gòu)中提取,該算法可以直接從原始文本中提取的一組摘要.孟令閣[16]等人以SVM和MMR摘要提取算法為基礎(chǔ),針對當(dāng)前的會議圍繞某個主題進(jìn)行討論、交流的特點,以主題關(guān)鍵詞為依據(jù)進(jìn)行打分,選取評分靠前的句子作為摘要.機(jī)器學(xué)習(xí)方法應(yīng)用在摘要抽取工作上,可以根據(jù)語料庫的特點,自動學(xué)到抽取特征,摘要句抽取更準(zhǔn)確,任務(wù)細(xì)化更具體,但是,機(jī)器學(xué)習(xí)也有它自身的缺點,當(dāng)數(shù)據(jù)量較大時,機(jī)器學(xué)習(xí)算法效率較低,當(dāng)數(shù)據(jù)多樣化時,抽取方法的靈活性低,無法根據(jù)復(fù)雜的數(shù)據(jù),形成更好的抽取方法.

        近幾年,神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法已經(jīng)成為文本摘要的主流方法,伴隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,摘要生成的方法也在快速更新迭代.RNN是神經(jīng)網(wǎng)絡(luò)中的典型代表,Nallapati[17]等人介紹了SummaRuNNer,這是一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的序列模型,用于文檔的摘要提取,并顯示與常規(guī)技術(shù)相比,其性能更好.除了循環(huán)神經(jīng)網(wǎng)絡(luò),將圖像領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在摘要生成方向上,例如,Wang[18]提出了一種深度學(xué)習(xí)方法,通過將主題信息納入卷積序列到序列(ConvS2S)模型中并使用自關(guān)鍵序列訓(xùn)練(SCST)進(jìn)行優(yōu)化來解決自動摘要任務(wù).基于LSTM在處理序列數(shù)據(jù)長距離依賴關(guān)系的優(yōu)越性,Jadhav A[19]提出了一種新的用于提取摘要的神經(jīng)序列到序列模型SWAP-NET,實現(xiàn)自動摘要獲取,提升了文本摘要的質(zhì)量.到后來,Vaswani[20]提出了Attention機(jī)制,基于此思想的Transformer神經(jīng)網(wǎng)絡(luò)最初應(yīng)用在機(jī)器翻譯任務(wù)中,取得了非常好的效果,當(dāng)前,基于Transformer神經(jīng)網(wǎng)絡(luò)的中文摘要任務(wù)應(yīng)用并不廣泛,隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,自然語言處理工作應(yīng)該緊密跟隨最新的神經(jīng)網(wǎng)絡(luò),通過最新的神經(jīng)網(wǎng)絡(luò),應(yīng)用在特定任務(wù)上以達(dá)到更好的效果.

        3 中文長文檔抽取式摘要方法(BETES)

        針對中文長文本的摘要抽取中存在的問題,為了提高摘要句抽取的準(zhǔn)確性,降低抽取摘要的冗余,提出了一種BETES方法,該方法主要有3部分組成:

        文本向量化部分:對輸入文本進(jìn)行預(yù)處理,進(jìn)行分句、分詞、標(biāo)識符插入等操作,使用中文Bert預(yù)處理模型,對文本進(jìn)行向量化.

        基本篇章識別部分:設(shè)計一個基于規(guī)則的基本篇章單元識別模型,針對中文科技文獻(xiàn)長文本,可以實現(xiàn)自動識別文本的基本篇章單元.

        摘要抽取模型:設(shè)計一個基于Transformer的神經(jīng)網(wǎng)絡(luò)抽取模型,可以將上述生成的基本篇章單元自動抽取,然后對抽取后基本篇章單元進(jìn)行融合,生成最終的摘要.

        BETES方法的整體框架如圖1所示,各個部分的內(nèi)容將在后續(xù)小節(jié)中詳細(xì)闡述.

        圖1 BETES方法整體框架圖Fig.1 Overall frame diagram of BETES method

        3.1 文本向量生成模型

        對于中文長文本數(shù)據(jù),根據(jù)Bert預(yù)訓(xùn)練模型的思想,需要進(jìn)行3部分編碼,即詞嵌入,區(qū)間段嵌入,位置嵌入,將3部分的文本編碼相加,最終得到整個篇章中的句子編碼,文本向量生成模型結(jié)構(gòu)圖如圖2所示.

        圖2 文本向量生成模型Fig.2 Text vector generation model

        對于一篇文本D={S1,S2,…,Si},有i個句子,首先,將輸入文本通過兩個特殊標(biāo)記進(jìn)行預(yù)處理,對每個句子之前插入一個[CLS]標(biāo)識,在原始Bert中[CLS]用來從一個句子或一對句子中聚合特征,在每個句子后面插入一個[SEP]標(biāo)識,通過多個這樣的標(biāo)識,可以表示一篇文本的順序特征,然后對文本進(jìn)行分詞預(yù)處理,采用StanfordNLP工具包對文本進(jìn)行分詞.通過3部分的工作完成中文長文本的向量化表示:

        1)首先定義Vt為文本的字符嵌入,通過Bert預(yù)處理模型進(jìn)行編碼,對每個字符進(jìn)行嵌入;

        2)定義Vs為文本的區(qū)間嵌入,使用區(qū)間嵌入來區(qū)分文本中的多個句子,當(dāng)句子編號i為奇數(shù)時,將句子Si定義為EA,與之對應(yīng),當(dāng)句子編號i為偶數(shù)時,句子Si定義為EB;

        3)定義Vn為文本的位置嵌入,對分詞后的文本,共有n個字符,定義[E[注]w_zh092@163.com,E2,…,En]表示每個字符的順序.

        最后,通過[CLS]和[SEP]來區(qū)分每個句子的位置,每個句子向量表示為Ti=[VtVsVn],i∈D,這樣就完成了文本的向量化工作.

        3.2 基本篇章單元識別模型

        當(dāng)前對于文本基本篇章單元的識別,是通過標(biāo)注語料庫,訓(xùn)練深度學(xué)習(xí)識別模型,使用模型識別基本篇章單元.基于深度學(xué)習(xí)的方法雖然會提高識別的準(zhǔn)確率,但會消耗大量的人力和時間成本.經(jīng)過綜合考慮,本文的對象是中文長文本科技文獻(xiàn),在語言描述和句式句法上相對比較固定,本文的目的是快速獲取文本的基本篇章單元,靈活地整合到整個摘要抽取框架中,因此,針對當(dāng)前工作的實際需求,提出一個基本篇章單元的快速識別模型,流程圖如圖3所示.

        圖3 Edu識別模型Fig.3 Edu recognition model

        中文長文本基本篇章單元識別流程如下:

        1)對于輸入文本,使用Berkeley NLP工具,以中文常見的整句標(biāo)點為界限,如句號,問號,感嘆號等,對文本進(jìn)行分句,得到文本整句.

        2)根據(jù)逗號從句原則,對整句進(jìn)一步分句,以逗號為界限,得到整句的字句,同時,對每個字句區(qū)分左右,并標(biāo)記為左從句和右從句.

        3)對得到的子句,使用Jieba分詞工具對每個子句進(jìn)行分詞.

        4)對分詞后的字句,使用Jieba詞性識別工具,對每個詞進(jìn)行詞性識別.

        5)以逗號為標(biāo)志點分割的字句,并不是都可以作為基本篇章單元,因此,需要規(guī)則進(jìn)行判定,針對中文科技文獻(xiàn)的句式表達(dá),參考Jin[21]等人總結(jié)的從句分割規(guī)則,用Python語言實現(xiàn)了這些規(guī)則,制定了一個基本篇章單元識別規(guī)則庫(部分規(guī)則如表1所示),通過規(guī)則匹配對子句進(jìn)行識別,最終得到一個句子的基本篇章單元.

        表1 基本篇章單元識別規(guī)則
        Table 1 Edu recognition rules

        序號規(guī) 則1從句出現(xiàn)動詞2從句出現(xiàn)單詞‘的’、‘地’、‘得’3從句的最后一個單詞是‘時間’4從句出現(xiàn)單詞‘把’、‘被’5從句出現(xiàn)介詞6從句的第一個單詞是代詞7…(注1:規(guī)則庫的規(guī)則并未全部列出,詳細(xì)規(guī)則可以通過聯(lián)系方式獲得)

        基本篇章單元的算法流程如下:

        算法1.Edus Discriminate

        Input:Text

        Output:Edus

        1.functionDiscriminateEdus(Text)

        2. Sentens[]= Berkeley_Parser(Text)

        3. S = Sentens[S1,S2,…,Sn]

        4.fori = 1 to ndo

        5. Seg_L or Seg_R = Berkeley_Parser[i]

        6. Words_L[]= Jieba_Cut(Seg_L)

        7. Words_R[]= Jieba_Cut(Seg_R)

        8.forj = 1 to l;k = 1 to rdo

        9. Words_L_tag = Jieba_PosTag(Words_L[j])

        10. Words_R_tag = Jieba_PosTag(Words_R[k])

        11.IfWords_L[]or Words_R[]in RULES then

        12. Seg_L or Seg_R is Edu

        13.else

        14. Seg_L or Seg_R is Edu

        15.endif

        16.endfor

        17.endfor

        18.returnEdus

        3.3 摘要句抽取模型

        抽取式摘要的工作,通常被認(rèn)為是對原始文本的句子進(jìn)行分?jǐn)?shù)排名,選取分?jǐn)?shù)排名最高的句子組合,作為最終的摘要,通過上文的工作,本文的對象是更細(xì)粒度的基本篇章單元的抽取,因此本文的模型是抽取分?jǐn)?shù)排名較高的基本篇章單元,這在原理和方法上與摘要句的抽取是相通的.

        對于文本的摘要句進(jìn)行抽取,主流方法是深度學(xué)習(xí)方法,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型對句子自動抽取,例如,沈向東[22]提出了一種新穎的端到端神經(jīng)網(wǎng)絡(luò)框架,用于文本摘要自動抽取,Zhou[23]等的提出了一種新穎的端到端神經(jīng)網(wǎng)絡(luò)框架,用于提取文檔摘要.可以看出,當(dāng)前常見的方法,無論是LSTM還是GRU,大多還是以循環(huán)神經(jīng)網(wǎng)絡(luò)作為基線.在機(jī)器翻譯領(lǐng)域,Transformer神經(jīng)網(wǎng)絡(luò)的優(yōu)越性已經(jīng)得到充分的驗證,針對英文數(shù)據(jù)集,基于Transformer的神經(jīng)網(wǎng)絡(luò)也用于文本摘要任務(wù)中,效果提升明顯.因此,對于中文長文本,本文提出一個基于Transformer的神經(jīng)網(wǎng)絡(luò)抽取模型,對上文生成的基本篇章單元進(jìn)行抽取,最終生成摘要.

        本文的抽取模型是3層Transformer疊加,每個Transformer是一種全Attention機(jī)制的Seq2Seq模型,它的結(jié)構(gòu)是由Encoder和Decoder組成.下面將介紹如何使用Transformer實現(xiàn)基本篇章單元的抽取模型,結(jié)構(gòu)圖如圖4所示.

        圖4 抽取模型圖Fig.4 Extraction model

        Transformer是由6個編碼器和6個解碼器組成,其中Encoder結(jié)構(gòu)圖如圖4左邊所示,輸入對象是一個長文本,根據(jù)Transformer模型的輸入,使用公式(1)-公式(3)對輸入文本Ti進(jìn)行PositionalEncodings(PE):

        Pi=PE(Ti)

        (1)

        PE(pos,2i)=sin((pos/10000^(2i/dmodel)))

        (2)

        PE(pos,2i+1)=cos((pos/10000^(2i/dmodel)))

        (3)

        對于編碼器的輸入向量Xi,公式(4)將InputsEncodings和PositionalEncodings組成編碼器的輸入向量:

        Xi=[Ti,Pi]

        (4)

        初始化3個矩陣WQ,Wk,WV,使用公式(5)分別和Xi相乘,得到Q,K,V:

        Q=Xi×WQ;W=Xi×Wk;V=Xi×WV

        (5)

        對當(dāng)前輸入狀態(tài)使用公式(6),計算Attention:

        (6)

        使用多頭注意力機(jī)制進(jìn)一步計算MultiHeadAttention則是通過公式(7)、公式(8)對h個不同的線性變換對Q,K,V進(jìn)行投影,最后將不同的Attention結(jié)果拼接起來.

        (7)

        MultiHead(Q,K,V)=Concat(head1,…,headh)Wo

        (8)

        接著對MultiHead的輸出Z進(jìn)行一次相加歸一化計算,再經(jīng)過一個前饋網(wǎng)絡(luò),對輸出Z通過公式(9)計算:

        FFN(Z)=max(0,ZW1+b1)W2+b2

        (9)

        最后再進(jìn)行一次相加歸一化計算,這樣整個Encoder層就完成了.

        對于Decoder層,如圖4右邊所示,結(jié)構(gòu)和Encoder層相同,只是在最前面一層加上MaskedMultiHeadAttention,對于Decoder中的第一個多頭注意力子層,需要添加Masking,確保預(yù)測位置i的時候僅僅依賴于i位置小于的輸出,確保預(yù)測第i個位置時不會接觸到未來的信息.

        在Decoder結(jié)束后,使用一個線性層做輸出,通過公式(10)做分類,判斷當(dāng)前輸入文本是否應(yīng)該被抽取.

        Y=Softmax(Xi)

        (10)

        其中,1代表抽取,0代表不抽取.

        4 實 驗

        針對中文長文本,首先建立了一個中文長文本-摘要數(shù)據(jù)集,對于實驗的設(shè)置,在三個維度上,設(shè)置了九組對比實驗,在評測指標(biāo)上,選擇ROUGE評測指標(biāo),證明了提出的BETES方法的有效性.

        4.1 數(shù)據(jù)集

        在中文文本自動摘要領(lǐng)域,文本-摘要數(shù)據(jù)集比較少,目前主流的數(shù)據(jù)集有兩個,分別是哈工大LCSTS新浪微博短文本新聞?wù)獢?shù)據(jù)集和NLPCC(2015、2017、2018)中文新聞?wù)獢?shù)據(jù)集,除了上述主流的公開語料庫外,還有一些其他語料庫,例如,教育新聞自動摘要語料庫、娛樂新聞文本摘要語料庫、中文科學(xué)文獻(xiàn)數(shù)據(jù)集(CSL)等.然而,在這些常見語料庫中,原文本和生成的摘要長度都較短,對3個語料庫的數(shù)據(jù)長度統(tǒng)計分析,如表2所示.

        表2 語料庫長度統(tǒng)計
        Table 2 Corpus length statistics

        數(shù)據(jù)集文本平均長度摘要長度LCSTS11214NLPCC2017103645CSL23520

        由表2可以看出,當(dāng)前主流的文本摘要數(shù)據(jù)集,文本和摘要的長度都很短,即使是NLPCC的數(shù)據(jù)集,長度只能是中篇文本,中文長文本摘要數(shù)據(jù)集目前處于缺失狀態(tài),符合一定長度要求的文本比較難獲取,手動構(gòu)建過程比較困難,會消耗大量人力和物力.針對中文長文本摘要語料庫的不足的情況,本文構(gòu)建了一個的中文長文本-摘要數(shù)據(jù)集,數(shù)據(jù)集的構(gòu)建過程如下.

        首先,在人工智能領(lǐng)域,選取了10個方向,數(shù)據(jù)來源為知網(wǎng)和萬方文獻(xiàn)網(wǎng)站,通過手動和自動相結(jié)合方法,獲得中文長文科技文獻(xiàn),進(jìn)而構(gòu)建文本-摘要語料庫.

        構(gòu)建科技文獻(xiàn)的摘要,摘要句的表達(dá)有著特定的表達(dá)方式,使用溫浩[24]總結(jié)出的科技文獻(xiàn)創(chuàng)新點語句的表達(dá)方式,提取出能夠構(gòu)建摘要的句子,同時將文獻(xiàn)的原始摘要作為參考,將提取出來的句子和原始摘要進(jìn)行篩選組合,并輔以人工過濾篩選,構(gòu)建科技文獻(xiàn)的摘要.

        構(gòu)建的中文長文本-摘要數(shù)據(jù)集,經(jīng)過篩選和處理,有3208篇科技文獻(xiàn),經(jīng)過統(tǒng)計分析,數(shù)據(jù)集的文本平均長度為3802,摘要平均長度為145.本文使用的語料庫公開在注[注]https://drive.google.com/file/d/1tfml9zC37WoTRfaNL6efjrrmcRbMizmq/view?usp=sharing.

        4.2 對比實驗

        通過上文介紹的方法,本文在3個維度上進(jìn)行對比實驗,首先是文本向量化方法上的對比,其次是應(yīng)用基本篇章單元方法的對比,最后是模型方法上的對比.

        文本向量化實驗:本文選擇當(dāng)前主流的中文文本向量化的方式,Word2Vec和GloVe詞向量模型,來驗證本文提出的文本向量化方法的有效性,Word2Vec和GloVe都采用中文維基百科的預(yù)訓(xùn)練模型,詞向量設(shè)置為300維,對比實驗采用BERT-Base-Chinese中文預(yù)訓(xùn)練模型.在抽取模型選擇上,為了節(jié)省訓(xùn)練成本,本文只選取了簡單的線性分類器進(jìn)行訓(xùn)練,通過二元分類,進(jìn)而抽取摘要句.

        抽取模型對比實驗:在模型的對比實驗上,本文選擇主流的摘要抽取模型方法,設(shè)置了4組對比實驗,分別是:

        1)強化學(xué)習(xí)抽取模型,使用Narayan[25]等提出的一種新穎的抽取方法,首先使用Glove對文本向量化表示,然后將句子選取概念化為對句子打分,通過強化學(xué)習(xí)目標(biāo)來全局優(yōu)化ROUGE評估指標(biāo),選取分?jǐn)?shù)最高的句子.

        2)雙向LSTM神經(jīng)網(wǎng)絡(luò)抽取模型,以Bi-LSTM作為神經(jīng)網(wǎng)絡(luò)進(jìn)行抽取模型訓(xùn)練也是當(dāng)前主流的一種抽取式摘要的方法,本文使用Xiao[26]在論文中提出的Bi-LSTM摘要句抽取方法,使用Glove進(jìn)行文本向量化,Bi-LSTM搭建神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對文本進(jìn)行摘要句的抽取.

        3)Bi-LSTM+Attention抽取模型,在實驗3的基礎(chǔ)上,保持文本向量化相同,同時在LSTM的基礎(chǔ)上加入Attention機(jī)制,這是當(dāng)前在NLP領(lǐng)域比較常見的神經(jīng)網(wǎng)絡(luò)模型.

        4)BETES模型方法是采用Bert進(jìn)行文本向量化,使用Beet+Transformer抽取模型,為了實驗的嚴(yán)謹(jǐn)性,排除Bert文本向量化帶來的影響,僅對比在模型上的差距,使用Bert+Bi-LSTM,對原文Glove文本向量化替換為Bert文本向量化,這樣就保證了在同一維度上的公平性.

        基本篇章單元對比實驗:除了上述文本向量化的對比實驗,為了驗證本文提出的BETES方法,以基本篇章單元作為更細(xì)粒度的抽取對象,在抽取式摘要任務(wù)中的有效性.在實驗4的基礎(chǔ)上,采用Bert進(jìn)行文本向量化表示,通過基本篇章單元識別算法,獲取文本的基本篇章單元,采用基于Transformer的神經(jīng)網(wǎng)絡(luò)抽取模型,以驗證文本提出的BETES方法的最終效果.

        4.3 實驗過程

        實驗均在PyTorch 1.4.0環(huán)境上,采用4塊TeslaV100 GPU并行訓(xùn)練,對比實驗的方法詳細(xì)介紹如下.

        對比實驗1中,采用簡單的機(jī)器學(xué)習(xí)方法,只設(shè)置一個線性分類器,選擇SoftMax分類器,在文本向量化之后,通過分類對句子進(jìn)行分類,識別是否可以被選擇為摘要句.

        對比實驗2中,由于原文數(shù)據(jù)集是英文,在文本向量化上,本文統(tǒng)一使用Glove詞向量模型,詞向量設(shè)置為200維,批次大小為20,每一批次訓(xùn)練20輪,學(xué)習(xí)率為0.001,損失函數(shù)采用文中提出的基于強化學(xué)習(xí)的損失函數(shù).

        對比實驗3中,采用雙向LSTM,其中,LSTM中隱藏單元數(shù)為300,每次訓(xùn)練數(shù)據(jù)的批次大小為128,學(xué)習(xí)率為0.0001,采用二元交叉熵?fù)p失函數(shù),每個批次經(jīng)過50輪的訓(xùn)練,多層感知機(jī)的最后一層為100維,最后通過1維線性層,計算句子被抽取的最大概率.

        對比實驗4中,Bert模型中dropout為0.1,隱藏層單元數(shù)為768,隱藏層數(shù)為12,采用glue激活函數(shù),神經(jīng)網(wǎng)絡(luò)為兩層transformer,學(xué)習(xí)率為0.002,經(jīng)過10000步的訓(xùn)練,在最后一層為1維線性層,得出句子被抽取的概率.

        在基本篇章單元對比實驗中,實驗過程在對比實驗4的基礎(chǔ)上,通過本文提出的基本篇章單元識別模型,識別基本篇章單元,然后作為輸入,利用Bert+Transformer的抽取方法,實現(xiàn)基本篇章單元的抽取,將抽取后的基本篇章單元根據(jù)標(biāo)點和抽取順序融合為最終的摘要.

        4.4 實驗結(jié)果及評測

        本文的評測指標(biāo),使用ROUGE作為本文實驗結(jié)果的評測指標(biāo),ROUGE是Lin[27]在2004年提出的一種準(zhǔn)對摘要生成任務(wù)的一種評測方法,現(xiàn)在已經(jīng)成為應(yīng)用最廣泛的評測指標(biāo),分別計算ROUGE-1,ROUGE-2和ROUGE-L的F1值,來評測各個對比實驗的結(jié)果,實驗的結(jié)果如表3所示.

        表3 實驗結(jié)果
        Table 3 Experimental result

        實 驗ROUGE-1ROUGE-2ROUGE-L1Word2Vec+Classifier29.2012.2428.722GloVe+ Classifier29.2513.3328.513Bert+ Classifier30.1115.4529.454GloVe+RL35.1015.2433.475GloVe+Bi-LSTM36.3315.9633.836GloVe+Bi-LSTM+Atten-tion37.2616.8734.277Bert+Bi-LSTM38.2119.6835.198Bert+Transformer39.5120.0636.349Ours BETES39.9320.5737.74

        進(jìn)一步,為了更直接的對比各個實驗的結(jié)果,對各個對比實驗的結(jié)果的柱狀圖如圖5所示.

        通過實驗結(jié)果看出,在文本向量化模型的選擇上,在保證抽取方法一致性的情況下,Word2Vec和GloVe詞向量模型效果差距很小,而使用Bert進(jìn)行文本向量化的效果,會比使用Word2Vec和GloVe詞向量模型有著明顯的提高.在摘要句的抽取模型上,排除文本向量化的影響,使用Bert+Transformer作為摘要抽取模型,效果會優(yōu)于當(dāng)前主流的摘要抽取模型.最后一個對比實驗,在確定最優(yōu)的抽取模型后,使用基本篇章單元作為更細(xì)粒度的抽取對象時,摘要句的抽取效果會進(jìn)一步提高,因此,證明了所提出的BETES方法的有效性.使用對比實驗中得出的最優(yōu)抽取模型Bert+Transformer對中文科技文獻(xiàn)做抽取.同時,使用本文BETES方法作對比,實例對比結(jié)果如表4所示.

        通過表4可以看出,在使用了最好的抽取模型Bert+Transformer對長文檔進(jìn)行摘要句抽取時,模型可以抽取句子數(shù)量是固定的,當(dāng)數(shù)值較大時,會造成摘要的冗余,增大了模型的訓(xùn)練量,當(dāng)數(shù)值較小時,可能未抽取到需要的句子,造成摘要句的缺失,影響最終摘要的準(zhǔn)確性.而BETES方法以基本篇章單元作為更細(xì)粒度的抽取對象,在抽取句子過程中,很多冗余信息,不必要抽取,對基本篇章單元進(jìn)行抽取,可以降低抽取的摘要的冗余度,實現(xiàn)對更多信息進(jìn)行抽取,避免了最終摘要信息缺失,最終,證明了本文方法的有效性.

        表4 實例結(jié)果對比
        Table 4 Comparison of case results

        參考摘要Bert+Transformer抽取模型BETES方法針對人臉識別技術(shù)難點問題,本文采用了新的改進(jìn)型PCA和LDA融合算法的人臉圖像識別方法.本文提出了改進(jìn)型PCA和LDA融合算法人臉圖像識別方法,有效地降低光照不均勻?qū)θ四樧R別所造成的影響,從而拓展了PCA算法的應(yīng)用條件.運用改進(jìn)的PCA算法對訓(xùn)練圖像降維,最后再對降維以后的特征采用LDA算法,訓(xùn)練出一個最具判別力的分類器,實驗證明,本文提出的方法,對光照不均勻、表情變化的人臉具有一定的魯棒性,具有很好的人臉識別性能,提高了其識別精度,其識別率高于傳統(tǒng)的PCA算法.從識別曲線中可以看出,其改進(jìn)的PCA和LDA融合算法,比傳統(tǒng)的PCA算法識別率有了很大的提高.針對人臉識別技術(shù)難點問題,本文采用了新的改進(jìn)型PCA和LDA融合算法的人臉圖像識別方法.本文提出了改進(jìn)型PCA和LDA融合算法人臉圖像識別方法,有效地降低光照不均勻?qū)θ四樧R別所造成的影響,從而拓展了PCA算法的應(yīng)用條件.運用改進(jìn)的PCA算法對訓(xùn)練圖像降維,最后再對降維以后的特征采用LDA算法,訓(xùn)練出一個最具判別力的分類器,實驗證明,本文提出的方法,對光照不均勻、表情變化的人臉具有一定的魯棒性,具有很好的人臉識別性能,提高了其識別精度,其識別率高于傳統(tǒng)的PCA算法.目前,在眾多的人臉識別方法中其中以主成分分析法(PCA 算法)居多.雖然傳統(tǒng)的PCA 算法在人臉識別中應(yīng)用很廣,但其也有自身的缺陷.針對人臉識別技術(shù)難點問題,本文采用了新的改進(jìn)型PCA和LDA融合算法的人臉圖像識別方法.實驗證明,本文提出的方法具有很好的人臉識別性能,提高了其識別精度,優(yōu)于傳統(tǒng)的PCA算法,其效果令人滿意.本文提出了改進(jìn)型PCA和LDA融合算法人臉圖像識別方法, 有效地降低光照不均勻?qū)θ四樧R別所造成的影響,從而拓展了PCA算法的應(yīng)用條件.運用改進(jìn)的PCA算法對訓(xùn)練圖像降維, 最后再對降維以后的特征采用LDA算法, 訓(xùn)練出一個最具判別力的分類器, 實驗證明,本文提出的方法,對光照不均勻、表情變化的人臉具有一定的魯棒性,具有很好的人臉識別性能,提高了其識別精度,其識別率高于傳統(tǒng)的PCA算法.從識別曲線中可以看出, 其改進(jìn)的PCA和LDA融合算法,比傳統(tǒng)的PCA算法識別率有了很大的提高.

        5 結(jié) 論

        本文針對中文長文本抽取式摘要任務(wù),構(gòu)建了一個小型的中文長文本-摘要數(shù)據(jù)集,提出了一種BETES方法,利用Bert對中文長文本進(jìn)行文本向量化,通過將文本解析成更細(xì)粒度的基本篇章單元,使用基于Transformer的神經(jīng)網(wǎng)絡(luò)抽取模型,對摘要句進(jìn)行抽取,實驗結(jié)果表明,BETES方法提高了摘要句抽取的準(zhǔn)確性、降低了摘要的冗余度,優(yōu)于當(dāng)前主流的抽取式摘要方法.

        猜你喜歡
        文本方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        男女18禁啪啪无遮挡| 亚洲夫妻性生活视频网站| 久草视频在线视频手机在线观看| 亚洲国产av一区二区三区天堂| av色欲无码人妻中文字幕| 久久精品国产亚洲av麻豆| 国产国拍亚洲精品mv在线观看| 水蜜桃一二二视频在线观看免费 | 凹凸国产熟女精品视频app| 无码人妻丰满熟妇片毛片 | 亚洲av日韩av天堂久久| 四虎影视在线观看2413| 久久人妻av无码中文专区| 国产精品一区二区韩国av| 精品乱码一区内射人妻无码 | 99精品国产兔费观看久久| 日本特殊按摩在线观看| 亚洲自偷精品视频自拍| 亚洲精品无码久久久影院相关影片| 亚洲色偷偷色噜噜狠狠99| 亚洲国产高清在线视频| 97超碰精品成人国产| 人妻聚色窝窝人体www一区| 在线亚洲人成电影网站色www| 亚洲成人免费观看| 国产一品二品三品精品久久| 色大全全免费网站久久| 熟女人妻在线视频| 国产精品一区二区三级| 午夜少妇高潮在线观看视频| 麻豆av一区二区三区| 欧美成人小视频| 日日麻批视频免费播放器| 欧美性受xxxx黑人猛交| 初尝黑人巨砲波多野结衣| 亚洲精品黄网在线观看| 久久99国产精品久久99密桃| 国产亚洲精品美女久久久m| 色欲麻豆国产福利精品| 免费一区二区三区视频狠狠| 亚洲永久免费中文字幕|