亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于指針網(wǎng)絡(luò)生成抽象式新聞?wù)?/h1>
        2020-06-16 10:40:58黃繼風(fēng)宋俊典陳海光
        關(guān)鍵詞:解碼器指針編碼器

        郭 倩 黃繼風(fēng) 宋俊典 陳海光

        1(上海軟中信息技術(shù)有限公司 上海 200030)

        2(上海師范大學(xué)信息與機(jī)電工程學(xué)院 上海 200030)

        0 引 言

        自動(dòng)文本摘要技術(shù)是自然語言處理的一項(xiàng)重要分支和基礎(chǔ)性研究工作,隨著文本信息的爆發(fā)式增長,從大量文本信息中提取關(guān)鍵信息成為業(yè)界發(fā)展的迫切需求,自動(dòng)文本摘要技術(shù)的研究對于緩解這項(xiàng)需求有著重要意義。目前,自動(dòng)文本摘要技術(shù)分為兩大類,抽取式文本摘要和抽象式文本摘要。抽取式文本摘要是指根據(jù)詞頻排序算法,利用統(tǒng)計(jì)學(xué)算法從原文本中直接抽取排名靠前的句子,這種方法簡單易實(shí)現(xiàn)且生成的摘要基本符合語法結(jié)構(gòu),是目前用的比較多的方法。抽取式文本摘要主要的研究工作有2017年翟飛飛等[2]提出的基于神經(jīng)網(wǎng)絡(luò)的抽取式網(wǎng)絡(luò)模型。

        抽象式文本摘要的研究現(xiàn)狀并不是很成熟。隨著近幾年深度學(xué)習(xí)理論算法的應(yīng)用及開發(fā)框架的不斷成熟,抽象式文本摘要的研究也取得了很大的進(jìn)步。2015年Rush等[4]首次采用神經(jīng)網(wǎng)絡(luò)模型生成抽象式文本摘要。2016年Nallapati等[5]又提出了新的編碼器解碼器結(jié)構(gòu),編碼器采用卷積神經(jīng)網(wǎng)絡(luò),解碼器采用循環(huán)神經(jīng)網(wǎng)絡(luò)(CNN-RNN)模型結(jié)構(gòu)。2017年P(guān)aulus等[6]首次提出基于RNN生成抽象式文本摘要。

        本實(shí)驗(yàn)在加入注意力機(jī)制的編碼器解碼器模型的基礎(chǔ)上,引入了指針網(wǎng)絡(luò)來緩解生成的摘要不符合原文的現(xiàn)象。并且利用加入注意力機(jī)制的編碼器解碼器模型生成新詞,達(dá)到生成抽象新聞?wù)哪康摹@弥羔樉W(wǎng)絡(luò)從原文中取詞,使得生成的摘要更準(zhǔn)確,能夠更好地符合原文意思。采用指針網(wǎng)絡(luò)生成抽象式文本摘要的工作流程主要包括數(shù)據(jù)集的獲取及預(yù)處理、網(wǎng)絡(luò)模型的搭建、模型的優(yōu)化調(diào)參、實(shí)驗(yàn)結(jié)果的評測等。

        1 實(shí)驗(yàn)前期準(zhǔn)備

        實(shí)驗(yàn)開始前需要對實(shí)驗(yàn)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理階段是整個(gè)實(shí)驗(yàn)的開始,也是非常關(guān)鍵的一步,因?yàn)楦蓛舻臄?shù)據(jù)集對于實(shí)驗(yàn)結(jié)果的影響至關(guān)重要,本實(shí)驗(yàn)采用搜狐語料庫作為數(shù)據(jù)集,對網(wǎng)絡(luò)模型進(jìn)行驗(yàn)證。整個(gè)實(shí)驗(yàn)的流程如圖1所示。

        圖1 生成新聞?wù)墓ぷ髁鞒?/p>

        實(shí)驗(yàn)所用的開發(fā)環(huán)境為Linux操作系統(tǒng),開發(fā)語言為Python 2.7,開發(fā)框架為TensorFlow 1.0,開發(fā)工具為Pycharm 2017.1與Sublime組合,需要安裝Pyrouge評測工具及NumPy庫,整個(gè)模型訓(xùn)練在HP Z440工作站上進(jìn)行。

        1.1 新聞?wù)Z料庫的獲取

        實(shí)驗(yàn)語料庫是從搜狐官網(wǎng)下載的完整版的zip格式的壓縮文件,大小為648 MB。其中包含2012年6月至7月期間國內(nèi)、國際、體育、社會(huì)、娛樂等18個(gè)頻道的新聞數(shù)據(jù),下載的數(shù)據(jù)包括URL、新聞標(biāo)題和正文信息。

        1.2 數(shù)據(jù)清洗

        具體數(shù)據(jù)清洗的步驟如下:

        (1) 把搜狐語料庫采轉(zhuǎn)換成UTF-8編碼,再去標(biāo)簽提取所需要的正文及摘要部分,然后把語料轉(zhuǎn)換成文本文件。由于轉(zhuǎn)換后的一個(gè)文本文件比較大,不易于進(jìn)一步的處理,再把文本文件切分成若干個(gè)比較小的文本文件。

        (2) 利用停用詞表對文本語料去除停用詞,再利用中文分詞系統(tǒng)ICTCLAS進(jìn)行中文分詞。對文本語料進(jìn)行標(biāo)準(zhǔn)化處理,去除空行空白字符。

        (3) 為了使文本語料便于進(jìn)一步的處理,對文本語料進(jìn)行進(jìn)一步的切分,使得最終的語料庫轉(zhuǎn)換成一條新聞內(nèi)容對應(yīng)一條摘要的格式,最終,文本語料共包含近130萬條文本語料對,文本格式如表1所示。

        表1 數(shù)據(jù)集清洗后最終文本格式

        1.3 生成文本詞典

        經(jīng)過數(shù)據(jù)清洗后的新聞?wù)獙σ还灿薪?30萬條,把近130萬條的新聞?wù)獙η蟹殖蓡蝹€(gè)文本文件,每個(gè)文本文件對應(yīng)一對新聞?wù)獙Γ还簿蜕山?30萬個(gè)文本文件。用這近130萬個(gè)文本文件生成對應(yīng)的詞典,步驟如下:

        (1) 生成130萬個(gè)數(shù)字的列表,把列表分成對應(yīng)的訓(xùn)練集、驗(yàn)證集、測試集三張所對應(yīng)的數(shù)字列表,比例為32∶1∶1,這樣有助于模型的訓(xùn)練。

        (2) 把文本文件對應(yīng)成訓(xùn)練集、驗(yàn)證集、測試集,然后轉(zhuǎn)換為bin文件。在文本數(shù)據(jù)訓(xùn)練集上生成詞典,為了讓詞典覆蓋到所有的文本數(shù)據(jù),規(guī)定詞典大小為50 000個(gè)單詞。詞典生成以后,訓(xùn)練集、驗(yàn)證集、測試集已經(jīng)對應(yīng)生成,下一步開始訓(xùn)練模型。

        2 指針網(wǎng)絡(luò)模型的構(gòu)建

        2.1 加入注意力機(jī)制的編碼器解碼器模型

        引入注意力機(jī)制的編碼器解碼器模型,使得解碼器預(yù)測序列的時(shí)候可以更多地關(guān)注輸入到隱藏層的信息,這樣解碼器生成的預(yù)測序列就會(huì)更準(zhǔn)確。

        在編碼器解碼器模型中,編碼器會(huì)將完整句子的輸入整合到一個(gè)固定維度的向量中,再把這個(gè)向量輸入到解碼器中,解碼器就會(huì)根據(jù)這個(gè)向量預(yù)測輸出的句子。但是,當(dāng)輸入的句子比較長時(shí),這個(gè)固定維度的中間向量難以存儲(chǔ)足夠的信息,這就成為基本的編碼器解碼器模型的瓶頸。針對這個(gè)問題,Bahdanau等[7]2015年首次提出了注意力機(jī)制(Attention)模型。注意力機(jī)制允許解碼器隨時(shí)查看編碼器中輸入句子的單詞或片段,這樣就不再需要中間向量存儲(chǔ)所有的信息。

        解碼器在解碼的每一步將隱藏狀態(tài)作為查詢的輸入,輸入到編碼器來查詢編碼器的隱藏狀態(tài),在每個(gè)輸入的位置計(jì)算一個(gè)與查詢相關(guān)程度的權(quán)重,再根據(jù)這個(gè)權(quán)重對每個(gè)輸入位置的隱藏狀態(tài)求加權(quán)平均,加權(quán)平均后得到的向量稱為語境向量,表示它與當(dāng)前輸出的單詞最相關(guān)的原文信息。在解碼下一個(gè)單詞時(shí),將語境向量作為附加的信息輸入到解碼器的循環(huán)神經(jīng)網(wǎng)絡(luò)中,這樣解碼器就可以隨時(shí)讀取到與當(dāng)前輸出最相關(guān)的原文信息,而不必完全依賴于上一時(shí)刻的隱藏狀態(tài)。

        注意力機(jī)制的數(shù)學(xué)定義來自文獻(xiàn)[7]中的計(jì)算公式:

        (1)

        (2)

        at=softmax(et)

        (3)

        (4)

        2.2 構(gòu)建指針混合網(wǎng)絡(luò)模型

        基本的編碼器解碼器模型具有生成抽象詞語的能力,而指針網(wǎng)絡(luò)可以從原文中取詞[8],與基本的編碼器解碼器模型的區(qū)別是指針網(wǎng)絡(luò)不會(huì)把一個(gè)序列轉(zhuǎn)換成另一個(gè)序列,而是產(chǎn)生一系列指向輸入序列元素的指針。網(wǎng)絡(luò)結(jié)構(gòu)源于注意力機(jī)制,不考慮輸入元素,生成一個(gè)指向輸入元素的概率,實(shí)際上得到的是輸入信息。指針網(wǎng)絡(luò)混合模型建模過程中所用到的參數(shù)符號(hào)說明見表2。

        表2 符號(hào)說明

        (5)

        (6)

        圖2 指針網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖

        通過引入指針網(wǎng)絡(luò)的編碼器解碼器模型生成抽象式新聞?wù)?。把文本輸入到編碼器中訓(xùn)練成詞向量,再通過解碼器接收詞向量,解碼器t時(shí)刻的輸入包括t-1時(shí)刻解碼器的輸出摘要和編碼器輸出的詞向量。引入指針網(wǎng)絡(luò)從原文中取詞使生成的新聞?wù)鼫?zhǔn)確。解碼器的輸出采用集束搜索算法(beam search),beam的大小為4。

        2.2.1實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)環(huán)境為Linux開發(fā)環(huán)境,硬件環(huán)境為HP Z440工作站,內(nèi)存為16 GB,顯卡為GTX1080Ti,顯存為11 GB。開發(fā)語言為Python2.7,模型的搭建采用深度學(xué)習(xí)框架TensorFlow1.0。

        訓(xùn)練語料庫采用中文搜狐新聞?wù)Z料庫,總共有130萬條新聞文本摘要對,把數(shù)據(jù)集劃分為訓(xùn)練集,驗(yàn)證集和測試集,比例為32∶1∶1。這樣有助于模型的訓(xùn)練。其中在驗(yàn)證集上調(diào)整參數(shù),測試集上進(jìn)行測試評分。

        2.2.2實(shí)驗(yàn)過程

        (1) 實(shí)驗(yàn)準(zhǔn)備。把下載好的搜狐數(shù)據(jù)集轉(zhuǎn)換成文本文件,去除停用詞,再去除空行、空白字符等。停用詞表如表3所示。再用中文分詞系統(tǒng)ICTCLAS進(jìn)行分詞處理。把分好詞的文本切分成130萬個(gè)單個(gè)的文本新聞?wù)獙?。把新聞?wù)獙D(zhuǎn)換成bin文件,包括訓(xùn)練集、驗(yàn)證集、測試集,生成詞典的大小為50 000個(gè)單詞。

        表3 停用詞表

        (2) 模型搭建?;镜木W(wǎng)絡(luò)模型為加入注意力機(jī)制的編碼器解碼器模型,其中編碼器的網(wǎng)絡(luò)結(jié)構(gòu)為單層雙向的LSTM網(wǎng)絡(luò),解碼器的網(wǎng)絡(luò)結(jié)構(gòu)選擇單層單向的LSTM網(wǎng)絡(luò)模型。將每條文本的詞條wi逐個(gè)輸入到編碼器中,編碼器的隱藏層輸出序列記為hi。在訓(xùn)練階段,解碼器t時(shí)刻的輸入為t-1時(shí)刻參考摘要的詞向量。在測試階段,解碼器t時(shí)刻的輸入為t-1時(shí)刻解碼器輸出單詞的詞向量。并且隱藏層的輸出狀態(tài)為st。注意力機(jī)制[23]的計(jì)算公式為:

        (7)

        (8)

        式中:v、Wh、Ws和battn是模型通過學(xué)習(xí)獲得的參數(shù)。注意力機(jī)制可以被看作是在原文本上的概率分布,并且能夠告知解碼器在預(yù)測下一個(gè)單詞的時(shí)候更關(guān)注輸入到編碼器中的哪個(gè)單詞。Softmax函數(shù)可以看作詞典上的概率分布,假設(shè)詞典的大小為k,{wi|i=1,2,…,k},則Softmax函數(shù)可表示為:

        (9)

        注意力機(jī)制分布的計(jì)算用于和編碼器隱藏狀態(tài)乘積求和,求得的權(quán)重之和稱為語境向量,計(jì)算公式為:

        (10)

        語境向量可以被看作當(dāng)前步從編碼器讀取到的原文信息,與解碼器的隱藏狀態(tài)st一起經(jīng)過兩個(gè)全連接層生成詞典上的概率分布Pvocab,其計(jì)算公式為:

        (11)

        P(w)=Pvocab(w)

        (12)

        式中:V′、V、b和b′是通過學(xué)習(xí)獲得的參數(shù);Pvocab是在整個(gè)詞典上的概率分布。損失函數(shù)采用交叉熵函數(shù)。t時(shí)刻計(jì)算公式為:

        (13)

        整個(gè)序列上的損失函數(shù)計(jì)算公式為:

        (14)

        根據(jù)反向傳播算法,需要求出損失函數(shù)的梯度,具體步驟如下:

        ① 設(shè)t時(shí)刻解碼器的輸出為zi,損失函數(shù)為l。所求的目標(biāo)函數(shù)為:

        ② 求出:

        當(dāng)i=j時(shí):

        當(dāng)i≠j時(shí):

        -P(wi)P(wj)

        ④ 綜合計(jì)算得到:

        反向傳播的過程中網(wǎng)絡(luò)模型根據(jù)梯度函數(shù)的變化會(huì)不斷更新參數(shù)。

        (3) 引入指針網(wǎng)絡(luò)。指針網(wǎng)絡(luò)[8]是在注意力機(jī)制模型上新的應(yīng)用。注意力機(jī)制作用在編碼器上,通過解碼器的隱藏狀態(tài)與編碼器的隱藏狀態(tài)構(gòu)建語境向量來向解碼器傳輸輸入到編碼器的信息。在指針網(wǎng)絡(luò)中,通過注意力機(jī)制直接生成概率指向編碼器的輸入信息來選擇輸入到編碼器的信息。計(jì)算公式為:

        (15)

        p(Ci|C1,C2,…,Ci-1,P)=softmax(ui)

        (16)

        式中:vT、W1、W2為模型訓(xùn)練獲得的參數(shù)。

        在基本的編碼器解碼器模型中引入指針網(wǎng)絡(luò),既可以通過解碼器在詞典上生成新的單詞,又可以通過指針網(wǎng)絡(luò)從編碼器中直接獲取單詞,使生成的摘要更準(zhǔn)確。解碼器的輸出采用集束搜索算法(beam search),beam的大小為4。損失函數(shù)同樣采用交叉熵。

        (4) 模型優(yōu)化。實(shí)驗(yàn)?zāi)P碗[藏單元的個(gè)數(shù)設(shè)為256,詞向量的大小為128,訓(xùn)練模型batch size為16,學(xué)習(xí)率從0.1增大到0.15。在HP Z440工作站上訓(xùn)練7天,損失函數(shù)從7.09下降到1.05。

        集束搜索算法是基于寬度優(yōu)先的思想構(gòu)建搜索樹。模型測試階段,采用此算法選取最優(yōu)解生成摘要。beam的值選擇越大生成摘要時(shí)就有更多的最優(yōu)解,但常見的一級(jí)漢字有3 755個(gè),若beam的值選為5,一次的解碼搜索空間為3 7555個(gè),計(jì)算機(jī)資源很快就會(huì)耗盡。因此綜合考慮beam的大小為4。

        (5) 解碼過程。在測試階段,t時(shí)刻的輸入為編碼器輸出的詞向量和t-1時(shí)刻解碼器預(yù)測單詞的詞向量,經(jīng)過Softmax層,在詞典上生成概率分布。采用集束搜索算法,具體的實(shí)現(xiàn)過程如下:

        ① 設(shè)詞典的大小為k,beam的大小為4,解碼器在生成第一個(gè)詞的時(shí)候,選擇概率最大的4個(gè)單詞,設(shè)為{w1,w2,w3,w4}。

        ② 在預(yù)測輸出第2個(gè)單詞時(shí),將{w1,w2,w3,w4}這4個(gè)詞語輸入到解碼器中分別與詞表中的單詞組合,再選出概率最大的前4個(gè)詞語序列輸出。

        ③ 不斷地循環(huán)②過程,直到遇到結(jié)束符EOS為止,選出概率最大的前4個(gè)序列作為最終的輸出。

        3 實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析

        本實(shí)驗(yàn)旨在對生成的自動(dòng)文本摘要進(jìn)行評測,評測標(biāo)準(zhǔn)為ROUGE評分機(jī)制,采用n-gram機(jī)制。為了實(shí)現(xiàn)生成抽象摘要的目的,對新詞率的生成率也進(jìn)行了統(tǒng)計(jì)。

        3.1 實(shí)驗(yàn)結(jié)果評測

        ROUGE評分機(jī)制的原理主要是根據(jù)生成的摘要和參考摘要中共同出現(xiàn)n元詞的個(gè)數(shù)決定。生成的摘要中與參考摘要中共同出現(xiàn)的詞語越多,ROUGE得分就會(huì)越高?,F(xiàn)階段學(xué)術(shù)界ROUGE評分機(jī)制用的主要有ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4。1、2、3、4分別代表1元詞、2元詞、3元詞以及4元詞。本文對生成的摘要分別用ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4進(jìn)行了測評。一般會(huì)根據(jù)需要選擇適合的ROUGE評分模型。ROUGE評分的計(jì)算公式如下:

        (17)

        式中:n-gram表示n元詞;S∈{Ref}表示參考摘要;Countmatch(n-gram)表示生成的摘要中與參考摘要相匹配的n-gram數(shù)量。再用∑對其進(jìn)行計(jì)數(shù),分母則表示參考摘要中n-gram的個(gè)數(shù)。ROUGE的計(jì)算公式是根據(jù)召回率的公式變換的,對生成摘要與參考摘要的匹配程度進(jìn)行數(shù)量上的衡量與比較,相對其他生成的摘要的衡量標(biāo)準(zhǔn)比較準(zhǔn)確。

        實(shí)驗(yàn)的測試集有38 261條新聞測試文本,模型訓(xùn)練收斂耗時(shí)7天。測試文本輸入到模型中生成的文本摘要如表4所示。

        表4 測試集生成的文本摘要

        該實(shí)驗(yàn)分別在加入注意力機(jī)制的編碼器解碼器模型和引入指針網(wǎng)絡(luò)的模型上進(jìn)行測試,采用ROUGE評分機(jī)制評分結(jié)果如表5所示。

        表5 基本模型和指針式網(wǎng)絡(luò)模型ROUGE評分對比

        從表5可以看出,通常未經(jīng)處理的數(shù)據(jù)集比匿名數(shù)據(jù)集能夠得到更高的ROUGE評分,lead-3基本模型在純文本數(shù)據(jù)集上得分更高。一個(gè)可能的解釋就是多句子的命名實(shí)體能夠?qū)е赂叩闹睾下?。但是,ROUGE評分機(jī)制僅能與文獻(xiàn)[5]提出的模型進(jìn)行比較。lead-3的ROUGE評分與最好的指針網(wǎng)絡(luò)模型的ROUGE得分相比高出ROUGE-1評分2.9分,高出ROUGE-2評分1.04分,高出ROUGE-L評分2.15分。并且實(shí)驗(yàn)結(jié)果最好的指針網(wǎng)絡(luò)模型的ROUGE評分比文獻(xiàn)[5]高出ROUGE-1評分1.98分,高出ROUGE-2評分3.36分,高出ROUGE-L評分1.77分??梢怨罍y出,本文最好的網(wǎng)絡(luò)模型超出基本的網(wǎng)絡(luò)模型平均2個(gè)ROUGE評分。

        由表4還可以觀察出,基本的編碼器解碼器模型在ROUGE評分上表現(xiàn)很差,即使是在150 k的詞典上表現(xiàn)效果也不是很好。即使是用50 k詞典的基本編碼器解碼器模型最好的表現(xiàn)效果生成的文本摘要也存在幾個(gè)普遍的問題,事實(shí)細(xì)節(jié)頻繁出錯(cuò),經(jīng)常用一個(gè)更常見的詞代替詞典中出現(xiàn)但不常用的詞。例如,表6中,基本的編碼器解碼器模型中本應(yīng)該出現(xiàn)“海峽”,但卻出現(xiàn)了“大陸”,導(dǎo)致語義錯(cuò)誤。更糟糕的是,有的時(shí)候模型會(huì)生成重復(fù)的無意義的句子,就像表6中基本的模型生成的摘要一樣。并且基本的編碼器解碼器模型也不能夠生成未登錄詞。

        表6 不同模型生成的文本摘要舉例

        3.2 實(shí)驗(yàn)?zāi)P蛯Ρ?/h3>

        從表5可以看出抽取式模型比抽象式模型可以得到更高的ROUGE評分,并且lead-3基本編碼器解碼器模型具有更強(qiáng)的優(yōu)勢,獲得最高的ROUGE評分,即使是最好的抽取式模型的ROUGE得分也低于lead-3基本編碼器解碼器模型。這里給出兩種可能的解釋。

        首先,新聞文章趨向于把重要信息都放在文章的開頭部分。這一點(diǎn)就解釋了為什么lead-3模型會(huì)有那么高的ROUGE評分。實(shí)際上,實(shí)驗(yàn)證明,僅僅使用文章的前400個(gè)詞條,大約20個(gè)句子,比使用前800個(gè)詞條能夠得到更高的ROUGE評分。

        其次就是自然語言處理任務(wù)和ROUGE評分機(jī)制的屬性使得抽取式模型和lead-3基本模型的ROUGE評分很難被超越。參考摘要的選擇也非常主觀,有時(shí)會(huì)自形成一個(gè)完備的參考摘要。有時(shí)也會(huì)只從文章中選取一些比較感興趣的細(xì)節(jié)作為摘要。測試語料中平均每篇文章有19個(gè)句子,利用網(wǎng)絡(luò)模型平均每篇摘要會(huì)生成3~4句話。抽象模型引入了更多的參考標(biāo)準(zhǔn),比如選擇措辭、短語,這樣就進(jìn)一步減少了與參考摘要的匹配程度。例如在表6中“衛(wèi)隊(duì)海軍副司令官湯西里聲稱敵方侵犯領(lǐng)土”可以作為這段文本的摘要,但與參考摘要卻完全不匹配,ROUGE得分為0。只有一個(gè)參考摘要也會(huì)加劇ROUGE評分機(jī)制的不靈活性。文獻(xiàn)[17]指出與多個(gè)參考摘要相比,ROUGE評分機(jī)制的可靠性降低。

        因?yàn)槲谋菊蝿?wù)具有主觀性和符合要求摘要的多樣性,ROUGE評分機(jī)制會(huì)選擇首次出現(xiàn)的內(nèi)容或者保留原始的措辭作為摘要的得分更高。盡管有時(shí)參考摘要會(huì)偏離這些技術(shù),表現(xiàn)得更主觀,但這些偏差是無法避免的,以至于ROUGE評分機(jī)制會(huì)選擇更安全的策略,所以更安全的策略能夠獲得更高的平均得分。這就能夠解釋為什么抽取式模型能夠比抽象式文本摘要獲得更高的ROUGE評分,lead-3基本模型的ROUGE評分高于抽取式模型的ROUGE評分。除了ROUGE評分機(jī)制,根據(jù)詞根、語義等可以探究更廣泛通用的評分機(jī)制,這是個(gè)值得進(jìn)一步探索的方向。

        3.3 實(shí)驗(yàn)數(shù)據(jù)分析

        實(shí)驗(yàn)分別對生成的中文摘要做了重復(fù)率檢測,從38 261條生成的摘要與參考摘要進(jìn)行對比,重復(fù)率如圖3所示。

        圖3 不同模型生成摘要的重復(fù)率對比

        從圖3可以觀察到基本的編碼器解碼器模型生成的文本摘要出現(xiàn)的重復(fù)性詞語較多,并且采用1-grams、2-grams、3-grams、4-grams重復(fù)率依次降低,在整個(gè)句子上比較,重復(fù)率最低。加入指針模型后生成詞語的重復(fù)率明顯降低,但與參考摘要對比還有一定的差距。

        由于模型生成的是抽象新聞?wù)瑢ι傻男略~率要做統(tǒng)計(jì),本文生成的新詞是指在詞典中出現(xiàn)但未出現(xiàn)在原文本中的詞語。不同模型新詞的生成率對比如圖4所示。

        圖4 不同模型生成新詞量的對比

        實(shí)驗(yàn)證明,指針網(wǎng)絡(luò)使生成的抽象文本摘要更可靠,能夠更準(zhǔn)確地拷貝到原文中的細(xì)節(jié)信息,正確地拷貝原文中的信息并不影響生成摘要的抽象性。圖4表明,最終模型生成的文本摘要的n-grams的新詞生成率比參考摘要低,與參考摘要相比,抽象性更低,也低于基本模型?;镜木幋a器解碼器模型生成了更多的新詞,但這些新詞包括所有不正確的詞語,這些詞語一起構(gòu)建成完整的抽象實(shí)例。

        圖4表明最終網(wǎng)絡(luò)模型拷貝了整篇文章的38%。通過與參考摘要對比,參考摘要僅拷貝到原文的0.2%,這是模型值得改進(jìn)的一個(gè)地方,因?yàn)椴幌MW(wǎng)絡(luò)模型僅僅是簡單的句子抽取,但實(shí)驗(yàn)證明其他62%的句子是依靠抽象模型生成的。文章的句子被截?cái)嘁孕纬烧Z法正確的較短的文本,新生成的句子通過拼接句子片段組成。復(fù)制過來的段落有時(shí)會(huì)省略不必要的插入、從句和帶括號(hào)的短語。

        4 結(jié) 語

        本文利用指針式網(wǎng)絡(luò)模型生成抽象式新聞?wù)盟押侣務(wù)Z料庫,先對數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗、分詞,劃分?jǐn)?shù)據(jù)集。在基本的編碼器解碼器的基礎(chǔ)上引入了指針網(wǎng)絡(luò),使得生成的抽象新聞?wù)鼫?zhǔn)確,更符合原文本的意思,采用ROUGE評分機(jī)制對生成的抽象摘要文本進(jìn)行評測,實(shí)驗(yàn)結(jié)果證明得到的ROUGE評分平均比基本的編碼器解碼器模型的ROUGE評分高2分。雖然目前采用深度學(xué)習(xí)的方法生成抽象型文本摘要的技術(shù)很多,但還成熟,生成摘要還存在很多問題,譬如不準(zhǔn)確、捏造事實(shí)、重復(fù)詞語等。生成摘要的準(zhǔn)確性與重復(fù)率還需要進(jìn)一步優(yōu)化,在未來的研究工作中需要進(jìn)一步努力,以達(dá)到更好的模型效果。

        猜你喜歡
        解碼器指針編碼器
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        偷指針的人
        基于FPGA的同步機(jī)軸角編碼器
        為什么表的指針都按照順時(shí)針方向轉(zhuǎn)動(dòng)
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        基于改進(jìn)Hough變換和BP網(wǎng)絡(luò)的指針儀表識(shí)別
        電測與儀表(2015年5期)2015-04-09 11:30:42

        国产无吗一区二区三区在线欢| 国产肉体xxxx裸体784大胆| 中文乱码字幕人妻熟女人妻| 国产精品丝袜在线不卡| 在线精品一区二区三区| 激情综合五月| 亚洲精品国产av成拍| 国模少妇无码一区二区三区 | 亚洲精品无码久久久| 午夜理论片日本中文在线| 中文字幕乱码亚洲无线精品一区| 男女性高爱潮免费网站| 日韩人妻中文无码一区二区| 日本免费影片一区二区| 无遮挡粉嫩小泬| 国产成人精品午夜福利在线| 无码午夜成人1000部免费视频| 欧美牲交a欧美牲交aⅴ免费下载 | 亚洲一区二区一区二区免费视频| 香蕉国产人午夜视频在线观看| 久久乐国产精品亚洲综合| 亚洲中文字幕久久精品无码a| 中文有码人妻字幕在线| 国产精品午夜福利天堂| 日韩精品视频在线观看免费| 中文无码成人免费视频在线观看| 人妻av鲁丝一区二区三区| 小妖精又紧又湿高潮h视频69| 中文字幕人妻久久久中出| 免费女同毛片在线不卡| 97色综合| 伊人精品在线观看| 欧美性开放bbw| 国产真实乱对白精彩| 亚洲色精品三区二区一区| 亚洲国产精品久久婷婷| 少妇高潮精品正在线播放| 亚洲一区二区女优av| 一本一道AⅤ无码中文字幕| 欧美黄色免费看| 人人妻人人玩人人澡人人爽|