亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        核心詞修正的Seq2Seq短文摘要

        2018-12-22 07:39:56旭,過弋,,,王祺,樊
        計算機工程與設(shè)計 2018年12期
        關(guān)鍵詞:特征實驗方法

        方 旭,過 弋,,,王 祺,樊 振

        (1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2.石河子大學(xué) 信息科學(xué)與技術(shù)學(xué)院,新疆 石河子 832003;3.上海數(shù)據(jù)交易中心有限公司,上海 200436)

        0 引 言

        摘要包含了原始文本的核心信息,且篇幅不到原始文本的一半或者更少[1,2]。文本自動摘要技術(shù)是指通過計算機領(lǐng)域相關(guān)的理論和技術(shù)實現(xiàn)自動生成原始文本摘要的技術(shù)。傳統(tǒng)的自動文本摘要方法有基于簡單的統(tǒng)計方法、利用外部資源輔助確定重要句子的方法和基于修辭結(jié)構(gòu)的方法等。然而,效果與人工摘要仍然有著不小的差距。進(jìn)入21世紀(jì),我們步入了一個大數(shù)據(jù)時代,互聯(lián)網(wǎng)中的海量信息已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工處理的極限,自動摘要技術(shù)的研究越發(fā)的迫切和重要。隨著機器學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域的廣泛使用,使得自動摘要技術(shù)有了新的發(fā)展方向。最近幾年,深度學(xué)習(xí)方法在語言生成上展現(xiàn)了巨大的潛力,讓人們意識到離生成抽象的文本摘要又近一步,但是研究數(shù)量和深度還不夠,還需要進(jìn)一步深化。而且中文自動摘要技術(shù)發(fā)展較晚,在發(fā)展道路上還將面臨著更多的挑戰(zhàn)。

        本文使用LSTM(long-short term memory net-work)構(gòu)建了一個基于注意力機制的序列到序列模型,使用字詞聯(lián)合特征作為模型的輸入,并根據(jù)原文的核心詞來修正生成的摘要。最后在LCSTS(large scale Chinese short text summarization)數(shù)據(jù)集上進(jìn)行了相關(guān)實驗,實驗結(jié)果表明了該方法的有效性。

        1 相關(guān)工作

        自動文摘技術(shù)起源于20世紀(jì)50年代,最早的自動摘要研究是通過統(tǒng)計簡單直觀的文本特征,一般來說有3種方法[3]:根據(jù)重要的單詞來評分;根據(jù)句子的特征,比如位置和標(biāo)題相似度來評分;分析句子之間的關(guān)系來打分。隨著技術(shù)的發(fā)展,人們開始借助外部資源來輔助確定文檔中的詞權(quán)重,語義關(guān)系等來識別文檔中的重要句子。比較著名的方法有Salon提出的TFIDF方法,該方法從一個全局的角度來確定詞的權(quán)重。文獻(xiàn)[4,5]都使用了該方法來尋找文本特征,從而進(jìn)一步進(jìn)行文本處理。此外研究人員根據(jù)詞匯鏈特征來計算句子的評分[6]。20世紀(jì)90年代,在自然語言處理領(lǐng)域,開始廣泛使用機器學(xué)習(xí)方法,尤其是有監(jiān)督機器學(xué)習(xí)方法。使用人工標(biāo)注的語料來訓(xùn)練句子特征和重要性的關(guān)系模型,就能夠?qū)崿F(xiàn)對未標(biāo)注語料的重要性進(jìn)行預(yù)測,生成摘要。Hinton等提出了深度置信網(wǎng)絡(luò)和相應(yīng)的高效學(xué)習(xí)算法。該算法無監(jiān)督學(xué)習(xí)能力強,而且對人工的依賴比較低,訓(xùn)練高效,逐漸發(fā)展成了深度學(xué)習(xí)算法的主要框架[7]。目前深度學(xué)習(xí)方法應(yīng)用廣泛,其中序列到序列方法在機器翻譯[8]、語言識別、視頻字幕等研究上取得了很好的效果。IBM公司的Nallapati等[9]將基于注意力機制的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)編解碼器模型應(yīng)用到了自動摘要研究中,效果優(yōu)于現(xiàn)有的自動摘要方法。

        中文自動摘要技術(shù)起步較晚,而且由于中文和英文的語法結(jié)構(gòu)和表現(xiàn)形式有很大的差異,使得中文的相關(guān)信息處理研究變得比較復(fù)雜。最近幾年,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在機器翻譯[10],自動對話和語音識別上展現(xiàn)了強大的能力,然而很少有研究將其運用到文本自動摘要上。而且現(xiàn)有的大部分的中文自動摘要研究都是基于長文本的,而對于網(wǎng)絡(luò)上的信息的核心載體短文本摘要的研究較少。相對于長文本而言,短文本的話題多,垃圾多,與社會背景關(guān)聯(lián)性較強,而且還具有時效性,使得其自動摘要的研究更復(fù)雜。為了研究短文本自動摘要,Hu等[11]構(gòu)建了一個大規(guī)模中文短文摘要數(shù)據(jù)集(LCSTS),并在該數(shù)據(jù)集上使用RNN構(gòu)建序列到序列模型來生成摘要。

        2 方法設(shè)計

        在本節(jié)中,我們將詳細(xì)描述我們的方法及模型。2.1小節(jié)介紹我們的整體架構(gòu)。2.2小節(jié)將介紹基于注意力機制的序列到序列模型。2.3小節(jié)介紹所使用的特征的生成。在最后的2.4小節(jié)介紹核心詞的選取以及是如何對生成的摘要進(jìn)行修正的。

        2.1 總體架構(gòu)

        在中文短文本摘要的研究中,只使用了字特征或詞特征等單一特征,這些單一特征作為模型的輸入是不夠的,而且沒有考慮使用抽取式方法來對生成式方法相進(jìn)行優(yōu)化。所以本文構(gòu)建了一個使用字詞聯(lián)合特征作為輸入的模型,并結(jié)合抽取式方法的思想,抽取出原文的核心詞來対生成的摘要進(jìn)行修正。模型如圖1所示。首先,我們使用訓(xùn)練數(shù)據(jù)去訓(xùn)練神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)是一個基于注意力機制的序列到序列模型,它的輸入是短文本的字詞聯(lián)合特征,輸出是短文本對應(yīng)的摘要。由于生成的摘要會包含一些不完全或者錯誤的詞,將這些詞與從原文中抽取的核心詞進(jìn)行比較,使用相似的核心詞來替換這些詞,從而提高摘要的質(zhì)量。

        圖1 總體架構(gòu)

        2.2 基于注意力機制的序列到序列模型

        對于中文的短文本,我們可以很容易的想到它是由字、詞和標(biāo)點符號組成的一個有序的序列,而摘要則是這個有序序列中的核心信息。要生成這個短文本的摘要,則需要結(jié)合短文本的前后信息來推斷或生成。

        對于給定的短文本,X=x1,…,xn,我們使用神經(jīng)網(wǎng)絡(luò)的方式去計算在該輸入X的情況下輸出序列每一位置上各個字符出現(xiàn)的概率pyi|X,選取出每一個位置上最大概率的字符組合成最終的輸出序列,Y=y1,…,yl?;谧⒁饬C制的方法屬于編解碼器結(jié)構(gòu)[1],如圖2所示。在編碼器和解碼器中使用的都是長短期記憶網(wǎng)絡(luò)LSTM,它的結(jié)構(gòu)如圖3所示。相比較于標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(recurrent neural network),它能夠很好解決長期依賴問題。首先編碼器讀取短文本序列X=x1,…,xn,編碼成一個隱性狀態(tài)H=h1,…,hn,其長度和輸入文本長度相同。然后,解碼器根據(jù)隱性狀態(tài)H得到相應(yīng)的短文標(biāo)題Y=y1,…,yl。而編碼器和解碼器是根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,模型的訓(xùn)練目標(biāo)是最小化負(fù)對數(shù)似然函數(shù)的值

        (1)

        其中,S是訓(xùn)練集,ys是對應(yīng)的中文短文本s的摘要文本,θ是神經(jīng)網(wǎng)絡(luò)中的所有參數(shù)集合。

        圖2 基于注意力機制的序列到序列模型

        圖3 LSTM結(jié)構(gòu)

        (2)

        (3)

        然后將正向與反向隱狀態(tài)序列進(jìn)行拼合得到編碼器最終的隱形狀態(tài)序列H=h1,…,hn,其中

        (4)

        而該模型的解碼器是單向LSTM,其每一時刻的隱狀態(tài)Si都由上一時刻的隱狀態(tài)Si-1,上一時刻的輸出yi和當(dāng)前時刻的上下文向量Ci共同決定

        Si=LSTMSi-1,yi,Ci

        (5)

        上下文向量在每一步解碼時都會重新計算,計算時使用注意力機制實現(xiàn)軟對齊:在i時刻解碼時,通過一個前饋神經(jīng)網(wǎng)絡(luò)f,求出編碼器在每一時刻的輸出hi所對應(yīng)的權(quán)重因子αij并以此對hi加權(quán)平均,得到i時刻的上下位向量Ci。其中權(quán)重因子αij決定了那些輸入與當(dāng)前時刻的解碼最相關(guān)

        eij=fsi-1,hj,yi-1

        (6)

        (7)

        其中,eij是前饋神經(jīng)網(wǎng)絡(luò)f的激活輸出,αij是對eij做了一個softmax歸一化后的結(jié)果。

        最后,解碼器使用softmax計算每一個字符出現(xiàn)在t位置的概率pti

        yt=Wht+bs

        (8)

        (9)

        其中,WS∈RN×m是權(quán)重矩陣,N是所有可能出現(xiàn)的字符集的個數(shù),m是hs的維數(shù),bs是偏置向量,yti是yt的第i維元素,i∈1,N,分別代表著字符集中的每一個字符元素,t∈1,l,l是所要求輸出的摘要的長度。

        通過比較pti就可以得到t位置上最有可能出現(xiàn)的字符為maxpti所代表的字符yi,這樣通過解碼器我們就可以得到中文短文本的生成摘要Y=y1,…,yl。

        2.3 輸入特征

        我們使用中文短文的字特征和詞特征的聯(lián)合特征作為神經(jīng)網(wǎng)絡(luò)的輸入特征。字特征和詞特征都是通過word2vec[12,13]生成的。word2vec是Google開園中的一款工具,它的核心是采用神經(jīng)網(wǎng)絡(luò)的方法,采用連續(xù)詞袋模型和Skip-Gram兩種模型將元素映射到同一坐標(biāo)系,從而得出元素的數(shù)值向量。

        如圖4所示,字特征的生成向量的元素是字,根據(jù)短文中每個字的上下文關(guān)系,將每個字的關(guān)系映射到同一坐標(biāo)系下。詞特征生成特征向量的元素是詞,我們需要先將中文文本進(jìn)行分詞,常用的分詞工具有LTP和結(jié)巴分詞等,將輸入的短文本分割成一個個詞語所組成的序列,然后根據(jù)詞序列中的每個詞的上下文關(guān)系來生成詞的特征向量,如圖5所示。

        圖4 字特征向量

        圖5 詞特征向量

        字詞聯(lián)合特征則是將字特征和詞特征結(jié)合起來運用從而更好的代表輸入文本的特征信息。結(jié)合的方式如圖6所示,字詞聯(lián)合特征由輸入文本的字特征和該字所在詞的詞特征前后連接組成,得到的字詞聯(lián)合特征的維度,等于字特征的維度和詞特征的維度的和。

        圖6 字詞聯(lián)合特征

        2.4 核心詞替換

        對于神經(jīng)網(wǎng)絡(luò)生成的摘要,一些原文中比較重要的詞無法正確的生成,所以本文使用原文的核心詞來対生成的摘要進(jìn)行修正。

        首先,需要從原文中識別出核心詞。對于每一個短文本,停用詞和表情符號等需要被去除,然后根據(jù)每個詞的tf-idf的值來選取核心詞,計算公式如下所示

        (10)

        (11)

        tf-idft=tft×idft

        (12)

        得到每個輸入的文本的核心詞后,將生成的摘要使用相同的中文分詞工具jieba來進(jìn)行分詞。將每一個詞與核心詞比較。如果該詞是核心詞的子串,就用核心詞來代替該詞。如果一個詞是多個核心詞的子串,那么就用式(13)來計算相似度,選擇最大的核心詞來替換

        (13)

        其中,Wordg代表生成的詞,Kwordi是第i個核心詞。fn是歸一化函數(shù)。

        3 實驗過程及結(jié)果分析

        3.1 LCSTS數(shù)據(jù)集

        本文實驗所采用的數(shù)據(jù)集是哈爾濱工業(yè)大學(xué)所構(gòu)建的一個大規(guī)模中文短文摘要數(shù)據(jù)集LCSTS[11]。該數(shù)據(jù)集是從人民日報的微博上爬取短文以及該短文的摘要,然后進(jìn)行人工打分整理而得到的。該數(shù)據(jù)集主要包含3個部分的短文數(shù)據(jù)。

        Part I是該數(shù)據(jù)集的最主要的部分,它包含了2 400 591對短文和摘要。Part II包含了10 666對短文和摘要,并采用人工打分的方式對這些摘要評1~5分,分?jǐn)?shù)越高表示摘要和短文越相關(guān)。Part III獨立于Part I和Part II,只有1106對短文和摘要,可以用來作為測試集。本文在進(jìn)行實驗時考慮到效果和效率等因素,選取Part II作為實驗的訓(xùn)練集,從Part III中選取了666條數(shù)據(jù)作為實驗的測試集來進(jìn)行實驗。

        3.2 評價指標(biāo)

        本文采用ROUGE評價方法來評價自動生成的摘要。ROUGE評價方法是由Chin-Yew Lin于2003年提出,該方法的主要思想是將自動生成的摘要和標(biāo)準(zhǔn)摘要進(jìn)行比對,統(tǒng)計兩個摘要之間的基本單元的數(shù)目來評價自動摘要的質(zhì)量。文獻(xiàn)[14]就使用ROUGE方法對他們的摘要進(jìn)行了評分。我們使用ROUGE-1,ROUGE-2和ROUGE-L的評分來評價自動摘要的好壞。由于標(biāo)準(zhǔn)的ROUGE是用來評價英文摘要的,所以需要將中文摘要同意裝換成數(shù)字編號序列,才能進(jìn)行ROUGE評分。

        3.3 實驗過程

        實驗過程如圖7所示。對于訓(xùn)練數(shù)據(jù),一些特殊的字符需要被替換成特殊的標(biāo)簽。比如將表情替換成“Tag-BQ”等。然后根據(jù)字出現(xiàn)的頻次,取前4000個字組成字的集合,并將它們從1開始編號。在對數(shù)據(jù)進(jìn)行分詞以后,以同樣的方式取前60 000個詞組成詞的集合并從1開始編號。對于那些不在字集和詞集中的字或詞,全部替換成UNK。然后使用使用word2vec分別獲得字和詞的特征向量,向量的維度都是128維。將訓(xùn)練數(shù)據(jù)的字特征和詞特征拼接成字詞聯(lián)合特征作為輸入來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,采用AdaDelta[15]方法進(jìn)行梯度下降,神經(jīng)網(wǎng)絡(luò)的隱狀態(tài)的長度為128。

        測試數(shù)據(jù)使用相同的字集和詞集,并提取出每一個短文本中tf-idf值較高的詞組成他們的核心詞集。將測試數(shù)據(jù)放入到神經(jīng)網(wǎng)絡(luò)模型中,就能得到一個生成的短文摘要,使用核心詞對該摘要進(jìn)行替換修正后,得到最終的生成摘要,并使用ROUGE方法對這個摘要進(jìn)行評分。

        3.4 對比實驗

        在文獻(xiàn)[11]中,他們在LCSTS數(shù)據(jù)集上使用字特征和詞特征進(jìn)行了基于字特征和詞特征的循環(huán)神經(jīng)網(wǎng)絡(luò)實驗,發(fā)現(xiàn)基于字特征的實驗結(jié)果要優(yōu)于基于詞特征的實驗結(jié)果。但是他們沒有聯(lián)合IDF等特征來訓(xùn)練,也沒有使用字詞聯(lián)合特征,而且沒有使用一些方法來対生成的摘要質(zhì)量進(jìn)行提高。所以本文使用字詞聯(lián)合特征來進(jìn)行實驗,并提出使用原文的核心詞來修正生成的摘要。為了驗證本文方法的有效性,設(shè)計了以下對比實驗。所有的實驗將在相同的設(shè)備上進(jìn)行,用ROUGE方法對實驗結(jié)果進(jìn)行評分。

        圖7 實驗流程

        (1)基于字特征的LSTM序列到序列模型。使用中文短文本的字特征作為神經(jīng)網(wǎng)絡(luò)的輸入。

        (2)基于詞特征的LSTM序列到序列模型。使用中文短文本的詞特征作為神經(jīng)網(wǎng)絡(luò)的輸入。

        (3)基于字詞聯(lián)合特征的LSTM序列到序列模型。使用中文短文本的字特征和詞特征拼接后的聯(lián)合特征作為神經(jīng)網(wǎng)絡(luò)的輸入,包含了字特征和詞特征的信息。

        (4)分別將上述3個模型結(jié)合IDF特征作為神經(jīng)網(wǎng)絡(luò)的輸入,對結(jié)果進(jìn)行評分。

        3.5 實驗結(jié)果

        在本節(jié)中,3.5.1是神經(jīng)網(wǎng)絡(luò)隱藏層參數(shù)對比實驗,從而確定合適的隱藏層數(shù)量。3.5.2是各個模型生成摘要的評分對比實驗。

        3.5.1 神經(jīng)網(wǎng)絡(luò)隱藏層參數(shù)對比實驗

        本文采用的是基于注意力機制的序列到序列模型,在模型中需要設(shè)定隱藏層數(shù)量,通常使用的隱藏層數(shù)量為64,128和256層。為了確定隱藏層數(shù)量,在相同訓(xùn)練集下,設(shè)定不同數(shù)量的隱藏層,訓(xùn)練相同的輪次后,計算測試集結(jié)果ROUGE評分以及訓(xùn)練過程所耗的時間,得到的實驗結(jié)果見表1。

        表1 隱藏層對比實驗結(jié)果

        從表1中我們可以看出,隨著隱藏層數(shù)的增加,訓(xùn)練所耗的時間也在不斷地增加,但是從測試結(jié)果的ROUGE評分上,我們可以發(fā)現(xiàn),當(dāng)隱藏層數(shù)為128時,評分最好。因此模型的隱藏層數(shù)為128時效果最佳。

        3.5.2 模型實驗結(jié)果評分

        表2是不同特征作為輸入下的各個模型在測試集山生成的中文短文摘要ROUGE評分。

        表2 實驗結(jié)果ROUGE評分

        由表2的評分結(jié)果我們可以看出,使用字特征的效果比使用詞特征的效果要好,這也符合文獻(xiàn)[11]的結(jié)論。在ROUGE-1和ROUGE-L上,字詞聯(lián)合特征的評分比字特征的評分要高0.005,在ROUGE-2上要高0.002。這說明使用字詞聯(lián)合特征比只使用字特征或詞特征效果要好。此外,當(dāng)這些特征結(jié)合IDF特征作為神經(jīng)網(wǎng)絡(luò)輸入時,字特征有了較小的提高,而詞特征和字詞聯(lián)合特征評分卻降低了,說明直接鏈接IDF特征作為輸入是不合適的。所以采用TF-IDF值選出核心詞對字詞聯(lián)合特征的生成結(jié)果進(jìn)行修正,通過ROUGE評分,可以發(fā)現(xiàn),在這些實驗中,同時使用字詞聯(lián)合特征和核心詞修正方法的評分最高,與其它實驗相比,它在各個指標(biāo),尤其是ROUGE-2上的評分都有較大提高。這樣的結(jié)果說明本文的方法是有效的。

        4 結(jié)束語

        互聯(lián)網(wǎng)已經(jīng)成為了人們現(xiàn)實生活中必不可少的組成部分,在社交網(wǎng)絡(luò)上,海量的短文本信息在用戶之間互相傳遞。為了讓人們能夠更加方便快捷的獲得這些短文本的信息,我們需要給這些短文本添加一個簡短的摘要。本文使用LSTM構(gòu)建了一個基于注意力機制的序列到序列的模型,采用短文本的字詞聯(lián)合特征作為輸入來進(jìn)行模型的訓(xùn)練與摘要的生成,再根據(jù)TF-IDF的值來選取原文的核心詞,使用核心詞對生成的摘要進(jìn)行修正,提高摘要質(zhì)量。最后我們在LCSTS數(shù)據(jù)集上進(jìn)行了一些相關(guān)的實驗,對實驗結(jié)果進(jìn)行了ROUGE評分。通過評分結(jié)果,驗證了我們的方法是有效的。除此之外,本文對深度學(xué)習(xí)與傳統(tǒng)方法的結(jié)合具有借鑒意義。在未來的工作中,我們將提高訓(xùn)練數(shù)據(jù)量,調(diào)整神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),并嘗試將更多的方法與深度學(xué)習(xí)方法相結(jié)合,使得生成的摘要效果更好。

        猜你喜歡
        特征實驗方法
        記一次有趣的實驗
        如何表達(dá)“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        抓住特征巧觀察
        可能是方法不對
        NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        色婷婷久久99综合精品jk白丝| 国产成人精品999在线观看| 亚洲国产精品一区二区久| 亚洲国产美女精品久久久| 国产精品无码专区视频| 日韩精品有码中文字幕在线| 国内自拍偷国视频系列| 亚洲乱亚洲乱妇50p| 国产97色在线 | 日韩| 国产香蕉尹人综合在线观| 日本高清在线播放一区二区三区| 日本免费三片在线视频| 亚洲日韩成人无码| 水蜜桃无码视频在线观看| 亚洲视频高清| 亚洲综合小综合中文字幕| 国产av一区二区三区无码野战| 精品亚洲国产成人av| 亚洲嫩模高清在线视频| 99久久久69精品一区二区三区| 未发育成型小奶头毛片av| av片在线观看免费| 久久精品国产88久久综合| 日韩中文字幕不卡在线| av无码av天天av天天爽| 亚洲饱满人妻视频| 一本久久综合亚洲鲁鲁五月夫| 亚洲av不卡免费在线| 精品国产这么小也不放过| 国产精一品亚洲二区在线播放| 无码日日模日日碰夜夜爽| 日本97色视频日本熟妇视频| 2018天天躁夜夜躁狠狠躁| 国产成人久久777777| 粉嫩国产白浆在线播放| 日本一区二区三区亚洲| 日本久久高清一区二区三区毛片| 97色噜噜| 亚洲中文字幕视频第一二区| 亚洲av永久无码一区二区三区| 极品尤物高潮潮喷在线视频|