亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于回歸的抽取式摘要模型

        2019-05-16 01:40:02趙懷鵬車萬翔
        智能計算機與應(yīng)用 2019年2期
        關(guān)鍵詞:表示層向量神經(jīng)網(wǎng)絡(luò)

        趙懷鵬,車萬翔,劉 挺

        (哈爾濱工業(yè)大學計算機科學與技術(shù)學院,哈爾濱150001)

        0 引 言

        隨著互聯(lián)網(wǎng)的迅猛發(fā)展,信息量正以指數(shù)級別在積累和增長。而摘要則能以精煉的文字幫助人們在海量數(shù)據(jù)中快速獲取自己需要的信息。但鑒于目前信息量潮涌般的生成態(tài)勢,故而亟需研發(fā)一套自動摘要系統(tǒng)來為文本自動總結(jié)重要信息,從而快速獲取想要的信息。

        摘要算法大致可以分為2個類別:抽取式摘要和生成式摘要。近年來隨著深度學習的日趨成熟,尤其是隨著 sequence to sequence[1]的提出,生成式摘要方面涌現(xiàn)出數(shù)目可觀的研究成果。而抽取式摘要卻因其簡單,低成本,能夠生成邏輯連貫的摘要等優(yōu)勢,仍然具有重要的研究價值。本課題的目的即旨在設(shè)計構(gòu)造一套抽取式摘要系統(tǒng)。

        研究可知,傳統(tǒng)的方法大多是利用無監(jiān)督學習來得到文本的摘要。代表性的研究有:向量空間模型(the vector-space methods)[2-3]、基于圖的模型(the graph-based methods)[4-5]、組合優(yōu)化方法(the combinatorial optimization methods)[6-7]。 這些方法依賴大量手工設(shè)計的特征來建模句子或篇章,例如位置信息,TF-IDF等。

        近些年,神經(jīng)網(wǎng)絡(luò)吸引了學界的高度關(guān)注,而Hinton等人[8]發(fā)表了優(yōu)化深層網(wǎng)絡(luò)的方法后,隨卻就陸續(xù)見到了許多基于神經(jīng)網(wǎng)絡(luò)的抽取式摘要工作。這些工作均是將抽取式摘要任務(wù)看作序列標注任務(wù)。分類的類別有兩類:0代表不是摘要,1代表是摘要。具體來說,Cheng等人[9]提出了基于sequence to sequence框架來進行句子分類。Singh等人[10]對篇章表示層進行了優(yōu)化。同時,基于分類的方法也呈現(xiàn)出一定的弊端與缺陷。Nallapati等人[11]就提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks)的分類模型。首先,在訓練過程中,將該任務(wù)當成序列標注來建模,但在測試的時候是根據(jù)分類概率大小來選擇最優(yōu)的幾個句子。這就導致了訓練和測試存在不一致性的問題。其次,標注為1的句子間也不能區(qū)分各自的重要程度。綜合前文分析可知,本文則有針對性地研發(fā)提出了基于神經(jīng)網(wǎng)絡(luò)的回歸模型來解決上述問題。

        1 基于回歸的抽取式摘要模型

        1.1 分類模型存在問題及分析

        最近幾年展開了基于序列標注的神經(jīng)網(wǎng)絡(luò)來建模抽取式摘要的研究。這種利用交叉熵來優(yōu)化與標準答案的最大似然方式并沒有在訓練過程中考慮排序句子。摘要任務(wù)的本質(zhì)是對句子進行排序,然后選擇排序靠前的幾個句子?;诜诸惖哪P驮谟柧毮繕酥袇s忽略了這一點。而且,摘要的分類數(shù)據(jù)集常常是利用人工摘要通過一定規(guī)則得到句子的分類標簽。這樣就會導致正例的個數(shù)過多,模型容易過擬合,而且僅是利用模型也無法區(qū)分相同標簽的不同句子間的重要程度。

        1.2 回歸模型概述

        給定一篇文章D,其中包含句子序列{x1,x2,…,xn}。 抽取式摘要系統(tǒng)的目的就是要從D中選擇m個句子組成摘要S(其中m<n)。對于每個句子si∈D,研究對其預(yù)測一個分數(shù)scorei。在訓練時通過回歸損失函數(shù)來優(yōu)化網(wǎng)絡(luò)。在測試時,對于每個句子si都會預(yù)測一個分數(shù),即:

        此后,將選出scorei最大的m個句子作為摘要。

        基于回歸的抽取式摘要模型的過程結(jié)構(gòu)設(shè)計如圖1所示?;诨貧w的抽取式摘要模型一般通過一定的規(guī)則來給每個句子打分。例如Ren等人[12]就利用當前句子與人工摘要的ROUGE值以及句子間的ROUGE值來為每個句子打分。在訓練的過程中,該模型通過計算當前句子與篇章表示的相關(guān)程度和句子間的相關(guān)程度來為每個句子評判打分,通過網(wǎng)絡(luò)訓練讓模型分數(shù)接近正確的分數(shù)。測試時,會給每個句子進行評分,然后選擇分數(shù)最大的作為最終求得的摘要?;诨貧w模型的優(yōu)勢是分數(shù)能夠更加精確刻畫句子的重要程度,并以此作為依據(jù)來進行句子間的排序。另外,在構(gòu)造分數(shù)的時候就考慮到了最終的評價指標ROUGE[13],因此會更加合理。

        圖1 回歸模型結(jié)構(gòu)圖Fig.1 The structure of regression model

        1.3 基于神經(jīng)網(wǎng)絡(luò)的抽取式摘要模型

        本文中的句子和篇章的表示層利用了Yang等人[14]提出的 Hierarchical attention networks。 如圖2所示,該結(jié)構(gòu)分為3層:輸入層、句子表示層和篇章表示層。該模型的設(shè)計初衷是用于篇章分類(document classification),而本次研究則將其用于抽取式摘要系統(tǒng)的表示層。

        圖2 層次化注意力網(wǎng)絡(luò)Fig.2 Hierarchical attention networks

        本次研究的輸入層采用了100維的詞向量,而選擇了訓練詞向量的工具是word2vec[15],過程中訓練詞向量用到的訓練數(shù)據(jù)是 CNN/DailyMail[16]數(shù)據(jù)集里面所有的文本。繼而,文中設(shè)置的最小詞頻閾值為8,這樣就可得到154 K的詞匯。Skip窗口大小設(shè)置為5,hierarchical softmax的層數(shù)也是1。

        同時,對于句子表示層和篇章表示層,研究采用了Bi-LSTM。LSTM中包含3個門:輸入門(input gate)、輸出門(output gate)和遺忘門(forget gate),如圖3所示。

        在得到LSTM的隱層輸出之后,研究利用Attention[17]機制得到每個詞或者句子的權(quán)重。設(shè)計時,計算Attention的向量是隨機初始化,并通過網(wǎng)絡(luò)學習進行更新。以篇章表示層為例,假設(shè)ht為第t個句子的表示,Us是計算Attention的向量。那么兩者分數(shù)計算方式可表述如下:

        其中,d就是研究中最終的篇章表示,ht就是求得的句子表示。

        圖3 LSTM Cell結(jié)構(gòu)圖Fig.3 The structure of LSTM Cell

        在此基礎(chǔ)上,研究推得的最終回歸模型的打分函數(shù)將可寫作如下形式:

        接下來,通過計算當前句子si與人工摘要Sref的ROUGE-2F1值就可得到標準分數(shù),其數(shù)學公式可表示為:

        在得到了篇章表示后,就可以定義損失函數(shù)如式(7)所示:

        2 實驗結(jié)果與分析

        2.1 基本設(shè)置

        詞向量維度為100維,句子表示層和篇章表示層Bi-LSTM的維度為200維。訓練采用的優(yōu)化器為 Adam,初始學習率為 0.001。 Batch size為 20,隨機種子設(shè)為1,訓練迭代了10輪。

        研究對每篇文章進行了預(yù)處理,去除了文章日期,作者信息等。同時對所有單詞做了小寫化處理。為了降低時間和計算資源開銷,同時還設(shè)置每篇文章最多100個句子,每個句子最多50個詞,如果超過就進行截斷。而在研究句子級別表示層時,選取一個batch中所有篇章詞數(shù)最多的句子(超過50的按照50計算)作為padding的基準,詞數(shù)未達此標準的句子增補若干個100維的0向量。在篇章表示層中,選取一個batch中篇章句子數(shù)最多的篇章(超過100的按照100計算)作為padding基準,句子數(shù)不夠的予以補0向量處理。

        2.2 數(shù)據(jù)集

        實驗用到的數(shù)據(jù)集是CNN/Daily Mail數(shù)據(jù)集。數(shù)據(jù)的內(nèi)容是CNN和Daily Mail發(fā)布的新聞數(shù)據(jù),每篇文章包含標題名稱、正文和人工摘要三個部分,樣本示例見表1。該數(shù)據(jù)集最初是由Hermann用于完成閱讀理解任務(wù)。后來Cheng等人[9]將其作為抽取式摘要的數(shù)據(jù)集。由于數(shù)據(jù)集的規(guī)模較大,在近段時間內(nèi)已被廣泛應(yīng)用到文本摘要任務(wù)中。數(shù)據(jù)集的規(guī)模統(tǒng)計參見表2。

        表1 數(shù)據(jù)集樣本示例Tab.1 Sample of the dataset

        表2 數(shù)據(jù)集規(guī)模統(tǒng)計Tab.2 The statistics of dataset

        實驗中,重點選用了Daily Mail數(shù)據(jù)集,因為近年來的大部分工作都在Daily Mail數(shù)據(jù)集上提交了結(jié)果,因而有利于后續(xù)的實驗結(jié)果對比。Daily Mail數(shù)據(jù)集中每篇文章的平均句子數(shù)為25.6,人工摘要的平均長度在3~4句的范圍內(nèi)。

        2.3 評價指標

        早期,傳統(tǒng)的摘要評價方式一般都包含人工的評分函數(shù),包括語法、可讀性、內(nèi)容、一致性等。這些簡單的人工評價規(guī)則能夠較好反映摘要的質(zhì)量,但是需要消耗大量的人力去進行評估。Lin[13]提出ROUGE(Recall-Oriented Understudy for Gisting Evaluation)用來評價摘要的質(zhì)量,并和人工評價有著很強的一致性,目前即將其作為一種常用的摘要評價指標。分析可知,常用的評價指標有ROUGE-1、ROUGE-2和ROUGE-L。 前兩者分別計算了uni-gram和bi-gram的覆蓋度,表示了涵蓋的信息量,后者計算了最長公共子序列(longest common subsequence)的覆蓋度,描述了生成摘要的流暢程度。ROUGE-N和ROUGE-L可由如下公式計算得出:

        2.4 實驗結(jié)果

        本次研究中的baseline模型是Lead-3,且只取文章中前3句話作為摘要。另外,研究中還對比了文獻[9]和文獻[11]中的仿真結(jié)果。這里,即研究給出了不同長度限制下的實驗結(jié)果詳見表3、表4。

        表3 DailyMail測試集75 bytes下ROUGE RecallTab.3 75 bytes ROUGE Recall of DailyMail test set

        表4 DailyMail測試集275 bytes下ROUGE RecallTab.4 275 bytes ROUGE Recall of DailyMail test set

        由表3、表4的實驗結(jié)果來看,本文的模型在生成短摘要時,效果上要明顯優(yōu)于其它的抽取式摘要模型。在生成長摘要時,效果也能和SOTA相當。

        3 結(jié)束語

        本文分析了利用分類來做抽取式摘要的問題,并設(shè)計提出了一個基于神經(jīng)網(wǎng)絡(luò)的回歸模型。結(jié)果表明,本文研發(fā)的模型不依賴任何手工設(shè)計的特征。而且,在DailyMail數(shù)據(jù)集上,研究提出的模型在不同長度限制下都取得了不錯的效果。

        猜你喜歡
        表示層向量神經(jīng)網(wǎng)絡(luò)
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        基于Spring的企業(yè)級Web項目架構(gòu)設(shè)計研究
        軟件(2019年6期)2019-10-08 06:27:21
        ASP.NET三層構(gòu)架解析
        向量垂直在解析幾何中的應(yīng)用
        基于SSH框架科研管理系統(tǒng)的設(shè)計
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        亚洲av永久无码精品放毛片| 风流少妇一区二区三区| 中文字幕人妻少妇精品| 亚洲国产综合人成综合网站| 亚洲熟妇无码久久精品| 东京热人妻一区二区三区| 日本www一道久久久免费榴莲| a√无码在线观看| 亚洲av一二三四五区在线| 亚洲国产成人久久综合碰碰| 国产亚洲精品美女久久久| 免费无码又爽又刺激网站| 天堂Av无码Av一区二区三区| 亚洲发给我的在线视频| 国产精品一区二区三区卡| 狠狠躁夜夜躁人人躁婷婷视频| 亚洲av日韩av永久无码色欲| 91精品国产闺蜜国产在线| 国产精品一品二区三区| 亚洲天堂一区av在线| 国产女人高潮叫床免费视频| 免费毛片在线视频| 色先锋av资源中文字幕| 亚洲一区二区三区偷拍女厕| 手机免费日韩中文字幕| 日韩国产精品一本一区馆/在线| 蜜桃成人无码区免费视频网站| 国产精品流白浆喷水| 亚洲高清自偷揄拍自拍 | 免费99视频| 久久免费精品视频老逼| 视频一区二区三区黄色| 无码人妻丰满熟妇啪啪网站| 亚洲精品无码人妻无码| 亚洲成a人片在线观看中| 精品嫩模福利一区二区蜜臀| 亚洲av无码乱码在线观看富二代 | 国产三级精品三级在线专区2| 国产又大又黑又粗免费视频| а√天堂资源8在线官网在线| 2021年性爱喷水视频|