亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于混合神經(jīng)網(wǎng)絡(luò)的抽取式文本摘要方法

        2017-07-24 15:30:48林晶
        懷化學(xué)院學(xué)報(bào) 2017年5期
        關(guān)鍵詞:文檔向量程序

        林晶

        (懷化學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,湖南懷化418008)

        一種基于混合神經(jīng)網(wǎng)絡(luò)的抽取式文本摘要方法

        林晶

        (懷化學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,湖南懷化418008)

        能夠幫助人們快速瀏覽和理解文檔或文檔集,傳統(tǒng)抽取式摘要方法高度依賴于人工特征,本文設(shè)計(jì)了一種基于混合神經(jīng)網(wǎng)絡(luò)(FNN)的文檔摘要方法,它包含了一個(gè)分層文檔編碼器及一個(gè)基于關(guān)注的抽取器,能夠不依賴于人工特征自動(dòng)抽取句子產(chǎn)生摘要.實(shí)驗(yàn)結(jié)果表明,該方法效果較好.

        文本摘要;句子抽取;混合神經(jīng)網(wǎng)絡(luò)

        1 引言

        電子商務(wù)是一種新的商業(yè)渠道,伴隨其發(fā)展也導(dǎo)致大量產(chǎn)品與服務(wù)的評(píng)論網(wǎng)站出現(xiàn).如何從其海量資訊中高效地獲取有用信息成為人們的迫切需要.從關(guān)于特定商品實(shí)體及其屬性的文本中挖掘并總結(jié)觀點(diǎn)形成摘要,能夠幫助消費(fèi)者做出購買決定,幫助商家更好地監(jiān)控市場聲譽(yù)、了解市場需求.文本摘要的任務(wù)就是生成一個(gè)有限長度的文摘,能夠幫助人們快速瀏覽和理解文檔內(nèi)容,自動(dòng)摘要技術(shù)是提供這類服務(wù)的有效途徑.

        自動(dòng)文摘首次提出至今,在六十年來的研究與發(fā)展中誕生了許多摘要方法.總的來說,這些方法可分為抽取式和生成式兩大類[1].摘要任務(wù)在自然語言處理和信息檢索領(lǐng)域有著廣泛研究,以前大多關(guān)注從新聞文檔集合中直接抽取句子形成摘要.典型的多文檔摘要方法包括基于中心的方法、整數(shù)線性規(guī)劃、基于句子的LDA、子模函數(shù)最大化、基于圖的方法以及基于監(jiān)督學(xué)習(xí)的方法[2].

        大文檔-摘要語料的開放為使用統(tǒng)計(jì)文本生成技術(shù)產(chǎn)生生成式摘要提供了可能.與所有抽取技術(shù)進(jìn)行對(duì)比,有專家提出支持生成式摘要的論據(jù),并進(jìn)一步研究了使用統(tǒng)計(jì)機(jī)器翻譯作為生成文本摘要技術(shù)的可能性[3].生成式摘要包含通過重寫給定文本內(nèi)容生成摘要的技術(shù),而不是簡單抽取重要句子.但多數(shù)生成式摘要技術(shù)仍然采用句子抽取作為任務(wù)的第一步.

        相比生成式摘要技術(shù),文本摘要的抽取技術(shù)受到長期研究的重點(diǎn)關(guān)注.在過去幾十年中,特別是DUC和TAC會(huì)議出現(xiàn)之后,開發(fā)了大量的抽取式摘要技術(shù).

        2 相關(guān)工作

        鑒于文檔摘要的重要意義與實(shí)用價(jià)值,吸引了大量研究人員致力于摘要技術(shù)研究.單文檔摘要基本上可以通過句子選擇來完成.被摘要的文檔被分解為句子集,接著摘要程序選擇句子子集作為摘要.作為在商業(yè)環(huán)境下提供更好信息訪問的關(guān)鍵技術(shù),單文本摘要受到了大量關(guān)注.財(cái)經(jīng)時(shí)代及CNN為吸引用戶在他們的網(wǎng)站上提供文章摘要,它已被Yahoo采用,在互聯(lián)網(wǎng)上提供自動(dòng)文章摘要服務(wù).考慮到人工摘要的高成本,通過構(gòu)建能夠達(dá)到人類摘要質(zhì)量的自動(dòng)摘要程序?qū)O大提升互聯(lián)網(wǎng)用戶對(duì)信息的訪問.McDonald(2007)指出,單文檔摘要可以形式化為著名的組合優(yōu)化問題,即背包問題.給定一組句子及其長度與價(jià)值,摘要程序?qū)⑺鼈冞x入摘要以使得總價(jià)值盡可能大但總長度小于等于給定的最大摘要長度.

        為了模仿人工書寫的摘要,連貫性是一個(gè)重要方面.為獲得連貫摘要,Hitoshi等提出基于隱半馬爾科夫模型的摘要方法.它具有流行的單文檔摘要模型與隱馬爾科夫模型兩者的特性,隱馬爾科夫模型在選擇句子時(shí)通過決定句子上下文考慮摘要連貫性[4].

        在單文檔摘要中產(chǎn)生連貫摘要有兩類方法:基于樹的方法[5]及基于序列的方法[6].前者依靠基于修辭結(jié)構(gòu)理論(RST)的文檔的樹表示,通過利用句子間的“中心-衛(wèi)星”關(guān)系修剪文檔樹表示.基于RST方法的優(yōu)點(diǎn)是能夠利用文檔的全局信息,缺點(diǎn)是過分依賴所有的分析樹.與利用文檔全局結(jié)構(gòu)相反,基于序列的方法依賴和使用句子的局部連貫性.對(duì)比基于樹的方法,基于序列的方法不需要類似RST分析器的工具,因此更加魯棒.

        Shen等通過使用條件隨機(jī)場(CRF)擴(kuò)展基于HMM的方法獲得區(qū)分度[6].CRF能夠基于大量特征來識(shí)別句子重要性并展示其有效性.這類模型的缺點(diǎn)是只能把句子分為2類,不能直接考慮輸出長度.這一不足有很大問題,因?yàn)閷?shí)際應(yīng)用中摘要長度是有限的.因此,摘要器應(yīng)該能夠控制輸出長度.相比于這些方法,本文采用一種混合神經(jīng)網(wǎng)絡(luò)的摘要方法,在對(duì)文檔進(jìn)行自動(dòng)摘要時(shí),自然地考慮了最大長度約束.

        圖1 混合神經(jīng)網(wǎng)絡(luò)摘要模型

        3 系統(tǒng)模型

        3.1 問題形式化

        給定文檔D,包含句子序列{S1,…,Sn},選擇k(k

        3.2 系統(tǒng)摘要模型

        如圖1所示,摘要模型關(guān)鍵部分包括基于神經(jīng)網(wǎng)絡(luò)的文檔讀取器和基于關(guān)注的內(nèi)容抽取器.模型分層反映了文檔由詞、句、段組合而成的本質(zhì).所以采用反映相同結(jié)構(gòu)的表示框架,能夠發(fā)現(xiàn)全局信息,保持局部信息,可以產(chǎn)生最小信息損失并能靈活選擇較長上下文內(nèi)的重要句子,最終依據(jù)摘要長度限制產(chǎn)生摘要.

        3.3 文檔讀取程序

        每個(gè)句子被看作1個(gè)詞序列,讀取程序從句子中推導(dǎo)文檔的意義表示.先通過單層神經(jīng)卷積網(wǎng)絡(luò)(CNN)獲取句子的表示向量,然后使用標(biāo)準(zhǔn)并行神經(jīng)網(wǎng)絡(luò)(RNN)遞歸地組合句子生成文檔表示.在分層方式下,詞級(jí)別的CNN獲得句子表示,用作RNN的輸入以獲取文檔表示.

        句子編碼程序采用卷積神經(jīng)網(wǎng)絡(luò)表示句子.因?yàn)?,單層卷積神經(jīng)網(wǎng)絡(luò)可以有效訓(xùn)練并已成功用于句子分類任務(wù).設(shè)d表示詞向量的維數(shù),s是包含詞序列(w1,…,wm)的句子,可表示為一個(gè)列矩陣w∈Rmxd.使用W和K∈Rfxd之間的寬度為f的卷積如下:

        其中,⊙表示Hadamard積(對(duì)應(yīng)元素相乘),b表示偏差表示第i個(gè)特征的第k個(gè)元素.

        文檔編碼程序的任務(wù)是由RNN把句向量組合成文檔向量.RNN的隱狀態(tài)可看作部分列表表示,這些列表一起構(gòu)成了文檔表示.設(shè)文檔d={s1,…,sn},ht是t時(shí)刻的隱狀態(tài),按以下公式[7]調(diào)整:

        其中,⊙表示對(duì)于元素相乘,Wi,Wf,bi,bf為語義組合的自適應(yīng)選擇與刪除的歷史向量和輸入向量.Wr∈Rlh×(lh+loc),br∈Rlh,lh和loc分別是隱向量和句子向量的維數(shù).

        3.4 句子抽取程序

        讀取句子后,由句子抽取程序應(yīng)用關(guān)注直接抽取句子.該抽取程序也是一個(gè)RNN,同時(shí)考慮句子的相關(guān)性及冗余性.設(shè)t時(shí)刻編碼程序的隱態(tài)為(h1,…,hm),抽取程序的隱態(tài)為(h1,…,hm),通過當(dāng)前譯碼狀態(tài)與對(duì)應(yīng)編碼狀態(tài)的關(guān)聯(lián),譯碼器關(guān)注第t個(gè)句子:

        其中,MLP是一個(gè)多層神經(jīng)網(wǎng)絡(luò),以t時(shí)刻隱態(tài)與狀態(tài)的連接ht:ht為輸入.dt-1表示抽取程序認(rèn)為應(yīng)該抽取和存儲(chǔ)前一個(gè)句子的程度.

        表1 DUC2005評(píng)測結(jié)果

        表2 DUC2006評(píng)測結(jié)果

        表3 以柬埔寨政治危機(jī)為主題的自動(dòng)摘要實(shí)例

        4 實(shí)驗(yàn)結(jié)果及分析

        本文實(shí)驗(yàn)選擇DUC的標(biāo)準(zhǔn)數(shù)據(jù)集和評(píng)測方法實(shí)施實(shí)驗(yàn),以評(píng)估本文在第3節(jié)和第4節(jié)介紹的方法.評(píng)估方法進(jìn)以DUC2005語料作為測試集,DUC2006語料作為開發(fā)集.DUC2005數(shù)據(jù)集包含約1300篇文檔. DUC2006數(shù)據(jù)集包含1250篇文檔.

        首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,然后利用斯坦福大學(xué)自然語言處理研究小組開發(fā)的開源工具包CoreNLP對(duì)預(yù)處理后的文本進(jìn)行句子切分、詞性標(biāo)注、命名實(shí)體識(shí)別、依存分析,以及指代消解等處理,借助組合語義的思想利用詞向量表示句子向量.

        同眾多主流方法一樣選擇LexRank[8]和Centroid[9]作為DUC2005的基準(zhǔn)系統(tǒng),選擇NIST-baseline作為DUC2006的基準(zhǔn)系統(tǒng).實(shí)驗(yàn)結(jié)果如表1、2所示.

        在與主流摘要方法的對(duì)比中,我們的方法也取得了不錯(cuò)的成績.在DUC2005、DUC2006數(shù)據(jù)集的評(píng)測中,本文方法領(lǐng)先于基于相同數(shù)據(jù)集評(píng)測的基線方法.本文方法在整體表現(xiàn)上都很優(yōu)秀,這也充分說明了混合神經(jīng)思想在生成式摘要上的可行性.

        由于抽取式方法易于機(jī)器實(shí)現(xiàn),所以在過去的研究中,主要摘要方法基本上都采用抽取式的思想.表3展示了一篇關(guān)于柬埔寨政治危機(jī)文章的自動(dòng)抽取式摘要的實(shí)驗(yàn)結(jié)果.表格第一欄是包含179個(gè)英文句子的短文片段,粗體字部分是自動(dòng)抽取的摘要句.第二欄是人工編寫的參考摘要句.對(duì)比來看,自動(dòng)抽取的摘要句基本上涵蓋了人工摘要句1)、3)、5)所要表達(dá)的含義,且與主題“柬埔寨政治危機(jī)”相吻合.

        5 結(jié)語

        本文設(shè)計(jì)了反映文檔詞、句、段結(jié)構(gòu)本質(zhì)的表示框架,先通過單層神經(jīng)卷積網(wǎng)絡(luò)獲取句子的表示向量,然后使用標(biāo)準(zhǔn)并行神經(jīng)網(wǎng)絡(luò)遞歸地組合句子生成文檔表示.它能夠發(fā)現(xiàn)全局信息,保持局部信息,產(chǎn)生最小信息損失,并能靈活選擇較長上下文內(nèi)的重要句子生成摘要.實(shí)驗(yàn)表明,本文方法效果較好.

        [1]Hahn U,Mani I.The challenges of automatic summarization[J]. Computer,2000,33(11):29-36.

        [2]Xiaojun Wan,Tianming Wang.Automatic Labeling of Topic Models Using Text Summaries[C]//Proceedings of the 54th Annual Meetingofthe Association for Computational Linguistics,2016:2297-2305.

        [3]Parth Mehta.From Extractive to Abstractive Summarization:A Journey[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics-Student Research Workshop,2016:100-106.

        [4]Hitoshi Nishik awa1,Kazuho Arita1,Katsumi Tanaka,et al. Learning to Generate Coherent Summary with Discriminative Hidden Semi-MarkovModel[C]//Proceedings ofCOLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:1648-1659.

        [5]Hitoshi Nishikawa,Takaaki Hasegawa,Yoshihiro Matsuo,et al. Opinionsummarizationwithintegerlinearprogramming formulation for sentence extraction and ordering[C]//.International Conference on Coling,2010:910-918.

        [6]Dou Shen,Jian-Tao Sun,Hua Li,et al.Document summarization using conditional random fields[C]//.In Proceedings of the 20th international joint conference on Artifical intelligence(IJCAI),2007:2862-2867.

        [7]Duyu Tang,Bing Qin,Ting Liu.Document Modeling with Gated Recurrent Neural Network for Sentiment Classification[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1422-1432.

        [8]Erkan G,Radev D R.LexRank:Graph-based lexical centrality as salience in text summarization[J].Journal of Artificial Intelligence Research,2004:457-479.

        [9]RadevDR,JingH,BudzikowskaM.Centroid-based summarizationofmultipledocuments:sentenceextraction,utility-based evaluation,and user studies[C]//Proceedings of ACL,2000:21-30.

        On Extractive Summarization Via Hybrid Neural Networks

        LIN Jing
        (School of Computer Science and Engineering,Huaihua University,Huaihua,Hunan 418008)

        A document or a set of documents are easy for readers to read and understand fast by their summaries. But traditional extractive summarization relies heavily on human-engineered features.Hence in this work a summarization approach was proposed based on hybrid neural networks(FNN).Our model includes a neural network-based hierarchical document reader or encoder and an attention-based content extractor.The proposed approach can automatically generate summary by extracting salient sentences from documents.Experiments show that our model outperforms previous state-ofthe-art methods.

        text summarization;sentences extraction;hybrid neural networks

        TP391

        A

        1671-9743(2017)05-0071-04

        2017-02-22

        湖南省重點(diǎn)實(shí)驗(yàn)室項(xiàng)目“武陵山區(qū)生態(tài)農(nóng)業(yè)農(nóng)情摘要關(guān)鍵技術(shù)研究”(No.ZNKZ2014-8).

        林晶,1970年生,男,湖南邵陽人,副教授,研究方向:自然語言處理、大數(shù)據(jù)分析、信息安全.

        猜你喜歡
        文檔向量程序
        向量的分解
        有人一聲不吭向你扔了個(gè)文檔
        聚焦“向量與三角”創(chuàng)新題
        試論我國未決羈押程序的立法完善
        “程序猿”的生活什么樣
        英國與歐盟正式啟動(dòng)“離婚”程序程序
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        丝袜欧美视频首页在线| 欧美亚洲国产一区二区三区| 西西人体444www大胆无码视频| 国产毛片网| 国产精品自在在线午夜出白浆| 国产精品国产三级国产剧情 | aa片在线观看视频在线播放| 人妻被黑人粗大的猛烈进出| 久久精品国产乱子伦多人| 国产色视频在线观看了| 日韩人妻少妇一区二区三区| 末发育娇小性色xxxxx视频| 亚洲区偷拍自拍29p| 久久精品国产亚洲av豆腐| 亚洲a∨无码精品色午夜| 国产在线精品一区二区| 99精品视频69v精品视频免费| 国产在线观看一区二区三区av| 亚洲av香蕉一区区二区三区| 色爱区综合五月激情| 深夜福利国产| 国产黄色三级一区二区三区四区| 蜜臀av无码人妻精品| 在线观看av中文字幕不卡| 日韩国产自拍成人在线| 人妻久久久一区二区三区蜜臀| 国产无遮挡无码视频免费软件| 一区二区久久不射av| 丝袜美腿精品福利在线视频| 正在播放老肥熟妇露脸| chinese国产乱在线观看| 米奇亚洲国产精品思久久| 国产精品日韩经典中文字幕| 无码国产伦一区二区三区视频| 精品视频在线观看免费无码| 亚洲精品视频一区二区三区四区| 国产成a人亚洲精品无码樱花| 久久久久亚洲av无码观看| 亚洲一区二区三在线播放| 青青草成人在线免费视频| 67194熟妇在线永久免费观看|