亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)的文本標(biāo)題生成原型系統(tǒng)設(shè)計(jì)

        2021-05-12 13:47:24張仕森孫憲坤李世璽
        電子科技 2021年5期
        關(guān)鍵詞:解碼器原型語(yǔ)義

        張仕森,孫憲坤,尹 玲,李世璽

        (上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

        隨著近幾年互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)中的文本信息資源的數(shù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。根據(jù)中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)發(fā)布的《中國(guó)互聯(lián)網(wǎng)發(fā)展報(bào)告2019》,截至2018年底,我國(guó)網(wǎng)頁(yè)總數(shù)量已達(dá)到2 816億,這些網(wǎng)頁(yè)中所包含的信息覆蓋了社會(huì)生活的各個(gè)領(lǐng)域。然而這其中也包含了海量不規(guī)范的文本信息,例如市場(chǎng)上眾多移動(dòng)客戶端中自媒體文章的“標(biāo)題黨”,以及互聯(lián)網(wǎng)中大量無(wú)標(biāo)題的評(píng)論、微博等,這些不規(guī)范的文本信息給人們帶來(lái)了巨大的信息過(guò)載壓力。為這些不規(guī)范的文本信息生成一條簡(jiǎn)潔、切合原文表達(dá)的標(biāo)題可以緩解信息過(guò)載壓力,提高工作效率并為相關(guān)部門監(jiān)察社會(huì)輿論提供幫助。

        實(shí)際工作中采用傳統(tǒng)的人工總結(jié)編寫標(biāo)題的方式在耗費(fèi)大量時(shí)間、人力成本的同時(shí)難以應(yīng)對(duì)每天產(chǎn)生的海量不規(guī)范文本。標(biāo)題生成是以文本內(nèi)容作為輸入,以標(biāo)題作為輸出的一種文本摘要任務(wù)的變體,因此通過(guò)標(biāo)題生成技術(shù)可以高效、經(jīng)濟(jì)地解決這一問(wèn)題。

        文獻(xiàn)[1]通過(guò)詞頻、逆序文本頻率等文本特征來(lái)計(jì)算文章中每一個(gè)句子作為摘要的概率,研發(fā)出一種基于貝葉斯分類模型的自動(dòng)文本摘要系統(tǒng)DimSim。但在自然語(yǔ)言中,特征與特征之間并不是相互獨(dú)立的,而是存在某些內(nèi)部聯(lián)系,因此文獻(xiàn)[2]使用決策樹替換樸素貝葉斯分類器來(lái)構(gòu)造新的摘要系統(tǒng)。文獻(xiàn)[3]在谷歌公司提出PageRank[4]算法的基礎(chǔ)上提出了TextRank算法來(lái)實(shí)現(xiàn)文本摘要的生成。這些方法都是通過(guò)判斷原始文本中各個(gè)單詞或句子的重要程度,對(duì)原文中語(yǔ)句進(jìn)行重新排序,按照重要性的大小抽取原文中的語(yǔ)句來(lái)構(gòu)成摘要的抽取式技術(shù)。抽取式技術(shù)實(shí)現(xiàn)簡(jiǎn)單、快速,但是無(wú)法滿足人們對(duì)于生成摘要準(zhǔn)確性和流暢性的要求。

        隨著近年來(lái)深度學(xué)習(xí)技術(shù)的發(fā)展,對(duì)文本內(nèi)容進(jìn)行整體的全面總結(jié)凝練,然后生成摘要的生成式技術(shù)逐漸成為文本摘要任務(wù)的主流方法。抽取式技術(shù)僅僅是抽取原文中的語(yǔ)句來(lái)構(gòu)成摘要,而生成式技術(shù)則更加符合人類的閱讀和思考習(xí)慣,生成出來(lái)的摘要也更符合人工撰寫摘要的規(guī)律。

        文獻(xiàn)[5]在新聞標(biāo)題生成任務(wù)中應(yīng)用Seq2Seq(Sequence to Sequence)模型取得了良好的效果。文獻(xiàn)[6]在Seq2Seq模型的基礎(chǔ)上引入了注意力機(jī)制,完成了生成式的中文文本摘要生成。本文基于神經(jīng)網(wǎng)絡(luò)和生成式技術(shù)對(duì)中文文本標(biāo)題生成原型系統(tǒng)進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn)。

        1 自然語(yǔ)言的文本表示

        自然語(yǔ)言的文本表示是指由于計(jì)算機(jī)無(wú)法直接識(shí)別語(yǔ)言的符號(hào)文字[7],因此需要將這些符號(hào)文字轉(zhuǎn)換為文本向量這種計(jì)算機(jī)可以進(jìn)行運(yùn)算的數(shù)學(xué)表達(dá)形式。轉(zhuǎn)換之后得到的文本向量一般包含語(yǔ)言的語(yǔ)法、語(yǔ)義等重要特征[8]。自然語(yǔ)言處理技術(shù)經(jīng)過(guò)長(zhǎng)久的發(fā)展,形成了兩種最主要的文本表示方法:離散表示與分布式表示。

        1.1 離散表示

        在離散表示方法中,對(duì)于詞典中的每一個(gè)詞一般使用一個(gè)長(zhǎng)度和詞典總詞數(shù)大小相同的離散高維向量來(lái)表示詞語(yǔ)。這個(gè)離散的高維向量中每一個(gè)元素都對(duì)應(yīng)詞典中的某一個(gè)詞,其中只有一個(gè)元素的數(shù)值為1,其余均是0,元素為1的位置代表其對(duì)應(yīng)詞在詞典中的位置。

        利用離散向量的方式對(duì)文本進(jìn)行表示的方法有兩個(gè)弊端[9]:(1)離散表示方法向量的維度隨著詞的數(shù)量增大而増大,具有超高的維度和極大的稀疏性,高維度和稀疏性會(huì)產(chǎn)生自然語(yǔ)言處理中的“維數(shù)災(zāi)難”問(wèn)題,占用較大的運(yùn)算空間,增加了神經(jīng)網(wǎng)絡(luò)的計(jì)算代價(jià);(2)離散表示方法會(huì)導(dǎo)致任意兩個(gè)詞之間是相對(duì)獨(dú)立的,相當(dāng)于給每個(gè)詞分配一個(gè)id,導(dǎo)致離散表示方式不能有效地表達(dá)詞與詞之間的語(yǔ)義關(guān)系,無(wú)法表示語(yǔ)言復(fù)雜的語(yǔ)義信息[10]。在一定程度上離散表示是假設(shè)了語(yǔ)義的單一性,即認(rèn)為語(yǔ)義僅僅是一維的,然而實(shí)際上語(yǔ)義應(yīng)該是多維的。例如對(duì)于詞語(yǔ)“家園”,有的人會(huì)聯(lián)想到“安全”、“溫馨”,有的人則會(huì)聯(lián)想到“地球”、“環(huán)境”。由于不同人對(duì)同一個(gè)詞的理解存在著較大的差異,因此僅通過(guò)給每個(gè)詞分配一個(gè)id很難將詞語(yǔ)放在合適的位置。此外,離散也無(wú)法衡量詞語(yǔ)的相似性,即使是同義詞在離散表示上也會(huì)被表示為完全不同的向量。

        1.2 分布式表示

        自然語(yǔ)言中的詞語(yǔ)并非是全部獨(dú)立的,例如“賓館”和“旅館”,“母校”和“大學(xué)”,它們具有一定的關(guān)聯(lián)性和相似性。離散表示將每一個(gè)詞看作一個(gè)完整獨(dú)立的個(gè)體,假設(shè)了語(yǔ)義的單一性,無(wú)法衡量詞語(yǔ)之間的相似性。為了解決傳統(tǒng)離散表示方法的這一缺點(diǎn),文獻(xiàn)[11]提出了詞向量(Word Vector)的概念。詞向量又稱為詞嵌入(Word Embedding),是指用一種低維的、連續(xù)實(shí)值向量的形式來(lái)表示詞語(yǔ)[12]。通過(guò)用詞向量對(duì)詞語(yǔ)進(jìn)行表示,可使每個(gè)詞語(yǔ)都變?yōu)樵~典的N維向量空間中的一個(gè)點(diǎn)。詞向量可以有效解決傳統(tǒng)離散表示的“維數(shù)災(zāi)難”問(wèn)題。此外,不同詞語(yǔ)在N維向量空間對(duì)應(yīng)的點(diǎn)與點(diǎn)之間有距離的遠(yuǎn)近關(guān)系,從而可以通過(guò)計(jì)算對(duì)應(yīng)點(diǎn)之間的距離得到詞與詞之間的語(yǔ)義關(guān)系。圖1展示的是部分中文詞向量空間示意圖。

        圖1 部分詞向量空間示意圖

        從圖1中可以看出,語(yǔ)義相關(guān)的詞在詞典向量空間中的相對(duì)位置較為接近,例如“健康”和“預(yù)防”、“需求”和“增加”等??梢钥闯?,相對(duì)于假設(shè)語(yǔ)義單一性的離散表示,分布式表示可以有效地表達(dá)出詞與詞之間的聯(lián)系。

        2 帶注意力機(jī)制的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型

        標(biāo)準(zhǔn)的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型的結(jié)構(gòu)[13]如圖2所示。其是將整個(gè)輸入序列編碼為一個(gè)固定大小的上下文語(yǔ)義向量c,之后用這個(gè)固定大小的向量進(jìn)行解碼操作,即標(biāo)題中每個(gè)輸出詞語(yǔ)yi的生成過(guò)程為

        (1)

        其中,f是解碼器Decoder的非線性變換函數(shù)。由式(1)可以看出,標(biāo)準(zhǔn)的序列到序列模型,在生成標(biāo)題中每個(gè)輸出詞語(yǔ)yi時(shí)使用的上下文語(yǔ)義向量c都是相同的,即無(wú)論生成y1,y2,…,yn時(shí),輸入文本中任意詞語(yǔ)對(duì)于某個(gè)輸出詞語(yǔ)yi來(lái)說(shuō)影響力都是相同的。

        圖2 編碼器-解碼器模型網(wǎng)絡(luò)結(jié)構(gòu)圖

        但在實(shí)際應(yīng)用中,編碼器Encoder將整個(gè)輸入序列的信息壓縮到一個(gè)固定長(zhǎng)度的向量會(huì)導(dǎo)致這個(gè)固定長(zhǎng)度的上下文語(yǔ)義向量c無(wú)法有效表示輸入文本的全部信息,導(dǎo)致文本信息的丟失。

        在標(biāo)準(zhǔn)的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型中引入注意力機(jī)制可以減輕上下文語(yǔ)義向量c所承擔(dān)的信息壓力。其具體操作為:使用根據(jù)當(dāng)前生成詞而不斷變化的上下文向量ci來(lái)替換原來(lái)Encoder端固定長(zhǎng)度的上下文語(yǔ)義向量c,并且在生成上下文向量ci的同時(shí)還會(huì)生成針對(duì)每個(gè)輸入的注意力權(quán)重參數(shù)ai。在解碼器端解碼時(shí),隱藏層向量h′i不僅僅要與Encoder端編碼出來(lái)的上下文語(yǔ)義向量ci進(jìn)行混合,還要與注意力權(quán)重參數(shù)ai進(jìn)行混合,共同決定當(dāng)前時(shí)刻的輸出。

        雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)可以對(duì)上下文同時(shí)進(jìn)行建模計(jì)算[14],充分利用上下文語(yǔ)句之間的語(yǔ)義聯(lián)系,提高最終的文本生成效果。因此本文研究選取的模型在編碼階段采用了雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)[15]進(jìn)行編碼建模,在解碼階段則采用了單向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼操作。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 帶注意力機(jī)制的編碼器-解碼器模型結(jié)構(gòu)圖

        圖3中注意力權(quán)重參數(shù)a′i及根據(jù)當(dāng)前生成詞而不斷變化的上下文向量ci的計(jì)算如下

        (2)

        (3)

        式(2)和式(3)中,hj是編碼過(guò)程中j時(shí)刻的LSTM神經(jīng)網(wǎng)絡(luò)隱藏層向量,h′i是解碼過(guò)程中i時(shí)刻的LSTM神經(jīng)網(wǎng)絡(luò)隱藏層向量;w是注意力權(quán)重矩陣。

        此時(shí)標(biāo)題中每個(gè)輸出詞語(yǔ)yi的生成過(guò)程變?yōu)槭?4)。

        (4)

        在每個(gè)時(shí)間步,解碼器會(huì)根據(jù)當(dāng)前解碼器的隱藏層向量來(lái)引導(dǎo)編碼器產(chǎn)生的上下文語(yǔ)義向量ci生成對(duì)應(yīng)的輸出序列。因此在生成標(biāo)題的每個(gè)詞語(yǔ)時(shí),注意力機(jī)制將幫助生成模型選擇與此部分高度相關(guān)的原文信息,進(jìn)而生成更貼合原文的相關(guān)標(biāo)題。

        最終結(jié)合注意力機(jī)制的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型標(biāo)題生成詞的條件概率如式(5)所示。

        (5)

        3 標(biāo)題生成原型系統(tǒng)的設(shè)計(jì)

        3.1 標(biāo)題生成原型系統(tǒng)的整體結(jié)構(gòu)

        標(biāo)題生成原型系統(tǒng)主要由前端展示和后端算法兩部分組成,系統(tǒng)的整體結(jié)構(gòu)如圖4所示。

        圖4 標(biāo)題生成系統(tǒng)的整體結(jié)構(gòu)

        其中前端展示模塊主要的作用是進(jìn)行人機(jī)交互,即用戶輸入想得到標(biāo)題的文本后,前端界面可以返回給用戶該文本在標(biāo)題生成原型系統(tǒng)中生成的對(duì)應(yīng)標(biāo)題。后端算法部分則在接收到用戶輸入的原始文本后,對(duì)用戶的輸入文本進(jìn)行分詞、文本向量化表示、標(biāo)題生成等步驟,并將系統(tǒng)生成的標(biāo)題傳遞給前端界面并展示給用戶。

        3.2 標(biāo)題生成原型系統(tǒng)的功能模塊

        3.2.1 人機(jī)交互模塊

        人機(jī)交互模塊在前端可視化界面中展示,主要用于負(fù)責(zé)接收用戶輸入的待生成標(biāo)題的原始文本,并將接收到的輸入文本傳遞到后端進(jìn)行處理,最后再將后端生成的標(biāo)題展示在可視化界面中。

        本文在人機(jī)交互模塊中使用Tkinter模塊來(lái)搭建標(biāo)題生成系統(tǒng)的可視化界面。Tkinter模塊是Python的標(biāo)準(zhǔn)Tk-GUI工具包的接口,可以在Windows和大多數(shù)的Unix平臺(tái)下使用,從而解決了跨平臺(tái)的兼容性問(wèn)題[16]。

        3.2.2 分詞模塊

        分詞模塊使用jieba開源分詞工具對(duì)輸入的文本進(jìn)行分詞操作,作為后續(xù)的文本向量化模塊的預(yù)處理操作。

        例如輸入文本:近年來(lái),一些社會(huì)培訓(xùn)機(jī)構(gòu)擅自招收適齡兒童、少年,以“國(guó)學(xué)”“女德”教育等名義開展全日制教育、培訓(xùn),替代義務(wù)教育學(xué)校教育,導(dǎo)致相關(guān)適齡兒童、少年接受義務(wù)教育的權(quán)利和義務(wù)不能依法實(shí)現(xiàn)。對(duì)此,教育部印發(fā)《禁止妨礙義務(wù)教育實(shí)施的若干規(guī)定》。該文本經(jīng)過(guò)分詞模塊后的輸出見(jiàn)表1。

        表1 分詞模塊處理示例

        3.2.3 文本向量化模塊

        文本向量化模塊將分詞模塊的輸出文本通過(guò)詞向量模型轉(zhuǎn)變?yōu)橛?jì)算機(jī)可以識(shí)別的向量表示,之后將經(jīng)過(guò)向量化表示的文本信息傳遞進(jìn)標(biāo)題生成模塊進(jìn)行最終的標(biāo)題生成。

        3.2.4 標(biāo)題生成模塊

        標(biāo)題生成模塊基于上述模塊和帶注意力機(jī)制的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)來(lái)生成用戶輸入原始文本所對(duì)應(yīng)的標(biāo)題,并將生成結(jié)果傳遞回前端部分的人機(jī)交互模塊進(jìn)行展示。

        4 標(biāo)題生成原型系統(tǒng)的實(shí)現(xiàn)

        4.1 標(biāo)題生成網(wǎng)絡(luò)模型的訓(xùn)練

        4.1.1 訓(xùn)練數(shù)據(jù)的獲取

        訓(xùn)練標(biāo)題生成任務(wù)的神經(jīng)網(wǎng)絡(luò)模型需要文本-標(biāo)題對(duì)結(jié)構(gòu)的大規(guī)模高質(zhì)量文本數(shù)據(jù)集?;诖?,本文研究主要使用了哈爾濱工業(yè)大學(xué)的LCSTS(Large Scale Chinese Short Text Summarization Dataset)[17]數(shù)據(jù)集。

        LCSTS是一個(gè)大規(guī)模的中文短文本摘要數(shù)據(jù)集,其數(shù)據(jù)主要來(lái)源于一些具有影響力的機(jī)構(gòu)或者媒體在新浪微博平臺(tái)上向公眾發(fā)布的信息。LCSTS的數(shù)據(jù)內(nèi)容如圖5所示。

        其中,human_label是志愿者對(duì)每條短文本與摘要的相關(guān)性程度的標(biāo)注,從1~5,數(shù)字越大代表短文本與摘要的相關(guān)性越高;summary則是這些具有影響力的機(jī)構(gòu)或者媒體在發(fā)布消息時(shí)所用的標(biāo)題;short_text則是發(fā)布的消息內(nèi)容。

        圖5 LCSTS數(shù)據(jù)示例

        LCSTS數(shù)據(jù)集共包含超過(guò)24萬(wàn)條短文本摘要數(shù)據(jù),其數(shù)據(jù)長(zhǎng)度分布如圖6所示。

        圖6 LCSTS數(shù)據(jù)長(zhǎng)度分布箱形圖

        由圖6可以看出,LCSTS數(shù)據(jù)集中多數(shù)short_text的長(zhǎng)度大于100,與之對(duì)應(yīng)summary的長(zhǎng)度通常小于20,即可以使用summary的內(nèi)容作為輸出標(biāo)題,short_text的內(nèi)容作為輸入文本進(jìn)行模型訓(xùn)練。

        4.1.2 標(biāo)題生成網(wǎng)絡(luò)的訓(xùn)練參數(shù)設(shè)置

        標(biāo)題生成網(wǎng)絡(luò)模型的訓(xùn)練環(huán)境主要為Intel CORE i7 9700,NVIDIA Tesla V100 32G TPU,Python3.6,Tensorflow1.4,Keras2.1.2,Numpy1.17,Pandas0.23,單次訓(xùn)練耗時(shí)約8 h。實(shí)驗(yàn)參數(shù)設(shè)置如表2所示。

        表2 TGMCN模型訓(xùn)練參數(shù)設(shè)置

        4.2 原型系統(tǒng)的效果展示

        標(biāo)題生成原型系統(tǒng)的可視化界面主要包括以下幾部分:(1)用戶文本輸入框。用戶文本輸入框用于輸入待生成標(biāo)題的原始文本;(2)標(biāo)題生成結(jié)果框。標(biāo)題生成結(jié)果框用于展示系統(tǒng)根據(jù)原始輸入文本而生成的標(biāo)題;(3)標(biāo)題生成按鈕。標(biāo)題生成按鈕用于啟動(dòng)生成系統(tǒng);(4)清空界面按鈕。清空界面按鈕用于清空輸入的文本和系統(tǒng)輸出的標(biāo)題。標(biāo)題生成原型系統(tǒng)的可視化界面如圖7所示。

        圖7 標(biāo)題生成原型系統(tǒng)的可視化界面

        如果用戶輸入的原始文本為空,則系統(tǒng)無(wú)法生成對(duì)應(yīng)標(biāo)題,此時(shí)系統(tǒng)進(jìn)行彈窗,提醒用戶原始輸入文本不能為空,點(diǎn)擊“確定”按鈕回主界面重新進(jìn)行輸入,如圖8所示。

        圖8 輸入文本錯(cuò)誤時(shí)的系統(tǒng)界面

        當(dāng)用戶輸入沒(méi)有錯(cuò)誤的原始文本后,系統(tǒng)會(huì)調(diào)用后端算法模型來(lái)生成輸入文本對(duì)應(yīng)的標(biāo)題,并將生成結(jié)果展示在標(biāo)題生成結(jié)果框中,如圖9所示。

        圖9 生成結(jié)果展示

        4.3 原型系統(tǒng)的性能評(píng)價(jià)

        4.3.1 ROUGE評(píng)價(jià)指標(biāo)

        本文標(biāo)題生成原型系統(tǒng)的性能評(píng)價(jià)采用的評(píng)價(jià)指標(biāo)是基于召回率統(tǒng)計(jì)的ROUGE(Recalloriented Understudy for Gisting Evaluation)[18]指標(biāo)。ROUGE指標(biāo)由ISI的Lin和Hovy提出,是自動(dòng)摘要研究領(lǐng)域基于機(jī)器摘要和人工摘要中N-gram匹配的情況來(lái)生成量化結(jié)果的一種評(píng)價(jià)方法。ROUGE-1、ROUGE-L的計(jì)算方法如式(6)和式(7)所示。

        (6)

        式(6)中,referencesummaries是人工編寫的摘要,Countmatch(gram)表示系統(tǒng)自動(dòng)生成的摘要和人工摘要中相同N-gram的最大數(shù)量,Count(gram)表示人工摘要中出現(xiàn)的N-gram個(gè)數(shù)。

        (7)

        式中,X和Y分別代表模型自動(dòng)生成的摘要和人工標(biāo)準(zhǔn)摘要;L(X,Y)是X和Y的最長(zhǎng)公共子序列的長(zhǎng)度;m和n分別表示人工標(biāo)準(zhǔn)摘要和系統(tǒng)自動(dòng)生成的摘要的長(zhǎng)度,即組成摘要的詞語(yǔ)個(gè)數(shù);Rl和Pl則分別表示召回率和準(zhǔn)確率;β被設(shè)置為一個(gè)趨向于正無(wú)窮的極大參數(shù),因此ROUGE-L在數(shù)值上約等于Rl。

        4.3.2 原型系統(tǒng)的性能測(cè)試結(jié)果

        由于LCSTS數(shù)據(jù)集中human_label標(biāo)簽數(shù)值為“5”的文本代表經(jīng)過(guò)志愿者標(biāo)注,認(rèn)為該條文本的標(biāo)題與文本內(nèi)容相似度較高。因此在測(cè)試原型系統(tǒng)性能時(shí),在LCSTS數(shù)據(jù)集中所有human_label標(biāo)簽數(shù)值為“5”的文本中隨機(jī)選取了510條,并將該510條文本數(shù)據(jù)移出訓(xùn)練集來(lái)構(gòu)成測(cè)試集以避免訓(xùn)練過(guò)程中的數(shù)據(jù)泄露。

        LexPageRank模型[19]是將PageRank算法應(yīng)用到文本句子關(guān)系表示的方法,是一種基于圖模型的標(biāo)題生成模型。MEAD模型[20]是通過(guò)聯(lián)合考慮句子的質(zhì)心、位置、公共子序列及關(guān)鍵詞這4種特征的標(biāo)題生成模型。為了驗(yàn)證標(biāo)題生成原型系統(tǒng)的性能,本文選取了LexPageRank和MEAD模型作為基線模型。系統(tǒng)性能測(cè)試結(jié)果見(jiàn)表3。

        表3 系統(tǒng)性能測(cè)試結(jié)果

        5 結(jié)束語(yǔ)

        隨著互聯(lián)網(wǎng)時(shí)代的快速發(fā)展,網(wǎng)絡(luò)中存在著大量不規(guī)范的文本信息。本文針對(duì)人工編寫標(biāo)題無(wú)法應(yīng)對(duì)每天產(chǎn)生的海量文本數(shù)據(jù)這一現(xiàn)象,基于生成式文本摘要技術(shù)對(duì)中文標(biāo)題生成原型系統(tǒng)進(jìn)行了設(shè)計(jì)與實(shí)現(xiàn),并對(duì)系統(tǒng)功能進(jìn)行了詳細(xì)的介紹和展示。通過(guò)在LCSTS數(shù)據(jù)集上的實(shí)驗(yàn)表明,采用訓(xùn)練結(jié)合注意力機(jī)制的編碼器-解碼器標(biāo)題生成網(wǎng)絡(luò)模型,可以使系統(tǒng)生成的標(biāo)題更符合人工撰寫摘要的規(guī)律,在一定程度上滿足人們對(duì)于生成標(biāo)題的流暢性和準(zhǔn)確性的要求。其中,ROUGE-1、ROUGE-L評(píng)價(jià)指標(biāo)的數(shù)值分別為29.91和24.68,均高于基線模型,證明了標(biāo)題生成原型系統(tǒng)的有效性。

        但是,因?yàn)橛?jì)算機(jī)硬件設(shè)備限制的客觀原因以及自身水平有限的主觀原因,本文仍然存在著有待完善優(yōu)化的地方,例如距離生成真正意義上的語(yǔ)義準(zhǔn)確、表述清晰、行文連貫的高質(zhì)量文章標(biāo)題仍有著不小的差距。此外,本文所設(shè)計(jì)并實(shí)現(xiàn)的標(biāo)題生成原型系統(tǒng)僅僅具備簡(jiǎn)單的基礎(chǔ)功能,距離實(shí)際工業(yè)應(yīng)用還有一定距離。在今后的工作中,研究人員將會(huì)持續(xù)關(guān)注國(guó)內(nèi)外在文本生成領(lǐng)域的最新研究,從而繼續(xù)優(yōu)化和改進(jìn)標(biāo)題生成系統(tǒng)的性能。

        猜你喜歡
        解碼器原型語(yǔ)義
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        包裹的一切
        語(yǔ)言與語(yǔ)義
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        《哈姆雷特》的《圣經(jīng)》敘事原型考證
        論《西藏隱秘歲月》的原型復(fù)現(xiàn)
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        原型理論分析“門”
        人間(2015年20期)2016-01-04 12:47:08
        最好的99精品色视频大全在线 | 亚洲国产精品综合久久20| 亚洲人妻av综合久久| 色偷偷激情日本亚洲一区二区| 国产成人无码av一区二区| 免费人成毛片乱码| 亚洲视频在线播放免费视频| 精品国产一区二区三区性色| 情人伊人久久综合亚洲| 放荡的闷骚娇妻h| 久久久精品国产亚洲麻色欲| 亚洲三级中文字幕乱码| 国内精品久久久人妻中文字幕 | 女人色毛片女人色毛片18| 高h视频在线免费观看| 中文字幕乱码一区在线观看| 国产成人a∨激情视频厨房| av人摸人人人澡人人超碰小说| 538在线视频| 狠色人妻丝袜中文字幕| 欧美性色黄大片手机版| 日韩中文网| 蜜桃av福利精品小视频| 浓毛老太交欧美老妇热爱乱| 精品人妻人人做人人爽夜夜爽| 中文字幕国产精品中文字幕| 久久婷婷综合色一区二区| 亚洲欧美日韩精品久久| 精品免费在线| 少妇久久高潮不断免费视频| 国产自拍精品一区在线观看| 日出水了特别黄的视频| 无码人妻丝袜在线视频| 亚洲福利二区三区四区 | 亚洲人成绝费网站色www| 国产精品女同久久免费观看| 一区二区视频在线国产| 国产午夜福利不卡在线观看 | 国产成人综合久久三区北岛玲| 美女丝袜美腿玉足视频| 国产成人一区二区三区影院动漫|