亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自動(dòng)文摘的答案生成方法研究

        2018-12-13 09:07:44黃青松劉利軍馮旭鵬
        關(guān)鍵詞:語(yǔ)料文檔向量

        胡 遷 黃青松,2 劉利軍* 馮旭鵬

        1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)2(昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650500)3(昆明理工大學(xué)教育技術(shù)與網(wǎng)絡(luò)中心 云南 昆明 650500)

        0 引 言

        隨著自然語(yǔ)言處理技術(shù)的廣泛應(yīng)用和飛速發(fā)展,自動(dòng)問(wèn)答系統(tǒng)已然成為了自然語(yǔ)言處理領(lǐng)域的一個(gè)熱點(diǎn)。傳統(tǒng)的搜索引擎只能反饋給用戶一系列相關(guān)文檔,自動(dòng)問(wèn)答系統(tǒng)能夠使用戶以自然語(yǔ)言輸入問(wèn)題,并且反饋給用戶一個(gè)簡(jiǎn)潔、準(zhǔn)確的答案,而不是一系列相關(guān)文檔。這表明和傳統(tǒng)的搜索引擎相比,自動(dòng)問(wèn)答系統(tǒng)更加方便、準(zhǔn)確。答案生成是自動(dòng)問(wèn)答系統(tǒng)中的一個(gè)非常重要的環(huán)節(jié),其主要任務(wù)是對(duì)信息檢索得到的原始文檔進(jìn)行處理,得到問(wèn)題的原始答案集,最終通過(guò)一定算法從原始答案集中抽取出正確答案。傳統(tǒng)的答案生成方法有:基于表層特征的答案提取,通過(guò)關(guān)系抽取答案、通過(guò)模式匹配抽取答案。自動(dòng)問(wèn)答中生成答案的形式主要為:以句子中關(guān)鍵詞相似權(quán)重最高的句子作為答案,以檢索文檔中相關(guān)詞的邏輯組合作為答案,以檢索文檔的摘要作為答案。孫昂等[2]提出一種基于句法分析的問(wèn)句-候選答句組合特征集,并以此訓(xùn)練得到答案分類器完成答案抽取的方法,雖然答案抽取的準(zhǔn)確率有所提高但得到的是經(jīng)過(guò)分類的一系列候選答案。李鵬等[3]提出一種基于模式學(xué)習(xí)的形式化答案抽取方法,通過(guò)機(jī)器學(xué)習(xí)的方法自動(dòng)生成用于答案抽取的形式化模板,通過(guò)問(wèn)題模式和答案模式的自動(dòng)匹配,直接獲取答案,雖然取得了較好的答案抽取效果但是不同問(wèn)題模式的匹配分布不均衡影響了其答案抽取的準(zhǔn)確率。李超等[4]利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行深層特征的提取,將答案抽取問(wèn)題轉(zhuǎn)化為特征學(xué)習(xí)與分類問(wèn)題但是抽出的是精確的答案詞,而不是答案句。

        大多數(shù)淺層模型在增加輸入層或隱層時(shí)容易出現(xiàn)過(guò)擬合現(xiàn)象,并且復(fù)雜函數(shù)的泛化能力變差。而深度學(xué)習(xí)作為淺層神經(jīng)網(wǎng)絡(luò)的延伸,具有較好的特征學(xué)習(xí)能力,可以較好地表征復(fù)雜函數(shù),大大降低了計(jì)算復(fù)雜度。隨著深度學(xué)習(xí)在自然語(yǔ)言處理上的廣泛應(yīng)用,近年來(lái)神經(jīng)網(wǎng)絡(luò)在自動(dòng)問(wèn)答系統(tǒng)中被深入探索并取得重大成果,例如,Mikolov等[5]使用神經(jīng)網(wǎng)絡(luò)模型得到一種名為詞向量(Word Embeding)的詞表示形式。Socher等[6-8]設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)對(duì)句子建模實(shí)現(xiàn)了句子的向量表示。文獻(xiàn)[9-11]在基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼-解碼(RNN Encoder-Decoder)結(jié)構(gòu)的機(jī)器翻譯和自動(dòng)文摘任務(wù)上取得了突破?;谝陨系难芯砍晒槍?duì)自動(dòng)問(wèn)答答案生成的兩個(gè)關(guān)鍵問(wèn)題:如何實(shí)現(xiàn)答案的語(yǔ)義表示,如何減小實(shí)現(xiàn)問(wèn)句答案間的語(yǔ)義匹配誤差,本文提出了基于自動(dòng)文摘的答案生成方法,該方法利用LDA(Latent Dirichlet Allocation)模型[12]計(jì)算問(wèn)題文本的主題概率向量并計(jì)算問(wèn)題文本間相似度。獲取由與用戶問(wèn)題相似的知識(shí)庫(kù)問(wèn)題的答案構(gòu)成的原始答案集后,利用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建基于編碼-解碼結(jié)構(gòu)的序列到序列學(xué)習(xí)模型Seq2Seq(Sequence to Sequence)對(duì)原始答案集進(jìn)行摘要生成答案句。

        1 基于自動(dòng)摘要的答案生成方法

        本文方法主要工作包括問(wèn)題之間的主題相似度計(jì)算和利用深度強(qiáng)化學(xué)習(xí)模型訓(xùn)練生成答案。任務(wù)流程如圖1所示,首先將知識(shí)庫(kù)中的問(wèn)題文檔通過(guò)文本預(yù)處理轉(zhuǎn)換為文檔-特征詞矩陣,然后對(duì)用戶問(wèn)題文檔進(jìn)行LDA建模計(jì)算獲得每篇問(wèn)題文檔的主題分布向量θi,基于主題分布向量計(jì)算問(wèn)題文本間的相似度得出與用戶問(wèn)題相似主題的問(wèn)題-答案對(duì)L=(Q,S),最后將這些答案順序拼接構(gòu)建成原始答案集S=(S1,S2,…,Sm)并利用Seq2Seq學(xué)習(xí)模型對(duì)原始答案集S進(jìn)行摘要獲得最終答案并反饋給用戶。

        圖1 基于自動(dòng)文摘的答案生成方法流程圖

        本文充分考慮了自動(dòng)問(wèn)答中用戶以自然語(yǔ)言提出的問(wèn)題句式結(jié)構(gòu)復(fù)雜并且存在多種語(yǔ)義的特點(diǎn),提出通過(guò)多個(gè)相似問(wèn)題答案的組合構(gòu)建原始答案集,然后抽取摘要形成最終答案的方法。相較于傳統(tǒng)自動(dòng)問(wèn)答中直接用最相似問(wèn)題的答案作為最終答案的方法,本文所提出的方法不僅避開(kāi)了傳統(tǒng)答案生成方法存在的單一主題偏向性問(wèn)題,還提高了答案的主題覆蓋率并且提高了生成答案的準(zhǔn)確率。本文通過(guò)計(jì)算問(wèn)題文本間的主題相似度查找出知識(shí)庫(kù)中用戶問(wèn)題的相似問(wèn)題集,相較于傳統(tǒng)以特征詞計(jì)算相似度,不僅減少了工作量,更提高了句子間相似度計(jì)算的準(zhǔn)確性。

        1.1 基于主題的問(wèn)題相似度計(jì)算

        主題模型是文本挖掘的重要工具,用來(lái)在一系列文檔中發(fā)現(xiàn)隱含主題的一種統(tǒng)計(jì)模型,可以對(duì)文本進(jìn)行語(yǔ)義挖掘。主題模型自動(dòng)分析每個(gè)文檔,統(tǒng)計(jì)文檔內(nèi)的單詞,根據(jù)統(tǒng)計(jì)的信息來(lái)斷定當(dāng)前文檔的主題信息[13]。常用的主題分析方法包括LSA(Latent Semantic Analysis)、PLSA(Probabilitistic Latent Semantic Analysis)和LDA。其中,LSA模型認(rèn)為特征之間存在某種潛在的關(guān)聯(lián)結(jié)構(gòu),將高維空間映射到低維的潛在語(yǔ)義結(jié)構(gòu)上,并用該結(jié)構(gòu)表示特征和對(duì)象,消除了詞匯之間的相關(guān)性影響,并降低了數(shù)據(jù)維度,增強(qiáng)了特征的魯棒性。但是LSA無(wú)法解決一詞多義的問(wèn)題,由此在LSA的基礎(chǔ)上Hofman提出了PLSA模型。然而,PLSA中,主題分布和詞分布都是唯一確定的,而LDA則不同。在LDA中,主題分布和詞分布是不確定的,在LDA中主題分布和詞分布使用了Dirichlet分布作為它們的共軛先驗(yàn)分布。針對(duì)自動(dòng)問(wèn)答中用戶以自然語(yǔ)言提出的問(wèn)題句式結(jié)構(gòu)復(fù)雜并且存在多種語(yǔ)義的特點(diǎn),本文采用LDA模型完成用戶問(wèn)題和知識(shí)庫(kù)中問(wèn)題文檔的主題相似度計(jì)算。

        LDA模型是一種非監(jiān)督的文檔主題生成模型,用來(lái)高效率識(shí)別大規(guī)模語(yǔ)料庫(kù)中的主題信息。LDA模型由經(jīng)驗(yàn)參數(shù)(α,β)確定。設(shè)θi=(T1,T2,…,TK)表示第i個(gè)問(wèn)題主題的概率分布,而Tk表示該問(wèn)題文本下第k個(gè)主題的概率。

        利用LDA模型計(jì)算問(wèn)題文本相似度過(guò)程如下:

        (1) 根據(jù)Dirichlet分布Dir(α)得到m個(gè)問(wèn)題文本的主題分布概率矩陣θ=(θ1,θ2,…,θm)作為m個(gè)問(wèn)題文本的語(yǔ)義表示,每個(gè)問(wèn)題的主題分布是一個(gè)服從參數(shù)為α的Dirichlet先驗(yàn)分布中采樣得到的Multinomial分布,則根據(jù)LDA模型我們可以得到第i個(gè)文本的主題分布概率向量θi主題k的Dirichlet的分布期望Tk為:

        (1)

        (2) 利用余弦公式計(jì)算用戶問(wèn)題文檔主題概率向量與知識(shí)庫(kù)中問(wèn)題文檔主題概率向量的距離。從問(wèn)答知識(shí)庫(kù)中選出與用戶問(wèn)題最為相似的若干問(wèn)題-答案集L=(Q,S),將問(wèn)題-答案集L中的答案順序取出構(gòu)成原始答案集S=(S1,S2,…,Sm)作為下一步生成用戶問(wèn)題的答案的訓(xùn)練集。利用余弦公式計(jì)算問(wèn)題的主題相似度的過(guò)程如下:

        (2)

        式中:θ1表示用戶問(wèn)題的主題概率向量,θ2表示知識(shí)庫(kù)問(wèn)題的主題概率向量。余弦值越接近于1,表明兩個(gè)問(wèn)題文本的主題概率向量的距離越近即問(wèn)題文本的主題相似度越高。

        1.2 基于自動(dòng)文摘的答案生成

        文中采用自動(dòng)摘要的形式生成最后答案。自動(dòng)摘要,從技術(shù)上來(lái)說(shuō)主要分為抽取式摘要、壓縮式摘要和理解式摘要。本文以問(wèn)答知識(shí)庫(kù)中選出的與用戶問(wèn)題最為相似的若干問(wèn)題的答案集構(gòu)成的初始答案集S=(S1,S2,…,Sm)作為原始語(yǔ)料,利用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建Seq2Seq學(xué)習(xí)模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行建模,形成基于多文檔的抽取式答案生成方法。

        近年來(lái)基于神經(jīng)網(wǎng)絡(luò)的編碼-解碼結(jié)構(gòu)的序列到序列學(xué)習(xí)方法已經(jīng)在自然語(yǔ)言處理任務(wù)中取得了重大成果。Paulus等[14]提出一種結(jié)合注意力機(jī)制序列到序列學(xué)習(xí)方法和深度強(qiáng)化學(xué)習(xí)的摘要算法,在編碼時(shí)采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory),解碼時(shí)采用單向LSTM并引入注意力機(jī)制,最后使用監(jiān)督加強(qiáng)學(xué)習(xí)的方法優(yōu)化輸出。由于,本文的原始語(yǔ)料是基于原始答案S的簡(jiǎn)單拼接而成,所以存在較多冗余信息,這嚴(yán)重影響了生成摘要的可讀性。為此,本文在上述模型的基礎(chǔ)上進(jìn)行了改進(jìn),提出在解碼部分引入詞頻估計(jì)子模型[15-16]WFE(word-frequency estimation sub-model)在摘要生成時(shí)進(jìn)行冗余剪除,得到簡(jiǎn)潔的準(zhǔn)確答案。

        本文所提出的基于自動(dòng)摘要的答案生成方法是基于結(jié)合注意力機(jī)制的序列到序列學(xué)習(xí)模型。本文在編碼階段應(yīng)用兩層雙向LSTM進(jìn)行編碼,在解碼階段應(yīng)用一層單向的LSTM進(jìn)行解碼,并分別于編碼解碼階段引入注意力機(jī)制防止解碼階段對(duì)編碼的同一部分重復(fù)解碼,使得解碼器在處理長(zhǎng)文檔時(shí)不會(huì)產(chǎn)生重復(fù),然后在解碼器中嵌入WFE模型控制解碼生成字符的頻率,防止冗余生成。其解碼流程圖如圖2所示。

        圖2 解碼器流程圖

        (3)

        (4)

        (5)

        (6)

        (3) 混合訓(xùn)練目標(biāo)。

        (7)

        通過(guò)每次迭代產(chǎn)生兩個(gè)獨(dú)立輸出序列:

        ③ 定義r(y)為輸出序列y的獎(jiǎng)勵(lì)函數(shù),將其與真值序列y*相比較作為我們的評(píng)估指標(biāo)。

        (8)

        從式(8)中可以看出,如果抽樣獲得比基線輸出更好的獎(jiǎng)勵(lì),最小化Lrl相當(dāng)于最大化抽樣序列ys的似然估計(jì)。

        定義γ為L(zhǎng)ml和Lrl大小差別的換算系數(shù),可以得到最終的混合訓(xùn)練目標(biāo):

        Lmixed=γLml+(1-γ)Lrl

        (9)

        由于,我們的最大似然函數(shù)訓(xùn)練目標(biāo)本質(zhì)上是條件語(yǔ)言模型,基于先前序列yt-1來(lái)預(yù)測(cè)下一個(gè)序列yt的概率,最終的優(yōu)化目標(biāo)使得學(xué)習(xí)算法生成更為自然的摘要作為答案反饋給用戶。

        2 實(shí) 驗(yàn)

        2.1 數(shù)據(jù)準(zhǔn)備

        為了驗(yàn)證模型在自動(dòng)問(wèn)答答案生成中的效果,本文從百度知道中獲取了來(lái)自文化領(lǐng)域12 756條、財(cái)經(jīng)領(lǐng)域11 044條、健康領(lǐng)域11 200條,共計(jì)35 000條問(wèn)答語(yǔ)料作為自動(dòng)問(wèn)答知識(shí)庫(kù)進(jìn)行訓(xùn)練,通過(guò)數(shù)據(jù)清洗、分詞、詞性標(biāo)注之后進(jìn)行文摘訓(xùn)練。

        2.2 實(shí)驗(yàn)設(shè)計(jì)

        本實(shí)驗(yàn)使用準(zhǔn)確率(P)、召回率(R)和F-Measure(F)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。這里準(zhǔn)確率采用人工標(biāo)注的方式對(duì)檢索到的問(wèn)題相似度等級(jí)進(jìn)行判定:

        P=檢索到相似度高的問(wèn)題數(shù)/實(shí)際檢索到總問(wèn)題數(shù)

        R=檢索到與用戶問(wèn)題相似問(wèn)題數(shù)/系統(tǒng)中所有相似度高文檔總數(shù)

        在自動(dòng)文摘部分,本實(shí)驗(yàn)使用ROUGE[17](Recall-Oriented Understudy for Gisting Evaluation)和人工可讀性評(píng)價(jià)分?jǐn)?shù)作為自動(dòng)文摘對(duì)比實(shí)驗(yàn)性能標(biāo)準(zhǔn)。

        本實(shí)驗(yàn)計(jì)劃分為4個(gè)部分:預(yù)處理;參數(shù)設(shè)置;加入詞頻估計(jì)子模型的深度強(qiáng)化學(xué)習(xí)的摘要算法與普通深度強(qiáng)化學(xué)習(xí)的摘要算法的性能對(duì)比實(shí)驗(yàn);本文算法與傳統(tǒng)自動(dòng)問(wèn)答的答案抽取算法的對(duì)比實(shí)驗(yàn)。

        實(shí)驗(yàn)中預(yù)處理部分,采用中文分詞工具對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行分詞處理,并除去停用詞,將文本表示為文本-詞向量。

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼-解碼框架在自然語(yǔ)言處理領(lǐng)域有著非常廣泛的應(yīng)用,在本文實(shí)驗(yàn)中選用其作為基本框架,用雙向LSTM作為編碼器,單向LSTM作為解碼器。

        實(shí)驗(yàn)中參數(shù)設(shè)置部分,在自動(dòng)問(wèn)答中問(wèn)題語(yǔ)句通常不會(huì)過(guò)長(zhǎng),因此本文在利用LDA模型對(duì)問(wèn)題文本進(jìn)行相似度計(jì)算中設(shè)置主題個(gè)數(shù)為9。LDA處理中設(shè)置先驗(yàn)超參數(shù)為α=5.55、β=0.01。在文本摘要算法部分,我們采用200維的LSTM用于雙向編碼,400維的LSTM用于單向解碼,限制輸入字符不大于150 000,輸出字符不大于50 000。

        2.3 實(shí)驗(yàn)結(jié)果及分析

        在實(shí)驗(yàn)的第3部分,為了評(píng)價(jià)本文所提出的基于摘要的答案生成算法,我們首先構(gòu)建原始答案集S,從問(wèn)答語(yǔ)料中隨機(jī)抽取400組問(wèn)答語(yǔ)料作為測(cè)試集,對(duì)其預(yù)處理后進(jìn)行LDA建模找出知識(shí)庫(kù)與測(cè)試集主題相似的5組問(wèn)答語(yǔ)料集,實(shí)驗(yàn)結(jié)果如表1和表2所示(以其中一條測(cè)試語(yǔ)料為例)。

        表1 隱含主題標(biāo)簽構(gòu)成

        表2 與測(cè)試語(yǔ)料最為相似的5組問(wèn)句語(yǔ)料

        利用5個(gè)相似問(wèn)題對(duì)應(yīng)的答案語(yǔ)料進(jìn)行順序拼接構(gòu)成原始答案集S=(S1,S2,S3,S4,S5),我們使用400組測(cè)試語(yǔ)料原始答案集的進(jìn)行文摘對(duì)比實(shí)驗(yàn),在對(duì)比實(shí)驗(yàn)中采用ROUGE中ROUGE-1、ROUGE-2、ROUGE-L的分?jǐn)?shù)和人工可讀性評(píng)價(jià)分?jǐn)?shù)作為評(píng)價(jià)指標(biāo),并以ROUGE-L的分?jǐn)?shù)作為加強(qiáng)獎(jiǎng)勵(lì)。實(shí)驗(yàn)結(jié)果如表3所示。

        表3 文摘部分兩種模型的定量結(jié)果

        從表3中可看出,雖然本文提出的算法在ROUGE-1和ROUGE-2的得分比深度強(qiáng)化學(xué)習(xí)稍低,但是在ROUGE-L與可讀性指標(biāo)上得分稍高,這表明在針對(duì)原始答案集S進(jìn)行摘要的問(wèn)題上,本文提出的算法有著較優(yōu)的表現(xiàn)。由于本文提出的算法在解碼階段阻止了出現(xiàn)頻率過(guò)高字符的再次生成在一定程度上解決的原始答案集S本身存在大量冗余的問(wèn)題,本文所提出的算法比單一的基于深度強(qiáng)化學(xué)習(xí)的摘要算法有著較優(yōu)的可讀性,實(shí)驗(yàn)與預(yù)期結(jié)果相符。

        在實(shí)驗(yàn)的第4部分,本文分別就文化領(lǐng)域、財(cái)經(jīng)領(lǐng)域和健康領(lǐng)域的問(wèn)答語(yǔ)料集,以準(zhǔn)確率(P)、召回率(R)和F-Measure為標(biāo)準(zhǔn)分別對(duì)本文所提出的答案生成方法與傳統(tǒng)自動(dòng)問(wèn)答中的答案生成方法進(jìn)行了對(duì)比實(shí)驗(yàn)。在第4部分對(duì)比試驗(yàn)中,本文設(shè)計(jì)了針對(duì)問(wèn)答語(yǔ)料集,與文獻(xiàn)[2]提出的基于句法分析和答案分類的答案抽取方法(SA-AC)、文獻(xiàn)[3]提出的基于模式學(xué)習(xí)的形式化答案抽取技術(shù)(FAE)和文獻(xiàn)[4]提出的句法分析和深度神經(jīng)網(wǎng)絡(luò)的答案抽取方法(SA-DNN)的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖3-圖5所示。

        圖3 各方法準(zhǔn)確率對(duì)比圖

        圖4 各方法召回率對(duì)比圖

        圖5 各方法的F值對(duì)比圖

        (1) 從準(zhǔn)確率對(duì)比圖中可以看出,SA-AC、FAE、SA-DNN和本文在財(cái)經(jīng)領(lǐng)域的準(zhǔn)確率上的雖然差別并不大,但是本文所提出的方法有著最高的準(zhǔn)確率。然而就健康領(lǐng)域看,F(xiàn)AE有著相對(duì)較好的效果。這是因?yàn)樵诮】殿I(lǐng)域的測(cè)試語(yǔ)料中包含較多的醫(yī)學(xué)專業(yè)術(shù)語(yǔ),基于模式學(xué)習(xí)的形式化答案抽取方法命名實(shí)體辨別性能較好,相反基于句法分析和神經(jīng)網(wǎng)絡(luò)的答案無(wú)法有效識(shí)別專業(yè)詞匯,但是在文化領(lǐng)域本文所提出的方法有著最高的準(zhǔn)確率。

        (2) 從召回率對(duì)比圖中可以看出,本文所提出的方法在三個(gè)領(lǐng)域都有著較高的召回率。本文提出以問(wèn)題文本的主題概率向量作為特征完成問(wèn)題間相似度計(jì)算并最終完成答案抽取的方法,相較于其他方法有著較高的主題覆蓋度,所生成的最終答案也更為全面可靠。

        (3) 從F值對(duì)比圖中可以看出,在財(cái)經(jīng)和文化領(lǐng)域本文所提出的方法有著最好的表現(xiàn),在健康領(lǐng)域本文所提出的方法雖然表現(xiàn)較差卻較SA-DNN有著較好表現(xiàn)。

        由實(shí)驗(yàn)結(jié)果對(duì)比圖可以看出,本文所提出的答案抽取方法在財(cái)經(jīng)領(lǐng)域和文化領(lǐng)域都有著相對(duì)較高的準(zhǔn)確率和召回率,取得了較好的結(jié)果,但是在健康領(lǐng)域結(jié)果較差。這是因?yàn)榻】殿I(lǐng)域語(yǔ)料中包含了較多醫(yī)學(xué)上的專業(yè)術(shù)語(yǔ)導(dǎo)致本文在提取其主題向量并生成答案時(shí)產(chǎn)生了比較大的誤差。

        綜合以上實(shí)驗(yàn)結(jié)果可以得出,本文提出通過(guò)問(wèn)題的主題向量計(jì)算問(wèn)題相似度的方法相比SA-AC方法不僅減少了文本向量空間,還忽略了文本本身的結(jié)構(gòu),減小了句法分析中由于問(wèn)題文本本身結(jié)構(gòu)混亂語(yǔ)義復(fù)雜帶來(lái)的誤差。除此之外,本文提出通過(guò)原始答案集摘要生成答案的方法相比FAE,避免了單一模式匹配生成答案的偏向性問(wèn)題,主題涵蓋范圍更廣,并且本文以答案句作為結(jié)果相比SA-DNN的結(jié)果更具有可讀性。最終可以得出結(jié)論,本文所提出答案抽取方法可以有效提高生成答案的準(zhǔn)確度和可信度,但是在專業(yè)名詞的深層語(yǔ)義辨析上存在一定的缺陷。

        3 結(jié) 語(yǔ)

        本文提出了一種基于自動(dòng)文摘的答案生成方法。將問(wèn)句文本通過(guò)分詞、停詞等文本預(yù)處理轉(zhuǎn)換成文檔-詞向量矩陣,利用LDA模型對(duì)句子進(jìn)行建模得出每個(gè)問(wèn)句的主題概率分布向量并計(jì)算問(wèn)句間的相似度。根據(jù)問(wèn)答知識(shí)庫(kù)中與用戶問(wèn)題相似的若干問(wèn)題的答案構(gòu)建原始答案文檔集,并進(jìn)行Seq2Seq學(xué)習(xí)模型訓(xùn)練摘要得出最終答案反饋給用戶。實(shí)驗(yàn)表明本文的模型在自動(dòng)問(wèn)答答案生成的準(zhǔn)確度上有一定程度的提高,但是本文所提出的方法在專業(yè)名詞的深層語(yǔ)義理解上仍然存在很大的缺陷,本文后續(xù)將繼續(xù)探討基于自動(dòng)問(wèn)答的文本挖掘。

        猜你喜歡
        語(yǔ)料文檔向量
        向量的分解
        有人一聲不吭向你扔了個(gè)文檔
        聚焦“向量與三角”創(chuàng)新題
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        久久天天躁狠狠躁夜夜av| 日本在线视频二区一区| 久久老熟女一区二区三区| 国产精品天天看天天狠| 在线成人影院国产av| 亚洲av无码专区在线| 久久久久成人精品免费播放网站| 国产精品精品国产色婷婷| 亚洲成熟丰满熟妇高潮XXXXX| 亚洲成av人片在线天堂无| 亚洲国产精品国自拍av| 人人人妻人人澡人人爽欧美一区| 国产精品美女一区二区三区| 亚洲欧美日韩高清中文在线| 国产av一区麻豆精品久久| 多毛小伙内射老太婆| 我想看久久久一级黄片| 爽爽影院免费观看| 色偷偷av男人的天堂| 免费毛片性天堂| 白白白色视频在线观看播放 | 亚洲人成网网址在线看| 人人妻人人爽人人做夜欢视频九色 | 日本真人做人试看60分钟| 岛国av无码免费无禁网站下载| 亚洲一区二区高清在线| 久久在一区二区三区视频免费观看 | 国产二区中文字幕在线观看| 亚洲av无码乱码在线观看性色| 久久亚洲精品无码gv| 国产aⅴ天堂亚洲国产av| 自拍视频国产在线观看| 午夜av天堂精品一区| 日本入室强伦姧bd在线观看| 五月婷婷激情小说| 日本在线一区二区在线| 丰满熟妇人妻av无码区| 亚洲黄色电影| 久久久婷婷综合亚洲av| 桃红色精品国产亚洲av| 少妇人妻偷人精品视频|