亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Siamese-BIGRU-Attention的語義相似度分析研究

        2022-10-08 08:36:02陳鑫邱占芝
        大連交通大學(xué)學(xué)報 2022年4期
        關(guān)鍵詞:語義文本模型

        陳鑫,邱占芝

        (大連交通大學(xué) 機械工程學(xué)院,遼寧 大連 116028)

        在對話生成領(lǐng)域,探索對話過程中的話題轉(zhuǎn)換,對于了解對話的趨勢和走向十分重要.話題轉(zhuǎn)換是指會話過程中談話主題切換的過渡過程[1].在對話過程中,話題轉(zhuǎn)換連接了不同的話題線索,話題線索包含多個毗鄰對,每個毗鄰對又是由兩個話輪組成.因此,話題線索、毗鄰對和話輪在對話結(jié)構(gòu)中形成自上而下的分層次描述關(guān)系.總的來說,對于如何準確地識別話題轉(zhuǎn)換,語義相似度的研究是至關(guān)重要的.通過研究發(fā)現(xiàn),實現(xiàn)對話過程中的話題轉(zhuǎn)換的切分與判別,可以分為以下三個步驟.首先,通過語義相似度模型計算話輪間的相似度,通過相似度判定閾值進行相似性話輪的篩選,得到切分后的話輪組;其次,把所有已切分的話輪組輸入到主題模型中,得到每個話輪組對應(yīng)的主題向量;最后,將多個話輪組中提取的主題向量輸入到聚類模型中,輸出得到與話輪組對應(yīng)的主題類別,從而明確在對話過程中的主題類別的轉(zhuǎn)換.

        在之前的研究進程中,研究人員們主要從基于距離屬性、基于內(nèi)容和基于深度學(xué)習(xí)三個不同維度進行語義文本的相似度計算研究.

        基于距離的語義相似度計算是通過在層次樹中的位置距離差異來測算語義相似度.差異越小,相似度越大;差異越大,相似度越小[2].YANG等人[3]提出這種方法以分布假設(shè)為基礎(chǔ),認為相似的單詞之間存在相似的語義,并通過各種類型的文本向量化方法將文本轉(zhuǎn)換為詞向量,通過計算得到向量間距離來評估文本間的相似度.CAMACHO等人[4]提出若兩個文本之間有更多的相同屬性,相似度較高;若兩個文本之間相同屬性較少,則相似度較低,此方法在很大程度上依賴于文本屬性集的自身屬性.

        基于內(nèi)容屬性語義相似度計算方法,根據(jù)內(nèi)容源不同可分為語義詞典和大型知識庫資源兩大類[5].在語義詞典方面,LOGESWARAN等人[6]提出在計算的句子間的相似度過程中以詞粒度作為考量,通過詞語間相似度的加權(quán)求和來評估相似度,過程中并未考慮到句法結(jié)構(gòu)間的聯(lián)系,所以導(dǎo)致對長文本的相似度計算不準確.在大型知識庫資源方面,YEH等人[7]提出基于大型知識庫資源的方法具有知識資源豐富和迭代速度較快的特點,但也存在著諸多問題,如知識層次及密度分布不均、知識體系不夠完備、相關(guān)資源獲取不直接且無法量化計算等.

        基于深度學(xué)習(xí)的語義相似度計算方法可分為無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí).LE[8]等人提出無監(jiān)督學(xué)習(xí)是數(shù)據(jù)集本身進行信息自監(jiān)督訓(xùn)練,并對詞向量加權(quán)求和得到句向量,最終計算句向量間距離來評估語義間的文本相似度.HILL等人[9]則認為無監(jiān)督學(xué)習(xí)無法將帶有標簽的信息和先驗知識融入模型之中,導(dǎo)致計算準確率較低且計算時間較長.CONNEAU等人[10]提出了監(jiān)督學(xué)習(xí)的方法,該方法運用帶有標簽的訓(xùn)練集對模型進行訓(xùn)練,提升了模型的時效性,比無監(jiān)督學(xué)習(xí)展示出來更好的模型總體性能.

        總的來說,基于距離屬性的語義相似度計算通常存在著對大規(guī)模對話語料庫需求較大且在計算時不考慮文本的語義信息及句子結(jié)構(gòu)信息的問題.而基于內(nèi)容屬性的語義相似度計算通常存在著算法遷移難度大、人工成本高及不同的句法結(jié)構(gòu)適應(yīng)能力差的缺點.本文從語義相似度評價效果較好的深度學(xué)習(xí)領(lǐng)域中的監(jiān)督學(xué)習(xí)繼續(xù)深入,將選取監(jiān)督學(xué)習(xí)方法中的孿生網(wǎng)絡(luò)架構(gòu)作為基礎(chǔ)架構(gòu)并運用BIGRU進行語義特征的深層次提取,該方法在充分挖掘上下文因果關(guān)系的同時,具有極高的時效性.同時,在BIGRU后,加入了attention機制,進一步提升了上下文關(guān)鍵語義的捕捉能力.最終完成基于Siamese-BIGRU-Attention的語義相似度計算模型的設(shè)計.

        1 模型結(jié)構(gòu)

        本文提出的基于Siamese-BIGRU-Attention的語義相似度計算模型是由兩個相同的網(wǎng)絡(luò)結(jié)構(gòu)A和B組成的孿生網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)主要由輸入層、嵌入層、BIGRU層、注意力全連接層和匹配層組成,如圖1所示.

        圖1 基于Siamese-BIGRU-Attention計算模型

        輸入層:將對話過程中的句子S1和S2進行預(yù)處理,然后將其輸入到模型的嵌入層.

        嵌入層:將句子中的每個單詞映射為一個低維的稠密向量.預(yù)處理后的等長度的句子序列為Sn=(Wn1,Wn2,…,Wnn),每一個單詞都需被轉(zhuǎn)換為一個詞嵌入向量,然后將其作為后面神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入.

        BIGRU層:本文通過BIGRU提取句子的深層語義特征.GRU相對于RNN來說,有效地解決了梯度消失的問題.GRU是在LSTM結(jié)構(gòu)的基礎(chǔ)上,將輸入門與遺忘門合并成更新門,同時將原來的輸出門更新成重置門.GRU和LSTM都是通過門結(jié)構(gòu)來保留文本序列的重要特征,但GRU相比于LSTM少了一個門,同時也具有更少的參數(shù)數(shù)量,因此GRU的訓(xùn)練速度要更快一些.由于GRU網(wǎng)絡(luò)無法聯(lián)系全部上下文信息,因此增加了GRU的反向輸入,再將正反向的 GRU合并構(gòu)建雙向門控循環(huán)單元BIGRU,此結(jié)構(gòu)充分利用了上下文信息挖掘文本序列的因果關(guān)系.

        注意力全連接層:本文利用注意力機制將對句子語義有更重要貢獻的單詞賦予較大的權(quán)重,反之則賦予較少的權(quán)重,這樣更能準確地表達句子語義.選用全連接層則是實現(xiàn)特征表示到樣本空間的映射,它可以實現(xiàn)特征提取的綜合.

        匹配層:計算句子語義向量的余弦相似度,并得到輸出.在得到兩個句子S1和S2的語義表示后,在句子的語義空間中計算兩個向量的余弦相似度,從而判斷兩個句子是否語義相似.

        2 實驗

        2.1 數(shù)據(jù)集選擇

        本文選取日常會話片段標注庫作為模型訓(xùn)練的數(shù)據(jù)集.該數(shù)據(jù)集主要包含700個日常會話片段,按照不同的話題內(nèi)容,分為7個大組:工作、學(xué)習(xí)、娛樂、飲食、交通、情感及天氣.每個大組包含100個會話片段,每個會話片段包含20條話語消息,合計14 000條話語消息.通過不同場景下的日常對話,來進行語義相似度模型的訓(xùn)練.

        2.2 實驗評價指標

        語義相似度評價方面,當兩個句子的相似度大于相似度閾值時,我們判定這兩個句子相似;當兩個句子的相似度小于相似度閾值時,我們判定這兩個句子不相似.對于本實驗,我們采用準確率Accuracy和F1 score值作為評價指標,計算公式如式(1)和式(2)所示:

        (1)

        (2)

        其中,TP表示相似句子判定為相似的個數(shù),F(xiàn)P表示不相似句子判定為相似的個數(shù),F(xiàn)N表示相似句子判定為非相似的個數(shù),TN表示不相似句子判定為非相似的個數(shù).

        2.3 實驗設(shè)置

        為了驗證本文方法Siamese-BIGRU-Attention模型的有效性,同時為了比較不同模型的性能和效果.本文加入了TF-IDF、 Siamese-CNN和Siamese-BIGRU模型進行對比實驗,并均采用準確率Acuracy和F1值評價指標來比較實驗效果.

        2.4 實驗結(jié)果與分析

        TF-IDF計算語義相似度可分為三個步驟,首先篩選出上下文不同句子的關(guān)鍵詞,將其合并為一個集合,計算得到每句話對于該集合中各個詞的詞頻;然后通過TfidfVectorizer生成上下文兩句話各自的詞頻向量;最后計算得到兩個向量的余弦相似度.通過計算,該語義相似度計算方法的準確率為74.23%,總體來說,準確率不高,主要制約于該方法屬于淺層詞匯匹配,對于復(fù)雜的對話文本,相似度匹配性能有限.

        基于卷積神經(jīng)網(wǎng)絡(luò)編碼的Siamese-CNN模型計算語義相似度可包含兩個關(guān)鍵點:其一,運用CNN實現(xiàn)提取特征,并通過特征向量來構(gòu)造損失函數(shù),進行網(wǎng)絡(luò)訓(xùn)練;其二,利用孿生神經(jīng)網(wǎng)絡(luò)提取關(guān)鍵詞,同時將不同輸入映射成特征向量,通過兩個向量之間的距離來測算不同輸入之間的差異.通過計算,該語義相似度計算方法的準確率為79.92%,精度不是很高主要是由于卷積神經(jīng)網(wǎng)絡(luò)更加擅于提取句子的局部特征,獲取全局語義編碼的能力有限.

        在孿生網(wǎng)絡(luò)基礎(chǔ)上,引入BIGRU模塊,設(shè)計了Siamese-BIGRU模型,該模型的核心方法是將待比較的兩個句子通過同一個編碼器使其映射到相同的向量空間中,該方法實現(xiàn)了參數(shù)共享,進而展現(xiàn)了不錯的相似度計算性能,因此其準確率得到了進一步的提升,達到了82.42%,說明了雙向門控循環(huán)單元具有很強的語義的編碼能力,在語義相似度計算方面有著很好的應(yīng)用,如能更加關(guān)注兩個句子編碼向量之間的交互關(guān)系,準確率可能會得到進一步提升.

        在Siamese-BIGRU模型基礎(chǔ)上,引入了注意力機制,設(shè)計了Siamese-BIGRU-Attention模型.attention核心本質(zhì)是一種加權(quán)值,對目標文本完成加權(quán)求和后,可得到基于全部文本的中間語義變換函數(shù),因此,引入attention后,該模型通過兩個句子編碼向量之間交互信息的深度捕捉,更好地實現(xiàn)句子語義相似度的建模.通過計算,該語義相似度計算方法的準確率達到了84.98%,使得模型語義相似度計算性能得到了進一步的提升,雖然提升幅度并不是很大,但依然證明了注意力機制對于模型性能提升的有效性.

        實驗結(jié)果如表1所示.

        表1 模型相似度計算結(jié)果

        3 結(jié)論

        本文提出基于Siamese-BIGRU-Attention模型的語義相似度計算方法,并探究了BIGRU和attention機制對于模型的影響效果.通過實驗,表明該方法在準確率及F1值方面優(yōu)于其他幾個模型,能夠展現(xiàn)出更好的語義相似度評估性能,這為話輪延續(xù)變換的識別及話題線索的準確切分都提供了極大的幫助.本文實驗采用的數(shù)據(jù)為日常會話片段,它是基于工作、學(xué)習(xí)、娛樂、飲食、交通、情感及天氣七大主題的話語消息,文本類型基本都是短文本對話語料,并且數(shù)據(jù)分布相對比較均衡.與短文本不同,長文本往往存在噪聲較多且計算時間長的問題,在后續(xù)的工作中,將繼續(xù)開展長文本相似度計算方法的探索,同時將不同文本類型的語義相似度計算方法融入聚類算法中,繼續(xù)進行話輪延續(xù)轉(zhuǎn)換的深入研究.

        猜你喜歡
        語義文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        “上”與“下”語義的不對稱性及其認知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認知范疇模糊與語義模糊
        精品国产高清a毛片无毒不卡| 亚洲乱码一区二区三区在线观看| 99久久精品国产一区二区| 少妇无码一区二区三区| 无码av免费永久免费永久专区| 富婆如狼似虎找黑人老外| 久久精品国产亚洲AV香蕉吃奶| 日本久久大片中文字幕| 久久人妻少妇嫩草av| 亚洲国产精品久久亚洲精品| 蜜桃一区二区三区在线看| 情头一男一女高冷男女| 午夜精品久久久久久久| 鲁一鲁一鲁一鲁一曰综合网| 国产超碰人人做人人爱ⅴa| 久久国产影视免费精品| 白白色日韩免费在线观看| 日韩精品人妻中文字幕有码| 免费xxx在线观看| 国产亚洲欧美在线播放网站| 亚洲一区二区综合精品| 99久久99久久精品免费看蜜桃| 成在人线av无码免费| 亚洲每天色在线观看视频| 偷拍色图一区二区三区| 欧美人与动牲交a精品| 99er视频| 看大陆男女真人草逼视频| 久久久久99人妻一区二区三区| 少妇无码一区二区三区| 人妻无码∧V一区二区| 日韩成人高清不卡av| 人妻制服丝袜中文字幕| 色avav色av爱avav亚洲色拍| 区二区欧美性插b在线视频网站| 中国免费一级毛片| 偷拍色图一区二区三区| 亚洲性啪啪无码av天堂| 精品久久综合一区二区| 丝袜美腿精品福利在线视频 | 天天燥日日燥|