亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全局語義學(xué)習(xí)的文本情感增強方法研究

        2020-08-29 06:17:10王慶林龐良健徐新勝
        科學(xué)技術(shù)與工程 2020年21期
        關(guān)鍵詞:語義分類特征

        王慶林,李 晗,龐良健,徐新勝

        (中國計量大學(xué)質(zhì)量與安全工程學(xué)院,杭州 310018)

        互聯(lián)網(wǎng)的快速發(fā)展正改變著人們的生活方式。人們在使用互聯(lián)網(wǎng)的過程中不再單純是信息的接受者,也在慢慢成為信息發(fā)布者。例如人們會對購買過的電商產(chǎn)品發(fā)表使用感受,會針對觀看過的影視作品或當(dāng)下熱點事件發(fā)表觀點看法等。快速有效地挖掘出其中有價值的內(nèi)容,將會幫助產(chǎn)品制造商了解用戶需求以及產(chǎn)品缺陷,或為影視工作者提供創(chuàng)作靈感,或輔助政府部門更好地把控社會輿論、制定相關(guān)政策措施。通常,人們發(fā)布的信息中伴隨著情感表達。準(zhǔn)確判別其中的情感信號是提取有價值信息的前提和基礎(chǔ)。因此對人們發(fā)布的內(nèi)容進行有效的情感分析,顯得尤為重要,正吸引眾多學(xué)者開展廣泛的研究與探索。

        情感分析是指對帶有情感色彩的主觀性文本進行采集、處理、分析、歸納和推理的過程[1]。情感分類作為情感分析任務(wù)中的關(guān)鍵環(huán)節(jié),旨在獲取人們在文本中表達出的情感傾向,將其分類為積極情感或消極情感。傳統(tǒng)方法中,情感分類主要通過從文本中提取出用于表達人們情感傾向的特征,然后基于這些特征構(gòu)建文本情感分類器來實現(xiàn)的[2-4]。隨著深度學(xué)習(xí)的出現(xiàn),鑒于其在特征學(xué)習(xí)方面的優(yōu)勢,文本情感分類研究逐漸轉(zhuǎn)向設(shè)計不同結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),以提升情感分類效果[5-6]。近年來,注意力機制的提出[7],以及基于注意力機制構(gòu)建預(yù)訓(xùn)練模型的研究,如BERT、GPT2等,進一步提升了情感分類的效果。

        情感分類的效果不僅取決于網(wǎng)絡(luò)模型的結(jié)構(gòu),同樣也會受到數(shù)據(jù)集的影響[8]。文本的情感分類研究中,分類模型的結(jié)構(gòu)影響模型自身學(xué)習(xí)文本中情感特征的能力,數(shù)據(jù)集的體量與質(zhì)量影響模型學(xué)習(xí)文本情感特征的過程。小體量數(shù)據(jù)集不利于模型獲得更好的泛化能力,為此,學(xué)者們提出了不同的文本數(shù)據(jù)增強技術(shù)以對數(shù)據(jù)集進行擴充。Sennrich等[9]使用回譯技術(shù),首先將英語語料翻譯為法語語料,再將翻譯得到的法語語料翻譯成新的英語語料,通過這一過程生成新的訓(xùn)練數(shù)據(jù);Kobayashi[10]設(shè)計了基于聚合關(guān)系的同義詞替換的語言模型,通過語言模型生成的新詞替換文本中的目標(biāo)詞產(chǎn)生新的文本數(shù)據(jù)。Wei 等[11]提出了同義詞替換、隨機插入、隨機交換、隨機刪除等四種簡潔有效的文本數(shù)據(jù)增強方法。上述文本增強方法通過在原始數(shù)據(jù)集的基礎(chǔ)上增加新的訓(xùn)練數(shù)據(jù)來解決數(shù)據(jù)量不足的問題,并提升了文本分類效果。同樣,數(shù)據(jù)質(zhì)量也會影響模型分類性能的提升,如情感表達模糊的文本語料也對情感分類結(jié)果造成影響。鑒于此,提出基于全局語義學(xué)習(xí)的文本情感增強方法,提高文本語料的情感分類效果。以BERT模型[12]作為情感分類基準(zhǔn)模型,設(shè)計語料劃分方法,將語料自動劃分為強情感傾向語料與弱情感傾向語料,并設(shè)計基于全局語義學(xué)習(xí)的變分自編碼器(variational auto-encoder based on global semantic learning,GSLVAE),GSLVAE通過學(xué)習(xí)強情感傾向語料的語義特征,對弱情感傾向語料進行情感增強,最后利用BERT在新的綜合數(shù)據(jù)集上再次進行訓(xùn)練、分類與實驗測試。通過文本情感增強的方法提高人們發(fā)布文本內(nèi)容的情感分類效果,對于以評論文本情感分類為基礎(chǔ)的研究與應(yīng)用具有重要的意義。

        1 弱情感傾向語料的情感增強過程

        文本語料的弱情感傾向是數(shù)據(jù)集質(zhì)量不佳的一種表現(xiàn)形式。由于用詞不當(dāng)或描述方式不規(guī)范造成情感表達模糊的文本,會導(dǎo)致分類模型難以捕獲有效的情感特征,進而無法完成正確的情感分類。例如,在文本“I highly recommend this movie, just because of its utter idiocy.”中,“idiocy”作為推薦這部電影的原因在邏輯上顯然不合理,“recommend”與“idiocy”的共現(xiàn)使得情感傾向變得模糊,類似現(xiàn)象會導(dǎo)致語料中出現(xiàn)弱情感傾向的文本,分類模型在處理類似語料時難以捕獲有效的情感特征做出正確判斷,從而影響情感分類的效果。

        以待情感分類的評論語料為對象,弱情感傾向語料的情感增強過程如圖1所示,整個過程圍繞語料劃分、強情感傾向性語料的全局語義學(xué)習(xí)以及弱情感傾向性語料的文本增強展開,最終實現(xiàn)弱情感傾向語料的情感增強,提升評論語料的情感分類效果。

        圖1 弱情感傾向語料的情感增強過程

        (1)語料劃分。首先通過一定的技術(shù)手段對文本的情感傾向性進行定量描述,然后按照一定的規(guī)則和標(biāo)準(zhǔn),以批量的方式將情感表達模糊的文本從原始文本語料中分離出來,最終將原始文本語料劃分為強情感傾向語料與弱情感傾向語料。

        (2)全局語義學(xué)習(xí)?;谡Z言表達中豐富的上下文內(nèi)涵信息,從文本全局的角度出發(fā),充分學(xué)習(xí)強情感傾向語料文本中的詞語序列特征與語義特征,為弱情感傾向文本的情感增強提供依據(jù)。

        (3)情感增強。利用從強情感傾向語料中學(xué)習(xí)到的詞語序列特征與語義特征信息,對弱情感傾向語料進行重構(gòu),改善弱情感傾向語料文本中情感表達模糊的問題,實現(xiàn)情感增強目標(biāo)。

        2 基于變分自編碼器的全局語義學(xué)習(xí)

        2.1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的變分自編碼器

        變分自編碼器(variational auto-encoder,VAE)是一種基于自監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,可應(yīng)用于特征表示、缺陷檢測以及遷移學(xué)習(xí)等多項任務(wù)。此外,變分自編碼器具備生成與訓(xùn)練數(shù)據(jù)相似的數(shù)據(jù)樣本的功能,因此也可應(yīng)用于數(shù)據(jù)增強和無監(jiān)督學(xué)習(xí)模型的預(yù)訓(xùn)練等[13]。在處理文本任務(wù)時,多使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的變分自編碼器(RNN-VAE)[14],如圖2所示。

        SOS和EOS分別為文本起始和結(jié)束的標(biāo)志

        RNN-VAE由兩個基于循環(huán)神經(jīng)網(wǎng)絡(luò)的部分構(gòu)成,即編碼器(encoder)與解碼器(decoder)。

        (1)編碼器多以雙向循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)造,學(xué)習(xí)輸入文本的潛在語義特征,并將其壓縮到低維的潛在特征空間表示。

        (2)解碼器利用潛在語義特征實現(xiàn)對輸入文本的重構(gòu)。

        RNN-VAE通過對語言模型P(S)的學(xué)習(xí)實現(xiàn)對輸入文本的重構(gòu):

        P(S)=P(w1,w2,…,wT)=P(w1)P(w2|w1)…

        P(wT|w1,w2,…,wT-1)

        (1)

        式(1)中:wi表示文本中第i個詞;T表示文本中所有詞的總數(shù);條件概率P(wi|w1,w2,…,wi-1)表示在已有前i-1個詞的條件下,第i個詞出現(xiàn)的概率。

        語言模型中條件概率的結(jié)構(gòu)不僅符合語言生成的客觀規(guī)律,也使RNN適合處理文本任務(wù)。RNN-VAE最終通過實現(xiàn)maxP(S)完成語言模型的學(xué)習(xí)[15],即

        Eqθ(z|x)log2(x|z)}

        (2)

        z=μ+εσ

        (3)

        (4)

        (5)

        μ=WμhT+bμ

        (6)

        σ=WσhT+bσ

        (7)

        (8)

        RNN-VAE的學(xué)習(xí)過程相當(dāng)于編碼器將樣本編碼為特征點,解碼器再將特征點解碼為原始樣本的過程,通過估計所有特征點的分布得到一個與真實特征空間近似的特征空間以及相應(yīng)的編碼與解碼的能力(圖2)。因此,RNN-VAE能夠?qū)⑻卣骺臻g中任意的特征點解碼為新的樣本,也能夠通過對輸入的樣本進行編碼與解碼實現(xiàn)重構(gòu),使其呈現(xiàn)與特征空間相似的特征。基于此,構(gòu)建GSLVAE學(xué)習(xí)模型,以強情感傾向語料作為訓(xùn)練集學(xué)習(xí)其詞語序列特征和情感語義特征,然后GSLVAE將弱情感傾向語料重構(gòu)為具備強情感傾向的新語料,從而實現(xiàn)情感增強的目標(biāo)。

        2.2 文本語料的全局語義學(xué)習(xí)方法

        2.2.1 模型構(gòu)建

        基于RNN-VAE模型,將段落向量[16]與注意力機制[17]引入編碼器的結(jié)構(gòu)中,構(gòu)造文檔信息向量hd,實現(xiàn)對粗粒度文本語義特征的提取,同時,利用均值抽取hmean與最大值抽取hmax的方式對編碼器中RNN層的輸出矩陣H進行特征提取,捕獲輸入文本語料新的語義特征,然后,通過合并3個特征構(gòu)造新的特征hL,實現(xiàn)對文本全局語義特征的提取。潛在特征空間由hL經(jīng)過線性變化得到的參數(shù)μL、σL描述。模型結(jié)構(gòu)與原理如圖3所示。

        圖3 GLSVAE原理圖

        設(shè)計GSLVAE,一方面使模型在基于大規(guī)模語料訓(xùn)練時得到有效收斂,另一方面通過學(xué)習(xí)強情感傾向語料在表達情感時的特征,用來增強弱情感傾向文本的情感強度。

        2.2.2 文檔信息向量

        段落向量作為一種維度固定的低維連續(xù)向量,能夠在有效表示文本段落的同時解決由詞袋模型(bag of words,BoW)引起的高維稀疏等問題。訓(xùn)練段落向量的學(xué)習(xí)過程使其表現(xiàn)出與段落中各個詞向量很高的相似性,因此,對T個詞向量進行線性組合,可以較為精確地重構(gòu)段落向量:

        (9)

        式(9)中:xi與ai分別表示段落中第i個詞向量以及對應(yīng)權(quán)重;vd表示段落向量。

        段落中每個詞的語義功能各不相同,例如,情感詞對語義的貢獻程度高于停用詞,因此,段落向量中的權(quán)重與注意力機制中的權(quán)重十分相似。結(jié)合注意力機制與詞向量構(gòu)造的新的段落向量,稱為文檔信息向量。權(quán)重通過編碼器(encoder)中RNN層的輸出矩陣H計算得到:

        (10)

        2.2.3 基于變分自編碼器的全局語義學(xué)習(xí)

        編碼器學(xué)習(xí)語義特征的過程即為構(gòu)造概率分布qθ(z|x)的過程,考慮文本的上下文語義以及詞語間的關(guān)聯(lián)關(guān)系,對編碼器的RNN層的輸出矩陣H分別通過均值抽取hmean與最大值抽取hmax的方式提取新的語義特征,如圖4所示。

        圖4 均值抽取與最大值抽取

        (11)

        (12)

        GSLVAE壓縮語義特征到潛在特征空間的過程描述如式(13)~式(18)所示:

        hL=[hmeanhmaxhd]

        (13)

        z=μL+εσL

        (14)

        (15)

        (16)

        μL=WμLhL+bμL

        (17)

        σL=WσLhL+bσL

        (18)

        式中:WμL、bμL分別為參數(shù)μL的權(quán)值和偏差;WσL、bσL分別為參數(shù)σL的權(quán)值和偏差。

        與RNN-VAE類似,GSLVAE的訓(xùn)練目標(biāo)或損失函數(shù),如式(2)所示。

        GSLVAE基于RNN-VAE進行改進,在保留提取文本語料中的詞語序列特征能力的同時,通過hmean、hmax及hd構(gòu)造特征hL,使模型具備提取描述文本語料詞語間關(guān)系的語義特征與粗粒度語義特征的能力,最終實現(xiàn)文本語料的全局語義學(xué)習(xí)。

        3 實驗驗證與分析

        3.1 實驗數(shù)據(jù)

        以真實的開源IMDb影評數(shù)據(jù)集為例,評估GSLVAE實現(xiàn)的文本情感增強對于情感分類任務(wù)結(jié)果的提升效果。該影評數(shù)據(jù)集包含12 500條積極評論,12 500條消極評論,但積極評論和消極評論語料中都會存在部分弱情感傾向的評論文本。以弱情感傾向評論文本為對象進行情感增強研究,以提高IMDb影評數(shù)據(jù)集的情感分類效果為目標(biāo),并采用分類任務(wù)中通用的評價指標(biāo)對實驗結(jié)果進行評價,即精確率P、召回率R、F1值。

        3.2 基線模型

        BERT模型的出現(xiàn)大幅度提升了文本分類的準(zhǔn)確性。以BERT作為基線模型,為語料劃分以及情感分類研究提供基礎(chǔ)。BERT參數(shù)設(shè)置如表1所示。

        表1 BERT參數(shù)設(shè)置

        將IMDb影評數(shù)據(jù)集等分為4份,進行4折交叉驗證實驗(圖5),在保證分類結(jié)果有效性的同時,為全數(shù)據(jù)集的劃分提供了前提。合并每次實驗的驗證集結(jié)果,即可得到BERT模型對全數(shù)據(jù)集的分類結(jié)果(表2)。

        圖5 4折交叉驗證實驗示意圖

        表2 4折交叉驗證實驗結(jié)果

        3.3 語料劃分方法及結(jié)果

        定量描述文本的情感傾向性是對文本語料進行劃分的前提?;贐ERT進行文本情感分類,文本的情感類別取決于BERT輸出的一組對應(yīng)不同情感類別的概率(概率的代數(shù)和為1),與最大概率值對應(yīng)的類別即為分類結(jié)果。概率反映分類模型將輸入文本判定屬于某一情感類別的置信程度,通常情況下,分類模型輸出的一組概率中僅有一個概率近似等于1,其他概率近似等于0。然而當(dāng)輸入文本的情感傾向不明顯時,其分類輸出會呈現(xiàn)出其他規(guī)律。以此為依據(jù),基于分類模型的概率輸出,設(shè)計如下語料劃分規(guī)則,實現(xiàn)語料自動劃分。

        (19)

        式(19)中:P=[p1,p2,…,pn];pi為輸入文本的類別i對應(yīng)的概率輸出值;n為總類別數(shù);δ為劃分閾值,δ∈[0,1];B表示將輸入文本劃分為情感表達傾向不顯著的文本;G則反之。

        基于BERT對全數(shù)據(jù)集的分類輸出,將規(guī)則R(P)中的δ設(shè)置為0.6,對IMDb影評數(shù)據(jù)集進行劃分,分別得到包含24 656條影評文本的數(shù)據(jù)集G與包含344條影評文本的數(shù)據(jù)集B。

        3.4 弱情感傾向語料的增強及實驗結(jié)果分析

        GSLVAE通過學(xué)習(xí)G數(shù)據(jù)集中強情感傾向文本的語義特征來增強B數(shù)據(jù)集中弱情感傾向文本的情感強度。為了更好地實現(xiàn)GSLVAE的收斂效果,以英文中“.”“?”“!”等句子終止符號對劃分后數(shù)據(jù)集中的文本進行分割,并選擇句子長度為10~20個詞的短句作為GSLVAE的訓(xùn)練集與情感增強的對象。由數(shù)據(jù)集G與B分別得到短句134 040、2 247條。利用IMDb語料訓(xùn)練Word2Vec模型,以得到語料中不同詞的300維詞向量。GSLVAE主要參數(shù)設(shè)置如表3所示。為保證情感增強后語料與原始語料的語義差異在可控范圍內(nèi),需以情感增強階段產(chǎn)生的損失作為是否采納情感增強文本的依據(jù),采納損失≤1的結(jié)果。部分文本情感增強結(jié)果如表4所示。

        表3 GLSVAE主要參數(shù)設(shè)置

        表4 部分文本情感增強結(jié)果

        表4結(jié)果表明,提出的GSLVAE能夠?qū)崿F(xiàn)弱情感傾向文本的情感增強,例如,短句“Technically this movie is as sound as they come-it just lacks aheart.”經(jīng)情感增強后變?yōu)椤癟echnically this movie is as sound as they come, it lackspassion.”,其中“it lackspassion”相較于“it just lacks aheart”在負面情感傾向的表達中更為明顯。

        為了驗證語料在情感增強以后的情感分類效果,將數(shù)據(jù)集G與經(jīng)過情感增強的數(shù)據(jù)集B合并,再次進行4折交叉驗證實驗,得到基于文本情感增強的BERT模型分類結(jié)果,如表5所示。

        表5 基于文本情感增強的BERT模型分類結(jié)果

        表5所示的實驗結(jié)果表明,提出的基于文本情感增強的數(shù)據(jù)增強方案使得情感分析任務(wù)的結(jié)果得到了一定的提升,具體表現(xiàn)為準(zhǔn)確率、召回率及F1分別提升了0.15%、0.48%、0.3%。通常,真實語料中情感模糊的文本比例較小,因此上述結(jié)果也是較為合理的。

        4 結(jié)論

        作為深度學(xué)習(xí)領(lǐng)域中的熱點研究,情感分類始終吸引著眾多學(xué)者不斷研究與拓展。從提升文本語料情感強度的角度出發(fā),首先基于BERT的情感分類結(jié)果設(shè)計語料劃分方法,能夠自動將語料劃分為強、弱情感傾向語料;然后改進RNN-VAE的語義學(xué)習(xí)過程,提出GSLVAE,考慮編碼器處理輸入文本的全過程以及輸入文本的整體語義,分別構(gòu)造基于hmean與hmax的語義特征以及基于文檔信息向量hd的粗粒度文本語義特征,實現(xiàn)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的全局語義學(xué)習(xí);最后,GSLVAE通過學(xué)習(xí)強情感傾向語料的語義特征來實施弱情感傾向文本的情感增強,并將經(jīng)過情感增強的文本替換到原始語料中,再重新進行情感分類,相較于情感增強之前的結(jié)果得到了提升,證實了基于全局語義學(xué)習(xí)的文本情感增強的有效性。

        然而,提出的GSLVAE暫未兼顧時間復(fù)雜度的問題,導(dǎo)致模型收斂速度較慢,后期將會以增強文本情感強度為目標(biāo)繼續(xù)探索,研究不同的生成式模型,在降低模型的時間復(fù)雜度方面做出改進,進一步完善GSLVAE方法。

        猜你喜歡
        語義分類特征
        分類算一算
        語言與語義
        如何表達“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        亚洲日韩精品A∨片无码加勒比| 亚洲av无码国产精品久久| 99精品久久精品一区二区| 欧美丰满熟妇乱xxxxx图片| 野外三级国产在线观看| 久久最黄性生活又爽又黄特级片| 亚洲一区二区三区特色视频| 成人午夜性a级毛片免费| 精品国产福利一区二区在线| 女同成片av免费观看| 你懂的视频在线看播放| 日本一区二区三区免费播放| 亚洲依依成人亚洲社区| 精品亚洲成a人在线观看青青| 亚洲成AⅤ人在线观看无码| 国产精品亚洲一区二区三区妖精| 日本免费大片一区二区| 少妇无码吹潮| AV教师一区高清| 久久精品久久精品中文字幕| 久久亚洲精品中文字幕| 东北寡妇特级毛片免费| 国产精品视频免费的| 亚洲av资源网站手机在线| 久久人妻av一区二区软件| 亚洲欧美国产国产综合一区| 欧美日韩中文制服有码| 一区二区在线视频大片| 亚洲综合偷自成人网第页色| 在线欧美中文字幕农村电影| 日韩成人精品在线| 久久最黄性生活又爽又黄特级片| 肉色丝袜足j视频国产| 手机看片久久国产免费| 人妻丰满熟妇av无码处处不卡 | 国产精品亚洲综合天堂夜夜| 精品国产免费一区二区久久| 中文字幕精品一区二区精品| 亚洲av永久无码精品秋霞电影影院| 亚洲综合网一区二区三区| 国产91色综合久久高清|