亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合語言知識和深度學(xué)習(xí)的中文文本情感分析方法

        2022-05-13 05:32:52徐康庭宋威
        大數(shù)據(jù) 2022年3期
        關(guān)鍵詞:詞典關(guān)鍵語義

        徐康庭,宋威

        北方工業(yè)大學(xué)信息學(xué)院,北京 100144

        0 引言

        情感分析(sentiment analysis)是指通過分析、歸納、推理等過程自動地對具有感情色彩的文本進(jìn)行情感極性的判斷[1]。隨著Web2.0的到來,越來越多的人成為互聯(lián)網(wǎng)的參與者,并通過博客、在線門戶網(wǎng)站、電商平臺等產(chǎn)生大量具有感情色彩的文本。對這些文本進(jìn)行分析挖掘?qū)τ谳浨榉治?、政府決策、產(chǎn)品分析具有重要意義。

        目前情感分析的方法可以大致分為3類:基于詞典和規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法。

        基于詞典和規(guī)則的方法通過詞典分析、句法分析、句型分析等方法對文本的情感極性進(jìn)行判斷。Wu J S等人[2]通過構(gòu)建情感詞典、否定詞詞典、程度副詞詞典等多部詞典提出詞語級情感判斷方法,并對文本進(jìn)行句法分析、句型分析,從而實(shí)現(xiàn)了對中文微博的情感判斷。趙妍妍等人[3]通過構(gòu)建大規(guī)模情感詞典實(shí)現(xiàn)了中文微博的情感分析。Xu G X等人[4]通過擴(kuò)展現(xiàn)有詞典的方法實(shí)現(xiàn)了對評論文本的情感分析。KESHAVARZ H等人[5]為了改善微博情感分類的性能,通過將語料庫和詞典結(jié)合的方式構(gòu)建自適應(yīng)詞典。李繼東等人[6]通過擴(kuò)展詞典,并對句間規(guī)則和句型規(guī)則進(jìn)行分析,提高了中文微博情感分析的性能。Zhang S X等人[7]首先對情感詞典進(jìn)行構(gòu)建和擴(kuò)充,然后通過計(jì)算權(quán)重得到微博文本的情感值,實(shí)現(xiàn)了對微博文本的情感分類。

        基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法一般先對文本利用詞袋(bag of word)模型進(jìn)行編碼,然后利用樸素貝葉斯(naive Bayes,NB)、支持向量機(jī)(maximum entropy,ME)、決策樹等傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行情感分類。Pang B等人[8]基于詞袋模型分別利用樸素貝葉斯模型、最大熵模型和支持向量機(jī)(support vector machine,SVM)實(shí)現(xiàn)了對電影評論的情感分類。蘇瑩等人[9]將樸素貝葉斯模型和潛在狄利克雷分布(latent Dirichlet allocation,LDA)結(jié)合,并引入合適的情感詞典,實(shí)現(xiàn)了對網(wǎng)絡(luò)評論的篇章級別和句子級別的情感傾向性分析。

        基于詞典和規(guī)則的方法需要人工預(yù)先對每個(gè)情感詞和語義規(guī)則設(shè)定情感極性值,而針對不同領(lǐng)域的情感任務(wù)共用通用的詞典,必然會帶來人工誤差,而且對情感詞和規(guī)則進(jìn)行情感極性標(biāo)注需要耗費(fèi)大量的人力。基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法一般基于詞袋模型,忽略了上下文語義,而且需要做特征工程?;谏疃葘W(xué)習(xí)的方法能夠自動實(shí)現(xiàn)端到端的學(xué)習(xí)和推理過程,鑒于此,近年來該方法成為研究的熱點(diǎn)。基于深度學(xué)習(xí)的方法得到的特征可以直接用于預(yù)測概率,也可以使用支持向量機(jī)等淺層分類器進(jìn)行分類[10]。Kim Y[11]將預(yù)訓(xùn)練的詞向量作為輸入,利用卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,從而實(shí)現(xiàn)了文本分類任務(wù),并取得了不錯(cuò)的效果。胡榮磊等人[12]將預(yù)訓(xùn)練的詞向量作為輸入,利用長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)學(xué)習(xí)文本的語義特征和序列特征,并與注意力模型相結(jié)合,有效提高了文本情感分析任務(wù)的性能。李洋等人[13]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和雙向長短期記憶(BiLSTM)網(wǎng)絡(luò)結(jié)合,充分利用了CNN提取局部特征的能力和雙向長短期記憶網(wǎng)絡(luò)提取文本序列特征的能力,提高了文本情感分析的性能。宋婷等人[14]通過區(qū)域卷積神經(jīng)網(wǎng)絡(luò)提取文本局部特征以及不同句子的時(shí)序關(guān)系,并利用改進(jìn)的分層長短期記憶網(wǎng)絡(luò)獲取句子內(nèi)部和句子間的情感特征,從而提高了方面級情感分析的性能。

        雖然,基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)模型能夠有效彌補(bǔ)基于詞典和規(guī)則的方法以及基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法的不足。但是,僅僅依靠數(shù)據(jù)進(jìn)行深度學(xué)習(xí)模型訓(xùn)練,忽略了情感詞典和語義規(guī)則等語言知識,導(dǎo)致模型不能充分學(xué)習(xí)文本特征,進(jìn)而無法突破深度學(xué)習(xí)模型的性能瓶頸。近年來,融合情感詞典或語義規(guī)則的深度學(xué)習(xí)模型逐漸成為熱點(diǎn)。謝潤忠等人[15]將情感集合和深度學(xué)習(xí)模型進(jìn)行融合,得到了不錯(cuò)的結(jié)果,但其未考慮語法規(guī)則。邱寧佳等人[16]將語義規(guī)則和深度學(xué)習(xí)融合并建立三通道模型,提高了文本情感分析的性能,但其未考慮情感集合。鑒于此,本文提出了一種結(jié)合語言知識和深度學(xué)習(xí)的中文文本情感分析的新方法CLKDL(the combination of language knowledge and deep learning),充分將語言知識和深度學(xué)習(xí)模型結(jié)合,通過數(shù)據(jù)和知識共同驅(qū)動模型學(xué)習(xí),以提高情感極性分類模型的性能。

        本文主要貢獻(xiàn)如下。

        ● 為了解決中文語義多樣性問題,降低語義的復(fù)雜性,突出關(guān)鍵情感信息對模型的貢獻(xiàn),提出了CLKDL方法。

        ● CLKDL方法首先利用詞典和規(guī)則抽取出情感傾向明確的情感集合信息;然后,為了防止出現(xiàn)由詞典維護(hù)不及時(shí)造成的情感集合信息缺失的問題,利用語義規(guī)則抽取出情感傾向更加明確的關(guān)鍵情感片段;最后,為了防止出現(xiàn)由抽取情感集合和情感片段造成的文本序列特征缺失的問題,從原始文本中抽取出序列特征,三者相輔相成。

        ● 構(gòu)建深度學(xué)習(xí)模型,分別從原始文本、關(guān)鍵情感片段、情感集合3個(gè)部分中抽取深層次特征,從而將語言知識與深度學(xué)習(xí)結(jié)合,并完成中文文本情感分析任務(wù)。然后,利用酒店評論數(shù)據(jù)集ChnSentiCorp和O2O商鋪食品安全評論相關(guān)數(shù)據(jù)對所提方法進(jìn)行有效性實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提方法的情感極性分類能力有明顯提升。

        1 基于語義規(guī)則和情感詞典的信息抽取

        1.1 關(guān)鍵情感片段的抽取

        相對英文而言,中文語義規(guī)則具有較高的復(fù)雜性。對于使用不同語義規(guī)則描述的文本,其表達(dá)的情感傾向以及情感強(qiáng)度也不相同。因此,需要根據(jù)語義規(guī)則把能夠改變情感傾向以及情感強(qiáng)度的關(guān)鍵情感片段從原文本中剝離出來,以降低中文文本語義的復(fù)雜度,為后續(xù)深度學(xué)習(xí)特征的提取加入語義知識,進(jìn)而提高情感分析的性能。本文從句間規(guī)則和句型規(guī)則兩種角度抽取關(guān)鍵情感片段。

        1.1.1 基于句間規(guī)則的抽取

        標(biāo)點(diǎn)符號是劃分句間關(guān)系的重要標(biāo)準(zhǔn),首先利用標(biāo)點(diǎn)符號“?”“!”“。”以及“;”將原始文本劃分為若干個(gè)復(fù)句,用集合{C0,C1,…,Cn}表示。每個(gè)復(fù)句又可以劃分為若干個(gè)子句,用集合{S0,S1,…,Sm}表示。對句間規(guī)則的分析即對復(fù)句中若干個(gè)子句之間相互關(guān)系的分析。會對情感分析造成影響的句間關(guān)系有轉(zhuǎn)折關(guān)系、遞進(jìn)關(guān)系和假設(shè)關(guān)系。根據(jù)分析,定義以下規(guī)則。

        (1)轉(zhuǎn)折關(guān)系規(guī)則

        當(dāng)句間出現(xiàn)轉(zhuǎn)折時(shí),情感也隨之改變。一般轉(zhuǎn)折前后的情感極性是相反的,值得注意的是,真實(shí)表達(dá)的情感極性在轉(zhuǎn)折詞后的情感片段中。具體規(guī)則如下。

        ● 如果復(fù)句C只出現(xiàn)單一轉(zhuǎn)折后接詞(如“但是”“然而”)且該單一轉(zhuǎn)折后接詞出現(xiàn)在Sk中,則取出子集{Sk,Sk+1,…,Sm}作為關(guān)鍵情感片段。

        ● 如果復(fù)句C只出現(xiàn)單一轉(zhuǎn)折前接詞(如“雖然”“盡管”)且該單一轉(zhuǎn)折前接詞出現(xiàn)在Sk中,則取出子集{S0,S1,…,Sk}作為關(guān)鍵情感片段。

        ● 如果復(fù)句C中出現(xiàn)連續(xù)完整轉(zhuǎn)折詞(如“雖然……但是……”)且該轉(zhuǎn)折后接詞出現(xiàn)在Sk中,則取出子集{Sk,Sk+1,…,Sm}作為關(guān)鍵情感片段。

        (2)遞進(jìn)關(guān)系規(guī)則

        當(dāng)句間出現(xiàn)遞進(jìn)關(guān)系時(shí),一般后句的情感表達(dá)程度要明顯強(qiáng)于前句。當(dāng)復(fù)句C中出現(xiàn)遞進(jìn)關(guān)系詞(如“更加”“更有甚者”),并且該遞進(jìn)關(guān)系詞出現(xiàn)在Sk中時(shí),取出子集{Sk,Sk+1,…,Sm}作為關(guān)鍵情感片段。

        (3)假設(shè)關(guān)系規(guī)則

        當(dāng)句間出現(xiàn)假設(shè)關(guān)系時(shí),一般情感表達(dá)的重心在前句,如果出現(xiàn)否定假設(shè),那么情感表達(dá)的極性會相反。當(dāng)復(fù)句C中出現(xiàn)假設(shè)后接詞(如“那么”)且該假設(shè)后接詞出現(xiàn)在Sk中時(shí),取出子集{S0,S1,…,Sk}作為關(guān)鍵情感片段。

        以上3種句間關(guān)系都會對情感分析造成一定的影響,因此需要根據(jù)語義規(guī)則把關(guān)鍵情感片段抽取出來做進(jìn)一步的分析。至于其他句間關(guān)系,比如并列關(guān)系、因果關(guān)系、一般關(guān)系等并不會對情感傾向和情感程度造成影響,因此本文不做特殊處理。

        1.1.2 基于句型規(guī)則的抽取

        中文常用的句型有疑問句、反問句、感嘆句、陳述句。其中疑問句和反問句會使得情感極性變反;感嘆句雖然不影響情感極性,卻會改變情感表達(dá)的程度;陳述句一般不會對情感極性和情感程度造成影響?;谏鲜龇治?,定義以下關(guān)鍵情感片段的抽取規(guī)則。

        (1)感嘆句

        如果復(fù)句C是感嘆句,即以“!”或多個(gè)“!”(如“!??!”“?。。。。?!”)結(jié)尾,則將整個(gè)復(fù)句C(即{S0,S1,…,Sm})作為關(guān)鍵情感片段。

        (2)反問句及疑問句

        如果復(fù)句C是反問句或者疑問句,即以“?”或多個(gè)“?”(如“???”“??????”)結(jié)尾,則將整個(gè)復(fù)句C(即{S0,S1,…,Sm})作為關(guān)鍵情感片段。

        (3)陳述句

        如果復(fù)句C是陳述句,其不會對情感極性和情感強(qiáng)度造成影響,因此本文不做特殊處理。

        1.2 情感集合的抽取

        情感詞是主體對客體的情感偏離度的直接表達(dá),程度副詞、否定詞等修飾詞會對情感詞的情感極性和情感強(qiáng)度造成影響。為了進(jìn)一步降低中文語義的復(fù)雜度,以進(jìn)一步提高后續(xù)深度學(xué)習(xí)模型提取特征的準(zhǔn)確性,進(jìn)而提高情感分析的性能,本文引入情感詞典、程度副詞詞典、否定詞詞典等已知的語言學(xué)知識。從上述根據(jù)句間規(guī)則抽取的關(guān)鍵情感片段中抽取出情感更加明確的情感詞來構(gòu)建情感集合。定義如下規(guī)則。

        規(guī)則1:如果當(dāng)前詞為情感詞,則將其加入情感集合中。

        規(guī)則2:如果當(dāng)前詞為程度副詞,且下一個(gè)詞為情感詞,則將當(dāng)前的程度副詞和情感詞組合成新詞加入情感集合。如果情感集合中有當(dāng)前情感詞,則將其從情感集合中刪除。

        規(guī)則3:如果當(dāng)前詞為程度副詞,且下一個(gè)詞為否定詞、下面第二個(gè)詞為情感詞,則將當(dāng)前的程度副詞、否定詞、情感詞組合在一起并加入情感集合。如果當(dāng)前情感詞或者當(dāng)前否定詞和情感詞的組合已經(jīng)在情感集合中,則將其從情感集合中刪除。

        規(guī)則4:如果當(dāng)前詞為否定詞,且下一個(gè)詞為情感詞,則將當(dāng)前的否定詞和情感詞組合在一起并加入情感集合。如果當(dāng)前的情感詞在情感集合中,則將其從情感集合中刪除。

        規(guī)則5:如果當(dāng)前詞為否定詞,且下一個(gè)詞為程度詞、下面第二個(gè)詞為情感詞,則將當(dāng)前的否定詞、程度副詞、情感詞組合在一起并加入情感集合。如果當(dāng)前情感詞或者程度副詞和情感詞的組合在情感集合中,則將其從情感集合中刪除。

        2 深度學(xué)習(xí)相關(guān)技術(shù)

        2.1 BERT預(yù)訓(xùn)練模型

        基于Transformer的雙向編碼器表征(bidirectional encoder representation from Transformer,BERT)技術(shù)是一個(gè)多任務(wù)模型,通過遮蔽語言模型(masked language model,MLM)和下一句話預(yù)測(next sentence prediction,NSP)分別捕獲詞語和句子級別的向量表示[17]。BERT模型結(jié)構(gòu)如圖1所示。BERT整體處理流程為:首先對輸入文本進(jìn)行字向量編碼、文本向量編碼、位置向量編碼,然后通過雙向Transformer模塊得到文本的向量化表示。對于文本向量靜態(tài)嵌入而言,與傳統(tǒng)的word2vec相比,使用BERT作為向量化工具能夠根據(jù)下游任務(wù)對文本的向量表示進(jìn)行動態(tài)調(diào)整,從而解決一詞多義的問題。

        圖1 BERT模型結(jié)構(gòu)

        2.2 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)利用一個(gè)濾波器在一個(gè)文本數(shù)據(jù)上上下滑動以探知不同位置的特征,從而提取文本局部特征。假設(shè)表示文本中第i個(gè)字向量。表示一個(gè)輸入文本的向量,其中L表示輸入文本的長度。表示卷積操作的濾波器,其中k表示濾波器的長度,d表示詞嵌入的維度。文本中的每個(gè)位置j都有包含k個(gè)連續(xù)字向量的窗口向量wj,如式(1)所示:

        其中,逗號表示行向量連接,濾 波器m通過逐一滑動窗口產(chǎn)生一個(gè)特征映射(feature map),c=[c1,c2,…,cL-k+1]。特征映射c是提取的文本局部特征。

        2.3 長短期記憶網(wǎng)絡(luò)

        LSTM是由Hochreiter S等人[18]在1997年第一次提出,隨后經(jīng)過Graves A[19]改良推廣的模型。其能夠有效解決循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)中長期依賴的問題,在很多任務(wù)中取得了不錯(cuò)的表現(xiàn),LSTM的結(jié)構(gòu)如圖2所示。LSTM在t時(shí)刻的轉(zhuǎn)換函數(shù)定義如下。

        圖2 LSTM結(jié)構(gòu)

        其中,σ為Sigmoid激活函數(shù),tanh表示雙曲正切函數(shù),?表示矩陣相乘,x(t)表示當(dāng)前時(shí)刻的輸入向量,i(t)、f(t)、o(t)分別表示輸入門、遺忘門和輸出門,g(t)表示當(dāng)前細(xì)胞的候選狀態(tài),Wxi、Wxf、Wxo、Wxg表示每層連接到輸入向量x(t)的權(quán)重矩陣,Whi、Whf、Who、Whg表示每層連接到前一個(gè)隱藏狀態(tài)h(t-1)的權(quán)重矩陣,bi、bf、bo、bg表示每層的偏置,輸入門i(t)用于控制被存儲在當(dāng)前記憶細(xì)胞中的新信息量,f(t)用于控制舊記憶細(xì)胞中信息被丟棄的程度,o(t)根據(jù)當(dāng)前記憶細(xì)胞c(t)用于控制被輸出的信息,h(t)表示當(dāng)前時(shí)刻細(xì)胞狀態(tài),y(t)表示輸出,c(t-1)表示上一時(shí)刻的細(xì)胞狀態(tài)。

        2.4 注意力機(jī)制

        注意力機(jī)制為模型的輸入賦予不同的權(quán)重,根據(jù)任務(wù)的具體情況,為更加關(guān)鍵和重要的信息設(shè)置更高的權(quán)重;反之,設(shè)置更低的權(quán)重,以此來提升模型的性能。

        3 結(jié)合語言知識和深度學(xué)習(xí)的CLKDL方法

        本文提出的CLKDL方法由3個(gè)部分組成,分別是原始文本部分、語義規(guī)則部分、情感集合部分。每個(gè)部分又由5個(gè)層次組成,分別是語義規(guī)則及預(yù)處理層、詞嵌入層、特征提取層、加權(quán)融合層和輸出層。CLKDL結(jié)構(gòu)如圖3所示。

        圖3 CLKDL結(jié)構(gòu)

        3.1 語義規(guī)則及預(yù)處理層

        該層主要根據(jù)第1節(jié)定義的基于語義規(guī)則和情感詞典的信息抽取方法,從原始文本中抽取關(guān)鍵情感片段和情感集合,以降低中文語義的復(fù)雜度,加強(qiáng)深度學(xué)習(xí)模型的特征提取能力。

        然后利用情感詞典、程度副詞詞典、否定詞詞典從關(guān)鍵情感片段中抽取情感集合表示該文本第n個(gè)復(fù)句中的第個(gè)k關(guān)鍵情感片段中的第m個(gè)情感詞。將該集合元素進(jìn)行拼接并作為情感集合部分的輸入。

        最后將原始文本進(jìn)行去停用詞、去特殊字符等預(yù)處理后得到的文本作為原始文本部分的輸入。

        3.2 詞嵌入層

        利用BERT預(yù)訓(xùn)練模型分別對原始文本部分、語義規(guī)則部分、情感集合部分的輸入進(jìn)行詞向量化,得到3個(gè)部分的文本向量。BERT詞嵌入能夠?qū)υ~向量進(jìn)行動態(tài)調(diào)整,解決一詞多義的問題,從而將真實(shí)的語義嵌入詞向量中。3個(gè)部分的詞向量分別用表示。其中LT表示原始文本長度,LS表示關(guān)鍵情感片段的長度,LT表示情感集合的長度。

        3.3 特征提取層

        3.3.1 原始 文本特征提取

        為了防止文本序列特征的丟失并充分考慮上下文特征,使用BiLSTM網(wǎng)絡(luò)從原始文本中提取深層次特征。

        在某一時(shí)刻,BiLSTM的輸出ht由前向輸出向量和反向輸出向量組合而成。計(jì)算方式如下。

        其中,xt為在t時(shí)刻BiLSTM的輸入,LT表示文本序列總長度。

        為了增加關(guān)鍵特征對情感分析任務(wù)的貢獻(xiàn),降低無效信息對模型的干擾,在BiLSTM提取特征后引入注意力機(jī)制。首先生成目標(biāo)注意力權(quán)重ut,然后將目標(biāo)注意力權(quán)重向量化,生成權(quán)重向量at,最后將生成的權(quán)重向量配置給隱層狀態(tài)語義編碼ht,生成包含注意力權(quán)重的原始文本特征向量V,計(jì)算過程如下。

        其中,ht為經(jīng)過BiLSTM得到的原始文本特征向量,Ww、bw、uw為注意力網(wǎng)絡(luò)的可調(diào)節(jié)參數(shù)。

        3.3.2 關(guān)鍵情感片段特征提取

        為了進(jìn)一步從關(guān)鍵情感片段中提取情感特征,本文采用多個(gè)不同大小的卷積核并行地對關(guān)鍵情感片段進(jìn)行多層次的特征抽取。不同大小的卷積核能夠提取多種N-gram特征,并且使用并列結(jié)構(gòu)在一定程度上能夠解決深度學(xué)習(xí)模型過深導(dǎo)致的信息丟失和梯度消弱的問題。多尺寸卷積神經(jīng)神經(jīng)網(wǎng)絡(luò)(multi-scale convolutional neural network,MCNN)[20]結(jié)構(gòu)如圖4所示。

        圖4 MCNN結(jié)構(gòu)

        卷積層使用尺寸為r×k的卷積核對關(guān)鍵情感片段向量s進(jìn)行上下卷積,以提取關(guān)鍵情感片段的局部特征ci。

        其中,m表示尺寸為r×k的卷積核;s[i:i+r-1]表示情感片段向量s中從第i行到i+r-1行的r行向量;b表示偏置。f表示激活函數(shù),常用的激活函數(shù)有Sigmoid、tanh、ReLU,本文將ReLU函數(shù)作為卷積層的激活函數(shù)。

        卷積核在情感片段向量s中從上向下以步長1進(jìn)行卷積,最終得到當(dāng)前卷積核提取的全部局部特征向量C。

        為了減少模型參數(shù),提高模型的收斂速度,一般在卷積后進(jìn)行池化操作。常用的池化操作有平均池化和最大池化。本文選取最大池化提取C中的最大值來表示局部特征。

        最后,將所有池化后的局部特征進(jìn)行拼接,形成經(jīng)過MCNN抽取的深層次特征d。

        為了突出情感片段的深層次特征d中的關(guān)鍵信息對模型的貢獻(xiàn),減少無效特征對模型的干擾,在MCNN后引入注意力機(jī)制。

        其中,Wd、bd為注意力網(wǎng)絡(luò)可調(diào)節(jié)參數(shù),d為經(jīng)過MCNN抽取后的特征,ad為注意力權(quán)重,U為包含注意力權(quán)重的關(guān)鍵情感片段特征。

        3.3.3 情感集合特征提取

        為了進(jìn)一步抽取情感集合的情感特征,本文采用全連接神經(jīng)網(wǎng)絡(luò)從情感集合向量e中進(jìn)行抽取。為了增大關(guān)鍵信息的權(quán)重,在全連接網(wǎng)絡(luò)后引入注意力機(jī)制。

        其中,h為抽取后的情感特征;W為全連接網(wǎng)絡(luò)權(quán)重;b為全連接網(wǎng)絡(luò)偏置;f(·)為激活函數(shù),本文將ReLU函數(shù)作為激活函數(shù);ah為注意力權(quán)重;Wh、bh為注意力網(wǎng)絡(luò)可調(diào)節(jié)參數(shù);P為包含注意力權(quán)重的情感集合特征。

        3.4 加權(quán)融合層

        加權(quán)融合層將從原始文本中提取的特征向量V、關(guān)鍵情感片段中提取的特征向量U、情感集合中提取的特征向量P三者進(jìn)行拼接,形成最后的全局情感特征向量g。

        從原始文本部分、語義規(guī)則部分、情感集合部分提取的特征重要程度各不相同,為了突出從關(guān)鍵部分提取的特征對情感分析任務(wù)的影響,在全局情感特征向量g后引入注意力機(jī)制。

        其中,Wg、bg為注意力網(wǎng)絡(luò)可調(diào)節(jié)權(quán)重和偏置,ag為注意力權(quán)重,G為包含注意力權(quán)重的全局情感特征向量。

        3.5 輸出層

        將包含注意力權(quán)重的全局情感特征G輸入分類器,從而得到輸入文本最終的所屬類別。

        其中,wp為權(quán)重系數(shù),bp為偏置,p為預(yù)測的所屬類別概率。

        3.6 模型訓(xùn)練

        本文使用反向傳播最小化交叉熵?fù)p失函數(shù)的方式進(jìn)行模型的訓(xùn)練。

        其中,L表示交叉熵?fù)p失,D表示訓(xùn)練集,C表示情感分析任務(wù)中的類別集合,表示第i個(gè)樣本的真實(shí)標(biāo)簽,表示模型預(yù)測的第i個(gè)樣本的概率。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)環(huán)境

        本文的實(shí)驗(yàn)環(huán)境為:操作系統(tǒng)是Ubuntu 16.04,CPU是Intel Core i7-8750,GPU是GeForce GTX 1060,內(nèi)存是DDR4 16 GB,顯存大小是6 GB,深度學(xué)習(xí)框架是TensorFlow 2.4.0、Keras 2.4.3,開發(fā)工具是PyCharm 2020.1.1。

        4.2 實(shí)驗(yàn)數(shù)據(jù)

        數(shù)據(jù)集:本文使用兩種數(shù)據(jù)集對所提方法進(jìn)行驗(yàn)證,數(shù)據(jù)集1為中國科學(xué)院的譚松波整理的酒店評論數(shù)據(jù)集ChnSentiCorp,其共有10 000篇評論語料,分為4個(gè)子數(shù)據(jù)集。本文選用ChnSentiCorp-Htl-ba-6000進(jìn)行實(shí)驗(yàn),該語料正樣本和負(fù)樣本(即正面評論和負(fù)面評論)各3 000篇,示例見表1。數(shù)據(jù)集2采用Data Fountain的O2O商鋪食品安全相關(guān)評論數(shù)據(jù),示例見表2。

        表1 ChnSentiCorp數(shù)據(jù)集示例

        表2 O2O商鋪食品安全相關(guān)評論數(shù)據(jù)示例

        詞典:本文使用的情感詞典為大連理工大學(xué)的中文情感詞本體庫,程度副詞詞典和否定詞詞典使用知網(wǎng)中文詞庫HowNet,見表3。使用的連詞詞典為人工梳理而得,見表4。

        表3 情感語言庫

        表4 連詞詞典

        4.3 實(shí)驗(yàn)參數(shù)

        超參數(shù)的設(shè)置會直接影響CLKDL方法的性能,按表5進(jìn)行調(diào)參后本文所提方法達(dá)到最優(yōu)。

        表5 模型參數(shù)設(shè)置

        4.4 評價(jià)指標(biāo)

        使用精準(zhǔn)率precision、召回率recall以及兩者的調(diào)和平均測度F1來衡量模型的性能。計(jì)算式如下。

        其中,TP表示標(biāo)記為正例、模型預(yù)測也為正例的樣本數(shù),F(xiàn)P表示標(biāo)記為負(fù)例、模型預(yù)測為正例的樣本數(shù),F(xiàn)N表示標(biāo)記正例、模型預(yù)測為負(fù)例的樣本數(shù)。

        4.5 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證使用CLKDL方法進(jìn)行中文文本情感分析的有效性,本文使用如下3種方法在酒店評論和商鋪食品評論兩種數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別為基于語言知識的方法、基于深度學(xué)習(xí)的方法、CLKDL方法。實(shí)驗(yàn)結(jié)果見表6和表7,并對結(jié)果進(jìn)行分析。

        表6 ChnSentiCorp數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        表7 O2O商鋪食品安全評論相關(guān)評論數(shù)據(jù)實(shí)驗(yàn)結(jié)果

        基于語言知識的方法:該方法首先利用句型規(guī)則、句間規(guī)則對原始文本進(jìn)行語義分析,并計(jì)算其在語義規(guī)則角度上的得分;然后利用情感詞典、程度副詞詞典、否定詞詞典對原始文本中的詞進(jìn)行分析,并計(jì)算其在情感詞典角度上的得分;最后綜合計(jì)算出原始文本的情感得分,完成中文文本的情感分析的任務(wù)。

        基于深度學(xué)習(xí)的方法:該方法首先利用BERT對原始文本進(jìn)行詞嵌入以提取原始文本的語義表達(dá),然后分別利用BiLSTM提取原始文本的序列特征,利用MCNN提取原始文本的多層次語義特征,利用全連接神經(jīng)網(wǎng)絡(luò)提取原始文本的全局特征,接著利用注意力機(jī)制突出關(guān)鍵信息對模型的貢獻(xiàn),最后將含有注意力權(quán)重的3種特征進(jìn)行融合,并利用sotfmax分類器完成中文文本的情感分析任務(wù)。

        CLKDL:該方法與基于深度學(xué)習(xí)方法的網(wǎng)絡(luò)結(jié)構(gòu)相同,不同的是該方法將語言知識融合進(jìn)基于深度學(xué)習(xí)的方法中。具體地,首先利用句間規(guī)則、句型規(guī)則從原始文本中抽取出關(guān)鍵情感片段,然后利用情感詞典、程度副詞詞典、否定詞詞典從關(guān)鍵情感片段中抽取出情感集合,最后將原始文本、關(guān)鍵情感片段、情感集合作為模型的輸入,完成中文文本的情感分析任務(wù)。

        對上述實(shí)驗(yàn)結(jié)果進(jìn)行分析發(fā)現(xiàn),在上述兩種數(shù)據(jù)集上,CLKDL的性能均高于基于語言知識的方法和基于深度學(xué)習(xí)的方法。這是因?yàn)閱渭兓谡Z言知識的方法忽略了文本蘊(yùn)含的深層次特征,單純基于深度學(xué)習(xí)的方法忽略了語法規(guī)則等語言知識信息。而CLKDL不僅考慮了語法規(guī)則等語言知識信息,降低了中文文本的復(fù)雜性,分析出關(guān)鍵情感信息,又利用深度學(xué)習(xí)模型提取了文本的深層次特征,從而得到了較好的性能,驗(yàn)證了所提方法的有效性。

        5 結(jié)束語

        目前深度學(xué)習(xí)模型大多是基于數(shù)據(jù)驅(qū)動的方法,其忽略了語義規(guī)則、情感集合等語言知識,導(dǎo)致無法充分提取文本特征。針對這一問題,本文提出了一種結(jié)合語言知識和深度學(xué)習(xí)的情感分析方法CLKDL。首先利用語義規(guī)則和情感集合將原始文本分為3個(gè)部分,即原始文本部分、關(guān)鍵情感片段部分、情感集合部分,然后分別利用深度學(xué)習(xí)模型抽取文本特征并進(jìn)行加權(quán)融合,最后利用分類器進(jìn)行情感極性判斷。實(shí)驗(yàn)結(jié)果表明,所提方法能夠有效提高情感分析的性能。本文所提方法是從中文文本的角度進(jìn)行的建模,下一步計(jì)劃將該方法應(yīng)用到其他語言,并進(jìn)行文本情感分析。

        猜你喜歡
        詞典關(guān)鍵語義
        高考考好是關(guān)鍵
        語言與語義
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        獲勝關(guān)鍵
        NBA特刊(2014年7期)2014-04-29 00:44:03
        生意無大小,關(guān)鍵是怎么做?
        中國商人(2013年1期)2013-12-04 08:52:52
        《胡言詞典》(合集版)刊行
        亚洲欧洲巨乳清纯| 亚洲国产av一区二区三区精品| 无码人妻精品中文字幕| 亚洲av成人无码网站…| jlzzjlzz全部女高潮| 一本之道加勒比在线观看| 日本一区二区在线免费视频| 香港三级精品三级在线专区| 亚洲一区综合精品狠狠爱| 日本高清长片一区二区| 后入丝袜美腿在线观看| 亚洲日韩国产一区二区三区在线| 亚洲综合色一区二区三区另类| 日韩精品夜色二区91久久久| 国产一区二区视频免费在线观看| 亚洲中文字幕久在线| 亚洲日韩一区二区一无码| 色婷婷一区二区三区四| 极品人妻被黑人中出种子| 毛片24种姿势无遮无拦| 久热爱精品视频在线观看久爱 | 午夜无码大尺度福利视频| av亚洲在线一区二区| 国产精品国产三级国产av18| 亚洲精品熟女国产| 久久亚洲AV成人一二三区| 久久国产精品精品国产色| 伊人大杳焦在线| 少妇被粗大的猛进69视频| 搡老女人老妇女老熟妇69| 国产精品一区二区三区在线蜜桃| 国产无人区码一码二码三mba| 亚洲AV无码精品色午夜超碰| 亚洲啪啪色婷婷一区二区| 色视频综合无码一区二区三区| 欧美日韩亚洲成人| 人妻少妇偷人精品久久人妻| 天天躁夜夜躁av天天爽| 日本大片免费观看完整视频| 激情人妻中出中文字幕一区| 中文字幕人成人乱码亚洲av|