亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多粒度語義特征的中文情感分析方法

        2023-11-29 04:20:52任菊香劉忠寶
        關(guān)鍵詞:部首特征向量語義

        任菊香,劉忠寶

        (1.山西工程科技職業(yè)大學(xué) 信息工程學(xué)院,山西 晉中 030619;2.北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083;3.泉州信息工程學(xué)院 軟件學(xué)院,福建 泉州 362000)

        0 引 言

        近年來,中文情感分析受到研究人員的廣泛關(guān)注并取得了長足進(jìn)步,但現(xiàn)有研究存在語義理解能力弱和情感特征表達(dá)不充分等問題.中英文語言的差異性,使得英文文本情感分析取得的研究成果無法直接遷移到中文文本,極大地增加了中文情感分析的研究難度.鑒于此,本文針對中文文本的特殊性以及情感分析的實(shí)際需求,在字、詞特征的基礎(chǔ)上,引入部首特征和情感詞性特征,利用雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term Memory,BLSTM)、注意力機(jī)制(attention mechanism)、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(recurrent convolutional neural network,RCNN)等模型,提出了融合字、詞、部首、詞性等多粒度語義特征的中文文本情感分析方法.

        本文研究的創(chuàng)新點(diǎn)主要體現(xiàn)在3 個(gè)方面: 一是針對中文文本的特殊性以及情感分析的實(shí)際需求,圍繞大數(shù)據(jù)環(huán)境下中文情感分析問題展開研究,選題具有一定的新意;二是研究融合了情報(bào)學(xué)、語言學(xué)、信息科學(xué)、人工智能等學(xué)科的諸多前沿理論和方法,采用多學(xué)科交叉的模式來分析問題、解決問題,在研究方法和手段上具有一定的創(chuàng)新性;三是深度融合字、詞、部首、詞性等多粒度語義特征,提出了中文文本情感分析方法,進(jìn)一步豐富了中文情感分析的理論體系和方法體系.具體而言,本文主要的學(xué)術(shù)貢獻(xiàn): 一是針對中文文本的特殊性,利用漢字部首助力中文文本語義理解;二是深度融合字、詞、部首、詞性等多粒度語義特征,進(jìn)一步提升了中文情感分析性能.

        1 相關(guān)研究

        現(xiàn)有研究主要沿著兩條技術(shù)路線展開: 傳統(tǒng)方法和深度學(xué)習(xí)方法.傳統(tǒng)方法利用情感詞典或機(jī)器學(xué)習(xí)模型進(jìn)行情感分析: 基于情感詞典的方法能夠準(zhǔn)確反映文本的非結(jié)構(gòu)化特征,易于分析和理解,但隨著大量新詞的出現(xiàn),情感詞典覆蓋范圍有限,無法解決詞形、詞性變化問題;基于機(jī)器學(xué)習(xí)的方法比起構(gòu)建情感詞典具有一定優(yōu)勢,但該方法需要事先給定大量特征,效率較為低下,且機(jī)器學(xué)習(xí)模型無法學(xué)習(xí)文本數(shù)據(jù)的深層次語義特征.鑒于深度學(xué)習(xí)模型在特征提取和語義表征方面的優(yōu)勢,研究人員開始關(guān)注該模型并將其引入文本情感分析.目前,基于深度學(xué)習(xí)模型的文本情感分析主要從字、詞和詞性等不同粒度角度開展研究.

        基于字粒度的文本情感分析,以字為基本單元構(gòu)造字向量,通過深度學(xué)習(xí)模型提取字向量的深層次語義特征進(jìn)行文本情感分析.劉文秀等[1]為解決文本情感分析對分詞的依賴性和詞的歧義性問題,提出了一種基于變換器的雙向編碼器表征技術(shù)(bidirectional encoder representations from transformer,BERT)[2]和BLSTM 的文本情感分析模型,該模型將BERT 預(yù)訓(xùn)練的字向量替代傳統(tǒng)方法的詞向量,然后利用BLSTM 模型進(jìn)行特征提取,進(jìn)而實(shí)現(xiàn)情感識別;與長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、文本卷積神經(jīng)網(wǎng)絡(luò)(text convolutional neural network,TextCNN)和BERT-LSTM 等模型的對比實(shí)驗(yàn)表明,該模型情感分析性能優(yōu)良,其F1值最高提升了6.78%.徐凱旋[3]等融合BERT 模型和TextCNN 模型,提出了BERT-TextCNN 混合模型,該模型利用BERT 模型獲取具有句子全局特征的字向量,然后將其輸入TextCNN 模型抽取局部特征.

        基于詞粒度的文本情感分析,以詞為基本單元構(gòu)造詞向量,通過深度學(xué)習(xí)模型提取詞向量的深層次語義特征進(jìn)行文本情感分析.張海濤等[4]基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)構(gòu)建微博輿情情感識別模型,微博話題數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型相較于傳統(tǒng)方法具有一定的優(yōu)勢,能夠?qū)崿F(xiàn)高效的微博輿情情感分析;曹宇等[5]提出了一種基于雙向門控循環(huán)單元(bidirectional gate recurrent unit,BGRU)模型的中文文本情感分析方法,該方法相較于BLSTM 模型,其模型結(jié)構(gòu)更為簡單,訓(xùn)練速度更快,ChnSentiCorp 語料集上的實(shí)驗(yàn)結(jié)果表明,該模型的F1值達(dá)到了90.61%.為解決財(cái)經(jīng)微博文本中網(wǎng)民情感狀態(tài)轉(zhuǎn)移的時(shí)序分析問題,吳鵬等[6]提出了基于認(rèn)知情感評價(jià)模型和LSTM 模型的財(cái)經(jīng)微博文本情感識別模型,海量微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型的準(zhǔn)確率達(dá)到89.45%,遠(yuǎn)高于支持向量機(jī)(support vector machine,SVM)和半監(jiān)督遞歸自編碼器(semi-supervised recursive auto encoder,SS-RAE);胡任遠(yuǎn)等[7]提出了多層協(xié)同卷積神經(jīng)網(wǎng)絡(luò)模型(multi-level convolutional neural network,MCNN),并與BERT 模型相結(jié)合,提出了 BERT-MCNN 混合模型.繆亞林等[8]提出的融合CNN 與BGRU 模型的文本情感識別模型,豆瓣影視評論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型較于相同復(fù)雜度的CNN-BLSTM 模型,其分類準(zhǔn)確率和訓(xùn)練速度分別提高了2.52%和41.43%.

        一些研究人員注意到字、詞在情感分析中的作用,提出了融合字粒度與詞粒度的情感分析方法,例如,李平等[9]提出的雙通道卷積神經(jīng)網(wǎng)絡(luò)(dual channel convolutional neural network,DCCNN)模型,該模型采用不同通道進(jìn)行卷積運(yùn)算,其中一個(gè)通道為字向量,另一個(gè)為詞向量,通過不同尺寸的卷積核,提取句子特征,實(shí)驗(yàn)結(jié)果表明,該模型的正確率和F1值相較于傳統(tǒng)方法有了顯著提升,均達(dá)到95%以上;張柳等[10]利用多尺度卷積核,構(gòu)建基于字、詞向量的多尺度卷積神經(jīng)網(wǎng)絡(luò)CNN 模型,并將其應(yīng)用于微博評論情感識別;陳欣等[11]針對深度學(xué)習(xí)模型無法充分獲取文本語義特征的問題,在融合字、詞向量的基礎(chǔ)上,分別利用CNN 模型和BLSTM 模型進(jìn)行情感正負(fù)分類和主客觀分類研究.

        基于詞性粒度的文本情感分析,以中文詞語的詞性作為主要特征進(jìn)行文本情感分析.趙富等[12]針對現(xiàn)有研究提取文本特征能力不足的問題,提出了一種融合詞性的雙注意力機(jī)制BLSTM 模型,實(shí)驗(yàn)結(jié)果表明,與未融合詞性的模型相比,該模型在4 類語料集上情感識別的準(zhǔn)確率分別提高了1.35%、1.25%、0.93%和1.5%.王義等[13]利用CNN 模型的多個(gè)通道,分別對詞向量、詞向量與詞性融合的詞性對向量以及字向量進(jìn)行卷積運(yùn)算,建立了細(xì)粒度的多通道CNN 模型;實(shí)驗(yàn)結(jié)果表明,與CNN 模型相比,該模型的準(zhǔn)確率和F1值上均有顯著提升.

        對相關(guān)研究進(jìn)行梳理可以發(fā)現(xiàn),研究人員圍繞字、詞、詞性等多粒度特征進(jìn)行的情感分析研究,取得了一系列研究成果.隨著研究的深入,也面臨一些重要挑戰(zhàn): 首先,中文文本情感分析研究大多借鑒英文文本情感分析方法,忽略了中文(象形文字)與英文(拉丁文字)的本質(zhì)區(qū)別;其次,一些研究雖然認(rèn)識到字特征、詞特征、詞性特征對于情感分析的重要性,試圖將字特征、詞特征、詞性特征進(jìn)行融合,但融合方式太過粗糙,嚴(yán)重影響了文本的語義理解能力;最后,除字特征、詞特征、詞性等特征外,能否引入更多特征實(shí)現(xiàn)更為高效的情感分析尚未深入探討.這些問題是本文嘗試解決的主要問題.

        2 研究方法

        中文情感分析具有2 個(gè)顯著特點(diǎn): 一是漢字是組成中文文本的基本單元,每個(gè)漢字的部首蘊(yùn)含了豐富的語義信息;二是詞語的詞性,特別是動(dòng)詞、形容詞、副詞等,其包含了豐富的情感信息.因此,與之前的研究工作不同,本文引入深度學(xué)習(xí)模型,利用字、詞、部首、詞性等多粒度語義特征對中文文本進(jìn)行全面建模,充分挖掘蘊(yùn)含其中的潛在語義信息和情感信息,以期進(jìn)一步提高中文情感分析性能.

        本文整體研究框架如圖1 所示,由數(shù)據(jù)輸入層、向量表示層、特征提取層和結(jié)果輸出層等4 部分組成: 數(shù)據(jù)輸入層將中文文本轉(zhuǎn)換為字、字級部首、詞、詞級部首以及詞性文本等5 類輸入數(shù)據(jù);向量表示層利用向量表示模型對輸入數(shù)據(jù)進(jìn)行向量化表示,得到特征向量;特征提取層利用雙向長短期記憶網(wǎng)絡(luò)、注意力機(jī)制、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)等模型,從5 類特征向量中提取深層次語義特征;結(jié)果輸出層對特征提取層得到的語義特征進(jìn)行融合,通過全連接層和分類函數(shù),得到情感識別結(jié)果.

        圖1 研究框架Fig.1 Research framework

        2.1 數(shù)據(jù)輸入層

        數(shù)據(jù)輸入層的主要作用是對中文文本進(jìn)行預(yù)處理并生成輸入數(shù)據(jù).中文文本的特點(diǎn)是: 首先,字與詞都能表達(dá)文本語義;其次,部首是漢字的固有屬性,也是語義信息的重要載體;最后,詞性因其包含情感信息,故在情感分析中發(fā)揮重要作用.基于上述分析,本文將中文文本轉(zhuǎn)換為字、字級部首、詞、詞級部首和詞性文本等五類輸入數(shù)據(jù).為了便于理解,本文以“比預(yù)想的好很多”文本為例,給出如圖2 所示的文本轉(zhuǎn)換過程.

        圖2 文本轉(zhuǎn)換過程實(shí)例Fig.2 Example of text transformation process

        在圖2 中,對于輸入文本T,它有n個(gè)字組成,即Tc={c1,c2,···,cn},其中Tc表示字級文本,ci(i1,2,···,n)表示組成輸入文本T的字;利用jieba 分詞工具將輸入文本T切分為m個(gè)詞,即Tw={w1,w2,···,wm},其中Tw表示詞級文本,wi(i1,2,···,m)表示組成輸入文本T的詞;根據(jù)新華字典的部首映射關(guān)系,分別得到字級文本Tc和詞級文本Tw的字級部首文本Trc和詞級部首文本Trw,即Trc={cr,1,cr,2,···,cr,n},其中cr,i(i1,2,···,n)表示字級部首,Trw={wr,1,wr,2,···,wr,n},其中wr,i(i1,2,···,n)表示詞級部首;利用jieba 詞性分析工具將詞級文本Tw轉(zhuǎn)換為詞性文本Tpos,即Tpos={pos1,pos2,···,posm},其中posi(i1,2,···,m)表示詞對應(yīng)的詞性.標(biāo)識符號與詞性的對應(yīng)關(guān)系如表1 所示.由上述分析可知,字級文本Tc與字級部首文本Trc規(guī)模相當(dāng),詞級文本Tw、詞級部首文本Trw、詞性文本Tpos規(guī)模相當(dāng),即|Tc|=|Trc|,|Tw| =|Trw| =|Tpos|. 這里|·|表示文本規(guī)模.

        表1 標(biāo)識符號與詞性的對應(yīng)關(guān)系表Tab.1 Relationship between the identifiers and part-of-speech of words

        2.2 向量表示層

        向量表示層利用Word2Vec 詞嵌入方法,對5 類輸入數(shù)據(jù){Tc,Trc,Tw,Trw,Tpos}進(jìn)行訓(xùn)練,得到相應(yīng)的向量化表示:Ec={ec,1,ec,2,· ··,ec,n}表示字向量集合,其中ec,i(i1,2,···,n)表示字向量;Erc={erc,1,erc,2,· ··,erc,n}表示字級部首向量集合,其中erc,i(i1,2,···,n)表示字級部首向量;Ew={ew,1,ew,2,· ··,ew,m}表示詞向量集合,其中ew,j(j1,2,···,m)表示詞向量;Erw={erw,1,erw,2,···,erw,m}表示詞級部首向量集合,其中erw,j(j1,2,···,m)表示詞級部首向量;Epos={epos,1,epos,2,···,epos,m}表示詞性向量集合,其中epos,j(j1,2,···,m)表示詞性向量.

        具體而言,上述輸入數(shù)據(jù)向量化表示均利用Word2Vec 系列方法中的Skip-gram 模型和層次化softmax 策略來實(shí)現(xiàn).這里以詞向量為例介紹Skip-gram 模型的工作原理.Skip-gram 模型通過中心詞來預(yù)測上下文背景詞的概率.具體而言,該模型將每個(gè)詞語都表示為中心詞的詞向量和背景詞的詞向量,以此來計(jì)算中心詞和待預(yù)測背景詞之間的條件概率.相應(yīng)計(jì)算公式為

        式(1)中:wc表示中心詞;wo表示背景詞;vc表示中心詞的詞向量;vo表示背景詞的詞向量;N表示詞典大小;i表示單詞在詞典中的索引.

        2.3 特征提取層

        特征提取層利用BLSTM 模型、注意力機(jī)制、RCNN 模型對5 類特征向量進(jìn)行深層次語義提取.基本思路: 利用BLSTM 模型與注意力機(jī)制,將部首向量分別與字向量、詞向量進(jìn)行特征融合,得到字與字級部首的融合特征以及詞與詞級部首的融合特征;利用RCNN 模型對詞性向量進(jìn)行特征提取,得到詞性特征.工作原理及工作流程如下.

        (1)字、詞、部首是中文文本的固有屬性,不會隨具體下游任務(wù)的改變而改變,具有鮮明的序列化特征.BLSTM 模型具有串聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu),非常適合處理序列化數(shù)據(jù).因此,本文選用BLSTM 模型處理字特征、詞特征和部首特征.BLSTM 模型通過拼接具有正向和反向的LSTM 模型的特征向量,實(shí)現(xiàn)了上下文語義特征的有效利用.LSTM 模型工作原理對應(yīng)的公式為

        式(2)中:xt為時(shí)刻t的輸入向量;it、ft、ot分別表示當(dāng)前時(shí)刻的輸入門、遺忘門和輸出門;Wi、Wf、Wo分別表示輸入門、遺忘門和輸出門的權(quán)重矩陣;bi、bf、bo分別表示輸入門、遺忘門和輸出門的偏置向量;ct表示當(dāng)前時(shí)刻的記憶單元;t-1 表示當(dāng)前時(shí)刻t的后一時(shí)刻;Wc、bc分別表示當(dāng)前信息的權(quán)重矩陣和偏置向量;sigmoid(·)和tanh(·)為激活函數(shù);ht為當(dāng)前時(shí)刻的輸出向量;⊙為哈達(dá)瑪積;×表示矩陣乘法.

        BLSTM 模型工作原理對應(yīng)的公式為

        式(3)中:xt為t時(shí)刻的輸入向量;分別表示正向和反向LSTM 模型得到的特征向量;yt為當(dāng)前時(shí)刻tBLSTM 模型得到的特征向量;t+1 表示當(dāng)前時(shí)刻t的前一時(shí)刻.

        具體工作流程: 首先,將BLSTM 模型的初始狀態(tài)置為0;然后,將字向量集合Ec和詞向量集合Ew分別輸入BLSTM 模型,得到字特征向量集合yc、詞特征向量集合yw,以及BLSTM 模型存放的狀態(tài)值和yc={yc,1,,yc,2,· ··,yc,n},其中yc,i(i1,2,···,n)表示字特征向量;yw={yw,1,yw,2,···,yw,m},其中yw,j(j1,2,···,m)表示詞特征向量.工作流程對應(yīng)的公式為

        (2)注意力機(jī)制能夠?qū)ξ谋镜哪承╆P(guān)鍵特征賦予較高權(quán)重,以降低冗余信息的干擾并提高關(guān)鍵特征對情感分析結(jié)果的貢獻(xiàn)度.文本的情感極性通常由某些關(guān)鍵詞或短語決定.注意力機(jī)制通過學(xué)習(xí)文本上下文語義,自動(dòng)感知有助于判別情感傾向的關(guān)鍵特征,并基于此融合不同特征.在實(shí)現(xiàn)方面,注意力機(jī)制通過點(diǎn)積方式實(shí)現(xiàn)字特征向量集合yc、字級部首向量集合Erc,以及詞特征向量集合yw、詞級部首向量集合Erw的融合,進(jìn)而得到融合后的字級向量(i1,2,···,n),以及融合后的詞級向量(j1,2,···,m).具體實(shí)現(xiàn)對應(yīng)的公式是

        其中AAtt表示注意力機(jī)制.

        (3)將字級向量erc,i(i1,2,···,n)與詞級向量erw,j(j1,2,···,m)作為輸入向量,分別輸入初始化的BLSTM 模型,并將之前BLSTM 模型存放的狀態(tài)值、傳遞給當(dāng)前BLSTM 模型作為初始狀態(tài),得到輸出字–部首特征向量集合yrc以及詞–部首特征向量集合yrw,且yrc={yrc,1,,yrc,2,···,yrc,n},其中yrc,i(i1,2,···,n)表示字–部首特征向量;yrw={yrw,1,yrw,2,· ··,yrw,m},其中yrw,j(j1,2,···,m)表示詞–部首特征向量.其工作流程相應(yīng)公式為

        (4)利用基于多層感知機(jī)方式實(shí)現(xiàn)的注意力機(jī)制分別對yrc和yrw進(jìn)行特征融合,得到輸出向量Vc和Vw.計(jì)算過程是

        式(7)中:α表示注意力機(jī)制;M表示經(jīng)過多層感知機(jī)后的權(quán)重矩陣;W和b分別為待訓(xùn)練的權(quán)重矩陣和偏置向量;tanh 為激活函數(shù);uc和uw為隨機(jī)初始化的上下文向量.

        (5)詞語的詞性包含了豐富的情感傾向,是情感分析任務(wù)關(guān)注的重要特征之一.文本情感分析需要模型具備兩大能力: 一是能夠較好地提取文本的序列特征,二是能夠準(zhǔn)確地提取文本中的動(dòng)詞、形容詞等詞性特征.BLSTM 模型只能提取文本的序列特征,無法提取詞性特征.因此,該模型無法用于詞性特征提取.RCNN 模型能夠利用RNN 模型中的串行結(jié)構(gòu)學(xué)習(xí)文本的上下文依賴關(guān)系,也能夠利用CNN 模型中的池化結(jié)構(gòu)保留并捕捉關(guān)鍵詞的詞性特征.因此,本文選用該模型提取詞性特征.具體而言,首先,將詞性向量集合Epos輸入BLSTM 模型,得到詞性特征向量集合Ypos,其中Ypos{ypos,1,ypos,2,···,ypos,m};然后,利用拼接方式融合詞性向量集合Epos與詞性特征向量集合Ypos,通過最大池化(max-pooling)操作得到最終的輸出向量Vpos. 其工作流程相應(yīng)公式是

        2.4 結(jié)果輸出層

        結(jié)果輸出層負(fù)責(zé)生成情感識別結(jié)果.具體流程: 首先,對輸出向量Vc、Vw、Vpos進(jìn)行特征融合,得到融合后的特征向量Vy;然后,將融合后的特征向量Vy輸入全連接(fully connected,FC)神經(jīng)網(wǎng)絡(luò),得到Oy;接著,利用softmax 函數(shù)進(jìn)行歸一化處理,得到概率輸出P;最后,選擇概率最大的值作為情感識別結(jié)果y.其工作流程相應(yīng)公式是

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)所用的數(shù)據(jù)集

        實(shí)驗(yàn)采用的數(shù)據(jù)集是NLPCC(natural language processing and Chinese computing)數(shù)據(jù)集[14],該數(shù)據(jù)集共有44 875 個(gè)樣本,其情感標(biāo)簽有喜好、悲傷、厭惡、憤怒、高興和其他等6 種.該數(shù)據(jù)集的清洗及預(yù)處理流程如下.

        (1)文本過濾.研究對象是中文文本,故需去掉非中文數(shù)據(jù).

        (2)數(shù)據(jù)清洗.去除數(shù)據(jù)集中非文本數(shù)據(jù)類型,如控制符、表情符號、HTML(hyper text markup language)標(biāo)簽、URL(uniform resource locator)等.

        (3)對數(shù)字和英文字母歸一化處理.將全角字符全部轉(zhuǎn)換為半角字符.

        (4)對標(biāo)點(diǎn)符號歸一化處理.將數(shù)據(jù)集中的標(biāo)點(diǎn)符號統(tǒng)一轉(zhuǎn)化為中文標(biāo)點(diǎn)符號.

        (5)大小寫轉(zhuǎn)換.將數(shù)據(jù)集中的大寫字母轉(zhuǎn)化為小寫字母.

        (6)繁簡轉(zhuǎn)換.利用Python 工具包OpenCC 將數(shù)據(jù)集中的繁體字轉(zhuǎn)換為簡體字.

        (7)人工合并數(shù)據(jù)集中多余的空格.

        實(shí)驗(yàn)中將NLPCC 數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集,其比例為6∶2∶2.

        3.2 實(shí)驗(yàn)設(shè)置

        (1)實(shí)驗(yàn)環(huán)境: 操作系統(tǒng)為Window10;內(nèi)存大小為16 GB;編程語言采用Python3.7.0;深度學(xué)習(xí)框架采用PyTorch1.7.1;訓(xùn)練優(yōu)化器為Adam;詞向量工具采用Gensim4.1.2;GPU 為NVIDIA GeForce GTX 1660Ti.

        (2)參數(shù)設(shè)置如表2 所示.其中,epoch 為迭代次數(shù),表示訓(xùn)練時(shí)需要遍歷多少次訓(xùn)練集;batch_size為批處理數(shù)量,表示每次訓(xùn)練輸入模型的樣本數(shù)量;learning_rate 表示模型的學(xué)習(xí)率;dropout 表示丟棄率,用來避免“過擬合”,以提升模型的泛化能力;hidden_dim 表示隱藏層的神經(jīng)元數(shù)目.

        表2 實(shí)驗(yàn)參數(shù)Tab.2 Experimental parameters

        3.3 評價(jià)指標(biāo)

        采用精確率(precision,P)、召回率(recall,R)、調(diào)和平均值(F1-score,F1)來衡量情感識別效果,其計(jì)算分別公式為

        式(10)中:NTP表示被正確分類的正例樣本(真正例(true positive,TP))的數(shù)量;NFP表示被錯(cuò)誤分類的正例樣本(假正例(false positive,FP))的數(shù)量,NFN表示給錯(cuò)誤分類的負(fù)例樣本(假負(fù)例(false negative,FN))的數(shù)量;P表示模型預(yù)測正確的正例樣本占預(yù)測為正例的樣本的比例,R表示模型預(yù)測正確的正例樣本中占實(shí)際為正例的樣本的比例.

        3.4 實(shí)驗(yàn)結(jié)果與分析

        3.4.1 實(shí)驗(yàn)?zāi)P?/p>

        為了驗(yàn)證本文所提方法的有效性,引入多個(gè)主流模型進(jìn)行對比實(shí)驗(yàn).對比模型如下.

        (1)FastText[15]對文本的詞向量進(jìn)行平均池化,實(shí)現(xiàn)文本的向量化表示,并基于此進(jìn)行情感識別.

        (2)BLSTM[16]是雙向LSTM,為RNN 的變種,利用BLSTM(Ec)和BLSTM(Ew)分別對字文本和詞文本進(jìn)行情感識別,即同時(shí)將字向量集合Ec和詞向量集合Ew作為輸入.

        (3)CNN[4]通過卷積層對詞向量進(jìn)行卷積運(yùn)算,進(jìn)而得到特征向量,并基于此進(jìn)行情感識別.

        借鑒文獻(xiàn)[17]提出的多通道雙向長短期記憶網(wǎng)絡(luò),結(jié)合本文研究對象,本文提出了Two BLSTMs 和Four BLSTMs,分別對字、詞文本以及字文本、字級部首文本、詞文本、詞級部首文本建模.

        (4)Two BLSTMs 使用2 個(gè)BLSTM 分別對字文本和詞文本進(jìn)行建模,將二者的輸出向量進(jìn)行拼接并進(jìn)行情感識別.

        (5)Four BLSTMs 使用4 個(gè)BLSTM 分別對字文本、字級部首文本、詞文本、詞級部首文本進(jìn)行建模,將4 個(gè)通道經(jīng)BLSTM 的輸出向量進(jìn)行拼接并進(jìn)行情感識別.

        (6)BLSTM_Att[18]使用雙向LSTM,并引入注意力機(jī)制賦予特征不同的關(guān)注度.利用BLSTM_Att(Ec)和BLSTM_Att(Ew)模型分別對字文本和詞文本進(jìn)行情感識別,即同時(shí)將字向量集合Ec和詞向量集合Ew作為輸入.

        借鑒文獻(xiàn)[17]提出的多通道雙向長短期記憶網(wǎng)絡(luò)以及文獻(xiàn)[18]提出的BLSTM_Att 模型,結(jié)合本文研究對象,本文提出了Two BLSTM_Atts 和Four BLSTM_Atts,分別對字、詞文本以及字文本、字級部首文本、詞文本、詞級部首文本建模.

        (7)Two BLSTM_Atts 使用2 個(gè)BLSTM-Att 分別對字文本和詞文本進(jìn)行建模,將二者的輸出向量進(jìn)行拼接并進(jìn)行情感識別.

        (8)Four BLSTM_Atts 使用4 個(gè)BLSTM-Att 分別對字文本、字級部首文本、詞文本、詞級部首文本進(jìn)行建模,然后將4 個(gè)通道上的BLSTM-Att 的輸出向量進(jìn)行拼接并進(jìn)行情感識別.

        (9)Cross BLSTM_Atts 在本文所提方法的基礎(chǔ)上去除詞性特征.

        (10)BERT-BLSTM[1]利用BERT 模型構(gòu)造字向量,然后利用BLSTM 進(jìn)行特征提取,進(jìn)而實(shí)現(xiàn)情感識別.

        (11)RCNN-BLSTM_Atts 為本文所提方法.

        3.4.2 結(jié)果與分析

        各模型在數(shù)據(jù)集NLPCC 上的實(shí)驗(yàn)結(jié)果如表3 所示.

        表3 實(shí)驗(yàn)結(jié)果Tab.3 Experimental results

        由表3 值可以看出,FastText 的F1值最低,僅為70.15%,其主要原因是該模型對詞向量進(jìn)行平均池化造成了語義丟失.BLSTM(Ec)、BLSTM(Ew)、Two BLSTMs、Four BLSTMs 的F1值分別為75.16%、79.35%、80.80%和81.19%,而BLSTM_Att(Ec)、BLSTM_Att(Ew)、Two BLSTM_Atts、Four BLSTM_Atts 的F1值分別是77.39%、80.62%、81.03%和81.23%,即引入注意力機(jī)制的模型,F1值分別提升了2.23%、1.27%、0.23%和0.04%.這表明注意力機(jī)制對于中文情感分析具有重要作用.

        BLSTM(Ew)模型的F1值為79.35%,CNN 模型的F1值為79.80%,CNN 模型的F1值與BLSTM(Ew)基本相當(dāng),僅提高了0.45%.分析發(fā)現(xiàn),這兩類模型均是利用詞特征的單通道模型,區(qū)別在于CNN 模型的池化結(jié)構(gòu)能夠捕捉到豐富的文本語義特征,BLSTM 模型的串行結(jié)構(gòu)能夠?qū)W習(xí)到上下文的長期依賴關(guān)系.

        Two BLSTMs 和Two BLSTM_Atts 同時(shí)利用字特征和詞特征的雙通道模型,相較于只利用字或詞向量的單一模型BLSTM(Ec)、BLSTM(Ew)、BLSTM_Att(Ec)、BLSTM_Att(Ew),其F1值均有一定提升.其中,Two BLSTM_Atts 的F1值相較于BLSTM(Ec)提高了5.87%.這表明同時(shí)利用字、詞特征,有助于提高中文情感分析性能.

        Four BLSTMs 和Four BLSTM_Atts 的F1值相較于Two BLSTMs 和Two BLSTM_Atts 均有一定提升,表明部首特征對于中文情感分析具有一定作用.

        此外,Cross BLSTM_Att 的F1值相較于Four BLSTM_Atts 提高了1.52%,相較于Four BLSTMs 提高了1.56%.對比這3 類模型可以發(fā)現(xiàn),Four BLSTMs 和Four BLSTM_Atts 模型只將特征向量通過簡單拼接進(jìn)行特征融合,在特征提取過程中,字、詞與部首特征均未進(jìn)行任何信息交互;反觀Cross BLSTM_Atts 模型,其通過BLSTM 模型提取字、詞特征,并利用點(diǎn)積注意力機(jī)制與字級部首向量和詞級部首向量進(jìn)行信息交互與融合,使得融合后的特征向量能從字、詞、部首的深層次語義特征中感知情感傾向.

        BERT-BLSTM 的F1值為83.14%,識別效果優(yōu)于Cross BLSTM_Atts 模型,其主要原因是:BERT 模型可以動(dòng)態(tài)地表示文本向量,并能根據(jù)情感分析任務(wù)對其語義表征能力進(jìn)行微調(diào),生成更為準(zhǔn)確的語義特征,因此其情感識別性能更優(yōu).

        本文所提模型的F1值達(dá)到了84.80%,超過了所有的對比模型: 相較于Cross BLSTM_Att 提升了2.05%;相較于BERT-BLSTM 提升了1.66%.這表明,詞性特征對于情感分析至關(guān)重要.RCNN 模型既能對詞性文本序列進(jìn)行雙向建模,又能通過池化操作從詞性文本篩選出對情感表達(dá)具有顯著作用的詞性特征.通過與字–部首特征、詞–部首特征進(jìn)行特征融合,可得到更優(yōu)的情感分析結(jié)果.

        4 結(jié) 論

        本研究基于中文文本的特殊性以及情感分析的實(shí)際需求,充分利用部首特征和情感詞性特征,深度融合BLSTM 模型、注意力機(jī)制、RCNN 模型,提出了一種融合字、詞、部首、詞性等多粒度特征的中文文本情感分析方法,并在數(shù)據(jù)集NLPCC 上進(jìn)行了對比實(shí)驗(yàn).結(jié)果表明,本文方法的F1值較之其他模型均有一定的提升.本文研究尚存在一些不足,例如,未對中文文本的情感進(jìn)行更細(xì)粒度的分析,沒有探究計(jì)算效率提升路徑與策略等.此外,如何更好地捕捉不同粒度特征之間的關(guān)聯(lián)和交互也是未來研究的重點(diǎn).

        猜你喜歡
        部首特征向量語義
        部首歌
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        弄清偏旁與部首
        語言與語義
        補(bǔ)
        一類特殊矩陣特征向量的求法
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        久久精品国产亚洲vr| 欧美a级在线现免费观看| 中文字幕日本人妻久久久免费 | 国产精品一区二区久久| 国产伦码精品一区二区| 日本韩国三级在线观看| 欧美成人午夜免费影院手机在线看 | 狠狠干视频网站| 亚洲人妻精品一区二区三区| 曰批免费视频播放免费| 人妻av乱片av出轨| 亚洲欧洲久久久精品| 视频一区中文字幕在线观看| 加勒比色老久久爱综合网| 亚洲av国产精品色午夜洪2| 日韩一区二区超清视频| 少妇呻吟一区二区三区| а天堂中文在线官网在线| 98久9在线 | 免费| 免费无遮挡毛片中文字幕| 视频国产自拍在线观看| 色欲人妻综合aaaaa网| 精品久久综合亚洲伊人| 99熟妇人妻精品一区五一看片| 真实夫妻露脸爱视频九色网| 成人免费一区二区三区| 亚洲最大无码AV网站观看| 人妻少妇中文字幕专区| 一本久道久久综合狠狠操| 日韩精品人妻系列中文字幕| 精品无码久久久久久国产| 亚洲AV毛片无码成人区httP| 亚洲中字永久一区二区三区| 丰满人妻被两个按摩师| 国产熟妇搡bbbb搡bbbb搡| 国产一区二区在线观看我不卡| 国产精品国产三级国产av18| 国产精品制服| 免费观看久久精品日本视频| 国产内射一级一片高清内射视频| 丰满少妇高潮惨叫久久久一|