亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BiLSTM+Self-Attention的多性格微博情感分類(lèi)

        2022-01-24 08:36:30馮媛媛劉克劍李偉豪
        關(guān)鍵詞:分類(lèi)特征文本

        馮媛媛,劉克劍,李偉豪

        (西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院,四川 成都 610039)

        近年來(lái),微博已成為最受歡迎的社交網(wǎng)絡(luò)平臺(tái)之一。人們可以通過(guò)微博隨時(shí)、隨地分享和交流信息,表達(dá)情感和發(fā)表觀點(diǎn),實(shí)現(xiàn)信息的即時(shí)分享、傳播互動(dòng)。截至2020 年10 月,微博月活躍用戶(hù)已達(dá)5.23 億。微博所攜帶的大量信息流尤其是公眾情感,對(duì)輿論起著重要作用。

        情感分類(lèi)是情感分析的研究主題之一,根據(jù)情感極性對(duì)文本進(jìn)行分類(lèi)。一般地,情感極性分為3 類(lèi):積極、中性和消極。現(xiàn)有的情感分類(lèi)技術(shù)主要分為:基于情感詞典的分類(lèi)方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的分類(lèi)方法和基于深度學(xué)習(xí)的分類(lèi)方法?;谠~典的方法主要利用情感詞典和語(yǔ)言規(guī)則進(jìn)行情感分類(lèi)。Turney 等[1]計(jì)算評(píng)論中的情感極性均值,并將其作為評(píng)論整體的情感極性。同時(shí),有研究[2-4]表明,否定詞、程度副詞等對(duì)于判斷整個(gè)句子的情感極性有相當(dāng)大的影響。王銀等[5]在大連理工大學(xué)的情感詞匯本體庫(kù)基礎(chǔ)上,構(gòu)建了程度副詞詞典、否定詞詞典、網(wǎng)絡(luò)用語(yǔ)詞典、表情符號(hào)詞典以及關(guān)系連詞詞典5 個(gè)詞典,通過(guò)權(quán)值計(jì)算微博文本情感值。張公讓等[6]通過(guò)建立程度副詞詞典、否定詞詞典和情感詞典,對(duì)各家快遞服務(wù)的客戶(hù)評(píng)價(jià)實(shí)現(xiàn)了情感預(yù)測(cè)。雖然基于詞典的方法可以獲得很好的分類(lèi)效果,但是該方法嚴(yán)重依賴(lài)于情感詞典,靈活性和適應(yīng)較差。

        基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法通常是從語(yǔ)料庫(kù)中提取有效的文本特征,實(shí)現(xiàn)情感分類(lèi)。Zhang 等[7]將條件隨機(jī)場(chǎng)(CRF)運(yùn)用到文章句子的語(yǔ)境分析中,通過(guò)分析句子的語(yǔ)境,有效提取情感特征,實(shí)現(xiàn)情感分類(lèi)。Gao 等[8]調(diào)查了用戶(hù)容忍度和商品知名度對(duì)情感分類(lèi)的影響,提出了一種近似解碼算法(approached decoding algorithm)對(duì)商品評(píng)論進(jìn)行情感分類(lèi)。馮成剛等[9]比較了常用的3 種機(jī)器學(xué)習(xí)算法(SVM、NB 和K最鄰近算法)、3 種特征選擇方法(信息增益、互信息、加權(quán)似然對(duì)數(shù))以及特征權(quán)重方法(布爾權(quán)重、詞頻權(quán)重,詞頻-逆詞頻)對(duì)中文微博情感分類(lèi)的影響。Haque 等[10]利用線性SVM、梯度下降和隨機(jī)森林等機(jī)器學(xué)習(xí)方法對(duì)亞馬遜3 個(gè)種類(lèi)的商品評(píng)論進(jìn)行情感分類(lèi),其中SVM 在音樂(lè)領(lǐng)域的分類(lèi)效果最好?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的情感分析方法分類(lèi)效果趨于更準(zhǔn)確,但它依賴(lài)于帶有標(biāo)記的語(yǔ)料庫(kù)的質(zhì)量。

        基于深度學(xué)習(xí)的方法主要是利用詞向量對(duì)文本中的詞語(yǔ)進(jìn)行表示,進(jìn)而構(gòu)建句子級(jí)或篇章級(jí)的語(yǔ)義表示,通過(guò)采用深度學(xué)習(xí)模型學(xué)習(xí)文本中的情感特征,實(shí)現(xiàn)情感分類(lèi)。目前大多數(shù)情感分類(lèi)主要采用基于深度學(xué)習(xí)的方法。胡榮磊等[11]將長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)與注意力機(jī)制結(jié)合,對(duì)酒店評(píng)論文本進(jìn)行了情感分析。Xu 等[12]在LSTM的基礎(chǔ)之上,引入了一種緩存機(jī)制來(lái)幫助循環(huán)單元更有效地保存情感信息。貴向泉等[13]提出將時(shí)序卷積網(wǎng)絡(luò)(TCN)與BiLSTM+Attention 模型相融合的文本情感分類(lèi)方法,利用TCN的因果卷積和擴(kuò)張卷積結(jié)構(gòu)獲取更高層次的文本序列特征,并通過(guò)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)一步提取全局特征,最后,引入自注意力機(jī)制(self-attention)幫助模型優(yōu)化特征向量,提高情感分類(lèi)的準(zhǔn)確度。

        由于微博有字?jǐn)?shù)限制,文本偏口語(yǔ)化、生活化,使用網(wǎng)絡(luò)流行語(yǔ)和表情符,因此,對(duì)于實(shí)現(xiàn)微博文本情感分類(lèi)來(lái)說(shuō)是一個(gè)挑戰(zhàn)。學(xué)者們提出了一些方法來(lái)提高情感分類(lèi)的準(zhǔn)確率。金志剛等[14]結(jié)合表情符和文本情感特征,通過(guò)CNN 捕獲局部特征,并將其作為情感分類(lèi)器的輸入,訓(xùn)練出微博情感分類(lèi)器。李勇敢等[15]從中文微博觀點(diǎn)句識(shí)別、情感傾向性分類(lèi)和情感要素抽取3 個(gè)方面實(shí)現(xiàn)了中文微博情感自動(dòng)分析。針對(duì)現(xiàn)有大多數(shù)微博文本情感分析未結(jié)合深度學(xué)習(xí)模型和情感符號(hào)的情況,張仰森等[16]提出了一種雙重注意力模型的方法,構(gòu)建了一個(gè)包含情感詞、否定詞、程度副詞、網(wǎng)絡(luò)詞和微博表情符的微博情感符號(hào)庫(kù),通過(guò)將注意力模型和情感符號(hào)相結(jié)合,有效增強(qiáng)了捕獲微博情感語(yǔ)義的能力。Barbosa 等[17]在普通文本特征的基礎(chǔ)上,提取了微博文本特有的一些特征,包括轉(zhuǎn)發(fā)、回復(fù)、hash-tag、URL、標(biāo)點(diǎn)符號(hào)、表情符號(hào)以及以大寫(xiě)字母開(kāi)頭的單詞數(shù)目等,采用有監(jiān)督的方法實(shí)現(xiàn)Twitter 文本的情感分類(lèi)。

        值得注意的是,目前大多數(shù)情感分類(lèi)研究忽略了用戶(hù)性格這一因素。心理學(xué)研究表明,性格會(huì)影響人們的表達(dá)方式。不同性格的人在表達(dá)情感時(shí),表達(dá)方式會(huì)有所不同[18]。心理學(xué)領(lǐng)域的“大五”理論,定 義 了5 種 人 格 特 征,分 別 是 開(kāi) 放 性(openness)、責(zé)任性(conscientiousness)、外向性(extroversion)、宜 人 性(agreeableness)、神 經(jīng) 質(zhì)(neuroticism)。外向型人格的人在表達(dá)時(shí)使用的詞語(yǔ)通常與社交活動(dòng)、家人相關(guān)。擁有高宜人人格的人更具有同情心、樂(lè)于助人,與人相處融洽。責(zé)任型人格的人通常比較可靠,有責(zé)任心,自律。劉亦真[19]基于微博平臺(tái),分析研究了不同人格傾向的微博用戶(hù)在情緒表達(dá)上的特點(diǎn)。Verhoeven 等[20]在短文數(shù)據(jù)集上訓(xùn)練性格分類(lèi)模型,將其輸出作為元特征來(lái)預(yù)測(cè)Facebook 用戶(hù)的性格特征。張巖峰等[21]利用微博用戶(hù)的文本及行為等特征,使用提升決策樹(shù)、支持向量機(jī)以及貝葉斯邏輯遞歸3 種機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)驗(yàn),得出通過(guò)微博的文本特征和非文本特征都能分析出用戶(hù)人格特質(zhì)的結(jié)論。

        在以上情感分類(lèi)研究中,大多數(shù)在提取文本情感特征時(shí),并沒(méi)有考慮到用戶(hù)性格特征,但也有研究者結(jié)合了用戶(hù)性格特征。袁婷婷[22]通過(guò)建立性格詞典并利用LTSM 模型對(duì)不同性格的文本進(jìn)行情感預(yù)測(cè),但忽略了上下文語(yǔ)境信息也會(huì)影響情感分析。賈莉等[23]在結(jié)合用戶(hù)性格信息的基礎(chǔ)上利用BiLSTM 模型,在微博文本情感預(yù)測(cè)上雖然有所提升,但未充分利用到文本的局部信息。吳小華等[24]提出了BiLSTM 結(jié)合自注意力機(jī)制的模型來(lái)進(jìn)行情感預(yù)測(cè),但沒(méi)有考慮到性格對(duì)語(yǔ)句表達(dá)有所影響這一因素。為此,本文在結(jié)合用戶(hù)性格信息的基礎(chǔ)上,提出了一種利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和自注意力機(jī)制來(lái)實(shí)現(xiàn)微博情感分類(lèi)的方法。該方法通過(guò)提取不同性格的用戶(hù)情感特征,分別訓(xùn)練出各自的基本分類(lèi)器,再采用集成學(xué)習(xí)策略進(jìn)行結(jié)果融合,進(jìn)而實(shí)現(xiàn)情感分類(lèi)。

        1 相關(guān)研究工作

        1.1 大五人格模型

        大五人格模型是研究者運(yùn)用最廣的一種模型。大五人格模型將人格劃分為5 個(gè)維度:開(kāi)放型、外向型、宜人型、責(zé)任型和神經(jīng)質(zhì)型。表1 列出了不同人格的主要表現(xiàn)。

        表1 大五人格特征

        在對(duì)微博文本進(jìn)行情感分析時(shí),筆者發(fā)現(xiàn)不同性格有不同的表達(dá)特點(diǎn),例如:高外向型人格在表達(dá)時(shí)通常使用“聚會(huì)”“團(tuán)隊(duì)”“老鐵們”等與家人、朋友以及社交相關(guān)的詞語(yǔ);低外向型人格則會(huì)使用“宅”“安靜”等詞語(yǔ)。為了能夠增強(qiáng)這些詞語(yǔ)對(duì)情感表達(dá)的貢獻(xiàn)率,更好地提取不同性格的深層次情感特征,本文在BiLSTM的基礎(chǔ)上采用了自注意力機(jī)制對(duì)微博中詞語(yǔ)的重要程度進(jìn)行權(quán)重分配。

        為了有效提取不同性格的情感特征,需要對(duì)微博用戶(hù)的性格進(jìn)行預(yù)測(cè)和分類(lèi),因此,本文提出了一種基于規(guī)則的性格分類(lèi)方法來(lái)對(duì)微博用戶(hù)的性格進(jìn)行預(yù)測(cè)和分類(lèi),根據(jù)性格分類(lèi)結(jié)果,將微博文本進(jìn)行分組,并分別提取不同性格分組的文本情感特征。該方法能夠充分利用用戶(hù)性格信息有效提取情感特征。

        1.2 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的延伸。然而,標(biāo)準(zhǔn)的RNN 卻有梯度消失和梯度爆炸問(wèn)題。為了解決這2 個(gè)問(wèn)題,Hochreiter 等[25]提出了長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),但是,LSTM 只能獲取正向的信息,無(wú)法獲取逆向的信息。對(duì)于文本來(lái)說(shuō),理解前后文信息對(duì)其更加有幫助。BiLSTM 由一個(gè)正向的LSTM 和一個(gè)逆向的LTSM 所組成,能夠同時(shí)獲取上下文信息[26]。BiLSTM 結(jié)構(gòu)圖如圖1 所示。

        圖1 BiLSTM 模型結(jié)構(gòu)

        1.3 自注意力機(jī)制(self-attention)

        自注意力機(jī)制[27],就是將注意力集中在需要重點(diǎn)關(guān)注的目標(biāo)上,分配更多的權(quán)重,獲取目標(biāo)的更多細(xì)節(jié)信息,忽略不重要的信息。自注意力機(jī)制是對(duì)自己本身的詞語(yǔ)進(jìn)行Attention 計(jì)算,不用考慮直接距離長(zhǎng)短,能夠充分考慮句子之間、不同詞語(yǔ)之間的語(yǔ)義及語(yǔ)法聯(lián)系,捕獲句子的內(nèi)部結(jié)構(gòu)。其計(jì)算公式為

        式中:Q,K,V為模型中計(jì)算得到的向量矩陣;f(Q,KT)計(jì)算Q和K的相似度;dk為詞向量維度;起調(diào)節(jié)作用,通過(guò)Softmax 函數(shù)進(jìn)行歸一化。

        2 結(jié)合BiLSTM 和自注意力機(jī)制的微博情感分類(lèi)模型(P-BiLSTM-SA)

        基于性格特征,結(jié)合雙向長(zhǎng)短記憶網(wǎng)絡(luò)和自注意力機(jī)制,本文提出了一種BiLSTM 和自注意力機(jī)制相結(jié)合的微博情感分類(lèi)模型(P-BiLSTM-SA 模型),總體結(jié)構(gòu)如圖2 所示。首先,將用戶(hù)性格相似的文本歸為一類(lèi),因?yàn)橄嗤愿竦娜耍浔磉_(dá)方式具有相似性;接著,對(duì)文本進(jìn)行預(yù)處理并利用word2vec 訓(xùn)練出詞向量,形成詞向量矩陣;然后,將各組詞向量矩陣分別作為BiLSTM的輸入,經(jīng)過(guò)BiLSTM 層輸出后進(jìn)入Self-Attention 層,對(duì)特征進(jìn)行權(quán)重賦值,提取深層次的情感特征,從而訓(xùn)練出5 個(gè)基于不同性格的情感分類(lèi)器和一個(gè)通用情感分類(lèi)器;最后,根據(jù)集成學(xué)習(xí)融合分類(lèi)器預(yù)測(cè)結(jié)果,輸出最終情感分類(lèi)結(jié)果。圖2 中:E、A、C 分別表示外向型、宜人型、責(zé)任型;H 和L 表示性格的高、低特質(zhì),例如HE 為高外向型,LE 為低外向型;All 表示通用文本,即數(shù)據(jù)集中所有微博用戶(hù)的文本。

        圖2 模型總體結(jié)構(gòu)

        2.1 基于微博用戶(hù)性格的文本分組

        本文采取基于規(guī)則的方法來(lái)對(duì)用戶(hù)性格進(jìn)行預(yù)測(cè)。在進(jìn)行性格預(yù)測(cè)時(shí),由于開(kāi)放型和神經(jīng)質(zhì)型較難區(qū)分[28-29],所以本文只考慮了其余3 種人格:外向型、宜人型和責(zé)任型。

        2.1.1 特征表示

        微博用戶(hù)發(fā)表的微博內(nèi)容包括了圖片、視頻、地理位置信息等。同時(shí),用戶(hù)在微博中的交互行為[30]會(huì)在一定程度上反映出該用戶(hù)真實(shí)性格。為此,本文結(jié)合了文本信息和用戶(hù)行為特征綜合預(yù)測(cè)用戶(hù)性格。表2 示出了用戶(hù)微博信息中的具體特征表示。

        表2 特征表示

        2.1.2 性格分類(lèi)

        熵權(quán)法是一種確定多因素綜合評(píng)價(jià)問(wèn)題中各因素權(quán)重系數(shù)的有效方法。本文利用該方法計(jì)算影響性格判定的指標(biāo)權(quán)重,從而計(jì)算出影響性格判定的最終值。具體步驟如下。

        1)將各指標(biāo)進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化值Y,其中Ypc,Yv,Yl,Ym,Yli,Yc,Yre,Yf,分別為指標(biāo)Photo_Comment_Num,Video_Num,Location_Num,Mention_Num,Like_Num,Comment_Num,Retweeted_Num,F(xiàn)ollower_Num的標(biāo)準(zhǔn)化值。

        2)根據(jù)Ej=計(jì)算出各指標(biāo)的信息熵。通過(guò)信息熵計(jì)算出各指標(biāo)的權(quán)重。Ej表示第j個(gè)指標(biāo)的信息熵;pij表示在第j個(gè)指標(biāo)前提下,第i個(gè)用戶(hù)在該指標(biāo)中的概率。其權(quán)重計(jì)算公式為

        式中Wi表示第i個(gè)指標(biāo)的權(quán)重,即Wpc,Wv,Wl,Wm,Wli,Wc,Wre,Wf,分別為指標(biāo)Photo_Comment_Num,Video_Num,Location_Num,Mention_Num,Like_Num,Comment_Num,Retweeted_Num,F(xiàn)ollower_Num的權(quán)重。

        3)計(jì)算影響性格判定的最終值,并根據(jù)表3進(jìn)行性格判定。表中:C(u)、J(u)、Y(u)分別表示微博用戶(hù)u的微博內(nèi)容豐富程度、交互主動(dòng)性以及影響力;k1,k2,k3,k4,k5,k6為判定式的閾值。

        表3 判定規(guī)則

        a.外向型人格。

        外向型人格的人一般喜歡參加各類(lèi)社交活動(dòng),與他人分享自己的經(jīng)歷[17],所以發(fā)表的微博數(shù)量較多,通常帶有圖片、小視頻或者地理位置信息,并且能獲得較多的點(diǎn)贊和評(píng)論。此外,外向型的人與他人的互動(dòng)也較為頻繁。因此,外向型的人往往會(huì)在他們的微博中更多的提及(@)他人,參與互動(dòng);具有內(nèi)向型人格的人發(fā)表較少的微博,獲得的點(diǎn)贊、評(píng)論以及轉(zhuǎn)發(fā)也非常少。微博用戶(hù)u發(fā)表的微博內(nèi)容特征計(jì)算公式為

        b.責(zé)任型人格。

        具有責(zé)任型人格的微博用戶(hù)發(fā)表的微博更傾向于表達(dá)自律、責(zé)任感及條理等內(nèi)容,發(fā)表的微博能夠受到更多的關(guān)注,影響力較大,受到轉(zhuǎn)發(fā)數(shù)、點(diǎn)贊數(shù)以及@數(shù)這3 個(gè)因素影響。微博用戶(hù)u的微博影響力[31]計(jì)算公式為

        c.宜人型人格。

        宜人性型人格的人性格開(kāi)朗,助人為樂(lè)、謙遜、值得信賴(lài),充滿(mǎn)正義感,擁有較多的粉絲,由于比較重視自己的形象,所發(fā)布的微博通常充滿(mǎn)積極性和正能量。被轉(zhuǎn)發(fā)微博的數(shù)量越多,該用戶(hù)的交互主動(dòng)性[30]就越高,同樣的,粉絲數(shù)量對(duì)交互主動(dòng)性也有影響。微博用戶(hù)的交互主動(dòng)性計(jì)算公式為

        各閾值的確定依據(jù)了微博用戶(hù)分別在外向型、責(zé)任型和宜人型3 類(lèi)性格計(jì)算中得到的各類(lèi)性格最終值的平均值和標(biāo)準(zhǔn)差。為了平衡數(shù)據(jù),取標(biāo)準(zhǔn)差的算術(shù)平方根。如果其值高于平均值與算術(shù)平方根之和,則該用戶(hù)為高特質(zhì);如果其值低于平均值與算術(shù)平方根之差,則該用戶(hù)為低特質(zhì)。

        2.2 結(jié)合BiLSTM 和self-attention的情感分類(lèi)器構(gòu)建

        在本文中,基于用戶(hù)性格以及通用文本的情感分類(lèi)器皆是由BiLSTM+self-attention 機(jī)制訓(xùn)練得到,網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

        圖3 基于性格分類(lèi)的情感分類(lèi)器構(gòu)建

        2.2.1 BiLSTM 層

        對(duì)于微博文本,為了更準(zhǔn)確地理解詞的語(yǔ)義信息,需要考慮前后文本聯(lián)系,且詞與詞之間具有長(zhǎng)程相關(guān)性。雖然LSTM 能夠捕獲較長(zhǎng)距離的語(yǔ)義依賴(lài)關(guān)系,但是普通的LSTM 只能捕捉正向的語(yǔ)義信息,忽略了逆向的語(yǔ)義信息。BiLSTM 模型由一個(gè)正向的LSTM 和一個(gè)逆向的LSTM 組成,能夠同時(shí)捕捉句子的前后文信息。因此,本文采用BiLSTM 模型對(duì)微博文本進(jìn)行語(yǔ)義信息編碼。對(duì)于一條微博文本{v1,v2,···,vt}(vt∈Rd,vt為詞向量矩陣,d為詞向量維數(shù)),則BiLSTM 模型輸出為h={h1,h2,···,hN},H∈RN×d,N為句子長(zhǎng)度,d為隱藏層維度。

        2.2.2 self-attention 層

        自注意力機(jī)制通過(guò)對(duì)BiLSTM 每一個(gè)輸出狀態(tài)hi加權(quán),從而得到一個(gè)既聯(lián)系上下文信息又重點(diǎn)突出不同性格情感特征的微博句子表示向量矩陣,為

        式中:C表示句子中每個(gè)詞加權(quán)后的特征表示;?i表示第i個(gè)詞對(duì)于整條微博文本的重要程度,其計(jì)算公式為

        2.2.3 情感分類(lèi)

        模型的最后一層為全連接網(wǎng)絡(luò)層,采用Softmax 函數(shù)作為激活函數(shù),計(jì)算微博文本各個(gè)情感標(biāo)簽的預(yù)測(cè)概率,其計(jì)算公式為

        式中:W=[w1,w2,···,wn]為全連接網(wǎng)絡(luò)層的權(quán)值;b=[b1,b2,···,bn]為偏置數(shù)。

        2.3 情感分類(lèi)器分類(lèi)結(jié)果融合

        圖4 情感分類(lèi)器預(yù)測(cè)結(jié)果融合

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文實(shí)驗(yàn)所用的數(shù)據(jù)來(lái)自于從新浪微博爬取的228 個(gè)微博用戶(hù)數(shù)據(jù),包括用戶(hù)的微博內(nèi)容和作者基本信息。數(shù)據(jù)集中,微博文本共10 萬(wàn)1 649 條。刪除轉(zhuǎn)發(fā)微博,并進(jìn)行清洗過(guò)后,采用半自動(dòng)化的方式對(duì)文本進(jìn)行情感極性的標(biāo)記,其中,積極微博有2 萬(wàn)5 138 條,消極微博有2 萬(wàn)3 783 條。本文按照7∶2∶1的比例將微博文本分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

        同一位微博用戶(hù)可能同時(shí)具有多種性格,因此會(huì)屬于不同的性格集合。根據(jù)所爬取微博用戶(hù)的基本信息,分別計(jì)算微博用戶(hù)在外向型、宜人型和責(zé)任型的相應(yīng)數(shù)值,在此基礎(chǔ)上分別得到3 類(lèi)性格類(lèi)型的均值和標(biāo)準(zhǔn)差,并取標(biāo)準(zhǔn)差的算術(shù)平方根。根據(jù)2.1.2 節(jié)的方法計(jì)算得到:外向型的平均值為152.46,標(biāo)準(zhǔn)差的算數(shù)平方根為16.22;宜人型的平均值為680.01,標(biāo)準(zhǔn)差的算數(shù)平方根為45.27;責(zé)任型的平均值為1284.55,標(biāo)準(zhǔn)差的算數(shù)平方根為80.16。因 此,閾 值k1,k2,k3,k4,k5,k6分 別 為168.69,136.24,725.28,634.74,1 364.71,1 204.39。其中,在爬取的微博數(shù)據(jù)集中,低責(zé)任型性格的微博文本數(shù)量很少,所以在本文中不予考慮?;谖⒉┯脩?hù)性格的各文本分組的數(shù)據(jù)分布詳情如表4所示。

        表4 數(shù)據(jù)集分布

        3.2 模型實(shí)驗(yàn)參數(shù)設(shè)置

        在實(shí)驗(yàn)中,詞向量為200 維,優(yōu)化函數(shù)為Adam,損失函數(shù)為多元交叉熵。各模型具體參數(shù)如表5 和表6 所示。

        表5 P-BiLSTM 和P-LSTM 參數(shù)設(shè)置

        表6 BiLSTM-SA 和P-BiLSTM-SA 參數(shù)設(shè)置

        3.3 實(shí)驗(yàn)指標(biāo)評(píng)價(jià)

        為了驗(yàn)證本文提出模型的有效性,本文采用以下4 個(gè)指標(biāo)進(jìn)行評(píng)價(jià)。

        1)準(zhǔn)確率(accuracy):被模型正確預(yù)測(cè)的微博文本數(shù)量占所有微博文本數(shù)量的比例。

        2)召回率(recall):被正確預(yù)測(cè)為積極(消極)的微博文本數(shù)量占實(shí)際為積極(消極)的微博文本數(shù)量的比例。

        3)精確率(precision):被正確預(yù)測(cè)為積極(消極)的微博文本數(shù)量占所有被預(yù)測(cè)為積極(消極)的微博文本數(shù)量的比例。

        4)F1值(F1score):由精確率和召回率的加權(quán)處理得到。F1值越大,模型效果越好。

        3.4 微博情感分類(lèi)實(shí)驗(yàn)

        3.4.1 模型對(duì)比實(shí)驗(yàn)

        在本文模型中,采用了自注意力機(jī)制來(lái)學(xué)習(xí)不同性格微博用戶(hù)的文本表達(dá)特征。在采用相同數(shù)據(jù)集的基礎(chǔ)上,將本文提出的模型P-BiLSTMSA 與P-LSTM[22]、P-BiLSTM[23]以及未融入性格因素的模型BiLSTM-SA[24]進(jìn)行了對(duì)比。其對(duì)比實(shí)驗(yàn)結(jié)果如表7 所示。

        表7 模型實(shí)驗(yàn)對(duì)比結(jié)果

        1)與BiLSTM-SA 相比,P-BiLSTM-SA的情感分類(lèi)效果更好,說(shuō)明融入性格因素對(duì)于微博情感分類(lèi)具有一定的幫助。

        2)模型BiLSTM-SA 和模型P-BiLSTM,在4 種指標(biāo)上的表現(xiàn)相接近,說(shuō)明在模型訓(xùn)練過(guò)程中,自注意力機(jī)制能獲取到更深層次的情感信息,而且根據(jù)性格對(duì)文本分類(lèi)也有利于模型提取不同性格的特征。2 種方法都對(duì)微博文本的情感分類(lèi)有效。

        3)與P-BiLSTM 相比,P-BiLSTM-SA 在準(zhǔn)確率、精確率、召回率和F1上平均提升了0.017,說(shuō)明利用自注意力機(jī)制關(guān)注文本的局部關(guān)鍵信息對(duì)情感分類(lèi)有一定的幫助。

        總之,對(duì)比其他3 個(gè)模型,本文模型在準(zhǔn)確率、召回率、精確率和F1值上的效果更優(yōu)。說(shuō)明事先根據(jù)用戶(hù)的性格對(duì)微博文本進(jìn)行分類(lèi),使得模型中的自注意力機(jī)制能夠有針對(duì)性地學(xué)習(xí)到不同性格的深層次情感特征,從而有利于提升情感分類(lèi)效果。同時(shí),通過(guò)集成學(xué)習(xí)方法融合各分類(lèi)器輸出,減少了泛化誤差。

        3.4.2 實(shí)例實(shí)驗(yàn)結(jié)果對(duì)比

        性格影響人的表達(dá)方式。為了驗(yàn)證性格對(duì)情感分類(lèi)的有效性,本文選取了另外爬取的11 位微博用戶(hù)的微博文本(約1 400 條),基于P-BiLSTMSA 模型和BiLSTM-SA 模型再次進(jìn)行了測(cè)試,測(cè)試結(jié)果如表8 所示,P-BiLSTM-SA 模型在4 個(gè)評(píng)價(jià)指標(biāo)上的表現(xiàn)明顯優(yōu)于BiLTM-SA,再次證明了本文所提出模型的有效性。為了更加形象地對(duì)比這2 個(gè)模型的預(yù)測(cè)效果,表9 給出了一些實(shí)例的具體實(shí)驗(yàn)結(jié)果對(duì)比??梢钥闯觯篐C 性格的用戶(hù)通常具有責(zé)任心、認(rèn)真且自律;HE 性格的用戶(hù)充滿(mǎn)熱情,活潑;HA 性格的用戶(hù)通常直率、大方;“累”“痛苦”往往是LE 性格的用戶(hù)在表達(dá)消極情緒時(shí)所具有的特征;文本(3)和文本(5)雖然都在闡述某人能力不錯(cuò),但由于不同性格的表達(dá)方式有所差異,所以2 個(gè)文本表達(dá)的情感完全不同;文本(6)和文本(7)都在表達(dá)積極的情感,高特質(zhì)用戶(hù)傾向于積極向上的表達(dá)方式,而低特質(zhì)用戶(hù)的表達(dá)方式則是恰好相反,說(shuō)明發(fā)表這2 條文本的微博用戶(hù)雖然都是宜人型和外向型人格,表達(dá)的情感極性也相同,但因?yàn)檫@2 個(gè)用戶(hù)在兩類(lèi)性格方面的高低特質(zhì)不同,各自表達(dá)情感的方式也就完全不同。本文提出的模型P-BiLSTM-SA 能在訓(xùn)練中更好地學(xué)習(xí)到這些深層次情感信息,從而提升了微博的情感分類(lèi)效果。

        表8 P-BiLSTM-SA 與BiLSTM-SA 實(shí)驗(yàn)結(jié)果對(duì)比

        表9 模型P-BiLSTM-SA 和模型BiLSTM-SA 部分實(shí)例預(yù)測(cè)結(jié)果對(duì)比

        4 結(jié)論

        本文基于不同性格的微博用戶(hù)在表達(dá)情感時(shí)各不相同的特點(diǎn),提出了一種結(jié)合性格因素的深度學(xué)習(xí)模型P-BiLSTM-SA。該方法既考慮到BiLSTM能學(xué)習(xí)文本前后文語(yǔ)境信息,兼顧了全文整體特征的優(yōu)勢(shì),又利用self-attention 機(jī)制表示不同特征的重要性,捕獲了深層次的情感特征。最后通過(guò)實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。

        在互聯(lián)網(wǎng)上,表情符號(hào)、顏文字等也是人們表達(dá)情感的途徑之一,未來(lái)可考慮將這些因素納入情感分析之中。同時(shí),許多用戶(hù)在微博上采用多語(yǔ)言混合的方式表達(dá)情感,比如:“我今天very happy”,未來(lái)可考慮對(duì)此類(lèi)文本進(jìn)行語(yǔ)碼轉(zhuǎn)換以提升情感分類(lèi)效果。

        猜你喜歡
        分類(lèi)特征文本
        分類(lèi)算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
        日韩女同一区二区三区久久 | 国产av专区一区二区三区 | 亚洲国产综合在线亚洲区亚洲av| 成 人 免 费 黄 色| 国产精品女直播一区二区| 99国产精品99久久久久久| 人妻av无码系列一区二区三区| 国产一区二区三区小说| 中文字幕中文字幕人妻黑丝| 亚洲天堂成人av在线观看| 超清精品丝袜国产自在线拍| 亚洲综合色秘密影院秘密影院| 激情视频在线观看免费播放| 日韩在线观看入口一二三四 | 在线观看av国产自拍| 久久精品蜜桃美女av| 精品亚洲一区二区三区四区五| 无码av一区二区大桥久未| 久久99欧美| 久久国产精品免费一区六九堂| 久久精品国产亚洲av网站| 成年女人a级毛片免费观看| 色老汉免费网站免费视频| 免费观看视频在线播放| 人妻中文字幕日韩av| 无码少妇一区二区性色av| 四虎成人精品无码永久在线| 久久久人妻丰满熟妇av蜜臀| 亚洲精品无码永久中文字幕| 少妇饥渴xxhd麻豆xxhd骆驼| 国产强伦姧在线观看| 日韩女优在线一区二区| 亚洲爆乳无码精品aaa片蜜桃| 亚洲 自拍 另类 欧美 综合| 久久99久久99精品观看| 一区二区在线视频免费蜜桃| 国产女人高潮叫床免费视频| 亚洲精品乱码久久久久久麻豆不卡| 亚洲一区二区三区免费av| 亚洲av日韩av永久无码下载| 亚洲男同志gay 片可播放|