程 鋼,陳秀明*,于 翔
(1.阜陽(yáng)師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院,安徽 阜陽(yáng);2.臺(tái)州學(xué)院電子與信息工程學(xué)院,浙江 臺(tái)州)
文本情感分析是自然語(yǔ)言處理中的熱門(mén)研究方向,又稱作文本挖掘。它的主要工作,是對(duì)網(wǎng)絡(luò)各種媒體消息材料、社會(huì)媒體文章,尤其是對(duì)帶有情感色彩的主觀性信息,進(jìn)行提取、分析處理、整合和判斷。
情感表達(dá)由觀點(diǎn)持有者、評(píng)論對(duì)象、情感種類(lèi)及評(píng)論時(shí)間等四要素構(gòu)成。其中評(píng)論時(shí)間和文字發(fā)布時(shí)間保持一致,通常按網(wǎng)頁(yè)發(fā)布時(shí)間來(lái)確定文章持有者與評(píng)論對(duì)象的提取通常由命名實(shí)體抽取和語(yǔ)義角色分析等方式在文章中獲取; 而對(duì)于文字中所表達(dá)的情感種類(lèi)分析,根據(jù)其目的內(nèi)涵的不同而選取為不同的情感類(lèi)種類(lèi),在體系上一般包括褒貶、喜怒哀樂(lè)悲恐驚、情感評(píng)分(列如1-5 分)等類(lèi)型。
情感分析領(lǐng)域在國(guó)外已經(jīng)有了十幾年的歷程,但是我國(guó)的研究卻剛剛起步。由于語(yǔ)言的差異,部分國(guó)外的研究技術(shù)無(wú)法轉(zhuǎn)化到中文處理中。所以,對(duì)于中文處理領(lǐng)域的專(zhuān)家們來(lái)說(shuō),如何針對(duì)中文語(yǔ)言的特點(diǎn)將某些較為嫻熟的技巧與手段應(yīng)用到中文情感研究領(lǐng)域,是一個(gè)值得積極探索的任務(wù)。
Jieba 庫(kù)的主要作用為分詞、關(guān)鍵詞提取、添加自定義詞典和詞性標(biāo)注,并有精確模式、搜索引擎模式和全模式三種分詞模式。
隱馬爾可夫模型是一種概率轉(zhuǎn)化模型, 如表1 所示:一個(gè)人換下一份工作的轉(zhuǎn)換可能性[1]。
表1 隱馬爾可夫模型轉(zhuǎn)化舉例說(shuō)明
LDA 主題分類(lèi)法主要是用于預(yù)測(cè)文章的主題狀況,LDA 認(rèn)為文章可根據(jù)主題這么表示:
《美妝日記》{美妝:0.8,美食:0.1,其他:0.1}
假設(shè)我們要制作一個(gè)文本,它里邊的所有單詞產(chǎn)生的概率是[2]:
與傳統(tǒng)圖像的CNN 網(wǎng)絡(luò)相比,TextCNN 在網(wǎng)絡(luò)結(jié)構(gòu)上幾乎沒(méi)有任何變化(甚至更加簡(jiǎn)單了),TextCNN 其實(shí)是一層卷積,就是一個(gè)max-pooling,然后再把圖像進(jìn)行外接softmax 來(lái)n 分類(lèi)[3]。
在TextCNN 系統(tǒng)中,整體網(wǎng)路架構(gòu)使用了卷積層+池化層的架構(gòu),在RCNN 中,基于卷積層的特征提取的功能逐漸被RNN 所替代,導(dǎo)致整體架構(gòu)設(shè)計(jì)上成為了雙向的RNN+池化層架構(gòu),又稱為RCNN[4-5]。
多頭注意力機(jī)制即將輸入數(shù)據(jù)進(jìn)行多次映射,每次使用不同的作為注意力機(jī)制輸入的查詢,以捕捉不同的表示子空間的特征,從而可獲得更全面、更富有表現(xiàn)力的表示結(jié)果,如圖1 所示。
圖1 多頭注意力
這里使用了阿里天池上的語(yǔ)料庫(kù)。共獲取了2500 條數(shù)據(jù),并將原來(lái)的兩種情感,變?yōu)? 種情感:其中pos:開(kāi)心pos1:信任neg:難受neg1:疑惑neg2:憤怒neg12:疑惑又憤怒,并將文件以純文字文檔進(jìn)行保存。將其中的4/5 劃分為訓(xùn)練數(shù)據(jù),1/5 劃分為測(cè)試數(shù)據(jù),表2 展示的是數(shù)據(jù)具體的分布情況[6-7]。
表2 數(shù)據(jù)分布情況
去除數(shù)字,字母,分詞,去除停用詞。由于數(shù)據(jù)集的內(nèi)容經(jīng)常會(huì)出現(xiàn)一些非中文與不用的字符以及標(biāo)點(diǎn)符號(hào)等[8]。文本數(shù)據(jù)預(yù)處理后結(jié)果如表3 所示。
表3 數(shù)據(jù)預(yù)處理展示
快樂(lè)情感詞云見(jiàn)圖2,疑惑又憤怒詞云見(jiàn)圖3。
圖2 快樂(lè)情感詞云
圖3 疑惑又憤怒詞云
各種情感的主體見(jiàn)表4。
表4 各種情感的主題
通過(guò)對(duì)比:開(kāi)心的主題是價(jià)格和快遞方面,信賴的主題是物流價(jià)格與產(chǎn)品不錯(cuò),難受的主要主題是售后沒(méi)有免費(fèi),只免費(fèi)了材料費(fèi),疑惑的主要主題是售后的態(tài)度比較差,憤怒的主要主題是安裝費(fèi),憤怒疑惑混合的主要主題是安裝收費(fèi)這方面,因?yàn)檫@種情緒最為強(qiáng)烈,所以這種情感反應(yīng)的問(wèn)題也是最急切的。
采用分類(lèi)精確率precision、召回率recall、平衡F分?jǐn)?shù)f1-score 作為評(píng)價(jià)實(shí)驗(yàn)好壞的指標(biāo),其表示方法如下:TP:將正類(lèi)預(yù)測(cè)為正類(lèi)數(shù);TN:將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù);FP:將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù)誤報(bào);FN:將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù),如下依次表示為精確率P,召回率R,平衡F分?jǐn)?shù)F1[9-10]。
TextCNN 各情感效果對(duì)比見(jiàn)表5,TextRCNN 各情感效果對(duì)比見(jiàn)表6,TextRCNN-Attention 各情感效果對(duì)比見(jiàn)表7。
表5 TextCNN 各情感效果對(duì)比
表6 TextRCNN 各情感效果對(duì)比
表7 TextRCNN-Attention 各情感效果對(duì)比
通過(guò)觀察TextRCNN-Attention 的預(yù)測(cè)效果較好。
為了數(shù)據(jù)背后的故事,對(duì)文本做情感分析是一種可行的方式,但它還是不能完全挖掘數(shù)據(jù)背后的故事。我國(guó)漢字博大精深,一詞能代表許多的意思,它涉及對(duì)詞匯、句法和語(yǔ)義規(guī)則的深刻理解,所以對(duì)情感的準(zhǔn)確分析還有很長(zhǎng)的一段路要走。在大數(shù)據(jù)背景下,自然語(yǔ)言的廣度和復(fù)雜度得到進(jìn)一步的發(fā)展,同時(shí)也帶來(lái)了更大的挑戰(zhàn),其發(fā)展仍需要很長(zhǎng)一段時(shí)間,望砥礪前行。