【摘要】文本情感分析的基礎(chǔ)是詞典,除此以外還需要對(duì)詞典進(jìn)行分類和定級(jí)。本文通過篩選整合現(xiàn)有詞典,構(gòu)建了一部包括基礎(chǔ)詞,領(lǐng)域詞,網(wǎng)絡(luò)詞等的詞典,并對(duì)詞典中有關(guān)詞語的權(quán)重分配和一些包含程度副詞的短語計(jì)算進(jìn)行了研究,提出了一種基于詞典的文本情感分析算法。經(jīng)過實(shí)驗(yàn),發(fā)現(xiàn)本文構(gòu)建的詞典在處理情感時(shí)效果很好。
【關(guān)鍵詞】詞典;文本情感;算法研究
隨著我國市場(chǎng)的不斷發(fā)展,針對(duì)金融輿論數(shù)據(jù)的情感分析受到廣大股民和公司的熱切關(guān)注。目前,情感分析應(yīng)用主要分為兩種:基于詞匯的方法和機(jī)器學(xué)習(xí)方法。當(dāng)然,它們都面臨著獲取大量人類標(biāo)記訓(xùn)練數(shù)據(jù)和語料的挑戰(zhàn)。我提出一種基于詞匯的針對(duì)數(shù)據(jù)情感分析的方法:將一篇短文本劃分為不同的部分并給予不同的權(quán)重,再以詞匯為基本顆粒進(jìn)行分?jǐn)?shù)計(jì)算;同時(shí),在已有的權(quán)威字典的基礎(chǔ)上,可以在里面特意增加一些與行業(yè)有關(guān)的詞語,最終獲得更好的性能。
1. 相關(guān)工作
目前沒有一種模型可以含括所有的領(lǐng)域,也沒有一種字典囊括不同領(lǐng)域的術(shù)語。根據(jù)需求,我們將精力放在了行業(yè)領(lǐng)域,并且采集了不同來源的高質(zhì)量的數(shù)據(jù)集。同時(shí),我們對(duì)一個(gè)包含大多數(shù)領(lǐng)域的字典進(jìn)行了修改,添加和修改了行業(yè)方面的專業(yè)詞匯。由于數(shù)據(jù)的直觀性、簡(jiǎn)潔性特點(diǎn),我們忽略了詞匯之前的同義、反義等復(fù)雜關(guān)系,講更多的精力投入在對(duì)于極性的確定和極性程度的判定方面。在此基礎(chǔ)上,設(shè)計(jì)了一個(gè)實(shí)用的衡量文本感情的算法模型。
2. 數(shù)據(jù)準(zhǔn)備
2.1 數(shù)據(jù)來源
數(shù)據(jù)的獲取來自不同的平臺(tái),平臺(tái)主要為以下幾個(gè):
- 海外金融數(shù)據(jù)
- 各大金融論壇的帖子
2.2 數(shù)據(jù)清洗
為了保留新聞媒體對(duì)于關(guān)鍵詞的標(biāo)注,在數(shù)據(jù)采集的時(shí)候保留了相應(yīng)的網(wǎng)頁標(biāo)簽和繁體風(fēng)格。因此將原來的網(wǎng)頁文本清洗成了簡(jiǎn)體無標(biāo)簽的文本形式。
2.3 詞典來源
因?yàn)樗惴P褪腔谠~匯的情感分析,所以本文在總結(jié)分析了大連理工大學(xué)和中國知網(wǎng)的一些現(xiàn)有詞典后,發(fā)現(xiàn)目前情感分析詞典主要包括以下幾個(gè)內(nèi)容:
2.3.1 情感詞
- 積極評(píng)價(jià)詞
- 積極情感詞
- 消極評(píng)價(jià)詞
- 消極情感詞
2.3.2 程度詞:
程度詞對(duì)于一個(gè)語句褒貶義的影響起到加強(qiáng)或削弱的作用,因?yàn)檫@里可以根據(jù)不同程度詞的一個(gè)影響程度,把它們由弱到強(qiáng)分為5級(jí),并設(shè)置一個(gè)標(biāo)準(zhǔn)對(duì)這五個(gè)級(jí)別進(jìn)行打分,對(duì)于起加強(qiáng)作用的詞可以把分值設(shè)置大于零,對(duì)于起削弱作用的詞可以把分值設(shè)置小于零。
2.3.3 否定詞:
否定詞可以是原本一句話的含義走向相反的方向。常見的否定詞:不、沒、無、非、莫、弗、勿、毋、未、否、別、無、休、難道等?;谝陨咸攸c(diǎn),否定詞的存在可以用來判別是否進(jìn)行詞匯的極性反轉(zhuǎn),情感詞可以整合成積極詞和消極詞兩部分?;谥W(wǎng)詞庫的以上特點(diǎn),將此詞庫選做基本的情感詞典。
2.3.4 停用詞詞典
中科院計(jì)算所中文自然語言處理開放平臺(tái)發(fā)布了有1208個(gè)停用詞的中文停用詞表。
另外針對(duì)目前互聯(lián)網(wǎng)用語的增加,本文參考中國網(wǎng)絡(luò)語言詞典,專門增加了一個(gè)網(wǎng)絡(luò)用語詞典,里面既收錄了一些最新出現(xiàn)的詞匯,如電子商務(wù)、手機(jī)支付,也增加了目前在聊天工具中大家使用到的一些俚語,如鴨梨(壓力)、斑竹(版主)、大蝦(網(wǎng)絡(luò)高手),還加入了一些外語詞匯,如“email(電子郵件)”、“mm(妹妹或美女)”,這些詞語的加入,是不同于當(dāng)前的一些情感分析詞典的部分,后續(xù)隨著網(wǎng)絡(luò)時(shí)代的發(fā)展我們會(huì)不斷的更新網(wǎng)絡(luò)詞典以提高系統(tǒng)的準(zhǔn)確度。
2.4 詞典的數(shù)據(jù)類型
為了讓后期的程序更好的調(diào)用詞典,并且讓其他人員更容易的修改詞典,本文把總結(jié)的詞匯輸入存儲(chǔ)到txt文本中,并對(duì)這些詞匯賦予不同的分值,方便其他程序調(diào)用。
2.5 詞典的修改
由于知網(wǎng)的詞典是針對(duì)所有的領(lǐng)域,因此在行業(yè)領(lǐng)域詞匯的劃分上不免有失偏頗,前期我采用人工的方法對(duì)詞典的三大分類進(jìn)行了略微調(diào)整。調(diào)整如下:
①在積極詞(pos_emotion)中刪除了要,用,開通,需,向,應(yīng),欲,通,深,對(duì),到,事實(shí)上,基,基部,基礎(chǔ),基礎(chǔ)性,固,固定,可樂,謹(jǐn),主導(dǎo),自行,增加了'高于','扭轉(zhuǎn)','買超','強(qiáng)勁','反彈','增','緩解','微升''上漲'。
②在消極詞(neg_emotion)中刪除了大,怊,慳,悱,憒,勝,偏,增加了'跳水','雞肋','沙塵暴','陰霾','錢荒','壓力','貶值','重挫','周跌','月跌','連跌','背馳','縮減','妨礙','倒退','急挫','挫','低見','跌','沖擊','大跌','涉嫌','虧損','下跌','紀(jì)律處分','處分','赤字','縮水','打擊','跌穿','受壓','連累'。
③在否定詞中刪除了偏,增加了'無','不','不是'
3. 情感分詞算法
3.1 文本分塊
對(duì)于一個(gè)文本來說,可以把它通過分詞程序切分成幾個(gè)部分,每個(gè)部分對(duì)于整個(gè)文本情感傾向的影響程度一般來說是不一樣的。比如對(duì)于一篇金融新聞,在文本長度足夠的情況下,給定'FORWARD_NUM','BACKWARD_NUM'這兩個(gè)參數(shù),分別代表[0:FORWARD_NUM]句和[BACKWARD_NUM-1:]句。此時(shí)收尾兩部分的權(quán)重就比中間高。
為了減少首尾權(quán)重(Weight)對(duì)于文本整體的影響過大,以至于算法忽略文本[FORWARD_NUM:BACKWARD_NUM]部分的分?jǐn)?shù),我們將首尾的部分得出的分?jǐn)?shù)乘以對(duì)應(yīng)的頻率,用于[0:FORWARD_NUM]和[BACKWARD_NUM-1:]兩部分。
3.2 積極詞/消極詞
對(duì)于中文(無邊界語言)劃分詞語,考慮到速度和第三方庫的發(fā)現(xiàn)新詞能力,我們使用了jieba分詞庫。將文本中的積極詞和消極詞結(jié)合詞典挑選出來,并且每個(gè)給予一個(gè)分?jǐn)?shù),在此基礎(chǔ)上,我們進(jìn)行極性反轉(zhuǎn)和程度詞的發(fā)現(xiàn)。
3.3 基于程度詞頻的優(yōu)化
在對(duì)含有程度詞頻的文本進(jìn)行判斷時(shí),發(fā)現(xiàn)程序運(yùn)行時(shí)間較長。這主要是因?yàn)樵谥暗臉O性反轉(zhuǎn)和程度詞的判斷中,為了窮盡常見的情況,子分支的判斷語句非常多。為了減少程序在子分支語句方面判斷的時(shí)間損耗,采用赫夫曼樹的優(yōu)化思想:將'if-else'理解成二叉樹,由于不同的程度詞在日常語言中出現(xiàn)的頻率是不同的,因此,可以將'more_degree'和'ish_degree'首先判斷,再依次判斷'very_degree'實(shí)現(xiàn)對(duì)算法性能的優(yōu)化。
4. 實(shí)驗(yàn)分析
根據(jù)本文所設(shè)計(jì)的情感分析詞典和計(jì)算方法,我們?cè)诰W(wǎng)上收集了一些有關(guān)行業(yè)領(lǐng)域的測(cè)試語料進(jìn)行實(shí)驗(yàn),其中正面語料500條,負(fù)面語料500,為了使選取的語料性質(zhì)判斷正確無誤,這些語料由三個(gè)不同的同學(xué)分別進(jìn)行判斷,然后通過程序調(diào)用本文的詞典對(duì)這些語料進(jìn)行情感判別后發(fā)現(xiàn),判斷準(zhǔn)確率在百分之九十以上,說明本文所設(shè)計(jì)的詞典和算法效果還是不錯(cuò)的。具體如下:
從表3-1中,可以看出,只是用基礎(chǔ)詞典的情況下,準(zhǔn)確率相對(duì)較低,這是因?yàn)榛A(chǔ)詞典中缺少一些專門針對(duì)語料進(jìn)行褒貶義分析的詞語,如:“高于”、“扭轉(zhuǎn)”、“強(qiáng)勁”、“大盤”等。
從表3-2中可以看出,本次準(zhǔn)確率的測(cè)試結(jié)果是最高的,并且較前兩個(gè)實(shí)驗(yàn)來說,把語料評(píng)定為中性的數(shù)量也有了一定的下降,這就說明了網(wǎng)絡(luò)詞典對(duì)于一些較難判斷,尤其是語料中褒貶義詞語數(shù)量差別不大的情況下,進(jìn)行情感分析時(shí)有很好的幫助作用。
參考文獻(xiàn):
[1]楊文婷.基于微博的情感分析算法研究與實(shí)現(xiàn)[D].西南交通大學(xué),2015.
[2]李林俏.中文商品評(píng)論的文本情感分析技術(shù)研究[D].湖南大學(xué),2015.
[3]夏明星.基于情感分析的評(píng)論極性分類和電影推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].2016.
[4]穆云磊.基于評(píng)論分析的協(xié)同過濾推薦算法研究[D].2016.
作者簡(jiǎn)介:姚文杰,山西芮城縣人,現(xiàn)供職西京學(xué)院任助教,碩士學(xué)位,研究方向數(shù)據(jù)與知識(shí)管理。