楊睿 劉家興 宋夢嬌 徐俊浩 李冉冉 王力卉
摘要:本文著眼于大眾情感需求,利用日益完善的人工智能技術(shù),實現(xiàn)人機間情感交流,為人類創(chuàng)造一個可以向人工智能程序?qū)で笈惆?、盡情傾訴的機會。該研究致力于利用與人工智能的人機交互,結(jié)合互聯(lián)網(wǎng)時代心理咨詢服務(wù)的特征,填補大眾情感缺口。
關(guān)鍵詞:情感傾向分析;語義識別;人工智能;人機交互
1、 緒論
情感識別作為情感計算的一個關(guān)鍵分支,同時也是語義識別的一個重要應(yīng)用方向,涉及到心理分析、人工智能、信號處理等多個技術(shù)領(lǐng)域,具有很高的研究價值,已經(jīng)被應(yīng)用于情感陪伴、心理評估、輿情分析等多個方向。
由于現(xiàn)代語言,尤其是網(wǎng)絡(luò)用語的多樣性,傳統(tǒng)文本主題分類方法不能有效完成情感傾向識別?;谡Z義特征的情感傾向識別方法,可以分析得出原始文本所包含的明確情感傾向,更有利于完成情感區(qū)分。
實現(xiàn)基于人工智能技術(shù)的情感語義識別應(yīng)用,需從語言語義識別和情感傾向分析兩方面展開研究,其中情感傾向分析是關(guān)鍵環(huán)節(jié)。
2、 語言語義識別研究
2.1語義的表示
自然語言可通過分布語義,框架語義,模型論語義等三種主要途徑進行表示。還可使用領(lǐng)域(domain)、意圖(intent)、詞槽(slot)等三種形式來表示語義。
(1)領(lǐng)域(domain)
通常按語言數(shù)據(jù)來源來劃分領(lǐng)域。統(tǒng)一行業(yè)背景或?qū)I(yè)范圍內(nèi)的語言數(shù)據(jù)劃分為統(tǒng)一領(lǐng)域,如醫(yī)療、交通等。領(lǐng)域在語法中可看作句子的主語。
(2)意圖(intent)
意圖類似語法中的謂語,是指對語義領(lǐng)域內(nèi)數(shù)據(jù)進行的動作或操作,比如查找交通等。
(3)詞槽(slot)
指語義領(lǐng)域的屬性,可看作語法中的賓語,如交通類型。
2.2語義識別的層次
(1)應(yīng)用層
應(yīng)用層是指語義的使用層面,如行業(yè)應(yīng)用等。
(2)NLP技術(shù)層
NLP技術(shù)層是指對自然語言經(jīng)過技術(shù)手段進行加工、處理轉(zhuǎn)化成機器語言,或?qū)C器語言合成自然語言。
(3)底層數(shù)據(jù)層
底層數(shù)據(jù)層是指語義的領(lǐng)域來源。
3、 情感傾向分析研究
情感傾向性分析又稱情感分類,是指針對給定的文本,識別其情感傾向是積極的還是消極的,或者是正面的還是負面的,是情感分析領(lǐng)域研究最多的問題。
通常網(wǎng)絡(luò)文本包含大量主觀性內(nèi)容和客觀性內(nèi)容。其中客觀性內(nèi)容是對事物的客觀描述,不帶有感情色彩和情感傾向;而主觀性內(nèi)容則是筆者對客觀事物的看法及思考,帶有或強或弱的喜好厭惡等情感傾向。
顯而易見,情感分類的對象是帶有情感傾向的主觀性文本,因此情感分類首先要進行內(nèi)容的主客觀性分類。文本的主客觀分類主要以情感詞識別為主,利用基于情感詞典的特征表示方法和分類器進行詞匯的主客觀性識別分類,能夠提高情感分類的速度和準(zhǔn)確度?;谇楦性~典的方法具體來說就是,先對文本進行分詞和停用詞處理等預(yù)處理工作,再利用構(gòu)建好的情感詞典,對文本進行情感傾向分析,即字符串匹配,從而挖掘正面和負面情感信息。
下面分別介紹情感詞典構(gòu)建和情感傾向分析的情況。
3.1情感詞典構(gòu)建
情感詞典的構(gòu)建是情感分類的前提和基礎(chǔ)。實踐中的情感詞典可歸為4類:通用情感詞、程度副詞、否定詞、領(lǐng)域詞。一般詞典使用過程中包含兩部分,詞語和權(quán)重。
現(xiàn)階段情感詞典的構(gòu)建方法主要是利用已有電子詞典進行擴展,例如對經(jīng)典詞典WordNet的擴充,在建立種子形容詞詞匯表的基礎(chǔ)上,利用WorldNet中詞間的同義和近義關(guān)系判斷情感詞的情感傾向,并以此來判斷觀點的情感極性。如確有需要,也可通過語料來訓(xùn)練新的情感詞典,或建立專門的領(lǐng)域詞典,以提高情感分類的準(zhǔn)確性。
實際工作中有很多開源情感詞典可供選擇,例如BosonNLP情感詞典。該詞典是基于微博、新聞、論壇等數(shù)據(jù)來源構(gòu)建的情感詞典。此類開源詞典還有知網(wǎng)情感詞典等,大大降低了情感語義識別應(yīng)用開發(fā)者的工作難度,有效調(diào)高其工作效率和質(zhì)量。
3.2 情感傾向分析
(1)情感詞典文本匹配算法
基于語義情感詞典的傾向性計算不同于以來大量訓(xùn)練數(shù)據(jù)集的機器學(xué)習(xí)算法,主要是利用情感詞典及句式詞庫分析文本語句的特殊結(jié)構(gòu)及情感傾向詞,采用權(quán)值算法代替?zhèn)鹘y(tǒng)人工判別或僅利用簡單統(tǒng)計的方法進行情感分類。
基于詞典的文本匹配算法相對容易實現(xiàn),效率較高。此類算法的原理是,完成語句分詞后,逐個遍歷所得詞語。如果有詞語命中詞典,則進行相應(yīng)權(quán)重處理:
①正面詞權(quán)重為加法;
②負面詞權(quán)重為減法;
③否定詞權(quán)重取相反數(shù);
④程度副詞權(quán)重則與其所修飾詞語權(quán)重相乘。
(2)傾向性計算算法
前文介紹的情感詞典文本匹配算法給情感強度不同的情感詞賦予不同權(quán)值,之后就由傾向性計算算法進行加權(quán)求和,最終輸出的權(quán)重值,就可以區(qū)分文字所表達的是正面的、中性的,還是負面的情感了。
利用如式(1)所示加權(quán)平均算法計算,可有效提高通用領(lǐng)域情感分類的效率和準(zhǔn)確率。
其中,Np、Nn分別代表表達正面情感和負面情感的詞匯數(shù)目;wpi、wpj分別代表正面情感詞匯和負面情感詞匯的權(quán)值。
(3)確定閾值判斷文本傾向性
一般情況下,加權(quán)計算結(jié)果為正,是正面傾向;結(jié)果為負,是負面傾向;得分為零則表示無傾向。一般采用自然語言中經(jīng)常使用的正確率、召回率和方差分析F值來評判算法效果。
以上情感傾向分析過程如圖1所示。
基于情感詞典的方法和基于機器學(xué)習(xí)的分類算法相比,雖屬于粗粒度的傾向性分類方法,但由于不依賴標(biāo)注好的訓(xùn)練集,實現(xiàn)相對簡單,對于普遍通用領(lǐng)域的網(wǎng)絡(luò)文本可有效快速地進行情感分類。
4、 結(jié)論
本文深入研究了情感語義識別技術(shù),利用情感詞典對文本內(nèi)容進行情感分析。本文所提出算法可以自動識別文本中的核心實體詞,對包含主觀信息的文本進行情感傾向性判斷。由于采用了開源情感詞典和相對粗顆粒的情感傾向分析算法,本文所設(shè)計應(yīng)用的情感判斷效果還有待提高。訓(xùn)練針對性更強的情感詞典,以及引入可以使得分析算法更精細的神經(jīng)網(wǎng)絡(luò)技術(shù),應(yīng)是未來研究中重點考慮的方向。
參考文獻:
[1]劉騰飛,于雙元,張洪濤等.基于循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究[J].軟件,2018,39(01):64-69.
[2]吳亞熙,岑峰.基于卷積神經(jīng)網(wǎng)絡(luò)的多層級目標(biāo)檢測方法[J].軟件,2018,39(4):164-169.
課題項目:本文為沈陽師范大學(xué)校級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃資助項目《基于語義識別的人工智能陪伴app——“智慧陪伴”》(項目編號:202113067)成果。