朱珊珊 原 偉
(信息工程大學(xué),洛陽471003)
提 要:從文本中挖掘情感態(tài)度是當(dāng)前計(jì)算語言學(xué)研究的重點(diǎn)領(lǐng)域和熱點(diǎn)方向。 論文在分析梳理情感分類方法和俄語情感表達(dá)主要手段的基礎(chǔ)上,將人的主要情感劃分為4 大類、19 個(gè)子類,并基于網(wǎng)絡(luò)自動(dòng)構(gòu)建約730 萬詞的新聞及評(píng)論語料庫(kù)用于實(shí)驗(yàn)。 為考察俄語情感表達(dá)的基本詞匯手段,設(shè)計(jì)一種基于TEI 標(biāo)準(zhǔn)的語料情感標(biāo)注系統(tǒng),對(duì)語料庫(kù)中熱點(diǎn)新聞及其8031 條用戶評(píng)論進(jìn)行分類標(biāo)注,所標(biāo)注語料成功運(yùn)用到俄語新聞評(píng)論的情感自動(dòng)分析和領(lǐng)域情感詞典的構(gòu)建中,實(shí)驗(yàn)結(jié)果證明所用方法的有效性和實(shí)用性,獲得包含6321 項(xiàng)情感表達(dá)手段的機(jī)用詞典,后續(xù)應(yīng)用潛力較大。
情感分析(Анализ тональности)是計(jì)算語言學(xué)的重要研究方向,即借助計(jì)算機(jī)對(duì)文本語料中和包含的情感與態(tài)度進(jìn)行分類、分析與挖掘,在語言學(xué)領(lǐng)域可運(yùn)用于語義學(xué)、話語分析翻譯和外語教學(xué)研究中,在信息科學(xué)領(lǐng)域可使用在傾向性分析、輿情監(jiān)控、話題識(shí)別和用戶評(píng)價(jià)分析等場(chǎng)景中,研究前景十分廣闊,應(yīng)用潛力巨大。
從傳統(tǒng)語言學(xué)的視角看,在俄語情感意義與表達(dá)手段研究方面,學(xué)界已取得一些成果,可分為以下兩類:第一類針對(duì)動(dòng)詞、俄語成語、嘆詞、情感—表情詞、標(biāo)題等語言結(jié)構(gòu)單位進(jìn)行情感意義考察,梳理其結(jié)構(gòu)特點(diǎn)和語義內(nèi)涵,揭示其評(píng)價(jià)意義和特有民族文化色彩(于金玲2010:96;李慧2013:3;蔡暉2014:15;楊婷2014:14;曹廣躍2016:11);第二類從語言意識(shí)、語義范疇化等理論視角切入,對(duì)俄語情感意義、伴隨和意義、詞匯聯(lián)想等問題進(jìn)行討論(林楠2011:5, 楊利芳2012:30,楊瑞2015:115)。 上述研究對(duì)為分析俄語情感表達(dá)手段,揭示其結(jié)構(gòu)特點(diǎn)、語義內(nèi)涵和文化意義做出重要貢獻(xiàn),然而從語言處理工程的角度來講,一些理論方法、闡釋與分類標(biāo)準(zhǔn)在計(jì)算機(jī)形式化描寫層面較難完整表述或具體實(shí)現(xiàn)。
從計(jì)算語言學(xué)的視角來看,近年來國(guó)內(nèi)面向英語、維吾爾語、藏語等語言構(gòu)建一系列用于文本情感分析的語料庫(kù)及應(yīng)用系統(tǒng)(汪正中 張洪淵2011:153,吐爾貢等2017:67,袁斌等2016:682),但未見面向俄語的情感分析研究。 在國(guó)外,面向俄語的情感分析系統(tǒng)數(shù)量不多,較有代表性的有Senti Strength①、Аналитический курьер②、Ваал③、RCO Fact Extractor④等。 Senti Strength 系統(tǒng)主要面向簡(jiǎn)短、非結(jié)構(gòu)化英文文本的情感分析任務(wù),也包含部分處理俄語文本的功能,工作原理是將文本中的詞匯分為兩種評(píng)價(jià)色彩,即消極與積極,并賦予9 個(gè)評(píng)價(jià)值(從-4 到+4),統(tǒng)計(jì)綜合積極和消極詞匯評(píng)價(jià)值進(jìn)行加權(quán)評(píng)估,測(cè)算最大情感意義值。 Аналитический курьер 系統(tǒng)采用基于規(guī)則和詞典的方法,對(duì)句子標(biāo)注具有情感色彩的詞匯,將其與鄰接無情感意義詞組成詞鏈(цепочка),最后綜合考慮句子的情感性分析文本。 Ваал 系統(tǒng)基于頻率詞典,并將部分詞匯劃分至心理語言學(xué)范疇,定位于評(píng)估人們無意識(shí)的情感互動(dòng)。RCO Fact Extractor 系統(tǒng)基于規(guī)則的方法搭建,考慮文本的句法結(jié)構(gòu)以及不同類型詞之間的相互作用。 可以看出,上述系統(tǒng)在俄語情感分析領(lǐng)域做出十分積極的工作,但也存在如下不足:首先,上述系統(tǒng)都是封閉和付費(fèi)的,數(shù)據(jù)集和應(yīng)用接口無法調(diào)用共享;其次,未充分考慮俄語的自身特點(diǎn),如形態(tài)多樣性、語序自由性等;第三,情感評(píng)價(jià)標(biāo)準(zhǔn)過于簡(jiǎn)單,多采用二元化(褒貶或正面負(fù)面)準(zhǔn)則,主要關(guān)注文本中評(píng)價(jià)色彩的總體極性和傾向性,對(duì)評(píng)價(jià)色彩的強(qiáng)度描述不足。
參考中文情感分析相關(guān)成果的分類方法(徐琳宏等2008:118),本文將情感描述為4 個(gè)基本類及其19 個(gè)子類:喜(愉、舒、敬、揚(yáng)、信、愛、愿)、惡(煩、憎、貶、妒、疑、怒)、哀(悲、憾)、懼(恐、羞、驚、慌)。 其他復(fù)雜情感可以被描述為這些基本情感的細(xì)化、加強(qiáng)、遷移和混合。 當(dāng)然目前也存在更為復(fù)雜精細(xì)的情感劃分方法,本文認(rèn)為過度細(xì)劃分情感大類別難免會(huì)過多地帶入研究者的主觀性,在語料標(biāo)注時(shí)也會(huì)造成類別部分重合難以嚴(yán)謹(jǐn)描述,對(duì)研究的客觀性帶來的混亂。
對(duì)于俄語情感表達(dá)手段的問題,已有學(xué)者(王向麗2004:5)基于語義與形態(tài)特征結(jié)合的方法將其分為構(gòu)詞手段、修辭手段、言語手段和詞匯手段,這也較為符合學(xué)界的普遍認(rèn)知。 一般來說,構(gòu)詞手段指為動(dòng)詞、名詞、形容詞等詞匯添加構(gòu)詞詞綴,表達(dá)喜愛、厭惡、諷刺等復(fù)雜情感意義(如мама?мамочка,солдат?солдатчина,малыш? ма?лышня);修辭手段可包括不同語體修辭色彩的同義詞使用(如глаза?очи,красота?краса,бросать?кидать);言語手段可包括在言語交流使用表達(dá)情感評(píng)價(jià)意義的稱謂、句式等。 除以上手段外,還存在諸多非常規(guī)使用標(biāo)點(diǎn)(如問號(hào)、感嘆號(hào)結(jié)合使用、標(biāo)點(diǎn)重復(fù)使用、添加引號(hào)等)、大寫(如“ТРАМП,Это АМЕРИКАНСКИЙ президент”)、表情符號(hào)、擬聲等手段表達(dá)情感的例子。 本文重點(diǎn)考察俄語情感表達(dá)的詞匯手段,并用于語料庫(kù)的數(shù)據(jù)采集、標(biāo)注與構(gòu)建中。 而對(duì)構(gòu)詞、修辭和言語手段,目前學(xué)界理論體系尚不完善,難以完整地形式化描述,在未來的工作中會(huì)深入討論。
網(wǎng)絡(luò)新聞本身承載著發(fā)布方的立場(chǎng)與態(tài)度,而新聞評(píng)論則富含用戶情感信息,具有主觀性強(qiáng)、互動(dòng)積極、反饋及時(shí)和立場(chǎng)鮮明等特點(diǎn)。 因此,本文選擇俄羅斯權(quán)威網(wǎng)絡(luò)媒體發(fā)布的網(wǎng)絡(luò)新聞及新聞評(píng)論為語料的主要來源構(gòu)建語料庫(kù),為深度分析這些媒體及用戶的態(tài)度與情感奠定基礎(chǔ)。
表1 新聞及評(píng)論語料采集結(jié)果
具體來說,本文選擇俄羅斯網(wǎng)站與美國(guó)總統(tǒng)特朗普(Трамп)相關(guān)的新聞與評(píng)論為實(shí)驗(yàn)語料,采用面向特定新聞網(wǎng)站、使用關(guān)鍵詞搜索、獲取下載網(wǎng)頁(yè)并抽取正文與相應(yīng)評(píng)論的方法收集數(shù)據(jù)(原偉2017:37),采集來自РИА⑤新聞網(wǎng)站的語料。 根據(jù)2017 年10 月26 日РИА 網(wǎng)站的搜索結(jié)果,共查詢到17742 個(gè)與Трамп 相關(guān)的文本(視頻、圖片新聞除外)。 按照網(wǎng)站用戶評(píng)論數(shù)量排序(Обсуждаемое)后,發(fā)現(xiàn)在1647 篇新聞后評(píng)論數(shù)降低到50 以下,因此以此為節(jié)點(diǎn)挑采集1647篇新聞附帶評(píng)論正文作為實(shí)驗(yàn)語料,保存為純文本格式,總詞數(shù)約730.59 萬,語料規(guī)模較為可靠,具體統(tǒng)計(jì)數(shù)據(jù)見表1。
首先,對(duì)語料進(jìn)行預(yù)處理。 作為屈折語的典型代表,俄語的詞形變化復(fù)雜多樣,語法體系嚴(yán)謹(jǐn),語序靈活多變。 面向俄語進(jìn)行標(biāo)注處理,首要任務(wù)是形態(tài)分析和詞形還原。 目前,較為知名的俄語文本自動(dòng)處理工具(或系統(tǒng))有АОТ⑥,Сте?мка⑦和MyStem⑧等,根據(jù)其功能不同各具特色。本文俄語處理采用Yandex 公司研制開發(fā)的MyS?tem系統(tǒng),該系統(tǒng)可有效識(shí)別并處理俄語詞性和時(shí)間表達(dá),還原名詞、動(dòng)詞、形容詞、代詞、數(shù)詞等詞類的原始形式,標(biāo)注命名實(shí)體(人名、地名和機(jī)構(gòu)名等)等核心信息。 本文調(diào)用MyStem 的Python應(yīng)用接口對(duì)收集的新聞?wù)Z料進(jìn)行形態(tài)分析詞形還原和命名實(shí)體識(shí)別,用于下一步的情感分析。
其次,根據(jù)本研究的目標(biāo)與任務(wù),將語料承載的信息分為3 個(gè)部分:篇頭信息、篇體信息和情感信息。 篇頭信息指整篇語料的屬性和特征信息,針對(duì)本研究而言,指新聞?wù)Z料的標(biāo)題、時(shí)間、體裁、來源、作者、相關(guān)評(píng)論等,評(píng)論語料的用戶、評(píng)論時(shí)間、相關(guān)新聞等;篇體信息一般指語料中的語法、語義和語用信息等,本文只涉及文本語法信息中的詞類信息,借助俄語形態(tài)分析工具自動(dòng)處理;而情感信息特別針對(duì)本文的情感語料庫(kù)構(gòu)建任務(wù),主要包括情感對(duì)象、情感類別、子類等。 此外,由于所建立的語料庫(kù)需要體現(xiàn)一篇新聞?wù)Z料及其評(píng)論語料之間的關(guān)聯(lián),基于上述考慮,我們基于較為通用的TEI 標(biāo)注集設(shè)計(jì)一套面向俄語情感分析的標(biāo)注體系(表2)。
表2 語料庫(kù)標(biāo)注體系
最后,進(jìn)行語料標(biāo)注。 篇頭信息與篇體信息的標(biāo)注我們采用自動(dòng)標(biāo)注與人工校對(duì)相結(jié)合的方法,標(biāo)注過程較為高效。 情感標(biāo)注是整個(gè)標(biāo)注過程中工作量最大的部分, 而目前由于俄語情感分析普遍缺乏可用數(shù)據(jù)資源、參考標(biāo)準(zhǔn)和處理工具,因此全人工標(biāo)注雖然成本極高,但卻勢(shì)在必行。 同時(shí),為最大程度降低不同標(biāo)注者對(duì)文本的情感判斷的差異性, 我們采用人工雙重標(biāo)注方法,標(biāo)注者首先統(tǒng)一進(jìn)行標(biāo)注集學(xué)習(xí)和標(biāo)準(zhǔn)一致性討論,隨后采用對(duì)同一語料雙人分別標(biāo)注的方法,若標(biāo)注結(jié)果一致,則通過標(biāo)注結(jié)果;否則,采用第三人校對(duì)加以確認(rèn)、判斷與更正。 在此基礎(chǔ)上,我們對(duì)單篇評(píng)論數(shù)超過600 條的新聞以及包含對(duì)總計(jì)8031 條評(píng)論進(jìn)行標(biāo)注,面向俄語情感分析的實(shí)驗(yàn)新聞?wù)Z料庫(kù)初步建成。 新聞及評(píng)論語料標(biāo)注示例如下:
結(jié)合上文,在對(duì)8031 條新聞評(píng)論進(jìn)行篇頭、篇體以及情感標(biāo)注之后,基于該實(shí)驗(yàn)語料庫(kù),我們對(duì)其中所標(biāo)注的情感類(好、惡、哀、懼)、情感表達(dá)手段(名詞、動(dòng)詞、形容詞、固定搭配)進(jìn)行數(shù)量統(tǒng)計(jì)(表3)。 根據(jù)統(tǒng)計(jì)結(jié)果,如果將情感類“好”作為積極情感,而將“惡、哀、懼”歸為消極情感,那么積極情感與消極情感表達(dá)手段數(shù)量的比率約為1:2.5(5109:12933),也就是消極情感手段占主體,可初步判定俄羅斯民眾對(duì)美國(guó)總統(tǒng)特朗普的總體情感態(tài)度為消極。顯然,上述通過簡(jiǎn)單統(tǒng)計(jì)方法的情感分析判定較為粗糙。 為更加精確的對(duì)評(píng)論語料庫(kù)的情感態(tài)度做出判斷,需要借助文本傾向性分析手段實(shí)現(xiàn)。 文本傾向性分析的方法很多,這不是本文討論的重點(diǎn),我們采用基于支持向量機(jī)(SVM)的特征分類方法來驗(yàn)證本文語料情感標(biāo)注的有效性。基于SVM 的情感傾向性分析關(guān)鍵是情感特征項(xiàng)的選擇,本文的情感特征項(xiàng)即評(píng)論語料中所標(biāo)注的帶有情感色彩的名詞、形容詞、動(dòng)詞和固定搭配,按照“積極類”和“消極類”區(qū)分,作為向量空間的維,將在文本中的出現(xiàn)頻率作為特征的權(quán)重。隨后設(shè)計(jì)情感分類器,將積極情感表達(dá)手段的特征值定位為正值( +1),將消極情感的特征值定位為負(fù)值(-1),如評(píng)論文本中無情感特征項(xiàng)或積極情感與消極情感項(xiàng)數(shù)量相當(dāng)則判定為中性情感(0)。 通過這樣的方法,我們對(duì)8031 條新聞評(píng)論進(jìn)行了計(jì)算機(jī)情感傾向性自動(dòng)判定。 為對(duì)其準(zhǔn)確性做出判斷,組織人工閱讀判定上述新聞評(píng)論的情感基調(diào),兩者結(jié)果比較見表4。
表3 情感表達(dá)手段的統(tǒng)計(jì)分析表
表4 評(píng)論情感傾向性的人工與自動(dòng)判定結(jié)果比較
從結(jié)果來看,計(jì)算機(jī)自動(dòng)判定的總體結(jié)果同之前的統(tǒng)計(jì)分析基本一致,即消極評(píng)論占主體,但從數(shù)據(jù)細(xì)節(jié)來看,計(jì)算機(jī)存在一定比例的誤判。
這里分析機(jī)器判定錯(cuò)誤的原因,我們認(rèn)為主要有以下3 點(diǎn):第一,還未考慮其他情感表達(dá)手段的影響因素,如副詞、否定表達(dá)、標(biāo)點(diǎn)符號(hào)和表情符號(hào)等;第二,還未對(duì)情感表達(dá)手段的感情強(qiáng)度進(jìn)行程度賦值,如比較級(jí)、程度副詞對(duì)情感表達(dá)的影響等;第三,未考慮語言中的諷刺、比喻、隱喻等修辭手法的使用,這都會(huì)使得機(jī)器難以準(zhǔn)確判斷文本的情感傾向。 可以說,上述這些問題都是未來我們工作的重點(diǎn)。
通常來說,情感詞典根據(jù)適用領(lǐng)域的不同分為通用型和領(lǐng)域型。 通用情感詞典能滿足大部分情感分析任務(wù)的需求。 然而為解決特定領(lǐng)域的情感分析任務(wù)并提高分析精度,需要使用領(lǐng)域情感詞典,即根據(jù)某領(lǐng)域大量語料構(gòu)建的情感詞庫(kù),具有領(lǐng)域特定、時(shí)效性高等特點(diǎn)。 在上文中,我們已經(jīng)對(duì)8031 條新聞評(píng)論中的情感信息進(jìn)行標(biāo)注,將表達(dá)情感語義的名詞(3619 個(gè))、動(dòng)詞(4147 個(gè))、形容詞(5930 個(gè))和固定搭配(4346 個(gè))進(jìn)行標(biāo)注。這里我們借助已標(biāo)注信息,經(jīng)過形態(tài)分析還原和去重處理后,初步自動(dòng)抽取形成一部面向新聞評(píng)論領(lǐng)域的情感詞典,包括各類表達(dá)手段總計(jì)6321 條。這里限于篇幅,將情感詞典片段示例如表5。
表5 自動(dòng)抽取的新聞評(píng)論領(lǐng)域情感詞典片段
本文分析俄語情感表達(dá)的基本手段,將情感描述為4 大類、19 子類的分類體系,設(shè)計(jì)面向俄語情感分析的語料庫(kù)標(biāo)注體系并在新聞評(píng)論語料中進(jìn)行驗(yàn)證,并基于標(biāo)注語料進(jìn)行俄語情感分析實(shí)驗(yàn)并初步構(gòu)建包含6321 條情感表達(dá)手段的情感詞典。 可以說,俄語情感詞典和標(biāo)注語料庫(kù)將為語言學(xué)諸多研究工作提供數(shù)據(jù)支持和研究思路,同時(shí)也可以為俄語文本傾向性分析、話題檢測(cè)、輿情監(jiān)控等自然語言處理研究與應(yīng)用提供訓(xùn)練語料和核心數(shù)據(jù)資源,后續(xù)研究潛力巨大。 對(duì)俄語情感表達(dá)手段的研究還需進(jìn)一步深入,情感詞典與語料庫(kù)規(guī)模還有待進(jìn)一步擴(kuò)展與提升,語料庫(kù)結(jié)構(gòu)和標(biāo)注體系有待加強(qiáng),情感傾向性判定算法還應(yīng)繼續(xù)優(yōu)化,期待后續(xù)研究在這些方面能有新的發(fā)現(xiàn)與進(jìn)步。
注釋
①參見:http:/ /sentistrength.wlv.ac.uk
②參 見:http:/ /www. i?teco. ru/solutions/business_intelli gence_products/analytical_courier
③參見:http:/ /www.vaal.ru
④參見:http:/ /www.rco.ru/product.asp? ob_no =5047
⑤參見:https:/ /ria.ru/search/? query =трамп
⑥參見:http:/ /www.aot.ru
⑦參見:http:/ /www.keva.ru/stemka
⑧參見:https:/ /tech. yandex.ru/mystem
⑨TEI(Text Encoding Initiative)是機(jī)讀語篇的國(guó)際信息編碼方案,普遍用于大型語料庫(kù)標(biāo)注工作中,俄語國(guó)家語料庫(kù)(НКРЯ)的標(biāo)注體系也同TEI 相兼容。