劉若蘭 ,年 梅 ,范祖奎
1(新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,烏魯木齊 830054)2(新疆警察學(xué)院 語(yǔ)言系,烏魯木齊 830011)
教材在線(xiàn)評(píng)論的情感傾向性分析①
劉若蘭1,年 梅1,范祖奎2
1(新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,烏魯木齊 830054)2(新疆警察學(xué)院 語(yǔ)言系,烏魯木齊 830011)
為了充分挖掘和應(yīng)用電子商務(wù)網(wǎng)站中的教材評(píng)論信息,運(yùn)用細(xì)粒度的情感分類(lèi)算法對(duì)用戶(hù)的在線(xiàn)評(píng)論進(jìn)行分析,基于教材特征級(jí)的情感分析結(jié)果,輔助潛在客戶(hù)和商家做出合理有效的決策.本文首先使用爬蟲(chóng)采集教材的在線(xiàn)評(píng)論文本,對(duì)其進(jìn)行去噪、分詞和詞性標(biāo)注等預(yù)處理; 然后分析產(chǎn)品特征,在通用情感詞典的基礎(chǔ)上擴(kuò)建領(lǐng)域情感詞典; 最后基于句法分析結(jié)果,結(jié)合教材評(píng)論的語(yǔ)言特性,設(shè)計(jì)適合教材評(píng)論的情感傾向性分析算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了算法的有效性.
教材在線(xiàn)評(píng)論; 細(xì)粒度情感分析; 情感詞典; 產(chǎn)品特征
近年來(lái),電子商務(wù)的迅猛發(fā)展?jié)撘颇馗淖冎藗兊馁?gòu)物方式,網(wǎng)絡(luò)購(gòu)物已經(jīng)成為眾多消費(fèi)者首選的購(gòu)物方式,購(gòu)買(mǎi)商品后,多數(shù)消費(fèi)者也熱衷于在網(wǎng)站上留下對(duì)產(chǎn)品或服務(wù)的真實(shí)看法或體驗(yàn); 很多消費(fèi)者也習(xí)慣于在購(gòu)買(mǎi)商品前瀏覽已購(gòu)者的評(píng)論,從而幫助自己選擇合適的產(chǎn)品.因此電子商務(wù)網(wǎng)站上產(chǎn)品的在線(xiàn)評(píng)論信息急劇增長(zhǎng),教材評(píng)論就是其中的一類(lèi).大量的教材評(píng)論反映了消費(fèi)者對(duì)教材的整體意見(jiàn)和態(tài)度,具有很高的挖掘和應(yīng)用價(jià)值.一方面,評(píng)論中表達(dá)的觀(guān)點(diǎn)和情感可以對(duì)其他客戶(hù)的購(gòu)買(mǎi)意向產(chǎn)生影響; 另一方面,便于商家對(duì)教材的質(zhì)量或服務(wù)進(jìn)行改進(jìn),提高客戶(hù)滿(mǎn)意度.但是數(shù)量龐大、紛繁復(fù)雜的評(píng)論信息如果不加分析,將使用戶(hù)和商家從中提取教材質(zhì)量的可靠信息變得非常困難,因此迫切需要借助數(shù)據(jù)挖掘技術(shù)識(shí)別大量用戶(hù)發(fā)表的教材評(píng)論文本的情感傾向,從中獲取用戶(hù)對(duì)教材的主觀(guān)意見(jiàn).故本文在現(xiàn)有文本傾向性分析技術(shù)的基礎(chǔ)上,結(jié)合教材評(píng)論的特點(diǎn),設(shè)計(jì)適合教材評(píng)論的情感傾向性分析算法,以實(shí)現(xiàn)對(duì)教材評(píng)論信息的挖掘和處理.
通過(guò)總結(jié)在線(xiàn)評(píng)論情感傾向性分析的研究發(fā)現(xiàn),國(guó)內(nèi)外學(xué)者分別從粗粒度和細(xì)粒度兩個(gè)層面進(jìn)行了研究.粗粒度的情感分類(lèi)旨在判斷篇章或句子級(jí)評(píng)論文本的整體情感傾向.但當(dāng)一個(gè)評(píng)論語(yǔ)句對(duì)產(chǎn)品的多個(gè)屬性進(jìn)行評(píng)價(jià)時(shí),粗粒度的情感分析方法則無(wú)法獲知用戶(hù)具體喜歡或不喜歡哪些屬性.此時(shí)就需要使用細(xì)粒度情感分析算法,識(shí)別在線(xiàn)評(píng)論所涉及產(chǎn)品各屬性的情感傾向.而產(chǎn)品屬性會(huì)因領(lǐng)域的不同而發(fā)生變化,描述不同屬性的評(píng)價(jià)詞也不盡相同,因此細(xì)粒度情感分析是與領(lǐng)域密切相關(guān)的,目前,細(xì)粒度情感分析方法已被應(yīng)用于汽車(chē)[1]、手機(jī)[2]、凈化器[3]等領(lǐng)域評(píng)論數(shù)據(jù)的研究中,采用的研究方法主要包括有監(jiān)督和無(wú)監(jiān)督兩類(lèi)方法.
有監(jiān)督方法,把細(xì)粒度的情感分析任務(wù)轉(zhuǎn)化為詞匯的序列標(biāo)注問(wèn)題,如文獻(xiàn)[4]將屬性詞和情感詞的抽取視為一個(gè)序列標(biāo)注任務(wù),利用詞匯化的隱馬爾科夫模型判別詞匯所屬的標(biāo)注類(lèi)別.劉麗等人[2]則提出條件隨機(jī)場(chǎng)(CRF)和語(yǔ)法剪枝相結(jié)合的細(xì)粒度情感分析方法.
無(wú)監(jiān)督方法則是基于句法分析的方法,如姚天昉[1]等人通過(guò)構(gòu)建汽車(chē)領(lǐng)域本體提取主題詞,然后基于句法分析結(jié)果,提出改進(jìn)的SBV算法識(shí)別主題—意見(jiàn)詞對(duì),最終確定語(yǔ)句中各主題詞的情感極性.劉鴻宇[5]等人首先借助句法分析結(jié)果抽取候選評(píng)價(jià)對(duì)象,然后利用網(wǎng)絡(luò)挖掘的PMI算法和名詞剪枝算法篩選候選評(píng)價(jià)對(duì)象,最后將情感句劃分為四類(lèi),并制定相適合的傾向性判別規(guī)則,最終實(shí)現(xiàn)評(píng)價(jià)對(duì)象級(jí)的傾向性判別.例如文獻(xiàn)[6-8]也基于句法分析進(jìn)行在線(xiàn)評(píng)論的情感傾向性分析研究.
教材評(píng)論信息的挖掘?qū)τ诮處熀蛯W(xué)生選擇合適的教材具有重要的參考作用,同時(shí)能夠?yàn)榻滩木帉?xiě)人員以及出版部門(mén)提高教材質(zhì)量提供可靠建議.但到目前為止還未見(jiàn)教材評(píng)論領(lǐng)域細(xì)粒度情感分析研究的成果.由于細(xì)顆粒度的評(píng)論分析所挖掘的產(chǎn)品屬性和情感詞是與領(lǐng)域密切相關(guān)的,因此無(wú)法直接使用其他領(lǐng)域或者通用領(lǐng)域的產(chǎn)品特征詞以及情感詞.例如“內(nèi)容”、“排版”、“紙張”等產(chǎn)品特征,以及“深入淺出”,“醍醐灌頂”等情感詞,在其他領(lǐng)域中幾乎很少見(jiàn).其他領(lǐng)域細(xì)粒度情感分析的資源和算法如果直接應(yīng)用在教材評(píng)論分析中,必然會(huì)影響情感分析的效果,為此本文進(jìn)行教材在線(xiàn)評(píng)論的情感傾向性分析研究.在分析算法的選擇方面,考慮到有監(jiān)督方法通常需要耗費(fèi)大量人力標(biāo)注語(yǔ)料,也不利于領(lǐng)域切換.而無(wú)監(jiān)督方法無(wú)需耗費(fèi)人力資源標(biāo)注語(yǔ)料,并且能夠準(zhǔn)確描述情感詞和評(píng)價(jià)對(duì)象之間的搭配關(guān)系,以及副詞與情感詞之間的修飾關(guān)系.因此本文采用基于句法分析的方法對(duì)教材評(píng)論進(jìn)行特征級(jí)的情感分析.
本文借助細(xì)粒度情感分類(lèi)技術(shù),對(duì)從網(wǎng)絡(luò)上抓取的大量計(jì)算機(jī)專(zhuān)業(yè)本科教材的評(píng)價(jià)文本進(jìn)行情感極性分析,從而輔助商家和出版社改進(jìn)教材的質(zhì)量、制定合理的銷(xiāo)售策略,并為潛在消費(fèi)者的購(gòu)買(mǎi)決策提供參考依據(jù).
細(xì)粒度情感分析方法的基本流程如圖1所示,包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、產(chǎn)品特征提取以及評(píng)論文本傾向性分析四個(gè)步驟.其中,數(shù)據(jù)采集、預(yù)處理以及產(chǎn)品特征提取為情感傾向性分析算法提供基礎(chǔ)資源,主要包括評(píng)論語(yǔ)料資源、領(lǐng)域情感詞典資源和產(chǎn)品特征詞庫(kù)資源等.本文首先介紹語(yǔ)料的預(yù)處理與資源的構(gòu)建,然后在第3節(jié)中對(duì)核心算法—評(píng)論文本情感傾向性分析算法的設(shè)計(jì)進(jìn)行詳細(xì)介紹.
圖1 細(xì)粒度情感分析方法的基本流程圖
教材評(píng)論的情感傾向性分析和產(chǎn)品特征的提取需要大量評(píng)論語(yǔ)料的支撐,因此本文利用定制爬蟲(chóng)從當(dāng)當(dāng)、京東等網(wǎng)站爬取了教材評(píng)論文本,然后對(duì)其進(jìn)行了去噪、分詞和詞性標(biāo)注等預(yù)處理,以便為后期工作提供較好的數(shù)據(jù)資源.
2.1.1 數(shù)據(jù)去噪
從當(dāng)當(dāng)、京東等網(wǎng)站采集的原始評(píng)論中存在很多冗余評(píng)論,如:同一用戶(hù)針對(duì)同一產(chǎn)品發(fā)表的多條相同評(píng)論,這類(lèi)數(shù)據(jù)會(huì)影響教材情感分析結(jié)果的準(zhǔn)確性.因此對(duì)這種重復(fù)數(shù)據(jù)作刪除處理,最終僅保留其中的一條.此外,評(píng)論中大于200字的長(zhǎng)評(píng)論大都是對(duì)教材的客觀(guān)介紹,不具備情感分析條件,因此本文刪除了這類(lèi)評(píng)論.為了消除評(píng)論中的噪音,還對(duì)語(yǔ)料進(jìn)行了錯(cuò)別字糾正、拼音、英語(yǔ)替換等一系列去噪處理.
2.1.2 語(yǔ)料的分詞與詞性標(biāo)注
利用中國(guó)科學(xué)院計(jì)算機(jī)所研發(fā)的中文分詞軟件ICTCLAS2016對(duì)已去噪的評(píng)論數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注.由于ICTCLAS2016對(duì)一些計(jì)算機(jī)專(zhuān)業(yè)名詞、網(wǎng)絡(luò)新詞等詞匯的切分結(jié)果不正確,因此本文自定義了領(lǐng)域分詞詞典,以?xún)?yōu)化詞匯切分效果.
教材評(píng)論情感傾向性分析離不開(kāi)情感詞典資源的支撐,但目前,國(guó)內(nèi)還沒(méi)有一部面向教材評(píng)論領(lǐng)域的情感詞典.而教材評(píng)論也有別于其他領(lǐng)域的用戶(hù)評(píng)論,它經(jīng)常使用的有些情感詞是其他領(lǐng)域很少使用或不使用的詞語(yǔ),例如:“言簡(jiǎn)意賅”、“妙筆生花”、“深入淺出”等詞,因此通用情感詞典難以滿(mǎn)足教材評(píng)論情感分析研究的需求.鑒于此,文本選擇了基礎(chǔ)情感詞典,構(gòu)建了領(lǐng)域情感詞典、網(wǎng)絡(luò)情感詞典和極性修飾情感詞典等資源.
(1)基礎(chǔ)情感詞典
目前,公開(kāi)發(fā)表的中文情感詞典資源有知網(wǎng)的HowNet、臺(tái)灣大學(xué)發(fā)布的NTUSD以及大連理工大學(xué)構(gòu)建的情感詞匯本體庫(kù).上述三個(gè)詞典中,HowNet和NTUSD僅區(qū)分了情感詞的極性,而大連理工大學(xué)發(fā)布的情感詞典不僅區(qū)分了詞匯的情感極性,還描述了詞匯的情感強(qiáng)度.為了計(jì)算教材評(píng)論的褒貶極性及其極性強(qiáng)度,本文選擇大連理工大學(xué)的情感詞庫(kù)作為基礎(chǔ)情感詞典.
(2)領(lǐng)域情感詞典
教材評(píng)論中有很多其他領(lǐng)域不使用,并且通用情感詞典不包含的情感詞,因此本文總結(jié)了教材評(píng)論中經(jīng)常使用但基礎(chǔ)情感詞典不包括的情感詞,例如“妙筆生花”、“由淺及深”等詞匯,并人工定義情感極性,形成了教材評(píng)論的領(lǐng)域情感詞典,目前,該詞典共收集了643個(gè)詞匯.
(3)網(wǎng)絡(luò)情感詞典
網(wǎng)絡(luò)情感詞起源于網(wǎng)絡(luò),并深受網(wǎng)絡(luò)用戶(hù)的喜愛(ài),教材評(píng)論中網(wǎng)絡(luò)情感詞的使用頻率也很高.例如“給力”,“爆贊”等詞匯,所以本文收集、整理了這種極性明顯、情感強(qiáng)烈的網(wǎng)絡(luò)情感詞,形成網(wǎng)絡(luò)情感詞典.
(4)極性修飾情感詞典
用戶(hù)在發(fā)表評(píng)論時(shí),通常會(huì)使用程度副詞和否定副詞來(lái)表達(dá)不同程度的情感態(tài)度.其中程度副詞影響情感的強(qiáng)弱,否定詞則影響情感的極性.為此本文從相關(guān)文獻(xiàn)中總結(jié)了修飾情感詞的程度副詞和否定副詞,形成極性修飾情感詞典.參考文獻(xiàn)[9-15],從中總結(jié)了132個(gè)程度副詞,并按照其對(duì)情感色彩的影響程度,劃分成四個(gè)等級(jí),具體見(jiàn)表1所示.否定詞則來(lái)源于對(duì)文獻(xiàn)[10-13]的總結(jié),最終得到了62個(gè)否定副詞,如表2所示.
表1 程度副詞列表
表2 程度副詞列表
細(xì)粒度情感分析,需要獲取在線(xiàn)評(píng)論中用戶(hù)評(píng)價(jià)的產(chǎn)品特征.產(chǎn)品特征一般是名詞和名詞性短語(yǔ),因此特征提取則轉(zhuǎn)化為對(duì)名詞和名詞性短語(yǔ)的提取和篩選.由于本文選擇的分詞工具ICTCLAS2016僅能標(biāo)注出名詞,但不能標(biāo)注出名詞性短語(yǔ).為此,本文在分詞結(jié)果的基礎(chǔ)上,制定了以下3條規(guī)則識(shí)別文本中的名詞性短語(yǔ),這樣就能較為完整地提取教材的候選產(chǎn)品特征.
(1)“名詞+名詞”規(guī)則:相鄰兩個(gè)名詞直接連接構(gòu)成的名詞詞組很可能是一個(gè)產(chǎn)品特征.例如評(píng)論句:紙張/n材質(zhì)/n一般/uyy.其中“紙張材質(zhì)”這個(gè)產(chǎn)品特征在分詞標(biāo)注時(shí)往往分解成兩個(gè)名詞:“紙張”和“材質(zhì)”.
(2)“名詞+的+名詞”規(guī)則:結(jié)構(gòu)助詞“的”連接的兩個(gè)名詞,也很有可能是一個(gè)產(chǎn)品特征,例如評(píng)論句:書(shū)/n 的/ude1 質(zhì)量/n 不太/d 好/a.產(chǎn)品特征“書(shū)的質(zhì)量”由“的”連接的兩個(gè)名詞“書(shū)”和“質(zhì)量”構(gòu)成.
(3)“動(dòng)詞+名詞”規(guī)則:分析圖書(shū)評(píng)論數(shù)據(jù)發(fā)現(xiàn),很多產(chǎn)品特征由相鄰的一個(gè)動(dòng)詞和一個(gè)名詞組成.例如評(píng)論:印刷/v 質(zhì)量/n 非常/d 好/a,快遞/v 速度/n 也/d 快/a.
按照上述三條規(guī)則,本文以評(píng)論語(yǔ)料中的句子為單位,找出句子中的名詞性短語(yǔ),并將其轉(zhuǎn)換為名詞,最后將文本中的名詞作為候選特征詞提取出來(lái),經(jīng)過(guò)人工校驗(yàn)再確定是否加入到產(chǎn)品特征詞庫(kù).具體的實(shí)現(xiàn)步驟如下:
(1)按圖2所示流程從語(yǔ)料中提取名詞性短語(yǔ).
圖2 名詞性短語(yǔ)的提取流程
(2)人工判別提取的名詞性短語(yǔ)是否為產(chǎn)品特征,如果是,則加入用戶(hù)自定義分詞詞典和產(chǎn)品特征詞庫(kù)中.
(3)利用新的用戶(hù)分詞詞典,再次對(duì)評(píng)論數(shù)據(jù)進(jìn)行分詞及詞性標(biāo)注,然后再對(duì)新的標(biāo)注結(jié)果執(zhí)行步驟(1)-(2),直到?jīng)]有新的產(chǎn)品特征加入用戶(hù)分詞詞典為止.
(4)提取教材評(píng)論最終標(biāo)注結(jié)果中的名詞,判斷其中不屬于產(chǎn)品特征詞庫(kù)中的名詞是否為教材產(chǎn)品的特征或?qū)傩?如果是,則合并到產(chǎn)品特征詞庫(kù)中.
經(jīng)過(guò)上述步驟,最終構(gòu)建的特征詞庫(kù)共包括1321個(gè)特征詞.
本文采用基于句法分析的極性判別算法實(shí)現(xiàn)教材評(píng)論文本的情感傾向性分析,句法分析工具使用了哈工大社會(huì)計(jì)算與信息檢索研究中心研發(fā)的語(yǔ)言技術(shù)平臺(tái)(LTP),通過(guò)該平臺(tái)對(duì)優(yōu)化后的分詞結(jié)果進(jìn)行依存關(guān)系分析.極性判別方法則借鑒了文獻(xiàn)[2]中的情感分析算法,首先使用SBV、VOB、ATT和ADV這四種依存關(guān)系,從教材評(píng)論中抽取特征-意見(jiàn)對(duì),然后根據(jù)意見(jiàn)詞及其修飾詞的極性值確定特征-意見(jiàn)對(duì)的情感值.其中SBV、VOB、ATT和ADV依存關(guān)系的具體說(shuō)明見(jiàn)表3.
表3 LTP 依存關(guān)系標(biāo)記說(shuō)明
利用文獻(xiàn)[2]提供的依存關(guān)系對(duì)教材評(píng)論中的特征-意見(jiàn)對(duì)進(jìn)行抽取后發(fā)現(xiàn),有些情感搭配對(duì)還無(wú)法提取出來(lái),其原因在于依存分析時(shí)有些產(chǎn)品特征被標(biāo)注成表3中的動(dòng)補(bǔ)結(jié)構(gòu)(CWP),為此本文提出增加CWP結(jié)構(gòu)提取部分特征-意見(jiàn)對(duì).此外,由于教材評(píng)論語(yǔ)句的隨意性,存在很多省略評(píng)價(jià)對(duì)象的評(píng)論語(yǔ)句,例如評(píng)論句:還不錯(cuò)哦,推薦.對(duì)于此類(lèi)情況,僅利用文獻(xiàn)[2]的情感分析算法則無(wú)法抽取.通過(guò)對(duì)大量教材評(píng)論的分析發(fā)現(xiàn),省略評(píng)論句大多數(shù)是對(duì)“書(shū)”的整體進(jìn)行評(píng)價(jià),因此當(dāng)評(píng)論句中情感詞所修飾的評(píng)價(jià)對(duì)象被省略時(shí),本文提出補(bǔ)充“書(shū)”作為其所修飾的評(píng)價(jià)對(duì)象.
基于第2節(jié)生成的產(chǎn)品特征詞庫(kù)和情感詞典資源,本文的情感傾向性分析算法可描述如下:其中Product-Value表示產(chǎn)品特征的情感值,SentimentValue代表情感詞的極性值,AdverbStrength則代表副詞的強(qiáng)度值,這里的副詞包括極性修飾情感詞典中的程度副詞和否定副詞.
(1)尋找一條評(píng)論語(yǔ)句中所有的SBV結(jié)構(gòu)對(duì),對(duì)于每個(gè) SBV 對(duì),記主語(yǔ)為 subject,謂語(yǔ)為 predicate,如果主語(yǔ)是產(chǎn)品特征,謂語(yǔ)是情感詞,轉(zhuǎn)步驟(2),如果主語(yǔ)不是產(chǎn)品特征,但謂語(yǔ)是情感詞,則轉(zhuǎn)步驟(3).
(2)繼續(xù)查找謂語(yǔ)是否有ADV結(jié)構(gòu).
a)如果有,并且ADV結(jié)構(gòu)中的副詞adverb在副詞列表中,則:
ProductValue(subject)=SentimentValue(predicate)*AdverbStrength(adverb)
b)否則產(chǎn)品特征的極性值:ProductValue(subject)=SentimentValue(predicate)
(3)查找謂語(yǔ)是否有 VOB 關(guān)系對(duì),如果有,并且VOB關(guān)系中的賓語(yǔ)object是產(chǎn)品特征,則該產(chǎn)品特征的情感值:ProductValue(object)=SentimentValue(predicate)
(4)查找評(píng)論句中的全部ATT結(jié)構(gòu)對(duì),如果其中的名詞noun是產(chǎn)品特征,并且定語(yǔ)attribute是情感詞,則判斷該情感詞是否有ADV結(jié)構(gòu).
a)如果有,并且包含在A(yíng)DV結(jié)構(gòu)的副詞在副詞列表中,則:
ProductValue(noun)=SentimentValue(attribute)*Adv erbStrength(adverb)
b)否則產(chǎn)品特征的情感值:
ProductValue(noun)=SentimentValue(attribute)
(5)對(duì)于評(píng)論中所有的 CMP(動(dòng)補(bǔ))結(jié)構(gòu),如果依存關(guān)系對(duì)右邊的動(dòng)詞verb是產(chǎn)品特征,同時(shí)左邊的補(bǔ)語(yǔ)complement是情感詞,則判斷該情感詞是否有ADV結(jié)構(gòu).
a)如果有,并且 ADV 結(jié)構(gòu)中的副詞在副詞列表中,則:
ProductValue(verb)=SentimentValue(complement)*AdverbStrength(adverb)
b)否則產(chǎn)品特征的情感值:ProductValue(verb)=SentimentValue(complement)
(6)記錄步驟(1)-(5)中處理過(guò)的情感詞,并打上Marked標(biāo)簽,查找句子中未標(biāo)記的情感詞sword,為情感詞添加“書(shū)”作為其描述的產(chǎn)品特征,然后判斷情感詞是否有ADV結(jié)構(gòu).
a)如果有,并且 ADV 結(jié)構(gòu)中的狀語(yǔ) adverbial在副詞列表中,則產(chǎn)品特征“書(shū)”的情感值:ProductValue(書(shū))=SentimentValue(sword)*AdverbStrength(adverb)
b)否則:ProductValue(書(shū))=SentimentValue(sword).
為了證明本文面向教材評(píng)論構(gòu)建的情感詞典和提出的情感傾向性分析算法的有效性,從構(gòu)建的評(píng)論語(yǔ)料資源中選取了4000個(gè)句子作為實(shí)驗(yàn)語(yǔ)料,并人工標(biāo)注了語(yǔ)料中產(chǎn)品特征和情感修飾項(xiàng)的關(guān)系以及產(chǎn)品特征的情感極性,最終標(biāo)注了6095個(gè)產(chǎn)品特征-意見(jiàn)對(duì).
為了評(píng)估本文算法的性能,采用目前常用的準(zhǔn)確率、召回率和F值(F-measure)作為評(píng)價(jià)指標(biāo),其計(jì)算方式定義如下:
其中,A為算法挖掘出的正確特征-意見(jiàn)對(duì)的數(shù)量,B為算法挖掘出的特征-意見(jiàn)對(duì)的數(shù)量,C為測(cè)試語(yǔ)料中特征-意見(jiàn)對(duì)的人工標(biāo)注數(shù)量.
在實(shí)驗(yàn)中,首先使用了本文構(gòu)建的教材評(píng)論情感詞典,測(cè)試算法在產(chǎn)品特征-情感描述項(xiàng)和產(chǎn)品特征極性方面的識(shí)別結(jié)果; 然后再使用大連理工大學(xué)發(fā)布的通用情感詞典,獲得相同語(yǔ)料下的識(shí)別效果; 最后以人工標(biāo)注結(jié)果為基準(zhǔn),分別計(jì)算使用這兩部情感詞典的識(shí)別結(jié)果的準(zhǔn)確率、召回率和F值,結(jié)果如表4所示.
表4 文本算法利用兩部詞典的情感傾向性分析結(jié)果
由表4可知,基于本文的教材評(píng)論情感詞典進(jìn)行教材評(píng)論傾向性分析的準(zhǔn)確率、召回率和F值,均高于利用大連理工大學(xué)發(fā)布的通用情感詞典的實(shí)驗(yàn)結(jié)果.其中召回率的提高幅度最明顯,其主要原因在于本文在構(gòu)建教材評(píng)論情感詞典時(shí),考慮到用戶(hù)評(píng)論中經(jīng)常使用一些口語(yǔ)化的情感詞、網(wǎng)絡(luò)情感詞以及評(píng)論教材時(shí)使用的特殊情感詞,故對(duì)這類(lèi)情感詞進(jìn)行了歸納總結(jié),然后將其納入教材評(píng)論情感詞典中,這在一定程度上擴(kuò)大了情感詞典的覆蓋面,提高了情感詞典在教材評(píng)論領(lǐng)域的適用性,因此使用該詞典的傾向性判別性能明顯提升,充分證明了文本構(gòu)建的教材評(píng)論情感詞典的實(shí)用性和有效性.
此外,為了比較本文情感分析算法的性能,還將本文方法和文獻(xiàn)[2]的方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如表5所示.
表5 本文算法和文獻(xiàn)[2]算法的情感傾向性分析結(jié)果
從表5的結(jié)果表明,利用本文算法進(jìn)行情感傾向性分析的實(shí)驗(yàn)結(jié)果比文獻(xiàn)[2]中算法的實(shí)驗(yàn)效果好,其準(zhǔn)確率、召回率、F值的性能指標(biāo)都有所提升,這證明本文提出的教材評(píng)論情感傾向性分析算法的有效性.同時(shí)也進(jìn)一步表明,在進(jìn)行細(xì)粒度的情感分析時(shí),沒(méi)有一種萬(wàn)能的傾向性分析算法能夠適應(yīng)所有領(lǐng)域的評(píng)論數(shù)據(jù),因此面向不同領(lǐng)域的評(píng)論數(shù)據(jù)進(jìn)行極性分析時(shí),需要依據(jù)評(píng)論數(shù)據(jù)的特殊性,提出適合于該領(lǐng)域評(píng)論數(shù)據(jù)的領(lǐng)域詞典和傾向性分析算法.
本文利用當(dāng)前與日俱增的教材評(píng)論信息進(jìn)行情感傾向性分析研究,通過(guò)構(gòu)建評(píng)論語(yǔ)料庫(kù)、產(chǎn)品特征詞庫(kù)和教材領(lǐng)域情感詞典資源,借鑒已有的情感傾向性分析技術(shù),結(jié)合教材評(píng)論的不同之處,最終提出適合教材評(píng)論的細(xì)粒度情感傾向性分析算法,從教材評(píng)論中提取特征-意見(jiàn)對(duì),挖掘讀者評(píng)論對(duì)產(chǎn)品特征的褒貶評(píng)價(jià),從而幫助消費(fèi)者優(yōu)化購(gòu)買(mǎi)決策,也可為商家改進(jìn)產(chǎn)品、制定銷(xiāo)售方案提供有效依據(jù).最后通過(guò)實(shí)驗(yàn)驗(yàn)證了本文算法的有效性.雖然本文提出的方法在一定程度上實(shí)現(xiàn)了教材評(píng)論產(chǎn)品特征級(jí)的情感分析,但也存在一些不足之處,如:產(chǎn)品特征和情感詞典構(gòu)建的自動(dòng)化程度不夠高,還需要依靠人工篩選.在情感傾向性分析方面,特征-意見(jiàn)對(duì)提取的查全率還有待進(jìn)一步提高.這些將成為本文下一步的主要研究任務(wù).
1姚天昉,婁德成.漢語(yǔ)語(yǔ)句主題語(yǔ)義傾向分析方法的研究.中文信息學(xué)報(bào),2007,21(5):73–79.
2劉麗,王永恒,韋航.面向產(chǎn)品評(píng)論的細(xì)粒度情感分析.計(jì)算機(jī)應(yīng)用,2015,35(12):3481–3486,3505.[doi:10.11772/j.issn.1001-9081.2015.12.3481]
3占文平.面向產(chǎn)品評(píng)論的情感分析技術(shù)研究[碩士學(xué)位論文].杭州:浙江工商大學(xué),2015.
4Jin W,Ho HH.A novel lexicalized HMM-based learning framework for web opinion mining.Proc.of the 26th Annual International Conference on Machine Learning.New York,NY,USA.2009.465–472.
5劉鴻宇,趙妍妍,秦兵,等.評(píng)價(jià)對(duì)象抽取及其傾向性分析.中文信息學(xué)報(bào),2010,24(1):84–88,122.
6陳豪,劉功申,黃晨.基于句法分析的商品情感傾向性分析.信息安全與通信保密,2013,(2):68–70.
7馮時(shí),付永陳,陽(yáng)鋒,等.基于依存句法的博文情感傾向分析研究.計(jì)算機(jī)研究與發(fā)展,2012,49(11):2395–2406.
8萬(wàn)常選,江騰蛟,鐘敏娟,等.基于詞性標(biāo)注和依存句法的Web 金融信息情感計(jì)算.計(jì)算機(jī)研究與發(fā)展,2013,50(12):2554–2569.[doi:10.7544/issn1000-1239.2013.20130875]
9邸鵬.基于句子情感權(quán)值合成算法的篇章情感分析[碩士學(xué)位論文].太原:太原理工大學(xué),2015.
10郭書(shū)彤.基于Web文本的圖書(shū)評(píng)論傾向性分析方法的研究[碩士學(xué)位論文].長(zhǎng)春:東北師范大學(xué),2015.
11周城.面向中文Web評(píng)論的情感分析技術(shù)研究[碩士學(xué)位論文].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.
12劉玉嬌,琚生根,伍少梅,等.基于情感字典與連詞結(jié)合的中文文本情感分類(lèi).四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,52(1):57–62.
13徐葉強(qiáng).基于情感分類(lèi)的產(chǎn)品評(píng)論垂直搜索引擎的研究[碩士學(xué)位論文].株洲:湖南工業(yè)大學(xué),2012.
14張成功,劉培玉,朱振方,等.一種基于極性詞典的情感分析方法.讓東大學(xué)學(xué)報(bào) (理學(xué)版),2012,47(3):47–50.
15陳國(guó)蘭.基于情感詞典與語(yǔ)義規(guī)則的微博情感分析.情報(bào)探索,2016,(2):1–6.
Emotional Tendency Analysis of Online Comments on Teaching Materials
LIU Ruo-Lan1,NIAN Mei1,FAN Zu-Kui2
1(The Computer Science&Technology Department,Xinjiang Normal University,Urumqi 830054,China)2(The Language Department,Xinjiang Police College,Urumqi 830011,China)
In order to fully tap and apply the information of textbook reviews on the e-commerce website,we use finegrained emotional classification algorithm to analyze the user’s online comments,based on the sentiment analysis results of product feature level,so as to assist customers and businesses to make reasonable and effective decision.In this article,we first use the crawler tool to collect online comment texts of teaching materials,and carry on some pretreatments such as denoising,segmentation and POS tagging,and then analyze the product features,based on the general emotional dictionary expands domain sentiment dictionary.Finally,based on the syntactic analysis results,combined with the language features of textbook comments,we design an affective tendency analysis algorithm which is suitable for the textbook reviews,and prove the validity of the algorithm through experiments.
the online reviews of teaching material; fine-grained emotion analysis; emotion dictionary; product features
劉若蘭,年梅,范祖奎.教材在線(xiàn)評(píng)論的情感傾向性分析.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(10):144–149.http://www.c-s-a.org.cn/1003-3254/5996.html
國(guó)家自然科學(xué)基金(61163064); 教育部人文社會(huì)科學(xué)工程科技人才培養(yǎng)專(zhuān)項(xiàng)(15JDGC022); 新疆師范大學(xué)數(shù)據(jù)安全重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目;新疆師范大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)重點(diǎn)學(xué)科資助
2017-01-08; 采用時(shí)間:2017-02-17