陳舒
摘要:通用型情感分析技術(shù)較為成熟,卻有一定的領(lǐng)域局限性。針對時(shí)下熱門的網(wǎng)絡(luò)訂餐平臺評論進(jìn)行挖掘,引入搜狗細(xì)胞詞庫,修正錯(cuò)別字,并對網(wǎng)絡(luò)術(shù)語和顏文字進(jìn)行轉(zhuǎn)換,在通用HowNet情感詞庫的基礎(chǔ)上,自建網(wǎng)絡(luò)訂餐關(guān)聯(lián)邏輯詞庫,使用TF-IDF加權(quán)算法,最終構(gòu)建出專屬網(wǎng)絡(luò)訂餐情感詞庫,提升了情感評分準(zhǔn)確度,同時(shí)分析出網(wǎng)絡(luò)訂餐的主要屬性,并對此進(jìn)行更深層次的意見挖掘。
關(guān)鍵詞:
網(wǎng)絡(luò)訂餐;情感分析;專屬詞庫;意見挖掘
DOIDOI:10.11907/rjdk.172637
中圖分類號:TP301
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2017)012-0033-03
Abstract:The universal sentiment analysis technology is more mature, but there are certain limitations of the field, this paper reviews the popular nowadays network ordering platform for mining, the introduction of Sogou cell thesaurus, correcting typos, and the network terminology and color text conversion, based on the general emotion lexicon HowNet, self built network ordering logic Association Thesaurus the use of Term frequency–inverse document frequency(TF-IDF)weighted algorithm, and finally construct the exclusive network ordering emotion lexicon, enhance the emotion score accuracy, at the same time analysis of the main attributes of the network order, and make deeper digging opinions.
Key Words:network ordering; sentiment analysis; thesaurus; opinion mining
0 引言
隨著都市生活節(jié)奏的加速和無現(xiàn)金交易的普及,產(chǎn)生了曾紅極一時(shí)的團(tuán)購網(wǎng)站,還有如今的網(wǎng)絡(luò)訂餐平臺,人們的餐飲習(xí)慣也被潛移默化地改變著,從最初的自己做飯,到堂食,再到如今的外賣。最新數(shù)據(jù)顯示,僅2017年第二季度,我國外賣餐飲交易量就高達(dá)459.5億元。訂餐平臺可為客戶提供對商家滿意度的在線評分和在線評論功能。評分的高低可以給予潛在客戶一定參考,但是并不能讓這些客戶以及商家本身明確了解其優(yōu)勢和不足。另外,大部分外賣依托第三方有償送餐平臺,如達(dá)達(dá)、蜂鳥等,送餐員服務(wù)良莠不齊,如果不能及時(shí)發(fā)現(xiàn)問題,勢必會(huì)給商家造成重大損失。餐飲作為第三產(chǎn)業(yè),服務(wù)是其中的重要因素,而在線評論能有效體現(xiàn)出服務(wù)質(zhì)量。依靠傳統(tǒng)的客服專員逐條審閱,已無法應(yīng)對海量訂單,而日益成熟的情感分析技術(shù)[1],能夠很好地挖掘評論中的有效信息,幫助客戶和商家共建更好的網(wǎng)絡(luò)訂餐市場。然而,目前并沒有網(wǎng)絡(luò)訂餐專用的詞庫,僅依靠通用情感詞庫和飲食類詞庫進(jìn)行分析[2],結(jié)果不夠理想,需要構(gòu)建專屬情感詞庫。
1 數(shù)據(jù)特征分析
通過網(wǎng)絡(luò)蜘蛛對餓了么(www.ele.me)、美團(tuán)外賣(waimai.meituan.com)兩個(gè)最熱門的外賣美食網(wǎng)站的評論進(jìn)行抓取分析,評論主要針對以下7個(gè)方面,這7個(gè)屬性的積極或消極,對最后的情感值計(jì)算起到關(guān)鍵作用:①配送方面:配送快/慢,態(tài)度好/差,包裝完整/不完整;②菜品本身:口味合適/不合適,分量足/不足,新鮮/不新鮮,衛(wèi)生/不衛(wèi)生。同時(shí),這7個(gè)屬性對商家而言也是最有價(jià)值的,所以需要進(jìn)行更深層的意見挖掘。此外,評論呈現(xiàn)以下幾個(gè)特點(diǎn):
(1)文本較短,錯(cuò)別字頻繁。個(gè)別網(wǎng)站開設(shè)評論激勵(lì)機(jī)制[3],但大部分會(huì)選擇外賣的人,并不愿意多花精力去認(rèn)真評論。
(2)偏愛網(wǎng)絡(luò)術(shù)語和顏文字。熱衷外賣美食的人群,日常多與互聯(lián)網(wǎng)密不可分,語言習(xí)慣勢必受到一定影響,尤其在表達(dá)強(qiáng)烈情感時(shí),更喜歡頻繁使用網(wǎng)絡(luò)術(shù)語和顏文字,例如:表達(dá)消極情感的“我勒個(gè)去”、“( ̄へ ̄)”,表達(dá)積極情感的“種草”、“(*^▽^*)”等,而這些十分重要的信號,并沒有體現(xiàn)在情感詞庫中。
(3)通用情感詞庫不適用。一些詞語如“頭發(fā)”、“蟑螂”等食品中的常見異物,本身在通用情感詞庫中沒有情感傾向,但在評論中出現(xiàn),則間接表達(dá)了極大的消極情感,在邏輯上和網(wǎng)絡(luò)訂餐評論有著強(qiáng)關(guān)聯(lián),而其它一些不出現(xiàn)或很少出現(xiàn)在網(wǎng)絡(luò)訂餐領(lǐng)域的詞匯,則變成了噪聲。
統(tǒng)計(jì)數(shù)據(jù)顯示,網(wǎng)絡(luò)訂餐的主力為80和90后,而80和90后中超過75%的人群使用搜狗輸入法,所以考慮將搜狗細(xì)胞詞庫引入本文模型。
2 專屬情感詞庫構(gòu)建
本文基于統(tǒng)計(jì)學(xué)原理,利用TF-IDF(Term Frequency–Inverse Document Frequency)加權(quán)算法構(gòu)建專屬情感詞庫的流程如圖1所示。
TF-IDF算法的主要思想是:如果某個(gè)詞在一類文本中出現(xiàn)頻率較高,但在其它類型文本中不出現(xiàn)或很少出現(xiàn),則認(rèn)為此詞具有良好的分類能力[4]。
(1)考慮到個(gè)人對顏文字和網(wǎng)絡(luò)術(shù)語的不同偏愛,這些新詞出現(xiàn)的頻率成分散狀,為了避免因詞匯低頻出現(xiàn)錯(cuò)誤的過濾,首先利用搜狗細(xì)胞詞庫中的“顏文字”(詞條共600個(gè))和“網(wǎng)絡(luò)術(shù)語”(詞條共489個(gè))對原評論進(jìn)行轉(zhuǎn)換,例如圖2所示的這些顏文字均轉(zhuǎn)為“高興”一詞,并且為了加強(qiáng)情感,轉(zhuǎn)換后的詞重復(fù)出現(xiàn)一次,即圖2顏文字最終轉(zhuǎn)為“高興高興”出現(xiàn)在原評論,以此實(shí)現(xiàn)最簡單的加權(quán)。
(2)Hownet通用情感詞庫中,添加搜狗細(xì)胞詞庫中的“飲食大全”詞庫(詞條共6 918個(gè))。
(3)添加搜狗細(xì)胞詞庫中的“常見錯(cuò)別詞和短語”詞庫(詞條共466個(gè)),對評論中的錯(cuò)別字進(jìn)行修正。
(4)使用TF-IDF算法進(jìn)行自動(dòng)分類,區(qū)分通用情感詞和專屬情感詞,并對專屬情感詞庫多進(jìn)行一輪手工篩選。
(5)建立網(wǎng)絡(luò)訂餐邏輯關(guān)聯(lián)詞庫,并添加至專屬情感庫中。
3 邏輯關(guān)聯(lián)詞庫構(gòu)建
參考曾淑琴、吳揚(yáng)揚(yáng)[5]“基于Hownet的詞語相關(guān)度計(jì)算模型”文章中的算法,在Hownet的基礎(chǔ)上,對外賣評論中的同義詞和邏輯關(guān)聯(lián)詞進(jìn)行擴(kuò)展,其中,與前文提出的重要屬性相關(guān)的詞,舉例如下:①配送快:飛快、神速、熱乎、燙;②配送慢:龜速、催促、坨了、冷冰冰;③分量足:好撐、吃不完;④包裝不完整:漏、摔爛、到處都是。
衛(wèi)生與否的屬性除了依靠同義詞判斷外,很大程度取決于是否吃出異物。因此利用網(wǎng)絡(luò)蜘蛛[6-7]腳本對評論中關(guān)鍵詞“吃出”后緊隨的詞語進(jìn)行抓取,并人工篩除,得出常見的異物名詞如下:頭發(fā)、蟲子、蒼蠅、鐵絲、指甲、老鼠屎、避孕套等。
4 重要屬性意見挖掘
將與上文7個(gè)重要屬性相關(guān)的同義詞和邏輯關(guān)聯(lián)詞均替換為相對應(yīng)的屬性情況,例如,出現(xiàn)上文中提出的“異物”名詞,則直接替換為“不衛(wèi)生”。
統(tǒng)計(jì)這些關(guān)鍵詞出現(xiàn)的次數(shù),可反映廣大用戶的真實(shí)導(dǎo)向,呈現(xiàn)給商家即可,例如,本地某連鎖飲食店的統(tǒng)計(jì)數(shù)據(jù)是:配送快(167)/慢(18),態(tài)度好(194)/差(0),包裝完整(27)/不完整(16),口味合適(82)/不合適(2),分量足(55)/不足(7),新鮮(76)/不新鮮(9),衛(wèi)生(58)/不衛(wèi)生(1)。
5 評論情感值計(jì)算
除7個(gè)重要屬性外,評論中還包含了不少外賣專屬情感詞,如果按照積極情感詞出現(xiàn)+1和消極詞-1進(jìn)行統(tǒng)計(jì),可以計(jì)算出近似的情感值。但是這種不考慮句式的計(jì)算是不妥當(dāng)?shù)?,按照中文表達(dá)習(xí)慣,轉(zhuǎn)折句在表述相同內(nèi)容的情感詞時(shí),傳遞出來的情感值更強(qiáng),而總結(jié)句表示對一段文字的歸納,反映了最直接的情感。因此,在情感值計(jì)算中,這兩種句式都應(yīng)該賦予更大權(quán)重[8-10]。
常見的句式主要有兩種:轉(zhuǎn)折和總結(jié)。代表性關(guān)鍵詞如表1所示。
7 不足與展望
然而,本文設(shè)計(jì)依舊存在一些不能被順利分類的情況:
(1)評論中存在方言,表達(dá)強(qiáng)烈情感的詞則無法被挖掘出來。
(2)形如:“真!他!媽!難!吃!”或者“好吃到飛”這樣的句式,在分詞分句過程中存在一些問題,也不能繼續(xù)進(jìn)行正確的情感分類。
此外,在對重要屬性的意見挖掘中,雖然可以統(tǒng)計(jì)出頻繁出現(xiàn)的菜品名稱,但無法較好地關(guān)聯(lián)到是否為針對某道菜品的評論,這些將在接下來的研究中繼續(xù)細(xì)化。
參考文獻(xiàn):
[1] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2011,31(12):3321-3323.
[2] 葉強(qiáng),張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動(dòng)判別方法研究[J].信息系統(tǒng)學(xué)報(bào),2007(1):79-91.
[3] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(1):227-231.
[4] 申劍博.改進(jìn)的TF-IDF中文本特征詞加權(quán)算法研究[J].軟件導(dǎo)刊,2015(4):67-69.
[5] 曾淑琴,吳揚(yáng)揚(yáng).基于HowNet的詞語相關(guān)度計(jì)算模型[J].微型機(jī)與應(yīng)用,2012,31(8):77-80.
[6] 周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計(jì)算機(jī)科學(xué),2009,36(8):26-29.
[7] 楊定中,趙剛,王泰.網(wǎng)絡(luò)爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(24):5658-5662.
[8] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[9] 周立柱,賀宇凱,王建勇.情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2008, 28(11):2725-2728.
[10] 李方濤.基于產(chǎn)品評論的情感分析研究[D].北京:清華大學(xué),2011.
(責(zé)任編輯:黃 健)