賈東立 崔新宇 申飛
摘要:隨著淘寶、京東等電商平臺(tái)的興起,網(wǎng)上購物逐漸成為主流,但由于網(wǎng)上購物的特殊性,導(dǎo)致消費(fèi)者不能獲取到足夠的商品信息,因此該文結(jié)合現(xiàn)有的自然語言處理技術(shù),利用情感分析的方法來對(duì)商品的評(píng)價(jià)信息進(jìn)行挖掘,為消費(fèi)者提供更加全面的商品信息。此外該文還就現(xiàn)有的情感詞典進(jìn)行擴(kuò)充,提升了情感詞典在情感分析中的準(zhǔn)確率。
關(guān)鍵詞:商品評(píng)價(jià);情感分析;情感詞典
中圖分類號(hào):TP391? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)16-0242-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract: With the rise of e-commerce platforms such as Taobao and Jingdong, online shopping has gradually become the mainstream, but due to the particularity of online shopping, consumers cant obtain enough commoditys information, so this article combines existing natural language processing technology. Using sentiment analysis to deal with goods reviews, and providing a more comprehensive product information to consumers. In addition, the article also expands the existing sentiment dictionary, which improves the accuracy of the sentiment dictionary in sentiment analysis.
Key words: commodity evaluation; sentiment analysis; sentiment dictionary
1 背景
隨著網(wǎng)上購物的興起,人們?cè)诰W(wǎng)上購物的次數(shù)越來越多,網(wǎng)上購物在方便人們生活的同時(shí)也存在著一些問題,由于網(wǎng)上購物時(shí)不能像線下購物一樣能夠接觸到實(shí)物商品,而且商品的各項(xiàng)信息都是由商家所給出的,這就造成了信息的不對(duì)等,就會(huì)導(dǎo)致消費(fèi)者買到了假貨,殘次品,或與自己期望不符的商品,造成一定的損失。此時(shí),利用情感分析的方法對(duì)商品的評(píng)價(jià)信息進(jìn)行挖掘,不僅能夠?yàn)橄M(fèi)者提供重要的參考信息,也存在著一定的商業(yè)價(jià)值。
目前情感分析的方法主要有兩大類:其一為基于機(jī)器學(xué)習(xí)的方法,該類方法是使用人工標(biāo)注的文本語料作為訓(xùn)練集,通過機(jī)器學(xué)習(xí)的方法來構(gòu)建訓(xùn)練模型,然后利用訓(xùn)練完成的模型來對(duì)文本進(jìn)行分類。常用的方法有支持向量機(jī)(SVM)、樸素貝葉斯法(NB)、K最近鄰法(KNN)等[1]。其二是通過情感詞典的方法,該方法的核心是通過詞典與規(guī)則的方法來計(jì)算文本的情感值,并以此分析文本的情感傾向。該類方法更加通用,對(duì)短文本處理有著不錯(cuò)的效果,但對(duì)情感詞典的完備程度要求很高。目前國內(nèi)對(duì)情感詞典的研究已有了一定成果。文獻(xiàn)[2]通過人工分類和點(diǎn)互信息(PMI)的方法構(gòu)建了情感詞匯本體,該詞典是國內(nèi)使用較多的通用詞典之一。文獻(xiàn)[3]通過對(duì)微博用語的分析,利用人工標(biāo)注和校對(duì)的方法構(gòu)建了微博領(lǐng)域的專用情感詞典,在微博領(lǐng)域取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。文獻(xiàn)[4]提出利用表情圖片結(jié)合情感詞的方法來擴(kuò)展情感詞典,并利用熵的概念對(duì)語料庫進(jìn)行優(yōu)化,提高了分類的準(zhǔn)確率。文獻(xiàn)[5]提出了基于規(guī)則和統(tǒng)計(jì)的方法來擴(kuò)充情感詞典,明顯提升了情感詞典的準(zhǔn)確率。文獻(xiàn)[6]利用Word2Vec工具對(duì)知網(wǎng)情感詞典、大連理工大學(xué)情感詞典等通用詞典進(jìn)行篩選,構(gòu)建出了SentiRuc詞典,并在通用領(lǐng)域數(shù)據(jù)集上取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。
結(jié)合商品評(píng)價(jià)的語料特征,本文提出了利用商品評(píng)價(jià)中的高頻情感詞來對(duì)通用情感詞典進(jìn)行擴(kuò)充的辦法,在商品領(lǐng)域取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果,明顯提升了情感分析的準(zhǔn)確率。
2 系統(tǒng)框架
本文根據(jù)系統(tǒng)需要實(shí)現(xiàn)的具體功能,將整個(gè)系統(tǒng)劃分成5部分,分別為數(shù)據(jù)獲取模塊(A)、數(shù)據(jù)預(yù)處理模塊(B)、商品特征抽取模塊(C)、情感詞典構(gòu)建模塊(D)和情感分析模塊(E)。其總體結(jié)構(gòu)圖如圖1所示。
在數(shù)據(jù)收集模塊中,本文使用了基于網(wǎng)絡(luò)爬蟲的方法來對(duì)京東網(wǎng)站進(jìn)行了爬取,共計(jì)爬取了京東商城各型手機(jī)的評(píng)價(jià)信息十幾萬條,為接下來的情感分析提供了充足的數(shù)據(jù)支撐。
對(duì)于文本預(yù)處理,參考目前文本預(yù)處理技術(shù),本文采用了中文分詞、詞性標(biāo)注和去停用詞的方法對(duì)文本信息進(jìn)行預(yù)處理。并借助Python自帶的結(jié)巴(jieba)語料庫來對(duì)文本進(jìn)行分詞和詞性標(biāo)注。在停用詞處理中,本文采用了哈工大停用詞表來過濾句子中的語氣詞、虛詞、標(biāo)點(diǎn)等。
在商品特征提取模塊中,本文采用了基于統(tǒng)計(jì)與語義信息相結(jié)合的方來抽取商品的特征,并以通用領(lǐng)域概念模型為基礎(chǔ)[7],建立商品特征詞典。
情感詞典的構(gòu)建作為整個(gè)系統(tǒng)的核心,本文在通用情感詞典的基礎(chǔ)上,結(jié)合商品評(píng)論自身特點(diǎn)設(shè)計(jì)語料特征對(duì)其進(jìn)行改進(jìn)。
對(duì)于情感分析模塊,本文利用擴(kuò)展情感詞典,并結(jié)合語義的方法來對(duì)評(píng)價(jià)信息進(jìn)行分析。
3 基于基礎(chǔ)情感詞典的擴(kuò)展改進(jìn)
3.1 基本思想
情感詞典作為情感分析最為核心的一部分,其完備程度對(duì)情感分析的準(zhǔn)確度起決定性作用。本文先構(gòu)建了程度副詞詞典和否定詞詞典;之后對(duì)評(píng)價(jià)文本情感詞進(jìn)行詞頻統(tǒng)計(jì),然后結(jié)合商品評(píng)論自身的特征,對(duì)評(píng)論中高頻情感詞匯進(jìn)行抽取,并結(jié)合規(guī)則對(duì)其進(jìn)行權(quán)重賦值。
3.2 程度副詞和否定詞詞典的構(gòu)建
程度副詞,它是用來修飾情感詞,增強(qiáng)或減弱情感詞的情感強(qiáng)度。如:非常失望和有點(diǎn)失望,他們所表達(dá)的情感強(qiáng)度是有差別,“非常失望”的情感強(qiáng)度要更高一些。本文使用的程度副詞詞典源于知網(wǎng)(Hownet)情感詞典中的“中文程度級(jí)別詞語”詞典,并通過分析商品評(píng)價(jià)信息添加了詞典中未收錄的程度副詞共計(jì)54個(gè)。本文依照程度副詞的情感強(qiáng)度將程度副詞分為6擋,其權(quán)重分別為2.0、1.8、1.5、1.2、0.8、0.5.部分程度副詞及其權(quán)重如下所示:
否定詞,它是用于反轉(zhuǎn)一個(gè)句子或詞語的情感傾向,如“我對(duì)這件商品很不滿意”和“我對(duì)這件商品很滿意”,它們就具有相反的情感極性。本文通過分析商品評(píng)價(jià)信息,共計(jì)篩選出30個(gè)否定詞,如:不、沒、非、無等詞語。并建立起否定詞詞典。
3.3 商品評(píng)價(jià)擴(kuò)展詞典的構(gòu)建
本文選取了知網(wǎng)(Hownet)情感詞典作為基礎(chǔ)詞典,該情感詞典包含情感詞17887個(gè)[8]。本文按照情感強(qiáng)度和情感傾向?qū)η楦性~進(jìn)行權(quán)重賦值,共分成10級(jí),取值范圍為[-2.5,2.5]間距為0.5,其中正值表示為褒義情感傾向,負(fù)值為貶義情感傾向,數(shù)值表示權(quán)重,權(quán)重的絕對(duì)值越大就表示情感強(qiáng)度越大。
首先,對(duì)商品評(píng)價(jià)中的情感詞進(jìn)行詞頻統(tǒng)計(jì),然后,對(duì)出現(xiàn)的高頻情感詞進(jìn)行抽取,并對(duì)情感詞進(jìn)行權(quán)重賦值。本文抽取了商品評(píng)價(jià)中前1000個(gè)高頻情感詞。對(duì)于權(quán)重的計(jì)算,本文采用了公式(1)來給情感詞進(jìn)行賦值。
式中[Ei]為情感詞的權(quán)重;[Ni]為該情感詞匯出現(xiàn)的頻率;[Nt]為頻率最高詞匯的出現(xiàn)頻率;[Sn]為詞性表示,褒義詞匯則為1,貶義詞匯為-1。在計(jì)算出所有高頻情感詞的權(quán)重后,就可以將賦完權(quán)重的情感詞擴(kuò)充到基礎(chǔ)情感詞典中。
3.4 情感計(jì)算
在對(duì)情感詞典進(jìn)行擴(kuò)充后,就可以利用擴(kuò)充后的詞典對(duì)商品評(píng)價(jià)信息進(jìn)行情感分析,具體的步驟如下:
1)對(duì)評(píng)價(jià)信息進(jìn)行預(yù)處理;2)遍歷商品評(píng)價(jià)信息,依據(jù)之前構(gòu)建的商品特征詞典,將評(píng)價(jià)信息進(jìn)行特征分類,建立起各個(gè)特征的評(píng)論數(shù)據(jù)集;3)逐條分析各個(gè)特征數(shù)據(jù)集,抽取評(píng)價(jià)信息中的情感詞、否定詞和程度副詞,并在情感詞典中進(jìn)行匹配,獲取該詞在情感詞典中的權(quán)重,之后根據(jù)公式(2)來計(jì)算該條評(píng)論的情感得分。在計(jì)算出每一條評(píng)價(jià)的情感得分后就可以利用公式(3)和公式(4)計(jì)算出每個(gè)特征數(shù)據(jù)集的總情感得分和平均情感得分。
式中:[si]為該條評(píng)論的情感得分,q為在該條評(píng)價(jià)中否定詞出現(xiàn)的次數(shù)(q的初始值為0),[nk]為程度副詞k在程度副詞詞典中對(duì)應(yīng)的權(quán)重,[wi]為情感詞i在情感詞典中對(duì)應(yīng)的權(quán)重。
式中:[Sj]為特征數(shù)據(jù)集j的情感總分,[sj]為數(shù)據(jù)集j的平均情感得分,[ si]為該數(shù)據(jù)集中每一條評(píng)論的情感得分,[ni]為數(shù)據(jù)集中情感詞出現(xiàn)的次數(shù)。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)標(biāo)準(zhǔn)
為了驗(yàn)證本文提出的情感詞典擴(kuò)展改進(jìn)方法是有效的,本文利用網(wǎng)絡(luò)爬蟲爬取了京東商城蘋果手機(jī)的評(píng)價(jià)信息,共計(jì)5000條。對(duì)文本進(jìn)行預(yù)處理后,利用本文所構(gòu)建的擴(kuò)展詞典對(duì)評(píng)價(jià)信息進(jìn)行分析,選取正確率(precision)、召回率(recall)、f1-score(F)作為性能評(píng)價(jià)的指標(biāo)來對(duì)分析結(jié)果進(jìn)行評(píng)價(jià),具體定義如下:
4.2 擴(kuò)展詞典效果對(duì)比與分析
本文對(duì)蘋果手機(jī)的評(píng)價(jià)信息進(jìn)行試驗(yàn),分析了其在不同擴(kuò)展情況下,情感詞典的效果,具體試驗(yàn)結(jié)果如表所示,準(zhǔn)確率的變化情況如下所示:
從表2和圖2可以看出知網(wǎng)情感詞典對(duì)本文從京東商城上爬取評(píng)價(jià)信息的準(zhǔn)確率為82.51%。而使用本文所提出的基于基礎(chǔ)情感詞典的擴(kuò)充辦法所構(gòu)建的擴(kuò)充詞典的準(zhǔn)確率、召回率和F1值都在逐步提高。在擴(kuò)展詞匯達(dá)到50個(gè)之前,其準(zhǔn)確率增速最快,在擴(kuò)展詞匯達(dá)到100個(gè)時(shí)其準(zhǔn)確率達(dá)到最高,在擴(kuò)展超過100個(gè)時(shí),擴(kuò)展詞典的準(zhǔn)確率趨于平穩(wěn)。和知網(wǎng)情感詞典對(duì)比發(fā)現(xiàn),本文所構(gòu)建的擴(kuò)展詞典的準(zhǔn)確率達(dá)到了91.13%,比基礎(chǔ)情感詞典的準(zhǔn)確率增加了9.48%,因此本文提出的使用高頻情感詞來擴(kuò)充基礎(chǔ)情感詞典的辦法是可行的。
5 結(jié)束語
本文設(shè)計(jì)的基于情感詞典的商品評(píng)價(jià)系統(tǒng),通過情感分析技術(shù)來對(duì)商品評(píng)價(jià)信息進(jìn)行處理,抽取評(píng)價(jià)中的商品特征,并利用情感詞典為其打分,通過視圖的方式為消費(fèi)者提供更加直觀的商品信息。此外本文還在基礎(chǔ)情感詞典的基礎(chǔ)上,提出一種通過加入高頻情感詞的方法來對(duì)情感詞典進(jìn)行擴(kuò)充。經(jīng)過該方法擴(kuò)充的情感詞典在準(zhǔn)確率、召回率和F1值方面都有所提升,與基礎(chǔ)情感詞典相比,本文所擴(kuò)展的情感詞典的準(zhǔn)確率普遍高于基礎(chǔ)詞典,證明了該方法是可行的。
參考文獻(xiàn):
[1] 李繼東, 王移芝. 基于擴(kuò)展詞典與語義規(guī)則的中文微博情感分析[J]. 計(jì)算機(jī)與現(xiàn)代化, 2018(2): 89-95.
[2] 徐琳宏, 林鴻飛, 潘宇, 等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.
[3] 王勇, 呂學(xué)強(qiáng), 姬連春, 等. 基于極性詞典的中文微博客情感分類[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(1): 34-37.
[4] 張珊, 于留寶, 胡長軍. 基于表情圖片與情感詞的中文微博情感分析[J]. 計(jì)算機(jī)科學(xué), 2012, 39(S3): 146-148.
[5] 梁亞偉. 基于表情詞典的中文微博情感分析模型研究[J]. 現(xiàn)代計(jì)算機(jī), 2015(21): 7-10.
[6] 楊小平, 張中夏, 王良, 等. 基于Word2Vec的情感詞典自動(dòng)構(gòu)建與優(yōu)化[J]. 計(jì)算機(jī)科學(xué), 2017, 44(1): 42-47.
[7] 夏火松, 楊培, 熊淦. 基于特征提取改進(jìn)的在線評(píng)論有效性分類模型[J]. 情報(bào)學(xué)報(bào), 2015, 34(5): 493-500.
[8] HowNet[R/OL]. HowNet'sHomePage. http://www.keenage.com/html/c_bulletin_2007.htm
【通聯(lián)編輯:謝媛媛】