亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于XGBoost算法的電商評論文本情感識別模型

2018-01-25 10:52:38蘇兵杰周亦鵬梁勛鴿

物聯(lián)網(wǎng)技術(shù) 2018年1期

蘇兵杰周亦鵬梁勛鴿

摘要：由于電子商務(wù)網(wǎng)站上商品評論數(shù)量激增，對商品評論信息進(jìn)行數(shù)據(jù)挖掘和情感分析顯得尤為重要。文中立足于電子商務(wù)平臺上生鮮產(chǎn)品的評論文本，將情感識別問題抽象為分類問題，結(jié)合TF-IDF和卡方檢驗方法提取文本特征，利用XGBoost算法訓(xùn)練分類器建立商品評論文本的情感識別模型，將海量的商品評論數(shù)據(jù)轉(zhuǎn)換為人們需要的信息。

關(guān)鍵詞：電子商務(wù)；用戶評論；XGBoost算法；情感識別

中圖分類號：TP39 文獻(xiàn)標(biāo)識碼：A 文章編號：2095-1302（2018）01-00-04

0 引言

互聯(lián)網(wǎng)和電子商務(wù)的發(fā)展，使網(wǎng)絡(luò)上的商品評論文本數(shù)量激增，這些商品評論對購買同種商品的買家具有指導(dǎo)作用。然而面對數(shù)量龐大的商品評論，買家若通過逐個查看的方式獲取信息必將耗費(fèi)大量精力，效果也不好。同時電子商務(wù)平臺上的評論分類并不能準(zhǔn)確表達(dá)已購買用戶真正的情感傾向。在eBay信譽(yù)機(jī)制研究中Resnick等曾指出，買家由于擔(dān)心差評會遭到賣家的報復(fù)會在評論時選擇給出好評[1]，比如2012年轟動一時的“壽衣門”事件。因此，大量消費(fèi)者在評論時會再三思慮，造成了許多負(fù)面評價隱藏在好評之下。面對這些問題，迫切需要對評論文本進(jìn)行情感傾向識別。

文本情感分析實質(zhì)上是對帶有情感色彩的主觀性文本進(jìn)行分析、歸納和處理的過程[2]，吸引著不同領(lǐng)域研究者的廣泛關(guān)注，比如人工智能、自然語言處理以及數(shù)據(jù)挖掘等[3-6]，涌現(xiàn)出大量相關(guān)的研究工作。目前在文本情感分析方面最常用的兩種方法是基于語義詞典和基于機(jī)器學(xué)習(xí)的分類算法 [7]。

基于語義詞典的情感計算方法利用通用情感詞典或編纂情感詞表來進(jìn)行情感分析。文獻(xiàn)[8]提出合并通用情感詞典并利用word2vec工具擴(kuò)充詞典構(gòu)建酒店領(lǐng)域情感詞典，可有效對酒店領(lǐng)域的評論進(jìn)行情感分析。文獻(xiàn)[9]針對網(wǎng)絡(luò)在線中文評論的特點(diǎn)，將領(lǐng)域本體和情感詞典相結(jié)合進(jìn)行商品評論傾向性分析。文獻(xiàn)[10]基于HowNet情感詞典和自建的形容詞配價詞典，在HNC語境框架下進(jìn)行文本的情感傾向性判斷，并通過實驗驗證了該方法具有較高的識別率。

基于機(jī)器學(xué)習(xí)的分類算法是將情感分析作為分類問題來解決，通過機(jī)器學(xué)習(xí)的方法對大量標(biāo)注文本進(jìn)分類訓(xùn)練，使用訓(xùn)練的分類模型來預(yù)測待分類文本的類別。文獻(xiàn)[11]中分別用最大熵模型、樸素貝葉斯算法和支持向量機(jī)三種機(jī)器學(xué)習(xí)的方法進(jìn)行情感分類研究。此后，研究者通過改變分類器策略、合并分類器、訓(xùn)練集變形等方法來提高分類效果，文獻(xiàn)[12]中比較了樸素貝葉斯和支持向量機(jī)兩種分類算法的優(yōu)缺點(diǎn)，提出兩者的綜合體NBSVM模型。文獻(xiàn)[13]綜合了多個半監(jiān)督分類器的結(jié)果，發(fā)現(xiàn)綜合后的結(jié)果均高于原本單個分類器。

但是傳統(tǒng)的情感分析方法并不足以滿足高準(zhǔn)確率的要求，文本情感分類的準(zhǔn)確率仍然有待提高。XGBoost算法是在2014年實現(xiàn)的一種算法，在工業(yè)中有大量應(yīng)用，但鮮有研究者將其應(yīng)用在情感分析中，為此本文采用XGBoost算法對網(wǎng)絡(luò)上的商品評論文本進(jìn)行情感分析，并將其與樸素貝葉斯和支持向量機(jī)分類器進(jìn)行比較。

1 評論文本情感識別模型

本文提出的模型將商品評論文本情感識別抽象為一個分類問題，采用機(jī)器學(xué)習(xí)的方法對人工標(biāo)注的文本數(shù)據(jù)及其特征進(jìn)行學(xué)習(xí)，得出預(yù)測模型，從而在輸入評論文本數(shù)據(jù)后自動預(yù)測該文本數(shù)據(jù)的情感傾向。模型的流程如圖1所示。

由圖1可以看出，商品評論文本情感識別模型的完整流程主要包括以下3個階段：

（1）模型訓(xùn)練階段

該階段主要是對數(shù)據(jù)集中的訓(xùn)練集進(jìn)行相關(guān)處理并提取特征，利用XGBoost算法訓(xùn)練分類器獲得情感分類模型。

（2）模型測試階段

該階段主要根據(jù)相關(guān)評價指標(biāo)，利用數(shù)據(jù)集中的測試集對模型訓(xùn)練階段獲得的情感分類模型進(jìn)行性能評測。

（3）情感識別階段

該階段主要利用通過性能評價的情感分類模型對待處理的文本進(jìn)行情感分析，得到情感分析結(jié)果，完成整個情感分析的過程。

1.1 數(shù)據(jù)集建立

文中所使用的數(shù)據(jù)集是利用八爪魚采集器在京東商城生鮮區(qū)采集的火龍果評論文本，隨機(jī)選取其中11 098條數(shù)據(jù)作為本文的實驗數(shù)據(jù)，數(shù)據(jù)中包含部分無效數(shù)據(jù)，比如“聽說評價可以獲取京東豆” “展卉越南進(jìn)口紅心火龍果2個裝，單果約500g”等，去除320條無效評價，選取余下的10 778條有效評論文本作為本實驗的數(shù)據(jù)集并進(jìn)行人工標(biāo)注。

實驗中的情感識別是指對評論文本的情感極性（正向、中性和負(fù)向）進(jìn)行判斷，因此，在人工標(biāo)注時將數(shù)據(jù)集標(biāo)注為三個類別標(biāo)簽“1”“2”“3”，分別代表“正向評價”“中性評價”“負(fù)向評價”，標(biāo)注完成后的數(shù)據(jù)集類別分布見表1所列，其中數(shù)據(jù)集中包括4 191條正向評價，3 171條中性評價和3 416條負(fù)向評價。

1.2 文本預(yù)處理

文本預(yù)處理是對文本進(jìn)行分詞、去除情感色彩不明顯或沒有實際意義的詞語，便于計算機(jī)快速、準(zhǔn)確地處理文本。

1.2.1 中文分詞

文中的實驗數(shù)據(jù)是中文文本，中文文本在分詞方面比英文文本復(fù)雜，英文文本只需根據(jù)空格或者標(biāo)點(diǎn)符號便可完成分詞任務(wù)，但是中文詞語之間沒有空格分隔，并且單個漢字所表達(dá)的信息量太少，無法準(zhǔn)確表示出句子的含義。為此，中文分詞是數(shù)據(jù)預(yù)處理階段必不可少的一步，文中采用的結(jié)巴分詞目前在python語言中應(yīng)用比較廣泛，可獲得較高的分詞準(zhǔn)確率。

1.2.2 停用詞處理

本文使用的是哈工大停用詞表，包含助詞、虛詞、介詞、符號等停用詞767個。在停用詞表中的個別詞語，比如“一般”“可以”等，在商品評價中含有情感色彩，因此，需要去掉停頓詞表中的此類詞語，同時加入一些商品評論領(lǐng)域的停頓詞。經(jīng)過整理，最終得到包含790個詞語的停頓詞表。

1.3 文本表示

向量空間模型（VSM）是比較常用的文本表示方法，在這個模型中，將文本中出現(xiàn)的詞匯作為文本的特征。例如，文本包含詞語w1，w2，…，wm，則文本T可以表示為向量T=（v1，v2，…，vm），其中vi（i=1，2，…，m）是特征wi在T中的取值，根據(jù)vi的取值不同，向量空間模型可以分為三類：

（1）布爾型（Boolean），即vi取值為0或1，若T包含詞匯wi，則vi=1，反之vi=0。

（2）詞頻形式（Term frequency，TF），假設(shè)ni表示wi在文本T中出現(xiàn)的次數(shù)，則vi是ni的函數(shù)，通常TF可以簡單地取值為ni，也可以定義為如下形式：

（3）詞頻-逆向文本頻率形式（Term Frequency-Inverse Document Frequency，TF-IDF），實際上就是TF×IDF。詞頻（Term Frequency，TF）表示詞匯在文檔T中出現(xiàn)的頻率，逆向文件頻率（Inverse Document Frequency，IDF）的主要思想是：如果包含詞匯wi的文檔越少，即ni值越小，那么IDF的權(quán)值越大，說明詞匯wi具有很好的類別區(qū)分能力。

也可以將IDF簡單地定義為|D|?|Dwi|，其中D表示文本集，Dwi表示包含詞匯wi的文本集，|D|表示集合的元素個數(shù)。

在上述三種表示方法中，TF-IDF具有較好的類別區(qū)分能力，因此，本文在文本表示方面采用了TF-IDF方法。

1.4 文本特征選取

商品評論雖然內(nèi)容短小，但包含了大量詞匯，向量空間維度勢必相當(dāng)龐大。同時類別不同的文本中也包含了大量相同詞匯，對文本分類起不到任何作用。因此，進(jìn)行文本特征選取是至關(guān)重要的一步。

特征選取方法較多，比如信息增益、卡方檢驗、互信息和粗糙集等。文中使用的是卡方檢驗方法，通過檢驗特征與類別間的相關(guān)性，選取與類別相關(guān)性最大的特征集合，在這種多分類的情況下，計算特征項與每個類別的卡方檢驗值，選取其中的最大值作為特征值進(jìn)行計算?？ǚ綑z驗統(tǒng)計量的計算公式如下所示：

其中，公式中各個參數(shù)的含義如下：

N：訓(xùn)練集文本總數(shù)；

A：包含詞匯w，且屬于類別c的文本數(shù)量；

B：包含詞匯w，但不屬于類別c的文本數(shù)量；

C：屬于類別c，但是不包含詞匯w的文本數(shù)量；

D：不屬于類別c，也不包含詞匯w的文本數(shù)量。

卡方檢驗的不足之處在于夸大了低頻詞的作用，因為A，B，C，D只標(biāo)記了某詞在文本中是否出現(xiàn)，但不標(biāo)記該詞在文本中出現(xiàn)的頻率，所以它不能表征詞匯在文本中的重要性。而TF-IDF傾向于選擇有區(qū)分度的詞匯，可以明確表達(dá)出詞匯的重要程度，能夠彌補(bǔ)卡方檢驗的不足。因此，文中在特征提取方面，結(jié)合了卡方檢驗和TF-IDF兩種方法，由此選取一個174維的特征空間。對特征情感詞進(jìn)行總結(jié)分析，可以分為正向、中性和負(fù)向三類，該特征空間的部分特征詞如表2所示。

1.5 XGBoost算法

Boosting分類器是一種優(yōu)秀的集成學(xué)習(xí)模型，其主要思想是將多個準(zhǔn)確率較低的決策樹模型組合成一個準(zhǔn)確率較高的模型。Gradient Boosting 是 Boosting 的改進(jìn)版本，該算法可通過分步方式建立模型，在不斷更新迭代中選擇梯度下降的方向來保證最終預(yù)測結(jié)果最優(yōu)。在梯度提升算法中本文主要參考了文獻(xiàn)[14]，其算法流程如下所示：

（7）end for

實驗采用XGBoost工具包來訓(xùn)練模型，XGBoost全名為Extreme Gradient Boosting，是由陳天奇在2014年實現(xiàn)的，該算法可自動并行運(yùn)行CPU多個線程，運(yùn)行速度快，分類效果較好。本文采用Python語言調(diào)用XGBoost工具包實現(xiàn)了模型。

1.6 模型評價

本文采用常用的準(zhǔn)確率（precision）、召回率（recall）、F1值評價模型，同時在模型訓(xùn)練過程中使用K折交叉運(yùn)算，通過多次運(yùn)算求取平均值作為各評價指標(biāo)的最終值，以減少運(yùn)行誤差。

（1）情感識別召回率

召回率R=算法正確判斷文本情感傾向數(shù)量/文本總數(shù)量

（2）情感識別準(zhǔn)確率

準(zhǔn)確率P=算法正確判斷文本情感傾向數(shù)量/所有被算法召回的文本總數(shù)量

（3）F1-指數(shù)

2 實驗及結(jié)果分析

實驗在模型訓(xùn)練過程中使用7折交叉運(yùn)算，將數(shù)據(jù)集中的三個類別分別劃分成7等份，每次運(yùn)算在三個類別中按比例選取9 234個數(shù)據(jù)作為訓(xùn)練集，1 539個數(shù)據(jù)作為測試集，通過XGBoost算法訓(xùn)練情感識別模型，利用1 539個測試集對模型進(jìn)行測試，輸出模型的準(zhǔn)確率。

模型中需要不斷調(diào)整以下三個參數(shù)：訓(xùn)練的最大深度max_depth，訓(xùn)練的步長（學(xué)習(xí)率）eta，循環(huán)的次數(shù)num_round。通過不斷測試，當(dāng)訓(xùn)練的最大深度max_depth為8，訓(xùn)練的步長為eta為0.8，循環(huán)的次數(shù)num_round為100時，模型的性能達(dá)到最優(yōu)。

文獻(xiàn)[11]采用最大熵模型、樸素貝葉斯算法和支持向量機(jī)三種方法進(jìn)行了情感分類研究，通過實驗證明了支持向量機(jī)分類效果最好，但樸素貝葉斯是最簡單、最常見的一種分類算法。為此，為檢驗XGBoost算法的優(yōu)勢，文中將其與樸素貝葉斯算法和支持向量機(jī)算法進(jìn)行比較，輸出7次交叉運(yùn)算的準(zhǔn)確率、召回率、F1值以及每個指標(biāo)的均值，用以評判算法的優(yōu)劣。三種算法對比結(jié)果如圖2所示。

由圖2可以很明顯地看出，在商品評論文本情感識別中，樸素貝葉斯算法的表現(xiàn)是最差的，其次是支持向量機(jī)算法，表現(xiàn)最好的是XGBoost算法，在7次交叉運(yùn)算結(jié)果及最終的平均值、準(zhǔn)確率、召回率和F1-指數(shù)方面，XGBoost算法都遠(yuǎn)優(yōu)于樸素貝葉斯和支持向量機(jī)算法。由此可知，將XGBoost算法應(yīng)用于商品評論文本情感識別是可行的，并能取得不錯的效果，其分類結(jié)果優(yōu)于傳統(tǒng)的分類算法。

3 結(jié) 語

本文使用XGBoost算法實現(xiàn)了電子商務(wù)平臺上商品評論文本的情感識別。實驗中，建立一個包含10 778條評論文本的數(shù)據(jù)集并進(jìn)行了人工標(biāo)注，結(jié)合TF-IDF和卡方檢驗進(jìn)行文本特征選取，驗證了XGBoost算法的可行性和優(yōu)勢，通過與樸素貝葉斯算法和支持向量機(jī)算法進(jìn)行對比。實驗結(jié)果表明，XGBoost算法在評論文本情感識別方面具有很大的優(yōu)勢，其識別情感傾向的準(zhǔn)確率為94.82%，遠(yuǎn)遠(yuǎn)高于樸素貝葉斯算法的85.81%和支持向量機(jī)算法的89.90%，具有很好的應(yīng)用前景。

參考文獻(xiàn)

[1] Resnick P，Zeckhauser R.Trust among strangers in Internet transactions： Empirical analysis of eBays reputation system [A].The Economics of the Internet and E-Commerce[C].New York：Elservier Science，2002.

[2] 黃發(fā)良，馮時，王大玲，等. 基于多特征融合的微博主題情感挖掘[J]. 計算機(jī)學(xué)報，2017，40（4）：872-888.

[3] Tang H F，Tan S B，Cheng X Q. A survey on sentiment detection of reviews [J]. Expert Systems with Applications，2009， 36（7）：10760-10773.

[4] Liu B. Sentiment analysis and opinion mining [J]. Synthesis Lectures on Human Language Technologies，2012， 5（1）：1-167.

[5] Tsytsarau M， Palpanas T. Survey on mining subjective data on the web [J]. Data Mining and Knowledge Discovery，2012， 24（3）：478-514.

[6] Li Y， Gao H， Yang M， et al. What are Chinese talking about in hot weibos？ [J]. Physica A Statistical Mechanics & Its Applications，2013 （419）：546-557.

[7] 劉志明，劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實證研究[J].計算機(jī)工程與應(yīng)用，2012， 48（1）：1-4.

[8] 陳柯宇，何中市. 基于情感詞典的酒店評論情感分類研究[J].現(xiàn)代計算機(jī)（上下旬），2017 （6）：3-6.

[9] 董麗麗，趙繁榮，張翔. 基于領(lǐng)域本體、情感詞典的商品評論傾向性分析[J]. 計算機(jī)應(yīng)用與軟件，2014，31（12）：104-108，194.

[10] 張克亮，黃金柱，曹蓉，等.基于HNC語境框架和情感詞典的文本情感傾向分析[J].山東大學(xué)學(xué)報（理學(xué)版），2016，51（7）：51-58，73.

[11] Pang B， Lee L， Vaithyanathan S. Thumbs up Sentiment classification using mechine learning techniques[C].EMNLP，2002（10）：79-86.

[12] Wang S， Maiming C D. Baselines and bigrams：Simple， good sentiment and topic classification[C].ACL，2012（2）：90-94.

[13] Li S， Huang L， Wang J， et al. Semi-Stacking for Semi-supervised Sentiment Classification[C].ACL，2015（2）：27-31.

[14] 鄧永莉，呂愿愿，劉明亮，等.基于中高層特征的音樂情感識別模型[J].計算機(jī)工程與設(shè)計，2017，38（4）：1029-1034.

物聯(lián)網(wǎng)技術(shù)2018年1期

物聯(lián)網(wǎng)技術(shù)的其它文章: 物聯(lián)網(wǎng)標(biāo)準(zhǔn)的中國智慧; 一種基于SVPWM的三相逆變器; 物聯(lián)網(wǎng)工程專業(yè)在創(chuàng)新創(chuàng)業(yè)教育方面的改革探索; 基于”互聯(lián)網(wǎng)”時代高職計算機(jī)教學(xué)模式改革探討; 計算思維與C語言程序設(shè)計; “互聯(lián)網(wǎng)+”背景下的高校實驗室管理系統(tǒng)研究