任正甜 李興東
(蘭州交通大學(xué),甘肅 蘭州 730070)
在現(xiàn)代社會中,網(wǎng)絡(luò)購物是非常重要的一種購物方式,在購物市場中占據(jù)了非常重要的分量。網(wǎng)絡(luò)購物用戶也可以通過在線評論表達自己使用產(chǎn)品后的感受,而客戶的在線評價也成為了影響消費者決策的重要因素,對賣家服務(wù)能力的提高也有重要的指導(dǎo)作用。單純依靠人工去收集和分類線上評論是不切實際的,故需利用機器學(xué)習(xí)的途徑對線上評論文本進行分類處理,通過對分析對商戶和顧客提供有效的信息。
在國內(nèi)外,也已經(jīng)有很多相關(guān)方面的研究,學(xué)者TimurSokhin在針對主題模型的基礎(chǔ)上,提出一種半監(jiān)督情感分析方法[1];E.D'Andrea構(gòu)建了包括SVM在內(nèi)的三種模型,并且達到很好的實驗結(jié)果[2];楊宇婷等在的特征表達法上進行了創(chuàng)新,結(jié)合利用了SVM算法[3];陳子昕采用SVM分類器對新聞評論文本進行分類,并且評價指標準確率也較高[4]。
利用機器學(xué)習(xí)進行情感分類已經(jīng)有了很多的研究成果,但是利用adaboost等多種分類器進行建模分析的研究較少。本文將獲取的評論文本進行分詞、去除停用詞等預(yù)處理,特征提取利用TF-IDF算法,再采用NB、SVM、adaboost三種分類器,建立情感分類模型并加以應(yīng)用,最后通過特定評價指標對三種方法的性能進行比較,對商戶和顧客提供參考。
TF-IDF(Term Frequency-Inverse Document Frequency)翻譯為中文即為“詞頻-逆向文本頻率”。它由TF(詞頻)和IDF(逆向文本頻率)兩部分組成。TF(詞頻)表示在評論文本中某一給定詞 出現(xiàn)的頻率[5]。計算過程見公式:
IDF實際意義:IDF值小,說明評論文本中有該給定詞w的數(shù)量多,反之則IDF的值大。在這里,我們?nèi)菀椎玫揭粋€極端的情況:如果在所有的評論文本中一個給定詞w均出現(xiàn)過,那么詞w的IDF值即為0,由下面的計算公式看也十分顯然。
TF-IDF算法判斷詞w區(qū)分能力的過程可概括為:若給定詞w只在文本c中常出現(xiàn),而在其他文本中不常出現(xiàn),則認為該詞w的區(qū)分能力很好。TF-IDF算法優(yōu)點是計算快速,結(jié)果也比較符合實際情況。
以貝葉斯公式為架構(gòu)的基礎(chǔ)上,計算后驗概率P(c|x)是及其困難的,因為由“因”到“果”的概率去推算由“果”到“因”的概率是不容易的。為了解決此類困難,樸素貝葉斯分類器(Naive Bayes classifier)的基礎(chǔ)條件中多了一個假設(shè)條件:假設(shè)每個能對最后分類的結(jié)果產(chǎn)生影響的屬性都是相互獨立的。
支持向量機(英文全稱Support Vector Machine,簡稱SVM):找出一個特定的劃分超平面:該平面在能將訓(xùn)練數(shù)據(jù)集正確劃分的基礎(chǔ)上、能夠使幾何間隔盡量最大化。使
Ada-boost(Adaptive Boosting)方法是改進了的boosting算法。
在一開始,訓(xùn)練數(shù)據(jù)各自均具有相同的權(quán)重值,第一個基分類器是通過直接將學(xué)習(xí)算法用在初始數(shù)據(jù)分布上得到的。但在循環(huán)下一輪回時,將利用不同樣本分布不同權(quán)重值得到:加大對錯分樣本的“重視度”-加大權(quán)重這樣,難以分類正確的樣本就成了下一輪循環(huán)時候的“重點分類對象”,這樣在新一輪訓(xùn)練時,可得到一個新的分類器。就這樣多次分配權(quán)重,多次重復(fù)循環(huán),將得到 個不同的弱分類器,將這 個弱分類器進行“融合”,就可以得到一個強分類器。其中,在進行弱分類器組合時,使分類準確度低的分類器權(quán)值小一些,相反,分類準確度高的分類器權(quán)值大。
本文選取購物平臺京東為評論數(shù)據(jù)來源,使用八爪魚軟件,采集顧客在小米旗艦店中購買小米10S的所有評論情況,共獲得1428條評論,其中正面評價數(shù)據(jù)1000條,負面評價數(shù)據(jù)428條。并對數(shù)據(jù)進行預(yù)處理,正面評價標簽為0,負面標簽為1。
通過對三種分類器模型的訓(xùn)練和應(yīng)用,利用性能評價指標,對三個不同結(jié)果進行對比,結(jié)果對比如圖1。
圖1 結(jié)果對比圖
通過三個評價指標:準確度、召回率以及F1值可以看出,各個模型中SVM分類器效果極佳,在精度方面略遜色于樸素貝葉斯分類器,而ada-boost分類器在各項指標中表現(xiàn)都不突出,在這三種分類器模型中,SVM有其本身非常強勢的優(yōu)勢。
為了對商戶針對產(chǎn)品提供一定的建議,本文對負面評論進行了分析。通過ROST CM6軟件建立了社會和語義網(wǎng)絡(luò),得到結(jié)果圖2。
圖2 社會與語義網(wǎng)絡(luò)示意圖
在網(wǎng)絡(luò)中,詞匯連線越多,則說明各個詞匯之間的聯(lián)系越密切。由結(jié)果可看出:反映手機發(fā)熱問題的評論較多,手機發(fā)熱從而導(dǎo)致的信號不良和使用手感等問題,使得顧客感到不滿;耗電快以及靈敏度的問題,使得客戶使用感受較差;外圍的性價比評論,表達了顧客對該款手機性價比的不滿,使顧客更傾向于高配置的手機。
通過負面評價分析,商戶可以考慮重點解決手機發(fā)熱的問題,提高客戶使用手機時的舒適度;對手機電池質(zhì)量的提升以及屏幕手寫的靈敏度也需要重視;同時,商戶可以提高手機的性價比,給予更好的配置或者更實惠的價格來吸引顧客前來購買。
結(jié)束語
本文利用機器學(xué)習(xí)理論,基于京東中手機產(chǎn)品的在線評論數(shù)據(jù),在常用的SVM分類器的基礎(chǔ)上,添加了樸素貝葉斯以及adaboost分類器模型,再根據(jù)不同模型進行情感分類,對分類結(jié)果也進行了對比以及評價。更加突出了SVM分類器的優(yōu)良性質(zhì)。同時,對負面文本分析建立了社會和語義網(wǎng)絡(luò),分析顧客對產(chǎn)品提出的建議,對產(chǎn)品后續(xù)開發(fā)作出參考。