亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機器學(xué)習(xí)的線上評論情感分類研究

2021-09-15 08:52:08任正甜李興東

科學(xué)技術(shù)創(chuàng)新 2021年26期

任正甜李興東

（蘭州交通大學(xué)，甘肅蘭州 730070）

1 概述

在現(xiàn)代社會中，網(wǎng)絡(luò)購物是非常重要的一種購物方式，在購物市場中占據(jù)了非常重要的分量。網(wǎng)絡(luò)購物用戶也可以通過在線評論表達自己使用產(chǎn)品后的感受，而客戶的在線評價也成為了影響消費者決策的重要因素，對賣家服務(wù)能力的提高也有重要的指導(dǎo)作用。單純依靠人工去收集和分類線上評論是不切實際的，故需利用機器學(xué)習(xí)的途徑對線上評論文本進行分類處理，通過對分析對商戶和顧客提供有效的信息。

在國內(nèi)外，也已經(jīng)有很多相關(guān)方面的研究，學(xué)者TimurSokhin在針對主題模型的基礎(chǔ)上，提出一種半監(jiān)督情感分析方法[1]；E.D'Andrea構(gòu)建了包括SVM在內(nèi)的三種模型，并且達到很好的實驗結(jié)果[2]；楊宇婷等在的特征表達法上進行了創(chuàng)新，結(jié)合利用了SVM算法[3]；陳子昕采用SVM分類器對新聞評論文本進行分類，并且評價指標準確率也較高[4]。

2 研究方法介紹

利用機器學(xué)習(xí)進行情感分類已經(jīng)有了很多的研究成果，但是利用adaboost等多種分類器進行建模分析的研究較少。本文將獲取的評論文本進行分詞、去除停用詞等預(yù)處理，特征提取利用TF-IDF算法，再采用NB、SVM、adaboost三種分類器，建立情感分類模型并加以應(yīng)用，最后通過特定評價指標對三種方法的性能進行比較，對商戶和顧客提供參考。

2.1 特征提取

TF-IDF（Term Frequency-Inverse Document Frequency）翻譯為中文即為“詞頻-逆向文本頻率”。它由TF（詞頻）和IDF（逆向文本頻率）兩部分組成。TF（詞頻）表示在評論文本中某一給定詞出現(xiàn)的頻率[5]。計算過程見公式：

IDF實際意義：IDF值小，說明評論文本中有該給定詞w的數(shù)量多，反之則IDF的值大。在這里，我們?nèi)菀椎玫揭粋€極端的情況：如果在所有的評論文本中一個給定詞w均出現(xiàn)過，那么詞w的IDF值即為0，由下面的計算公式看也十分顯然。

TF-IDF算法判斷詞w區(qū)分能力的過程可概括為：若給定詞w只在文本c中常出現(xiàn)，而在其他文本中不常出現(xiàn)，則認為該詞w的區(qū)分能力很好。TF-IDF算法優(yōu)點是計算快速，結(jié)果也比較符合實際情況。

2.2 樸素貝葉斯（NB）分類器

以貝葉斯公式為架構(gòu)的基礎(chǔ)上，計算后驗概率P(c|x)是及其困難的，因為由“因”到“果”的概率去推算由“果”到“因”的概率是不容易的。為了解決此類困難，樸素貝葉斯分類器（Naive Bayes classifier）的基礎(chǔ)條件中多了一個假設(shè)條件：假設(shè)每個能對最后分類的結(jié)果產(chǎn)生影響的屬性都是相互獨立的。

2.3 支持向量機（SVM）分類器

支持向量機（英文全稱Support Vector Machine，簡稱SVM）：找出一個特定的劃分超平面：該平面在能將訓(xùn)練數(shù)據(jù)集正確劃分的基礎(chǔ)上、能夠使幾何間隔盡量最大化。使

2.4 Ada-boost分類器

Ada-boost（Adaptive Boosting）方法是改進了的boosting算法。

在一開始，訓(xùn)練數(shù)據(jù)各自均具有相同的權(quán)重值，第一個基分類器是通過直接將學(xué)習(xí)算法用在初始數(shù)據(jù)分布上得到的。但在循環(huán)下一輪回時，將利用不同樣本分布不同權(quán)重值得到：加大對錯分樣本的“重視度”-加大權(quán)重這樣，難以分類正確的樣本就成了下一輪循環(huán)時候的“重點分類對象”，這樣在新一輪訓(xùn)練時，可得到一個新的分類器。就這樣多次分配權(quán)重，多次重復(fù)循環(huán)，將得到個不同的弱分類器，將這個弱分類器進行“融合”，就可以得到一個強分類器。其中，在進行弱分類器組合時，使分類準確度低的分類器權(quán)值小一些，相反，分類準確度高的分類器權(quán)值大。

3 結(jié)果與分析

3.1 數(shù)據(jù)來源

本文選取購物平臺京東為評論數(shù)據(jù)來源，使用八爪魚軟件，采集顧客在小米旗艦店中購買小米10S的所有評論情況，共獲得1428條評論，其中正面評價數(shù)據(jù)1000條，負面評價數(shù)據(jù)428條。并對數(shù)據(jù)進行預(yù)處理，正面評價標簽為0，負面標簽為1。

3.2 結(jié)果對比與分析

通過對三種分類器模型的訓(xùn)練和應(yīng)用，利用性能評價指標，對三個不同結(jié)果進行對比，結(jié)果對比如圖1。

圖1 結(jié)果對比圖

通過三個評價指標：準確度、召回率以及F1值可以看出，各個模型中SVM分類器效果極佳，在精度方面略遜色于樸素貝葉斯分類器，而ada-boost分類器在各項指標中表現(xiàn)都不突出，在這三種分類器模型中，SVM有其本身非常強勢的優(yōu)勢。

3.3 負面文本分析

為了對商戶針對產(chǎn)品提供一定的建議，本文對負面評論進行了分析。通過ROST CM6軟件建立了社會和語義網(wǎng)絡(luò)，得到結(jié)果圖2。

圖2 社會與語義網(wǎng)絡(luò)示意圖

在網(wǎng)絡(luò)中，詞匯連線越多，則說明各個詞匯之間的聯(lián)系越密切。由結(jié)果可看出：反映手機發(fā)熱問題的評論較多，手機發(fā)熱從而導(dǎo)致的信號不良和使用手感等問題，使得顧客感到不滿；耗電快以及靈敏度的問題，使得客戶使用感受較差；外圍的性價比評論，表達了顧客對該款手機性價比的不滿，使顧客更傾向于高配置的手機。

通過負面評價分析，商戶可以考慮重點解決手機發(fā)熱的問題，提高客戶使用手機時的舒適度；對手機電池質(zhì)量的提升以及屏幕手寫的靈敏度也需要重視；同時，商戶可以提高手機的性價比，給予更好的配置或者更實惠的價格來吸引顧客前來購買。

結(jié)束語

本文利用機器學(xué)習(xí)理論，基于京東中手機產(chǎn)品的在線評論數(shù)據(jù)，在常用的SVM分類器的基礎(chǔ)上，添加了樸素貝葉斯以及adaboost分類器模型，再根據(jù)不同模型進行情感分類，對分類結(jié)果也進行了對比以及評價。更加突出了SVM分類器的優(yōu)良性質(zhì)。同時，對負面文本分析建立了社會和語義網(wǎng)絡(luò)，分析顧客對產(chǎn)品提出的建議，對產(chǎn)品后續(xù)開發(fā)作出參考。