亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost算法的電商評論文本情感識別模型

        2018-01-25 10:52:38蘇兵杰周亦鵬梁勛鴿
        物聯(lián)網(wǎng)技術 2018年1期
        關鍵詞:電子商務

        蘇兵杰 周亦鵬 梁勛鴿

        摘 要:由于電子商務網(wǎng)站上商品評論數(shù)量激增,對商品評論信息進行數(shù)據(jù)挖掘和情感分析顯得尤為重要。文中立足于電子商務平臺上生鮮產品的評論文本,將情感識別問題抽象為分類問題,結合TF-IDF和卡方檢驗方法提取文本特征,利用XGBoost算法訓練分類器建立商品評論文本的情感識別模型,將海量的商品評論數(shù)據(jù)轉換為人們需要的信息。

        關鍵詞:電子商務;用戶評論;XGBoost算法;情感識別

        中圖分類號:TP39 文獻標識碼:A 文章編號:2095-1302(2018)01-00-04

        0 引 言

        互聯(lián)網(wǎng)和電子商務的發(fā)展,使網(wǎng)絡上的商品評論文本數(shù)量激增,這些商品評論對購買同種商品的買家具有指導作用。然而面對數(shù)量龐大的商品評論,買家若通過逐個查看的方式獲取信息必將耗費大量精力,效果也不好。同時電子商務平臺上的評論分類并不能準確表達已購買用戶真正的情感傾向。在eBay信譽機制研究中Resnick等曾指出,買家由于擔心差評會遭到賣家的報復會在評論時選擇給出好評[1],比如2012年轟動一時的“壽衣門”事件。因此,大量消費者在評論時會再三思慮,造成了許多負面評價隱藏在好評之下。面對這些問題,迫切需要對評論文本進行情感傾向識別。

        文本情感分析實質上是對帶有情感色彩的主觀性文本進行分析、歸納和處理的過程[2],吸引著不同領域研究者的廣泛關注,比如人工智能、自然語言處理以及數(shù)據(jù)挖掘等[3-6],涌現(xiàn)出大量相關的研究工作。目前在文本情感分析方面最常用的兩種方法是基于語義詞典和基于機器學習的分類算法 [7]。

        基于語義詞典的情感計算方法利用通用情感詞典或編纂情感詞表來進行情感分析。文獻[8]提出合并通用情感詞典并利用word2vec工具擴充詞典構建酒店領域情感詞典,可有效對酒店領域的評論進行情感分析。文獻[9]針對網(wǎng)絡在線中文評論的特點,將領域本體和情感詞典相結合進行商品評論傾向性分析。文獻[10]基于HowNet情感詞典和自建的形容詞配價詞典,在HNC語境框架下進行文本的情感傾向性判斷,并通過實驗驗證了該方法具有較高的識別率。

        基于機器學習的分類算法是將情感分析作為分類問題來解決,通過機器學習的方法對大量標注文本進分類訓練,使用訓練的分類模型來預測待分類文本的類別。文獻[11]中分別用最大熵模型、樸素貝葉斯算法和支持向量機三種機器學習的方法進行情感分類研究。此后,研究者通過改變分類器策略、合并分類器、訓練集變形等方法來提高分類效果,文獻[12]中比較了樸素貝葉斯和支持向量機兩種分類算法的優(yōu)缺點,提出兩者的綜合體NBSVM模型。文獻[13]綜合了多個半監(jiān)督分類器的結果,發(fā)現(xiàn)綜合后的結果均高于原本單個分類器。

        但是傳統(tǒng)的情感分析方法并不足以滿足高準確率的要求,文本情感分類的準確率仍然有待提高。XGBoost算法是在2014年實現(xiàn)的一種算法,在工業(yè)中有大量應用,但鮮有研究者將其應用在情感分析中,為此本文采用XGBoost算法對網(wǎng)絡上的商品評論文本進行情感分析,并將其與樸素貝葉斯和支持向量機分類器進行比較。

        1 評論文本情感識別模型

        本文提出的模型將商品評論文本情感識別抽象為一個分類問題,采用機器學習的方法對人工標注的文本數(shù)據(jù)及其特征進行學習,得出預測模型,從而在輸入評論文本數(shù)據(jù)后自動預測該文本數(shù)據(jù)的情感傾向。模型的流程如圖1所示。

        由圖1可以看出,商品評論文本情感識別模型的完整流程主要包括以下3個階段:

        (1)模型訓練階段

        該階段主要是對數(shù)據(jù)集中的訓練集進行相關處理并提取特征,利用XGBoost算法訓練分類器獲得情感分類模型。

        (2)模型測試階段

        該階段主要根據(jù)相關評價指標,利用數(shù)據(jù)集中的測試集對模型訓練階段獲得的情感分類模型進行性能評測。

        (3)情感識別階段

        該階段主要利用通過性能評價的情感分類模型對待處理的文本進行情感分析,得到情感分析結果,完成整個情感分析的過程。

        1.1 數(shù)據(jù)集建立

        文中所使用的數(shù)據(jù)集是利用八爪魚采集器在京東商城生鮮區(qū)采集的火龍果評論文本,隨機選取其中11 098條數(shù)據(jù)作為本文的實驗數(shù)據(jù),數(shù)據(jù)中包含部分無效數(shù)據(jù),比如“聽說評價可以獲取京東豆” “展卉越南進口紅心火龍果2個裝,單果約500g”等,去除320條無效評價,選取余下的10 778條有效評論文本作為本實驗的數(shù)據(jù)集并進行人工標注。

        實驗中的情感識別是指對評論文本的情感極性(正向、中性和負向)進行判斷,因此,在人工標注時將數(shù)據(jù)集標注為三個類別標簽“1”“2”“3”,分別代表“正向評價”“中性評價”“負向評價”,標注完成后的數(shù)據(jù)集類別分布見表1所列,其中數(shù)據(jù)集中包括4 191條正向評價,3 171條中性評價和3 416條負向評價。

        1.2 文本預處理

        文本預處理是對文本進行分詞、去除情感色彩不明顯或沒有實際意義的詞語,便于計算機快速、準確地處理文本。

        1.2.1 中文分詞

        文中的實驗數(shù)據(jù)是中文文本,中文文本在分詞方面比英文文本復雜,英文文本只需根據(jù)空格或者標點符號便可完成分詞任務,但是中文詞語之間沒有空格分隔,并且單個漢字所表達的信息量太少,無法準確表示出句子的含義。為此,中文分詞是數(shù)據(jù)預處理階段必不可少的一步,文中采用的結巴分詞目前在python語言中應用比較廣泛,可獲得較高的分詞準確率。

        1.2.2 停用詞處理

        本文使用的是哈工大停用詞表,包含助詞、虛詞、介詞、符號等停用詞767個。在停用詞表中的個別詞語,比如“一般”“可以”等,在商品評價中含有情感色彩,因此,需要去掉停頓詞表中的此類詞語,同時加入一些商品評論領域的停頓詞。經(jīng)過整理,最終得到包含790個詞語的停頓詞表。

        1.3 文本表示

        向量空間模型(VSM)是比較常用的文本表示方法,在這個模型中,將文本中出現(xiàn)的詞匯作為文本的特征。例如,文本包含詞語w1,w2,…,wm,則文本T可以表示為向量T=(v1,v2,…,vm),其中vi(i=1,2,…,m)是特征wi在T中的取值,根據(jù)vi的取值不同,向量空間模型可以分為三類:

        (1)布爾型(Boolean),即vi取值為0或1,若T包含詞匯wi,則vi=1,反之vi=0。

        (2)詞頻形式(Term frequency,TF),假設ni表示wi在文本T中出現(xiàn)的次數(shù),則vi是ni的函數(shù),通常TF可以簡單地取值為ni,也可以定義為如下形式:

        (3)詞頻-逆向文本頻率形式(Term Frequency-Inverse Document Frequency,TF-IDF),實際上就是TF×IDF。詞頻(Term Frequency,TF)表示詞匯在文檔T中出現(xiàn)的頻率,逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含詞匯wi的文檔越少,即ni值越小,那么IDF的權值越大,說明詞匯wi具有很好的類別區(qū)分能力。

        也可以將IDF簡單地定義為|D|?|Dwi|,其中D表示文本集,Dwi表示包含詞匯wi的文本集,|D|表示集合的元素個數(shù)。

        在上述三種表示方法中,TF-IDF具有較好的類別區(qū)分能力,因此,本文在文本表示方面采用了TF-IDF方法。

        1.4 文本特征選取

        商品評論雖然內容短小,但包含了大量詞匯,向量空間維度勢必相當龐大。同時類別不同的文本中也包含了大量相同詞匯,對文本分類起不到任何作用。因此,進行文本特征選取是至關重要的一步。

        特征選取方法較多,比如信息增益、卡方檢驗、互信息和粗糙集等。文中使用的是卡方檢驗方法,通過檢驗特征與類別間的相關性,選取與類別相關性最大的特征集合,在這種多分類的情況下,計算特征項與每個類別的卡方檢驗值,選取其中的最大值作為特征值進行計算??ǚ綑z驗統(tǒng)計量的計算公式如下所示:

        其中,公式中各個參數(shù)的含義如下:

        N:訓練集文本總數(shù);

        A:包含詞匯w,且屬于類別c的文本數(shù)量;

        B: 包含詞匯w,但不屬于類別c的文本數(shù)量;

        C:屬于類別c,但是不包含詞匯w的文本數(shù)量;

        D:不屬于類別c,也不包含詞匯w的文本數(shù)量。

        卡方檢驗的不足之處在于夸大了低頻詞的作用,因為A,B,C,D只標記了某詞在文本中是否出現(xiàn),但不標記該詞在文本中出現(xiàn)的頻率,所以它不能表征詞匯在文本中的重要性。而TF-IDF傾向于選擇有區(qū)分度的詞匯,可以明確表達出詞匯的重要程度,能夠彌補卡方檢驗的不足。因此,文中在特征提取方面,結合了卡方檢驗和TF-IDF兩種方法,由此選取一個174維的特征空間。對特征情感詞進行總結分析,可以分為正向、中性和負向三類,該特征空間的部分特征詞如表2所示。

        1.5 XGBoost算法

        Boosting分類器是一種優(yōu)秀的集成學習模型,其主要思想是將多個準確率較低的決策樹模型組合成一個準確率較高的模型。Gradient Boosting 是 Boosting 的改進版本,該算法可通過分步方式建立模型,在不斷更新迭代中選擇梯度下降的方向來保證最終預測結果最優(yōu)。在梯度提升算法中本文主要參考了文獻[14],其算法流程如下所示 :

        (7)end for

        實驗采用XGBoost工具包來訓練模型,XGBoost全名為Extreme Gradient Boosting,是由陳天奇在2014年實現(xiàn)的,該算法可自動并行運行CPU多個線程,運行速度快,分類效果較好。本文采用Python語言調用XGBoost工具包實現(xiàn)了模型。

        1.6 模型評價

        本文采用常用的準確率(precision)、召回率(recall)、F1值評價模型,同時在模型訓練過程中使用K折交叉運算,通過多次運算求取平均值作為各評價指標的最終值,以減少運行誤差。

        (1)情感識別召回率

        召回率R=算法正確判斷文本情感傾向數(shù)量/文本總數(shù)量

        (2)情感識別準確率

        準確率P=算法正確判斷文本情感傾向數(shù)量/所有被算法召回的文本總數(shù)量

        (3)F1-指數(shù)

        2 實驗及結果分析

        實驗在模型訓練過程中使用7折交叉運算,將數(shù)據(jù)集中的三個類別分別劃分成7等份,每次運算在三個類別中按比例選取9 234個數(shù)據(jù)作為訓練集,1 539個數(shù)據(jù)作為測試集,通過XGBoost算法訓練情感識別模型,利用1 539個測試集對模型進行測試,輸出模型的準確率。

        模型中需要不斷調整以下三個參數(shù):訓練的最大深度max_depth,訓練的步長(學習率)eta,循環(huán)的次數(shù)num_round。通過不斷測試,當訓練的最大深度max_depth為8,訓練的步長為eta為0.8,循環(huán)的次數(shù)num_round為100時,模型的性能達到最優(yōu)。

        文獻[11]采用最大熵模型、樸素貝葉斯算法和支持向量機三種方法進行了情感分類研究,通過實驗證明了支持向量機分類效果最好,但樸素貝葉斯是最簡單、最常見的一種分類算法。為此,為檢驗XGBoost算法的優(yōu)勢,文中將其與樸素貝葉斯算法和支持向量機算法進行比較,輸出7次交叉運算的準確率、召回率、F1值以及每個指標的均值,用以評判算法的優(yōu)劣。三種算法對比結果如圖2所示。

        由圖2可以很明顯地看出,在商品評論文本情感識別中,樸素貝葉斯算法的表現(xiàn)是最差的,其次是支持向量機算法,表現(xiàn)最好的是XGBoost算法,在7次交叉運算結果及最終的平均值、準確率、召回率和F1-指數(shù)方面,XGBoost算法都遠優(yōu)于樸素貝葉斯和支持向量機算法。由此可知,將XGBoost算法應用于商品評論文本情感識別是可行的,并能取得不錯的效果,其分類結果優(yōu)于傳統(tǒng)的分類算法。

        3 結 語

        本文使用XGBoost算法實現(xiàn)了電子商務平臺上商品評論文本的情感識別。實驗中,建立一個包含10 778條評論文本的數(shù)據(jù)集并進行了人工標注,結合TF-IDF和卡方檢驗進行文本特征選取,驗證了XGBoost算法的可行性和優(yōu)勢,通過與樸素貝葉斯算法和支持向量機算法進行對比。實驗結果表明,XGBoost算法在評論文本情感識別方面具有很大的優(yōu)勢,其識別情感傾向的準確率為94.82%,遠遠高于樸素貝葉斯算法的85.81%和支持向量機算法的89.90%,具有很好的應用前景。

        參考文獻

        [1] Resnick P,Zeckhauser R.Trust among strangers in Internet transactions: Empirical analysis of eBays reputation system [A].The Economics of the Internet and E-Commerce[C].New York:Elservier Science,2002.

        [2] 黃發(fā)良,馮時,王大玲,等. 基于多特征融合的微博主題情感挖掘[J]. 計算機學報,2017,40(4):872-888.

        [3] Tang H F,Tan S B,Cheng X Q. A survey on sentiment detection of reviews [J]. Expert Systems with Applications,2009, 36(7):10760-10773.

        [4] Liu B. Sentiment analysis and opinion mining [J]. Synthesis Lectures on Human Language Technologies,2012, 5(1):1-167.

        [5] Tsytsarau M, Palpanas T. Survey on mining subjective data on the web [J]. Data Mining and Knowledge Discovery,2012, 24(3):478-514.

        [6] Li Y, Gao H, Yang M, et al. What are Chinese talking about in hot weibos? [J]. Physica A Statistical Mechanics & Its Applications,2013 (419):546-557.

        [7] 劉志明,劉魯.基于機器學習的中文微博情感分類實證研究[J].計算機工程與應用,2012, 48(1):1-4.

        [8] 陳柯宇,何中市. 基于情感詞典的酒店評論情感分類研究[J].現(xiàn)代計算機(上下旬),2017 (6):3-6.

        [9] 董麗麗,趙繁榮,張翔. 基于領域本體、情感詞典的商品評論傾向性分析[J]. 計算機應用與軟件,2014,31(12):104-108,194.

        [10] 張克亮,黃金柱,曹蓉,等.基于HNC語境框架和情感詞典的文本情感傾向分析[J].山東大學學報(理學版),2016,51(7):51-58,73.

        [11] Pang B, Lee L, Vaithyanathan S. Thumbs up Sentiment classification using mechine learning techniques[C].EMNLP,2002(10):79-86.

        [12] Wang S, Maiming C D. Baselines and bigrams:Simple, good sentiment and topic classification[C].ACL,2012(2):90-94.

        [13] Li S, Huang L, Wang J, et al. Semi-Stacking for Semi-supervised Sentiment Classification[C].ACL,2015(2):27-31.

        [14] 鄧永莉, 呂愿愿, 劉明亮, 等.基于中高層特征的音樂情感識別模型[J].計算機工程與設計,2017,38(4):1029-1034.

        猜你喜歡
        電子商務
        2025年我國農村電子商務交易額達到2.8萬億元
        《電子商務法》如何助力直銷
        淺析中小企業(yè)電子商務服務外包
        電子商務實踐能力的提升探析
        電子商務
        電子商務模式創(chuàng)新的相關研究
        關于加快制定電子商務法的議案
        跨境電子商務中的跨文化思考
        基于AS仿真的電子商務交易系統(tǒng)研究
        電子商務人的核心能力
        五十路一区二区中文字幕| 中文在线天堂网www| 亚洲国产香蕉视频欧美| 最新国产一区二区三区| 97成人精品国语自产拍| 国产精品熟女视频一区二区| 欧美日韩国产一区二区三区地区| 99久久免费中文字幕精品| 亚洲综合偷自成人网第页色| 中文 在线 日韩 亚洲 欧美| 成人国产精品999视频| 国产精品亚洲av国产| 久久av粉嫩一区二区| 成年女人黄小视频| 国产精品视频牛仔裤一区| 日本午夜理伦三级好看| 国内自拍速发福利免费在线观看| 欧美一性一乱一交一视频| 精品人无码一区二区三区| 日韩国产有码精品一区二在线| 亚洲国产精品一区二区毛片| 国产成人无码免费视频在线| 久久精品无码专区东京热| 日韩人妻大奶子生活片| 人妻中文字幕乱人伦在线| 丰满的少妇xxxxx青青青| 久久久99精品视频| 三级日本理论在线观看| 免费va国产高清大片在线| 五月天久久国产你懂的| 国内精品久久人妻性色av| 精品含羞草免费视频观看| 日韩精品无码视频一区二区蜜桃| 久久亚洲成a人片| 国产精品毛片av毛片一区二区| 67194熟妇人妻欧美日韩| 福利片福利一区二区三区 | 久久精品久久久久观看99水蜜桃| 97碰碰碰人妻视频无码| 久久精品国产亚洲av四叶草| 国产成人无码免费视频在线|