郭田奇
【摘要】隨著互聯(lián)網的迅速發(fā)展,團購作為新興的電子商務盈利模式,已成為整個O2O(Online To Offline)市場不可或缺的一部分 ,對商家和消費者都有一定的引導和借鑒作用,因此運用大數據的方法對團購評論的研究也具有更加現實的意義。本文運用R語言從團購網頁上抓取了蘭州市火鍋店的評論數據,建立語料庫進而實現對評論的篩選,采用樸素貝葉斯分類算法建模,從大量的評論數據中訓練垃圾評論的分類器,通過對已有模型進行改進,使之更加適用于網購評論的分類,最終實現對團購評論的最大化利用。研究結果表明:通過樸素貝葉斯算法模型訓練出的分類器最終對有效評論的識別率達到99.4%,對垃圾評論的識別率達到54.6%,該分類器能準確識別有效評論,對于垃圾評論的識別率有待提高,但仍具有一定的參考價值。
【關鍵詞】R語言 樸素貝葉斯 團購評論 分類
一、研究背景
(一)O2O市場現狀
近年來,資本市場、互聯(lián)網巨頭與實體商業(yè)紛紛加速布局O2O領域,O2O產業(yè)如雨后春筍般在全國各地興起。調查顯示,有43.8%的網民表示喜歡在互聯(lián)網上發(fā)表評論,其中非常喜歡的占6.7%,比較喜歡的占37.1% 網絡空間已經成為人們發(fā)表言論的重要場所。
二線城市團購餐飲美食O2O用戶滲透率為23.2%,網上訂餐訂座O2O用戶滲透率為17.5%。從用戶層面來看,一二線城市餐飲和休閑O2O的用戶滲透率較高,非O2O用戶成功轉化成餐飲和休閑O2O用戶的概率較高,因此餐飲、休閑O2O市場發(fā)展已經相對成熟。
(二)研究內容
本文通過分析大量的垃圾評論,設定了一些泛化規(guī)則來提取評論所包含的明顯的特征詞,以此作為垃圾評論類的特征項,由于垃圾評論也會隨著網絡用戶的興趣轉移發(fā)生變化,為了提高分類器的過濾性能,我們通過對訓練樣本,人工對樣本進行標注,基于樸素貝葉斯的算法思想,通過對蘭州市大眾點評網站上的有關于火鍋店鋪的團購消費的評論數據進行分類,剔除垃圾評論,從而為消費者提供了更為高效的選擇,也為商家提升自己提供了優(yōu)質數據的支持。
二、基于樸素貝葉斯的垃圾評論過濾算法
基于樸素貝葉斯分類算法的過濾模型包括訓練模塊和分類模塊兩部分,實現步驟首先計算算先驗概率P(C1);
P(C1)=■ (2.1)
P(C2)=■ (2.2)
對訓練集中的所有評論進行分詞處理,統(tǒng)計每個詞的詞頻;依據統(tǒng)計結果以特定的方法提取特征詞,生成特征詞集F=W1,W2,…,Wn計算特征詞Wi的類條件概率P(xi│C),對新輸入的評論進行分詞,特征提取,生成代表該評論的特征向量X;計算P(x│c)和P(c│x)比較兩者計算結果,測試評論屬于概率值較大的那一類。
三、模型求解
(一)數據搜集
本文的數據是基于大眾點評網蘭州市火鍋團購評論數據。數據的爬取工作,主要使用R語言,符合以下特點,認為是垃圾評論:①顯示廣告信息,有超鏈接、色情等;②與餐飲、火鍋和團購沒有關系的評論;③具有人身攻擊或者思想不健康的評論;④含有大量數字和其他符號的。
本文從大眾點評上爬取蘭州市火鍋店的評論數據,共5568條數據。數據分為有效評論和垃圾評論,同時將所有數據分為訓練集和測試集,訓練集為4000條數據,測試集為1568條數據。在訓練集和測試集中有效評論和垃圾評論各自所占的比例為0.11:0.89,0.20:0.80。
(二)模型評估與優(yōu)化
通過訓練集的數據進行建模,構建樸素貝葉斯分類器,用測試集來評估分類器的表現,預測垃圾評論的準確率偏低,40%左右,原因是不少的垃圾評論被識別為有效評論,垃圾評論在數據集中的分布不均勻,評論中有效詞數量頻率遠高于含有垃圾評論的詞數,導致分類器容易誤判,但分類器對有效評論的識別率高達99.1%。
模型建立詞條-文檔矩陣,擴大進入詞條-文檔矩陣的長度,同時小幅降低進入字典詞語出現的頻率,分類器的識別率由40%上升到54.6%, 通過優(yōu)化之后的模型,不僅分類器對垃圾評論的識別率大幅提高了將近15個百分點,而且對有效評論的識別率也從99.1%上升到了更為精確的99.4%。
四、結論與展望
本文結合R語言的網絡爬蟲技術,詳細介紹了數據采集的過程,同時給出了基于爬取數據對垃圾評論的定義,運用R語言完成了數據建模,得出了基于樸素貝葉斯的分類器,同時對測試集的數據進行預測和對比,以此來評估分類器的表現,根據預測結果分析分類器對垃圾評論識別準確率偏低的原因,對模型進行了簡單的優(yōu)化,使分類器對垃圾評論識別準確率顯著提高。
本文對于一些具有明顯特征的垃圾平評論的識別效果不錯,但是對一些沒有明顯特征而且包含大量中性詞語的評論識別效果率不是很好,還有待于進一步的提高和完善,可以考慮從以下幾個方面研究:
(1)很多評論都帶有消費者的主觀感情,因此可以參考情感計算的方法在提取特征詞的時候考慮詞語的感情傾向等問題;
(2)網絡上面的新詞和不合語法的日常用語不斷更新,需要構建一個實時的網絡文本字典,正確區(qū)分垃圾評論;
(3)更多的考慮消費者與評論內容所屬行業(yè)的聯(lián)系,從多角度分析消費者的行為偏好,更加全面的理解消費者的評論內容;
隨著大數據技術的不斷發(fā)展,中文文本挖掘的研究也會越來越重要?,F階段針對文本分類的研究很多,關于中文分詞的算法也很多,如何將這些研究和算法更好的應用在對垃圾評論的過濾上,值得我們進一步的思考和實踐。
參考文獻:
[1]中國互聯(lián)網絡信息中心.中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告[R].2015.
[2]王佐仁,楊琳.貝葉斯統(tǒng)計推斷及其主要進展[J].統(tǒng)計與信息論壇, 2012.
[3]許高建,胡學鋼,王慶人.文本挖掘中的中文分詞算法研究及實現[J].計算機技術與發(fā)展, 2007.