亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        樸素貝葉斯分類算法在團購餐飲評論中的應用

        2017-06-10 01:18:45郭田奇
        商情 2017年17期
        關鍵詞:R語言分類

        郭田奇

        【摘要】隨著互聯(lián)網的迅速發(fā)展,團購作為新興的電子商務盈利模式,已成為整個O2O(Online To Offline)市場不可或缺的一部分 ,對商家和消費者都有一定的引導和借鑒作用,因此運用大數據的方法對團購評論的研究也具有更加現實的意義。本文運用R語言從團購網頁上抓取了蘭州市火鍋店的評論數據,建立語料庫進而實現對評論的篩選,采用樸素貝葉斯分類算法建模,從大量的評論數據中訓練垃圾評論的分類器,通過對已有模型進行改進,使之更加適用于網購評論的分類,最終實現對團購評論的最大化利用。研究結果表明:通過樸素貝葉斯算法模型訓練出的分類器最終對有效評論的識別率達到99.4%,對垃圾評論的識別率達到54.6%,該分類器能準確識別有效評論,對于垃圾評論的識別率有待提高,但仍具有一定的參考價值。

        【關鍵詞】R語言 樸素貝葉斯 團購評論 分類

        一、研究背景

        (一)O2O市場現狀

        近年來,資本市場、互聯(lián)網巨頭與實體商業(yè)紛紛加速布局O2O領域,O2O產業(yè)如雨后春筍般在全國各地興起。調查顯示,有43.8%的網民表示喜歡在互聯(lián)網上發(fā)表評論,其中非常喜歡的占6.7%,比較喜歡的占37.1% 網絡空間已經成為人們發(fā)表言論的重要場所。

        二線城市團購餐飲美食O2O用戶滲透率為23.2%,網上訂餐訂座O2O用戶滲透率為17.5%。從用戶層面來看,一二線城市餐飲和休閑O2O的用戶滲透率較高,非O2O用戶成功轉化成餐飲和休閑O2O用戶的概率較高,因此餐飲、休閑O2O市場發(fā)展已經相對成熟。

        (二)研究內容

        本文通過分析大量的垃圾評論,設定了一些泛化規(guī)則來提取評論所包含的明顯的特征詞,以此作為垃圾評論類的特征項,由于垃圾評論也會隨著網絡用戶的興趣轉移發(fā)生變化,為了提高分類器的過濾性能,我們通過對訓練樣本,人工對樣本進行標注,基于樸素貝葉斯的算法思想,通過對蘭州市大眾點評網站上的有關于火鍋店鋪的團購消費的評論數據進行分類,剔除垃圾評論,從而為消費者提供了更為高效的選擇,也為商家提升自己提供了優(yōu)質數據的支持。

        二、基于樸素貝葉斯的垃圾評論過濾算法

        基于樸素貝葉斯分類算法的過濾模型包括訓練模塊和分類模塊兩部分,實現步驟首先計算算先驗概率P(C1);

        P(C1)=■ (2.1)

        P(C2)=■ (2.2)

        對訓練集中的所有評論進行分詞處理,統(tǒng)計每個詞的詞頻;依據統(tǒng)計結果以特定的方法提取特征詞,生成特征詞集F=W1,W2,…,Wn計算特征詞Wi的類條件概率P(xi│C),對新輸入的評論進行分詞,特征提取,生成代表該評論的特征向量X;計算P(x│c)和P(c│x)比較兩者計算結果,測試評論屬于概率值較大的那一類。

        三、模型求解

        (一)數據搜集

        本文的數據是基于大眾點評網蘭州市火鍋團購評論數據。數據的爬取工作,主要使用R語言,符合以下特點,認為是垃圾評論:①顯示廣告信息,有超鏈接、色情等;②與餐飲、火鍋和團購沒有關系的評論;③具有人身攻擊或者思想不健康的評論;④含有大量數字和其他符號的。

        本文從大眾點評上爬取蘭州市火鍋店的評論數據,共5568條數據。數據分為有效評論和垃圾評論,同時將所有數據分為訓練集和測試集,訓練集為4000條數據,測試集為1568條數據。在訓練集和測試集中有效評論和垃圾評論各自所占的比例為0.11:0.89,0.20:0.80。

        (二)模型評估與優(yōu)化

        通過訓練集的數據進行建模,構建樸素貝葉斯分類器,用測試集來評估分類器的表現,預測垃圾評論的準確率偏低,40%左右,原因是不少的垃圾評論被識別為有效評論,垃圾評論在數據集中的分布不均勻,評論中有效詞數量頻率遠高于含有垃圾評論的詞數,導致分類器容易誤判,但分類器對有效評論的識別率高達99.1%。

        模型建立詞條-文檔矩陣,擴大進入詞條-文檔矩陣的長度,同時小幅降低進入字典詞語出現的頻率,分類器的識別率由40%上升到54.6%, 通過優(yōu)化之后的模型,不僅分類器對垃圾評論的識別率大幅提高了將近15個百分點,而且對有效評論的識別率也從99.1%上升到了更為精確的99.4%。

        四、結論與展望

        本文結合R語言的網絡爬蟲技術,詳細介紹了數據采集的過程,同時給出了基于爬取數據對垃圾評論的定義,運用R語言完成了數據建模,得出了基于樸素貝葉斯的分類器,同時對測試集的數據進行預測和對比,以此來評估分類器的表現,根據預測結果分析分類器對垃圾評論識別準確率偏低的原因,對模型進行了簡單的優(yōu)化,使分類器對垃圾評論識別準確率顯著提高。

        本文對于一些具有明顯特征的垃圾平評論的識別效果不錯,但是對一些沒有明顯特征而且包含大量中性詞語的評論識別效果率不是很好,還有待于進一步的提高和完善,可以考慮從以下幾個方面研究:

        (1)很多評論都帶有消費者的主觀感情,因此可以參考情感計算的方法在提取特征詞的時候考慮詞語的感情傾向等問題;

        (2)網絡上面的新詞和不合語法的日常用語不斷更新,需要構建一個實時的網絡文本字典,正確區(qū)分垃圾評論;

        (3)更多的考慮消費者與評論內容所屬行業(yè)的聯(lián)系,從多角度分析消費者的行為偏好,更加全面的理解消費者的評論內容;

        隨著大數據技術的不斷發(fā)展,中文文本挖掘的研究也會越來越重要?,F階段針對文本分類的研究很多,關于中文分詞的算法也很多,如何將這些研究和算法更好的應用在對垃圾評論的過濾上,值得我們進一步的思考和實踐。

        參考文獻:

        [1]中國互聯(lián)網絡信息中心.中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告[R].2015.

        [2]王佐仁,楊琳.貝葉斯統(tǒng)計推斷及其主要進展[J].統(tǒng)計與信息論壇, 2012.

        [3]許高建,胡學鋼,王慶人.文本挖掘中的中文分詞算法研究及實現[J].計算機技術與發(fā)展, 2007.

        猜你喜歡
        R語言分類
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        分類討論求坐標
        數據分析中的分類討論
        教你一招:數的分類
        基于GPS軌跡數據進行分析改善城市交通擁擠
        基于R語言的Moodle平臺數據挖掘技術的研究
        基于R語言的湖南產業(yè)結構對其經濟增長貢獻分析
        商(2016年24期)2016-07-20 08:03:39
        注重統(tǒng)計思維培養(yǎng)與應用為主導的生物統(tǒng)計學課程建設
        考試周刊(2016年15期)2016-03-25 04:09:43
        人民幣匯率的均值回復檢驗及Hurst指數計算
        免费av在线 国产精品| 国语对白嫖老妇胖老太| 日本在线看片免费人成视频1000 | 搡老熟女老女人一区二区| 国产xxxxx在线观看免费| 亚洲成a人无码| 日韩插啊免费视频在线观看| 无码国产精品第100页| 婷婷色在线视频中文字幕| 中文字幕一区二三区麻豆| 欧美牲交a欧美牲交aⅴ免费下载 | 五月丁香六月综合缴清无码| 亚洲国产精品久久久久婷婷老年| 亚洲AV无码精品呻吟| 一本色道久久综合亚洲精品蜜臀| 人妻少妇被猛烈进入中文| 久久久精品视频网站在线观看| 欧美精品亚洲精品日韩专区| 久久精品国产自清天天线| 美女窝人体色www网站| 中文字幕精品久久一区二区三区| 一区二区三区天堂在线| 国产ww久久久久久久久久| 国产成人www免费人成看片 | 日本最新一区二区三区在线| 亚洲高清乱码午夜电影网| 丰满熟女人妻中文字幕免费| 99国产精品无码专区| 日产精品毛片av一区二区三区| 国产农村妇女精品一区| 久久精品99久久香蕉国产| 四虎影视一区二区精品| 成年毛片18成年毛片| 精品一区二区三区中文字幕在线| 在线看亚洲一区二区三区| 夜夜高潮夜夜爽夜夜爱爱一区| 51国偷自产一区二区三区| 高清国产美女一级a毛片在线| 亚洲另类国产精品中文字幕| 亚洲国产成人久久综合碰碰| 风韵多水的老熟妇|