亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯分類算法的用戶評論數(shù)據(jù)挖掘系統(tǒng)設(shè)計

        2021-03-25 04:06:04孫含笑
        現(xiàn)代計算機 2021年4期
        關(guān)鍵詞:詞匯分類用戶

        孫含笑

        (汕尾職業(yè)技術(shù)學(xué)院信息工程系,汕尾516600)

        0 引言

        20 世紀是一個信息爆炸的時代,相比于從前的車馬慢的生活,快節(jié)奏是這個時代的標志,為了滿足時代的發(fā)展,電商應(yīng)用而生。相比于傳統(tǒng)的購物方式,網(wǎng)購用戶可以足不出戶在家“逛商店”,訂貨不受時間、地點的限制;并且獲得大量的商品細節(jié)信息,買到當?shù)厝狈Φ纳唐返?,極大地突破了購物的時間和空間限制。同時,商品銷量也因網(wǎng)購獲得極大的提升。此外電商平臺存儲了海量的商品交易信息、用戶評價等,從這些海量的數(shù)據(jù)中采用數(shù)據(jù)挖掘的方式搜索隱藏于其中信息[1],從而做出相應(yīng)的調(diào)整。例如數(shù)據(jù)挖掘經(jīng)典的應(yīng)用案例,“尿布和啤酒的故事”。樸素貝葉斯作為數(shù)據(jù)挖掘的十大經(jīng)典算法,廣泛地應(yīng)用在文本分類面?!皹闼亍币辉~的由來在于假設(shè)特征之間是相互獨立的,即一個特征或者單詞出現(xiàn)的可能性與它和其他單詞相鄰沒有關(guān)系[2]。簡單的理解,給出一段文字,“研表究明,漢字的序順并不定一能影閱響讀,比如你當完看段話后,才發(fā)現(xiàn)這里的字全是亂的?!?,樸素貝葉斯分類器就是基于這樣的原理,將復(fù)雜的問題進一步簡化,進而對文本分類,并且達到比較好的效果。貝葉斯分類器的實現(xiàn)還依賴于貝葉斯定理[3]:

        其中P(H|X)表示給定觀測樣本X,假設(shè)H 成立時的概率;

        P(H|X)是后驗概率;

        P(H)是H 的先驗概率;

        P(X)是X 的先驗概率。

        當假設(shè)樣本具有n 個特征,且假設(shè)各個特征相互獨立時,式子表述為:

        基于貝葉斯分類算法,可以對用戶的評論做出文本分類,從不同的分類中可以挖掘出客戶對商品的主要關(guān)注點,客戶對商品的滿意度,以及商品的改進點等。相比于傳統(tǒng)的客戶滿意度調(diào)查,采用數(shù)據(jù)挖掘的方式,更容易發(fā)現(xiàn)數(shù)據(jù)的潛在規(guī)律,而且節(jié)省了人力、物力。

        1 研究目的與框架

        1.1 研究目的

        近年來,隨著電子商務(wù)的不斷發(fā)展,電商的競爭力越來越大,為了提升商品的競爭力,商家可謂是百花齊放。挖掘客戶的潛在需求,聆聽客戶的聲音顯得至關(guān)重要。用戶的評論當中,蘊含了大量的信息。此次研究以當下最火的化妝品行業(yè)為例,近年來女性對于化妝品的期望越來越高,越來越多的女性渴望擁有白凈的皮膚,由此市面上各種化妝品層出不窮,對于商家來說競爭也越來越大。本文采用Python 爬取某知名化妝品的用戶評論,繪制詞云,根據(jù)詞匯出現(xiàn)的頻次,從而找到關(guān)于該商品的敏感詞匯。利用貝葉斯分類器對用戶評論進行類別訓(xùn)練,類別有好評、差評、中評三個類別。對于不同類別的評論分類找到敏感詞匯,找到該商品的改善點以及優(yōu)點,從而提升商品的競爭力。

        1.2 研究框架

        (1)研究設(shè)計的創(chuàng)新點

        采用繪制詞云的方式,可以方便非專業(yè)人士讀取有效的信息。將評論內(nèi)容進行分類,從不同類別的評論里找到敏感詞匯,從而精準地找到商品的核心競爭力以及改善點。

        (2)研究和試驗設(shè)計的框架

        圖1 研究和試驗設(shè)計框架示意圖

        2 研究的設(shè)計與實現(xiàn)

        2.1 爬取數(shù)據(jù)及數(shù)據(jù)清洗

        登錄天貓網(wǎng)站,進行爬取某知名化妝品的現(xiàn)有評論數(shù)據(jù)。將得到的數(shù)據(jù)存儲在數(shù)據(jù)庫當中。對評論數(shù)據(jù)進行數(shù)據(jù)清洗,例如有些用戶沒有做出評價,系統(tǒng)會默認給出好評,這些評論數(shù)據(jù)對研究意義不大,因此需要進行清洗。

        2.2 提取詞頻及繪制詞云圖

        對清洗之后的數(shù)據(jù),不能直接使用CountVectorizer進行詞頻統(tǒng)計,因為中文的分詞較英文分詞有很大的不同,英文里面每個單詞都是用空格隔開,使用Count-Vectorizer 進行詞頻統(tǒng)計有很好的效果,但是處理中文效果卻很不理想。因此先利用jieba 分詞進行分詞處理,但使用jieba 分詞在處理過程中發(fā)現(xiàn)有一些詞匯,例如:“不油膩”、“不暗沉”等詞匯,在分詞之后是“不”,“油膩”以及“不”,“暗沉”,這樣的分詞結(jié)果顯然不是想要的結(jié)果,因此在使用jieba 分詞進行分詞時,自定義字典添加新詞匯,從而避免jieba 分詞處理過程中的弊端。分詞之后利用CountVectorizer 進行詞頻統(tǒng)計,在特征詞匯中發(fā)現(xiàn)一些無用詞匯,例如:“一下”,“一下子”等,因此需要去除停用詞,并利用WordCloud 繪制詞云圖。程序中的關(guān)鍵代碼如下:

        繪制的詞云圖如圖2。

        圖2 詞云圖

        由圖2 詞云圖可以得到一些有效的信息,字體的大小和詞匯出現(xiàn)的頻次成正比。大部分用戶對該商品體驗不錯,感到很滿意??蛻絷P(guān)注該商品的重點是,吸收效果、保濕效果、味道、滋潤度、包裝、活動優(yōu)惠力度、美白效果、清爽度。

        2.3 建立貝葉斯分類模型

        通過繪制詞云,可以看到客戶對商品的整體評價以及客戶對商品的關(guān)注點。對于該電商來說,不僅僅需要上述信息,還需要從客戶的評價中找到商品的宣傳點、核心競爭力以及商品所存在的問題。貝葉斯分類器對于文本分類問題具有較好的分類效果,因此構(gòu)建貝葉斯分類器模型,將商品評論分為好評、差評、以及中評,現(xiàn)有的評論分類比例為:好評:差評:中評=177:1.2:1,因此大部分客戶對該商品比較滿意,并從現(xiàn)有的分類結(jié)果對模型進行訓(xùn)練以及評估,訓(xùn)練集和測試集的比例為:3:1,模型訓(xùn)練的結(jié)果為:訓(xùn)練集的得分0.999611046285492,測試集的分值為測試集的得分1.0,具有較好的分類結(jié)果。

        利用貝葉斯分類器測試集的評分如表1 所示,由表1 的結(jié)果可知,差評和中評的準確率和召回率都為1,因此我們所構(gòu)建的模型能夠準確地對評論進行正確分類。通過構(gòu)建貝葉斯分類器,可以快速將評論數(shù)據(jù)進行分類,進而能夠準確地在不同類別中尋找敏感詞匯。

        表1 模型分類評價表

        2.4 提取各個類別的敏感詞匯

        提取評論中好評、差評、中評中的高頻詞匯,如表2所示。

        表2 高頻詞匯分類表

        圖3 高頻詞匯雷達圖

        通過表2 可以獲得高頻詞匯雷達圖(如圖3 所示)。從不同類別中提取高頻詞匯可以看到,商品的特點有:保濕效果好、質(zhì)地不錯、滋潤度好、清爽不油膩,包裝精美、味道好聞,具有美白效果好,受到90%以上的用戶喜愛。從差評中提取的高頻詞匯可知,首先是客戶對商品是否是正品存在質(zhì)疑以及味道刺鼻等問題,另外商品在雙十一活動中存在一些問題,客服態(tài)度以及贈送的小樣沒有達到部分顧客的滿意度。從中評中提取的高頻詞匯可知,商品整體評價不錯,但是沒有贈品問題以及價格不劃算拉低了用戶體驗。

        接下來我們來分析主要的消費群體,如表3 所示。

        表3 消費群體分類表

        除了大部分女性消費群體,一些男士也會買給自己的女朋友和老婆。因此可以將一些年輕的男士也作為重點推廣客戶。

        接下來我們來分析消費群體的膚質(zhì)特征,如表4所示。

        表4 消費群體膚質(zhì)分類表

        由上述結(jié)果可知,該護膚品適合所有的膚質(zhì),不同膚質(zhì)的用戶體驗都不錯。對于敏感肌和痘肌的用戶也有不錯的體驗。

        從上述分析來看,大部分客戶對商品的滿意度高。從少部分的客戶評價來看,商品本身可能存在氣味刺鼻的問題,但是這個問題也存在質(zhì)疑,因為從大部分客戶的評價來看,商品氣味沒有問題,氣味有淡淡的清香。因此商家可以通過樣本測試或者市場調(diào)研來解決這個問題。此外,從獲取的評論數(shù)據(jù)中可知,商家的贈品比較少,打折力度不夠,也是拉低用戶體驗的原因,因此商家可以在一些大型的電商促銷活動中,例如雙十一和雙十二等節(jié)日中加大打折力度或者贈送樣品來回饋顧客。

        3 結(jié)語

        本文基于通過Python 爬取某知名化妝品的用戶評論,通過對數(shù)據(jù)清洗、詞頻統(tǒng)計以及繪制詞云圖,分析得到客戶對商品的用戶體驗,以及客戶對該商品的主要關(guān)注點。接下來為了更好地得到用戶評價潛在的信息,對評論數(shù)據(jù)進行分類,分成中評、差評、好評,并構(gòu)建貝葉斯分類器模型,進行模型訓(xùn)練及評估。由結(jié)果可知,訓(xùn)練集和測試集的準確率都基本達到100%,各個類別的查準率和查全率也達到100%,因此能夠準確地識別出差評以及中評,表明構(gòu)建的模型有很好的效果。接著對各個類別分別提取敏感詞匯,找到商品的核心競爭力和商品存在的問題。研究實驗表明,該研究易讀性強,成本低,具有潛在的商業(yè)應(yīng)用價值。

        猜你喜歡
        詞匯分類用戶
        分類算一算
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        本刊可直接用縮寫的常用詞匯
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        亚洲av无码国产剧情| 中文字幕一区乱码在线观看| 国语淫秽一区二区三区四区| 日韩精品夜色二区91久久久 | 色婷婷精久久品蜜臀av蜜桃| 99久久精品人妻一区| 无码精品国产一区二区三区免费 | 一本一道波多野结衣av中文| 国产超碰人人一区二区三区| 日韩精品自拍一区二区| 国产av一区二区亚洲精品| 日本19禁啪啪吃奶大尺度| 变态 另类 欧美 大码 日韩| 韩国v欧美v亚洲v日本v| 中文字幕无码免费久久9一区9 | 国产精品一区二区日韩精品| 精品国产av一区二区三四区| av在线播放亚洲天堂| 亚洲国产日韩欧美综合a| 日韩av高清无码| 97久久综合区小说区图片区| 81久久免费精品国产色夜| 色窝窝无码一区二区三区| 欧美亚洲日韩国产人成在线播放| 国产成人亚洲精品2020| 久久亚洲乱码中文字幕熟女| 中文字幕在线日亚洲9| 久久精品国产四虎| 国产精品专区一区二区av免费看| 日本免费大片一区二区| 欧美日韩一区二区三区在线观看视频| 日韩成人无码一区二区三区| 日韩精品一区二区三区中文9| 国产流白浆视频在线观看| 宅男66lu国产在线观看| 亚洲男人天堂2019| 国产成人cao在线| 亚洲国产国语对白在线观看| 国产精品成人无码久久久久久| 无码人妻丰满熟妇片毛片| 亚洲另类欧美综合久久图片区|