亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于評(píng)論數(shù)據(jù)的電子商務(wù)網(wǎng)站口碑分析方法

        2015-05-30 01:19:12胡瑩
        關(guān)鍵詞:項(xiàng)集短語樣本

        胡瑩

        隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)名的信息發(fā)表自由度提高,相關(guān)信息的傳播速度達(dá)到幾何級(jí)數(shù)傳播,其形成的力量對(duì)于公司的品牌形象及產(chǎn)品的口碑發(fā)揮著非常大的影響。網(wǎng)絡(luò)上用戶的口碑及意見反饋,是企業(yè)窺探競(jìng)爭(zhēng)對(duì)手產(chǎn)品弱點(diǎn)以及發(fā)現(xiàn)新的用戶需求與喜好的豐富來源。如何合理的收集消費(fèi)者或潛在消費(fèi)者的口碑信息,對(duì)企業(yè)品牌維護(hù)、消費(fèi)者調(diào)研、市場(chǎng)選擇都有很重要的幫助。因此,本文提出一種電商網(wǎng)站的網(wǎng)絡(luò)口碑分析方法,為企業(yè)分析網(wǎng)站的口碑評(píng)論得出依據(jù)。

        隨著Web2.0以及新興媒體的興起,互聯(lián)網(wǎng)自媒體的數(shù)量龐大,發(fā)表信息極度自由,相關(guān)信息傳播速度達(dá)到幾何級(jí)數(shù)傳播,其形成的力量對(duì)于公司的品牌形象及產(chǎn)品的口碑正發(fā)揮著越來越大的影響。網(wǎng)絡(luò)上用戶的評(píng)論中的贊揚(yáng)、喜好、抱怨等信息蘊(yùn)含著巨大的商機(jī),它是企業(yè)窺探競(jìng)爭(zhēng)對(duì)手產(chǎn)品弱點(diǎn)以及發(fā)現(xiàn)新的用戶需求與喜好的豐富來源。這些信息對(duì)于公關(guān)部門、品牌部門、研發(fā)部門深入了解用戶狀態(tài)與心理非常有幫助。網(wǎng)絡(luò)口碑傳播具有匿名性、速度快、范圍大、持續(xù)力強(qiáng)、傳播渠道多元化、傳播效果容易測(cè)量等特點(diǎn)。網(wǎng)絡(luò)口碑在很大程度上也是現(xiàn)實(shí)口碑的一種反映,無論是正面評(píng)價(jià)還是負(fù)面評(píng)價(jià)都可以被迅速傳播,而其中的負(fù)面評(píng)價(jià)更會(huì)被迅速放大。好的口碑傳播可以推動(dòng)企業(yè)的產(chǎn)品銷售,而負(fù)面口碑的傳播可以迅速導(dǎo)致企業(yè)的危機(jī)。

        如何合理的收集消費(fèi)者或潛在消費(fèi)者的口碑信息,對(duì)企業(yè)品牌維護(hù)、消費(fèi)者調(diào)研、市場(chǎng)選擇都有很重要的幫助。因此,本文提出一種電商網(wǎng)站的網(wǎng)絡(luò)口碑分析方法,為企業(yè)分析網(wǎng)站的口碑評(píng)論得出依據(jù)。

        實(shí)現(xiàn)方式

        技術(shù)特點(diǎn)。本方法采用了自然語音處理NLP(分詞,詞法分析,句法分析)、特征數(shù)據(jù)挖掘、情感分析、觀點(diǎn)詞提取等數(shù)據(jù)分析處理技術(shù)。

        本方法提出的通過產(chǎn)品特征數(shù)據(jù)挖掘方法(分詞與詞性標(biāo)注、Apriori算法提取高頻詞匯、然后利用KNN算法進(jìn)行分類聚合和裁剪)可以準(zhǔn)確的提取產(chǎn)品數(shù)據(jù)特征數(shù)據(jù)。創(chuàng)新性的提出把特征數(shù)據(jù)挖掘與中文情感分析技術(shù)相結(jié)合,準(zhǔn)確獲取產(chǎn)品特征數(shù)據(jù),并分析產(chǎn)品特征評(píng)價(jià)的傾向性,進(jìn)一步提升產(chǎn)品網(wǎng)絡(luò)口碑分析的實(shí)用性和針對(duì)性。

        實(shí)現(xiàn)說明

        本方法的數(shù)據(jù)處理流程如下圖所示,包括分詞與詞性標(biāo)注、基于Apriori算法獲取頻繁特征項(xiàng)集、基于KNN進(jìn)行聚類和裁剪 、挖掘用戶觀點(diǎn)及情感傾向性、提取代表性觀點(diǎn)詞與評(píng)價(jià)短語、評(píng)價(jià)短語詞頻權(quán)重計(jì)算等主要步驟。

        采集大量網(wǎng)絡(luò)評(píng)論數(shù)據(jù),用IKAnalyzer分詞工具對(duì)數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注,提取出其中的名詞及名詞短語。

        輸入一批小米3手機(jī)評(píng)論:“用了2天才來評(píng)價(jià),感覺不錯(cuò),性價(jià)比高,不足手機(jī)發(fā)熱嚴(yán)重,系統(tǒng)內(nèi)存控制不行”;“已經(jīng)收到貨,物流很給力啊,目前正在使用,感覺還不錯(cuò),日后追加評(píng)價(jià)”;“很好,超出我的想象,另外蓮米的服務(wù)超贊,只是物流有點(diǎn)慢,轉(zhuǎn)到ems就超慢,八天時(shí)間才收到貨”;“打電話時(shí)通話不順暢,信號(hào)差,設(shè)置2G后正常了,不知是運(yùn)營(yíng)商的問題,還是手機(jī)的問題,想退換貨又很糾結(jié),電池也是一天一充”;“性價(jià)比比較高,像素貌似沒有1300萬,手機(jī)用用還可以,不卡,通話清晰”……

        提取出其中的名詞及名詞短語如下:通話, 手機(jī), 性價(jià)比, 系統(tǒng)內(nèi)存, 物流, 服務(wù), ……

        針對(duì)名詞及名詞短語,基于關(guān)聯(lián)規(guī)則的Apriori算法獲取頻繁特征項(xiàng)集作為候選產(chǎn)品特征集合。

        Apriori算法對(duì)數(shù)據(jù)集進(jìn)行循環(huán)處理挖掘頻繁項(xiàng)集,其算法過程如下:

        a) 統(tǒng)計(jì)每個(gè)元素出現(xiàn)的頻率,并找出那些不小于最小支持度的項(xiàng)目集, 即1項(xiàng)頻繁項(xiàng)集;

        b) 循環(huán)處理,將第(k-1)步生成的(k-1)項(xiàng)頻繁項(xiàng)集中的元素兩兩組合,統(tǒng)計(jì)每個(gè)組合中兩個(gè)元素同時(shí)出現(xiàn)的頻率,找出不小于最小支持度的組合,生成k項(xiàng)頻繁項(xiàng)集;

        c) 循環(huán)處理直至生成的n項(xiàng)頻繁項(xiàng)集為空,所有的1,2,…,n項(xiàng)頻繁項(xiàng)集構(gòu)成最終的頻繁項(xiàng)集。

        在評(píng)論挖掘算法中,我們計(jì)算每個(gè)名詞及名詞組合在評(píng)論中出現(xiàn)的頻率,采取最小支持度為0.01,生成產(chǎn)品特征項(xiàng);由于3項(xiàng)以上的頻繁項(xiàng)明顯不是產(chǎn)品特征,我們只考慮3項(xiàng)以下的頻繁項(xiàng)。針對(duì)上述小米3手機(jī)評(píng)論,對(duì)提取出來的名詞,計(jì)算其出現(xiàn)的頻率,兩兩組合后計(jì)算同時(shí)出現(xiàn)的頻率,提取出大于給定的最小支持度的項(xiàng)目作為特征項(xiàng),得到下列特征項(xiàng):

        [系統(tǒng)], [速度], [手機(jī)] , [用戶], [評(píng)論], [小米], [手機(jī)], [功能], [性價(jià)比], [價(jià)格], [外觀], [物流], [用戶, 評(píng)論], [小米, 手機(jī)] ……

        將候選產(chǎn)品特征集合按照K最近鄰(k-Nearest Neighbor,KNN)分類算法進(jìn)行聚類和裁剪,得到最終產(chǎn)品特征項(xiàng)集合。KNN算法思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。

        a)初始化距離為最大值

        b)計(jì)算未知樣本和每個(gè)訓(xùn)練樣本的距離dist

        c)得到目前K個(gè)最臨近樣本中的最大距離maxdist

        d)如果dist小于maxdist,則將該訓(xùn)練樣本作為K-最近鄰樣本

        e)重復(fù)步驟2、3、4,直到未知樣本和所有訓(xùn)練樣本的距離都算完

        f)統(tǒng)計(jì)K-最近鄰樣本中每個(gè)類標(biāo)號(hào)出現(xiàn)的次數(shù)

        g)選擇出現(xiàn)頻率最大的類標(biāo)號(hào)作為未知樣本的類標(biāo)號(hào)

        經(jīng)過此步驟,可以獲得了最終的產(chǎn)品評(píng)價(jià)數(shù)據(jù)

        以句子為單位分析評(píng)論,若句子包含特征項(xiàng),挖掘出用戶對(duì)于該特征項(xiàng)的觀點(diǎn)詞及情感傾向性。觀點(diǎn)詞的提取,我們使用了stanford nlp工具進(jìn)行句法分析,根據(jù)句法分析樹提取出修飾特征項(xiàng)的形容詞,并利用情感詞典判斷其情感傾向性。

        例如:句子“用了一階段,質(zhì)量很好”,對(duì)特征項(xiàng)[質(zhì)量]提取出其修飾詞“好”,為正面評(píng)價(jià);句子“質(zhì)量不錯(cuò),外觀喜歡,速度快,信號(hào)好”,對(duì)特征項(xiàng)[質(zhì)量]提取出其修飾詞“不錯(cuò)”,為正面評(píng)價(jià);對(duì)特征項(xiàng)[速度]提取出其修飾詞“快”,為正面評(píng)價(jià);

        匯總包含每個(gè)特征項(xiàng)的正面句子數(shù)量和負(fù)面句子數(shù)量,得到用戶對(duì)特征項(xiàng)的整體情感傾向性;例如,對(duì)特征項(xiàng)[質(zhì)量]統(tǒng)計(jì)出正面句子數(shù)量為8,負(fù)面句子數(shù)量為1,整體評(píng)價(jià)為正面;對(duì)特征項(xiàng)[系統(tǒng)]統(tǒng)計(jì)出正面句子數(shù)量為7,負(fù)面句子數(shù)量為0,整體評(píng)價(jià)為正面;

        根據(jù)每個(gè)特征項(xiàng)的整體情感傾向性,從相應(yīng)的正面或負(fù)面句子中提取出代表性觀點(diǎn)詞,組成評(píng)價(jià)短語。

        代表性觀點(diǎn)詞的提?。航o定某個(gè)特征項(xiàng),統(tǒng)計(jì)其每個(gè)觀點(diǎn)詞出現(xiàn)的次數(shù)n(opinion)及觀點(diǎn)詞和特征項(xiàng)之間的距離d(opinion, feature),,根據(jù)以下公式計(jì)算觀點(diǎn)詞的權(quán)重,選取權(quán)重最大的詞語作為代表性觀點(diǎn)詞。

        weight = n(opinion)/( d(opinion,feature) * n(senctences) ),其中n(senctences)為句子總數(shù)。

        例如,經(jīng)計(jì)算得到特征項(xiàng)[質(zhì)量]的代表性觀點(diǎn)詞“不錯(cuò)”;得到特征項(xiàng)[質(zhì)量]的代表性觀點(diǎn)詞“流暢”;

        依據(jù)評(píng)價(jià)短語出現(xiàn)的頻率計(jì)算評(píng)價(jià)短語的權(quán)重,按照評(píng)價(jià)短語的權(quán)重降序排列,分別獲取前N項(xiàng)正負(fù)面評(píng)價(jià)短語。最終計(jì)算得到評(píng)價(jià)短語及其權(quán)重如下:速度快:0.5367, 手機(jī)不錯(cuò):0.2731, 性價(jià)比高:0.16139, 屏幕清晰:0.0222, 反應(yīng)快:0.0177,物流快:0.013

        通過以上的方法,能為電子商務(wù)網(wǎng)站在眾多用戶的評(píng)論數(shù)據(jù)中獲得評(píng)價(jià)結(jié)論。企業(yè)能夠通過此方式迅速了解市場(chǎng)的口碑,從而了解用戶需求,為企業(yè)改進(jìn)產(chǎn)品和下一步開拓市場(chǎng)決策提供了依據(jù)。

        (作者單位:武漢軟件工程職業(yè)學(xué)院商學(xué)院連鎖經(jīng)營(yíng)管理研究所)

        猜你喜歡
        項(xiàng)集短語樣本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        推動(dòng)醫(yī)改的“直銷樣本”
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        村企共贏的樣本
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項(xiàng)集的快速挖掘算法
        一種新的改進(jìn)Apriori算法*
        分布式數(shù)據(jù)庫的精簡(jiǎn)頻繁模式集及其挖掘算法*
        免费观看91色国产熟女| 国产欧美日韩图片一区二区| 亚洲大尺度动作在线观看一区| 国产一区二区三区porn| 久久国产在线精品观看| 国产精品乱码人妻一区二区三区 | 日产精品一区二区三区免费| 亚洲一区域二区域三区域四| 新中文字幕一区二区三区| 正在播放强揉爆乳女教师| 老熟女高潮一区二区三区| 久久亚洲日韩精品一区二区三区| 成人国内精品久久久久一区| 又大又粗弄得我出好多水| 久久婷婷国产综合精品| 不卡av一区二区在线| 亚洲精品宾馆在线精品酒店| 国产亚洲日本精品无码| 亚洲av麻豆aⅴ无码电影| 亚洲国产精品无码久久电影| 人妖熟女少妇人妖少妇| 日韩精品免费在线视频一区| 中文字幕人乱码中文字幕| 亚洲色欲综合一区二区三区| 国产亚洲精品福利在线| 国产精品亚洲av无人区一区蜜桃| 国产伦一区二区三区色一情| 亚洲综合色婷婷七月丁香| 免费人成再在线观看网站| 亚洲专区在线观看第三页| 精华国产一区二区三区| 欧美性猛交xxxx免费看蜜桃| 久久久久国产精品熟女影院| 国产激情久久久久久熟女老人| 亚洲一区二区三区福利久久蜜桃| 日本伊人精品一区二区三区 | 亚洲AV无码成人精品区日韩密殿| 精品一区2区3区4区| 国产精品久久久久久久久久红粉 | 女人被爽到呻吟gif动态图视看| 日本a级大片免费观看|