亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA主題模型的電商評論數(shù)據(jù)分析

        2023-10-25 10:02:40魏麗
        關(guān)鍵詞:情感分析模型

        魏麗

        (安徽中澳科技職業(yè)學(xué)院 管理系,安徽 合肥 230031)

        商品評論數(shù)據(jù)分析一直是國內(nèi)外研究的熱點(diǎn),通過對顧客的評論信息進(jìn)行情感分析,可以推斷出他們的消費(fèi)偏好、消費(fèi)緣由等[1],從而使商家更好地制定商品的發(fā)展策略,提升商品和服務(wù)的質(zhì)量,以吸引更多的消費(fèi)者購買。電商評論數(shù)據(jù)中含有大量的有用信息,這些文字評論既體現(xiàn)顧客購買后對于商品、客服的情感表達(dá),也成為了顧客購物決策的參考標(biāo)準(zhǔn)。因此對于電商評論數(shù)據(jù)進(jìn)行挖掘,能夠估計(jì)顧客的情感傾向和賣家的管理、運(yùn)營情況,更好地幫助企業(yè)改進(jìn)自身產(chǎn)品的不足,提升服務(wù)質(zhì)量,吸引更多的顧客購買;同時(shí)幫助顧客根據(jù)數(shù)據(jù)分析的結(jié)果確定該產(chǎn)品是否符合自己的預(yù)期。

        1 模型簡介

        1.1 SnowNLP

        本研究利用SnowNLP工具對食品評論的內(nèi)容進(jìn)行文本情感分析[2]。具體思路為:分詞提取特征—特征選擇—分類模型—識別結(jié)果。

        SnowNLP情感分析是基于內(nèi)置的情感系統(tǒng)所實(shí)現(xiàn)的,它將文本簡單地分為積極與消極兩類,輸入文本評論信息即可獲得返回值:這條評論是正面評論的概率(越接近于1越積極,接近0為消極)。其底層思想為樸素貝葉斯模型,在已知樣本信息的情況下推測評論信息積極的概率,具體如公式(1)所示:

        (1)

        其中c1代表某條評論分類為積極,而w1,w2,…,wn代表每條評論的樣本信息(每條評論被劃分成n個(gè)詞向量,每個(gè)詞向量都有一定的積極性權(quán)重,相加可得評論的積極性得分信息)。

        1.2 LDA主題模型

        LDA是一個(gè)三層貝葉斯模型[3],其中每一個(gè)文檔都被看做不同主題的隨機(jī)混合項(xiàng),而每個(gè)主題都是由單詞組成的分布。在給定主題數(shù)K、文檔集合數(shù)M以及詞匯表V的條件下,詞向量的分布由P(wn=w|zn=t)定義,并由矩陣φ(K×V)表示。同樣類似的的是主題的條件分布:P(zn=t|dn=d),并由?(M×K)表示。語料庫w和相應(yīng)主題z的聯(lián)合概率如公式(2)所示:

        (2)

        其中Nw|t是主題t產(chǎn)生詞向量w的次數(shù),Nt|d是文檔d中主題t產(chǎn)生的次數(shù)文檔集合數(shù)M以及詞匯表V的條件下,詞向量的分布由P(wn=w|zn=t)定義,該模型設(shè)定詞向量、主題分別為參數(shù)α、β的Dirichlet分布,最終由主題t生成的單詞w的預(yù)測概率如公式(3)所示:

        (3)

        其中N.|t是主題t產(chǎn)生任何單詞的總次數(shù),文檔d中主題t的預(yù)測概率如公式(4)所示:

        (4)

        其中N.|d是該主題中主題的總數(shù),最終相乘得到每個(gè)主題下生成詞語的概率,即實(shí)現(xiàn)不同主題的關(guān)鍵詞提取。

        1.3 最優(yōu)主題數(shù)的選取

        在構(gòu)建LDA模型時(shí),確定最優(yōu)主題數(shù)是必不可少的[4]。本研究希望用最少的迭代次數(shù)獲得最優(yōu)的主題數(shù)。具體的步驟如下:

        (1)取初始的主題數(shù)為k,并構(gòu)建模型,計(jì)算各主題之間的平均余弦相似度。

        (2)在k的基礎(chǔ)上增加或減少主題數(shù),分別計(jì)算相似度。

        (3)重復(fù)上述步驟直至得到平均余弦相似度最低時(shí)的k值。

        使用LDA模型尋找到不同主題的關(guān)鍵詞,并以詞頻為基礎(chǔ),構(gòu)建任何兩個(gè)主題之間的向量并計(jì)算其余弦相似度,如公式(5)所示:

        (5)

        余弦相似度的值越大,則表明兩個(gè)主題越相似。因此當(dāng)相似度最低時(shí),各個(gè)主題的差異就最明顯,也便是最優(yōu)模型。

        2 數(shù)據(jù)采集與處理

        2.1 數(shù)據(jù)來源

        本研究中選取的電商評論數(shù)據(jù)全部來自京東網(wǎng)。由于互聯(lián)網(wǎng)評論數(shù)據(jù)隨時(shí)間變化很大,具有時(shí)效性,因此沒有選擇過往數(shù)據(jù),而是從京東商品的評論頁直接爬取實(shí)時(shí)數(shù)據(jù),爬取的是堅(jiān)果的熱評數(shù)據(jù),具體的步驟:打開谷歌瀏覽器的調(diào)試工具,發(fā)現(xiàn)評論數(shù)據(jù)存放于json包中,其中的“content”字段便是本研究需要提取的數(shù)據(jù)集。

        2.2 數(shù)據(jù)詞云設(shè)計(jì)

        將采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,對處理后的數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì)并通過繪制詞云查看分詞的效果。首先對各關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),并按照詞頻倒序排序,選擇前100個(gè)詞并生成詞云,食品評論數(shù)據(jù)的詞云如圖1所示。

        圖1 食品評論數(shù)據(jù)的詞云

        3 情感分析

        本文研究的對象是電商產(chǎn)品的評論數(shù)據(jù),在此部分期望實(shí)現(xiàn)文本數(shù)據(jù)的自動分類(依據(jù)評論信息自動劃分成好評、差評),并對產(chǎn)品的特征、品質(zhì)的優(yōu)缺點(diǎn)進(jìn)行分析,因此并不需要過于精確地計(jì)算每條評論的情感指數(shù)。接下來將從匹配情感詞、修正情感傾向、SnowNLP情感分析三部分展開闡述。

        3.1 匹配情感詞

        情感分析的第一步是采用詞典匹配,本文使用2007年知網(wǎng)發(fā)布的“情感分析用詞語集”,對于中文正面評價(jià)表中的詞語,賦予初始權(quán)重1;對于負(fù)面評價(jià)表中的詞語賦予權(quán)重0,同時(shí)將“便宜”“實(shí)用”“貴”“不好”等電商評論情感傾向詞加入表中,構(gòu)成詞典集。最后將情感詞表與jieba分詞后的評論數(shù)據(jù)相匹配,得出初始的情感系數(shù)。

        3.2 修正情感傾向

        中文文本中存在雙重否定的現(xiàn)象,因此當(dāng)否定詞出現(xiàn)次數(shù)為奇數(shù)次時(shí),將這條評論調(diào)整為相反的情感分類。在上述步驟的前提下,對情感值的方向進(jìn)行修正并計(jì)算每條評論的情感得分(0到1之間),為了減少負(fù)面詞匯帶來的誤差,以0.6為界限將所有評論數(shù)據(jù)分為正面評論、負(fù)面評論,并計(jì)算情感分析的準(zhǔn)確度。以下是根據(jù)情感得分進(jìn)行劃分得到的食品數(shù)據(jù)的混淆矩陣,可知在匹配詞典的情況下,食品數(shù)據(jù)的查準(zhǔn)率為79.7%。初步觀察,可以得到結(jié)論:食品數(shù)據(jù)為熱評數(shù)據(jù),其中存在大量的好評,而差評多被隱藏,導(dǎo)致差評數(shù)據(jù)量較少,僅占5%,使得預(yù)測的準(zhǔn)確率降低。

        3.3 SnowNLP情感分析

        基于情感詞典的SnowNLP,能夠很好地契合電商評論數(shù)據(jù),其能夠?qū)⑽谋痉譃閮深?積極評論與消極評論,并返回情緒的概率值,越接近于1為積極,接近于0為消極。其底層邏輯是樸素貝葉斯模型,在已知評論樣本的信息情形下,推測其為好評的概率。下面對爬取到的食品進(jìn)行情感分析。首先統(tǒng)計(jì)各情感指數(shù)分?jǐn)?shù)段出現(xiàn)的頻率并繪制柱狀圖,食品的評論情感頻率圖如圖2所示。

        圖2 食品評論數(shù)據(jù)的情感分布圖

        通過初步觀察,可知食品評論數(shù)據(jù)在預(yù)測中大多偏向正面,這與本文選取的數(shù)據(jù)有一定的關(guān)聯(lián):食品的熱評數(shù)據(jù)中多為稱贊或默認(rèn)好評。其次,在上述情感分析的基礎(chǔ)上,本文對最新的評論進(jìn)行分類預(yù)測。

        4 LDA主題建模

        在自然語言處理領(lǐng)域,主題模型是用來提取文檔中抽象主題的一種數(shù)學(xué)模型[5-6]。人們往往使用詞頻統(tǒng)計(jì)方法如:TF-IDF(詞頻-逆向文檔頻率)判斷文檔的相似程度,而這種方法僅僅考慮文本的出現(xiàn)次數(shù),卻沒有考慮到文字背后的深層含義,例如兩個(gè)文檔中共同出現(xiàn)的詞語很少,卻是屬于一個(gè)領(lǐng)域、相似的,因此在判斷其相似性的時(shí)候需要使用LDA主題模型。

        4.1 主題模型介紹

        LDA模型是一種無監(jiān)督的貝葉斯模型,其核心公式(6)可以表示為:

        P(詞|文檔)=P(詞|主題)|P(主題|文檔)

        (6)

        它被稱為生成模型:每篇文檔的每一個(gè)詞都是通過一定的概率選擇某一個(gè)主題的,并且這個(gè)主題又以一定的概率選擇了某個(gè)詞語。因此,LDA又叫三層貝葉斯模型,三層結(jié)構(gòu)分別是:文檔(d)、主題(z)以及詞向量(w)。如果直接使用文本信息,很難進(jìn)行建模,LDA模型恰巧考慮到了這一方面,采用詞袋模型:將每一篇文檔記為詞頻向量,從而使得其轉(zhuǎn)化為易于分析的數(shù)字信息。

        假設(shè)共有M條評論信息,其中分布著K個(gè)主題,記為Zi(i=1,2…K)。由N個(gè)詞構(gòu)成的評論記為d=(w1,w2,…wN)。LDA模型的結(jié)構(gòu)如圖3所示。

        圖3 LDA模型結(jié)構(gòu)

        α和β是Dirichlet函數(shù)的先驗(yàn)參數(shù);θ是文檔中主題的多項(xiàng)分布函數(shù);Φ是主題中詞語的多項(xiàng)分布參數(shù),它們分別滿足如下表達(dá)式,如公式(7)和(8)所示:

        θ~Dir(α)

        (7)

        Φ~Dir(β)

        (8)

        在上述假設(shè)的前提下,每條評論由各個(gè)主題按照一定比例混合而成,服從多項(xiàng)分布,記為式(9)

        z|θ~Multinomial(θ)

        (9)

        而每個(gè)主題又由各個(gè)詞向量按一定比例混合而成,記為式(10)

        w|θ~Multinomial(Φ)

        (10)

        最終在評論dj條件下生成詞wi的概率表示如公式(11)所示

        (11)

        按照概率大小的倒序排序,選擇前N個(gè)作為該主題的關(guān)鍵詞,以上便是LDA建模的全過程。

        4.2 LDA主題模型分析

        本研究在情感分析部分使用SnowNLP方法將數(shù)據(jù)劃分成了積極、消極評論[7]。由于本研究目的是僅僅通過文字評論信息進(jìn)行正、負(fù)面評論的分類及兩類數(shù)據(jù)的關(guān)鍵詞提取,所以并不使用實(shí)際的評論類型,而是選擇上述預(yù)測結(jié)果以保證實(shí)驗(yàn)的真實(shí)性。在此基礎(chǔ)上,利用LDA主題模型對潛在的主題、主題下的關(guān)鍵詞進(jìn)行數(shù)據(jù)挖掘,并選定最優(yōu)主題數(shù),最終生成產(chǎn)品好評、差評不同主題的關(guān)鍵詞列表。

        尋找最優(yōu)主題數(shù)的過程,即在無需人工調(diào)試的情況下,用相對較少的迭代數(shù),找到最優(yōu)的主體結(jié)構(gòu)的過程。具體步驟為:首先,假定一開始的主題數(shù)為2,得到初始的LDA主題模型,并計(jì)算各主題間相似度(平均余弦距離);其次,增大主題數(shù),并分別計(jì)算在2-11主題數(shù)的情形下不同的相似度值;最終,確定平均余弦相似度最小時(shí)的主題個(gè)數(shù)為最優(yōu)主題數(shù)。食品正面、負(fù)面評論主題數(shù)尋優(yōu)如圖4所示:

        圖4 食品正面、負(fù)面評論主題數(shù)尋優(yōu)

        由圖4可知:食品正面、負(fù)面評論數(shù)據(jù)主題數(shù)為3時(shí),主題間的平均余弦相似度就達(dá)到了最低。因此對于食品數(shù)據(jù)做主題分析時(shí),可以選取最優(yōu)主題數(shù)為3。通過上述分析,對于食品數(shù)據(jù)以主題數(shù)3進(jìn)行主題挖掘,輸入情感分析結(jié)果產(chǎn)生的正、負(fù)面評論數(shù)據(jù),并設(shè)定每一類主題下的詞語數(shù)量為10,生成各主題關(guān)鍵詞,初步展示商品特征。食品正、負(fù)面評論主題下關(guān)鍵詞如表1所示。

        表1 食品正、負(fù)面評論主題下關(guān)鍵詞

        可以看出食品評論數(shù)據(jù)中正面評論分類效果較好:主題一中高頻特征詞如“質(zhì)量”“包裝”主要反映食品本身的特質(zhì);由于負(fù)面評論數(shù)據(jù)量較少,食品數(shù)據(jù)的負(fù)面主題分類效果一般,大致能夠發(fā)現(xiàn)食品的負(fù)面評論大多集中在“價(jià)格貴、活動先提價(jià)后降價(jià)、味道一般”等上面。

        5 總結(jié)

        本研究運(yùn)用Python-Scrapy框架分別爬取京東商品產(chǎn)品的熱評數(shù)據(jù),在數(shù)據(jù)預(yù)處理之后繪制詞云,直觀觀察顧客對于商品特征的需求,初步掌握商品賣點(diǎn);運(yùn)用詞典匹配、SnowNLP情感分析方法對上述的評論數(shù)據(jù)進(jìn)行情感指數(shù)預(yù)測,其中情感指數(shù)越接近于1,表明這條評論越可能是積極評論,并通過柱狀圖展示各分?jǐn)?shù)段的評論分布情況。由于上述預(yù)測結(jié)果(情感指數(shù)大于0.6判定為積極評論)與真實(shí)分類差別很小,為了模型的真實(shí)性,按上述分類方法將所有數(shù)據(jù)劃分成正面、負(fù)面評論數(shù)據(jù);最終對上述數(shù)據(jù)進(jìn)行LDA主題分析,分析文本中有價(jià)值的內(nèi)容。

        猜你喜歡
        情感分析模型
        一半模型
        隱蔽失效適航要求符合性驗(yàn)證分析
        如何在情感中自我成長,保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        如何在情感中自我成長,保持獨(dú)立
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        久久国产精品国产精品久久| 国产精品自在线拍国产| 久久国产精品无码一区二区三区 | 国产男女免费完整视频| 粉嫩少妇内射浓精videos| 日本国产在线一区二区| 在线中文字幕一区二区| 极品白嫩的小少妇| 国产精品国语对白露脸在线播放| 亚洲午夜无码久久久久软件| 亚洲中文字幕高清av| 国产精品美女久久久久av超清 | 伊人久久精品无码二区麻豆| 精品国产三级a∨在线观看| 欧美日韩a级a| 久久精品国产9久久综合| 大学生高潮无套内谢视频| 日日摸夜夜添狠狠添欧美| 国产精品亚洲综合色区丝瓜| 精品国产一区二区三区av免费| 久久久久久国产精品免费免费| 国产精品11p| 成年女人午夜特黄特色毛片免| 欧美国产激情18| 欧美疯狂做受xxxx高潮小说| 欧美日韩中文字幕日韩欧美| 狼人精品剧情av在线观看| 免费观看18禁无遮挡真人网站| 人妻在卧室被老板疯狂进入国产| 国产三级在线看完整版| 精品少妇一区二区av免费观看| 男男啪啪激烈高潮cc漫画免费| 中文字幕不卡高清免费| 偷拍视频这里只有精品| 亚洲中文字幕无码天然素人在线| 免费国产交换配乱淫| 男女搞黄在线观看视频| 无码专区一ⅴa亚洲v天堂| 欧美日韩精品一区二区在线观看 | 亚洲av成人无码久久精品老人| 成熟丰满熟妇高潮xxxxx|