亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的在線評論情感分析

        2023-10-11 06:15:22張黎娜董露露檀娟伢
        關(guān)鍵詞:貝葉斯負(fù)面建模

        張黎娜,董露露,李 梅,檀娟伢

        (安徽開放大學(xué) 信息與建筑工程學(xué)院,安徽 合肥 230022)

        2022年8月31日,中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布第五十次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》.截至2022年6月,中國的網(wǎng)民規(guī)模已經(jīng)達(dá)到了10.51億人,這個數(shù)字令人印象深刻.而且,互聯(lián)網(wǎng)普及率也達(dá)到了74.4%,意味著超過三分之二的中國人都在使用互聯(lián)網(wǎng).網(wǎng)民在使用互聯(lián)網(wǎng)的過程中產(chǎn)生大量帶有情感色彩的主觀評論,在線評論數(shù)據(jù)成了互聯(lián)網(wǎng)的重要組成部分,反映出網(wǎng)民所關(guān)注事件的觀點和情感態(tài)度.

        對在線評論文本進(jìn)行情感分析可以應(yīng)用于購物網(wǎng)站、網(wǎng)絡(luò)學(xué)習(xí)平臺、社交媒體的商業(yè)營銷和輿情分析等場景,同時也是用戶決策的重要信息來源,很大程度上影響著新用戶的選擇,在線評論的情感分析也成為學(xué)者們研究的熱點[1-7],這些文獻(xiàn)為本研究提供了很多幫助.

        國內(nèi)對于在線評論文本的情感分析和主題研究一般是單一研究,但情感傾向和內(nèi)容主題是分析用戶在線評論的兩個重要維度.因此,本文以某品牌機(jī)械手表為研究對象,通過爬取消費者在線評論文本,采用基于機(jī)器學(xué)習(xí)的情感傾向分析和LDA主題模型相結(jié)合的研究方式進(jìn)行在線評論數(shù)據(jù)的情感分析.

        1 理論依據(jù)

        1.1 在線評論

        在線評論數(shù)據(jù)是網(wǎng)民在使用互聯(lián)網(wǎng)過程中產(chǎn)生大量帶有情感色彩的主觀數(shù)據(jù),是網(wǎng)絡(luò)平臺的重要組成.是發(fā)文者對某種事和物的看法、態(tài)度和情感反應(yīng).

        1.2 情感分析

        情感分析是通過分析文本中的情感詞語,挖掘?qū)μ囟ㄊ潞臀锏那楦斜磉_(dá).通過挖掘文本數(shù)據(jù)中的情感信息,了解發(fā)文者對某種事物或事件的看法、態(tài)度和情感反應(yīng).這對理解公眾輿論、市場趨勢、產(chǎn)品反饋等方面都非常重要[8].通過對在線評論情感分析,可以從大規(guī)模的評論數(shù)據(jù)中提取有價值的信息,幫助企業(yè)和組織做出更準(zhǔn)確的決策和改進(jìn)策略.

        1.3 情感分析方法

        常見的文本情感分析方法有情感詞典法和機(jī)器學(xué)習(xí)法.前者通過將文本中的情感詞與情感詞典進(jìn)行對比,統(tǒng)計情感詞的數(shù)目,并計算情感得分,判斷情感類別.但此方法對于新的、未知的情感詞或特定領(lǐng)域的情感詞,可能無法準(zhǔn)確識別和計算得分.為了提高準(zhǔn)確性,情感詞典根據(jù)情感分析的需要,人為地進(jìn)行更新和完善,這種方法實現(xiàn)困難且耗時;后者是由人工提取文本特征,使用機(jī)器算法進(jìn)行文本數(shù)據(jù)處理與情感分析.這種分析方法可以動態(tài)地更新詞庫,同時有效地減少工作量及情感分析過程中的一些感性判斷.所以,通過訓(xùn)練機(jī)器學(xué)習(xí)模型來自動識別文本中的情感,從而提高情感分析的準(zhǔn)確性和適應(yīng)性.

        1.3.1 支持向量機(jī)

        支持向量機(jī)是一種強(qiáng)大的機(jī)器學(xué)習(xí)算法,尤其適用于二分類問題.該問題的目標(biāo)是尋找一個誤分類率最小,并且不同類別的樣本點是能夠被盡可能大的間隔分開的最優(yōu)超平面,基本原理結(jié)構(gòu)如圖1所示.它在實際應(yīng)用中具有很好的分類性能,被廣泛應(yīng)用于模式識別、文本分類等領(lǐng)域[9].

        圖1 支持向量機(jī)基本原理

        圖1中,wx+b=0為分類超平面.當(dāng)處理的數(shù)據(jù)是文本數(shù)據(jù)時,需要把非線性數(shù)據(jù)從低維空間轉(zhuǎn)換到高維的線性數(shù)據(jù)再進(jìn)行求解.

        1.3.2 樸素貝葉斯

        樸素貝葉斯分類算法是基于貝葉斯理論和特征條件獨立假設(shè)的分類算法.樸素貝葉斯算法中的“樸素”表示假設(shè)每個特征之間都是相互獨立的,這樣可以簡化計算并減少模型參數(shù)的數(shù)量.雖然這個假設(shè)在現(xiàn)實中不成立,但在實際應(yīng)用中,樸素貝葉斯算法仍然能夠提供很好的分類性能.并且,樸素貝葉斯算法在文本數(shù)據(jù)情感判定方面效果較好,算法復(fù)雜度也較低[10],常應(yīng)用于數(shù)據(jù)量不大的文本情感分類.

        定義在線評論文本為wk={w1,w2,…,wn},情感類別為C= {C正,C負(fù)}.文本的情感判定公式為:

        (1)

        (2)

        (3)

        其中,P(Cj)是Cj的先驗概率,P(qi|Cj)是Cj的后驗概率,NUM(Cj)為Cj的在線評論文本數(shù).

        1.3.3 決策樹

        決策樹是指通過對屬性的測試和判斷過程,以樹的形式直觀地表示文本情感分析的邏輯關(guān)系,使得分析過程清晰易懂,其結(jié)構(gòu)如圖2所示.自根節(jié)點逐個驗證條件分支,直到某葉子節(jié)點,得到文本的情感類別.

        圖2 決策樹模型

        2 研究設(shè)計

        2.1 研究思路

        整個研究由兩大部分內(nèi)容組成:①在線評論情感傾向分析.首先,爬取京東電商平臺某品牌機(jī)械手表在線評論數(shù)據(jù);然后,經(jīng)過文本預(yù)處理、分詞、向量化等操作;再通過訓(xùn)練好的情感分類器進(jìn)行文本情感傾向分析,得到正面、負(fù)面評論文本;②LDA主題模型分析.通過LDA模型對第一部分分析的結(jié)果進(jìn)行主題建模,挖掘出潛在主題,找出產(chǎn)品或服務(wù)上的優(yōu)勢與不足,提出干預(yù)措施.整個研究思路如圖3所示.

        圖3 本文研究思路

        2.2 在線文本情感傾向分析

        2.2.1 在線評論文本數(shù)據(jù)的采集

        網(wǎng)絡(luò)爬蟲技術(shù)[11]爬取的數(shù)據(jù)可根據(jù)研究需要從網(wǎng)絡(luò)上抓取大量源數(shù)據(jù),并進(jìn)行不相關(guān)的數(shù)據(jù)剔除.常用的數(shù)據(jù)爬取工具為八爪魚采集器,與其相比,Python軟件可以自動采集、獲取海量規(guī)范的文本數(shù)據(jù),避免了人工收集、整理數(shù)據(jù)的繁瑣過程.然后對文本進(jìn)行深度挖掘,將有價值的數(shù)據(jù)提取出來,再進(jìn)行深入分析,得到更多有用的數(shù)據(jù).

        使用Python軟件爬取來源于京東電商平臺某品牌機(jī)械手表2020年10月至2022年10月在線評論數(shù)據(jù)共23 852條,每一條評論包含評分人、評分、評論時間、評論內(nèi)容.其中,5分評論9 731條,4分評論11 783條,3分評論1 133條,2分評論620,1分585條.在線商品頁面評論中好評率在95%,差評率在5%.分析得出是將3分及以上歸為正面評論,2分及以下歸為負(fù)面評論,正面評論共有22 647條,負(fù)面評論共有1 205條.

        2.2.2 評論文本預(yù)處理

        評論文本預(yù)處理是進(jìn)行文本情感分析前的一系列操作,具體步驟為:①數(shù)據(jù)清洗,從爬取的數(shù)據(jù)中剔除無效評論,例如包含圖片、音視頻等評論,最終得到有效評論文本共計21 440條;②分詞,使用jieba分詞工具進(jìn)行分詞,將評論文本切分成一個個獨立的詞語,以便后續(xù)處理和分析;③剔除停用詞,選擇哈工大停用詞詞庫剔除停用詞.停用詞是指在評論中頻繁出現(xiàn)但對文本情感分析沒有實質(zhì)性幫助的常見詞語,如“的”“了”“是”等.剔除這些停用詞能夠減少噪音,提高情感分析的準(zhǔn)確性.

        通過以上預(yù)處理步驟,評論文本將被清洗、分詞并去除停用詞,最終生成可以被計算機(jī)處理的自然語言數(shù)據(jù),以便進(jìn)行后續(xù)的情感分析.

        2.2.3 文本向量化

        文本向量化是計算機(jī)識別、處理文本數(shù)據(jù)的第一步.計算機(jī)能處理的是線性、結(jié)構(gòu)化數(shù)據(jù),而文本是一種非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、分詞后的文本需要數(shù)字編碼后才可以輸入模型進(jìn)行建模.這便需要將文本轉(zhuǎn)化為計算機(jī)能識別、處理的語言,詞向量化技術(shù)實現(xiàn)了文本數(shù)據(jù)向機(jī)器語言的轉(zhuǎn)變.

        采用Word2vec中的連續(xù)詞袋模型(CBOW)作為詞向量化工具,將文本數(shù)據(jù)進(jìn)行詞向量化.通過詞向量來表達(dá)詞與詞之間的關(guān)系,尋找詞之間的關(guān)聯(lián),將文本中的詞直接映射到一個坐標(biāo)系中,得到詞語的數(shù)值向量,在向量空間上進(jìn)行一系列數(shù)值計算.

        Word2vec中的連續(xù)詞袋模型分為3層,首先是輸入層,輸入當(dāng)前詞W前后的n個詞向量,作為模型的輸入;其次是隱藏層,將輸入層的詞向量進(jìn)行拼接或平均操作,得到一個綜合的上下文表示,可以使用全連接層或者其他非線性映射函數(shù)對上下文表示進(jìn)行處理;最后是輸出層,它由一個全連接層組成,輸出單元對應(yīng)詞庫中的詞.通過生成一個概率分布,預(yù)測當(dāng)前詞,詞袋模型的實現(xiàn)過程如圖4所示.

        圖4 CBOW模型實現(xiàn)過程

        2.2.4 分類模型

        用3種機(jī)器學(xué)習(xí)算法訓(xùn)練模型.從網(wǎng)絡(luò)獲取一個酒店評論數(shù)據(jù)集,采用正面評論5 000條,負(fù)面評論2 000條.使用train_test_split函數(shù)將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集與測試集,計算60次模型訓(xùn)練準(zhǔn)確率均值[12-13],結(jié)果如表1所列.

        表1 準(zhǔn)確率均值

        從表1可以看出,決策樹模型在兩個數(shù)據(jù)集上的準(zhǔn)確率差別較大,支持向量機(jī)模型與樸素貝葉斯模型在訓(xùn)練集、測試集的準(zhǔn)確率都不錯,但樸素貝葉斯的兩組數(shù)據(jù)更接近.

        因此,在線評論的情感分析最終采用樸素貝葉斯模型.在線評論文本經(jīng)過數(shù)據(jù)預(yù)處理、分詞、文本向量化進(jìn)入分類器進(jìn)行情感傾向分析,得到正面情感評論文本19 667條,占總文本的91.73%;負(fù)面情感評論文本1 773條,占總文本的8.27%,與京東網(wǎng)站在線評論好評占比有3%左右的誤差.

        2.2.5 評論文本可視化

        根據(jù)情感分析結(jié)果,分別把正、負(fù)面評論文本生成詞云圖,也可以驗證分類模型對在線評論情感傾向分析的結(jié)果是否準(zhǔn)確.正面、負(fù)面的評論文本詞云圖如圖5和圖6所示.

        圖5 正面評論詞云圖

        從圖5和圖6可以看出,正面評論詞云圖中,“精準(zhǔn)”“大氣”“高端”等高頻詞語都是正面的,未發(fā)現(xiàn)負(fù)面色彩的詞語,說明訓(xùn)練出的分類模型很好地區(qū)分出正面情感傾向評論.負(fù)面評論詞云圖中,“劃痕”“粗糙”“掉色”“霧氣”等負(fù)面詞語的出現(xiàn)頻率較高,圖中未出現(xiàn)帶有正面情感的詞語,也說明訓(xùn)練出的分類模型可以很好地區(qū)分出負(fù)面情感評論.

        2.3 LDA主題模型分析

        采用樸素貝葉斯模型進(jìn)行在線評論的情感傾

        向分析,是為了分析和掌握消費者對在線商品哪些方面不滿或比較認(rèn)同.通過LDA模型對消費者在線評論主題進(jìn)行探索,挖掘出消費者正面、負(fù)面評論中的潛在主題,獲得某個主題包含的詞語概率分布,確定該主題包含的其他詞匯,分析出消費者對在線商品特征的關(guān)注以及情感態(tài)度[14].

        2.3.1 主題數(shù)目選擇

        通過余弦相似度對在線評論的正、負(fù)面文本進(jìn)行LDA主題建模,確定正面評論文本、負(fù)面評論文本的最優(yōu)主題數(shù)并進(jìn)行主題分析.使用循環(huán)函數(shù)進(jìn)行數(shù)次迭代后找到評論文本的最佳主題個數(shù),無需調(diào)參,簡單方便.初始模型中,將評論文本的主題數(shù)初始值設(shè)置為k,計算評論文本主題間的平均余弦距離;然后,對主題數(shù)k值的大小進(jìn)行調(diào)整(增加或是減少),每次調(diào)整后進(jìn)行模型訓(xùn)練,得出評論文本主題間的余弦相似度;重復(fù)操作直至尋找到最優(yōu)主題數(shù)k.如果評論文本主題間的余弦相似度越高,則詞語越相似,具體計算公式為:

        (4)

        其中,W、T是兩個n維的評論文本向量,cosθ是W向量和T向量之間夾角θ的余弦值.

        正面、負(fù)面評論的主題尋優(yōu)數(shù)據(jù)如圖7和圖8所示.可以看出,正面評論文本中,主題數(shù)值取3時,平均余弦相似度最低,因此,正面評論進(jìn)行LDA主題建模時,選擇主題數(shù)3;負(fù)面評論主題數(shù)在3或4時平均余弦相似度最低,所以,負(fù)面評論主題數(shù)也選擇3進(jìn)行LDA建模.

        圖7 正面評論LDA主題建模

        圖8 負(fù)面評論LDA主題建模

        2.3.2 主題建模與分析

        使用Python中的Gensim庫對正面、負(fù)面評論進(jìn)行LDA主題建模,k值設(shè)置為3,各主題下生成6個最有可能出現(xiàn)的詞語和概率分布,結(jié)果如表2和表3所列.根據(jù)建模結(jié)果,再進(jìn)行數(shù)據(jù)分析.

        表2 正面評論主題

        表3 負(fù)面評論主題

        如表2所列,正面評論文本主題1中“大氣”“好看”“高端”“外觀”“檔次”等體現(xiàn)了消費者對手表外觀設(shè)計的認(rèn)同;主題2中“準(zhǔn)時”“值得”“喜歡”“推薦”“時間”等體現(xiàn)了消費者對手表走時準(zhǔn),防水強(qiáng)的機(jī)械性能的贊許;主題3中“手表”“材質(zhì)”“表盤”“做工”等詞體現(xiàn)消費者選擇此款手表的原因主要在于其的材質(zhì)優(yōu)良、耐用,做工一流.

        如表3所列,負(fù)面評論主題1中關(guān)鍵詞“劃痕”“粗糙”“霧氣”“一般”等詞語表明消費者對于手表的做工、質(zhì)量的不滿;主題2中“假貨”“貴”“正品”“價格”等詞體現(xiàn)在線商品價格昂貴,降價快,引起了消費者的不滿,質(zhì)疑是假貨不是正品的負(fù)面情感體現(xiàn);主題3中 “客服”“平臺”“商家”“售后”“垃圾”表明消費者對在線商品產(chǎn)生質(zhì)疑、心存不滿時,商家及平臺售后沒能及時提供售后服務(wù),遇到問題沒得到解決,導(dǎo)致情緒升級,出現(xiàn)含有“垃圾”字樣的文本,這也符合日常購物場景中的情緒體現(xiàn).

        針對負(fù)面評論,品牌商和電商平臺方可以采取一些有效措施來緩解消費者的負(fù)向情緒,維護(hù)消費者利益,提升品牌形象,優(yōu)化電商平臺.主要方法有:①嚴(yán)格把控產(chǎn)品質(zhì)量.商品發(fā)貨前,品牌商和電商平臺應(yīng)該嚴(yán)格核查產(chǎn)品型號、質(zhì)量,避免有瑕疵、不合格的商品流入到消費者手中,保障消費者的利益;②保障商品價格正常浮動.商品的價格不穩(wěn)定、低價競爭會影響品牌利益,也會導(dǎo)致假貨泛濫,損壞品牌形象.電商平臺需要及時干預(yù)、約束品牌商,將價格控制在規(guī)定的范圍內(nèi);③提升售后服務(wù)質(zhì)量.消費者進(jìn)行商品購買或是售后咨詢時,應(yīng)及時給予回應(yīng),解決問題.品牌商和電商平臺對服務(wù)團(tuán)隊?wèi)?yīng)進(jìn)行專業(yè)、系統(tǒng)的產(chǎn)品知識培訓(xùn),以便更好地服務(wù)于消費者,提升購物體驗.

        3 結(jié)語

        本文以某品牌機(jī)械手表為研究對象,通過爬取互聯(lián)網(wǎng)某電商平臺消費者在線評論文本,采用基于機(jī)器學(xué)習(xí)方法的情感傾向分析和LDA主題模型相結(jié)合的研究方式進(jìn)行在線評論數(shù)據(jù)的情感分析.在利用機(jī)器學(xué)習(xí)方法進(jìn)行情感傾向分析的基礎(chǔ)上,對正面、負(fù)面評論文本完成LDA主題建模,再進(jìn)一步分析研究,通過分析研究結(jié)果得出以在線購物為渠道的某品牌手表在產(chǎn)品或服務(wù)上的優(yōu)勢和不足,并提出干預(yù)措施,以促進(jìn)某品牌和電商平臺的健康發(fā)展,提升消費者的購物體驗.

        猜你喜歡
        貝葉斯負(fù)面建模
        聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
        基于PSS/E的風(fēng)電場建模與動態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        負(fù)面清單之后的電改
        能源(2018年8期)2018-09-21 07:57:22
        不對稱半橋變換器的建模與仿真
        遠(yuǎn)離負(fù)面情緒
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        IIRCT下負(fù)二項分布參數(shù)多變點的貝葉斯估計
        三元組輻射場的建模與仿真
        国产成人91久久麻豆视频| 精品久久久久久久无码人妻热| 麻豆影视视频高清在线观看| 少妇的丰满3中文字幕| 国产亚洲欧美日韩综合一区在线观看 | 奇米影视777撸吧| 国产自国产在线观看免费观看| 久久中国国产Av秘 入口| 中国产无码一区二区三区| 亚洲综合中文日韩字幕| 国产精品久色婷婷不卡| 久久久亚洲av成人网站| 亚洲精品无码av中文字幕| 无遮无挡三级动态图| 欧美伊人亚洲伊人色综| 国产日韩AV无码免费一区二区| 亚洲熟女av在线观看| 亚洲中文字幕精品乱码2021| 五月四房播播| 欧美丰满熟妇乱xxxxx图片| 91综合久久婷婷久久| 亚洲国内精品一区二区在线| 91精品国产九色综合久久香蕉| 无码a级毛片免费视频内谢| 久久综合给合久久狠狠狠97色69| 久久精品国产亚洲AV无码不| 日韩一区中文字幕在线| 91成人自拍在线观看| 国产免费av片无码永久免费| 国产综合自拍| 亚洲综合新区一区二区| 国产毛多水多高潮高清| 日本牲交大片免费观看| 国产在线观看黄| 日本在线一区二区免费| 大学生高潮无套内谢视频| 真人与拘做受免费视频| 欧美日韩国产在线成人网| 亚洲国产精品成人一区二区三区| 国产免费人成视频网站在线18| 鸭子tv国产在线永久播放|