亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情感分析混合模型的用戶(hù)評(píng)論主題分析
        ——以vivo手機(jī)為例

        2022-05-06 14:25:10張倩男
        科技和產(chǎn)業(yè) 2022年4期
        關(guān)鍵詞:文本情感用戶(hù)

        張倩男

        (黃河交通學(xué)院 基礎(chǔ)教學(xué)部, 河南 焦作 454950)

        伴隨著全球進(jìn)入智能手機(jī)時(shí)代,手機(jī)產(chǎn)品不斷豐富,產(chǎn)品競(jìng)爭(zhēng)也日益加劇。隨著電子商務(wù)的發(fā)展,越來(lái)越多的消費(fèi)者選擇通過(guò)網(wǎng)絡(luò)平臺(tái)購(gòu)買(mǎi)手機(jī),并在平臺(tái)發(fā)表產(chǎn)品評(píng)論。評(píng)論包含產(chǎn)品不同屬性的評(píng)價(jià)、整體性評(píng)價(jià)以及與其他產(chǎn)品的對(duì)比評(píng)價(jià)等信息。挖掘在線評(píng)論中蘊(yùn)涵的潛在信息,能有效幫助商家實(shí)現(xiàn)自身產(chǎn)品與服務(wù)的優(yōu)化,進(jìn)行營(yíng)銷(xiāo)與競(jìng)爭(zhēng)策略調(diào)整,完成精細(xì)化管理,進(jìn)一步提升企業(yè)競(jìng)爭(zhēng)力,同時(shí)也能幫助消費(fèi)者做出更加明智的消費(fèi)決策。

        主題模型作為可以細(xì)粒度挖掘文檔主題和情感分布的無(wú)監(jiān)督模型,許多學(xué)者將其引入到情感分析研究中。陳曉美和關(guān)心惠[1]在LDA在線輿情視圖提取的基礎(chǔ)上,結(jié)合輿情主題和情感因素對(duì)網(wǎng)絡(luò)評(píng)論提取了主要觀點(diǎn)。萬(wàn)曉霞[2]提出了一種改進(jìn)的LDA建模方法,利用TF-IDF值對(duì)文本詞的權(quán)重進(jìn)行過(guò)濾,提高了熱門(mén)話題發(fā)現(xiàn)的速度和準(zhǔn)確性。Hu等[3]運(yùn)用LDA模型對(duì)時(shí)事新聞的社交媒體評(píng)論數(shù)據(jù)進(jìn)行分析,得到用戶(hù)的意見(jiàn)。田賢忠等[4]基于BBS-LDA進(jìn)行了論壇主題的挖掘。曾寰等[5]基于語(yǔ)義相似度對(duì)商品評(píng)論進(jìn)行LDA主題情感分類(lèi)研究。

        在文本分類(lèi)的研究中,謝宗彥等[6]基于Word2vec為酒店在線評(píng)論構(gòu)建了一個(gè)情感分析的模型,取得較好的效果。吳龍峰[7]提出了一種結(jié)合神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型Word2vec和文檔主題模型LDA的文本特征表示模型。Zhang等[8]為了得到語(yǔ)義特征,提出了一種基于Word2vec和支持向量機(jī)性能的情感分類(lèi)方法。文獻(xiàn)[9-11]也分別基于Word2vec對(duì)情感分類(lèi)進(jìn)行了研究。Sharma等[12]從預(yù)先訓(xùn)練好的word2vec模型中生成詞向量,并利用CNN層提取出更好的特征用于短句分類(lèi)。

        為了更有效挖掘用戶(hù)評(píng)論的語(yǔ)義信息,本文以vivo手機(jī)用戶(hù)評(píng)論數(shù)據(jù)為研究對(duì)象,對(duì)用戶(hù)評(píng)論進(jìn)行可視化分析和主題模型分析。進(jìn)行詞頻統(tǒng)計(jì),并繪制詞云圖,挖掘用戶(hù)對(duì)vivo手機(jī)的關(guān)注焦點(diǎn);進(jìn)行社會(huì)語(yǔ)義網(wǎng)絡(luò)的可視化分析,挖掘手機(jī)評(píng)論特征的內(nèi)在聯(lián)系;使用SnowNLP處理用戶(hù)評(píng)論信息,在時(shí)間軸上觀察用戶(hù)在特定時(shí)間段內(nèi)的情感傾向趨勢(shì),定位用戶(hù)負(fù)面評(píng)論信息?;谡w數(shù)據(jù)集進(jìn)行LDA主題特征分析,挖掘用戶(hù)主要討論話題;為提高主題分析在不同情感傾向下熱門(mén)關(guān)注點(diǎn)反映情況的精確度,將LDA和基于Word2vec的SVM算法結(jié)合,分別挖掘用戶(hù)正向和負(fù)向情感評(píng)論的潛在主題,得到不同情感傾向下用戶(hù)對(duì)vivo手機(jī)不同方面的反映情況。

        1 數(shù)據(jù)來(lái)源及處理

        根據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Canalys發(fā)布的《2019年中國(guó)大陸智能手機(jī)出貨量及市場(chǎng)份額》報(bào)告,發(fā)現(xiàn)2019年在中國(guó)大陸市場(chǎng)vivo手機(jī)出貨量雖然排名第二,但同比表現(xiàn)下滑趨勢(shì),故本文選取vivo手機(jī)的用戶(hù)評(píng)論作為研究對(duì)象,選定網(wǎng)絡(luò)爬蟲(chóng)工具——八爪魚(yú)采集器,通過(guò)模仿用戶(hù)的網(wǎng)頁(yè)操作,指定數(shù)據(jù)采集邏輯和選擇采集的數(shù)據(jù),進(jìn)行數(shù)據(jù)采集的流程設(shè)計(jì),完成采集規(guī)則的制定,然后基于流程設(shè)計(jì)進(jìn)行用戶(hù)評(píng)價(jià)界面相關(guān)信息的采集,最終共采集到近3萬(wàn)條vivo手機(jī)用戶(hù)評(píng)論數(shù)據(jù),采集字段包含用戶(hù)id、用戶(hù)評(píng)分、評(píng)價(jià)內(nèi)容、手機(jī)型號(hào)、購(gòu)買(mǎi)時(shí)間。

        在分析之前,需要通過(guò)數(shù)據(jù)清洗完成數(shù)據(jù)的規(guī)整,以提高后續(xù)情感分析的精確性。文本評(píng)論的處理主要包括:

        1)初步清洗。通過(guò)定位、篩選、查找、排序等功能對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理,如刪除賣(mài)家回應(yīng)評(píng)論部分以及無(wú)實(shí)質(zhì)評(píng)論內(nèi)容部分。

        2)文本去重。采用比較刪除法,去除文本評(píng)論數(shù)據(jù)中無(wú)用的自動(dòng)評(píng)論、重復(fù)評(píng)論以及抄襲的評(píng)論內(nèi)容,即對(duì)完全重復(fù)的語(yǔ)料進(jìn)行兩兩對(duì)比,僅保留一條有用的文本評(píng)論信息,刪除其他重復(fù)評(píng)論,確保數(shù)據(jù)的唯一性。

        3)機(jī)械壓縮去重。由于數(shù)據(jù)量較大,且文本數(shù)據(jù)質(zhì)量良莠不齊,包含很多沒(méi)有意義的文本數(shù)據(jù),故需要對(duì)其進(jìn)行壓縮,去掉連續(xù)重復(fù)的無(wú)意義詞匯。評(píng)論壓縮語(yǔ)句效果對(duì)比結(jié)果見(jiàn)表1。

        表1 用戶(hù)評(píng)論語(yǔ)句壓縮前后對(duì)比結(jié)果

        4)中文分詞。jieba中文分詞使用基于統(tǒng)計(jì)的分詞方法,基于前綴詞典實(shí)現(xiàn)對(duì)所有詞匯的掃描,然后將一條語(yǔ)句中所有可能的生成詞匯構(gòu)成有向無(wú)環(huán)圖(DAG),基于DAG圖,采用動(dòng)態(tài)規(guī)劃計(jì)算最大概率路徑找出最大切分組合。jieba中文分詞的精確模式比較適合文本分析,能夠?qū)⒕渥幼罹_地切開(kāi)。本文數(shù)據(jù)是用戶(hù)在線評(píng)論文本,故采用結(jié)巴分詞的精確模式進(jìn)行分詞。

        5)去停用詞。去停用詞的目的是為了減少信息冗余,提高分析的效率和準(zhǔn)確性,而去停用詞的關(guān)鍵在于停用詞表的維護(hù)。本文使用“哈工大停用詞詞庫(kù)”“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫(kù)”“百度停用詞表”3種停用詞庫(kù),對(duì)停用詞人工整理、匹配、篩選、去重;利用Python語(yǔ)言篩選對(duì)手機(jī)評(píng)論數(shù)據(jù)無(wú)幫助和無(wú)意義的詞匯,加入停用詞詞典,停用詞表共包含2 185個(gè)詞匯;最后利用Python語(yǔ)言基于新的停用詞表對(duì)分詞后的用戶(hù)評(píng)論數(shù)據(jù)進(jìn)行二次過(guò)濾,實(shí)驗(yàn)效果顯著,實(shí)驗(yàn)結(jié)果見(jiàn)表2。

        表2 去停用詞結(jié)果

        2 用戶(hù)評(píng)論的可視化分析

        2.1 基于TF-IDF的文本關(guān)鍵詞抽取

        TF-IDF是一種衡量文檔中某個(gè)詞對(duì)該篇文檔重要程度的計(jì)算方法,一個(gè)詞語(yǔ)在一篇文章中出現(xiàn)次數(shù)越多, 同時(shí)在所有文檔中出現(xiàn)次數(shù)越少,越能夠代表該文章。文本關(guān)鍵詞抽取流程如圖1所示。

        圖1 文本關(guān)鍵詞抽取流程

        基于處理之后的數(shù)據(jù),采用TF-IDF算法處理文檔詞項(xiàng),獲得更合理的更能代表這篇文檔特點(diǎn)的向量,在轉(zhuǎn)化成文檔向量后,依據(jù)權(quán)值大小進(jìn)行關(guān)鍵詞提取,從而進(jìn)行不同文檔間的相似度分析。TF-IDF公式為

        (1)

        式中:TF為指詞在文章中出現(xiàn)的次數(shù),即詞頻;IDF為衡量詞的常見(jiàn)程度,即逆文檔頻率;NA為該文檔詞項(xiàng)A的總數(shù);N為該文檔總詞數(shù);|DA|是包含詞項(xiàng)A的文檔數(shù);|D|是語(yǔ)料庫(kù)中的文檔總數(shù)。通過(guò)TF-IDF公式,可以計(jì)算出特定詞對(duì)于表現(xiàn)這篇文檔主題的貢獻(xiàn)度。

        2.2 評(píng)論數(shù)據(jù)可視化分析

        2.2.1 詞云圖分析

        在用戶(hù)評(píng)論的焦點(diǎn)分析中,首先基于詞法分析做評(píng)論的分詞和詞條的詞性標(biāo)注,文本過(guò)濾篩選符合關(guān)鍵詞搜索域的詞條;繼而基于TF-IDF算法實(shí)現(xiàn)關(guān)鍵詞的獲取,提取出的關(guān)鍵詞濃縮了用戶(hù)評(píng)論中的精華信息,能反映出用戶(hù)的關(guān)注點(diǎn)、情緒和認(rèn)知,產(chǎn)品的潛在競(jìng)爭(zhēng)力等信息;之后對(duì)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),提取與產(chǎn)品內(nèi)容、屬性有關(guān)的關(guān)鍵詞;最后對(duì)前101個(gè)關(guān)鍵詞基于詞云圖展示評(píng)論熱點(diǎn)與焦點(diǎn)。詞云圖如圖2所示。

        圖2 詞云圖

        通過(guò)結(jié)合詞云圖和詞頻統(tǒng)計(jì)結(jié)果可以看出,除了表示研究對(duì)象的“手機(jī)”外,“不錯(cuò)”“喜歡”“滿(mǎn)意”是評(píng)論中較為突出的高頻詞匯,其均與用戶(hù)態(tài)度有關(guān),代表大部分用戶(hù)的總體態(tài)度是較正面的。與手機(jī)性能特征相關(guān)的詞匯有“流暢”“運(yùn)行”“系統(tǒng)”“性能”“處理器”“配置”等,這些詞出現(xiàn)頻率也較高?!捌聊弧薄捌痢薄巴庥^”“好看”“顏色”等反映手機(jī)外觀的詞匯,說(shuō)明用戶(hù)對(duì)手機(jī)外觀比較關(guān)注?!芭恼铡薄扒逦薄罢障唷薄皵z像頭”高頻詞說(shuō)明用戶(hù)對(duì)手機(jī)拍照功能也比較關(guān)注?!翱爝f”“服務(wù)”“物流”“態(tài)度”反映用戶(hù)購(gòu)物體驗(yàn)特征的詞匯出現(xiàn)頻次也不低,表明用戶(hù)對(duì)購(gòu)物過(guò)程中的購(gòu)物體驗(yàn)有著較高的要求?!半姵亍薄澳陀谩薄半娏俊北砻饔行┯脩?hù)關(guān)注手機(jī)的續(xù)航能力?!鞍l(fā)熱”“不好”消極詞匯的出現(xiàn)說(shuō)明用戶(hù)對(duì)手機(jī)某些體驗(yàn)有所不滿(mǎn)。

        總體來(lái)看,用戶(hù)對(duì)vivo手機(jī)的關(guān)注點(diǎn)主要集中在手機(jī)的性能、外觀、拍照功能、續(xù)航能力,另外用戶(hù)也比較關(guān)注購(gòu)物體驗(yàn)過(guò)程,但是對(duì)這些關(guān)注點(diǎn)的態(tài)度并不能在詞云圖中體現(xiàn),需要進(jìn)一步研究。

        2.2.2 社會(huì)語(yǔ)義網(wǎng)絡(luò)分析

        采用ROSTCM6的語(yǔ)義分析工具進(jìn)行社會(huì)網(wǎng)絡(luò)和語(yǔ)義網(wǎng)絡(luò)分析,生成社會(huì)語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)圖,以圖形化的方式揭示詞與詞之間的結(jié)構(gòu)關(guān)系,對(duì)用戶(hù)評(píng)論文本數(shù)據(jù)集進(jìn)行進(jìn)一步的關(guān)聯(lián)分析,挖掘潛在信息。社會(huì)語(yǔ)義網(wǎng)絡(luò)圖如圖3所示。

        圖3 用戶(hù)評(píng)論社會(huì)語(yǔ)義網(wǎng)絡(luò)圖

        社會(huì)語(yǔ)義網(wǎng)絡(luò)分析步驟如下:

        1)將清洗處理完畢文本的數(shù)據(jù)導(dǎo)入ROSTCM6提取高頻詞。

        2)根據(jù)自定義的過(guò)濾詞表(停用詞表)過(guò)濾無(wú)意義的詞,形成高頻詞表。

        3)提取行特征詞表,構(gòu)建高頻詞和行特征詞-共現(xiàn)矩陣詞表,構(gòu)建語(yǔ)義網(wǎng)絡(luò)圖。

        通過(guò)分析,獲得以下發(fā)現(xiàn):

        1)結(jié)合語(yǔ)義網(wǎng)絡(luò)關(guān)系詞頻統(tǒng)計(jì)結(jié)果和語(yǔ)義網(wǎng)絡(luò)圖進(jìn)行分析,社會(huì)語(yǔ)義網(wǎng)絡(luò)圖以“手機(jī)”為核心節(jié)點(diǎn),主要表現(xiàn)vivo手機(jī)系統(tǒng)、電池屬性、拍照方面的功能性信息,另外很快、流暢、滿(mǎn)意、漂亮等詞表明用戶(hù)對(duì)vivo手機(jī)評(píng)價(jià)較為積極。

        2)次級(jí)節(jié)點(diǎn)基本以核心節(jié)點(diǎn)為中心向周?chē)椛浞植?,但其中也存在局部的簇群關(guān)系,揭示出主要問(wèn)題之間的潛在關(guān)聯(lián):主要表現(xiàn)手機(jī)的運(yùn)行速度快、拍照速度快、充電速度快、玩游戲速度快,同時(shí)用戶(hù)對(duì)物流速度比較滿(mǎn)意。

        3)將“流暢”作為三級(jí)節(jié)點(diǎn)。主要表現(xiàn)手機(jī)在玩游戲、運(yùn)行、系統(tǒng)、拍照方面比較流暢不卡頓。

        4)其他節(jié)點(diǎn)。與“外觀”相關(guān)的漂亮、好看等詞表現(xiàn)用戶(hù)對(duì)手機(jī)外觀比較滿(mǎn)意;與“電池”相關(guān)的續(xù)航、耐用表明手機(jī)電池續(xù)航時(shí)間長(zhǎng)。

        2.2.3 輿情時(shí)間序列可視化分析

        情感分析的目的是為了找出說(shuō)話者/作者在某些話題上或者針對(duì)一個(gè)文本兩極的觀點(diǎn)的態(tài)度。利用SnowNLP情感分析工具處理用戶(hù)評(píng)論信息,其返回值為正面情緒的概率,越接近于1表示正面情緒,越接近于0表示負(fù)面情緒,縱坐標(biāo)數(shù)值越低代表用戶(hù)評(píng)價(jià)情感分析的數(shù)值越低。將情感分析的結(jié)果在時(shí)間軸上以可視化形式呈現(xiàn)出來(lái),展示基于時(shí)間軸的信息流,如此便可以直觀觀測(cè)到某一段時(shí)間內(nèi)用戶(hù)對(duì)手機(jī)的情感傾向趨勢(shì),然后基于用戶(hù)評(píng)論的情感極性定位那些可能有問(wèn)題的異常點(diǎn),直觀查看這些異常點(diǎn)出現(xiàn)在什么時(shí)間,以及它們的數(shù)值究竟有多低。從而從這些負(fù)面評(píng)價(jià)出發(fā),針對(duì)用戶(hù)的關(guān)注焦點(diǎn)進(jìn)行挖掘,提取有價(jià)值的信息,用于產(chǎn)品的改進(jìn)和相應(yīng)的銷(xiāo)售政策的制定,對(duì)商家具有非常重要的意義。

        將全部數(shù)據(jù)的情感分析圖進(jìn)行展示,從整體上把握用戶(hù)對(duì)該產(chǎn)品的情感傾向。由于本文數(shù)據(jù)量較大,故最終形成的時(shí)間序列圖高度集中,數(shù)據(jù)分布較為密集,從圖4可以看到,數(shù)據(jù)集高度集中在圖形上方,故用戶(hù)對(duì)手機(jī)的總體評(píng)價(jià)是正面的,有些正面評(píng)價(jià)情感分析數(shù)值極端的高,但是也清晰地發(fā)現(xiàn)了許多數(shù)值極低的點(diǎn),這些點(diǎn)對(duì)應(yīng)評(píng)論的情感分析數(shù)值接近于0,因此被判定為基本上沒(méi)有正面情感,該部分評(píng)論包含用戶(hù)對(duì)手機(jī)各方面的負(fù)面評(píng)論,具有很高的研究?jī)r(jià)值。

        圖4 用戶(hù)評(píng)論的時(shí)間序列圖

        為了清晰地進(jìn)行輿情分析,抽取2019年12月份用戶(hù)評(píng)論進(jìn)行輿情時(shí)間序列可視化,如圖5所示。從時(shí)間上看,幾乎每隔幾天就會(huì)出現(xiàn)一次較嚴(yán)重的負(fù)面評(píng)價(jià)(情感值為0),因此利用Python數(shù)據(jù)框Pandas提供的排序功能找到所有評(píng)論里某段時(shí)間內(nèi)情感分析數(shù)值較低的評(píng)論。將該部分評(píng)論使用TF-IDF方式提取關(guān)鍵詞和權(quán)重,發(fā)現(xiàn)2019年12月份的負(fù)面評(píng)價(jià)主要針對(duì)客服態(tài)度、充電發(fā)熱問(wèn)題。針對(duì)京東客服服務(wù)問(wèn)題,建議京東平臺(tái)對(duì)客服人員進(jìn)行素質(zhì)培訓(xùn),提高服務(wù)質(zhì)量;針對(duì)手機(jī)充電發(fā)熱問(wèn)題,建議手機(jī)制造商對(duì)手機(jī)電池進(jìn)行檢測(cè),在保證其他優(yōu)勢(shì)的基礎(chǔ)上,改進(jìn)手機(jī)質(zhì)量。

        圖5 2019年12月用戶(hù)評(píng)論的時(shí)間序列圖

        3 基于LDA的文本主題模型分析

        3.1 LDA主題模型

        3.1.1 LDA主題模型介紹

        LDA是由Blei于2003年提出的三層貝葉斯概率模型,通過(guò)無(wú)監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)文本中隱含的主題信息,目的是要以無(wú)指導(dǎo)學(xué)習(xí)的方法從文本中發(fā)現(xiàn)隱含的語(yǔ)義維度,包括文檔(d)、主題(z)、詞(w)三層結(jié)構(gòu),能夠有效地對(duì)文本進(jìn)行建模,挖掘數(shù)據(jù)集中的潛在主題,進(jìn)而分析數(shù)據(jù)集中的集中關(guān)注點(diǎn)及其相關(guān)特征詞。該模型采用詞袋的方法對(duì)主題詞匯進(jìn)行處理,將一個(gè)文檔識(shí)別成一個(gè)詞頻向量,將文字信息轉(zhuǎn)化成數(shù)學(xué)信息,定義詞表大小為L(zhǎng),一個(gè)L維向量(1,0,0,…,0,0)表示一個(gè)詞,由N個(gè)詞構(gòu)成的評(píng)論即為d=(w1,w2,…,wN)。若商品的評(píng)論集D由M篇評(píng)論構(gòu)成,記為D=(d1,d2,…,dM),M篇評(píng)論分布著K個(gè)主題,記為zi(i=1,2,…,K)。記α和β為狄利克雷函數(shù)的先驗(yàn)參數(shù),θ為主題在文檔中的多項(xiàng)分布的參數(shù),其服從超參數(shù)為α的狄利克雷先驗(yàn)分布,φ為詞在主題中的多項(xiàng)分布的參數(shù),其服從超參數(shù)為β的狄利克雷先驗(yàn)分布。

        LDA模型假定每篇評(píng)論由各個(gè)主題按一定比例隨機(jī)混合而成,混合比例服從多項(xiàng)分布,記為

        Z|θ=Multinomial(θ)

        (2)

        而每個(gè)主題由詞匯表中的各個(gè)詞語(yǔ)按一定比例混合而成,混合比例也服從多項(xiàng)分布,即為

        W|Z,φ=Multinomial(φ)

        (3)

        在評(píng)論dj條件下生成詞wi的概率表示為

        (4)

        式中:P(wi|z=s)表示詞wi屬于第s個(gè)主題的概率;P(z=s|dj)表示第s個(gè)主題在評(píng)論dj中的概率。

        3.1.2 LDA主題模型估計(jì)

        LDA模型利用吉布斯抽樣對(duì)參數(shù)進(jìn)行估計(jì),依據(jù)為

        (5)

        式中:zi=s表示詞wi屬于第s個(gè)主題的概率;Z-i表示其他所有詞的概率;ns,-i表示不包含當(dāng)前詞wi的被分配到當(dāng)前主題zs下的個(gè)數(shù),ns,-j表示不包含當(dāng)前文檔dj的被分配到當(dāng)前主題zs下的個(gè)數(shù)。

        進(jìn)而得到詞wi在主題zs中的分布的參數(shù)估計(jì)φs,i和主題zs在評(píng)論dj中的多項(xiàng)分布的參數(shù)估計(jì)θj,s,即

        (6)

        (7)

        式中:ns,i表示詞wi在主題zs中出現(xiàn)的次數(shù);nj,s表示文檔dj中包含主題zs的個(gè)數(shù)。

        3.1.3 LDA的困惑度

        對(duì)于一篇文章所訓(xùn)練出來(lái)的模型對(duì)文檔屬于哪個(gè)主題的不確定程度稱(chēng)困惑度,困惑度越低,聚類(lèi)的效果越好。本文中采用困惑度(Perplexity)確定LDA主題模型的最優(yōu)主題個(gè)數(shù),困惑度公式為

        (8)

        3.2 主題模型結(jié)果分析

        3.2.1 基于LDA的主題分析

        用戶(hù)評(píng)論整體數(shù)據(jù)集LDA主題提取步驟如下:

        1)讀取數(shù)據(jù),加載自定義停用詞表,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作,分詞、詞性標(biāo)注、去停用詞、詞和詞性構(gòu)成一個(gè)元組。

        2)進(jìn)行特征關(guān)鍵詞的限定,由于用戶(hù)評(píng)論數(shù)據(jù)包含大量的詞匯,若考慮全部詞匯,一方面將導(dǎo)致數(shù)據(jù)處理時(shí)間過(guò)長(zhǎng),另一方面一些不常用的詞匯對(duì)主題抽取意義不大,故限定從評(píng)論文本中提取5 000個(gè)最重要的特征關(guān)鍵詞后停止提取。

        3)將詞語(yǔ)轉(zhuǎn)換為詞頻矩陣,即向量化。

        4)統(tǒng)計(jì)矩陣中每個(gè)詞語(yǔ)的TF-IDF權(quán)值,完成關(guān)鍵詞提取和向量轉(zhuǎn)換。

        5)計(jì)算困惑度,確定LDA最優(yōu)主題個(gè)數(shù),并定義函數(shù)并輸出每個(gè)主題里面的前15個(gè)關(guān)鍵詞,完成主題關(guān)鍵詞抽取。

        6)可視化分析,將LDA主題分析結(jié)果以直觀的形式表現(xiàn)出來(lái),得到交互式的動(dòng)態(tài)圖。

        主題數(shù)與困惑度的折線圖如圖6所示,每個(gè)主題下排名前15的關(guān)鍵詞見(jiàn)表3,主題3示例如圖7所示。

        圖6 主題數(shù)與困惑度的折線圖

        表3 vivo手機(jī)總體評(píng)價(jià)潛在主題

        圖7 主題3結(jié)果

        圖7(a)表示的是主題,用圓圈代表不同的主題,圓圈的大小代表了每個(gè)主題分別包含文章的數(shù)量;圖7(b)表示每個(gè)主題中常出現(xiàn)的30個(gè)關(guān)鍵詞列表,當(dāng)鼠標(biāo)沒(méi)有懸停在任何主題之上時(shí),這30個(gè)關(guān)鍵詞代表全部文本中提取到的30個(gè)最重要關(guān)鍵詞。當(dāng)把鼠標(biāo)懸停在3,右側(cè)的關(guān)鍵詞列表會(huì)立即發(fā)生變化,紅色展示了每個(gè)關(guān)鍵詞在當(dāng)前主題下的頻率。若模型擬合較好,則圖中的圓圈之間將不會(huì)重疊,本文從圖中看到6個(gè)主題不存在重疊現(xiàn)象,主題模型擬合的效果較好。

        結(jié)合表3和主題詞可視化圖進(jìn)行分析,具體來(lái)看每個(gè)主題下的信息,主題1主要反映手機(jī)性?xún)r(jià)比高;主題2主要反映手機(jī)的電池耐用;主題3主要表現(xiàn)用戶(hù)對(duì)京東的物流速度比較滿(mǎn)意;主題4表現(xiàn)手機(jī)拍照效果、運(yùn)行速度、屏幕方面的信息;主題5主要反映充電、指紋解鎖以及耳機(jī)問(wèn)題;主題6中外觀、顏色主要表現(xiàn)用戶(hù)對(duì)手機(jī)外觀屬性的評(píng)價(jià)信息,可以、不錯(cuò)、喜歡等詞說(shuō)明用戶(hù)對(duì)手機(jī)外觀評(píng)價(jià)較為積極。綜合結(jié)果來(lái)看,6個(gè)主題無(wú)重疊,擬合較好,但該方法對(duì)于負(fù)面評(píng)價(jià)主題沒(méi)有涉及。

        3.2.2 基于Word2vec和SVM、LDA的混合主題分析

        將所有評(píng)論文本分割成47 726條分句,隨機(jī)選擇1萬(wàn)條數(shù)據(jù),5人同時(shí)對(duì)數(shù)據(jù)人工標(biāo)注情感極性,積極用“1”表示,消極用“-1”表示,采用少數(shù)服從多數(shù)的思想確定數(shù)據(jù)最終的情感極性。

        按照訓(xùn)練集與測(cè)試集7∶3的比例,采用Word2vec連續(xù)詞袋模型對(duì)訓(xùn)練集數(shù)據(jù)構(gòu)建詞向量(每個(gè)詞用100維的向量表示,將句子的詞向量平均之后作為該句子的向量);然后對(duì)分詞之后的數(shù)據(jù)訓(xùn)練Word2vec詞向量模型;之后對(duì)原有評(píng)論數(shù)據(jù)使用訓(xùn)練好的詞向量模型,利用SVM訓(xùn)練分類(lèi)模型,并選擇線性核函數(shù)將向量映射到空間,判斷句子向量映射在哪個(gè)超空間里面,即積極還是消極;最后利用訓(xùn)練好的SVM分類(lèi)模型進(jìn)行情感預(yù)測(cè),并對(duì)測(cè)試集數(shù)據(jù)預(yù)測(cè)評(píng)估模型效果。評(píng)論數(shù)據(jù)最終被分為正面評(píng)價(jià)和負(fù)面評(píng)價(jià)文本,再分別進(jìn)行LDA主題分析。正面評(píng)論文本被聚成6個(gè)主題,負(fù)面評(píng)論被聚成3個(gè)主題,每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語(yǔ)及相應(yīng)的概率,正面評(píng)價(jià)潛在主題見(jiàn)表4,負(fù)面評(píng)價(jià)潛在主題見(jiàn)表5。

        基于SVM、LDA的主題分析,選擇線性核函數(shù),計(jì)算效率較高。在評(píng)價(jià)分類(lèi)器效果時(shí),引入了信息檢索中的混淆矩陣,進(jìn)而得到了SVM情感分析報(bào)告,見(jiàn)表6。其中分類(lèi)指標(biāo)精度和召回率指標(biāo)考量了分類(lèi)器對(duì)于兩個(gè)類(lèi)別的總體的分類(lèi)效果,由此結(jié)合精度和召回率得到了F1=0.963 5,故基于SVM、LDA的主題分析結(jié)果較好。

        正面情感數(shù)據(jù)集LDA主題分析:主題1到主題6分別主要反映的是手機(jī)外觀好看、京東物流速度快、拍照清晰、手機(jī)充電速度快和電池耐用、手機(jī)游戲體驗(yàn)好及性能好、手機(jī)性?xún)r(jià)比高和運(yùn)行流暢。

        負(fù)面情感數(shù)據(jù)集LDA主題分析:主題1主要反映京東平臺(tái)客服服務(wù)問(wèn)題,以及手機(jī)屏幕存在的一些問(wèn)題;主題 2主要反映的是手機(jī)屏幕指紋解鎖慢的問(wèn)題,主題3反映的是vivo手機(jī)充電電池發(fā)熱等問(wèn)題,以及在京東銷(xiāo)售客服上的一些問(wèn)題。

        表4 vivo手機(jī)正面評(píng)價(jià)潛在主題

        表5 vivo手機(jī)負(fù)面評(píng)價(jià)潛在主題

        表6 SVM情感分析報(bào)告

        將基于關(guān)鍵詞、基于LDA的主題分析與Word2vec和SVM、LDA混合算法的主題分析結(jié)果進(jìn)行對(duì)比分析可以看出:基于關(guān)鍵詞的主題分析較為抽象,需要分析人員具備一定的業(yè)務(wù)知識(shí);基于LDA的主題分析相對(duì)主題明確、清晰,共得到6個(gè)互不重疊的主題,主題劃分效果較好。基于Word2vec和SVM、LDA混合算法的主題分析得到兩大類(lèi)主題,每類(lèi)主題下又細(xì)分了子主題。其中正面主題下的5個(gè)子主題與LDA完全相同,負(fù)面主題下又細(xì)分了3個(gè)子主題,比LDA更加詳細(xì)、具體,尤其負(fù)面主題的分析,對(duì)商家的指導(dǎo)意義更為重要。

        3.3 主題分析與商家建議

        對(duì)主題及其中的高頻特征詞分析可以得出結(jié)論,vivo 手機(jī)的優(yōu)勢(shì)有外觀好看、物流速度快、拍照效果好、充電速度快、電池耐用、游戲體驗(yàn)好、性能好、性?xún)r(jià)比高、運(yùn)行流暢。用戶(hù)對(duì)vivo手機(jī)不滿(mǎn)意的地方在于京東客服服務(wù)態(tài)度、手機(jī)屏幕指紋解鎖慢、充電電池發(fā)熱、沒(méi)有贈(zèng)送耳機(jī)等。

        基于京東平臺(tái)上vivo手機(jī)的用戶(hù)評(píng)論的LDA主題模型分析結(jié)果,提出以下建議:①在保持vivo手機(jī)運(yùn)行流暢、速度快等優(yōu)勢(shì)的基礎(chǔ)上,對(duì)vivo手機(jī)在屏幕指紋識(shí)別、電池充電上進(jìn)行改進(jìn),從整體上提升vivo手機(jī)的質(zhì)量;②加強(qiáng)客服人員的整體素質(zhì),提高服務(wù)質(zhì)量,讓其在手機(jī)行業(yè)凸顯優(yōu)勢(shì)。如果商品本身及服務(wù)能夠滿(mǎn)足以上要求,并輔以恰當(dāng)?shù)倪\(yùn)營(yíng)手段,在推廣手機(jī)品牌時(shí)才容易和熱銷(xiāo)的競(jìng)品進(jìn)行競(jìng)爭(zhēng)。

        4 結(jié)語(yǔ)

        本文基于手機(jī)評(píng)論大數(shù)據(jù),進(jìn)行可視化分析和主題模型分析,進(jìn)而挖掘用戶(hù)評(píng)論的焦點(diǎn)和潛在主題信息,并將LDA與基于Word2vec的SVM算法結(jié)合進(jìn)行正、負(fù)面主題情感分析。結(jié)果表明該方法對(duì)用戶(hù)評(píng)論數(shù)據(jù)的挖掘結(jié)果比基于關(guān)鍵詞的可視化分析、基于整體數(shù)據(jù)集的LDA主題分析更清晰,能夠快速獲得用戶(hù)各方面的反饋,找到手機(jī)以及銷(xiāo)售平臺(tái)的具體改進(jìn)方向,并結(jié)合觀點(diǎn)挖掘找到用戶(hù)的不滿(mǎn)點(diǎn),進(jìn)而確定改進(jìn)策略。

        猜你喜歡
        文本情感用戶(hù)
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲女同恋中文一区二区| 亚洲欧美日韩国产综合一区二区| 日韩欧美第一页| 中文字幕成人乱码亚洲| 亚洲一区二区三区偷拍视频| 情人伊人久久综合亚洲| 国产香蕉一区二区三区在线视频| 久久久99久久久国产自输拍| 亚洲天堂av在线免费观看| 欧美牲交videossexeso欧美| 人人妻人人澡av天堂香蕉| 香蕉久久夜色精品国产| 在线日本国产成人免费精品| 把女的下面扒开添视频| 国产精品美女久久久久久2018| 色婷婷亚洲十月十月色天| 少妇人妻字幕精品毛片专区| 欧洲vat一区二区三区| 中文字幕天堂在线| 国产精品三级1区2区3区| 中文字幕在线乱码一区| 亚洲第一av导航av尤物| 91视频爱爱| 国产成人av区一区二区三| 亚洲av成人片无码网站| 久久久99精品免费视频| 成人精品一区二区三区中文字幕| AV教师一区高清| 久久久精品网站免费观看| 中文字幕在线日亚州9| 亚洲av无码成人精品区在线观看| 中文字幕有码在线视频| 亚洲第一黄色免费网站| 果冻传媒2021精品一区| 国产AV国片精品有毛| 国产91精品自拍视频| 免费看又色又爽又黄的国产软件| 欧美做受视频播放| 精品国产乱码一区二区三区 | 五码人妻少妇久久五码| 手机在线免费av资源网|