杜利明 郭文艷 崔蕾 王鳳英
摘要:用戶評(píng)論文本挖掘與分析在多個(gè)領(lǐng)域具有重要實(shí)際應(yīng)用價(jià)值。文章選取京東商城用戶評(píng)論數(shù)據(jù)集作為研究對(duì)象,運(yùn)用多種方法對(duì)其進(jìn)行深入的數(shù)據(jù)挖掘與分析。首先,通過TF-IDF提取關(guān)鍵詞揭示評(píng)論的核心主題,進(jìn)而通過分析高頻詞了解用戶對(duì)京東商城服務(wù)的關(guān)注點(diǎn)和整體評(píng)價(jià)。其次,采用情感分析技術(shù)對(duì)評(píng)論文本進(jìn)行情感傾向性分類,旨在判斷評(píng)論的情緒色彩,為京東商城的產(chǎn)品改進(jìn)和市場(chǎng)定位提供有益參考。最后,借助LDA主題模型對(duì)評(píng)論文本進(jìn)行主題剖析,挖掘出評(píng)論中的隱性主題和話題分布,進(jìn)一步揭示用戶對(duì)產(chǎn)品或服務(wù)的不同觀點(diǎn)和需求,從而為京東商城提供針對(duì)性的改進(jìn)策略和意見。
關(guān)鍵詞:LDA;用戶評(píng)論;文本挖掘;情感分析
中圖分類號(hào): F724.6;F426.8 文獻(xiàn)標(biāo)志碼: A
0 引言
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心第53次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2023年12月,我國(guó)網(wǎng)民規(guī)模已達(dá)到10.92億,互聯(lián)網(wǎng)普及率達(dá)77.5%[1]?;ヂ?lián)網(wǎng)時(shí)代下,隨著在線購(gòu)物的普及,產(chǎn)品和服務(wù)的評(píng)論成了網(wǎng)民做出購(gòu)買決策的重要參考依據(jù)。海量用戶評(píng)論中蘊(yùn)含著消費(fèi)者對(duì)產(chǎn)品的觀點(diǎn)、意見和情感態(tài)度,對(duì)這些評(píng)論進(jìn)行深入挖掘和情感分析,對(duì)于企業(yè)改進(jìn)產(chǎn)品質(zhì)量、提升用戶滿意度和制定精確的市場(chǎng)策略至關(guān)重要。但用戶評(píng)論通常以非結(jié)構(gòu)化的文本形式存在且數(shù)量極為龐大,為進(jìn)一步從評(píng)論中提煉有價(jià)值的信息,本文借助LDA主題模型,探究人們?cè)诶娚唐脚_(tái)進(jìn)行網(wǎng)購(gòu)時(shí)的情感傾向及關(guān)注點(diǎn),幫助電商平臺(tái)商家準(zhǔn)確快速把握消費(fèi)者的情感與需求,及時(shí)制定更優(yōu)銷售方案,改善服務(wù),緩解平臺(tái)競(jìng)爭(zhēng)壓力。
1 相關(guān)研究
1.1 在線評(píng)論特征詞抽取研究
在線評(píng)論挖掘旨在從大量網(wǎng)絡(luò)評(píng)論數(shù)據(jù)中自動(dòng)識(shí)別能夠表征評(píng)論主要內(nèi)容的關(guān)鍵詞或短語,目前多應(yīng)用于電子商務(wù)、社交媒體分析、旅游與酒店業(yè)等多個(gè)領(lǐng)域的多個(gè)層面。谷瑩等[2]利用Word2vec技術(shù)構(gòu)建產(chǎn)品特征詞集合,識(shí)別用戶評(píng)論主題特征,提出一種基于在線產(chǎn)品評(píng)論的競(jìng)爭(zhēng)情報(bào)挖掘框架。彭云等[3]利用句法分析和詞義理解獲取語義關(guān)系,提出SRC-LDA主題模型,挖掘特征詞與情感詞語義相關(guān)性,實(shí)現(xiàn)語義約束下的細(xì)粒度主題特征抽取。Quan等[4]在產(chǎn)品特征提取研究中,創(chuàng)新性地將互信息概念引入TF-IDF(Term Frequency-Inverse Document Frequency)權(quán)重算法中,提出了新型相似性度量標(biāo)準(zhǔn),用于評(píng)價(jià)候選對(duì)象與特定領(lǐng)域?qū)嶓w間的關(guān)聯(lián)強(qiáng)度,開發(fā)出了一種無須人工干預(yù)的自動(dòng)特征抽取技術(shù)。黃昌莉等[5]利用LDA主題模型和扎根理論相分析了旅游城市形象感知的構(gòu)成要素及其相互影響的作用過程。
1.2 情感分析研究
Kim等[6]在對(duì)獲取的評(píng)論數(shù)據(jù)進(jìn)行回歸分析的基礎(chǔ)上,運(yùn)用情感分析研究影響消費(fèi)者對(duì)酒店滿意程度的因素。Rudy等[7]將規(guī)則的分類、監(jiān)督學(xué)習(xí)和機(jī)器學(xué)習(xí)結(jié)合在一起提出解決情感分類問題的方法,并采用實(shí)證研究進(jìn)行結(jié)果測(cè)試。高佳希等[8]提出了基于TF-IDF和多頭注意力Transformer模型的文本情感分析模型,旨在提高模型對(duì)語義的分析和泛化能力。趙宏等[9]提出了基于特征融合的中文文本情感分析方法,旨在將全局特征和局部語義特征進(jìn)行融合,并使用Softmax實(shí)現(xiàn)文本情感分類。
傳統(tǒng)實(shí)證研究方法受多種因素的影響,導(dǎo)致其分析結(jié)果可能存在偏差。為深入剖析消費(fèi)者在網(wǎng)購(gòu)中的關(guān)注點(diǎn)及影響其評(píng)價(jià)行為的具體因素,本文以京東電商平臺(tái)為例,抓取部分用戶評(píng)論數(shù)據(jù)分析消費(fèi)者網(wǎng)購(gòu)時(shí)的需求,探究哪些客觀因素會(huì)對(duì)消費(fèi)者的評(píng)價(jià)行為與意愿造成影響,進(jìn)而幫助電商平臺(tái)進(jìn)行產(chǎn)品改進(jìn)和市場(chǎng)定位。
2 數(shù)據(jù)獲取與預(yù)處理
2.1 數(shù)據(jù)來源
京東商城App的用戶在線評(píng)論數(shù)據(jù)從七麥數(shù)據(jù)平臺(tái)獲取,抓取的評(píng)論時(shí)間從2023年1月1日—12月31日。共計(jì)獲取數(shù)據(jù)4121條,經(jīng)數(shù)據(jù)處理清洗后得到有效數(shù)據(jù)3596條。
2.2 數(shù)據(jù)預(yù)處理
由于網(wǎng)絡(luò)平臺(tái)是開放的,京東商城的相關(guān)評(píng)論不會(huì)受到時(shí)間、地點(diǎn)、人員等的限制,收集的網(wǎng)絡(luò)評(píng)論數(shù)據(jù)可能包含重復(fù)、與主題不相關(guān)的信息以及空白等無效評(píng)論,可能會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大影響。因此,在分析數(shù)據(jù)之前,需要預(yù)先處理數(shù)據(jù)集,對(duì)文本進(jìn)行去重、剔除不完整數(shù)據(jù)、刪除特殊符號(hào)和表情、排除低質(zhì)量的數(shù)據(jù),以提高實(shí)驗(yàn)結(jié)果的準(zhǔn)確性[10]。
3 基于TF-IDF評(píng)論文本關(guān)鍵詞提取
TF-IDF是用于評(píng)估某個(gè)詞(Term)在文檔集合中重要程度的統(tǒng)計(jì)方法。如果一個(gè)詞在整個(gè)文檔集合中出現(xiàn)的次數(shù)較多,意味著它在描述文檔特點(diǎn)上沒有那么重要,IDF值也就較低,相反IDF值則較高[11]。本文在對(duì)文本進(jìn)行分詞與去停用詞的基礎(chǔ)上,通過計(jì)算每個(gè)詞的TF-IDF值,對(duì)京東商城上用戶在線評(píng)論分詞進(jìn)行統(tǒng)計(jì)和排序,識(shí)別出TOP20高頻詞及其權(quán)重,部分內(nèi)容如表1所示。
由表2中的高頻詞可以看出,“客服”“商品”“商家”“物流”“服務(wù)”是用戶比較關(guān)注的問題和評(píng)論焦點(diǎn),反映出京東商城App的用戶在購(gòu)物過程中,特別關(guān)注快遞的配送速度、商品的整體質(zhì)量以及商家的服務(wù)態(tài)度等。
4 在線評(píng)論情感傾向分析
為監(jiān)測(cè)用戶網(wǎng)絡(luò)評(píng)論的情感,本文將情感詞典與文本中的單詞匹配,計(jì)算對(duì)比單詞的情感傾向[12]。利用R軟件讀入臺(tái)灣大學(xué)簡(jiǎn)體中文情感詞典(NTUSD)對(duì)上述預(yù)處理的評(píng)論數(shù)據(jù)進(jìn)行情感詞典匹配分析,確定用戶評(píng)論文本的情感傾向,計(jì)算具體的情感值及情感方向,并對(duì)評(píng)論情感傾向進(jìn)行統(tǒng)計(jì)分析。
4.1 情感分析結(jié)果
基于上述工作,將調(diào)用擴(kuò)展后的詞典對(duì)評(píng)論數(shù)據(jù)進(jìn)行情感值計(jì)算,部分評(píng)論內(nèi)容計(jì)算結(jié)果如表2所示。
從表3評(píng)論情感傾向統(tǒng)計(jì)結(jié)果來看,負(fù)向與偏負(fù)向評(píng)論占比達(dá)66.54%,而正向與偏正向評(píng)論僅占33.46%,負(fù)面評(píng)價(jià)占比較高。其主要原因在于消費(fèi)者缺乏評(píng)價(jià)動(dòng)機(jī),當(dāng)購(gòu)買到的產(chǎn)品未達(dá)到預(yù)期時(shí),消費(fèi)者傾向于通過差評(píng)表達(dá)不滿和警示其他潛在買家。相反,當(dāng)消費(fèi)者對(duì)購(gòu)買的產(chǎn)品感到滿意時(shí),他們可能不會(huì)對(duì)此做出評(píng)價(jià)。但既然存在差評(píng),平臺(tái)就應(yīng)該對(duì)此引起高度重視,應(yīng)積極采取措施,從差評(píng)中總結(jié)經(jīng)驗(yàn),改進(jìn)服務(wù)流程,提升消費(fèi)者體驗(yàn)。同時(shí),鼓勵(lì)消費(fèi)者做出正面評(píng)價(jià),平衡評(píng)價(jià)體系,使評(píng)價(jià)系統(tǒng)更公正客觀,促進(jìn)平臺(tái)內(nèi)商家和消費(fèi)者的良性互動(dòng)。
4.2 基于LDA模型的主題挖掘分析
4.2.1 LDA分析量化結(jié)果
為避免正面評(píng)價(jià)和負(fù)面評(píng)價(jià)混淆,且在分詞粒度的影響下會(huì)存在一個(gè)主題下產(chǎn)生一些無意義的詞[13],本文將京東電商評(píng)論分為正面評(píng)價(jià)和負(fù)面評(píng)價(jià)2個(gè)文本,分別進(jìn)行LDA主題分析。經(jīng)過分析后,將文本聚類成3個(gè)主題,每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語,如表4—5所示。
4.2.2 LDA結(jié)果分析
表4主題詞中出現(xiàn)了“電器”“喜歡”“質(zhì)量”“支持”等詞,揭示了消費(fèi)者對(duì)京東商城的高度評(píng)價(jià)與產(chǎn)品的質(zhì)量及配送服務(wù)緊密相關(guān)。消費(fèi)者普遍認(rèn)同京東商城在電器類產(chǎn)品的質(zhì)量上表現(xiàn)出色,認(rèn)為其是高品質(zhì)電器的可靠來源,因此將其作為購(gòu)買首選地。此外,消費(fèi)者也比較認(rèn)同京東商城的產(chǎn)品質(zhì)量?jī)?yōu)和物流服務(wù)好,同時(shí)反映出京東商城在消費(fèi)者心中具有良好的品牌形象和信任度,這是其持續(xù)獲得消費(fèi)者支持和市場(chǎng)成功的關(guān)鍵因素。表5展示了負(fù)面評(píng)價(jià)文本3個(gè)潛在主題的主要關(guān)鍵詞,表5主題詞中有“橫屏”“適配”“退款”“殺熟”等詞,側(cè)面表明軟件與iPad的兼容性存在問題,適配度較低;軟件頁面加載時(shí)可能出現(xiàn)卡頓,甚至出現(xiàn)閃退的情況。在售后服務(wù)方面,消費(fèi)者在與客服的互動(dòng)中存在障礙,問題解決不夠順暢;商家的退款和退貨處理也顯得不夠及時(shí),服務(wù)響應(yīng)不周全。
5 結(jié)論與建議
綜上所述,用戶評(píng)價(jià)的情感傾向與電商平臺(tái)商品質(zhì)量及其售后服務(wù)有密切的聯(lián)系。電商平臺(tái)如果能通過評(píng)論準(zhǔn)確捕捉到用戶對(duì)其平臺(tái)的看法與希望,就能進(jìn)一步有效提升用戶的滿意程度,降低其負(fù)面情緒,從而增加客戶黏性。本文基于評(píng)論文本得到的結(jié)果,提出以下幾點(diǎn)建議。
(1)加強(qiáng)商品質(zhì)量管理和控制。設(shè)立多重審查機(jī)制,對(duì)準(zhǔn)備上架的商品進(jìn)行詳盡的資質(zhì)審核,包括檢測(cè)報(bào)告、品牌授權(quán)、工廠生產(chǎn)資質(zhì)等,確保每一件商品都符合國(guó)家相關(guān)法規(guī)和京東自身的質(zhì)量標(biāo)準(zhǔn);引入智能化審核系統(tǒng),通過大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法,提高審核效率和精準(zhǔn)度,力圖在商品上架前就能識(shí)別并過濾潛在的質(zhì)量問題;建設(shè)售后服務(wù)體系;推出具有辨識(shí)度的“品質(zhì)保證”標(biāo)識(shí),為那些通過嚴(yán)格審核、用戶評(píng)價(jià)優(yōu)秀的商品提供認(rèn)證。
(2)建立完善的售后服務(wù)機(jī)制與團(tuán)隊(duì)。京東電商平臺(tái)主要依賴智能客服系統(tǒng)處理客戶咨詢,但在某些情況下,這種系統(tǒng)可能無法完全滿足客戶的需求,可能會(huì)給消費(fèi)者造成不便。因此,京東還需要打造一支專業(yè)的售后服務(wù)團(tuán)隊(duì),確保能夠及時(shí)、有效地響應(yīng)客戶的問題。特別是對(duì)于那些具有參考性的客戶反饋,應(yīng)通過人工客服進(jìn)行快速回復(fù)和處理,以展現(xiàn)平臺(tái)對(duì)客戶意見的重視,從而提升客戶對(duì)平臺(tái)的信任和滿意度,提升客戶對(duì)京東平臺(tái)的忠誠(chéng)度。
(3)加強(qiáng)與用戶的溝通和互動(dòng),提升用戶滿意度和忠誠(chéng)度。優(yōu)化用戶反饋機(jī)制,鼓勵(lì)消費(fèi)者提出意見和建議,并對(duì)消費(fèi)者的每一條反饋給予重視和回應(yīng),定期分析用戶反饋,從中提取關(guān)鍵信息,作為改進(jìn)產(chǎn)品和服務(wù)的重要依據(jù);策劃互動(dòng)活動(dòng),定期舉辦促銷活動(dòng)、用戶調(diào)研、線上問答等形式多樣的互動(dòng)活動(dòng),提高用戶的參與度和平臺(tái)的活躍度。此外,通過個(gè)性化推薦、專屬優(yōu)惠等措施,使用戶感受到平臺(tái)的關(guān)懷和重視,增強(qiáng)用戶對(duì)品牌的情感聯(lián)系。
參考文獻(xiàn)
[1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第45次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].(2020-04-28)[2024-03-20].https://www.cnnic.net.cn/NMediaFile/2024/0325/MAIN1711355296414FIQ9XKZV63.pdf.
[2]谷瑩,李賀,李葉葉,等.基于在線評(píng)論的企業(yè)競(jìng)爭(zhēng)情報(bào)需求挖掘研究[J].現(xiàn)代情報(bào),2021(1):24-31.
[3]彭云,萬常選,江騰蛟,等.一種詞聚類LDA的商品特征提取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015(7):1458-1463.
[4]QUAN C Q, REN F J. Unsupervised product feature extraction for feature-oriented opinion determination[J]. Information Sciences, 2014(272): 16-28.
[5]黃昌莉,黃燕玲,于海濤,等.基于LDA和扎根理論的桂林旅游地感知形象研究[J].地域研究與開發(fā),2022(5):91-97.
[6]KIM Y J, KIM H S. The impact of hotel customer experience on customer satisfaction through online reviews[J]. Sustainability, 2022(2): 848.
[7]RUDY P, MIKE T. Sentiment analysis: a combined approach[J]. Journal of Informetrics, 2009(2): 143-157.
[8]高佳希,黃海燕.基于TF-IDF和多頭注意力Transformer模型的文本情感分析[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2024(1):129-136.
[9]趙宏,傅兆陽,王樂.基于特征融合的中文文本情感分析方法[J].蘭州理工大學(xué)學(xué)報(bào),2022(3):94-102.
[10]劉佳鍇,李敏.基于文本挖掘的蠶絲被在線評(píng)論分析:以京東商城為例[J].絲綢,2023(8):11-20.
[11]MUHAMMAD A A, MUHAMMAD F M, UROOJ A. Comparative analysis of TF-IDF and loglikelihood method for keywords extraction of twitter data[J]. Mehran University Research Journal of Engineering Technology, 2023(1): 88-94.
[12]馮建英,吳丹丹,王博,等.中文在線評(píng)論文本分析對(duì)生鮮農(nóng)產(chǎn)品電商影響研究綜述[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2021(S1):504-512.
[13]GRASER S, NIELSEN L H, BHM S. Factors influencing the user experience of mobile augmented reality apps: an analysis of user feedback based on app store user reviews[M]//GODULLA A, BHM S. Digital Disruption and Media Transformation. Cham: Springer, 2023.
(編輯 李春燕編輯)
Research on user review mining and sentiment analysis of E-commerce platform based on LDA: taking Jingdong Mall App as an example
DU? Liming1,2, GUO? Wenyan2, CUI? Lei2, WANG? Fengying1,2*
(1.School of Information Engineering, Suqian University, Suqian 223800, China; 2.School of Computer
Science and Engineering, Shenyang Jianzhu University, Shenyang 110000, China)
Abstract:? User comment text mining and analysis have important practical application value in multiple fields. The article selects the user comment dataset of Jingdong Mall as the research object, and uses various methods to conduct in-depth data mining and analysis on it. Firstly, extract keywords through TF-IDF to reveal the core theme of the comment, and then analyze high-frequency words to understand the users focus and overall evaluation of Jingdong Malls services. Secondly, sentiment analysis technology is used to classify the emotional tendencies of comment texts, aiming to determine the emotional color of comments and provide useful references for product improvement and market positioning of Jingdong Mall. Finally, using the LDA topic model to analyze the theme of the comment text, the implicit themes and topic distribution in the comment are excavated, further revealing the different views and needs of users on the product or service, and providing targeted improvement strategies and opinions for Jingdong Mall.
Key words: LDA; user comment; text mining; sentiment analysis
基金項(xiàng)目:宿遷學(xué)院京東學(xué)院開放基金項(xiàng)目;項(xiàng)目名稱:基于京東用戶評(píng)論挖掘的市場(chǎng)情報(bào)分析模型研究;項(xiàng)目編號(hào):2022JDXM13。
作者簡(jiǎn)介:杜利明(1976— ),男,副教授,博士;研究方向:圖書情報(bào)分析與應(yīng)用,機(jī)器學(xué)習(xí)。
*通信作者:王鳳英(1976— ),女,副教授,碩士;研究方向:圖書情報(bào)分析與應(yīng)用,機(jī)器學(xué)習(xí)。