摘" 要:隨著信息技術(shù)和物流技術(shù)的迅猛發(fā)展,電子商務(wù)產(chǎn)品的種類和規(guī)模不斷擴大。網(wǎng)上購物的在線評論數(shù)據(jù)呈現(xiàn)出爆炸式增長的趨勢,在線評論成為關(guān)注的熱點。文章以京東平臺的口罩、消毒液、洗手液等防護用品為例,通過詞頻分析、情感傾向分類和主題建模技術(shù),分析影響顧客的滿意度因素,并提出建議。實驗結(jié)果表明,消費者最為關(guān)心的是防護用品的價格、品質(zhì)、使用效果和物流速度。文章結(jié)論可以為防護用品維護品牌形象有針對性提升經(jīng)營策略、提高服務(wù)質(zhì)量、提升物流服務(wù)提供參考。
關(guān)鍵詞:文本挖掘;防護用品;消費者滿意度;情感分類;LDA主題分類
" 中圖分類號:F713.365" " 文獻標志碼:A
DOI:10.13714/j.cnki.1002-3100.2025.01.009
Abstract: With the rapid development of information technology and logistics technology, the types and scale of e-commerce products are constantly expanding. The online review data of online shopping has shown an explosive growth trend, and online review has become a hot spot of attention. This paper takes masks, disinfectant, hand sanitizer and other protective products from Jingdong platform as examples, analyzes the factors affecting customer satisfaction through word frequency analysis, emotional tendency classification and theme modeling technology, and puts forward suggestions. The experimental results show that consumers are most concerned about the price, quality, use effect and logistics speed of protective equipment. The conclusions of this study can provide reference for protective equipment to maintain brand image, improve business strategy, improve service quality, and improve logistics services.
Key words: text mining; protective equipment; consumer satisfaction; emotion classification; LDA subject classification
0" 引" 言
" 疫情的爆發(fā)讓人們對防護用品的使用養(yǎng)成了習慣,雖然已經(jīng)戰(zhàn)勝疫情,但口罩、消毒液、洗手液等防護用品在全球范圍內(nèi)得到了廣泛的應(yīng)用,隨著消費者對健康安全意識的提高和對產(chǎn)品質(zhì)量要求的增加,顧客滿意度[1]成為了市場競爭的關(guān)鍵因素之一。因此,研究防護用品顧客滿意度的影響因素,對于企業(yè)全面提升產(chǎn)品質(zhì)量、增強市場競爭力具有重要意義。而文本挖掘[2]作為一種新興的數(shù)據(jù)分析工具,其能夠從大量的文本數(shù)據(jù)中提取有價值的信息,因此在防護用品顧客滿意度影響因素研究中的應(yīng)用也具有很大的潛力[3]。因此,本文基于文本挖掘技術(shù)了解消費者對防護產(chǎn)品的滿意度,這有助于商家更好地理解市場需求、改進產(chǎn)品質(zhì)量,并提供更好的購物體驗。為企業(yè)提高產(chǎn)品質(zhì)量、增強市場競爭力提供參考依據(jù)。
1" 研究方法
1.1" 情感傾向分類
" 情感傾向分類是文本挖掘領(lǐng)域中的一種技術(shù),通常用于分析文本數(shù)據(jù)中的情感極性[4]。針對文本情感傾向分類方法主要可以分為基于情感詞典的方法和基于機器學習的方法[5]?;跈C器學習的方法主要使用了經(jīng)典的機器學習算法,例如:支持向量機、隨機森林、樸素貝葉斯等來進行對文本的情感傾向分析[6]。學者們通常利用大量標注好的情感樣本來訓練機器學習模型,讓模型掌握各特征間的關(guān)聯(lián),并最后把該模式運用在實際的情感偏好分析場景中[7]。文獻[8]通過對特征詞進行加權(quán),并利用SVM算法進行分類?;跈C器學習的方法通過進行特征工程和應(yīng)用分類模型,可以更好地理解文本情感語義,從而提升情感傾向分類的性能[9]。通常情況下,相較于情感詞典方法,基于機器學習的分類方法往往具有更高的準確度。因此,本文結(jié)合機器學習分類模型的優(yōu)點,實現(xiàn)對防護用品評論文本進行情感傾向分類[10]。
1.2" LDA主題挖掘
" 主題模型是一種用于發(fā)現(xiàn)文檔中抽象主題的統(tǒng)計模型。其中,Blei等學者在2003年提出的LDA(潛在狄利克雷分配)主題模型概念和思想是最具代表性的,并已得到廣泛的應(yīng)用。LDA主題模型是一種三層貝葉斯概率模型,包含了詞、主題和文檔這三個層次。由于它引入了狄利克雷先驗知識,因此不容易出現(xiàn)過擬合現(xiàn)象。在識別大規(guī)模文檔集或語料庫中隱藏的主題信息方面,LDA主題模型具有一定的優(yōu)勢[11]。因此本文選擇利用LDA主題模型對分類后的文本進行聚類,得到各防護用品的特征主題詞。
" 本文挖掘消費者滿意度因素的具體做法由四部分組成,第一部分是明確目的、選取實驗對象;第二部分是文本預處理,根據(jù)在線評論的特點,進行數(shù)據(jù)預處理有利于提高分析的準確性;第三部分是情感分類模型選取,對預處理的文本進行正負情感分類;第四部分是利用LDA主題模型對評論的文本進行主題提取,挖掘消費者對防護用品的關(guān)注因素。
2" 實" 驗
2.1" 實驗數(shù)據(jù)
" 為了更準確地識別出顧客對于防護用品的關(guān)注點和維度,本文使用網(wǎng)絡(luò)爬蟲技術(shù)獲取京東平臺上的口罩、消毒液、洗手液、消毒棉巾、醫(yī)用酒精共30 761條評論文本數(shù)據(jù)作為實驗樣本進行分析與研究。
2.2" 詞頻分析
" 權(quán)重反映了消費者在防護用品電商平臺上對各項指標的重要程度,運用TF-IDF算法對防護用品的詞頻進行統(tǒng)計,即獲取防護用品評論的主要高頻詞,表1展示了防護用品評論中前30位的高頻詞語。
通過分析高頻詞可以了解顧客的主要關(guān)注點。從給定的表1中可以觀察到,產(chǎn)品的包裝、使用效果、產(chǎn)品的味道、產(chǎn)品價格、物流服務(wù)以及品牌是消費者評價的一些重要的特征,這些因素對于消費者在購買決策中起到了關(guān)鍵的作用。
2.3" 情感分類模型對比
" 盡管通過高頻詞統(tǒng)計可以了解顧客比較關(guān)注的特征,但無法確定哪些因素讓顧客感到滿意或?qū)е虏钤u。因此,為了獲取有關(guān)顧客對防護用品優(yōu)缺點的評價信息,需要運用情感分析技術(shù)對評論語料進行正負面情感分類。通過這種方式,進一步分析了解影響顧客好評差評的因素,以便更好地理解顧客意見和需求。
" 為了驗證BERT模型有效性,選擇情感分類中常用的模型,包括隨機森林(Random Forest)、決策樹(Decision Tree)、極致梯度提升(XGBoost)、支持向量機(SVM)和BERT模型進行情感正負向分類對比實驗。評價指標采用了準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 Score值作為衡量模型在情感分類任務(wù)中性能的指標。為確保實驗結(jié)果的客觀準確性,數(shù)據(jù)集包括正向文本數(shù)量為22 252,負向文本數(shù)量8 507,使用同一訓練集、驗證集、測試集預料文本,按照訓練集∶驗證集∶測試集為8∶1∶1的比例使5種模型在相同設(shè)備下運行5次,結(jié)果的均值作為評價指標的最終結(jié)果,實驗結(jié)果如表2所示。
可以看出以上5個模型中BERT模型在準確率、精確率、召回率和F1都明顯取得了更優(yōu)的效果,這說明BERT模型的分類效果更優(yōu)于其他模型,BERT模型在防護用品在線評論文本的情感分類上是比較準確的、可行的。
2.4" 正負詞云圖可視化
" 使用詞云圖可以將文本的詞頻信息可視化,幫助更直觀地感知評論特征。使用Python中stylecloud和matplotlib庫中的相關(guān)函數(shù),將情感分類所得正負面評論經(jīng)過分詞處理后的數(shù)據(jù)通過詞云圖的方式分別展示出來,以此分析影響顧客滿意度的正負面產(chǎn)品特征。
根據(jù)圖1和圖2的結(jié)果,可以得出以下結(jié)論:防護用品顧客的好評中最常出現(xiàn)的特征詞包括“喜歡”、“不錯”、“購買”、“包裝”和“質(zhì)量”;而差評中最常出現(xiàn)的特征詞包括“退貨”、“送貨”、“質(zhì)量”和“不好用”。這些結(jié)果表明,顧客對于防護用品評價積極的特征主要涉及產(chǎn)品的品質(zhì)、購買體驗和包裝。相反,差評中的特征詞則突顯了退貨、送貨和產(chǎn)品質(zhì)量不好用等問題。
2.5" 防護用品主題模型實現(xiàn)
" 通過詞頻分析、情感分類和正負評論詞云圖,對影響顧客滿意度的因素進行了初步的判斷。為了進一步挖掘評論背后的主題信息,利用完成情感分類后的文本進行主題聚類分析,將具有相似主題的評論歸類在一起,從而更深入地了解顧客的關(guān)注點和產(chǎn)品的優(yōu)缺點。
2.5.1" 尋找最優(yōu)主題數(shù)
在進行LDA主題聚類之前,首先需要確定主題數(shù)量的選擇。計算不同主題數(shù)下各主題之間的平均余弦相似度,并繪制主題平均余弦相似度曲線圖,選擇主題間的平均余弦相似度達到最低時的主題數(shù)量,找到最恰當?shù)闹黝}數(shù)量,以支持后續(xù)的主題聚類分析,根據(jù)圖3,最終選定防護用品評論主題數(shù)為8。
2.5.2" 文本主題挖掘
在完成對所有評論進行情感傾向分類后,將針對正向和負向評論文本分別使用LDA模型進行主題挖掘。以正向情感評論集的主題挖掘為例,可以觀察圖4中主題表示的圓圈之間的間隔情況,如果主題的圓圈相隔較遠,那說明主題的凝聚效果良好。這意味著在正向評論中,各個主題之間具有明顯的區(qū)分度,每個主題所表示的關(guān)注點是獨立、清晰的。在主題挖掘分析中,可以將各主題的關(guān)鍵詞以柱狀列表的形式顯示在右側(cè)。每個關(guān)鍵詞在列表中用紅色柱條表示,柱條的長短表示該關(guān)鍵詞在某一主題中的詞頻大小。而整個柱條的總長度則表示該關(guān)鍵詞在整個文檔中的頻率。通過這種可視化方式,更直觀地了解每個主題的關(guān)鍵詞重要性,并對主題的關(guān)注重點有更清晰的了解。這有助于商家更好地把握顧客的需求以及產(chǎn)品所關(guān)注的特定領(lǐng)域。
使用的是Python中的gensim模塊對防護用品的評論數(shù)據(jù)構(gòu)建LDA主題模型,根據(jù)主題模型的主題分布情況,最終將LDA模型的主題數(shù)量K設(shè)置為9。在提取每個主題中的詞語時,將選取前20~30個作為候選,并最終將主題歸納為6個,選出每個主題中具有代表性的前3個關(guān)鍵詞。具體各主題對應(yīng)的核心關(guān)鍵詞如表3所示。
" 根據(jù)表3中的結(jié)果,可以看出消費者對于京東電商平臺防護用品的關(guān)注點主要集中在商品價格、商品品質(zhì)、商品包裝、客服服務(wù)、物流服務(wù)和商品品牌等方面。這意味著消費者在購買防護用品時,更注重價格的競爭力、產(chǎn)品質(zhì)量和性能、產(chǎn)品包裝、客服響應(yīng)和解決問題的能力,以及物流的快速和可靠性。這些方面是消費者對于防護用品購買體驗的評判標準,也可以成為電商平臺在防護用品領(lǐng)域提供差異化服務(wù)的重點。
3" 建" 議
" 本文以京東平臺的防護用品為例分析影響顧客的滿意度因素,研究結(jié)果表明,顧客對于京東電商平臺防護用品的關(guān)注點主要集中于防護用品的價格、品質(zhì)、包裝以及物流服務(wù)上。防護產(chǎn)品的價格高低,質(zhì)量好壞,包裝是否完美,物流服務(wù)水平是影響消費者滿意度的主要因素。根據(jù)研究結(jié)果,針對防護用品商家,提出以下幾點提高顧客滿意度的建議:
" (1)質(zhì)量方面。建立嚴格的質(zhì)量控制標準和流程,確保生產(chǎn)的防護用品符合相關(guān)行業(yè)標準和質(zhì)量要求。加強原材料采購管理,選擇高質(zhì)量的原材料,避免使用次品或劣質(zhì)材料生產(chǎn)防護用品。對生產(chǎn)出的防護用品進行全面檢測和抽檢,確保產(chǎn)品的質(zhì)量符合標準;
(2)價格方面??梢灾贫ú煌黉N策略,例如限時特價、滿減優(yōu)惠等,增加消費者的購買欲望,提高銷售額。建立供需平衡,通過有效的采購和銷售計劃,保證供需平衡,避免過高或過低的庫存和價格;
" (3)物流方面。京東物流在全國范圍內(nèi)建立了廣泛的物流網(wǎng)點,有多樣化的物流配送服務(wù),先進的物流技術(shù)和系統(tǒng)。因此,消費者對京東平臺的物流滿意度相對較高;
" (4)包裝方面。從功能和環(huán)境保護角度出發(fā),為確保防護用品在物流運輸過程中不受損或受污染,在包裝時需要選擇合適的包裝材料,注意填充縫隙,標明包裝內(nèi)容,針對性包裝,以及測試包裝效果等;
" (5)提高客服服務(wù)水平。可以通過對客服工作人員進行統(tǒng)一專業(yè)化的培訓來提升其專業(yè)水平。為了應(yīng)對消費者可能出現(xiàn)的退換貨問題,應(yīng)該提前制定好預見性的處理方案,并及時解決這些問題,以避免給消費者帶來不良的購買體驗。同時,平臺還應(yīng)該進行跟蹤和分析,以了解問題的根源和原因,并采取相應(yīng)的措施,避免類似問題再次發(fā)生。
4" 總" 結(jié)
" 本文以京東平臺的防護用品為例,通過對評論文本正負情感傾向分類,構(gòu)建LDA主題模型,挖掘影響消費者對防護用品的滿意度因素,進行分析并提出建議。實驗結(jié)果表明,消費者最為關(guān)心的是防護用品的價格、品質(zhì)、使用效果、物流速度、客服服務(wù)水平以及商品品牌。根據(jù)本文的結(jié)論,可以為防護用品維護品牌形象提供有針對性的參考,包括提升經(jīng)營策略、提高服務(wù)質(zhì)量和物流服務(wù)水平等方面的改進。通過這些改進,企業(yè)可以增強其品牌形象,并贏得消費者的認可和忠誠度,從而取得競爭優(yōu)勢和長期發(fā)展。由于技術(shù)水平的不斷發(fā)展,網(wǎng)絡(luò)語言的不斷更新,文本的情感識別和主題挖掘具有一定挑戰(zhàn)性,后期研究將更加關(guān)注文本詞與詞的語義關(guān)聯(lián)度以及評論文本主題識別時語義描述不充分等問題。
參考文獻:
[1] 尹麗春,王悅. 基于在線評論的圖書消費者滿意度影響因素與作用機理[J]. 圖書情報工作,2019,63(22):106-117.
[2]" HEMMATIAN F, SOH ABI M K. A survey on classification techniques for opinion mining and sentiment analysis[J]. Artificial Intelligence Eview, 2019,52(3):1495-1545.
[3] 李倩,王帥. LDA模型下我國公共圖書館微信平臺閱讀推廣內(nèi)容主題研究[J]. 圖書情報工作,2022,66(8):72-83.
[4] 楊夢琳,盧益清. 基于在線評論的生鮮電商顧客滿意度分析研究[J]. 中國物流與采購,2022(6):44-46.
[5] 徐紅,張斯婷,李凌方. 基于LDA模型與共詞分析法的農(nóng)村閱讀推廣主題發(fā)現(xiàn)與熱點分析[J]. 情報科學,2022,40(10):67-73.
[6]" PANDA ACHALIL, SENDHILKUMA S, MAHALAKSHMI G S. Twitter sentiment analysis for large-scale data: An unsupervised approach[J]. Cognitive Computation, 2015,7(2):254-262.
[7]" KHAN K, LEE L H, BAHA UDIN B. A review of machine learning algorithms for text-documents classification[J]. Journal of Advances in Information Technology, 2010,1(1):4-20.
[8] 楊莉,王敏,程宇. 基于LDA和XGBoost模型的環(huán)境公共服務(wù)微博情感分析[J]. 南京郵電大學學報(社會科學版),2019,21(6):23-39.
[9] 曾莉,楊添寶,周慧. 基于LDA與注意力機制BiLSTM的微博輿情分析模型[J]. 南京理工大學學報,2022,46(6):742-748.
[10] 王宏生,金相宇. 基于深度學習的中文電商評論情感分析[J]. 信息通信,2018(3):51-53.
[11] 包乾輝,李佳利,石淑珍,等. 基于DSLML的雞蛋消費在線評論情感分析[J]. 農(nóng)業(yè)機械學報,2021,52(S1):496-503.