文章編號(hào):1002-3100(2024)03-0055-04
摘? 要:利用Python采集京東國(guó)際個(gè)護(hù)產(chǎn)品消費(fèi)者的在線評(píng)論,通過(guò)文本特征分析得出“物流”、“效果”、“包裝”等是影響進(jìn)口跨境電商消費(fèi)者滿意度的關(guān)鍵要素。隨后利用LDA主題聚類(lèi)模型,結(jié)合困惑度和主題可視化,得到反映進(jìn)口跨境電商服務(wù)質(zhì)量的4類(lèi)關(guān)鍵因素,包括物流效率、產(chǎn)品功效、感知價(jià)值和產(chǎn)品體驗(yàn)?;诖耍岢龈纳七M(jìn)口跨境電商服務(wù)質(zhì)量的策略。
關(guān)鍵詞:在線評(píng)論;進(jìn)口跨境電商;服務(wù)質(zhì)量;文本挖掘
中圖分類(lèi)號(hào):F713.365? ? 文獻(xiàn)標(biāo)志碼:A? ? DOI:10.13714/j.cnki.1002-3100.2024.03.013
Abstract: This article uses Python to collect online comments from JD International's personal care products. Through text feature analysis, it is concluded that "logistics", "effectiveness", and "packaging" are key factors that affect consumer satisfaction in imported cross-border e-commerce. Then, by using the LDA theme clustering model, combined with Perplexity and theme visualization, the dimensions of import cross-border e-commerce consumers' main concerns are obtained. The results indicate that the key factors affecting the quality of imported cross-border e-commerce services mainly include four dimensions: Logistics efficiency, product efficacy, price discounts, and product experience. Based on this, propose strategies to improve the quality of imported cross-border e-commerce services.
Key words: online comments; import cross-border e-commerce; service quality; text mining
0? 引? 言
隨著電子商務(wù)和經(jīng)濟(jì)全球化的發(fā)展,跨境電商憑借豐富產(chǎn)品種類(lèi)、低廉價(jià)格占據(jù)跨境零售市場(chǎng)的可觀份額,成為時(shí)代的主題?!?022年度中國(guó)跨境電商市場(chǎng)數(shù)據(jù)報(bào)告》指出,2022年中國(guó)跨境電商市場(chǎng)規(guī)模達(dá)15.7萬(wàn)億元,較2021年同比增長(zhǎng)10.56%。但由于不同國(guó)家政策法規(guī)、文化風(fēng)俗和監(jiān)管標(biāo)準(zhǔn)等方面存在差異性,導(dǎo)致跨境商品存在成本高、包裹破損丟失現(xiàn)象嚴(yán)重和海外倉(cāng)運(yùn)營(yíng)成本高等問(wèn)題。在此背景下,如何提升進(jìn)口跨境電商的服務(wù)質(zhì)量成為當(dāng)前學(xué)界研究的重要議題。
早在1982年,Gronroos在消費(fèi)者感知的基礎(chǔ)上提出了服務(wù)質(zhì)量?jī)?nèi)涵,即顧客受到形象、口碑等多種因素的影響而對(duì)服務(wù)質(zhì)量產(chǎn)生的期望和親身體驗(yàn)的實(shí)際服務(wù)水平之間的差距[1]?;谠摾砟?,Lewis等將服務(wù)質(zhì)量視為是一種衡量公司服務(wù)水平能否達(dá)到顧客期望的工具[2]。而針對(duì)服務(wù)質(zhì)量維度的劃分,不同學(xué)者所持觀點(diǎn)存在差異性。Rust等認(rèn)為服務(wù)質(zhì)量不僅要對(duì)商品功效、技術(shù)進(jìn)行考慮,用戶接受服務(wù)的環(huán)境也同等重要,因此指出服務(wù)質(zhì)量由商品、傳遞和環(huán)境三個(gè)維度組成[3]。Gronroos等認(rèn)為服務(wù)質(zhì)量應(yīng)包括過(guò)程質(zhì)量(即在購(gòu)買(mǎi)過(guò)程中消費(fèi)者接收到的服務(wù))和結(jié)果質(zhì)量(例如實(shí)體產(chǎn)品、等待時(shí)間等),二者通過(guò)公司形象最終決定消費(fèi)者的感知質(zhì)量[4]。杜學(xué)美等將互聯(lián)網(wǎng)團(tuán)購(gòu)購(gòu)買(mǎi)服務(wù)質(zhì)量分為5個(gè)維度,即網(wǎng)站與店鋪的環(huán)境、傳遞、補(bǔ)救、消費(fèi)者權(quán)益及功能品質(zhì)[5]。綜合國(guó)內(nèi)外對(duì)用戶服務(wù)質(zhì)量的相關(guān)研究可以發(fā)現(xiàn),學(xué)者對(duì)跨境電商服務(wù)質(zhì)量的相關(guān)研究成果不多見(jiàn),且多數(shù)沿用已有成果,少有從消費(fèi)者具體實(shí)踐活動(dòng)、具體感受來(lái)分析其主題特征開(kāi)展服務(wù)質(zhì)量研究。
基于此,本文利用Python爬取京東國(guó)際個(gè)護(hù)商品消費(fèi)者評(píng)論,使用TF-IDF、詞云圖分析用戶較為關(guān)注的方面,利用LDA主題聚類(lèi),分析得出影響京東國(guó)際進(jìn)口跨境電商消費(fèi)者服務(wù)質(zhì)量的關(guān)鍵因素。
1? 數(shù)據(jù)收集及研究流程
1.1? 數(shù)據(jù)收集
京東國(guó)際(https://www.jd.hk/)作為國(guó)內(nèi)首個(gè)全面專(zhuān)注于進(jìn)口業(yè)務(wù)的電商平臺(tái),主營(yíng)跨境進(jìn)口商品業(yè)務(wù),是京東集團(tuán)旗下進(jìn)口商品一站式消費(fèi)平臺(tái),其前身是“海囤全球”和“京東全球購(gòu)”。研究使用Python編寫(xiě)程序采集京東國(guó)際平臺(tái)上個(gè)護(hù)領(lǐng)域具有代表性的潔面、面膜、面霜3類(lèi)產(chǎn)品的評(píng)論內(nèi)容作為研究數(shù)據(jù)。由于研究?jī)?nèi)容為進(jìn)口跨境電商的服務(wù)質(zhì)量,故在采集數(shù)據(jù)時(shí)只選擇海外旗艦店和詳情頁(yè)內(nèi)標(biāo)有“跨境進(jìn)口”產(chǎn)品。截止2022年12月31日,共獲取28 352條數(shù)據(jù),其中包括用戶名稱、評(píng)論時(shí)間、評(píng)分和評(píng)論內(nèi)容。同時(shí)為保證研究結(jié)果的準(zhǔn)確性,對(duì)數(shù)據(jù)進(jìn)行重復(fù)值、去除無(wú)用評(píng)論等清洗,最終采集到用戶有效評(píng)論信息24 245條。
1.2? 研究流程
本文選擇京東國(guó)際部分個(gè)護(hù)產(chǎn)品消費(fèi)者的在線評(píng)論構(gòu)建語(yǔ)料庫(kù),基于LDA主題聚類(lèi)模型追蹤用戶生成的評(píng)論內(nèi)容進(jìn)一步挖掘文本中潛在信息。其研究框架如圖1所示。首先是數(shù)據(jù)的采集,使用Python爬取京東國(guó)際相關(guān)產(chǎn)品的評(píng)論數(shù)據(jù);其次對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括構(gòu)建自定義詞典,通過(guò)jieba的精確分詞、過(guò)濾停用詞典等方式進(jìn)行分詞處理,將分詞結(jié)果轉(zhuǎn)入詞袋模型形成初始文本分析庫(kù);接著對(duì)文本進(jìn)行特征提取,詞云圖繪制,初步了解消費(fèi)者關(guān)注因素;最后利用LDA主題對(duì)所有評(píng)論內(nèi)容進(jìn)行聚類(lèi),分析影響消費(fèi)者滿意的進(jìn)口跨境電商服務(wù)質(zhì)量的因素,從而更好地提升消費(fèi)者滿意度和提高跨境電商企業(yè)市場(chǎng)競(jìng)爭(zhēng)力。
2? 實(shí)證分析
2.1? 基于TF-IDF的文本特征提取
文本特征分析,是信息檢索與數(shù)據(jù)挖掘領(lǐng)域的基礎(chǔ),其目的在于量化文檔的特征詞。本文應(yīng)用TF-IDF方法提取文本特征。TF-IDF指某個(gè)詞或短語(yǔ)對(duì)一個(gè)文檔的重要性,值越高,則表明該詞或短語(yǔ)對(duì)這個(gè)文檔的重要性越大[7]。
表1列出了詞頻統(tǒng)計(jì)和TF-IDF權(quán)重值排名前20的特征詞。在詞頻統(tǒng)計(jì)中,“京東”不出意外的位于第二,但在前20的TF-IDF排序中難覓蹤跡,這也不難理解,整個(gè)評(píng)論數(shù)據(jù)都是圍繞著京東來(lái)展開(kāi)的,幾乎每條評(píng)論中都可能會(huì)提到京東,這便降低了特征詞“京東”的重要性。從表1可以看出,“物流”、“發(fā)貨”、“很快”、“快遞”、“時(shí)間”等特征詞具有較高的權(quán)重,在文本中具有很高的重要性,表明消費(fèi)者非常關(guān)注進(jìn)口商品配送的物流時(shí)效?!把a(bǔ)水”、“緊繃”、“清爽”、“敏感”等特征詞的詞頻較低,但其TF-IDF權(quán)重較高,這類(lèi)詞屬于“權(quán)重低,分類(lèi)能力強(qiáng)”的特征詞,可選擇性地予以保留來(lái)進(jìn)行主題聚類(lèi)。這也表明消費(fèi)者比較注重進(jìn)口商品的功效與效果。
2.2? 基于詞云圖的特征可視化分析
為了更直觀地從用戶視角展現(xiàn)進(jìn)口跨境電商服務(wù)質(zhì)量關(guān)鍵詞,本文利用Jieba和Wordcloud繪制詞云圖實(shí)現(xiàn)特征可視化,如圖2所示。圖中的字體越大,代表詞頻越高[8]。由于“京東”頻數(shù)較高,且無(wú)實(shí)際分析意義,因?yàn)闉榱送癸@其他詞語(yǔ)信息,把“京東”放入停用詞表中,將其過(guò)濾掉。由圖2可見(jiàn),進(jìn)口跨境電商用戶主要關(guān)注產(chǎn)品效果、價(jià)格、物流等相關(guān)因素。
2.3? 基于LDA主題模型的特征分析
LDA(Latent Dirichlet Allocation)是基于共軛先驗(yàn)原理以及貝葉斯框架的文檔主題生成模型,包括文檔(d)、主題(z)及特征(w)三層結(jié)構(gòu),所以也被叫做三層貝葉斯概率模型[9]。
困惑度(Perplexity)是度量一個(gè)概率分布或概率預(yù)測(cè)樣本的重要指標(biāo),常用來(lái)確定LDA模型的最優(yōu)主題數(shù)[10-11]。研究使用困惑指標(biāo)的大小來(lái)確定系列文本中所涉及主題的最佳個(gè)數(shù)。實(shí)驗(yàn)證明困惑度最優(yōu)值為4,使用Pyldavis將困惑度最優(yōu)的主題數(shù)即主題k=4可視化(如圖3所示)。
圖譜中的不同組塊表示各不相同的主題,并且組塊大小表示對(duì)應(yīng)主題在語(yǔ)料庫(kù)的重要性,組塊之間的距離表示主題之間的相似性,根據(jù)組塊大小及距離可提煉出文檔的核心技術(shù)主題。圖3是主題k=4的可視化ldavis圖譜,4個(gè)主題均由明顯的名詞組塊構(gòu)成且各組塊分布比較分散,表明當(dāng)主題k=4時(shí)聚類(lèi)精確度較高,更適合作為聚類(lèi)主題數(shù)。
本文使用LDA主題聚類(lèi)模型得到4個(gè)主題,并選取了每個(gè)主題排名前12的特征詞及對(duì)應(yīng)權(quán)重,結(jié)果如表2所示。結(jié)合Rust[3]提出服務(wù)質(zhì)量理論,并根據(jù)表內(nèi)高概率特征詞的含義,最終將4個(gè)主題概括為物流效率、產(chǎn)品功效、價(jià)格優(yōu)惠和產(chǎn)品體驗(yàn)。
在物流效率維度中,主要包括快遞速度和配送可靠性兩個(gè)方面。由“速度”、“送到”、“太慢”等特征詞可以看出,對(duì)于進(jìn)口跨境電商消費(fèi)者來(lái)說(shuō),存在與國(guó)內(nèi)消費(fèi)者同樣的要求即對(duì)快遞配送效率存在較高要求。而在配送可靠性方面,快遞小哥態(tài)度、快遞包裝是否完好都是消費(fèi)者較為關(guān)注的因素。
在產(chǎn)品功效維度中,由權(quán)重較高的關(guān)鍵詞可看出,該主題主要表達(dá)了消費(fèi)者對(duì)進(jìn)口產(chǎn)品功能與效果的觀點(diǎn)?!把a(bǔ)水”、“滋潤(rùn)”、“舒服”等特征詞頻繁出現(xiàn),表明大部分消費(fèi)者對(duì)于京東國(guó)際上的進(jìn)口跨境個(gè)護(hù)產(chǎn)品功效比較認(rèn)可。而“緊繃”“干燥”、“敏感”等詞也表達(dá)了進(jìn)口個(gè)護(hù)產(chǎn)品在功效上仍存在消費(fèi)者不滿意之處。
在感知價(jià)值維度中,“活動(dòng)”、“價(jià)格”、“性價(jià)比”“優(yōu)惠”等關(guān)鍵詞占據(jù)較高權(quán)重,表明了消費(fèi)者對(duì)于進(jìn)口商品的態(tài)度和觀點(diǎn)。同時(shí)“物美價(jià)廉”、“劃算”、“值得”等關(guān)鍵詞也表明了消費(fèi)者對(duì)于進(jìn)口跨境電商服務(wù)多數(shù)持滿意觀點(diǎn)。在消費(fèi)者滿意度研究領(lǐng)域,學(xué)者也常用感知價(jià)值來(lái)衡量產(chǎn)品價(jià)格的高低。因此本文將主題3定義為感知價(jià)值。
在產(chǎn)品體驗(yàn)維度,出現(xiàn)了“不錯(cuò)”、“滿意”、“喜歡”等特征詞,表明多數(shù)消費(fèi)者對(duì)于進(jìn)口產(chǎn)品整體持滿意觀點(diǎn)?;厮菰颊Z(yǔ)料庫(kù),發(fā)現(xiàn)消費(fèi)者對(duì)于產(chǎn)品外觀、包裝顏值等因素較為看重,而這些因素也極大地影響了消費(fèi)者的產(chǎn)品體驗(yàn)感。
3? 結(jié)論與展望
研究嘗試使用京東國(guó)際個(gè)護(hù)商品消費(fèi)者評(píng)論,應(yīng)用文本特征提取、詞云圖可視化、LDA主題聚類(lèi)等文本挖掘技術(shù),分析得出影響京東國(guó)際進(jìn)口跨境電商消費(fèi)者服務(wù)質(zhì)量的關(guān)鍵因素主要包括物流效率、產(chǎn)品功效、價(jià)格優(yōu)惠和產(chǎn)品體驗(yàn)4個(gè)方面。在此基礎(chǔ)上具體分析各個(gè)因素影響消費(fèi)者服務(wù)質(zhì)量的機(jī)制及其相互間的邏輯關(guān)系,從而幫助進(jìn)口跨境電商商家更好地改善消費(fèi)者購(gòu)物體驗(yàn),提升進(jìn)口跨境電商的服務(wù)水平。
本文在對(duì)進(jìn)口跨境電商服務(wù)質(zhì)量進(jìn)行分析時(shí),僅采用了京東國(guó)際的評(píng)價(jià)數(shù)據(jù),在未來(lái)的研究中,應(yīng)充分考慮更多平臺(tái)如速賣(mài)通展開(kāi)研究,使結(jié)果更加具有代表性;另外在文本挖掘中仍存在部分無(wú)法篩除的噪音,這些不足有待進(jìn)一步完善。
參考文獻(xiàn):
[1]? GRONROOS C. An applied service marketing theory[J]. European Journal of Marketing, 1993,16(7):30-41.
[2]? LEWIS R C, BOOMS B H. The marketing aspects of service quality[J]. Emerging Perspectives on Services Marketing, 1983,65(4):99-107.
[3]? RUST R T, OLIVER R L. Service quality: New directions in theory and practice[M]. Sage Publications, 1993.
[4]? GRONROOS C. An service quality model and its marketing implication[J]. European Journal of Marketing, 1984,18(4):36-44.
[5] 杜學(xué)美,謝志鴻,丁璟妤. 餐飲類(lèi)網(wǎng)絡(luò)團(tuán)購(gòu)服務(wù)質(zhì)量模型研究[J]. 上海管理科學(xué),2018,40(1):50-56.
[6]? QAISER S, ALI R. Text mining: Use of TF-IDF to examine the relevance of words to documents[J]. International Journal of Computer Applications, 2018,181(1):25-29.
[7]? SHAHID N, ILYAS M U, ALOWIBDI J S. Word cloud segmentation for simplified exploration of trending topics on Twitter[J]. IET Software, 2017,11(5):214-220.
[8] 毛曉莉,施本植. 新能源汽車(chē)普通消費(fèi)者參與的大數(shù)據(jù)研究:基于文本挖掘和深度學(xué)習(xí)[J]. 海南大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2022,40(5):201-210.
[9]? RUST R T, OLIVER.RL. Service quality: New directions in theory and practice[J]. Sage Thous and Oaks, 1994(18):58-69.
[10] 杜慧,陳云芳,張偉. 主題模型中的參數(shù)估計(jì)方法綜述[J]. 計(jì)算機(jī)科學(xué),2017,44(S1):29-32,47.
[11] 陳澤宇,黃勃. 基于LDA特征擴(kuò)展的用戶畫(huà)像[J]. 軟件導(dǎo)刊,2020,19(6):192-195.
收稿日期:2023-04-07
作者簡(jiǎn)介:宋春燕(1999—),女,山東菏澤人,貴州大學(xué)管理學(xué)院碩士研究生,研究方向:管理系統(tǒng)工程。
引文格式:宋春燕. 基于文本挖掘的進(jìn)口跨境電商服務(wù)質(zhì)量研究[J]. 物流科技,2024,47(3):55-57,65.