朱韋光
摘? 要: 為了幫助商家從在線評論中挖掘產(chǎn)品的需求偏好及客戶構(gòu)成,構(gòu)建了基于LDA主題模型、情感分析,以及改進(jìn)的K均值聚類算法等方法的產(chǎn)品需求偏好判別及客戶細(xì)分模型。通過LDA模型挖掘用戶需求偏好,利用情感分析進(jìn)行情感打分,再用改進(jìn)的聚類算法得到客戶細(xì)分群體。最終得到用戶對于手機(jī)的需求偏好以及客戶細(xì)分群體構(gòu)成,幫助商家更好地作出經(jīng)營決策。
關(guān)鍵詞: 在線評論; 需求偏好; LDA模型; 情感分析; 聚類算法
中圖分類號:TP391? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? 文章編號:1006-8228(2023)09-132-04
Research on the construction of smart phone demand preference
discrimination model based on online review
Zhu Weiguang
(School of Business, Jiangnan University, Wuxi, Jiangsu 214122, China)
Abstract: In order to help merchants mine product demand preferences and customer composition from online reviews, a product demand preference discrimination and customer segmentation model is constructed based on LDA topic model, sentiment analysis and improved K-means clustering algorithm. The LDA model is used to mine user needs and preferences, sentiment analysis is used to score sentiment, and the improved clustering algorithm is used to obtain customer segmentation groups. Finally, users' demand preferences for smart phones and the composition of customer segments are obtained, which helps merchants make better business decisions.
Key words: online comments; demand preference; LDA model; sentiment analysis; clustering algorithm
0 引言
隨著互聯(lián)網(wǎng)技術(shù)及購物平臺快速發(fā)展,線上購物逐漸成為人們交易商品最為主要的渠道。根據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的第50次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截至2022年6月,我國網(wǎng)絡(luò)支付用戶規(guī)模達(dá)9.04億,較2021年12月增長81萬,占網(wǎng)民整體的86.0%。用戶們更多地在購物平臺上發(fā)表對于購物的體驗以及產(chǎn)品的個性化看法。
用戶需求挖掘方法可以分為兩大類:基于問卷調(diào)研的傳統(tǒng)需求獲取方法[1-3]和基于文本挖掘算法的自動化需求提取方法。數(shù)據(jù)激增背景下,基于在線評論的各類文本挖掘算法/方法應(yīng)用廣泛,如何從用戶的在線評論中挖掘需求,成為熱點問題。研究者采用關(guān)鍵詞提取算法來提取評論中的主題,獲取用戶關(guān)注的產(chǎn)品特征,典型算法如隱含狄利克主題模型[4]、詞頻—逆文檔頻率[5]和TextRank[6]等;一些研究者進(jìn)一步結(jié)合情感詞典來分析用戶對于產(chǎn)品特征的情感傾向,進(jìn)而分析用戶的消費需求[7-11]。
現(xiàn)有方法能夠快速、低成本地處理大規(guī)模用戶評論,但仍面臨頻數(shù)不突出的特征內(nèi)容容易被忽略、產(chǎn)品特征被過分切分等問題。在客戶細(xì)分方面,現(xiàn)有的在線評論尚未涉及。有鑒于此,本文在爬取四款智能手機(jī)的在線評論后,挖掘出了產(chǎn)品的潛在特征,并且在此基礎(chǔ)上進(jìn)行了客戶細(xì)分,最終不僅得到了用戶對產(chǎn)品的需求偏好,還將客戶群體進(jìn)行了分組,幫助商家更加有的放矢地去改進(jìn)產(chǎn)品、采取經(jīng)營策略,提升了決策效率。
1 模型構(gòu)建
基于在線評論構(gòu)建的主題發(fā)掘、情感分析及其聚類模型主要分為五個步驟,分別為數(shù)據(jù)獲取及預(yù)處理、Word2Vec近似詞識別、LDA主題挖掘及詞向量聚類分析,以及主題細(xì)粒度情感分析比較。
1.1 數(shù)據(jù)獲取及預(yù)處理
本文的數(shù)據(jù)來自于京東電商平臺的在線評論。運用Python爬蟲技術(shù),共獲得四款智能手機(jī)的在線評論。本次爬取的數(shù)據(jù)包括產(chǎn)品名稱、用戶名稱、評論內(nèi)容、評論時間。對四款智能手機(jī)的評論文本進(jìn)行去重、去除部分評論內(nèi)容,運用Jieba分詞對評論文本進(jìn)行分詞,通過知網(wǎng)停用詞表去除停用詞及表情圖案??紤]到主題挖掘和分析的效果,將名詞和形容詞搭配組成的詞語中的形容詞從用于主題挖掘的文本數(shù)據(jù)中去除。
1.2 基于Word2Vec的詞意相似度判別
由于存在多個特征詞在多個主題中重復(fù)出現(xiàn)、多個特征詞之間詞義相近等問題,另一種是不同形容詞和形容詞表達(dá)含義相同,含義相近詞匯會影響主題挖掘效果。
而Word2Vec可以把對文本內(nèi)容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,表示文本語義上的相似度,從而識別出近似詞。本文選用Skip-gram模型進(jìn)行訓(xùn)練,該模型通過隨機(jī)梯度下降算法訓(xùn)練目標(biāo)函數(shù)。根據(jù)當(dāng)前詞語預(yù)測上下文的信息,提取的名詞和形容詞作為輸入語料,借助Word2vec函數(shù)訓(xùn)練生成詞向量文件,利用相似度函數(shù)公式⑴,計算詞語的相似特征詞,將表達(dá)相同含義的相似詞設(shè)置為同一個詞。
[Similarity=u.vu‖v‖]? ⑴
其中,[u]和[v]分別表示兩個詞匯的詞向量。
1.3 于LDA主題模型的產(chǎn)品特征挖掘
根據(jù)Word2Vec近似詞識別中的Similarity的大小,將相似度高的產(chǎn)品特征詞歸到一起之后,采用隱含狄利克雷分布。從評論文本數(shù)據(jù)中提取潛在主題。在使用主題模型對評論文本進(jìn)行分析時,確定最佳主題數(shù)以及主題的命名非常重要,本文采用網(wǎng)格搜索法,利用一致性評分來確定最佳主題數(shù),通過主題整合得到了不同的用戶關(guān)注的產(chǎn)品特征維度。
1.4 情感傾向分析
基于LDA主題—特征詞挖掘結(jié)果,運用詞典分析方法進(jìn)行情感分析,計算各主題屬性的情感值。本文所用情感詞典是HowNet詞典,并根據(jù)電子數(shù)碼產(chǎn)品評論文本內(nèi)容特征,添加人工自定義詞典。
⑴ 分離出文本單元。將評論文本原始數(shù)據(jù)按照標(biāo)點符號和連接詞分成獨立的文本單元,對所有文本單元進(jìn)行分詞,將含有兩個或兩個以上特征詞的文本單元進(jìn)一步分離,使每個文本單元僅含有一個特征詞。
⑵ 標(biāo)記情感詞。將分詞后的文本單元與完善后的情感詞典進(jìn)行匹配,標(biāo)記每個文本單元中情感詞的位置及其情感權(quán)重,每個正面情感詞得分+1,每個消極情感得分-1。得出每個文本單元的情感得分。
⑶ 考慮否定詞。若情感詞前有奇數(shù)個否定詞,則情感傾向改變;若短句中有偶數(shù)個否定詞,則情感傾向不變。
⑷ 考慮程度副詞。建立程度副詞詞典,并賦予相應(yīng)的權(quán)重,確保計算所得情感值的準(zhǔn)確性。參照HowNet程度副詞詞典,依據(jù)相關(guān)文獻(xiàn)和消費者對程度副詞的實際使用和區(qū)分情況,對程度副詞詞典進(jìn)行擴(kuò)充和賦值如表1。
⑸ 修改情感得分。依據(jù)文本單元中否定詞詞表和程度副詞詞典,對各個文本單元情感得分進(jìn)行修改,假設(shè)文本集合[D={d1,…,dm,…,dM}],其中[dm]是第[m]個文本單元,[M]是文本單元數(shù)量,[m=1,2,…,M]:
[scoredm=(-1)ii=1kPtj=1nDj]? ⑵
其中,[j]、[n]和[k]分別表示第[m]個文本單元中否定詞、程度副詞和情感詞的數(shù)量,[Dj]表示第[m]個文本單元中第[m]個程度副詞的權(quán)重值,[Pt]表示第[m]個文本單元中第[t]個情感詞的值。
⑹ 計算各主題情感得分。假設(shè)特征詞集合為[Wij={w11,w12,…,wij}],其中[wij]表示第[i]個主題的第[j]個特征詞。將特征詞與文本單元進(jìn)行匹配得出每個特征詞所在的文本單元及其出現(xiàn)次數(shù)[aij],則每個特征詞的情感得分為:
[scorewij=score(dm)aijwij∈dm]? ⑶
則各主題的情感得分為:
[scorezk=i=ksore(wij)aiji=kaij]? ⑷
1.5 于K-means聚類分析的用戶分類
本文將上文得到的每個用戶的產(chǎn)品需求偏好的多維分值向量作為數(shù)據(jù)基礎(chǔ),利用K-means聚類算法來進(jìn)行用戶群組的分類。用輪廓系數(shù)來評判聚類效果,以此來確定聚類的個數(shù)。計算樣本i到同簇其他樣本的平均距離[a(i)]值,該值越大,說明樣本i越應(yīng)該被聚類到該簇。將[ai]稱為樣本i的簇內(nèi)不相似度。計算樣本[i]到其他某簇Cj的所有樣本的平均距離bij,稱為樣本i與簇Cj的不相似度。定義為樣本i的簇間不相似度:[b(i)=minb(i1),…,b(ik)]。該值越大說明樣本越不屬于其他簇。根據(jù)樣本i的簇內(nèi)不相似度[a(i)]和簇間不相似度[b(i)]定義樣本i的輪廓系數(shù):
[Si=bi-a(i)max {ai,b(i)}]? ⑹
當(dāng)[S(i)]接近1時,則說明樣本i合理;[S(i)]接近-1,則說明樣本i該分類到其他的簇;當(dāng)[S(i)]近似為0,則說明樣本i在兩個簇的邊界上。所有樣本的[S(i)]的均值稱為聚類結(jié)果的輪廓系數(shù),[S(i)]越大,說明聚類效果越好。
2 實證分析
2.1 數(shù)據(jù)來源
本文選取的研究對象是四款智能手機(jī)。京東在數(shù)碼產(chǎn)品方面具有更好的口碑,因此選用京東商城作為數(shù)據(jù)獲取平臺。運用了Python爬蟲技術(shù)在京東商城上獲取了這四款手機(jī)在不同店鋪的共17723條有效在線評論。評論時間在2020年5月15日到2021年3月15日。
2.2 智能手機(jī)主題發(fā)掘及產(chǎn)品需求判別
根據(jù)主題一致性得分確定最佳主題數(shù)。實驗結(jié)果表明,四款智能手機(jī)京東平臺的在線評論最佳主題數(shù)為6,此時一致性得分最高(Coherence Score=0.945)。通過不斷調(diào)試迭代,將每個主題中詞頻超過30的特征詞進(jìn)行保留。
最終得到了六個主題組為性價比組、娛樂體驗組、軟硬件組、外觀組、物流服務(wù)組以及拍照組以及47個產(chǎn)品特征詞。如表1所示。
2.3 情感分析及詞向量各維度分值的確定
本文針對每一條智能手機(jī)產(chǎn)品評論中涉及的一種或多種主題特征的偏好程度進(jìn)行打分?;贚DA挖掘得出的主題-特征詞結(jié)果,通過領(lǐng)域詞典的方法進(jìn)行情感分析判斷評論文本正面、負(fù)面和中立三元情感態(tài)度,并得出情感得分,情感傾向和情感得分結(jié)果如表2所示。
從情感得分情況來看,這四款智能手機(jī)的用戶對于各個主題的關(guān)注度由高到低分別是軟硬件組、娛樂體驗組、性價比組、物流服務(wù)組、外觀組、拍照組。根據(jù)每個主題的情感得分情況。進(jìn)一步地,本文將每個智能手機(jī)的用戶用一個六維向量來。其中,每個維度為該用戶在各個主題特征上的分值。最終確定得到17723個詞向量。
2.4 消費群體聚類分析
本文將上文中得到的17723個詞向量作為數(shù)據(jù)基礎(chǔ),基于Python對這些用戶進(jìn)行了聚類分析。首先,根據(jù)實驗結(jié)果該組評論數(shù)據(jù)在聚類個數(shù)為7時,輪廓系數(shù)最大為0.956,此時聚類效果最好。因此最佳聚類個數(shù)為7。即可以將智能手機(jī)用戶劃分成七個分組。對消費者進(jìn)行K-means算法聚類,設(shè)定聚類個數(shù)為7,最大迭代次數(shù)為10。得到結(jié)果如表3所示。
由表3可知,可以將四款智能手機(jī)的消費者分為七個群組。
第一個消費者群組有3135人,占比17.69%。這個群組的消費者注重的手機(jī)品質(zhì)比較全面,在性價比、性能體驗、軟硬件、外觀、物流服務(wù)以及拍照六個維度上表現(xiàn)的關(guān)注沒有非常高也不沒有很低。該為均衡體驗組。
第二個消費者群組有2160人,占比12.19%。這個群組的消費者對于手機(jī)的性價比以及物流服務(wù)上的關(guān)注程度不高,而對手機(jī)的外觀具有最高的重視程度。該組是外觀偏好組。
第三個消費者群組有616人,占比3.48%。這個群組里都消費者對這四款手機(jī)的六個維度都沒有什么關(guān)注程度。該組是差評組。
第四個消費者群組有1931人,占比10.90%。這個群組的消費者最看重手機(jī)的性價比,而對手機(jī)其他的方面都有差不多的關(guān)注程度。該組為性價比組。
第五個消費者群組有4407人,占比24.87%。這個群組的消費者最注重手機(jī)的性能體驗和軟硬件,同時也對手機(jī)的拍照有著較高的關(guān)注程度。該組為品質(zhì)功能組。
第六個消費者群組有1756人,占比9.91%。這個群組的消費者則最看重手機(jī)的物流服務(wù),對手機(jī)的性價比和拍照關(guān)注程度很低。該組為購物體驗組。
第七個消費者群組有3718人,占比20.98%。這個群組的消費者非常注重手機(jī)的性能體驗、物流服務(wù)以及拍照。對手機(jī)的軟硬件有較高的關(guān)注度,而對手機(jī)的性價比關(guān)注程度很低,看重物流服務(wù)這方面的購物體驗。該組為綜合性能組。
3 結(jié)論
本文對商家在識別用戶對于產(chǎn)品偏好需求以及消費者分組領(lǐng)域進(jìn)行了研究,構(gòu)建了基于在線評論的產(chǎn)品需求偏好判別以及客戶細(xì)分的模型,幫助手機(jī)商家更精準(zhǔn)地識別用戶需求以及確定客戶細(xì)分的構(gòu)成。區(qū)別于一般評論影響產(chǎn)品的研究方向,本文以結(jié)果作為出發(fā)點,來分析用戶對于產(chǎn)品的需求訴求,并為在線評論在客戶細(xì)分領(lǐng)域的研究拓寬了思路。為在線評論挖掘產(chǎn)品特征的探索提供現(xiàn)實數(shù)據(jù)參考,同時對評論文本挖掘模型進(jìn)行了優(yōu)化并驗證了可行性。本研究不足之處主要在于選取的研究對象具有行業(yè)局限性,此外,所提模型對于其他行業(yè)的產(chǎn)品的適用性還需要進(jìn)一步驗證。
參考文獻(xiàn)(References):
[1] CHEN LIU, ALEJANDRO RAMIREZ-SERRANO, GUOFU
YIN. An optimum design selection approach for product customization development[J].Journal of Intelligent Manufacturing,2012,23(4):1433-1443.
[2] SANJAY R. GANGURDE, MILIND M. AKARTE.Customer
preference oriented productdesign using AHP-modified TOPSIS approach[J].Benchmarking,2013,20(4):549-564.
[3] FELIX GEYER, JENS LEHNEN, CORNELIUS HERSTATT.
Customer Need Identification Methods in New Product Development: What Works "Best"?[J]. International journal of innovation and technology management,2018,15(1):1850008.1-185000.26.
[4] 阮光冊.基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究[J].情報雜志,
2014(3):161-164.
[5] JONES KS. A statistical interpretation of term specificity
and its application in retrieval[J].The Journal of Documentation,2004,60(5):493-502.
[6] 宛艷萍,張芳,谷佳真.基于雙窗口TextRank關(guān)鍵句提取的
文本情感分析[J].計算機(jī)應(yīng)用與軟件,2022,39(4):242-248.
[7] ZHANG, LEI, CHU, XUENING, XUE, DEYI. Identification
of the to-be-improved product features based on online reviews for product redesign[J].International journal of production research,2019,57(7/8):2464-2479.
[8] LAI, XINJUN, ZHANG, QIXIANG, CHEN, QINGXIN, et al.
The analytics of product-design requirements using dynamic internet data: application to Chinese smartphone market[J].International journal of production research,2019,57(17/18):5660-5684.
[9] 李賀,曹陽,沈旺,等.基于LDA主題識別與Kano模型分析的
用戶需求研究[J].情報科學(xué),2021,39(8):3-11,36.
[10] GUAN, XINYU, CHENG, ZHIYONG, HE, XIANGNAN,
et al. Attentive Aspect Modeling for Review-Aware Recommendation[J].ACM transactions on information systems,2019,37(3):28.1-28.27.
[11] Turney P D.Learning algorithms for keyphrase extrac-
tion[J].Information Retrieval,2000,2(4):303-336.