(北京物資學(xué)院 北京 101149)
根據(jù)2020年中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第46次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,2020年中國網(wǎng)購人數(shù)規(guī)模已經(jīng)達(dá)到6.59億人,網(wǎng)購滲透率達(dá)到79.5%。2020年上半年,我國互聯(lián)網(wǎng)個(gè)人應(yīng)用形成平穩(wěn)增長態(tài)勢。其中,電商直播、短視頻、網(wǎng)絡(luò)購物增長最為顯著,增長率分別為16.7%、5.8%和5.5%。有研究顯示,91%的網(wǎng)購用戶會(huì)在購買新產(chǎn)品時(shí)會(huì)參考之前用戶的購買反饋,在線評(píng)論作為網(wǎng)購用戶反饋的重要媒介之一,在線評(píng)論文本所包含的商品特征對消費(fèi)者購買產(chǎn)品與商家提升服務(wù)質(zhì)量有著重要的參考意義。
根據(jù)2020年4月的淘寶指數(shù),在淘寶平臺(tái)網(wǎng)購的消費(fèi)者80%是“小年輕”、“青年”與“青壯年”,同時(shí)消費(fèi)者的性別比例為1:9(男:女),女鞋在淘寶總的類目排行榜中排名第六,因此電商女鞋產(chǎn)業(yè)具有豐富的消費(fèi)者受眾并帶有大量的用戶評(píng)論信息。2020年上半年,前中國女鞋行業(yè)第一“巨頭”達(dá)芙妮營業(yè)額驟降85%,虧損1.14億港元,同時(shí)在淘寶女鞋的支付排名也跌出了10名以外。網(wǎng)購對傳統(tǒng)女鞋行業(yè)造成了一定沖擊,傳統(tǒng)零售巨頭在電商升級(jí)轉(zhuǎn)型時(shí)也會(huì)遇到巨大的困難。網(wǎng)購相較于線下實(shí)體店的購買,不僅僅是支付方式的升級(jí),同時(shí)也是營銷、制造、物流等多方面的全方位的升級(jí)。因此本文選擇能充分反映消費(fèi)者感知的在線評(píng)論這一信息來源,并從中提取產(chǎn)品特征。本文將選擇淘寶的女鞋行業(yè)作為研究對象,對研究消費(fèi)者網(wǎng)購關(guān)注點(diǎn)以及傳統(tǒng)女鞋零售企業(yè)進(jìn)行產(chǎn)業(yè)升級(jí)提升服務(wù)有著一定的指導(dǎo)作用。
在線評(píng)論的特征提取的主要步驟包括數(shù)據(jù)的獲取、數(shù)據(jù)的篩選清洗,數(shù)據(jù)并歸提取特征及一致性檢驗(yàn)等環(huán)節(jié)。流程如圖1所示。
本文的大部分?jǐn)?shù)據(jù)來源于淘寶平臺(tái),淘寶是一個(gè)受眾面廣、在我國電子商務(wù)領(lǐng)域具有重要影響的綜合性電子商務(wù)網(wǎng)站。以支付寶為核心的平臺(tái)化、用戶數(shù)量、用戶規(guī)模都具有巨大的優(yōu)勢,故本文選擇采集2020年5月同品類銷量前五名的網(wǎng)店的部分鞋款的在線評(píng)論,本文將以同品類排名前五的淘寶店鋪部分商品的在線評(píng)論為基礎(chǔ),提取商品特征,并對提取的商品特征進(jìn)行分析對比。
圖1 評(píng)論數(shù)據(jù)處理流程圖
采用OCTOPUS爬蟲軟件對淘寶平臺(tái)女鞋銷量排名前五店鋪的2020年5月1日至2020年5月31日的在線評(píng)論數(shù)據(jù)進(jìn)行爬取。
為提升提取結(jié)果的精確度,考慮到在線評(píng)論中無用以及重復(fù)的評(píng)論,會(huì)對最終的提取結(jié)果造成影響,主要是借助Excel中的“排序”和“查找”功能依靠手工操作完成,其中去重復(fù)部分運(yùn)用 ROST 軟件完成。最終經(jīng)過數(shù)據(jù)清洗后剩余 10260條有效評(píng)論。
直接獲取的在線評(píng)論大多屬于自然句形式,需要準(zhǔn)確提取要素需要對在線評(píng)論進(jìn)行預(yù)處理。在線評(píng)論中還包含默認(rèn)評(píng)論、語義不完整的詞句、包含一詞多義的評(píng)論、上下文相關(guān)性不強(qiáng)的評(píng)論與語意模糊的評(píng)論等。因此,獲取的在線評(píng)論文本需要進(jìn)行規(guī)范化的預(yù)處理。
本文采用了ROST 6.0軟件。將所得到的數(shù)據(jù)分別進(jìn)行格式轉(zhuǎn)換,轉(zhuǎn)換為文本格式后進(jìn)行預(yù)處理。本文在對評(píng)論文本進(jìn)行分析之前,首先利用分詞功能對在線評(píng)論數(shù)據(jù)集文檔進(jìn)行分詞,使得非結(jié)構(gòu)化的文本轉(zhuǎn)化為機(jī)器能夠讀取的離散數(shù)據(jù)。分詞是否準(zhǔn)確,將會(huì)影響后面的工作質(zhì)量。
ROST分詞系統(tǒng)的詞庫有限,同時(shí)基于本文的研究對象,分詞需要更加具有針對性。因店鋪評(píng)論中包含許多專有名詞以及口語化詞語,例如“尺碼”“磨腳”等,為保證后續(xù)研究的準(zhǔn)確性,通過分批抽查分詞結(jié)果的方式多次更新自定義詞表,直至抽樣結(jié)果中無遺漏的詞語,更新分詞及詞頻統(tǒng)計(jì)結(jié)果,具體更新內(nèi)容如表2所示。
表1 更新詞表
本文選用店鋪在線評(píng)論代表該類行業(yè)的在線評(píng)論,為保證其科學(xué)性,將這些評(píng)論分為五組,分析其高頻詞的相似性,以驗(yàn)證數(shù)據(jù)的內(nèi)部一致性。信度分析是指對同一對象進(jìn)行反復(fù)測量的(所用方法相同)結(jié)果的一致性程度,其常用的方法是信度系數(shù)法,即Cronbach系數(shù)。計(jì)算公式如下。其中K為量表中題項(xiàng)的總數(shù),Si為第i題得分的方差,Sx為全部題項(xiàng)總得分的方差。通常α<0.35 表示信度很低,α>0.7 表示信度高。而α>0.8 則表示可靠性極高。根據(jù)不同組別評(píng)論中高頻詞出現(xiàn)的頻率,采用 SPSS 23.0 的相關(guān)分析方法,分析高頻詞在組別間分布的相似性。五家店鋪詞頻前五名的因子的Pearson相關(guān)系數(shù)顯著水平下兩兩之間的相關(guān)系數(shù)都大于0.7,顯示具有顯著相關(guān)性,說明5家網(wǎng)店消費(fèi)者的關(guān)注點(diǎn)具有很高的一致性。同時(shí),五組數(shù)據(jù)高頻詞出現(xiàn)頻率的克朗巴哈系數(shù)為0.976>0.7如表所示,說明本文提取的數(shù)據(jù)較有代表性,能夠代表該品類的評(píng)論。
通過停用詞表和歸并詞表之后的統(tǒng)計(jì)分詞詞頻統(tǒng)計(jì)如表所示。
表2 主要詞語詞頻統(tǒng)計(jì)表
本文將高頻詞按照特征進(jìn)行分類,將外觀、舒適度、材質(zhì)、尺碼、品質(zhì)、物流質(zhì)量、腳感、商品價(jià)格、氣味、物流服務(wù)、商品特點(diǎn)等進(jìn)行分類。
本文抽取出了一些能夠體現(xiàn)消費(fèi)者感知的產(chǎn)品特征詞,從前文可以看出,排名最高的詞匯是“好看”,頻次數(shù)為 3926,約占樣本總評(píng)論數(shù)的 41%,大于三分之一的消費(fèi)者會(huì)在評(píng)論中提及商品的外觀,平價(jià)女鞋作為一種快消品,消費(fèi)者對其的關(guān)注是符合實(shí)際情況的。高頻特征詞中排名比較靠前的“質(zhì)量”、“舒服”等詞,表明很大一部分消費(fèi)者在選購產(chǎn)品時(shí)會(huì)考慮商品質(zhì)量、舒適度等。同時(shí)“性價(jià)比”、“價(jià)格”、“物流”等詞表示消費(fèi)者同時(shí)也關(guān)注商品的物流服務(wù)質(zhì)量以及商品的價(jià)格。因此電商女鞋企業(yè)應(yīng)該主要關(guān)注產(chǎn)品的設(shè)計(jì)更加跟進(jìn)潮流,同時(shí)需要關(guān)注產(chǎn)品的材料的運(yùn)用及供應(yīng)商選擇、定價(jià)策略以及物流服務(wù)提供商的選擇等。