管夢妮
(安陽師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,河南 安陽 455000)
隨著社會的發(fā)展,人們的消費理念發(fā)生了較大變化,“顏值”經(jīng)濟(jì)時代,人們更加重視儀容儀表。調(diào)查顯示,中國約83%的居民曾存在不同程度的青春痘,95%的年輕居民存在粉刺、痤瘡、毛孔粗大等肌膚問題,痘肌問題位于消費者皮膚問題的榜首,祛痘類護(hù)膚產(chǎn)品順勢成為近年來藥妝銷售前列。因此,研究消費者在購買祛痘類護(hù)膚產(chǎn)品時的行為特征,包括對產(chǎn)品價格、成分、功效、安全性、知名度等因素的關(guān)注程度,對于拓展市場份額具有重要的現(xiàn)實意義。
互聯(lián)網(wǎng)經(jīng)濟(jì)大發(fā)展的條件得天獨厚,網(wǎng)購成為人們購物的主流方式之一,所占比重迅速增長,網(wǎng)購的快速發(fā)展與全民網(wǎng)上消費習(xí)慣形成正反饋制。數(shù)字化時代,網(wǎng)絡(luò)上留下的文本評論成為研究的重要數(shù)據(jù)資源。網(wǎng)購時,消費者購買并使用產(chǎn)品后在賣家商品評論區(qū)的反饋構(gòu)成了對于產(chǎn)品使用的真實感受及效果評價。淘寶和京東作為兩大互聯(lián)網(wǎng)電商巨頭,其內(nèi)含的海量評論數(shù)據(jù)具有一定的代表性。本文利用Python 軟件爬取淘寶、京東平臺上有關(guān)祛痘產(chǎn)品價格及評論的原始數(shù)據(jù),并對原始數(shù)據(jù)進(jìn)行清洗。中文分詞工作通過Rstudio 軟件進(jìn)行,使用詞云圖等文本挖掘方法,實現(xiàn)對文本評論數(shù)據(jù)隱藏信息的挖掘與分析,提取出高頻詞并畫出詞云圖,從而對樣本人群購買祛痘類產(chǎn)品的現(xiàn)狀和主要重視因素進(jìn)行初步探討。在圖1 中,詞頻越高,詞的字號就越大。根據(jù)詞云圖分析發(fā)現(xiàn),真正吸引用戶的是產(chǎn)品自身的品質(zhì)效果,由此為設(shè)計問卷提供思路。
圖1 詞云圖
圖2 隨機(jī)森林示意圖
基于文本挖掘結(jié)果,設(shè)計調(diào)查問卷包括六個維度,分別為:被調(diào)查者的基本情況、是否存在長痘困擾、產(chǎn)品購買意愿、了解渠道(多選題)、影響購買的因素(矩陣量表題)、市場滿意度及發(fā)展建議。
為了驗證整個問卷的信度和效度,經(jīng)過計算得到問卷整體值為0.92,說明問卷通過了信度檢驗,具有較強(qiáng)的可靠性、一致性。檢驗和球形檢驗結(jié)果顯示,值為0.88,球形檢驗顯著性為0.00,說明問卷通過了效度檢驗。
一款祛痘產(chǎn)品的推出要有后續(xù)的銷量和盈利,最主要的是它能夠持續(xù)地滿足消費者的某些特征需求。但特征需求因不同消費者身份等自身因素的不同而異,根據(jù)不同消費者的關(guān)注點,進(jìn)一步探究祛痘產(chǎn)品的持續(xù)發(fā)展因素。
本部分依賴于矩陣量表問題:“如果您購買祛痘護(hù)膚品,請您根據(jù)自身的重視程度對以下因素進(jìn)行選擇”,影響因素包括基本特征(品牌、價格、包裝、氣味)、使用效果(安全性、產(chǎn)品效果)、相關(guān)合作(明星代言、是否與醫(yī)療合作)三個維度八項子指標(biāo),對于每一個陳述性描述,參考李克特五級分類量表,設(shè)置答項為“不重視、不太重視、一般重視、比較重視、十分重視”。根據(jù)樣本群體對祛痘類產(chǎn)品影響因素的重視程度,研究消費者的特征需求。
隨機(jī)森林算法是通過從原始數(shù)據(jù)集N中不斷有放回地、重復(fù)隨機(jī)地抽取k個樣本,以生成新的訓(xùn)練樣本集合。因為是有放回抽樣,所以有些樣本會被重復(fù)抽取,同時隨機(jī)漏掉一部分樣本,經(jīng)過采樣后的訓(xùn)練集樣本大小通常為原始樣本大小的三分之二。在此基礎(chǔ)上,每個訓(xùn)練集分別建立決策樹,新數(shù)據(jù)的分類結(jié)果根據(jù)分類樹上的票數(shù)決定。
隨機(jī)森林算法本質(zhì)上是一種改進(jìn)的決策樹算法,包含多棵決策樹并將它們結(jié)合起來,每棵決策樹都是建立在一個獨立樣本上的,且森林中每棵樹的分布相同。其類誤差依賴于每棵樹的分類性能以及樹與樹之間的相互關(guān)系,并對各種情形下產(chǎn)生的誤差進(jìn)行對比,識別內(nèi)在估計的誤差、分類效果和相關(guān)性等,克服決策樹容易過擬合的問題,減小預(yù)測方差,使得預(yù)測值不會因訓(xùn)練數(shù)據(jù)的小變化而劇烈變化。隨機(jī)森林的特征選擇是根據(jù)隨機(jī)原則來分裂各個節(jié)點。具體實現(xiàn)過程如下:
輸入:訓(xùn)練集
S={(xi,yi),i=1,2,...n},(X,Y)∈Rd×R;
待測樣本xt∈Rd;
For i=1,2,3,...,Ntree;
Step1:對原始訓(xùn)練集S使用bootstrap抽樣,生成訓(xùn)練集Si;
Step2:使用Si生成一棵不剪枝的樹,在樹的每個節(jié)點處從總體的M個特征變量中隨機(jī)抽取m個特征(m<M),依據(jù)Gini指標(biāo)從各節(jié)點選擇分類能力最好的特征;節(jié)點分裂直到達(dá)到生長上限。
End
輸出:樹的集合{Hi,1,2,3,...,Ntree};
對待測樣本xt,決策樹Hi輸出Hi(xt)
模型的因變量為被調(diào)查者是否使用祛痘類產(chǎn)品,自變量為購買祛痘產(chǎn)品的影響因素。進(jìn)入模型的自變量共有八個,分別為品牌、價格、包裝、氣味、安全性、產(chǎn)品效果、明星代言、是否與醫(yī)療機(jī)構(gòu)合作。本文將數(shù)據(jù)集以7:3 的比例進(jìn)行隨機(jī)抽樣,將原始數(shù)據(jù)集劃分成訓(xùn)練集和測試集,利用訓(xùn)練集來對模型進(jìn)行訓(xùn)練。
針對模型,利用Python 軟件繪制變量重要性排名(如圖3 所示)。
圖3 變量重要性排名
圖的索引值對應(yīng)變量如表1 所示。
表1 索引值對應(yīng)變量表
根據(jù)隨機(jī)森林模型結(jié)果可知,人們在選擇是否購買祛痘產(chǎn)品時考慮的因素按照重要性排序依次為:安全性、產(chǎn)品效果、明星代言、是否與醫(yī)療機(jī)構(gòu)合作、價格、品牌、包裝、氣味。
安全性作為消費者第一重要因素,產(chǎn)品所包含成分的安全性、是否會引起皮膚二次過敏或者其他不良反應(yīng),直接影響消費者的購買選擇,因此確保安全性是一款產(chǎn)品在市場中打下根基的前提。產(chǎn)品效果是檢驗一款產(chǎn)品質(zhì)量優(yōu)劣的標(biāo)準(zhǔn),尤其對于功效類護(hù)膚品,能產(chǎn)生顯著效果的往往更受青睞。明星代言在流量為王的時代能夠制造話題引流,提高產(chǎn)品知名度。與醫(yī)療機(jī)構(gòu)合作,能夠提高品牌的權(quán)威性、專業(yè)性,一定程度上能夠提高產(chǎn)品的安全性。價格作為影響因素,反映了經(jīng)濟(jì)學(xué)中的“需求定律”,對于正常品而言價格過高,那么市場的需求量不會高。品牌方面體現(xiàn)了經(jīng)濟(jì)學(xué)原理中的“替代效應(yīng)”,當(dāng)產(chǎn)品幾乎完全同質(zhì)的情況下,那么選擇任意一種都能夠達(dá)到相同的效果,而并不局限于某一特定的品牌。包裝、氣味是消費者在進(jìn)行決策時最不看重的因素,只要產(chǎn)品效果好,可以彌補(bǔ)包裝、氣味方面的不足。
利用訓(xùn)練集得到分類模型后,將測試集數(shù)據(jù)代入模型,以檢驗隨機(jī)森林模型預(yù)測的準(zhǔn)確性,利用Python 軟件繪制出ROC 曲線(如圖4 所示)。
圖4 ROC 曲線
圖5 潛在客戶特征分析圖
一般情況下,AUC 的值越高,分類器越好,預(yù)測效果越好。最終計算出隨機(jī)森林模型的準(zhǔn)確率為94%,效果較好,進(jìn)一步證明結(jié)果的準(zhǔn)確性,說明研究結(jié)果具有較高的可靠性。
1.潛在用戶定義
為提出更有針對性的建議,以便為企業(yè)提供參考,需要對潛在客戶進(jìn)行挖掘。本文對于潛在用戶的定義為:“有購買某種產(chǎn)品或服務(wù)的需要并且具有一定的購買能力,對產(chǎn)品在當(dāng)下或者未來的某一段時間所提供的功能有需求的用戶。”調(diào)查問卷顯示,有一部分被調(diào)查者存在長痘困擾但暫未使用過祛痘產(chǎn)品或不了解相關(guān)類型產(chǎn)品,將這一部分群體視為目前最有可能挖掘到的潛在客戶群體。通過建立潛在客戶價值模型,利用聚類分析識別并挖掘有價值的潛在客戶。
2.聚類因子的選取
針對潛在用戶進(jìn)行聚類分析,因此先選取問卷中針對非用戶的問題。理論上,所有非用戶群體均應(yīng)被視為潛在用戶,但為了挖掘出更有可能購買產(chǎn)品的用戶群體,針對問卷問題:“您沒有使用祛痘護(hù)膚品的原因”進(jìn)行潛在客戶的篩選。
選取六個因子進(jìn)行聚類分析,分別為:行業(yè)(business)、膚質(zhì)類型(skin type)、飲食習(xí)慣(dietary habit)、熬夜頻率(frequency of staying up late)、化妝頻率(makeup frequency)、特征重視度(feature value),并分別記為:B、S、D、L、M、F。
表2 潛在客戶任務(wù)指標(biāo)含義表
其中B、S、D、L、M對應(yīng)問卷中被調(diào)查者基本情況部分的題目,F(xiàn) 為問卷中矩陣量表問題(此部分與第二部分隨機(jī)森林模型分析所用的為同一量表),通過將問題答項依次賦值為1、2、3、4、5,計算得到特征重視度,并假設(shè)特征重視度值越高,購買意愿越強(qiáng),成為潛在用戶的可能性越大。
模型結(jié)果包括兩部分:第一部分根據(jù)上述六個指標(biāo)的數(shù)據(jù),對客戶做聚類分群;第二部分結(jié)合具體項目對客戶群進(jìn)行特征分析,分析客戶價值,并對每個客戶群進(jìn)行排名。
1.潛在客戶聚類
借助SPSS 軟件進(jìn)行聚類分析,將潛在客戶分為三類(具體劃分如表3 所示)。
表3 潛在客戶類型聚類中心表
2.潛在客戶價值分析
針對聚類結(jié)果進(jìn)行特征分析,如圖4 所示,分別分析三個客戶群在各個屬性上的情況,從而總結(jié)出每個客戶群的特征。
根據(jù)潛在客戶類型聚類中心表和特征分析圖,發(fā)現(xiàn)每個客戶群都有顯著不同的表現(xiàn)特征,基于該特征描述,將潛在用戶分成三類:重要潛在客戶、重要發(fā)展客戶、次要潛在客戶。對每類潛在客戶所具備的特征進(jìn)行如下分析:
重要潛在客戶。這類潛在客戶是第Ⅰ類潛在客戶,該群體主要是學(xué)生,油性膚質(zhì)且飲食習(xí)慣非常不健康,偏好油炸、辛辣食物,并且總是熬夜,總是化妝。通過分析,這類客戶是非常重要的潛在客戶,在未來存在很大可能性會成為購買祛痘類產(chǎn)品的群體。學(xué)生群體在產(chǎn)品選擇方面也許會存在更挑剔的要求,對產(chǎn)品的效果、安全性要求較高。針對此類學(xué)生群體,企業(yè)需從產(chǎn)品質(zhì)量方面著手,重視產(chǎn)品效果,同時降低價格,生產(chǎn)具有高性價比的產(chǎn)品,擴(kuò)大學(xué)生消費群體總量,實現(xiàn)整個市場份額的增量擴(kuò)容。
重要發(fā)展客戶。這類客戶是第Ⅱ類客戶,該類客戶針對金融信息行業(yè),混合膚質(zhì)且飲食習(xí)慣較不健康,經(jīng)常熬夜,經(jīng)常化妝。這類客戶是比較重要的潛在客戶,且對產(chǎn)品效果也有所要求。與第一類客戶不同的是,該客戶類群主要包含上班族,具有一定的消費和購買能力,對于產(chǎn)品品質(zhì)追求更高。因此針對該類客戶,需要研發(fā)特色產(chǎn)品,達(dá)到效果的同時提高產(chǎn)品辨識度,只有更加專門化、細(xì)分化的品牌才能穩(wěn)穩(wěn)抓住產(chǎn)品變革的新機(jī)會,成為激烈競爭中脫穎而出的贏家。另外,有針對性的營銷宣傳對于增加品牌認(rèn)知具有一定的促進(jìn)作用。
次要潛在客戶。這類客戶是第Ⅲ類客戶,主要是除了學(xué)生和金融信息群體之外的其他行業(yè)群體。該類用戶主要是干性混合膚質(zhì)且飲食習(xí)慣比較健康,偶爾熬夜,偶爾化妝。這類客戶群對祛痘類產(chǎn)品的購買意愿比較一般,生活習(xí)慣相對較好,針對該類客戶,企業(yè)可以考慮適當(dāng)增加產(chǎn)品在其他方面的功效,比如美白、抗衰等,進(jìn)而達(dá)到刺激消費的目的。
本文通過對祛痘類產(chǎn)品市場需求調(diào)研及潛在用戶挖掘分析得出如下結(jié)論:第一,長痘人群較為年輕化,年輕群體祛痘需求更多,初次長痘年齡為10~18 歲的占比為71%,19~25 歲的占比17%。第二,產(chǎn)品了解渠道多樣化,其中線上平臺小紅書、抖音占比分別達(dá)到76%、53%。第三,基于隨機(jī)森林模型的購買影響因素重要性排名發(fā)現(xiàn),安全性和產(chǎn)品效果排名前兩位。第四,學(xué)生群體、油性膚質(zhì)人群、化妝頻率較高的群體對于祛痘產(chǎn)品的需求更多。第五,祛痘產(chǎn)品市場整體滿意度不高,主要表現(xiàn)為產(chǎn)品效果不明顯、虛假宣傳、價格過高。基于以上結(jié)論,提出以下建議:
問卷顯示,存在長痘困擾的被調(diào)查者占比達(dá)70%,痘肌群體中,選擇購買祛痘產(chǎn)品的占比為70%,且其中又有80%會根據(jù)產(chǎn)品體驗情況選擇復(fù)購。因此,市場需求空間廣闊,企業(yè)在保證產(chǎn)品自身核心配方的同時需要不斷適應(yīng)時代變化,研制更加安全、高效、值得信賴的產(chǎn)品,提高用戶忠誠度,延長產(chǎn)品生命周期。
痘肌群體中,還存在40%比例的人群態(tài)度為順其自然、放任不管,那么這部分群體可能成為潛在用戶。由于對長痘的了解程度會影響消費者的購買欲望,因此企業(yè)在廣告中可適當(dāng)提及產(chǎn)品主要功效及適合的人群特征,可以增加有相應(yīng)特征的人群和潛在用戶聯(lián)系自身情況,考慮祛痘產(chǎn)品的使用效果選擇有針對性購買。
問卷顯示,76%的被調(diào)查者表示通過新媒體社交平臺了解祛痘產(chǎn)品相關(guān)訊息,因此,建議該類產(chǎn)品的廣告營銷多從新型網(wǎng)絡(luò)平臺進(jìn)行宣傳。另外,隨機(jī)森林模型結(jié)果發(fā)現(xiàn),明星代言對于消費者是否購買一款祛痘產(chǎn)品的重要性排名第三,因此,可以適當(dāng)邀請流量明星、知名演員等公眾人物代言或者通過網(wǎng)絡(luò)短視頻平臺直播帶貨,增加產(chǎn)品在新媒體社交平臺的宣傳力度,通過直播環(huán)節(jié)與消費者互動,促進(jìn)消費者對產(chǎn)品功效的了解,利用“名人效應(yīng)”實現(xiàn)精準(zhǔn)營銷。
本次調(diào)查發(fā)現(xiàn),針對不同的用戶群體及可能成為用戶的潛在群體,企業(yè)需要充分挖掘需求特征,研發(fā)面向特定需求的差異化產(chǎn)品,提高品牌辨識度,擴(kuò)大品牌影響力。另外,除了祛痘需求之外,消費者可能存在的其他的護(hù)膚需求為補(bǔ)水保濕、祛除痘坑痘印、修復(fù)敏感肌、美白等。其中補(bǔ)水保濕、祛除痘坑痘印需求處于第一梯隊,占比分別為62%和61%;修復(fù)敏感肌、美白需求處于第二梯隊,占比分別為51%、50%。最后,在產(chǎn)品價格上,選擇價格200元以內(nèi)、200~500 元、500 元以上的被調(diào)查者占比分別為70%、25%、5%,說明價格接受度普遍較低。在功效為王的消費特征需求下,企業(yè)需研發(fā)差異化及多功效產(chǎn)品,探索新興商業(yè)應(yīng)用模式,在保證產(chǎn)品效果的同時嚴(yán)控產(chǎn)品價格,以提升市場份額,開啟新增長藍(lán)海。