張 峰,張麗娜,李靜靜
(河北工程大學(xué),河北 邯鄲 056038)
在企業(yè)的日常運(yùn)營(yíng)中,無(wú)論是線上還是線下都產(chǎn)生了大量的用戶消費(fèi)行為數(shù)據(jù)。這些數(shù)據(jù)為企業(yè)帶來(lái)了新的發(fā)展機(jī)遇但也使企業(yè)面臨巨大的挑戰(zhàn),如何判別高質(zhì)量的用戶和渠道、優(yōu)化營(yíng)銷成本成為各領(lǐng)域企業(yè)的痛點(diǎn)。對(duì)企業(yè)而言,傳統(tǒng)的營(yíng)銷渠道已經(jīng)無(wú)法有效地滿足用戶的個(gè)性化和多樣化需求,互聯(lián)網(wǎng)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,為公司拓寬了獲客渠道。因此,以用戶消費(fèi)行為分析為核心,依托互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)挖掘技術(shù)的精準(zhǔn)營(yíng)銷日漸成為各大企業(yè)關(guān)注的焦點(diǎn)。2020年,根據(jù)中研普華產(chǎn)業(yè)研究院調(diào)研數(shù)據(jù)顯示,有超過(guò)60%的企業(yè)將大數(shù)據(jù)應(yīng)用于營(yíng)銷分析[1],用戶行為數(shù)據(jù)對(duì)企業(yè)的幫助作用日益突出,各企業(yè)也逐漸開始重視將大數(shù)據(jù)加入營(yíng)銷的各個(gè)環(huán)節(jié)。因此,如何充分挖掘和分析用戶消費(fèi)行為數(shù)據(jù),并依據(jù)分析結(jié)果制定營(yíng)銷策略,已成為各行業(yè)企業(yè)亟需解決的重要問(wèn)題。
為提高對(duì)用戶消費(fèi)行為的精準(zhǔn)預(yù)測(cè),針對(duì)用戶消費(fèi)行為預(yù)測(cè)方法,國(guó)內(nèi)外學(xué)者做了一些研究。Schmittlein等[2]針對(duì)用戶消費(fèi)行為預(yù)測(cè)問(wèn)題提出了經(jīng)典的概率預(yù)測(cè)模型,即Pareto/NBD模型。李美其和齊佳音[3]基于大眾點(diǎn)評(píng)網(wǎng)站的用戶數(shù)據(jù),使用Pareto/NBD模型對(duì)用戶購(gòu)買行為進(jìn)行預(yù)測(cè),實(shí)驗(yàn)表明該方法的精度得到了提升。隨著機(jī)器學(xué)習(xí)方法的發(fā)展,不少學(xué)者開始將機(jī)器學(xué)習(xí)方法應(yīng)用到用戶消費(fèi)行為預(yù)測(cè)問(wèn)題上。白婷等[4]利用網(wǎng)站上的用戶消費(fèi)行為數(shù)據(jù),提取有效特征,使用加權(quán)GBDT(Gradient Boosting Decision Tree)模型對(duì)用戶購(gòu)買商品進(jìn)行了預(yù)測(cè)。葛紹林等[5]提出深度森林模型,對(duì)用戶消費(fèi)行為進(jìn)行預(yù)測(cè)分析,結(jié)果表明該方法具有較好的預(yù)測(cè)效果。
因?yàn)橛脩粝M(fèi)行為預(yù)測(cè)問(wèn)題的復(fù)雜性,單一模型常常會(huì)產(chǎn)生過(guò)擬合現(xiàn)象,因此也有不少學(xué)者利用組合模型對(duì)用戶消費(fèi)行為數(shù)據(jù)進(jìn)行挖掘和預(yù)測(cè)分析。張韶[6]基于京東大數(shù)據(jù)平臺(tái)上的真實(shí)數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)處理和特征選擇,然后選取了LightGBM、Cat-Boost和XGBoost模型進(jìn)行單項(xiàng)訓(xùn)練,通過(guò)加權(quán)投票和Stacking融合策略構(gòu)建組合模型,并進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明基于加權(quán)投票的組合模型的預(yù)測(cè)效果要優(yōu)于其余單項(xiàng)模型。張建彬和霍佳震[7]基于已有的銷售數(shù)據(jù),提出了一種基于機(jī)器學(xué)習(xí)和Stacking集成的綜合預(yù)測(cè)模型,結(jié)果表明該融合模型的預(yù)測(cè)效果優(yōu)于單一模型,準(zhǔn)確率達(dá)85%。
綜上所述,對(duì)用戶消費(fèi)行為預(yù)測(cè)問(wèn)題的研究仍處于不斷發(fā)展階段,國(guó)內(nèi)外學(xué)者從最初的統(tǒng)計(jì)學(xué)方法發(fā)展到現(xiàn)在的機(jī)器學(xué)習(xí)方法,通過(guò)模型構(gòu)建方式對(duì)用戶消費(fèi)行為預(yù)測(cè)進(jìn)行了深入研究。然而,在具體的實(shí)際問(wèn)題中,當(dāng)前方法的預(yù)測(cè)性能還不是十分理想。因此,本文將針對(duì)某平臺(tái)上的用戶消費(fèi)行為數(shù)據(jù),分析用戶消費(fèi)行為與商品之間的潛在關(guān)系,結(jié)合處理效率較高的隨機(jī)森林和Logistic模型,提出一種基于組合模型的用戶消費(fèi)行為預(yù)測(cè)方法,以提升用戶的購(gòu)買轉(zhuǎn)換率,增強(qiáng)預(yù)測(cè)模型對(duì)實(shí)際問(wèn)題的適用性。
數(shù)據(jù)來(lái)源于2021年全國(guó)大學(xué)生數(shù)據(jù)統(tǒng)計(jì)與分析競(jìng)賽(https://m.saikr.com/dsa/2021),原始數(shù)據(jù)集包括用戶信息表(user_info)、用戶登錄情況表(login_day)、用戶訪問(wèn)統(tǒng)計(jì)表(visit_info)、用戶下單表(result)4部分,各部分的特征字段和樣本情況,如表1所示。
表1 用戶消費(fèi)行為數(shù)據(jù)情況Table 1 Data of user consumption behavior
由于原始數(shù)據(jù)中存在大量缺失、異常以及重復(fù)等情況,為了對(duì)用戶的消費(fèi)行為進(jìn)行可視化和預(yù)測(cè)分析,本文需要對(duì)初始數(shù)據(jù)進(jìn)行清洗,進(jìn)一步提高數(shù)據(jù)集的質(zhì)量。
首先,對(duì)缺失值進(jìn)行刪除。缺失數(shù)據(jù)是指數(shù)據(jù)集中存在空白或未知數(shù)據(jù)的情況。針對(duì)用戶信息表中“城市”字段存在缺失(共計(jì)28209條)問(wèn)題,進(jìn)行刪除處理。
其次,對(duì)異常值進(jìn)行清除。異常值是指在數(shù)據(jù)記錄中存在不符合實(shí)際情況的數(shù)據(jù),比如在用戶登錄情況表和用戶訪問(wèn)統(tǒng)計(jì)表中,用戶沒(méi)有領(lǐng)券訪問(wèn)次數(shù)的記錄卻存在已經(jīng)領(lǐng)券的情況、平臺(tái)開課數(shù)為0但用戶學(xué)習(xí)課節(jié)數(shù)和完成課節(jié)數(shù)不為0的情況、用戶登錄時(shí)長(zhǎng)為0但用戶的登錄天數(shù)和最后登錄距期末天數(shù)的值卻不為0等多種不切實(shí)際的情況,約占整體數(shù)據(jù)的18.66%。將這些異常值進(jìn)行刪除,剩余有效數(shù)據(jù)共計(jì)110306條。
再次,對(duì)重復(fù)值進(jìn)行處理。重復(fù)數(shù)據(jù)是指同一數(shù)據(jù)多次出現(xiàn)的情況,比如在用戶下單表中,用戶ID為“2000002390697240”、“2000002516432100”和“2000002480841520”等均重復(fù)出現(xiàn)多次,在用戶信 息 表 中 用 戶ID為“2000002352923140”、“200000235 2922980”的用戶均重復(fù)出現(xiàn)多次。因此,本文對(duì)用戶信息表中的9979條重復(fù)值、用戶登錄情況表與用戶訪問(wèn)統(tǒng)計(jì)表中的4條重復(fù)值、用戶下單表中的13條重復(fù)值進(jìn)行刪除。
通過(guò)上述步驟對(duì)4個(gè)部分的數(shù)據(jù)進(jìn)行清洗處理后,以用戶ID進(jìn)行匹配合并,得到新的樣本數(shù)據(jù)共計(jì)86776條。
為找出其中的行為規(guī)律以及挖掘數(shù)據(jù)中更為豐富的潛在價(jià)值,本文根據(jù)數(shù)據(jù)清洗得到的用戶消費(fèi)行為數(shù)據(jù)進(jìn)行可視化分析。這里主要對(duì)數(shù)據(jù)集中的用戶城市分布情況、用戶登錄情況(包括登錄天數(shù)、登錄間隔、最后登錄距期末天數(shù)和登錄時(shí)長(zhǎng))兩個(gè)方面進(jìn)行可視化分析。
對(duì)數(shù)據(jù)中的城市字段(city_num),首先按照各城市所屬的省(市、自治區(qū))進(jìn)行統(tǒng)計(jì)劃分,然后統(tǒng)計(jì)各省市中總用戶數(shù)量和購(gòu)買用戶數(shù)量,最后借助ArcGIS軟件,利用自然間斷法將用戶數(shù)量分成5個(gè)等級(jí)(city_rank),可視化結(jié)果如圖1所示。
在圖1中,左圖為總用戶數(shù)量地區(qū)分布情況,右圖為購(gòu)買用戶數(shù)量地區(qū)分布情況。由于不同地區(qū)的用戶數(shù)量不同,在圖中呈現(xiàn)出的顏色存在較大差異,顏色越深表示該省市用戶數(shù)量越大,反之用戶數(shù)量越小。從圖中可以看出,總用戶數(shù)量和購(gòu)買用戶數(shù)量在空間分布上不均勻,呈現(xiàn)“東高西低、南高北低”的空間分布格局,其中購(gòu)買用戶數(shù)量在空間分布上的這種格局表現(xiàn)尤為顯著??傆脩魯?shù)量較高的地區(qū)主要集中在重慶、廣東、四川、山西、山東;對(duì)應(yīng)的下單購(gòu)買用戶數(shù)量較高的地區(qū)主要集中在東部沿海地區(qū)和經(jīng)濟(jì)發(fā)達(dá)地區(qū)。而青海、西藏等省市由于人口基數(shù)小、互聯(lián)網(wǎng)普及率相對(duì)較低等原因,用戶數(shù)量較少。
圖1 總用戶和購(gòu)買用戶所在地區(qū)空間分布圖Figure 1 Spatial distribution of users and purchasing users
從登錄天數(shù) (login_time)、登錄間隔(login_diff_time)、最后登錄距期末天數(shù)(distance_day)和登錄時(shí)長(zhǎng)(login_time)四個(gè)方面對(duì)用戶的登錄情況進(jìn)行分析,由于字段中的數(shù)據(jù)均為離散型數(shù)據(jù),因此先對(duì)數(shù)據(jù)進(jìn)行分段處理,統(tǒng)計(jì)該區(qū)間內(nèi)用戶數(shù)量并繪制圖表,如圖2、圖3、圖4及圖5所示,其中折線表示總用戶數(shù)量,條形圖表示購(gòu)買的用戶數(shù)量。
圖2 用戶登錄天數(shù)(login_day)情況Figure 2 Number of login days
圖3 用戶登錄間隔(login_diff_time)情況Figure 3 User login interval(login_diff_time)
圖4 用戶最后登錄距期末天數(shù)(distance_day)情況Figure 4 The number of days between the user's last login and the end of the term(distance_day)
如圖2所示,橫軸表示用戶登錄的天數(shù),縱軸表示總用戶數(shù)量和購(gòu)買用戶數(shù)量。可以看出,隨著用戶登錄天數(shù)的增加,總用戶數(shù)量和購(gòu)買用戶數(shù)量變化趨勢(shì)基本相同,都呈現(xiàn)出先上升后下降的趨勢(shì),但是購(gòu)買用戶數(shù)量的下降趨勢(shì)與上升趨勢(shì)相比較為平緩,總用戶數(shù)量的上升趨勢(shì)與下降趨勢(shì)相對(duì)較為平緩。當(dāng)?shù)卿浱鞌?shù)為5時(shí),總用戶數(shù)量和購(gòu)買用戶數(shù)量同時(shí)達(dá)到峰值,此時(shí)總用戶數(shù)量為13307,約占總體的15.33%,其中購(gòu)買用戶數(shù)量為268。
如圖3所示,橫軸表示用戶登錄間隔,縱軸表示總用戶數(shù)量和購(gòu)買用戶數(shù)量??梢钥闯觯瑹o(wú)論是購(gòu)買用戶還是未購(gòu)買用戶,其登錄時(shí)間間隔都較為集中,主要分布在0.5~1和1~1.5兩個(gè)時(shí)間間隔內(nèi)。在該間隔內(nèi)的購(gòu)買用戶總數(shù)達(dá)946人,占總體比例的73.9%;用戶數(shù)達(dá)63608人,占總用戶數(shù)量的73.3%。這說(shuō)明選擇購(gòu)買的用戶一般登錄的時(shí)間間隔都比較短,會(huì)及時(shí)地進(jìn)行登錄并產(chǎn)生消費(fèi)行為。時(shí)間間隔為0.5~1的總用戶數(shù)量少于時(shí)間間隔為1~1.5的用戶數(shù)量,但是時(shí)間間隔為0.5~1的購(gòu)買用戶數(shù)量卻多于時(shí)間間隔為1~1.5的購(gòu)買用戶。同時(shí),當(dāng)?shù)卿涢g隔超過(guò)1.5時(shí),隨著登錄間隔的增加,總用戶數(shù)量和購(gòu)買用戶數(shù)量逐漸趨近于0。
如圖4所示,橫軸表示用戶最后登錄距期末的天數(shù),縱軸表示總用戶數(shù)量和購(gòu)買用戶數(shù)量。可以看出,總用戶數(shù)量和購(gòu)買用戶數(shù)量都隨著最后登錄距期末天數(shù)的增加呈現(xiàn)先增加后減小的走勢(shì),但是在最后登錄距期末天數(shù)為360~380范圍內(nèi)的總用戶數(shù)量和下單購(gòu)買的用戶數(shù)量陡然上升,且總用戶數(shù)量達(dá)到最高。這說(shuō)明存在大量的用戶在近一年的時(shí)間內(nèi)都未曾消費(fèi)該企業(yè)的產(chǎn)品,其中包含104個(gè)下單購(gòu)買過(guò)的用戶,表明該企業(yè)存在用戶大量流失的情況。其次,購(gòu)買過(guò)的用戶和其他用戶一般最后登錄距期末天數(shù)集中于0~60這個(gè)范圍內(nèi);其中處于20~40范圍內(nèi)的人數(shù)最多,占購(gòu)買用戶數(shù)的比例為31.33%,占總用戶數(shù)的比例為16.15%,說(shuō)明一般用戶的登錄周期可能在20~40之間。
如圖5所示,橫軸表示用戶登錄時(shí)長(zhǎng),縱軸表示總用戶數(shù)量和購(gòu)買用戶數(shù)量??梢钥闯?,隨著登錄時(shí)間越長(zhǎng),總用戶數(shù)量和購(gòu)買用戶數(shù)量越來(lái)越少,并逐漸趨近于0。在登錄時(shí)長(zhǎng)為0~10的范圍內(nèi),登錄的總用戶數(shù)量最多,此時(shí)購(gòu)買的用戶也高達(dá)302人,占總購(gòu)買用戶的23.57%,說(shuō)明用戶在登錄前已經(jīng)具有明確的消費(fèi)目標(biāo)。隨著登錄時(shí)長(zhǎng)的增加,購(gòu)買的人數(shù)逐漸減少,原因是用戶不存在明確的消費(fèi)目標(biāo),只是隨機(jī)瀏覽并進(jìn)行一些非理性的消費(fèi)。
圖5 用戶登錄時(shí)長(zhǎng)(login_time)情況Figure 5 User login duration(login_time)
通過(guò)對(duì)數(shù)據(jù)的清洗,共收集有效數(shù)據(jù)86776條,包含49個(gè)字段。特征個(gè)數(shù)過(guò)多,會(huì)增加模型的訓(xùn)練時(shí)間成本、模型的復(fù)雜度,易發(fā)生過(guò)擬合問(wèn)題,因此需要進(jìn)行特征選擇。特征選擇的目的在于根據(jù)統(tǒng)計(jì)學(xué)方法或機(jī)器學(xué)習(xí)模型的特征需要找到最優(yōu)的特征子集。為構(gòu)建更準(zhǔn)確的用戶消費(fèi)行為預(yù)測(cè)模型,本文將分兩個(gè)步驟對(duì)數(shù)據(jù)集進(jìn)行特征選擇,即剔除無(wú)關(guān)變量與Lasso特征選擇。
首先對(duì)數(shù)據(jù)集中的無(wú)關(guān)變量字段進(jìn)行剔除,包括user_id、app_num、model_num、platform_num、age_month、first_order_time和first_order_price等,從而降低數(shù)據(jù)量,提高運(yùn)算速度。處理后數(shù)據(jù)集的具體變量描述如表2所示。
表2 用戶消費(fèi)行為數(shù)據(jù)變量及其描述Table 2 Data variables of user consumption behavior and their description
其次,進(jìn)行Lasso特征選擇。用戶消費(fèi)行為指標(biāo)應(yīng)具有較強(qiáng)的解釋意義,并且要符合一定邏輯。然而該數(shù)據(jù)集中的指標(biāo)變量包含著大量的冗余信息,這將直接影響用戶消費(fèi)行為預(yù)測(cè)模型的性能,甚至?xí)霈F(xiàn)較大的偏差。因此,還需對(duì)上述指標(biāo)變量進(jìn)行二次選擇,選擇出更具重要性的指標(biāo)。此外,考慮到變量間多重共線性對(duì)模型的影響,尤其是對(duì)Logistic模型的解釋性會(huì)產(chǎn)生極大影響,所以選用Lasso方法進(jìn)行變量選擇,以有效克服上述問(wèn)題[8]。
經(jīng)過(guò)上述兩個(gè)步驟,最終選擇出20個(gè)有效變量x1,x2,x3,x10,x12,x13,x15,x16,x18,x19,x20,x24,x26,x27,x28,x29,x36,x39,x40,x41。最后重新組成新的樣本數(shù)據(jù),有效數(shù)據(jù)樣本總計(jì)84104條,其中下單購(gòu)買的用戶樣本有1209個(gè),未購(gòu)買的用戶樣本有82895個(gè)。
用戶消費(fèi)行為預(yù)測(cè)是一個(gè)典型的機(jī)器學(xué)習(xí)分類任務(wù)。因此,選取了處理效率較高的隨機(jī)森林(Random Forest,RF)和Logistic回歸對(duì)用戶消費(fèi)行為數(shù)據(jù)進(jìn)行學(xué)習(xí)。
隨機(jī)森林[9]是一種集成多棵決策樹的集成學(xué)習(xí)算法,可用于解決分類及回歸問(wèn)題。隨機(jī)森林的“隨機(jī)”體現(xiàn)在兩個(gè)方面:
(1)隨機(jī)抽取樣本。針對(duì)分類問(wèn)題,RF的訓(xùn)練集通過(guò)有放回的自助法隨機(jī)產(chǎn)生,每一輪訓(xùn)練所使用的訓(xùn)練集均以同樣方式生成,以保證所有樣本都有機(jī)會(huì)參與訓(xùn)練。
(2)隨機(jī)屬性選擇。首先從該節(jié)點(diǎn)的全部屬性集合中隨機(jī)抽取若干個(gè)屬性組成子集;其次從屬性子集中找到最優(yōu)分裂屬性進(jìn)而劃分。每一棵決策樹在其生成中都會(huì)隨機(jī)生成不一樣的分裂屬性子集,隨機(jī)屬性選擇增強(qiáng)了樹之間的獨(dú)立性,也增加了算法的隨機(jī)性。
經(jīng)過(guò)模型內(nèi)部處理,在每個(gè)訓(xùn)練集上構(gòu)建一種決策樹,N棵樹就會(huì)有N種分類結(jié)果,根據(jù)投票原則,將投票最多的類別指定為模型的最終輸出。而正因?yàn)殡S機(jī)森林的“隨機(jī)”,使模型不易過(guò)擬合。此外,該模型在處理高維度數(shù)據(jù)中具有明顯的優(yōu)勢(shì),在預(yù)測(cè)準(zhǔn)確度上也有較好的效果。
Logistic回歸[10,11]是將多元線性回歸的思想拓展成一種用于解決分類問(wèn)題的模型。該模型對(duì)數(shù)據(jù)分布沒(méi)有嚴(yán)格的條件,并且具有結(jié)構(gòu)簡(jiǎn)單、參數(shù)易解釋、節(jié)約算力、穩(wěn)健性較好等優(yōu)點(diǎn)。假設(shè)y表示用戶是否下單購(gòu)買,即“0”表示未下單購(gòu)買,“1”表示下單購(gòu)買。若模型的預(yù)測(cè)結(jié)果是y=1的概率,其表達(dá)式可以表示為:
其中,x∈Rn是輸入,y∈{0,1}是輸出,ω∈Rn和b∈R是參數(shù),ω稱為權(quán)值向量,b為偏置,ω·x為ω和x的內(nèi)積。模型的輸出結(jié)果可通過(guò)與閾值0.5比較,若大于0.5,則表示下單購(gòu)買,否則表示未下單購(gòu)買。
經(jīng)過(guò)數(shù)據(jù)清洗和特征選擇后,新的用戶消費(fèi)行為數(shù)據(jù)共計(jì)84104條,其中下單購(gòu)買的用戶樣本有1209個(gè),未購(gòu)買的用戶樣本有82895個(gè),存在著嚴(yán)重的類別不平衡問(wèn)題。因此,本文采用欠采樣技術(shù)[12]進(jìn)行數(shù)據(jù)層面上的處理,以平衡正負(fù)類樣本數(shù)量。首先,從未購(gòu)買用戶樣本中隨機(jī)抽取1209個(gè)樣本,與已購(gòu)買用戶的1209個(gè)樣本組成第一平衡訓(xùn)練集。其次,從未購(gòu)買用戶樣本與已購(gòu)買用戶樣本中分別隨機(jī)抽取800個(gè)樣本,組成第二平衡數(shù)據(jù)集,并按8∶2對(duì)其劃分?jǐn)?shù)據(jù)集。
為進(jìn)一步提高用戶消費(fèi)行為預(yù)測(cè)模型精度,將RF與Logistic模型進(jìn)行串行組合,其構(gòu)建原理如圖6所示。RF與Logistic的組合模型具體構(gòu)建思路[13]:首先,用第一平衡訓(xùn)練集對(duì)RF進(jìn)行訓(xùn)練。其次,將訓(xùn)練好的RF對(duì)第二平衡數(shù)據(jù)集進(jìn)行預(yù)測(cè),將得到的輸出結(jié)果作為一個(gè)新的輸入變量添加到Logistic模型中,而Logistic模型中其他的輸入變量保持不變,得到組合模型。
圖6 改進(jìn)模擬退火算法的迭代過(guò)程圖Figure 6 Iterative process diagram of the improved simulated annealing algorithm
圖6 RF-Logistic組合模型的構(gòu)建原理Figure 6 Construction principle of RF-Logistic combination model
最后,本文將第二平衡數(shù)據(jù)集的訓(xùn)練集部分用樸素貝葉斯(Na?ve Bayes,NB)、支持向量機(jī)(Support Vector Machine,SVM)等其他單一模型進(jìn)行訓(xùn)練,并在測(cè)試集上作對(duì)比,以保證各自模型最終所得出的預(yù)測(cè)準(zhǔn)確率在比較分析中更具有說(shuō)服力。
根據(jù)用戶消費(fèi)行為預(yù)測(cè)用戶是否購(gòu)買產(chǎn)品,是一個(gè)典型的二分類任務(wù)。本文使用二分類問(wèn)題中常用的評(píng)估指標(biāo),包括準(zhǔn)確率A(Accuracy)、精確率P以及F1分?jǐn)?shù)來(lái)評(píng)估模型性能[14]。
其中,F(xiàn)N表示正類樣本(即標(biāo)簽“1”)預(yù)測(cè)為負(fù)類(即標(biāo)簽“0”)的樣本數(shù),TP表示正類樣本預(yù)測(cè)為正類的樣本數(shù),F(xiàn)P表示負(fù)類樣本預(yù)測(cè)為正類的樣本數(shù),TN表示負(fù)類樣本預(yù)測(cè)為負(fù)類的樣本數(shù)。
此 外,本 文 采 用ROC(Receiver Operating Characteristic)曲線和AUC(Area Under the Curve of ROC)值來(lái)驗(yàn)證模型的判別能力和預(yù)測(cè)精度。ROC曲線[15]一般應(yīng)用于二分類模型的評(píng)估,其繪制方法基于兩個(gè)重要的指標(biāo),即靈敏度(True Positive Rate,TPR)和特異度(False Positive Rate,F(xiàn)PR)。靈敏度表示預(yù)測(cè)為正類的樣本數(shù)占所有正類樣本數(shù)的比例;特異度是指當(dāng)前被誤分到下單購(gòu)買用戶中真實(shí)的沒(méi)有下單購(gòu)買的用戶占所有用戶數(shù)的比例。其具體計(jì)算公式如下:
根據(jù)以上原理,對(duì)樣本按預(yù)測(cè)結(jié)果排序,再對(duì)每個(gè)樣本分別以TPR和FPR為坐標(biāo)點(diǎn)繪制ROC曲線。若坐標(biāo)點(diǎn)離左上角越近,則表示分類器的預(yù)測(cè)準(zhǔn)確率越高;若坐標(biāo)點(diǎn)離右下角越近,則表示其預(yù)測(cè)準(zhǔn)確率越低。此外,若畫出的曲線足夠平滑,基本可以判斷沒(méi)有太過(guò)擬合。ROC曲線線下面積即AUC值,也是分類任務(wù)中的常用評(píng)估指標(biāo)。若AUC值越大,表明模型的分類準(zhǔn)確率就越高。
本文將構(gòu)建的組合模型和常用的單一模型在同一測(cè)試集上進(jìn)行預(yù)測(cè),其分類效果如表3所示。
表3 常用分類模型和組合模型的測(cè)試評(píng)估指標(biāo)結(jié)果Table 3 Test evaluation index results of common classification models and combination models
由表3可知,NB與SVM模型的預(yù)測(cè)準(zhǔn)確率A值分別為66.88%和67.81%,其分類效果在其余評(píng)價(jià)指標(biāo)上也表現(xiàn)得非常不理想;Logistic和RF模型的預(yù)測(cè)準(zhǔn)確率分別為71.56%和74.06%,均顯著優(yōu)于NB和SVM模型;RF-Logistic組合模型的預(yù)測(cè)準(zhǔn)確率高達(dá)92.50%,與Logistic和RF模型相比,在預(yù)測(cè)準(zhǔn)確率上分別提高了20.94%和18.44%。綜合來(lái)看,RF-Logistic組合模型的F1分?jǐn)?shù)高達(dá)92.59%,與NB、SVM、Logistic和RF單一模型相比,組合模型的分類效果得到了大幅度提高。
此外,本文繪制了ROC曲線來(lái)進(jìn)一步直觀地反映組合模型與其他單一模型在下單購(gòu)買行為預(yù)測(cè)(即標(biāo)簽“1”)上的分類效果,如圖7所示。
從圖7可知,NB模型、SVM模型、Logistic模型、RF模型以及RF-Logistic組合模型的ROC中AUC值 分 別 為0.7198,0.7214,0.7481,0.7857和0.9485。其中RF-Logistic組合模型的AUC值最高,說(shuō)明組合模型對(duì)判別用戶是否購(gòu)買的分類效果較好。根據(jù)以上評(píng)估結(jié)果及分析,驗(yàn)證了RFLogistic組合模型可作為最終的用戶消費(fèi)行為預(yù)測(cè)模型。
圖7 組合模型與常用分類模型的ROC曲線Figure 7 ROC curves of the combined model and the commonly used classification model
本文通過(guò)對(duì)用戶消費(fèi)行為數(shù)據(jù)進(jìn)行清洗、可視化分析和特征選擇,建立了基于隨機(jī)森林和Logistic回歸的用戶消費(fèi)行為預(yù)測(cè)模型,較大地提高了用戶消費(fèi)行為數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率。這為幫助企業(yè)分析用戶的消費(fèi)行為規(guī)律、判別高質(zhì)量用戶,進(jìn)而制定合理的營(yíng)銷策略提供了有益的借鑒。結(jié)合模型的分析結(jié)果,本文提出了如下的營(yíng)銷建議。
在對(duì)用戶城市分布情況進(jìn)行可視化分析后,發(fā)現(xiàn)總用戶數(shù)量和購(gòu)買用戶數(shù)量存在同增同減關(guān)系,且在空間分布上呈現(xiàn)“東高西低、南高北低”的不均勻空間分布格局。根據(jù)這一現(xiàn)象,相關(guān)企業(yè)可以按區(qū)域進(jìn)行營(yíng)銷,若營(yíng)銷推廣所在區(qū)域位于東南地區(qū),可以采取促銷滿減、開通會(huì)員打折等形式吸引用戶注冊(cè)購(gòu)買,增加用戶數(shù)量和購(gòu)買用戶數(shù)量。若營(yíng)銷推廣所在區(qū)域位于西北地區(qū),應(yīng)該先注重增加用戶數(shù)量,因?yàn)槲挥谶@些地區(qū)的用戶往往比較看重價(jià)格,因而可采取降價(jià)、打折等形式進(jìn)行促銷。
在對(duì)用戶登錄情況進(jìn)行可視化分析后發(fā)現(xiàn),用戶登錄的時(shí)間間隔越短,下單購(gòu)買的用戶越多。根據(jù)這一情況,企業(yè)可以采取一定的措施來(lái)減少用戶登錄的時(shí)間間隔,即增加用戶登錄的次數(shù),來(lái)促進(jìn)用戶下單購(gòu)買,比如對(duì)登錄時(shí)間間隔較長(zhǎng)的用戶設(shè)置簽到有獎(jiǎng)的活動(dòng),簽到的次數(shù)越多,獲得的獎(jiǎng)勵(lì)就越多越豐厚。此外,還可以設(shè)置用戶在有限時(shí)間內(nèi)登錄平臺(tái)達(dá)到一定次數(shù)時(shí)發(fā)放優(yōu)惠券,來(lái)調(diào)動(dòng)用戶登錄的積極性。
根據(jù)用戶消費(fèi)行為數(shù)據(jù)分析,其中領(lǐng)券訪問(wèn)數(shù)僅占7%,而發(fā)生領(lǐng)券購(gòu)買行為的用戶數(shù)僅占4%,說(shuō)明優(yōu)惠券并未達(dá)到預(yù)期的營(yíng)銷效果。這說(shuō)明企業(yè)在投放優(yōu)惠券的時(shí)機(jī)選擇和人群選擇上具有較大的盲目性,定位不夠準(zhǔn)確,并且部分用戶在瀏覽平臺(tái)產(chǎn)品時(shí)收到不感興趣的優(yōu)惠券推送消息時(shí),會(huì)產(chǎn)生反感情緒而導(dǎo)致用戶不斷流失。因此,建議企業(yè)在發(fā)放優(yōu)惠券時(shí),按照?qǐng)鼍斑M(jìn)行設(shè)定:獲取新用戶、提高活躍度、提高轉(zhuǎn)化率和自傳播。針對(duì)從未下單購(gòu)買的用戶,可以通過(guò)注冊(cè)激活發(fā)券、下單有禮等方式獲取新用戶;通過(guò)發(fā)放優(yōu)惠券的方式將已注冊(cè)激活的用戶喚醒召回;通過(guò)滿減劵或者折扣券來(lái)實(shí)現(xiàn)用戶從低價(jià)值向高價(jià)值的轉(zhuǎn)化。通過(guò)場(chǎng)景設(shè)定,將優(yōu)惠券發(fā)放給最有可能使用的人,以達(dá)到精準(zhǔn)投放的目的。同樣,也可考慮設(shè)定優(yōu)惠券的具體面值、有效期和使用范圍。
根據(jù)數(shù)據(jù)分析,點(diǎn)擊分享訪問(wèn)的用戶占比61.43%,說(shuō)明用戶樂(lè)于與好友互動(dòng),將產(chǎn)品分享給好友。相關(guān)企業(yè)可以通過(guò)增加分享、關(guān)注、進(jìn)群、做任務(wù)、添加好友等社交互動(dòng)方式,鼓勵(lì)用戶和親朋好友一起參與,促進(jìn)用戶的增長(zhǎng),提升用戶的觸達(dá)范圍和轉(zhuǎn)化效果:通過(guò)登陸和訪問(wèn)頁(yè)面的推送,激勵(lì)用戶點(diǎn)擊分享內(nèi)容,提高用戶活躍度,同時(shí)促進(jìn)產(chǎn)品的宣傳和推廣。