劉卉芳,廖 娟,歐陽秀平,林 敏,李勇路(中國聯(lián)通廣東省分公司,廣東廣州 510627)
隨著人口紅利的消失,以及提速降費(fèi)政策的影響,傳統(tǒng)通信業(yè)務(wù)收入呈下滑態(tài)勢,運(yùn)營商的營業(yè)收入和凈利潤增長較為緩慢。在此大背景下,運(yùn)營商不斷探索新的商業(yè)模式以尋求業(yè)務(wù)增長點(diǎn),其中,通過跨界合作促進(jìn)流量增長,提升用戶黏性,增加后向收入成為近年來運(yùn)營商不斷探索的新模式,也是未來運(yùn)營商發(fā)展的重要途徑。
跨界合作是指由2 個或2 個以上不同行業(yè)的企業(yè),為達(dá)到共同的戰(zhàn)略目標(biāo),交換、共享或共同開發(fā)新產(chǎn)品或服務(wù)的合作模式[1]。運(yùn)營商的跨界合作主要以開拓新市場、增加后向收入為目標(biāo),合作模式主要有以下2種。
a)互相引流:合作雙方結(jié)合自身優(yōu)勢共同開發(fā)出新的產(chǎn)品,通過優(yōu)惠、讓利使雙方用戶互相滲透,促進(jìn)雙方業(yè)務(wù)增長,較為典型的案例就是中國聯(lián)通和騰訊公司共同推出的騰訊王卡產(chǎn)品[2]。
b)精準(zhǔn)營銷:運(yùn)營商利用自身大數(shù)據(jù)優(yōu)勢為合作方挖掘潛在用戶,并通過自有渠道、觸點(diǎn)、外呼等方式進(jìn)行營銷,以抽取提成、傭金為目標(biāo),增加運(yùn)營商后向收入,例如運(yùn)營商與手機(jī)終端廠商合作,構(gòu)建換機(jī)模型[3-4],對有換機(jī)需求的用戶進(jìn)行精準(zhǔn)營銷。
本文著重探索第2 種跨界合作模式,且著重關(guān)注互聯(lián)網(wǎng)APP 的合作推廣,例如在線教育、游戲、打車等行業(yè)的APP,均在快速成長期,推廣需求迫切。本文通過對運(yùn)營商大數(shù)據(jù)進(jìn)行挖掘,提出構(gòu)建APP 潛在用戶識別模型,為運(yùn)營商充分利用APP 大數(shù)據(jù)、實(shí)現(xiàn)異業(yè)合作、精準(zhǔn)營銷提供參考。
運(yùn)營商跨界合作首先需要確定合作對象并了解對方用戶規(guī)模與發(fā)展前景,同時分析潛在目標(biāo)用戶。當(dāng)前異業(yè)生態(tài)產(chǎn)品配置相對主觀,運(yùn)營商選擇較為被動,多數(shù)情況為等待合作方上門。圈選目標(biāo)用戶也主要利用年齡、性別等基礎(chǔ)信息和流量、語音等傳統(tǒng)通信數(shù)據(jù),產(chǎn)品轉(zhuǎn)化率不高。針對上述現(xiàn)狀,本文提出以下解決方法。
a)提出運(yùn)營商跨界合作體系構(gòu)建的流程和方法。分析各垂直行業(yè)發(fā)展趨勢,實(shí)現(xiàn)熱門行業(yè)、成長行業(yè)自動監(jiān)控,為異業(yè)產(chǎn)品創(chuàng)新提供數(shù)據(jù)參考。
b)提出基于上網(wǎng)日志數(shù)據(jù)構(gòu)建潛在用戶模型的方法。構(gòu)建APP 貢獻(xiàn)度衡量算法,從1 萬多個APP 中挖掘出貢獻(xiàn)度最大的APP 和行業(yè),避免人為指定行業(yè)和APP的主觀因素。
運(yùn)營商跨界合作體系構(gòu)建的流程和方法如圖1所示。首先,通過上網(wǎng)日志數(shù)據(jù)監(jiān)控用戶規(guī)模較大的熱門行業(yè)以及復(fù)合增長率較高的成長型行業(yè),如圖2 所示。成長行業(yè)的判斷依據(jù)為當(dāng)月用戶規(guī)模5 萬戶以上,近1 年復(fù)合增長率大于0,且近半年的平均增長率大于0,對滿足上述條件的行業(yè)計(jì)算近半年的復(fù)合增長率并從高到低進(jìn)行排序。
圖1 跨界合作體系框架
圖2 熱門行業(yè)和成長行業(yè)洞察監(jiān)控示例
其次,選擇一個目標(biāo)行業(yè)重點(diǎn)分析,通過使用量分析各APP 的市場份額,通過使用流量分析各APP 的用戶黏性,通過復(fù)合增長率分析各APP 的成長性和衰退性,最終圈定合作價值高的APP 進(jìn)行產(chǎn)品創(chuàng)新,評估成本效益。接著,通過機(jī)器學(xué)習(xí)挖掘潛在用戶,進(jìn)行精準(zhǔn)營銷,降低營銷成本,提升轉(zhuǎn)化率。目前關(guān)于潛在用戶挖掘的研究很多[6-7],但都是基于主觀指定的幾個行業(yè)或者熱門APP 的使用數(shù)據(jù),并沒有針對所有APP 進(jìn)行篩選研究,可能會忽略掉一些貢獻(xiàn)度大的APP或者行業(yè)數(shù)據(jù)。本文將重點(diǎn)給出潛在用戶挖掘的流程方法,并在此過程中構(gòu)建用戶的多維度偏好標(biāo)簽,具體實(shí)現(xiàn)方式可參考文獻(xiàn)[5]。最后,本文通過用戶偏好標(biāo)簽和潛在用戶標(biāo)簽生成用戶畫像,為后續(xù)精準(zhǔn)營銷、維系挽留等策略提供參考
本文以推廣作業(yè)幫APP 為例闡述運(yùn)營商挖掘潛在用戶的全流程方法。
隨機(jī)抽取某運(yùn)營商200萬個用戶的基礎(chǔ)信息數(shù)據(jù)(性別、年齡、終端品牌、產(chǎn)品、出賬收入等)和2020 年某月的上網(wǎng)日志DPI 解析數(shù)據(jù)(APP 名稱、所屬行業(yè)、訪問次數(shù)、使用流量等)。以作業(yè)幫APP流量大于0的用戶為正樣本,共計(jì)28.12 萬,其余為負(fù)樣本,共計(jì)171.88萬。
從業(yè)務(wù)經(jīng)驗(yàn)上來說,作業(yè)幫用戶和非作業(yè)幫用戶的APP 偏好存在差異,而這些差異有利于運(yùn)營商識別潛在用戶。因此,本文首先處理分析上網(wǎng)日志數(shù)據(jù),統(tǒng)計(jì)正負(fù)樣本中使用各種APP 的用戶數(shù),比較正負(fù)樣本的上網(wǎng)行為差異。一些熱門APP(如微信)對識別潛在用戶的貢獻(xiàn)微乎其微,因?yàn)檎?fù)樣本均有97%以上的用戶使用微信。本文需要挖掘的是正樣本特有的偏好特征。例如,52.5%的正樣本使用了百度貼吧,而僅有22.4%的負(fù)樣本使用了百度貼吧,差值為30.1%,說明使用百度貼吧的用戶更有可能是作業(yè)幫的潛在用戶。55.6%的正樣本使用了教育學(xué)習(xí)類APP(不包含作業(yè)幫),而僅有23.6%的負(fù)樣本使用了教育學(xué)習(xí)類APP,差值為31.9%,說明使用教育學(xué)習(xí)類APP 的用戶更有可能是作業(yè)幫的潛在用戶。
從圖3 和圖4 可以得出使用了教育學(xué)習(xí)、詞典翻譯、手機(jī)閱讀類APP 的“學(xué)習(xí)愛好者”,以及使用了動漫、手機(jī)游戲類APP 的用戶都有可能是作業(yè)幫的潛在用戶。但是,本文不能簡單地判斷只要使用了上述APP 的用戶都有使用作業(yè)幫APP 的需求,還需要加入年齡、性別等基礎(chǔ)信息,并且綜合各種APP 的使用組合判斷,因此,需要通過機(jī)器學(xué)習(xí)建模更精準(zhǔn)地挖掘潛在用戶。
圖3 正負(fù)樣本偏好差異最大的TOP10APP
圖4 正負(fù)樣本偏好差異最大的TOP10行業(yè)
特征選擇的步驟如下。
步驟1,計(jì)算正負(fù)樣本對各個APP 的偏好差異:正樣本中某APP 用戶的比例減去負(fù)樣本中某APP 用戶的比例,選取差異值最大的前30 個APP,如百度貼吧、微云、百度文庫、釘釘?shù)取?/p>
步驟2,將每個APP歸屬到一個行業(yè),共計(jì)73個細(xì)分行業(yè)。按上述方法計(jì)算正負(fù)樣本中對各個行業(yè)的偏好差異:正樣本中某行業(yè)用戶的比例減去負(fù)樣本中某行業(yè)用戶的比例,選取差異值最大的前20 個行業(yè),如教育學(xué)習(xí)、手機(jī)動漫、金融理財(cái)、詞典翻譯等。
步驟3,提取步驟1 中的30 個APP 的用戶流量使用值,步驟2 的20 個行業(yè)中各個行業(yè)使用的APP 個數(shù),以及用戶性別、年齡、終端品牌、月使用流量、產(chǎn)品、月出賬收入等56個因子作為建模的基礎(chǔ)因子。
建模的基礎(chǔ)因子選擇好之后,對因子進(jìn)行進(jìn)一步加工。
2.3.1 連續(xù)變量WOE分箱
WOE 表示證據(jù)權(quán)重,用于衡量各個箱體對目標(biāo)變量的影響度。IV 指標(biāo)基于WOE 計(jì)算,可以反映基于當(dāng)前分箱下,正負(fù)樣本分布之間的差異性,IV 值越大表示差異越大。一般認(rèn)為IV<0.02,變量基于當(dāng)前分箱幾乎沒有貢獻(xiàn);IV<0.5 時,IV 值越大說明分箱效果越好;IV>0.5時,由于表現(xiàn)太好,可能存在“陷阱”,需要再次確認(rèn)變量信息以及分箱數(shù)量是否合適。
本文對年齡、流量、月出賬收入、步驟2 的20 個行業(yè)中各個行業(yè)使用的APP 個數(shù)、30 個APP 的流量值共計(jì)53 個變量進(jìn)行WOE 分箱,通過調(diào)節(jié)分箱個數(shù)和合并箱體的方式令I(lǐng)V 值達(dá)到最大,從而確定分箱。主要實(shí)現(xiàn)步驟如下。
a)將數(shù)據(jù)集D 等頻劃分為10 份,記錄各劃分點(diǎn),計(jì)算不進(jìn)行任何劃分時的IV0。
b)遍歷各劃分點(diǎn),計(jì)算利用各劃分點(diǎn)進(jìn)行二分時的IV 值。此處可選擇設(shè)定箱體樣本個數(shù)的最小值,且必須同時包含正負(fù)樣本,如若不滿足則不在該點(diǎn)劃分,分別計(jì)算IV值,比較得出最大值MAX(IV)。
c)設(shè)定一個閾值BETA,若MAX(IV)>IV0×(1+BETA),則進(jìn)行劃分,且MAX(IV)對應(yīng)的點(diǎn)確定為實(shí)際劃分點(diǎn),小于該劃分點(diǎn)的數(shù)據(jù)集定為DL,大于該點(diǎn)的數(shù)據(jù)集定為DR;若MAX(IV)≤IV0×(1+BETA),則停止。
d)分別令D=DL,D=DR,重復(fù)步驟a、b、c。
以年齡為例進(jìn)行分箱,結(jié)果如表1 所示。IV=0.1,認(rèn)為年齡字段有一定貢獻(xiàn),且在年齡≤24 和35~49 的區(qū)間,WOEi>0,說明該年齡段的用戶更傾向于使用作業(yè)幫APP,由于學(xué)生年齡在7 歲以上,其父母年齡大多在35 歲以上,二胎父母年齡更高,因此分箱結(jié)果可以解釋為孩子用自己手機(jī)或家長手機(jī)使用作業(yè)幫APP,符合現(xiàn)實(shí)意義。
表1 對“年齡”進(jìn)行WOE分箱的結(jié)果
2.3.2 one-hot變換
one-hot 的基本思想是將離散型特征的每一種取值都看成一種狀態(tài),若這一特征中有N個不同的取值,那么本文就可以將該特征抽象成N種不同的狀態(tài),one-hot 編碼保證了每一個取值只會使一種狀態(tài)處于“激活態(tài)”,也就是說這N種狀態(tài)中只有一個狀態(tài)位值為1,其他狀態(tài)值都是0。
本文對分箱后的年齡、流量、月出賬收入變量、行業(yè)數(shù)據(jù)、APP流量、性別、終端品牌、產(chǎn)品數(shù)據(jù)進(jìn)行onehot 變換,從一個權(quán)重變?yōu)槎鄠€權(quán)重,提升模型的非線性能力。
經(jīng)過特征工程后,每條樣本的特征維度擴(kuò)展為319維。
本文將樣本數(shù)據(jù)按7∶2∶1 比例分為3 份,分別作為訓(xùn)練集、驗(yàn)證集、測試集。其中訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于調(diào)節(jié)算法的參數(shù)并對模型效果進(jìn)行初評估,測試集用來評估各模型的泛化能力。本文分別采用邏輯回歸、隨機(jī)森林、GBDT 和LightGBM 4 種算法進(jìn)行建模,其ROC 曲線如圖5 所示,AUC 值分別為0.864 1、0.846 5、0.869 5、0.879 2。相對來說LightGBM模型效果最好。
圖5 各算法模型ROC曲線對比
單純用上述評估指標(biāo)并不能很好地評價精準(zhǔn)營銷模型的應(yīng)用效果,精準(zhǔn)營銷的目標(biāo)是降本增效,本文設(shè)定評判模型效果的標(biāo)準(zhǔn)如下。
a)正樣本的召回率盡可能高。即盡量覆蓋潛在用戶,避免遺漏太多。
b)在相同的召回率下,正樣本的準(zhǔn)確率盡可能高。即在相同的成交用戶下,推廣用戶成本盡量小,即用盡量小的推廣成本獲取最大的用戶轉(zhuǎn)化率。
為了模擬實(shí)際應(yīng)用效果,本文使用沒有參與模型訓(xùn)練的測試數(shù)據(jù)集進(jìn)行評估,圖6 比較了采用各算法模型輸出潛在用戶的應(yīng)用效果。從營銷成本來說,如果轉(zhuǎn)化的用戶數(shù)相同(即正樣本召回率一樣),準(zhǔn)確率越低意味著需要向更多的用戶推廣,即成本越高。圖6 中曲線越往右意味著所需要的推廣成本越低。從效益成果來說,在保證用戶的轉(zhuǎn)化率的前提下,召回率越高意味著銷量越高,即效益越好。圖6 中曲線越往上所產(chǎn)生的效益越好。因此,應(yīng)用效果的優(yōu)劣排序如下:LightGBM≥GBDT>邏輯回歸>隨機(jī)森林。為了比較基于機(jī)器學(xué)習(xí)模型和基于業(yè)務(wù)規(guī)則模型的效果差異,本文增加了基于百度貼吧篩選用戶群和基于教育學(xué)習(xí)類APP 篩選用戶群2個規(guī)則模型?;诮逃龑W(xué)習(xí)類APP 的規(guī)則模型準(zhǔn)確率為0.16,召回率為0.36?;诎俣荣N吧APP 的規(guī)則模型準(zhǔn)確率為0.11,召回率為0.34。規(guī)則模型效果遠(yuǎn)不如機(jī)器學(xué)習(xí)算法模型。
圖6 各算法模型應(yīng)用效果對比
跨界合作是未來運(yùn)營商增加后向收入和提升用戶黏性的重要途徑,而實(shí)現(xiàn)降本增效的關(guān)鍵在于精準(zhǔn)圈選目標(biāo)用戶。與傳統(tǒng)互聯(lián)網(wǎng)公司相比,運(yùn)營商的優(yōu)勢是掌握各個APP 的流量數(shù)據(jù),可以更全面地了解用戶的上網(wǎng)偏好。本文提出運(yùn)營商跨界合作體系構(gòu)建的流程和方法,監(jiān)控?zé)衢T行業(yè)和成長行業(yè),挖掘產(chǎn)品合作商機(jī)。以作業(yè)幫APP 為例,使用邏輯回歸、隨機(jī)森林、GBDT、LightGBM 4 種機(jī)器學(xué)習(xí)算法構(gòu)建潛在用戶模型,AUC值分別為0.864 1、0.846 5、0.869 5、0.879 2,并且從成本和效益2 個維度分析得出LightGBM 模型效果最好的結(jié)論,且機(jī)器學(xué)習(xí)模型優(yōu)于基于百度貼吧和基于教育學(xué)習(xí)類APP 的業(yè)務(wù)規(guī)則模型。本文的處理流程和方法可以推廣至其他APP的潛在用戶挖掘。