亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)金融企業(yè)用戶(hù)流失預(yù)測(cè)特征提取方式對(duì)比研究

        2018-12-17 11:36:04,
        預(yù)測(cè) 2018年6期
        關(guān)鍵詞:日志樣本預(yù)測(cè)

        ,

        (中國(guó)科學(xué)院大學(xué) 經(jīng)濟(jì)與管理學(xué)院,北京 100190)

        1 引言

        近年,互聯(lián)網(wǎng)金融經(jīng)過(guò)快速發(fā)展,用戶(hù)流失問(wèn)題變得與銀行業(yè)和電信業(yè)類(lèi)成熟型行業(yè)一樣越來(lái)越重要。一是因?yàn)榫珳?zhǔn)的用戶(hù)流失預(yù)測(cè)能為企業(yè)制定用戶(hù)策略提供有效的決策依據(jù)甚至是決策方案;二是因?yàn)楂@取用戶(hù)的成本是留住用戶(hù)成本的5倍以上。在行業(yè)競(jìng)爭(zhēng)越來(lái)越激烈的情況下,有效的用戶(hù)管理是一柄重要的競(jìng)爭(zhēng)利劍,影響企業(yè)生存。目前互聯(lián)網(wǎng)金融企業(yè)正面臨用戶(hù)獲取成本高和用戶(hù)流失率高等問(wèn)題,所以如何提高用戶(hù)流失預(yù)測(cè)的效果,從而在用戶(hù)管理方面提高資金利用率是一個(gè)值得研究的問(wèn)題。一些學(xué)者的研究為企業(yè)在用戶(hù)流失方面提高資金利用率提供了理論支持,如Bhattacharya[1], Athanassopoulos[2], Slater和Narver[3]發(fā)現(xiàn):獲取一個(gè)新用戶(hù)的成本是留住一個(gè)老用戶(hù)成本的5到6倍甚至更多;He等[4]的研究提到:哈佛商業(yè)評(píng)論研究表明降低5%的用戶(hù)流失率能夠提升25%到85%的企業(yè)利潤(rùn)。

        用戶(hù)流失預(yù)測(cè)效果好壞主要取決于特征變量的好壞。特征提取和選擇的相關(guān)研究主要聚焦在特征工程方面,如:Titele[5]通過(guò)從用戶(hù)的個(gè)人信息、信用卡信息、風(fēng)險(xiǎn)信息和交易信息為用戶(hù)流失預(yù)測(cè)模型設(shè)計(jì)了135個(gè)變量;Huang等[6]提出了一種多目標(biāo)特征選擇方式;Castro和Tsuzuki[7]通過(guò)TFPD方式提取游戲類(lèi)用戶(hù)的日志行為特征從而對(duì)用戶(hù)的流失行為進(jìn)行預(yù)測(cè);Coussement和Poel, Coussement等[8,9]通過(guò)對(duì)某電信企業(yè)的研究揭示數(shù)據(jù)展現(xiàn)形式對(duì)流失預(yù)測(cè)的影響;周靜等[10]運(yùn)用社交網(wǎng)絡(luò)分析方法,通過(guò)構(gòu)造與網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的變量進(jìn)行影響因素的探討,運(yùn)用LR方法構(gòu)建客戶(hù)流失預(yù)警模型。本文主要采用RFM(recency-frequency-monetary)和TFPD(time-frequency plane domain)方法提取特征。RFM是一個(gè)經(jīng)典的基于用戶(hù)生命價(jià)值理論研究用戶(hù)行為的模型,以零售業(yè)為例,該模型提取用戶(hù)的最近購(gòu)買(mǎi)時(shí)間、消費(fèi)頻率以及消費(fèi)金額三類(lèi)數(shù)據(jù)來(lái)衡量用戶(hù)對(duì)企業(yè)的忠誠(chéng)度和購(gòu)買(mǎi)力,相關(guān)研究[11,12]以及拓展研究[13~16]較多。Castro和Tsuzuki[7]提出TFPD方法用于提取特征的趨勢(shì)信息,其研究結(jié)果表明該類(lèi)方法應(yīng)用于在線游戲領(lǐng)域用戶(hù)流失預(yù)測(cè)問(wèn)題可比RFM方法平均提升23%的企業(yè)收益。

        用戶(hù)流失預(yù)測(cè)文獻(xiàn)資料豐富,包含管理學(xué)方面的文獻(xiàn)[17~20]和計(jì)算機(jī)科學(xué)方面的文獻(xiàn)[21~24],研究領(lǐng)域主要為電信業(yè)和銀行業(yè),其中互聯(lián)網(wǎng)金融領(lǐng)域用戶(hù)流失預(yù)測(cè)問(wèn)題的研究較少,且尚未發(fā)現(xiàn)基于用戶(hù)基本信息、日志行為和交易類(lèi)信息這三類(lèi)能較全面刻畫(huà)用戶(hù)特征的數(shù)據(jù)進(jìn)行流失預(yù)測(cè)的相關(guān)研究,本研究將基于這三類(lèi)數(shù)據(jù)展開(kāi)。且相關(guān)文獻(xiàn)較少涉及針對(duì)用戶(hù)的行為類(lèi)數(shù)據(jù)和交易類(lèi)數(shù)據(jù)系統(tǒng)考慮特征提取的優(yōu)化方案,本文通過(guò)RFM和TFPD兩類(lèi)方法針對(duì)相關(guān)數(shù)據(jù)提取特征,并對(duì)兩類(lèi)特征提取方式在不同數(shù)據(jù)類(lèi)型和模型上的表現(xiàn)進(jìn)行評(píng)估,從而為用戶(hù)流失管理提供建模技術(shù)和管理兩方面的啟示。

        2 基于RFM和TFPD特征的用戶(hù)流失預(yù)測(cè)模型與方法

        2.1 數(shù)據(jù)和特征

        本文研究對(duì)象是案例企業(yè)賬齡3個(gè)月以上的最后一筆定期到期用戶(hù),針對(duì)該類(lèi)用戶(hù)群體,本研究采用案例企業(yè)的流失用戶(hù)定義:最后一筆定期到期后若持續(xù)30天以上平臺(tái)資金量小于150元?jiǎng)t為流失用戶(hù)。據(jù)此,本研究的流失用戶(hù)標(biāo)記依據(jù)為:以用戶(hù)最后一筆定期到期日(定期購(gòu)買(mǎi)時(shí)間2016年10月31日之前)為開(kāi)始日期,到統(tǒng)計(jì)日期2016年12月31號(hào)截止,如果一個(gè)用戶(hù)此期間連續(xù)30天以上賬戶(hù)總金額小于150元?jiǎng)t被認(rèn)為是流失用戶(hù)。

        本文研究數(shù)據(jù)包含用戶(hù)的基本信息、日志行為信息和交易信息。為對(duì)RFM和TFPD特征提取方式進(jìn)行對(duì)比,基于以上數(shù)據(jù)的特征分成三類(lèi):一是基本信息,包含用戶(hù)的性別、年齡、所在城市等級(jí)等人口學(xué)信息和活期定期投資金額等不通過(guò)RFM和TFPD方式提取的交易和行為信息;二是日志行為信息提取的RFM和TFPD類(lèi)特征,日志行為信息包含用戶(hù)對(duì)企業(yè)移動(dòng)端app頁(yè)面的訪問(wèn)日志;三是交易類(lèi)信息提取的RFM和TFPD類(lèi)特征,交易信息包含用戶(hù)在企業(yè)移動(dòng)端app轉(zhuǎn)入資金、購(gòu)買(mǎi)理財(cái)產(chǎn)品、贖回資金等信息。

        本研究共獲得13831名符合條件的用戶(hù)作為樣本數(shù)據(jù),其中4507名為流失用戶(hù),9324名為留存用戶(hù),流失率32.6%。以上數(shù)據(jù)隨機(jī)選取70%采用五倍交叉驗(yàn)證法同時(shí)作為分類(lèi)器的訓(xùn)練集和測(cè)試集,通過(guò)網(wǎng)格搜索確定分類(lèi)器的最佳參數(shù),另30%數(shù)據(jù)作為驗(yàn)證集衡量分類(lèi)器在新樣本上的表現(xiàn)。另外該數(shù)據(jù)集類(lèi)別分布不均衡,本文采用代價(jià)敏感參數(shù)法對(duì)少數(shù)類(lèi)別進(jìn)行補(bǔ)償。對(duì)不平衡數(shù)據(jù)的處理方法將作為未來(lái)工作,本文不再討論。

        2.1.1 基本特征

        表1 用戶(hù)的基本特征及其解釋

        案例企業(yè)提供了19個(gè)運(yùn)營(yíng)環(huán)境下與用戶(hù)流失關(guān)系密切的變量供參考,這些變量包含用戶(hù)人口學(xué)特征、行為特征和交易特征。表1展示了這些特征及其對(duì)應(yīng)的解釋?zhuān)喝丝趯W(xué)特征包含用戶(hù)的年齡、性別等信息;交易類(lèi)特征包含用戶(hù)優(yōu)惠券的使用率和定期投資總額等信息;行為類(lèi)信息包含用戶(hù)最后一次登錄到統(tǒng)計(jì)截止日的時(shí)間差等信息。

        2.1.2 RFM和TFPD類(lèi)特征

        RFM和TFPD是兩種對(duì)時(shí)間序列格式的數(shù)據(jù)進(jìn)行信息提取的方法。RFM中R代表用戶(hù)最近一次購(gòu)買(mǎi)時(shí)間距統(tǒng)計(jì)截止日天數(shù);F代表用戶(hù)某一行為在統(tǒng)計(jì)時(shí)間范圍內(nèi)發(fā)生的頻率;M代表用戶(hù)在統(tǒng)計(jì)時(shí)間范圍內(nèi)付出的成本(金錢(qián)、時(shí)間等)。本研究的RFM特征提取方式為:通過(guò)對(duì)M變量求F的均值得到R時(shí)間范圍內(nèi)的平均值特征,如:R-最后一筆定期到期前一周,F(xiàn)-用戶(hù)訪問(wèn)移動(dòng)端app頻率為5次,M-總訪問(wèn)時(shí)長(zhǎng)為40秒,則RFM變量為用戶(hù)最后一筆定期到期前一周每次訪問(wèn)app平均時(shí)長(zhǎng)8秒。TFPD是Castro和Tsuzuki[7]提出的一種頻數(shù)分析法,首先使用小波分解(wavelet packet decomposition schema)獲得變量每一時(shí)間段的頻數(shù)信息,然后將按時(shí)間順序排列的頻數(shù)類(lèi)數(shù)據(jù)每?jī)蓪?duì)分別相加和相減求均值將數(shù)據(jù)分成父類(lèi)和母類(lèi)因素,對(duì)父類(lèi)和母類(lèi)因素分別重復(fù)上述操作直到父類(lèi)和母類(lèi)因素?zé)o法再按相同的方式進(jìn)行分割。TFPD法通過(guò)對(duì)成對(duì)變量的加和求均值和相減求均值實(shí)現(xiàn)對(duì)變量短期變化趨勢(shì)的捕捉。

        交易和日志行為數(shù)據(jù)均通過(guò)RFM和TFPD方法提取特征。交易數(shù)據(jù)為用戶(hù)在平臺(tái)的資產(chǎn)總額即資金存量信息,日志行為數(shù)據(jù)為用戶(hù)登錄app頻率以及對(duì)收益類(lèi)頁(yè)面的平均訪問(wèn)時(shí)長(zhǎng)。其中交易信息的時(shí)間窗口為用戶(hù)最后一筆定期到期前推16周(TFPD算法收斂的條件是時(shí)間周期為2n),統(tǒng)計(jì)用戶(hù)16周內(nèi)每周在該企業(yè)移動(dòng)端理財(cái)app的資金平均存量。由于行為數(shù)據(jù)時(shí)間有效性較短,時(shí)間窗口設(shè)置為用戶(hù)最后一筆定期到期前推8周,統(tǒng)計(jì)用戶(hù)每周訪問(wèn)APP平均時(shí)長(zhǎng)和收益類(lèi)頁(yè)面平均訪問(wèn)時(shí)長(zhǎng)。

        2.2 分類(lèi)模型及其效果評(píng)估方法

        本研究使用二分類(lèi)模型對(duì)企業(yè)用戶(hù)是否流失進(jìn)行預(yù)測(cè),包含LR、RF和SVM三類(lèi)二分類(lèi)算法。對(duì)于每一個(gè)用戶(hù),二分類(lèi)模型會(huì)根據(jù)其特征產(chǎn)生一個(gè)0到1范圍內(nèi)的概率值用以表示一個(gè)用戶(hù)為流失用戶(hù)的概率,本研究中當(dāng)概率值大于0.5時(shí),用戶(hù)為流失用戶(hù),否則為留存用戶(hù)。以用戶(hù)流失與否的實(shí)際情況為參照,根據(jù)分類(lèi)模型對(duì)用戶(hù)流失概率的預(yù)測(cè)可計(jì)算用以衡量模型分類(lèi)準(zhǔn)確度的AUC值,根據(jù)模型對(duì)用戶(hù)流失與否的判斷可獲得分類(lèi)模型混淆矩陣,進(jìn)一步計(jì)算分類(lèi)的精準(zhǔn)度和召回率。

        2.2.1 分類(lèi)模型

        本文的流失預(yù)測(cè)模型中,假設(shè)樣本為{X,Y}n,則:目標(biāo)變量Y為用戶(hù)是否流失,Y=1表示流失用戶(hù),Y=0表示非流失用戶(hù);X為m維的樣本特征向量;n表示樣本數(shù)。

        LR算法是比較常用的二分類(lèi)算法,具有速度快、簡(jiǎn)單易理解等優(yōu)點(diǎn),適合處理線性可分的二分類(lèi)問(wèn)題。在LR模型中,用戶(hù)被預(yù)測(cè)為流失用戶(hù)的概率如(1)式所示,其中wi為通過(guò)樣本學(xué)習(xí)的邏輯回歸對(duì)應(yīng)變量的最優(yōu)參數(shù),對(duì)于本研究P(Y=1|x)>0.5,則用戶(hù)被判定為流失否則為留存用戶(hù)。

        (1)

        SVM算法可以通過(guò)核函數(shù)將特征映射到高維空間解決線性不可分問(wèn)題,在處理小樣本、非線性和高維模式識(shí)別中具有優(yōu)勢(shì)。SVM可以通過(guò)支持向量構(gòu)造最優(yōu)分類(lèi)平面將正負(fù)樣本分開(kāi),超平面的公式為wx+b=0,SVM通過(guò)優(yōu)化問(wèn)題(2~3)確定超平面參數(shù)向量w和b,其中ξi和C是為了解決線性不可分問(wèn)題引入的松弛變量及其系數(shù),允許數(shù)據(jù)點(diǎn)在一定程度上偏離超平面。對(duì)于本研究若wx+b>0,則用戶(hù)被判斷為流失用戶(hù)否則為留存用戶(hù)。

        (2)

        subjectto:yi·(w·x+b)≥1-ξi?i,ξi≥0

        (3)

        RF是由眾多決策樹(shù)組合而成的分類(lèi)器,具有準(zhǔn)確率高、學(xué)習(xí)過(guò)程快等優(yōu)點(diǎn)。RF算法的輸出結(jié)果由全體決策樹(shù)投票決定。決策樹(shù)的核心算法為分裂規(guī)則,常用算法有ID3、C4.5和Gini系數(shù)。本研究選取目前最通用的Gini系數(shù)作為分裂規(guī)則,如(4)式所示,分裂規(guī)則可計(jì)算每次分裂不同特征的重要性和最優(yōu)分裂點(diǎn),如(5)式所示,其中A表示特征,k表示A特征的類(lèi)別數(shù),如性別特征k=2,D表示計(jì)算該特征Gini指數(shù)時(shí)劃分樣本的樣本數(shù)。通過(guò)(4)式和(5)式可以確定一顆決策樹(shù),對(duì)于隨機(jī)森林而言,可通過(guò)隨機(jī)選擇總樣本的多個(gè)子集、所有特征的多個(gè)子集訓(xùn)練多顆決策樹(shù),新的樣本則根據(jù)多顆決策樹(shù)從訓(xùn)練樣本中學(xué)習(xí)到的規(guī)則進(jìn)行投票分類(lèi)。

        (4)

        (5)

        2.2.2 分類(lèi)模型效果評(píng)估

        二分類(lèi)預(yù)測(cè)模型效果評(píng)估常用指標(biāo)包含準(zhǔn)確率、召回率、精確度、F-score和AUC(the area under ROC curve)。其中準(zhǔn)確率、召回率等指標(biāo)要求樣本為平衡數(shù)據(jù),因?yàn)楸狙芯坎捎玫氖遣黄胶鈹?shù)據(jù),所以對(duì)比RFM和TFPD特征提取方式的流失預(yù)測(cè)效果時(shí)采取AUC作為評(píng)價(jià)指標(biāo);最終模型效果解釋選擇精確度、召回率和混淆矩陣三類(lèi)指標(biāo)。

        ROC(receiver operating characteristic)曲線用于衡量分類(lèi)模型區(qū)分好壞樣本的能力[25],通常用AUC即ROC曲線下的面積表示分類(lèi)器性能好壞,AUC越大,分類(lèi)器效果越理想?;煜仃囀强梢暬诸?lèi)器在正負(fù)樣本上具體表現(xiàn)的工具,矩陣的每列代表類(lèi)的預(yù)測(cè)值,每行代表類(lèi)的實(shí)際值。TP表示分類(lèi)器將實(shí)際流失用戶(hù)預(yù)測(cè)為流失用戶(hù)的數(shù)量;FN表示將實(shí)際流失用戶(hù)預(yù)測(cè)為留存用戶(hù)的數(shù)量;FP表示實(shí)際為留存用戶(hù)預(yù)測(cè)為流失用戶(hù)的數(shù)量;TN表示實(shí)際為留存用戶(hù)預(yù)測(cè)為留存用戶(hù)的數(shù)量。通過(guò)混淆矩陣可分別計(jì)算正負(fù)樣本分類(lèi)的精確度和召回率,以正樣本為例:精確度指預(yù)測(cè)結(jié)果為正樣本時(shí)預(yù)測(cè)正確的比例,計(jì)算公式為T(mén)P/(TP+FP),召回率指預(yù)測(cè)結(jié)果為正樣本且實(shí)際為正樣本占實(shí)際正樣本的比例,計(jì)算公式為T(mén)P/(TP+FN)。

        3 結(jié)果分析與討論

        本研究首先使用RFM和TFPD方法從用戶(hù)的日志行為信息和交易信息中提取特征,包含RFM類(lèi)日志行為特征、RFM類(lèi)交易特征、TFPD類(lèi)日志行為特征和TFPD類(lèi)交易特征;然后利用以上特征建立不同的流失預(yù)測(cè)模型,模型使用LR、RF和SVM三類(lèi)算法,對(duì)案例企業(yè)最后一筆定期到期用戶(hù)流失與否進(jìn)行預(yù)測(cè),以0.5為用戶(hù)流失與否的判斷標(biāo)準(zhǔn),即流失概率大于0.5為流失用戶(hù),否則為留存用戶(hù);最后以AUC作為上述模型優(yōu)劣的評(píng)價(jià)指標(biāo),模型結(jié)果如表2所示。

        通過(guò)表2對(duì)比三類(lèi)模型五倍交叉驗(yàn)證的AUC評(píng)分可以發(fā)現(xiàn):對(duì)比日志行為信息beh_TFPD和beh_RFM在三類(lèi)模型上的表現(xiàn),beh_RFM的AUC均值均大于beh_TFPD的AUC均值,因而針對(duì)日志行為類(lèi)信息通過(guò)RFM方式提取特征建模優(yōu)于TFPD方式;對(duì)比交易類(lèi)信息trade_TFPD和trade_RFM在三類(lèi)模型上的表現(xiàn),對(duì)于RF和SVM算法,trade_TFPD的AUC均值大于trade_RFM的AUC均值,此時(shí)交易類(lèi)信息通過(guò)TFPD方式提取特征建模優(yōu)于RFM方式,而LR算法的結(jié)論與之相反?;谝陨厦枋?,本研究的數(shù)據(jù)對(duì)于基于LR算法的流失預(yù)測(cè)模型以RFM方式提取交易特征,基于RF和SVM算法的流失預(yù)測(cè)模型以TFPD方式提取交易特征,RFM提取行為特征較為合理。

        表2 各分類(lèi)模型結(jié)果數(shù)據(jù)

        最后,本研究以用戶(hù)基本特征、RFM方式構(gòu)建的交易特征和行為特征訓(xùn)練基于LR算法的流失預(yù)測(cè)模型,以用戶(hù)基本特征、TFPD方式構(gòu)建的交易特征以及RFM方式構(gòu)建的行為特征訓(xùn)練基于RF和SVM算法的流失預(yù)測(cè)模型,過(guò)程與各類(lèi)特征單獨(dú)建模一致,從精確度、召回率以及AUC三類(lèi)指標(biāo)衡量模型在驗(yàn)證集上的表現(xiàn),包含精確度、召回率和AUC的評(píng)價(jià)結(jié)果如表3所示。

        表3 流失預(yù)測(cè)模型分類(lèi)結(jié)果

        從表3可以看出用戶(hù)流失預(yù)測(cè)模型對(duì)流失用戶(hù)的預(yù)測(cè)效果:基于LR算法的模型召回率最大為0.75,預(yù)測(cè)出的流失用戶(hù)包含75%真正會(huì)流失的用戶(hù);基于RF算法的模型精確度最高為0.78,能以78%的準(zhǔn)確性預(yù)測(cè)出流失用戶(hù),優(yōu)于隨機(jī)猜測(cè)的30%。以上結(jié)果是以閾值0.5為流失與否判斷依據(jù),實(shí)際運(yùn)營(yíng)環(huán)境下,可以根據(jù)企業(yè)的業(yè)務(wù)需求判斷哪一類(lèi)指標(biāo)更重要,調(diào)高閾值以提高精確度,調(diào)低閾值以提高召回率?,F(xiàn)假設(shè)案例企業(yè)最后一筆定期到期用戶(hù)1000名,這些用戶(hù)的流失率為30%,現(xiàn)需要采取行動(dòng)避免用戶(hù)流失。如果企業(yè)不了解這些用戶(hù)具體流失傾向,一是對(duì)1000名用戶(hù)均采取運(yùn)營(yíng)優(yōu)惠活動(dòng)挽留可能流失用戶(hù);二是不采取任何措施放棄將會(huì)流失的用戶(hù)。在企業(yè)不了解用戶(hù)具體流失傾向時(shí)采取行動(dòng)將變得缺乏目標(biāo)且成本巨大。如果企業(yè)對(duì)用戶(hù)進(jìn)行流失預(yù)測(cè),預(yù)測(cè)具體的流失用戶(hù)群體,以基于RF算法的模型為例對(duì)流失預(yù)測(cè)分類(lèi)器的效果進(jìn)行解釋?zhuān)没煜仃囌故灸P托Ч绫?所示。

        表4 基于運(yùn)營(yíng)假設(shè)的混淆矩陣

        從表4看出,1000名用戶(hù)中實(shí)際流失用戶(hù)為336名,流失率33.6%,其中模型預(yù)測(cè)總共245名用戶(hù)為流失用戶(hù),預(yù)測(cè)正確191名,預(yù)測(cè)正確率為78%,召回率57%。運(yùn)營(yíng)環(huán)境下,案例企業(yè)本需對(duì)1000名用戶(hù)都采取策略從而挽留即將流失的用戶(hù),但通過(guò)該流失預(yù)測(cè)模型,案例企業(yè)可針對(duì)模型預(yù)測(cè)的245名流失用戶(hù)采取挽留策略。與對(duì)1000名用戶(hù)采取相同的挽留策略相比,對(duì)預(yù)測(cè)為流失的245名用戶(hù)以及根據(jù)其流失可能性的大小采取不同程度的挽留策略能為企業(yè)節(jié)省可觀的用戶(hù)關(guān)系維護(hù)成本。實(shí)際運(yùn)營(yíng)環(huán)境下,案例企業(yè)可根據(jù)用戶(hù)維系的目標(biāo)選擇具有不同表現(xiàn)的模型,如果傾向于留住更多用戶(hù)則可使用召回率較高的LR模型;如果更傾向于降低用戶(hù)關(guān)系維系成本則可使用精確度較高的RF模型。

        4 結(jié)論與啟示

        用戶(hù)流失預(yù)測(cè)的技術(shù)相對(duì)成熟,本文認(rèn)為優(yōu)秀的流失預(yù)測(cè)方案有兩個(gè)重要的因素:一是對(duì)具體流失問(wèn)題的認(rèn)知程度;二是數(shù)據(jù)的質(zhì)量和從中提取的信息量。本文以互聯(lián)網(wǎng)金融企業(yè)用戶(hù)流失問(wèn)題為背景,通過(guò)案例企業(yè)的真實(shí)用戶(hù)數(shù)據(jù)研究用戶(hù)流失預(yù)測(cè)建模問(wèn)題,針對(duì)互聯(lián)網(wǎng)金融用戶(hù)的流失特點(diǎn),選取用戶(hù)基本信息、日志行為信息以及交易信息中對(duì)用戶(hù)流失有預(yù)判作用的信息作為建模數(shù)據(jù),其中基本信息一定程度上刻畫(huà)用戶(hù)的人口學(xué)特征,如年齡、學(xué)歷和投資偏好等;用戶(hù)的交易信息可刻畫(huà)用戶(hù)的投資偏好和傾向,如購(gòu)買(mǎi)量的變化;用戶(hù)的日志行為類(lèi)信息則刻畫(huà)用戶(hù)的投資態(tài)度,如對(duì)平臺(tái)收益的關(guān)注度,這些信息組合在一起可以大致知道用戶(hù)是否有投資意愿、目前在平臺(tái)投資的資金是增加還是減少以及對(duì)自己的投資產(chǎn)品或其他產(chǎn)品的關(guān)注程度等。針對(duì)以上數(shù)據(jù),本文進(jìn)一步比較不同的特征提取方式優(yōu)劣,采用RFM和TFPD兩類(lèi)方法從行為數(shù)據(jù)和交易數(shù)據(jù)中分別提取特征,對(duì)比兩類(lèi)特征提取方法在不同數(shù)據(jù)即日志行為數(shù)據(jù)和交易數(shù)據(jù)與不同模型即LR、RF和SVM上的表現(xiàn),發(fā)現(xiàn)對(duì)于LR模型RFM提取的特征表現(xiàn)優(yōu)于TFPD,對(duì)于RF和SVM模型,行為類(lèi)信息通過(guò)RFM提取特征表現(xiàn)優(yōu)于TFPD,交易類(lèi)信息通過(guò)TFPD提取特征表現(xiàn)優(yōu)于RFM;最后本文將用戶(hù)流失預(yù)測(cè)模型應(yīng)用于企業(yè)的用戶(hù)流失管理過(guò)程,可幫助企業(yè)定位潛在流失用戶(hù),為其開(kāi)展對(duì)應(yīng)的流失用戶(hù)挽留策略提供數(shù)據(jù)支持。本研究旨在為用戶(hù)流失管理提供建模技術(shù)和管理兩方面的啟示,流失建模技術(shù)方面可為數(shù)據(jù)類(lèi)型選擇和特征提取方式提供參考思路與方案;流失管理啟示方面,本研究的研究成果首先可為企業(yè)定位流失用戶(hù)群體從而提升運(yùn)營(yíng)效率,其次可依據(jù)用戶(hù)流失的概率大小差異化設(shè)計(jì)用戶(hù)關(guān)系維系成本節(jié)省企業(yè)預(yù)算。未來(lái)我們將對(duì)用戶(hù)行為和交易信息的特征處理進(jìn)行更深入的分析與研究,一方面研究更多基于數(shù)據(jù)類(lèi)型的特征提取方式,另一方面嘗試挖掘數(shù)據(jù)類(lèi)型與適用特征提取方式背后的聯(lián)系機(jī)理,以取得更好的預(yù)測(cè)效果和更有深度的發(fā)現(xiàn)。

        猜你喜歡
        日志樣本預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        一名老黨員的工作日志
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
        游學(xué)日志
        不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        国产乱淫h侵犯在线观看| 国产精品无码素人福利不卡| 电影内射视频免费观看| 国产成人无码精品久久二区三区| 99久久人妻精品免费二区| 亚洲一本大道无码av天堂| 亚洲ⅤA中文字幕无码| 国产精品无码mv在线观看 | 久久久一本精品久久久一本| 日本韩国三级在线观看| 一本大道道久久综合av| 999国产精品999久久久久久| www插插插无码视频网站| 婷婷五月综合缴情在线视频| 中文字幕在线亚洲日韩6页手机版 亚洲色图+国产精品 | 未发育成型小奶头毛片av| 免费a级毛片无码无遮挡| 国产精品每日更新在线观看| 中文字幕文字幕一区二区| 国产精品久久久爽爽爽麻豆色哟哟| 一本久久a久久精品亚洲| 成人免费无码a毛片| 亚洲一区二区三区综合网| 中文字幕日韩高清乱码| 亚洲av色香蕉一区二区三区老师| 人人爽人人爱| 思思久久96热在精品不卡| 精品国产97av一区二区三区| 日韩精品人妻中文字幕有码在线| 中文字幕免费不卡二区| 亚洲Va中文字幕久久无码一区| 国产精品一区二区三区色| 在线观看的a站免费完整版| 欧美群妇大交群| 亚洲熟妇av日韩熟妇在线| 好爽…又高潮了毛片免费看| 91华人在线| 日本国产一区在线观看| 无码一区二区三区| 欧美黑吊大战白妞| 国产精品刺激好大好爽视频|