亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹(shù)自動(dòng)化特征選擇的基金客戶流失預(yù)測(cè)研究
        ——后疫情時(shí)代下的思考

        2020-09-10 02:23:28董紀(jì)陽(yáng)
        山東社會(huì)科學(xué) 2020年9期
        關(guān)鍵詞:決策樹(shù)樣本客戶

        董紀(jì)陽(yáng)

        (東北財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,遼寧 大連 116023)

        一、問(wèn)題的提出:后疫情時(shí)代下的基金交易與客戶流失

        客戶是企業(yè)盈利的源泉,客戶的忠誠(chéng)度與客戶關(guān)系的維持是各企業(yè)爭(zhēng)奪競(jìng)爭(zhēng)優(yōu)勢(shì)的焦點(diǎn)。自20世紀(jì)60年代,以客戶為中心便成為企業(yè)經(jīng)營(yíng)的主旨。進(jìn)入21世紀(jì),全球歷經(jīng)了兩次大的世界性金融危機(jī)以及數(shù)次公共衛(wèi)生事件的沖擊,其“蝴蝶效應(yīng)”仍在加劇,人類已經(jīng)步入“新全球危機(jī)時(shí)代”。特別是2020年初暴發(fā)的新冠病毒肺炎疫情,給金融業(yè)發(fā)展帶來(lái)了新的困難和挑戰(zhàn),當(dāng)疫情跨地域跨國(guó)界蔓延時(shí),其所致危機(jī)的復(fù)雜性更增加了經(jīng)濟(jì)前景的不確定性。后疫情時(shí)代,以數(shù)字營(yíng)銷為代表的數(shù)字經(jīng)濟(jì)將成為發(fā)展主流,利用AI技術(shù)提供精準(zhǔn)客戶數(shù)據(jù)分析,時(shí)刻抓住客戶的動(dòng)態(tài),將為企業(yè)行為模式上爭(zhēng)取領(lǐng)先地位??蛻袅魇Ч芾硎强蛻絷P(guān)系管理的重要環(huán)節(jié),如何預(yù)判哪些客戶有流失傾向,分析他們的流失原因,及時(shí)采取措施加以挽留意義重大。

        客戶流失預(yù)測(cè)一般指有針對(duì)性地對(duì)與當(dāng)前公司表現(xiàn)出結(jié)束商業(yè)關(guān)系傾向的客戶進(jìn)行計(jì)算機(jī)化搜索和識(shí)別。近年來(lái)蓬勃發(fā)展的計(jì)算硬件與機(jī)器學(xué)習(xí)算法推動(dòng)了客戶流失預(yù)測(cè)算法在電信、銀行、保險(xiǎn)等應(yīng)用場(chǎng)景的廣泛應(yīng)用,模型取得的斐然效果給企業(yè)帶來(lái)了巨大收益,客戶流失預(yù)測(cè)成為機(jī)器學(xué)習(xí)的重要應(yīng)用方向??蛻袅魇ьA(yù)測(cè)有著重大商用前景和學(xué)術(shù)價(jià)值,很多學(xué)者以客戶或交易記錄為數(shù)據(jù)集,運(yùn)用多種機(jī)器學(xué)習(xí)方法展開(kāi)了系列研究:Ganesh J等用SMOTE算法進(jìn)行數(shù)據(jù)均衡,選用決策樹(shù)模型對(duì)信用卡數(shù)據(jù)進(jìn)行客戶流失挖掘(1)Ganesh J,Arnold M J,Reynolds,K.E.Understanding the Customer Base of Service Providers:An Examination of the Differences Between Switchers and Stayers,in Journal of Marketing, 2000,pp.65-87.;Hung等使用反向傳播算法對(duì)臺(tái)灣某通信公司的客戶數(shù)據(jù)進(jìn)行流失預(yù)測(cè),論證了在各細(xì)分市場(chǎng)上建模的效果比在全部市場(chǎng)上更為準(zhǔn)確(2)Ha H,The moderating roles of status of B2B evaluator and dependence in the switching costs-switching intentions-performance causal chain in Korea,Asia Pacific Business Review,2017,pp.420-437.;還有學(xué)者使用基于粒子群優(yōu)化(PSO)的欠采樣與降維技術(shù)處理不平衡數(shù)據(jù),構(gòu)建隨機(jī)森林模型對(duì)通信行業(yè)的流失預(yù)測(cè)模型。(3)Kumar V,Reinartz W,Creating Enduring Customer Value,in Journal of Marketing,2016,PP36-68.

        流失預(yù)測(cè)問(wèn)題大都可以轉(zhuǎn)化成二分類問(wèn)題,分類預(yù)測(cè)模型本身的思想和應(yīng)用在后續(xù)的建模與評(píng)估上與“客戶預(yù)測(cè)”這個(gè)應(yīng)用場(chǎng)景關(guān)聯(lián)并不大。基于分類系統(tǒng)的客戶流失預(yù)測(cè)模型的效率依賴于對(duì)可用數(shù)據(jù)集的學(xué)習(xí)策略。適當(dāng)?shù)念A(yù)處理數(shù)據(jù)集有助于分類器達(dá)到所需的精度,最終獲得理想的性能(4)張線媚:《數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測(cè)中的應(yīng)用》,《微型機(jī)與應(yīng)用》2015年第15期。?;鸸就ㄟ^(guò)獲取大量客戶信息來(lái)歸檔數(shù)據(jù),遺憾的是此類數(shù)據(jù)具有維度高與特征分布嚴(yán)重失衡的特點(diǎn),流失客戶數(shù)量通常與非流失客戶相比要少得多,從而導(dǎo)致數(shù)據(jù)集不平衡。高質(zhì)量的數(shù)據(jù)預(yù)處理對(duì)模型效果影響重大,在流失預(yù)測(cè)場(chǎng)景中常用的方法有數(shù)據(jù)均衡、人工特征選擇、缺失值處理、特征降維等。人工特征選擇的方法有較大主觀性,本文在前人研究的基礎(chǔ)上,使用決策樹(shù)的方法進(jìn)行特性選擇,運(yùn)用邏輯回歸算法對(duì)流失預(yù)測(cè)的效果進(jìn)行實(shí)驗(yàn)和對(duì)比評(píng)估,以期為后續(xù)相關(guān)研究提供參考。

        二、客戶流失預(yù)測(cè)模型構(gòu)建的流程

        對(duì)于一般機(jī)器學(xué)習(xí),分類預(yù)測(cè)的流程通常需要數(shù)據(jù)錄入、數(shù)據(jù)清洗、特征提取、特征篩選、模型訓(xùn)練、模型評(píng)估等步驟。數(shù)據(jù)清洗主要是將從信息系統(tǒng)中導(dǎo)出的數(shù)據(jù)進(jìn)行一定程度處理,去除不標(biāo)準(zhǔn)數(shù)據(jù)和一些無(wú)用、雜亂的數(shù)據(jù)。特征提取、特征篩選用于提取能夠體現(xiàn)數(shù)據(jù)特點(diǎn)的特征,模型訓(xùn)練主要是將數(shù)據(jù)提供給模型算法,讓模型能夠?qū)W習(xí)到一組參數(shù),模型評(píng)估用來(lái)對(duì)模型的準(zhǔn)確程度給予評(píng)價(jià),看模型是否達(dá)到了一定的指標(biāo)。

        1.數(shù)據(jù)獲取與數(shù)據(jù)清洗

        在面向某個(gè)領(lǐng)域的數(shù)據(jù)分析任務(wù)時(shí),首先需要確定能夠獲取的數(shù)據(jù)和數(shù)據(jù)的格式,這是數(shù)據(jù)分析的起點(diǎn),之后針對(duì)每條數(shù)據(jù)來(lái)確定是否有確定的標(biāo)簽,如果有,就屬于有監(jiān)督學(xué)習(xí);如果沒(méi)有,則屬于非監(jiān)督學(xué)習(xí)。再進(jìn)而確定是監(jiān)督、非監(jiān)督學(xué)習(xí)中的哪個(gè)具體的算法,或者歸為某種具體的經(jīng)典數(shù)學(xué)問(wèn)題。(5)盧美琴、吳傳威:《大數(shù)據(jù)背景下商業(yè)銀行貴賓客戶流失的組合預(yù)測(cè)研究》,《電子商務(wù)》2019年第6期。

        在數(shù)據(jù)獲取上要充分考慮數(shù)據(jù)的量級(jí),如果數(shù)據(jù)量過(guò)大,可以考慮采用抽樣來(lái)縮減處理的數(shù)據(jù)量,用樣本代替整體;考慮后續(xù)特征抽取的數(shù)量,也可以對(duì)相關(guān)的特征進(jìn)行壓縮、降維;或者直接采用分布式引擎。在樣本的獲取上要做到多標(biāo)簽樣本均衡,這尤其會(huì)影響分類問(wèn)題的準(zhǔn)確度。本文中面向的場(chǎng)景中,流失用戶比例較低,那么就要對(duì)這類數(shù)據(jù)進(jìn)行豐富,采用相關(guān)的數(shù)據(jù)平衡方式——過(guò)采樣或者欠采樣來(lái)應(yīng)對(duì)。

        特征工程的范疇較廣,也是數(shù)據(jù)處理中較為耗時(shí)的一個(gè)階段,是機(jī)器學(xué)習(xí)中基礎(chǔ)而又必備的步驟,其中包括特征提取、特征選擇、特征構(gòu)建等方面。特征工程能夠從繁雜的數(shù)據(jù)表現(xiàn)中,提取出面向問(wèn)題最具代表性的那些特征,好的特征工程結(jié)果往往能夠讓簡(jiǎn)單的模型有較高的準(zhǔn)確度,甚至高于復(fù)雜模型。對(duì)于分類模型,訓(xùn)練集中可能會(huì)存在某個(gè)或某些類別下的樣本數(shù)遠(yuǎn)大于另一些類別下的樣本數(shù)目,一方面需要對(duì)訓(xùn)練集做數(shù)據(jù)均衡,以提升模型對(duì)少數(shù)類的識(shí)別精度,另一方面不能簡(jiǎn)單地使用AUC指標(biāo)衡量模型性能,而需要結(jié)合精準(zhǔn)率召回率等多種指標(biāo)。

        常用的數(shù)據(jù)均衡方法有增加數(shù)據(jù)集、對(duì)多數(shù)類樣本欠采樣與對(duì)少數(shù)類樣本的過(guò)采樣。直接增加數(shù)據(jù)集效果顯著,然而往往難以實(shí)現(xiàn)。欠采樣是對(duì)多數(shù)類的數(shù)據(jù)樣本進(jìn)行采樣來(lái)減少該類數(shù)據(jù)樣本的個(gè)數(shù),最直接的方法是隨機(jī)地去掉一些多數(shù)類樣本來(lái)減小多數(shù)類的規(guī)模,但是會(huì)丟失多數(shù)類樣本中的一些重要信息,且不適用于少數(shù)類過(guò)少的情況。過(guò)采樣指對(duì)少數(shù)類的數(shù)據(jù)樣本進(jìn)行采樣以增加少數(shù)類的數(shù)據(jù)樣本個(gè)數(shù),最直接的方法是簡(jiǎn)單復(fù)制少數(shù)類樣本或者使用SMOTE算法增加樣本個(gè)數(shù)。

        機(jī)器學(xué)習(xí)模型訓(xùn)練是一個(gè)持續(xù)優(yōu)化的過(guò)程,需要經(jīng)歷模型訓(xùn)練、評(píng)估、參數(shù)調(diào)優(yōu)的過(guò)程(6)雷海銳、高秀峰、劉輝:《基于機(jī)器學(xué)習(xí)的混合式特征選擇算法》,《電子測(cè)量技術(shù)》2018年第16期。。在訓(xùn)練過(guò)程中,通過(guò)繪制loss值曲線,能夠判斷模型是否已經(jīng)收斂,為了避免過(guò)擬合,應(yīng)該采用K折交叉驗(yàn)證,即將訓(xùn)練集分割為K個(gè)等分,每次訓(xùn)練從中選取一份作為測(cè)試機(jī),其他作為訓(xùn)練集,這樣對(duì)模型訓(xùn)練K-1次之后,取七個(gè)模型平均的loss值作為評(píng)估標(biāo)準(zhǔn),就能夠避免有偏采樣作為測(cè)試集導(dǎo)致的欠擬合、過(guò)擬合問(wèn)題,通過(guò)增加懲罰項(xiàng)、增加訓(xùn)練數(shù)據(jù)量等,也可以降低模型復(fù)雜度。

        在訓(xùn)練后需要對(duì)模型的準(zhǔn)確度進(jìn)行評(píng)估,對(duì)于連續(xù)值可以采用距離計(jì)算,而布爾值可以采用混合矩陣方式來(lái)評(píng)估模型的準(zhǔn)確性,業(yè)界通常采用f值計(jì)算來(lái)對(duì)一個(gè)模型的查準(zhǔn)率、查全率進(jìn)行評(píng)估。評(píng)估模型后,再次對(duì)參數(shù)進(jìn)行調(diào)整,并觀察loss值變化,直到可以收到滿意的模型準(zhǔn)確度。這是一個(gè)反復(fù)迭代的過(guò)程,可以通過(guò)人工經(jīng)驗(yàn)來(lái)調(diào)整參數(shù),也可以通過(guò)自動(dòng)化方式對(duì)參數(shù)進(jìn)行矩陣搜索嘗試。在靜態(tài)數(shù)據(jù)調(diào)優(yōu)之后,將會(huì)把模型部署到線上使用,實(shí)際應(yīng)用場(chǎng)景中數(shù)據(jù)條目、數(shù)據(jù)量也是動(dòng)態(tài)變化。因此模型需要持續(xù)不斷學(xué)習(xí)已有的數(shù)據(jù),更新參數(shù)。

        2.預(yù)測(cè)模型的特征提取

        在機(jī)器學(xué)習(xí)中,特征是指實(shí)體的一些屬性和性質(zhì),無(wú)論這些屬性和性質(zhì)是否對(duì)解決問(wèn)題有用。在現(xiàn)實(shí)問(wèn)題中,數(shù)據(jù)中的特征對(duì)于模型的訓(xùn)練和預(yù)測(cè)非常重要,更好的特征能夠讓模型簡(jiǎn)單而靈活。因此如何選擇較好的特征是機(jī)器學(xué)習(xí)中重要的一環(huán)。特征選擇分為特征提取和特征篩選兩部分。在面向用戶流失場(chǎng)景的分析時(shí),用戶本身的特性如性別、平均收入、年齡為靜態(tài)數(shù)據(jù),可以通過(guò)數(shù)值化、離散化的方式進(jìn)行提取,特征提取后通過(guò)一定度量方法篩選出少量且能夠保留大部分信息的特征,一方面可以減少特征數(shù)量、達(dá)到降維效果的同時(shí)使模型擁有更好的通用性和魯棒性,減少過(guò)擬合;另一方面可以增強(qiáng)對(duì)特征和特征值之間的理解,提升模型的準(zhǔn)確度。

        從特征是否差異顯著、特征與目標(biāo)的相關(guān)性兩個(gè)角度審視特征的價(jià)值是進(jìn)行特征選擇分析的有效途徑。如果一個(gè)差異不顯著,即該方差接近于0,可以認(rèn)為該特征不能對(duì)樣本進(jìn)行有效區(qū)分,沒(méi)有太多的信息量;而對(duì)于與目標(biāo)相關(guān)性不高的特征也應(yīng)考慮刪除,減少對(duì)模型的干擾。特征提取的手段很多,從面向特征的差異、相關(guān)性分析性角度出發(fā),通常可以歸納為Filter、Wrapper、Embedded三類方法。

        Filter方法沒(méi)有使用結(jié)果錯(cuò)誤率來(lái)對(duì)特征選擇的優(yōu)劣進(jìn)行打分,而是使用一些代理指標(biāo)。這些代理指標(biāo)通常計(jì)算速度更快,常用的代理指標(biāo)包括逐點(diǎn)互信息、互信息、皮爾森積距相關(guān)系數(shù)。Filter方法特征選取計(jì)算量一般比Wrapper要小。因?yàn)榕懦耸褂媚P蛯?duì)結(jié)果預(yù)測(cè)并評(píng)估準(zhǔn)確度的步驟,選取的特征和使用某個(gè)模型無(wú)關(guān),這也就使得特征更加通用,也更側(cè)重特征之間的相互關(guān)系,但負(fù)面效果是會(huì)降低實(shí)際預(yù)測(cè)結(jié)果的準(zhǔn)確度。此種類型的特征選擇方法所產(chǎn)生的結(jié)果是對(duì)所有特征的打分排名,而不是某一組特定的特征組合,通過(guò)交叉驗(yàn)證,能夠最終確定打分的截?cái)嘀怠T诿嫦虼罅刻卣鞯臅r(shí)候,F(xiàn)ilter方法作為Wrapper的前置方法對(duì)特征進(jìn)行預(yù)篩選,計(jì)算速度快使得它能夠快速減少特征的數(shù)量。(7)楊榮、趙娟娟、賈郭軍:《基于決策樹(shù)的存量客戶流失預(yù)警模型》,《首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》2019年第5期。Wrapper方法使用預(yù)測(cè)模型來(lái)為特征選擇子集打分。每次選擇一組特征子集訓(xùn)練模型,之后對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行打分,由于需要對(duì)特征的每種組合都訓(xùn)練一個(gè)模型,這會(huì)使得計(jì)算量非常大,但因?yàn)楦采w足夠全面,較為容易找到合適的特征組合。Embedded方法同樣使用預(yù)測(cè)模型構(gòu)建來(lái)選擇特征,與Wrapper過(guò)程不同的是,在每次構(gòu)建模型之后,對(duì)特征的權(quán)重進(jìn)行分析。通常在模型構(gòu)建時(shí),加入懲罰項(xiàng),L1懲罰項(xiàng)會(huì)讓某些低權(quán)重特征的權(quán)重傾向?yàn)?,權(quán)重非0的特征會(huì)被選中;也可以用樹(shù)模型,越靠近根、分叉越早的特征代表性也越強(qiáng)。

        3.預(yù)測(cè)模型的特征篩選

        從已經(jīng)獲得的特征中找出最有效的那一類特征就是特征篩選。一方面要能夠代表實(shí)體的特性;另一方面,由于特征之間可能存在一定的關(guān)聯(lián)關(guān)系,也需要對(duì)這些關(guān)系進(jìn)行識(shí)別。本文采用計(jì)算協(xié)方差的方式:機(jī)器學(xué)習(xí)模型預(yù)訓(xùn)練,通過(guò)在已知數(shù)據(jù)上構(gòu)建機(jī)器學(xué)習(xí)模型,一些模型可以獲得每個(gè)特征所屬的權(quán)重,通過(guò)按照特征對(duì)應(yīng)權(quán)重由大到小排列,可以獲得特征重要性排名。理論上通過(guò)碎石圖可以幫助得到選擇選取哪幾個(gè)機(jī)器學(xué)習(xí)變量可以保留較多的信息量,在實(shí)際生產(chǎn)中,往往采用多次嘗試構(gòu)建機(jī)器學(xué)習(xí)模型的方法,不斷減少特征來(lái)權(quán)衡精準(zhǔn)率與特征數(shù)量之間的平衡。在本文中選擇了決策樹(shù)作為這種衡量特征重要程度的算法,決策樹(shù)是一個(gè)有向無(wú)環(huán)圖,樹(shù)形結(jié)構(gòu)代表實(shí)體屬性和實(shí)體值之間的一種映射關(guān)系。樹(shù)的每個(gè)節(jié)點(diǎn)標(biāo)識(shí)一個(gè)對(duì)象,樹(shù)杈代表了這個(gè)對(duì)象的取值范圍的一次劃分,葉子節(jié)點(diǎn)代表數(shù)據(jù)的一組分類結(jié)果。對(duì)應(yīng)每條訓(xùn)練數(shù)據(jù),都可以沿著根節(jié)點(diǎn)根據(jù)分叉條件逐層向下找到一條路徑,到達(dá)最終的分類。建立樹(shù)的過(guò)程是機(jī)器學(xué)習(xí)的訓(xùn)練流程。每個(gè)決策樹(shù)都表述了一種樹(shù)型結(jié)構(gòu),只是由它的分支來(lái)對(duì)此類型的對(duì)象依靠其屬性進(jìn)行一定的分類。每個(gè)決策樹(shù)能夠依靠對(duì)源數(shù)據(jù)的分割進(jìn)行數(shù)據(jù)測(cè)試,這樣能夠使用滿足劃分準(zhǔn)則的特征不間斷地將數(shù)據(jù)集劃分為信息純度更高的子集。

        其中不確定度的度量標(biāo)準(zhǔn)一般有信息增益、信息增益率、基尼指數(shù)三種。信息增益定義為熵與條件熵的差值,表征在某條件下信息不確定性減少的程度。對(duì)于待劃分的數(shù)據(jù)集,其熵值固定,但是劃分之后的熵就會(huì)有變化,熵越小表明使用此特征劃分得到的子集的不確定性越小,因此兩者的差異也就是信息增益越大,說(shuō)明以當(dāng)前特征劃分后,信息純度更高;如果某個(gè)屬性存在大量的不同值,決策樹(shù)在選擇屬性時(shí)會(huì)偏向于選擇該屬性,必然會(huì)帶來(lái)較大偏差,信息增益率考慮了各分支數(shù)量的因素,定義為信息增益與數(shù)據(jù)集關(guān)于某特征的值得熵之比,其本質(zhì)是在信息增益的基礎(chǔ)之上增加了一個(gè)懲罰參數(shù)。特征個(gè)數(shù)較多時(shí),懲罰參數(shù)較??;特征個(gè)數(shù)較少時(shí),懲罰參數(shù)較大;基尼指數(shù)也叫基尼不純度,表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。集合所包含的純度越高,集合里被選中的樣本被分錯(cuò)的概率如果越小,它的基尼指數(shù)也就越小。(8)馬文斌、夏國(guó)恩:《基于深度神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測(cè)模型》,《計(jì)算機(jī)技術(shù)與發(fā)展》2019年第9期。

        決策樹(shù)不僅可以用于模型構(gòu)建,還可以用于特征篩選。決策樹(shù)每次分叉都會(huì)選擇對(duì)信息熵影響大的特征,所以我們將特征根據(jù)分叉的先后順序排序,排序約靠前的特征就是對(duì)分類結(jié)果影響最重要的,通過(guò)這種方法篩選特征能夠有效降低模型的復(fù)雜度。

        4.監(jiān)督學(xué)習(xí)的過(guò)程

        在監(jiān)督學(xué)習(xí)中,每條數(shù)據(jù)對(duì)的輸入特征通常是一個(gè)向量,而確定的標(biāo)簽是一個(gè)值。模型訓(xùn)練后得到了映射函數(shù),當(dāng)把新的輸入交給函數(shù)時(shí),就會(huì)得到對(duì)新數(shù)據(jù)的一個(gè)預(yù)測(cè)結(jié)果。此時(shí)如果標(biāo)簽是一個(gè)連續(xù)值,就叫做回歸問(wèn)題,如果標(biāo)簽是一個(gè)枚舉值,就叫做分類問(wèn)題。通過(guò)對(duì)已有數(shù)據(jù)的觀察,然后將此規(guī)律應(yīng)用到新的數(shù)據(jù)上去,需要總結(jié)對(duì)問(wèn)題足夠通用的學(xué)習(xí)規(guī)律,這叫做模型的泛化能力。也并非漫無(wú)目的地去找尋這個(gè)映射函數(shù),可以對(duì)問(wèn)題給予一個(gè)基本的假定,然后推導(dǎo)出一個(gè)通用的公式,再通過(guò)現(xiàn)有數(shù)據(jù)來(lái)確定其中的參數(shù)。不同的假定也就產(chǎn)生了不同的模型,比如邏輯回歸、支持向量機(jī)等。

        下面將整個(gè)過(guò)程數(shù)學(xué)化表示,給定的數(shù)據(jù)為(x,g(x)),其中就是目標(biāo)函數(shù)。假設(shè)符合g行為的樣本是從某個(gè)空間中,以未知概率p,以獨(dú)立同分布隨機(jī)方式來(lái)抽樣。這時(shí)定義一個(gè)損失函數(shù)。

        L:Y×X→R

        其中,Y是g的陪域,如果g預(yù)測(cè)出的值是z,觀測(cè)真值是y,定義L(z,y)叫為損失值,L取值一般為非負(fù)實(shí)數(shù)。假定p是離散的,在全部樣本上的損失值累計(jì)為:

        那么問(wèn)題簡(jiǎn)化為,如何確定函數(shù)f*,能夠使得R(f*)風(fēng)險(xiǎn)值最小。根據(jù)g可以適用于全部觀測(cè)值對(duì)(x1,y1), ..., (xn,yn),則以一種近似方式給出風(fēng)險(xiǎn)值的計(jì)算方式如下:

        (1)

        通過(guò)統(tǒng)計(jì)理論就可以驗(yàn)證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化是否可行,以及確定最小化的值。這就可以確定f*,從而找到(x,g(x))的一種風(fēng)險(xiǎn)最小化的映射關(guān)系。

        三、基金公司客戶流失模型構(gòu)建

        我國(guó)的基金市場(chǎng)發(fā)展近三十年,其技術(shù)環(huán)境、監(jiān)管環(huán)境、政策環(huán)境得到不斷發(fā)展和提升,而基金公司內(nèi)部的治理結(jié)構(gòu)、管理人監(jiān)督也隨之完善,共同推進(jìn)了中國(guó)金融體系的成長(zhǎng)。在不斷健全發(fā)展的大環(huán)境下,客戶開(kāi)始認(rèn)可重視基金這種投資方式,影響客戶基金投資決策的影響因素很多,一方面是經(jīng)濟(jì)形勢(shì)、企業(yè)發(fā)展、行業(yè)發(fā)展、科學(xué)技術(shù)演進(jìn)等宏觀因素;另一方面是客戶自身的投資條件、心理預(yù)期、風(fēng)險(xiǎn)承受、投資動(dòng)機(jī)等微觀因素。諸多因素影響著客戶對(duì)基金的認(rèn)識(shí)以及選擇,尤其是后疫情時(shí)代的經(jīng)濟(jì)環(huán)境存在著諸多不確定性,而個(gè)人信息與交易信息能夠在一定程度上反映投資特點(diǎn),可以以此數(shù)據(jù)進(jìn)行流失客戶的識(shí)別。

        (一)數(shù)據(jù)選取

        本文以深圳市某基金公司的客戶為研究對(duì)象。采用客戶信息表和交易記錄表作為數(shù)據(jù)來(lái)源,其中客戶信息表是客戶開(kāi)戶時(shí)填寫(xiě)的情況,交易記錄表則是按時(shí)間順序客戶的一筆筆交易行為,這樣的交易行為帶有時(shí)間屬性。受外部環(huán)境和自身投資習(xí)慣的影響,用戶對(duì)基金的買進(jìn)與賣出具有很大的變動(dòng)性,客戶流失的有效預(yù)判價(jià)值巨大。數(shù)據(jù)集為該公司2018年5月1日至2018年12月31日這8個(gè)月的交易信息表以及客戶信息表的數(shù)據(jù),如表1。值得說(shuō)明的是,本文所選用的數(shù)據(jù)雖然為2018年所收集的,但是對(duì)于后疫情時(shí)代下的金融發(fā)展有較好的啟示和借鑒意義。

        在經(jīng)過(guò)特征提取后,得到了如下特征,令特征為fn,n=1,2,3…,對(duì)應(yīng)上表中的特征得到:

        f1,f2,f3,…f13

        表1 客戶交易數(shù)據(jù)表

        客戶的流失按照是否已經(jīng)完全流失,一般可分為已經(jīng)流失與正在流失兩種。對(duì)前者可以直接通過(guò)統(tǒng)計(jì)方法找出持倉(cāng)量一直為0的流失用戶f13=0,無(wú)需識(shí)別預(yù)測(cè);后者是模型預(yù)測(cè)關(guān)注的重點(diǎn),可以通過(guò)統(tǒng)計(jì)某段時(shí)間的增倉(cāng)、減倉(cāng)次數(shù),定義增倉(cāng)數(shù)目為0,減倉(cāng)數(shù)大于0的用戶為流失用戶。

        本文使用前6個(gè)月的上述特征數(shù)據(jù)作為模型輸入f1,f2,f3,…f13,后2個(gè)月數(shù)據(jù)提取出流失標(biāo)簽target∈(0,1),流失定義為1,未流失為0,構(gòu)建監(jiān)督學(xué)習(xí)模型對(duì)基金客戶流失進(jìn)行預(yù)測(cè),目標(biāo)就是找到合適的F。

        F(f1,f2,f3,…f13)→target

        在對(duì)數(shù)據(jù)進(jìn)行缺失值填充和正負(fù)樣本平衡后,將數(shù)據(jù)進(jìn)行OneHot編碼:

        f1→f11,f12,f13…f1n

        上述機(jī)器學(xué)習(xí)問(wèn)題變換為:

        F(f11,f12…f1n,f21,f22…f2m,f31,f32…,f3q)→target

        其中n,m,q代表OneHot編碼之后的特征數(shù)量,在變換后得到914個(gè)特征。

        以上問(wèn)題等價(jià)于:

        其中p=914,等價(jià)于914個(gè)特征。

        隨著特征迅速膨脹,將這些特征全部放入模型訓(xùn)練過(guò)程,將會(huì)使得訓(xùn)練流程變得冗長(zhǎng)且非常容易過(guò)擬合。

        (二)決策樹(shù)特征篩選

        圖1 決策樹(shù)節(jié)點(diǎn)屬性

        預(yù)處理后最終得到基金客戶流失預(yù)測(cè)的數(shù)據(jù),訓(xùn)練集train_total_sample3086條,其中正負(fù)樣本數(shù)各1543條,測(cè)試集2693條,基本滿足實(shí)驗(yàn)需求。對(duì)于F這里使用決策樹(shù)來(lái)進(jìn)行模型構(gòu)建,考慮到基尼系數(shù)在大幅減少對(duì)數(shù)運(yùn)算的基礎(chǔ)上保持熵模型的優(yōu)點(diǎn),本模型的度量標(biāo)準(zhǔn)選擇基尼系數(shù)。由于特征數(shù)量很多,選擇決策樹(shù)中的給與枝剪策略,樹(shù)深度控制在200。

        F(Gini,Deepth<200)

        對(duì)于決策樹(shù),每個(gè)節(jié)點(diǎn)由多個(gè)屬性組成,見(jiàn)圖1:

        葉子節(jié)點(diǎn)Leaf:

        信息純度gini:根據(jù)決策樹(shù)計(jì)算的信息純度

        此節(jié)點(diǎn)下的樣本數(shù)sample,本實(shí)驗(yàn)中

        sample∈(0,3086)

        此節(jié)點(diǎn)下對(duì)于屬性的樣本類別class

        對(duì)于正樣本,即流失用戶樣本class=true;對(duì)于負(fù)樣本,即未流失用戶樣本class=false

        非葉子節(jié)點(diǎn)Non-Leaf:非葉子節(jié)點(diǎn)中沒(méi)有分叉屬性,其余和葉子節(jié)點(diǎn)一致。

        因?yàn)榉植鎓eature都在葉子節(jié)點(diǎn)上,

        feature_importancei

        =(Leaf.sample*Leaf.gini-left.sample*left.gini

        -right.sample*right.gini)/train_total_sample

        feature_importancei∈(0,1)

        本實(shí)驗(yàn)中,保留99%的特征信息,所以對(duì)feature_importancei<0.01時(shí),認(rèn)為該特征的信息不足以表達(dá)足夠信息,去掉這些特征。

        經(jīng)過(guò)篩選,914個(gè)特征保留了113個(gè)。追溯這些特征的含義,增倉(cāng)減倉(cāng)標(biāo)簽有著比較高的重要性,與定義的流失標(biāo)簽有較大關(guān)聯(lián),其他較高的特征為網(wǎng)點(diǎn)、基金代碼、持有份額、(交易)天、省份、城市、街區(qū)等特征。從數(shù)據(jù)上看,交易信息的重要性略大于個(gè)人信息,在特征篩選中占有更大的權(quán)重。網(wǎng)點(diǎn)體現(xiàn)了較強(qiáng)的地域特征,表明交易地點(diǎn)對(duì)流失有較大的影響;基金代碼與持有份額的變化是客戶對(duì)基金預(yù)期直接體現(xiàn)。

        (三)流失模型構(gòu)建

        在流失預(yù)測(cè)模型的構(gòu)建上,本文使用的算法有較有代表性的邏輯回歸。邏輯回歸是一種用于解決二分類問(wèn)題的機(jī)器學(xué)習(xí)方法,用于估計(jì)某種事物的可能性。其數(shù)學(xué)模型、求解和實(shí)現(xiàn)都相對(duì)簡(jiǎn)潔。邏輯回歸以線性回歸為理論支持,通過(guò)引入Sigmoid函數(shù)將預(yù)測(cè)值映射在將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率,從而通過(guò)閾值實(shí)現(xiàn)二分類??紤]到數(shù)據(jù)已進(jìn)行過(guò)特征選擇,懲罰系數(shù)選擇L2正則化,選擇liblinear優(yōu)化算法,通過(guò)坐標(biāo)軸下降法來(lái)迭代優(yōu)化損失函數(shù)。

        在經(jīng)過(guò)特征篩選之后問(wèn)題簡(jiǎn)化為:

        根據(jù)邏輯回歸模型基本假設(shè)

        hθ的實(shí)際意義為樣本對(duì)應(yīng)的target的二分類概率:

        下面進(jìn)行極大似然估計(jì)計(jì)算,概率函數(shù)為:

        因?yàn)闃颖緮?shù)據(jù)獨(dú)立,所以聯(lián)合概率分布函數(shù)可以表示為各個(gè)邊際分布的乘積,取似然函數(shù)為:

        取對(duì)數(shù)似然函數(shù):

        最大似然估計(jì)為使得l(θ)取最大值時(shí)候θ的值,這里可以用梯度上升法來(lái)求解,取

        這樣就得到了一組θ從而求得F。

        (四)模型結(jié)果的效果評(píng)估

        二分類模型的單個(gè)樣本預(yù)測(cè)有四種結(jié)果,這四種結(jié)果可以寫(xiě)成一個(gè)2*2的混淆矩陣,如表2所示,用T(True)代表正確、F(False)代表錯(cuò)誤,TP與TN表示預(yù)測(cè)值與實(shí)際值相符,模型預(yù)測(cè)正確。而FP與FN表示預(yù)測(cè)值與實(shí)際值不符,模型預(yù)測(cè)錯(cuò)誤。

        表2 混淆矩陣

        以混淆矩陣作為基礎(chǔ),我們選擇精準(zhǔn)率、召回率和F1值作為分類模型的評(píng)價(jià)指標(biāo)。其中,所有樣本能夠被正確預(yù)測(cè)的比例稱為精準(zhǔn)率(公式2),實(shí)際為正類的樣本中能夠被正確預(yù)測(cè)為正類的比例稱為召回率(公式3),F(xiàn)1值用精準(zhǔn)率和召回率的調(diào)和平均數(shù)表示(公式4)??紤]到基金客戶流失的目的在于準(zhǔn)確識(shí)別潛在流失客戶,所以本文關(guān)注的重點(diǎn)在召回率和F1值。

        (2)

        (3)

        (4)

        對(duì)訓(xùn)練的評(píng)估模型進(jìn)行檢驗(yàn)(見(jiàn)表3),在本實(shí)驗(yàn)中分別對(duì)使用決策樹(shù)篩選的特征建模M1,和未經(jīng)決策樹(shù)篩選的特征采用邏輯回歸建模M2??梢钥吹組1分類器的效果較好,在對(duì)正類的識(shí)別上,預(yù)測(cè)為正類的全部是正類,在對(duì)負(fù)類的預(yù)測(cè)上相對(duì)較好,預(yù)測(cè)為負(fù)類的有32個(gè)實(shí)際是負(fù)類,有62個(gè)負(fù)類樣本沒(méi)有識(shí)別出,精準(zhǔn)率和召回率分別為0.99與0.98,F(xiàn)1值為0.98,都為較高水平。M2分類器的效果不理想,在對(duì)負(fù)類樣本的預(yù)測(cè)上,只識(shí)別出25個(gè)負(fù)類樣本,而將598個(gè)正類樣本預(yù)測(cè)為負(fù)類,精準(zhǔn)率和召回率分別為0.99與0.78,F(xiàn)1值為0.86,與M1分類器相比,精準(zhǔn)率差距不大,召回率差異顯著,處于較低水平,該分類器無(wú)法識(shí)別負(fù)類樣本。

        表3 基金客戶流失分類模型預(yù)測(cè)結(jié)果

        實(shí)驗(yàn)結(jié)果表明,未經(jīng)過(guò)特征篩選的分類模型在對(duì)正負(fù)樣本嚴(yán)重失衡的數(shù)據(jù)集中效果不佳,體現(xiàn)在無(wú)法有效識(shí)別負(fù)例樣本,而負(fù)例樣本恰恰是我們重點(diǎn)關(guān)注的。而經(jīng)過(guò)決策樹(shù)篩選后,都能夠在測(cè)試集上較為精確區(qū)分正例(未流失客戶)和負(fù)例(流失客戶),最高能夠達(dá)到了99%的精準(zhǔn)率和98%的召回率,因此利用分類模型可以在流失進(jìn)行有效的預(yù)測(cè)。

        四、結(jié)論

        準(zhǔn)確的客戶流失預(yù)測(cè)是客戶維挽的前提和基礎(chǔ),本文提出一種基金交易場(chǎng)景下,使用決策樹(shù)方法對(duì)流失客戶特征自動(dòng)化篩選的方法。以某基金公司的客戶和交易兩個(gè)維度的數(shù)據(jù)為例,進(jìn)行特征提取和決策樹(shù)特征篩選,發(fā)現(xiàn)交易信息對(duì)模型有著更高程度的影響。對(duì)流失影響較大的特征為網(wǎng)點(diǎn)(地域)、基金代碼、剩余份額。分別使用經(jīng)過(guò)決策樹(shù)篩選的特征組和未經(jīng)決策樹(shù)方法篩選的特征組通過(guò)邏輯回歸算法構(gòu)建流失預(yù)測(cè)模型,對(duì)使用混淆矩陣、精準(zhǔn)率、召回率、F1值指標(biāo)其上述模型的效果進(jìn)行評(píng)估。本特征自動(dòng)化提取方法可以較為準(zhǔn)確的提取對(duì)目標(biāo)信息貢獻(xiàn)度較高的特征,大幅提升召回率。數(shù)據(jù)挖掘技術(shù)是客戶流失精準(zhǔn)預(yù)測(cè)的支持,而個(gè)性化的營(yíng)銷維挽是最終項(xiàng)目落地的關(guān)鍵,需將兩者有機(jī)結(jié)合,實(shí)現(xiàn)更高水平的金融服務(wù)??傊贏I技術(shù)的客戶流失預(yù)警將快速調(diào)整企業(yè)流程并保持客戶滿意度,從而提高了客戶忠誠(chéng)度和保留率,將成為以基金業(yè)為代表的金融行業(yè)應(yīng)對(duì)后疫情時(shí)代條件下客戶管理的對(duì)策和良方。

        猜你喜歡
        決策樹(shù)樣本客戶
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        推動(dòng)醫(yī)改的“直銷樣本”
        為什么你總是被客戶拒絕?
        如何有效跟進(jìn)客戶?
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        基于決策樹(shù)的出租車乘客出行目的識(shí)別
        做個(gè)不打擾客戶的保鏢
        山東青年(2016年2期)2016-02-28 14:25:41
        村企共贏的樣本
        在线观看视频国产一区二区三区| 亚洲av中文无码字幕色三| 日韩成人免费一级毛片| 国产精品亚洲av国产| 偷拍综合在线视频二区日韩 | 日韩国产一区| 久草久热这里只有精品| 国产精品一区二区av不卡| 亚洲欧美日韩国产精品一区二区 | 国产av三级精品车模| 可以免费看亚洲av的网站| 亚洲男人的天堂在线aⅴ视频| 亚洲AV激情一区二区二三区| 亚洲自偷自拍另类第一页| 国产亚洲精品久久午夜玫瑰园 | 亚洲av乱码一区二区三区女同 | 久久久中日ab精品综合| 中文天堂在线www| 久久久久无码精品国| 国产精品久色婷婷不卡| 日韩人妻一区二区三区蜜桃视频 | 伊人久久亚洲综合av影院| √天堂资源中文www| 日日av拍夜夜添久久免费| 黄 色 成 年 人 网 站免费| 亚洲国产人成综合网站| 日本精品无码一区二区三区久久久| 99热这里只有精品国产99热门精品| 成年女人18毛片毛片免费| 亚洲人成网站色在线入口口| 亚洲欧美一区二区三区在线| 国产欧美日韩在线观看一区二区三区| 精品一区2区3区4区| 夜夜高潮夜夜爽国产伦精品| 熟妇人妻中文字幕无码老熟妇| 日韩精品有码在线视频| 亚洲天堂成人av在线观看| 色哟哟网站在线观看| 无码高清视频在线播放十区| 亚洲自拍偷拍一区二区三区| 久久9精品区-无套内射无码|