亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Catboost算法的優(yōu)惠券個(gè)性化投放

        2018-12-18 11:09:24廣東工業(yè)大學(xué)劉嘉穗
        電子世界 2018年23期
        關(guān)鍵詞:特征用戶模型

        廣東工業(yè)大學(xué) 劉嘉穗

        優(yōu)惠券投放是O2O消費(fèi)模式的一種重要營(yíng)銷(xiāo)手段,但隨機(jī)投放會(huì)給大多數(shù)用戶帶來(lái)無(wú)意義的攪擾,并且還會(huì)增加商家業(yè)務(wù)的營(yíng)銷(xiāo)成本。因此,本文對(duì)真實(shí)的用戶歷史行為信息進(jìn)行挖掘,并基于Catboost算法對(duì)用戶未來(lái)是否會(huì)核銷(xiāo)優(yōu)惠券進(jìn)行預(yù)測(cè),進(jìn)而個(gè)性化向用戶投放優(yōu)惠券。Catboost是一種新型的梯度提升樹(shù)算法,相較于傳統(tǒng)算法,它具有更高的準(zhǔn)確度,因此,可以更加準(zhǔn)確地預(yù)測(cè)用戶將來(lái)的消費(fèi)模式,進(jìn)而為優(yōu)惠券的個(gè)性化投放提供一種更為可靠的決策依據(jù)。

        1.概述

        在線上平臺(tái)消費(fèi)的過(guò)程中,人們會(huì)留下如瀏覽、搜索、點(diǎn)擊、收藏、評(píng)論等一系列行為特征指標(biāo),并最終會(huì)產(chǎn)生購(gòu)買(mǎi)與否的消費(fèi)行為結(jié)果。國(guó)外著名電商巨頭亞馬遜,通過(guò)對(duì)用戶線上的這一系列行為特征和行為結(jié)果進(jìn)行挖掘分析,得到用戶的喜好和購(gòu)買(mǎi)規(guī)律,預(yù)測(cè)用戶的消費(fèi)行為,以此為基礎(chǔ),構(gòu)建推薦系統(tǒng)對(duì)用戶進(jìn)行個(gè)性化推薦。據(jù)調(diào)研,其推薦轉(zhuǎn)化率高達(dá)60%(Linden,G.,Smith,B.,York,J.,2003.Amazon.com recommendations:Item-to-item collaborative filtering.Internet Computing,IEEE 7,76-80)。國(guó)外視頻網(wǎng)站Netflix(Amatriain X,Basilico J.Netflix recommendations:beyond the 5 stars(part I)[J].Netflix Tech Blog,2012,6)和社交平臺(tái)Facebook(唐穎.巴克萊卡:Facebook廣告效果頗佳[J].國(guó)際品牌觀察,2012(8):110-111)也都基于自己平臺(tái)上的用戶行為日志,打造個(gè)性化商品推薦和廣告投放服務(wù),在進(jìn)一步增加公司利潤(rùn)的同時(shí),也有效地提升了用戶體驗(yàn)和用戶粘性,實(shí)現(xiàn)用戶、商家共贏。

        許多學(xué)者也結(jié)合機(jī)器學(xué)習(xí)方法對(duì)推薦系統(tǒng)進(jìn)行研究,以進(jìn)一步提升推薦效果。朱奕健等人以隨機(jī)森林為模型,基于電信業(yè)務(wù)數(shù)據(jù),構(gòu)建電信運(yùn)營(yíng)商外呼推薦系統(tǒng),有效提高了外呼用戶的接受率(朱奕健,張正卿,黃一清,自瑞瑞,嚴(yán)建峰.基于隨機(jī)森林模型的電信運(yùn)營(yíng)商外呼推薦系統(tǒng)[J].計(jì)算機(jī)科學(xué),2016(S2))。He X等(HE X,PAN J,JIN O,et al.Practical Lessons from Predicting Clicks on Ads at Facebook[C]//Eighth International Workshop on Data Mining for Online Advertising.ACM,2014:1-9)將梯度提升樹(shù)(GBDT)和邏輯回歸(LR)相結(jié)合,通過(guò)GBDT對(duì)特征進(jìn)行非線性映射,并用LR進(jìn)行訓(xùn)練,以此提升廣告的點(diǎn)擊率預(yù)估,為廣告的個(gè)性化投放提供決策依據(jù)。O2O消費(fèi)模式自然與數(shù)以?xún)|計(jì)的消費(fèi)者相關(guān),商戶平臺(tái)記錄著海量的用戶行為日志。本文通過(guò)分析用戶的歷史交互日志,從用戶、商戶、優(yōu)惠券等多方面構(gòu)造特征,并引入新型的梯度提升樹(shù)算法Catboost進(jìn)行訓(xùn)練,預(yù)測(cè)用戶將來(lái)是否會(huì)核銷(xiāo)優(yōu)惠券。實(shí)驗(yàn)表明,相較于傳統(tǒng)算法,Catboost具有更高的預(yù)測(cè)準(zhǔn)確度,為優(yōu)惠券的個(gè)性化投放提供了可靠的決策依據(jù)。

        2.數(shù)據(jù)處理

        2.1 數(shù)據(jù)描述

        本文采用阿里巴巴天池大數(shù)據(jù)平臺(tái)的開(kāi)放數(shù)據(jù)集,包含了用戶、商戶和優(yōu)惠券三者在2016年1月1日至2016年6月30日的真實(shí)交互行為(https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.1000 73.0.0.36ed6fc1dn1mQN&dataId=59),每條消費(fèi)記錄包含了用戶、商戶、優(yōu)惠券、優(yōu)惠率、用戶與商戶的距離、優(yōu)惠券領(lǐng)取日期以及消費(fèi)日期共7個(gè)字段。用戶的行為結(jié)果分為“使用優(yōu)惠券進(jìn)行消費(fèi)(正樣本)”、“沒(méi)有領(lǐng)取優(yōu)惠券進(jìn)行消費(fèi)(普通消費(fèi))”以及“領(lǐng)取了優(yōu)惠券但沒(méi)有進(jìn)行消費(fèi)(負(fù)樣本)”。通過(guò)挖掘歷史行為記錄,對(duì)用戶在未來(lái)15天內(nèi)是否會(huì)核銷(xiāo)優(yōu)惠券進(jìn)行預(yù)測(cè)。

        2.2 特征構(gòu)造

        原始數(shù)據(jù)包含的信息較少,不足以表征用戶的消費(fèi)行為習(xí)慣,同時(shí)原始數(shù)據(jù)也包含了大量的缺失值以及各種非數(shù)值型數(shù)據(jù),不能直接用于模型的訓(xùn)練。為此,我們對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)歸納,構(gòu)造特征如表1所示。

        表1 各類(lèi)特征描述

        表1分別包含用戶、商戶、優(yōu)惠券、用戶-商戶四個(gè)維度的特征。用戶特征包括用戶的總消費(fèi)次數(shù)、優(yōu)惠券的領(lǐng)取和使用次數(shù)以及優(yōu)惠券領(lǐng)取和使用的時(shí)間間隔統(tǒng)計(jì)等,反映的是用戶在此期間的消費(fèi)行為表現(xiàn)。同樣,商店和消費(fèi)券特征也僅反映商店和消費(fèi)券自身的受歡迎程度。用戶-商店屬于交叉特征,反映的是用戶對(duì)商店的喜歡程度或是消費(fèi)的可能性。

        3.算法描述

        化我們的損失函數(shù)并得到最終的強(qiáng)學(xué)習(xí)器,算法流程如圖1所示,訓(xùn)練集為,損失函數(shù),以及迭代次數(shù)M。

        由上述算法流程我們可以很清楚地發(fā)現(xiàn)GBDT就是在函數(shù)空間中的梯度下降。我們首先求得損失函數(shù)關(guān)于F(x)的負(fù)梯度,隨后訓(xùn)練基學(xué)習(xí)器去擬合負(fù)梯度并得到最優(yōu)步長(zhǎng),最后將各步得到的基學(xué)習(xí)器相加,也即是不斷地減去梯度,進(jìn)而得到最終的強(qiáng)學(xué)習(xí)器FM(x)。

        3.1 GBDT

        梯度提升決策樹(shù)(GBDT)(Jerome H Friedman.2001.Greedy function approximation:a gradient boosting machine.Annals of statistics(2001)1189-1232)是由Friedman提出的基于boosting框架的集成學(xué)習(xí)方法,它認(rèn)為boosting在一些適當(dāng)?shù)膿p失函數(shù)中是一種優(yōu)化算法。它的核心思想類(lèi)似于梯度下降,通過(guò)在函數(shù)空間中迭代地選取基學(xué)習(xí)器(通常是決策樹(shù))來(lái)指向損失函數(shù)的負(fù)梯度方向,進(jìn)而優(yōu)

        圖1 GBDT算法流程

        3.2 Catboost

        Catboost(A.V.Dorogush,A.Gulin,G.Gusev,N.Kazeev,L.Ostroumova Prokhorenkova,and A.Vorobev.Fighting biases with dynamic boosting.arXiv preprint arXiv:1706.09516,2017)是Gradient Boosting的一種新型實(shí)現(xiàn)。正如上一節(jié)的算法流程所示,在傳統(tǒng)的GBDT的每一步迭代中,它都是基于相同的數(shù)據(jù)集求得損失函數(shù)對(duì)于當(dāng)前模型的梯度,并基于該梯度來(lái)訓(xùn)練得到基學(xué)習(xí)器,但這會(huì)導(dǎo)致逐點(diǎn)梯度估計(jì)偏差,從而使得最終學(xué)習(xí)到的模型過(guò)擬合。Catboost通過(guò)采用Ordered Boosting的方式對(duì)經(jīng)典算法中梯度估計(jì)方式進(jìn)行改變,進(jìn)而獲得對(duì)梯度的無(wú)偏估計(jì),以減輕梯度估計(jì)偏差的影響,提高模型的泛化能力,Ordered Boosting的算法流程如圖2所示。

        圖2 Ordered Boosting流程

        由上述流程可知,為了得到無(wú)偏梯度估計(jì),Catboost對(duì)每一個(gè)樣本xi都會(huì)訓(xùn)練一個(gè)單獨(dú)的模型Mi,模型Mi由使用不包含樣本xi的訓(xùn)練集訓(xùn)練得到。我們使用Mi來(lái)得到關(guān)于樣本的梯度估計(jì),并使用該梯度來(lái)訓(xùn)練基學(xué)習(xí)器并得到最終的模型。

        3.3 評(píng)判指標(biāo)

        對(duì)于顧客是否會(huì)在指定時(shí)間內(nèi)核銷(xiāo)優(yōu)惠券,我們將其轉(zhuǎn)換為一二分類(lèi)問(wèn)題進(jìn)行處理,并且我們重點(diǎn)關(guān)注模型的泛化性能力,所以我們采用ROC曲線下面積AUC來(lái)作為評(píng)判模型的指標(biāo)。我們基于模型的預(yù)測(cè)結(jié)果對(duì)樣本進(jìn)行排序,計(jì)算得到“真正例率”(True Positive Rate,TPR)和“假正例率”(False Positive Rate,FPR)并分別作為縱軸和橫軸從而得到ROC曲線,最終得到曲線下面積AUC。具體公式如下:

        其中TP為正確預(yù)測(cè)的正樣本數(shù),F(xiàn)P錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù),TN為正確預(yù)測(cè)的負(fù)樣本數(shù),F(xiàn)N為錯(cuò)誤預(yù)測(cè)的正樣本數(shù)。

        4.實(shí)驗(yàn)結(jié)果

        我們從時(shí)間維度上對(duì)原始數(shù)據(jù)進(jìn)行滑窗劃分,以連續(xù)4個(gè)月作為一個(gè)窗口,一個(gè)月作為間隔,將前三個(gè)月作為特征數(shù)據(jù),后一個(gè)月作為標(biāo)簽數(shù)據(jù),以此將原始數(shù)據(jù)分為3個(gè)數(shù)據(jù)集。我們使用前兩個(gè)數(shù)據(jù)集訓(xùn)練模型,用第三個(gè)數(shù)據(jù)集來(lái)測(cè)試模型,得到模型的AUC并和傳統(tǒng)的GBDT和另一種著名實(shí)現(xiàn)Xgboost(T.Chen and C.Guestrin.Xgboost:A scalable tree boosting system.In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,pages 785-794.ACM,2016)進(jìn)行對(duì)比,ROC曲線和AUC結(jié)果如圖3和表2所示。

        表2 AUC結(jié)果對(duì)比

        圖3 ROC曲線

        如結(jié)果所示,Catboost算法的AUC值都高于其它兩種算法,相較于其它兩種算法,Catboost具有更高的準(zhǔn)確度和更強(qiáng)的泛化能力。

        5.結(jié)語(yǔ)

        本文采用新型梯度提升決策樹(shù)Catboost算法,并基于真實(shí)的客戶歷史行為信息構(gòu)造用戶消費(fèi)模型,預(yù)測(cè)用戶是否會(huì)在指定時(shí)間內(nèi)核銷(xiāo)優(yōu)惠券。實(shí)驗(yàn)結(jié)果表明,Catboost具有更高的準(zhǔn)確度和更好的的泛化能力,從而能更加準(zhǔn)確地預(yù)測(cè)用戶將來(lái)的消費(fèi)模式,進(jìn)而為優(yōu)惠券的個(gè)性化投放提供一種更為可靠的決策依據(jù)。

        猜你喜歡
        特征用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        3D打印中的模型分割與打包
        關(guān)注用戶
        關(guān)注用戶
        加勒比东京热久久综合| 无遮无挡爽爽免费毛片| 人妻aⅴ无码一区二区三区| 久久久久综合一本久道| 在线观看中文字幕不卡二区| av在线免费观看蜜桃| 人妻丝袜av中文系列先锋影音| 北条麻妃在线视频观看| 日本骚色老妇视频网站| 精品人妻一区二区三区在线观看| 亚洲av无码专区亚洲av伊甸园| 欧美日本亚洲国产一区二区| 亚洲精品日本久久久中文字幕| 亚洲国产成人久久精品不卡| 国产一区二区女内射| 久久狠狠第一麻豆婷婷天天| 成年男人午夜视频在线看| 一本色道久久婷婷日韩| 亚洲av无码之国产精品网址蜜芽| 久久无码一一区| 久久av少妇亚洲精品| 2019nv天堂香蕉在线观看 | 成人综合婷婷国产精品久久蜜臀 | 久久av不卡人妻出轨一区二区| 亚洲精品国偷拍自产在线观看| 色婷婷七月| 亚洲视频精品一区二区三区| 操风骚人妻沉沦中文字幕 | 有码精品一二区在线| 日本在线视频二区一区 | 亚洲av天堂一区二区| 中国午夜伦理片| 日本www一道久久久免费榴莲| 中文字幕在线人妻视频| 日韩精品视频久久一区二区| 国产成人无码a区在线观看视频| 亚洲欧美日韩国产精品一区| 色噜噜亚洲精品中文字幕| 亚洲国产精品无码久久| 亚洲国产成人91| 白白色青青草视频免费观看|