亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RNN和GBDT融合方法的用戶活躍度預(yù)測(cè)

        2020-03-05 04:22:08盛愛林左劼孫頻捷
        現(xiàn)代計(jì)算機(jī) 2020年3期
        關(guān)鍵詞:特征融合用戶

        盛愛林,左劼,孫頻捷

        (1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.上海政法學(xué)院,上海200000)

        0 引言

        好看視頻App是一個(gè)聚合平臺(tái),為用戶提供海量高質(zhì)量的短視頻內(nèi)容。它提供的短視頻類型覆蓋了所有的范圍,如樂趣、音樂、電影、娛樂、游戲、生活等。百度好看視頻App使用智能算法了解用戶的興趣和偏好,并向用戶推薦量身定制的視頻內(nèi)容。在快速增長(zhǎng)的過程中,百度好看視頻App也面臨新的挑戰(zhàn)。新用戶可以下載應(yīng)用程序?yàn)g覽和播放視頻一段時(shí)間。一些新的用戶將在第二天繼續(xù)使用App觀看視頻(我們稱他們?yōu)榛貧w用戶);但是,其他用戶不再使用該應(yīng)用程序。我們想知道如何提高提高用戶留存率以及深度挖掘影響用戶留存率的因素。

        根據(jù)用戶的人像數(shù)據(jù)(性別、年齡、學(xué)歷、地理位置、興趣愛好等)、用戶瀏覽行為、當(dāng)天使用時(shí)間、安裝來源等,任務(wù)是估計(jì)新用戶是否會(huì)在第二天使用百度好看App。

        對(duì)于這種異構(gòu)數(shù)據(jù),GBDT模型將有很好的性能,對(duì)類別數(shù)據(jù)的支持在這里尤為重要。因此,我們選擇了支持類別特征的LightGBM和CatBoost作為GBDT的代表模型,來檢驗(yàn)我們的特征的有效性和結(jié)果的差異性。

        ManyToMany結(jié)構(gòu)的RNN模型,其每一個(gè)輸入都對(duì)應(yīng)輸出后的用戶是否活躍,充分利用了監(jiān)督信息,減少了梯度對(duì)負(fù)荷的影響,使訓(xùn)練更加容易。與Light GBM和CatBoost相比,RNN以歷史統(tǒng)計(jì)數(shù)據(jù)作為特征,不需要對(duì)輸入序列進(jìn)行過多的處理,可以直接輸入各種行為序列。通過余弦退火快照集成方法,可以以很低的成本獲得大量不同的局部最優(yōu)解。

        訓(xùn)練集包含大量的用戶和視頻交互信息,包括喜歡、轉(zhuǎn)載、評(píng)論等,還有一些視頻沒有顯示給用戶,在后臺(tái)推薦。利用RNN多對(duì)多結(jié)構(gòu)模型和GBDT模型融合的方法來增強(qiáng)模型的魯棒性。

        1 問題定義

        WSDMCup用戶留存率預(yù)測(cè)比賽是一個(gè)典型的二分類任務(wù),用于預(yù)測(cè)用戶在體驗(yàn)百度好看App的第一天之后是否重新使用該App??捎玫脑夹畔ㄓ脩舻膶傩詳?shù)據(jù)、視頻的屬性數(shù)據(jù)和交互信息數(shù)據(jù)。挑戰(zhàn)的設(shè)置是使用第一天的交互信息作為訓(xùn)練數(shù)據(jù),并預(yù)測(cè)用戶第二天是否重新使用App。

        為了證明預(yù)測(cè)的性能,我們使用對(duì)數(shù)損失作為評(píng)估指標(biāo),定義如下:

        上面式子中,N是用戶的總數(shù),log是自然對(duì)數(shù),yi是樣本標(biāo)簽,pi是模型預(yù)測(cè)的結(jié)果輸出。

        2 算法實(shí)現(xiàn)

        2.1 預(yù)處理數(shù)據(jù)

        區(qū)域編碼和評(píng)論這兩個(gè)字段的數(shù)據(jù)取值都相同,因此直接刪除掉。用戶上次播放視頻的時(shí)間為s,最后一次視頻播放的時(shí)間點(diǎn)加上視頻播放時(shí)間的時(shí)間點(diǎn)是t,如果s和t不在同一天,那么刪除訓(xùn)練集中所有的此類用戶。

        由于性別、年齡、文化程度、安裝渠道在同一個(gè)用戶中并不獨(dú)特,所以這些特征都是選擇使用頻率最高的值作為其代表特征,并使用LabelEncoder作為最后的特征。

        2.2 特征工程

        由于原始數(shù)據(jù)中提供了三個(gè)數(shù)據(jù)集的集合,因此我們的特征可以從該三個(gè)維度的數(shù)據(jù)中生成,通過這三個(gè)維度的任意組合,我們可以創(chuàng)造出數(shù)百個(gè)特征出來。

        用戶操作數(shù),包括刪除顯示和點(diǎn)擊缺失值后的操作數(shù)、用戶觀看的視頻數(shù)和用戶關(guān)注的次數(shù)等,構(gòu)成用戶操作的特征集合。

        由于訓(xùn)練集的用戶都是新用戶,且時(shí)間限制在一天之內(nèi),時(shí)間滑動(dòng)窗口特征將失去其統(tǒng)計(jì)意義。但是時(shí)間點(diǎn)類型特征,例如上次或者第一次用戶做什么,意義重大。我們可以在這些時(shí)間點(diǎn)上做一些計(jì)時(shí)操作,例如時(shí)差、時(shí)差平均值等。同時(shí)我們也考慮到了視頻的特點(diǎn)。我們做了很多基于視頻的統(tǒng)計(jì)特征,例如播放的總持續(xù)時(shí)間、點(diǎn)擊次數(shù)、標(biāo)簽的TF-IDF值的總和等。

        從業(yè)務(wù)場(chǎng)景出發(fā),我們生成了一些不尋常的特征。例如時(shí)間衰減特性放大了時(shí)間對(duì)用戶的影響。由于只有一天的動(dòng)作記錄,用戶在特定時(shí)間的操作將變得尤為重要。我們可以聚合多個(gè)維度進(jìn)行嵌套,然后進(jìn)行堆疊操作。我們選擇在一個(gè)特定維度上聚合,然后在用戶級(jí)別聚合。例如,我們聚合視頻類型的特性,然后將它們聚合為一系列的聚合特征,例如單擊、喜歡和轉(zhuǎn)發(fā),然后合并到用戶級(jí)別,然后在用戶級(jí)別再次執(zhí)行聚合操作。我們稱通過該方法生成的特征為多層疊加特征。

        通過我們的模型選擇和特征重要性排序,我們得到了前五個(gè)特征:①用戶上次打開App的時(shí)間;②用戶首次打開App的時(shí)間與上次打開App的時(shí)間間隔;③App安裝渠道;④用戶首次打開App的時(shí)間;⑤用戶交互的總持續(xù)時(shí)間。特征重要也說明我們的特征工程思想是正確的。

        2.3 模型

        (1)梯度提升模型

        LightGBM和CatBoost是兩個(gè)梯度提升模型框架,是基于決策樹的學(xué)習(xí)算法。XGBoost[2]逐層構(gòu)建節(jié)點(diǎn),LightGBM逐點(diǎn)構(gòu)建節(jié)點(diǎn),CatBoost始終使用完整的二叉樹來構(gòu)建節(jié)點(diǎn),它的節(jié)點(diǎn)是鏡像。CatBoost調(diào)用對(duì)稱樹來避免過擬合,提高可靠性,并大大加快預(yù)測(cè)速度。另外,LightGBM是基于直方圖的決策樹算法、具有深度限制的葉子生成策略以及使用直方圖進(jìn)行差分加速。因此,將兩種方法結(jié)合起來可以取得很好的效果。

        圖1 LightGBM的葉子生成策略

        我們根據(jù)大量的歷史數(shù)據(jù)特征進(jìn)行訓(xùn)練,并通過參數(shù)來控制過擬合策略,使訓(xùn)練效果的改善更加穩(wěn)定。我們還使用了兩個(gè)框架進(jìn)行訓(xùn)練,獲得效果如表1所示。

        表1 GBDT方法的分?jǐn)?shù)

        我們可以看出,在這個(gè)數(shù)據(jù)集上,CatBoost的效果比LightGBM要好,我們構(gòu)建的特征也更好地反映在具體的分?jǐn)?shù)上。

        (2)RNN模型

        通常設(shè)想使用RNN的解決方案,輸入用戶行為序列,并用用戶是否在第二天處于活躍狀態(tài)來標(biāo)記該序列,這種RNN結(jié)構(gòu)被稱為ManyToOne。

        圖2 ManyToOne的RNN結(jié)構(gòu)

        為了充分利用數(shù)據(jù),訓(xùn)練數(shù)據(jù)需要大量的滑動(dòng)窗口來實(shí)現(xiàn)數(shù)據(jù)的擴(kuò)充,但這樣也會(huì)導(dǎo)致計(jì)算量過大。另外,每個(gè)序列只有一個(gè)標(biāo)簽,梯度很難傳遞,導(dǎo)致訓(xùn)練非常困難。相反,我們可以考慮ManyToMany的結(jié)構(gòu),即每個(gè)輸入對(duì)應(yīng)一個(gè)輸出,用戶是否在第二天處于活躍狀態(tài)。充分利用了監(jiān)督信息,減輕梯度傳遞的負(fù)擔(dān),使訓(xùn)練更加容易。

        圖3 ManyToMany的RNN結(jié)構(gòu)

        LightGBM和CatBoost的方法,主要以歷史數(shù)據(jù)為特征。而RNN不需要處理太多的輸入序列,可以直接輸入各種行為序列,簡(jiǎn)單的列表如下:

        ●當(dāng)天是否登錄(0或者1)

        ●觀看視頻的次數(shù)

        ●動(dòng)作類型(是否顯示、是否點(diǎn)擊、是否收藏等)的操作次數(shù)

        另外,直接在輸出層進(jìn)行截距拼接,輸入日期和安裝渠道。低頻類別可以劃分為一個(gè)總的類別。通過余弦退火和快照集成,可以以非常低的成本獲得大量不同的局部最優(yōu)解,最后融合可以實(shí)現(xiàn)顯著的提升。

        (3)快照集成

        在訓(xùn)練開始時(shí),SGD將在權(quán)重空間做一個(gè)較大的跳躍,隨后,由于采用余弦退火策略,學(xué)習(xí)率逐漸降低。SGD收斂到局部最優(yōu)解,并通過快照集成將模型權(quán)重加入到集合中,實(shí)現(xiàn)模型的融合。然后,將學(xué)習(xí)率重置為一個(gè)較大的值,在模型收斂到某些不同的最優(yōu)解之前,SGD將再次顯著跳躍。

        快照集成方法的迭代周期為20到40次。長(zhǎng)期循環(huán)學(xué)習(xí)率可以在權(quán)重空間中找到盡可能不同權(quán)重的模型。如果模型相似,則融合模型中各個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果也會(huì)非常接近,使得融合模型的優(yōu)點(diǎn)變得微不足道。快照集成的效果很好,大大提高了模型的性能,而快速集合集成方法效果更好。

        (4)隨機(jī)加權(quán)平均

        隨機(jī)加權(quán)平均法(SWA)與快速集合集成方法(FGE)非常接近,但是計(jì)算量小。SWA可以應(yīng)用于任何模型結(jié)構(gòu)和數(shù)據(jù)集,并在這些數(shù)據(jù)集中顯示出良好的效果。SWA將趨于全局最低水平。SWA不是我們?cè)趥鹘y(tǒng)意義上理解的集成方法。在訓(xùn)練結(jié)束時(shí),將得到一個(gè)性能優(yōu)于快照集成和FGE的模型。

        如圖4所示,W1、W2和W3代表三個(gè)獨(dú)立訓(xùn)練的網(wǎng)絡(luò),WSWA是它們的平均值。與SGD相比,在測(cè)試集上表現(xiàn)出更好的性能。

        SWA的靈感來自于經(jīng)驗(yàn)觀察,在每個(gè)學(xué)習(xí)率周期結(jié)束時(shí),局部極小值往往在損失曲面上損失值極低的區(qū)域的邊界處累積。通過對(duì)這些點(diǎn)的損失值進(jìn)行平均,可以得到具有較低損失值、推廣性和通用性的全局最優(yōu)解。

        圖4 SWA

        3 實(shí)驗(yàn)結(jié)果分析

        提出的兩階段學(xué)習(xí)過程包括特征工程和參數(shù)優(yōu)化等技術(shù)部分。我們應(yīng)用不同的參數(shù)來獲得最終的結(jié)果。使用了最佳CatBoost的結(jié)果和兩個(gè)RNN模型的結(jié)果進(jìn)行集成,得到了最高的分?jǐn)?shù)。我們?nèi)诤喜呗允钳B加和平均,使用ManyToMany的結(jié)果作為訓(xùn)練Cat?Boost的特征,并應(yīng)用CatBoost模型的結(jié)果和RNN-Ma?nyToMany結(jié)果的平均值。我們提交了線下驗(yàn)證集上的最高分?jǐn)?shù),最終在排行榜上的得分為0.7671。

        表2融合方法分?jǐn)?shù)

        4 結(jié)語

        本文介紹了一個(gè)實(shí)用的端到端的機(jī)器學(xué)習(xí)解決方案,在特征工程部分,采用多種數(shù)據(jù)分割方法豐富了特征提取,并利用多層疊加特征和時(shí)間衰減特征對(duì)模型進(jìn)行增強(qiáng)。最后,在模型學(xué)習(xí)部分,我們使用三種方法來建立我們最終的方案,我們這種方法在離線測(cè)試和線上測(cè)試中,都具有很好的表現(xiàn)。進(jìn)一步工作將包括使用CNN和DeepFM來提高我們現(xiàn)有模型的性能。

        猜你喜歡
        特征融合用戶
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        丰满少妇一区二区三区专区| 超碰97人人做人人爱少妇| 久久精品国波多野结衣| 蜜桃av观看亚洲一区二区 | 91高清国产经典在线观看| 国产精品一区二区三密桃| av成人一区二区三区| 日本做受120秒免费视频| 少妇无码av无码专区| 亚洲夜夜骑| 亚洲视频一区二区三区免费| 久久精品国产av麻豆五月丁| 五月天激情电影| 欧美gv在线观看| 91热国内精品永久免费观看| 亚洲精品中文字幕一二 | 午夜福利理论片高清在线观看| 四川丰满少妇被弄到高潮| 五月激情婷婷丁香| 亚洲av一二三又爽又爽又色| 丝袜美腿福利一区二区| 国产色欲av一区二区三区| 久久人人爽人人爽人人片亞洲| 精品久久久久88久久久| 中文字幕在线乱码日本| 亚洲最大免费福利视频网| 日产无人区一线二线三线乱码蘑菇| 久久成人免费电影| 91久久精品一二三区色| 人人澡人人妻人人爽人人蜜桃麻豆| www国产无套内射com| 国产大片中文字幕| 精品久久人妻av中文字幕| 国产一区二区三区乱码| 国产小视频网址| 中文字幕日本五十路熟女| 国产大屁股视频免费区| 醉酒后少妇被疯狂内射视频| 素人激情福利视频| 免费的小黄片在线观看视频| 中文字幕久久精品一二三区|