亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)降噪自動編碼器的點擊率預(yù)測①

        2021-06-28 06:28:14王洪波王富豪李亞峰
        關(guān)鍵詞:特征模型

        劉 勐,王洪波,2,3,王富豪,李亞峰

        1(復(fù)旦大學(xué) 工程與應(yīng)用技術(shù)研究院,上海200433)

        2(復(fù)旦大學(xué) 上海智能機(jī)器人工程技術(shù)研究中心,上海 200433)

        3(復(fù)旦大學(xué) 智能機(jī)器人教育部研究中心,上海 200433)

        信息爆炸與大數(shù)據(jù)技術(shù)的普及,促進(jìn)了個性化推薦技術(shù)的快速發(fā)展[1].作為廣告推薦系統(tǒng)一項重要任務(wù),點擊率預(yù)測(CTR)對于許多互聯(lián)網(wǎng)公司來說都是必不可少的.例如,YouTube 每天的視頻播放時間已超過10 億小時.其推薦系統(tǒng)需要根據(jù)用戶需求、興趣等,通過推薦算法通過從海量數(shù)據(jù)中高效準(zhǔn)確的預(yù)測用戶感興趣項目,并將結(jié)果以個性化列表的形式推薦給用戶[2].

        用戶與項目數(shù)據(jù)的特征通常是離散和稀疏的,因此CTR 預(yù)測任務(wù)的關(guān)鍵挑戰(zhàn)是如何有效學(xué)習(xí)特征之間的交互來建模這種數(shù)據(jù).過去,已有許多學(xué)者提出相關(guān)算法來解決此問題,如邏輯回歸(LR)[3]、基于樹的模型[4]、貝葉斯模型[5]、基于張量的模型[6]和基于因子分解的模型[7,8]等.這些模型通過學(xué)習(xí)成對特征之間的低階交互提高特征表示能力,但同時會帶來了與任務(wù)無關(guān)的特征交互組合.近年來,依靠強(qiáng)大特征表示能力,深度學(xué)習(xí)在計算機(jī)視覺[9,10]和自然語言處理[11,12]等許多領(lǐng)域開始大放光彩.最近幾年深度學(xué)習(xí)模型也開始逐步在推薦領(lǐng)域得到應(yīng)用,例如基于神經(jīng)網(wǎng)絡(luò)的因子分解模型(FNN)[13],基于注意力機(jī)制的因式化機(jī)模型(AFM)[14],Wide &Deep[15],DeepFM[16]等.當(dāng)前絕大多數(shù)解決點擊率預(yù)測問題的深度學(xué)習(xí)算法大致分為3 個步驟.首先,利用嵌入表示模型將用戶和項目高維稀疏特征映射為低維稠密向量.然后,對得到的嵌入向量使用內(nèi)積、外積或者哈達(dá)瑪積等運算獲得特征交叉表示.最后,基于隱向量使用多層感知器(MLP)預(yù)測用戶對于項目的評分或者偏好.

        在實際應(yīng)用中,由于相當(dāng)大比例的用戶和項目屬性通常是離散和稀疏的,CTR 模型會使用嵌入操作來處理輸入數(shù)據(jù).但是,常見的嵌入表示模型在處理數(shù)據(jù)集出現(xiàn)頻率較低的樣本時,很難學(xué)習(xí)到合適的特征表征,在系統(tǒng)冷啟動時性能表現(xiàn)較差.MLP 在深度學(xué)習(xí)模型中起到了基于bit-wise 層級的特征交互和非線性變換的作用,但在vector-wise 層次的特征交互上表現(xiàn)較差.同時,隨著MLP 的深度和寬度的增加,在增加學(xué)習(xí)能力的同時也增加了參數(shù)量和過擬合的風(fēng)險.

        基于上述問題,本文提出了一種基于改進(jìn)降噪自動編碼器(DAE)[17]的點擊率預(yù)測模型ADVAE (ADditional Variational AutoEncoder).該方法通過添加噪聲來生成嵌入信息來學(xué)習(xí)稀疏和高維輸入特征的稠密低維表示,提高了模型在bit-wise和vector-wise 層次的特征交互能力,改善由于數(shù)據(jù)稀疏性引起的特征不平衡問題.同時,ADVAE 模塊使得模型即使在數(shù)據(jù)樣本特征稀疏甚至缺失情況下,也可以產(chǎn)生有效的嵌入表示,有效緩解了推薦系統(tǒng)中常見的冷啟動問題.同時,該模型的ADVAE模塊可以針對不同任務(wù)動態(tài)地應(yīng)用于到其他模型,具有很強(qiáng)的靈活性.

        1 點擊率預(yù)測

        點擊率預(yù)測利用用戶與項目之間的二元關(guān)系,基于用戶歷史行為記錄或者相似性關(guān)系幫助發(fā)現(xiàn)用戶可能感興趣的項目,對用戶的點擊行為進(jìn)行預(yù)測.

        1.1 點擊率預(yù)測模型

        點擊率預(yù)測模型主要包含傳統(tǒng)模型和深度學(xué)習(xí)模型兩種,其中傳統(tǒng)的推薦方法主要分為以下3 種[18]:基于內(nèi)容的推薦(content-based recommendtion)[19]、協(xié)同過濾推薦(collabortive filtering recommendation)[20]和混合推薦(hybrid recommendation)[21],深度學(xué)習(xí)通過組合低階特征形成稠密的高階語義信息,從而自動發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,解決了傳統(tǒng)機(jī)器學(xué)習(xí)手工設(shè)計特征的問題.常見的深度學(xué)習(xí)模型除了包含上述3 種傳統(tǒng)方法外還有基于社交網(wǎng)絡(luò)[22]、場景感知[23]等方法的推薦模型.

        1.2 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)在推薦系統(tǒng)中有著較為廣泛的應(yīng)用,主要用于從圖像、文本、音頻等信息中提取數(shù)據(jù)的隱藏特征.相比較多層感知機(jī),卷積神經(jīng)網(wǎng)絡(luò)使用權(quán)重共享結(jié)構(gòu)降低模型復(fù)雜度,有著更好的泛化能力.

        在目前的CTR 模型中,ConvNCF[24]模型應(yīng)用CNN 來改進(jìn)NCF,NCF 使用外積而不是點積來建模用戶-項目交互模式.此外,CCPM[25]使用對齊方式對相鄰字段執(zhí)行卷積,學(xué)習(xí)多個卷積層的相鄰特征間的依存關(guān)系.FGCNN[26]使用卷積層來代替?zhèn)鹘y(tǒng)的交互方式,使用多層卷積生成新的嵌入向量.上述卷積神經(jīng)網(wǎng)絡(luò)均在點擊率預(yù)測任務(wù)上取得了不錯表現(xiàn),但是忽略了特征嵌入和交互的關(guān)系.

        1.3 降噪自動編碼器

        自編碼器(Auto Encoder,AE)[27]通過一個編碼器和一個解碼器來重構(gòu)輸入數(shù)據(jù),學(xué)習(xí)數(shù)據(jù)的隱層表示.但是如果僅僅通過最小化輸入輸出的誤差來對模型訓(xùn)練,自編碼器常會學(xué)到一個恒等函數(shù).為解決這個問題,降噪自編碼器[17]通過在自動編碼器的輸入數(shù)據(jù)中加入噪聲得到,這樣降噪自編碼器在重構(gòu)輸入數(shù)據(jù)時,就被迫去除這種噪聲來學(xué)習(xí)到更加魯棒的輸入數(shù)據(jù)的表達(dá),降噪自編碼器通過這種方式提升了泛化能力以及在稀疏數(shù)據(jù)下的表現(xiàn).

        2 ADVAE

        考慮到數(shù)據(jù)的稀疏性和不平衡性,本文提出了一種改進(jìn)的降噪自動編碼器ADVAE.如圖1所示,該模型通過特征嵌入和特征交互合并為統(tǒng)一操作動態(tài)獲取嵌入向量的方式提高在點擊率預(yù)測任務(wù)上的表現(xiàn),主要包括普通Embedding模塊、ADVAE Embedding 模塊、低階特征交叉模塊以及高階特征交叉模塊.其中,ADVAE 模塊解決了特征稀疏嵌入的問題,生成的特征可以與原始特征嵌入向量融合,為其他分類模型靈活地提供更為豐富的特征輸入,是該模型的關(guān)鍵部分.

        圖1 ADVAE 網(wǎng)絡(luò)結(jié)構(gòu)圖

        2.1 輸入層與嵌入層

        大多數(shù)點擊率模型的數(shù)據(jù)輸入采用one-hot 的形式,使用嵌入操作將高維稀疏數(shù)據(jù)映射為低維特征向量.假設(shè)user與item 的輸入數(shù)據(jù)表示為:

        其中,si表示在第i個域的輸入數(shù)據(jù)的one-hot 表示,f表示輸入數(shù)據(jù)域的總數(shù),在不同的數(shù)據(jù)集上會有所變化.在域i(1≤i≤f)中,嵌入操作后的向量表示為ei∈?f×D,其中D是嵌入向量的維度.因此,每個輸入可以表示為矩陣E=(e1;e2;e3;···;ef),其中E∈?f×D.

        2.2 隨機(jī)噪聲

        在受模型復(fù)雜度、訓(xùn)練集數(shù)據(jù)量以及數(shù)據(jù)噪音等問題的影響下,通過編碼器得到的初始模型往往存在過擬合的風(fēng)險.在本文中,輸入數(shù)據(jù)的部分使用噪聲替代,這種加入同源隨機(jī)噪聲的方式一定程度上減輕了訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的差異性,可以提高模型的有效性和魯棒性,增加模型的泛化能力.其中,對于每個噪聲向量ei∈?1×D使用高斯分布進(jìn)行隨機(jī)初始化,并將普通Embedding 模塊得到的向量與噪聲向量拼接作為ADVAE 模塊卷積操作的輸入.

        其中,concat表示矩陣級聯(lián),E∈?f×D是嵌入層的輸出,N∈?(D?f)×D是噪聲矩陣.

        2.3 ADVAE 模塊

        如圖2所示,ADAVE 模塊主要包含3 個卷積層和3 個轉(zhuǎn)置卷積層.卷積操作不僅可以學(xué)習(xí)到pair-wise層次的特征交互,而且學(xué)習(xí)到多個域之間的交互.在對隱向量進(jìn)行上采樣的過程中,轉(zhuǎn)置卷積的引入,一方面還原原始特征信息,另一方面過濾掉了原始特征中對任務(wù)不相關(guān)特征,使得模型更關(guān)注于與任務(wù)相關(guān)的特征,上采樣過程中相關(guān)特征則會被賦予更大的權(quán)重,起到了數(shù)據(jù)特征在位置維度上的注意力機(jī)制作用.同時,ADAVE 模塊進(jìn)行的全局特征交互是bit-wise 層次的,而不僅是pair-wise 層次的.此外,添加噪聲輸入可以克服嵌入向量稀疏和數(shù)據(jù)不平衡的缺點,同時,這些額外的噪聲即可以捕獲內(nèi)部關(guān)系,也可以生成有利于交互的新向量.

        圖2 ADVAE 模塊

        編碼器由三層卷積層構(gòu)成,每經(jīng)過一層卷積層,卷積核的寬度減少一倍,編碼器的輸入為嵌入向量與噪聲向量組成的特征矩陣E′∈?1×D×D,卷積輸出為X0=?C×N×N.在卷積層最后使用兩層全連接網(wǎng)絡(luò)得到隱向量的均值和方差,計算過程如下所示.

        其中,Xo表示輸入,Wm和Wl是兩層全連接網(wǎng)絡(luò)的權(quán)重矩陣,bm和bl是偏差,φ是激活函數(shù),則隱變量Z~(μ,diag(σ))∈?N×N.

        解碼器使用與編碼器同數(shù)量的轉(zhuǎn)置卷積層,通過對隱變量的上采樣還原原始特征矩陣.同時,在編碼器部分加入了一個判別器,幫助提高ADVAE 對點擊率預(yù)測任務(wù)的特征學(xué)習(xí).

        2.4 損失函數(shù)

        該模型的損失函數(shù)共由4 部分組成,分別是編碼器重構(gòu)損失LM,判別器的分類交叉熵?fù)p失LB、MLP 分類器的交叉熵?fù)p失LC以及編碼器隱變量的KL 損失KL,其中:

        降噪自動編碼器一種具有降噪功能的特征提取器,目的是將一個包含噪聲的輸入數(shù)據(jù)轉(zhuǎn)化為一個干凈的數(shù)據(jù)輸出.在損失函數(shù)中,重構(gòu)損失和編碼器隱變量的KL損失保證了ADVAE 模型盡可能在引入噪聲條件下仍能還原出原始數(shù)據(jù)的輸入分布.其中,重構(gòu)損失使用均方誤差損失,以誤差的平方和作為損失,其函數(shù)易于求導(dǎo),保證模型對原始數(shù)據(jù)的生成能力;KL損失函數(shù)通過計算KL散度估計兩個分布的相似度,對編碼后隱變量進(jìn)行優(yōu)化,保證模型的編碼能力.

        模型在對點擊結(jié)果預(yù)測上使用了兩部分的損失,一是使用解碼器多層級特征作為預(yù)測判別器的輸入的分類損失LB,二是模型使用原始數(shù)據(jù)以及生成數(shù)據(jù)作為輸入構(gòu)造的MLP 分類器的損失Lc,兩部分損失均使用交叉熵?fù)p失函數(shù),由于具有非常強(qiáng)的概率分布表征能力,交叉熵?fù)p失函數(shù)常用于分類任務(wù).

        3 實驗分析

        本文在公開數(shù)據(jù)集Ctriteo、Avazu和Movielen-20M 上分別在點擊率預(yù)測效果以及系統(tǒng)冷啟動性能兩個方面與現(xiàn)有模型進(jìn)行了對比實驗,詳細(xì)說明如表1.參與對照實驗的CTR 模型包括僅使用初始化特征的線性方法LR、考慮二階特征交互的分解機(jī)方法(FM、FFM)以及高階交互的深度學(xué)習(xí)模型(DCN、Wide &Deep、AFM、Autoint、xDeepFM、FibiNet).

        表1 數(shù)據(jù)集說明

        3.1 實驗設(shè)置

        本文的實驗基于PyTorch 框架實現(xiàn),在3 個數(shù)據(jù)集上,模型的訓(xùn)練參數(shù)如表2所示,其中超參數(shù) λ1=1、λ2=0.1、λ3=0.5、λ4=1.所有對照模型與ADVAE 方法均使用相同的MLP 訓(xùn)練參數(shù).

        表2 模型訓(xùn)練參數(shù)

        本文選取AUC和LogLoss 值作為模型性能評估指標(biāo),AUC 值通過計算ROC 曲線下的面積得到,LogLoss通過計算預(yù)測結(jié)果與標(biāo)簽的交叉熵得到.

        3.2 點擊率預(yù)測實驗

        表3反映了各個模型在Ctriteo、Avazu和Movielen-20M 數(shù)據(jù)集上的性能表現(xiàn).可以看出,AVDAE 在各個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于現(xiàn)有模型.在實驗中,我們發(fā)現(xiàn)使用多層感知器(MLP)往往會導(dǎo)致過度擬合,如圖3所示對于Wide &Deep,xDeepFM和DNN 之類的幾種模型,通過使用多層感知器(MLP)訓(xùn)練約4 個epoch時的準(zhǔn)確率開始下降.但是,在使用ADVAE 模塊后時,在Criteo 數(shù)據(jù)集上訓(xùn)練10 個epoch 以及Avazu 數(shù)據(jù)集上訓(xùn)練8 個epoch 之后,準(zhǔn)確率仍有所提高,實驗結(jié)果說明,這種動態(tài)嵌入方式極大地減輕了MLP 的過度擬合的問題.

        圖3 準(zhǔn)確率變化曲線

        表3 點擊率預(yù)測實驗?zāi)P托阅鼙憩F(xiàn)

        3.3 冷啟動實驗

        冷啟動在推薦系統(tǒng)中表示該系統(tǒng)積累數(shù)據(jù)量較少,無法為新用戶提供個性化推薦的問題,是推薦系統(tǒng)的一個難題.

        在冷啟動實驗中,本文通過將輸入特征的值置零來屏蔽一定數(shù)量的屬性去模擬冷啟動情況.其中,K值表示特定屬性被屏蔽的概率.如表4所示,K值分別設(shè)置為20%、40%和60%.可以得到,在K值等于20%、40%、60%的冷啟動條件下,ADVAE 方法優(yōu)于所有現(xiàn)有模型.特別是在K值等于20%、40%的情況下,與AutoInt和xDeepFM 相比,ADVAE 性能有較明顯的提升.

        表4 冷啟動實驗?zāi)P托阅鼙憩F(xiàn)

        在Criteo和Avazu 數(shù)據(jù)集這兩個數(shù)據(jù)集中存在缺失值,xDeepFM、AutoInt 等算法更關(guān)注于數(shù)據(jù)嵌入后的特征交互,但沒有注意之前的嵌入操作是否合理.而ADVAE 模型通過引入噪聲生成特征去動態(tài)修復(fù)原始嵌入,使得模型在處理數(shù)據(jù)缺失問題時更加魯棒.

        結(jié)果表明,在系統(tǒng)冷啟動情況下,ADVAE 模型仍可以找出最合適的預(yù)測結(jié)果.

        4 結(jié)論與展望

        本文提出了一種基于改進(jìn)降噪編碼器的點擊率預(yù)測模型,通過引入噪聲數(shù)據(jù)生成新的嵌入特征來學(xué)習(xí)特征嵌入與特征交互的關(guān)系,然后分別進(jìn)行低階和高階的特征交互來預(yù)測用戶點擊行為.本文和常見點擊率預(yù)測模型,如線性回歸(LR)、FFM、xDeepFM 等,進(jìn)行了比較.實驗結(jié)果表明,本文提出的點擊率預(yù)測算法在AUC、LogLoss 等指標(biāo)上顯著優(yōu)于現(xiàn)有模型,同時,在數(shù)據(jù)稀疏及系統(tǒng)冷啟動條件下,仍有較好的性能表現(xiàn),有效緩解過擬合現(xiàn)象.

        本文提出的模型主要應(yīng)用于當(dāng)前互聯(lián)網(wǎng)點擊率預(yù)測任務(wù),其中ADVAE 模塊可以動態(tài)應(yīng)用到各類點擊率預(yù)測模型中,具有很強(qiáng)的靈活性.但是在實際應(yīng)用中,實際場景對算法的實時性要求較高.所以,如何在保證算法預(yù)測性能的同時降低模型復(fù)雜度是本文后續(xù)研究的重要工作之一.

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        女人扒开下面无遮挡| 久久精品人人爽人人爽| 粉嫩极品国产在线观看免费一区| 国产成人精品视频网站| 欧美综合自拍亚洲综合图片区| 亚洲av成人无码久久精品老人| 日韩成人高清不卡av| 国产精品毛片久久久久久l| 国产伦精品一区二区三区| 国产亚洲精品久久久久5区| 99视频偷拍视频一区二区三区| 欧美 亚洲 国产 日韩 综AⅤ| 亚洲男同志网站| 四虎影视久久久免费观看| 国产一级内射一片视频免费| 亚洲AV无码乱码一区二区三区| 久久久久无码国产精品不卡| 亚洲人成国产精品无码果冻| 91人妻一区二区三区蜜臀| av天堂线上| 久久久久这里只有精品网| 无码一区二区三区亚洲人妻| 久久亚洲精品中文字幕| 国产影院一区二区在线| 精品国产爱在线观看| 国产乱淫视频| 欧洲成人午夜精品无码区久久| 蜜臀亚洲av无码精品国产午夜.| 亚洲av老熟女一区二区三区| 丰满人妻被猛烈进入中文字幕护士| 欧美日韩性高爱潮视频| 欧性猛交ⅹxxx乱大交| 日产无人区一线二线三线乱码蘑菇| 国产成人精品无码片区在线观看| 可以直接在线看国产在线片网址 | av成人一区二区三区| 日本久久黄色高清视频| 18禁国产美女白浆在线| 国产精品久久无码不卡黑寡妇| 国产自国产在线观看免费观看| 亚洲啪av永久无码精品放毛片|