亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多維用戶畫像和DeepFM的“環(huán)評云助手”資源推薦研究

        2023-07-13 02:48:52李天玉車蕾丁峰譚悅
        關(guān)鍵詞:畫像標簽特征

        李天玉,車蕾,丁峰,譚悅

        (1.北京信息科技大學 信息管理學院,北京 100192;2.北京尚云環(huán)境有限公司,北京 102208)

        環(huán)境影響評價(以下簡稱“環(huán)評”)可定義為:對規(guī)劃和建設項目實施后可能造成的環(huán)境影響進行分析、預測和評估,提出預防或者減輕不良環(huán)境影響的對策和措施.環(huán)評行業(yè)用戶畫像是畫像技術(shù)在環(huán)境評估領(lǐng)域的具體應用,它在用戶畫像的基本理念上添加了新的約束條件和應用場景.在大數(shù)據(jù)時代背景下,用戶信息分散,面對如此豐富的海量數(shù)據(jù),將用戶信息抽象成標簽,加以組合利用,挖掘出隱藏在大數(shù)據(jù)中的信息可以為用戶提供更加精準的、有效的個性化服務.近年來,用戶畫像在推薦算法領(lǐng)域取得了系統(tǒng)性的突破,但基于環(huán)評行業(yè)特征來解決該行業(yè)用戶間資源推薦的研究還有待深入,存在的一些問題還有待去解決.

        “環(huán)評云助手”是一款服務于環(huán)境影響評價行業(yè)用戶的APP,其主要功能包括標準政策查詢?yōu)g覽、分類管理名錄查詢等,包含國家和地方發(fā)布的法律法規(guī)、政策文件、標準規(guī)范等22 000余條,100 000余名環(huán)評從業(yè)者或行業(yè)業(yè)余人員注冊使用,月活躍度高達40 000余人.

        本文充分利用“環(huán)評云助手”的行業(yè)文本資源和行業(yè)用戶行為特征,構(gòu)建體現(xiàn)行業(yè)特征的用戶畫像模型;同時結(jié)合深度因子分解機模型,以提高“環(huán)評云助手”資源推薦性能,滿足平臺用戶精準獲取有用資源的需求.模型在泛化能力和適用能力等方面都有相應提升.本文主要貢獻度如下:

        (1)更有效地利用平臺行業(yè)文本資源和用戶行為特征.模型同時考慮行業(yè)文本資源中長短文本對用戶畫像、標簽的貢獻性,并通過自定義規(guī)則對用戶行為進行評分,多維挖掘行業(yè)特征.

        (2)將用戶畫像與DeepFM模型結(jié)合,更準確地預測資源點擊率(CTR),以提高算法的推薦效率和綜合評價指標.

        (3)模型在“環(huán)評云助手”數(shù)據(jù)集上進行實驗并取得了很好的效果.開展與其他模型的對比實驗,實驗結(jié)果表明,模型在各評價指標方面均優(yōu)于其他模型.

        本文接下來首先闡述相關(guān)研究工作,第2節(jié)深入探討行業(yè)用戶畫像模型的構(gòu)建,第3節(jié)探討將用戶畫像應用于DeepFM模型,第4節(jié)展示并分析實驗工作及結(jié)果,最后對全文進行總結(jié)并對該研究方向進行展望.

        1 相關(guān)研究工作

        用戶畫像是從海量信息中抽取出用戶信息的集合,用于描述用戶需求、偏好與興趣的模型[1].最早提出用戶畫像概念的是交互設計之父A.Cooper,他將用戶畫像定義為“基于用戶真實數(shù)據(jù)的虛擬代表”.QUINTANA等[2]也將用戶畫像描述為“一個從海量數(shù)據(jù)中獲取并由用戶信息構(gòu)成的標簽集合”,通過這些標簽信息,可以反映用戶的需求、個性化偏好等.用戶畫像方法雖然起源于公安情報,在電子商務領(lǐng)域得到壯大發(fā)展,但如今在圖書情報[3]、科技情報[4]、社交論壇等領(lǐng)域都發(fā)揮著重要作用.當前,面向基于實證研究平臺的環(huán)評行業(yè)畫像研究仍是一個較為全新的領(lǐng)域,通過梳理畫像技術(shù)在用戶畫像領(lǐng)域的發(fā)展,可以為環(huán)評行業(yè)畫像的研究和應用提供借鑒.

        20世紀90年代,協(xié)同過濾技術(shù)的首次提出[5],標志著推薦系統(tǒng)成為一門獨立的學科而受到廣泛關(guān)注.如今,許多學者都在傳統(tǒng)推薦模型的基礎上結(jié)合用戶標簽特性和用戶畫像技術(shù)提出了新的個性化推薦方法.張亮[6]融合用戶、標簽、資源,利用LDA構(gòu)建主題模型,通過融合對象間關(guān)系與資源內(nèi)容特征進行標簽推薦.熊回香等[7-9]在此研究基礎上,不僅提出了從資源-標簽-用戶3個維度分別建立推薦組件,還構(gòu)建了基于社會化標簽的單用戶和群用戶興趣模型,通過協(xié)同過濾算法的思想,架構(gòu)了個性化信息服務流程.李興華等[10]提出了基于興趣-標簽的ITRA推薦算法,將用戶候選興趣集、推薦興趣-標簽集、項目推薦集作為最終的推薦結(jié)果.

        CTR預估用來估計用戶點擊推薦資源的概率,在推薦系統(tǒng)中極為重要.對于一個基于CTR預估的推薦系統(tǒng),重要的是學習到用戶行為潛在的特征組合.在不同的推薦場景中,低階組合特征或高階組合特征都可能會對最終的CTR預測結(jié)果產(chǎn)生影響.因子分解機(Factorization Machines,FM)是經(jīng)典的CTR預估模型,通過對每一維特征的隱變量內(nèi)積來提取特征組合,從而進行點擊率預測,但是FM因為計算復雜度等原因只用到了二階特征組合,不能獲得高階特征交互.為了解決上述問題,JUAN 等[11]在FM的基礎上引入field的概念,提出了領(lǐng)域知識因子分解機模型(Field-aware Factorization Machine,FFM),將每個field的embedding值傳入MLP,從而獲取了高階特征交互.2017年,GUO等[12]為了減少Wide&Deep模型中的特征工程,提出了 DeepFM,將embedding后的特征表示同時傳入淺層網(wǎng)絡和深層網(wǎng)絡,通過端到端的方式同時獲得了淺層特征交互表示與深層特征交互表示.

        由于上述文獻方法缺少行業(yè)特征的滲透,若直接應用在“環(huán)評云助手”APP中,將很難精準構(gòu)建用戶畫像并準確預測CTR點擊率,以滿足環(huán)評行業(yè)用戶的資源推薦需求.因此,本文結(jié)合行業(yè)特征,提出了一種融合文本資源特征和用戶行為特征的畫像模型并結(jié)合DeepFM模型實現(xiàn)用戶個性化推薦.

        2 “環(huán)評云助手”多維用戶畫像構(gòu)建

        基于APP數(shù)據(jù)集特征,先后提取“環(huán)評云助手”文本資源特征標簽和用戶行為特征進行自定義評分,并通過這兩個維度構(gòu)建環(huán)評行業(yè)用戶畫像要素關(guān)聯(lián)路徑,進而構(gòu)建“環(huán)評云助手”多維用戶畫像模型.

        2.1 基于文本資源特征的標簽集構(gòu)建

        本文基于環(huán)評行業(yè)文本資源特征,從標題短文本和摘要長文本兩方面進行考慮,多維度構(gòu)建用戶畫像.從邏輯結(jié)構(gòu)來看,文本標題屬于短文本,具有揭示環(huán)評資源內(nèi)容主旨的作用;文本摘要屬于長文本,闡明了該資源的適用范圍及主要內(nèi)容.這兩種文本在挖掘行業(yè)特征方面都起到重要作用,不僅能從行業(yè)文本資源特征中發(fā)掘用戶興趣,也充分考慮了文本邏輯結(jié)構(gòu)對畫像模型構(gòu)建的影響.

        2.1.1基于標題短文本的標簽構(gòu)建

        基于標題短文本的畫像標簽融合了行業(yè)詞、關(guān)鍵詞和主題詞三方面.將行業(yè)詞記作Lindustry,關(guān)鍵詞記作Lkey,主題詞記作Ltopic,共計m個用戶,則第i個用戶ui基于標題短文本的畫像標簽為:

        Li=[Lindustryi,Lkeyi,Ltopici].

        (1)基于標題短文本的行業(yè)詞.《建設項目環(huán)境影響評價分類管理名錄》(以下簡稱《分類管理名錄》)是環(huán)境影響評價領(lǐng)域重要的參考指標.該名錄劃分了55個一級分類,如農(nóng)業(yè)、林業(yè)、畜牧業(yè)、漁業(yè)等;一級分類中又下分了173個小類,例如畜牧業(yè)類中包括了牲畜飼養(yǎng)、家禽飼養(yǎng)和其他畜牧業(yè).本文統(tǒng)計了資源的分類名錄信息作為該資源的行業(yè)詞,一定程度上體現(xiàn)了用戶較為關(guān)注和感興趣的行業(yè)領(lǐng)域.

        (2)基于標題短文本的關(guān)鍵詞.使用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法進行詞頻統(tǒng)計,計算每個候選關(guān)鍵詞的綜合權(quán)重,從而依據(jù)該權(quán)重值對候選關(guān)鍵詞進行排序,得到高權(quán)重的關(guān)鍵詞[13].對資源標題文本使用此方法不僅可以生成作為標簽的詞匯,還反映該用戶在環(huán)評行業(yè)中最關(guān)注的領(lǐng)域關(guān)鍵詞.例如,某用戶的關(guān)鍵詞中,出現(xiàn)“水質(zhì)”的比例遠遠高于其他詞匯,則考慮該用戶在環(huán)評行業(yè)中對水質(zhì)領(lǐng)域的關(guān)注程度較高、從事水質(zhì)方面工作的可能性較大.

        (3)基于標題短文本的主題詞.隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型將文檔的主題以概率分布的形式給出,從而通過分析文檔、抽取主題分布后進行主題聚類.環(huán)評行業(yè)資源的標題文本具有一定的專業(yè)性和結(jié)構(gòu)性,可使用LDA主題模型對資源標題文本進行主題聚類,得到每個主題下的行業(yè)主題詞.例如,一些標題文本中會出現(xiàn)“水質(zhì)、光譜法、污染物、排放……”等圍繞環(huán)評方面的專業(yè)詞,且該領(lǐng)域的專業(yè)劃分明確,由此可以通過LDA主題模型生成圍繞環(huán)評行業(yè)主題展開的主題詞.

        2.1.2基于摘要長文本的特征提取

        基于摘要長文本的特征提取,其目的要抽取資源摘要中的文本特征,該方法使用TextRank文本摘要抽取算法,衡量每個句子與其他句子之間的聯(lián)系,求出該句子的候選權(quán)重,從而抽取主要內(nèi)容作為候選句[14].將用戶記作ui,候選句權(quán)重記作wi,候選句記作ci,則摘要生成結(jié)果根據(jù)候選權(quán)重wi排序,結(jié)果記為Labstracti=[ci,1,ci,2,ci,3].其主要5個步驟如下所示:

        (1)對文本T進行句子分割,即T=[S1,S2,…,Sn];

        (2)對每個句子Si∈T,進行分詞,停用詞、無意義的詞過濾等操作,即Si=[ti,1,ti,2,…,ti,n];

        (3)識別文本單元之間的關(guān)系,分別添加到圖模型中形成節(jié)點和邊;

        (4)對各節(jié)點的權(quán)重進行迭代計算,直到計算結(jié)果收斂,其公式如下所示:

        (1)

        其中,In(Vi)表示指向節(jié)點Vi的節(jié)點集,Out(Vj)表示指向節(jié)點Vj的節(jié)點集,wji表示節(jié)點Vj指向節(jié)點Vi的邊權(quán)重,d表示阻尼系數(shù),通常取0.85;

        (5)對候選句權(quán)重倒序排序,將權(quán)重排序中前3個句子作為目標文本的摘要句,若目標文本中的候選句數(shù)量小于3,則選取當前全部候選句作為摘要結(jié)果Labstracti=[ci,1,ci,2,ci,3].

        2.2 基于用戶行為的評分矩陣構(gòu)建

        用戶行為評分,可以將用戶與資源的交互行為數(shù)值化,體現(xiàn)了用戶對資源的興趣程度.所以通過統(tǒng)計用戶與資源之間的交互行為,分析其行為軌跡,建立行為軌跡與資源評價的關(guān)系,把用戶對資源的交互行為轉(zhuǎn)換成對應的興趣評分,不僅挖掘了用戶感興趣的資源,也在一定程度上改善了算法的矩陣稀疏問題[15].

        本文從用戶對環(huán)評行業(yè)文本資源的瀏覽、收藏、分享和評價行為入手,分別統(tǒng)計用戶對資源的瀏覽次數(shù)、評論次數(shù)、分享次數(shù)與收藏情況.本文采用自定義評分規(guī)則,參考付芬等[16]和顧寰等[17]對用戶行為評分的定義規(guī)則,定義評分取值范圍為Rjk∈[0,5].具體分值定義規(guī)則依據(jù)“環(huán)評云助手”用戶等級加分規(guī)則和APP虛擬貨幣“云貝”累計加分規(guī)則,各項評分由這兩方面加權(quán)平均得到.具體評分規(guī)則如表1所示.

        表1 用戶行為評分標準表

        (1)定義Rbrowser為用戶瀏覽行為評分,RFbrowser為瀏覽行為的獎勵因子,具體公式如下:

        Rbrowser=λ×rbrowser×RFbrowser.

        (2)

        (2)定義Rcollect為用戶收藏行為評分,RFcollect為收藏行為的獎勵因子,具體公式如下:

        Rcollect=λ×rcollect×RFcollect.

        (3)

        (3)定義Rshare為用戶分享行為評分,RFshare為分享行為的獎勵因子,具體公式如下:

        Rshare=λ×rshare×RFshare.

        (4)

        (4)定義Rcomment為用戶評論行為評分,RFcomment為評論行為的獎勵因子,具體公式如下:

        Rcomment=λ×rcomment×RFcomment,

        (5)

        其中,λ=1時表示用戶發(fā)生該行為,λ=0則表示該行為未發(fā)生.獎勵因子和用戶行為評分Rjk公式如下所示:

        RFbrowser+RFcollect+RFshare+RFcomment=1,Rjk=Rbrowser+Rcollect+Rshare+Rcomment.

        (6)

        記uj為第j個用戶,ik為第k個資源,rj,k為用戶j對資源k的評分,取值范圍rj,k∈[0,5].用戶行為評分矩陣如表2所示.

        表2 用戶行為評分矩陣

        綜上所述,通過融合行業(yè)資源特征和用戶行為特征兩個維度的特征,構(gòu)建體現(xiàn)行業(yè)特征的多維度用戶畫像模型.基于此脈絡,畫像構(gòu)建模型分為3部分:特征標簽提取、多維畫像構(gòu)建、畫像用戶分類與識別,構(gòu)建“環(huán)評云助手”多維用戶畫像模型,如圖1所示.

        在特征標簽提取部分,將文本資源分為基于標題的短文本和基于摘要的長文本,進一步從標題短文本中提取行業(yè)詞、關(guān)鍵詞和主題詞標簽,從摘要長文本中提取綜合摘要標簽;又將用戶行為分為瀏覽、收藏、分享和評論4項,根據(jù)自定義規(guī)則進行用戶行為評分,最終將文本資源標簽和用戶行為評分合并設定為資源特征標簽.根據(jù)提取的特征標簽作為“環(huán)評云助手”多維用戶畫像標簽,從而構(gòu)建用戶畫像.并根據(jù)畫像分析和總結(jié)對用戶進行分類和識別,主要從“用戶感興趣的方面”“用戶行為表現(xiàn)”兩方面識別和描述用戶.例如“一個愛分享對污水處理方面感興趣的用戶”、“一個愛評論收藏的金屬礦開采行業(yè)的用戶”等.

        3 基于DeepFM的資源點擊率(CTR)預測模型

        本文的主要任務是給用戶推薦其可能感興趣的行業(yè)文本資源,因此需要將用戶興趣與資源信息相關(guān)聯(lián),從而進行建模.在第2節(jié)中,已經(jīng)將用戶感興趣的資源信息和用戶對此資源產(chǎn)生的行為數(shù)據(jù)進行語義提取以及構(gòu)建評分矩陣,生成標簽和用戶畫像模型.因此,將用戶畫像標簽作為DeepFM的輸入數(shù)據(jù).

        3.1 特征表示

        由于用戶畫像標簽的數(shù)據(jù)量大且屬性種類繁多,使用one-hot編碼后,數(shù)據(jù)維度高且稀疏.單個特征表達能力弱、特征組合數(shù)據(jù)量爆炸、分布不均勻會導致受訓程度不均勻,所以需要通過embedding層將高維稀疏特征轉(zhuǎn)化為低維稠密特征.但數(shù)據(jù)維度過高時,傳入embedding層依舊會導致數(shù)據(jù)量爆炸,出現(xiàn)參數(shù)過多的情況.于是先引入field概念,可以將同一個特征經(jīng)過one-hot編碼生成的數(shù)值特征放到同一個field,再將不同filed傳入embedding層.盡管不同field的輸入維度不同,但是embedding之后向量的維度均相同[12],為模型后續(xù)FM layer和DNN layer的輸入打下基礎.本文與畫像結(jié)合的特征表示結(jié)構(gòu)如圖2所示.

        3.2 DeepFM模型

        DeepFM是一種基于因子分解機的神經(jīng)網(wǎng)絡,其目的是學習低階特征和高階特征的交互.因此DeepFM由兩部分組成,分別是因子分解機FM和深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN),這兩個部分共享相同的輸入.本文將用戶畫像與DeepFM模型結(jié)合,其結(jié)構(gòu)如圖3所示.

        DeepFM模型公式為:

        y′=sigmoid(yFM,yDNN),

        (7)

        其中,y′∈(0,1),yFM是FM部分的輸出,yDNN是深度神經(jīng)網(wǎng)絡部分的輸出.

        FM部分能用于學習特征之間的交互,每一個特征可以通過與其潛在的特征向量進行內(nèi)積運算,來衡量其相關(guān)性.因此,FM可以更好地學習數(shù)據(jù)中從未出現(xiàn)或很少出現(xiàn)的特征交互,有效地解決了本文行業(yè)資源特征和用戶行為特征因數(shù)據(jù)稀疏而導致的特征交互難以表示的問題.FM模型可以表示為:

        (8)

        其中,wi是特征xi的權(quán)重,Vi和Vj分別為特征xi和xj的潛在特征向量.

        Deep Layer部分是一個前饋神經(jīng)網(wǎng)絡,用于學習高階特征交互.由于用戶畫像標簽中特征輸入向量為分類連續(xù)混合,具有高度稀疏、數(shù)據(jù)維度高等特點,經(jīng)過one-hot編碼后,神經(jīng)網(wǎng)絡的學習困難,學習效果不佳.因此需要在第一個隱藏層之前加一層embedding層,將長度不同的輸入向量壓縮為長度固定、低維、稠密的向量,再輸入全連接網(wǎng)絡層.同時使用embedding層可以使FM Layer部分和Deep Layer部分共享embedding輸入層,使模型從原始特征中學習低階和高階特征交互.DNN部分最終的輸出結(jié)果為:

        yDNN=sigmoid(W|H|+1a|H|+1+b|H|+1),

        (9)

        其中,a0=[e1,e2,…,em](m為filed數(shù)量)作為DNN的輸入,sigmoid是激活函數(shù),al、Wl、bl分別是第l層的輸出、模型權(quán)重和偏差,|H|為隱藏層數(shù).

        4 實驗過程與分析

        4.1 數(shù)據(jù)采集及預處理

        本文篩選出“環(huán)評云助手”2019年11月到2021年1月期間,2 119名用戶對中華人民共和國生態(tài)環(huán)境部發(fā)表的有關(guān)環(huán)境影響評價的1 702篇文章產(chǎn)生的21 102條數(shù)據(jù),其中文章類型包括技術(shù)導則、技術(shù)規(guī)范、監(jiān)測規(guī)范及相關(guān)行業(yè)標準等,行為數(shù)據(jù)包括瀏覽、收藏、評論及分享等.“環(huán)評云助手”APP文本資源和用戶行為數(shù)據(jù)均為未公開數(shù)據(jù)集,使用權(quán)限已由北京尚云環(huán)境有限公司授權(quán),可作為論文數(shù)據(jù)集發(fā)表在期刊上.

        數(shù)據(jù)預處理主要包括:過濾數(shù)據(jù)集中的空數(shù)據(jù),根據(jù)哈爾濱工業(yè)大學實驗室提出的停用詞表,使用jieba分詞庫對數(shù)據(jù)集進行分詞,并去除停用詞、特殊符號和無意義的詞等.

        在上述數(shù)據(jù)集的基礎上,進一步劃分為資源信息數(shù)據(jù)集(Resource Information)和環(huán)評多維畫像數(shù)據(jù)集(EIA-UserPortrait),數(shù)據(jù)集具體屬性如下所示:

        EIA-UserPortrait=(industry,key,topic,abstract,R),

        Resource Information=(fileName,abstract,classification,flglml,gmjjdm),

        其中,fileName為資源名稱,abstract為資源摘要,classification為資源類型,flglml為分類管理名錄,gmjjdm為國民經(jīng)濟代碼.

        4.2 評價指標

        本文實驗以AUC和 LogLoss為評價指標0.

        AUC(Area Under Curve)為受試者操作曲線(Receiver operating characteristic,ROC)下與坐標軸圍成的面積,是衡量二分類模型優(yōu)劣的一種評價指標.CTR資源點擊率預測任務作為二分類模型任務,研究表明AUC作為一個評價二分類問題廣泛使用的指標,可作為評價其CTR預測性能的良好評價標準.LogLoss是二分類模型的評價標準,其基于概率度量,用來表示預測值與真實值之間的差距.蔣興渝等[15],GUO 等[12]和LIAN等[18]表示,對于CTR預測算法, AUC提高 1‰也具有意義,因為推薦算法一般用于公司用戶群體之間的推薦,如果用戶數(shù)量非常大,它為公司收入增幅也自然會很大.

        最后將整個數(shù)據(jù)集按4∶1的比例分割成訓練集和測試集,并保證正負樣本比例接近1∶1.表3列出了數(shù)據(jù)集的詳細劃分情況.

        表3 實驗數(shù)據(jù)集統(tǒng)計表

        4.3 實驗結(jié)果與分析

        實驗分析主要包括如下內(nèi)容:

        (1)通過多次實驗結(jié)果的比對,確定LDA主題模型的最優(yōu)主題數(shù)目;

        (2)基于相同參數(shù),使用DeepFM模型分別對Resource Information數(shù)據(jù)集和EIA-UserPortrait數(shù)據(jù)集進行實驗,測試多維用戶畫像對CTR預測模型的性能改進情況.與其他CTR預測模型作實驗對比,通過比對實驗結(jié)果,證明本文模型的有效性和優(yōu)勢.

        4.3.1LDA最優(yōu)主題數(shù)對比實驗

        為確定使LDA算法達到最優(yōu)性能評價指標所對應的主題數(shù),遍歷了1至51之間LDA主題數(shù)目,每次增加的步長為5,共9組實驗.分別統(tǒng)計每組實驗的困惑度值P(D),困惑度公式如下:

        (10)

        其中,D表示語料庫中的數(shù)據(jù)集,共M篇文檔,Nd表示每篇文檔D中的單詞數(shù),wd表示文檔d中的詞,p(wd)即文檔中詞wd產(chǎn)生的概率.實驗結(jié)果如圖4所示.

        從結(jié)果可以看出,LDA主題數(shù)目為41時, 困惑度值最小,性能綜合評價最好.

        4.3.2與其他CTR預測模型對比實驗與分析

        為了驗證所提模型的有效性,本文從以下2個類別中選擇基線:(1)基于Resource Information數(shù)據(jù)集的DeepFM模型(R-DeepFM),(2)基于EIA-UserPortrait數(shù)據(jù)集的DeepFM模型(EUP-DeepFM).

        實驗還將基線對比模型分為兩個部分:淺基線模型和深基線模型.淺基線模型實驗使用Resource Information數(shù)據(jù)集作為各CTR模型的輸入,深基線模型實驗使用EIA-UserPortrait數(shù)據(jù)集,測試各CTR模型與用戶畫像結(jié)合的模型性能.

        本文的淺基線模型為R-(GBDT+LR)、R-FM、R-FNN、R-PNN和R-DeepFM,深基線模型是各CTR模型和用戶畫像的結(jié)合,即EUP-(GBDT+LR)、EUP-FM、EUP-FNN、EUP-PNN和EUP-DeepFM.

        表4展示了淺基線模型在資源信息數(shù)據(jù)集上的AUC和LogLoss結(jié)果,DeepFM為本文CTR預測任務中使用的淺基線模型,觀察實驗結(jié)果可以看出R-DeepFM的性能均優(yōu)于其他淺基線模型,因此本文CTR預測部分使用DeepFM模型.

        表4 淺基線模型實驗性能對比

        為了進一步提升模型性能,將用戶畫像與各CTR預測模型結(jié)合,組成深基線模型,實驗性能對比結(jié)果如表5所示.通過觀察淺基線組與深基線組的模型性能比較可以看出,與用戶畫像模型結(jié)合在一定程度上提升了挖掘用戶潛在興趣的能力,使得CTR預測任務更加準確.在與其他CTR預測模型比較中,EUP-DeepFM在AUC和LogLoss兩方面的綜合表現(xiàn)優(yōu)于其他CTR預測模型,這說明本文提出的模型相比其他模型具有優(yōu)勢,也體現(xiàn)了用戶畫像和DeepFM模型的結(jié)合可以挖掘出更多有潛在價值的信息.

        表5 深基線模型實驗性能對比

        而且,基于“環(huán)評云助手”數(shù)據(jù)集進行實驗時,EUP-DeepFM模型比R-DeepFM模型在AUC值上提升了0.47%,LogLoss值降低了1.63%.EUP-DeepFM模型的AUC值越接近1并且LogLoss損失值更低,說明該模型真實性更高,模型的預測性能更好,意味著更好的CTR預測和模型性能.其原因在于用戶畫像標簽能挖掘出隱藏在用戶和資源數(shù)據(jù)中潛在的信息,可以使二分類模型任務具有更高的預測準確率,為用戶提供更加精準的、有效的個性化服務.

        5 結(jié) 論

        本文為“環(huán)評云助手”APP構(gòu)建行業(yè)用戶畫像和個性化推薦的研究工作提供了新的思路,部分解決了大數(shù)據(jù)時代APP中“信息過載”問題,為分析海量文本信息和精準找到信息提供了新的方法.針對“環(huán)評云助手”APP中行業(yè)資源文本特征利用不充分、資源推薦精準較低的問題,提出了結(jié)合用戶畫像與DeepFM模型結(jié)合的推薦算法,更充分利用了環(huán)評行業(yè)文本資源特征和行業(yè)用戶的行為特征,提升了推薦算法中CTR點擊率預測率問題.實驗結(jié)果表明,本文提出的模型有效提高了APP資源推薦的性能,具有一定的應用價值.

        本文雖對“環(huán)評云助手”資源推薦存在的問題進行了研究,但本文提出的模型也存在一定的不足.本文使用的數(shù)據(jù)為用戶歷史數(shù)據(jù),模型暫時沒有考慮用戶興趣等特征隨時間推移產(chǎn)生的變化.因此,在后續(xù)的研究工作中將進一步考慮用戶的興趣變化對模型的影響.

        猜你喜歡
        畫像標簽特征
        威猛的畫像
        “00后”畫像
        畫像
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        抓住特征巧觀察
        標簽化傷害了誰
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        青青草免费在线视频久草| 欧美大香线蕉线伊人久久| 亚洲熟妇色xxxxx欧美老妇| 激情五月婷婷久久综合| 亚洲国产综合精品中久| 18禁黄污吃奶免费看网站| 236宅宅理论片免费| 国产精品久久久久免费a∨不卡| 日韩一区二区三区人妻中文字幕| 久久久久av综合网成人| 四虎国产精品免费久久| 久久久精品国产亚洲AV蜜| 国产噜噜亚洲av一二三区| 中文字幕在线亚洲三区| 四虎影视永久地址www成人| 另类专区欧美在线亚洲免费| 国产一级黄色性生活片| 日本二一三区免费在线| 亚洲国产成人精品无码一区二区| 爽妇网国产精品| 国内精品极品久久免费看| 精品国产日韩一区2区3区| 啦啦啦www播放日本观看| 无码熟妇人妻AV影音先锋| 国产高清不卡在线视频| 日韩欧美中文字幕公布| 色婷婷综合久久久久中文| 国产自在自线午夜精品视频在 | 国产av一区麻豆精品久久| 国产女人好紧好爽| 国产无遮挡又黄又爽又色| 91日本在线精品高清观看| 风韵人妻丰满熟妇老熟| 插b内射18免费视频| 女性自慰网站免费看ww| 国产不卡av一区二区三区| 久久精品国产亚洲av久| 好男人视频在线视频| 日本一区二区三区的免费视频观看| 新中文字幕一区二区三区| 国产精成人品|