亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于向量化標(biāo)簽的視頻推薦算法研究與實現(xiàn)

        2020-09-03 02:26:04許良武
        無線互聯(lián)科技 2020年12期
        關(guān)鍵詞:用戶模型

        許良武

        (南京蘇寧軟件技術(shù)有限公司,江蘇 南京 210000)

        當(dāng)今互聯(lián)網(wǎng)技術(shù)迅速發(fā)展,信息爆炸時代隨之而來。信息過載導(dǎo)致用戶無法直接從中獲取有效信息,推薦系統(tǒng)應(yīng)運而生。常見推薦算法包括:基于隱語義模型、基于協(xié)同過濾算法、基于圖的推薦[1]。以上3種方法應(yīng)用廣泛,但也存在不足:(1)新用戶冷啟動問題。(2)復(fù)雜興趣推薦問題,如用戶興趣轉(zhuǎn)移較快時推薦不準(zhǔn)。(3)可解釋性差,提取特征多為隱特征,推薦的可解釋性不直觀。

        基于標(biāo)簽的視頻推薦系統(tǒng)架構(gòu)中,視頻信息包括視頻標(biāo)題、標(biāo)簽、分類、視頻簡介、導(dǎo)演演員、評分、評論等。標(biāo)簽作為視頻信息的高度抽象,通過分析用戶標(biāo)簽可以精準(zhǔn)地挖掘出用戶興趣偏好,從而為用戶推薦滿意的視頻。標(biāo)簽推薦整體架構(gòu)如圖1所示。

        圖1 標(biāo)簽推薦整體架構(gòu)

        1 標(biāo)簽概要

        視頻播放平臺上的編輯功能為視頻打上豐富且高質(zhì)量的標(biāo)簽,能較好地抽象視頻內(nèi)容。視頻可用于推薦的內(nèi)容并不是很豐富,因此,基于標(biāo)簽推薦就成為一種重要途徑[2]。視頻信息如表1所示。

        長視頻通常分為電視劇、電影、少兒、綜藝等眾多類別,本文實驗數(shù)據(jù)來自視頻播放平臺,在電影和電視劇上實驗。用戶規(guī)模選取1.2萬,電影電視劇4 200,近3個月約304萬條播放記錄。主要基于表1中tags和type字段推薦,tags標(biāo)簽池包含132個標(biāo)簽。

        2 相似度計算

        相似度計算在推薦召回中有多種方法,基于標(biāo)簽的相似度量通常采用Jaccard系數(shù)和余弦相似度。

        Jaccard系數(shù)計算如公式(1)。給定兩個集合的交集與并集的比值,值越大說明相似度越高。若兩個集合任一為空,則相似度為0。

        余弦相似度,通過兩個向量夾角的余弦值,衡量兩者相似度[3]。由公式(2)計算:

        3 用戶畫像

        為了達到千人千面的效果,根據(jù)用戶歷史觀看行為,獲得用戶畫像,從而推薦可能感興趣的視頻。tags標(biāo)簽池132維,而且近3個月人均播放視頻數(shù)約253個,因此,構(gòu)建132維用戶向量能很好地表征用戶興趣偏好?;跇?biāo)簽的推薦,將用戶觀看歷史所有視頻標(biāo)簽統(tǒng)計作為用戶對不同類型影片的偏好。

        表1 長視頻基礎(chǔ)信息

        3.1 熱門標(biāo)簽降權(quán)

        用戶標(biāo)簽向量在相似計算中傾向于熱門標(biāo)簽,不能充分體現(xiàn)用戶興趣點,因此,借鑒TF-IDF思想對熱門標(biāo)簽降權(quán)[4]。如式(3):

        其中,λi為132維標(biāo)簽各維度的系數(shù),Ni為每個標(biāo)簽在所有視頻中出現(xiàn)的次數(shù)。

        3.2 時間衰減

        用戶興趣轉(zhuǎn)移,觀看行為距離當(dāng)前越近,越能表征用戶真實興趣點,距離當(dāng)前越久遠,表征用戶興趣點的能力越弱。衰減系數(shù)為超參數(shù),根據(jù)實驗效果設(shè)定。本文實驗選擇衰減系數(shù)0.95,衰減周期為一周。

        3.3 播放完整度

        播放完整度在一定程度上體現(xiàn)了用戶的喜愛程度,用戶畫像采用播放完整度作為不同視頻標(biāo)簽對用戶畫像的貢獻度。

        用戶畫像完整過程:首先,根據(jù)時間衰減,計算不同視頻的標(biāo)簽權(quán)重,乘以播放完整度體現(xiàn)對用戶畫像貢獻度的差異,接著將所有觀看歷史標(biāo)簽累加到132維的用戶標(biāo)簽向量,再結(jié)合各維度系數(shù)λi,獲取用戶對不同興趣標(biāo)簽的偏愛程度,最后,對標(biāo)簽向量歸一化得到標(biāo)準(zhǔn)化的用戶向量。

        4 基于標(biāo)簽的多路召回

        推薦場景主要有“相關(guān)推薦”和“猜你喜歡”?!跋嚓P(guān)推薦”采用主題模型,“猜你喜歡”則采用多路召回,如熱門視頻、用戶協(xié)同、個性化推薦、主題模型等多維度兼顧用戶喜好和覆蓋度。

        4.1 熱門視頻

        長視頻的電影、電視劇等不同類型下,根據(jù)近一周視頻播放量、評論數(shù)、點贊數(shù)綜合評分獲得熱門視頻。

        近一周播放量、評論數(shù)、點贊數(shù)升序排序,分別通過公式(4)映射到[0.5,1]范圍。由公式(5)加權(quán)計算綜合評分,根據(jù)評分降序排序取TOPN獲得熱門視頻。

        其中,score為評分,sort_no為排序序號,size為視頻規(guī)模。

        其中,totalscore為綜合評分,由播放量、評論數(shù)、點贊數(shù)評分6∶2∶2加權(quán)獲得。

        4.2 主題模型

        視頻標(biāo)簽通常3~5個,而標(biāo)簽池規(guī)模達到132個,視頻132維標(biāo)簽向量化表示計算視頻之間的相似度過于稀疏。因此,采用Jaccard相關(guān)系數(shù)計算相似度,倒排取TOPN。

        例如,3個電影的標(biāo)簽分別為:A=(動作,愛情,武俠,香港),B=(冒險,動作,驚悚,劇情,歐美),C=(冒險,動作,劇情,大陸)。通過Jaccard系數(shù)計算,J(A,B)=0.125,J(A,C)=0.143,J(B,C)=0.5,從而得到B與C更相似。若當(dāng)前視頻是B,則給用戶推薦順序為C,A。

        主題模型基于物品的相似度召回,同時結(jié)合導(dǎo)演演員標(biāo)簽信息,從而獲得相似度較高的視頻。

        4.3 用戶協(xié)同

        用戶協(xié)同作為應(yīng)用最廣泛的推薦算法,尋找相似用戶群,根據(jù)群體智慧推薦,通??色@得一些相似度不高,但能讓用戶驚喜的推薦效果,拓展用戶的興趣范圍[5]。本文基于多標(biāo)簽的用戶畫像向量,通過余弦相似度、度量不同用戶的相似度,并排序得到近鄰集合,將近鄰用戶歷史播放視頻聚合統(tǒng)計,按觀看次數(shù),倒排取TOPN,最終過濾目標(biāo)用戶已觀看視頻。

        最近鄰用戶規(guī)模過小,無法體現(xiàn)集體智慧效果,規(guī)模過大又趨于熱點視頻。因此,近鄰規(guī)模的選擇對用戶協(xié)同至關(guān)重要。本文選擇近一周播放歷史作為預(yù)測集,近3個月播放記錄除預(yù)測集外均為訓(xùn)練集。近鄰規(guī)模從50起,按50間隔遞增,不同近鄰數(shù)情況下計算的準(zhǔn)確率和召回率,如圖2所示。

        圖2 最近鄰數(shù)K對用戶協(xié)同效果的影響

        從準(zhǔn)確率和召回率曲線來看,用戶規(guī)模較小時準(zhǔn)確率和召回率均較低,當(dāng)近鄰規(guī)模增加時兩指標(biāo)均有較大提升,當(dāng)用戶規(guī)模達到400附近時準(zhǔn)確率最高,此后開始逐漸下降,而召回率在500左右達到最高,后續(xù)維持在一定水平,當(dāng)規(guī)模超過800緩慢下降。通過準(zhǔn)確率和召回率指標(biāo)綜合權(quán)衡,選擇近鄰數(shù)為400效果最佳。

        4.4 個性化推薦

        基于上述用戶畫像向量,同時,將視頻表示為132維歸一化向量,采用余弦相似度計算用戶與視頻之間的相似度。本文采用向量矩陣運算如圖3所示,用戶矩陣為N行132列,視頻向量轉(zhuǎn)置得到132行M列,矩陣相乘獲得N行M列矩陣,用戶向量和視頻向量均為歸一化向量。因此,最終的N×M矩陣為N個用戶分別與M個視頻之間的相似度,根據(jù)相似度取TOPN,過濾評分較低的視頻,得到用戶的個性化推薦列表。

        5 排序模型

        多路召回為粗排策略,極大地縮小了推薦結(jié)果集,從多個角度覆蓋用戶的興趣,但不同召回集之間排列順序未知,因此,需要精排模型獲得統(tǒng)一的排序。

        本文采用圖4經(jīng)典的3層DNN模型[6],基于標(biāo)簽的用戶畫像向量(132維)、視頻向量(132維)以及上下文(位置、設(shè)備類型、網(wǎng)絡(luò)類型、播放時間等)信息Embedding方式構(gòu)成自變量,用戶觀看歷史的播放完整度為因變量,迭代訓(xùn)練模型,最終將多路召回集構(gòu)建Embedding特征通過模型預(yù)測用戶對每個視頻的播放完整度,倒排取TOPN。

        通過DNN模型預(yù)測播放完整度,將完整度較高的視頻列表推薦給用戶,兼顧用戶興趣及視頻相似度的同時,盡可能地將高質(zhì)量視頻推薦給用戶,以此來提升用戶的滿意度和播放時長。

        圖3 標(biāo)簽用戶畫像與視頻向量矩陣運算相似度矩陣

        圖4 DNN播放完整度預(yù)測模型

        6 結(jié)語

        本文研究和實現(xiàn)基于標(biāo)簽的視頻推薦系統(tǒng)。多路召回策略后,基于標(biāo)簽的用戶畫像向量、視頻向量以及上下文信息構(gòu)建Embedding特征向量,通過3層DNN模型來預(yù)測用戶對視頻的播放完整度,根據(jù)完整度值取TOPN推薦給用戶。通過融合本文基于標(biāo)簽的推薦算法,經(jīng)過一周的線上測試數(shù)據(jù)發(fā)現(xiàn),UV提升2.3%,PV提升12.6%,人均播放次數(shù)提升8.1%,人均播放時長提升15.3%。兼顧用戶興趣和視頻質(zhì)量,最終獲得令人鼓舞的推薦效果。

        猜你喜歡
        用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        Camera360:拍出5億用戶
        100萬用戶
        国产精品18禁久久久久久久久| 国产精品一区二区久久国产| 精品久久久久久久久午夜福利| 大陆极品少妇内射aaaaa| 人妻丰满熟妇岳av无码区hd| 亚洲欧美另类激情综合区| 久久精品免视看国产明星| 国产一级自拍av播放| 蜜桃视频在线免费观看| 欧美性生交活xxxxxdddd| 亚洲精品久久中文字幕| 国产91对白在线观看| 国产亚洲精品综合在线网站| 亚洲一区精品无码| 午夜亚洲www湿好爽| 国产视频网站一区二区三区| 亚洲精品熟女av影院| 欧美伦费免费全部午夜最新 | 国产精品原创永久在线观看| 国产大屁股熟女流白浆一区二区| 射精区-区区三区| 亚洲有码转帖| 精品人妻av区乱码| 日韩人妻系列在线观看| 国产裸体舞一区二区三区| 亚洲一区二区在线| 免费人成网在线观看品观网| 成人午夜高潮a∨猛片| 亚洲色欲色欲www在线播放| 综合久久久久6亚洲综合| 国内自拍视频一区二区三区| 国产精品久久国产精品99| 中文字幕在线码一区| 美女草逼视频免费播放| 图片小说视频一区二区| 在线va免费看成| 无码一区二区丝袜| 很黄很色的女同视频一区二区| 麻豆精品国产精华精华液好用吗| 天天综合久久| 99视频偷拍视频一区二区三区|