于洪涌,邱晨旭,聞劍峰
?
IPTV視頻個(gè)性化推薦方案
于洪涌,邱晨旭,聞劍峰
(中國電信股份有限公司上海研究院,上海 200122)
分析了IPTV視頻領(lǐng)域個(gè)性化推薦需求,以“虛擬視頻用戶”為基礎(chǔ)建立了IPTV視頻用戶畫像,構(gòu)建了“離線批處理數(shù)據(jù)分析+在線流式推薦引擎”架構(gòu)的個(gè)性化推薦系統(tǒng),實(shí)現(xiàn)了IPTV視頻的個(gè)性化推薦。驗(yàn)證結(jié)果證明該方案是大數(shù)據(jù)技術(shù)在提升用戶IPTV使用體驗(yàn)方面的有益嘗試。
個(gè)性化推薦;大數(shù)據(jù)分析;IPTV
2016年是IPTV跨越式發(fā)展的一年,工業(yè)和信息化部發(fā)布的數(shù)據(jù)顯示,2015年底我國IPTV用戶數(shù)是4 589.5萬戶,2016年底增長到8 673萬戶,2017年上半年達(dá)到1.03億戶。相對應(yīng)我國有線數(shù)字電視付費(fèi)用戶數(shù)2015年底是1.746 5億戶,2017年上半年減少到1.599 3億戶[1]。IPTV相比有線電視,具有寬帶綁定和互聯(lián)網(wǎng)視頻的優(yōu)勢,相比互聯(lián)網(wǎng)視頻具有帶寬和直播的優(yōu)勢,IPTV正以其綜合優(yōu)勢占領(lǐng)著用戶的客廳屏。
用戶數(shù)是基礎(chǔ),發(fā)展是關(guān)鍵。目前IPTV需要在豐富內(nèi)容、創(chuàng)新業(yè)務(wù)(高清、3D等)、提升用戶使用體驗(yàn)上進(jìn)行加強(qiáng),進(jìn)一步留住用戶?,F(xiàn)在是一個(gè)內(nèi)容爆炸和突出個(gè)性的時(shí)代,面對豐富的內(nèi)容,怎么快速找到自己喜歡的節(jié)目是用戶開機(jī)后的第一選擇,于是個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生,個(gè)性化推薦系統(tǒng)能使用戶在海量節(jié)目中快速定位自己喜歡的節(jié)目,是提升用戶體驗(yàn)、黏住用戶的重要手段。
完整的個(gè)性化推薦系統(tǒng)至少包括數(shù)據(jù)采集、數(shù)據(jù)分析處理、得到個(gè)性化推薦列表和個(gè)性化推薦列表展現(xiàn)幾個(gè)部分,推薦內(nèi)容展現(xiàn)需要和現(xiàn)網(wǎng)運(yùn)營緊密結(jié)合,本文主要探討如何通過數(shù)據(jù)采集、分析,得到滿足用戶需求的個(gè)性化推薦列表。
IPTV視頻個(gè)性化推薦的基本需求是:結(jié)合用戶以往的觀看行為和用戶信息,從節(jié)目庫中挖掘用戶感興趣的節(jié)目,推薦給用戶。基于這個(gè)基本需求,結(jié)合IPTV運(yùn)營經(jīng)驗(yàn)和用戶分析,IPTV視頻個(gè)性化推薦系統(tǒng)還需要滿足以下層次的需求。
(1)共性和個(gè)性化
人作為社會(huì)中的一員,是社會(huì)共性和私有個(gè)性的統(tǒng)一。在IPTV視頻領(lǐng)域,社會(huì)共性主要體現(xiàn)在:用戶對于“好的”節(jié)目有一定程度的普遍標(biāo)準(zhǔn),用戶喜歡符合“好的”標(biāo)準(zhǔn)的節(jié)目;另一方面用戶具有“從眾”心理,會(huì)選擇別人都說好的節(jié)目或反映當(dāng)前熱點(diǎn)和時(shí)尚的節(jié)目。
而個(gè)性化體現(xiàn)在:不同的人具有不同的興趣愛好和需求,體現(xiàn)在觀看視頻節(jié)目上,有喜歡足球比賽或動(dòng)作電影等的差異;同時(shí),由于用戶不同的消費(fèi)習(xí)慣和家庭背景等,其IPTV行為也會(huì)有差異,如對于收費(fèi)節(jié)目有不同的敏感度,有小孩的父母為小孩準(zhǔn)備兒童動(dòng)漫節(jié)目等。
總之,從共性和個(gè)性化角度,既要滿足用戶普遍審美觀和從眾心理,又要滿足不同興趣和背景下用戶的個(gè)性化需求,避免馬太效應(yīng)。
(2)不同場景下的個(gè)性化推薦
用戶面對不同的頁面和節(jié)目時(shí),其心理需求也是有差異的。系統(tǒng)應(yīng)配合不同的場景,提供有差異化的個(gè)性化推薦。
開機(jī)后面對首頁時(shí),大多用戶沒有強(qiáng)烈的指向性時(shí),根據(jù)用戶喜好結(jié)合熱點(diǎn)節(jié)目向用戶推薦;用戶在觀看直播相關(guān)節(jié)目時(shí),可以推薦相關(guān)節(jié)目的直播頻道;用戶觀看電影或電視劇時(shí),可推薦相關(guān)電影或電視劇的點(diǎn)播和回看等;當(dāng)用戶觀看娛樂節(jié)目時(shí),可把相似用戶的觀看熱點(diǎn)推薦給用戶。
總之,一套讓用戶滿意的個(gè)性化推薦系統(tǒng),應(yīng)該是一套綜合的、隨機(jī)應(yīng)變(能根據(jù)不同場景為用戶提供不同推薦內(nèi)容)的系統(tǒng),而不是千篇一律地重復(fù)。
(3)常規(guī)推薦和短期興趣點(diǎn)推薦
在個(gè)性化推薦系統(tǒng)中,用戶的個(gè)性化(或畫像)一般是基于對用戶一段時(shí)期的行為數(shù)據(jù)的分析得到的,具有一定的穩(wěn)定性;但用戶的實(shí)際愛好或行為具有一定的跳躍性,如世界杯期間可能熱衷于比賽,同時(shí)冷落前期一直看的電視?。灰欢螘r(shí)期內(nèi)對紀(jì)實(shí)片感興趣,把娛樂新聞拋在腦后等。
一個(gè)“好”的視頻個(gè)性化推薦系統(tǒng),應(yīng)該能敏銳地捕捉用戶“當(dāng)前”的興趣點(diǎn),并基于當(dāng)前興趣點(diǎn)向用戶推薦個(gè)性化視頻內(nèi)容。
(4)直播和點(diǎn)播的推薦
IPTV節(jié)目有直播和點(diǎn)播,直播節(jié)目還可以進(jìn)行時(shí)移和回看,IPTV個(gè)性化視頻推薦系統(tǒng)能夠根據(jù)用戶觀看習(xí)慣、當(dāng)前節(jié)目內(nèi)容,進(jìn)行直播(包括時(shí)移、回看范圍的直播節(jié)目)和點(diǎn)播節(jié)目的合理推薦。
(5)區(qū)分家庭不同用戶的推薦
IPTV在用戶模式方面,與優(yōu)酷等互聯(lián)網(wǎng)視頻一個(gè)重要區(qū)別是:互聯(lián)網(wǎng)視頻在用戶登錄后,能明確知道用戶是“誰”;IPTV的登錄更多的是合法性檢驗(yàn),IPTV在家庭內(nèi)部具有公共性,對于用戶沒有明確的指向性。
作為一個(gè)“好”的個(gè)性化推薦系統(tǒng),應(yīng)該能夠“智能”區(qū)別用戶是喜歡戲劇的A、喜歡體育賽事的B、喜歡動(dòng)畫片的C,還是ABC在一起,并基于不同用戶的IPTV視頻特征推薦“恰如其分”的內(nèi)容。
(6)時(shí)限不同的需求
不同的場景對推薦列表顯示時(shí)限的要求不同:在首頁或點(diǎn)播大類首頁等用戶尚未開始觀看的場景,應(yīng)盡可能快地向用戶進(jìn)行推薦;在用戶點(diǎn)播或訂購時(shí),也應(yīng)快速向用戶推薦相關(guān)視頻;在用戶觀看過程中準(zhǔn)備推薦列表的時(shí)間要求較低等。
以上是在IPTV實(shí)際運(yùn)營中對用戶的一些分析,反映了當(dāng)前階段的IPTV視頻個(gè)性化推薦需求,本文就如何滿足這些個(gè)性化推薦需求進(jìn)行方案設(shè)計(jì)和實(shí)現(xiàn)。
基于以上的需求分析,IPTV視頻個(gè)性化推薦系統(tǒng)應(yīng)該能夠:面向IPTV家庭用戶,基于IPTV直播和點(diǎn)播內(nèi)容,綜合考慮當(dāng)前熱點(diǎn)和用戶個(gè)性化,關(guān)注用戶當(dāng)前興趣點(diǎn),在不同場景下向用戶推薦不同的視頻內(nèi)容,智能化地引導(dǎo)用戶快速定位自己“喜歡”的節(jié)目,減少節(jié)目選擇的煩惱。
為此,本文進(jìn)行了以下系統(tǒng)框架設(shè)計(jì),該系統(tǒng)設(shè)計(jì)采集用戶和視頻節(jié)目相關(guān)數(shù)據(jù),進(jìn)行離線和在線相結(jié)合的分析,為不同場景提供不同的個(gè)性化推薦。本系統(tǒng)設(shè)計(jì)聚焦于如何綜合不同技術(shù)實(shí)現(xiàn)上述需求,對于具體的算法或技術(shù)不做過多討論。
DIKW(data information knowledge wisdom)模型[2],通常被作為知識體系的經(jīng)典模型,在此作為IPTV視頻個(gè)性化推薦系統(tǒng)設(shè)計(jì)的理論指導(dǎo)。DIKW模型將數(shù)據(jù)、信息、知識、智慧納入一種金字塔形的層次體系,每一層比下一層都賦予一些特質(zhì)。原始觀察及量度獲得了數(shù)據(jù);分析數(shù)據(jù)間的關(guān)系獲得了信息,在行動(dòng)上應(yīng)用信息產(chǎn)生了知識;智慧關(guān)心未來,它含有暗示及滯后影響的意味。
基于DIKW的系統(tǒng)設(shè)計(jì)如圖1所示,各階段分析如下。
(1)數(shù)據(jù)匯聚
本系統(tǒng)需要匯聚的數(shù)據(jù)主要包括用戶基礎(chǔ)信息、視頻內(nèi)容信息、用戶IPTV業(yè)務(wù)信息、用戶IPTV觀看數(shù)據(jù)等。數(shù)據(jù)以滿足需求為目的,對于歷史數(shù)據(jù)(如3個(gè)月以前),可以直接采集已有的匯總數(shù)據(jù)或標(biāo)簽數(shù)據(jù),對于近期數(shù)據(jù),需采集詳細(xì)數(shù)據(jù)。
圖1 基于DIKW模型的IPTV視頻個(gè)性化系統(tǒng)設(shè)計(jì)示意
(2)建立IPTV標(biāo)簽體系
對匯聚的數(shù)據(jù)進(jìn)行一定的篩選、計(jì)算和匯總后形成量化信息體系,并進(jìn)一步提煉成用戶的目標(biāo)、行為特征或觀點(diǎn)的描述,就是標(biāo)簽體系。由于本系統(tǒng)的用戶標(biāo)簽主要來自用戶IPTV視頻觀看數(shù)據(jù),所以首先要建立內(nèi)容的標(biāo)簽體系。
(3)刻畫IPTV用戶視頻畫像
用戶畫像是結(jié)合具體業(yè)務(wù),對某一用戶或某一用戶群體進(jìn)行的用戶核心目標(biāo)、關(guān)鍵行為模式及主要觀點(diǎn)的刻畫。對于IPTV用戶,主要刻畫用戶什么時(shí)間、什么場景喜歡觀看什么節(jié)目等,并作為向用戶進(jìn)行個(gè)性化推薦的主要依據(jù)。
(4)IPTV視頻個(gè)性化推薦
結(jié)合用戶畫像、用戶當(dāng)前觀看行為、當(dāng)前場景和營銷活動(dòng)等,選擇適合該場景的算法,從可選內(nèi)容庫中向用戶提供推薦列表。
基于上述需求和系統(tǒng)設(shè)計(jì),結(jié)合目前主流的大數(shù)據(jù)分析體系,本系統(tǒng)的框架方案如圖2所示。系統(tǒng)分3個(gè)層次。
(1)數(shù)據(jù)采集
數(shù)據(jù)主要來自運(yùn)營商ODS、大數(shù)據(jù)平臺和IPTV業(yè)務(wù)平臺,還有網(wǎng)絡(luò)爬取數(shù)據(jù)或第三方數(shù)據(jù);采集的數(shù)據(jù)包括詳細(xì)數(shù)據(jù)、匯總數(shù)據(jù)和標(biāo)簽數(shù)據(jù),大部分?jǐn)?shù)據(jù)匯聚到“IPTV視頻個(gè)性化推薦數(shù)據(jù)處理平臺”進(jìn)行數(shù)據(jù)處理,實(shí)時(shí)數(shù)據(jù)傳送到“IPTV視頻個(gè)性化推薦引擎”進(jìn)行流式處理。
(2)數(shù)據(jù)分析處理
匯聚的數(shù)據(jù)經(jīng)過清洗、集成、變換和規(guī)約等一系列預(yù)處理,保存到數(shù)據(jù)集中;基于數(shù)據(jù)集進(jìn)行分析,形成包括內(nèi)容標(biāo)簽和用戶標(biāo)簽的標(biāo)簽體系;提取用戶關(guān)鍵標(biāo)簽形成用戶IPTV視頻畫像。并基于用戶標(biāo)簽畫像進(jìn)行離線建模分析,得到用戶推薦模型,基于推薦模型計(jì)算用戶、內(nèi)容的鄰居用戶,基于各種推薦模型和鄰居用戶/內(nèi)容的計(jì)算,得到包括不同維度和不同分析方法的多個(gè)用戶推薦列表。
(3)個(gè)性化推薦
“IPTV視頻個(gè)性化推薦引擎”實(shí)時(shí)獲取IPTV當(dāng)前數(shù)據(jù),進(jìn)行以下處理。
? 場景判斷:基于用戶IPTV實(shí)時(shí)行為判斷用戶場景,作為后續(xù)數(shù)據(jù)處理和個(gè)性化推薦的基礎(chǔ)。
? 反饋處理:基于用戶的瀏覽、觀看等行為進(jìn)行隱式用戶反饋分析,作為構(gòu)建用戶動(dòng)態(tài)畫像、進(jìn)行個(gè)性化推薦的重要依據(jù)。
? 動(dòng)態(tài)畫像:基于用戶本日或本次IPTV開機(jī)后的行為和反饋處理,形成用戶的動(dòng)態(tài)畫像,動(dòng)態(tài)畫像體現(xiàn)了用戶當(dāng)前的興趣點(diǎn),是進(jìn)行個(gè)性化推薦的直接依據(jù)。
? 獲取列表:“IPTV視頻個(gè)性化推薦引擎”將當(dāng)前場景信息、時(shí)效性、動(dòng)態(tài)畫像等發(fā)送給“IPTV視頻個(gè)性化推薦數(shù)據(jù)處理平臺”,進(jìn)行用戶行為判斷,并快速構(gòu)建個(gè)性化推薦列表,返回給“IPTV視頻個(gè)性化推薦引擎”。
圖2 IPTV視頻個(gè)性化系統(tǒng)框架示意
? 內(nèi)容篩選:“IPTV視頻個(gè)性化推薦引擎”收到個(gè)性化推薦列表后,基于場景、動(dòng)態(tài)畫像、觀看歷史和營銷策略等進(jìn)行內(nèi)容篩選。
? 內(nèi)容排序:對篩選后的推薦內(nèi)容,基于場景、用戶動(dòng)態(tài)畫像、當(dāng)前熱點(diǎn)、營銷策略等,對推薦內(nèi)容進(jìn)行排序,并將排序后的個(gè)性化推薦列表同步給展現(xiàn)系統(tǒng)。
該系統(tǒng)需要匯聚的數(shù)據(jù)主要包括用戶基礎(chǔ)信息、內(nèi)容信息、用戶IPTV業(yè)務(wù)信息、用戶IPTV觀看數(shù)據(jù)等,見表1。
對數(shù)據(jù)利用的第一步是形成標(biāo)簽,本系統(tǒng)的標(biāo)簽體系包括內(nèi)容標(biāo)簽和用戶標(biāo)簽,內(nèi)容標(biāo)簽是建立用戶標(biāo)簽、進(jìn)行個(gè)性化推薦的基礎(chǔ)。本文所說的標(biāo)簽系統(tǒng)包括內(nèi)容標(biāo)簽、用戶標(biāo)簽及打好標(biāo)簽的內(nèi)容庫和用戶庫。
本系統(tǒng)的內(nèi)容標(biāo)簽首先來自內(nèi)容提供商,然后通過網(wǎng)絡(luò)爬蟲爬取包括優(yōu)酷、愛奇藝等主流視頻網(wǎng)站的數(shù)據(jù)。本系統(tǒng)內(nèi)容標(biāo)簽的基本維度主要包括以下幾點(diǎn)。
? ? 內(nèi)容類型維度:一級大類包括電視劇、電影、綜藝、動(dòng)漫、紀(jì)錄片、娛樂、體育、財(cái)經(jīng)、教育、少兒、游戲等,然后按影片信息、主演、地區(qū)、上映時(shí)間、子類型等進(jìn)行分類,標(biāo)簽分類按扁平化、允許一定冗余的原則進(jìn)行。
?? 播放方式維度:直播和點(diǎn)播(點(diǎn)播包括回看、時(shí)移)。
?? 清晰度維度:4K、高清、標(biāo)清。
?? 收費(fèi)維度:免費(fèi)、收費(fèi)、促銷、積分兌換。
?? 推廣維度:基于合作、市場預(yù)測、營銷等角度為內(nèi)容打上一定的推廣標(biāo)簽,便于優(yōu)先向用戶推廣。
對于打好標(biāo)簽的內(nèi)容庫,同時(shí)進(jìn)行以下處理,便于快速進(jìn)行推薦。
表1 IPTV視頻個(gè)性化推薦系統(tǒng)數(shù)據(jù)匯總
?? 競爭力排行:對于每個(gè)節(jié)目或內(nèi)容,進(jìn)行內(nèi)外部競爭力計(jì)算,如影片甲有A、B、C標(biāo)簽,影片甲的外部競爭力為影片甲在所有具有A標(biāo)簽的內(nèi)容中的排行,影片甲的內(nèi)部競爭力為其各標(biāo)簽的相對權(quán)重。
?? 建立內(nèi)容的鄰居列表:對于打好標(biāo)簽的內(nèi)容計(jì)算其相似度,結(jié)合用戶觀看內(nèi)容的相關(guān)性,為每個(gè)內(nèi)容建立基于主要標(biāo)簽的鄰居內(nèi)容列表。
如“需求分析”中所述,IPTV中的用戶無法指向到具體的人。本文中的IPTV用戶分析以家庭為單位,根據(jù)用戶使用IPTV的習(xí)慣構(gòu)建“虛擬”的視頻用戶,即通過數(shù)據(jù)分析得到用戶A看IPTV時(shí)70%時(shí)間看體育比賽,家中的節(jié)目訂購由其操作,不僅訂購體育類節(jié)目,還訂購了兒童類節(jié)目;用戶B在 21點(diǎn)以后通過機(jī)頂盒2看娛樂節(jié)目;用戶C下午看京劇等。
基于上述分析,本文構(gòu)建了“家庭—虛擬視頻用戶”的IPTV用戶結(jié)構(gòu),其中家庭信息包括家庭地址、用戶套餐信息、支付信息、訂購?fù)擞喰畔?、機(jī)頂盒信息、IPTV觀看匯總統(tǒng)計(jì)信息等,并進(jìn)行標(biāo)簽信息選取,形成家庭的標(biāo)簽信息,這可以從總體上把握“這家人”的IPTV視頻特征及可能的IPTV視頻動(dòng)作。
對于“虛擬視頻用戶”,需要根據(jù)用戶信息從無到有構(gòu)建:根據(jù)匯聚的家庭IPTV數(shù)據(jù),采用分類、聚類等數(shù)據(jù)分析方法,根據(jù)用戶視頻觀看行為(包括觀看時(shí)間、時(shí)長、觀看內(nèi)容類型、不同內(nèi)容的觀看相鄰性等),為這個(gè)家庭構(gòu)建幾個(gè)IPTV視頻行為不同的用戶,構(gòu)建的過程同時(shí)也是為用戶打標(biāo)簽的過程。這些“虛擬視頻用戶”可能與實(shí)際的用戶不是一一對應(yīng)的,但其IPTV特征明顯具有差異性。
這些“虛擬視頻用戶”可以被產(chǎn)生,也可以被改變,甚至消失;也就是說這些用戶的特征,要根據(jù)不斷匯聚的數(shù)據(jù)進(jìn)行動(dòng)態(tài)調(diào)整:例如一個(gè)幼兒特征明顯的用戶,隨著時(shí)間推移,喜歡動(dòng)漫,喜歡游戲,觀看教育類節(jié)目,變成一個(gè)小學(xué)生特征明顯的人;一個(gè)電視劇權(quán)重80%的人,慢慢體育權(quán)重上升到50%等。總之,用戶標(biāo)簽特征是動(dòng)態(tài)變化的,是需要去“運(yùn)營”的。
用戶被創(chuàng)建的過程也是被打標(biāo)簽的過程,打好標(biāo)簽后對用戶的標(biāo)簽計(jì)算權(quán)重,得到用戶的視頻興趣偏好,同時(shí)計(jì)算用戶相似度,得到用戶鄰居列表。
用戶畫像是用戶信息由定量到定性的蛻變,是標(biāo)簽化的用戶模型。本文所說的用戶畫像是根據(jù)IPTV標(biāo)簽體系構(gòu)建的,可看作完整用戶畫像在IPTV視頻領(lǐng)域的投影。
對應(yīng)于標(biāo)簽,IPTV用戶畫像也包括家庭畫像和用戶畫像,家庭畫像是對家庭標(biāo)簽信息的抽象概括,包括家庭支付能力及支付敏感度、套餐及業(yè)務(wù)訂購特征,從標(biāo)簽到畫像的過程見表2。
表2 IPTV家庭用戶標(biāo)簽畫像對照
構(gòu)建“虛擬視頻用戶”畫像的目的是為個(gè)性化推薦服務(wù)的,個(gè)性化推薦要兼顧不同場景,對應(yīng)其畫像也有不同形式。
(1)綜合型
從較長一段時(shí)期用戶數(shù)據(jù)標(biāo)簽分析用戶總的偏向愛好,如用戶A喜歡現(xiàn)代都市類電視劇(權(quán)重30%),喜歡演員XX和YY(相對權(quán)重55%);喜歡娛樂節(jié)目(權(quán)重22%),喜歡選秀類娛樂節(jié)目(相對權(quán)重75%);用戶愛好穩(wěn)定度高(變異率8%)等。
(2)場景型
從較長一段時(shí)期用戶數(shù)據(jù)標(biāo)簽中挖掘用戶某個(gè)場景的偏向愛好,如用戶B在周末深夜喜歡看高清大片(常規(guī)權(quán)重60%),熱衷觀看英超比賽權(quán)重(即時(shí)權(quán)重80%)等。
(3)動(dòng)態(tài)畫像
基于用戶本日或本次IPTV開機(jī)后的行為和反饋處理,形成用戶的動(dòng)態(tài)畫像,動(dòng)態(tài)畫像基于實(shí)時(shí)數(shù)據(jù)快速構(gòu)建,體現(xiàn)了用戶當(dāng)前的興趣點(diǎn),是進(jìn)行個(gè)性化推薦的直接依據(jù)。
總之,本系統(tǒng)構(gòu)建的標(biāo)簽和畫像體系是為個(gè)性化推薦服務(wù)的,它們基于用戶行為和視頻內(nèi)容屬性構(gòu)建,是進(jìn)行數(shù)據(jù)分析建模、進(jìn)一步得到用戶推薦列表的基礎(chǔ)。
IPTV視頻個(gè)性化引擎推薦以數(shù)據(jù)處理平臺為基礎(chǔ),針對用戶的IPTV實(shí)時(shí)行為,向用戶及時(shí)提供個(gè)性化推薦內(nèi)容。
個(gè)性化推薦系統(tǒng)中,推薦算法是系統(tǒng)的靈魂。從個(gè)性化推薦系統(tǒng)發(fā)展過程來看,主要的算法包括基于人口統(tǒng)計(jì)學(xué)的推薦、基于內(nèi)容的推薦和基于協(xié)同過濾的推薦和混合的推薦。
協(xié)同過濾(collaborative filtering,CF)[3]又稱社會(huì)過濾,是目前發(fā)展最為成熟和應(yīng)用最為廣泛的推薦技術(shù)。其核心思想就是根據(jù)用戶對物品的偏好,發(fā)現(xiàn)物品本身的相關(guān)性或者用戶的相關(guān)性,然后再基于這些關(guān)聯(lián)性進(jìn)行推薦?;陉P(guān)聯(lián)對象的不同,協(xié)同過濾主要分為基于用戶的協(xié)同過濾(user CF)和基于物品的協(xié)同過濾(item CF)。
item CF基于物品的內(nèi)在聯(lián)系進(jìn)行推薦,往往在某領(lǐng)域中更全面,廣度上有所欠缺;而user CF基于用戶間的關(guān)聯(lián)進(jìn)行推薦,往往推薦各領(lǐng)域熱門的物品,對于各領(lǐng)域的深度推薦上不足;同時(shí)研究發(fā)現(xiàn),對相同的數(shù)據(jù)使用user CF和item CF得出的推薦結(jié)果中,只有 50% 是一樣的。這些足以說明user CF和item CF是互補(bǔ)的關(guān)系[4]。
本系統(tǒng)需要滿足不同場景、不同聚焦度和不同時(shí)限的需求,以協(xié)同過濾推薦機(jī)制為主,綜合使用分類、聚類等各種數(shù)據(jù)分析方法,同時(shí)采用不同策略,因地制宜,因時(shí)制宜,為用戶提供適合用戶喜好的個(gè)性化推薦。不同的策略分析如下。
? 加權(quán)策略:分析場景需求,為不同分析方法結(jié)果分配不同權(quán)重,結(jié)合推薦內(nèi)容自身權(quán)重,進(jìn)行計(jì)算確定推薦結(jié)果;特別對于內(nèi)容,可能有多個(gè)標(biāo)簽,要進(jìn)行不同標(biāo)簽的權(quán)重計(jì)算,這樣才能突出內(nèi)容的主要特點(diǎn),在進(jìn)行用戶推薦列表選擇時(shí),才更容易篩選。
? 分區(qū)策略:在不同區(qū)域基于不同推薦機(jī)制顯示不同的推薦內(nèi)容,如在用戶剛開機(jī)或判斷用戶沒有聚焦點(diǎn)時(shí),為用戶提供當(dāng)前熱點(diǎn)、根據(jù)用戶最近觀看行為的推薦等;在用戶觀看完一部電影時(shí),基于該電影和用戶電影喜好進(jìn)行相關(guān)電影推薦;總之因地制宜是進(jìn)行個(gè)性化推薦的重要原則,根據(jù)用戶所在頁面和狀態(tài)進(jìn)行推薦,才能實(shí)現(xiàn)場景上的個(gè)性化。
? 分層策略:在用戶鄰居或內(nèi)容選取計(jì)算前,可采用簡單的篩選、分類等方法先進(jìn)行一次數(shù)據(jù)處理,減小數(shù)據(jù)計(jì)算范圍;或者將一次數(shù)據(jù)分析結(jié)果作為下一次數(shù)據(jù)分析的輸入。分層策略是減少計(jì)算量、及時(shí)給出推薦結(jié)果的重要手段。
個(gè)性化推薦系統(tǒng)除了個(gè)性化,另一特點(diǎn)就是實(shí)時(shí)性要求。個(gè)性化推薦系統(tǒng)要求系統(tǒng)在用戶看到首頁或進(jìn)行內(nèi)容瀏覽時(shí),幾乎同時(shí)向用戶進(jìn)行個(gè)性化推薦。同時(shí),實(shí)時(shí)性要求算法簡潔,計(jì)算快速,能夠在極短時(shí)間內(nèi)得到結(jié)果,這需要提前進(jìn)行大量計(jì)算分析,為實(shí)時(shí)分析推薦提供基礎(chǔ)。離線批處理分析與在線實(shí)時(shí)分析相結(jié)合,快速為用戶提供符合用戶口味的推薦內(nèi)容。
其中批處理子系統(tǒng)根據(jù)匯聚的數(shù)據(jù)進(jìn)行標(biāo)簽畫像分析、鄰居用戶分析等,綜合采用各種算法進(jìn)行建模分析,并生成初步的推薦列表;實(shí)時(shí)處理子系統(tǒng)主要判斷用戶當(dāng)前場景,根據(jù)用戶行為獲得反饋信息;基于反饋信息,結(jié)合批處理系統(tǒng)的成果,向用戶提供個(gè)性化推薦列表。具體分析如下。
實(shí)時(shí)處理子系統(tǒng)根據(jù)用戶所處的頁面判斷場景,并根據(jù)用戶本次開機(jī)后行為獲得隱式用戶反饋信息,包括正向反饋信息:用戶在瀏覽某類視頻內(nèi)容(如電影、娛樂),用戶瀏覽時(shí)對于某類或某幾類內(nèi)容進(jìn)行停留,用戶觀看/回看/時(shí)移某節(jié)目等;也包括負(fù)向反饋信息:對于某類內(nèi)容一閃而過,長時(shí)間沒有瀏覽某類內(nèi)容等。并基于用戶反饋信息快遞構(gòu)建用戶動(dòng)態(tài)視頻畫像(體現(xiàn)當(dāng)前的興趣點(diǎn))。
批處理子系統(tǒng)接收實(shí)時(shí)子系統(tǒng)傳送的用戶信息,進(jìn)行用戶場景、畫像比較處理,若用戶行為沒有大的變化,基于已有分析成果提供推薦列表;否則進(jìn)行快速比較,基于已有分析成果和用戶畫像差異,變更選擇范圍并進(jìn)行二次篩選,快速給出個(gè)性化推薦列表,返回給實(shí)時(shí)子系統(tǒng)。個(gè)性化推薦列表包括基于內(nèi)容的協(xié)同過濾、基于用戶的協(xié)同過濾、熱點(diǎn)內(nèi)容和重點(diǎn)營銷內(nèi)容等。
實(shí)時(shí)子系統(tǒng)收到個(gè)性化推薦列表后,基于以下因素進(jìn)行內(nèi)容篩選。
? 當(dāng)前場景:主要考慮內(nèi)容的聚焦性和時(shí)效性,如首頁聚焦性弱、時(shí)效性高、推薦內(nèi)容較廣泛、提供速度快;播放頁面聚焦性強(qiáng),時(shí)效性相對低一些,推薦內(nèi)容針對性更強(qiáng),時(shí)間可適當(dāng)放寬。
? 營銷策略:結(jié)合當(dāng)前營銷活動(dòng),向用戶提供熱銷或重點(diǎn)營銷的內(nèi)容。
? 用戶動(dòng)態(tài)畫像:批處理子系統(tǒng)提供的推薦內(nèi)容基于用戶歷史信息分析提供,實(shí)時(shí)子系統(tǒng)判斷用戶當(dāng)前動(dòng)態(tài)畫像是否和批處理子系統(tǒng)的用戶畫像契合,并基于差異性進(jìn)行調(diào)整。
? 有效性:基于內(nèi)容有效性、歷史播放記錄等進(jìn)行篩選。
經(jīng)過篩選后的內(nèi)容還要經(jīng)過排序才能提供給用戶。排序時(shí)基于用戶動(dòng)態(tài)畫像和批處理子系統(tǒng)提供內(nèi)容的權(quán)重,進(jìn)行綜合處理。
總之,批處理子系統(tǒng)基于用戶歷史信息得到用戶長期興趣點(diǎn)并提供推薦內(nèi)容,實(shí)時(shí)子系統(tǒng)基于當(dāng)前情景隨機(jī)應(yīng)變,進(jìn)行適當(dāng)調(diào)整,并作為數(shù)據(jù)源向批處理子系統(tǒng)提供相關(guān)數(shù)據(jù)。兩者緊密結(jié)合,功能互補(bǔ),快速、智能地實(shí)現(xiàn)個(gè)性化推薦。
目前以流式計(jì)算為主的實(shí)時(shí)分析系統(tǒng)對個(gè)性化推薦系統(tǒng)的實(shí)時(shí)性進(jìn)行了很好的支撐,目前主流的流式計(jì)算框架包括Storm、Spark Streaming以及專門為實(shí)時(shí)推薦系統(tǒng)設(shè)計(jì)的Kiji等。
相比較而言,Kiji是專為實(shí)時(shí)推薦系統(tǒng)設(shè)計(jì)的架構(gòu),針對性強(qiáng),但目前采用的系統(tǒng)比較少。Storm和Spark Streaming是目前比較流行的流計(jì)算框架,對比之下,Storm專為流式計(jì)算設(shè)計(jì),實(shí)時(shí)性更好;Spark Streaming用批處理的方式實(shí)現(xiàn)實(shí)時(shí)分析,在實(shí)時(shí)性上不如Storm,但Spark Streaming繼承自Spark,可以運(yùn)行上百個(gè)節(jié)點(diǎn),并發(fā)性支持更好,且可以和Spark天然對接[5]。
IPTV視頻個(gè)性化推薦系統(tǒng)的在線部分更注重用戶動(dòng)態(tài)畫像刻畫、用戶場景判斷,而不是數(shù)據(jù)流分析,而且IPTV視頻個(gè)性化推薦系統(tǒng)用戶量大,對并發(fā)性要求高,同時(shí)考慮Spark在離線處理上的優(yōu)勢,故系統(tǒng)采用Spark+Spark Streaming進(jìn)行數(shù)據(jù)離線和在線分析。
本系統(tǒng)在某電信運(yùn)營商省公司的IPTV系統(tǒng)中,針對電影點(diǎn)播業(yè)務(wù),選取部分點(diǎn)播電影比較多的用戶進(jìn)行小規(guī)模系統(tǒng)試點(diǎn)。從試點(diǎn)結(jié)果來看,用戶電影觀看時(shí)間平均增加了12%左右,業(yè)務(wù)訂購量增加不明顯。試點(diǎn)結(jié)果分析如下。
? 用戶電影觀看時(shí)間的增加說明個(gè)性化推薦系統(tǒng)已發(fā)揮了智能化引導(dǎo)的作用,能夠?yàn)橛脩粽业接脩粼敢饪吹挠捌?/p>
? 業(yè)務(wù)訂購量增加不明顯,說明個(gè)性化推薦不是萬能的,IPTV業(yè)務(wù)發(fā)展還需要在內(nèi)容質(zhì)量提升、業(yè)務(wù)營銷和產(chǎn)品設(shè)計(jì)等方面全面進(jìn)行;同時(shí),在IPTV點(diǎn)播業(yè)務(wù)中,很多用戶已經(jīng)購買了月包或年包。
? 個(gè)性化推薦系統(tǒng)應(yīng)該基于全業(yè)務(wù)、全場景進(jìn)行統(tǒng)一規(guī)劃、分析,著名的在線影片租賃商N(yùn)etflix新一代推薦系統(tǒng)的承載形式是“會(huì)員首頁”,即每個(gè)會(huì)員登錄之后的第一頁,平均2/3的視頻是從此處發(fā)起的。
個(gè)性化推薦系統(tǒng)起源于電子商務(wù)網(wǎng)站,亞馬遜是個(gè)性化推薦系統(tǒng)成功的早期典范;后續(xù)推廣到音視頻、新聞推薦、社交等眾多領(lǐng)域,都取得了成功。目前在互聯(lián)網(wǎng)視頻領(lǐng)域,個(gè)性化推薦是必備工具,據(jù)Netflix估算,個(gè)性化推薦系統(tǒng)每年為它的業(yè)務(wù)節(jié)省的費(fèi)用可達(dá)10億美元[6]。
然而由傳統(tǒng)電視轉(zhuǎn)化而來的IPTV業(yè)務(wù),在這方面才剛起步,本文提出的IPTV視頻個(gè)性化推薦方案基于IPTV運(yùn)營需求,分析IPTV視頻和用戶及個(gè)性化推薦的特性,以“虛擬視頻用戶”解決IPTV中用戶指向問題,以離線批處理數(shù)據(jù)分析+在線流式處理引擎的組合,解決用戶畫像刻畫和準(zhǔn)實(shí)時(shí)的個(gè)性化推薦。本方案是綜合解決IPTV中個(gè)性化推薦的有益嘗試,也是大數(shù)據(jù)技術(shù)在IPTV領(lǐng)域的深入應(yīng)用。IPTV以其和寬帶結(jié)合的先天優(yōu)勢,加上大數(shù)據(jù)技術(shù)的保駕護(hù)航,必將在家庭視頻領(lǐng)域獲得更大發(fā)展。
[1] 衛(wèi)星參數(shù)網(wǎng). 我國有線電視付費(fèi)用戶跌破了1.6億戶[EB/OL]. (2017-08-16)[2017-09-26].http://www.sohu.com/a/165155976_283658.
Satellite Parameter com. China’s cable TV subscribers fell 160 million households[EB/OL].(2017-08-16)[2017-09-26].http:// www. sohu.com/a/165155976_283658.
[2] 智庫百科. DIKW模型[EB/OL]. (2016-07-27)[2017-09-20]. http://wiki.mbalib.com/wiki/DIKW%E4%BD%93%E7%B3%BB.
MBA Lib. Data-to-information-to-knowledge-to-wisdom model[EB/OL]. (2016-07-27)[2017-09-20]. http://wiki. mbalib.com/ wiki/ DIKW%E4%BD%93%E7%B3%BB.
[3] 尤海浪, 錢鋒, 黃祥為, 等. 基于大數(shù)據(jù)挖掘構(gòu)建游戲平臺個(gè)性化推薦系統(tǒng)的研究與實(shí)踐[J]. 電信科學(xué), 2014, 30(10): 27-32.
YOU H L, QIAN F, HUANG X W, et al. Research and practice of building a personalized recommendation system for mobile game platform based on big data mining[J]. Telecommunications Science, 2014, 30(10): 27-32.
[4] 趙晨婷, 馬春娥. 探索推薦引擎內(nèi)部的秘密[EB/OL]. (2011-03-16) [2017-09-22]. https://www.ibm.com/developerworks/ cn/web/ 1103_ zhaoct_recommstudy1/index.html?ca=drs-.
ZHAO C T, MA C E. Explore the secrets inside the recommendation engine[EB/OL]. (2011-03-16)[2017-09-22]. https://www. ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-.
[5] 廖建新. 大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望[J]. 電信科學(xué), 2015, 31(7): 7-18.
LIAO J X. Big data technology: current applications and prospects[J]. Telecommunications Science, 2015, 31(7): 7-18.
[6] A5站長網(wǎng). Netflix每年靠它節(jié)省10億美元這套個(gè)性化推薦系統(tǒng)是怎么回事? [EB/OL].[2017-09-20]. http://www.sohu. com/a/ 108901273_134135.
Admin 5 com. How does Netflix save $1 billion a year on this personalized recommendation system? [EB/OL]. [2017-09-20]. http://www. sohu.com/a/108901273_134135.
IPTV video personalized recommendation system
YU Hongyong, QIU Chenxu, WEN Jianfeng
Shanghai Research Institute of China Telecom Co., Ltd., Shanghai 200122, China
The personalized recommendation requirements of IPTV video were analyzed, the IPTV video user portrait with “virtual video users” was structured, a personalized recommendation system was built which included a batch data analysis system and a streaming architecture of personalized recommendation engine. Experimental results show that it is a useful attempt in enhancing the use experience of IPTV users.
personalized recommendation, big data analysis, IPTV
G203
A
10.11959/j.issn.1000?0801.2017318
2017?09?30;
2017?11?10
于洪涌(1976?),男,中國電信股份有限公司上海研究院數(shù)據(jù)分析師,主要從事IPTV數(shù)據(jù)分析、智慧家庭數(shù)據(jù)分析等方面的工作。
邱晨旭(1973?),男,中國電信股份有限公司上海研究院高級工程師,主要從事電信數(shù)據(jù)規(guī)劃、項(xiàng)目管理等方面的工作。
聞劍峰(1977?),男,中國電信股份有限公司上海研究院大數(shù)據(jù)智慧運(yùn)營研發(fā)(高級),主要從事大數(shù)據(jù)基礎(chǔ)架構(gòu)研發(fā)方面的工作。