沈浩
中國移動通信集團(tuán)上海有限公司 上海 200061
近年來,多元化的多媒體業(yè)務(wù)成為IPTV平臺發(fā)展的新熱點,極大促進(jìn)了IPTV在國內(nèi)的快速成長,同時還可以為家庭及政企用戶提供一種人性化的服務(wù)。IPTV業(yè)務(wù)初期,作為寬帶業(yè)務(wù)標(biāo)配業(yè)務(wù),推動寬帶業(yè)務(wù)滲透和發(fā)展;在千兆帶寬時代,更是成為家庭娛樂業(yè)務(wù)中心。除了直播業(yè)務(wù)之外,IPTV業(yè)務(wù)借助專網(wǎng)網(wǎng)絡(luò)優(yōu)勢,演化了4K、8K、VR/AR等超高清業(yè)務(wù)并且積極探索會員、營銷、廣告、電商、政務(wù)服務(wù)等眾多電視生態(tài)業(yè)務(wù)。IPTV多樣化的生態(tài)化的多媒體業(yè)務(wù),不但可以改善傳統(tǒng)電視觀眾的用戶體驗,而且對眾多互聯(lián)網(wǎng)用戶也十分具有吸引力。根據(jù)工信部的統(tǒng)計數(shù)據(jù),2021年一季度,全國IPTV用戶已達(dá)3.25億,已經(jīng)具備龐大的用戶基礎(chǔ),針對海量IPTV用戶數(shù)據(jù)分析價值潛力無限。但是相比互聯(lián)網(wǎng)電視(OTT而言),IPTV具有明顯的屬地化網(wǎng)格化發(fā)展格局,每個地區(qū)IPTV用戶興趣和行為均有明顯差異,如何挖掘地域用戶特性并且借助IPTV網(wǎng)絡(luò)服務(wù)優(yōu)勢,建設(shè)上海本地業(yè)務(wù)精細(xì)化運(yùn)營能力,構(gòu)筑IPTV精準(zhǔn)服務(wù)能力是關(guān)鍵。
構(gòu)建IPTV精準(zhǔn)服務(wù)能力關(guān)鍵在于有效數(shù)據(jù)的挖掘和用戶有效觸達(dá)。從數(shù)據(jù)挖掘?qū)用鎭碚f,IPTV業(yè)務(wù)已經(jīng)構(gòu)建一套端到端服務(wù)體系,從IPTV服務(wù)端、傳輸端再到機(jī)頂盒終端硬件,對用戶行為數(shù)據(jù)的關(guān)鍵數(shù)據(jù)進(jìn)行了留存,如何對這些用戶行為數(shù)據(jù)進(jìn)行有效處理和提取成為有效數(shù)據(jù)挖掘的關(guān)鍵。隨著業(yè)務(wù)分析的深入,數(shù)據(jù)分析的指標(biāo)和維度呈指數(shù)級增長,如何快速對當(dāng)前業(yè)務(wù)問題進(jìn)行分析,這成了數(shù)據(jù)爆炸后的“幸福的煩惱”。在有效數(shù)據(jù)挖掘的基礎(chǔ)上,對用戶的不同行為偏好進(jìn)行分析,形成精準(zhǔn)的用戶畫像,從而針對不同用戶進(jìn)一步完善運(yùn)營策略,可以促使IPTV的業(yè)務(wù)不斷健康的發(fā)展。另一方面,目前IPTV已經(jīng)不同于發(fā)展之初的內(nèi)容和服務(wù)極度匱乏,對于用戶而言,現(xiàn)在的IPTV內(nèi)容是海量的,服務(wù)是多元化的,如何通過有效的技術(shù)手段,使得內(nèi)容或者服務(wù)在用戶需要或者感興趣的時候及時讓用戶感知,同時又不對用戶造成干擾,是十分值得探究的課題。
目前,大數(shù)據(jù)分析平臺主流架構(gòu)有Lambda架構(gòu)、Hadoop架構(gòu)和Kappa架構(gòu)等[1]。本文的大數(shù)據(jù)平臺使用的是Hadoop,F(xiàn)link等技術(shù)對海量數(shù)據(jù)進(jìn)行實時計算,對于數(shù)據(jù)處理時效要求為秒級,其中實時計算技術(shù)難點主要為兩塊,一是實時入庫,二是實時計算。IPTV數(shù)據(jù)平臺在數(shù)據(jù)采集功能上需要保證可以完整的收集到用戶訪問端到端的所有日志記錄數(shù)據(jù),同時為實時應(yīng)用提供實時數(shù)據(jù),響應(yīng)時間上要保證實時性、低延遲在1秒左右;同時對于部署的系統(tǒng)穩(wěn)定可靠性要求高。如圖1所示,數(shù)據(jù)采集除了對機(jī)頂盒用戶數(shù)據(jù)實時采集外,還需對IPTV服務(wù)端進(jìn)行數(shù)據(jù)挖掘,同時結(jié)合互聯(lián)網(wǎng)開放數(shù)據(jù)進(jìn)行同時處理。
圖1 大數(shù)據(jù)平臺架構(gòu)
系統(tǒng)利用Flink流處理框架,對采集的數(shù)據(jù)進(jìn)行流式計算,在流數(shù)據(jù)不斷變化的運(yùn)動過程中實時地進(jìn)行處理分析,尋找到可能對用戶有價值的信息,并把結(jié)果輸出到業(yè)務(wù)端,以便業(yè)務(wù)端系統(tǒng)根據(jù)數(shù)據(jù)分析進(jìn)行及時的反饋。
大數(shù)據(jù)平臺從數(shù)據(jù)的生產(chǎn)到數(shù)據(jù)的應(yīng)用過程主要分三個階段:數(shù)據(jù)的產(chǎn)生與收集、傳輸與分析處理、對外提供服務(wù)[2]。
1.2.1 數(shù)據(jù)采集。
1.2.1.1 采集接口的角度看,數(shù)據(jù)采集層在實際的過程中,需要考慮到多元化業(yè)務(wù)的發(fā)展需要。也就是要在多種數(shù)據(jù)格式的情況下,保持對數(shù)據(jù)源的強(qiáng)力介入,滿足對數(shù)據(jù)采集功能模塊的持續(xù)建設(shè)和優(yōu)化完善。此外,在業(yè)務(wù)開展過程中,還需要考慮到包括直播、點播、回看、電子商務(wù)、開機(jī)廣告、自主服務(wù)等方面的主要業(yè)務(wù)形態(tài)。
1.2.1.2 從使用方的角度來看,需要在數(shù)據(jù)采集的時候,構(gòu)建用戶登錄、鑒權(quán)信息,開通的業(yè)務(wù)類型,用戶在觀看視頻過程中視頻的播放時長,起始時間和結(jié)束時間,以及用戶的操作行為包括觀看訪問路徑,觀看節(jié)目編號、節(jié)目分類屬性信息、增值訂購行為等。在完成多個數(shù)據(jù)來源多樣化的不同格式數(shù)據(jù)的接入并進(jìn)行合理的數(shù)據(jù)格式轉(zhuǎn)換及分類處理后,就可以結(jié)合實際運(yùn)營的需求,進(jìn)行數(shù)據(jù)的輸出供其他模塊使用。
1.2.2 數(shù)據(jù)分析。
1.2.2.1 離線計算的基礎(chǔ)上,需要在Hadoop的分布中,不斷擴(kuò)展數(shù)據(jù)資源,持續(xù)投入基礎(chǔ)建設(shè),滿足在線數(shù)據(jù)的實時處理和服務(wù)要求,如圖2所示,為本次數(shù)據(jù)采集部署架構(gòu)。也就是說,我們需要在實時數(shù)據(jù)的基礎(chǔ)上保持?jǐn)?shù)據(jù)的抖動,提高消息的處理速度,保證最大的響應(yīng)時間。
圖2 數(shù)據(jù)平臺基礎(chǔ)架構(gòu)圖
1.2.2.2 需要思考到發(fā)送失敗的問題,以及實時數(shù)據(jù)計算的問題等。
1.2.3 數(shù)據(jù)服務(wù)。
1.2.3.1 運(yùn)營數(shù)據(jù)服務(wù)的視角上看,需要在各種業(yè)務(wù)數(shù)據(jù)接入的基礎(chǔ)上,保持良好的運(yùn)營效果,加強(qiáng)全面的數(shù)據(jù)掌握[3]。其中,主要包含的維度可以分為以下的幾點:用戶維度,收視排行榜維度,基礎(chǔ)產(chǎn)品維度,增值產(chǎn)品維度,首屏及一二級EPG觸點訪問維度等范疇。另外還需要涉及用戶發(fā)展的問題包括用戶開機(jī)活躍率分析的問題,用戶播控卡頓、頻道切換時長、內(nèi)容播放響應(yīng)、語音遙控器操控、服務(wù)滿意度等多維度分析問題。
1.2.3.2 從個性化數(shù)據(jù)服務(wù)的角度,即智能推薦可以在用戶分析的基礎(chǔ)上,形成全方位的精確用戶畫像,對使用用戶的觀看興趣和使用習(xí)慣進(jìn)行特征抽象提煉。此時系統(tǒng)就可以結(jié)合使用者的興趣和差異化特質(zhì),持續(xù)進(jìn)行內(nèi)容可視化推薦,不斷提升用戶的活躍率和增值產(chǎn)品的訂購轉(zhuǎn)化率。
精準(zhǔn)用戶畫像研究是為了科學(xué)的形容IPTV用戶的個性化特征和高效的用戶分群的方法。通過在訪問的媒體介質(zhì)屬性和訪問業(yè)務(wù)的時間行為上對用戶使用習(xí)慣進(jìn)行分析和預(yù)測,并對用戶群體的行為進(jìn)行分析總結(jié),對用戶的個性化的行為屬性和習(xí)慣特點進(jìn)行高度抽象概括,結(jié)合精細(xì)的大數(shù)據(jù)分析與用戶行為的準(zhǔn)確理解,挖掘本平臺用戶行為特征,為運(yùn)營提供行之有效的決策信息。
用戶畫像的生成流程通常為:①IPTV終端機(jī)頂盒等植入js日志上報代碼,上報電視的設(shè)備ID(如MAC地址、串碼編號)、訪問日志、收視日志、互動日志等到大數(shù)據(jù)采集機(jī)群。②大數(shù)據(jù)采集模塊集群將多來源的日志原始數(shù)據(jù)存儲到大數(shù)據(jù)計算集群。③數(shù)倉模塊通過ETL技術(shù)將資源庫(頻道、節(jié)目單、點播)、互動庫、電視日志等按維度表和事實表的形式入倉存儲,供后續(xù)畫像模塊使用。④畫像模塊從數(shù)倉的維表或事實表提取數(shù)據(jù),生成畫像標(biāo)簽。
最終形成的畫像標(biāo)簽體系,用于形容用戶具體的特征,從而得到平臺的用戶畫像。
2.3.1 在實際應(yīng)用中,畫像標(biāo)簽可以分兩類處理方法,一類是基于電視運(yùn)營經(jīng)驗或者數(shù)分人員的假設(shè)而形成的規(guī)則類標(biāo)簽,一類是基于分類算法等而形成的算法類標(biāo)簽。
2.3.2 算法類標(biāo)簽又有兩種生成形式,一種是在基于已提取的規(guī)則標(biāo)簽用戶映射的基礎(chǔ)上再結(jié)合各種特征組合來訓(xùn)練得出的分類模型后再預(yù)測出的標(biāo)簽從而用來調(diào)整強(qiáng)化或無人工干預(yù)的自動化標(biāo)簽提取,一種是采用直接的無監(jiān)督的聚類算法來做用戶分群的標(biāo)簽提取。
2.3.3 本系統(tǒng)采用的是分類算法迭代循環(huán)自動強(qiáng)化調(diào)整規(guī)則類標(biāo)簽的設(shè)計,即用規(guī)則類提取的畫像標(biāo)簽作為監(jiān)督學(xué)習(xí)的標(biāo)簽,同時在外部特征庫中抽取用戶特征,或結(jié)合部分規(guī)則類用戶標(biāo)簽來構(gòu)成用戶特征向量,用人工智能算法進(jìn)行機(jī)器學(xué)習(xí)來形成標(biāo)簽提取模型,在經(jīng)過規(guī)則類畫像標(biāo)簽應(yīng)用的效果驗證后,采用該驗證后的規(guī)則類生成的用戶標(biāo)簽映射作為訓(xùn)練樣本來繼續(xù)學(xué)習(xí),最終不斷提高模型的準(zhǔn)確率,從而將用戶標(biāo)簽提取模型應(yīng)用在實際業(yè)務(wù)中來實現(xiàn)自動化分類。
2.3.4 在實際應(yīng)用中,在形成用戶畫像后,可以對外輸出不同用戶分組,或者根據(jù)畫像標(biāo)簽對外提供用戶查詢接口,配合外部推送系統(tǒng)實現(xiàn)對用戶在不同場景下的關(guān)聯(lián)業(yè)務(wù)推送和內(nèi)容推薦。
圖3 用戶畫像的構(gòu)建
圖4 智能消息系統(tǒng)部署示意圖
大數(shù)據(jù)消息推送系統(tǒng)(IMOS,Intelligence Message Operation System)在用戶畫像基礎(chǔ)上,對用戶行為與場景進(jìn)行聯(lián)結(jié),利用關(guān)鍵用戶特征通過消息的形式主動連接用戶,從而快速高效建立用戶與物品連接的能力。消息具有能主動對電視全場景觸發(fā)、主動點對點、千人多面、千人千面觸發(fā)、可以承載節(jié)目信息、活動信息、營銷信息等多元化內(nèi)容,從而能快速響應(yīng)用戶需求,提升平臺與用戶連接效率,提升物品利用率、付費(fèi)轉(zhuǎn)化率、用戶開機(jī)率等關(guān)鍵指標(biāo),進(jìn)而全面改善平臺對用戶的體驗。
2.5.1 當(dāng)前運(yùn)營痛點。傳統(tǒng)IPTV平臺在用戶經(jīng)營的痛點主要有以下幾點:
2.5.1.1 缺乏主動精準(zhǔn)連接用戶的能力。EPG頁面承載內(nèi)容能力有限,基本為編輯推薦的頭部內(nèi)容,用戶離開頁面后,平臺就無法連接用戶?,F(xiàn)有情況就只能等待用戶到EPG主頁來。
2.5.1.2 平臺流量不均衡,缺乏流量主動干預(yù)手段用戶流量分布主要在直播、免費(fèi)內(nèi)容等,平臺目前缺乏必要手段將用戶拉入我們希望發(fā)現(xiàn)的內(nèi)容入口,例如付費(fèi)內(nèi)容、特色內(nèi)容等。
2.5.1.3 物品利用率低,對長尾內(nèi)容拉動不足。平臺有近20萬部內(nèi)容,而用戶每月收視過的內(nèi)容不足5%,但其他內(nèi)容并非對用戶沒有吸引力,而是無法被用戶發(fā)現(xiàn)。
2.5.1.4 缺乏對用戶實時行為及時高效反饋的能力。用戶需求瞬息萬變,電視也是一個多用戶維度,現(xiàn)有平臺無法識別用戶行為變化并且快速做出反應(yīng),引導(dǎo)用戶收視。例如當(dāng)用戶在不停換臺時就應(yīng)該主動推薦內(nèi)容給他,而不是等他自己去找。
2.5.1.5 對區(qū)隔出來的特征用戶缺乏必要手段提升體驗面對用戶的各個特征分組,無法有效的針對性開展必要的營銷和服務(wù),從而提升用戶體驗。例如未續(xù)費(fèi)用戶、有離網(wǎng)風(fēng)險用戶等
2.5.2 消息系統(tǒng)解決方案。針對這些問題,本次搭建的消息系統(tǒng)的解決方案如下:
2.5.2.1 IMOS具有全場景主動推送能力。IMOS可以在EPG頁面、直播、點播中主動發(fā)起向用戶的消息推送,推送內(nèi)容、活動、付費(fèi)等,不需要等用戶到EPG頁面查找。
2.5.2.2 IMOS通過主動推送將用戶導(dǎo)入目標(biāo)內(nèi)容。IMOS可以根據(jù)用戶收視特征,根據(jù)不同場景向用戶主動推送相應(yīng)內(nèi)容和業(yè)務(wù),并且支持用戶一鍵跳轉(zhuǎn),可將直播等免費(fèi)流量拉入點播內(nèi)容或特色內(nèi)容中。
2.5.2.3 IMOS與推薦算法結(jié)合解決內(nèi)容利用率問題IMOS可以跟推薦算法結(jié)合,根據(jù)用戶特征和當(dāng)前收視場景,直接從媒資庫里調(diào)取節(jié)目主動推送給用戶,從而提升長尾物品的點擊率和利用率。
2.5.2.4 IMOS可以快速生成消息及時響應(yīng)用戶需求IMOS通過對場景的識別和用戶特征結(jié)合快速判斷用戶需求,馬上可以觸發(fā)內(nèi)容推薦、營銷付費(fèi)、關(guān)聯(lián)活動等內(nèi)容,而不需要編輯專門制作專題內(nèi)容,大大提升運(yùn)營效率。
2.5.2.5 IMOS可以針對用戶分組推送針對性服務(wù)。IMOS具有用戶分組,點對點觸發(fā)的特征,因此對一些特征用戶組可以專門編制相關(guān)消息進(jìn)行通知。例如可以專門為未續(xù)費(fèi)用戶策劃優(yōu)惠政策推送給他,非該分組用戶則無法收到。
綜上所述,本文從挖掘出用戶的行為特征、分析用戶偏好的本意出發(fā),提出了一種基于大數(shù)據(jù)平臺的IPTV智能消息推送技術(shù),使得平臺具備了與用戶更加緊密的觸達(dá)能力,具有針對性強(qiáng)、實時反映和能夠顯示真實消費(fèi)需求的特點,實際提升了用戶開機(jī)率、開機(jī)時長和平臺活躍,更加提升節(jié)目的利用率,讓購買的節(jié)目更加都能產(chǎn)生價值,并且通過精準(zhǔn)的業(yè)務(wù)推薦促進(jìn)用戶付費(fèi)率提升。另外對于發(fā)展廣告、電商類業(yè)務(wù)也帶來新的營銷手段。