文/孔 彬 匡文波
基于大數據的互聯(lián)網電視運營分析體系研究
文/孔 彬匡文波
2014年底,中國互聯(lián)網電視的機頂盒終端和電視機終端累計用戶數已經超過了一億。可見,互聯(lián)網電視每天都要產生大量的用戶數據信息,這些海量數據,規(guī)模大小不一,也毫無數據結構可言,在沒有經過分析、處理、挖掘之前,基本上就僅僅只是一些規(guī)模很大的、毫無利用價值的零散數據。但由于互聯(lián)網電視具有雙向互動的天然優(yōu)勢,可以采集到用戶所有的使用情況記錄,這些代表了“群體智慧”的數據記錄又可以在播控平臺進行大數據處理分析,從而實現(xiàn)大數據的最終目標——“進行判斷和預測”,并從中獲取價值,成為互聯(lián)網電視運營決策的根本。
互聯(lián)網電視運營分析體系的大數據技術實現(xiàn)系統(tǒng)設計,就是通過研究、探討如何建立基于大數據的互聯(lián)網電視運營分析體系,和用戶之間建立起實時、有效的互動與溝通,通過該平臺來收集所有用戶的相關信息和數據,再據此分析用戶的喜好,然后依照分析結果為用戶提供更適合的內容產品、更精準的營銷與廣告信息。該體系還可以進一步地精確把握用戶群體和個體網絡行為模式,探索個人化、個性化、精確化和智能化地進行廣告推送和服務推廣的方法,創(chuàng)造出比現(xiàn)有廣告和產品推廣形式性價比高數倍甚至數十倍的全新商業(yè)模式。
根據上述需求,需要結合大數據應用開發(fā)的流程,分步驟探討每一步的具體技術細節(jié),即按照功能規(guī)劃、數據采集處理、數據分析和成果應用等四個步驟,來設計基于大數據的互聯(lián)網電視運營分析體系。
互聯(lián)網電視運營分析體系,可以通過與運營商業(yè)務平臺的終端和服務端系統(tǒng)對接的方式,獲取“用戶行為數據”和“內容標簽信息”,并建立用戶肖像,構建“用戶—時間—標簽”的多維數據矩陣,將用戶在互動域的使用行為進行量化并映射到增值業(yè)務域,為其業(yè)務營銷提供精準的數據支撐。
概括地說,互聯(lián)網電視運營分析體系的主要功能就是實現(xiàn)運營支撐,包括頻道/視頻內容分析、視頻熱點內容挖掘、用戶觀看行為重現(xiàn)、視頻播放碼率優(yōu)化、視頻廣告體驗優(yōu)化、用戶操作體驗優(yōu)化等。從對大數據的剖析角度而言,主要是針對運營分析體系的電視(TV)、視頻(Video)和流(Streaming)等三類數據來源,如圖1所示。
如果對互聯(lián)網電視的大數據分析功能進行分類的話,可以從四類功能來規(guī)劃。
圖1 互聯(lián)網電視運營分析體系的功能規(guī)劃
統(tǒng)計收視情況。在擁有完整樣本的互聯(lián)網電視大數據分析平臺上,可以詳細地記錄和分析統(tǒng)計出電視節(jié)目播出平臺上各個欄目、各個頻道的點播、直播及回看的收視率。然后按照用戶的開機情況、用戶在線時長、用戶平均收視時長等信息數據,能夠統(tǒng)計具體到居住小區(qū)的用戶收視情況。
分析用戶行為。憑借追蹤用戶行為的功能,實現(xiàn)點播節(jié)目和直播頻道收視率的實時統(tǒng)計,每隔三秒鐘進行數據刷新,還支持按年、月、周、日來分析實時收視率的歷史數據。相應的,也可以按照用戶訪問頁面的行為記錄,提供路徑分析,提升節(jié)目的訂閱率,優(yōu)化電子節(jié)目指南(EPG),簡化電視的互動操作。
支持節(jié)目決策。通過平臺的分析數據,可以幫助電視臺各個頻道來建立數學模型,指導節(jié)目決策、制作、編排、引進,更準確地滿足用戶需求,同時也能夠提升電視臺節(jié)目的收視率。
提供個性化服務。從用戶的角度而言,做好大數據運營分析系統(tǒng)的首要條件,是更為準確地了解和響應用戶的需求,實現(xiàn)EPG的個性化服務、精準推送、推薦相關節(jié)目內容,并能夠依照用戶的變化規(guī)律及活躍表現(xiàn)程度,添加各類相應活動,進行用戶挽留等服務,從而達到優(yōu)化用戶體驗的目的,使得用戶獲得更佳的服務,不再錯過想要觀看的精彩節(jié)目,精準對位營銷優(yōu)質的節(jié)目內容。最終,為電視臺等播出機構建設一個節(jié)目內容“從產品到商品”的優(yōu)良市場渠道。
互聯(lián)網電視運營商的大數據主要來自于兩部分:一部分來自網絡,這一類數據稱為過程數據,如用戶的開關機行為數據、位置移動數據、上網行為數據等。另一部分來自業(yè)務支撐系統(tǒng),這一類數據稱為業(yè)務數據,如用戶的個人信息數據、電視收看數據、繳費數據、消費數據等。這些數據種類繁多,難以一一詳述,本文僅以與用戶行為相關的數據為例,來闡述如何進行數據采集與處理。
這些用戶行為數據采用基于HBase的分布式數據庫。HBase數據庫屬于Apache Hadoop體系,能進行大型數據的實時、隨機讀寫訪問。與以往的RDB(Relation Data Base)比較,HBase具有擴展靈活、支持大批量數據、低成本等優(yōu)勢。
數據采集。在運營分析體系中,每個互聯(lián)網電視終端都對應了一個用戶,該用戶都有唯一的用戶標識(UserID);用戶從終端網絡的接口來使用并訪問各類業(yè)務服務,在終端系統(tǒng)上,用戶的各種行為信息都會上傳到系統(tǒng)平臺(Open Api)中,系統(tǒng)平臺處理完數據后再入庫,然后為運營分析系統(tǒng)提供單個用戶或批量用戶的查詢工作,如圖2所示。
圖2 運營分析數據系統(tǒng)架構
數據結構。HBase中的數據表有體量大(一個數據表能夠記錄上百萬列和上億行數據)、面向列(可以控制面向列/族的存儲權限,并能單獨檢索列)、設計稀疏(對于null類型的空列,并不占用存儲空間。因此,表可以設計得非常稀疏)等特點。
表1現(xiàn)在顯示的是某一時段的模擬數據,內容為互聯(lián)網電視流媒體的播放信息日志,這些數據都是在普通的數據表中進行記錄的。平臺剛開始的日志用系統(tǒng)記錄的數據來表示,行為序號是人為來定義的,列序號是人工生成的列標識ID。在某一天內,同一個行為日志的列序號是唯一的。
表1 流媒體播放日志示例數據
HBase非常適合存儲非結構化數據。而將普通數據表(表1)中的數據記錄導入到HBase表(表2)中,就涉及到HBase表該如何構造和設計的問題。本文通過設計一系列的反轉規(guī)則來實現(xiàn)數據的導入。由反轉用戶序號、用戶發(fā)生行為的時間、用戶行為序號組成RowKey(RowKey是一段二進制碼流,HBase中就是按照RowKey來檢索的),轉換后HBase表中的數據如表2所示。
表2 入庫后示例數據
數據處理。HBase對MapReduce API進行了擴展,方便MapReduce任務讀寫HTable數據。MapReduce提供了一個編程模型,將磁盤讀寫問題進行抽象。MapReduce將數據抽象成并演變成為對一個數據集(key/value對組成的集合)的計算。這個計算是由Map和Reduce兩部分所完成的,也就是將數據抽象成為Map和Reduce兩個對外的接口。
采集和處理了相關數據后,就需要運用數據分析與挖掘方法,為運營商提供更多潛在且有價值的信息,應對外部競爭壓力,提高自身運營效率和服務水平,提高決策的科學性。本文選取幾類典型應用的數據挖掘分析如下。
電視收視率。每間隔一分鐘對收視率進行收集,得到測試數據,然后基于時間序列來進行分析,并以貝葉斯、決策樹等分類算法,對互聯(lián)網電視收視率進行科學預測,挖掘出不同類型客戶群的收視特點,發(fā)現(xiàn)節(jié)目之間的關聯(lián)性。
用戶群細分。按照用戶相似度計算準則,建立互聯(lián)網電視用戶群的細分模型,了解不同客戶的收視需求、收視習慣、收視能力等。根據客戶的性別、年齡、職業(yè)、教育程度等屬性,利用聚類算法CLARANS(Clustering Large Application based upon RANdomized Search,基于隨機搜索的聚類大型應用)、CLIQUE算法、ID3決策樹和客戶相似度的計算公式實現(xiàn)客戶細分算法,找出不同客戶群體的特征,區(qū)分“高價值”和“低價值”的客戶群,從而針對不同客戶群制定營銷策略。
用戶消費行為分析。采用FP-growth算法進行關聯(lián)規(guī)則挖掘,可以發(fā)現(xiàn)套餐、節(jié)目之間的某種聯(lián)系,從而挖掘出互聯(lián)網電視用戶的使用和消費習慣,為有線運營商設計用戶訂購節(jié)目的消費套餐和市場促銷策略提供數據決策支持。
視頻點播推薦。推薦算法主要有:基于物品的協(xié)同過濾推薦算法(通過挖掘一個已經存在的用戶社區(qū)過去已經發(fā)生的行為或意見,預測當前系統(tǒng)中的用戶最可能喜歡或感興趣的物品)、基于內容的推薦算法(根據推薦物品的屬性,發(fā)現(xiàn)物品的相關性,然后基于用戶以往的喜好記錄,推薦給用戶相似的物品)、混合推薦算法(一起使用幾種推薦算法,并且通過一種具體的混合機制聚集,輸出這些推薦算法的結果)和K最近鄰算法(為每個物品尋找K個與其最相似的物品,并推薦給用戶)等。
基于前面的設計與開發(fā)流程,采用金字塔模型來實現(xiàn)互聯(lián)網電視的大數據分析體系的架構設計。該金字塔模型分為七個層面,如圖3所示。
圖3 互聯(lián)網電視大數據分析的金字塔模型
數據基礎平臺層。數據基礎平臺層的目標就是建立所有互聯(lián)網電視用戶數據的記錄,實現(xiàn)全方位了解某用戶使用習慣和愛好的目的。數據基礎平臺層的搭建有三大關鍵:一是確定用戶唯一ID;二是有效的解決數據孤島問題;三是解決數據有效管理和計算的問題。
業(yè)務運營監(jiān)控層。業(yè)務運營監(jiān)控層主要目的是幫助運營商監(jiān)控業(yè)務運營情況的健康度,快速發(fā)現(xiàn)問題并定位問題原因。業(yè)務運營監(jiān)控層的工作有兩大關鍵:一是梳理數據體系;二是打造數據異動監(jiān)控產品。
用戶洞察/體驗優(yōu)化層。該層不僅使用結構化數據來優(yōu)化和觀測,也使用非結構化數據(如視頻、文本等)來優(yōu)化和觀測。結構化數據主要是通過各類用戶行為模型來分析,非結構化數據則主要由監(jiān)測各類社交媒體(如微信、QQ、微博、論壇等)和運營商客戶服務系統(tǒng)的記錄來優(yōu)化和觀測。
精細化運營和營銷層。第四層的首要目標是使用大數據來促使互聯(lián)網電視運營商實施精細化運營和市場營銷。實現(xiàn)精細化運營和營銷有6個方面的關鍵舉措:構建基于用戶的數據提取和運營工具;構建基于大數據的CRM系統(tǒng);構建基于大數據的營銷活動數據挖掘體系;推廣渠道質量監(jiān)控和防作弊;通過數據挖掘的手段進行客戶生命周期管理;客戶個性化推薦。
業(yè)務市場傳播層。這一層主要是希望通過直觀、生動、可視化信息來配合業(yè)務推廣傳播,主要有兩種實現(xiàn)方式:一是使用令人印象深刻、鮮活生動的圖表,二是提供形象化、可視化加工過的數據信息產品。
業(yè)務經營分析層和戰(zhàn)略分析層。這兩個層面更多的是傳統(tǒng)的經營分析、戰(zhàn)略分析層面的理論,互聯(lián)網電視運營商在這兩個層面都有自我特色:一是其數據來源可以取自大數據,并且數據的更新非???,快到可以實現(xiàn)按小時級、分鐘級的更新速度,反觀傳統(tǒng)的經營分析、戰(zhàn)略分析最多是按月份來研究分析的。另一大優(yōu)勢在于大數據的數據來源更加多元化,包括對非結構化數據進行觀測和深入分析挖掘。
融合了大數據的互聯(lián)網電視運營分析體系,能實時研究用戶的偏好,向用戶提供個性化、智能化、多樣化的收視服務,提升使用體驗,同時能給有關的行業(yè)研究機構提供準確的用戶偏好分析。
媒體也能夠獲取全時段的節(jié)目收視數據信息,為節(jié)目的策劃、設計、編排、調整等提供依據,提升節(jié)目品質,促進內容創(chuàng)新。廣告商也能按照分析數據,及時調整廣告的投放策略,避免重復性投放,提升廣告投放精準度。
同時,運營分析系統(tǒng)還能夠為政府和行業(yè)機構提供決策支持,自動生成專業(yè)化的輿論及宣傳效果評價、輿情力度、輿情導向及動態(tài)輿情變化等多維數據報告。
總之,用心做好互聯(lián)網電視,才是最終的目標!
作者孔彬中國人民大學新聞學院博士研究生、國家新聞出版廣電總局廣播電視規(guī)劃院信息研究所運營總監(jiān)匡文波系中國人民大學新聞學院博士生導師