張 庸 張艷瑩
1.2.內(nèi)蒙古廣播電視臺(tái) 內(nèi)蒙古 呼和浩特市 010050
精細(xì)化運(yùn)營(yíng)分析系統(tǒng)基于目前業(yè)界領(lǐng)先的大數(shù)據(jù)平臺(tái)技術(shù)框架搭建,提供運(yùn)營(yíng)數(shù)據(jù)采集匯聚、業(yè)務(wù)運(yùn)營(yíng)模型分析、數(shù)據(jù)接口服務(wù)等功能,實(shí)現(xiàn)對(duì)IPTV 業(yè)務(wù)數(shù)據(jù)的統(tǒng)一接入、采集存儲(chǔ)、統(tǒng)計(jì)分析、深度挖掘,提供全網(wǎng)、全用戶、全業(yè)務(wù)的綜合分析數(shù)據(jù)、對(duì)外數(shù)據(jù)接口服務(wù)。
精細(xì)化運(yùn)營(yíng)分析系統(tǒng)的目標(biāo)就是建立整套的數(shù)據(jù)采集、數(shù)據(jù)建模、模型分析、業(yè)務(wù)應(yīng)用的數(shù)據(jù)系統(tǒng),使得運(yùn)營(yíng)人員可以完成數(shù)據(jù)分析,并在業(yè)務(wù)系統(tǒng)中進(jìn)行應(yīng)用。其核心是通過(guò)統(tǒng)計(jì)用戶行為事件的指標(biāo),并篩選相關(guān)事件屬性與用戶屬性,來(lái)為運(yùn)營(yíng)人員提供數(shù)據(jù)支撐。
通過(guò)建設(shè)精細(xì)化運(yùn)營(yíng)分析系統(tǒng),采集用戶行為數(shù)據(jù)、媒資數(shù)據(jù)以及第三方數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗處理,建立事件表和用戶表的數(shù)據(jù)模型。在數(shù)據(jù)模型的基礎(chǔ)上,構(gòu)建分析模型,將運(yùn)營(yíng)人員從枯燥的數(shù)據(jù)分析中解放出來(lái),直接使用模型獲得想要的數(shù)據(jù)。模型包括事件分析模型、留存分析模型、漏斗分析模型、路徑分析模型、屬性分析模型、分布分析模型等,數(shù)據(jù)分析的模型化降低了業(yè)務(wù)分析的門檻,使得運(yùn)營(yíng)人員可以隨時(shí)進(jìn)行針對(duì)性的數(shù)據(jù)分析,自行篩選需要的指標(biāo),從而達(dá)到“數(shù)”以致用的目的。
精細(xì)化運(yùn)營(yíng)分析系統(tǒng)采用分層設(shè)計(jì)、分級(jí)處理的系統(tǒng)架構(gòu),系統(tǒng)架構(gòu)如圖1 所示。
圖1
IPTV 業(yè)務(wù)系統(tǒng)主要包括探針數(shù)據(jù)及清洗后的話單數(shù)據(jù)、C3 數(shù)據(jù)、C2 媒資數(shù)據(jù)、媒資補(bǔ)充數(shù)據(jù)以及第三方數(shù)據(jù)(如訂購(gòu)信息、用戶信息等);
數(shù)據(jù)采集層設(shè)計(jì)滿足同時(shí)支持多個(gè)業(yè)務(wù)系統(tǒng)、多終端、多種格式的數(shù)據(jù)源的接入和數(shù)據(jù)采集的功能要求。
可滿足對(duì)不同數(shù)據(jù)源多節(jié)點(diǎn)數(shù)據(jù)的收集,并完成原始數(shù)據(jù)的標(biāo)準(zhǔn)化處理、檢查校驗(yàn)(有效性檢查、合理性檢查、完整性檢查)、剔重過(guò)濾等預(yù)處理,最終形成系統(tǒng)統(tǒng)計(jì)分析和數(shù)據(jù)共享所需的基礎(chǔ)數(shù)據(jù);
根據(jù)采集數(shù)據(jù)類型(結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))、統(tǒng)計(jì)分析需求、數(shù)據(jù)共享需求完成對(duì)采集數(shù)據(jù)的匯集、存儲(chǔ)、分發(fā)處理。
精細(xì)化運(yùn)營(yíng)分析系統(tǒng)采用關(guān)系型數(shù)據(jù)庫(kù)(ORACLE/MYSQL)用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);采用分布式存儲(chǔ)數(shù)據(jù)庫(kù),例如Hadoop Hbase,HDFS 等。其支持高效讀寫、海量存儲(chǔ),支持分布式水平擴(kuò)展和集群內(nèi)冗余備份,不僅查詢功能強(qiáng)大,還可以實(shí)現(xiàn)復(fù)雜的類似SQL 關(guān)系查詢。
通過(guò)事件分析、留存分析、漏斗分析、路徑分析、用戶分析等模型,對(duì)用戶行為事件進(jìn)行統(tǒng)計(jì)分析;
業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)分析模型的事務(wù)處理采用分布式、集群部署模式,每個(gè)事務(wù)處理服務(wù)器上內(nèi)嵌內(nèi)存數(shù)據(jù)庫(kù),保證了高可靠、實(shí)時(shí)響應(yīng)。
數(shù)據(jù)分析指導(dǎo)頁(yè)面編輯通過(guò)分析用戶使用頁(yè)面的頻度,針對(duì)性的進(jìn)行優(yōu)化;
活動(dòng)評(píng)估分析專題活動(dòng)的參與人數(shù)規(guī)模,活動(dòng)人群的留存及轉(zhuǎn)化情況等;
訂購(gòu)分析展現(xiàn)人群的行為特點(diǎn)、觀影習(xí)慣、剩余天數(shù),以便進(jìn)行差異化服務(wù);
用戶分群對(duì)分析出的用戶進(jìn)行歸類分群,以便精準(zhǔn)運(yùn)營(yíng);
通過(guò)在線數(shù)據(jù)訪問(wèn)服務(wù)API,為三方系統(tǒng)提供數(shù)據(jù)分析結(jié)果。
系統(tǒng)提供統(tǒng)一數(shù)據(jù)采集接口服務(wù),實(shí)現(xiàn)從廣電域和互聯(lián)網(wǎng)各系統(tǒng)或平臺(tái)采集多源異構(gòu)的海量數(shù)據(jù)。采集數(shù)據(jù)包括但不限于全網(wǎng)用戶直播、點(diǎn)播、回看等視頻點(diǎn)播產(chǎn)生的數(shù)據(jù);所有用戶在EPG 上所產(chǎn)生的任何行為數(shù)據(jù)以及C2 或互聯(lián)網(wǎng)媒資數(shù)據(jù)以及從外部系統(tǒng)收集頻道、節(jié)目等內(nèi)容資源數(shù)據(jù);EPG系統(tǒng)提供的直播頻道信息和節(jié)目信息;點(diǎn)播和回看系統(tǒng)提供點(diǎn)播回看節(jié)目信息,以及用戶視頻點(diǎn)播行為信息。
采集接口有EPG 實(shí)時(shí)探針、App 采集SDK、FTP 文件接口等方式(如圖2 所示)。
圖2
數(shù)據(jù)服務(wù)接口向其他基礎(chǔ)業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)分析的結(jié)果數(shù)據(jù),即用戶分群的用戶畫像信息。向運(yùn)營(yíng)推薦系統(tǒng)提供基于用戶特點(diǎn)的行為數(shù)據(jù),方便進(jìn)行針對(duì)性的差異化運(yùn)營(yíng)。
(1)事件的定義:事件定義為一個(gè)獨(dú)立的用戶操作行為。如瀏覽了一個(gè)網(wǎng)頁(yè),觀看了一個(gè)視頻,發(fā)生了一次訂購(gòu)等。事件的幾個(gè)要素用4W1H 表述:Who,When,What,Where,How。
Who:誰(shuí)做了這個(gè)事件,即用戶的ID、名稱等;
When:什么時(shí)候做的這個(gè)事件,即開始時(shí)間,結(jié)束時(shí)間,持續(xù)時(shí)間等;
What:做了什么事情,即觀看直播、訂購(gòu)、點(diǎn)播等;
Where:事情是在哪里發(fā)生的,即用戶所在的區(qū)域;
How:用戶怎么做的這個(gè)事情,即使用的機(jī)頂盒類型、版本,從哪個(gè)頁(yè)面跳轉(zhuǎn)等。
(2)事件表:事件表是統(tǒng)一管理的事件列表,包括事件包含哪些屬性,不同的事件因?yàn)樾袨樘攸c(diǎn)的不同會(huì)有不同的屬性。
例如,直播事件的屬性包括頻道名稱、頻道ID、頻道分組等,點(diǎn)播事件的屬性包括影片名稱,影片的導(dǎo)演、演員,影片所屬欄目等,瀏覽事件的屬性主要包括頁(yè)面名稱、上一個(gè)頁(yè)面名稱、所屬欄目等。
(3)事件屬性:用戶行為事件的屬性,不同的事件有不同的屬性。
如點(diǎn)播事件的屬性是播放的內(nèi)容名稱、播放內(nèi)容的標(biāo)簽等,瀏覽事件的屬性是頁(yè)面名稱及欄目名稱等,訂購(gòu)事件的屬性是產(chǎn)品的價(jià)格及名稱。
將事件的屬性統(tǒng)一在屬性池中管理,為不同的事件設(shè)置不同的屬性。
(4)用戶表:用戶表的信息包括用戶的基本屬性以及用戶的行為屬性。
用戶的基本屬性包括用戶ID、姓名、地址、手機(jī)號(hào)、生日、身份證號(hào)碼、用戶所在區(qū)域、用戶的機(jī)頂盒型號(hào)、用戶的機(jī)頂盒軟件版本等固有屬性標(biāo)簽。
用戶的行為屬性包括用戶的開戶時(shí)間、首次登陸時(shí)間、訂購(gòu)產(chǎn)品包剩余天數(shù)、入網(wǎng)天數(shù)、上次登陸時(shí)間、用戶在線時(shí)段、畫像標(biāo)簽等,同時(shí)還包括根據(jù)用戶的實(shí)際行為而產(chǎn)生的屬性標(biāo)簽。
4.2.1 模型概述
精細(xì)化運(yùn)營(yíng)分析系統(tǒng)是建立在數(shù)據(jù)模型基礎(chǔ)上的模型化分析系統(tǒng)。事件表和用戶表是通過(guò)一個(gè)用戶ID 進(jìn)行關(guān)聯(lián)的,各種分析模型也都建立在這兩張表之上。即做什么事的是什么人,有多少人,這些人有哪些屬性特點(diǎn),事情本身又有哪些屬性特點(diǎn)。用戶可以自己增加篩選條件進(jìn)行數(shù)據(jù)挖掘和分析,精準(zhǔn)定位到符合自己業(yè)務(wù)特點(diǎn)的用戶群。
同一個(gè)事件,通過(guò)各個(gè)模型的綜合分析,就可以知道這個(gè)事件的受歡迎程度、用戶群的規(guī)模、在哪些地區(qū)受歡迎、對(duì)哪類用戶影響大、產(chǎn)品的盈利等情況,從而為運(yùn)營(yíng)人員和企業(yè)領(lǐng)導(dǎo)在做下一步?jīng)Q策的時(shí)候提供數(shù)據(jù)支撐。
4.2.2 事件分析
事件分析通過(guò)對(duì)某個(gè)用戶的行為模型進(jìn)行統(tǒng)計(jì)分析,從而判斷該行為的影響和價(jià)值。例如,統(tǒng)計(jì)某一個(gè)頻道的指標(biāo),如CCTV-1 的收視人數(shù)、收視次數(shù)、收視時(shí)長(zhǎng);統(tǒng)計(jì)某一個(gè)欄目的指標(biāo),如少兒欄目的收視人數(shù)、收視次數(shù)、收視時(shí)長(zhǎng);統(tǒng)計(jì)訪問(wèn)某一頁(yè)面的指標(biāo),如電影首頁(yè)的訪問(wèn)次數(shù);統(tǒng)計(jì)訪問(wèn)某一功能的指標(biāo),如搜索次數(shù)。
事件分析模型包含幾個(gè)重要的概念:事件、維度、統(tǒng)計(jì)指標(biāo)、事件屬性、用戶屬性等,支持用戶從不同的維度查看事件指標(biāo),同時(shí)支持事件屬性、用戶屬性的篩選,通過(guò)不斷下鉆分析做到精準(zhǔn)定位。
4.2.3 留存分析
留存分析包含狹義和廣義兩種。狹義的留存分析是指用戶先做了事件A,之后第N 天又做了事件A,那么這個(gè)用戶就是事件A 的N 日留存用戶。初始事件與后續(xù)事件可以是同一事件,或者有業(yè)務(wù)相關(guān)性的事件。例如,初始事件是用戶收看央視節(jié)目,后續(xù)事件是用戶收看CCTV-1,或者初始事件是用戶收看CCTV-1,后續(xù)事件也是用戶收看CCTV-1。
廣義的留存分析是指用戶先做了事件A,之后第N 天又做了事件B,那么這個(gè)用戶就是事件A 引流用戶對(duì)事件B 的N 日留存用戶,初始事件與后續(xù)事件也可以是完全不同的事件,即完全無(wú)業(yè)務(wù)相關(guān)性的事件。例如,初始事件是用戶觀看CCTV-1,后續(xù)事件是用戶看到點(diǎn)播節(jié)目。
4.2.4 漏斗分析
漏斗分析是一套流程式數(shù)據(jù)分析,它能夠科學(xué)反映用戶行為狀態(tài)以及從起點(diǎn)到終點(diǎn)各階段用戶轉(zhuǎn)化率的情況。通過(guò)漏斗模型統(tǒng)計(jì)可展示用戶在不同層級(jí)的頁(yè)面上訪問(wèn)的情況以及轉(zhuǎn)化情況。
4.2.5 路徑分析
路徑分析包含兩個(gè)部分,即統(tǒng)計(jì)用戶從某一個(gè)行為開始之后的行為操作統(tǒng)計(jì),統(tǒng)計(jì)用戶到達(dá)某一個(gè)行為之前的操作路徑。
用戶分組是將具有相同屬性和特點(diǎn)的用戶進(jìn)行歸類,創(chuàng)建成相應(yīng)的用戶分組,把經(jīng)由留存分析、漏斗分析、用戶分析等分析模型篩選出來(lái)的用戶歸類到同一個(gè)組里并進(jìn)行管理。
舉例分析使用場(chǎng)景如下:向?yàn)g覽過(guò)訂購(gòu)頁(yè)的用戶發(fā)送優(yōu)惠券;向觀看直播頻道的用戶推薦點(diǎn)播內(nèi)容;針對(duì)某個(gè)城市的用戶進(jìn)行促銷活動(dòng);向習(xí)慣看美國(guó)片的用戶推薦新上映的美國(guó)片。
系統(tǒng)采用目前業(yè)界領(lǐng)先的查詢引擎進(jìn)行OLAP 實(shí)時(shí)數(shù)據(jù)分析處理方案,能有效應(yīng)對(duì)用戶的實(shí)時(shí)數(shù)據(jù)查詢需求,實(shí)現(xiàn)大容量高并發(fā)分布式的查詢機(jī)制,保證系統(tǒng)響應(yīng)時(shí)間和查詢的穩(wěn)定性,處理性能得到大幅提升。
(1)選用高性能通用服務(wù)器(如48 核+,256GB 內(nèi) 存,SSD 硬盤的通用服務(wù)器)搭建實(shí)時(shí)分析的大數(shù)據(jù)集群,且可通過(guò)軟硬件的升級(jí)擴(kuò)容滿足200 萬(wàn)終端用戶行為數(shù)據(jù)分析的要求;
(2)系統(tǒng)數(shù)據(jù)采集處理支持單點(diǎn)故障自動(dòng)切換,峰值可緩存數(shù)據(jù),延后處理,數(shù)據(jù)不積壓、不丟失;
(3)系統(tǒng)采用實(shí)時(shí)數(shù)據(jù)共享服務(wù)接口向第三方系統(tǒng)實(shí)時(shí)提供數(shù)據(jù),延時(shí)低于1 分鐘;
(4)系統(tǒng)按照本項(xiàng)目建設(shè)要求設(shè)計(jì)支持多套備份策略以滿足不同數(shù)據(jù)安全管理需求,包括數(shù)據(jù)增量備份時(shí)間周期不超過(guò)24 小時(shí),數(shù)據(jù)全備份時(shí)間周期不超過(guò)7天,數(shù)據(jù)永久保存;
(5)系統(tǒng)采用雙路冗余網(wǎng)絡(luò)設(shè)計(jì)、分布式集群部署等安全保障機(jī)制,無(wú)單點(diǎn)故障,支持自動(dòng)負(fù)載均衡,集群中單點(diǎn)宕機(jī)或單點(diǎn)關(guān)機(jī)不會(huì)影響對(duì)系統(tǒng)正常數(shù)據(jù)采集處理,確保7×24 小時(shí)系統(tǒng)穩(wěn)定運(yùn)行。
精細(xì)化運(yùn)營(yíng)分析系統(tǒng)的搭建為IPTV 播控平臺(tái)進(jìn)一步完善了整套的集數(shù)據(jù)采集、數(shù)據(jù)建模、模型分析、業(yè)務(wù)應(yīng)用為一體的數(shù)據(jù)系統(tǒng),不但為運(yùn)營(yíng)人員提供了強(qiáng)有力的數(shù)據(jù)支撐,也通過(guò)在業(yè)務(wù)系統(tǒng)中的應(yīng)用為IPTV 用戶提供了精細(xì)化、差異化的經(jīng)營(yíng)服務(wù)。