匡雪
(中央廣播電視總臺 北京市 100038)
自人類社會進入移動互聯(lián)網(wǎng)時代以來,基于移動互聯(lián)網(wǎng)的新媒體如雨后春筍般不斷涌現(xiàn)。借助新媒體技術(shù),內(nèi)容發(fā)布者能夠?qū)⑿畔⒁愿咝Э旖莸姆绞酵扑偷接脩艚K端。新媒體技術(shù)的出現(xiàn),不僅降低了傳媒行業(yè)的入門門檻,同時也面向媒體運營方提供了一系列高價值的工具,使得傳媒運營擁有了更多助力。OLAP 聯(lián)機數(shù)據(jù)處理是一種面向海量數(shù)據(jù)進行分析的工具。在傳統(tǒng)電視媒體中,要獲得與運營和觀眾相關(guān)的信息通暢需要主動發(fā)起調(diào)研活動,對新媒體而言,智能終端就可以為媒體運營者提供包括用戶信息、位置、偏好等一系列的運營數(shù)據(jù),其數(shù)據(jù)獲取的渠道更廣泛,數(shù)據(jù)采集更簡便,這就使得媒體運營者能夠更輕易獲得遠超出傳統(tǒng)媒體環(huán)境下的數(shù)據(jù)量。在傳統(tǒng)媒體嘗試與新媒體融合發(fā)展的今天,諸多傳統(tǒng)電視媒體也逐步將業(yè)務(wù)遷移到移動互聯(lián)網(wǎng)上,借助自主研發(fā)的新媒體平臺或第三方新媒體平臺,傳統(tǒng)電視媒體也在新媒體領(lǐng)域生根發(fā)芽。在這一背景下,傳統(tǒng)電視媒體同樣能夠通過積極利用包括OLAP 在內(nèi)的一系列新媒體工具,為自身發(fā)展提供支撐。本文就將從數(shù)據(jù)多維度分析角度,探討新媒體技術(shù)在傳統(tǒng)電視媒體發(fā)展中的運用。期望本文的研究能夠?qū)鹘y(tǒng)電視媒體在新媒體融合發(fā)展環(huán)境中的運營和發(fā)展提供助力。
信息技術(shù)的發(fā)展,使得諸多傳統(tǒng)電視媒體也逐步意識到新媒體的價值。新媒體主要依賴移動互聯(lián)網(wǎng)和智能終端,通過碎片化、移動化場景對外進行媒體傳播。相比于傳統(tǒng)電視媒體,新媒體能夠更靈活、更廣泛。對傳統(tǒng)電視媒體而言,要進行新媒體融合,利用新媒體技術(shù)進行自身傳播的革新,主要有如下幾種典型方式:
2.1.1 基于廣電機頂盒的數(shù)字媒體應(yīng)用
隨著廣電網(wǎng)絡(luò)數(shù)字化傳播的開始,以央視及各省級衛(wèi)視為主的傳統(tǒng)電視媒體開始嘗試通過網(wǎng)絡(luò)進行新媒體節(jié)目運營,借助網(wǎng)絡(luò)進行高清頻道、特別頻道的運營。借助廣電網(wǎng)絡(luò)自身的數(shù)據(jù)采集能力,各傳統(tǒng)電視媒體可獲得傳統(tǒng)模擬方式內(nèi)容提供情況下無法獲得的諸多用戶數(shù)據(jù),同時也可以嘗試更靈活的互動方式。
2.1.2 基于自媒體平臺的新媒體應(yīng)用
以抖音、微博、微信視頻號、微信公眾號、小紅書為典型代表的新媒體平臺已經(jīng)成為了線上流量大戶。各傳統(tǒng)電視媒體逐步開始在各大自媒體平臺開設(shè)帳號,通過制作特別節(jié)目、設(shè)立互動活動、線上直播等方式,將自身傳播范圍進行進一步拓展。在上述平臺,傳統(tǒng)電視媒體也正在通過提升內(nèi)容的趣味性和互動性,吸引自媒體觀眾的興趣。通常自媒體平臺也具備詳細(xì)的運營數(shù)據(jù)給內(nèi)容創(chuàng)作者。
2.1.3 自建自媒體平臺及其應(yīng)用
以央視頻、封面新聞為代表的中央和地方媒體,也基于自身業(yè)務(wù)發(fā)展需要,嘗試自建自媒體平臺,提供包括直播、短視頻、實時新聞、媒體互動在內(nèi)的諸多自媒體服務(wù),收到了較好的反饋。特別是央視頻,目前已經(jīng)成為國內(nèi)官方媒體紛紛效仿的新聞媒體傳播模式。
基于上述新媒體傳播渠道和平臺,傳統(tǒng)電視媒體可獲得諸多維度的數(shù)據(jù),包括用戶數(shù)據(jù)、興趣數(shù)據(jù)、運營數(shù)據(jù)等等?;谶@些數(shù)據(jù)可以構(gòu)建多維數(shù)據(jù)模型,并應(yīng)用OLAP 相關(guān)技術(shù),進行進一步的價值挖掘。
2.2.1 多維數(shù)據(jù)模型
對復(fù)雜的數(shù)據(jù)而言,要進行和數(shù)據(jù)的進一步分析,通常需要對其進行數(shù)據(jù)建模。常見的多維數(shù)據(jù)模型有星型模型和雪花模型。
2.2.1.1 星型模型
星型模型是最常用的關(guān)系模型,通常通過一個事實表和多個維度表對信息進行組織和描述。通常情況下,星型模型中存在一定程度的數(shù)據(jù)冗余,這是為了提升對數(shù)據(jù)的利用效率。典型的星型模型如圖1 所示。星型模型對非專業(yè)人員也同樣很好理解,同時可提供更低的數(shù)據(jù)倉庫構(gòu)建門檻。但其劣勢也顯而易見:數(shù)據(jù)冗余、操作緩慢、多維聯(lián)合處理效率低。
圖1: 星型模型
2.2.1.2 雪花模型
雪花模型是一種進一步升級和規(guī)范的,具有更高層次維度的模型。但在雪花模型中并非所有維度表都會與事實表進行直接關(guān)聯(lián)。分支維度表是通過一級維度表與事實表進行關(guān)聯(lián)。其優(yōu)勢在于能夠顯著降低冗余,劣勢則是數(shù)據(jù)查詢效率降低。
2.2.1.3 OLAP
OLAP 是大數(shù)據(jù)分析最常用的技術(shù)之一,也是新媒體環(huán)境下數(shù)據(jù)分析的典型方法。該方式能夠加快數(shù)據(jù)共享速度,提升共享效率,便于高效分析。OLAP 典型的數(shù)據(jù)操作主要有:
(1)鉆?。杭赐ㄟ^調(diào)整分析方向和跟蹤方式,對維度和分析的程度進行調(diào)整。
(2)切片與切塊:當(dāng)選定維度和值后,可以對其他維度上的數(shù)據(jù)存量進行分析,若剩余數(shù)據(jù)僅存在于兩個維度,則可認(rèn)為是切片,否則可認(rèn)為是切塊。
(3)旋轉(zhuǎn),即將維度的方向進行改變,在數(shù)據(jù)的實際處理中就是對表格進行行列變換,以適應(yīng)數(shù)據(jù)關(guān)聯(lián)分析的操作。
3.1.1 廣電網(wǎng)絡(luò)機頂盒數(shù)據(jù)采集
圖3: 基于Kylin 的數(shù)據(jù)分析時序
目前傳統(tǒng)電視媒體節(jié)目通常是借助廣電網(wǎng)絡(luò)、電信、移動等機頂盒,以數(shù)字化方式對觀眾提供。這就使得上述數(shù)字渠道運營方能夠?qū)τ^眾基本信息(地理位置、用戶性別、年齡、家庭成員)、觀看習(xí)慣(觀看時段、觀看喜好、觀看時長)、廣告投放效果(廣告展現(xiàn)量、廣告播放率和跳過率、廣告喜好)、節(jié)目收視率等等信息進行精準(zhǔn)捕獲。
3.1.2 自媒體平臺數(shù)據(jù)提取
目前各類自媒體平臺均提供了數(shù)據(jù)導(dǎo)出和分析業(yè)務(wù),以供內(nèi)容發(fā)布者和媒體運營者掌握運營數(shù)據(jù)。能夠獲得的信息相對于來自廣電數(shù)字媒體渠道更廣泛和細(xì)致,自媒體平臺已經(jīng)可以精細(xì)到個體數(shù)據(jù)。
3.1.3 調(diào)研數(shù)據(jù)
調(diào)研是傳統(tǒng)媒體在衛(wèi)星電視和模擬電視時期最常用的方式,通過問卷調(diào)研可以對觀看時間、觀看習(xí)慣、收視率等進行調(diào)研。盡管該方式數(shù)據(jù)樣本量較小,但也可以視作基礎(chǔ)數(shù)據(jù)來源之一。
對前文提到的諸多不同來源、不同細(xì)致程度、不同結(jié)構(gòu)的數(shù)據(jù),數(shù)據(jù)的多維分析提出了如下幾點應(yīng)用需求。
3.2.1 數(shù)據(jù)管理
對上述數(shù)據(jù)的管理是數(shù)據(jù)多維分析的基本需求。通過提供數(shù)據(jù)的新增、修改、刪除、轉(zhuǎn)譯等功能,為外部用戶提供數(shù)據(jù)的基礎(chǔ)管理功能。管理的目標(biāo)有Impala 數(shù)據(jù)、Kylin 數(shù)據(jù)以及主題Cube 數(shù)據(jù),其中Impala 和Kylin 分別用于應(yīng)對不同的數(shù)據(jù)存儲類型和場景,而主題Cube 數(shù)據(jù)則主要用于對數(shù)據(jù)的配置信息進行存儲。例如來自客戶端的上億條單日數(shù)據(jù),可通過Kylin 進行存儲。而千萬級數(shù)據(jù)則通過Impala進行存儲。
3.2.2 多維數(shù)據(jù)分析
多維數(shù)據(jù)分析是核心業(yè)務(wù)。以客戶端基礎(chǔ)事件分析為例,其主要關(guān)注UV 和PV,并從宏觀角度對來自新媒體渠道的數(shù)據(jù)進行基礎(chǔ)量級的分析。而用戶數(shù)據(jù)分析中還存在活躍用戶數(shù)等關(guān)鍵業(yè)務(wù)指標(biāo),其也是通過海量歷史數(shù)據(jù),對用戶進行追蹤和多維度分析后,獲得用戶的歷史活躍度。
3.2.3 數(shù)據(jù)可視化展示
數(shù)據(jù)可視化是數(shù)據(jù)分析的最終呈現(xiàn)渠道之一。對于部分?jǐn)?shù)據(jù)可通過詳細(xì)報表進行展現(xiàn),但對于發(fā)展趨勢、數(shù)量、類型組成、概率等數(shù)據(jù),通過可視化圖標(biāo)更便于直觀展示。
根據(jù)對數(shù)據(jù)多維分析的基礎(chǔ)設(shè)施和軟件組件需求可知,該技術(shù)應(yīng)用建立在Hadoop 及其附屬設(shè)施之上。同時為保障分析業(yè)務(wù)的進行和系統(tǒng)基礎(chǔ)數(shù)據(jù)存儲,需提供業(yè)務(wù)管理子系統(tǒng),以及基礎(chǔ)數(shù)據(jù)采集和存儲層。最終形成的系統(tǒng)架構(gòu)如圖2 所示。
圖2: 數(shù)據(jù)多維分析架構(gòu)
媒體核心數(shù)據(jù)分析中,數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)可視化是三大核心業(yè)務(wù)。
3.2.1 數(shù)據(jù)管理
數(shù)據(jù)管理部分實際對Impala 數(shù)據(jù)、Kylin 數(shù)據(jù)以及主題Cube 數(shù)據(jù)進行增加、修改、刪除等操作,其管理本質(zhì)就是對系統(tǒng)的數(shù)據(jù)分析所需的數(shù)據(jù)源進行管理和對接。
(1)Impala 數(shù)據(jù)管理
Impala 是一個處理PB 級別數(shù)據(jù)量的高性能關(guān)系查詢引擎,其基于Hive 進行構(gòu)建。由于HDFS 中的數(shù)據(jù)無法直接利用MapReduce進行計算,而服務(wù)可對整個數(shù)據(jù)塊進行訪問。因此可通過在Hive 中構(gòu)建一個Parquet 中間表,將數(shù)據(jù)導(dǎo)入到Impala 中,最后通過Hue 進行處理和交互。這也就是對Impala 數(shù)據(jù)進行管理的核心思路。
(2)Kylin 數(shù)據(jù)管理
Kylin 是一個基于Cube 快速立方體算法的數(shù)據(jù)分析模式,其可以支持百億規(guī)模的數(shù)據(jù)的亞秒級查詢。Kylin 實質(zhì)上也是支持Hive 數(shù)據(jù)源,因此對Hylin 數(shù)據(jù)進行管理,實質(zhì)上就是對Hive 上的數(shù)據(jù)集合進行管理。
(3)主題Cube 數(shù)據(jù)管理
主題Cube 數(shù)據(jù)的管理實質(zhì)上是一種業(yè)務(wù)數(shù)據(jù)和配置信息的管理。其本質(zhì)是對業(yè)務(wù)數(shù)據(jù)庫中的主題Cube 數(shù)據(jù)進行新增、修改、刪除、授權(quán)等操作。由于主題Cube 數(shù)據(jù)包含數(shù)據(jù)源信息、數(shù)據(jù)維度、主題信息等分析的核心配置信息,但其本身數(shù)據(jù)量較小,因此可以用傳統(tǒng)的關(guān)系數(shù)據(jù)庫,將其視作普通的系統(tǒng)業(yè)務(wù)數(shù)據(jù)進行存儲。
3.2.2 數(shù)據(jù)分析
數(shù)據(jù)分析部分,以新媒體客戶端基礎(chǔ)事件和用戶活躍度分析為例進行研究,上述兩分析業(yè)務(wù)分別對應(yīng)不同量級的數(shù)據(jù)分析,相對較為典型。
3.2.2.1 客戶端基礎(chǔ)事件數(shù)據(jù)分析
客戶端基礎(chǔ)事件數(shù)據(jù)量高達億條以上,因此適合使用面向更大量數(shù)據(jù)的Kylin 進行分析。在進行基礎(chǔ)時間分析時,首先需要通過權(quán)限控制獲取操作權(quán)限。此后針對所分析的數(shù)據(jù)的維度和度量進行選擇,確定本次分析的目標(biāo)。此后通過數(shù)據(jù)調(diào)用接口,調(diào)用Kylin 查詢數(shù)據(jù)業(yè)務(wù)。當(dāng)查詢完成時,結(jié)果將被封裝成為數(shù)據(jù)結(jié)果集,并進行層層上報,最終通過可視化頁面進行頁面展示。在分析過程中,針對細(xì)致到用戶地理位置、網(wǎng)絡(luò)接入信息、開啟方式、喜好等海量基礎(chǔ)數(shù)據(jù),借助Kylin 分析可實現(xiàn)海量數(shù)據(jù)多維度分析,甚至可通過A/B 測試,對灰度發(fā)布的媒體客戶端或媒體信息進行價值驗證。這能夠為新媒體融合下的傳統(tǒng)電視媒體運營提供較堅實的決策支撐。
3.2.2.2 用戶活躍度分析
用戶活躍度數(shù)據(jù)量級顯著少于客戶端基礎(chǔ)數(shù)據(jù),其量級大約在千萬級,因此可以選用Impala 作為數(shù)據(jù)存儲手段。以央視頻為例,要獲知PV、UV、單視頻曝光量、點擊量等,或要分析用戶活躍度時,可在鑒權(quán)完成后通過選擇所要分析的維度和度量,并通過controller 作為代理,訪問Service 提供的Impala 接口,最終獲取到Impala 的數(shù)據(jù),并借助前端頁面進行結(jié)果展示。
3.2.3 數(shù)據(jù)可視化
數(shù)據(jù)可視化的實現(xiàn)主要依賴數(shù)據(jù)格式的解析和可視化組件的應(yīng)用。在上層應(yīng)用中,解析和可視化組件調(diào)用均被封裝在主題Cube 中。通過手動選擇維度和度量,并選擇數(shù)據(jù)范圍和數(shù)據(jù)源,主題Cube 可根據(jù)上述配置對指定可視化模塊進行調(diào)用,并對數(shù)據(jù)進行填充,實現(xiàn)數(shù)據(jù)可視化。特別地,在可視化部分實質(zhì)上也可以提供表格數(shù)據(jù)表導(dǎo)出,以提供可供二次分析的數(shù)據(jù)報表。數(shù)據(jù)可視化的處理流程如圖4 所示。
圖4: 數(shù)據(jù)可視化及導(dǎo)出流程
在傳統(tǒng)電視媒體積極踐行新媒體融合的今天,諸多新媒體技術(shù)能夠為傳統(tǒng)電視媒體的運營和發(fā)展帶來新的契機。本文所探討的面向媒體的多維數(shù)據(jù)分析技術(shù),不僅適用于擁有新媒體渠道的傳統(tǒng)媒體,同時也適用于基于廣電網(wǎng)絡(luò)、新媒體平臺以及自建新媒體平臺的傳統(tǒng)媒體融合場景?;贙ylin 和Impala 兩種數(shù)據(jù)存儲類型,運營者可以針對獲取到的海量用戶和運營數(shù)據(jù)進行二次挖掘,并借助可視化工具進行決策。期望本文的研究能對傳統(tǒng)電視媒體在新媒體工具中的應(yīng)用提供一些啟示。