吉勇佳 夏征宇
摘 要 隨著大數(shù)據(jù)時(shí)代的到來,電視媒體市場有了更多的解決方案。從傳統(tǒng)的日記卡、測量儀到如今的智能化大數(shù)據(jù)處理系統(tǒng)實(shí)時(shí)監(jiān)測。大數(shù)據(jù)正以其大量、多樣、高速、價(jià)值等特點(diǎn)影響著各行各業(yè),我國的傳統(tǒng)電視媒體的傳播效果評估與視聽效果監(jiān)測也發(fā)生了巨大的變化。文章通過大數(shù)據(jù)處理平臺(tái)收集并分析電視用戶的行為數(shù)據(jù),采用多維度統(tǒng)計(jì)分析的方法挖掘用戶的收視行為特征,對電視媒體形態(tài)下的頻道和節(jié)目進(jìn)行分析,得出頻道或節(jié)目的傳播效果,用以指導(dǎo)并輔助產(chǎn)品運(yùn)營、廣告投放及節(jié)目編排,并根據(jù)分析結(jié)果提出相應(yīng)措施,提高收視率。
關(guān)鍵詞 大數(shù)據(jù);Hadoop;數(shù)據(jù)處理;收視率;傳播效果
中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2020)23-0027-04
1.1 大數(shù)據(jù)相關(guān)概念
何謂“大數(shù)據(jù)”?在中文維基百科中解釋為“在傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件不足以處理的大或復(fù)雜的數(shù)據(jù)集的術(shù)語,也有人認(rèn)為大數(shù)據(jù)是指海量無法計(jì)算的數(shù)據(jù)”[1-2]。大數(shù)據(jù)技術(shù)是數(shù)據(jù)科學(xué)領(lǐng)域的一種新的技術(shù)框架或模型,它可以及時(shí)處理和更新各種數(shù)據(jù),綜合運(yùn)用數(shù)據(jù)感知、采集、存儲(chǔ)、處理、分析和可視化技術(shù)來提取有用數(shù)據(jù)信息[3]。目前,大數(shù)據(jù)主要解決的是大數(shù)據(jù)量的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算,并且大數(shù)據(jù)處理技術(shù)也應(yīng)用在了各行各業(yè),如物流倉庫,廣告推薦,金融業(yè)務(wù)等多個(gè)方面。
大數(shù)據(jù)有大量、多樣、高速、價(jià)值的特點(diǎn),并有高可靠、高擴(kuò)展性、高效性、高容錯(cuò)性的優(yōu)點(diǎn)。移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、社交網(wǎng)絡(luò)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù),大數(shù)據(jù)技術(shù)的應(yīng)用將成為行業(yè)提高核心競爭力的關(guān)鍵因素。
1.2 Hadoop集群規(guī)劃
本文中大數(shù)據(jù)處理平臺(tái)采用的是5臺(tái)裝有CentOS7.6的Linux操作系統(tǒng),以Hadoop2.7.2版本和jdk1.8.0_121版本搭建完全分布式Hadoop大數(shù)據(jù)處理集群。通過配置集群環(huán)境ssh免密登錄設(shè)置、節(jié)點(diǎn)網(wǎng)絡(luò)配置、jdk環(huán)境安裝等。在Hadoop集群配置的過程中,可以使用xsync和scp命令編寫文件分發(fā)腳本,輔助完成集群內(nèi)各個(gè)節(jié)點(diǎn)的環(huán)境配置。集群配置中各節(jié)點(diǎn)主要進(jìn)程分配見表1。
1.3 Hadoop生態(tài)體系介紹
Hadoop集群中的節(jié)點(diǎn)主要是由Common模塊、MapReduce計(jì)算框架、HDFS模塊和Yarn編程框架四個(gè)部分構(gòu)成,Common模塊為平臺(tái)提供基礎(chǔ)性的服務(wù)功能、系統(tǒng)支持和軟件支持;MapReduce模塊的核心是Map函數(shù)與Reduce函數(shù),MapReduce是一種面向大數(shù)據(jù)的運(yùn)算框架;HDFS模塊的主要功能是負(fù)責(zé)Hadoop云平臺(tái)數(shù)據(jù)信息的存儲(chǔ)、調(diào)取、管理和使用;yarn是一種新的Hadoop資源管理器。
評價(jià)體系既是一種效果評價(jià)機(jī)制,也是一種激勵(lì)和管理機(jī)制,還是一種導(dǎo)向機(jī)制[5]。本小節(jié)主要是在前人研究的基礎(chǔ)上,通過實(shí)驗(yàn)篩選,從評價(jià)指標(biāo)體系的眾多指標(biāo)中抽出最核心的人均日收視時(shí)長(分鐘)、到達(dá)率和收視率、觀眾忠誠度、市場占有率5個(gè)指標(biāo)對頻道或者節(jié)目進(jìn)行收視分析。通過Hadoop大數(shù)據(jù)處理平臺(tái),對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和業(yè)務(wù)邏輯處理,得出業(yè)務(wù)數(shù)據(jù),并基于此數(shù)據(jù)對用戶頻道節(jié)目收視效果評估,進(jìn)而驗(yàn)證本方案的可行性。
2.1 電視媒體傳播效果評估的幾個(gè)重要指標(biāo)
2.1.1 收視率
收視率是指針對某特定時(shí)段(節(jié)目),平均每分鐘的收視人數(shù)或平均每分鐘的收視人數(shù)占總推及人口的百分比(%)[6]。計(jì)算公式如下。
2.2 總體評估方案設(shè)計(jì)
視聽效果監(jiān)測和媒體傳播效果評估的難點(diǎn)一方面在于評價(jià)的維度和指標(biāo)多且復(fù)雜,需要有一套完整的指標(biāo)體系或者構(gòu)建出一套媒體效果評價(jià)方案;另一方面在于用戶龐大的視聽數(shù)據(jù)量。電視、IPTV、OTT和手機(jī)等多種媒體形態(tài)時(shí)時(shí)刻刻都會(huì)產(chǎn)生大量的用戶行為數(shù)據(jù)。在傳統(tǒng)的處理方法中存在數(shù)據(jù)采集來源單一,存儲(chǔ)、運(yùn)算速度慢的特點(diǎn)。針對這些問題,通過把大數(shù)據(jù)處理技術(shù)應(yīng)用于媒體領(lǐng)域,大數(shù)據(jù)可以通過MapReduce這一并行處理技術(shù)來提高數(shù)據(jù)的處理速度,并挖掘出用戶的收視行為特征。
針對上述兩個(gè)難點(diǎn),評估方案按照三個(gè)步驟進(jìn)行。首先,在評價(jià)指標(biāo)方面,通過抽出頻道或節(jié)目的一個(gè)維度的幾個(gè)核心指標(biāo)來進(jìn)行分析,通過統(tǒng)計(jì)分析方式對每個(gè)節(jié)目的收視率,到達(dá)率,人均日收視時(shí)長(分鐘),市場份額,觀眾忠誠度幾個(gè)方面進(jìn)行研究,得出某節(jié)目在某天中按不同時(shí)間粒度的收視情況。其次,在數(shù)據(jù)處理方面,采用hadoop大數(shù)據(jù)處理集群,通過flume進(jìn)行日志收集并上傳至HDFS分布式文件系統(tǒng),MapReduce任務(wù)進(jìn)行大規(guī)模數(shù)據(jù)集的并行計(jì)算完成數(shù)據(jù)清洗,把清洗后的數(shù)據(jù)與Hive表進(jìn)行綁定。Hive是一種數(shù)據(jù)倉庫,可以使用sql進(jìn)行便捷的讀寫,管理存儲(chǔ)在分布式系統(tǒng)上的數(shù)據(jù)集,通過hive進(jìn)行業(yè)務(wù)邏輯操作,得出最終處理完成后的數(shù)據(jù)信息,最終使用sqoop將hive中的數(shù)據(jù)信息導(dǎo)入到支撐業(yè)務(wù)開發(fā)和計(jì)算的mysql庫。最后,在業(yè)務(wù)開發(fā)模塊中,我們可以根據(jù)清洗后的數(shù)據(jù),通過指標(biāo)計(jì)算,得出某節(jié)目或者某頻道的收視率,到達(dá)率等多個(gè)指標(biāo)信息,并通過echarts可視化、報(bào)表等方式輸出分析結(jié)果。由此,分析得出各個(gè)節(jié)目1小時(shí)、30分鐘、10分鐘、5分鐘等不同時(shí)間粒度的收視情況,可以精確的知道某個(gè)節(jié)目在某一時(shí)段收視最高,從而推導(dǎo)得出某個(gè)節(jié)目的最精彩的部分,甚至根據(jù)收視分析結(jié)果指導(dǎo)節(jié)目編排和廣告投放,具體的算法流程圖如圖1。
2.3 收視指標(biāo)計(jì)算模塊設(shè)計(jì)
為了評價(jià)一個(gè)頻道或節(jié)目對象,就要為該節(jié)目或頻道設(shè)定一個(gè)評估對象,取得與該節(jié)目有關(guān)的各項(xiàng)監(jiān)測數(shù)據(jù),然后進(jìn)行計(jì)算分析[4]。本文總體評估方案設(shè)計(jì)模塊中,通過模塊化的設(shè)計(jì)方 法,整體處理流程分為大數(shù)據(jù)處理階段和收視指標(biāo)計(jì)算階段兩大部分,此模塊將重點(diǎn)分析上述談到的5個(gè)核心指標(biāo)計(jì)算,并以處理后的業(yè)務(wù)數(shù)據(jù)為出發(fā)點(diǎn),通過具體的案例方式進(jìn)行分析,得出分析結(jié)果。表2為基于實(shí)驗(yàn)?zāi)M收視行為數(shù)據(jù)并進(jìn)行數(shù)據(jù)處理后某地區(qū)5個(gè)頻道的用戶收視情況,該5個(gè)頻道構(gòu)成該地區(qū)的總體收視市場,案例通過計(jì)算分析,驗(yàn)證處理方案的可行性。
根據(jù)上述收視情況,我們可以計(jì)算出各個(gè)頻道的人均日收視時(shí)長(分鐘)、到達(dá)率和收視率、觀眾忠誠度、市場占有率。統(tǒng)計(jì)梳理如表3。
分析得出,該市場下的5個(gè)頻道的總體收視率為36.67%,在5個(gè)頻道中,頻道2的收視率、觀眾忠誠度最高,人均收視時(shí)長達(dá)24分鐘/人,遠(yuǎn)高于該市場下其他頻道人均收視時(shí)長。
本文主要基于大數(shù)據(jù)處理技術(shù),分別從收視率、到達(dá)率、觀眾忠誠度、人均日收視時(shí)長和市場份額5項(xiàng)衡量指標(biāo)著手,對電視媒體受眾的媒介接觸行為進(jìn)行挖掘分析。通過Hadoop大數(shù)據(jù)處理框架及Azkaban分別進(jìn)行數(shù)據(jù)處理和流程調(diào)度,先后完成了數(shù)據(jù)清洗、指標(biāo)計(jì)算、結(jié)果分析和可視化等操作,得出任意頻道或節(jié)目一天、半天、一小時(shí)、半小時(shí)、十分鐘等不同時(shí)間粒度的收視情況。同時(shí),以半小時(shí)為時(shí)間粒度綜合分析了某市場下五個(gè)不同頻道的收視情況并得出對比結(jié)論。由此,可以更好的指導(dǎo)各頻道進(jìn)行節(jié)目編排,有效提升廣告投放效果,并提高頻道收視率。
參考文獻(xiàn)
[1]李國杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):8-15.
[2]Vance A. Start-up goes after big data with hadoop helper[EB/OL].(2010-04-22)[2020-11-23].https:// web.archive.org/web/20150908124357/http://bits. blogs.nytimes.com/2010/04/22/start-up-goes-afterbig-data-with-hadoop-helper/?dbk.
[ 3]張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù),2014(11):1240-1248.
[ 4]熊華明,謝長生,夏征宇.電視節(jié)目綜合評估與預(yù)警系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(20):215-217.
[ 5]劉燕南.關(guān)于電視評估中納入新媒體指標(biāo)的思考[J].中國廣播電視學(xué)刊,2013(5):11-14.
[ 6]趙利城.基于雙向機(jī)頂盒的收視率調(diào)查系統(tǒng)研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2012.