亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大數(shù)據(jù)的電視用戶收視行為數(shù)據(jù)挖掘與分析

2020-04-01 20:09:33吉勇佳夏征宇

新媒體研究 2020年23期

吉勇佳夏征宇

摘要隨著大數(shù)據(jù)時(shí)代的到來，電視媒體市場有了更多的解決方案。從傳統(tǒng)的日記卡、測量儀到如今的智能化大數(shù)據(jù)處理系統(tǒng)實(shí)時(shí)監(jiān)測。大數(shù)據(jù)正以其大量、多樣、高速、價(jià)值等特點(diǎn)影響著各行各業(yè)，我國的傳統(tǒng)電視媒體的傳播效果評估與視聽效果監(jiān)測也發(fā)生了巨大的變化。文章通過大數(shù)據(jù)處理平臺(tái)收集并分析電視用戶的行為數(shù)據(jù)，采用多維度統(tǒng)計(jì)分析的方法挖掘用戶的收視行為特征，對電視媒體形態(tài)下的頻道和節(jié)目進(jìn)行分析，得出頻道或節(jié)目的傳播效果，用以指導(dǎo)并輔助產(chǎn)品運(yùn)營、廣告投放及節(jié)目編排，并根據(jù)分析結(jié)果提出相應(yīng)措施，提高收視率。

關(guān)鍵詞大數(shù)據(jù)；Hadoop；數(shù)據(jù)處理；收視率；傳播效果

中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360（2020）23-0027-04

1 大數(shù)據(jù)處理平臺(tái)構(gòu)建

1.1 大數(shù)據(jù)相關(guān)概念

何謂“大數(shù)據(jù)”？在中文維基百科中解釋為“在傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件不足以處理的大或復(fù)雜的數(shù)據(jù)集的術(shù)語，也有人認(rèn)為大數(shù)據(jù)是指海量無法計(jì)算的數(shù)據(jù)”[1-2]。大數(shù)據(jù)技術(shù)是數(shù)據(jù)科學(xué)領(lǐng)域的一種新的技術(shù)框架或模型，它可以及時(shí)處理和更新各種數(shù)據(jù)，綜合運(yùn)用數(shù)據(jù)感知、采集、存儲(chǔ)、處理、分析和可視化技術(shù)來提取有用數(shù)據(jù)信息[3]。目前，大數(shù)據(jù)主要解決的是大數(shù)據(jù)量的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算，并且大數(shù)據(jù)處理技術(shù)也應(yīng)用在了各行各業(yè)，如物流倉庫，廣告推薦，金融業(yè)務(wù)等多個(gè)方面。

大數(shù)據(jù)有大量、多樣、高速、價(jià)值的特點(diǎn)，并有高可靠、高擴(kuò)展性、高效性、高容錯(cuò)性的優(yōu)點(diǎn)。移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、社交網(wǎng)絡(luò)等是新一代信息技術(shù)的應(yīng)用形態(tài)，這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)，大數(shù)據(jù)技術(shù)的應(yīng)用將成為行業(yè)提高核心競爭力的關(guān)鍵因素。

1.2 Hadoop集群規(guī)劃

本文中大數(shù)據(jù)處理平臺(tái)采用的是5臺(tái)裝有CentOS7.6的Linux操作系統(tǒng)，以Hadoop2.7.2版本和jdk1.8.0_121版本搭建完全分布式Hadoop大數(shù)據(jù)處理集群。通過配置集群環(huán)境ssh免密登錄設(shè)置、節(jié)點(diǎn)網(wǎng)絡(luò)配置、jdk環(huán)境安裝等。在Hadoop集群配置的過程中，可以使用xsync和scp命令編寫文件分發(fā)腳本，輔助完成集群內(nèi)各個(gè)節(jié)點(diǎn)的環(huán)境配置。集群配置中各節(jié)點(diǎn)主要進(jìn)程分配見表1。

1.3 Hadoop生態(tài)體系介紹

Hadoop集群中的節(jié)點(diǎn)主要是由Common模塊、MapReduce計(jì)算框架、HDFS模塊和Yarn編程框架四個(gè)部分構(gòu)成，Common模塊為平臺(tái)提供基礎(chǔ)性的服務(wù)功能、系統(tǒng)支持和軟件支持；MapReduce模塊的核心是Map函數(shù)與Reduce函數(shù)，MapReduce是一種面向大數(shù)據(jù)的運(yùn)算框架；HDFS模塊的主要功能是負(fù)責(zé)Hadoop云平臺(tái)數(shù)據(jù)信息的存儲(chǔ)、調(diào)取、管理和使用；yarn是一種新的Hadoop資源管理器。

2 電視媒體傳播效果評估方法

評價(jià)體系既是一種效果評價(jià)機(jī)制，也是一種激勵(lì)和管理機(jī)制，還是一種導(dǎo)向機(jī)制[5]。本小節(jié)主要是在前人研究的基礎(chǔ)上，通過實(shí)驗(yàn)篩選，從評價(jià)指標(biāo)體系的眾多指標(biāo)中抽出最核心的人均日收視時(shí)長（分鐘）、到達(dá)率和收視率、觀眾忠誠度、市場占有率5個(gè)指標(biāo)對頻道或者節(jié)目進(jìn)行收視分析。通過Hadoop大數(shù)據(jù)處理平臺(tái)，對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和業(yè)務(wù)邏輯處理，得出業(yè)務(wù)數(shù)據(jù)，并基于此數(shù)據(jù)對用戶頻道節(jié)目收視效果評估，進(jìn)而驗(yàn)證本方案的可行性。

2.1 電視媒體傳播效果評估的幾個(gè)重要指標(biāo)

2.1.1 收視率

收視率是指針對某特定時(shí)段（節(jié)目），平均每分鐘的收視人數(shù)或平均每分鐘的收視人數(shù)占總推及人口的百分比（%）[6]。計(jì)算公式如下。

2.2 總體評估方案設(shè)計(jì)

視聽效果監(jiān)測和媒體傳播效果評估的難點(diǎn)一方面在于評價(jià)的維度和指標(biāo)多且復(fù)雜，需要有一套完整的指標(biāo)體系或者構(gòu)建出一套媒體效果評價(jià)方案；另一方面在于用戶龐大的視聽數(shù)據(jù)量。電視、IPTV、OTT和手機(jī)等多種媒體形態(tài)時(shí)時(shí)刻刻都會(huì)產(chǎn)生大量的用戶行為數(shù)據(jù)。在傳統(tǒng)的處理方法中存在數(shù)據(jù)采集來源單一，存儲(chǔ)、運(yùn)算速度慢的特點(diǎn)。針對這些問題，通過把大數(shù)據(jù)處理技術(shù)應(yīng)用于媒體領(lǐng)域，大數(shù)據(jù)可以通過MapReduce這一并行處理技術(shù)來提高數(shù)據(jù)的處理速度，并挖掘出用戶的收視行為特征。

針對上述兩個(gè)難點(diǎn)，評估方案按照三個(gè)步驟進(jìn)行。首先，在評價(jià)指標(biāo)方面，通過抽出頻道或節(jié)目的一個(gè)維度的幾個(gè)核心指標(biāo)來進(jìn)行分析，通過統(tǒng)計(jì)分析方式對每個(gè)節(jié)目的收視率，到達(dá)率，人均日收視時(shí)長（分鐘），市場份額，觀眾忠誠度幾個(gè)方面進(jìn)行研究，得出某節(jié)目在某天中按不同時(shí)間粒度的收視情況。其次，在數(shù)據(jù)處理方面，采用hadoop大數(shù)據(jù)處理集群，通過flume進(jìn)行日志收集并上傳至HDFS分布式文件系統(tǒng)，MapReduce任務(wù)進(jìn)行大規(guī)模數(shù)據(jù)集的并行計(jì)算完成數(shù)據(jù)清洗，把清洗后的數(shù)據(jù)與Hive表進(jìn)行綁定。Hive是一種數(shù)據(jù)倉庫，可以使用sql進(jìn)行便捷的讀寫，管理存儲(chǔ)在分布式系統(tǒng)上的數(shù)據(jù)集，通過hive進(jìn)行業(yè)務(wù)邏輯操作，得出最終處理完成后的數(shù)據(jù)信息，最終使用sqoop將hive中的數(shù)據(jù)信息導(dǎo)入到支撐業(yè)務(wù)開發(fā)和計(jì)算的mysql庫。最后，在業(yè)務(wù)開發(fā)模塊中，我們可以根據(jù)清洗后的數(shù)據(jù)，通過指標(biāo)計(jì)算，得出某節(jié)目或者某頻道的收視率，到達(dá)率等多個(gè)指標(biāo)信息，并通過echarts可視化、報(bào)表等方式輸出分析結(jié)果。由此，分析得出各個(gè)節(jié)目1小時(shí)、30分鐘、10分鐘、5分鐘等不同時(shí)間粒度的收視情況，可以精確的知道某個(gè)節(jié)目在某一時(shí)段收視最高，從而推導(dǎo)得出某個(gè)節(jié)目的最精彩的部分，甚至根據(jù)收視分析結(jié)果指導(dǎo)節(jié)目編排和廣告投放，具體的算法流程圖如圖1。

2.3 收視指標(biāo)計(jì)算模塊設(shè)計(jì)

為了評價(jià)一個(gè)頻道或節(jié)目對象，就要為該節(jié)目或頻道設(shè)定一個(gè)評估對象，取得與該節(jié)目有關(guān)的各項(xiàng)監(jiān)測數(shù)據(jù)，然后進(jìn)行計(jì)算分析[4]。本文總體評估方案設(shè)計(jì)模塊中，通過模塊化的設(shè)計(jì)方法，整體處理流程分為大數(shù)據(jù)處理階段和收視指標(biāo)計(jì)算階段兩大部分，此模塊將重點(diǎn)分析上述談到的5個(gè)核心指標(biāo)計(jì)算，并以處理后的業(yè)務(wù)數(shù)據(jù)為出發(fā)點(diǎn)，通過具體的案例方式進(jìn)行分析，得出分析結(jié)果。表2為基于實(shí)驗(yàn)?zāi)M收視行為數(shù)據(jù)并進(jìn)行數(shù)據(jù)處理后某地區(qū)5個(gè)頻道的用戶收視情況，該5個(gè)頻道構(gòu)成該地區(qū)的總體收視市場，案例通過計(jì)算分析，驗(yàn)證處理方案的可行性。

根據(jù)上述收視情況，我們可以計(jì)算出各個(gè)頻道的人均日收視時(shí)長（分鐘）、到達(dá)率和收視率、觀眾忠誠度、市場占有率。統(tǒng)計(jì)梳理如表3。

分析得出，該市場下的5個(gè)頻道的總體收視率為36.67%，在5個(gè)頻道中，頻道2的收視率、觀眾忠誠度最高，人均收視時(shí)長達(dá)24分鐘/人，遠(yuǎn)高于該市場下其他頻道人均收視時(shí)長。

3 結(jié)語

本文主要基于大數(shù)據(jù)處理技術(shù)，分別從收視率、到達(dá)率、觀眾忠誠度、人均日收視時(shí)長和市場份額5項(xiàng)衡量指標(biāo)著手，對電視媒體受眾的媒介接觸行為進(jìn)行挖掘分析。通過Hadoop大數(shù)據(jù)處理框架及Azkaban分別進(jìn)行數(shù)據(jù)處理和流程調(diào)度，先后完成了數(shù)據(jù)清洗、指標(biāo)計(jì)算、結(jié)果分析和可視化等操作，得出任意頻道或節(jié)目一天、半天、一小時(shí)、半小時(shí)、十分鐘等不同時(shí)間粒度的收視情況。同時(shí)，以半小時(shí)為時(shí)間粒度綜合分析了某市場下五個(gè)不同頻道的收視情況并得出對比結(jié)論。由此，可以更好的指導(dǎo)各頻道進(jìn)行節(jié)目編排，有效提升廣告投放效果，并提高頻道收視率。

參考文獻(xiàn)

[1]李國杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國計(jì)算機(jī)學(xué)會(huì)通訊，2012，8（9）：8-15.

[2]Vance A. Start-up goes after big data with hadoop helper[EB/OL].（2010-04-22）[2020-11-23].https：// web.archive.org/web/20150908124357/http：//bits. blogs.nytimes.com/2010/04/22/start-up-goes-afterbig-data-with-hadoop-helper/？dbk.

[ 3]張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù)，2014（11）：1240-1248.

[ 4]熊華明，謝長生，夏征宇.電視節(jié)目綜合評估與預(yù)警系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用，2002，38（20）：215-217.

[ 5]劉燕南.關(guān)于電視評估中納入新媒體指標(biāo)的思考[J].中國廣播電視學(xué)刊，2013（5）：11-14.

[ 6]趙利城.基于雙向機(jī)頂盒的收視率調(diào)查系統(tǒng)研究與實(shí)現(xiàn)[D].北京：北京郵電大學(xué)，2012.