亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談大數(shù)據(jù)分析在媒體行業(yè)中的應(yīng)用

2018-02-26 08:32:36許辰銘江蘇省廣播電視總臺(tái)

視聽(tīng)界(廣播電視技術(shù)) 2018年1期

許辰銘江蘇省廣播電視總臺(tái)

大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后信息產(chǎn)業(yè)又一次顛覆性的技術(shù)變革，其涉及范疇龐大，應(yīng)用領(lǐng)域廣泛。媒體作為信息產(chǎn)業(yè)鏈的重要主體，在內(nèi)容的生產(chǎn)、儲(chǔ)存、傳播方面，都需要充分利用大數(shù)據(jù)的應(yīng)用。大數(shù)據(jù)關(guān)于媒體內(nèi)容的應(yīng)用，已經(jīng)在現(xiàn)實(shí)案例中充分體現(xiàn)，也將繼續(xù)成為推動(dòng)業(yè)態(tài)發(fā)展的動(dòng)力和未來(lái)行業(yè)發(fā)展的方向。作者從事廣電大數(shù)據(jù)已有三年時(shí)間，中間也累積了不少項(xiàng)目經(jīng)驗(yàn)，本文介紹了大數(shù)據(jù)分析的基本技術(shù)，闡述了大數(shù)據(jù)分析在媒體行業(yè)中的應(yīng)用。

2. 大數(shù)據(jù)平臺(tái)基本架構(gòu)

大數(shù)據(jù)平臺(tái)架構(gòu)主要是為了應(yīng)對(duì)4V 特征的互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用而生的架構(gòu)體系，目前全球較為主流的大數(shù)據(jù)平臺(tái)包括Hadoop 、Spark、Storm 等。

2.1 Hadoop

Hadoop 是在大型集群上執(zhí)行分布式應(yīng)用的基礎(chǔ)框架，它由Apache 基金會(huì)開(kāi)發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開(kāi)發(fā)分布式程序?？沙浞掷眉旱膬?yōu)勢(shì)高速運(yùn)算和存儲(chǔ)。

隨著Hadoop 生態(tài)圈的成長(zhǎng)，出現(xiàn)了越來(lái)越多的項(xiàng)目，其中不乏一些非Apache 主管的項(xiàng)目，這些項(xiàng)目對(duì)Hadoop 是很好的補(bǔ)充，或提供了一些更高層的抽象。Hadoop總體架構(gòu)見(jiàn)圖1。

圖1 Hadoop總體架構(gòu)

Hadoop 的功能模塊被稱(chēng)為子項(xiàng)目，整個(gè)Hadoop家族由以下幾個(gè)子項(xiàng)目組成：HadoopCommon，HDFS，MapReduce，Hive，Pig，HBase，ZooKeeper，Avro，Sqoop，Mahout，Cassandra，Chukwa，Ambari，HCatalog，Chukwa。

2.2 Spark

Spark 是UC Berkeley AMP lab 所開(kāi)源的類(lèi)Hadoop MapReduce 的通用并行計(jì)算框架。Spark 基于MapReduce 算法實(shí)現(xiàn)分布式計(jì)算，擁有Hadoop MapReduce 所具有的優(yōu)點(diǎn)；不同于MapReduce 的是，Job 中間輸出和結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫(xiě)HDFS，因此Spark 能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce 的算法。

伯克利大學(xué)將 Spark 的整個(gè)生態(tài)系統(tǒng)稱(chēng)為伯克利數(shù)據(jù)分析棧(BDAS),在核心框架 Spark 的基礎(chǔ)上,主要提供四個(gè)范疇的計(jì)算框架。Spark的總體架構(gòu)見(jiàn)圖2。

（1）Spark SQL：提供了類(lèi) SQL 的查詢 ,返回Spark-DataFrame 的數(shù)據(jù)結(jié)構(gòu)。

（2）Spark Streaming：流式計(jì)算 ,主要用于處理線上實(shí)時(shí)時(shí)序數(shù)據(jù)。

（3） MLlib：提供機(jī)器學(xué)習(xí)的各種模型和調(diào)優(yōu)。（4）GraphX：提供基于圖的算法 ,如 PageRank。

圖2 Spark總體架構(gòu)

2.3 storm

Storm 是由BackType開(kāi)發(fā)的實(shí)時(shí)處理系統(tǒng)，BackType現(xiàn)在已在Twitter 麾下,Twitter已將Storm正式開(kāi)源，這是一個(gè)分布式、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng)，基本是用Clojure寫(xiě)的。Storm被托管在GitHub 上，遵循Eclipse Public License 1.0。

對(duì)比Hadoop的批處理，Storm是個(gè)實(shí)時(shí)、分布式以及具備高容錯(cuò)的計(jì)算系統(tǒng)。同Hadoop一樣，Storm也可以處理大批量的數(shù)據(jù)，然而Storm在保證高可靠性的前提下還可以讓處理進(jìn)行的更加實(shí)時(shí)，也就是說(shuō)，所有的信息都會(huì)被處理。Storm同樣還具備容錯(cuò)和分布計(jì)算這些特性，這就讓Storm可以擴(kuò)展到不同的機(jī)器上進(jìn)行大批量的數(shù)據(jù)處理。

Storm的總體架構(gòu)見(jiàn)圖3。

圖3 Storm總體架構(gòu)

3．大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)

大數(shù)據(jù)分析就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的人們事先不知道，但又是潛在有用信息和知識(shí)的過(guò)程。

數(shù)據(jù)挖掘方法有如下五種：

（1）分類(lèi) （Classification）

（2）估值（Estimation）

（3）預(yù)言（Prediction）

（4）聚集（Clustering）

（5）描述和可視化（Des cription and Visualization）

3.1 分類(lèi)（Classification）

首先從數(shù)據(jù)中選出已經(jīng)分好類(lèi)的訓(xùn)練集，在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類(lèi)的技術(shù)，建立分類(lèi)模型，對(duì)于沒(méi)有分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)。分類(lèi)算法有如下7種：決策樹(shù)、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、k-近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類(lèi)、集成學(xué)習(xí)（Ensemble Learning）

3.2 估值（Estimation）

估值與分類(lèi)類(lèi)似，不同之處在于，分類(lèi)描述的是離散型變量的輸出，估值處理連續(xù)值的輸出；分類(lèi)的類(lèi)別是確定數(shù)目的，估值的量是不確定的。一般來(lái)說(shuō)，估值可以作為分類(lèi)的前一步工作。給定一些輸入數(shù)據(jù)，通過(guò)估值得到未知的連續(xù)變量的值，然后，根據(jù)預(yù)先設(shè)定的閾值進(jìn)行分類(lèi)。

3.3 預(yù)言（Prediction）

通常，預(yù)言是通過(guò)分類(lèi)或估值起作用的，也就是說(shuō)，通過(guò)分類(lèi)或估值得出模型，該模型用于對(duì)未知變量的預(yù)言。從這種意義上說(shuō)，預(yù)言其實(shí)沒(méi)有必要分為一個(gè)單獨(dú)的類(lèi)。預(yù)言的目的是對(duì)未來(lái)未知變量的預(yù)測(cè)，這種預(yù)測(cè)需要時(shí)間來(lái)驗(yàn)證，即必須經(jīng)過(guò)一定時(shí)間后，才能知道預(yù)言準(zhǔn)確性是多少。

常見(jiàn)的預(yù)測(cè)算法如下幾種：簡(jiǎn)易平均法、移動(dòng)平均法、指數(shù)平均法。

（1）簡(jiǎn)易平均法

簡(jiǎn)易平均法是一種簡(jiǎn)便的時(shí)間序列法。簡(jiǎn)易平均法以一定觀察期的數(shù)據(jù)求得平均數(shù)，并以所求平均數(shù)為基礎(chǔ)，預(yù)測(cè)未來(lái)時(shí)期的預(yù)測(cè)值。簡(jiǎn)易平均法是最簡(jiǎn)單的定量預(yù)測(cè)方法，簡(jiǎn)易平均法的運(yùn)算過(guò)程簡(jiǎn)單，不需要進(jìn)行復(fù)雜的模型設(shè)計(jì)和數(shù)學(xué)運(yùn)用，常在市場(chǎng)的近期預(yù)測(cè)、短期預(yù)測(cè)中使用。

（2）移動(dòng)平均法

移動(dòng)平均法是一種簡(jiǎn)單的平滑預(yù)測(cè)技術(shù)。它的基本思想是：根據(jù)時(shí)間序列資料逐項(xiàng)推移，依次計(jì)算包含一定項(xiàng)數(shù)的序時(shí)平均值，以反映的長(zhǎng)期趨勢(shì)。因此，當(dāng)時(shí)間序列的數(shù)值由于受周期變動(dòng)和隨機(jī)波動(dòng)的影響起伏較大，不易顯示出事件的發(fā)展趨勢(shì)時(shí)，使用移動(dòng)平均法可以消除這些因素的影響，顯示出事件的發(fā)展方向與趨勢(shì)（即趨勢(shì)線），然后依趨勢(shì)線分析預(yù)測(cè)序列的長(zhǎng)期趨勢(shì)。

移動(dòng)平均法是用一組最近的實(shí)際數(shù)據(jù)值來(lái)預(yù)測(cè)未來(lái)一期或幾期內(nèi)公司產(chǎn)品的需求量、公司產(chǎn)能等的一種常用方法。移動(dòng)平均法適用于即期預(yù)測(cè)。當(dāng)產(chǎn)品需求既不快速增長(zhǎng)也不快速下降，且不存在季節(jié)性因素時(shí)，移動(dòng)平均法能有效地消除預(yù)測(cè)中的隨機(jī)波動(dòng)。

（3）指數(shù)平均法

指數(shù)平滑法是生產(chǎn)預(yù)測(cè)中常用的一種方法，也用于中短期經(jīng)濟(jì)發(fā)展趨勢(shì)的預(yù)測(cè)。所有預(yù)測(cè)方法中，指數(shù)平滑是用得最多的一種。簡(jiǎn)單的全期平均法是對(duì)時(shí)間數(shù)列的歷史數(shù)據(jù)一個(gè)不漏地全部加以同等利用，移動(dòng)平均法不考慮較遠(yuǎn)期的數(shù)據(jù)，并在加權(quán)移動(dòng)平均法中給予近期資料更大的權(quán)重。而指數(shù)平滑法則兼容了全期平均和移動(dòng)平均所長(zhǎng)，不舍棄過(guò)去的數(shù)據(jù)，但是僅給予逐漸減弱的影響程度，即隨著數(shù)據(jù)的遠(yuǎn)離，賦予逐漸收斂為零的權(quán)數(shù)。

3.4 聚集（Clustering）

聚集是提取海量非結(jié)構(gòu)化數(shù)據(jù)并自動(dòng)將數(shù)據(jù)分區(qū)、從而使類(lèi)似信息聚類(lèi)的過(guò)程。每個(gè)聚集均表示知識(shí)庫(kù)內(nèi)的一個(gè)概念區(qū)域，包含具有一組相同屬性的項(xiàng)目。聚集和分類(lèi)的區(qū)別是聚集不依賴于預(yù)先定義好的類(lèi)，不需要訓(xùn)練集。聚類(lèi)算法有很多，具體可分為劃分、層次、基于密度、基于網(wǎng)格以及基于模型等。

劃分主要以k-means，k-medoids，CLARANS等為代表。

3.5 描述和可視化（Des cription and Visualization）

數(shù)據(jù)可視化無(wú)論對(duì)于普通用戶還是數(shù)據(jù)分析專(zhuān)家，都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話，讓用戶直觀感受到結(jié)果，目前最流行的是以下的三種可視化工具。

FusionCharts是一個(gè)Flash的圖表組件，它可以用來(lái)制作數(shù)據(jù)動(dòng)畫(huà)圖表，其中動(dòng)畫(huà)效果使用Adobe Flash 8 （原 Macromedia Flash的）制作的 flash ，F(xiàn)usionCharts可用于任何網(wǎng)頁(yè)的腳本語(yǔ)言類(lèi)似于HTML 、.NET、ASP 、JSP、PHP、ColdFusion 等，提供互動(dòng)性和強(qiáng)大的圖表。FusionCharts使用XML作為其數(shù)據(jù)接口，充分利用流體美麗的Flash創(chuàng)建緊湊、互動(dòng)和視覺(jué)逮捕的圖表。

（2）HighCharts

Highcharts 是用純JavaScript編寫(xiě)的一個(gè)圖表庫(kù)，能夠簡(jiǎn)單便捷地在web網(wǎng)站或web應(yīng)用程序添加有交互性的圖表，并且免費(fèi)提供給個(gè)人學(xué)習(xí)、個(gè)人網(wǎng)站和非商業(yè)用途使用。HighCharts支持的圖表類(lèi)型有曲線圖、區(qū)域圖、柱狀圖、餅狀圖、散狀點(diǎn)圖和綜合圖表。

（3）Google Chart tools

Google Chart tools是為瀏覽器與移動(dòng)設(shè)備定制的交互式圖表開(kāi)發(fā)。Google Charts tools提供了從簡(jiǎn)單的折線圖到復(fù)雜的層次化的樹(shù)結(jié)構(gòu)、地圖等圖表類(lèi)型。Google Charts tools功能強(qiáng)大，用于Web上可視化數(shù)據(jù)。其容易使用，而且是免費(fèi)的。

4.媒體大數(shù)據(jù)應(yīng)用

4.1 新聞線索智能推送

（1）線索獲取

利用大數(shù)據(jù)爬蟲(chóng)技術(shù)爬取互聯(lián)網(wǎng)線索，接入臺(tái)內(nèi)原有的線索平臺(tái)（新聞熱線、新媒體爆料、電話爆料、全媒體記者爆料、地方通聯(lián)等）

（2）線索整理

3.1 職稱(chēng)、學(xué)歷、醫(yī)院級(jí)別均影響指南認(rèn)知與應(yīng)用本研究中，眼科醫(yī)師對(duì)臨床指南的重要性普遍持認(rèn)可態(tài)度，但多對(duì)臨床指南，特別是對(duì)循證臨床指南的認(rèn)知尚淺，指南的臨床應(yīng)用亦存在障礙。同時(shí)，眼科醫(yī)師的教育背景、職稱(chēng)等均影響指南認(rèn)知與應(yīng)用。在指南的制定中，高級(jí)專(zhuān)家團(tuán)隊(duì)占主導(dǎo)地位，而指南的批判性評(píng)價(jià)和應(yīng)用涉及各級(jí)眼科醫(yī)師。因此，向各級(jí)醫(yī)師培訓(xùn)循證指南制定、評(píng)價(jià)等相關(guān)知識(shí)，以及更好地介紹、推廣和普及現(xiàn)有指南，具有重要意義。

利用大數(shù)據(jù)分類(lèi)技術(shù)對(duì)海量線索進(jìn)行分類(lèi)，然后對(duì)分類(lèi)后的線索進(jìn)行聚類(lèi)熱度排序。

（3）記者偏好分析

利用原有的臺(tái)內(nèi)新聞稿件資源，分析出各個(gè)記者選題的喜好，并以標(biāo)簽的形式記錄。

（4）系統(tǒng)推送

整理后的線索按照分類(lèi)匹配的方法推送給對(duì)應(yīng)的記者，記者獲取線索后可以點(diǎn)擊感興趣或者不感興趣的按鈕反饋給系統(tǒng)，讓系統(tǒng)重新學(xué)習(xí)記者喜好。

4.2 突發(fā)新聞推送

（1）構(gòu)建突發(fā)詞庫(kù)

定義突發(fā)關(guān)鍵詞（例如爆炸、搶劫、地震、傷亡等），建立突發(fā)詞庫(kù)。

（2）可信度分析

建立新聞可信度評(píng)級(jí)，主要包括：新聞網(wǎng)站可信度，爆料人可信度，事件可信度等。

（3）三要素提取

自動(dòng)提取新聞的三要素：時(shí)間、地點(diǎn)、人物，方便記者聯(lián)系采訪。

（4）系統(tǒng)推送

突發(fā)新聞強(qiáng)調(diào)時(shí)效性，可通過(guò)短信或者信息彈窗的方式推送至新聞?dòng)浾摺?/p>

4.3 新聞專(zhuān)題

應(yīng)用場(chǎng)景：周年紀(jì)念日、重大會(huì)議、民生話題、體育賽事等新聞事件或話題的全方位報(bào)道和網(wǎng)絡(luò)專(zhuān)題發(fā)布。

主要目的：為事件多維度地深度解讀提供豐富的內(nèi)容資料庫(kù)，實(shí)現(xiàn)一站式瀏覽，節(jié)省信息收集和編輯整理時(shí)間。

實(shí)現(xiàn)方式：事先定義專(zhuān)題的數(shù)量和主題，進(jìn)行互聯(lián)網(wǎng)信息定向采集和智能分類(lèi)，輔助人工運(yùn)營(yíng)，提供多維度的整合數(shù)據(jù)包。

呈現(xiàn)內(nèi)容：熱點(diǎn)新聞、熱點(diǎn)圖片、最新新聞、相關(guān)視頻、相關(guān)圖片、事件脈絡(luò)、地圖分布等。

4.4 輿情監(jiān)控

整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù)，通過(guò)對(duì)互聯(lián)網(wǎng)海量信息自動(dòng)抓取、自動(dòng)分類(lèi)聚類(lèi)、主題檢測(cè)、專(zhuān)題聚焦，實(shí)現(xiàn)用戶的網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞專(zhuān)題追蹤等信息需求，形成簡(jiǎn)報(bào)、報(bào)告、圖表等分析結(jié)果，為客戶全面掌握群眾思想動(dòng)態(tài)，做出正確輿論引導(dǎo)，提供分析依據(jù)。

應(yīng)用場(chǎng)景：對(duì)指定主題（事件、行業(yè)、企業(yè)、品牌、股票、城市、人物等）的全網(wǎng)信息監(jiān)測(cè)。

主要目的：新聞事件、行業(yè)、企業(yè)等全網(wǎng)信息收集與統(tǒng)計(jì)分析，整合離散素材，節(jié)省人工收集時(shí)間；對(duì)品牌欄目、主持人聲譽(yù)管理。

實(shí)現(xiàn)方式：基于關(guān)鍵詞對(duì)某類(lèi)數(shù)據(jù)進(jìn)行抓取和統(tǒng)計(jì)分析，推送至相關(guān)審核人員。

4.5 媒體傳播分析

應(yīng)用場(chǎng)景：對(duì)新聞事件的互聯(lián)網(wǎng)信息分析。

主要目的：把握事件網(wǎng)絡(luò)傳播全貌，利用機(jī)器智能挖掘信息，支持事件的深度解讀。

實(shí)現(xiàn)方式：根據(jù)關(guān)鍵詞設(shè)定抓取相關(guān)的全網(wǎng)信息，通過(guò)中文智能分詞、自然語(yǔ)言處理等大數(shù)據(jù)技術(shù)，對(duì)抓取信息進(jìn)行處理得到對(duì)應(yīng)數(shù)據(jù)模塊。

媒體傳播分析包括：事件走勢(shì)、報(bào)道量趨勢(shì)、熱門(mén)信息、熱點(diǎn)網(wǎng)民、關(guān)鍵詞、傳播路徑圖、核心傳播人等。

5．媒體大數(shù)據(jù)面臨的問(wèn)題

5.1 缺乏數(shù)據(jù)

現(xiàn)象：大數(shù)據(jù)分析=大數(shù)據(jù)+分析，首先要有數(shù)據(jù)才能分析。而現(xiàn)在電視媒體無(wú)法拿到真正有用的用戶數(shù)據(jù)和行為數(shù)據(jù)。而大數(shù)據(jù)爬蟲(chóng)對(duì)于微博微信論壇的爬取效果不是很好，公眾號(hào)和大V號(hào)的數(shù)據(jù)量還達(dá)不到目前的要求

解決方法：

（1）充分使用內(nèi)部現(xiàn)有的數(shù)據(jù)。江蘇廣電現(xiàn)在擁有的數(shù)據(jù)有：新聞系統(tǒng)里記者文稿的數(shù)據(jù)，OA人事數(shù)據(jù)，新聞APP網(wǎng)站用戶數(shù)據(jù)。根據(jù)臺(tái)內(nèi)數(shù)據(jù)，可以先建立自己的用戶畫(huà)像庫(kù)，這是我們與其他BAT相比獨(dú)有的優(yōu)勢(shì)。

（2）與其他大數(shù)據(jù)公司合作，有價(jià)值的合作對(duì)象有：百度、騰訊、阿里、微軟、谷歌。

（3）重視數(shù)據(jù)的積累：與第三方合作項(xiàng)目時(shí)，要能獲取用戶的數(shù)據(jù)，比如合作節(jié)目的互動(dòng)或者網(wǎng)絡(luò)直播，要能獲取受眾的各維度數(shù)據(jù)。

5.2 缺乏懂業(yè)務(wù)的大數(shù)據(jù)人才

現(xiàn)象：在這幾年與大數(shù)據(jù)公司交流時(shí)候，總會(huì)出現(xiàn)信息不對(duì)稱(chēng)的情況，設(shè)計(jì)出的業(yè)務(wù)功能與實(shí)際使用時(shí)的場(chǎng)景不一致，往往會(huì)花費(fèi)大量的時(shí)間來(lái)回修改。

解決方法：技術(shù)人員參與節(jié)目部門(mén)的日常工作，充分了解業(yè)務(wù)的實(shí)際需求，這樣設(shè)計(jì)出來(lái)的功能才能真正滿足節(jié)目生產(chǎn)的需求。

5.3 缺乏創(chuàng)新意識(shí)

現(xiàn)象：從展會(huì)或者各臺(tái)交流過(guò)程中明顯感覺(jué)到，各個(gè)大數(shù)據(jù)平臺(tái)功能的同質(zhì)化現(xiàn)象明顯，基本都是千篇一律的熱點(diǎn)新聞、智能推薦、突發(fā)新聞……很少能看到眼前一亮的功能。

解決方法：

（1）學(xué)習(xí)積累新的大數(shù)據(jù)技術(shù)，尤其是國(guó)內(nèi)外新技術(shù)的應(yīng)用。

（2）從其他領(lǐng)域獲取靈感，例如：體育、娛樂(lè)、生活等。

6．結(jié)語(yǔ)

對(duì)于廣電媒體而言，大數(shù)據(jù)是盈利模式轉(zhuǎn)型的基礎(chǔ)。同時(shí)，大數(shù)據(jù)還能服務(wù)于各類(lèi)決策，無(wú)論是電視節(jié)目?jī)?nèi)容的評(píng)估和優(yōu)化，還是整個(gè)廣電集團(tuán)的戰(zhàn)略方向。大數(shù)據(jù)本身也能帶來(lái)商業(yè)利益的信息資本。廣電媒體受眾覆蓋廣，數(shù)據(jù)流量龐大，這些對(duì)許多商業(yè)公司而言都是十分希望得到的資源。目前媒體大數(shù)據(jù)分析仍然處于摸索實(shí)踐階段，如何把大數(shù)據(jù)分析轉(zhuǎn)換為實(shí)際的業(yè)務(wù)形態(tài)將是下一步努力的方向。