許辰銘 江蘇省廣播電視總臺(tái)
大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后信息產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,其涉及范疇龐大,應(yīng)用領(lǐng)域廣泛。媒體作為信息產(chǎn)業(yè)鏈的重要主體,在內(nèi)容的生產(chǎn)、儲(chǔ)存、傳播方面,都需要充分利用大數(shù)據(jù)的應(yīng)用。大數(shù)據(jù)關(guān)于媒體內(nèi)容的應(yīng)用,已經(jīng)在現(xiàn)實(shí)案例中充分體現(xiàn),也將繼續(xù)成為推動(dòng)業(yè)態(tài)發(fā)展的動(dòng)力和未來(lái)行業(yè)發(fā)展的方向。作者從事廣電大數(shù)據(jù)已有三年時(shí)間,中間也累積了不少項(xiàng)目經(jīng)驗(yàn),本文介紹了大數(shù)據(jù)分析的基本技術(shù),闡述了大數(shù)據(jù)分析在媒體行業(yè)中的應(yīng)用。
大數(shù)據(jù)平臺(tái)架構(gòu)主要是為了應(yīng)對(duì)4V 特征的互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用而生的架構(gòu)體系,目前全球較為主流的大數(shù)據(jù)平臺(tái)包括Hadoop 、Spark、Storm 等。
Hadoop 是在大型集群上執(zhí)行分布式應(yīng)用的基礎(chǔ)框架,它由Apache 基金會(huì)開(kāi)發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序??沙浞掷眉旱膬?yōu)勢(shì)高速運(yùn)算和存儲(chǔ)。
隨著Hadoop 生態(tài)圈的成長(zhǎng),出現(xiàn)了越來(lái)越多的項(xiàng)目,其中不乏一些非Apache 主管的項(xiàng)目,這些項(xiàng)目對(duì)Hadoop 是很好的補(bǔ)充,或提供了一些更高層的抽象。Hadoop總體架構(gòu)見(jiàn)圖1。
圖1 Hadoop總體架構(gòu)
Hadoop 的功能模塊被稱(chēng)為子項(xiàng)目,整個(gè)Hadoop家族由以下幾個(gè)子項(xiàng)目組成:HadoopCommon,HDFS,MapReduce,Hive,Pig,HBase,ZooKeeper,Avro,Sqoop,Mahout,Cassandra,Chukwa,Ambari,HCatalog,Chukwa。
Spark 是UC Berkeley AMP lab 所開(kāi)源的類(lèi)Hadoop MapReduce 的通用并行計(jì)算框架。Spark 基于MapReduce 算法實(shí)現(xiàn)分布式計(jì)算,擁有Hadoop MapReduce 所具有的優(yōu)點(diǎn);不同于MapReduce 的是,Job 中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫(xiě)HDFS,因此Spark 能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce 的算法。
伯克利大學(xué)將 Spark 的整個(gè)生態(tài)系統(tǒng)稱(chēng)為伯克利數(shù)據(jù)分析棧(BDAS),在核心框架 Spark 的基礎(chǔ)上,主要提供四個(gè)范疇的計(jì)算框架。Spark的總體架構(gòu)見(jiàn)圖2。
(1)Spark SQL: 提供了類(lèi) SQL 的查詢 ,返回Spark-DataFrame 的數(shù)據(jù)結(jié)構(gòu)。
(2)Spark Streaming: 流式計(jì)算 ,主要用于處理線上實(shí)時(shí)時(shí)序數(shù)據(jù)。
(3) MLlib: 提供機(jī)器學(xué)習(xí)的各種模型和調(diào)優(yōu)。(4)GraphX: 提供基于圖的算法 ,如 PageRank。
圖2 Spark總體架構(gòu)
Storm 是由BackType開(kāi)發(fā)的實(shí)時(shí)處理系統(tǒng),BackType現(xiàn)在已在Twitter 麾下,Twitter已 將Storm正式開(kāi)源,這是一個(gè)分布式、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng),基本是用Clojure寫(xiě)的。Storm被托管在GitHub 上,遵循Eclipse Public License 1.0。
對(duì)比Hadoop的批處理,Storm是個(gè)實(shí)時(shí)、分布式以及具備高容錯(cuò)的計(jì)算系統(tǒng)。同Hadoop一樣,Storm也可以處理大批量的數(shù)據(jù),然而Storm在保證高可靠性的前提下還可以讓處理進(jìn)行的更加實(shí)時(shí),也就是說(shuō),所有的信息都會(huì)被處理。Storm同樣還具備容錯(cuò)和分布計(jì)算這些特性,這就讓Storm可以擴(kuò)展到不同的機(jī)器上進(jìn)行大批量的數(shù)據(jù)處理。
Storm的總體架構(gòu)見(jiàn)圖3。
圖3 Storm總體架構(gòu)
大數(shù)據(jù)分析就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的人們事先不知道,但又是潛在有用信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘方法有如下五種:
(1)分類(lèi) (Classification)
(2)估值(Estimation)
(3)預(yù)言(Prediction)
(4)聚集(Clustering)
(5)描述和可視化(Des cription and Visualization)
首先從數(shù)據(jù)中選出已經(jīng)分好類(lèi)的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類(lèi)的技術(shù),建立分類(lèi)模型,對(duì)于沒(méi)有分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)。分類(lèi)算法有如下7種:決策樹(shù)、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、k-近鄰、支持向量機(jī)、基于關(guān)聯(lián)規(guī)則的分類(lèi)、集成學(xué)習(xí)(Ensemble Learning)
估值與分類(lèi)類(lèi)似,不同之處在于,分類(lèi)描述的是離散型變量的輸出,估值處理連續(xù)值的輸出;分類(lèi)的類(lèi)別是確定數(shù)目的,估值的量是不確定的。一般來(lái)說(shuō),估值可以作為分類(lèi)的前一步工作。給定一些輸入數(shù)據(jù),通過(guò)估值得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值進(jìn)行分類(lèi)。
通常,預(yù)言是通過(guò)分類(lèi)或估值起作用的,也就是說(shuō),通過(guò)分類(lèi)或估值得出模型,該模型用于對(duì)未知變量的預(yù)言。從這種意義上說(shuō),預(yù)言其實(shí)沒(méi)有必要分為一個(gè)單獨(dú)的類(lèi)。預(yù)言的目的是對(duì)未來(lái)未知變量的預(yù)測(cè),這種預(yù)測(cè)需要時(shí)間來(lái)驗(yàn)證,即必須經(jīng)過(guò)一定時(shí)間后,才能知道預(yù)言準(zhǔn)確性是多少。
常見(jiàn)的預(yù)測(cè)算法如下幾種:簡(jiǎn)易平均法、移動(dòng)平均法、指數(shù)平均法。
(1)簡(jiǎn)易平均法
簡(jiǎn)易平均法是一種簡(jiǎn)便的時(shí)間序列法。簡(jiǎn)易平均法以一定觀察期的數(shù)據(jù)求得平均數(shù),并以所求平均數(shù)為基礎(chǔ),預(yù)測(cè)未來(lái)時(shí)期的預(yù)測(cè)值。簡(jiǎn)易平均法是最簡(jiǎn)單的定量預(yù)測(cè)方法,簡(jiǎn)易平均法的運(yùn)算過(guò)程簡(jiǎn)單,不需要進(jìn)行復(fù)雜的模型設(shè)計(jì)和數(shù)學(xué)運(yùn)用,常在市場(chǎng)的近期預(yù)測(cè)、短期預(yù)測(cè)中使用。
(2)移動(dòng)平均法
移動(dòng)平均法是一種簡(jiǎn)單的平滑預(yù)測(cè)技術(shù)。它的基本思想是:根據(jù)時(shí)間序列資料逐項(xiàng)推移,依次計(jì)算包含一定項(xiàng)數(shù)的序時(shí)平均值,以反映的長(zhǎng)期趨勢(shì)。因此,當(dāng)時(shí)間序列的數(shù)值由于受周期變動(dòng)和隨機(jī)波動(dòng)的影響起伏較大,不易顯示出事件的發(fā)展趨勢(shì)時(shí),使用移動(dòng)平均法可以消除這些因素的影響,顯示出事件的發(fā)展方向與趨勢(shì)(即趨勢(shì)線),然后依趨勢(shì)線分析預(yù)測(cè)序列的長(zhǎng)期趨勢(shì)。
移動(dòng)平均法是用一組最近的實(shí)際數(shù)據(jù)值來(lái)預(yù)測(cè)未來(lái)一期或幾期內(nèi)公司產(chǎn)品的需求量、公司產(chǎn)能等的一種常用方法。移動(dòng)平均法適用于即期預(yù)測(cè)。當(dāng)產(chǎn)品需求既不快速增長(zhǎng)也不快速下降,且不存在季節(jié)性因素時(shí),移動(dòng)平均法能有效地消除預(yù)測(cè)中的隨機(jī)波動(dòng)。
(3)指數(shù)平均法
指數(shù)平滑法是生產(chǎn)預(yù)測(cè)中常用的一種方法,也用于中短期經(jīng)濟(jì)發(fā)展趨勢(shì)的預(yù)測(cè)。所有預(yù)測(cè)方法中,指數(shù)平滑是用得最多的一種。簡(jiǎn)單的全期平均法是對(duì)時(shí)間數(shù)列的歷史數(shù)據(jù)一個(gè)不漏地全部加以同等利用,移動(dòng)平均法不考慮較遠(yuǎn)期的數(shù)據(jù),并在加權(quán)移動(dòng)平均法中給予近期資料更大的權(quán)重。而指數(shù)平滑法則兼容了全期平均和移動(dòng)平均所長(zhǎng),不舍棄過(guò)去的數(shù)據(jù),但是僅給予逐漸減弱的影響程度,即隨著數(shù)據(jù)的遠(yuǎn)離,賦予逐漸收斂為零的權(quán)數(shù)。
聚集是提取海量非結(jié)構(gòu)化數(shù)據(jù)并自動(dòng)將數(shù)據(jù)分區(qū)、從而使類(lèi)似信息聚類(lèi)的過(guò)程。每個(gè)聚集均表示知識(shí)庫(kù)內(nèi)的一個(gè)概念區(qū)域,包含具有一組相同屬性的項(xiàng)目。聚集和分類(lèi)的區(qū)別是聚集不依賴于預(yù)先定義好的類(lèi),不需要訓(xùn)練集。聚類(lèi)算法有很多,具體可分為劃分、層次、基于密度、基于網(wǎng)格以及基于模型等。
劃分主要以k-means,k-medoids,CLARANS等為代表。
數(shù)據(jù)可視化無(wú)論對(duì)于普通用戶還是數(shù)據(jù)分析專(zhuān)家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話,讓用戶直觀感受到結(jié)果,目前最流行的是以下的三種可視化工具。
FusionCharts是一個(gè)Flash的圖表組件,它可以用來(lái)制作數(shù)據(jù)動(dòng)畫(huà)圖表,其中動(dòng)畫(huà)效果使用Adobe Flash 8 ( 原 Macromedia Flash的 ) 制 作 的 flash ,F(xiàn)usionCharts可用于任何網(wǎng)頁(yè)的腳本語(yǔ)言類(lèi)似于HTML 、.NET、ASP 、JSP、PHP、ColdFusion 等,提供互動(dòng)性和強(qiáng)大的圖表。FusionCharts使用XML作為其數(shù)據(jù)接口,充分利用流體美麗的Flash創(chuàng)建緊湊、互動(dòng)和視覺(jué)逮捕的圖表。
(2)HighCharts
Highcharts 是用純JavaScript編寫(xiě)的一個(gè)圖表庫(kù),能夠簡(jiǎn)單便捷地在web網(wǎng)站或web應(yīng)用程序添加有交互性的圖表,并且免費(fèi)提供給個(gè)人學(xué)習(xí)、個(gè)人網(wǎng)站和非商業(yè)用途使用。HighCharts支持的圖表類(lèi)型有曲線圖、區(qū)域圖、柱狀圖、餅狀圖、散狀點(diǎn)圖和綜合圖表。
(3)Google Chart tools
Google Chart tools是為瀏覽器與移動(dòng)設(shè)備定制的交互式圖表開(kāi)發(fā)。Google Charts tools提供了從簡(jiǎn)單的折線圖到復(fù)雜的層次化的樹(shù)結(jié)構(gòu)、地圖等圖表類(lèi)型。Google Charts tools功能強(qiáng)大,用于Web上可視化數(shù)據(jù)。其容易使用,而且是免費(fèi)的。
(1)線索獲取
利用大數(shù)據(jù)爬蟲(chóng)技術(shù)爬取互聯(lián)網(wǎng)線索,接入臺(tái)內(nèi)原有的線索平臺(tái)(新聞熱線、新媒體爆料、電話爆料、全媒體記者爆料、地方通聯(lián)等)
(2)線索整理
3.1 職稱(chēng)、學(xué)歷、醫(yī)院級(jí)別均影響指南認(rèn)知與應(yīng)用 本研究中,眼科醫(yī)師對(duì)臨床指南的重要性普遍持認(rèn)可態(tài)度,但多對(duì)臨床指南,特別是對(duì)循證臨床指南的認(rèn)知尚淺,指南的臨床應(yīng)用亦存在障礙。同時(shí),眼科醫(yī)師的教育背景、職稱(chēng)等均影響指南認(rèn)知與應(yīng)用。在指南的制定中,高級(jí)專(zhuān)家團(tuán)隊(duì)占主導(dǎo)地位,而指南的批判性評(píng)價(jià)和應(yīng)用涉及各級(jí)眼科醫(yī)師。因此,向各級(jí)醫(yī)師培訓(xùn)循證指南制定、評(píng)價(jià)等相關(guān)知識(shí),以及更好地介紹、推廣和普及現(xiàn)有指南,具有重要意義。
利用大數(shù)據(jù)分類(lèi)技術(shù)對(duì)海量線索進(jìn)行分類(lèi),然后對(duì)分類(lèi)后的線索進(jìn)行聚類(lèi)熱度排序。
(3)記者偏好分析
利用原有的臺(tái)內(nèi)新聞稿件資源,分析出各個(gè)記者選題的喜好,并以標(biāo)簽的形式記錄。
(4)系統(tǒng)推送
整理后的線索按照分類(lèi)匹配的方法推送給對(duì)應(yīng)的記者,記者獲取線索后可以點(diǎn)擊感興趣或者不感興趣的按鈕反饋給系統(tǒng),讓系統(tǒng)重新學(xué)習(xí)記者喜好。
(1)構(gòu)建突發(fā)詞庫(kù)
定義突發(fā)關(guān)鍵詞(例如爆炸、搶劫、地震、傷亡等),建立突發(fā)詞庫(kù)。
(2)可信度分析
建立新聞可信度評(píng)級(jí),主要包括:新聞網(wǎng)站可信度,爆料人可信度,事件可信度等。
(3)三要素提取
自動(dòng)提取新聞的三要素:時(shí)間、地點(diǎn)、人物,方便記者聯(lián)系采訪。
(4)系統(tǒng)推送
突發(fā)新聞強(qiáng)調(diào)時(shí)效性,可通過(guò)短信或者信息彈窗的方式推送至新聞?dòng)浾摺?/p>
應(yīng)用場(chǎng)景: 周年紀(jì)念日、重大會(huì)議、民生話題、體育賽事等新聞事件或話題的全方位報(bào)道和網(wǎng)絡(luò)專(zhuān)題發(fā)布。
主要目的:為事件多維度地深度解讀提供豐富的內(nèi)容資料庫(kù),實(shí)現(xiàn)一站式瀏覽,節(jié)省信息收集和編輯整理時(shí)間。
實(shí)現(xiàn)方式: 事先定義專(zhuān)題的數(shù)量和主題,進(jìn)行互聯(lián)網(wǎng)信息定向采集和智能分類(lèi),輔助人工運(yùn)營(yíng),提供多維度的整合數(shù)據(jù)包。
呈現(xiàn)內(nèi)容:熱點(diǎn)新聞、熱點(diǎn)圖片、最新新聞、相關(guān)視頻、相關(guān)圖片、事件脈絡(luò)、地圖分布等。
整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù),通過(guò)對(duì)互聯(lián)網(wǎng)海量信息自動(dòng)抓取、自動(dòng)分類(lèi)聚類(lèi)、主題檢測(cè)、專(zhuān)題聚焦,實(shí)現(xiàn)用戶的網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞專(zhuān)題追蹤等信息需求,形成簡(jiǎn)報(bào)、報(bào)告、圖表等分析結(jié)果,為客戶全面掌握群眾思想動(dòng)態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。
應(yīng)用場(chǎng)景:對(duì)指定主題(事件、行業(yè)、企業(yè)、品牌、股票、城市、人物等)的全網(wǎng)信息監(jiān)測(cè)。
主要目的:新聞事件、行業(yè)、企業(yè)等全網(wǎng)信息收集與統(tǒng)計(jì)分析,整合離散素材,節(jié)省人工收集時(shí)間;對(duì)品牌欄目、主持人聲譽(yù)管理。
實(shí)現(xiàn)方式:基于關(guān)鍵詞對(duì)某類(lèi)數(shù)據(jù)進(jìn)行抓取和統(tǒng)計(jì)分析,推送至相關(guān)審核人員。
應(yīng)用場(chǎng)景:對(duì)新聞事件的互聯(lián)網(wǎng)信息分析。
主要目的:把握事件網(wǎng)絡(luò)傳播全貌,利用機(jī)器智能挖掘信息,支持事件的深度解讀。
實(shí)現(xiàn)方式:根據(jù)關(guān)鍵詞設(shè)定抓取相關(guān)的全網(wǎng)信息,通過(guò)中文智能分詞、自然語(yǔ)言處理等大數(shù)據(jù)技術(shù),對(duì)抓取信息進(jìn)行處理得到對(duì)應(yīng)數(shù)據(jù)模塊。
媒體傳播分析包括:事件走勢(shì)、報(bào)道量趨勢(shì)、熱門(mén)信息、熱點(diǎn)網(wǎng)民、關(guān)鍵詞、傳播路徑圖、核心傳播人等。
現(xiàn)象:大數(shù)據(jù)分析=大數(shù)據(jù)+分析,首先要有數(shù)據(jù)才能分析。而現(xiàn)在電視媒體無(wú)法拿到真正有用的用戶數(shù)據(jù)和行為數(shù)據(jù)。而大數(shù)據(jù)爬蟲(chóng)對(duì)于微博微信論壇的爬取效果不是很好,公眾號(hào)和大V號(hào)的數(shù)據(jù)量還達(dá)不到目前的要求
解決方法:
(1)充分使用內(nèi)部現(xiàn)有的數(shù)據(jù)。江蘇廣電現(xiàn)在擁有的數(shù)據(jù)有:新聞系統(tǒng)里記者文稿的數(shù)據(jù),OA人事數(shù)據(jù),新聞APP網(wǎng)站用戶數(shù)據(jù)。根據(jù)臺(tái)內(nèi)數(shù)據(jù),可以先建立自己的用戶畫(huà)像庫(kù),這是我們與其他BAT相比獨(dú)有的優(yōu)勢(shì)。
(2)與其他大數(shù)據(jù)公司合作,有價(jià)值的合作對(duì)象有:百度、騰訊、阿里、微軟、谷歌。
(3)重視數(shù)據(jù)的積累:與第三方合作項(xiàng)目時(shí),要能獲取用戶的數(shù)據(jù),比如合作節(jié)目的互動(dòng)或者網(wǎng)絡(luò)直播,要能獲取受眾的各維度數(shù)據(jù)。
現(xiàn)象:在這幾年與大數(shù)據(jù)公司交流時(shí)候,總會(huì)出現(xiàn)信息不對(duì)稱(chēng)的情況,設(shè)計(jì)出的業(yè)務(wù)功能與實(shí)際使用時(shí)的場(chǎng)景不一致,往往會(huì)花費(fèi)大量的時(shí)間來(lái)回修改。
解決方法:技術(shù)人員參與節(jié)目部門(mén)的日常工作,充分了解業(yè)務(wù)的實(shí)際需求,這樣設(shè)計(jì)出來(lái)的功能才能真正滿足節(jié)目生產(chǎn)的需求。
現(xiàn)象:從展會(huì)或者各臺(tái)交流過(guò)程中明顯感覺(jué)到,各個(gè)大數(shù)據(jù)平臺(tái)功能的同質(zhì)化現(xiàn)象明顯,基本都是千篇一律的熱點(diǎn)新聞、智能推薦、突發(fā)新聞……很少能看到眼前一亮的功能。
解決方法:
(1)學(xué)習(xí)積累新的大數(shù)據(jù)技術(shù),尤其是國(guó)內(nèi)外新技術(shù)的應(yīng)用。
(2)從其他領(lǐng)域獲取靈感,例如:體育、娛樂(lè)、生活等。
對(duì)于廣電媒體而言,大數(shù)據(jù)是盈利模式轉(zhuǎn)型的基礎(chǔ)。同時(shí),大數(shù)據(jù)還能服務(wù)于各類(lèi)決策,無(wú)論是電視節(jié)目?jī)?nèi)容的評(píng)估和優(yōu)化,還是整個(gè)廣電集團(tuán)的戰(zhàn)略方向。大數(shù)據(jù)本身也能帶來(lái)商業(yè)利益的信息資本。廣電媒體受眾覆蓋廣,數(shù)據(jù)流量龐大,這些對(duì)許多商業(yè)公司而言都是十分希望得到的資源。目前媒體大數(shù)據(jù)分析仍然處于摸索實(shí)踐階段,如何把大數(shù)據(jù)分析轉(zhuǎn)換為實(shí)際的業(yè)務(wù)形態(tài)將是下一步努力的方向。