許辰銘 江蘇省廣播電視總臺
大數(shù)據是繼云計算、物聯(lián)網之后信息產業(yè)又一次顛覆性的技術變革,其涉及范疇龐大,應用領域廣泛。媒體作為信息產業(yè)鏈的重要主體,在內容的生產、儲存、傳播方面,都需要充分利用大數(shù)據的應用。大數(shù)據關于媒體內容的應用,已經在現(xiàn)實案例中充分體現(xiàn),也將繼續(xù)成為推動業(yè)態(tài)發(fā)展的動力和未來行業(yè)發(fā)展的方向。作者從事廣電大數(shù)據已有三年時間,中間也累積了不少項目經驗,本文介紹了大數(shù)據分析的基本技術,闡述了大數(shù)據分析在媒體行業(yè)中的應用。
大數(shù)據平臺架構主要是為了應對4V 特征的互聯(lián)網數(shù)據應用而生的架構體系,目前全球較為主流的大數(shù)據平臺包括Hadoop 、Spark、Storm 等。
Hadoop 是在大型集群上執(zhí)行分布式應用的基礎框架,它由Apache 基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。可充分利用集群的優(yōu)勢高速運算和存儲。
隨著Hadoop 生態(tài)圈的成長,出現(xiàn)了越來越多的項目,其中不乏一些非Apache 主管的項目,這些項目對Hadoop 是很好的補充,或提供了一些更高層的抽象。Hadoop總體架構見圖1。
圖1 Hadoop總體架構
Hadoop 的功能模塊被稱為子項目,整個Hadoop家族由以下幾個子項目組成:HadoopCommon,HDFS,MapReduce,Hive,Pig,HBase,ZooKeeper,Avro,Sqoop,Mahout,Cassandra,Chukwa,Ambari,HCatalog,Chukwa。
Spark 是UC Berkeley AMP lab 所開源的類Hadoop MapReduce 的通用并行計算框架。Spark 基于MapReduce 算法實現(xiàn)分布式計算,擁有Hadoop MapReduce 所具有的優(yōu)點;不同于MapReduce 的是,Job 中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark 能更好地適用于數(shù)據挖掘與機器學習等需要迭代的map reduce 的算法。
伯克利大學將 Spark 的整個生態(tài)系統(tǒng)稱為伯克利數(shù)據分析棧(BDAS),在核心框架 Spark 的基礎上,主要提供四個范疇的計算框架。Spark的總體架構見圖2。
(1)Spark SQL: 提供了類 SQL 的查詢 ,返回Spark-DataFrame 的數(shù)據結構。
(2)Spark Streaming: 流式計算 ,主要用于處理線上實時時序數(shù)據。
(3) MLlib: 提供機器學習的各種模型和調優(yōu)。(4)GraphX: 提供基于圖的算法 ,如 PageRank。
圖2 Spark總體架構
Storm 是由BackType開發(fā)的實時處理系統(tǒng),BackType現(xiàn)在已在Twitter 麾下,Twitter已 將Storm正式開源,這是一個分布式、容錯的實時計算系統(tǒng),基本是用Clojure寫的。Storm被托管在GitHub 上,遵循Eclipse Public License 1.0。
對比Hadoop的批處理,Storm是個實時、分布式以及具備高容錯的計算系統(tǒng)。同Hadoop一樣,Storm也可以處理大批量的數(shù)據,然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時,也就是說,所有的信息都會被處理。Storm同樣還具備容錯和分布計算這些特性,這就讓Storm可以擴展到不同的機器上進行大批量的數(shù)據處理。
Storm的總體架構見圖3。
圖3 Storm總體架構
大數(shù)據分析就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據中,提取隱含在其中的人們事先不知道,但又是潛在有用信息和知識的過程。
數(shù)據挖掘方法有如下五種:
(1)分類 (Classification)
(2)估值(Estimation)
(3)預言(Prediction)
(4)聚集(Clustering)
(5)描述和可視化(Des cription and Visualization)
首先從數(shù)據中選出已經分好類的訓練集,在該訓練集上運用數(shù)據挖掘分類的技術,建立分類模型,對于沒有分類的數(shù)據進行分類。分類算法有如下7種:決策樹、貝葉斯、人工神經網絡、k-近鄰、支持向量機、基于關聯(lián)規(guī)則的分類、集成學習(Ensemble Learning)
估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據,通過估值得到未知的連續(xù)變量的值,然后,根據預先設定的閾值進行分類。
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言的目的是對未來未知變量的預測,這種預測需要時間來驗證,即必須經過一定時間后,才能知道預言準確性是多少。
常見的預測算法如下幾種:簡易平均法、移動平均法、指數(shù)平均法。
(1)簡易平均法
簡易平均法是一種簡便的時間序列法。簡易平均法以一定觀察期的數(shù)據求得平均數(shù),并以所求平均數(shù)為基礎,預測未來時期的預測值。簡易平均法是最簡單的定量預測方法,簡易平均法的運算過程簡單,不需要進行復雜的模型設計和數(shù)學運用,常在市場的近期預測、短期預測中使用。
(2)移動平均法
移動平均法是一種簡單的平滑預測技術。它的基本思想是:根據時間序列資料逐項推移,依次計算包含一定項數(shù)的序時平均值,以反映的長期趨勢。因此,當時間序列的數(shù)值由于受周期變動和隨機波動的影響起伏較大,不易顯示出事件的發(fā)展趨勢時,使用移動平均法可以消除這些因素的影響,顯示出事件的發(fā)展方向與趨勢(即趨勢線),然后依趨勢線分析預測序列的長期趨勢。
移動平均法是用一組最近的實際數(shù)據值來預測未來一期或幾期內公司產品的需求量、公司產能等的一種常用方法。移動平均法適用于即期預測。當產品需求既不快速增長也不快速下降,且不存在季節(jié)性因素時,移動平均法能有效地消除預測中的隨機波動。
(3)指數(shù)平均法
指數(shù)平滑法是生產預測中常用的一種方法,也用于中短期經濟發(fā)展趨勢的預測。所有預測方法中,指數(shù)平滑是用得最多的一種。簡單的全期平均法是對時間數(shù)列的歷史數(shù)據一個不漏地全部加以同等利用,移動平均法不考慮較遠期的數(shù)據,并在加權移動平均法中給予近期資料更大的權重。而指數(shù)平滑法則兼容了全期平均和移動平均所長,不舍棄過去的數(shù)據,但是僅給予逐漸減弱的影響程度,即隨著數(shù)據的遠離,賦予逐漸收斂為零的權數(shù)。
聚集是提取海量非結構化數(shù)據并自動將數(shù)據分區(qū)、從而使類似信息聚類的過程。每個聚集均表示知識庫內的一個概念區(qū)域,包含具有一組相同屬性的項目。聚集和分類的區(qū)別是聚集不依賴于預先定義好的類,不需要訓練集。聚類算法有很多,具體可分為劃分、層次、基于密度、基于網格以及基于模型等。
劃分主要以k-means,k-medoids,CLARANS等為代表。
數(shù)據可視化無論對于普通用戶還是數(shù)據分析專家,都是最基本的功能。數(shù)據圖像化可以讓數(shù)據自己說話,讓用戶直觀感受到結果,目前最流行的是以下的三種可視化工具。
FusionCharts是一個Flash的圖表組件,它可以用來制作數(shù)據動畫圖表,其中動畫效果使用Adobe Flash 8 ( 原 Macromedia Flash的 ) 制 作 的 flash ,F(xiàn)usionCharts可用于任何網頁的腳本語言類似于HTML 、.NET、ASP 、JSP、PHP、ColdFusion 等,提供互動性和強大的圖表。FusionCharts使用XML作為其數(shù)據接口,充分利用流體美麗的Flash創(chuàng)建緊湊、互動和視覺逮捕的圖表。
(2)HighCharts
Highcharts 是用純JavaScript編寫的一個圖表庫,能夠簡單便捷地在web網站或web應用程序添加有交互性的圖表,并且免費提供給個人學習、個人網站和非商業(yè)用途使用。HighCharts支持的圖表類型有曲線圖、區(qū)域圖、柱狀圖、餅狀圖、散狀點圖和綜合圖表。
(3)Google Chart tools
Google Chart tools是為瀏覽器與移動設備定制的交互式圖表開發(fā)。Google Charts tools提供了從簡單的折線圖到復雜的層次化的樹結構、地圖等圖表類型。Google Charts tools功能強大,用于Web上可視化數(shù)據。其容易使用,而且是免費的。
(1)線索獲取
利用大數(shù)據爬蟲技術爬取互聯(lián)網線索,接入臺內原有的線索平臺(新聞熱線、新媒體爆料、電話爆料、全媒體記者爆料、地方通聯(lián)等)
(2)線索整理
3.1 職稱、學歷、醫(yī)院級別均影響指南認知與應用 本研究中,眼科醫(yī)師對臨床指南的重要性普遍持認可態(tài)度,但多對臨床指南,特別是對循證臨床指南的認知尚淺,指南的臨床應用亦存在障礙。同時,眼科醫(yī)師的教育背景、職稱等均影響指南認知與應用。在指南的制定中,高級專家團隊占主導地位,而指南的批判性評價和應用涉及各級眼科醫(yī)師。因此,向各級醫(yī)師培訓循證指南制定、評價等相關知識,以及更好地介紹、推廣和普及現(xiàn)有指南,具有重要意義。
利用大數(shù)據分類技術對海量線索進行分類,然后對分類后的線索進行聚類熱度排序。
(3)記者偏好分析
利用原有的臺內新聞稿件資源,分析出各個記者選題的喜好,并以標簽的形式記錄。
(4)系統(tǒng)推送
整理后的線索按照分類匹配的方法推送給對應的記者,記者獲取線索后可以點擊感興趣或者不感興趣的按鈕反饋給系統(tǒng),讓系統(tǒng)重新學習記者喜好。
(1)構建突發(fā)詞庫
定義突發(fā)關鍵詞(例如爆炸、搶劫、地震、傷亡等),建立突發(fā)詞庫。
(2)可信度分析
建立新聞可信度評級,主要包括:新聞網站可信度,爆料人可信度,事件可信度等。
(3)三要素提取
自動提取新聞的三要素:時間、地點、人物,方便記者聯(lián)系采訪。
(4)系統(tǒng)推送
突發(fā)新聞強調時效性,可通過短信或者信息彈窗的方式推送至新聞記者。
應用場景: 周年紀念日、重大會議、民生話題、體育賽事等新聞事件或話題的全方位報道和網絡專題發(fā)布。
主要目的:為事件多維度地深度解讀提供豐富的內容資料庫,實現(xiàn)一站式瀏覽,節(jié)省信息收集和編輯整理時間。
實現(xiàn)方式: 事先定義專題的數(shù)量和主題,進行互聯(lián)網信息定向采集和智能分類,輔助人工運營,提供多維度的整合數(shù)據包。
呈現(xiàn)內容:熱點新聞、熱點圖片、最新新聞、相關視頻、相關圖片、事件脈絡、地圖分布等。
整合互聯(lián)網信息采集技術及信息智能處理技術,通過對互聯(lián)網海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,實現(xiàn)用戶的網絡輿情監(jiān)測和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結果,為客戶全面掌握群眾思想動態(tài),做出正確輿論引導,提供分析依據。
應用場景:對指定主題(事件、行業(yè)、企業(yè)、品牌、股票、城市、人物等)的全網信息監(jiān)測。
主要目的:新聞事件、行業(yè)、企業(yè)等全網信息收集與統(tǒng)計分析,整合離散素材,節(jié)省人工收集時間;對品牌欄目、主持人聲譽管理。
實現(xiàn)方式:基于關鍵詞對某類數(shù)據進行抓取和統(tǒng)計分析,推送至相關審核人員。
應用場景:對新聞事件的互聯(lián)網信息分析。
主要目的:把握事件網絡傳播全貌,利用機器智能挖掘信息,支持事件的深度解讀。
實現(xiàn)方式:根據關鍵詞設定抓取相關的全網信息,通過中文智能分詞、自然語言處理等大數(shù)據技術,對抓取信息進行處理得到對應數(shù)據模塊。
媒體傳播分析包括:事件走勢、報道量趨勢、熱門信息、熱點網民、關鍵詞、傳播路徑圖、核心傳播人等。
現(xiàn)象:大數(shù)據分析=大數(shù)據+分析,首先要有數(shù)據才能分析。而現(xiàn)在電視媒體無法拿到真正有用的用戶數(shù)據和行為數(shù)據。而大數(shù)據爬蟲對于微博微信論壇的爬取效果不是很好,公眾號和大V號的數(shù)據量還達不到目前的要求
解決方法:
(1)充分使用內部現(xiàn)有的數(shù)據。江蘇廣電現(xiàn)在擁有的數(shù)據有:新聞系統(tǒng)里記者文稿的數(shù)據,OA人事數(shù)據,新聞APP網站用戶數(shù)據。根據臺內數(shù)據,可以先建立自己的用戶畫像庫,這是我們與其他BAT相比獨有的優(yōu)勢。
(2)與其他大數(shù)據公司合作,有價值的合作對象有:百度、騰訊、阿里、微軟、谷歌。
(3)重視數(shù)據的積累:與第三方合作項目時,要能獲取用戶的數(shù)據,比如合作節(jié)目的互動或者網絡直播,要能獲取受眾的各維度數(shù)據。
現(xiàn)象:在這幾年與大數(shù)據公司交流時候,總會出現(xiàn)信息不對稱的情況,設計出的業(yè)務功能與實際使用時的場景不一致,往往會花費大量的時間來回修改。
解決方法:技術人員參與節(jié)目部門的日常工作,充分了解業(yè)務的實際需求,這樣設計出來的功能才能真正滿足節(jié)目生產的需求。
現(xiàn)象:從展會或者各臺交流過程中明顯感覺到,各個大數(shù)據平臺功能的同質化現(xiàn)象明顯,基本都是千篇一律的熱點新聞、智能推薦、突發(fā)新聞……很少能看到眼前一亮的功能。
解決方法:
(1)學習積累新的大數(shù)據技術,尤其是國內外新技術的應用。
(2)從其他領域獲取靈感,例如:體育、娛樂、生活等。
對于廣電媒體而言,大數(shù)據是盈利模式轉型的基礎。同時,大數(shù)據還能服務于各類決策,無論是電視節(jié)目內容的評估和優(yōu)化,還是整個廣電集團的戰(zhàn)略方向。大數(shù)據本身也能帶來商業(yè)利益的信息資本。廣電媒體受眾覆蓋廣,數(shù)據流量龐大,這些對許多商業(yè)公司而言都是十分希望得到的資源。目前媒體大數(shù)據分析仍然處于摸索實踐階段,如何把大數(shù)據分析轉換為實際的業(yè)務形態(tài)將是下一步努力的方向。