亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談大數(shù)據分析在媒體行業(yè)中的應用

        2018-02-26 08:32:36許辰銘江蘇省廣播電視總臺
        視聽界(廣播電視技術) 2018年1期
        關鍵詞:平均法圖表分類

        許辰銘 江蘇省廣播電視總臺

        大數(shù)據是繼云計算、物聯(lián)網之后信息產業(yè)又一次顛覆性的技術變革,其涉及范疇龐大,應用領域廣泛。媒體作為信息產業(yè)鏈的重要主體,在內容的生產、儲存、傳播方面,都需要充分利用大數(shù)據的應用。大數(shù)據關于媒體內容的應用,已經在現(xiàn)實案例中充分體現(xiàn),也將繼續(xù)成為推動業(yè)態(tài)發(fā)展的動力和未來行業(yè)發(fā)展的方向。作者從事廣電大數(shù)據已有三年時間,中間也累積了不少項目經驗,本文介紹了大數(shù)據分析的基本技術,闡述了大數(shù)據分析在媒體行業(yè)中的應用。

        2. 大數(shù)據平臺基本架構

        大數(shù)據平臺架構主要是為了應對4V 特征的互聯(lián)網數(shù)據應用而生的架構體系,目前全球較為主流的大數(shù)據平臺包括Hadoop 、Spark、Storm 等。

        2.1 Hadoop

        Hadoop 是在大型集群上執(zhí)行分布式應用的基礎框架,它由Apache 基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。可充分利用集群的優(yōu)勢高速運算和存儲。

        隨著Hadoop 生態(tài)圈的成長,出現(xiàn)了越來越多的項目,其中不乏一些非Apache 主管的項目,這些項目對Hadoop 是很好的補充,或提供了一些更高層的抽象。Hadoop總體架構見圖1。

        圖1 Hadoop總體架構

        Hadoop 的功能模塊被稱為子項目,整個Hadoop家族由以下幾個子項目組成:HadoopCommon,HDFS,MapReduce,Hive,Pig,HBase,ZooKeeper,Avro,Sqoop,Mahout,Cassandra,Chukwa,Ambari,HCatalog,Chukwa。

        2.2 Spark

        Spark 是UC Berkeley AMP lab 所開源的類Hadoop MapReduce 的通用并行計算框架。Spark 基于MapReduce 算法實現(xiàn)分布式計算,擁有Hadoop MapReduce 所具有的優(yōu)點;不同于MapReduce 的是,Job 中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark 能更好地適用于數(shù)據挖掘與機器學習等需要迭代的map reduce 的算法。

        伯克利大學將 Spark 的整個生態(tài)系統(tǒng)稱為伯克利數(shù)據分析棧(BDAS),在核心框架 Spark 的基礎上,主要提供四個范疇的計算框架。Spark的總體架構見圖2。

        (1)Spark SQL: 提供了類 SQL 的查詢 ,返回Spark-DataFrame 的數(shù)據結構。

        (2)Spark Streaming: 流式計算 ,主要用于處理線上實時時序數(shù)據。

        (3) MLlib: 提供機器學習的各種模型和調優(yōu)。(4)GraphX: 提供基于圖的算法 ,如 PageRank。

        圖2 Spark總體架構

        2.3 storm

        Storm 是由BackType開發(fā)的實時處理系統(tǒng),BackType現(xiàn)在已在Twitter 麾下,Twitter已 將Storm正式開源,這是一個分布式、容錯的實時計算系統(tǒng),基本是用Clojure寫的。Storm被托管在GitHub 上,遵循Eclipse Public License 1.0。

        對比Hadoop的批處理,Storm是個實時、分布式以及具備高容錯的計算系統(tǒng)。同Hadoop一樣,Storm也可以處理大批量的數(shù)據,然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時,也就是說,所有的信息都會被處理。Storm同樣還具備容錯和分布計算這些特性,這就讓Storm可以擴展到不同的機器上進行大批量的數(shù)據處理。

        Storm的總體架構見圖3。

        圖3 Storm總體架構

        3.大數(shù)據平臺關鍵技術

        大數(shù)據分析就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據中,提取隱含在其中的人們事先不知道,但又是潛在有用信息和知識的過程。

        數(shù)據挖掘方法有如下五種:

        (1)分類 (Classification)

        (2)估值(Estimation)

        (3)預言(Prediction)

        (4)聚集(Clustering)

        (5)描述和可視化(Des cription and Visualization)

        3.1 分類(Classification)

        首先從數(shù)據中選出已經分好類的訓練集,在該訓練集上運用數(shù)據挖掘分類的技術,建立分類模型,對于沒有分類的數(shù)據進行分類。分類算法有如下7種:決策樹、貝葉斯、人工神經網絡、k-近鄰、支持向量機、基于關聯(lián)規(guī)則的分類、集成學習(Ensemble Learning)

        3.2 估值(Estimation)

        估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據,通過估值得到未知的連續(xù)變量的值,然后,根據預先設定的閾值進行分類。

        3.3 預言(Prediction)

        通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言的目的是對未來未知變量的預測,這種預測需要時間來驗證,即必須經過一定時間后,才能知道預言準確性是多少。

        常見的預測算法如下幾種:簡易平均法、移動平均法、指數(shù)平均法。

        (1)簡易平均法

        簡易平均法是一種簡便的時間序列法。簡易平均法以一定觀察期的數(shù)據求得平均數(shù),并以所求平均數(shù)為基礎,預測未來時期的預測值。簡易平均法是最簡單的定量預測方法,簡易平均法的運算過程簡單,不需要進行復雜的模型設計和數(shù)學運用,常在市場的近期預測、短期預測中使用。

        (2)移動平均法

        移動平均法是一種簡單的平滑預測技術。它的基本思想是:根據時間序列資料逐項推移,依次計算包含一定項數(shù)的序時平均值,以反映的長期趨勢。因此,當時間序列的數(shù)值由于受周期變動和隨機波動的影響起伏較大,不易顯示出事件的發(fā)展趨勢時,使用移動平均法可以消除這些因素的影響,顯示出事件的發(fā)展方向與趨勢(即趨勢線),然后依趨勢線分析預測序列的長期趨勢。

        移動平均法是用一組最近的實際數(shù)據值來預測未來一期或幾期內公司產品的需求量、公司產能等的一種常用方法。移動平均法適用于即期預測。當產品需求既不快速增長也不快速下降,且不存在季節(jié)性因素時,移動平均法能有效地消除預測中的隨機波動。

        (3)指數(shù)平均法

        指數(shù)平滑法是生產預測中常用的一種方法,也用于中短期經濟發(fā)展趨勢的預測。所有預測方法中,指數(shù)平滑是用得最多的一種。簡單的全期平均法是對時間數(shù)列的歷史數(shù)據一個不漏地全部加以同等利用,移動平均法不考慮較遠期的數(shù)據,并在加權移動平均法中給予近期資料更大的權重。而指數(shù)平滑法則兼容了全期平均和移動平均所長,不舍棄過去的數(shù)據,但是僅給予逐漸減弱的影響程度,即隨著數(shù)據的遠離,賦予逐漸收斂為零的權數(shù)。

        3.4 聚集(Clustering)

        聚集是提取海量非結構化數(shù)據并自動將數(shù)據分區(qū)、從而使類似信息聚類的過程。每個聚集均表示知識庫內的一個概念區(qū)域,包含具有一組相同屬性的項目。聚集和分類的區(qū)別是聚集不依賴于預先定義好的類,不需要訓練集。聚類算法有很多,具體可分為劃分、層次、基于密度、基于網格以及基于模型等。

        劃分主要以k-means,k-medoids,CLARANS等為代表。

        3.5 描述和可視化(Des cription and Visualization)

        數(shù)據可視化無論對于普通用戶還是數(shù)據分析專家,都是最基本的功能。數(shù)據圖像化可以讓數(shù)據自己說話,讓用戶直觀感受到結果,目前最流行的是以下的三種可視化工具。

        FusionCharts是一個Flash的圖表組件,它可以用來制作數(shù)據動畫圖表,其中動畫效果使用Adobe Flash 8 ( 原 Macromedia Flash的 ) 制 作 的 flash ,F(xiàn)usionCharts可用于任何網頁的腳本語言類似于HTML 、.NET、ASP 、JSP、PHP、ColdFusion 等,提供互動性和強大的圖表。FusionCharts使用XML作為其數(shù)據接口,充分利用流體美麗的Flash創(chuàng)建緊湊、互動和視覺逮捕的圖表。

        (2)HighCharts

        Highcharts 是用純JavaScript編寫的一個圖表庫,能夠簡單便捷地在web網站或web應用程序添加有交互性的圖表,并且免費提供給個人學習、個人網站和非商業(yè)用途使用。HighCharts支持的圖表類型有曲線圖、區(qū)域圖、柱狀圖、餅狀圖、散狀點圖和綜合圖表。

        (3)Google Chart tools

        Google Chart tools是為瀏覽器與移動設備定制的交互式圖表開發(fā)。Google Charts tools提供了從簡單的折線圖到復雜的層次化的樹結構、地圖等圖表類型。Google Charts tools功能強大,用于Web上可視化數(shù)據。其容易使用,而且是免費的。

        4.媒體大數(shù)據應用

        4.1 新聞線索智能推送

        (1)線索獲取

        利用大數(shù)據爬蟲技術爬取互聯(lián)網線索,接入臺內原有的線索平臺(新聞熱線、新媒體爆料、電話爆料、全媒體記者爆料、地方通聯(lián)等)

        (2)線索整理

        3.1 職稱、學歷、醫(yī)院級別均影響指南認知與應用 本研究中,眼科醫(yī)師對臨床指南的重要性普遍持認可態(tài)度,但多對臨床指南,特別是對循證臨床指南的認知尚淺,指南的臨床應用亦存在障礙。同時,眼科醫(yī)師的教育背景、職稱等均影響指南認知與應用。在指南的制定中,高級專家團隊占主導地位,而指南的批判性評價和應用涉及各級眼科醫(yī)師。因此,向各級醫(yī)師培訓循證指南制定、評價等相關知識,以及更好地介紹、推廣和普及現(xiàn)有指南,具有重要意義。

        利用大數(shù)據分類技術對海量線索進行分類,然后對分類后的線索進行聚類熱度排序。

        (3)記者偏好分析

        利用原有的臺內新聞稿件資源,分析出各個記者選題的喜好,并以標簽的形式記錄。

        (4)系統(tǒng)推送

        整理后的線索按照分類匹配的方法推送給對應的記者,記者獲取線索后可以點擊感興趣或者不感興趣的按鈕反饋給系統(tǒng),讓系統(tǒng)重新學習記者喜好。

        4.2 突發(fā)新聞推送

        (1)構建突發(fā)詞庫

        定義突發(fā)關鍵詞(例如爆炸、搶劫、地震、傷亡等),建立突發(fā)詞庫。

        (2)可信度分析

        建立新聞可信度評級,主要包括:新聞網站可信度,爆料人可信度,事件可信度等。

        (3)三要素提取

        自動提取新聞的三要素:時間、地點、人物,方便記者聯(lián)系采訪。

        (4)系統(tǒng)推送

        突發(fā)新聞強調時效性,可通過短信或者信息彈窗的方式推送至新聞記者。

        4.3 新聞專題

        應用場景: 周年紀念日、重大會議、民生話題、體育賽事等新聞事件或話題的全方位報道和網絡專題發(fā)布。

        主要目的:為事件多維度地深度解讀提供豐富的內容資料庫,實現(xiàn)一站式瀏覽,節(jié)省信息收集和編輯整理時間。

        實現(xiàn)方式: 事先定義專題的數(shù)量和主題,進行互聯(lián)網信息定向采集和智能分類,輔助人工運營,提供多維度的整合數(shù)據包。

        呈現(xiàn)內容:熱點新聞、熱點圖片、最新新聞、相關視頻、相關圖片、事件脈絡、地圖分布等。

        4.4 輿情監(jiān)控

        整合互聯(lián)網信息采集技術及信息智能處理技術,通過對互聯(lián)網海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,實現(xiàn)用戶的網絡輿情監(jiān)測和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結果,為客戶全面掌握群眾思想動態(tài),做出正確輿論引導,提供分析依據。

        應用場景:對指定主題(事件、行業(yè)、企業(yè)、品牌、股票、城市、人物等)的全網信息監(jiān)測。

        主要目的:新聞事件、行業(yè)、企業(yè)等全網信息收集與統(tǒng)計分析,整合離散素材,節(jié)省人工收集時間;對品牌欄目、主持人聲譽管理。

        實現(xiàn)方式:基于關鍵詞對某類數(shù)據進行抓取和統(tǒng)計分析,推送至相關審核人員。

        4.5 媒體傳播分析

        應用場景:對新聞事件的互聯(lián)網信息分析。

        主要目的:把握事件網絡傳播全貌,利用機器智能挖掘信息,支持事件的深度解讀。

        實現(xiàn)方式:根據關鍵詞設定抓取相關的全網信息,通過中文智能分詞、自然語言處理等大數(shù)據技術,對抓取信息進行處理得到對應數(shù)據模塊。

        媒體傳播分析包括:事件走勢、報道量趨勢、熱門信息、熱點網民、關鍵詞、傳播路徑圖、核心傳播人等。

        5.媒體大數(shù)據面臨的問題

        5.1 缺乏數(shù)據

        現(xiàn)象:大數(shù)據分析=大數(shù)據+分析,首先要有數(shù)據才能分析。而現(xiàn)在電視媒體無法拿到真正有用的用戶數(shù)據和行為數(shù)據。而大數(shù)據爬蟲對于微博微信論壇的爬取效果不是很好,公眾號和大V號的數(shù)據量還達不到目前的要求

        解決方法:

        (1)充分使用內部現(xiàn)有的數(shù)據。江蘇廣電現(xiàn)在擁有的數(shù)據有:新聞系統(tǒng)里記者文稿的數(shù)據,OA人事數(shù)據,新聞APP網站用戶數(shù)據。根據臺內數(shù)據,可以先建立自己的用戶畫像庫,這是我們與其他BAT相比獨有的優(yōu)勢。

        (2)與其他大數(shù)據公司合作,有價值的合作對象有:百度、騰訊、阿里、微軟、谷歌。

        (3)重視數(shù)據的積累:與第三方合作項目時,要能獲取用戶的數(shù)據,比如合作節(jié)目的互動或者網絡直播,要能獲取受眾的各維度數(shù)據。

        5.2 缺乏懂業(yè)務的大數(shù)據人才

        現(xiàn)象:在這幾年與大數(shù)據公司交流時候,總會出現(xiàn)信息不對稱的情況,設計出的業(yè)務功能與實際使用時的場景不一致,往往會花費大量的時間來回修改。

        解決方法:技術人員參與節(jié)目部門的日常工作,充分了解業(yè)務的實際需求,這樣設計出來的功能才能真正滿足節(jié)目生產的需求。

        5.3 缺乏創(chuàng)新意識

        現(xiàn)象:從展會或者各臺交流過程中明顯感覺到,各個大數(shù)據平臺功能的同質化現(xiàn)象明顯,基本都是千篇一律的熱點新聞、智能推薦、突發(fā)新聞……很少能看到眼前一亮的功能。

        解決方法:

        (1)學習積累新的大數(shù)據技術,尤其是國內外新技術的應用。

        (2)從其他領域獲取靈感,例如:體育、娛樂、生活等。

        6.結語

        對于廣電媒體而言,大數(shù)據是盈利模式轉型的基礎。同時,大數(shù)據還能服務于各類決策,無論是電視節(jié)目內容的評估和優(yōu)化,還是整個廣電集團的戰(zhàn)略方向。大數(shù)據本身也能帶來商業(yè)利益的信息資本。廣電媒體受眾覆蓋廣,數(shù)據流量龐大,這些對許多商業(yè)公司而言都是十分希望得到的資源。目前媒體大數(shù)據分析仍然處于摸索實踐階段,如何把大數(shù)據分析轉換為實際的業(yè)務形態(tài)將是下一步努力的方向。

        猜你喜歡
        平均法圖表分類
        基于平均法的金屬橡膠隔振器非線性振動特性研究
        具有初邊值條件的集值脈沖微分方程的平均法
        分類算一算
        分類討論求坐標
        數(shù)據分析中的分類討論
        教你一招:數(shù)的分類
        平均法處理自由落體頻閃數(shù)據的研究
        物理教師(2017年5期)2017-06-09 11:21:18
        雙周圖表
        足球周刊(2016年14期)2016-11-02 10:54:56
        雙周圖表
        足球周刊(2016年15期)2016-11-02 10:54:16
        雙周圖表
        足球周刊(2016年10期)2016-10-08 18:30:55
        台湾佬中文网站| 黑丝美女喷水在线观看| av中文字幕性女高清在线| 日本精品一区二区三区二人码| 闺蜜张开腿让我爽了一夜| 视频一区二区在线播放| 久久久久无码精品国| 一本色道久久亚洲精品| 亚洲欧洲国产成人综合在线| 国产亚洲视频在线观看网址| 无码AV午夜福利一区| 国产激情一区二区三区成人| 亚洲欧美日韩另类精品一区| 亚洲精品国产v片在线观看| 国产亚洲女人久久久久久| 精品国产一区二区三区a| 欧美激情在线播放| 国产精品内射后入合集| 成在线人免费无码高潮喷水| av在线高清观看亚洲| 亚洲 卡通 欧美 制服 中文| a级毛片免费观看视频| av网站可以直接看的| 丝袜美腿在线观看一区| 欧美极品少妇无套实战| 国产无码十八禁| 亚洲国产一区二区av| 久久人妻无码一区二区| 人人妻人人澡人人爽人人精品电影| 日本第一区二区三区视频| 成人久久黑人中出内射青草| 玩50岁四川熟女大白屁股直播| 午夜三级网| 亚洲综合有码中文字幕| 中文字幕亚洲欧美在线不卡| 国产mv在线天堂mv免费观看| 国产颜射视频在线播放| 开心五月婷婷激情综合网| 国产精品免费观看久久| av中文字幕少妇人妻| 草逼视频污的网站免费|