亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代,深度報(bào)道須補(bǔ)上數(shù)據(jù)挖掘的“短板”

        2021-11-13 06:38:01黃曉勇
        中國(guó)記者 2021年9期
        關(guān)鍵詞:短板數(shù)據(jù)挖掘深度

        □ 黃曉勇

        (作者系新華社攝影部高級(jí)編輯,中國(guó)人民大學(xué)新聞學(xué)院研究生業(yè)界導(dǎo)師)

        今年6月8日,美國(guó)公益新聞組織ProPublica發(fā)布了使用數(shù)據(jù)挖掘手段生產(chǎn)的深度報(bào)道《超級(jí)富翁如何避稅》,其中稱:巴菲特、貝佐斯、馬斯克等億萬(wàn)富豪的納稅稅率“遠(yuǎn)低于普通中產(chǎn),有些竟然一分錢沒交”,一時(shí)引起輿論喧嘩。

        這則轟動(dòng)新聞是近年來(lái)ProPublica利用數(shù)據(jù)挖掘技術(shù)取得的又一成果。ProPublica在創(chuàng)建后不久,就成立了以記者、程序員和數(shù)據(jù)分析員為核心的數(shù)據(jù)團(tuán)隊(duì),拿手武器便是從數(shù)據(jù)中挖掘新聞。借助先進(jìn)的機(jī)器學(xué)習(xí)和挖掘技術(shù),ProPublica已經(jīng)發(fā)布了大量數(shù)據(jù)驅(qū)動(dòng)的深度報(bào)道,并多次斬獲普利策新聞獎(jiǎng),成為數(shù)據(jù)新聞界的楷模。除ProPublica之外,衛(wèi)報(bào)、紐約時(shí)報(bào)、路透社等西方主流媒體也著力于數(shù)據(jù)挖掘方向的深度報(bào)道,發(fā)表了一批知名作品。

        全球興起的數(shù)據(jù)新聞熱潮近年來(lái)逐漸影響我國(guó),頭部主流媒體和商業(yè)媒體幾乎都在此方向投入了大量資源,并獲得長(zhǎng)足進(jìn)步。我國(guó)數(shù)據(jù)新聞的發(fā)展成果主要集中于數(shù)據(jù)新聞的前臺(tái)——數(shù)據(jù)可視化,而數(shù)據(jù)新聞的后臺(tái)核心技術(shù),即對(duì)深度報(bào)道更為關(guān)鍵、技術(shù)含量更高的數(shù)據(jù)挖掘,在發(fā)展上卻明顯滯后,成為深度報(bào)道的明顯“短板”。

        一、數(shù)據(jù)挖掘:大數(shù)據(jù)時(shí)代深度報(bào)道的利器

        數(shù)據(jù)挖掘(Data Mining)是廣義數(shù)據(jù)分析的重要組成部分,顧名思義是深入研究和分析數(shù)據(jù),并在數(shù)據(jù)中發(fā)現(xiàn)隱含知識(shí)的過(guò)程。這個(gè)“數(shù)據(jù)”并不限于數(shù)字,它包括一切可感知、分析、計(jì)算的信息,包括數(shù)字、語(yǔ)篇、圖像、聲音、氣味、視頻等數(shù)據(jù)形式。

        在強(qiáng)大“三算”(算力、算據(jù)、算法)技術(shù)的支撐下,數(shù)據(jù)挖掘發(fā)展到可以從海量的、模糊的非結(jié)構(gòu)化數(shù)據(jù)中,通過(guò)人機(jī)協(xié)同的方式,嘗試發(fā)現(xiàn)潛在的必然聯(lián)系,簡(jiǎn)言之就是大數(shù)據(jù)→信息→知識(shí)的過(guò)程。當(dāng)前,“數(shù)據(jù)挖掘”一般都是“大數(shù)據(jù)挖掘”的代名詞。

        深度報(bào)道一般是指運(yùn)用解釋、分析、預(yù)測(cè)的方法,深入探索和闡明事件的內(nèi)在規(guī)律性,揭示事件實(shí)質(zhì)并探索其發(fā)展趨向,以反映重大新聞事件和社會(huì)問題。當(dāng)今世界,數(shù)字化、網(wǎng)絡(luò)化、信息化所形成的數(shù)字網(wǎng)絡(luò)成為社會(huì)的底層操作系統(tǒng),重大新聞事件的背后一般都離不開數(shù)據(jù)的分析和利用。

        數(shù)據(jù)挖掘是深度報(bào)道的重要線索來(lái)源。近10年來(lái),國(guó)內(nèi)外數(shù)據(jù)挖掘技術(shù)發(fā)展迅猛,在用戶數(shù)據(jù)利用、證券交易輔助決策、商品關(guān)聯(lián)銷售(如著名的“啤酒與尿布”分析)、預(yù)測(cè)犯罪與傳染病、安全生產(chǎn)、災(zāi)害預(yù)報(bào)、打擊走私、情緒分析、交通控制、生產(chǎn)控制等方面成果卓著,而這些領(lǐng)域恰恰又是深度報(bào)道的重要線索來(lái)源。

        在常規(guī)方法無(wú)法獲取線索的情況下,如果記者在辦公室中請(qǐng)算法工程師協(xié)助,應(yīng)用數(shù)據(jù)挖掘軟件,從紛繁蕪雜的數(shù)據(jù)中獲得“解題鑰匙”并完成深度報(bào)道。那么,這種生產(chǎn)方式將成為深度報(bào)道的最優(yōu)選擇之一。如2019年獲全球數(shù)據(jù)新聞獎(jiǎng)(Data Journalism Award,以下簡(jiǎn)稱DJA)數(shù)據(jù)新聞應(yīng)用獎(jiǎng)的《移民犯罪的神話》,四所大學(xué)的研究者搜集了美國(guó)200多個(gè)都市40年間的犯罪數(shù)據(jù)并輸入數(shù)據(jù)庫(kù),經(jīng)過(guò)數(shù)據(jù)挖掘得出高移民率與高犯罪率沒有正相關(guān)的結(jié)論,有力地駁斥了“移民帶來(lái)犯罪”的言論。在這個(gè)例子中,“犯罪數(shù)據(jù)”“沒有正相關(guān)”“移民犯罪率不高”分別對(duì)應(yīng)“數(shù)據(jù)”“信息”和“知識(shí)”。

        在我國(guó),從數(shù)據(jù)中發(fā)現(xiàn)線索也經(jīng)常成為深度報(bào)道的關(guān)鍵,如20世紀(jì)90年代開始,我國(guó)不時(shí)發(fā)生礦難人數(shù)瞞報(bào)、地方統(tǒng)計(jì)數(shù)據(jù)作假等事件,曾多次被記者用深挖數(shù)據(jù)的方式“揭開蓋子”。但嚴(yán)格意義上說(shuō),這些記者的工作方式主要是“小數(shù)據(jù)分析”,并非真正意義的“大數(shù)據(jù)挖掘”。

        數(shù)據(jù)挖掘?yàn)樯疃葓?bào)道提供新的數(shù)據(jù)分析框架。數(shù)學(xué)建模是數(shù)據(jù)挖掘的重要前驅(qū)流程,也是經(jīng)常被用到的分析工具。用數(shù)學(xué)建模的方式模擬新聞事件,已經(jīng)不是一件新鮮事。2020年2月初,天津大學(xué)、南開大學(xué)的幾名博士生用數(shù)學(xué)模型還原了天津?qū)氎姘儇洿髽堑囊咔閿U(kuò)散事件,其中對(duì)傳染關(guān)系圖譜、染病人數(shù)、防疫措施的分析令人信服。得益于大數(shù)據(jù)技術(shù)的飛速發(fā)展,深度報(bào)道背后新聞事件的主體、原因、結(jié)果及邏輯關(guān)系等元素,目前很多已可用數(shù)學(xué)模型搭建框架。也就是說(shuō),將實(shí)際發(fā)生的新聞事件“代入模型”,可以經(jīng)由數(shù)據(jù)挖掘給出事件發(fā)展的邏輯關(guān)系。當(dāng)然,在信息不全的情況下,由數(shù)據(jù)挖掘給出的結(jié)果可能會(huì)有太多的選擇。此時(shí),深度報(bào)道記者要做的是,通過(guò)采訪逐步豐富事件的關(guān)鍵信息,排除和事件無(wú)關(guān)的干擾項(xiàng)以縮小范圍,最終通過(guò)人機(jī)協(xié)同的方式選擇恰當(dāng)?shù)倪\(yùn)算結(jié)果。

        近年來(lái),數(shù)據(jù)挖掘工作者在各行業(yè)實(shí)踐中逐漸總結(jié)了一套較為成熟的工作模式,主要有聚類、分類、異常、關(guān)聯(lián)、預(yù)測(cè)、演變、特異群組等。具體到新聞?lì)I(lǐng)域,又以聚類、分類、異常、預(yù)測(cè)為主,使用的算法主要是決策樹法、遺傳算法、模糊集法及神經(jīng)網(wǎng)絡(luò)法等,主要目的是將異構(gòu)型數(shù)據(jù)結(jié)構(gòu)化,最終通過(guò)對(duì)數(shù)據(jù)的分析發(fā)現(xiàn)規(guī)律,回溯事件的邏輯關(guān)系,并預(yù)測(cè)事件發(fā)展的走向。

        以獲2019年D J A開放數(shù)據(jù)獎(jiǎng)的《OCCRP數(shù)據(jù)》(有組織犯罪和腐敗報(bào)告項(xiàng)目)為例,項(xiàng)目組將波黑某政府研究中心泄露的海量數(shù)據(jù)和一些公開文件以專業(yè)工具清洗、整合,利用數(shù)學(xué)模型挖掘出大量有價(jià)值的政商關(guān)系線索,最后以搜索平臺(tái)的形式向社會(huì)公布。還有,今年6月11日,紐約時(shí)報(bào)的報(bào)道《數(shù)據(jù)庫(kù):美國(guó)近三分之一的新冠病毒死亡病例出現(xiàn)在療養(yǎng)院》獲得普利策新聞獎(jiǎng)。該報(bào)數(shù)據(jù)團(tuán)隊(duì)從衛(wèi)生部門的數(shù)據(jù)庫(kù)中抓取大量療養(yǎng)院和新冠關(guān)系的數(shù)據(jù)集,并在本地建立自己的分析數(shù)據(jù)庫(kù),最終提煉出如題所示的驚人結(jié)論,引起社會(huì)各界對(duì)特朗普政府的口誅筆伐。

        大數(shù)據(jù)挖掘技術(shù)可為深度報(bào)道增加預(yù)測(cè)和數(shù)據(jù)驗(yàn)證功能。數(shù)據(jù)挖掘的另一重要優(yōu)勢(shì)就是提供事件發(fā)展的趨勢(shì)分析,可在經(jīng)濟(jì)走勢(shì)、犯罪傾向、傳染病甚至突發(fā)事件預(yù)測(cè)方面大有作為,這為深度報(bào)道又增加了額外的競(jìng)爭(zhēng)力。如通過(guò)大數(shù)據(jù)評(píng)估某行業(yè)安全生產(chǎn)水平,可為政府和企業(yè)提供有用的避險(xiǎn)報(bào)告;如通過(guò)監(jiān)測(cè)網(wǎng)民情緒傾向數(shù)據(jù),分析社會(huì)矛盾是否超過(guò)閾值,可為社會(huì)各界提供警示信息;如通過(guò)分析污染傳感器數(shù)據(jù),可為公眾健康提供更好的服務(wù);如通過(guò)對(duì)地區(qū)既往犯罪率、破案率、經(jīng)濟(jì)變遷等數(shù)據(jù)的分析,可估算該地未來(lái)一段時(shí)間的犯罪率,為政府部門提供決策參考。

        ProPublica和得克薩斯論壇報(bào)2016年聯(lián)合發(fā)表的互動(dòng)新聞《地獄與高水》,利用多種數(shù)據(jù)挖掘技術(shù),從風(fēng)險(xiǎn)控制的角度出發(fā),預(yù)測(cè)休斯頓地區(qū)面對(duì)沿海風(fēng)暴的脆弱性,并對(duì)政府的一些短視行為提出批評(píng)。

        數(shù)據(jù)挖掘還可為深度報(bào)道提供“定性假設(shè)”的“定量驗(yàn)證”,令結(jié)論更為人信服。如2019年獲DJA數(shù)據(jù)新聞創(chuàng)新獎(jiǎng)的德國(guó)《雷德梅瑟》是一件“假設(shè)驗(yàn)證”的探索作品,目的是找出人們不在城里騎自行車的原因。項(xiàng)目團(tuán)隊(duì)由數(shù)據(jù)專家、物理學(xué)家和調(diào)查記者組成,物理學(xué)家研發(fā)了100個(gè)汽車超車距離傳感器,由騎自行車的志愿者在兩個(gè)月的時(shí)間內(nèi)攜帶試用。經(jīng)過(guò)數(shù)據(jù)分析之后,最終得出結(jié)論——人們不騎自行車的原因在于“汽車距離騎行者過(guò)近,威脅騎行安全”。

        因此,從看似尋常的數(shù)據(jù)中挖掘出事件的內(nèi)在聯(lián)系,提升新聞價(jià)值,并以數(shù)據(jù)挖掘成果驗(yàn)證假設(shè)并預(yù)測(cè)未來(lái),是未來(lái)深度報(bào)道的重要發(fā)展方向。

        二、數(shù)據(jù)挖掘新聞的典型操作模式

        經(jīng)過(guò)廣泛的文獻(xiàn)研究和網(wǎng)絡(luò)、電話采訪,筆者嘗試總結(jié)了深度報(bào)道領(lǐng)域數(shù)據(jù)挖掘的一般流程(部分環(huán)節(jié)次序可以調(diào)整):

        確定目標(biāo)及定義問題:由團(tuán)隊(duì)領(lǐng)導(dǎo)者確定選題,并同軟件工程師制定數(shù)據(jù)挖掘的目標(biāo),評(píng)估獲取數(shù)據(jù)資源的難度,以及數(shù)據(jù)是否可以轉(zhuǎn)化為意義等。

        算法及模型擬定:軟件工程師、數(shù)據(jù)分析師根據(jù)數(shù)據(jù)來(lái)源、數(shù)據(jù)結(jié)構(gòu)以及是否提供API接口等情況,根據(jù)現(xiàn)有資源確定使用哪種算法搜集數(shù)據(jù);評(píng)估可能獲取的數(shù)據(jù)結(jié)構(gòu),決定搭建采取何種數(shù)學(xué)模型和采取何種算法實(shí)施挖掘。

        數(shù)據(jù)獲?。鹤孕兴鸭瘮?shù)據(jù)或從數(shù)據(jù)庫(kù)中、網(wǎng)頁(yè)上以確定的算法獲取數(shù)據(jù)。目前,網(wǎng)絡(luò)數(shù)據(jù)獲取的流行做法是通過(guò)Python語(yǔ)言抓取網(wǎng)頁(yè)數(shù)據(jù)或通過(guò)Open API獲取開放平臺(tái)數(shù)據(jù)。

        數(shù)據(jù)清洗及結(jié)構(gòu)化:評(píng)估獲取的數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗和結(jié)構(gòu)化(去掉干擾項(xiàng)或重復(fù)項(xiàng)等)等預(yù)處理,建立自己的數(shù)據(jù)挖掘?qū)ο髱?kù)。這方面的通用工具主要有R語(yǔ)言、MySQL、Python和Open Refine等。

        數(shù)據(jù)處理及假設(shè)驗(yàn)證:建立數(shù)據(jù)處理模型之后,需要認(rèn)真考察哪種模型最為適用,有時(shí)還需要準(zhǔn)備其他數(shù)據(jù)集提前驗(yàn)證模型的可靠性。隨后,程序員或數(shù)據(jù)分析師運(yùn)行數(shù)據(jù)處理算法,嘗試找出具備新聞意義的線索。這一步是數(shù)據(jù)挖掘的關(guān)鍵步驟,主要目的就是將數(shù)據(jù)代入設(shè)定的算法框架,以驗(yàn)證假設(shè)是否正確。目前,深度學(xué)習(xí)算法已經(jīng)成為數(shù)據(jù)挖掘的重點(diǎn)發(fā)展方向,因?yàn)樗梢栽诖罅繑?shù)據(jù)中優(yōu)化學(xué)習(xí),在理想情況下可以向使用者自動(dòng)呈現(xiàn)線索。這方面的數(shù)據(jù)工具和編程語(yǔ)言主要有MySQL、R語(yǔ)言、Python、C++、Pandas、SPSS等。

        意義轉(zhuǎn)化:數(shù)據(jù)分析員評(píng)估數(shù)據(jù)處理的結(jié)果,確定是否滿足預(yù)期,并將其轉(zhuǎn)化成具備新聞價(jià)值的意義。團(tuán)隊(duì)領(lǐng)導(dǎo)人審看數(shù)據(jù)挖掘的成果,并同其他團(tuán)隊(duì)成員回顧流程是否無(wú)懈可擊,最終確定數(shù)據(jù)挖掘是否成功。

        可視化:將數(shù)據(jù)挖掘成果可視化,使受眾易讀易懂。有時(shí)將復(fù)雜的數(shù)據(jù)可視化,還可揭示之前未發(fā)現(xiàn)的新聞價(jià)值。

        趨勢(shì)預(yù)測(cè):以數(shù)據(jù)挖掘結(jié)果為支撐,向人們提供基于概率表示的預(yù)測(cè)能力。

        對(duì)于以上流程,2018年獲DJA年度調(diào)查報(bào)道獎(jiǎng)的數(shù)據(jù)新聞作品《快錢》稱得上是個(gè)典型的例子。加拿大《環(huán)球郵報(bào)》的數(shù)據(jù)團(tuán)隊(duì)在確定證券犯罪的選題之后,擬定了數(shù)據(jù)抓取和數(shù)據(jù)挖掘的方式,將數(shù)千個(gè)獲取的數(shù)據(jù)文件經(jīng)過(guò)清洗和結(jié)構(gòu)化之后輸入自建的數(shù)據(jù)庫(kù),并用已搭建的數(shù)據(jù)模型和算法對(duì)證券犯罪的規(guī)模、懲罰和再犯率等數(shù)據(jù)展開數(shù)據(jù)挖掘,最終得出加拿大監(jiān)管部門對(duì)證券犯罪者處罰過(guò)輕的結(jié)論,驗(yàn)證了最初的假設(shè),并預(yù)示了證券犯罪的前景。在此作品中,犯罪分子的規(guī)避策略及受害者被不公平對(duì)待等情況也被一一揭示。

        上述這些流程看似復(fù)雜,但一旦進(jìn)入產(chǎn)業(yè)化操作模式,效率會(huì)明顯提高,挖掘成本也將大幅降低。

        三、提高認(rèn)識(shí),緊密結(jié)合產(chǎn)業(yè),補(bǔ)上我國(guó)新聞界數(shù)據(jù)挖掘的“短板”

        與新聞業(yè)界形成鮮明對(duì)照的是,我國(guó)新聞學(xué)界較為重視數(shù)據(jù)挖掘的應(yīng)用和研究,比之英美等國(guó)都不遑多讓。眾多教授團(tuán)隊(duì)充分借鑒數(shù)據(jù)挖掘在產(chǎn)業(yè)界的廣泛應(yīng)用,將其研究路徑和新技術(shù)運(yùn)用于新聞效果、媒體比較、社會(huì)關(guān)系、輿情分析等方面的研究,每年的研究成果可謂汗牛充棟。

        由是觀之,數(shù)據(jù)挖掘在深度報(bào)道方面應(yīng)用受限,并非業(yè)界很多人所說(shuō)的技術(shù)落后的原因。筆者曾就此問題,帶領(lǐng)研究生探訪多個(gè)主流媒體,發(fā)現(xiàn)認(rèn)識(shí)上的偏差和產(chǎn)業(yè)結(jié)合能力欠缺是主要原因。

        認(rèn)識(shí)上的偏差:首先,數(shù)據(jù)新聞可視化容易出成績(jī),將各大部委、新聞發(fā)布會(huì)及新華社發(fā)布的通稿等信息,以動(dòng)態(tài)及互動(dòng)的新媒體形式展示出來(lái),報(bào)道上較為安全,并較容易得到上級(jí)部門和受眾的認(rèn)可;數(shù)據(jù)挖掘則需要數(shù)據(jù)分析方向的專業(yè)知識(shí),不少媒體負(fù)責(zé)同志認(rèn)為很難駕馭,心存畏難情緒。其次,很多主流媒體負(fù)責(zé)人對(duì)于數(shù)據(jù)挖掘并不熟悉,認(rèn)識(shí)不到它在深度報(bào)道方面的巨大潛力。

        產(chǎn)業(yè)結(jié)合能力欠缺:如果將視野進(jìn)一步擴(kuò)大到產(chǎn)業(yè)界,我國(guó)數(shù)據(jù)挖掘的應(yīng)用卻是非常廣泛與高端,在用戶畫像、安全生產(chǎn)、情緒分析、交通疏堵、犯罪防范等領(lǐng)域的實(shí)踐水平均位居世界前列。這些領(lǐng)域都是深度報(bào)道的用武之地。

        我國(guó)新聞信息界的數(shù)據(jù)挖掘產(chǎn)業(yè)模式尚未形成,各大媒體亦未建立常設(shè)項(xiàng)目組機(jī)制,不能隨時(shí)通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)優(yōu)秀深度報(bào)道選題,當(dāng)然談不上為社會(huì)提供信息附加值并產(chǎn)生正向循環(huán)了。

        猜你喜歡
        短板數(shù)據(jù)挖掘深度
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        深度理解一元一次方程
        執(zhí)行“強(qiáng)制休假”還需“補(bǔ)齊三個(gè)短板”
        立新標(biāo) 補(bǔ)齊勞動(dòng)防護(hù)短板
        深度觀察
        深度觀察
        DCT的優(yōu)勢(shì)與短板并存
        汽車觀察(2018年12期)2018-12-26 01:05:40
        深度觀察
        補(bǔ)齊短板 建好“四好農(nóng)村路”
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        偷拍av一区二区三区| 国产性生交xxxxx无码| 亚洲国产精品久久久久婷婷老年| 国产精品久免费的黄网站 | 欧美一区二区三区久久综| 国产乱子伦视频大全| 国产精品久久久一本精品| 在线视频日韩精品三区| 国产精品亚洲精品一区二区| 国产精品福利高清在线| 免费av一区二区三区无码| 性色av免费网站| 台湾佬娱乐中文22vvvv| 97久久久久国产精品嫩草影院| 亚洲成a人片在线观看中文!!! | 亚洲色大成网站www永久一区 | 天天躁日日躁aaaaxxxx| 天堂…在线最新版资源| 天堂√中文在线bt| 欧美日韩一区二区三区视频在线观看 | 美女自卫慰黄网站| 无码啪啪人妻| 亚洲精品一区二区三区在线观| 国产情侣一区二区三区| 无码av天堂一区二区三区| 国产成人免费a在线视频| 日本精品一区二区三本中文| 亚洲国内精品一区二区在线| 日本免费大片一区二区三区| 久久成人成狠狠爱综合网| 亚洲精品美女久久久久99| 久久国产免费观看精品| 极品粉嫩小仙女高潮喷水视频| 手机在线免费av网址| 邻居美少妇张开腿让我爽了一夜| 精品成在人线av无码免费看| 和外国人做人爱视频| 丁香婷婷色| 国产麻豆国精精品久久毛片| 日本a级免费大片网站 | 色老板在线免费观看视频日麻批|