□ 文/肖書瑤 趙鹿鳴
內(nèi)容提要 本文結(jié)合對2018年美國計算機輔助新聞報道年會的觀察,介紹了美國以及各國媒體在數(shù)據(jù)新聞等領(lǐng)域的最新技術(shù)與前沿思考供借鑒、探討。
美國計算機輔助新聞報道協(xié)會(The National Institute for Computer-Assisted Reporting,以下簡稱NICAR)創(chuàng)立至今已有二十余年歷史。每年舉行的NICAR大會既是全球調(diào)查記者、數(shù)據(jù)新聞記者的交流盛會,也是觀測美國媒體如何進行融合轉(zhuǎn)型的風向標。
2018年3月11日,新一屆的NICAR大會在美國佛羅里達州落下帷幕。224個分會議和334位演講者為上千名參會者帶來了美國以及各國媒體在數(shù)據(jù)新聞等領(lǐng)域的最新技術(shù)與前沿思考。他們當下的理念、方法及挑戰(zhàn),可以給中國的數(shù)據(jù)新聞業(yè)提供經(jīng)驗參考。
20世紀80年代中期,計算機輔助報道在美國興起,一些記者嘗試用電腦進行數(shù)據(jù)分析,借此完成新聞報道。1989年,美國《普羅維登斯報》記者埃利奧特·賈斯平(Elliot Jaspin)在密蘇里新聞學院創(chuàng)辦了計算機輔助報道協(xié)會。1994年,NICAR成為IRE(Investigative Reporters and Editors,調(diào)查記者與編輯協(xié)會)附屬項目,并開始舉行一年一度的交流大會。目前,“計算機輔助報道”這個術(shù)語在美國被更多地描述為“數(shù)據(jù)新聞”,因此,每年的NICAR大會便成為了全球數(shù)據(jù)新聞行業(yè)難得的溝通機會。
NICAR大會的參與者既有來自世界各媒體的記者、編輯、設(shè)計師,也有來自美國各高校的老師與學生。許多參會者并沒有數(shù)據(jù)新聞從業(yè)的經(jīng)驗,甚至并沒有系統(tǒng)學習過。因此,大會不僅為經(jīng)驗豐富的從業(yè)者設(shè)立最前沿的研討會、小組討論,還為“半路出家”的初學者開設(shè)了視頻演示課以及實踐性極強的教學課程。從Excel基本知識和進階技巧、谷歌表格的使用到R,Python和SQL語言的學習,再到可視化設(shè)計和地圖繪制,基本涵蓋了數(shù)據(jù)新聞生產(chǎn)的全流程和常用的工具軟件。224個分會議的內(nèi)容涉及到數(shù)據(jù)挖掘、數(shù)據(jù)分析、信息設(shè)計、動畫視頻、軟件展示、機器學習、案例分享、新聞思維以及新聞教育等方面。
數(shù)據(jù)新聞已經(jīng)成為近年來中國學界和業(yè)界熱議的話題。數(shù)據(jù)化才是數(shù)據(jù)新聞最主要的特征,而大數(shù)據(jù)、人工智能并不是此前生產(chǎn)一份數(shù)據(jù)新聞的必要條件。理解這一事實是我們考察其發(fā)展動向的前提。
但值得一提的是,近年來,越來越多的美國媒體開始將機器學習、自然語言處理等技術(shù)作為輔助報道的手段,例如事實核查或幫助記者進行重復枯燥的工作,甚至是識別天空上方隱藏的偵察機。這使得數(shù)據(jù)新聞在數(shù)據(jù)化的基礎(chǔ)上,開始真正呈現(xiàn)智能化的趨向。NICAR大會上談到在媒體領(lǐng)域的機器學習應用,至少從四年前就開始了。
在今年大會的“機器學習輔助報道的入門指南”(Getting started with machine learning for reporting)研討會上,來自Buzzfeed、《紐約時報》(New York Times)、《明尼阿波里斯星壇報》(Minneapolis Star Tribune)和《洛杉磯時報》(Los Angeles Times)的記者介紹了三個機器學習在新聞上的應用案例,討論了“對記者來說機器學習到底意味著什么?”“什么時候需要使用機器學習”以及“如何為你選擇的算法來優(yōu)化數(shù)據(jù)結(jié)構(gòu)”。
▲ BuzzFeed News與Flightradar 24通過機器學習追蹤偵察機飛行軌跡。
▲ 《芝加哥論壇報》嘗試從數(shù)據(jù)中找到新聞故事中的報道對象。
《洛杉磯時報》此前的一篇調(diào)查報道揭露了洛杉磯警察部門因為錯誤地將14000條嚴重襲擊歸為輕型犯罪,使洛杉磯地區(qū)暴力犯罪率統(tǒng)計顯示下降。記者利用此前時報的關(guān)于犯罪的報道作為樣本訓練機器學習關(guān)鍵詞來分辨什么是“嚴重犯罪”和“輕型犯罪”,然后應用分析于當?shù)鼐觳块T自2005到2012年以來的犯罪數(shù)據(jù)記錄。報道促使當?shù)鼐讲扇“ǜ倪M內(nèi)部問責和培訓警察正確分類犯罪行為在內(nèi)的一系列改變措施。
此外,美國新聞聚合機構(gòu)BuzzFeed News也在大會上深度解析了他們運用機器學習技術(shù)完成的作品《天空中的密探》。這篇報道與航班追蹤網(wǎng)站Flightradar 24合作,獲取了兩百架聯(lián)邦政府偵察機的定位數(shù)據(jù),然后用地圖的形式展示出它們累積的飛行路線及隨時間變化的航班動態(tài),從而完成對政府空中巡查規(guī)模和范圍的調(diào)查呈現(xiàn)。
其中,最引入矚目的流程是他們的數(shù)據(jù)收集——團隊首先將偵察機的規(guī)范圖像錄入一臺電腦,然后訓練電腦以此作為依據(jù),對美國上空所有的政府偵察機進行識別,再對它們的飛行路線進行追蹤,最后完成可視化。如果說現(xiàn)場圖片的人臉識別僅僅是提高了記者的采寫效率,那么對于這篇作品而言,沒有機器的幫助,報道幾乎無法完成。
總體來看,美國的數(shù)據(jù)新聞業(yè)正朝著智能化的方向?qū)徤髑靶?。機器學習聽起來非常艱深,但在媒體使用最多的技術(shù)場景,還是對資料進行分類和打上標簽。比如,有大量政府文件需要知道分別是什么類型的,那么記者可以設(shè)計一個算法訓練機器去學習以往的數(shù)據(jù)來獲得分類特征,一定量的學習后,機器便能夠?qū)⑿碌恼募鶕?jù)特征而自動分類,代替人工閱讀海量的文本文件,省去了很多重復性勞動。
《明尼阿波里斯星壇報》的記者蔡司·戴維斯(Chase Davis)也在“何種情況下需要使用機器學習”給出了他的建議:是否重復而枯燥;可以讓實習生來做嗎;但如果這樣會感覺到強烈的愧疚嗎?同時,Buzzfeed的記者彼得·奧爾胡斯(Peter Aldhous)則提醒同行永遠要記得去檢查機器學習的結(jié)論,“不然你就讓算法做了你應做的工作?!?/p>
需要注意的是,智能化的數(shù)據(jù)新聞生產(chǎn)固然有利于將新聞作品的時效、深度、廣度提升到新高度。但美國的新聞從業(yè)者也在反思,在視人工智能為一種新方法時,要持有謹慎且懷疑的態(tài)度,因為所有的算法都是由人類編寫,不可避免地包含了人們的固有偏見和主觀判斷。NICAR大會有一個分會議的主題就是“算法問責制”(Algorithmic Accountability)。
酷炫的可視化效果是數(shù)據(jù)新聞吸引眼球的最終視覺呈現(xiàn),但一篇數(shù)據(jù)新聞背后還隱藏著大量的數(shù)據(jù)挖掘和清洗工作。甚至在某些看起來并不那么“數(shù)據(jù)化”的新聞背后,往往是數(shù)據(jù)驅(qū)動的結(jié)果,是數(shù)據(jù)引領(lǐng)記者找到背后的故事和真相。
在“數(shù)字背后:如何在數(shù)據(jù)中找到你的報道對象”分會議中,《芝加哥論壇報》(Chicago Tribune)的記者Micheal J. Berens介紹了如何在數(shù)據(jù)中找到適合報道的對象并且豐富他們在故事中的形象,尤其是在數(shù)據(jù)驅(qū)動型報道中找到典型,把他們從幕后帶向臺前?!吨ゼ痈缯搲瘓蟆吩诋?shù)蒯t(yī)療數(shù)據(jù)庫中對相關(guān)醫(yī)療事件進行分級,從中找到了三個典型人物,然后對他們進行了跟蹤采訪,由此通過一系列融合數(shù)據(jù)、圖片、視頻的多媒體報道揭露了伊利諾伊州的醫(yī)療輔助機構(gòu)對殘疾人的虐待問 題。
顯然,這并不是我們所說的一個智能化的數(shù)據(jù)新聞,但這顯示了一種典型的數(shù)據(jù)驅(qū)動型新聞工作流程:跟蹤極端值、量化和分離數(shù)據(jù)、給數(shù)據(jù)評級、做實地調(diào)查、得出結(jié)論。他們努力從數(shù)據(jù)中找到新聞報道的對象(Turn Data Into Characters In Your Story)的方法依然收獲了美國同仁的贊譽。因為在保持技術(shù)更新之外,依然不要忘記對數(shù)據(jù)背后反映的真相進行實地調(diào)研和采訪,這才是一個完整的數(shù)據(jù)新聞作品不可或缺的重要流程,也是目前美國媒體進行數(shù)據(jù)新聞生產(chǎn)的共有理念。
《芝加哥論壇報》的邁克爾·J·貝倫斯(Micheal J. Berens)談到了許多數(shù)據(jù)分析與調(diào)查采訪結(jié)合的實用技巧,例如:創(chuàng)建你自己的數(shù)據(jù)庫;報道對象并不一定是“人”;不要使用不能反映普遍現(xiàn)象的異常數(shù)據(jù);一個代表性的對象和好過幾個弱的;與愿意和你交談的人談話;追蹤和觀察報道對象的生活而不僅僅是聽他怎么說。
當前,全世界的傳統(tǒng)媒體都在困窘中前行,數(shù)據(jù)新聞能否成為媒體融合轉(zhuǎn)型的長期路徑,學界依然在討論中。但無論如何,越來越多的美國新聞院校開始意識到數(shù)據(jù)的重要性,因為信息公開法案、政府公開數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)的出現(xiàn),使其成為了一個不可或缺的內(nèi)容來源。由此,新聞院校與媒體在近年來達成的又一個共有理念是:掌握計算機編程、數(shù)據(jù)挖掘、可視化等技術(shù),或?qū)⑹俏磥砣瞬排囵B(yǎng)的基本要求。
可是,當智能化的新技術(shù)成為目前媒體的轉(zhuǎn)型邏輯,新的挑戰(zhàn)接踵而至——當技術(shù)趨于成熟,它是否會反噬新聞業(yè),對編輯、記者的職業(yè)本身造成新的沖擊?這一話題也在2018年的NICAR大會上多次提及,具體來看,它不僅是促成了數(shù)據(jù)新聞的進一步變革,而是會對整個新聞業(yè)施以影響。
首先,如果讀者已習慣在社交網(wǎng)絡(luò)和信息聚合類應用上閱讀新聞,那么這些平臺上的算法如何推送新聞將影響各媒體的流量多寡,這對大量依靠互聯(lián)網(wǎng)流量的機構(gòu)來說無疑是個巨大的考驗。如2016年,皮尤研究中心的結(jié)果顯示,美國有44%的新聞閱讀流量來自社交平臺臉書(Facebook),但同年這一平臺卻調(diào)整了他們的內(nèi)部算法,不再以推送新聞優(yōu)先,而是以用戶親朋分享的實時動態(tài)為推送優(yōu)先。這使得諸多機構(gòu)如 Five Thirty Eight、Buzzfeed News在短時間內(nèi)減少了大量流量,進而失去了一部分廣告收入,他們不得不裁掉部分辦公室、精簡團隊來節(jié)省支出,本需要大量復合技能人才的數(shù)據(jù)新聞業(yè)只能向美國東西兩岸的大型媒體靠攏。這一過程一方面讓相關(guān)人才向計算機行業(yè)外流,另一方面也迫使媒體在數(shù)據(jù)新聞的生產(chǎn)上削減開支或調(diào)整周期。近來年,作為一種應對,美國媒體開始在用戶體驗和效果監(jiān)測上狠下功夫——比如積極與技術(shù)公司合作,開發(fā)分析平臺來監(jiān)測讀者的覆蓋率、觀看率、觀看時間;同時調(diào)查讀者的瀏覽習慣,相應地調(diào)整新聞推送的平臺、頻率等等。這些舉措,都讓媒體更好地理解讀者,從而對內(nèi)容生產(chǎn)做出更明智的決定。
其次,新興技術(shù)的加入也使新聞業(yè)的用工需求出現(xiàn)變化。比如,在2016年的美國總統(tǒng)大選期間,美國的數(shù)據(jù)新聞業(yè)就迎來了井噴,幾乎所有媒體都愿意招聘擁有編程、數(shù)據(jù)分析、可視化等技術(shù)的人才,以便在新聞作品中提供更全面的內(nèi)容、更吸引人的交互效果。但是當大選結(jié)束后,這類需求卻急遽下降,因為常規(guī)時期的媒體并不需要這么多的數(shù)據(jù)新聞記者。此外,算法加持下的自動化新聞(Automated Journalism)的出現(xiàn)也迫使媒體對記者、編輯們的分工進行調(diào)整。因為自動化新聞在代替記者撰寫一些相對“機械”的內(nèi)容的同時,也讓媒體意識到,這種“人機聯(lián)動”的生產(chǎn)模式一旦成熟,那么記者也許可以獲得更充裕的時間去完成一些更深度的報道,整個新聞業(yè)的工作分配就會繼續(xù)調(diào)整。如何吸引更多的計算機科學、數(shù)據(jù)科學人才的加入?如何訓練傳統(tǒng)記者與智能技術(shù)的相處?如何調(diào)整人與算法的工作分配?將是未來所有新聞行業(yè)都會面臨的挑戰(zhàn)和機遇所在。