◎韓明芳
數據新聞,簡單定義即數據驅動新聞,一般定義為運用可視化技術和互動手段呈現(xiàn)社會問題的一種新型新聞樣式。數據新聞?chuàng)碛兄鴿u進的發(fā)展歷程,每個發(fā)展階段都為塑造數據新聞打下了基礎。
國內正式接受“數據新聞”的概念是在2013年,但在此之前國內的一批門戶網站也做了較早的嘗試。自2001年起,騰訊、網易等網站便陸續(xù)推出了數據新聞欄目,它們所制作的就是為我們所熟知的《數讀》《圖解天下》等欄目。此后,諸如《南方都市報》《新京報》《華西都市報》等紙媒也分別推出了《數據》《華西數據》《圖個明白》《有理說》等專欄。①
在業(yè)界,新聞真實的一般定義是指新聞報道忠于客觀事實的性質和程度。在此基礎上,新聞真實性就表示新近發(fā)生的報道要符合客觀事實。它是新聞存在的根本條件,是新聞的特性之一。無產階級新聞理論基本原則之一就是真實性,它是新聞工作者在新聞實踐中必須遵循的一項基本原則。而堅持新聞真實性原則,就要做到具體真實和總體真實相統(tǒng)一。
怎樣達到新聞真實?滿足新聞真實的條件有哪些?針對此類問題,要根據新聞真實的雙重內涵作出解答。新聞的真實包含雙重含義:新聞的“具體真實”和“總體真實”。新聞的具體真實是相對靜止意義上的真實,要求新聞報道要素以及新聞中的數量與數字,甚至引用材料等方面真實;新聞的總體真實是動態(tài)意義上的真實,要求在事物的發(fā)展運動中把握事物,全面地反映事實。②一篇具有生命的新聞作品,需要具體真實和總體真實,而滿足了新聞的具體真實和總體真實,也就達到了新聞真實的條件。
在新聞真實性視域下研究數據新聞,要考察數據新聞生產與傳播的各個環(huán)節(jié)是否具備滿足新聞真實的條件,也就是要考察其具體真實是否達到,數據新聞如何生產。德國記者勞倫斯的研究和《數據新聞手冊》可以較為完整地回答這些問題。首先,勞倫斯指出,數據新聞的生產經歷了數據過濾與視覺化的過程,而數據新聞就是經歷這些過程之后呈現(xiàn)的一種故事。其次,數據新聞的生產需要通過數據新聞編輯進行任務分工,有針對性地進行數據挖掘與分析,而在分析過程完成后,就要運用常見的折線圖、時間軸等形式進行可視化的呈現(xiàn)。結合以上概念,數據新聞的真實可以要求數據來源、數據分析、數據呈現(xiàn)三個方面的具體真實。
我國的一批門戶網站較早對數據新聞進行嘗試。在這些媒體的數據新聞實踐中,網易推出的《數讀》欄目引人注目?!稊底x》在2012年誕生,在官方網頁查閱可以發(fā)現(xiàn),其新聞選題涉及政治、經濟、文化、民生、社會等方面,其中民生和社會議題比重大,國際議題比重小。網易數據新聞的發(fā)布固定在周一、周三、周五,而誕生伊始,網易《數讀》欄目的數據新聞發(fā)布并沒有固定的時間,發(fā)布數量在一周5篇以內。
前文提到,網易的《數讀》欄目是中國最早一批門戶網站所探索的數據新聞欄目之一。它依托網易門戶網站而生,具有典型代表性,至今在數據新聞方面也有著一定的影響力。通過相關評論與轉發(fā)量也可以得知它的較高用戶活躍度與用戶參與度。因此,本文將網易《數讀》作為研究對象并進行樣本選擇,以盡量保證樣本代表性與數量限度。
近年來,網易《數讀》欄目不斷整改與發(fā)展。數據新聞的數據挖掘、內容分析與呈現(xiàn)方式都在一定程度上有所飛躍,因而在此基礎上再研究網易《數讀》早年的數據新聞將失去了樣本的代表性與時效性?;谘芯繂栴},為了使研究效果更能指導當下實踐,本文將樣本的發(fā)布時間界限定在2020年1月1日至2022年1月1日。在這一時間段的有效樣本有170篇,研究從上述三個環(huán)節(jié)切入,對其進行內容分析和文本分析。
1.數據來源不明。在數據新聞中,數據來源至關重要,它事關新聞信源是否客觀與新聞事實是否真實。在“數據來源清晰度”的變量中,涉及數據來源的描述這一從屬指標。文章將數據來源的描述分為三個方面,其一是沒有提供數據來源,其二是給出了數據來源的大致范圍但讀者無法精準獲取,其三是可以通過詳細描述找到具體來源。③從“數據來源分析百分比”來看,研究涉及170個樣本,其中,沒有提供數據來源的有57個樣本(33.5%),84個樣本中只給出了數據來源范圍但讀者無法獲取,占比為49.4%。只有剩余29個樣本數據可以通過其描述找到具體的來源,占比為17.1%。從以上數據可以得出,有82.9%的樣本數據來源模糊不明。由此可見,網易《數讀》欄目的數據來源描述的清晰度并不高。例如,在《若想維權快,坐上引擎蓋》一文中數據來源提示為“公開資料整理”,在《網絡貸款一時爽,最后還錢火葬場》一文中的數據圖表甚至沒有顯示數據來源,數據來源不明晰,數據來源描述模糊。這種沒有得到確定的數據來源,不僅讓人懷疑數據統(tǒng)計的真實性與可靠性,同時沒有做到真實記錄的數據,在新聞中就不能做到具體事實的準確無誤,由此也將會引起總體新聞的失實。因此,在數據來源的清晰度方面存在著威脅新聞真實性的隱患。
2.數據來源較為單一。若信源片面,數據呈現(xiàn)的將是局部的客觀,整體很難達到客觀與真實。針對研究問題,數據來源的數量可以分為沒有信息來源(0)、單個信息來源(1)、多個信息來源(≥2)三種類型,研究確定“數據來源的多樣性”變量,并將“數據來源的數量”作為研究的從屬指標。在研究涉及的170個樣本中,除去沒有提供數據來源的57個樣本,64個樣本中提到了1個數據來源(37.6%),49個樣本中提到多個數據來源,占比為28.9%。由此可見,網易《數讀》欄目數據存在較多單一數據來源的問題。在此基礎上進一步分析,在37.6%的單一數據來源樣本中,有31.2%的單一數據來源為單一政府機構數據(包括國內與國外機構)。上述數據統(tǒng)計分析表明,網易《數讀》欄目在進行數據選取時,忽略了數據資料的多樣性與廣泛性。單一的數據資料有時并不能用來解釋一種社會現(xiàn)象或社會問題。網易《數讀》欄目于2022年9月25日發(fā)表的題為《年收四千億通行費仍虧損,收費公路越虧越建》的數據新聞,用來調查分析投資與收益比,全篇只一處顯示新聞來源——《歷年全國收費公路統(tǒng)計公報》。這意味著僅依靠政府公報收集收入數據,但沒有多方信息來源顯示支出數據,在進行數據選取時忽略了數據資料的多樣性與廣泛性。單一的數據資料有時并不能用來解釋一種社會現(xiàn)象或社會問題,如果沒有多個信息渠道的資料抓取與對比分析,就無法合理回答目標問題,其結果只能是粗略且片面的。
3.數據來源權威性不足。在已獲得的170篇樣本中發(fā)現(xiàn),網易“數讀”新聞中的數據分析依賴于社交媒體,甚至有很大一部分直接引用社交媒體的分析數據。諸如對豆瓣、知乎、大眾點評甚至微博的數據爬取,對豆瓣的評分、知乎的回答與微博的轉發(fā)評論等進行分析,并在此基礎上探討人們對某一事物的看法或行為。然而,社交媒體的數據并不具有權威性?;ヂ?lián)網時代,仍然存在不會使用互聯(lián)網的人群,同時也有一些互聯(lián)網用戶不愿意在互聯(lián)網上表明意見與態(tài)度。此外,由于社會身份、社會地位的影響,公開表達意見的用戶也代表著不同的利益與要求,并不總是客觀與準確的。大數據的特性決定了數據新聞的客觀事實的呈現(xiàn)與表述可以更加清晰與直觀,但這種特性同時也會使相關從業(yè)者對新聞的挖掘與分析僅僅滿足于淺層次,忽略了深度加工的重要性。譬如,在《中國最愛喝奶茶的城市找到了》一文中,直接利用大眾點評平臺數據進行整合分析,對評分比較穩(wěn)定的品牌、對連鎖奶茶店要求最高的城市進行排列描述。那么,大眾點評上的用戶能否代表大多數用戶體驗?答案顯然是不能的,因為愛喝奶茶的人不一定使用大眾點評,僅分析大眾點評也不具代表性。
當數據缺乏權威性時,就可能會使數據新聞反映出不準確的事物現(xiàn)象及背后原因。同時,這種錯誤傾向會拉遠與社會效果的距離,影響公眾對于新聞事實的理解。因此,在此基礎上的新聞事實的真實就無法保證。
1.數據分析機構專業(yè)性存疑。數據新聞的分析需要有專業(yè)的機構與組織。但是從網易《數讀》的170篇樣本中發(fā)現(xiàn),編輯記者組成并不固定。一篇數據新聞的編輯組成可以是單個人,也可以是多個人,且新聞編輯人員沒有固定生產制作的任務,人員配備具有隨機性。這一點似乎已經成為我國新聞網站制作新聞的傳統(tǒng)。資料顯示,目前我國新聞網站的新聞大多是由機動性強的群體制作生產,這些采集與編輯人員臨時組隊,不具有固定性。④由此可見,網易《數讀》的新聞制作沿用傳統(tǒng)新聞制作方案的傳統(tǒng),沒有重視編輯團隊建設與團隊成員任務分工。這種新聞制作理念可能會導致數據新聞生產制作的低效率與低質量。一旦數據分析人員的專業(yè)程度不達標,數據新聞的質量得不到保障,就可能會使數據新聞所反映的事件、現(xiàn)象、情形等內容偏離客觀實際,對社會現(xiàn)實的反映不再清晰與準確,那么數據新聞的真實便難以保證。
2.數據分析時效性的缺位。在網易《數讀》欄目中,存在著用老數據分析新內容的問題,與其說是數據來源不夠嚴格謹慎,不如說是在思維先行的錯誤分析意識指導下出現(xiàn)的行為偏差。表現(xiàn)在數據分析上,即忽略數據分析的時效性,缺乏對社會現(xiàn)象的及時指導、關注與解釋。在170篇樣本中,《雙十一不靠譜快遞排雷指南》在2020年11月10日發(fā)表,不可否認在新聞上是具有時效性的。然而,其依據“2010—2017年國家統(tǒng)計局數據”展開分析卻不具有說服力。過去的數據是否能反映當前現(xiàn)象?這樣的數據分析是否能夠使人信服它的真實性?此外,在《中國人的一天,是怎么過的》一文中,大部分數據分析是基于《2018年全國時間利用調查公報》。2018年度數據的顯示結果是否能代表2022年的中國人民的時間分配?在此期間的民眾行為是否有所轉變?數據分析時效性的缺位,會降低數據分析的準確性,進而影響數據新聞的真實與客觀。
1.可視化的濫用。數據新聞的最大優(yōu)勢和特點就是其擁有可視化的呈現(xiàn)方式,然而可視化對于新聞的真實性也存在一定的影響。提起數據新聞,人們總會想到可視化的表達方式,諸如折線圖、時間線等,這似乎成為數據新聞的“招牌”。為了打響“招牌”,數據新聞的制作便陷入尋求更多可視化存在而濫用可視化的漩渦,甚至沒有平衡好可視化方式與新聞真相的關系而“標新立異”。這就會使用戶打開圖片后發(fā)現(xiàn)圖中信息價值不高、圖片與內容并不相符。⑤在對網易《數讀》欄目進行內容分析時發(fā)現(xiàn),在170個樣本中,有2個樣本利用了動態(tài)交互的多樣的數據呈現(xiàn)方式,有109個樣本可視化的呈現(xiàn)方式以靜態(tài)圖片、柱狀圖、餅狀圖為主,而剩下的59個樣本以漫畫、插圖等靜態(tài)圖畫形式呈現(xiàn)。這些以漫畫、插圖等可視化形式呈現(xiàn)的數據新聞雖博人眼球,但卻失去了多角度多層面對事實進行透析的優(yōu)勢,會給廣大受眾帶來信息不實的感受。同時,也會逐漸失信于受眾。
2.交互性程度低。在網易《數讀》的170個樣本中,僅有2個樣本利用了動態(tài)交互的多樣的數據呈現(xiàn)方式,大多只是靜態(tài)的時間軸、折線圖、餅狀圖等,與國外媒體相比,創(chuàng)新性與交互性不夠,只停留在知識的科普與描述上,缺乏對數據的整合和情景化設置。交互性數據新聞作品需要引發(fā)讀者“指尖的滑動”與“情感的碰撞”,而網易《數讀》欄目對交互性較低的掌握程度,使得在這些極少數的交互性新聞中也只是動態(tài)畫面與一些超鏈接結合的簡單設置。實際上這種交互頁面的設置所產生的意義微乎其微,讀者所能感受的交互體驗是不盡完善的。由此,受眾難以從數據中讀取新聞背后的含義,這說明數據呈現(xiàn)還不足以使受眾切實貼近事實、感受事實。數據呈現(xiàn)方式提高交互性,不僅是為了豐富數據新聞的形式,更是為了使其更加清晰、直觀地反映客觀事實,在與受眾的互動中,增強受眾對新聞信息的理解與接受。反之,忽略了數據新聞的交互性可能會影響數據對新聞事實的全面表述與說明,進而影響新聞的真實性。
網易《數讀》欄目存在著數據來源單一的現(xiàn)象,且大部分單一數據是國內外政府機構的官方數據。這一現(xiàn)象給予我們這樣一種啟發(fā):在數據新聞來源的環(huán)節(jié),只有當企業(yè)、社會機構公開更多可公布數據,才能使傳播媒介收集到廣泛且豐富的信息,也就能夠清晰而全面地闡釋社會問題與社會現(xiàn)象,最終收獲更大的社會反響。同時,我國的數據新聞探索與實踐要在國外經驗積累的影響下進一步發(fā)展。政府機構要強調數據的公開透明,引導政府、企業(yè)、社會機構提高數據的開放性與共享性,也要做好數據的管理與共享,加大數據監(jiān)管與審查力度。企業(yè)、社會機構要增強對社會共享數據的意識,只有這樣,才能實現(xiàn)企業(yè)機構間的互利共贏。
從網易《數讀》欄目的數據分析產生的過度依賴社交媒體、數據分析時效性的缺位等問題中可以得到啟示:新聞工作者要嚴控新聞核實過程,同時媒體也要加強行業(yè)自律。首先,大數據時代下的數據信息良莠不齊,數據來源復雜、多樣,在大量數據面前,如何選擇與使用是一個難題。記者要選擇時效性強、代表性強的數據,以提高數據分析的精準性。更重要的是,為了避免后續(xù)分析出現(xiàn)差錯,在第一時間獲取數據時,記者就要對數據進行核實,對數據線索進行不斷的驗證??刹扇婧藢?,也可采取實地調查。要了解數據構成因素與相關因素,了解數據產生背景,更要清楚掌握數據挖掘時間。此外,在編輯時也要對數據來源進行清晰準確的描述。其次,媒體要加強行業(yè)自律,為規(guī)避數據可能引發(fā)的種種風險,可建立智能檢測系統(tǒng)與審核平臺。對采用虛假數據、利用數據發(fā)布虛假信息的現(xiàn)象進行懲罰,在行業(yè)內部形成一套行業(yè)監(jiān)督體系與標準。
數據新聞的制作、分析、呈現(xiàn)離不開新聞工作者,它急需具有數據素養(yǎng)與數據思維的數據新聞工作者。因此,只有兼具先進的數據挖掘和分析技術與高素養(yǎng)的人才,才能使數據新聞發(fā)揮其強大的功能。大數據時代,不僅網易《數讀》的記者需要提高自己的數據素養(yǎng),各媒體數據新聞記者都應學會從大量數據樣本中甄別出高質量數據,并深度挖掘與分析背后問題。提高數據素養(yǎng),既要加強數據新聞團隊建設,又要注重高校數據新聞專業(yè)人才的培養(yǎng)。要進一步構建數據新聞的可視化制作隊伍,明確團隊成員之間的分工,形成科學合理的工作體系。同時,要重視新聞學院的建設。新聞學院要加強課程體系建設,重視學生新聞敏感的養(yǎng)成與數據挖掘、分析、利用的本領。
不可否認的是,數據新聞確確實實地改變了傳統(tǒng)新聞采集方式與生產流程,為新聞生產提供了新的思路,使得數據分析更加科學復雜,數據呈現(xiàn)更為直觀明了。然而,當我們通過網易《數讀》欄目的數據新聞分析其真實性卻也發(fā)現(xiàn),在數據新聞實踐過程中,還存在著數據的模糊記錄、數據的單一來源、數據分析加工淺層次、數據呈現(xiàn)交互性低等諸多問題。這些嚴謹的數字背后可能是與實際不相符的事實,它威脅著數據新聞的真實性,并給數據新聞的真實性帶來了困境。
數據新聞發(fā)展之路漫漫,對于發(fā)展過程中可能存在的一些倫理問題,還需新聞工作者等與之相關的人員或機構上下而求索。從新聞真實性視域下了解與分析數據新聞的困境,能夠為國內數據新聞實踐與發(fā)展灼灼生輝而助力。
注釋:
①郭曉科.大數據[M].北京:清華大學出版社,2013:24.
②陳昌鳳,王宇琦.公眾生產信息時代的新聞真實性研究[J].新聞與寫作,2016(01):48-52.
③張倩.網易數據新聞“數讀”解讀[J].新聞世界,2016(06):56-58.
④譚唯.網易“數讀”的信息圖表運用[J].南方傳媒研究,2013(06):13.
⑤[美]馮啟思.對“偽大數據”說不:走出數據分析與解讀的誤區(qū)[M].曲玉彬,譯.北京:中國人民大學出版社,2015:7.