沈浩+元方
【摘要】大數(shù)據(jù)時代已經(jīng)到來,而大數(shù)據(jù)的一個顯著特點,就是分析的對象正在從結構化數(shù)據(jù)向半結構化數(shù)據(jù)、非結構化數(shù)據(jù)轉變。這正和新聞文本的特點相契合,因此,大數(shù)據(jù)中文本挖掘、情感分析的相關方法必將在新聞業(yè)中發(fā)揮重要作用。
【關鍵詞】自動化生成新聞;機器人新聞寫作;計算新聞
每天股市收盤時,許多投資者的手機上都會收到一條行情軟件的推送消息“今日股市開盤XXXX點,收盤XXXX點,最高XXXX點,最低XXXX點……”。寫這樣一條消息不難,然而,每天下午3點收盤,最遲3:01這條信息就需要完成推送,如果靠人力寫作,顯然是一項非??菰锓ξ兜墓ぷ鳎绻揽繖C器自動化寫作,這就是一條最簡單的自動化生成新聞。除了收盤時的簡報,也有軟件可以提供更加詳細的市場資訊,來自于自動化寫作的這樣一條新聞,可以涉及很多名詞:數(shù)據(jù)(驅動)新聞、計算新聞、程序新聞、算法新聞、機器人報告、自動化新聞,而這些術語都與數(shù)據(jù)和計算機的使用直接相關,更確切地說,與當下這樣的大數(shù)據(jù)時代直接相關。
大數(shù)據(jù)時代已經(jīng)到來,而大數(shù)據(jù)的一個顯著特點,就是分析的對象正在從結構化數(shù)據(jù)向半結構化數(shù)據(jù)、非結構化數(shù)據(jù)轉變。這正和新聞文本的特點相契合,因此,大數(shù)據(jù)中文本挖掘、情感分析的相關方法必將在新聞業(yè)中發(fā)揮重要作用。
文本挖掘分析的是包含在自然語言文本中的數(shù)據(jù),它可以幫助一個組織從基于文本的內(nèi)容中獲得有價值的潛在業(yè)務洞察力。例如文檔、郵件和社交媒體中發(fā)布的帖子。在某種意義上,它被定義為從無處不在的文本中發(fā)現(xiàn)知識的方式,而且通常這些文本可以在網(wǎng)絡上直接獲取。而文本挖掘中的情感分析更是為新聞自動化寫作打下了很好的基礎。情感分析是指使用自然語言處理、文本分析和計算語言學確定一段文本的作者對某一特定主體的態(tài)度,它可以幫助確定文本表達的態(tài)度是積極的、消極的還是中立的,情感分析現(xiàn)在經(jīng)常用于發(fā)現(xiàn)消費者對特定主題、產(chǎn)品或想法的感受。在未來,它們可能幫助新聞從業(yè)人員發(fā)現(xiàn)社交媒體上流行的熱點事件,收集事件的情報;可能發(fā)現(xiàn)受眾的情緒所在,從而抓住他們的興趣;還可能幫助機器自動生成的新聞變得更加平易近人,而不僅僅是冷冰冰的客觀陳述。大數(shù)據(jù)的方法越來越多地滲入各個領域和各個行業(yè)中,潛移默化地改變它們。
新聞業(yè)確實正在發(fā)生改變,從計算機輔助報道到數(shù)據(jù)新聞,再到自動化新聞寫作,這種術語的變化體現(xiàn)了一個事實,計算機和數(shù)據(jù)正在逐漸成為關系中的主體。這種變化不僅是由新技術驅動,而且結合了更廣泛的背景。“大數(shù)據(jù)”仍然是一個相對較新的概念,人類正身處數(shù)據(jù)洪流之中,產(chǎn)生了兩種深刻的發(fā)展。[1]第一是由于人類(和自然)活動產(chǎn)生的關于人類(和自然)活動的數(shù)字化信息的種類和數(shù)量都非常多,通過移動設備、跟蹤工具、傳感器以及便宜的計算存儲等來記錄這些信息也日益普及?!霸谝粋€數(shù)字化的世界里,消費者每天的活動——溝通、瀏覽、購買、分享、搜索——創(chuàng)造了他們自己巨大的數(shù)據(jù)流量”[2]。第二個主要發(fā)展涉及計算過程、機器學習、算法和數(shù)據(jù)科學的快速進步和擴散。這些發(fā)展使得公司、政府和研究人員更容易地分析公共生活中的數(shù)據(jù)。無論是稱為大數(shù)據(jù)還是別的什么,這一時刻都是數(shù)據(jù)中的一部分,它的收集分析和展現(xiàn),以及相關數(shù)據(jù)驅動技術的應用,都對理解媒體、技術和社會的交叉點產(chǎn)生了極大的共鳴。
這種深刻的發(fā)展讓我們認識到,日常生活的數(shù)據(jù)化有助于我們理解世界上發(fā)生了什么,從而做出更好的決定。重要的是,這種理解不是來自人類社會創(chuàng)造的理論或者假設檢驗,而是計算機處理大數(shù)據(jù)所揭示的相關性。
這種深刻的發(fā)展也使得新聞生產(chǎn)和分發(fā)中的重要方面發(fā)生著變化??梢钥吹降氖?,在新聞業(yè)大規(guī)模數(shù)據(jù)集及它們的收集、分析和解釋對于從數(shù)字化信息中獲取價值和意義變得越來越重要,也成為一種趨勢。大數(shù)據(jù)和數(shù)據(jù)新聞越來越多地被作為一種思維方式來理解,它體現(xiàn)了我們?nèi)绾嗡伎既祟愔黝}以及探索作為對象的世界的能力。
一、數(shù)據(jù)導向的新聞業(yè)發(fā)展
在新聞中使用計算機和數(shù)據(jù)是一個沿革的過程,精確新聞、計算機輔助報道、數(shù)據(jù)新聞、數(shù)據(jù)庫新聞、數(shù)據(jù)驅動新聞和計算新聞,乃至自動化新聞寫作,它們的共同點都是計算機導向的方法,并且對從業(yè)人員來說,需要更多高級的計算機技能。但是本質(zhì)上,精確新聞強調(diào)使用科學方法,計算機輔助報道強調(diào)數(shù)字化工具的使用,數(shù)據(jù)庫新聞強調(diào)信息存儲和檢索的結構,數(shù)據(jù)和數(shù)據(jù)驅動的新聞強調(diào)在數(shù)據(jù)集中找到故事,而計算新聞強調(diào)在工具和方法應用中融合計算和新聞價值。(數(shù)據(jù)導向的新聞生產(chǎn)模式見表1)
[表1 數(shù)據(jù)導向的新聞生產(chǎn)模式[3]][\&精確新聞\&計算機輔助報道\&數(shù)據(jù)新聞\&數(shù)據(jù)驅動新聞\&計算新聞\&焦點\&新聞的科學性\&利用計算機技術報道新聞\&在新聞中發(fā)現(xiàn)、分析和展示數(shù)據(jù)\&跟隨“數(shù)據(jù)線索”追蹤未知或推測的故事\&創(chuàng)造、適應或使用計算工具和方法,在新聞中或作為新聞本身\&技能\&社會科學方法\&高級計算機使用\&數(shù)據(jù)處理,數(shù)據(jù)敘事\&分析性和探索性的研究\&計算思維,編程\&]
(一)計算機輔助報道和精確新聞
計算機輔助報道于19世紀50-60年代出現(xiàn)在美國,1952年CBS使用計算機預測美國總統(tǒng)選舉的結果,1967年Philip Meyer使用計算機報道底特律暴亂,并且他在1973年出版了《精確新聞學》一書,幾乎可以作為數(shù)據(jù)分析正式成為新聞重要組成部分的一個里程碑。Meyer在書中提倡新聞的“科學”方法:“新的精確新聞是科學新聞……采用科學方法、科學的客觀性和科學理想。”[4]他認為,計算機輔助報道就是采用計算機獲得信息和分析信息的報道,上述兩個方向正是計算機輔助的方向。精確新聞是通過應用社會科學中的方法使新聞更負責任和更科學,而計算機使這種方法的實現(xiàn)更實用。
在19世紀70—80年代,新聞業(yè)開始引入數(shù)據(jù)庫作為工具,有幾個普利策獎獲獎作品的關鍵方法是引入兩個數(shù)據(jù)集(例如駕駛學校班車的人與被判定有交通違規(guī)的人),找到兩個數(shù)據(jù)集中交叉的行,或者縮小大型數(shù)據(jù)集的范圍,從而用于假設檢驗。
計算機輔助報道的基本工具被描述為電子表格、數(shù)據(jù)庫管理器和在線資源,還包括Web訪問和電子郵件等作為重要技術進步[5]。
(二)數(shù)據(jù)(驅動)新聞
雖然數(shù)據(jù)新聞的一些特點與計算機輔助報道非常相似,但是兩者其實存在非常明顯的區(qū)別。“數(shù)據(jù)”在這里表示數(shù)字的結構化或非結構化的原始資料,記者用它們調(diào)查和解釋事實。典型的數(shù)據(jù)一般包括稅收記錄、政府預算、普查數(shù)據(jù)等公開數(shù)據(jù),推特和微博等社交媒體數(shù)據(jù)以及交易日志等私有數(shù)據(jù)。并且數(shù)據(jù)新聞是通過可視化和講故事向公眾解釋復雜的數(shù)據(jù)。(McGhee 2010;Segel and Heer 2010;Weber and Rall 2013)
“數(shù)據(jù)新聞”這個名字可能更傾向于專門收集和分析數(shù)據(jù)的“分析師”或“數(shù)據(jù)科學家”角色,處理數(shù)據(jù)是新聞生產(chǎn)中最核心的部分,解釋數(shù)據(jù)是技術之外的挑戰(zhàn)。另一個用計算機制作新聞的名詞是“數(shù)據(jù)驅動新聞”。它通過追蹤數(shù)據(jù)中的線索完成故事本身,在分析完成前沒有人知道這個故事是什么樣的,強調(diào)分析數(shù)據(jù)是比管理數(shù)據(jù)更重要的東西。
(三)計算新聞
但是,并不是上述所有的數(shù)據(jù)新聞都與大數(shù)據(jù)有關,大部分數(shù)據(jù)新聞還只停留在“使用數(shù)據(jù)寫作新聞”這個層面上。與大數(shù)據(jù)最直接相關的則是計算新聞,它還被稱為:自動化新聞、算法新聞或者機器人新聞寫作的部分。
我們可以將計算新聞定義為算法、數(shù)據(jù)和知識的組合,從某些方面而言,計算新聞建立在前述所有術語的基礎之上,“機器做的更好的事情之一是從大量數(shù)據(jù)中快讀創(chuàng)造價值。自動化過程和內(nèi)容是降低新聞成本和提高編輯輸出的最缺乏探索的領域”[6]。這就是計算新聞的意義所在,它通過對計算方法的應用創(chuàng)造新聞價值,很少或根本不需要記者的參與。計算新聞的目的是讓新聞生產(chǎn)過程中能夠探索越來越多的結構化和非結構化信息。
Diakopoulos在他的《計算新聞中的創(chuàng)新功能路線圖》一文中提到了一個更加面向過程的定義。“把計算方法和計算思維應用于新聞活動,包含信息收集、組織和意義建構,傳播和展現(xiàn),以及散發(fā)和新信息的公眾反饋”[7]。這種新聞生產(chǎn)的最新發(fā)展伴隨著自然語言生成技術的進步,作為自然語言處理的子領域,自然語言生成被定義為從信息的計算中自動生產(chǎn)人類(自然)語言的軟件和計算機系統(tǒng)[8]。
計算機和其他相關技術的進步持續(xù)改變著新聞業(yè)。這些技術變革成為新的工具,可以幫助記者提高報道質(zhì)量和效率,還成為講故事的人本身。尤其是在當下大數(shù)據(jù)時代的背景下,大數(shù)據(jù)、算法和代碼的興起導致越來越多的新聞媒體開始熱衷于雇用數(shù)據(jù)科學家?guī)椭踔令I導他們的數(shù)據(jù)分析。這種轉變表明了記者所需技能的變化,傳統(tǒng)意義上的記者技能通常包含采訪能力和寫作能力,而現(xiàn)在,編寫代碼、參與社交媒體和多媒體交互敘事這些數(shù)字化的技能越來越重要。計算新聞的優(yōu)勢主要體現(xiàn)在以下幾個方面[9]:
(1)提高對紛繁復雜來源的事件的感知速度,識別通向原始新聞的數(shù)據(jù)模式;
(2)更有效地利用公開數(shù)據(jù),調(diào)查記者可以對大規(guī)模數(shù)據(jù)進行分析,結合專門知識形成新聞內(nèi)容;
(3)為數(shù)字新聞增加價值,為受眾提供可以檢查事實的工具,使用多媒體和互動元素吸引受眾;
(4)能最大限度地減少花在繁瑣的背景研究和事實檢查上的時間,創(chuàng)建代碼和挖掘數(shù)據(jù),然后可以在其他項目上重復使用。
當然,也有人認為這些變化可能引起法律與倫理問題,威脅到隱私,或者帶來黑客風險,新聞業(yè)將會被算法驅動的數(shù)字記者取代。但從另外一個方面看,算法、AI(人工智能)和大數(shù)據(jù)為新聞記者提供了一個機會,利用這些新興技術增強人類記者的工作,重塑新聞的性質(zhì)和實踐。這不僅可以帶來更高的效率,還可以提高人類記者的質(zhì)量和生產(chǎn)力。
二、自動化新聞的基本流程
從內(nèi)容和形式上考慮,我們可以把自動化新聞分為五個層次。第一個層次是簡單描述事件。例如當某地發(fā)生地震后,軟件通過接口或其他方式從外部數(shù)據(jù)獲取到該地震的具體時間、震源經(jīng)緯度、深度、烈度等級等信息,然后將數(shù)據(jù)填入編寫好的模板中,模板的形式可能是這樣:“今天下午XX時XX分XX秒某地發(fā)生X.X級地震,震源位于北緯XX.XX度,東經(jīng)XXX.XX度,深度XX千米?!痹摋l填寫完畢的新聞自動被發(fā)布到媒體的新聞網(wǎng)站或社交媒體上。這是最簡單的簡訊形式,如果從數(shù)據(jù)庫的角度考慮,事實上它相當于在地震數(shù)據(jù)庫中插入一條記錄。第二個層次是結合外部數(shù)據(jù)進行分析。在這一層次,媒體通常會維護一個包含歷史數(shù)據(jù)和其他相關數(shù)據(jù)的數(shù)據(jù)庫,當?shù)卣鸢l(fā)生時,模板可能變成這樣:“今天下午XX時XX分XX秒某地發(fā)生X.X級地震,震源位于北緯XX.XX度,東經(jīng)XXX.XX度,深度XX千米。這次地震僅低于XXXX年在該地發(fā)生的X.X級地震,烈度排名第二……。”雖然形式上仍然是填入模板,但由于結合了歷史數(shù)據(jù)的分析,可能會出現(xiàn)一些重要的結論作為新的新聞線索。進入到第三個層次,除了填模板,會有一些與大數(shù)據(jù)真正相關的智能算法加入進來,例如利用文本分析構造新的句子,利用情感分析改變句子語氣等。這時候生成的新聞,就不像前面兩個層次那樣千篇一律,而會加入與情感相關的因素,這樣可以在一定程度上提高新聞的可讀性。
前三個層次是集中在文章的寫作方面的,雖然我們經(jīng)常將這套程序稱之為自動化新聞寫作或者機器人新聞寫作,但是事實上,完整的新聞生產(chǎn)流程除了寫作,還包括發(fā)布。在第四個層次中,應該可以做到發(fā)布新聞的分群體推送,類似數(shù)據(jù)挖掘中的精準營銷。自動化生成的新聞除了發(fā)布在新聞網(wǎng)站和社交媒體上以外,還應該可以通過APP推送、私信推送等方式,針對不同群體推送不同的新聞。這就涉及要對受眾做受眾細分,要收集歸納每一類受眾的特征,為受眾細分群體打標簽,通過標簽決定推送內(nèi)容。而到了第五個層次,這種推送應該得到進一步細化,做到真正的“個性化推薦”,根據(jù)每個受眾不同的特性個性化推送新聞。標簽會從受眾群體細化到受眾個體身上,協(xié)同過濾等個性化推薦算法也可能在這里發(fā)揮作用。更為關鍵的是,在第四和第五層次,生成程序的算法也會隨著標簽不同而采用不同的參數(shù)甚至不同的算法,生成盡可能個性化的內(nèi)容??偠灾斪詣踊侣勥_到第五個層次時,它已經(jīng)成為一個完全的智能化系統(tǒng),會根據(jù)每個受眾特征的不同,選擇不同的新聞事件、不同的生成算法或者算法參數(shù)生成不同的文章,并推送到每個人的媒體終端上。這才是真正的大數(shù)據(jù)時代的新聞。
結合上述五個層次,我們來梳理一下自動化新聞的基本流程。簡單的方法是指從數(shù)據(jù)庫中提取數(shù)字,然后將這些數(shù)字用于填充預先編寫的模板故事中的空白,從而完成新聞的寫作。還有更復雜的方法,需要分析數(shù)據(jù),獲得更多信息,并創(chuàng)建更有說服力的敘述,這主要依賴于大數(shù)據(jù)分析和自然語言生成技術,此種方法的成果最初經(jīng)常出現(xiàn)在體育報道中,Graefe總結了自動化新聞的流程[10](見圖1),這里我們結合一場籃球比賽的報道詳細解釋一條新聞是如何生成的。
首先,軟件收集可用的數(shù)據(jù),例如比賽中的得分、籃板、助攻和歷史記錄,運動員的背景資料等,既可以收集到當前籃球比賽的實時數(shù)據(jù),還可以從數(shù)據(jù)庫中讀取歷史比賽數(shù)據(jù),得到趨勢性的數(shù)據(jù)。第二步,算法采用統(tǒng)計方法識別數(shù)據(jù)中重要和有趣的事件,比如可以定義如下規(guī)則作為事件的判定依據(jù):某球員連續(xù)20場得分在25+;某球隊本場投進20個三分球創(chuàng)賽季最佳;某球隊在第三節(jié)比賽的最后5分鐘時間內(nèi)打出了個10:0,從而反超了比分等。第三步,軟件按照重要性對所識別和洞察到的信息進行分類排序,如比賽情況可以分為球隊表現(xiàn)和球員表現(xiàn),球員表現(xiàn)中又包括明星球員的表現(xiàn),由此新聞自動寫作程序將比賽表現(xiàn)與受眾的關注程度等結合,從而可以實現(xiàn)第四步,遵循定義的規(guī)則安排新聞價值元素,以生成陳述。最后,故事上傳到發(fā)布者的內(nèi)容管理平臺,并可以自動發(fā)布。
在此過程中,軟件依賴于一組特定的預先定義規(guī)則,這些規(guī)則需要工程師、記者和計算機語言學家的協(xié)作。工程師實現(xiàn)分析程序,記者定義新聞價值的標準,根據(jù)該標準、算法尋找重要事件并排列它們,計算機語言學家通過新聞語料識別潛在的邏輯,并將它們轉換為能夠構造句子的基于規(guī)則的系統(tǒng)。
圖1 算法如何生成新聞
三、自動化新聞寫作的實踐
體育和金融新聞已經(jīng)使用算法自動生成并發(fā)布了數(shù)以千計的新聞故事,它們不需要人工干預,成本很低或沒有成本[11],還有一種說法,即自動生成的新聞將在五年內(nèi)贏得普利策獎[12]。不管未來自動化新聞寫作能不能贏得人類世界的獎項,它在近兩年的發(fā)展中已經(jīng)被越來越多成功的實踐所證明。
從2014年起,美聯(lián)社使用自動化洞察(Automated Insights)公司的Wordsmith軟件撰寫每個季度的公司財報,算法挖掘財務報告,總結每份報告中的關鍵要素并生成敘述。Wordsmith平臺每秒最多可以產(chǎn)出2000篇此類新聞,而且出錯率極低,美聯(lián)社采用機器人自動寫稿是之前人工報道發(fā)稿量的1.4倍[13]。
2014年3月17日,洛杉磯發(fā)生了4.7級地震。3分鐘內(nèi),洛杉磯時報的網(wǎng)站就發(fā)布了關于此事的第一條新聞。雖然該新聞很短,但是它的作者是一個叫做Quakebot的機器人。此外,洛杉磯時報還使用另一個程序報道殺人事件,依靠數(shù)據(jù)分析和人工智能建立起了一個數(shù)據(jù)庫,用于追蹤事件并撰寫新聞。此外,自動化寫作的應用案例還包括美國紐約公共廣播電臺“美國全國大學體育協(xié)會”賽事報道的NailbiterBot,等等。
新聞寫作系統(tǒng)中甚至可以使用更高級的人工智能技術,這樣的AI系統(tǒng)可以對人類記者的行為方式建模。想象一個系統(tǒng),該系統(tǒng)基于機器學習和人工智能的相關技術,它監(jiān)測微博或者推特這樣的社交媒體,學習人類記者的監(jiān)測方式,選擇有新聞價值的事件,并根據(jù)該事件在社交媒體上討論的發(fā)展趨勢自動寫成故事。這套系統(tǒng)很容易讓人們聯(lián)想起英國《衛(wèi)報》2014年推出的“#Open001”,這是一份紙質(zhì)報紙,但是其中幾乎所有內(nèi)容都由算法生成。預先編寫好的機器人程序分析社交媒體上的熱門分享,并對其進行篩選、編輯和排版,生成一份報紙。這雖然只是一個嘗試,但是表現(xiàn)出了無限的可能。在未來,對應于不同來源的大數(shù)據(jù),例如傳感器和移動設備,可以形成不同的寫作系統(tǒng)。
雖然自動化新聞寫作最早出現(xiàn)于國外,國內(nèi)的相關研究與應用起步較晚,但已有成功案例。在中國,2015年9月,騰訊財經(jīng)發(fā)表了一篇《8月CPI同比上漲2.0% 創(chuàng)12個月新高》的文章,署名為自動化新聞協(xié)作機器人Dreamwriter,可以視為自動化新聞寫作第一次在國內(nèi)得到應用。隨后騰訊又在10月份發(fā)布了三篇不同類型的CPI數(shù)據(jù)報道,分別為“精要版”“研判版”和“民生版”,這四篇新聞報道均采取官方數(shù)據(jù)加專家分析的結構,讀起來段落間銜接略有不連貫[14]。2015年11月,新華社也推出了自己的寫作機器人——“快筆小新”,它輸入股票代碼,3秒鐘就能完成一篇財報分析,稿件中大小標題一應俱全,還配有圖表等信息[15]。然而,“快筆小新”也只是基于人工錄入的知識庫和模板,寫出的稿件結構單一,內(nèi)容乏味。2016年里約奧運會期間,今日頭條推出了新聞機器人“張小明”,“小明”作為第二代新聞機器人,除了生成賽事新聞報道外,還能智能檢索并選擇圖片,根據(jù)比賽結果模仿人類語氣等[16]。雖然比起單純套用模板進步了不少,但是從“小明”發(fā)布的報道中,還是能見到一些由于對語義理解不夠而造成的錯誤。總體來說,比起《洛杉磯時報》、美聯(lián)社等已經(jīng)在日常的新聞發(fā)布中采用成熟的寫作機器人產(chǎn)品,國內(nèi)的自動化新聞寫作發(fā)展還處在相對初級的階段。
隨著自動化新聞寫作的興起,計算新聞領域也在深度和廣度上得到長足的發(fā)展。一方面,新技術的進一步革新,深化了其應用功能,如機器人視覺的持續(xù)發(fā)展也為新聞攝影的未來帶來了其他可能;有多種智能技術可以捕獲高質(zhì)量的音頻、視頻,這種技術同樣可以獲取新聞事件照片,因此自動化新聞不僅限于文字寫作,有可能實現(xiàn)多種媒介展現(xiàn)方式的融合,也彌補了其在新聞價值方面的部分缺失。另一方面,計算新聞的發(fā)展拓展了其應用范圍,如2016年年底,基于人工智能的新聞真實性核查再次掀起了一股熱潮。人工智能和自然語言處理的技術可以用來檢測見聞背后的語義,也可以通過查看其他網(wǎng)站尤其是權威媒體來源佐證消息的真實性。全球數(shù)億網(wǎng)站會形成超級巨大的數(shù)據(jù)集,在這個數(shù)據(jù)集上利用人工智能檢測假新聞非常具有優(yōu)勢。
四、自動化新聞寫作和新聞的未來
自動化新聞已經(jīng)成為一個需要認真對待的趨勢。首先,新聞職業(yè)越來越商業(yè)化,基于商業(yè)邏輯運轉,新聞任務的自動化生成可以提高利潤率和降低生產(chǎn)成本。其次,盡管計算機生成的新聞可能無法與主要新聞媒體提供的高質(zhì)量新聞相競爭,這些媒體上的文章注重細節(jié)、分析并且語言更活潑,但是對于在互聯(lián)網(wǎng)上可以自由獲取的信息,自動化生成的新聞可以擊敗它們。
如前所述,體育報道通常被認為是自動化生成內(nèi)容的理想選擇,因為比賽中的統(tǒng)計數(shù)據(jù)非常豐富,并且很容易創(chuàng)建用于比賽的報道模板和短語。除此之外,該技術的應用范圍還包括房地產(chǎn)、財務金融、天氣預報和自然災害,甚至在更長的時間內(nèi),一些關于政治的新聞也可以自動化。
自動化新聞被看作是對傳統(tǒng)新聞業(yè)的威脅。它吸引了眾多記者的注意力,這主要集中在技術將如何改變記者這個角色,以及隨著技術的發(fā)展,記者所需的技能如何變化這樣兩個問題上。自動化技術與傳統(tǒng)記者的關系事實上是取決于記者的任務和技能的,在常規(guī)的重復性任務中,通常只需要把原始數(shù)據(jù)轉換為符合某種標準的文章,這時候人類記者很難與自動化生成程序的速度和規(guī)模相競爭,最典型的例子就是在體育賽事和財報分析領域,這兩個領域也是自動化新聞寫作應用得最廣泛的領域。
在樂觀人士的視角下,自動化新聞寫作程序可以提高常規(guī)新聞質(zhì)量,從繁瑣的重復性勞動中解放人類,使他們可以有更多的時間花費在深入分析、評論和調(diào)查工作上,寫出更具有深度的新聞文章。而在悲觀人士的視角下,自動化新聞與人類記者是競爭關系,自動化本身是為了減少成本,而原本完成這類任務的常規(guī)記者如果不能寫出更好的文章,或者專注于人類勝過算法的技能,他們就將被取代。其實從這種角度看,樂觀人士和悲觀人士的看法在某些方面是具有共同性的。
Reginald Chua提出了一種“人機聯(lián)姻”的說法。他認為在未來,人類和自動化新聞將會緊密結合,算法分析數(shù)據(jù),找到有趣的故事并形成初稿,之后記者進行深度調(diào)查,通過加入對關鍵人物的訪談及背景資料豐富報道。
隨著自動化新聞寫作的發(fā)展,記者也會逐漸找到新的定位。自動化新聞的一大挑戰(zhàn)是定義算法從數(shù)據(jù)創(chuàng)建故事時所遵循的規(guī)則與標準,一名體育記者會了解哪些時刻對比賽結果是至關重要的,他可以將這種知識轉化為基于規(guī)則的系統(tǒng),該任務需要分析思維、創(chuàng)造力和一定的統(tǒng)計能力。
從普遍意義來看,自動化新聞寫作技術是可以使新聞消費者受益的。機器人程序快速批量寫作能力可以覆蓋新聞的長尾需求,使更多的細分受眾得到滿足。但是如果把視角切換到整體的角度,受眾可能會關注的兩個問題是自動化新聞的質(zhì)量和算法透明度。
Clerwall(2014)使用可信度和可讀性兩個指標分析了記者和計算機寫作新聞在感知質(zhì)量上的差異,受眾在閱讀文章時并不知道作者的身份,他們被要求對新聞進行打分??傮w來說,這兩種新聞的差異很小,但是計算機寫的文章傾向于收到更高的可信度評價,而記者寫的文章則在可讀性方面得分較高[17]。不過他使用的樣本較小,這使得結果的可靠性容易被質(zhì)疑。
Andreas等人設計了一個線上實驗研究受眾對計算機寫作的新聞的看法。他們使用222的設計,改變文章主題以及文章的實際和聲明來源。研究發(fā)現(xiàn),改變聲明來源具有較小但一致的效果,表明人類寫作的文章總是被評價為更親切,無論其實際來源如何。改變實際來源則具有更大的影響,計算機寫作的文章被被試者評價為更可信、更具有新聞專業(yè)性,但是可讀性較差[18]。
這并不奇怪,常規(guī)的新聞寫作經(jīng)常處于簡單敘述事實的層面,使用程序自動化生成內(nèi)容嚴格遵循這樣的標準,因此人們自然傾向于在可信度上打分更高,但是這些結果并不能推廣到描述事實之外的主題。記者能夠為新聞故事提供價值的部分,也就是深度報道,仍然沒有自動化程序出現(xiàn)。而當對新技術的興奮退去時,我們可能會發(fā)現(xiàn),新鮮和具有創(chuàng)造力的人類寫作風格依然具有吸引力。
算法透明度則是基于新聞寫作程序中算法的黑箱問題而存在的。寫作程序可能是跨層次的,涉及輸入數(shù)據(jù)、模型、推理規(guī)則和外部接口。數(shù)據(jù)的質(zhì)量(包括準確性、誤差范圍、及時性和完整性等),抽樣方法,變量定義,權威性;模型輸入變量和特征,目標變量,特征權重,建模工具,源代碼或偽代碼,參數(shù)及可能的人工調(diào)整;推理規(guī)則的持續(xù)性,準確度基準值,誤差分析和置信度等不確定性信息;還有外部接口的開關,輸入和權重的可調(diào)整性等多個因素都會影響到寫作文章的質(zhì)量[19]。這些內(nèi)容的披露機制在非常大的程度上能決定透明度。然而,可以想到的是,許多專業(yè)人士之外的受眾可能難以理解這些內(nèi)容或對之不感興趣,因此確定關于算法透明度的真實受眾需求,以及如何解決這些需求就成了重要的問題。
對新聞機構來說,正如前文所述,更多的機器人新聞寫作無疑有助于降低機構成本和減少編輯的工作量。但他們同樣有需要考慮的問題,他們的問題集中在源數(shù)據(jù)、數(shù)據(jù)處理和輸出新聞質(zhì)量三個方面。新聞機構需要對源數(shù)據(jù)的版權和準確性負責,他們需要保證該數(shù)據(jù)確實可用,因此需要數(shù)據(jù)管理和驗證的程序。同樣,如果算法的數(shù)據(jù)處理過程存在錯誤,也會造成大量虛假新聞,這可能對新聞機構的聲譽帶來災難性的影響。自動化新聞寫作程序在首次發(fā)布前需要徹底的測試。而對最后輸出的新聞,可能需要匹配新聞機構的官方樣式與風格,此外機構也要意識到可能出現(xiàn)的法律和道德問題。
如果把目光投向整個社會,對自動化新聞的應用事實上是在一個更大的話語體系內(nèi)部的,那就是,考慮到新聞媒體的輿論監(jiān)督功能,更大范圍地應用更復雜的由機器人寫作的新聞,是否意味著把這種監(jiān)督的主體由人讓渡到算法?我們是否可以信任算法作為檢查、識別重要社會問題的機制?算法已經(jīng)參與到社會管理中的很多方面,它決定了你多長時間能夠打到一輛車,銀行是否應該批準你的信用卡,甚至警察應該監(jiān)控誰和監(jiān)控哪里。而接下來,它們還可能會影響你的公共生活,你會在新聞媒體上看到什么,甚至你會處于一個什么樣的社會。
參考文獻:
[1]S.C.Lewis,Journalism in an Era of Big Data:Cases,concepts,and critiques.Taylor & Francis,2015.
[2]J.Manyika et al.,“Big data:The next frontier for innovation,competition,and productivity,”May 2011.
[3] E.Stavelin,Computational Journalism.When journalism meets programming.The University of Bergen,2014.
[4]P.Meyer,Precision journalism:A reporters introduction to social science methods.Rowman & Littlefield,2002.
[5]Cox M.The development of computer-assisted reporting.Informe presentado en Association for Education in Jornalism end Mass Comunication).Chapel Hill,EEUU:Universidad de Carolina del Norte,2000.
[6] M.Carlson,“The robotic reporter:Automated journalism and the redefinition of labor, compositional forms, and journalistic authority,”Digital Journalism,vol.3,no.3,pp.416–431,2015.
[7]N.Diakopoulos,A functional roadmap for innovation in computational journalism.http://www.nickdiakopoulos.com/2011/04/22/a-functional-roadmap-for-innovation-in-computational-journalism/, 2011.
[8]K.N.D?rr,“Mapping the field of Algorithmic Journalism,”Digital Journalism,vol.4,no.6,pp.700–722,Aug.2016.
[9] T.Flew,C.Spurgeon,A.Daniel,and A.Swift,“The promise of computational journalism,”Journalism Practice,vol.6,no.2,pp.157–171,2012.
[10]A.Graefe,Guide to automated journalism.2016.
[11]A.Van Dalen,“The algorithms behind the headlines:How machine-written news redefines the core skills of human journalists,”Journalism Practice,vol.6,no.5–6,pp.648–658,2012.
[12]M.L.Young and A.Hermida,“From Mr.and Mrs.outlier to central tendencies:Computational journalism and crime reporting at the Los Angeles Times,”Digital Journalism,vol.3,no.3,pp.381–397,2015.
[13]徐曼. 國外機器人新聞寫手的發(fā)展與思考[J]. 中國報業(yè),2015,(23):32-34.
[14]王江濤. 機器人新聞寫作的局限與不足——基于騰訊財經(jīng)寫作機器人Dream writer作品的分析[J].傳媒觀察,2016,(7):12-14.
[15]王悅,支庭榮. 機器人寫作對未來新聞生產(chǎn)的深遠影響——兼評新華社的“快筆小新”[J].新聞與寫作,2016,(2):12-14.
[16]趙禹橋. 新聞寫作機器人的應用及前景展望——以今日頭條新聞機器人張小明(xiaomingbot)為例[EB/OL].http://media.people.com.cn/GB/n1/2017/0111/c409691-29014245.html,2017.1.
[17]C. Clerwall,“Enter the Robot Journalist,” Journalism Practice, vol. 8, no. 5, pp. 519–531, Sep.2014.
[18]A. Graefe, M. Haim, B. Haarmann, and H.-B. Brosius, “Readers perception of computer-generated news: Credibility, expertise, and readability,” Journalism, p.1464884916641269, Apr. 2016.
[19]N. Diakopoulos and M. Koliska, “Algorithmic transparency in the news media,” Digital Journalism, pp. 1–20, 2016.
(沈浩為中國傳媒大學新聞學院教授、博士生導師;元方為中國傳媒大學互聯(lián)網(wǎng)信息研究院互聯(lián)網(wǎng)信息專業(yè)媒體大數(shù)據(jù)與社會計算方向博士生)
編校:鄭 艷