文_葉 珂 吳子藝
新聞自動化是基于計算機(jī)科學(xué)、統(tǒng)計學(xué)、人工智能等,撰寫新聞故事的一項技術(shù)。新聞自動化系統(tǒng)具有新聞記者撰稿的方法以及查看數(shù)據(jù)的過程,通過厘清事實、尋找總體特征,分析得出重要和有趣的內(nèi)容信息。其主要目標(biāo)在于節(jié)省新聞工作者在重復(fù)任務(wù)上的工作時間,并增加新聞的輸出數(shù)量。
在過去的10年內(nèi),新聞自動化的使用呈現(xiàn)逐步上升的態(tài)勢。德國報紙出版商協(xié)會2017年的一份調(diào)查顯示,該國百分之七的報紙發(fā)行商已經(jīng)嘗試過新聞自動化,另外有百分之二十的發(fā)行商計劃嘗試該項技術(shù)。
本文中,研究者重點(diǎn)關(guān)注了基于結(jié)構(gòu)化數(shù)據(jù)的新聞文本自動生成。將數(shù)字編碼的數(shù)據(jù)轉(zhuǎn)換為人類語言的過程稱為自然語言生成(Natural Language Generation,簡稱NLG),執(zhí)行這一新聞自動化過程需要通過算法實現(xiàn)。需要注意的是,當(dāng)我們討論自動化、算法、數(shù)據(jù)和新聞的時候,我們需要提醒自己這一點(diǎn):數(shù)據(jù)和信息不能混為一談,只有在一定撰寫原則指導(dǎo)下的數(shù)據(jù)才能被稱為新聞故事。與此同時,為了將數(shù)據(jù)轉(zhuǎn)換成有意義的新聞故事,系統(tǒng)開發(fā)人員和新聞工作者必須將新聞工作者大量松散的書寫準(zhǔn)則轉(zhuǎn)換為計算機(jī)嚴(yán)格的規(guī)則。
不過,值得一提的是,部分媒體公司雖然在智能化競爭中落后于他人,但他們卻并沒有意愿嘗試新聞自動化技術(shù),反而擔(dān)心自動化會導(dǎo)致記者失業(yè)。研究者表示,目前并沒有數(shù)據(jù)顯示自動化直接導(dǎo)致記者們的失業(yè),相反,新聞生產(chǎn)過程中,人工和新聞自動化系統(tǒng)更傾向于互補(bǔ)的狀態(tài)。
United Robots部分隸屬于媒體公司Mittmedia,在瑞典全國范圍內(nèi)出版近30份新聞報紙。目前,United robots開發(fā)出了自己的一套NLG系統(tǒng),將其命名為“Rosalinda”。Mittmedia首席數(shù)字官表示,每周有59個聯(lián)賽的480支球隊參加比賽,他們每月會發(fā)布3000多篇自動生成的新聞。最近,兩家公司根據(jù)用戶需求開拓了房地產(chǎn)方面的自動化新聞內(nèi)容。Mittmedia擁有一個自己的數(shù)據(jù)管理平臺——Soldr。Soldr收集、整理并匯總?cè)N不同類型的數(shù)據(jù):用戶數(shù)據(jù)、事件數(shù)據(jù)和內(nèi)容數(shù)據(jù)。
United Robots的首席執(zhí)行官S?ren Karlsson,對其從事的NLG系統(tǒng)業(yè)務(wù)分享了8點(diǎn)感受:
(1)來自上層的支持
編輯管理團(tuán)隊需要參與到項目中來,并給予重視。在這一點(diǎn)上,瑞典的新聞編輯室做得不錯。
(2)讓廣告和市場部門參與進(jìn)來
引進(jìn)自動化內(nèi)容,對于新聞編輯室與其他部門共同開展業(yè)務(wù)和進(jìn)行產(chǎn)品開發(fā)來說,是一個絕佳的機(jī)會。不過,這中間有幾個問題需要明確,例如:新的內(nèi)容類別會吸引特定類別的廣告主嗎?這些自動化內(nèi)容會將游客轉(zhuǎn)變成付費(fèi)用戶嗎?等等。
(3)傳統(tǒng)新聞價值衡量標(biāo)準(zhǔn)同樣適用
借助自動化,你獲得了本地內(nèi)容,提高了發(fā)行速度,掌握了大量的文本內(nèi)容。這些優(yōu)勢也是記者們在采寫新聞時迫切需要的。換句話說,自動化的內(nèi)容是一種好的本地內(nèi)容。
(4)把自動化文本作為新聞線索
數(shù)據(jù)分析是自動化過程中一個重要的環(huán)節(jié)。算法的加持將比普通人工更有助于發(fā)現(xiàn)隱藏的聯(lián)系、異常值等等。
(5)時刻準(zhǔn)備文本的發(fā)布
如果你想在文本中加入人工創(chuàng)意,那么就加吧。當(dāng)文本好到足夠可以直接發(fā)表的程度,文章的潛力應(yīng)得到最大程度的挖掘。
(6)提高產(chǎn)量,充分利用自動化的速度
短時間內(nèi)產(chǎn)出大量的文本內(nèi)容是自動化的一大優(yōu)勢。
(7)復(fù)查組織
你可能并不需要裁員,但或許需要檢討一下日程表和任務(wù)。問一下這樣的問題:當(dāng)體育比賽的文本可以自動化生成的時候,我們早晨是否需要這么多的員工?我們需要當(dāng)下這么多數(shù)量的自由撰稿人嗎?我們除了常規(guī)報道之外,還有其他什么可以做嗎?哪一些可以增加價值?等等。
(8)想想“新聞價值”
紙質(zhì)產(chǎn)品的新聞價值與數(shù)字媒體環(huán)境中產(chǎn)生的新聞價值是不一樣的。過去的時間里,新聞結(jié)構(gòu)和工作流程已經(jīng)發(fā)生了很大的變化。與此同時,新聞價值和呈現(xiàn)新聞事件的方式也已經(jīng)發(fā)生了巨大的變化。同一則新聞根據(jù)不同的受眾,有不同的角度。
RADAR是Urbs Media和英國新聞通訊社報業(yè)協(xié)會合作建立的地方新聞社,它撰寫發(fā)布本地新聞報道。RADAR同時利用人工和自動化來生產(chǎn)數(shù)據(jù)驅(qū)動的本地新聞,以此為全英國的出版商供稿。RADAR的NLG系統(tǒng)基于一家名為Arria公司的NLG工具。該系統(tǒng)的輸入內(nèi)容來自公共的公開數(shù)據(jù)。RADAR的NLG系統(tǒng)中含Urbs Media記者編寫的文本模板,每個模板可用于數(shù)百個不同的故事。
早在2016年里約奧運(yùn)會,The Washington Post(《華盛頓郵報》)就開發(fā)了一項名為Heliograf的自然語言系統(tǒng)。這個NLG系統(tǒng)可以自動生成簡短的句子。之后,Heliograf被應(yīng)用于其他有大量數(shù)據(jù)的新聞領(lǐng)域,比如選舉、犯罪、房地產(chǎn)等等。
Heliograf的產(chǎn)品總監(jiān)表示,新聞自動化技術(shù)極大地擴(kuò)大了新聞報道的廣度,其負(fù)責(zé)處理每日新聞報道,這使得新聞工作者可以將更多精力放在深度報道上。
2017年,三語(芬蘭語、瑞典語、英語)機(jī)器人Valtteri被首次應(yīng)用在芬蘭市政選舉的新聞報道中,它沒有預(yù)設(shè)的故事結(jié)構(gòu),通常會根據(jù)數(shù)據(jù)自主決定新聞故事。不僅如此,機(jī)器人還提供個性化新聞,讀者可以用它來搜索和查找有關(guān)地理區(qū)域、政黨和候選人的新聞。
數(shù)據(jù)表明,Valtteri制作了超過200萬條三語新聞報道。如果,一位經(jīng)驗豐富的記者花費(fèi)一個小時撰寫同等質(zhì)量的稿件,這相當(dāng)于一位記者花費(fèi)1000個工作周(以40個小時為一周工作量計算)的工作量。
在過去五年間,大量研究旨在了解人們?nèi)绾慰创詣由傻男侣剝?nèi)容。其中一個重點(diǎn)討論的議題是:當(dāng)人們被告知內(nèi)容是機(jī)器產(chǎn)生或由記者產(chǎn)生之時的感知區(qū)別。對于用戶感知的評價方式有很多種,其中Sundar給出的方法為很多研究者所使用。Sunder提取了21項衡量標(biāo)準(zhǔn)并將近似的標(biāo)準(zhǔn)分組,形成了4個方面,包括credibility(可信性)、liking(喜好)、quality(質(zhì)量)和representativeness(代表性)等。
以韓國為例,最近二十年來,韓國在機(jī)器人和自動化過程中進(jìn)行了大量的投入。學(xué)者Jung研究發(fā)現(xiàn),文化背景對于研究機(jī)器新聞的受眾反應(yīng)影響甚大。在韓國,調(diào)查顯示,相較于人工撰寫的內(nèi)容,人們更信賴自動化生成的內(nèi)容。原因是,記者和新聞媒體常常與貪污腐敗掛鉤。韓國民眾對新聞媒體的信賴程度很低。
至于媒體自身對于新聞自動化的感受,筆者在采訪了芬蘭和瑞典的記者之后發(fā)現(xiàn),他們反映的影響是雙重的。首先,接受采訪的記者們認(rèn)為,自動化提高了其媒體自身的新聞內(nèi)容產(chǎn)量。而且它可以幫助記者從數(shù)據(jù)中挖掘此前沒能發(fā)現(xiàn)的選題和新聞故事。其次,新聞自動化可以幫助生產(chǎn)那些原本需要從外部購買的新聞內(nèi)容。比如,那些從自由記者處獲得的氣象報告和體育比賽故事等等。當(dāng)然,需要注意的是,新聞自動化并不能顯著地保持或提升媒體品牌。
對于媒體來說,一個最需要考慮的事是這套系統(tǒng)的來源:是從供應(yīng)商處“直接購買”,還是內(nèi)部研發(fā)?如果“直接購買”,媒體公司就會受到供應(yīng)商的支配。這個問題與媒體公司的規(guī)模和它擁有的資源有關(guān)。此外,倫理問題(如數(shù)據(jù)、事實的選擇、自律)和透明度也是需要同時考慮的問題。
對于新聞媒體機(jī)構(gòu)來說,特定的規(guī)則、流程和價值是維持新聞機(jī)構(gòu)生存和運(yùn)行的關(guān)鍵特性。當(dāng)面對潛在的巨大轉(zhuǎn)變,比如新聞自動化,一個整合所有這些新工具和產(chǎn)品并能讓其反映新聞機(jī)構(gòu)本身組織特性的戰(zhàn)略,就顯得尤為重要。例如,對于管理者來說,自動化提高了管理者對于不同部門之間連接和溝通的要求;或者協(xié)調(diào)外部參與者,以保證其提供的服務(wù)能匹配媒體內(nèi)部的價值觀和流程。
Tom Kent曾經(jīng)是2014—2015年美聯(lián)社自動化項目的負(fù)責(zé)編輯之一。在2015年的一篇博文中,他分享了一些他認(rèn)為編輯在嘗試和使用自動化新聞寫作時候需要考慮的事,并就以下幾個方面提出了相關(guān)的問題:
這些數(shù)據(jù)可信嗎?潛在的數(shù)據(jù)包含什么?供應(yīng)商對數(shù)據(jù)是否進(jìn)行了合理的傳送和處理?供應(yīng)商有合法權(quán)利將數(shù)據(jù)傳送給你嗎?你是否有進(jìn)一步的權(quán)利來處理和發(fā)布這些數(shù)據(jù)?如果有的話,在哪些平臺上?等等。
你確定你有權(quán)限使用自動化系統(tǒng)獲取的圖片嗎?你如何避免那些與你的標(biāo)準(zhǔn)不符合的諷刺和仇恨類的圖片?你如何確定圖片和視頻適合實際的事件?
你會比較什么類型的信息?算法會強(qiáng)調(diào)哪些數(shù)據(jù)?你將如何使自動化內(nèi)容與其他內(nèi)容在拼寫、整體寫作風(fēng)格和大小寫方面保持一致?
如何測試錯誤?人工編輯會在發(fā)布前測試每一篇故事嗎?誰來維護(hù)數(shù)據(jù)和復(fù)查算法做的決定?誰在看著機(jī)器,多久一次,以及多長時間?
你會告訴讀者一篇故事是自動化生成的嗎?你會如何存檔自動化內(nèi)容,以便你解釋任何一篇故事是怎樣產(chǎn)生的?你愿意透露你的軟件是如何操作的嗎?你愿意分享源代碼嗎,還是你認(rèn)為這是一種專有信息?
Diakopoulos認(rèn)為,新聞自動化的未來在于對新聞業(yè)基本原則的解構(gòu)。這意味著,將新聞工作過程分解為實際的信息產(chǎn)品和微型的過程,從而能夠分析什么可以被自動化,哪一些本質(zhì)上是人工任務(wù)。通過仔細(xì)地解構(gòu)任務(wù),包含自動化和人工努力的混合系統(tǒng)可以更好地提升效率,降低成本,從而保證新聞質(zhì)量、抵制商品化。通過與新聞自動化專家的討論,綜合研究者自己的思考,報告給出了有關(guān)自動化內(nèi)容實施和開展過程中的一些現(xiàn)實挑戰(zhàn):
(1)超越最基本模板性系統(tǒng)的自動化生成文本仍然有產(chǎn)生錯誤的傾向。有效的自動化內(nèi)容應(yīng)該考慮到自動化可能產(chǎn)生的一些不熟悉或陌生的錯誤,并在這一過程中配備適當(dāng)?shù)木庉嫳O(jiān)督、管理和維護(hù)職能。
(2)NLG系統(tǒng)仍然不是完美無缺的,而且它在有關(guān)體育、房地產(chǎn)和金融等內(nèi)容上的延展性受到多種因素的制約。對于設(shè)計類似政治議題這樣不確定主題的敘述非常困難。即便是對于話題范圍較窄、能夠清晰理解并明確定義的主題來說,系統(tǒng)精細(xì)的設(shè)計和建造還是很有必要的。
(3)有趣和有用的數(shù)據(jù)的可用性是一個比較大的問題,因為一些強(qiáng)大的私人利益集團(tuán)嘗試控制和商業(yè)化這些數(shù)據(jù)。媒體公司需要為獲得更多的公共和私人數(shù)據(jù)付出更大努力。與此同時,媒體們也需要通過創(chuàng)造和合作的方式來獲得更多獨(dú)有的數(shù)據(jù)集,以此能夠生成更多有趣的、具有商業(yè)價值的內(nèi)容。
(4)新聞自動化為媒體公司提供了在傳統(tǒng)新聞業(yè)務(wù)之外拓展其他業(yè)務(wù)的可能性。傳統(tǒng)媒體機(jī)構(gòu)或許可以通過孵化自動化項目獲取收益。
(5)NLG系統(tǒng)的靈活性還是有所欠缺,特別是對于聊天機(jī)器人或其他聊天/收聽機(jī)器設(shè)備(如Alexa)而言,需要大量昂貴的開發(fā)工作。這也是為什么類似Alexa之類的機(jī)器只支持少部分語言版本的原因。
(6)自動化新聞的個性化是每一個出版商的夢想。這需要大量的用戶檔案信息和基于線上線下行為的預(yù)測模型。在更長的時期內(nèi),媒體公司必須決定他們是否參與更深層次的用戶模型構(gòu)建,以此來實現(xiàn)更廣泛的個性化自動內(nèi)容生產(chǎn)。
(7)從大量的數(shù)據(jù)集中提取觀點(diǎn)幫助記者撰寫有趣故事,有可能是新聞自動化最有用的應(yīng)用。自動化可以通過自動化分析、部分內(nèi)容撰寫和其他精細(xì)工具幫助記者和編輯撰寫有趣的內(nèi)容。不過,在自動化實際運(yùn)作的過程中有一個風(fēng)險是,自動化可能會給記者產(chǎn)生更多的工作量,而非使他們從常規(guī)工作中解放出來。