任鼎
在2019年1月,習近平總書記在中共中央政治局第十二次集體學習時強調,探索將人工智能運用在新聞采集、生產、分發(fā)、接收、反饋中,全面提高輿論引導能力。機器新聞寫作作為人工智能與新聞業(yè)相結合的典型代表,是新聞業(yè)基于人工智能技術創(chuàng)新出的內容生產方式。在媒體競爭中,回歸優(yōu)質內容將是媒體內容生產的重要趨勢,新聞內容的高質量和多元化是其主要競爭力,這勢必會推動新聞內核的重歸。機器新聞寫作對搜集和輸入的數據信息進行自動化的分析、處理和加工,進而根據特定的場景生成一篇較為完整的新聞報道,通常包括數據挖掘、知識圖譜、自然語言處理、事理圖譜、神經網絡、深度學習等人工智能技術。
機器新聞寫作應用現(xiàn)狀
機器新聞寫作最早起源于美國,至今仍然以絕對的優(yōu)勢領先,中國在第二批發(fā)展浪潮中表現(xiàn)亮眼,瑞典、英國、法國、丹麥等國家緊隨其后。目前機器新聞寫作的話題較為局限,以體育競技與經濟熱點為主,包括體育賽況報告、財報解讀等,社會民生、自然災害、氣象變化等話題占比合計僅為30%。
在國外,美聯(lián)社、雅虎、華盛頓郵報、BBC新聞都已開始使用機器新聞寫作技術來負責稿件的生成,其中,華盛頓郵報的Heliograf軟件,只需編輯設置稿件模板,確定好關鍵詞便可完成稿件編寫,升級之后,可以用更加專業(yè)的評論語氣和分析事情的思路進行寫稿;BBC新聞實驗室的Juicer在2012年被首次引入,它的任務包括新聞快訊、視頻新聞、政府公告、社交媒體信息等在內的海量數據匯集,并進行自由調用,同時監(jiān)控著850余個媒體新聞源、政府信息源和部分互聯(lián)網新聞源,再將其分門別類以供寫稿使用。
中國的機器新聞寫作研究起步較晚,但發(fā)展迅速,新華社的“快筆小新”在擅長的體育和財經領域,編輯記者需要用15~30分鐘時間完成的稿件,小新只需要3~5秒鐘,而且小新可根據文字自動搜索資源庫匹配關聯(lián)性最強的圖片、視頻、音頻素材,自動制作成一段視頻,同時支持語言配音。封面新聞的小封機器人在2018年世界杯期間總共推送了世界杯相關資訊600多篇,獲得了全網總閱讀量超2億的成績。字節(jié)跳動Xiaomingbot作為首個3D多語言AI記者,除了新聞寫作的基本功能外,還被賦予了3D動畫形象,能夠配合文本內容完成多種語言的新聞播報任務。
機器新聞寫作技術支撐
人工智能的三大支撐為算力、數據與算法,機器新聞寫作同樣如此。算力被形容為支撐人工智能走向應用的“發(fā)動機”,芯片、加速計算、服務器等軟硬件技術和產品的完整系統(tǒng)提供超強算力,幫助算法快速運算出結果。數據作為大數據時代的基石,為人工智能的實際應用提供“燃料”,大數據具備5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。算法模型是人工智能落地的“承載體”,其復雜度不斷加深,解決問題的能力以及服務的業(yè)務場景也不斷增強。
硬件平臺支撐。在人工智能發(fā)展的早期階段,以能力訓練為核心,這一階段更多的計算負載集中在離線的數據中心。在進入大規(guī)模應用階段后,人工智能的能力賦能產品或行業(yè)解決方案,成為普適的應用技術,在這一階段將呈現(xiàn)“云+端”部署、分散化、終端化、場景化的特點,對算力的需求也將迅速增長,更加多元化。
媒體大數據云服務平臺基礎。媒體大數據云服務平臺涵蓋數據采集、數據挖掘、自然語言處理、計算機視覺處理等一系列的相關技術與理論,并對海量文、圖、音視頻數據進行統(tǒng)一采集、處理、存儲、檢索以及深度智能挖掘分析的大數據平臺。
數據采集。數據是起點,數據讓機器新聞寫作所需內容的關聯(lián)、預測、分析成為可能。數據采集為大數據平臺的基礎,廣泛、大量、多樣性的真實數據保障模型的學習訓練與優(yōu)化。
大數據平臺的數據源大致可以分為三類:互聯(lián)網公開采集數據、中央媒體新聞稿件、媒體單位內部數據。由于外部數據的獲取渠道不同,需要多種數據采集方式,以實現(xiàn)覆蓋新聞/視頻網站、微博、微信、移動新聞客戶端等多種媒體渠道的文、圖、音視頻的富文本數據采集。
大數據平臺建設。隨著智能媒體時代到來,傳統(tǒng)媒體正處于向新型智能媒體的轉型期。構建媒體大數據服務平臺為媒體單位的網站、官方微博、微信、移動新聞客戶端的運營提供強有力的數據支撐,也為機器新聞寫作提供底層數據支持,助力技術與傳統(tǒng)媒體和新媒體在新聞生產、內容傳播、技術創(chuàng)新、產品創(chuàng)新、服務創(chuàng)新等方面深度結合。
機器新聞寫作旨在特定的新聞報道場景下,如重大突發(fā)性事件、體育、財經等,可以快速地生產出內容,在這一過程中,并不否定人參與的重要性,而是通過機器新聞寫作得到完成度極高的稿件內容,在機器或者人工審核通過后進行最終發(fā)布。為了保障機器新聞寫作的成稿質量,數據的規(guī)范性以及標簽體系的構建顯得尤為重要,數據的準確性與代表性是模型學習訓練的關鍵,這對大數據平臺的建設提出了較高的要求。
非結構化數據的數據消重、垃圾信息過濾、非相關數據過濾、統(tǒng)一格式等多種數據處理操作,轉換為格式規(guī)范的數據,并存入數據資源池。自然語言處理技術與計算機視覺處理技術實現(xiàn)文本數據的多維挖掘分析,以及圖像內容的提取分析識別處理。
圍繞當前媒體融合發(fā)展的趨勢,針對不同行業(yè)以及媒體單位屬性構建符合其特點的分類標簽體系,對來自不同媒體渠道、不同表現(xiàn)形式、不同數據字段的多媒體數據進行分類與標注,從而快速發(fā)現(xiàn)互聯(lián)網熱點線索與信息,為機器新聞寫作提供方向與素材。
應用服務。脫離了應用場景的機器新聞寫作以及人工智能技術是沒有意義的,技術的發(fā)展更新迭代都是為了更好地服務業(yè)務場景的實際應用需要,技術、算法與模型的實際落地也需要同應用服務場景相結合。
算法模型支撐。算法是計算機科學領域最重要的基石之一,算法與模型自人工智能與機器新聞寫作技術提出以來就備受關注,諸多公司將算法作為企業(yè)的核心競爭力之一。算法按照模型訓練方式和解決任務不同可以劃分為很多類型,在具體的業(yè)務場景中,算法的選擇與使用也呈現(xiàn)出差異化的特點。
目前的機器新聞寫作大致可以分為兩類:一是將數據填空到系統(tǒng)模板形成新聞,模板是常量,數據是變量;二是從管理系統(tǒng)獲取數據,將數據進行分類、篩選、匯總、計算處理后,利用最終數據形成文本,主要適用于寫作財經類新聞文本?,F(xiàn)有機器新聞寫作報道算法缺乏針對深度報道、追蹤報道以及富文本形式報道的稿件生成算法,隨著短視頻的興起,針對短視頻的機器新聞寫作報道也將是大家關注的焦點。
新聞熱點發(fā)現(xiàn)與新聞素材匹配?;趦热菹嗨贫扔嬎隳P团c聚類算法模型,對大數據平臺中的素材進行相似度計算與內容聚類,快速發(fā)現(xiàn)互聯(lián)網新聞熱點線索,為機器新聞寫作提供內容創(chuàng)作方向。構建從語言、圖片和視頻到文本的跨模態(tài)語義映射和對齊,對未標注的原始數據進行自動精確的文本標注,將提取到的語義特征投影到深度特征空間進行面向語義理解的多層次的深度匹配,以實現(xiàn)在報道需求確定后,新聞素材的快速匹配。
新聞報道脈絡挖掘。以大數據平臺提供的新聞素材為數據基礎,事理圖譜與馬爾科夫隨機場為計算模型學習新聞報道事件間的因果關系,使模型實現(xiàn)自動識別新聞報道脈絡,并具備連續(xù)報道事件的能力。
典型新聞報道場景下新聞與短視頻生成。對語音、圖片、視頻數據的文本標注,結合知識圖譜技術與弱監(jiān)督學習的方法,融合多元信息,面向新聞素材領域的弱監(jiān)督遷移學習?;谧匀徽Z言生成算法和注意力機制,實現(xiàn)端到端學習自動生成新聞文本,自動選擇圖片與視頻素材,不斷提高學習網絡模型的魯棒性。最終形成面向多領域、多主題事件模型的泛化性,開展零次學習、主動學習與強化學習的模式。
在機器新聞寫作走向應用的過程中,以業(yè)務場景為核心,實現(xiàn)以最少的數據、最簡單的模型、最少的計算力解決最實際的問題,達到最好的效果。
機器新聞寫作評價體系
機器新聞寫作自2015年走入國內公眾的視野以來,已經歷了5年的發(fā)展,機器新聞寫作評價體系的建立對算法模型與數據質量的優(yōu)化將起到一定的指導性作用。目前,國內外還沒有針對機器新聞寫作評價體系的權威發(fā)布,對標傳統(tǒng)媒體內容與新媒體內容稿件的評價標準與指標權重體系,維度包含內容的完整性、準確性與時效性,內容安全,傳播效果以及寫稿的效率評估。
內容的完整性、準確性與時效性。在地震、爆炸、事故等重大突發(fā)性事件的報道工作中,基于其硬新聞的屬性,有極嚴格的時間要求,報道必須迅速、準確、信息盡可能量化,這類新聞一般帶有強烈的時效性、廣泛性和指向性。機器新聞寫作,可實現(xiàn)文字、圖片、短視頻等多媒體稿件與專題的自動生成,大大減少了新聞成稿的時間,也保證了內容的完整、準確與時效。
內容安全。在新聞的內容審核環(huán)節(jié),可以對文字、圖片、音視頻進行基于人工智能的內容審核,精準識別涉政、涉黃、涉暴、涉恐和敏感人物等信息,有效管控業(yè)務違規(guī)風險。
通過語法分析、語義分析、知識圖譜、規(guī)則模型以及檢索模型等技術實現(xiàn)稿件內容審查。解決常見的字詞差錯、標點差錯、政治性差錯、常識性差錯、中英文關鍵詞差錯等類型,實現(xiàn)自動查錯、手動糾錯,提示錯誤原因、修改建議,并可統(tǒng)計錯情、生成勘誤表。
傳播效果。機器新聞寫作的內容大多發(fā)布在新媒體渠道中,在早先學者的研究中,網絡新聞的傳播效果體現(xiàn)在:一是網民的新聞消費行為,二是網民的新聞生產行為,三是媒體的反應,并且提出了點擊量、網站訪問瀏覽量、網民搜索等網民消費行為的評估方式,網民評論、轉發(fā)、收藏、受眾調查等網民新聞生產行為的評估方式以及從媒體轉發(fā)量、媒體跟進報道兩個方面分析媒體反應與網絡新聞傳播效果的評估方式。
機器新聞寫作寫稿效率。機器新聞寫作需要與現(xiàn)媒體單位使用的數據庫、采編系統(tǒng)、發(fā)布系統(tǒng)、媒資系統(tǒng)等平臺以及環(huán)境相適配,確保順利運行。同時,作為新的生產工具,需要一定的可操作性與便捷性,才能更快地推動落地應用。
機器新聞寫作的優(yōu)勢與影響
新聞內容的生產方式在由PGC(媒體生產內容)到UGC(用戶生產內容),再到AGC(算法生產內容)的演變趨勢發(fā)展。機器新聞寫作依托數據與算法自動生成新聞稿件,避免了主觀因素導致的新聞失實,減輕新聞創(chuàng)作者的重復性工作,使新聞的生產與傳播更加高效,內容更加豐富。
真實、準確、客觀。新聞具有播散性與導向性,真實、準確、客觀是新聞報道工作的基本要求,在新聞生產過程中,為報道一篇作品,新聞人員需要對歷史新聞數據有基本的了解與掌握,而對于素材的收集整理歸類是一項需要時間的繁重且重復性工作。機器新聞寫作一是可以將新聞工作者從重復的素材整理工作中解脫出來,二是能提高內容生產的真實性、準確性與客觀性。
快速、高產。前文提到的美聯(lián)社使用的Wordsmith平臺,每秒甚至能生產2000篇文章,每周將可以寫出上百萬篇文章。財報報道的工作效率已經大大超過預期,在采用該平臺之前,每季度僅能夠完成300家企業(yè)的財報,而現(xiàn)在能夠完成3000家企業(yè)的報道。
對于地震、火災等突發(fā)性重大事件的報道,機器新聞寫作在報道速度方面體現(xiàn)了極大的優(yōu)勢。2017年,九寨溝地震的第一條新聞報道便來自于寫稿機器人,7.0級地震報道用時25秒,其他余震消息僅用時5秒。
結語
馬克思在《資本論》中提出:“社會勞動生產力首先是科學的力量。大工業(yè)把巨大的自然力和自然科學并入生產過程,必然會極大地提高勞動生產率?!比斯ぶ悄艿目焖侔l(fā)展給生產效率帶來了提升,諸多行業(yè)都享受到了這次技術革新帶來的紅利。在智能媒體時代,從新聞素材采集、數據處理與分類標簽、新聞報道選題策劃、富文本內容的生產編輯、新聞的發(fā)布與精準推送、新聞人員的績效考核,人工智能將參與到媒體行業(yè)的各個環(huán)節(jié)。
太極計算機股份有限公司深耕媒體行業(yè)20年,長期服務于媒體單位,見證并參與了媒體行業(yè)的技術發(fā)展及產業(yè)轉型,太極深刻地理解技術給媒體帶來的巨大影響。人工智能等新技術將持續(xù)賦能媒體應用,創(chuàng)新新聞創(chuàng)作、發(fā)布形式,太極將同媒體單位一起擁抱新技術,引領媒體融合的未來。
作者系太極計算機股份有限公司文旅戰(zhàn)略業(yè)務本部業(yè)務發(fā)展中心總經理