■文/龔雋鵬 任文 張鵬洲
?
機(jī)器寫作在新聞?lì)I(lǐng)域應(yīng)用的思考
■文/龔雋鵬 任文 張鵬洲
摘 要:機(jī)器寫作應(yīng)用以勢(shì)如破竹的姿態(tài)登上新聞舞臺(tái),預(yù)示著新聞行業(yè)的又一次大變革。機(jī)器寫作是通過程序算法即基于自然語(yǔ)言生成技術(shù)將數(shù)據(jù)庫(kù)中的數(shù)據(jù)信息生成文本信息輸出的一種應(yīng)用技術(shù),快速準(zhǔn)確地實(shí)現(xiàn)了金融、體育行業(yè)新聞稿件的撰寫。機(jī)器新聞寫作已經(jīng)成為新聞行業(yè)的新風(fēng)潮,在財(cái)經(jīng)、體育領(lǐng)域開始大展身手。本文針對(duì)機(jī)器寫作新聞行業(yè)的應(yīng)用進(jìn)行思考,對(duì)機(jī)器新聞寫作進(jìn)行一個(gè)總覽與展望,希望該技術(shù)在將來可以應(yīng)用到更多的領(lǐng)域服務(wù)人類、服務(wù)社會(huì)。
關(guān)鍵詞:機(jī)器新聞寫作;自然語(yǔ)言生成;機(jī)器寫作
本文系為北京市科學(xué)技術(shù)委員會(huì)2016年專項(xiàng)項(xiàng)目《基于類腦知識(shí)圖譜的中文新聞自動(dòng)寫作系統(tǒng)研發(fā)與示范應(yīng)用》成果,課題編號(hào): Z16110000021614 ;國(guó)家新聞出版廣電總局科研項(xiàng)目《廣播電視監(jiān)測(cè)監(jiān)管數(shù)據(jù)挖掘與多維度檢索研究》,項(xiàng)目號(hào):2014-41。
機(jī)器寫作追本溯源要推至20世紀(jì)50年代,源自機(jī)器內(nèi)容翻譯的研究。20世紀(jì)60年代,為了驗(yàn)證指定的語(yǔ)法理論的正確性和轉(zhuǎn)換生成語(yǔ)法的有效性,學(xué)者開始研究使用機(jī)器生成與上下文無關(guān)語(yǔ)法的句子;20世紀(jì)70年代,計(jì)算機(jī)技術(shù)應(yīng)用領(lǐng)域的拓展催發(fā)了其他領(lǐng)域機(jī)器寫作的研究,如在游戲中利用機(jī)器寫作生成游戲說明文本,同時(shí)學(xué)者開始嘗試機(jī)器生成孤立句和復(fù)述自然語(yǔ)言;20世紀(jì)80年代,機(jī)器寫作技術(shù)得到了突飛猛進(jìn)的發(fā)展,并逐步開始應(yīng)用于段落、篇章的生成,文本規(guī)劃的概念首次提出;20世紀(jì)90年代,文本規(guī)劃器和語(yǔ)言實(shí)現(xiàn)器的提出與實(shí)現(xiàn)促使機(jī)器寫作開始應(yīng)用到更多的領(lǐng)域中,如在軍事上生成軍事報(bào)告,氣象局生成天氣預(yù)報(bào)等等;21世紀(jì)初,機(jī)器寫作技術(shù)基本成熟,各個(gè)領(lǐng)域也開始加快研究步伐,在醫(yī)療、新聞、教育等領(lǐng)域開始實(shí)現(xiàn)機(jī)器寫作系統(tǒng),機(jī)器新聞寫作甚至于投入市場(chǎng),對(duì)新聞行業(yè)產(chǎn)生了極大的沖擊與挑戰(zhàn)。
機(jī)器新聞寫作是機(jī)器寫作中的一個(gè)應(yīng)用,是目前機(jī)器寫作應(yīng)用中關(guān)注度最高的。機(jī)器新聞寫作最早的雛形是“Google News”,“Google News”本質(zhì)上其實(shí)是一款web的新聞聚合器,通過聚合算法進(jìn)行首頁(yè)的更新和新聞推薦[1]。但是機(jī)器新聞寫作的本質(zhì)是新聞內(nèi)容的實(shí)現(xiàn)是基于計(jì)算機(jī)算法程序的,計(jì)算機(jī)實(shí)現(xiàn)類似人腦的功能,將前期新聞采訪的信息進(jìn)行新聞稿件的創(chuàng)作,而不是像 “Google News”僅僅對(duì)生成的新聞進(jìn)行聚合更新。所以“Google News”只能稱作為機(jī)器寫作的雛形,2014年地震機(jī)器人發(fā)布地震新聞報(bào)道,Automated Insights借助Wordsmith 平臺(tái)發(fā)布財(cái)經(jīng)報(bào)道,才在真正意義上將機(jī)器新聞寫作推向了新聞報(bào)道的舞臺(tái)。
所謂“機(jī)器寫作”,又稱“機(jī)器人寫作”,是指自動(dòng)根據(jù)算法將目標(biāo)數(shù)據(jù)通過自然語(yǔ)言生成的方式輸出文章的一種人工智能技術(shù),核心在于自然語(yǔ)言生成技術(shù)。“機(jī)器新聞寫作”則是使用這種技術(shù)進(jìn)行新聞寫作,是人工智能學(xué)科在新聞?lì)I(lǐng)域的應(yīng)用[2]。簡(jiǎn)單來說機(jī)器寫作是機(jī)器基于自然語(yǔ)言生成技術(shù)實(shí)現(xiàn)自動(dòng)生成文本的過程,這個(gè)過程就是讓機(jī)器模擬人腦實(shí)現(xiàn)撰寫文本功能的算法程序。機(jī)器新聞寫作是機(jī)器寫作在新聞?lì)I(lǐng)域的應(yīng)用,即使用機(jī)器創(chuàng)作新聞稿件。
機(jī)器寫作還是一門很年輕的學(xué)科,雖然研究的歷史不斷,但真正實(shí)現(xiàn)文本生成并投入市場(chǎng)應(yīng)用還是在近二十年間。機(jī)器寫作最早源自于機(jī)器翻譯,隨著機(jī)器寫作技術(shù)的發(fā)展推動(dòng)了機(jī)器翻譯在多語(yǔ)種間準(zhǔn)確性、實(shí)時(shí)性方面的進(jìn)步。機(jī)器寫作在各個(gè)領(lǐng)域開始發(fā)揮自己的魅力,如在軍事領(lǐng)域中撰寫先行號(hào)令;在教育中為在線學(xué)習(xí)生成問答文本;在氣象中生成天氣預(yù)報(bào);在醫(yī)療中生成病例記錄;在知識(shí)查詢系統(tǒng)中生成食譜,植物介紹等;在導(dǎo)航系統(tǒng)中生成景點(diǎn)問答等等。
機(jī)器寫作在新聞中的發(fā)展和應(yīng)用是最迅速和廣為人知的。2002年,美國(guó)在阿富汗戰(zhàn)場(chǎng)中使用機(jī)器人輔助進(jìn)行采訪記錄,保障了記者采訪信息的安全性、全面性、速度性;2006年Thomson Reuters集團(tuán)網(wǎng)站宣稱使用算法在本網(wǎng)站自動(dòng)編撰財(cái)政新聞;2007年,Statsheet成立,成為美國(guó)第一家致力于自動(dòng)化生產(chǎn)新聞的公司,即Automated Insights公司的前身。2010年美國(guó)的Automated Insights公司研發(fā)的Wordsmith投入市場(chǎng),這是一款使用自然語(yǔ)言生成技術(shù)的平臺(tái),同年美國(guó)的Narrative Science公司將同樣基于自然語(yǔ)言生成技術(shù)的軟件Quill投放市場(chǎng)。2010年春季,Narrative Science公司開始采用自然語(yǔ)言生成軟件生成體育比賽簡(jiǎn)要報(bào)道。在2009~2010年賽季的足球比賽中,該公司使用該軟件撰寫的賽事報(bào)道占40%,并被美國(guó)十大電視網(wǎng)使用。2014年3月18日,一則關(guān)于地震的新聞報(bào)道震驚了世人,這個(gè)報(bào)道是在美國(guó)加州發(fā)生地震后的8分鐘由《洛杉磯時(shí)報(bào)》發(fā)出的,重點(diǎn)是這則新聞是由地震新聞自動(dòng)生成系統(tǒng)Quakebot生成的。同年7月,美聯(lián)社聯(lián)合美國(guó)自動(dòng)透視公司使用Wordsmith平臺(tái)在博客中發(fā)布了《季度營(yíng)收?qǐng)?bào)道方面的一大飛躍》,此后該公司開始撰寫公司財(cái)報(bào)新聞,并以每月撰寫3000篇新聞報(bào)告的速度開始了工作。2015年9月10日,騰訊公司發(fā)布了《8 月CPI同比上漲2%創(chuàng)12個(gè)月新高》的新聞報(bào)道,成為國(guó)內(nèi)首個(gè)機(jī)器新聞寫作的嘗試者[2]。該篇新聞包含了公眾較為關(guān)心的統(tǒng)計(jì)數(shù)據(jù),包括豬肉、鮮菜和蛋類食品的價(jià)格漲幅,數(shù)據(jù)選取于國(guó)家統(tǒng)計(jì)局,并且在新聞稿件中有高級(jí)統(tǒng)計(jì)師余秋梅的評(píng)論建議,撰寫這篇新聞的是機(jī)器人Dreamwriter,用時(shí)僅一分鐘;2015年11月7日,新華社推出“快筆小新”機(jī)器人,供職于體育部、經(jīng)濟(jì)信息部和中國(guó)證券報(bào)。越來越多的機(jī)器人開始加入新聞行業(yè)撰寫新聞,這是一場(chǎng)新的技術(shù)革命,也預(yù)示著新聞行業(yè)開始走向自動(dòng)化生產(chǎn)階段。
機(jī)器新聞寫作的出現(xiàn)給新聞行業(yè)帶來一場(chǎng)沒有硝煙的戰(zhàn)爭(zhēng),在將記者從繁重工作中解放的同時(shí),也給新聞工作者帶來了恐慌。機(jī)器新聞寫作的實(shí)現(xiàn)是不是預(yù)示著記者的失業(yè)?事實(shí)上,這是不可能發(fā)生。機(jī)器新聞寫作作為一種新的智能工作為新聞?lì)I(lǐng)域注入了新的動(dòng)力,它的實(shí)現(xiàn)徹底改變了傳統(tǒng)新聞稿件創(chuàng)作的模式。機(jī)器寫作將代替我們?nèi)ブ貜?fù)撰寫基本新聞稿件,記者更多地去做更高深有意義的工作。我們需要建立一個(gè)全新的新聞創(chuàng)作系統(tǒng),系統(tǒng)完美融合機(jī)器和人類并為人類和機(jī)器合理安排崗位,最大力度地發(fā)揮機(jī)器新聞寫作的長(zhǎng)處,共同創(chuàng)作新聞業(yè)的新春天。機(jī)器寫作主要有以下幾個(gè)優(yōu)勢(shì)促進(jìn)新聞稿件的創(chuàng)作。
優(yōu)勢(shì)一:實(shí)時(shí)快速
目前,因?yàn)樾旅襟w的出現(xiàn),新聞消息的速度得到了快速的提升。作為新聞行業(yè)的競(jìng)爭(zhēng)者,新聞報(bào)道的快速、實(shí)時(shí)成為占領(lǐng)頭條的法寶。在信息化透明的今天,面對(duì)同樣的信息資源,速度和及時(shí)性成為了人工的弱點(diǎn),機(jī)器新聞寫作的出現(xiàn)彌補(bǔ)了這些缺點(diǎn)。首先使用機(jī)器新聞寫作將需要的信息輸入數(shù)據(jù)庫(kù)中,機(jī)器將自動(dòng)生成信息,人對(duì)生成的稿件進(jìn)行審查,僅需幾分鐘就可以發(fā)布新聞;其次機(jī)器新聞寫作不僅可以大幅度地提高新聞報(bào)道生成的速度,同時(shí)善于應(yīng)對(duì)突發(fā)事件,保障在行業(yè)競(jìng)爭(zhēng)中立于先機(jī)。如2014年,美國(guó)加州早上六點(diǎn)二十五分發(fā)生地震,《洛杉磯時(shí)報(bào)》員工在地震發(fā)生8分鐘后將這一消息發(fā)布在全美媒體上,這個(gè)消息是由地震機(jī)器人自動(dòng)生成,人工點(diǎn)擊發(fā)送的。它在一定程度上給人們帶來了安撫,避免更多的人卷入災(zāi)害。
優(yōu)勢(shì)二:低成本
在大數(shù)據(jù)時(shí)代,新聞報(bào)道的需求量不斷增加,但大量報(bào)道的撰寫其實(shí)是一種機(jī)械重復(fù)的工作,這大大加重了撰寫者的負(fù)擔(dān),浪費(fèi)了很多的勞動(dòng)力。機(jī)器新聞寫作在一定程度上把人力解放出來,使得人們有更多的精力去做更重要的事情。同時(shí)機(jī)器新聞寫作的勞動(dòng)力是機(jī)器人,機(jī)器人可以不知疲倦地日夜工作,永不停歇,這在一定程度上減低了勞動(dòng)力成本,大大降低了新聞報(bào)道生成的成本,人類只需要對(duì)生成的報(bào)道進(jìn)行人工審查即可。
機(jī)器新聞寫作的實(shí)現(xiàn),推動(dòng)了新聞行業(yè)質(zhì)量的提升。在新聞行業(yè)中,新聞的準(zhǔn)確性、價(jià)值性特點(diǎn)可以加大力度發(fā)展。近些年來,龐大的新聞稿件撰寫,促使撰寫者不得不集中更多的精力去拼量,而在質(zhì)的方面有所放松。機(jī)器新聞寫作的實(shí)現(xiàn)解放了撰寫者的雙手,將他們從繁重的體力勞動(dòng)中解放出來,他們有更多的精力去思考撰寫以外的工作,如可以有很多的精力去尋找更好的新聞信息,發(fā)現(xiàn)更好的新聞?lì)}材、表達(dá)方式,挖掘更多的新聞價(jià)值等等。機(jī)器新聞寫作的實(shí)現(xiàn)不僅在勞動(dòng)力上幫助人類,還在一定程度上推動(dòng)新聞的發(fā)展,對(duì)新聞的升華奠定了基礎(chǔ)。
優(yōu)勢(shì)三:客觀公平
毋庸置疑,人在撰寫新聞稿件的時(shí)候會(huì)不可避免地帶入人的主觀感情,雖然很微弱,但足以造成人們對(duì)新聞稿件的理解出現(xiàn)偏差。機(jī)器新聞寫作在一定程度上可以完全做到客觀性,只要沒有人工的事前事后干預(yù),機(jī)器新聞寫作實(shí)質(zhì)上就是對(duì)信息的一種結(jié)構(gòu)化輸出,這樣傳達(dá)到民眾身邊的信息就是客觀公正的。
機(jī)器寫作在新聞?lì)I(lǐng)域中日漸成熟,但縱觀應(yīng)用主要以財(cái)金、體育領(lǐng)域見長(zhǎng)。究其源頭是技術(shù)上的遭遇限制。機(jī)器新聞寫作目前的基本流程是基于模板生成新聞稿件,即新聞稿件的內(nèi)容框架取決于模板,造成新聞稿件的模板化。模板化的生成造成新聞稿件的應(yīng)用類型受限,規(guī)范化的新聞資訊稿件如天氣預(yù)報(bào)、體育賽事和財(cái)經(jīng)年報(bào)等,機(jī)器可以準(zhǔn)確高效的撰寫,娛樂八卦新聞、健康知識(shí)、社會(huì)新聞等內(nèi)容比較自由的新聞稿件則需要更多的精力實(shí)現(xiàn)。同時(shí),因?yàn)榧夹g(shù)上的不足使得新聞稿件缺失一定的價(jià)值性和人情味。目前機(jī)器無法建立自己的價(jià)值觀和情感系統(tǒng),無法在自動(dòng)生成新聞稿件的過程中發(fā)現(xiàn)新的價(jià)值點(diǎn),為不同的信息賦予不同的感情色彩,這使得生成的稿件只是一種信息的傳遞,而不是一種信息的發(fā)現(xiàn),這種生硬的消息已無法滿足人類的需求,阻礙機(jī)器新聞寫作的應(yīng)用推廣。
機(jī)器新聞寫作的模板化是目前機(jī)器新聞寫作最大的問題,改變模板化是目前亟須解決的關(guān)鍵。機(jī)器寫作的核心自然語(yǔ)言生成流程分為三個(gè)階段,第一階段是內(nèi)容規(guī)劃——決定文本的內(nèi)容和結(jié)構(gòu)。在目前機(jī)器新聞寫作中使用的都是基于模板的,通過改進(jìn)生成結(jié)構(gòu)的方法改進(jìn)文本,如使用Schema技術(shù)、修辭結(jié)構(gòu)語(yǔ)法技術(shù)等來構(gòu)建文本結(jié)構(gòu),使得文本的結(jié)構(gòu)變得靈活多變,就可以在根本上解決文本模板化的缺陷。此外,在算法程序中添加一定的篩選機(jī)制彌補(bǔ)生成機(jī)制中判定機(jī)制缺失,確保生成的新聞是不會(huì)攜帶負(fù)面能量,適合人類閱讀。
機(jī)器寫作的實(shí)現(xiàn)對(duì)社會(huì)是一場(chǎng)改革,也代表機(jī)器自動(dòng)化的發(fā)展前進(jìn)了一大步,這種現(xiàn)狀引起的不僅僅是歡呼還有擔(dān)憂。機(jī)器新聞寫作的應(yīng)用讓記者擔(dān)心丟失工作,谷歌圍棋人工智能AlphaGo以4:1打敗韓國(guó)棋手李世石,讓人們驚呼機(jī)器人將要統(tǒng)治人類,這都揭示了我們要制定相關(guān)的法律去約束機(jī)器人的行為,更好地管理機(jī)器,讓機(jī)器寫作成為人類的一把利器,在報(bào)業(yè)、通訊業(yè)中發(fā)光發(fā)熱。
目前新華社已有機(jī)器人“快筆小新”供職于財(cái)經(jīng)、體育報(bào)道生成中,我們還可以將機(jī)器人投入信息財(cái)經(jīng)、整理、傳播中。機(jī)器寫作供職線上問答,信息資訊等新聞?lì)I(lǐng)域,還可以生成信息文本摘要制作頭條。在未來,我們將與機(jī)器一起工作學(xué)習(xí),共同服務(wù)于人類,服務(wù)于社會(huì)。
本文對(duì)機(jī)器新聞寫作技術(shù)的應(yīng)用進(jìn)行了一個(gè)簡(jiǎn)單的介紹,機(jī)器新聞寫作可以快速準(zhǔn)確地創(chuàng)作稿件,將人類從繁重的工作中解脫出來,但應(yīng)用的局限也引發(fā)了思考,我們要發(fā)揮機(jī)器新聞寫作的優(yōu)勢(shì),改進(jìn)彌補(bǔ)它的缺點(diǎn),使得機(jī)器寫作技術(shù)更好地應(yīng)用在各個(gè)領(lǐng)域中,妥善處理機(jī)器人與人類的關(guān)系,創(chuàng)建一個(gè)寫作平臺(tái),合理分工,讓機(jī)器人和人類和諧工作,更大力度地實(shí)現(xiàn)機(jī)器新聞寫作的價(jià)值。
參考文獻(xiàn)
[1] 付松聚.我國(guó)首創(chuàng)機(jī)器新聞與人工新聞寫作之實(shí)證性研究—— 以 8 月CPI 新聞報(bào)道為例[J].傳媒觀察,2015.
[2] 蔣枝宏. 傳媒顛覆者:機(jī)器新聞寫作[J] .新聞研究導(dǎo)刊,2016.
[3] 喻國(guó)明 .“機(jī)器新聞寫作”帶動(dòng)傳媒新變局[J].新聞采編,2015.
[4]孫瑛.機(jī)器人新聞:一種基于大數(shù)據(jù)的新聞生產(chǎn)模式[J],編輯之友,2016.
(作者單位:中國(guó)傳媒大學(xué))
中圖分類號(hào):G210.7
文獻(xiàn)標(biāo)識(shí)碼:A