【摘要】 隨著技術的發(fā)展,越來越多的新聞媒體希望通過先進的技術來提高發(fā)稿數(shù)量,提升新聞服務質(zhì)量。美聯(lián)社已經(jīng)采用稿件自動生成軟件撰寫財經(jīng)、體育類稿件。本文研究了自動生成稿件所采用的關鍵技術、主要應用模式及未來的應用展望,并探討了此類技術在中文領域的實踐。
【關鍵詞】 自動生成稿件 智能語義分析 知識概念模型
隨著技術的發(fā)展,越來越多的新聞媒體希望通過先進的技術來實現(xiàn)用機器取代人力,提高發(fā)稿數(shù)量,提升新聞服務質(zhì)量。 美聯(lián)社、彭博社、洛杉磯時報等媒體已經(jīng)在體育、財經(jīng)、天氣等領域實現(xiàn)了“機器人寫新聞”。
一、關鍵技術
1.1數(shù)據(jù)抽取與挖掘技術
該技術對海量數(shù)據(jù)進行結構化處理、清洗,形成高質(zhì)量的結構化數(shù)據(jù),通過對結構化數(shù)據(jù)的抽取、計算及統(tǒng)計,根據(jù)模板實現(xiàn)自動寫稿功能。
1.2知識概念模型技術
利用該技術能夠對新聞稿件、分析報告等作者進行行為分析,從海量數(shù)據(jù)中抽取出記者、編輯、分析師在知識經(jīng)驗、思維邏輯、推理規(guī)則等方面的專家智慧,將專家智慧轉換成計算機能夠識別并處理的數(shù)據(jù),從而形成支持高效查詢、存儲管理,可用于挖掘分析的專家智慧數(shù)據(jù)。
1.3結合智能語義分析的大數(shù)據(jù)分析技術
該技術是結合語義計算等人工智能方法的綜合性技術,將人對事物概念、事物間的關系、事物屬性的描述、事物間相互影響和影響的傳遞規(guī)則等形成一個框架,將自然語言的詞匯附著在這個框架上,二者結合就可以在文章中發(fā)現(xiàn)上述內(nèi)容并結構化的抽取出來,也可以依據(jù)上述框架結合模板生成更加豐富的自然語言。依托專家智慧數(shù)據(jù)對海量數(shù)據(jù)進行規(guī)模化處理,模仿專家的行為在海量數(shù)據(jù)中發(fā)現(xiàn)和挖掘有價值的信息并抽取出來,自動生成包括原因、結論、推測等深度內(nèi)容的新聞和報告,應用范圍廣泛,不局限于財經(jīng)、體育等領域。隨著專家智慧數(shù)據(jù)的積累,逐漸形成超越個人的超級“大腦”,其分析結果的價值也會越來越高。
二、主要應用現(xiàn)狀和展望
2.1利用高質(zhì)量結構化數(shù)據(jù)實現(xiàn)自動發(fā)稿
通過抓取、采購等形式獲取高質(zhì)量結構化的數(shù)值型數(shù)據(jù),使用行業(yè)領域專家提供的計算公式和判別規(guī)則,在預先設置好的新聞模板中生成新聞或快訊,彭博社、洛杉磯時報也有類似的應用,主要應用于財經(jīng)、體育等能產(chǎn)生較為成熟的結構化數(shù)據(jù)的領域。
2.2自動生成適應多種媒介形式的稿件
對每篇新聞自動生成標簽和200字以內(nèi)的摘要,并能夠將稿件自動生成適用于網(wǎng)站、PAD、智能手機、短彩信等多種篇幅、多種格式的多篇稿件,在不增加人力成本的基礎上增加發(fā)稿數(shù)量和發(fā)稿形式。
2.3個性化自動生成稿件并推送
對用戶的閱讀內(nèi)容、閱讀習慣進行行為分析挖掘,獲得用戶喜好,根據(jù)用戶自定義的標簽及喜好,可以將同一篇稿件根據(jù)不同的喜好自動生成多篇不同報道角度、不同語言風格、不同篇幅的稿件,為用戶推送個性化的新聞,提高新聞推送的精確性,有效增強用戶粘性。
2.4根據(jù)素材智能化生成稿件
將采訪獲得的錄音通過語音識別技術轉換成文字材料,將文字材料、背景資料等原始素材與某個記者的專家智慧數(shù)據(jù)相結合,由計算機自動生成符合該記者風格的稿件,提高記者撰寫稿件的效率,提升報道的時效性。
三、在中文領域的實踐探討
1、利用結構化數(shù)據(jù)實現(xiàn)的自動發(fā)稿,主要依賴高質(zhì)量的結構化數(shù)據(jù)、明確無誤的結構化數(shù)據(jù)計算算法和公式以及新聞業(yè)務人員校對確認過的模板,比較容易做到極高的自動新聞生成的準確率和完全自動化。
2、在英文領域,自動新聞生成中的關鍵技術和方法日趨成熟,中文領域相關標準和技術由于中文的復雜度,不適合照搬英文領域的方法。目前中文領域智能化寫稿不太容易做到非常精準,但可以做到結論有依據(jù)、可解釋,這樣已經(jīng)足夠減輕記者、編輯工作強度,并提供足夠的規(guī)模化高附加值信息生成能力。
四、結束語
“機器人寫新聞”是一系列技術的一個落地應用,這些技術的核心價值是提供了一個專家智慧的持續(xù)積累方式,讓計算機處理大數(shù)據(jù)越來越智能。隨著技術的發(fā)展,高質(zhì)量的數(shù)據(jù)資產(chǎn)和智慧資產(chǎn)積累日益豐富,不僅能實現(xiàn)“機器人寫新聞”,還將會是深度報道、智庫及咨詢業(yè)務規(guī)?;_展的重要基礎。