張守先 任鵬 李滿江
(1.半島都市報(bào)社,山東 青島 266071;2.濰坊日?qǐng)?bào)社,山東 濰坊 261000;3. 濰坊北大青鳥華光照排有限公司,山東 濰坊 261061)
新聞報(bào)道是及時(shí)傳播信息和監(jiān)督社會(huì)的重要方式,對(duì)社會(huì)發(fā)展非常重要。這要求新聞寫作高效和準(zhǔn)確,全天候產(chǎn)出大量高質(zhì)量新聞。然而,傳統(tǒng)新聞寫作完全依賴人工記者,效率比較低,難免會(huì)出現(xiàn)延遲和錯(cuò)誤,影響新聞的時(shí)效性和準(zhǔn)確性。同時(shí),傳統(tǒng)寫作也易受個(gè)人主觀因素影響,新聞報(bào)道的真實(shí)性和客觀性難以保證。
近年來,神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和生成模型等技術(shù)的快速發(fā)展,特別是預(yù)訓(xùn)練語言模型的出現(xiàn),使機(jī)器具有了比較強(qiáng)的語義理解能力和長文本生成能力。這為新聞自動(dòng)寫作提供了可能,有望提高新聞寫作的效率和客觀性。如基于seq2seq 和GPT 的方法實(shí)現(xiàn)了新聞?wù)蜆?biāo)題生成;基于BERT 的方法可以生成簡短的新聞文章。這些工作推動(dòng)了新聞自動(dòng)寫作技術(shù)的發(fā)展,但生成文本的連貫性或多樣性仍有提高的空間。
目前基于人工智能的新聞寫作,主要用于以下幾個(gè)方面。
(1)自動(dòng)化新聞撰寫:基于數(shù)據(jù)模板,生成如運(yùn)動(dòng)比賽、股票行情、天氣預(yù)報(bào)等自動(dòng)化新聞。
(2)財(cái)經(jīng)新聞編寫:根據(jù)金融數(shù)據(jù),自動(dòng)生成相關(guān)的財(cái)經(jīng)新聞、分析報(bào)道。
(3)影評(píng)撰寫:根據(jù)影片數(shù)據(jù)和評(píng)論材料,自動(dòng)生成影評(píng)文章。
(4)賽事新聞:根據(jù)體育賽事數(shù)據(jù),自動(dòng)生成球賽新聞、運(yùn)動(dòng)員數(shù)據(jù)分析等。
(5)新聞稿自動(dòng)編輯:輔助編輯進(jìn)行新聞寫作和修訂工作。
(6)新聞?wù)桑鹤詣?dòng)析出新聞文章的關(guān)鍵內(nèi)容摘要。
為實(shí)現(xiàn)新聞寫作的高效化、準(zhǔn)確化和客觀化,這個(gè)項(xiàng)目提出利用ERNIE 等預(yù)訓(xùn)練語言模型,通過大量新聞數(shù)據(jù)集的訓(xùn)練,實(shí)現(xiàn)高質(zhì)量新聞稿自動(dòng)生成的方法。ERNIE 是一種基于BERT 的語言表示模型,在長文本生成和多樣性方面有較強(qiáng)的能力。項(xiàng)目使用大規(guī)模新聞?wù)Z料庫訓(xùn)練ERNIE 新聞寫作模型,使其學(xué)習(xí)新聞文章的語法、詞匯、結(jié)構(gòu)和風(fēng)格等知識(shí)。在此基礎(chǔ)上實(shí)現(xiàn)高質(zhì)量新聞稿的自動(dòng)生成,以期達(dá)到與人工寫作相當(dāng)?shù)男Ч?/p>
這個(gè)項(xiàng)目的提出是基于新聞寫作需求和現(xiàn)有技術(shù)發(fā)展的考量。方案有望實(shí)現(xiàn)新聞采寫的自動(dòng)化與智能化,構(gòu)建高效、準(zhǔn)確與客觀的新聞報(bào)道體系。
新聞自動(dòng)寫作是自然語言生成的重要應(yīng)用之一。早期的工作主要基于模板和規(guī)則,生成效果比較差。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,特別是預(yù)訓(xùn)練語言模型的提出,新聞自動(dòng)寫作取得了比較大的進(jìn)展。對(duì)新聞自動(dòng)寫作而言,核心是訓(xùn)練一個(gè)能夠生成連貫、語法正確、主題明確的長文本的神經(jīng)網(wǎng)絡(luò)模型。具體來說,常用的技術(shù)路線包括。
(1)數(shù)據(jù)準(zhǔn)備:收集大規(guī)模的高質(zhì)量新聞文本數(shù)據(jù),包括新聞標(biāo)題、內(nèi)容、摘要等。并進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理。
(2)模型選擇:通常選擇基于Transformer 或LSTM 等結(jié)構(gòu)的預(yù)訓(xùn)練語言模型,如GPT、BERT 等,這類模型在長文本生成任務(wù)上效果較好。
(3)模型訓(xùn)練:使用新聞文本數(shù)據(jù)針對(duì)語言生成任務(wù)進(jìn)行模型精調(diào)。訓(xùn)練目標(biāo)是最大化生成新聞文本的鏈?zhǔn)礁怕省?/p>
(4)文本生成:給定新聞主題、關(guān)鍵詞等條件,模型自動(dòng)生成標(biāo)題和正文??梢陨梢黄暾男侣?,也可以只生成摘要等。
(5)生成文本后處理:對(duì)模型生成文本進(jìn)行語句規(guī)范化、語法糾錯(cuò)等后處理,提高可讀性。
(6)結(jié)果評(píng)估:從語法、邏輯、連貫性等方面評(píng)估生成文本的質(zhì)量,并反饋改進(jìn)模型。
關(guān)鍵的創(chuàng)新點(diǎn)是利用大規(guī)模預(yù)訓(xùn)練模型,讓模型學(xué)習(xí)新聞?wù)Z言的語法和風(fēng)格特征。相比以往基于模板的方法,預(yù)訓(xùn)練模型生成的新聞文本連貫性更好,逼近人工寫作效果。但仍需人工審核,以確保生成質(zhì)量。
基于seq2seq 模型的方法可以生成新聞?wù)蜆?biāo)題,但生成的文本連貫性和準(zhǔn)確性比較差。GPT 在較長文本生成方面有優(yōu)勢(shì),應(yīng)用于新聞文章生成,但生成的文章主題單一,缺乏多樣性。BERT 的出現(xiàn)使機(jī)器具有比較強(qiáng)的語義理解能力,在文本分類、摘要和問答等任務(wù)上均取得優(yōu)異效果。基于BERT 的方法實(shí)現(xiàn)了新聞?wù)完P(guān)系抽取,證明BERT 可用于新聞生成。但BERT 對(duì)長文本生成的能力較弱,生成的新聞文章較短。ERNIE 是在BERT 基礎(chǔ)上的改進(jìn),在長文本生成與多樣性方面表現(xiàn)更優(yōu)。Sun 等證明ERNIE 可以生成連續(xù)且主題多樣的長文本,為新聞文章生成提供有益啟發(fā)。
這個(gè)項(xiàng)目在ERNIE 等預(yù)訓(xùn)練語言模型的啟發(fā)下,提出通過新聞數(shù)據(jù)集訓(xùn)練ERNIE 模型,實(shí)現(xiàn)高質(zhì)量新聞稿自動(dòng)生成的方法。此方案生成的新聞稿連貫且準(zhǔn)確,具有較強(qiáng)實(shí)用性,期望達(dá)到與人工寫作相當(dāng)?shù)男Ч?/p>
為實(shí)現(xiàn)新聞寫作的高效化、準(zhǔn)確化與客觀化,本項(xiàng)目提出利用ERNIE 等預(yù)訓(xùn)練語言模型,通過海量新聞數(shù)據(jù)集訓(xùn)練,實(shí)現(xiàn)高質(zhì)量新聞稿自動(dòng)生成的方案。
百度在預(yù)訓(xùn)練語言表示模型領(lǐng)域進(jìn)行了大量研發(fā)和應(yīng)用,主要的中文預(yù)訓(xùn)練模型包括:ERNIE(Enhanced Representation through kNowledge IntEgration)、ERNIE 2.0(在ERNIE 基礎(chǔ)上提出持續(xù)學(xué)習(xí)框架,可以不斷從數(shù)據(jù)中學(xué)習(xí),增強(qiáng)模型能力)、ERNIE-Gram(針對(duì)語法任務(wù),如語法解析、語義角色標(biāo)注進(jìn)行預(yù)訓(xùn)練,獲得強(qiáng)大的語法建模能力)、ERNIE-Gen(支持端到端的文本生成,構(gòu)建通用的生成預(yù)訓(xùn)練框架)、PCL-Med(醫(yī)療領(lǐng)域特定的預(yù)訓(xùn)練語言模型,提供精準(zhǔn)的醫(yī)療文本理解)、PLATO-2(大規(guī)模預(yù)訓(xùn)練語言模型,具有超過200 億參數(shù),是當(dāng)時(shí)最大的中文預(yù)訓(xùn)練模型)、 CPM(Chinese Pretrained Model)(百度自研的最新預(yù)訓(xùn)練模型,具有千億規(guī)模的參數(shù)量和強(qiáng)大的語言理解能力)等。ERNIE 是百度推出的一款基于BERT 的中文預(yù)訓(xùn)練語言表示模型,代表了百度在知識(shí)增強(qiáng)預(yù)訓(xùn)練模型上的創(chuàng)新,是在BERT 基礎(chǔ)上的改進(jìn),引入了知識(shí)圖譜,增加實(shí)體語義的理解能力,增加了語言表示對(duì)多義詞、同義詞的理解,提高句法分析能力,采用逐段預(yù)測(cè)的訓(xùn)練方式,提高長文本生成能力,引入短文本匹配任務(wù),增強(qiáng)了文本相似度的判斷能力,設(shè)計(jì)了新的數(shù)據(jù)集,如多義詞數(shù)據(jù)集、同義詞數(shù)據(jù)集、新聞標(biāo)題數(shù)據(jù)集等,進(jìn)行細(xì)致的語義理解預(yù)訓(xùn)練,構(gòu)建了領(lǐng)域知識(shí)圖譜,如百科知識(shí)圖譜、產(chǎn)業(yè)知識(shí)圖譜等,加入先驗(yàn)知識(shí),采用了句子重排、相似句子匹配等預(yù)訓(xùn)練任務(wù),進(jìn)一步強(qiáng)化語義理解,使用海量高質(zhì)量的數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練,提升了模型的效果。ERNIE 相比BERT 在文本生成效果上有顯著提升,更適用于智能寫作等生成應(yīng)用。相比BERT,ERNIE 在長文本生成和多樣性方面表現(xiàn)更優(yōu),適用于新聞文章生成。[4-5]本項(xiàng)目使用ERNIE模型,其參數(shù)量較小,訓(xùn)練速度更快。[3]
項(xiàng)目使用百度新聞數(shù)據(jù)集,其包含數(shù)百萬篇新聞文章及元數(shù)據(jù)。選取了近3 年的近百萬條新聞,數(shù)據(jù)集按7 : 2 : 1 比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集(Training Set)用于訓(xùn)練模型的參數(shù)和權(quán)重,占數(shù)據(jù)集的最大比例,一般60%~80%,反復(fù)使用以“訓(xùn)練”模型,使其逐步學(xué)會(huì)特征模式。驗(yàn)證集(Validation Set)用于調(diào)整超參數(shù)和評(píng)估訓(xùn)練過程中模型的性能,占數(shù)據(jù)集的較小比例,一般10%~20%,不用于訓(xùn)練參數(shù),只用于指導(dǎo)如何改進(jìn)模型。測(cè)試集(Test Set),用于評(píng)估最終訓(xùn)練好的模型在真實(shí)數(shù)據(jù)上的表現(xiàn),占數(shù)據(jù)集的較小比例,一般10%~20%,只使用一次來全面評(píng)估模型效果,不用于也不可見訓(xùn)練。劃分這三個(gè)數(shù)據(jù)集是為了使模型泛化性更好,避免過擬合訓(xùn)練數(shù)據(jù)。采用不同數(shù)據(jù)的評(píng)估使模型更穩(wěn)定可靠。
在數(shù)據(jù)集上訓(xùn)練ERNIE 新聞寫作模型的流程如下。
(1) 對(duì)新聞數(shù)據(jù)集進(jìn)行清洗、分詞和過濾,獲得高質(zhì)量的數(shù)據(jù)集;去除重復(fù)新聞、用程序去除空行無效字符等噪聲數(shù)據(jù)、糾正一些明顯的拼寫錯(cuò)誤、用程序移除無實(shí)際語義的停用詞(吧、嗎、啊、噢,等)、刪除信息量太少的新聞樣本等,這樣可以提高數(shù)據(jù)集的整體質(zhì)量,移除噪聲數(shù)據(jù),獲得干凈、高質(zhì)量的新聞?wù)Z料庫,更好地訓(xùn)練ERNIE 寫作模型;
(2) 按照ERNIE 模型的輸入格式,對(duì)數(shù)據(jù)集中的文章標(biāo)題、內(nèi)容和摘要等進(jìn)行編碼,增加[SEP] 、[CLS] 等標(biāo)記,ERNIE 模型限制最大輸入長度為512 個(gè)詞匯,超過的部分會(huì)被截?cái)啵?/p>
(3) 設(shè)定ERNIE 模型結(jié)構(gòu)和訓(xùn)練超參數(shù),如學(xué)習(xí)率(Learning Rate)、訓(xùn)練批大?。˙atch Size)、訓(xùn)練輪數(shù)(Epoch Number)、序列長度(Sequence Length)、優(yōu)化器(Optimizer)、權(quán)重衰減(Weight Decay)、 熱啟動(dòng)比例(Warmup Proportion)、 峰值學(xué)習(xí)率(Peak Learning Rate)、損失函數(shù)(Loss Function)、裁剪比例(Clipping Ratio)、隨機(jī)失活比例等,這些超參數(shù)需要通過反復(fù)試驗(yàn)來確定合適的組合,才能讓ERNIE 在新聞寫作任務(wù)上獲得最佳的訓(xùn)練效果;
(4) 使用訓(xùn)練集對(duì)ERNIE 新聞寫作模型進(jìn)行預(yù)訓(xùn)練;
(5) 使用驗(yàn)證集對(duì)模型進(jìn)行評(píng)估,調(diào)整超參數(shù),選擇較優(yōu)模型;
(6) 最終模型在測(cè)試集上生成新聞稿,并進(jìn)行人工評(píng)估。
模型生成新聞稿的流程為:輸入新聞主要內(nèi)容(主題、關(guān)鍵字等);ERNIE 模型自動(dòng)生成一篇完整的新聞文章,包括標(biāo)題、內(nèi)容和摘要。
本方案使用先進(jìn)的ERNIE 預(yù)訓(xùn)練模型,通過高質(zhì)量新聞數(shù)據(jù)的訓(xùn)練,使其學(xué)會(huì)新聞?wù)Z言表達(dá)的各個(gè)方面,在此基礎(chǔ)上實(shí)現(xiàn)新聞文章的自動(dòng)生成。生成的新聞稿流暢連貫,準(zhǔn)確度較高,更具有實(shí)用價(jià)值,有望達(dá)到與專業(yè)記者寫作效果相當(dāng)?shù)馁|(zhì)量。
為驗(yàn)證本方案的效果,我們進(jìn)行了新聞自動(dòng)寫作的實(shí)驗(yàn)。
使用百度新聞數(shù)據(jù)集,包含近3 年數(shù)百萬篇新聞文章及元數(shù)據(jù)。[1-2]選擇其中近百萬篇作為實(shí)驗(yàn)數(shù)據(jù)集,包含新聞標(biāo)題、內(nèi)容和摘要。新聞?lì)悇e包括政治、財(cái)經(jīng)、社會(huì)、娛樂、科技等共30 個(gè)左右類別。按7:2:1 比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
采用ERNIE 模型,其參數(shù)量較小,訓(xùn)練速度更快。訓(xùn)練10 輪,訓(xùn)練60 小時(shí)。
從準(zhǔn)確性、主觀性和多樣性等幾個(gè)方面評(píng)估模型生成的新聞稿:
事實(shí)準(zhǔn)確性:新聞內(nèi)容是否能夠描述清楚事件的基本事實(shí),時(shí)間、地點(diǎn)、人物等要素是否準(zhǔn)確。
邏輯性:新聞表述是否連貫清晰,沒有邏輯錯(cuò)誤或語句前后矛盾的情況,查看文章段落之間的銜接是否順暢自然,是否存在邏輯斷裂的情況,分析文章段落的主題或中心句是否一致,是否會(huì)出現(xiàn)跳躍性主題轉(zhuǎn)變的情況,檢查文章內(nèi)容的敘述順序是否合理,事件或描述是否按時(shí)間順序敘述,觀察因果關(guān)系的敘述是否合乎常理,不會(huì)出現(xiàn)違反事理的因果關(guān)聯(lián),判斷交代的細(xì)節(jié)或事例是否能有效支持中心論點(diǎn),避免出現(xiàn)例子與論點(diǎn)不一致。
流暢性:語言表達(dá)是否通順、風(fēng)格一致,沒有語法錯(cuò)誤或語句不通順的地方,逐句閱讀文章,感受句子之間的銜接是否平順自然,看詞匯使用是否得體精準(zhǔn),避免出現(xiàn)語義不通或使用不當(dāng)?shù)脑~語,判斷行文節(jié)奏是否合理,不會(huì)出現(xiàn)語句結(jié)構(gòu)或長度突然失衡的情況,觀察用詞表達(dá)方式是否多樣,不會(huì)重復(fù)使用相同詞語或句式模板,語音朗讀文章,感受朗讀流暢性,判斷是否存在容易打結(jié)的語段。
完整性:新聞結(jié)構(gòu)是否完整,包含必要的標(biāo)題、導(dǎo)語、正文、結(jié)尾等部分,是否遺漏了重要信息,正文內(nèi)容是否涵蓋了事件或觀點(diǎn)需要闡述的主要方面,是否成功傳達(dá)了中心思想或觀點(diǎn),不只是斷片式的描述,文章各部分是否條理清晰,前后呼應(yīng),不會(huì)出現(xiàn)邏輯跳躍。
客觀性:新聞?dòng)^點(diǎn)是否中立客觀,沒有包含過于主觀的評(píng)論或判斷,避免存在明顯的傾向性或情緒化表達(dá),文章引用的依據(jù)是否可靠權(quán)威,文章對(duì)不同觀點(diǎn)或立場(chǎng)是否給予公正的描述,而非只立足一方,文章中人物描寫是否公正,避免出現(xiàn)傾向性評(píng)價(jià),是否過多使用含情緒色彩的詞語,文章中因果關(guān)系分析是否符合邏輯,避免出現(xiàn)以偏概全的情況,文章的觀點(diǎn)是否有事實(shí)或數(shù)據(jù)支持,而不是主觀臆斷。
可讀性:新聞的可讀性和趣味性是否足夠,是否過于單調(diào)或模板化。
總體流暢度:從整體上看,新聞質(zhì)量是否達(dá)到可以發(fā)布的標(biāo)準(zhǔn),逐段通讀全文,感受篇章語言風(fēng)格和語句流暢度的整體一致性、各個(gè)段落的銜接是否自然、文章的起承轉(zhuǎn)合是否完整、開頭和結(jié)尾是否吸引人并帶來完滿的閱讀感受、避免整體用詞單一重復(fù)性太高、全文語言風(fēng)格是否會(huì)出現(xiàn)風(fēng)格劇變的情況。
根據(jù)這些指標(biāo),對(duì)算法生成文章的優(yōu)劣進(jìn)行整體判斷,并給出改進(jìn)方向,指導(dǎo)模型進(jìn)一步優(yōu)化,利用評(píng)分機(jī)制,允許模型輸出多候選文章,人工選擇評(píng)分最高的來反饋給模型,調(diào)整損失函數(shù),增強(qiáng)對(duì)特定指標(biāo)的懲罰力度(如流暢性等)。
本實(shí)驗(yàn)的最終結(jié)果表明:
(1) 生成新聞稿準(zhǔn)確性較好,匹配輸入主題,事實(shí)基本準(zhǔn)確;
(2) 不存在明顯的主觀傾向,達(dá)到一定的客觀中立性;
(3) 輸入不同條件,生成新聞稿主題和內(nèi)容較為多樣。
綜上,本方案生成的新聞稿在準(zhǔn)確性、客觀性和多樣性等方面均達(dá)到較高水平。相比人工新聞寫作,本方案在減輕人工工作量、提高效率和準(zhǔn)確性方面顯示出較大優(yōu)勢(shì)。
本項(xiàng)目利用ERNIE 等預(yù)訓(xùn)練語言模型,通過海量新聞數(shù)據(jù)集訓(xùn)練,實(shí)現(xiàn)高質(zhì)量新聞稿自動(dòng)生成的方案,達(dá)到較好的效果。該方法具有以下優(yōu)點(diǎn):
(1)顯著提高新聞寫作效率,大幅減輕記者工作量,說明具有較強(qiáng)的實(shí)用性;
(2)生成新聞稿準(zhǔn)確度較高,難以被輕易檢測(cè)出,達(dá)到專業(yè)水準(zhǔn),更適合應(yīng)用于真實(shí)場(chǎng)景;
(3)支持一次輸入生成多篇主題和內(nèi)容各異的新聞稿,顯示出較強(qiáng)的多樣性。在一定程度上降低了個(gè)人主觀的影響,使新聞報(bào)道更加客觀和中立。
然而,該方法也存在一定不足:
(1)生成新聞稿的多樣性還有提高空間,多個(gè)條件下生成的文章主題和內(nèi)容重合度較高;
(2)生成的新聞稿缺乏個(gè)性化表達(dá)和真實(shí)感,難以達(dá)到人工寫作的效果;
(3)模型生成的新聞稿需要人工審閱和修改后才可直接發(fā)布,這增加了后續(xù)工作量。
未來工作主要關(guān)注以下幾點(diǎn):
(1)使用更大規(guī)模的訓(xùn)練數(shù)據(jù),采用更強(qiáng)大的預(yù)訓(xùn)練模型,如BERT-large 等,提高生成效果。BERTlarge 總參數(shù)量達(dá)到了3.4 億參數(shù),使用更多未標(biāo)注的語料進(jìn)行預(yù)訓(xùn)練,包括整個(gè)維基百科和書籍語料庫,因此語言表達(dá)能力更加強(qiáng)大和通用、下游任務(wù)效果更好、處理長文本時(shí)表現(xiàn)更好。
(2)研究條件輸入的方式和生成策略,增強(qiáng)生成新聞稿的多樣性;
(3)優(yōu)化數(shù)據(jù)預(yù)處理和模型訓(xùn)練流程,使生成的新聞稿融入個(gè)人化表達(dá)和真實(shí)感;
(4)人工審核與機(jī)器生成的協(xié)同,構(gòu)建高效準(zhǔn)確的新聞生產(chǎn)系統(tǒng),實(shí)現(xiàn)人工智能的互補(bǔ);
(5)加強(qiáng)連貫性的調(diào)整,不斷提高生成的文章的連貫性。
新聞報(bào)道是及時(shí)和準(zhǔn)確傳播信息的重要方式,對(duì)社會(huì)發(fā)展來說很重要。但是,以前的新聞寫作方法效率不高,難以滿足全天候大量高質(zhì)量新聞的需要,而利用人工智能寫稿可以一定程度上滿足我們的要求,人工智能寫稿可以提高寫作效率,節(jié)省人力成本,可以在短時(shí)間內(nèi)生成大量文章草稿,尤其適用于產(chǎn)出需求較高的應(yīng)用場(chǎng)景。人工智能寫稿還減少人為錯(cuò)誤,提高寫作質(zhì)量,算法生成可以避免人工誤操作,保證輸出文本的標(biāo)準(zhǔn)性和一致性。自動(dòng)寫稿技術(shù)在效率、質(zhì)量、創(chuàng)新等多個(gè)方面對(duì)人類具有重要意義和價(jià)值。當(dāng)然,也需要人機(jī)密切協(xié)作,才能發(fā)揮最大作用。
該項(xiàng)目用ERNIE 這種預(yù)訓(xùn)練語言模型,通過訓(xùn)練大量高質(zhì)量新聞數(shù)據(jù)集,實(shí)現(xiàn)了自動(dòng)生成高質(zhì)量新聞稿的方法。實(shí)驗(yàn)結(jié)果表明,這個(gè)方法生成的新聞稿在準(zhǔn)確度、客觀性和多樣性方面達(dá)到比較不錯(cuò)的水平。
與人工新聞寫作相比,這個(gè)方法在很大程度上提高了效率和準(zhǔn)確度,彌補(bǔ)了人工寫作的不足,實(shí)現(xiàn)了新聞采寫的自動(dòng)化和智能化。但是,生成的新聞稿個(gè)性化表達(dá)和真實(shí)感仍然不足,多樣性還需要提高,還需要人工審閱,首先要檢查人工智能生成的文本的邏輯性和連貫性,現(xiàn)有生成模型偶爾會(huì)產(chǎn)生不合邏輯、不連貫的語句或段落,需要人工修改和完善,人工智能生成的文章可能會(huì)包含不準(zhǔn)確的信息或錯(cuò)誤的事實(shí)(所謂一本正經(jīng)的胡說八道),需要人工核實(shí)真實(shí)性,算法難以理解人文精神內(nèi)涵,需要人工加入這方面內(nèi)容,此外,機(jī)器學(xué)習(xí)依賴歷史數(shù)據(jù),對(duì)全新事件理解能力弱,需要人工創(chuàng)新,因此自動(dòng)寫作技術(shù)尚未完全成熟,仍需人機(jī)互補(bǔ)才能產(chǎn)出高質(zhì)量文本,因此當(dāng)前階段人工參與不可或缺。未來隨著技術(shù)進(jìn)步,人工干預(yù)需求可能會(huì)下降。
該項(xiàng)目為新聞自動(dòng)寫作的研究和應(yīng)用作出了有用的探索。通過不斷優(yōu)化數(shù)據(jù)和模型,新聞自動(dòng)寫作技術(shù)期望達(dá)到與人工新聞?dòng)浾呦噫敲赖男Ч?,進(jìn)一步改變新聞行業(yè)的生產(chǎn)模式,為構(gòu)建信息時(shí)代高質(zhì)量的新聞報(bào)道體系提供重要支持。