亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談智能寫稿的技術(shù)與實(shí)踐

2023-11-17 10:14:28張守先任鵬李滿江

中國傳媒科技 2023年9期

張守先任鵬李滿江

（1.半島都市報(bào)社，山東青島 266071；2.濰坊日?qǐng)?bào)社，山東濰坊 261000；3. 濰坊北大青鳥華光照排有限公司，山東濰坊 261061）

1.目的

新聞報(bào)道是及時(shí)傳播信息和監(jiān)督社會(huì)的重要方式，對(duì)社會(huì)發(fā)展非常重要。這要求新聞寫作高效和準(zhǔn)確，全天候產(chǎn)出大量高質(zhì)量新聞。然而，傳統(tǒng)新聞寫作完全依賴人工記者，效率比較低，難免會(huì)出現(xiàn)延遲和錯(cuò)誤，影響新聞的時(shí)效性和準(zhǔn)確性。同時(shí)，傳統(tǒng)寫作也易受個(gè)人主觀因素影響，新聞報(bào)道的真實(shí)性和客觀性難以保證。

近年來，神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和生成模型等技術(shù)的快速發(fā)展，特別是預(yù)訓(xùn)練語言模型的出現(xiàn)，使機(jī)器具有了比較強(qiáng)的語義理解能力和長文本生成能力。這為新聞自動(dòng)寫作提供了可能，有望提高新聞寫作的效率和客觀性。如基于seq2seq 和GPT 的方法實(shí)現(xiàn)了新聞?wù)蜆?biāo)題生成；基于BERT 的方法可以生成簡短的新聞文章。這些工作推動(dòng)了新聞自動(dòng)寫作技術(shù)的發(fā)展，但生成文本的連貫性或多樣性仍有提高的空間。

目前基于人工智能的新聞寫作，主要用于以下幾個(gè)方面。

（1）自動(dòng)化新聞撰寫：基于數(shù)據(jù)模板，生成如運(yùn)動(dòng)比賽、股票行情、天氣預(yù)報(bào)等自動(dòng)化新聞。

（2）財(cái)經(jīng)新聞編寫：根據(jù)金融數(shù)據(jù)，自動(dòng)生成相關(guān)的財(cái)經(jīng)新聞、分析報(bào)道。

（3）影評(píng)撰寫：根據(jù)影片數(shù)據(jù)和評(píng)論材料，自動(dòng)生成影評(píng)文章。

（4）賽事新聞：根據(jù)體育賽事數(shù)據(jù)，自動(dòng)生成球賽新聞、運(yùn)動(dòng)員數(shù)據(jù)分析等。

（5）新聞稿自動(dòng)編輯：輔助編輯進(jìn)行新聞寫作和修訂工作。

（6）新聞?wù)桑鹤詣?dòng)析出新聞文章的關(guān)鍵內(nèi)容摘要。

為實(shí)現(xiàn)新聞寫作的高效化、準(zhǔn)確化和客觀化，這個(gè)項(xiàng)目提出利用ERNIE 等預(yù)訓(xùn)練語言模型，通過大量新聞數(shù)據(jù)集的訓(xùn)練，實(shí)現(xiàn)高質(zhì)量新聞稿自動(dòng)生成的方法。ERNIE 是一種基于BERT 的語言表示模型，在長文本生成和多樣性方面有較強(qiáng)的能力。項(xiàng)目使用大規(guī)模新聞?wù)Z料庫訓(xùn)練ERNIE 新聞寫作模型，使其學(xué)習(xí)新聞文章的語法、詞匯、結(jié)構(gòu)和風(fēng)格等知識(shí)。在此基礎(chǔ)上實(shí)現(xiàn)高質(zhì)量新聞稿的自動(dòng)生成，以期達(dá)到與人工寫作相當(dāng)?shù)男Ч?/p>

這個(gè)項(xiàng)目的提出是基于新聞寫作需求和現(xiàn)有技術(shù)發(fā)展的考量。方案有望實(shí)現(xiàn)新聞采寫的自動(dòng)化與智能化，構(gòu)建高效、準(zhǔn)確與客觀的新聞報(bào)道體系。

2.相關(guān)工作

新聞自動(dòng)寫作是自然語言生成的重要應(yīng)用之一。早期的工作主要基于模板和規(guī)則，生成效果比較差。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展，特別是預(yù)訓(xùn)練語言模型的提出，新聞自動(dòng)寫作取得了比較大的進(jìn)展。對(duì)新聞自動(dòng)寫作而言，核心是訓(xùn)練一個(gè)能夠生成連貫、語法正確、主題明確的長文本的神經(jīng)網(wǎng)絡(luò)模型。具體來說，常用的技術(shù)路線包括。

（1）數(shù)據(jù)準(zhǔn)備：收集大規(guī)模的高質(zhì)量新聞文本數(shù)據(jù)，包括新聞標(biāo)題、內(nèi)容、摘要等。并進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理。

（2）模型選擇：通常選擇基于Transformer 或LSTM 等結(jié)構(gòu)的預(yù)訓(xùn)練語言模型，如GPT、BERT 等，這類模型在長文本生成任務(wù)上效果較好。

（3）模型訓(xùn)練：使用新聞文本數(shù)據(jù)針對(duì)語言生成任務(wù)進(jìn)行模型精調(diào)。訓(xùn)練目標(biāo)是最大化生成新聞文本的鏈?zhǔn)礁怕省?/p>

（4）文本生成：給定新聞主題、關(guān)鍵詞等條件，模型自動(dòng)生成標(biāo)題和正文?？梢陨梢黄暾男侣?，也可以只生成摘要等。

（5）生成文本后處理：對(duì)模型生成文本進(jìn)行語句規(guī)范化、語法糾錯(cuò)等后處理，提高可讀性。

（6）結(jié)果評(píng)估：從語法、邏輯、連貫性等方面評(píng)估生成文本的質(zhì)量，并反饋改進(jìn)模型。

關(guān)鍵的創(chuàng)新點(diǎn)是利用大規(guī)模預(yù)訓(xùn)練模型，讓模型學(xué)習(xí)新聞?wù)Z言的語法和風(fēng)格特征。相比以往基于模板的方法，預(yù)訓(xùn)練模型生成的新聞文本連貫性更好，逼近人工寫作效果。但仍需人工審核，以確保生成質(zhì)量。

基于seq2seq 模型的方法可以生成新聞?wù)蜆?biāo)題，但生成的文本連貫性和準(zhǔn)確性比較差。GPT 在較長文本生成方面有優(yōu)勢(shì)，應(yīng)用于新聞文章生成，但生成的文章主題單一，缺乏多樣性。BERT 的出現(xiàn)使機(jī)器具有比較強(qiáng)的語義理解能力，在文本分類、摘要和問答等任務(wù)上均取得優(yōu)異效果。基于BERT 的方法實(shí)現(xiàn)了新聞?wù)完P(guān)系抽取，證明BERT 可用于新聞生成。但BERT 對(duì)長文本生成的能力較弱，生成的新聞文章較短。ERNIE 是在BERT 基礎(chǔ)上的改進(jìn)，在長文本生成與多樣性方面表現(xiàn)更優(yōu)。Sun 等證明ERNIE 可以生成連續(xù)且主題多樣的長文本，為新聞文章生成提供有益啟發(fā)。

這個(gè)項(xiàng)目在ERNIE 等預(yù)訓(xùn)練語言模型的啟發(fā)下，提出通過新聞數(shù)據(jù)集訓(xùn)練ERNIE 模型，實(shí)現(xiàn)高質(zhì)量新聞稿自動(dòng)生成的方法。此方案生成的新聞稿連貫且準(zhǔn)確，具有較強(qiáng)實(shí)用性，期望達(dá)到與人工寫作相當(dāng)?shù)男Ч?/p>

3.方法

為實(shí)現(xiàn)新聞寫作的高效化、準(zhǔn)確化與客觀化，本項(xiàng)目提出利用ERNIE 等預(yù)訓(xùn)練語言模型，通過海量新聞數(shù)據(jù)集訓(xùn)練，實(shí)現(xiàn)高質(zhì)量新聞稿自動(dòng)生成的方案。

百度在預(yù)訓(xùn)練語言表示模型領(lǐng)域進(jìn)行了大量研發(fā)和應(yīng)用，主要的中文預(yù)訓(xùn)練模型包括：ERNIE（Enhanced Representation through kNowledge IntEgration）、ERNIE 2.0（在ERNIE 基礎(chǔ)上提出持續(xù)學(xué)習(xí)框架，可以不斷從數(shù)據(jù)中學(xué)習(xí)，增強(qiáng)模型能力）、ERNIE-Gram（針對(duì)語法任務(wù)，如語法解析、語義角色標(biāo)注進(jìn)行預(yù)訓(xùn)練，獲得強(qiáng)大的語法建模能力）、ERNIE-Gen（支持端到端的文本生成，構(gòu)建通用的生成預(yù)訓(xùn)練框架）、PCL-Med（醫(yī)療領(lǐng)域特定的預(yù)訓(xùn)練語言模型，提供精準(zhǔn)的醫(yī)療文本理解）、PLATO-2（大規(guī)模預(yù)訓(xùn)練語言模型，具有超過200 億參數(shù)，是當(dāng)時(shí)最大的中文預(yù)訓(xùn)練模型）、 CPM（Chinese Pretrained Model）（百度自研的最新預(yù)訓(xùn)練模型，具有千億規(guī)模的參數(shù)量和強(qiáng)大的語言理解能力）等。ERNIE 是百度推出的一款基于BERT 的中文預(yù)訓(xùn)練語言表示模型，代表了百度在知識(shí)增強(qiáng)預(yù)訓(xùn)練模型上的創(chuàng)新，是在BERT 基礎(chǔ)上的改進(jìn)，引入了知識(shí)圖譜，增加實(shí)體語義的理解能力，增加了語言表示對(duì)多義詞、同義詞的理解，提高句法分析能力，采用逐段預(yù)測(cè)的訓(xùn)練方式，提高長文本生成能力，引入短文本匹配任務(wù)，增強(qiáng)了文本相似度的判斷能力，設(shè)計(jì)了新的數(shù)據(jù)集，如多義詞數(shù)據(jù)集、同義詞數(shù)據(jù)集、新聞標(biāo)題數(shù)據(jù)集等，進(jìn)行細(xì)致的語義理解預(yù)訓(xùn)練，構(gòu)建了領(lǐng)域知識(shí)圖譜，如百科知識(shí)圖譜、產(chǎn)業(yè)知識(shí)圖譜等，加入先驗(yàn)知識(shí)，采用了句子重排、相似句子匹配等預(yù)訓(xùn)練任務(wù)，進(jìn)一步強(qiáng)化語義理解，使用海量高質(zhì)量的數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練，提升了模型的效果。ERNIE 相比BERT 在文本生成效果上有顯著提升，更適用于智能寫作等生成應(yīng)用。相比BERT，ERNIE 在長文本生成和多樣性方面表現(xiàn)更優(yōu)，適用于新聞文章生成。[4-5]本項(xiàng)目使用ERNIE模型，其參數(shù)量較小，訓(xùn)練速度更快。[3]

項(xiàng)目使用百度新聞數(shù)據(jù)集，其包含數(shù)百萬篇新聞文章及元數(shù)據(jù)。選取了近3 年的近百萬條新聞，數(shù)據(jù)集按7 : 2 : 1 比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集（Training Set）用于訓(xùn)練模型的參數(shù)和權(quán)重，占數(shù)據(jù)集的最大比例，一般60%～80%，反復(fù)使用以“訓(xùn)練”模型，使其逐步學(xué)會(huì)特征模式。驗(yàn)證集（Validation Set）用于調(diào)整超參數(shù)和評(píng)估訓(xùn)練過程中模型的性能，占數(shù)據(jù)集的較小比例，一般10%～20%，不用于訓(xùn)練參數(shù)，只用于指導(dǎo)如何改進(jìn)模型。測(cè)試集（Test Set），用于評(píng)估最終訓(xùn)練好的模型在真實(shí)數(shù)據(jù)上的表現(xiàn)，占數(shù)據(jù)集的較小比例，一般10%～20%，只使用一次來全面評(píng)估模型效果，不用于也不可見訓(xùn)練。劃分這三個(gè)數(shù)據(jù)集是為了使模型泛化性更好，避免過擬合訓(xùn)練數(shù)據(jù)。采用不同數(shù)據(jù)的評(píng)估使模型更穩(wěn)定可靠。

在數(shù)據(jù)集上訓(xùn)練ERNIE 新聞寫作模型的流程如下。

（1）對(duì)新聞數(shù)據(jù)集進(jìn)行清洗、分詞和過濾，獲得高質(zhì)量的數(shù)據(jù)集；去除重復(fù)新聞、用程序去除空行無效字符等噪聲數(shù)據(jù)、糾正一些明顯的拼寫錯(cuò)誤、用程序移除無實(shí)際語義的停用詞（吧、嗎、啊、噢，等）、刪除信息量太少的新聞樣本等，這樣可以提高數(shù)據(jù)集的整體質(zhì)量，移除噪聲數(shù)據(jù)，獲得干凈、高質(zhì)量的新聞?wù)Z料庫，更好地訓(xùn)練ERNIE 寫作模型；

（2）按照ERNIE 模型的輸入格式，對(duì)數(shù)據(jù)集中的文章標(biāo)題、內(nèi)容和摘要等進(jìn)行編碼，增加[SEP] 、[CLS] 等標(biāo)記，ERNIE 模型限制最大輸入長度為512 個(gè)詞匯，超過的部分會(huì)被截?cái)啵?/p>

（3）設(shè)定ERNIE 模型結(jié)構(gòu)和訓(xùn)練超參數(shù)，如學(xué)習(xí)率（Learning Rate）、訓(xùn)練批大?。˙atch Size）、訓(xùn)練輪數(shù)（Epoch Number）、序列長度（Sequence Length）、優(yōu)化器（Optimizer）、權(quán)重衰減（Weight Decay）、熱啟動(dòng)比例（Warmup Proportion）、峰值學(xué)習(xí)率（Peak Learning Rate）、損失函數(shù)（Loss Function）、裁剪比例（Clipping Ratio）、隨機(jī)失活比例等，這些超參數(shù)需要通過反復(fù)試驗(yàn)來確定合適的組合，才能讓ERNIE 在新聞寫作任務(wù)上獲得最佳的訓(xùn)練效果；

（4）使用訓(xùn)練集對(duì)ERNIE 新聞寫作模型進(jìn)行預(yù)訓(xùn)練；

（5）使用驗(yàn)證集對(duì)模型進(jìn)行評(píng)估，調(diào)整超參數(shù)，選擇較優(yōu)模型；

（6）最終模型在測(cè)試集上生成新聞稿，并進(jìn)行人工評(píng)估。

模型生成新聞稿的流程為：輸入新聞主要內(nèi)容（主題、關(guān)鍵字等）;ERNIE 模型自動(dòng)生成一篇完整的新聞文章，包括標(biāo)題、內(nèi)容和摘要。

本方案使用先進(jìn)的ERNIE 預(yù)訓(xùn)練模型，通過高質(zhì)量新聞數(shù)據(jù)的訓(xùn)練，使其學(xué)會(huì)新聞?wù)Z言表達(dá)的各個(gè)方面，在此基礎(chǔ)上實(shí)現(xiàn)新聞文章的自動(dòng)生成。生成的新聞稿流暢連貫，準(zhǔn)確度較高，更具有實(shí)用價(jià)值，有望達(dá)到與專業(yè)記者寫作效果相當(dāng)?shù)馁|(zhì)量。

4.試驗(yàn)

為驗(yàn)證本方案的效果，我們進(jìn)行了新聞自動(dòng)寫作的實(shí)驗(yàn)。

4.1 數(shù)據(jù)集

使用百度新聞數(shù)據(jù)集，包含近3 年數(shù)百萬篇新聞文章及元數(shù)據(jù)。[1-2]選擇其中近百萬篇作為實(shí)驗(yàn)數(shù)據(jù)集，包含新聞標(biāo)題、內(nèi)容和摘要。新聞?lì)悇e包括政治、財(cái)經(jīng)、社會(huì)、娛樂、科技等共30 個(gè)左右類別。按7：2：1 比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

4.2 實(shí)驗(yàn)設(shè)置

采用ERNIE 模型，其參數(shù)量較小，訓(xùn)練速度更快。訓(xùn)練10 輪，訓(xùn)練60 小時(shí)。

4.3 評(píng)估指標(biāo)

從準(zhǔn)確性、主觀性和多樣性等幾個(gè)方面評(píng)估模型生成的新聞稿：

事實(shí)準(zhǔn)確性：新聞內(nèi)容是否能夠描述清楚事件的基本事實(shí)，時(shí)間、地點(diǎn)、人物等要素是否準(zhǔn)確。

邏輯性：新聞表述是否連貫清晰，沒有邏輯錯(cuò)誤或語句前后矛盾的情況，查看文章段落之間的銜接是否順暢自然，是否存在邏輯斷裂的情況，分析文章段落的主題或中心句是否一致，是否會(huì)出現(xiàn)跳躍性主題轉(zhuǎn)變的情況，檢查文章內(nèi)容的敘述順序是否合理，事件或描述是否按時(shí)間順序敘述，觀察因果關(guān)系的敘述是否合乎常理，不會(huì)出現(xiàn)違反事理的因果關(guān)聯(lián)，判斷交代的細(xì)節(jié)或事例是否能有效支持中心論點(diǎn)，避免出現(xiàn)例子與論點(diǎn)不一致。

流暢性：語言表達(dá)是否通順、風(fēng)格一致，沒有語法錯(cuò)誤或語句不通順的地方，逐句閱讀文章，感受句子之間的銜接是否平順自然，看詞匯使用是否得體精準(zhǔn)，避免出現(xiàn)語義不通或使用不當(dāng)?shù)脑~語，判斷行文節(jié)奏是否合理，不會(huì)出現(xiàn)語句結(jié)構(gòu)或長度突然失衡的情況，觀察用詞表達(dá)方式是否多樣，不會(huì)重復(fù)使用相同詞語或句式模板，語音朗讀文章，感受朗讀流暢性，判斷是否存在容易打結(jié)的語段。

完整性：新聞結(jié)構(gòu)是否完整，包含必要的標(biāo)題、導(dǎo)語、正文、結(jié)尾等部分，是否遺漏了重要信息，正文內(nèi)容是否涵蓋了事件或觀點(diǎn)需要闡述的主要方面，是否成功傳達(dá)了中心思想或觀點(diǎn)，不只是斷片式的描述，文章各部分是否條理清晰，前后呼應(yīng)，不會(huì)出現(xiàn)邏輯跳躍。

客觀性：新聞?dòng)^點(diǎn)是否中立客觀，沒有包含過于主觀的評(píng)論或判斷，避免存在明顯的傾向性或情緒化表達(dá)，文章引用的依據(jù)是否可靠權(quán)威，文章對(duì)不同觀點(diǎn)或立場(chǎng)是否給予公正的描述，而非只立足一方，文章中人物描寫是否公正，避免出現(xiàn)傾向性評(píng)價(jià)，是否過多使用含情緒色彩的詞語，文章中因果關(guān)系分析是否符合邏輯，避免出現(xiàn)以偏概全的情況，文章的觀點(diǎn)是否有事實(shí)或數(shù)據(jù)支持，而不是主觀臆斷。

可讀性：新聞的可讀性和趣味性是否足夠，是否過于單調(diào)或模板化。

總體流暢度：從整體上看，新聞質(zhì)量是否達(dá)到可以發(fā)布的標(biāo)準(zhǔn)，逐段通讀全文，感受篇章語言風(fēng)格和語句流暢度的整體一致性、各個(gè)段落的銜接是否自然、文章的起承轉(zhuǎn)合是否完整、開頭和結(jié)尾是否吸引人并帶來完滿的閱讀感受、避免整體用詞單一重復(fù)性太高、全文語言風(fēng)格是否會(huì)出現(xiàn)風(fēng)格劇變的情況。

根據(jù)這些指標(biāo)，對(duì)算法生成文章的優(yōu)劣進(jìn)行整體判斷，并給出改進(jìn)方向，指導(dǎo)模型進(jìn)一步優(yōu)化，利用評(píng)分機(jī)制，允許模型輸出多候選文章，人工選擇評(píng)分最高的來反饋給模型，調(diào)整損失函數(shù)，增強(qiáng)對(duì)特定指標(biāo)的懲罰力度（如流暢性等）。

4.4 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)的最終結(jié)果表明：

（1）生成新聞稿準(zhǔn)確性較好，匹配輸入主題，事實(shí)基本準(zhǔn)確；

（2）不存在明顯的主觀傾向，達(dá)到一定的客觀中立性；

（3）輸入不同條件，生成新聞稿主題和內(nèi)容較為多樣。

綜上，本方案生成的新聞稿在準(zhǔn)確性、客觀性和多樣性等方面均達(dá)到較高水平。相比人工新聞寫作，本方案在減輕人工工作量、提高效率和準(zhǔn)確性方面顯示出較大優(yōu)勢(shì)。

5.結(jié)果

本項(xiàng)目利用ERNIE 等預(yù)訓(xùn)練語言模型，通過海量新聞數(shù)據(jù)集訓(xùn)練，實(shí)現(xiàn)高質(zhì)量新聞稿自動(dòng)生成的方案，達(dá)到較好的效果。該方法具有以下優(yōu)點(diǎn)：

（1）顯著提高新聞寫作效率，大幅減輕記者工作量，說明具有較強(qiáng)的實(shí)用性；

（2）生成新聞稿準(zhǔn)確度較高，難以被輕易檢測(cè)出，達(dá)到專業(yè)水準(zhǔn)，更適合應(yīng)用于真實(shí)場(chǎng)景；

（3）支持一次輸入生成多篇主題和內(nèi)容各異的新聞稿，顯示出較強(qiáng)的多樣性。在一定程度上降低了個(gè)人主觀的影響，使新聞報(bào)道更加客觀和中立。

然而，該方法也存在一定不足：

（1）生成新聞稿的多樣性還有提高空間，多個(gè)條件下生成的文章主題和內(nèi)容重合度較高；

（2）生成的新聞稿缺乏個(gè)性化表達(dá)和真實(shí)感，難以達(dá)到人工寫作的效果；

（3）模型生成的新聞稿需要人工審閱和修改后才可直接發(fā)布，這增加了后續(xù)工作量。

未來工作主要關(guān)注以下幾點(diǎn)：

（1）使用更大規(guī)模的訓(xùn)練數(shù)據(jù)，采用更強(qiáng)大的預(yù)訓(xùn)練模型，如BERT-large 等，提高生成效果。BERTlarge 總參數(shù)量達(dá)到了3.4 億參數(shù)，使用更多未標(biāo)注的語料進(jìn)行預(yù)訓(xùn)練，包括整個(gè)維基百科和書籍語料庫，因此語言表達(dá)能力更加強(qiáng)大和通用、下游任務(wù)效果更好、處理長文本時(shí)表現(xiàn)更好。

（2）研究條件輸入的方式和生成策略，增強(qiáng)生成新聞稿的多樣性；

（3）優(yōu)化數(shù)據(jù)預(yù)處理和模型訓(xùn)練流程，使生成的新聞稿融入個(gè)人化表達(dá)和真實(shí)感；

（4）人工審核與機(jī)器生成的協(xié)同，構(gòu)建高效準(zhǔn)確的新聞生產(chǎn)系統(tǒng)，實(shí)現(xiàn)人工智能的互補(bǔ)；

（5）加強(qiáng)連貫性的調(diào)整，不斷提高生成的文章的連貫性。

結(jié)論

新聞報(bào)道是及時(shí)和準(zhǔn)確傳播信息的重要方式，對(duì)社會(huì)發(fā)展來說很重要。但是，以前的新聞寫作方法效率不高，難以滿足全天候大量高質(zhì)量新聞的需要，而利用人工智能寫稿可以一定程度上滿足我們的要求，人工智能寫稿可以提高寫作效率，節(jié)省人力成本，可以在短時(shí)間內(nèi)生成大量文章草稿，尤其適用于產(chǎn)出需求較高的應(yīng)用場(chǎng)景。人工智能寫稿還減少人為錯(cuò)誤，提高寫作質(zhì)量，算法生成可以避免人工誤操作，保證輸出文本的標(biāo)準(zhǔn)性和一致性。自動(dòng)寫稿技術(shù)在效率、質(zhì)量、創(chuàng)新等多個(gè)方面對(duì)人類具有重要意義和價(jià)值。當(dāng)然，也需要人機(jī)密切協(xié)作，才能發(fā)揮最大作用。

該項(xiàng)目用ERNIE 這種預(yù)訓(xùn)練語言模型，通過訓(xùn)練大量高質(zhì)量新聞數(shù)據(jù)集，實(shí)現(xiàn)了自動(dòng)生成高質(zhì)量新聞稿的方法。實(shí)驗(yàn)結(jié)果表明，這個(gè)方法生成的新聞稿在準(zhǔn)確度、客觀性和多樣性方面達(dá)到比較不錯(cuò)的水平。

與人工新聞寫作相比，這個(gè)方法在很大程度上提高了效率和準(zhǔn)確度，彌補(bǔ)了人工寫作的不足，實(shí)現(xiàn)了新聞采寫的自動(dòng)化和智能化。但是，生成的新聞稿個(gè)性化表達(dá)和真實(shí)感仍然不足，多樣性還需要提高，還需要人工審閱，首先要檢查人工智能生成的文本的邏輯性和連貫性，現(xiàn)有生成模型偶爾會(huì)產(chǎn)生不合邏輯、不連貫的語句或段落，需要人工修改和完善，人工智能生成的文章可能會(huì)包含不準(zhǔn)確的信息或錯(cuò)誤的事實(shí)（所謂一本正經(jīng)的胡說八道），需要人工核實(shí)真實(shí)性，算法難以理解人文精神內(nèi)涵，需要人工加入這方面內(nèi)容，此外，機(jī)器學(xué)習(xí)依賴歷史數(shù)據(jù)，對(duì)全新事件理解能力弱，需要人工創(chuàng)新，因此自動(dòng)寫作技術(shù)尚未完全成熟，仍需人機(jī)互補(bǔ)才能產(chǎn)出高質(zhì)量文本，因此當(dāng)前階段人工參與不可或缺。未來隨著技術(shù)進(jìn)步，人工干預(yù)需求可能會(huì)下降。

該項(xiàng)目為新聞自動(dòng)寫作的研究和應(yīng)用作出了有用的探索。通過不斷優(yōu)化數(shù)據(jù)和模型，新聞自動(dòng)寫作技術(shù)期望達(dá)到與人工新聞?dòng)浾呦噫敲赖男Ч?，進(jìn)一步改變新聞行業(yè)的生產(chǎn)模式，為構(gòu)建信息時(shí)代高質(zhì)量的新聞報(bào)道體系提供重要支持。

中國傳媒科技2023年9期

中國傳媒科技的其它文章: 新媒體時(shí)代的二級(jí)傳播嬗變
——以電影《隱入塵煙》的傳播為例; 場(chǎng)景革新、交互升級(jí)、信息迭代：元宇宙社交對(duì)移動(dòng)社交的解構(gòu)與重構(gòu); 現(xiàn)實(shí)·理論·實(shí)踐：青年社交媒介依賴研究的創(chuàng)新維度
——評(píng)《青年群體的社交媒介依賴及其矯正機(jī)制》; 大模型新進(jìn)展與發(fā)展關(guān)鍵; 互聯(lián)網(wǎng)違法和不良信息舉報(bào)平臺(tái)的研究與實(shí)踐; 媒介技術(shù)變遷視角下的教材概念演變研究