王哲
1概念內(nèi)涵
機器寫作,又稱自然語言生成,是自然語言處理領域的重要分支,指的是綜合運用大數(shù)據(jù)分析、內(nèi)容理解和自然語言生成等,實現(xiàn)機器智能生成文本內(nèi)容的技術(shù)。基本創(chuàng)作流程主要分為數(shù)據(jù)采集、數(shù)據(jù)分析、自動寫稿、審核簽發(fā)等。其應用級產(chǎn)品WordSmith的軟件于2007年首次出現(xiàn),由美國Automated Insights開發(fā)。
2 機器寫作簡要流程
3機器寫作的三大主流方式
計算機根據(jù)輸入的結(jié)構(gòu)化數(shù)據(jù)(報表、RDF數(shù)據(jù)等)進行文字創(chuàng)作。該方式能夠生成原創(chuàng)稿件,是目前機器寫作的主要方式,適用于天氣預報、醫(yī)療報告、賽事簡訊、財經(jīng)報道等文本的生產(chǎn)。
計算機根據(jù)已有的文字素材(例如,已經(jīng)發(fā)表的新聞)進行二次文字創(chuàng)作。該方式能夠基于已有稿件創(chuàng)作出不一樣的稿件,例如,為一篇新聞生成摘要,對多篇相關(guān)新聞進行綜述,對一篇新聞進行文字改寫等。
計算機可以結(jié)合原創(chuàng)與二次創(chuàng)作兩種方式進行文字創(chuàng)作,稿件中的一部分內(nèi)容從結(jié)構(gòu)化數(shù)據(jù)中直接生成,另一部分內(nèi)容則從已有文本中進行提煉或改寫得到,生成內(nèi)容更豐富、形式更多樣的文本。
4機器寫作的各應用領域
知識類應用
速報類應用
資訊聚合類應用
5平行語料缺乏
未來基于深度學習的機器寫作需要大規(guī)模的平行語料進行訓練,而很多應用場景卻缺乏此類平行語料,因此有必要探索小數(shù)據(jù)下的學習機制來解決這個問題。
領域遷移性不足
機器寫作生成文本中信息與數(shù)據(jù)的準確性、文本的可讀性不能完全得到保證,而不少應用場景不能容忍文本質(zhì)量上的瑕疵,因此需要考慮結(jié)合更先進的技術(shù)來提高所生成文本的質(zhì)量。
寫作質(zhì)量難以客觀評價
機器寫作的客觀評價指標一般為BLEU和ROUGE,但文章的寫作方式多樣,每個作者都可以根據(jù)同一命題寫出內(nèi)容不一樣但質(zhì)量都很高的文章,未來有必要設計更合理的客觀評價指標。