華凌
? 近幾年,機器寫作不再是紙上談兵的技術,已然滲透到了我們的生活之中。今日頭條、騰訊、百度、360等公司,以及新華社、南方都市報、第一財經(jīng)等傳統(tǒng)媒體單位均開展了機器寫作技術的研究與應用。
除了新聞寫作,還能應用于這些領域
目前,機器寫作在傳媒、出版、文娛、廣告等多個行業(yè)均具有廣闊應用場景。歐美等地較早成立專注于機器寫作技術應用的多家公司,例如ARRIA、AI、NarrativeScience等基于行業(yè)數(shù)據(jù),通過機器寫作生成行業(yè)報告或新聞報道,從而節(jié)省大量人力。同時,不少國外知名媒體單位紛紛采用機器寫作技術進行新聞稿件創(chuàng)作,以節(jié)約人力成本,提高效率。
? “與人類作者相比,機器寫作具有效率高、時效性好、覆蓋性強、無偏見等優(yōu)勢。今日頭條的線上測試表明,機器人撰寫新聞稿件的閱讀率與人工稿件的閱讀率基本相同,這說明機器稿件的質(zhì)量不錯,能夠被廣大用戶所接受?!北本┐髮W計算機科學技術研究所研究員萬小軍表示。
然而,計算機不能憑空寫作,必須根據(jù)所輸入的數(shù)據(jù)與素材進行創(chuàng)作。據(jù)介紹,根據(jù)輸入的不同類型的信息,計算機一般采用不同的寫作方式進行創(chuàng)作。例如,計算機根據(jù)輸入的結(jié)構(gòu)化數(shù)據(jù)(報表、RDF數(shù)據(jù)等)進行文字創(chuàng)作,從而能夠生成稿件。這是目前機器寫作應用的主要方式,適用于天氣預報、醫(yī)療報告、賽事簡訊、財經(jīng)報道等文本的生成。
? 萬小軍介紹說,近幾年機器寫作除了用于撰寫新聞、報告等實用型文本之外,還被用于創(chuàng)作古詩、現(xiàn)代詩、散文等文學作品,例如微軟小冰、清華九歌等系統(tǒng)分別能夠創(chuàng)作現(xiàn)代詩和古詩,在文字表現(xiàn)形式上的總體效果還不錯,但在意境上有所欠缺。
深度學習生成模型,但還難保準確性和可讀性
近幾年,深度學習發(fā)展迅速,機器寫作技術也受到其深刻影響。
? 據(jù)萬小軍介紹,基于深度學習技術進行文本生成,不依賴于模板或規(guī)則。這樣的寫作方式雖然在研究上取得一定進展,但目前還不能保證所生成稿件的準確性與可讀性,難以滿足很多應用場景下對稿件的質(zhì)量要求。此外,深度學習生成的模型訓練需要大量的平行語料,而在很多領域內(nèi)較難獲取到這樣的大規(guī)模語料。
? 計算機根據(jù)已有的文字素材(例如已經(jīng)發(fā)表的新聞)進行二次文字創(chuàng)作時,能夠基于已有稿件創(chuàng)作出不一樣的稿件,主要依賴于兩類自然語言處理技術:自動文摘與文本復述。其中自動文摘用于對單篇文本或多篇文本進行內(nèi)容提煉與綜合,形成摘要或綜述。
? 文本復述則用于對現(xiàn)有文字進行改寫,在主題與意思基本不變的前提下產(chǎn)生另一種文字表述。因此在平行語料充足的前提下,各種統(tǒng)計機器翻譯方法(包括神經(jīng)網(wǎng)絡機器翻譯)均可應用于此問題。最新的研究主要集中在,如何有效利用少量的平行語料和大規(guī)模的非平行語料進行復述模型的學習。