陳炳宇
“Xiaomingbot”是今日頭條媒體實(shí)驗(yàn)室和北京大學(xué)計(jì)算機(jī)所共同開(kāi)發(fā)的寫(xiě)作機(jī)器人,主要從事體育方面的新聞寫(xiě)作。符號(hào)學(xué)是一種以所有符號(hào)系統(tǒng)為研究對(duì)象,研究社會(huì)生活中符號(hào)生命的科學(xué)。符號(hào)學(xué)研究符號(hào)的組成,探討各種符號(hào)所代表的意涵,來(lái)建立一個(gè)“各種符號(hào)一般的科學(xué):意義的系統(tǒng)”[1]。本文以“Xiaomingbot”為例,從符號(hào)學(xué)的理論角度來(lái)探析機(jī)器新聞寫(xiě)作的表達(dá)特征,并將機(jī)器新聞寫(xiě)作作品和傳統(tǒng)的人工新聞作品進(jìn)行對(duì)比,對(duì)機(jī)器新聞寫(xiě)作進(jìn)行批判性解讀。
從2009年開(kāi)始,美國(guó)西北大學(xué)智能信息實(shí)驗(yàn)室就將自己開(kāi)發(fā)研究的StatsMonkey系統(tǒng)投入了使用,發(fā)表了一篇關(guān)于美國(guó)職業(yè)棒球大聯(lián)盟季后賽的新聞稿件,有關(guān)人工智能的寫(xiě)作自此開(kāi)始被人們所熟知。之后,國(guó)內(nèi)外的各大媒體也都在不斷地探索機(jī)器人寫(xiě)稿的可能性,《洛杉磯時(shí)報(bào)》使用Quakebot系統(tǒng),美聯(lián)社等媒體使用Wordsmith作為平臺(tái)進(jìn)行新聞寫(xiě)作……進(jìn)入到2015年以后,騰訊財(cái)經(jīng)頻道的新聞寫(xiě)作機(jī)器人“Dreamwriter”發(fā)表了一篇名為《8月CPI漲2% 創(chuàng)12個(gè)月新高》的財(cái)經(jīng)報(bào)道,開(kāi)啟了國(guó)內(nèi)寫(xiě)作機(jī)器人進(jìn)入新聞界的篇章。隨后,新華社的“快筆小新”、今日頭條的“Xiaomingbot”、南方報(bào)業(yè)集團(tuán)的“小南”等采用人工智能技術(shù)的寫(xiě)作機(jī)器人也開(kāi)始逐漸登上這個(gè)舞臺(tái)。
寫(xiě)作機(jī)器人“Xiaomingbot”是今日頭條實(shí)驗(yàn)室和北京大學(xué)計(jì)算機(jī)所萬(wàn)小軍團(tuán)隊(duì)產(chǎn)學(xué)合作的成果。“Xiaomingbot”正式投入使用是在2016年,所寫(xiě)作的是針對(duì)里約奧運(yùn)會(huì)的賽事簡(jiǎn)訊。在整個(gè)里約奧運(yùn)會(huì)期間,“Xiaomingbot”撰寫(xiě)的稿件贏得了一百多萬(wàn)的閱讀量,平均閱讀率接近整個(gè)奧運(yùn)會(huì)期間體育頻道的閱讀率。
在里約奧運(yùn)會(huì)以后,“Xiaomingbot”將目標(biāo)投向了歐洲冠軍聯(lián)賽(歐冠)、意大利足球甲級(jí)聯(lián)賽(意甲)和美國(guó)職業(yè)籃球聯(lián)賽(NBA)等各類體育賽事,同樣取得了不錯(cuò)的成績(jī)。
在寫(xiě)作特點(diǎn)上,“Xiaomingbot”首先是獲取網(wǎng)上有關(guān)寫(xiě)作賽事的文字和討論,并將其總結(jié)歸納成為一個(gè)相對(duì)長(zhǎng)的賽事描述,是一種基于UGC模式的信息采集手段;其次,“Xiaomingbot”采用先進(jìn)的機(jī)器學(xué)習(xí)算法,能夠?qū)W習(xí)圖文語(yǔ)義匹配模型,在該模型的基礎(chǔ)之上,用今日頭條大量的圖片和文本做語(yǔ)義匹配,挑選合適的圖片,實(shí)現(xiàn)圖文自動(dòng)關(guān)聯(lián)的發(fā)稿模式;此外,“Xiaomingbot”也運(yùn)用了在機(jī)器新聞寫(xiě)作中廣泛應(yīng)用的模板生成技術(shù),采用了依據(jù)句法結(jié)構(gòu)的模板文本生成技術(shù)和摘要式生成技術(shù),既能生成短資訊,也能夠生成比較長(zhǎng)的資訊。[2]
在先進(jìn)技術(shù)的支持下,如果不仔細(xì)閱讀,“Xiaomingbot”的新聞作品和傳統(tǒng)的人工新聞作品并沒(méi)有顯著不同,都能夠進(jìn)行新聞報(bào)道,達(dá)到提供資訊的目的。但是,仔細(xì)分析,“Xiaomingbot”和傳統(tǒng)人工的體育資訊新聞仍然有著一些較為顯著的區(qū)別。
因技術(shù)限制,“Xiaomingbot”并不能識(shí)別視頻、動(dòng)圖和音頻等符號(hào)形式,所以它的新聞作品都是由靜態(tài)的圖片符號(hào)和文字符號(hào)組成。盡管“Xiaomingbot”有著較為先進(jìn)的圖文語(yǔ)義匹配模型和大量可供選擇的圖片數(shù)據(jù),但在圖片符號(hào)和文字符號(hào)的匹配問(wèn)題上仍然存在問(wèn)題,給人明顯的機(jī)械感。
“Xiaomingbot”在進(jìn)行圖文匹配的時(shí)候,通常會(huì)采用固定的模式。該模式的特征就是“一段 一 圖 ”。 在“Xiaomingbot”進(jìn)行寫(xiě)作的時(shí)候,它首先會(huì)收集網(wǎng)絡(luò)用戶以及其他今日頭條有權(quán)使用的信息,首先生成文字段落。隨后,根據(jù)文字段落的意義,在今日頭條的圖片庫(kù)里面進(jìn)行圖文符號(hào)的匹配,再將圖片插入到段落之前,形成“圖片+段落”的作品呈現(xiàn)。并且,幾乎是每一段話都有圖片在前修飾。拿其報(bào)道意大利足球甲級(jí)聯(lián)賽的案例《意甲 第19輪 恩波利0:1國(guó)際米蘭 遺憾失利》[3]來(lái)說(shuō),除最后兩段對(duì)于兩隊(duì)陣容的介紹沒(méi)有采用配圖之外,其他所有的段落都采用了“一個(gè)圖片+一個(gè)段落”的內(nèi)容呈現(xiàn)模式,沒(méi)有變化,顯得非常機(jī)械化。它在有關(guān)其他賽事的報(bào)道也是如此,幾乎都是采用“一個(gè)圖片+一個(gè)段落”的呈現(xiàn)方式,很少會(huì)有變化。
而由人工編輯產(chǎn)生的對(duì)同樣賽事進(jìn)行報(bào)道的新聞作品,配圖則是更加自由。拿騰訊體育作者冷雪寫(xiě)作的同樣比賽內(nèi)容的文章《意甲-國(guó)米1-0取連勝穩(wěn)居三甲 凱塔進(jìn)球被吹仍破門(mén)致勝》[4]來(lái)說(shuō),文章開(kāi)頭用一張典型的描繪比賽畫(huà)面的圖片來(lái)配圖,隨后在描繪比賽精彩部分的時(shí)候才去使用圖片進(jìn)行解釋說(shuō)明,并且會(huì)使用一些動(dòng)圖,讓這個(gè)作品包含的符號(hào)更加多樣,畫(huà)面更加生動(dòng),更有一種生命感。
在語(yǔ)句的文本生成方面,許多寫(xiě)作機(jī)器人僅僅是依據(jù)事先寫(xiě)好的模板,將里面空缺的時(shí)間、地點(diǎn)、事件等信息補(bǔ)充完整,通過(guò)較為簡(jiǎn)單的填空作業(yè)實(shí)現(xiàn)新聞信息的生成。而“Xiaomingbot”則在此基礎(chǔ)之上,應(yīng)用了較為先進(jìn)的文本生成技術(shù),具有對(duì)用戶發(fā)表的文字、討論進(jìn)行歸納整合的能力,并且學(xué)習(xí)多種賽事網(wǎng)絡(luò)文字直播員的語(yǔ)句應(yīng)用策略,實(shí)現(xiàn)較為高級(jí)的語(yǔ)句生成。但是,仍然難以避免語(yǔ)句符號(hào)的獨(dú)立和僵化問(wèn)題。
從“Xiaomingbot”報(bào)道2018年美網(wǎng)的比賽來(lái)看,這一段時(shí)間標(biāo)題都是采用了“比賽名稱+選手名和比分+不敵對(duì)手/獲得勝利”的模式。內(nèi)容上,第一段會(huì)采用與標(biāo)題類似的結(jié)構(gòu),先是時(shí)間,然后是比賽名稱,最后是選手和比賽結(jié)果。而在第一段的用詞上面,如果說(shuō)標(biāo)題是某選手獲得勝利,那么開(kāi)頭第一段結(jié)尾就會(huì)是“最終,某選手手感不俗,以幾比幾的比分獲得勝利”;如果說(shuō)標(biāo)題是某選手不敵對(duì)手,那結(jié)尾就會(huì)變成“最終,某選手不敵對(duì)手,以幾比幾的比分遺憾止步”。在隨后的段落里,“Xiaomingbot”則會(huì)對(duì)每局比賽過(guò)程的數(shù)據(jù)進(jìn)行具體分析,而且在多數(shù)情況下會(huì)使用“比賽開(kāi)始-隨后-緊接著-最終”的邏輯結(jié)構(gòu),用詞也很少會(huì)替換,呈現(xiàn)出單一、刻板、僵化的特點(diǎn)。
“Xiaomingbot” 將 文 字符號(hào)組合形成的語(yǔ)句結(jié)構(gòu)的確沒(méi)有問(wèn)題,但這種句子結(jié)構(gòu)過(guò)分清晰和獨(dú)立了。換句話說(shuō),“Xiaomingbot”所寫(xiě)出來(lái)的每一句話都可以非常輕松、明確地劃分所有的句子成分,而且大部分的語(yǔ)句都采用“主謂賓”“主謂賓+狀語(yǔ)”“主謂+狀語(yǔ)”的簡(jiǎn)單句子結(jié)構(gòu),雖然結(jié)構(gòu)的確很清晰、句子使用很正確,但給人以一種過(guò)分的正確感。每個(gè)文字符號(hào)的過(guò)分獨(dú)立,讓文章少了許多變化的美感,給人一種僵硬感。
而人工記者在進(jìn)行新聞寫(xiě)作的時(shí)候,一般來(lái)說(shuō)會(huì)采用更為多樣和復(fù)雜的句式,讓文字符號(hào)有更多的組合方式,讓整篇文章的語(yǔ)句結(jié)構(gòu)更加豐富,更有可讀性。
“Xiaomingbot”還存在的一個(gè)問(wèn)題就是對(duì)于符號(hào)內(nèi)涵和意義理解不夠,會(huì)出現(xiàn)使用方面的問(wèn)題。
比如說(shuō),其對(duì)于圖片符號(hào)的意義理解就會(huì)出現(xiàn)偏差。在《NBA今日看點(diǎn):哈登40+9+7火箭力克步行者,武切維奇21+14魔術(shù)大勝尼克斯》[5]一文中,文章的第一張圖使用了一張和NBA比賽毫無(wú)關(guān)聯(lián)的一張美國(guó)士兵舉著旗子的圖,這張圖會(huì)出現(xiàn)在東方IC圖庫(kù)中“火箭”一詞的詞庫(kù)當(dāng)中。這就是因?yàn)椤癤iaomingbot”未能理解段落和圖片的含義,造成圖片使用方面的錯(cuò)誤。
此外,“Xiaomingbot”還可能對(duì)文字符號(hào)的意義理解出錯(cuò),其中最典型的就是其在之前里約奧運(yùn)會(huì)報(bào)道上曾寫(xiě)的“失敗女神朝其拋出了橄欖枝”[6]?!伴蠙熘Α笔且粋€(gè)褒義的詞語(yǔ),一般我們會(huì)寫(xiě)“勝利女神朝其拋出了橄欖枝”,但不會(huì)將橄欖枝和失敗女神聯(lián)系起來(lái)。很顯然,“Xiaomingbot”在文字符號(hào)的深層意義的理解上依然會(huì)出錯(cuò)。不過(guò),針對(duì)于此,“Xiaomingbot”現(xiàn)在寫(xiě)作的時(shí)候都會(huì)直接寫(xiě)“取得勝利”“遺憾落敗”這樣雖然具有感情色彩,但相對(duì)簡(jiǎn)單、意義不深的詞語(yǔ),避免出錯(cuò)。
當(dāng)然,人類記者在新聞寫(xiě)作的過(guò)程當(dāng)中也難免會(huì)出現(xiàn)符號(hào)意義運(yùn)用錯(cuò)誤的問(wèn)題。但是,人類記者發(fā)生此類錯(cuò)誤的原因一般是粗心大意,而不是不能進(jìn)行理解。
以上的三點(diǎn)缺陷是從符號(hào)學(xué)視角下對(duì)于機(jī)器新聞寫(xiě)作的批判性解讀。這并不意味著機(jī)器新聞寫(xiě)作是無(wú)用的。相反,寫(xiě)作機(jī)器人因?yàn)橛兄l(fā)稿速度快、覆蓋范圍廣、不會(huì)疲勞等諸多優(yōu)勢(shì),在未來(lái)的新聞寫(xiě)作中必將占有重要的地位。
在符號(hào)學(xué)的研究視角之下,我們可以清晰地看到機(jī)器新聞寫(xiě)作存在著許多的問(wèn)題。在此背景之下,筆者提出對(duì)于機(jī)器新聞寫(xiě)作發(fā)展的四點(diǎn)建議。
機(jī)器寫(xiě)作首先應(yīng)該將自己語(yǔ)料庫(kù)和數(shù)據(jù)庫(kù)中的符號(hào)進(jìn)行多樣化匹配。例如,“Xiaomingbot”中“一個(gè)圖片+一個(gè)段落”的匹配方式就顯得十分的機(jī)械、刻板。即使人工智能難以理解段落的重要性,無(wú)法根據(jù)內(nèi)容的重要性來(lái)選擇是否需要匹配圖片。不過(guò),寫(xiě)作機(jī)器人的設(shè)計(jì)者可以嘗試將隨機(jī)化的思想引入到人工智能的寫(xiě)作過(guò)程當(dāng)中,嘗試基于大量文本數(shù)據(jù)的隨機(jī)試驗(yàn),并思考這些隨機(jī)化的思想是否可以對(duì)人工智能的符號(hào)匹配運(yùn)用產(chǎn)生積極影響。
另外來(lái)說(shuō),對(duì)于文本符號(hào)之間的匹配也應(yīng)該向多樣化的方向發(fā)展,改變刻板、僵硬的語(yǔ)句結(jié)構(gòu),嘗試讓文章每個(gè)符號(hào)變得不那么獨(dú)立,讓文字更加具有美感和可讀性。
關(guān)于語(yǔ)義理解方面,也是在機(jī)器人新聞寫(xiě)作中必須要解決的一個(gè)問(wèn)題。并且,這也是一個(gè)技術(shù)難題。
一方面,需要加強(qiáng)人工智能對(duì)于某些特定情感符號(hào)的理解程度,盡量理解詞語(yǔ)的感情色彩和其他特殊的使用規(guī)則,防止出現(xiàn)詞語(yǔ)的錯(cuò)用現(xiàn)象。另一方面,要研究如何讓人工智能能夠識(shí)別圖像、聲音和視頻符號(hào),并能夠?qū)⑦@些符號(hào)更自如地運(yùn)用到新聞寫(xiě)作當(dāng)中。這樣一來(lái),不僅可以促使文章的符號(hào)多元化和閱讀趣味的增加,也可以減少出現(xiàn)像“Xiaomingbot”對(duì)NBA比賽的報(bào)道中出現(xiàn)的圖文匹配錯(cuò)誤的情況。
機(jī)器畢竟沒(méi)有人那么充沛的情感,寫(xiě)出來(lái)的文字難免會(huì)有一些刻板和生硬。但是,為了追求更好的表達(dá)效果,即使是沒(méi)有感情的AI機(jī)器人所寫(xiě)作的新聞作品,我們也應(yīng)該要求它具有相對(duì)多的感情色彩,在語(yǔ)義理解的基礎(chǔ)之上增強(qiáng)對(duì)情感符號(hào)的運(yùn)用,從而增強(qiáng)文章的可讀性,也讓文章更加富有美感,達(dá)至更好的傳播效果。
目前來(lái)看,“Xiaomingbot”已經(jīng)會(huì)選用一些具有感情色彩的詞來(lái)幫助文章更好地進(jìn)行場(chǎng)景呈現(xiàn)。它會(huì)使用一些具有感情色彩或者更加生動(dòng)的詞語(yǔ),比如“遺憾”“速戰(zhàn)速?zèng)Q”“勢(shì)如破竹”等,這使得它寫(xiě)作的內(nèi)容更加富有情感性。不過(guò),比起其他體育頻道的專業(yè)記者來(lái)說(shuō),這些用詞仍然顯得刻板和生硬。而且,有些時(shí)候也會(huì)出現(xiàn)錯(cuò)誤,在使用此類帶有感情色彩的詞語(yǔ)的時(shí)候也可能會(huì)發(fā)生類似于之前說(shuō)的“失敗女神”和“橄欖枝”相搭配的錯(cuò)誤。人工智能對(duì)于情感符號(hào)的運(yùn)用仍然需要進(jìn)一步的研究和發(fā)展。
新聞作品也是“人”的作品,是人類所創(chuàng)造符號(hào)的集合體。在某種意義上來(lái)說(shuō),人工智能也是人類創(chuàng)造的一種符號(hào)表現(xiàn)形式,比起人類而言,人工智能更像是一個(gè)“符號(hào)的集合體”。但是,人工智能是一種具有智能的存在,這也就意味著人工智能同樣具有創(chuàng)造性。并且,人工智能在某些方面也可以突破人類的局限性。
人工智能可以對(duì)人類現(xiàn)在構(gòu)建的符號(hào)系統(tǒng)進(jìn)行一些創(chuàng)新性的構(gòu)建。寫(xiě)作機(jī)器人的實(shí)驗(yàn)者可以嘗試更多的可能性,給人工智能一些“獨(dú)立”的發(fā)展空間。并且,可以嘗試跳出已有的新聞框架、邏輯和理念,從創(chuàng)新的角度來(lái)對(duì)機(jī)器新聞作品進(jìn)行分析和解讀,嘗試讓符號(hào)系統(tǒng)在人工智能語(yǔ)言下進(jìn)行多元化和創(chuàng)新性的發(fā)展。
現(xiàn)今,機(jī)器人新聞寫(xiě)作仍然處在一個(gè)快速發(fā)展的過(guò)程當(dāng)中,正在對(duì)體育、財(cái)經(jīng)領(lǐng)域的資訊類新聞寫(xiě)作造成不小的沖擊。雖然不能否認(rèn)機(jī)器人應(yīng)用于資訊新聞寫(xiě)作,可以將記者和編輯從煩瑣的基礎(chǔ)工作當(dāng)中解放出來(lái),更好地提升他們的創(chuàng)造力。不過(guò),從符號(hào)學(xué)的視角下對(duì)于機(jī)器新聞作品進(jìn)行研究,依舊能發(fā)現(xiàn)機(jī)器新聞寫(xiě)作的很多問(wèn)題。即使不考慮深度報(bào)道,僅僅針對(duì)資訊類新聞寫(xiě)作方面而言,寫(xiě)作機(jī)器人仍然有許多需要改進(jìn)的地方。
注釋:
[1]曾一果.媒介文化理論概論[M].中國(guó)人民大學(xué)出版社,2014:93.
[2]刁毅剛,陳旭管.“Xiaomingbot”背后,寫(xiě)稿機(jī)器人的技術(shù)探尋——專訪北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所萬(wàn)小軍博士[J].中國(guó)傳媒科技,2016(9): 7-11.
[3]“ 意甲 第19輪 恩 波 利0:1國(guó) 際 米蘭 遺憾 失 利”[EB/OL].今 日頭 條.https://www.toutiao.com/i6640443736377524739/.
[4]“意甲-國(guó)米1-0取連勝穩(wěn)居三甲 凱塔進(jìn)球被吹仍破門(mén)致勝”[EB/OL].騰訊體育.https://sports.qq.com/a/20181229/011006.htm.
[5]“NBA今日看點(diǎn):哈登40+9+7火箭力克步行者,武切維奇21+14魔術(shù)大勝尼克斯”[EB/OL].今日頭條.https://www.toutiao.com/i6622865527284957703/.
[6]“奧運(yùn)會(huì)乒乓球男子團(tuán)體半決賽 中國(guó)隊(duì)(馬龍/張繼科/許昕)3:0小試牛刀輕取韓國(guó)隊(duì)(朱世赫/李相秀/鄭永植)”[EB/OL].今日頭條.https://www.toutiao.com/a6319219544476877313/.