本刊記者丨劉勝男
機器人記者在中國硅谷“編形金剛”:不僅會中文,還是翻譯大師
——訪硅新社機器人記者創(chuàng)始團隊
本刊記者丨劉勝男
“歡迎小編機器人@編形金剛 加入我們!希望你能寫出更好更有價值的文章!”3月10日,海外媒體硅谷新聞社的新浪官方微博(@硅新社)上發(fā)布了這樣一條信息。隨后,一條條由“編形金剛”自動編寫的“美國融資快訊”被發(fā)出。這預(yù)示著,硅谷機器人記者“編形金剛“正式登陸中國。
機器人記者的出現(xiàn),是時下傳媒界的熱點話題?!吨袊鴤髅娇萍肌冯s志3月刊專門就此予以專題報道,在業(yè)學(xué)兩界引發(fā)了較大反響。本期,記者專訪“編形金剛”的創(chuàng)始團隊,就硅谷機器人記者的能量全面解讀。
硅新社是硅谷華人成立的一家側(cè)重于科技、財經(jīng)新聞的中文媒體,顧問團隊包括新華社美國資深記者、《中國日報》資深記者和斯坦福大學(xué)訪問學(xué)者。硅新社的內(nèi)容以短新聞、圖片新聞為主,適合移動互聯(lián)網(wǎng)時代用戶的閱讀特點。機器人新聞是硅新社的重點項目。
據(jù)介紹,編形金剛由硅新社與硅谷幾位技術(shù)大牛合作開發(fā),知識產(chǎn)權(quán)歸硅新社所有。硅新社已先后在新浪微博、騰訊微信推出“美國融資快訊”,以及在Twitter上推出英文版融資快訊Funding News,內(nèi)容均由編形金剛(英文名:NewsWribot)獨立編寫。
目前,硅新社已經(jīng)拿到中國著名投資機構(gòu)的天使投資,正在為A輪投資做準(zhǔn)備。而“美國融資快訊”還只是用來向投資人做展示的雛形,關(guān)于編形金剛的潛能和成長計劃,硅新社團隊早有設(shè)計,更多極富想象力的產(chǎn)品和應(yīng)用會在資金和人員到位后,結(jié)合需求逐步開發(fā)。
“機器人記者一般會用到的技術(shù)涉及數(shù)據(jù)挖掘、人工智能、機器學(xué)習(xí),而編形金剛還運用了機器翻譯技術(shù)。”硅新社團隊里有多名中國成員,包括編形金剛的創(chuàng)始人在內(nèi)。會寫中文、懂中英文翻譯是編形金剛的特殊技能,這使它目前在美國乃至全世界的“機器人記者圈”都與眾不同。
“因為我們的數(shù)據(jù)源是美國的英文數(shù)據(jù),編形金剛需要把它翻譯成中文,所以在微博上發(fā)布的信息,有的時候語句可能不太通順。我們的技術(shù)會逐漸讓翻譯更加流暢、準(zhǔn)確。另外,因為微博有140字的限制,編形金剛除了翻譯,還需要掌握話題歸納和提煉的技藝,比如從一篇一千字的文章里找出20個字……”
“美國對機器人記者的開發(fā)有比較長的時間,這些機器人做的都是英文報道,英文里面有一些單數(shù)、復(fù)數(shù)、語法的問題,所以在生成新聞時也有相應(yīng)的技術(shù)在里面。我們在Twitter上也發(fā)布英文信息,不用翻譯,就比較簡單?!?/p>
編形金剛的語言優(yōu)勢能夠創(chuàng)造怎樣的價值?硅新社團隊舉例說:“中國有很多科技媒體,他們的消息很多是來自外媒,然后翻譯成稿。所以外媒上有的內(nèi)容,他們才能翻譯,沒有的內(nèi)容就翻譯不到。而我們的信息不是來自外媒,而是直接從美國證監(jiān)會(SEC)的數(shù)據(jù)庫提取,這種做法在美國來說也是新的?!?/p>
可見,面對中國市場,編形金剛的潛能和商業(yè)價值有非常大的空間。
除了從文字?jǐn)?shù)據(jù)中挖掘信息,機器人挖掘的數(shù)據(jù)源類型可以更多樣,包括視頻、圖片、聲音、甚至地理位置等等。據(jù)介紹,硅新社團隊已和樂視開展合作,正在與樂視體育討論版權(quán)許可,獲得授權(quán)后,機器人就可以把樂視體育網(wǎng)站上的視頻內(nèi)容,做成短文的形式發(fā)布,免去了人工整理寫作的麻煩。再比如專訪,“假設(shè)我們在優(yōu)酷、土豆上看到一些李開復(fù)的采訪視頻,可以用機器人把問題及回答抓取過來,進行濃縮剪輯,就能快遞地自動生成一篇文字專訪稿?!?/p>
而除了“寫稿”,圖像、聲音、視頻采集編輯也是機器人記者即將練就的本領(lǐng)?!氨热缭谀硤龃髸?,我們在會場中的不同位置安裝近景、遠景等五個鏡頭,機器人可以根據(jù)聲音來源或人臉識別等自動拍照、錄像,這樣至少可以生成圖片新聞。再比如,在一場足球比賽中,很多體育記者會躲在球門后面等著抓拍射門鏡頭,這也可以用機器人來代替,或許會比人更加精準(zhǔn)地抓拍到精彩畫面。另外機器人的應(yīng)用擴展到聲音方面也是有可能的,以后它會越來越智能化?!?/p>
除此之外,在深度的數(shù)據(jù)挖掘、多數(shù)據(jù)源的信息融合方面,機器人將發(fā)揮很大的作用?!氨热鐖D片的分析。我們經(jīng)常會在報紙上看到某某公眾人物的照片,得知他去了哪些地方、會見了誰等信息。而從信息挖掘的角度可以挖掘到更深層次的信息,比如這位公眾人物在最近六個月中,和誰走得比較近,或者誰消失了,為什么消失……類似這種非淺層信息,需要從很多的數(shù)據(jù)源中深度挖掘,這件事由人來做就比較累,而機器人操作起來就比較輕松。因為人臉識別,特別是對照片的識別,相對來說是比較容易的,但目前還沒有實際應(yīng)用案例?!?/p>
在輿情分析上,機器人也可成為一把好手。硅新社團隊告訴記者,美國中央情報局CIA旗下風(fēng)險投資公司 I-Q-Tel投資了芝加哥的人工智能數(shù)據(jù)公司Narrative Science,在本·拉登被海豹突擊隊擊斃之后,CIA就通過機器人數(shù)據(jù)挖掘與分析檢測當(dāng)?shù)孛癖娫诰W(wǎng)上的輿論及情緒,以預(yù)測中東某國暴亂的可能性?!霸谥袊部梢杂脵C器人來做輿情及行業(yè)情報分析,比如在一些特定人員涉嫌犯罪被抓之前,網(wǎng)絡(luò)上已經(jīng)開始傳播相關(guān)信息,機器人就可以抓取、挖掘這些信息加以分析?!?/p>
機器人記者“編形金剛”在中國的“適應(yīng)力”相當(dāng)強,完全可以實現(xiàn)對敏感信息、違反法律法規(guī)的內(nèi)容進行篩選和分析。比如目前新浪微博就有這一技術(shù)的應(yīng)用,自動進行敏感詞檢索和屏蔽。
硅新社團隊還介紹了一個更有意思的應(yīng)用,即對歷史信息的挖掘。比如,機器人可以從圖片數(shù)據(jù)庫里面,找到在天安門廣場上同一個地點、不同人、不同時期拍攝的100張照片,看在過去的歷史長河中,這個場景是怎么發(fā)生變化的,會像看電影一樣。
雖然機器人記者在中國傳媒業(yè)還不多見,但在美國,有幾位已經(jīng)大名鼎鼎了。其中包括美聯(lián)社在去年夏天開始和科技公司AI(Automated Insights)合作的Wordsmith財報文章撰寫平臺,目前Wordsmith自動生成的文章已經(jīng)不再需要人工檢查和加工,它撰寫文章的錯誤率比人撰寫的錯誤率更低,而且Wordsmith每季度可以撰寫3000家公司的財報,數(shù)量驚人。
上個月,美聯(lián)社宣布將再度與AI合作,用機器人撰寫體育新聞。美聯(lián)社今年春季開始,將以機器人撰寫全美大學(xué)體育聯(lián)盟(NCAA)籃球分組賽事,未來2年逐漸擴大至足球分組。運動比賽和財經(jīng)新聞類似,報道包含統(tǒng)計數(shù)字,球隊賽史與排名、球員歷年表現(xiàn)、比賽結(jié)果預(yù)測等,都涉及統(tǒng)計分析,機器人執(zhí)行賽后結(jié)論的速度與正確性,高于人類。
硅新社團隊坦言,“機器人有一定的應(yīng)用場景限制,并不是每篇文章都可以用機器人來寫。至少目前來看,它主要還只適用于金融、體育等數(shù)據(jù)繁多的領(lǐng)域,以及摘錄性的工作。不過,人工智能、機器學(xué)習(xí)這些前沿科技本身還處在迅速發(fā)展的過程中,還沒有很完善,所以機器人記者的未來具有非常大的想象空間?!?/p>
機器人記者的出現(xiàn),讓不少人類記者開始憂慮,擔(dān)心自己的價值某一天會被機器取代。在硅新社團隊看來,創(chuàng)造機器人記者不是想要取代記者,而是為了減少人的工作,把記者解放出來去做更有創(chuàng)造性的事情。工作量巨大或突發(fā)性的緊急報道,是機器人的特長,而深度分析的文章,目前就是機器人做不了的。
去年3月,美國加州發(fā)生了一次4.4級地震,《洛杉磯時報》是最快通過網(wǎng)站報道該消息的媒體,這篇稿件就出自機器人之手。機器人第一時間從美國地質(zhì)勘探局的系統(tǒng)中抓取地震的相關(guān)數(shù)據(jù),從寫作到發(fā)布只用了三分鐘時間?!跋襁@樣一條資訊,記者也能寫得出來,但是深更半夜的,讓記者快速反應(yīng),采訪、寫作、報道,確實挺費力氣?!?/p>
除了解放人類,機器人記者的出現(xiàn)還有一個原因?!懊绹娜斯ぬF。為什么美聯(lián)合、洛杉磯時報會采用機器人記者?因為人工如此昂貴,再讓他們?nèi)懞芸菰锏?、機械性的、結(jié)構(gòu)性的報道,就是資源浪費?!边@確實是一個很實際的考慮。
如此看來,機器人記者的出現(xiàn)無疑會對傳媒業(yè)的發(fā)展起到推動作用,對于傳媒人來說,是解放而不是替換,它促使記者發(fā)揮更強大的創(chuàng)造力,寫出更敏銳、更有趣的新聞報道,而不是將精力放在最初的數(shù)字上。