吳曉英
(新華通訊社,北京 100083)
星空、大漠、草地,身著不同款式宇航服的宇航員騎在一匹或是前蹄高揚(yáng),或是碎步小跑,或是悠閑踱步的白馬上,黝黑、湛藍(lán)、暗紅,不同色調(diào)天空的映襯下,一幅幅充滿著超現(xiàn)實(shí)主義虛無(wú)感和永恒感的畫作浮現(xiàn)在人們眼前。讓人意想不到的是,這一切竟出自機(jī)器人之手。
2022年4月6日,位于美國(guó)舊金山的人工智能非營(yíng)利組織OpenAI,發(fā)布了一款人工智能算法模型“DALL-E 2”。只需輸入“一個(gè)騎著馬的宇航員,超現(xiàn)實(shí)主義風(fēng)格”這樣的簡(jiǎn)單文字描述,“DALL-E 2”就會(huì)將圖1展現(xiàn)在人們眼前。并且,鑒于超高的分辨率,“DALL-E 2”創(chuàng)作的圖片看起來(lái)就像真實(shí)的照片一樣。[1]
圖1 “DALL-E2”生成圖
多模態(tài)技術(shù)已成為2022年最值得期待的人工智能應(yīng)用之一。
在現(xiàn)實(shí)世界中,人類同時(shí)通過(guò)看、聽、說(shuō)、觸等感官探索和理解世界,因此現(xiàn)實(shí)世界中的信息,天然以語(yǔ)音、文字、圖像、手勢(shì)及表情等多模態(tài)形式存在。在傳統(tǒng)的人工智能應(yīng)用中,語(yǔ)音、文字、圖像、手勢(shì)及表情等都是各自獨(dú)立的技術(shù)體系,彼此之間沒有關(guān)聯(lián),因而是以一種單模態(tài)形式演進(jìn)的。人工智能要想更接近人類智力,多模態(tài)是其發(fā)展的必由之路。
OpenAI此次發(fā)布的“DALL-E2”算法模型,正是對(duì)多模態(tài)技術(shù)的有益探索。通過(guò)將文字與圖像兩種模態(tài)的信息深度融合,實(shí)現(xiàn)文字感應(yīng)、圖文映射、邏輯推理、辯證思考等高階人類思維活動(dòng),從而,模擬人腦完成從文字內(nèi)容到圖像內(nèi)容的跨模態(tài)創(chuàng)作。
除了“看話做圖”,“DALL-E 2”還能實(shí)現(xiàn)“看圖做圖”,即在不改變?cè)瓐D主題內(nèi)容的前提下,以不同配色,多種流派,生成風(fēng)格迥異的嶄新圖片。例如,將《蒙娜麗薩的微笑》生成印象派畫作或是漫畫風(fēng)格。雖然畫風(fēng)詭異,但生成的圖片著實(shí)讓人驚艷。此外,通過(guò)文本指令,“DALL-E 2”亦能夠毫無(wú)違和地實(shí)現(xiàn)圖片的編輯和修改。例如,在碧藍(lán)的天空中加一行大雁,刪除圖片中的小狗,將圓形型的餐桌改成方形等,按指令修改后的圖片都能不露一絲痕跡,做到天衣無(wú)縫。[2]
《MIT技術(shù)評(píng)論》對(duì)“DALL-E 2”算法模型給出的評(píng)價(jià)是:“雖然它創(chuàng)作出的圖片既中規(guī)中矩又天馬行空,但它證明了,人工智能已學(xué)會(huì)將大千世界中的各個(gè)物體組合在一起的基本邏輯。這太令人震驚了?!盵3]
近日,麻省理工的科學(xué)家們也研制出了一個(gè)有趣的AI應(yīng)用“Speech2Face”。它的主要作用是通過(guò)聲音推測(cè)說(shuō)話人的長(zhǎng)相。世界上沒有兩張完全一樣的臉,同樣,世界上也沒有兩個(gè)完全一樣的聲音。不同聲音的產(chǎn)生,主要由說(shuō)話人的聲帶、顴骨、下巴、鼻子、嘴唇等的長(zhǎng)短、厚度、結(jié)構(gòu)決定。因此,機(jī)器通過(guò)捕捉聲音間的細(xì)微不同,描繪出不同的顴骨、下巴、鼻子、嘴唇等臉部特征,進(jìn)而推測(cè)出說(shuō)話人的長(zhǎng)相。
圖2 “Speech2Face”畫出的人臉
科學(xué)家們使用Youtub上數(shù)百萬(wàn)視頻中,十幾萬(wàn)人的聲音對(duì)“Speech2Face”進(jìn)行訓(xùn)練。經(jīng)過(guò)大量訓(xùn)練的“Speech2Face”,只需要收聽3 ~ 6秒的聲音,就能畫出人臉。當(dāng)然,聽得時(shí)間越長(zhǎng),“Speech2Face”畫出的人臉越準(zhǔn)確。“Speech2Face”完美實(shí)現(xiàn)了從音頻到圖像的跨模態(tài)生成。
“DALL-E 2”是如何實(shí)現(xiàn)創(chuàng)造性地跨模態(tài)生成呢?還是以“一個(gè)騎著白馬的宇航員”為例,看一看它背后的邏輯。
首先,要讓機(jī)器掌握文字與圖像間的映射關(guān)系,比如,當(dāng)機(jī)器看到“馬”這個(gè)字時(shí),能立刻檢索出所有“馬”的圖像。那么,機(jī)器是如何認(rèn)識(shí)“馬”的呢?這就要靠深度學(xué)習(xí)了。
深度學(xué)習(xí)最拿手的事就是給圖像分類。人們先將大量包含圖像“馬”的圖片按照一定規(guī)則轉(zhuǎn)換成機(jī)器認(rèn)識(shí)的數(shù)字串,輸入到機(jī)器中,深度學(xué)習(xí)對(duì)這些數(shù)字串進(jìn)行特定的數(shù)學(xué)運(yùn)算,將關(guān)于圖像“馬”的特征數(shù)字提取出來(lái),形成一個(gè)基于圖像“馬”的特征分類。當(dāng)再有新的圖像“馬”輸入時(shí),機(jī)器通過(guò)上述步驟將提取出的特征與已有的圖像“馬”特征分類進(jìn)行比對(duì),相似度達(dá)到一定比值時(shí),機(jī)器就認(rèn)為新輸入的圖像是“馬”。這樣機(jī)器就完成了對(duì)圖像“馬”的認(rèn)知過(guò)程。
那么,如果再深入思考一下,深度學(xué)習(xí)又是如何進(jìn)行特征提取的呢?那就是深度學(xué)習(xí)中的深度神經(jīng)網(wǎng)絡(luò)。
深度神經(jīng)網(wǎng)絡(luò)好像人類大腦,也是由一個(gè)個(gè)獨(dú)立的“神經(jīng)元”組成。但和生物學(xué)上的“神經(jīng)元”不同,這里的“神經(jīng)元”是一組組執(zhí)行乘法和加法的數(shù)學(xué)運(yùn)算。單個(gè)“神經(jīng)元”沒有什么意義,但當(dāng)成千上萬(wàn)的“神經(jīng)元”連接在一起時(shí),神奇的事情就發(fā)生了。
還是以“馬”為例,由于“神經(jīng)元”在深度神經(jīng)網(wǎng)絡(luò)中是以列(或?qū)樱┑男问竭B接在一起的,將圖像“馬”轉(zhuǎn)化的原始數(shù)字串輸入第一列(或?qū)樱┖?,?shù)字被送到不同的“神經(jīng)元”中,其中一個(gè)“神經(jīng)元”通過(guò)數(shù)學(xué)計(jì)算,負(fù)責(zé)判斷這組數(shù)字是直線還是弧線;如果是弧線,這個(gè)結(jié)果就被輸入給第二列(或?qū)樱┲械哪硞€(gè)“神經(jīng)元”,這個(gè)“神經(jīng)元”再負(fù)責(zé)判斷這個(gè)弧線是圓形還是橢圓形;判斷后的結(jié)果再被送到第三列(或?qū)樱┲械哪硞€(gè)“神經(jīng)元”,再判斷它是眼睛還是頭;然后再進(jìn)入下一層,判斷它是馬的頭還是牛的頭。很多個(gè)這樣的“神經(jīng)元”同時(shí)工作,相互疊加,最終產(chǎn)生了圖像“馬”這一終極結(jié)果。以此類推,深度學(xué)習(xí)幫助機(jī)器認(rèn)識(shí)了“宇航員”的圖像、“星空”的圖像、“草地”的圖像等。
圖3 “DALL-E 2”跨模態(tài)生成呈現(xiàn)的映射關(guān)系
至此,機(jī)器學(xué)會(huì)了圖像與文字間的映射關(guān)系。然后,通過(guò)反向轉(zhuǎn)換,將“一個(gè)騎著白馬的宇航員,超現(xiàn)實(shí)主義風(fēng)格”這句文字同樣以數(shù)字串形式輸入機(jī)器,機(jī)器將包含“白馬”“騎著馬的宇航員”“超現(xiàn)實(shí)主義風(fēng)格”等圖像檢索出來(lái),再進(jìn)行隨機(jī)組合,一幅幅“光怪陸離”的畫作就此誕生了。
現(xiàn)在,再來(lái)看看“聽聲音識(shí)人臉”這個(gè)有趣應(yīng)用背后的邏輯。首先,在用于訓(xùn)練的視頻中挑選一個(gè)人物,然后將視頻中的人物通過(guò)編解碼技術(shù),轉(zhuǎn)換為一個(gè)臉部特寫圖像。接著,就像上述認(rèn)識(shí)“馬”的過(guò)程一樣,通過(guò)一個(gè)又一個(gè)“神經(jīng)元”的復(fù)雜連接,先識(shí)別線條和輪廓,再識(shí)別圓、扁、長(zhǎng)、方,最終確定鼻子、嘴唇、下巴等面部器官的形狀,提取出面部特征信息。然后再將這個(gè)人在視頻中的說(shuō)話聲音轉(zhuǎn)換成聲譜圖,同樣通過(guò)高低、強(qiáng)弱等維度的識(shí)別,提取出聲音特征信息。兩個(gè)特征信息相互匹配,聲音背后的人物就被描繪了出來(lái)。
深度學(xué)習(xí)目前已成為人工智能界最熱門的研究領(lǐng)域。它最吸引人的地方是其對(duì)特征信息的自動(dòng)提取和計(jì)算。但事物總是有兩面性的,正是這種自動(dòng)性,使得深度學(xué)習(xí)的算法模型就像一個(gè)黑匣子,很多時(shí)候,人們只能看到結(jié)果,而無(wú)法解釋過(guò)程。
曾經(jīng)有科學(xué)家做過(guò)這樣一個(gè)實(shí)驗(yàn),運(yùn)用深度學(xué)習(xí)模型訓(xùn)練機(jī)器認(rèn)識(shí)“哈士奇”和“狼”??茖W(xué)家將一些家養(yǎng)的哈士奇圖片和在冰天雪地里拍的“狼”的圖片拿來(lái)訓(xùn)練模型,令人驚訝的是,模型學(xué)習(xí)得很好,當(dāng)看到新的圖片時(shí),它能很準(zhǔn)確地辨認(rèn)出是“狼”,還是“哈士奇”??茖W(xué)家們歡欣鼓舞,并且開始研究它的運(yùn)算機(jī)制,想看看深度神經(jīng)網(wǎng)絡(luò)是如何進(jìn)行學(xué)習(xí)的。結(jié)果讓人大跌眼鏡,深度神經(jīng)網(wǎng)絡(luò)居然是依據(jù)圖片中的白色雪地進(jìn)行判斷,當(dāng)圖片中有白色雪地時(shí),模型就認(rèn)為它是“狼”,即使把一只“哈士奇”放在雪地里,模型也認(rèn)為它是“狼”。
鑒于,深度神經(jīng)網(wǎng)絡(luò)的智能和強(qiáng)大,深度學(xué)習(xí)在解決問(wèn)題的同時(shí)也會(huì)帶來(lái)一些不確定性,在使用時(shí),需要謹(jǐn)慎操作。也許機(jī)器已經(jīng)學(xué)會(huì)了一些人們意想不到的東西。[4]
信息大爆炸的今天,網(wǎng)絡(luò)已成為人們獲取信息的主要途徑之一。除了在日益龐雜的“大數(shù)據(jù)”中尋找信息,內(nèi)容創(chuàng)作者們還要挖掘“信息背后的信息”,明確信息內(nèi)的脈絡(luò),梳理信息間的關(guān)系,這些都需要耗費(fèi)大量的精力和時(shí)間。加入多模態(tài)技術(shù)的搜索引擎,能夠?qū)崿F(xiàn)一次輸入,多種生成,多元推薦的搜索體驗(yàn),極大提升了信息搜索的智能化。
2022年4月20日,擁有大量文字、圖片和短視頻信息的內(nèi)容生產(chǎn)平臺(tái)——小紅書,發(fā)起了一場(chǎng)線上直播。直播中,小紅書技術(shù)團(tuán)隊(duì)就多模態(tài)搜索的研究及應(yīng)用進(jìn)行分享。當(dāng)在最新一版小紅書App搜索欄中輸入關(guān)鍵詞“冰墩墩”后,除傳統(tǒng)的文字內(nèi)容推薦外,與冰墩墩相關(guān)的各類圖片、音樂(lè)、短視頻等內(nèi)容也同時(shí)展示。據(jù)小紅書多模態(tài)算法組負(fù)責(zé)人湯神透露,僅僅添加一個(gè)多模態(tài)搜索功能后,小紅書的獨(dú)立訪客點(diǎn)擊率和頁(yè)面瀏覽量點(diǎn)擊率就整體提升了2~3倍。
事實(shí)上,在2020年萬(wàn)象·百度移動(dòng)生態(tài)大會(huì)上,百度的多模態(tài)搜索應(yīng)用就已讓人嘆為觀止。從文字、聲音,到圖片、視頻;從聽清、看清,到聽懂、看懂;從海量搜索,到最佳推薦,多模態(tài)搜索為機(jī)器像人腦一樣學(xué)習(xí)和認(rèn)識(shí)世界提供了有力支撐。
在語(yǔ)音搜索上,通過(guò)集成語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù),百度搜索引擎能夠剔除環(huán)境噪聲,分辨方言俚語(yǔ),調(diào)整語(yǔ)音語(yǔ)調(diào),實(shí)現(xiàn)對(duì)語(yǔ)音的清晰辨認(rèn);憑借深度語(yǔ)義理解,挖掘口語(yǔ)化、縮略表達(dá)等背后的真實(shí)語(yǔ)義,實(shí)現(xiàn)語(yǔ)音到文字的準(zhǔn)確轉(zhuǎn)換;利用最優(yōu)化匹配模型,實(shí)現(xiàn)搜索結(jié)果的精準(zhǔn)反饋。
在視覺搜索上,綜合圖像識(shí)別、人臉識(shí)別、OCR、物體檢測(cè)、實(shí)體匹配等技術(shù),搜索引擎通過(guò)優(yōu)化操作路徑,能夠?qū)⑷藱C(jī)交互時(shí)長(zhǎng)控制在100毫秒左右;通過(guò)感知維度缺失、遮擋、不規(guī)則等物體存在現(xiàn)象,能夠準(zhǔn)確理解每個(gè)像素的物理意義;通過(guò)抽象出整個(gè)像素集合體背后的物體信息,能夠?qū)崿F(xiàn)視覺搜索的所見即所得,即“以圖搜圖”“以圖搜文字”“以圖搜視頻”等。
除文字、語(yǔ)音、圖像、視頻等模態(tài)外,多模態(tài)搜索領(lǐng)域還包括身體手勢(shì)、面部表情等信息表現(xiàn)形式,隨著三維數(shù)字化技術(shù)的融入,多模態(tài)搜索的未來(lái)將會(huì)是以虛擬人形態(tài)呈現(xiàn)的交互式智能化搜索場(chǎng)景,人類通過(guò)與機(jī)器的自然交談,實(shí)現(xiàn)各類復(fù)雜信息的搜索與最佳推薦。搭載了虛擬人技術(shù)的多模態(tài)搜索將是智能化內(nèi)容創(chuàng)作的下一個(gè)藍(lán)海。[5]
在純文本內(nèi)容創(chuàng)作上,智能化應(yīng)用已有了較大發(fā)展。在國(guó)外,OpenAI在2020年推出了人工智能算法模型“GPT-3”,通過(guò)近2000億個(gè)單詞的訓(xùn)練后,聰明的“GPT-3”不僅能夠依據(jù)一些簡(jiǎn)單的文本提示(如標(biāo)題、大綱等),寫出語(yǔ)言順暢、文字優(yōu)美的故事、新聞稿、訪談、甚至論文,還能寫詩(shī)、翻譯、編代碼和回答問(wèn)題。
當(dāng)年曾轟動(dòng)一時(shí)的假新聞案,就為“GPT-3”的創(chuàng)造力提供了最好佐證。加州大學(xué)伯克利分校的一名學(xué)生利用“GPT-3”生成了一篇“心靈雞湯”類文章,并發(fā)表在自己的博客上。隨后,這篇文章迅速被幾大新聞網(wǎng)站轉(zhuǎn)載并置頂。很少有人意識(shí)到,這居然出自機(jī)器之手。[6]
2020年11月,F(xiàn)acebook也推出過(guò)一個(gè)名為“M2M-100”的人工智能算法模型。該模型可以實(shí)現(xiàn)100種語(yǔ)言間的實(shí)時(shí)互譯。這一智能模型,打破了數(shù)十億人之間的語(yǔ)言壁壘,人們可以更加便利地交流、溝通,了解彼此。
2021年11月,OpenAI又為“GPT-3”增添了一個(gè)新功能,自動(dòng)分析社交新聞網(wǎng)站上的跟帖內(nèi)容,形成分析報(bào)告。通過(guò)對(duì)比,“GPT-3”生成的分析報(bào)告,無(wú)論在詞語(yǔ)描述、數(shù)據(jù)統(tǒng)計(jì),還是內(nèi)容結(jié)構(gòu)上,相較之人工編寫的分析報(bào)告都更受歡迎。
據(jù)OpenAI透露,2022年的7、8月份,它們將推出“GPT-3”的升級(jí)版“GPT-4”。雖然還沒有來(lái)自官方的任何消息,但業(yè)界預(yù)判,新生代“GPT-4”最震撼的可能是基于人類反饋的強(qiáng)化學(xué)習(xí)能力?!独顺敝畮p》的作者吳軍曾說(shuō)過(guò):“與機(jī)器相比,不靠譜,會(huì)犯錯(cuò),能想象,恰恰是人類創(chuàng)造力的源泉。而機(jī)器因?yàn)闀簳r(shí)還不會(huì)犯錯(cuò),所以沒有根本上的創(chuàng)造性?!币苍S“GPT-4”就是一個(gè)“學(xué)會(huì)犯錯(cuò)的機(jī)器人”,它將會(huì)開啟機(jī)器的“創(chuàng)造之門”。[7]
在國(guó)內(nèi),浪潮人工智能研究院于2021年9月發(fā)布了人工智能算法模型“源1.0”,通過(guò)高達(dá)5TB高質(zhì)量中文數(shù)據(jù)集的訓(xùn)練(相當(dāng)于近5年內(nèi)整個(gè)中文互聯(lián)網(wǎng)的全部?jī)?nèi)容),“源1.0”在新聞分類、文獻(xiàn)摘要識(shí)別、成語(yǔ)閱讀理解、原生中文推理等方面均獲得了出色表現(xiàn)。
在創(chuàng)建“源1.0”的同時(shí),浪潮人工智能研究院同步構(gòu)建了全球最完整的中文語(yǔ)料庫(kù)(一個(gè)結(jié)構(gòu)化的機(jī)器可讀的文本庫(kù))。這一舉措有效解決了模型訓(xùn)練中缺少大規(guī)模的標(biāo)準(zhǔn)中文語(yǔ)料庫(kù)的難題,對(duì)基于中文的智能化內(nèi)容生成將產(chǎn)生重要意義。
與GPT-3相比,“源1.0”使用了 2457 億個(gè)參數(shù),這意味著“源1.0”在處理更復(fù)雜的語(yǔ)法結(jié)構(gòu)和語(yǔ)句理解任務(wù)上將更加得心應(yīng)手。此外,與GPT-3相比,“源1.0”在硬件資源的投入上也進(jìn)行了優(yōu)化。GPT-3 的訓(xùn)練需要超過(guò) 10,000 塊GPU的大型集群,而“源1.0”通過(guò)優(yōu)化訓(xùn)練代碼瓶頸,僅需要 2,128 塊GPU就能在合理時(shí)間內(nèi)完成訓(xùn)練。隨著開發(fā)人員對(duì)代碼的不斷優(yōu)化,“源1.0”的性能將進(jìn)一步得到提升。
在融媒體產(chǎn)品內(nèi)容創(chuàng)作上,正如前文所述,依托多模態(tài)技術(shù)的不斷演進(jìn),文字與圖片,圖片與圖片,文字與音頻,文字與視頻、人類與虛擬人間的相互創(chuàng)作正在蓬勃興起。
最近,一家名為“北極鵝”的科技公司打造了一款虛擬劇本創(chuàng)作者“蔡曉”,作為實(shí)驗(yàn),該款虛擬人目前已參與到“劇本殺”類推理游戲的內(nèi)容創(chuàng)作中。人類玩家和虛擬人玩家通過(guò)“交互式敘事”的創(chuàng)作模式共同演繹游戲故事的脈絡(luò)和情節(jié)發(fā)展。每輪交互后,人類對(duì)機(jī)器的表現(xiàn)進(jìn)行研判,對(duì)恰當(dāng)?shù)谋憩F(xiàn)實(shí)施正反饋,對(duì)不恰當(dāng)?shù)谋硎具M(jìn)行負(fù)反饋。通過(guò)人類反饋的強(qiáng)化學(xué)習(xí),虛擬人的“思考力”和“創(chuàng)作力”在一輪輪的人機(jī)交互中得到不斷提升。[8]
自2016年,《華盛頓郵報(bào)》首次推出機(jī)器人寫稿以來(lái),人工智能對(duì)新聞內(nèi)容創(chuàng)作的影響與挑戰(zhàn)一直是新聞從業(yè)者關(guān)注的焦點(diǎn)。隨著技術(shù)的不斷演進(jìn)與整合,在新聞內(nèi)容創(chuàng)作方面,人工智能已經(jīng)具備了人類大腦的某些特征。
在基于“規(guī)則”的新聞內(nèi)容創(chuàng)作上,如財(cái)經(jīng)、體育、突發(fā)事件等資訊類新聞,人工智能擁有了人類一樣的思維、表達(dá)、搜索和創(chuàng)作能力,機(jī)器無(wú)論在效率還是質(zhì)量上都已完勝人類。
在基于“思想”的新聞內(nèi)容創(chuàng)作上,如深度報(bào)道,專題評(píng)論等思考類新聞,人工智能也有了驚人的成長(zhǎng)。目前,制約人工智能更像人類一樣“思考”的主要因素有兩個(gè),一是用來(lái)訓(xùn)練模型的巨大數(shù)據(jù)樣本;二是超高的計(jì)算能力、超長(zhǎng)的計(jì)算時(shí)間和超大的存儲(chǔ)空間。為此,科學(xué)家們也在做著不懈的努力。近日,Meta AI(前身為Facebook AI)開放了一個(gè)“GPT-3”的復(fù)刻版算法模型,在保持功能不變的情況下,其運(yùn)行能耗是“GPT-3”的1/7。
可以預(yù)見,不遠(yuǎn)的未來(lái),人工智能將替代人類進(jìn)行海量?jī)?nèi)容搜索、篩選、整合及各類融媒體新聞內(nèi)容的創(chuàng)作工作。但是挑戰(zhàn)也是機(jī)會(huì),人類可以從大量的重復(fù)性勞動(dòng)中解脫出來(lái),依托機(jī)器深度挖掘線索、彌補(bǔ)技能短板、充分激發(fā)靈感,進(jìn)而指導(dǎo)機(jī)器做出超乎想象的內(nèi)容創(chuàng)作,讓更多的天才創(chuàng)意得到實(shí)現(xiàn)。相信在人機(jī)協(xié)作的模式下,人工智能必將為新聞內(nèi)容創(chuàng)作帶來(lái)無(wú)限可能。