梁志立
(肇慶高新區(qū)廣播電視中心技術(shù)播出部,廣東 肇慶 526238)
2016 年,當(dāng)AlphaGo 戰(zhàn)勝圍棋世界冠軍,人們意識到人工智能(Artificial Intelligence,AI)時代即將到來。近兩年,AI 虛擬主播已經(jīng)廣泛運(yùn)用于廣電行業(yè)。隨著技術(shù)的發(fā)展和成熟,未來AI 虛擬主播將在廣電行業(yè)中扮演越來越重要的角色。
2001 年,世界上第一個虛擬主持人“阿娜諾娃”誕生,是一個2D 化虛擬人物。它是電腦生成的動畫人模,表情略顯僵硬。2004 年,央視CCTV6 頻道推出了國內(nèi)首位電視節(jié)目虛擬主持人“小龍”。采用三維形象技術(shù),人物具備肢體動作和相應(yīng)的表情,進(jìn)一步提升了逼真度。此后10 多年,虛擬主播發(fā)展進(jìn)入相對停滯期。2016 年,超級AI 虛擬主播“絆愛”在YOUTUBE 上首次亮相。它由真人扮演、3D 建模,捕捉了真人動作及表情,并由聲優(yōu)對口型配音,在語音和動作方面較早期虛擬主持人有了明顯進(jìn)步。2016 年,科大訊飛、搜狗及百度等科技公司憑借AI 技術(shù)的積累與開發(fā),實現(xiàn)了語音識別技術(shù)的飛躍,產(chǎn)品語音識別準(zhǔn)確率均達(dá)到97%。這一關(guān)鍵技術(shù)的突破,大大提升了AI 虛擬主播的工作效率,從而掀起了新一輪AI 虛擬主播熱潮。2018年5 月,科大訊飛攜手相芯科技打造了虛擬主持人“康曉輝”,形象更為逼真,較以往實現(xiàn)了較大進(jìn)步。截至2018 年底,各大平臺上的虛擬主播已經(jīng)超過6 000 個。2019 年春晚,AI 虛擬主持人團(tuán)隊誕生,只需要一段既有的新聞文本,虛擬主播就可實時進(jìn)行播報,與真人無二。2020 年,全球首位3D AI 合成主播亮相。主播高度智能化,在交互能力和場景應(yīng)用方面取得了巨大的進(jìn)步[1]。
隨著語言識別和圖像處理等技術(shù)的飛速發(fā)展,AI 虛擬主播已經(jīng)實現(xiàn)消費級的技術(shù)降維,使得AI虛擬主播應(yīng)用在各領(lǐng)域迅速鋪開,尤其是在廣電行業(yè)的使用上,已經(jīng)從省級媒體向縣市級媒體延伸。
2020 年2 月16 日,廣西壯族自治區(qū)首位AI 虛擬主播“小晴”登陸廣西衛(wèi)視新媒體平臺“戰(zhàn)疫情”特別報道。結(jié)合訊飛的語音合成、語音識別、語義理解、人臉識別、人臉建模、口唇預(yù)測、音頻驅(qū)動、圖像處理及機(jī)器翻譯等多項人工智能技術(shù),面向各類視頻播出和交互場景,利用2D/3D 虛擬形象代替真人主播。AI 虛擬主播“小晴”支持預(yù)置文本,可將文稿一鍵自動輸出為音、視頻并實現(xiàn)多語種的自動播報,實現(xiàn)了智能交互[2]。憑借高性價比和使用便捷等多種綜合優(yōu)勢,AI 虛擬主播“小晴”迅速在各級媒體采用[3]。主播形象如圖1 所示。
科大訊飛AI 虛擬主播支持形象租用和形象定制兩種方式。形象定制是針對用戶需求定制用戶專屬虛擬形象。形象租用方式是AI 虛擬主播產(chǎn)品的一大特點,用戶只需每年支付一定費用即可獲得授權(quán)租用。產(chǎn)品配備專屬合成聲音庫,用戶只需輸入文本即可一鍵生成所需視頻。
2018 年11 月8 日,AI 合成主播在新華社客戶端和公眾號上線使用。采用搜狗人工智能的核心技術(shù)“搜狗分身”,運(yùn)用“自然交互+知識計算”兩大能力,從圖像表情、聲音語言習(xí)慣及邏輯思維等層面對AI 進(jìn)行擬人化訓(xùn)練,進(jìn)而克隆制造人類的AI分身。只需輸入一段既有的新聞文本,AI 合成主播就能實現(xiàn)實時播報。使用wavernn 波形建模技術(shù),實現(xiàn)了更逼真的語音合成效果,使主播聲音情感更加真實。在播報過程中,AI 虛擬主播的唇型、神態(tài)及表情等也能與真人主播完全吻合。AI 合成主播形象如圖2 所示。
圖1 AI 虛擬主播“小晴”
圖2 分身技術(shù)打造的AI 虛擬主播
該技術(shù)通過人臉關(guān)鍵點檢測和三維人臉重建等技術(shù),從少量錄制好的視頻中深度學(xué)習(xí)語音、人臉表情及動作等信息,可快速定制出高逼真度的分身模型。系統(tǒng)支持音視頻流輸出和離線視頻文件快速導(dǎo)出,提供公有接口調(diào)用和私有化部署的多套解決方案,還可靈活支持對分身的音色、語種、形象服裝、視頻背景及對話等的個性化定制。AI 分身技術(shù)生成主播形象的過程如圖3 所示。
圖3 AI 分身技術(shù)
2020 年5 月22 日,首位3D 版AI 合成主播“新小微”在新華社全國兩會報道應(yīng)用?!靶滦∥ⅰ钡脑褪切氯A社記者趙琬微,采用超寫實3D 數(shù)字人建模、多模態(tài)識別及生成等技術(shù),在視覺效果、靈活度、交互能力及應(yīng)用空間等方面,與其他AI 合成主播相比有了大幅躍升?!靶滦∥ⅰ毙蜗笕鐖D4 所示。
圖4 3D AI 虛擬主播“新小微”
“新小微”的研發(fā)需要進(jìn)行海量數(shù)據(jù)采集工作。超過百個的攝像頭對著原型人物身體部位進(jìn)行“打點”掃描,360°全方位無死角地收集每一個動作的細(xì)節(jié),并且對多種形態(tài)的表情和動作進(jìn)行細(xì)致入微的捕捉記錄。數(shù)據(jù)采集過程如圖5 所示。
圖5 數(shù)據(jù)采集
“新小微”采用超寫實3D 數(shù)字人建模、多模態(tài)識別及生成等技術(shù),不僅形象更加真實立體,而且其播報口型、肌膚毛孔以及發(fā)絲等細(xì)節(jié)也都清晰可見,如圖6 所示。另外,“新小微”通過AI 技術(shù)來驅(qū)動3D 模型,生成時長為1 min 的視頻只需要1 min 時間即可完成,大幅度提升了寫實任務(wù)的制作效率,降低了制作成本。
圖6 AI 虛擬主播面部表情
與前面兩個案例相比,3D AI 合成主播擁有超寫實、360°展現(xiàn)及靈活可控等優(yōu)勢,但是目前3D版AI 合成主播形象的動畫痕跡比較重,制作需要采集的數(shù)據(jù)量較大,身體部位、表情及動作需要大量模塊化處理和組裝,因此在普及和應(yīng)用層面存在一定的難度。
目前,國內(nèi)各大科技企業(yè)都在加大對AI 虛擬主播的研發(fā)和應(yīng)用。除了上述的科大訊飛和搜狗等科技公司,京東、騰訊、百度及阿里等科技巨頭也都在各自領(lǐng)域研發(fā)并使用AI 虛擬主播。雖然在人物還原精度、準(zhǔn)確的語音及細(xì)膩的表情等方面,虛擬主播形象已經(jīng)實現(xiàn)了質(zhì)的飛越,但是智能化方面還普遍存在不足?,F(xiàn)實中,廣電行業(yè)的主播不只是單一的節(jié)目主持,要做的工作還包含如策劃、編輯、采訪、制作及導(dǎo)播等,因此未來AI 主播除了在形象、動作及語言等視覺技術(shù)上提升外,更要加強(qiáng)智能化,如采用AlphaGo 掌握的“深度學(xué)習(xí)”工作原理[4]。如果未來廣電行業(yè)的AI 虛擬主播除了能實現(xiàn)自然順暢的人機(jī)交互和高效、準(zhǔn)確的播報功能外,還能綜合運(yùn)用數(shù)據(jù)與案例,提供豐富準(zhǔn)確的節(jié)目、新聞分析及策劃,勢必會給廣電行業(yè)帶來全新的變革與發(fā)展[5]。
隨著技術(shù)的飛速進(jìn)步,未來AI 虛擬主播一定會廣泛應(yīng)用于日常生活的各個領(lǐng)域。這是科技進(jìn)步的魅力,也是人類能不斷前進(jìn)的動力所在。