你相信嗎??jī)H憑一段6秒鐘的音頻,就能推寫出說話者的肖像來。
人說話時(shí),臉部的骨骼、肌肉等都會(huì)影響發(fā)音。美國(guó)的研究人員開發(fā)了一個(gè)名為Speech2Face的人工智能系統(tǒng)。他們從網(wǎng)上找來幾百萬段視頻,讓人工智能收聽和分析,將聲音和面部特征對(duì)應(yīng)起來。隨后,他們讓人工智能系統(tǒng)根據(jù)聲音生成人的肖像。人工智能僅憑6秒的語音,就推測(cè)出說話者的種族和面部特征,相似度令人感到驚訝。
未來,在影視娛樂、安保、殘障人士溝通等方面,這款人工智能系統(tǒng)都可能發(fā)揮很大的作用。