李忠東
讀唇破案匪夷所思
讀唇術是一種以視覺代替聽覺的高超技能,在隔絕說話者話音的情況下,會讀唇術的人依靠觀看他們說話時的嘴唇動作,就能解讀所說的內(nèi)容。在國際上,讀唇已經(jīng)成為媒體爆料和案件舉證的重要來源之一。
此前,英國皇家檢察院雇傭著名的“讀唇女王”杰西卡·里斯為英國唯一的官方讀唇證人。她能夠根據(jù)英國警方用監(jiān)控攝像機偷拍下來的嫌犯錄像,用讀唇翻譯出錄像帶中嫌犯的對話,提供至關緊要的證據(jù)。這位英國獲得認可的唯一“無聲證人”一度被視為該國司法界的“奇跡武器”,幫助法庭將至少包括謀殺犯、武裝搶劫犯、恐怖分子和毒品大亨等在內(nèi)的30名罪犯定罪關入監(jiān)獄,其中5名是英國2002年“零證據(jù)”最大劫鈔案(案值650萬英鎊)的罪犯。
杰西卡自幼失聰,卻能通過讀唇術理解別人的話語。她閱讀唇語的能力如此嫻熟高超,往往讓人們很難發(fā)現(xiàn)是一位耳聾患者。在這位唇語解讀者的視線之內(nèi),沒有什么秘密可言。無論怎樣的對話場景,哪怕是錄像帶中人的臉沒有正對著攝像機,只要看到了對方的部分嘴唇,也能夠通過讀唇術破譯出來。杰西卡從側面、上面和下面各個角度,即使隔著40~50米遠,也可以根據(jù)說話人的嘴唇動作讀懂他們的話語內(nèi)容,甚至連方言也難不倒她。
然而讀唇這種獨特的技藝學習起來非常困難,因為它對于語言語境和知識理解要求非常高。測試實驗發(fā)現(xiàn),大部分人在別人說話時,通過觀看后者的嘴唇動作,只能辨別出10%的單詞,即便是所謂的唇語專家,準確識別率也不夠理想。像杰西卡這樣的讀唇術天才,真是鳳毛麟角。
然而研究人員稱,通過獲取大量數(shù)據(jù)來尋找“共同點”的人工智能(Artificial Intelligence,以下簡稱AI)技術,能夠大大提升音頻語言的識別度,使讀唇越來越精準,達到跟“面對面”對話一樣的程度。
最近,谷歌旗下DeepMind AI團隊與英國牛津大學合作,開發(fā)出迄今為止全球最先進最準確的AI“讀唇”軟件。為了實現(xiàn)超過人類讀唇能力的目標,研究人員選取了BBC2010 年1月~2015 年12 月間的一系列電視節(jié)目,其中包括“新聞之夜”“英倫早晨”“提問時間”和“今日世界”等,然后上傳到一個神經(jīng)網(wǎng)絡上,對其“讀唇”軟件進行訓練,即根據(jù)主播嘴部運動來識別其播報內(nèi)容。
Deep Mind團隊發(fā)現(xiàn),人們在觀看視頻時,如果里面主人公說話的口型與聲音不吻合,就會覺得很不舒服。這是音視頻流不一致造成的結果。音視頻流包括視頻流與音頻流,其中前者指視頻數(shù)據(jù)的傳輸,后者指控制“數(shù)據(jù)流”同步類型音頻的輸出質量。為此,研究人員先讓計算機學會完全同步的音視頻流,掌握發(fā)音與唇形間的關聯(lián),進而自行推斷音視頻流中哪些畫面是不同步的,再進行自動修正,從而避免了視頻流與音頻流不同步的障礙。
據(jù)統(tǒng)計,將選取的BBC所有的視頻資料加起來,約有 11.8 萬句話和1.75萬個不同的單詞。在經(jīng)過了大約5000個小時的訓練之后,掌握了讀唇技術的AI“讀唇”軟件正式開啟了讀唇功能。在后來進行的讀唇對比測試中,從2016 年3 月~9 月的節(jié)目庫中隨機選取出 200 種說話場景,要求對電視節(jié)目嘉賓進行唇語解讀。結果很令人震驚,AI“讀唇”軟件的完全準確率為46.8%,而專業(yè)的唇語專家在接受同樣的測試時準確率僅為12.4%。它不僅迅速掌握了讀唇術,而且還比唇讀專家做得好,一些媒體將其評為2016年10大科技之一。
不久前,牛津大學AI實驗室的研究人員也使用深度學習技術,開發(fā)出了一種名為“LipNet”的AI“讀唇”軟件。在將視頻中人物的嘴部運動與其臺詞進行匹配時,它的“表現(xiàn)”遠遠勝過了唇語解讀者。雖然現(xiàn)在還處在初期階段,但這款軟件幾乎達到了一種能夠“實時”將靜音視頻轉化為文本腳本的處理速度。
研究人員選用了一組數(shù)據(jù)庫,用它對“LipNet”AI“讀唇”軟件進行訓練和測試。測試中,研究人員收集了來自34名志愿者事先錄制好的短視頻。在視頻中,他們讀取的是一些“毫無意義”的句子(比如插圖說明)。每個短視頻只有3秒長,并且每個句子都采用非常簡單的句式結構:命令動詞+顏色+介詞+字母+數(shù)字+副詞,沒有任何復雜的事件背景可言,測試視頻當中的特殊詞匯只有51個。但從事這項研究的科學家雅尼斯·阿薩爾指出:“‘LipNetAI‘讀唇軟件的測試結果令人滿意,能夠在更大的數(shù)據(jù)庫中表現(xiàn)出色。”
這款“讀唇”軟件可以幫助那些聽力受損的人群,尤其是在一個比較吵鬧的環(huán)境(也就是計算機很難分離出噪音的環(huán)境)。他們可以佩戴內(nèi)置攝像頭的眼鏡,在參加聚會的時候清楚地拍攝到目標人物說話時嘴唇動作,接著使用這款軟件來實時將嘴唇“語言”翻譯成文本,然后再將其語音傳輸?shù)脚宕髡叨渲??!拔磥?,或許我們就不敢對著自己的電腦講話了?!绷硪晃谎芯咳藛T布蘭登·席林福德表示,“原因很簡單,它們可能會讀懂我們說的內(nèi)容?!?/p>
AI業(yè)內(nèi)專家高度評價說,谷歌AI“讀唇”軟件絕對是構建全自動讀唇系統(tǒng)的第一步,現(xiàn)有的各類龐大數(shù)據(jù)庫完全可以支持深度學習技術的發(fā)展?!癆I唇讀技術非常實用,大有作為,例如可以使助聽器變得更智能?!迸=虼髮W里普耐特研究團隊的阿薩埃爾教授展望道,“此外,AI技術還能夠應用于外交和破案等領域,在普及之后甚至可能改變?nèi)藗兊纳?,像注釋電影或者利用唇部動作與Siri(蘋果公司在其產(chǎn)品iPhone4S,iPad 3及以上版本手機上應用的一項語音控制功能)這樣的數(shù)字助理進行溝通?!?/p>
人們對DeepMind團隊的研究成果并不陌生,他們開發(fā)的AI程序AlphaGo (一款圍棋AI程序,) 2016年3月以總比分4:1大勝圍棋世界冠軍李世石曾經(jīng)轟動世界,充分顯示了AI逐漸壯大的能力,讓人類不容小覷。DeepMind 原是一間專門研發(fā)AI的公司,自2011年成立以來一直專注于研究解決AI問題。它所擁有的天才團隊和未來發(fā)展性是谷歌決定在 2014 年以4億英鎊收購的主要原因之一,最后成為 Alphabet 旗下的一員。DeepMind 發(fā)展AI的腳步?jīng)]有因為人事變動而趨緩,接連研發(fā)能讓電腦有記憶和AlphaGo等突破性技術。
現(xiàn)在 DeepMind 又賦予了AI新的能力,讓它能夠自動從其記憶中學習,使讀唇越來越精準。這種命名為“可區(qū)分神經(jīng)電腦”(DNC)的AI系統(tǒng)會將一些相連的事實組織起來去解決問題,表明AI系統(tǒng)能在人類未教導它們所有可行解決辦法的情況下,直接對其問題給予答復。AlphaGo 在與李世石對戰(zhàn)時,需要人類主動給予其超過3000萬種的下棋方式,而若能將DNC的相關技術應用至 AlphaGo 上,則能讓它自行完成其他更加復雜的任務。這樣的新突破其實是建立起神經(jīng)網(wǎng)絡的概念,它能模仿人類思考的模式,也是對于想讓電腦透過記憶來學習找答案的一種非常好的機器學習應用。
編輯:成韻 chengyunpipi@126.com