馮韻浩
在即時(shí)通信軟件中遇到好友凡是涉及代付、借錢(qián)、刷單等的消息,通常會(huì)第一時(shí)間想到對(duì)方是不是給盜號(hào)了,沒(méi)辦法,職業(yè)習(xí)慣所致。而本人驗(yàn)證的方式,都是讓對(duì)方先發(fā)條語(yǔ)音來(lái)證明是他本人,然后再來(lái)談要辦的事兒。
可是,隨著技術(shù)的的發(fā)展,語(yǔ)音也變得不可靠起來(lái)了,現(xiàn)在的技術(shù)已經(jīng)可以很好地模擬人聲,讓?xiě){借語(yǔ)音識(shí)別身份真?zhèn)畏绞揭沧兊貌豢煽科饋?lái),這里就來(lái)談一下語(yǔ)音模仿,再來(lái)看看已經(jīng)進(jìn)入大眾使用的人聲模擬讀書(shū)應(yīng)用效果到底如何。
一則新聞敲響警鐘,語(yǔ)音來(lái)了也要分真假
前段時(shí)間,廣東的孫女士稱(chēng)自己的微信被盜了,騙子利用她的微信向其好友借錢(qián)。孫女士的好友也很警覺(jué),提出要語(yǔ)音核實(shí)其身份,沒(méi)想到騙子還真發(fā)過(guò)去一條語(yǔ)音,內(nèi)容就四個(gè)字:“是我是我?!睂?duì)方一聽(tīng),確實(shí)是孫女士的聲音,于是就轉(zhuǎn)了錢(qián),進(jìn)了騙子的圈套。無(wú)獨(dú)有偶,河南許昌的魏先生,近日也被騙子用同樣的手法,騙走了500塊錢(qián)。
為啥已經(jīng)通過(guò)語(yǔ)音確認(rèn)了是好友的聲音,還是被騙了呢?其原因是目前雖然已經(jīng)有人聲克隆模擬的技術(shù),不過(guò)還沒(méi)達(dá)到大眾都能使用的地步,估計(jì)騙子可能用了語(yǔ)音復(fù)制技術(shù),從被盜用戶(hù)的語(yǔ)音歷史中提取有效信息加以利用。或者事先添加了該被盜用戶(hù),然后誘惑該用戶(hù)使用語(yǔ)音進(jìn)行聊天,接著使用某加強(qiáng)版微信直接轉(zhuǎn)發(fā)語(yǔ)音。
而這些只是基礎(chǔ)的語(yǔ)音詐騙,如果人聲可以模擬,那就嚴(yán)重的多了,但是目前人聲模擬技術(shù)已經(jīng)出現(xiàn)了。雖然不知道有沒(méi)有諜戰(zhàn)大片那種將變聲器貼在頸部就能達(dá)到完美變聲的科技,但是使用電腦來(lái)模擬人聲的技術(shù)被開(kāi)發(fā)出來(lái)了。
要談?wù)劼曇艨寺?,我們先?lái)看看早已實(shí)現(xiàn)的變聲技術(shù),現(xiàn)在變聲技術(shù)已經(jīng)在許多即時(shí)通信軟件中得以應(yīng)用,通過(guò)變聲功能,可以把用戶(hù)的聲音由男聲變?yōu)榕暽踔磷兂商}莉音,不過(guò)這些變聲效果都比較的生澀,比較容易被識(shí)別出是經(jīng)過(guò)變聲的。
聲音克隆技術(shù)出現(xiàn)惟妙惟肖以假亂真
而聲音克隆技術(shù)則有了進(jìn)一步的發(fā)展,最終的效果就是可以完全地模擬某個(gè)人的聲音,在不見(jiàn)面的情況下,都無(wú)法分辨哪個(gè)是本人發(fā)音,哪個(gè)是機(jī)器模擬出來(lái)的聲音。
現(xiàn)在的技術(shù)已經(jīng)可以通過(guò)AI算法來(lái)生成人的全套語(yǔ)音,人工模擬出來(lái)的語(yǔ)音甚至連憤怒、高興等不同語(yǔ)氣情緒都能夠做到惟妙惟肖,足以以假亂真。那模擬人聲是否需要很多素材?非也,所需要的材料也僅僅只需要被生成者的幾段話(huà)而已。
開(kāi)發(fā)這項(xiàng)技術(shù)的是谷歌2016年在加拿大蒙特利爾大學(xué)建立的人工智能實(shí)驗(yàn)室(MILA)。基于聲音合成技術(shù),MILA在
2017年4月份成立了Lyrebird公司。Lyrebird是一種名為琴鳥(niǎo)的鳥(niǎo)類(lèi),這種鳥(niǎo)具有一種特殊的天賦,它不僅能模仿多種其他鳥(niǎo)類(lèi)的聲音,它幾乎還能模仿一切聽(tīng)到的聲音。
在其網(wǎng)站DEMO部分,可以聽(tīng)到官方合成的足以以假亂真的特朗普以及奧巴馬的聲音,而美國(guó)那邊也有記者用機(jī)器合成的句子跟家里人打電話(huà)做實(shí)驗(yàn),他的母親完全分不清楚真假。
之所以能產(chǎn)生如此高還原度的合成聲音,背后的技術(shù)正是神經(jīng)網(wǎng)絡(luò)(Neural Network)和機(jī)器學(xué)習(xí)(Machine Learning)。神經(jīng)網(wǎng)絡(luò)模擬電信號(hào)在人腦神經(jīng)元之間的傳遞過(guò)程,對(duì)輸入數(shù)據(jù)進(jìn)行處理。它利用分層的神經(jīng)元,從大量樣本數(shù)據(jù)中總結(jié)出共同特征。第一個(gè)用神經(jīng)網(wǎng)絡(luò)來(lái)生成人類(lèi)自然語(yǔ)音的,就是DeepMind的WaveNet。沒(méi)錯(cuò),就是那個(gè)做AlphaGo公司。
WaveNet可以把PS痕跡明顯的機(jī)器語(yǔ)音,轉(zhuǎn)換成更加流暢自然的語(yǔ)音,與人類(lèi)聲音之間的差異大幅降低,目前在特殊視頻界做的風(fēng)生水起。而Lyrebird則更進(jìn)一層,他可以基于音色、音調(diào)、音節(jié)和停頓等多種特征,來(lái)定義某個(gè)人的聲音,然后生成更加擬真的聲音。
而琴鳥(niǎo)公司的AI使用了一種全新的語(yǔ)音合成系統(tǒng),能在“傾聽(tīng)”過(guò)程中“掌握”每個(gè)人說(shuō)話(huà)時(shí)字母、音位和單詞的發(fā)音特點(diǎn),通過(guò)推理并模仿這個(gè)人聲音中的情感和語(yǔ)調(diào),“說(shuō)”出全新的語(yǔ)句。
新系統(tǒng)使用模仿人腦思維的算法創(chuàng)建出一種人工神經(jīng)網(wǎng)絡(luò),能利用深度學(xué)習(xí)技術(shù)將所聽(tīng)到的轉(zhuǎn)換成語(yǔ)音,并僅靠任何人1分鐘講話(huà)內(nèi)容,就能完全模仿這個(gè)人說(shuō)話(huà)。
從以上內(nèi)容可以知道,目前只需要拿到技術(shù)人員足夠多的語(yǔ)音素材,就能通過(guò)機(jī)器學(xué)習(xí)的方式,進(jìn)而達(dá)到模擬指定人物的講話(huà)效果,模擬出來(lái)的聲音還惟妙惟肖的。到這個(gè)技術(shù)普及的時(shí)候,黑客們就可以利用該技術(shù)模仿指定人物的聲音來(lái)任意的合成他想要說(shuō)的話(huà)。這樣一來(lái)。利用語(yǔ)音驗(yàn)證來(lái)看看是不是本人的方式將變得越來(lái)越不可靠,好在目前這個(gè)技術(shù)尚處于實(shí)驗(yàn)室階段,沒(méi)有被普及。
能克隆語(yǔ)音的APP
目前,國(guó)內(nèi)也有幾個(gè)類(lèi)似的語(yǔ)音模仿應(yīng)用,利用它用戶(hù)可以用自己喜歡的聲音來(lái)進(jìn)行聽(tīng)書(shū),比如可以用女神那誘人的聲音來(lái)幫你念讀小說(shuō),用喜歡的人聲來(lái)念讀喜歡的小說(shuō),動(dòng)聽(tīng)的聲音讓聽(tīng)書(shū)也成了一種享受。
其中一款手機(jī)應(yīng)用叫《訊飛閱讀》,沒(méi)錯(cuò),就是那個(gè)擅長(zhǎng)語(yǔ)音識(shí)別的科大訊飛旗下的一款手機(jī)端閱讀APP。
還有具有類(lèi)似功能的APP是《迅雷閱讀》,主打的功能是聽(tīng)書(shū),用戶(hù)可以用聆聽(tīng)的方式來(lái)欣賞小說(shuō),閉上眼睛,聽(tīng)著自己喜歡的小說(shuō),養(yǎng)養(yǎng)精神是個(gè)不錯(cuò)的事兒。
《訊飛閱讀》是一個(gè)小說(shuō)閱讀工具,用戶(hù)可以用它來(lái)閱讀小說(shuō)。跟其它小說(shuō)閱讀器不同,《訊飛閱讀》可以使用許多主播的聲音來(lái)進(jìn)行念誦,有許多風(fēng)格不同的主播,也有各種的方言主播(也就是說(shuō),可以用多種方言來(lái)聽(tīng)書(shū)),用主播的聲音來(lái)聽(tīng)書(shū),調(diào)好語(yǔ)速,就能大大地減少那種機(jī)器發(fā)音的生澀感,達(dá)到模擬人讀書(shū)的效果。
而在這里要說(shuō)的就是《訊飛閱讀》的“聲音復(fù)刻”功能,利用該功能,可以把自己或者你喜歡的人的聲音進(jìn)行復(fù)刻,然后就可以用該聲音來(lái)進(jìn)行念誦了。那么,復(fù)刻出來(lái)的聲音像不像呢?使用時(shí)《訊飛閱讀》會(huì)錄音進(jìn)行上傳,按照APP的提示錄制10段語(yǔ)音念誦信息后,就會(huì)進(jìn)入人聲復(fù)刻階段,《訊飛閱讀》會(huì)在服務(wù)器端進(jìn)行語(yǔ)音的識(shí)別分析模擬,等分析模擬完畢后,就可以用該聲音來(lái)進(jìn)行小說(shuō)的念誦了。
模擬出來(lái)本人的聲音,有70 %~80 %的相似度,發(fā)給幾個(gè)朋友聽(tīng)也說(shuō)比較的像。但是仔細(xì)聽(tīng)還是有點(diǎn)機(jī)器發(fā)音的那種停頓感,還是可以分辨出來(lái)的,而且用自己的聲音來(lái)聽(tīng)書(shū),感覺(jué)也有些怪。
警惕聲音復(fù)刻自己聲音也要保護(hù)好
總之,利用這個(gè)功能或者說(shuō)技術(shù),可以在文本文件中輸入任意的文字內(nèi)容,然后在《訊飛閱讀》中導(dǎo)入該文件,就可以用復(fù)刻的聲音以語(yǔ)音形式來(lái)進(jìn)行念誦該文件里的文字了,這也提醒了用戶(hù),不要把自己復(fù)刻的聲音隨便傳播。
好消息就是,當(dāng)前類(lèi)似這種“聲音復(fù)刻”的功能,需要事先收集用戶(hù)說(shuō)念誦出來(lái)的指定的幾段文字后才能進(jìn)行聲音的復(fù)刻。而不是隨便地收集任意幾句話(huà)就能進(jìn)行聲音的復(fù)刻操作,這在一定程序上保障了用戶(hù)的語(yǔ)音安全。
隨著技術(shù)的發(fā)展,特別是AI人工智能的加入,人聲的模擬變得越來(lái)越簡(jiǎn)單,只要收集足夠多的個(gè)人聲音素材,然后對(duì)個(gè)人說(shuō)話(huà)方式、聲調(diào)語(yǔ)調(diào)進(jìn)行深入分析,再利用計(jì)算機(jī)語(yǔ)音合成,就可以模擬出個(gè)人真人的發(fā)音,隨著技術(shù)的發(fā)展,模擬出來(lái)的人聲將越來(lái)越難分辨真假。所以不要憑借短短的一段語(yǔ)音來(lái)確認(rèn)對(duì)方,可以通過(guò)視頻一下或者打個(gè)電話(huà)確認(rèn)一番,小心為上總是好的。
人們常說(shuō)的眼見(jiàn)為實(shí)中包括的圖片、視頻,其中圖片早已可以用PS改的以假亂真,而視頻也可以通過(guò)深度學(xué)習(xí)技術(shù)來(lái)嫁接人頭,眼見(jiàn)也未必屬實(shí)了!這就再次提醒大家,在互聯(lián)網(wǎng)時(shí)代要更加注意保護(hù)自己的隱私信息。