主持人:
倪俊杰 ?浙江省桐鄉(xiāng)市鳳鳴高級(jí)中學(xué)
嘉 ?賓:
劉宗凡 ?廣東省四會(huì)市四會(huì)中學(xué)
邱元陽(yáng) ?河南省安陽(yáng)縣職業(yè)中專
金 ?琦 ?浙江師范大學(xué)附屬中學(xué)
楊 ?磊 ?天津市第五中學(xué)
黃鈳涵 ?浙江省諸暨市開放雙語(yǔ)學(xué)校
倪俊杰:在上一期的文章中,我們介紹了語(yǔ)音識(shí)別技術(shù)的發(fā)展歷程、基本原理及主流算法和技術(shù)。在特定場(chǎng)合、特定使用場(chǎng)景下,語(yǔ)音識(shí)別技術(shù)已經(jīng)有了十分優(yōu)越的表現(xiàn),雖然語(yǔ)音識(shí)別技術(shù)還存在很多“難題”,但并不影響我們對(duì)它的未來(lái)的發(fā)展的期待,相信讀者們希望了解更多語(yǔ)音識(shí)別技術(shù)發(fā)展的前沿方向。同時(shí),目前語(yǔ)音識(shí)別技術(shù)在相關(guān)應(yīng)用領(lǐng)域的表現(xiàn)到底怎么樣也是讀者們關(guān)心的問(wèn)題。本期我們延續(xù)上期話題,繼續(xù)探討有關(guān)語(yǔ)音識(shí)別技術(shù)的故事。
語(yǔ)音識(shí)別中的難題
倪俊杰:作為人工智能發(fā)展的一個(gè)分支,語(yǔ)音識(shí)別技術(shù)在智能設(shè)備上的使用已經(jīng)非常普遍。例如,小愛同學(xué)月活用戶已經(jīng)突破1億,在很多場(chǎng)景下,語(yǔ)音識(shí)別技術(shù)給我們帶來(lái)了非常好的體驗(yàn),但實(shí)際上,在人工智能的賽道上,語(yǔ)音識(shí)別技術(shù)基本還處于嬰兒階段,在很多方面還不夠成熟,那么,都有哪些難題需要解決呢?
劉宗凡:我認(rèn)為,首先,在語(yǔ)義理解的準(zhǔn)確性上,還需要加強(qiáng)。我們經(jīng)常能見到這樣一個(gè)場(chǎng)景:在和語(yǔ)音識(shí)別工具交互的過(guò)程中,語(yǔ)音識(shí)別答非所問(wèn),令人啼笑皆非的對(duì)話層出不窮等。目前,人工智能最流行的研究方向是深度學(xué)習(xí),基于深度學(xué)習(xí)模型學(xué)到的知識(shí)和人類的知識(shí)有很大的區(qū)別,人工智能只能“理解”一些詞和詞的關(guān)系,語(yǔ)音識(shí)別系統(tǒng)的對(duì)話,本質(zhì)上是基于識(shí)別出來(lái)的關(guān)鍵詞的互聯(lián)網(wǎng)搜索,是程序員對(duì)這句話的理解。語(yǔ)義的理解是人工智能領(lǐng)域的難題,至少目前還看不到突破的希望。
其次,在語(yǔ)音識(shí)別過(guò)程中“背景噪音的影響”很難消除。信噪比直接影響數(shù)據(jù)收集模型,我們?cè)谟?xùn)練語(yǔ)音識(shí)別的時(shí)候,都是將噪音從中去除,盡量保持干凈的語(yǔ)音環(huán)境,從而提高語(yǔ)音識(shí)別的效果。目前業(yè)內(nèi)普遍宣稱的97%識(shí)別準(zhǔn)確率,更多的是人工測(cè)評(píng)結(jié)果,只在安靜室內(nèi)的進(jìn)場(chǎng)識(shí)別中才能實(shí)現(xiàn)。在嘈雜環(huán)境中必須有特殊的抗噪技術(shù)處理才能正常地使用語(yǔ)音識(shí)別,否則識(shí)別率很低,效果很差。但在實(shí)際生活中背景噪音無(wú)處不在,語(yǔ)音識(shí)別要能在復(fù)雜的環(huán)境下很好地應(yīng)用,就要在各種情況下收集足夠多的數(shù)據(jù)樣本進(jìn)行學(xué)習(xí)、分析。
邱元陽(yáng):語(yǔ)音識(shí)別技術(shù)在“上下文聯(lián)系”方面也做得不夠。語(yǔ)音的自動(dòng)識(shí)別與人類對(duì)語(yǔ)音的解釋之間的主要區(qū)別之一在于上下文的使用。人類在相互交談時(shí)會(huì)依賴很多上下文信息。此上下文包括對(duì)話主題、過(guò)去所說(shuō)的內(nèi)容、噪音背景以及唇部運(yùn)動(dòng)和面部表情等視覺線索。語(yǔ)音識(shí)別通常是孤立的,不能與歷史聯(lián)系在一起,不能進(jìn)行情感分析,不能和現(xiàn)實(shí)聯(lián)系起來(lái)。例如,我們?cè)趯?dǎo)航時(shí),說(shuō)出一個(gè)地點(diǎn),地圖軟件只能機(jī)械地進(jìn)行搜索。如果能根據(jù)我們所在位置和出行軌跡,猜測(cè)出行目的地,則可以大大提高識(shí)別準(zhǔn)確度。當(dāng)引入這些輔助信號(hào)時(shí),語(yǔ)音識(shí)別水平無(wú)疑會(huì)提高。但是,這是一個(gè)相當(dāng)龐大的知識(shí)體系問(wèn)題,如何選擇有用的上下文類型并有效使用它們需要進(jìn)一步深入研究。
楊磊:還有就是“詞義消歧”。機(jī)器在切詞、標(biāo)注詞性并識(shí)別完后,需要對(duì)各個(gè)詞語(yǔ)進(jìn)行理解。由于語(yǔ)言中往往一詞多義,人在理解時(shí)會(huì)基于已有知識(shí)儲(chǔ)備和上下文環(huán)境,但機(jī)器很難做到。雖然系統(tǒng)會(huì)對(duì)句子做句法分析,可以在一定程度上幫助機(jī)器理解詞義和語(yǔ)義,但實(shí)際情況并不理想。目前,機(jī)器對(duì)句子的理解還只能做到語(yǔ)義角色標(biāo)注層面,即標(biāo)出句中的句子成分和主被動(dòng)關(guān)系等,它屬于比較成熟的淺層語(yǔ)義分析技術(shù)。未來(lái)要讓機(jī)器更好地理解人類語(yǔ)言,并實(shí)現(xiàn)自然交互,還是需要依賴深度學(xué)習(xí)技術(shù),通過(guò)大規(guī)模的數(shù)據(jù)訓(xùn)練,讓機(jī)器不斷學(xué)習(xí)。當(dāng)然,在實(shí)際應(yīng)用領(lǐng)域中,也可以通過(guò)產(chǎn)品設(shè)計(jì)來(lái)減少較為模糊的問(wèn)答內(nèi)容,以提升用戶體驗(yàn)。
再有就是口音、方言的兼容性問(wèn)題。很多人的發(fā)音同標(biāo)準(zhǔn)發(fā)音有很大的差距,這就需要進(jìn)行口音和方言的處理。即使同一個(gè)人說(shuō)的話,如果處在不同的環(huán)境中,或者在不一樣的語(yǔ)境中,意思也可能不同。這些同樣需要改進(jìn)語(yǔ)音模型,讓語(yǔ)音識(shí)別適應(yīng)大多數(shù)人的聲音特征。
語(yǔ)音識(shí)別的前沿研究方向
倪俊杰:既然語(yǔ)音識(shí)別技術(shù)還存在這么多難題,那么如何突破呢?最新的前沿研究方向有哪些?
金琦:目前語(yǔ)音識(shí)別的技術(shù)研究,已經(jīng)從小詞匯量閱讀式識(shí)別轉(zhuǎn)向難度較大的自由對(duì)話場(chǎng)景的語(yǔ)音識(shí)別,自然環(huán)境中的識(shí)別率逐漸提高,但是還無(wú)法達(dá)到無(wú)障礙地人機(jī)交流的程度。如果不限制對(duì)話環(huán)境,不在意語(yǔ)音標(biāo)準(zhǔn)化程度,在噪音和多人對(duì)話以及日??谡Z(yǔ)化的情形下,語(yǔ)音識(shí)別技術(shù)可能難以發(fā)揮正常的作用,甚至根本沒(méi)有用武之地。因此語(yǔ)音識(shí)別的技術(shù)研究也開始面向非限定的環(huán)境,面向真實(shí)應(yīng)用場(chǎng)景。在真實(shí)的語(yǔ)言交流活動(dòng)中,不但沒(méi)有人去戴著麥克風(fēng),而且會(huì)有多人同時(shí)說(shuō)話,從專業(yè)角度來(lái)講,研究的前沿方向就是從近場(chǎng)麥克風(fēng)轉(zhuǎn)向遠(yuǎn)場(chǎng)麥克風(fēng),從無(wú)注意力機(jī)制轉(zhuǎn)向帶注意力機(jī)制。
邱元陽(yáng):騰訊AI Lab西雅圖研究室負(fù)責(zé)人、浙江大學(xué)兼職教授俞棟曾給出語(yǔ)音識(shí)別技術(shù)的四個(gè)前沿研究方向。
前沿研究方向一:語(yǔ)音序列到文字序列的直接轉(zhuǎn)換模型
在上期的語(yǔ)音識(shí)別工作原理的內(nèi)容中,我們可以看到,從語(yǔ)音信號(hào)序列到文字序列之間,會(huì)有多個(gè)中間過(guò)程,包括切割分幀、波形變換、聲學(xué)特征提取、生成觀察序列、狀態(tài)識(shí)別、音素組合等,通過(guò)逐步轉(zhuǎn)換,最后轉(zhuǎn)換成詞的序列。如果通過(guò)數(shù)據(jù)驅(qū)動(dòng)讓模型自己學(xué)習(xí),就有可能找到一個(gè)更好的算法,使這個(gè)序列的轉(zhuǎn)換更準(zhǔn)確、有效、直接。
例如,CTC(Connectionist Temporal Classification)模型,這種時(shí)序分類算法可以在系統(tǒng)確定“聽”到了某個(gè)字詞時(shí)產(chǎn)生一個(gè)尖峰狀態(tài),相比傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)與混合模型來(lái)說(shuō)大大減小了建模單元,但模型的訓(xùn)練難度較大。而Attention模型(Sequence-to-Sequence Transformation with Attention)則是帶有注意力機(jī)制的序列到序列轉(zhuǎn)換模型,其做法是首先把輸入的語(yǔ)音信號(hào)序列轉(zhuǎn)換成一個(gè)中間層序列表達(dá),然后基于中間層序列表達(dá)提供足夠的信息給一個(gè)基于遞歸神經(jīng)網(wǎng)絡(luò)的生成模型,每次生成一個(gè)字、一個(gè)詞或者一個(gè)音符,這個(gè)方法在機(jī)器翻譯中已經(jīng)成為主流方案。
前沿研究方向二:非監(jiān)督學(xué)習(xí)到有監(jiān)督學(xué)習(xí)的轉(zhuǎn)換
在非常嘈雜或者多人同時(shí)說(shuō)話的環(huán)境中,我們是能夠把注意力集中在某一個(gè)人的聲音上的,即有效屏蔽掉其他人聲和噪音的干擾,聽清所關(guān)注的人的聲音。但機(jī)器和語(yǔ)音識(shí)別系統(tǒng)卻很難做到這一點(diǎn)。在遠(yuǎn)場(chǎng)情況下,信噪比下降得更厲害,這個(gè)問(wèn)題就更突出也更難以解決,一般途徑是從之前的非監(jiān)督學(xué)習(xí)盲分類問(wèn)題,轉(zhuǎn)換到人為定制的監(jiān)督信息的有監(jiān)督學(xué)習(xí)問(wèn)題。
有監(jiān)督學(xué)習(xí)在多人說(shuō)話時(shí)會(huì)遇到標(biāo)簽排列問(wèn)題(Label Permutation Problem),可以通過(guò)深度聚類(Deep Clustering)或PIT(Permutation Invariant Training,置換不變性訓(xùn)練)方案解決。
前沿研究方向三:持續(xù)預(yù)測(cè)與適應(yīng)的模型
CTC等模型雖然能夠較快地做適應(yīng)(Prediction)、持續(xù)地做預(yù)測(cè)(Adaptation),但是性能不足并且很難訓(xùn)練?,F(xiàn)在需要模型能夠非常快地做適應(yīng),發(fā)現(xiàn)一致的規(guī)律性并將其變?yōu)殚L(zhǎng)遠(yuǎn)記憶,使得下一次識(shí)別時(shí)會(huì)變成穩(wěn)定的狀態(tài),其他狀態(tài)則變成需要適應(yīng)的狀態(tài),當(dāng)遇到新的聲音樣本時(shí)可以很快地適應(yīng)。
前沿研究方向四:前端與后端聯(lián)合優(yōu)化
出于遠(yuǎn)場(chǎng)識(shí)別的需要,處理前端信號(hào)使用的是信號(hào)處理技術(shù),一般只用到當(dāng)前狀態(tài)下的語(yǔ)音信號(hào)信息,而機(jī)器學(xué)習(xí)方法則用到很多訓(xùn)練器里的信息,并很少用到當(dāng)前幀的信息,也不會(huì)對(duì)它進(jìn)行數(shù)據(jù)建模。如何把這兩種方法融合在一起,并且減少前端信號(hào)處理有可能出現(xiàn)的信息丟失,也是很多研究組織正在努力的一個(gè)方向。
語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域
倪俊杰:帶著對(duì)未來(lái)語(yǔ)音識(shí)別技術(shù)的期待,在當(dāng)下,我們可以在哪些應(yīng)用領(lǐng)域使用語(yǔ)音識(shí)別?效果究竟如何?
金琦:在人工智能的加持下,目前語(yǔ)音識(shí)別雖然還有不少需要克服的困難,但是也已經(jīng)取得了非常大的進(jìn)步,在近場(chǎng)自由對(duì)話的情形下,機(jī)器已經(jīng)能夠達(dá)到甚至超過(guò)人的識(shí)別水準(zhǔn)。在這樣的水平下,語(yǔ)音識(shí)別的應(yīng)用就可以擴(kuò)展到非常多的場(chǎng)景和領(lǐng)域。
1.文字輸入
文字錄入是語(yǔ)音識(shí)別最基本的應(yīng)用,一般通過(guò)語(yǔ)音輸入法進(jìn)行。這方面做得較好的有IBM、微軟、科大訊飛等,很多輸入法都用的是訊飛的語(yǔ)音識(shí)別引擎。如果發(fā)音標(biāo)準(zhǔn),在高達(dá)95%的識(shí)別率下,對(duì)于大量文字的錄入,效率還是比較高的,甚至對(duì)于一些OCR難度較大的材料,也可以采用人工語(yǔ)音輸入來(lái)解決。
2.語(yǔ)音轉(zhuǎn)換
把語(yǔ)音轉(zhuǎn)換成文字,看起來(lái)似乎跟語(yǔ)音輸入一樣,在QQ和微信中,也可以把聊天中發(fā)送的語(yǔ)音直接轉(zhuǎn)換成文字。但是在以前,如果想把一首MP3的朗誦文件轉(zhuǎn)換成文本,還是要大費(fèi)周章的。現(xiàn)在這個(gè)問(wèn)題就很簡(jiǎn)單了,在語(yǔ)音識(shí)別引擎的支持下,很多軟件都能實(shí)現(xiàn)語(yǔ)音文件轉(zhuǎn)換。例如,利用搜狗輸入法的MP3轉(zhuǎn)文字功能,就可以把單田芳的評(píng)書MP3識(shí)別轉(zhuǎn)換成文本文件。
3.會(huì)場(chǎng)速記
會(huì)議速記是對(duì)錄入速度的極大考驗(yàn),因?yàn)檎Uf(shuō)話的速度是每分鐘200多字,一般人的文字錄入速度不太容易達(dá)到。但是如果會(huì)議發(fā)言的語(yǔ)音較標(biāo)準(zhǔn),環(huán)境噪聲小,就完全可以由機(jī)器對(duì)講話進(jìn)行語(yǔ)音識(shí)別記錄,自動(dòng)轉(zhuǎn)換成文字。例如,在一些法庭的庭審現(xiàn)場(chǎng),也會(huì)通過(guò)語(yǔ)音識(shí)別來(lái)分擔(dān)書記員的工作。
4.錄音整理
很多時(shí)候,記者在采訪和訪談時(shí)都會(huì)錄音,以便回去后復(fù)聽,避免遺漏和錯(cuò)誤。在整理這些錄音時(shí),就可以采用語(yǔ)音識(shí)別的方法快速地得到文字版的采訪過(guò)程記錄,提高工作效率。
5.語(yǔ)音檢索
圖書館在查找資料時(shí),常常會(huì)與檢索打交道。檢索方式從最初的卡片式檢索變?yōu)楹髞?lái)的電子檢索,很大程度地方便了借閱。但是如果支持語(yǔ)音檢索的話,會(huì)更進(jìn)一步地提高檢索效率。
6.字幕轉(zhuǎn)換
在手機(jī)上的視頻剪輯軟件中,有一個(gè)功能很受歡迎,就是語(yǔ)音轉(zhuǎn)字幕。只要發(fā)音不是太難懂,視頻中的語(yǔ)音都可以很方便地轉(zhuǎn)換成字幕,并且保持與畫面同步,如快影、剪映等都有這個(gè)功能,不僅實(shí)用,而且極大地節(jié)省了制作時(shí)間。但是在計(jì)算機(jī)上的傳統(tǒng)視頻編輯軟件中,卻很少具備這種智能化操作功能。
7.聊天機(jī)器人
機(jī)器人能夠跟人聊天的前提,當(dāng)然也是需要具備語(yǔ)音識(shí)別功能,能夠“聽”出人在說(shuō)什么,并且還需要具備語(yǔ)義識(shí)別功能,即能夠聽“懂”人在說(shuō)什么。微軟的小冰、IBM的沃森助理等,都具有較高的智能化水平。當(dāng)然,它們不僅僅需要語(yǔ)音識(shí)別,更重要的是要基于人工智能、自然語(yǔ)言處理和大數(shù)據(jù),才能實(shí)現(xiàn)像人一樣聊天。
8.智能音箱
智能音箱本質(zhì)上也是一個(gè)聊天機(jī)器人,不過(guò)它從計(jì)算機(jī)和手機(jī)軟件中獨(dú)立出來(lái),不再依賴于計(jì)算機(jī)和手機(jī),適應(yīng)性更好。常見的天貓精靈、小愛同學(xué)、百度小度等,都是具有一定智能和應(yīng)用特色的產(chǎn)品。
9.智能聲控
用語(yǔ)音發(fā)命令,讓機(jī)器和設(shè)備去執(zhí)行,這早已不是科幻場(chǎng)景,在智能家居、車載設(shè)備上都已充分應(yīng)用。其前提也是先運(yùn)用語(yǔ)音識(shí)別。
10.人機(jī)交互
如果說(shuō)簡(jiǎn)單的聲控是單向響應(yīng)的話,那么人機(jī)語(yǔ)音交互則是雙向溝通。最常見的車輛導(dǎo)航,可以接受駕駛?cè)说恼Z(yǔ)音指令,根據(jù)目的地啟用地圖和導(dǎo)航,然后再根據(jù)車輛定位的反饋向駕駛?cè)税l(fā)出指示。
以上僅僅是語(yǔ)音識(shí)別眾多應(yīng)用場(chǎng)景的一部分,相信隨著語(yǔ)音識(shí)別技術(shù)的進(jìn)步,還會(huì)出現(xiàn)更多的應(yīng)用方向。
人工智能語(yǔ)音識(shí)別API應(yīng)用
倪俊杰:既然語(yǔ)音識(shí)別技術(shù)已經(jīng)相對(duì)成熟,那么我們能夠利用該技術(shù)做一些什么事情呢?百度AI平臺(tái)(https://ai.baidu.com/)是面向全球的AI開放平臺(tái),為用戶提供了各類涉及推理預(yù)測(cè)、文字識(shí)別、圖像識(shí)別、語(yǔ)音識(shí)別、人臉識(shí)別等領(lǐng)域的API。我們不妨用百度AI平臺(tái)來(lái)做一些實(shí)驗(yàn)。
黃鈳涵:是的,百度API能夠?qū)崿F(xiàn)語(yǔ)音識(shí)別、文本翻譯等,要使用百度AI平臺(tái),首先要注冊(cè)“百度”賬號(hào)。語(yǔ)音識(shí)別API的示例代碼如下頁(yè)圖1所示,其中AipSpeech為使用語(yǔ)音識(shí)別的開發(fā)人員提供了一系列的交互方法。
語(yǔ)音識(shí)別API對(duì)原始音頻的格式有著嚴(yán)格的限制:原始PCM的錄音參數(shù)必須符合16k、8k采樣率,16bit位深,單聲道,支持的格式有pcm(不壓縮)、wav(不壓縮,pcm編碼)、amr(壓縮格式)。因此,在編寫程序時(shí)需要對(duì)音頻進(jìn)行重新采樣。
scipy.io庫(kù)提供了多種功能來(lái)解決不同格式的文件的輸入和輸出,定義compressMusic函數(shù)將原始音頻的采樣率改為16K,并在文件夾中創(chuàng)建一個(gè)名為“重采樣”的新文件,如圖2、圖3所示。
第1步:讀取文件(如圖4)。
第2步:重新采樣并輸出識(shí)別結(jié)果(如圖5、圖6)。
在文本翻譯方面,百度AI提供了一個(gè)專業(yè)的翻譯開放平臺(tái)(http://api.fanyi.baidu.com/),向開發(fā)者提供了更多豐富的能力。
當(dāng)?shù)卿浧脚_(tái)后,在上方導(dǎo)航欄中選擇“產(chǎn)品服務(wù)”—“在線翻譯”—“通用翻譯API”,在填入相關(guān)信息開通服務(wù)后,可在“開發(fā)者信息”中查看對(duì)應(yīng)的APPID和密鑰。由于文本翻譯API還沒(méi)有對(duì)應(yīng)的軟件工具開發(fā)包,因此其調(diào)用方式會(huì)有所不同,示例代碼如圖7所示,實(shí)驗(yàn)結(jié)果如圖8所示。
本文結(jié)束語(yǔ)
語(yǔ)音識(shí)別技術(shù)發(fā)展到今天,其識(shí)別精度越來(lái)越高。這些技術(shù)已經(jīng)能夠滿足平常應(yīng)用的要求。而且,伴隨著大規(guī)模集成電路技術(shù)的發(fā)展,一些復(fù)雜的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)制成專用芯片,大量生產(chǎn)??梢韵嘈?,語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛,給人類的生產(chǎn)生活帶來(lái)更大的便利,發(fā)揮更大的價(jià)值。至于語(yǔ)音識(shí)別技術(shù)的未來(lái)發(fā)展到底會(huì)怎么樣,能否擁有與人類一樣的“智慧”,目前還很難下定論,我們不妨拭目以待。