【摘要】深度學(xué)習(xí)的語音識別技術(shù)具備學(xué)習(xí)、聯(lián)想、對比、推理和概括的能力,并且能夠逼近任意的非線性函數(shù)、并行化處理信息、容錯能力強(qiáng)等優(yōu)點(diǎn)?;谏疃葘W(xué)習(xí)的小學(xué)生英語口語能力評價系統(tǒng)理論研究,將深度學(xué)習(xí)的基本原理與語音信號處理基礎(chǔ)理論的研究結(jié)合起來,為評測中小學(xué)生英語語音發(fā)音提供了新的理論依據(jù)。
【關(guān)鍵詞】深度學(xué)習(xí);英語口語;理論研究
1.研究背景
2016年5月12日,北京教育委員會、中國青少年研究會共同下發(fā)了《中國少年兒童英語學(xué)習(xí)狀況調(diào)查白皮書》(下稱《白皮書》)。白皮書公布的一項(xiàng)調(diào)查顯示,在隨機(jī)抽取的11775名少年中,有59.4%在小學(xué)階段就開始接受英語教育;32.8%的未在小學(xué)階段學(xué)習(xí)英語。從《白皮書》的數(shù)據(jù)我們可以看到兒童英語學(xué)習(xí)在我國有著低齡化、普遍化和社會化的趨勢。在這種趨勢中,怎樣去規(guī)范少年兒童,尤其是中小學(xué)生的英語語音發(fā)音方式,提高他們的英語語音發(fā)音質(zhì)量,實(shí)現(xiàn)我國《義務(wù)教育英語課程標(biāo)準(zhǔn)(2017年版)》在中小學(xué)階段英語標(biāo)準(zhǔn)的要求,為之后有效的口語交際打下夯實(shí)的基礎(chǔ),將是中小學(xué)階段英語學(xué)習(xí)中一個不可或缺的重要環(huán)節(jié)。但是由于英語和中文發(fā)音特點(diǎn)的差異性、師資的良莠不齊、國內(nèi)英語學(xué)習(xí)環(huán)境的缺乏以及傳統(tǒng)課堂受時間和地點(diǎn)的制約等種種因素都造成了英語教學(xué)和學(xué)習(xí)的一大堆難題。
隨著社會信息化不斷發(fā)展以及計(jì)算機(jī)技術(shù)的普及,越來越多的國內(nèi)外學(xué)者開始進(jìn)行基于語音識別技術(shù)(Automatic Speech Recognition,ASR)的計(jì)算機(jī)輔助語言學(xué)習(xí)的研究。利用計(jì)算機(jī)軟件和硬件開展英語教學(xué),可以有效提高學(xué)生的學(xué)習(xí)效率,幫助學(xué)生掌握正確的發(fā)音技巧和方法,給學(xué)習(xí)者營造一個相對專業(yè)而輕松的語言學(xué)習(xí)環(huán)境。語音識別技術(shù)經(jīng)歷了動態(tài)時間規(guī)整算法(Dynammic Time Warping,DTW)到隱馬爾科夫模型(Hidden Markov Model,HMM),再到傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN或NN)[1],技術(shù)在不斷取得新的發(fā)展與進(jìn)步但同時也進(jìn)入到了一個瓶頸期。這種瓶頸期的出現(xiàn),一方面是由于技術(shù)的原因,另一方面則是英語語言發(fā)音特點(diǎn)和以及語音、語言能力評價指標(biāo)的設(shè)定原因。英語發(fā)音通常使用“后部發(fā)聲方法”,這與中文慣用的“前部發(fā)聲方法”有所不同,需要后部口腔發(fā)力,但是這個部位空間相對狹小,舌根運(yùn)動幅度受到較大限制,這使得英語發(fā)音不清晰,不同音之間區(qū)別不大。此外,英語發(fā)音中還有連讀、弱讀、失去爆破、語調(diào)語境等語音現(xiàn)象的存在。我們會發(fā)現(xiàn),由于技術(shù)、評判參數(shù)與語言特點(diǎn)的不完全融合,有些英語口語水平高的學(xué)習(xí)者在語音識別系統(tǒng)中的得分不高反低。因此,無論是在技術(shù)方面還是在對參數(shù)的設(shè)定上面,語音識別技術(shù)都還有進(jìn)一步完善的空間。
近年來,隨著大數(shù)據(jù)、云計(jì)算技術(shù)的發(fā)展,語音識別技術(shù)進(jìn)入了一個新的識別技術(shù)領(lǐng)域---深度學(xué)習(xí)(Deep Learning)。較傳統(tǒng)的語音識別技術(shù),深度學(xué)習(xí)的語音識別技術(shù)具備學(xué)習(xí)、聯(lián)想、對比、推理和概括的能力,并且能夠逼近任意的非線性函數(shù)、并行化處理信息、容錯能力強(qiáng)等優(yōu)點(diǎn)。
2.國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析
2.1國外研究現(xiàn)狀
上世紀(jì)五十年代,AT&T貝爾實(shí)驗(yàn)室研發(fā)出了一套語音識別系統(tǒng),到了九十年代之后又產(chǎn)生了SPHINX系統(tǒng)。一直以來,國外都在摸索語音識別技術(shù)和口語自動化評估技術(shù)。L.Neumeyer (1996)開發(fā)了一套語音交互式語言學(xué)習(xí)系統(tǒng)VILTS,根據(jù)SRI語音識別系統(tǒng)Decipher(tm)生成的語音內(nèi)容來評估用戶發(fā)音準(zhǔn)確性。[2]系統(tǒng)一共包含四個評估維度:HMM相似性、發(fā)音準(zhǔn)確性、語音片循環(huán)和語速。之后,再根據(jù)評估結(jié)果對比來給出一個評測分?jǐn)?shù)。H.Franco(1997)重新改進(jìn)了上述系統(tǒng),他使用基于HMM的后驗(yàn)概率提高了系統(tǒng)評測客觀性和正確率。到新世紀(jì)之后,隨著信息技術(shù)不斷進(jìn)步,語音識別技術(shù)也有很大的改進(jìn),NVIDIA公司研發(fā)了一套新型計(jì)算機(jī)處理器,該處理器采用了并行計(jì)算結(jié)構(gòu),大大減少了深度神經(jīng)網(wǎng)絡(luò)語音工作量,利用巨量語音數(shù)據(jù)庫提升了識別準(zhǔn)確性,極大的推動了語音識別技術(shù)的發(fā)展。比較有代表性的是美國學(xué)者Li Deng(2012)等將多條件隨機(jī)場應(yīng)用到了語音識別系統(tǒng)當(dāng)中;利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)改進(jìn)了馬爾科夫模型運(yùn)行概率,在此基礎(chǔ)上建模形成了DHH=HMM系統(tǒng)。同傳統(tǒng)GMM-HMM相比效果更顯著,這也是當(dāng)前語言識別技術(shù)發(fā)展的最新成果。[3]
在評估方面。從整句提升到了音素層面。SM.Witt(2000)從因素層面開展學(xué)習(xí)效果評估,這樣做的好處就是能夠及時發(fā)現(xiàn)學(xué)習(xí)者的錯誤發(fā)音,對學(xué)習(xí)者的發(fā)音與標(biāo)準(zhǔn)發(fā)音差異進(jìn)行評估,找出其中存在的根本性差異。采用基于相似性的GOP(Goodness of Pronunciation)方法,根據(jù)事前設(shè)置的平均目標(biāo)值來統(tǒng)計(jì)各個因素參數(shù),并設(shè)置閾值進(jìn)行認(rèn)定。
總之,國外對于語音和口語評估的研究已經(jīng)相當(dāng)深入,除了上述提到的外,還涉及到重音檢測、語音錯誤檢測、韻律等方面。
2.2國內(nèi)研究現(xiàn)狀
國內(nèi)的研究雖然起步較晚,但是近幾年來發(fā)展很快,研究水平也取得了很大的進(jìn)步。蘇鵬飛(2006)提出了“英語口語評估算法研究”[4],該研究采用SPHINX-4自動語音識別系統(tǒng),對英語口語連讀部分和易混淆音部分進(jìn)行評估算法,直接把英語口語的評估深入到具體語法領(lǐng)域。陳一寧(2009)對英語口語學(xué)習(xí)中的語音識別技術(shù)進(jìn)行了改良與發(fā)展,采用HMM技術(shù)建立語音識別模型,生成語音Viterbi解碼,利用后驗(yàn)概率識別發(fā)音效果,最后對照專家數(shù)據(jù)庫糾正發(fā)音錯誤,并建立了融整合解碼、評分與糾錯于一體的語音評價系統(tǒng)。這種技術(shù)已在上海交大與SHARP株式會社共同推進(jìn)的“世博英語口語學(xué)習(xí)”項(xiàng)目中普及。
2013年,百度成立了深度學(xué)習(xí)研究院,這極大的拓展了深度學(xué)習(xí)研發(fā)領(lǐng)域。2014年底,百度首席技術(shù)官吳恩達(dá)發(fā)布了新技術(shù)深度語音識別(Deep Speech),之后語音助手也面世。百度宣布DNN(Deep Neurual Network)將會在百度語音助手中應(yīng)用,這就是深度學(xué)習(xí)在語音服務(wù)上的實(shí)踐,他們采用基于DNN的模型代替原有的基于高斯混合(Gaussian Mixture Models,GMM)的模型對共有語音與服務(wù)后臺進(jìn)行升級,升級后將識別范圍允許的次錯率降低了10%,優(yōu)于谷歌Speech AP、Wit.AI、微軟Bing Speech[5]。除此之外,深度語音識別開始也逐漸運(yùn)用在英語學(xué)習(xí)和教學(xué)中。張爽等在原有的單因子和三銀子模型上添加韻律因素,構(gòu)建了韻律模型方法,從而改進(jìn)發(fā)音質(zhì)量評價性能;蘇鵬飛通過對連讀和易混淆音兩個英語口語重要特征構(gòu)建評價模型來研究英語口語中的評估算法;李靖等(2008)在語音發(fā)音模型中引入了高斯混合模型和全局背景模型(UBM)算法,建立了一套全新的英語發(fā)音評價程序。實(shí)踐表明,在采集到的語音數(shù)據(jù)庫當(dāng)中,這種算法相似性達(dá)到0.7,大大高于其他評分程序[6]。
總之,隨著科技公司紛紛開展相關(guān)研究,以及技術(shù)不斷進(jìn)步,深度學(xué)習(xí)與語音識別捆綁日益緊密,這也是未來社會發(fā)展趨勢和方向,具有廣闊的應(yīng)用前景。
3.已有現(xiàn)狀評述
首先,目前我國人工智能技術(shù)正在飛速發(fā)展,語音識別也將會走向更廣闊的應(yīng)用空間。深度學(xué)習(xí)作為一種現(xiàn)代智能技術(shù),為語音識別提供了高準(zhǔn)確度、高速度的計(jì)算模式和方法,為智能語音交互創(chuàng)造了新的機(jī)遇。
其次,國內(nèi)外有關(guān)深度學(xué)習(xí)技術(shù)在英語音識別技術(shù)上的研究還處于起步和不斷完善的階段,主要體現(xiàn)在:對英語語種特點(diǎn)的把控度不高,這就造成了在進(jìn)行語音識別研究時,對英語語音單個因素識別技術(shù)的研究多,而忽略了英語口語能力的評測并非是單個發(fā)音因素的整合體;對評價參數(shù)精準(zhǔn)度的分析不透,現(xiàn)有的研究參數(shù)相對單一,不夠合理;研究對象的籠統(tǒng)化忽略了群體之間由于生理和心理特征造成的發(fā)音差異。
因此,基于深度學(xué)習(xí)的中小學(xué)生英語語音與口語能力評價系統(tǒng)研究是針對中小學(xué)生采取深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)建立語音識別模型,采用以語塊為最小的英語口語評價單位,對他們的英語語音發(fā)音質(zhì)量進(jìn)行監(jiān)控與評價從而提高英語語音、口語教學(xué)效率的研究。它可以大大提高語言信息處理能力,提升用戶獲取信息的效率,讓學(xué)習(xí)者有更好的用戶體驗(yàn)。
4.研究意義
4.1理論意義
第一,本研究將會在參考大量文獻(xiàn)資料的基礎(chǔ)上,通過對中小學(xué)生英語語音和口語現(xiàn)狀進(jìn)行調(diào)查,發(fā)現(xiàn)問題,分析問題,提出以語塊為最小評價單位的多參量英語語音評價體系,一定程度上揭示了中小學(xué)生英語語音發(fā)音的特殊性和規(guī)律性,豐富了英語語音教學(xué)理論。
第二,本研究將會基于深度學(xué)習(xí)的視角對語音識別做出更為細(xì)化的研究,將深度學(xué)習(xí)的基本原理與語音信號處理基礎(chǔ)理論的研究結(jié)合起來,為評測中小學(xué)生英語語音發(fā)音提供了新的方法。
4.2實(shí)踐意義
第一,本研究將會幫助中小學(xué)生注意英語口語表達(dá)過程中出現(xiàn)的英語語音現(xiàn)象,例如連讀、失去爆破等,并及時更正英語語音發(fā)音錯誤,避免錯誤經(jīng)多次重復(fù)而成為習(xí)慣,為學(xué)生提供更高效、更有趣的語言學(xué)習(xí)環(huán)境,從而極大提高了中小學(xué)生英語學(xué)習(xí)效率,充分調(diào)動起學(xué)生學(xué)習(xí)英語的積極性,將獲得很大社會效益和市場價值。
第二,本研究將會幫助英語教育者甚至家長提供一個簡便、高效的英語語音發(fā)音質(zhì)量和英語口語能力的測評平臺,讓中小學(xué)英語教師和家長對學(xué)生的英語語音學(xué)習(xí)和口語能力的提高有一個科學(xué)、全面的認(rèn)識,促進(jìn)學(xué)生在中小學(xué)階段的英語學(xué)習(xí)。研究結(jié)果還可以運(yùn)用在中小學(xué)生語音、口語能力測試中。
參考文獻(xiàn):
[1]張瑞.英語語音合理性優(yōu)化識別建模仿真研究[J].計(jì)算機(jī)仿真,2017,34(2):289-292.
[2]梁穎紅,曹軍.文本語塊識別典型方法的比較與分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(11):76-79.
[3]趙丹,鐘楠.在線連續(xù)交互式英語語音智能識別系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2017,40(15):137-140.
[4]肖紅英.大學(xué)生預(yù)制語塊識別能力與閱讀理解水平的關(guān)聯(lián)性研究[D].贛南師范學(xué)院,2011.
[5]戴禮榮,張仕良,黃智穎.基于深度學(xué)習(xí)的語音識別技術(shù)現(xiàn)狀與展望[J].數(shù)據(jù)采集與處理,2017,32(2):221-231.
[6]單敏.深度學(xué)習(xí)視閾下的英語發(fā)音質(zhì)量和語音識別探微[J].湖北函授大學(xué)學(xué)報,2017,30(20):174-175.
基金項(xiàng)目:文章系2019年湖南省自然科學(xué)基金青年基金項(xiàng)目《基于深度學(xué)習(xí)的小學(xué)生英語口語能力評價系統(tǒng)研究》(編號2019JJ50679)結(jié)題成果。
作者簡介:胡薇,女1982年7月出生,漢族,湖南益陽,長沙師范學(xué)院,碩士,副教授,研究方向:小學(xué)英語教學(xué)和教師教育。