亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

英文發(fā)音中錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)設(shè)計(jì)

2018-05-15 06:43:02王興剛

現(xiàn)代電子技術(shù) 2018年10期

王興剛

摘 ?要：傳統(tǒng)的英文發(fā)音識(shí)別系統(tǒng)對(duì)于學(xué)習(xí)者的錯(cuò)誤發(fā)音不能及時(shí)進(jìn)行反饋與糾正，存在誤導(dǎo)學(xué)習(xí)者以及學(xué)習(xí)者英文水平提高緩慢的弊端。在此設(shè)計(jì)新的英文發(fā)音錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)，其由語音錄制模塊、語音播放模塊、英語發(fā)音評(píng)分模塊和發(fā)音共振峰圖像顯示模塊構(gòu)成，給出評(píng)分模塊的發(fā)音評(píng)分流程，實(shí)現(xiàn)英文發(fā)音的有效評(píng)分以及評(píng)分的存儲(chǔ)，系統(tǒng)通過發(fā)音共振峰圖形顯示模塊，清晰地表達(dá)出學(xué)習(xí)者發(fā)音與標(biāo)準(zhǔn)發(fā)音的不同之處，糾正其錯(cuò)誤讀音。通過英語音素檢錯(cuò)程序使用獨(dú)立閾值的方式來提高錯(cuò)誤讀音的檢測性能，對(duì)不同音素用獨(dú)立閾值進(jìn)行衡量，使得英語發(fā)音中的錯(cuò)誤語音自動(dòng)識(shí)別結(jié)果更加科學(xué)化、精準(zhǔn)化。實(shí)驗(yàn)結(jié)果表明，所設(shè)計(jì)的系統(tǒng)具有較高的錯(cuò)誤語音自動(dòng)識(shí)別能力。

關(guān)鍵詞：英語發(fā)音; 錯(cuò)誤語音; 自動(dòng)識(shí)別; 發(fā)音評(píng)分; 發(fā)音共振峰圖像顯示; 獨(dú)立閾值

中圖分類號(hào)： TN912.34?34 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼： A ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào)： 1004?373X（2018）10?0179?04

Abstract： The traditional English pronunciation recognition system fails to timely feed back and correct learners′ mispronunciation， which misleads learners and leads to learners′ slow improvement in English level. Therefore， a new error speech automatic recognition system for English pronunciation is designed. The system is composed of voice recording module， voice playing module， English pronunciation scoring module， and pronunciation formant image display module. The pronunciation scoring process of the scoring module is given to realize the effective scoring of English pronunciation and storage of scores. The pronunciation formant graphic display module is adopted to clearly express the differences between learners′ pronunciations and standard pronunciations， so as to correct their wrong pronunciations. The detection performance of wrong pronunciations is improved by using the independent threshold mode and the English phoneme error detection procedure. Different phonemes are measured with the independent threshold to make the wrong speech automatic recognition results of English pronunciation more scientific and accurate. The experimental results show that the designed system has a high error speech automatic recognition capability.

Keywords： English pronunciation; error speech; automatic recognition; pronunciation scoring; pronunciation formant graphic display; independent threshold

0 ?引 ?言

在經(jīng)濟(jì)全球化全面發(fā)展、我國對(duì)外開放進(jìn)程不斷推進(jìn)的背景下，世界各國溝通往來不斷加強(qiáng)，英語作為應(yīng)用最頻繁的語言，發(fā)揮了不可替代的作用[1]。在學(xué)習(xí)英語的過程中，存在學(xué)習(xí)者口語較差的現(xiàn)象，口語作為英語學(xué)習(xí)中既關(guān)鍵又困難的部分，日益受到關(guān)注。因此，設(shè)計(jì)科學(xué)、高效的英文發(fā)音錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)勢在必行。傳統(tǒng)的英文發(fā)音識(shí)別系統(tǒng)對(duì)于學(xué)習(xí)者的錯(cuò)誤發(fā)音未能及時(shí)進(jìn)行反饋與糾正，存在誤導(dǎo)學(xué)習(xí)者以及學(xué)習(xí)者英文水平提高緩慢的弊端。針對(duì)該問題，本文設(shè)計(jì)面向英文學(xué)習(xí)者發(fā)音錯(cuò)誤及時(shí)反饋并糾正的錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)，為學(xué)習(xí)者提供了良好的口語學(xué)習(xí)環(huán)境。

1 ?英文發(fā)音中錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)設(shè)計(jì)

1.1 ?系統(tǒng)總體構(gòu)架

隨著國際大環(huán)境發(fā)展，我國學(xué)習(xí)英文口語人數(shù)大量增長，為學(xué)習(xí)者們提供一個(gè)科學(xué)化、系統(tǒng)化語音糾錯(cuò)方式至關(guān)重要，各種語音自動(dòng)識(shí)別系統(tǒng)應(yīng)運(yùn)而生。圖1為本文設(shè)計(jì)英語發(fā)音中錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)構(gòu)架圖。系統(tǒng)通過分割元音段、建立驗(yàn)證體系以及檢測系統(tǒng)是否科學(xué)三方面對(duì)英語學(xué)習(xí)者發(fā)音實(shí)施語音驗(yàn)證;采用HMM模型面向海量正確發(fā)音信息實(shí)施聲學(xué)模型訓(xùn)練方式，保證語音段在Viterbi算法運(yùn)作之下合理的分解，確保英語發(fā)音錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)的發(fā)音評(píng)測模塊能夠接收到評(píng)比參數(shù)的提取、參數(shù)關(guān)聯(lián)流程及評(píng)測機(jī)制等信息。英語音素檢錯(cuò)程序是整個(gè)系統(tǒng)的關(guān)鍵部分，能衡量英語發(fā)音中各參數(shù)權(quán)值[2]，提取出英語發(fā)音中的錯(cuò)誤音節(jié)，向發(fā)音者進(jìn)行反饋，以達(dá)到糾正錯(cuò)誤并改進(jìn)，促使英語發(fā)音者提高發(fā)音水平的目的。

1.2 ?系統(tǒng)硬件設(shè)計(jì)

1.2.1 ?系統(tǒng)的模塊組織結(jié)構(gòu)

本文設(shè)計(jì)的英文發(fā)音錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)組織結(jié)構(gòu)，由語音錄制模塊、語音播放模塊、英語發(fā)音評(píng)分模塊以及發(fā)音共振峰圖像顯示模塊構(gòu)成[3]，詳細(xì)結(jié)構(gòu)如圖2所示。該系統(tǒng)重點(diǎn)是基于AP的發(fā)音評(píng)分模塊以及發(fā)音共振峰圖像顯示模塊，這兩部分是進(jìn)行錯(cuò)誤語音識(shí)別的關(guān)鍵性步驟。

1.2.2 ?英語發(fā)音評(píng)分模塊設(shè)計(jì)

系統(tǒng)在基于AP的發(fā)音評(píng)分技術(shù)基礎(chǔ)上，對(duì)英語發(fā)音評(píng)分模塊進(jìn)行整合，英語發(fā)音評(píng)分及參數(shù)生成構(gòu)成模塊兩大核心部分，兩者在為英語發(fā)音者做出科學(xué)評(píng)分與評(píng)分參數(shù)自適應(yīng)生成方面發(fā)揮著不可替代的作用[4]。

系統(tǒng)面向測試發(fā)音以及標(biāo)準(zhǔn)發(fā)音實(shí)施分幀加窗、端點(diǎn)檢測等操作，即進(jìn)行預(yù)處理。接著，采取MFCC特征提取以及DTW動(dòng)態(tài)歸納的方式，確保預(yù)處理后的英語發(fā)音數(shù)據(jù)得到有效的特征采集以及模式匹配計(jì)算[5]，獲取測試發(fā)音及標(biāo)準(zhǔn)發(fā)音的幀平均匹配距離?；诓煌哪繕?biāo)動(dòng)機(jī)，分為兩種情況：

1）當(dāng)需要進(jìn)行參數(shù)生成時(shí)，經(jīng)過專家的經(jīng)驗(yàn)評(píng)分，獲取幀平均匹配距離以及專家經(jīng)驗(yàn)評(píng)分之間一定的對(duì)應(yīng)關(guān)系，獲取英語評(píng)分的自適應(yīng)參數(shù)x，y，確定評(píng)分函數(shù)來實(shí)施發(fā)音評(píng)分。

2）當(dāng)需要進(jìn)行發(fā)音評(píng)分時(shí)，測試英語發(fā)音以及標(biāo)準(zhǔn)發(fā)音的幀平均匹配距離會(huì)被輸入到評(píng)分函數(shù)中，最終獲取英語發(fā)音評(píng)分。

準(zhǔn)確輸出評(píng)分參數(shù)是發(fā)音評(píng)分部分及評(píng)分參數(shù)生成部分連接點(diǎn)[6]，參數(shù)生成部分的存在，使得獲取的參數(shù)準(zhǔn)確無誤地輸入到英語發(fā)音評(píng)分部分。系統(tǒng)采用SharePreferences組件存儲(chǔ)評(píng)分函數(shù)的重點(diǎn)參數(shù)，實(shí)現(xiàn)參數(shù)的永久性保存。

1.2.3 ?發(fā)音共振峰圖形顯示模塊設(shè)計(jì)

標(biāo)準(zhǔn)英語發(fā)音以及學(xué)習(xí)者發(fā)音的共振峰變化形態(tài)會(huì)以圖形化的方式在發(fā)音共振峰的圖像顯示模塊中完整地體現(xiàn)出來，清晰地展現(xiàn)出兩者的不同之處，識(shí)別出學(xué)習(xí)者在英文發(fā)音過程中與正確發(fā)音的不同之處[7]，糾正錯(cuò)誤的英語發(fā)音。圖3詳細(xì)描述了共振峰的執(zhí)行流程。

發(fā)音共振峰圖形顯示模塊采用預(yù)處理、FFT變換及共振峰提取的方式對(duì)英語測試發(fā)音及標(biāo)準(zhǔn)發(fā)音實(shí)施操作[8]，獲取學(xué)習(xí)者英語發(fā)音與標(biāo)準(zhǔn)發(fā)音共振峰信息。通過共振峰將兩種結(jié)果進(jìn)行對(duì)比，能清晰地表達(dá)出學(xué)習(xí)者英語發(fā)音與標(biāo)準(zhǔn)發(fā)音的不同之處，糾正其錯(cuò)誤讀音，為英文口語學(xué)習(xí)者提供科學(xué)、系統(tǒng)、便捷的學(xué)習(xí)環(huán)境。

1.3 ?系統(tǒng)軟件設(shè)計(jì)

1.3.1 ?英語音素檢錯(cuò)程序構(gòu)建

在語音識(shí)別技術(shù)的基礎(chǔ)上，系統(tǒng)的英語發(fā)音自動(dòng)檢錯(cuò)程序?qū)崿F(xiàn)了判斷不同音素是否符合標(biāo)準(zhǔn)。英語發(fā)音自動(dòng)檢錯(cuò)程序的操作主要分為兩大步驟：第一，采用依據(jù)音素序列歸納學(xué)習(xí)者語句的方式，獲取不同音素相應(yīng)的發(fā)音片段;第二，采用音素發(fā)音質(zhì)量GOP（Goodness of Pronunciation）的方式對(duì)得到的發(fā)音片段進(jìn)行衡量[9]。觀測語音向量、當(dāng)前音素以及所有音素集合分別用[O]，[P]以及[Q]來描述，音素[P]的聲學(xué)模型轉(zhuǎn)換成觀測語音向量幾率用[POP]來描述。GOP具體計(jì)算過程見圖4。采用對(duì)GOP實(shí)施[FrameCountO]優(yōu)化歸納的方式，確保長短不一音素的GOP值相對(duì)可比。

檢錯(cuò)識(shí)別功能是在本文系統(tǒng)判斷音素GOP值是否不超過某個(gè)閾值基礎(chǔ)上實(shí)現(xiàn)的。從標(biāo)注數(shù)據(jù)集中可獲取到上述閾值。音素檢錯(cuò)程序具體構(gòu)建如下：

1）聲學(xué)屬性。人耳的聽覺屬性是依賴于Mel頻率倒譜系數(shù)MFCC進(jìn)行體現(xiàn)的，音素檢錯(cuò)模塊將人耳聽覺屬性列入聲學(xué)屬性參數(shù)，采用MFCC_E_D_A D對(duì)詳細(xì)數(shù)據(jù)進(jìn)行設(shè)置。

2）聲學(xué)模型。本文程序采用的HMM模型在語音識(shí)別中應(yīng)用頻率較高，詳細(xì)表現(xiàn)為MonoPhone，3狀態(tài)，每狀態(tài)24高斯。該模型通過合理分析標(biāo)準(zhǔn)英文發(fā)音數(shù)據(jù)集的方式，確保聲學(xué)模型可以辨別發(fā)音是否準(zhǔn)確，該數(shù)據(jù)集具體包含30個(gè)人15 h發(fā)音信息。

3）音素分割網(wǎng)絡(luò)。音素分割網(wǎng)絡(luò)主要來源于學(xué)習(xí)者的朗讀音頻相應(yīng)的音素序列。

4）音素辨識(shí)表。從理論層面出發(fā)，為得到科學(xué)精確的GOP值，需要對(duì)那些自動(dòng)切分獲取的音素對(duì)應(yīng)片段進(jìn)行計(jì)算[10]。而具體應(yīng)用中，僅使用頻繁出現(xiàn)的競爭子集來確保識(shí)別系統(tǒng)的使用效率。

5）音素競爭子集的選取。詳細(xì)的例子見表1。下面對(duì)采集依據(jù)進(jìn)行分析：聲學(xué)以及語音學(xué)經(jīng)驗(yàn)、不同音素模型相互距離以及相似度、記錄人工標(biāo)注中頻繁混淆的音素對(duì)。

1.3.2 ?使用獨(dú)立閾值提高錯(cuò)讀檢測性能

1）統(tǒng)一閾值與獨(dú)立閾值。采用統(tǒng)一衡量閾值進(jìn)行判斷，然而分析表明，錯(cuò)誤英語發(fā)音與標(biāo)準(zhǔn)發(fā)音GOP分布圖存在明顯差異。為實(shí)現(xiàn)英語音素檢錯(cuò)程序科學(xué)化、精準(zhǔn)化，對(duì)不同音素限定特有閾值。

2 ?實(shí)驗(yàn)分析

2.1 ?語音錄入測試

實(shí)驗(yàn)對(duì)本文系統(tǒng)的語音錄入性能實(shí)施測試，檢測系統(tǒng)對(duì)用戶進(jìn)行發(fā)音跟讀過程中，是否可將發(fā)音正確錄入。實(shí)驗(yàn)采用的數(shù)據(jù)是：元音18個(gè)、輔音22、單詞10個(gè)。將首次發(fā)音當(dāng)成發(fā)音測試結(jié)果。測試成功率=成功[用例數(shù)總測試用例數(shù)]。測試用例與測試結(jié)果見表2、表3。

測試結(jié)果表明，本文系統(tǒng)能夠正確錄入元音以及單詞，受到局部輔音發(fā)音時(shí)間短以及音量低的干擾，有5.5%的輔音沒有正確錄入，總體上得出本文系統(tǒng)的成功錄入率較高。

2.2 ?反饋糾正測試

實(shí)驗(yàn)對(duì)本文系統(tǒng)的反饋糾正性能進(jìn)行測試，通過比較發(fā)音共振峰圖像的方式來驗(yàn)證是否可以科學(xué)、精確地實(shí)施語音識(shí)別糾錯(cuò)功能。實(shí)驗(yàn)數(shù)據(jù)是：元音發(fā)音18個(gè)、單詞發(fā)音10個(gè)（共振峰未顯示輔音發(fā)音狀況）。通過共振峰圖像改進(jìn)發(fā)音狀況，能夠確保提高發(fā)音評(píng)分，這種情況下，反饋糾正性能屬于有效，相反就是效果微弱甚至無效。有效率=[有效數(shù)總發(fā)音個(gè)數(shù)。]測試用例與測試結(jié)果用表4、表5所示。

測試結(jié)果表明，本文系統(tǒng)采取共振峰對(duì)比的措施，確保發(fā)音自動(dòng)識(shí)別的糾正平均有效率在90.5%左右，對(duì)于學(xué)習(xí)者的英文發(fā)音練習(xí)起到很大作用。

3 ?結(jié) ?論

本文設(shè)計(jì)的英文發(fā)音錯(cuò)誤語音自動(dòng)識(shí)別系統(tǒng)對(duì)于學(xué)習(xí)者的錯(cuò)誤發(fā)音能夠及時(shí)進(jìn)行反饋與糾正，解決了學(xué)習(xí)者發(fā)音水平提高緩慢的問題，為英文學(xué)習(xí)者提供一個(gè)良好的學(xué)習(xí)環(huán)境。

參考文獻(xiàn)

[1] 張慶芳，趙鶴鳴，龔呈卉.基于因子分析和特征映射的耳語說話人識(shí)別[J].數(shù)據(jù)采集與處理，2016，31（2）：362?369.

ZHANG Qingfang， ZHAO Heming， GONG Chenghui. Whispered speaker identification based on factor analysis and feature mapping [J]. Journal of data acquisition & processing， 2016， 31（2）： 362?369.

[2] YOUNG S C， WANG Y H. The game embedded CALL system to facilitate English vocabulary acquisition and pronunciation [J]. Journal of educational technology & society， 2014， 17（3）： 239?251.

[3] 張圣，郭武.采用通用語音屬性建模的說話人確認(rèn)[J].小型微型計(jì)算機(jī)系統(tǒng)，2016，37（11）：2577?2581.

ZHANG Sheng， GUO Wu. Speaker verification based on universal speech attributes [J]. Journal of Chinese computer systems， 2016， 37（11）： 2577?2581.

[4] 晁浩，宋成，劉志中.語音識(shí)別中基于發(fā)音特征的聲調(diào)集成算法[J].計(jì)算機(jī)工程與應(yīng)用，2014，50（23）：21?25.

CHAO Hao， SONG Cheng， LIU Zhizhong. Integrating tone models into speech recognition system based on articulatory feature [J]. Computer engineering and applications， 2014， 50（23）： 21?25.

[5] 張少白，陳燕俐，何利文.基于DIVA模型的中文復(fù)合元音發(fā)音方法研究[J].系統(tǒng)仿真學(xué)報(bào)，2017，29（2）：255?263.

ZHANG Shaobai， CHEN Yanli， HE Liwen. Research of Chinese diphthongs pronunciation based on DIVA model [J]. Journal of system simulation， 2017， 29（2）： 255?263.

[6] 唐郅，侯進(jìn).基于深度神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動(dòng)發(fā)音器官的運(yùn)動(dòng)合成[J].自動(dòng)化學(xué)報(bào)，2016，42（6）：923?930.

TANG Zhi， HOU Jin. Speech?driven articulator motion synthesis with deep neural networks [J]. Acta automatica sinica， 2016， 42（6）： 923?930.

[7] 岳源，張清芳.漢語口語產(chǎn)生中音節(jié)和音段的促進(jìn)和抑制效應(yīng)[J].心理學(xué)報(bào)，2015，47（3）：319?328.

YUE Yuan， ZHANG Qingfang. Syllable and segments effects in mandarin Chinese spoken word production [J]. Acta psychologica sinica， 2015， 47（3）： 319?328.

[8] 黃浩，徐海華，王羨慧，等.自動(dòng)發(fā)音錯(cuò)誤檢測中基于最大化F1值準(zhǔn)則的區(qū)分性特征補(bǔ)償訓(xùn)練算法[J].電子學(xué)報(bào)，2015，43（7）：1294?1299.

HUANG Hao， XU Haihua， WANG Xianhui， et al. Maximum F1?score criterion based discriminative feature compensation training algorithm for automatic mispronunciation detection [J]. Acta electronica sinica， 2015， 43（7）： 1294?1299.

[9] WANG X， YAMAMOTO S. Speech recognition of English by Japanese using lexicon represented by multiple reduced phoneme sets [J]. IEICE transactions on information & systems， 2015， 98（12）： 2271?2279.

[10] 杜先娜，俞一彪.有效頻帶多分辨率特征提取及說話人年齡識(shí)別[J].信號(hào)處理，2016，32（9）：1101?1107.

DU Xianna， YU Yibiao. Multi?resolution feature extraction of effective frequency bands for age recognition [J]. Journal of signal processing， 2016， 32（9）： 1101?1107.