徐麗琍
【摘要】普通話水平測試是踐行“推廣普通話”這一基本國策的重要手段。隨著技術(shù)革新,傳統(tǒng)的“人工測試”轉(zhuǎn)變到由計算機(jī)進(jìn)行輔助測試的方式。語言識別技術(shù)以及語言評測技術(shù)的應(yīng)用,是不斷推動普通話水平測試走向成熟的關(guān)鍵。
【關(guān)鍵詞】語音識別技術(shù) 語音評測技術(shù)
【中圖分類號】G65 【文獻(xiàn)標(biāo)識碼】A 【文章編號】2095-3089(2017)18-0215-01
經(jīng)過20多年的發(fā)展,現(xiàn)今的普通話測試是通過計算機(jī)輔助測試的方式來完成的,主要在其中運(yùn)用了語音識別技術(shù)以及語音合成技術(shù),但是采用的測試系統(tǒng)是科大訊飛公司生產(chǎn)的測試系統(tǒng)。
一、語音識別技術(shù)的基本概述
1.預(yù)處理
因為應(yīng)試人員輸入到測試系統(tǒng)中的是一些計算機(jī)沒有辦法識別的模擬信號,所以在計算機(jī)對信號進(jìn)行處理之前,必須把模擬信號轉(zhuǎn)化為數(shù)字信號。這就是預(yù)處理的作用,預(yù)處理包括預(yù)濾波、預(yù)加重、采樣和量化等步驟。
預(yù)濾波的主要作用是防止采樣頻率出現(xiàn)混疊干擾,同樣可以對電源工頻干擾進(jìn)行抑制。
預(yù)加重是針對采樣部分高頻信號來進(jìn)行的,主要就是為了提高高頻部分語音信號的分辨率,同時對發(fā)聲過程中聲帶以及嘴唇的干擾進(jìn)行消除,使得高頻的共振峰更加突出。普通話水平測試系統(tǒng)中預(yù)加重的工作是通過一階高通濾波器來完成的。
采樣和量化是通過A/D轉(zhuǎn)換器來完成的,在每個周期之內(nèi),A/D轉(zhuǎn)換器都會測量以及量化信號各一次。這樣聲音信號就會轉(zhuǎn)變?yōu)閿?shù)字音頻信號。在模擬信號向數(shù)字信號轉(zhuǎn)換之前,首先需要對模擬信號波形進(jìn)行分割,其實這就是采樣的本質(zhì)。具體來說,是在采樣周期之內(nèi)模擬信號的波形上取一個幅度值,這樣原本連續(xù)的模擬信號就會變?yōu)殡x散信號。采樣周期的倒數(shù)為采樣頻率,在采樣頻率高于聲音信號的最高頻率的2倍時,數(shù)學(xué)信號所表示的聲音才能夠被準(zhǔn)確的還原,這是實際采樣過程中的一個難點。采樣結(jié)束之后,聲音音量的大小還會受到聲波幅度電壓值大小的影響,而對該數(shù)值的數(shù)字化表示,就是“量化”。量化首先要做的是對整個聲波幅度進(jìn)行劃分,之后對區(qū)段內(nèi)的值進(jìn)行分類,然后用同一量化值進(jìn)行賦值計算。對聲波幅度的劃分是按照2進(jìn)制的方式來完成的。
2.特征參數(shù)的提取
語音識別系統(tǒng)中特征參數(shù)的提取是用梅爾倒譜系數(shù)來完成的(簡稱MFCC),該系數(shù)具有良好的抗噪音能力以及識別能力。
MFCC的提取是按照以下步驟來完成的:首先求Mel標(biāo)準(zhǔn)刻度,Mel標(biāo)準(zhǔn)刻度能夠描述人耳頻率的非線性特征。是通過處理之后的語音頻率來計算的,Mel標(biāo)準(zhǔn)刻度的單位為HZ。其次進(jìn)行FFT操作,因為通常情況下很難根據(jù)信號本身的變化特征分析出信號時域上的變化特征。為了操作的準(zhǔn)確性,我們通常用信號頻域上的能量變化來代替信號時域上的變化,不同的能量變化特征能夠代表語音信號本身的特征。因此如果我們將分幀之后的語音信號加上Hanmming窗,還應(yīng)該對每幀信號進(jìn)行FFT操作。這樣就能夠獲得信號在頻譜上的能量分布,語音信號的功率譜也是在這個基礎(chǔ)上計算得來的。然后需要進(jìn)行的是三角帶通濾波器濾波,要求每個濾波器組輸出信號對數(shù)能量的準(zhǔn)確值。在這里需要說明,MFCC并不受輸入信號的音高等因素的影響,所以說以MFCC為特征的語言識別系統(tǒng),即當(dāng)前普通話水平測試之中所采用的系統(tǒng)也不會受到輸入語音音高等因素的影響。借助于三角帶通濾波器,我們就能夠?qū)β曇纛l譜進(jìn)行平滑化處理,而且還能夠消除諧波的作用,突顯原本聲音信號的共振峰。測試系統(tǒng)所采用的三角形濾波器,每個頂點與相鄰濾波器的起點以及終點都能夠做到重合,這樣相鄰兩個濾波器之間就會出現(xiàn)重疊區(qū)域。然后對濾波之后的信號進(jìn)行計算,就能夠求出濾波器組輸出的對數(shù)能量和倒譜系數(shù)。
二、語音評測技術(shù)的基本概述
1.工作原理
這項技術(shù)運(yùn)作首先要做的是從發(fā)音資料庫中對標(biāo)準(zhǔn)語音資料進(jìn)行特征提取,分析其中的顯著特征。之后要做的是對大量的非標(biāo)準(zhǔn)發(fā)音資料進(jìn)行特征提取。然后對提取的這兩部分發(fā)音材料進(jìn)行分析,系統(tǒng)自動生成一套完整的評分規(guī)則。最后才能夠?qū)Υ郎y的語音資料進(jìn)行分析,從而得出一個相對直觀、準(zhǔn)確的評分。當(dāng)前語音評測技術(shù)是普通話水平測試系統(tǒng)中最常用的技術(shù)。
2.語音評測技術(shù)在漢語評測中的應(yīng)用
語音評測技術(shù)已經(jīng)能夠?qū)崿F(xiàn)對用戶輸入的語音進(jìn)行全部接收,所以說它已經(jīng)使得說話過程變的非常積極了,這也是將這項技術(shù)運(yùn)用到普通話測試之中的重要原因之一。應(yīng)用這項技術(shù)最關(guān)鍵的一個作用就是對說話者的語音進(jìn)行反饋,要實現(xiàn)這一目標(biāo)需要建立起完備的語音語料庫,這需要對大量的標(biāo)準(zhǔn)語音以及非標(biāo)準(zhǔn)語音進(jìn)行分析。雖然說這一技術(shù)的存在我們已經(jīng)實現(xiàn)了對于語音的自動評測,但是目前所用的評分系統(tǒng)對于句子層的敏感度較低,而且評測的內(nèi)容必須是已經(jīng)被收錄在系統(tǒng)之內(nèi)的問題并沒有被解決。
對于漢語語音的識別是借助HTK平臺來實現(xiàn)的,因為漢語的特殊性,為了提高識別的準(zhǔn)確度我們建立起了孤立詞語音識別系統(tǒng),對照標(biāo)準(zhǔn)發(fā)音模板而進(jìn)行的特征比較,評測遵循的是發(fā)音與模板相似性越高分越高的原則。而相似性比較的參數(shù)有能量、基頻以及MFCC參數(shù)等等。
參考文獻(xiàn):
[1]周曉蘭. 計算機(jī)輔助普通話水平測試中的語音識別技術(shù)探討[J]. 農(nóng)村經(jīng)濟(jì)與科技,2016,(22):240-241.
[2]周曉蘭. 普通話水平測試系統(tǒng)中語音識別和語音評測技術(shù)研究[J]. 中外企業(yè)家,2016,(29):265-266.
[3]萬濟(jì)萍,劉子菡,王玥,劉婉姬,張清濤,辛杰. 基于語音識別技術(shù)口語自動評測的專利分析[J]. 電聲技術(shù),2012,(S1):53-56.