張曉明
(唐山市人事考試中心, 河北 唐山 063000)
在考場語音識別過程中識別出發(fā)音錯誤的詞匯,對于其系統(tǒng)糾錯水平提高具有重要作用,現(xiàn)有的多數(shù)語音識別系統(tǒng)在技術(shù)上無法有效消除信號和雜音干擾,識別能力較差[1-4]。為此本文提出了一種發(fā)音自動糾錯技術(shù),采用單識別器的CCD 傳感器和TDSP-TF887 芯片提升識別速度,將DTW 算法引入到系統(tǒng)的語音識別程序中以保證錯誤語音的精確識別,為考試者提供了一個良好的口語練習輔助平臺。
語音信號采集是錯誤語音識別流程的第一個環(huán)節(jié),對應的程序需要能夠從采集到的語音信號中提取出發(fā)音有誤的詞匯。程序運行的第一步是對系統(tǒng)中安裝的語音設備進行檢測,如果沒有發(fā)現(xiàn)相關(guān)設備則會發(fā)出提醒信號;第二步執(zhí)行語音信號初始化操作,保證系統(tǒng)采集到的語音以正確的格式進行保存;接下來從存儲空間中劃撥出一部分作為語音數(shù)據(jù)的緩存空間;最后對錯誤語音的參數(shù)進行計算。語音采集的具體流程如圖1 所示。
錯誤語音信號參數(shù)的提取方式和結(jié)果都是整個系統(tǒng)識別精度的影響因素。通過錯誤語音信號參數(shù)的提取獲取有效的錯誤語音信息才能保證系統(tǒng)識別結(jié)果的準確性。錯誤語音信號參數(shù)提取分為以下幾個步驟進行:
1)通過預加重、信號分幀和加窗的方式對錯誤的語音信號進行處理,在這個過程中,設定采樣點的數(shù)量為256 個,基于傅里葉變換錯誤語音信號的頻譜。
2)計算錯誤語音信號的功率譜。
3)獲取功率譜后使用梅爾濾波器對其進行運算,取運算結(jié)果的對數(shù),獲得對數(shù)頻譜。
4)將該對數(shù)頻譜由時域變換到頻域,具體方式為:
5)基于上述過程對每一幀錯誤語音信號進行特征提取,獲取效用最高的錯誤語音信號。
由上述流程可見,通過功率譜的計算可以完成錯誤語音信號參數(shù)的提取,從而實現(xiàn)錯誤語音識別功能,既簡化了錯誤語音識別的流程,又保證了識別結(jié)果的準確性。
基于錯誤語音采集程序和錯誤語音信號參數(shù)提取實現(xiàn)了錯誤語音的識別功能,并通過錯誤語音的功率譜計算保證了識別的準確性。
人發(fā)出的語音由語音識別傳感器中的二極管進行采集并將其轉(zhuǎn)換為數(shù)字信號。CMOS 傳感器與CCD傳感器是語音識別系統(tǒng)中較為常見的語音傳感器。CMOS 傳感器中集成了多個配有單獨轉(zhuǎn)換電路和識別器的二極管,其語音輸出方式與內(nèi)存電路較為相似;CCD 傳感器的內(nèi)部結(jié)構(gòu)與CMOS 傳感器相比較為簡單,只集成了一個識別器,語音數(shù)據(jù)由二極管開始逐單元傳輸直至傳感器的最底層并在此進行整合,經(jīng)識別器識別后繼續(xù)向后傳輸。本研究選用CCD 傳感器進行語音的采集和識別。
本次研究的過程中對語音識別處理器進行了優(yōu)化設計,采用DTW 算法進行語音的處理和識別,重點在于能夠?qū)崟r處理系統(tǒng)采集到的語音。所以,系統(tǒng)的語音識別處理器除了運算與控制的基礎功能之外,還通過執(zhí)行程序、指令系統(tǒng)與處理器結(jié)構(gòu)的優(yōu)化具備了語音實時處理的能力。DPS 芯片的性能決定了語音數(shù)據(jù)的處理效率,此外還關(guān)系到語音識別處理器的優(yōu)化程度和優(yōu)化過程的復雜度,因此DPS 芯片的選取是語音識別處理器優(yōu)化設計的一個重要環(huán)節(jié)。
制定語音識別處理器的優(yōu)化方案要從芯片的數(shù)據(jù)處理性能和語音識別精度兩個方面出發(fā),對于智能語音識別系統(tǒng),語音數(shù)據(jù)的處理效率是極為重要的性能指標,為了確保實現(xiàn)語音數(shù)據(jù)的實時處理,處理器必須能夠在極短的時間內(nèi)完成處理過程。對于語音的識別精度,浮點DPS 芯片通常情況下要高于定點DPS 芯片,能夠使智能語音識別系統(tǒng)擁有較強的錯誤語音識別能力。語音識別處理器芯片的總體結(jié)構(gòu)與數(shù)據(jù)處理流程如圖2 所示。
語音識別處理的選擇要依據(jù)硬件資源豐富、數(shù)據(jù)處理效率高的要求進行。智能語音識別系統(tǒng)的錯誤語音識別是基于大量的數(shù)據(jù)運算實現(xiàn)的,為了保證運算速度,本次研究選取TDSP-TF887 芯片作為語音識別處理器芯片?;诖a密度進行數(shù)據(jù)處理的語音識別處理器采用了集成16/32 位混合指令集的架構(gòu)形式,應用于本系統(tǒng)可以使其獲得更高的錯誤語音識別能力。
系統(tǒng)的硬件部分基于CCD 傳感器的應用優(yōu)化了語音識別傳感器的語音采集和數(shù)據(jù)處理功能,為了滿足語音數(shù)據(jù)實時處理的要求,通過選用TDSP-TF887浮點DPS 芯片優(yōu)化了語音識別處理器,提高了語音的處理效率和識別精度。
為了驗證本系統(tǒng)在錯誤語音智能識別方面的性能,選取一種傳統(tǒng)語音識別系統(tǒng)為參照系統(tǒng)[5]與本系統(tǒng)進行性能對比。使用中文32 篇短文作為口語語音輸入內(nèi)容。系統(tǒng)主要參數(shù)設定如下:語音振動音頻范圍為[-100,100],語音有效性判定參數(shù)=8.5,maxX的峰值分別取3.2、3.6、4.0、4。
系統(tǒng)數(shù)據(jù)庫中包含待測語音數(shù)據(jù)庫、漢語詞典數(shù)據(jù)庫與標準發(fā)音數(shù)據(jù)庫,其中漢語詞典數(shù)據(jù)庫為BEEP 數(shù)據(jù)庫。系統(tǒng)數(shù)據(jù)庫采取對外開放的形式,所有用戶都可以進行語音輸入。
發(fā)音自動糾錯系統(tǒng)的性能以準確率和查全率兩項指標進行評價。其計算方式分別為:
本系統(tǒng)與參照系統(tǒng)各進行10 次性能測試,測試結(jié)果如圖3 和圖4 所示。
由圖3 和圖4 中的數(shù)據(jù)可見,參照系統(tǒng)對錯誤語音進行識別的準確率和查全率數(shù)值都處于較低的水平,其中準確率最高只達到了62.6%,查全率最高僅為63.4%,10 次測試的準確率平均值為59.02%。本研究所提出系統(tǒng)的準確率和查全率均達到90%以上,其中最高準確率為96.2%,最高查全率為95.2%,10 次測試的準確率平均值為93.0%。以上數(shù)據(jù)表明,本研究提出的發(fā)音自動糾錯系統(tǒng)相較于傳統(tǒng)同類系統(tǒng)擁有更強的錯誤語音識別能力。
為了滿足考試語音識別模塊中的糾錯需求,本文提出一種發(fā)音自動糾錯技術(shù),采用CCD 傳感器進行語音的采集和處理,基于TDSP-TF887 浮點DPS 芯片實現(xiàn)了語音識別處理器的優(yōu)化設計,同時,在軟件部分引入了DTW 算法,提高了系統(tǒng)對錯誤語音的識別速度和精度。實際應用測試結(jié)果顯示,本文所設計系統(tǒng)的性能相較于其他同類系統(tǒng)有了大幅提高,非常適用于考場語音糾錯問題的解決。