付學桐
摘 要 隨著人工智能和網(wǎng)絡自動化工程的不斷發(fā)展,人機交互模型發(fā)生了天翻地覆的變化,傳統(tǒng)的文字交互模式已被各種新型交互技術所取代,其中語音識別就是最為典型高效的一種。語音識別可以有效地將人類語音轉(zhuǎn)化為文字并識別,目前已廣泛地應用于文字輸入等多個領域,在語音識別的整個流程中,預處理階段決定了其識別成功率和效率。文章從語音識別的過程講起,詳細分析了語音識別預處理過程,并對其未來發(fā)展進行了展望。
關鍵詞 語音識別;預處理;端點檢測;采樣定理
中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708(2019)233-0135-02
隨著當今人工智能的迅速發(fā)展,語音識別技術取得了較大的突破,在商業(yè)、軍事、民用等方面語音識別都得到了廣泛的運用。目前國內(nèi)外已有許多對語音識別領域的研究和產(chǎn)品,如蘋果手機的Siri,微軟的Cortana,百度的智能音箱,科大訊飛的訊飛語音輸入等產(chǎn)品。語音識別之所以得到空前重視,從根本上說,也就是源于語音識別所帶來的簡便性。在人工智能中,尤其重要的一點就是要讓機器人知道人類要做什么,所以務必要將人的指令轉(zhuǎn)化為計算機可以識別的代碼數(shù)字,常見的方式有圖像、動作、語音轉(zhuǎn)換等。而語言就是最直接最簡單的轉(zhuǎn)換方式,但在其識別系統(tǒng)中,一般要將其在理想環(huán)境下訓練成運用于復雜含噪環(huán)境中的語音識別系統(tǒng)。語音識別預處理過程是整個語音識別處理過程的前端環(huán)節(jié),負責將復雜無規(guī)律的語音信號轉(zhuǎn)化為可供計算機識別的數(shù)字信息,對提高語音識別效率和成功率起著決定性作用。
1 語音識別技術概述
語音識別屬于新興技術,目前尚未有一種嚴格規(guī)范化的定義,通常被認為是一種將人類語音信息通過軟硬件轉(zhuǎn)化為文本信息的計算機技術,由于其的特殊屬性,也有科學家將其歸類為自動化技術。語音識別的技術體系復雜,主要包括基礎的發(fā)聲機理、聲波傳播、信號學,高級的模式識別和人工智能理論,數(shù)學上的概率論和數(shù)理統(tǒng)計也有所涉及。語音識別的整個過程基本可以歸納成以下的步驟:輸入—接收語音—預處理—特征提取—對比—翻譯—輸出。
簡單地說語音識別第一步就是將接受到的語音信息進行一定的處理,將其切成一小段一小段的語音片段,再通過波形轉(zhuǎn)換,將每一小段語音變成一個多維向量,再將其向量與自身數(shù)據(jù)庫中的進行對比,選出概念大的向量,轉(zhuǎn)化成數(shù)據(jù)庫中所對應的狀態(tài)號,最終將各個詞匯拼接從而得到語音識別的結果。在特征提取之前,有一項極為重要的流程——預處理。預處理是語音識別過程的前端,所以也叫做前端處理,其目的是通過對原始語音信號的處理,使其更好地被轉(zhuǎn)化為特定的數(shù)字量,以便進行特征識別,提高語音識別的成功率和效率。如果語音識別中不做前端處理,則計算機就無法判斷該音頻從何開始,又從何結束,同時大量的噪音也大大降低的音頻的準確度。所以即使系統(tǒng)已收集可以比對的大量數(shù)據(jù),可接收的語言無法轉(zhuǎn)化正確的狀態(tài)號,一切都無法達到相應的指令??梢哉f語音識別的預處理就相當于系統(tǒng)的眼睛,所以預處理在整個過程中極其重要[ 1 ]。
2 預處理方法及其技術
預處理的常用方法有端點檢測、聲道轉(zhuǎn)換、預加重、去加重、分帖、加窗、重采樣等,不同的語音識別在預處理順序上有一定差別。
2.1 端點檢測
對語音信號進行時域分析,可以明顯地辨別出原始語音信息包含有聲段、無聲段和濁音段,端點檢測則是通過區(qū)分以上不同段的信號來達到區(qū)劃語音的開頭與結尾,端點檢測的唯一目的就是找到語音信號的起始點與結束點。端點檢測最常用的方法就是雙門眼檢測法。雙門眼檢測法是通過計算門限能量的方式來判斷語音端點的技術,一般會在語音識別之前設置雙門的門限λ,然后分別計算每個時刻的語音能量,若該能量大于門限閾值,則新生成門限序列為1,反之則為0,從而得到門限序列后,將其點乘原始語音序列,得到有效語音序列。語音能量的計算公式為:
2.2 預加重與去加重
在實際應用過程中,語音信息往往夾雜著環(huán)境中的各種其他聲音信息,由于人類發(fā)音的特性,語音信息經(jīng)過頻率轉(zhuǎn)換后往往大部分集中于低頻帶,從而使得低頻能量過大,高頻能量過低,計算機難以有效提取高頻語音信息。為了抵消掉這種情況,預處理階段使用預加重技術,在語音信息的處理階段預先添加與原始語音高頻信號,通過疊加之后,原始語音信息在高頻和低頻段的能量相當,使得識別效率明顯提升。而在語音識別系統(tǒng)的輸出端,則需要做相反的處理,也就是去加重,采用相反的負能量信號將添加的高頻成分去掉,從而還原原來的信號分布,有效提高聲音信號的信噪比[2]。
2.3 分幀與加窗
分幀從簡單來說,一段信號整體是不穩(wěn)定的,但從局部來看,信號是穩(wěn)定的,所以要想接收端接收平穩(wěn)的信號,就需對整段語音進行分幀,也就是切成幾段。但是需要注意的是,根據(jù)香農(nóng)定理(Shannons Theorem),分幀越多地聲音片段,其開始段和結束段會存在聲音不連續(xù)的現(xiàn)象,導致了分幀的幀長越短,信號的誤差就越大。為了解決此問題,語言學家提出了利用帶通濾波器來過濾的方法,也就是加窗。常見的三種窗函數(shù)是矩形窗、漢明窗和漢寧窗,其數(shù)學公式如下。
實際系統(tǒng)中,語音信號處理一般加漢明窗,就可以滿足絕大多數(shù)種語音情況。語音識別的加窗類型受到許多因素的影響,包括不同說話人的發(fā)音方式、說話方式、環(huán)境噪音、傳輸信道衰落等,實際應用時需要根據(jù)不同的情況選擇窗。
2.4 重采樣
根據(jù)信號學中的奈奎斯特采樣定理(Nyquists Theorem),再信號采集時,如果采樣頻率滿足采樣頻率大于2倍最高頻率時,經(jīng)過采樣后的信息可以原本保持的所有特征信息。根據(jù)這一定理,語音識別系統(tǒng)中通常采用重采樣技術,也就是限定采樣器的采樣頻率為最高頻率的5~8倍。根據(jù)人類語音信號50Hz~6kHz的頻率范圍,可以得出重采樣器的采樣頻率為約16kHz左右,重采樣可以保證語音中的所有信息均被送至特征識別環(huán)節(jié)中[ 3 ]。
3 語音識別預處理缺陷及其解決方案
語音識別的局限性主要在語音源的多樣性,據(jù)相關資料顯示,全世界當前一共有超過1 000種語言,而其中常規(guī)語言也就多達數(shù)十種,語言識別對于各種語言的適配是一項長期的過程。同時,類似于中文中的四川話、廣東話、上海話,各種大型語言中都有其特定的方言,且使用頻次很高,這些方言在語言詞匯和字符發(fā)音上都和傳統(tǒng)的語言不同,訓練語音識別系統(tǒng)適配方言也是亟待解決的問題。當語音信號在傳播過程中有所衰減,為了在保留細節(jié)的情況下還原聲波,人為可以利用前置聲音放大器的方式解決。在回聲消除和空間降噪方面,筆者認為可以利用多麥克風采樣技術作為解決方案。區(qū)別于一般的單一麥克風采集技術,多麥克風技術搭配多通道采樣技術,分別將人聲的高、中、低頻波段分別采集,同時將不同時間到達的聲音區(qū)分開來,在已知噪聲特性的情況下,可以有效降噪,提高人聲的辨識度[ 4 ]。
當前語音識別的發(fā)展問題主要存在于兩種:一是反復說話識別,頓挫識別。往往生活中由于某些人的語言習慣,可能會出現(xiàn)反復出現(xiàn)某個詞語,或說話結結巴巴。針對這一問題,就要加強端點檢測的端點的選取,正確選取語音的頭尾,去除話語中間隔的空隙,使一段斷斷續(xù)續(xù)的話變成一段聯(lián)結的話。同時在處理中,可對某些重復出現(xiàn)的詞語進行適當?shù)膭h減,增加識別的速率。二是自然語言處理和字典的擴充。由于語音識別運用時的外界環(huán)境的復雜性,可能會出現(xiàn)方言,別的語種類型的語言。而解決的首要之舉就是增加數(shù)據(jù)庫中的數(shù)據(jù),從而擴充字典,達到有效的預處理[5]。
參考文獻
[1]陳慧,芮賢義.基于VC++的汽車語音駕駛助手的設計與實現(xiàn)[J].電聲技術,2016,40(8):36-39.
[2]鐘浩,鮑鴻,張晶.一種改進的語音動態(tài)組合特征參數(shù)提取方法[J].電腦與信息技術,2017,25(3):4-7.
[3]陸振宇,何玨杉,趙為漢.關于多通道語音去噪的識別優(yōu)化研究[J].計算機仿真,2016,33(6):315-320.
[4]胡郁.人工智能與語音識別技術[J].電子產(chǎn)品世界,2016,23(4):23-25.
[5]張曉丹,黃麗霞,張雪英.關于在噪聲環(huán)境下語音識別優(yōu)化研究[J].計算機仿真,2016,33(8):172-176.