魏爽
摘要:語音識別就是利用機(jī)器通過識別和理解,將語音信號轉(zhuǎn)變?yōu)槲谋?,已?jīng)在很多行業(yè)得到了應(yīng)用。由于每個人說話的方式都不同,其說話的特征都不一樣。說話人識別就是通過一段語音識別出說話人的技術(shù)。結(jié)合人工神經(jīng)網(wǎng)絡(luò)對語音識別進(jìn)行優(yōu)化,平均準(zhǔn)確率達(dá)到了94.5%。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);人工智能;語音識別;數(shù)據(jù)挖掘;反向傳播
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)10-0228-02
1 引言
受生物神經(jīng)網(wǎng)絡(luò)啟發(fā),1943年心理學(xué)家McCulloch和數(shù)學(xué)家Pitts合作提出了形式神經(jīng)元的數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)由大量高度互聯(lián)的信息處理單元組成,這些信息處理單元共同合作完成信息處理工作。這使得ANN特別適合于處理直覺和形象思維信息。經(jīng)過了半個世紀(jì)的發(fā)展,ANN已經(jīng)在圖像處理、語音處理、以及人工智能的其他領(lǐng)域得到了廣泛的應(yīng)用。語音識別就是利用機(jī)器通過識別和理解,將語音信號轉(zhuǎn)變?yōu)槲谋尽=?0年,語音識別領(lǐng)域得到了快速發(fā)展。市場上在家電、通信、消費(fèi)電子產(chǎn)品等領(lǐng)域已經(jīng)有一批語音識別的應(yīng)用。本文通過將ANN和數(shù)據(jù)挖掘技術(shù)應(yīng)用到語音識別上,優(yōu)化語音識別性能,平均識別準(zhǔn)確率達(dá)到了94.5%。
2 基本概念
2.1 人工神經(jīng)網(wǎng)絡(luò)
ANN是一種非線性的預(yù)測模型。它模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),經(jīng)過訓(xùn)練學(xué)習(xí),可以通過相對簡單的函數(shù)組成的網(wǎng)絡(luò),以任意的精度近似任何非線性函數(shù)。經(jīng)過多年的發(fā)展,現(xiàn)在的神經(jīng)網(wǎng)絡(luò)模型有很多種,如自適應(yīng)諧振理論、反向傳播(Back-Propagation,BP)網(wǎng)絡(luò)以及Hopfield網(wǎng)等,其中BP網(wǎng)絡(luò)應(yīng)用的最為廣泛[1-3]。人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)基本上可以分為遞歸(反饋)網(wǎng)絡(luò)和前饋網(wǎng)絡(luò)兩類。
神經(jīng)網(wǎng)絡(luò)由單個的神經(jīng)元組成。每個神經(jīng)元由多個輸入xi, i=1,2, …,n和一個輸出y組成,中間狀態(tài)e由輸入信號的權(quán)和表示如公式(1),θ為閾值。輸出y一般采用二值函數(shù)或者S形的函數(shù),如(2)、(3)所示,(3)為常用的Sigmoid函數(shù)。
e=x1*w1+x2*w2-θ (1)
f(x)= (2)
f(x)= (3)
構(gòu)造好了神經(jīng)網(wǎng)絡(luò)后,需要訓(xùn)練樣本集對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)。一般來講,訓(xùn)練樣本集包含了輸入信號(X1、x2)和輸出值的希望值z。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是一個迭代的過程。每一次的迭代都根據(jù)訓(xùn)練樣本集中的數(shù)據(jù)對權(quán)值進(jìn)行修正。
2.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏在數(shù)據(jù)里面的信息。使用數(shù)據(jù)挖掘,可以讓擁有大量數(shù)據(jù)的機(jī)構(gòu)將其關(guān)注的重點(diǎn)放在最重要的信息上。
2.3 語音識別
語音識別即是從聽到的語音或者音頻文件中識別出其中特定語言的語句,輸出對應(yīng)的文本。說話人的場景、語氣以及說話發(fā)音習(xí)慣等都會對語音識別的精度有較大影響。此外,從某種程度上來講,詞匯量是無限的,語音識別系統(tǒng)應(yīng)該具備智能識別未知詞的能力[4-6]。
3 實驗方法
特征提取就是通過對原始數(shù)據(jù)進(jìn)行變換得到最能反應(yīng)分類本質(zhì)的特征。線性預(yù)測系數(shù)就是一種能夠有效表示語音信號的特征:通過對若干過去的語音采樣進(jìn)行線性組合來逼近當(dāng)前的語音信號,可以得到一組唯一的預(yù)測系數(shù),即線性預(yù)測系數(shù)。其優(yōu)勢在于可以用極少的參數(shù)來正確地表示語音信號的時域和頻域特性[7,8]。
在本文中,每一個語音信號樣本都用p個之前采集的語音樣本的權(quán)和加上一個激勵表示,如公式(4)。s[n]表示表示語音信號樣本,a[k]表示預(yù)測系數(shù)。在保證最小預(yù)測誤差的情況下,獲取線性預(yù)測系數(shù)。
s[n]≈a[k]s[n-k] (4)
總的平方預(yù)測誤差為:
e=(∑n[s]-a[k]s[n-k] )2 (5)
線性預(yù)測分析就是要確定a[k]的值,使得(5)的值最小??梢酝ㄟ^使(5)a[k]對應(yīng)的偏導(dǎo)數(shù)為0,獲取最終的a[k]。
具體的實驗步驟為:首先,從包含有預(yù)先定義好的輸入和目標(biāo)向量集的數(shù)據(jù)文件中加載數(shù)據(jù),通過數(shù)據(jù)挖掘提取特征信息并優(yōu)化,創(chuàng)建神經(jīng)網(wǎng)絡(luò),再用加載的數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直至找到輸入和目標(biāo)之間的關(guān)系。
4 實驗結(jié)果
二層前饋網(wǎng)絡(luò)是最常見的采用反向傳播算法的神經(jīng)網(wǎng)絡(luò)。反向傳播算法的主要思想是通過輸入信息經(jīng)輸入層和隱層逐層計算出各單元的輸出值,然后將輸出誤差逐層向前計算出各單元的誤差并利用此誤差修正前層的權(quán)值。文中實驗采用的就是這種二層前饋網(wǎng)絡(luò),在其隱層使用了20個神經(jīng)元,輸出層的神經(jīng)元為1個。
實驗先對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。然后,采用了25個人的100組語音數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,實驗結(jié)果如表1所示。此模型總的準(zhǔn)確率為94.5%。
5 結(jié)語
通過實驗可以看出,采用反向傳播算法的神經(jīng)網(wǎng)絡(luò)模型適合于語音識別。下一步,通過優(yōu)化數(shù)據(jù)挖掘算法,進(jìn)而語音特征進(jìn)行進(jìn)一步的優(yōu)化,進(jìn)一步提高模型的性能。
參考文獻(xiàn)
[1]毛健,趙紅東,姚婧婧.人工神經(jīng)網(wǎng)絡(luò)的發(fā)展及應(yīng)用[J].電子設(shè)計工程,2011,19(24):62-65.
[2]湯素麗,羅宇鋒.人工神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展與應(yīng)用[J].電腦開發(fā)與應(yīng)用,2009,22(10):59-61.
[3]于俊婷,劉伍穎,易綿竹,李雪,李娜.國內(nèi)語音識別研究綜述[J].計算機(jī)光盤軟件與應(yīng)用,2014,17(10):76-78.
[4]禹琳琳.語音識別技術(shù)及應(yīng)用綜述[J].現(xiàn)代電子技術(shù),2013,36(13):43-45.
[5]詹新明,黃南山,楊燦.語音識別技術(shù)研究進(jìn)展[J].現(xiàn)代計算機(jī)(專業(yè)版),2008,(09):43-45+50.
[6]紀(jì)友芳,劉桂斌.一種改進(jìn)的線性預(yù)測語音編碼技術(shù)及實現(xiàn)[J].計算機(jī)工程與應(yīng)用,2009,45(15):163-165.
[7]孔俊寶.語音信號的線性預(yù)測編碼技術(shù)[J].電訊技術(shù),1987,(05):31-40.
[8]王山海,景新幸,楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別的研究[J/OL].計算機(jī)應(yīng)用研究,2015,32(08):2289-2291+2298.