竇旭霞
(煙臺(tái)職業(yè)學(xué)院,山東 煙臺(tái) 264670)
隨著語(yǔ)音信號(hào)處理技術(shù)的發(fā)展,采用語(yǔ)音信號(hào)識(shí)別方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉,能夠有效提高英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉能力,因此對(duì)該問(wèn)題的研究在提高英語(yǔ)口語(yǔ)教學(xué)有效性方面具有重要意義[1]。由于相關(guān)的英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉方法對(duì)于英語(yǔ)口語(yǔ)發(fā)音規(guī)范化具有促進(jìn)作用,因此對(duì)于英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉方法的研究受到人們的極大關(guān)注。傳統(tǒng)英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉方法是建立在語(yǔ)音信號(hào)分析基礎(chǔ)上,采用動(dòng)態(tài)特征分析方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉和特征識(shí)別[2],但是該方法存在英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉準(zhǔn)確性較低的問(wèn)題,實(shí)際應(yīng)用效果并不理想。為了解決傳統(tǒng)方法存在的問(wèn)題,提出了基于深層神經(jīng)網(wǎng)絡(luò)的英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉方法。
1.英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)模型
為了實(shí)現(xiàn)基于深層神經(jīng)網(wǎng)絡(luò)的英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉,首先構(gòu)建英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)檢測(cè)模型,采用多傳感檢測(cè)方法,進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的原始數(shù)據(jù)采集,對(duì)采集到的英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)進(jìn)行尺度分解和特征提取[3],在此基礎(chǔ)上進(jìn)行英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉和特征檢測(cè)。其中,英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的數(shù)學(xué)模型表達(dá)式為:
(1)
上式中,a(t)稱(chēng)為英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)在第n個(gè)陣元接收信號(hào)幅度,有時(shí)也稱(chēng)為包絡(luò);φ(t)稱(chēng)為多均勻直線(xiàn)寬帶陣列相位,Z(f)可由S(f)通過(guò)傅里葉變換得到,H(f)為英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的階躍式傳輸函數(shù)。
基于粒子群算法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)建模和檢測(cè)識(shí)別,得到語(yǔ)音信息采樣的陣元分布為vm,m∈[1,n]。英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的回波脈沖表示為:
(3)
上式中,f(t)為接收到的英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的瞬時(shí)頻率估計(jì)值,ρ(a,b)為寬帶信號(hào)入射到陣元上的延時(shí)分量,a為信號(hào)的高階統(tǒng)計(jì)特征信息,b為頻移分布[4]。在新的簇頭節(jié)點(diǎn),得到英語(yǔ)口語(yǔ)發(fā)音信息的特征分量為:
(4)
更新融合權(quán)重,得到輸出信號(hào)分量Xp(u),表示為:
(5)
其中,p為最佳接收極化矢量的階數(shù),可以為任意實(shí)數(shù),語(yǔ)音檢測(cè)的相位為α=pπ/2,當(dāng)足π/2時(shí),即旋轉(zhuǎn)至頻率軸,由此實(shí)現(xiàn)對(duì)英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的統(tǒng)計(jì)信息建模[5]。
2.英語(yǔ)口語(yǔ)發(fā)音譜特征量分析
采用多傳感融合跟蹤識(shí)別方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音的語(yǔ)音信號(hào)采集,結(jié)合時(shí)頻特征分解方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤信息特征提取,英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)長(zhǎng)度l,得到英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的譜特征量為:
(6)
l=a·fl+b
(7)
其中,a、b表示英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的塊稀疏特征參數(shù)。對(duì)于給定的寬帶高分辨英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)x(n)和尺度d,采用期望和方差聯(lián)合估計(jì)方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)動(dòng)態(tài)檢測(cè),設(shè)置英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)x(n)在尺度d的方差用E(ni,d)表示、最大功率譜特征量用max{E(ni,d)}表示,英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的模糊度辨識(shí)參數(shù)為:
(8)
對(duì)x(t)進(jìn)行抽樣濾波處理后,能夠獲取英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的離散特征分量x(n),英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的集成窗函數(shù)h(t)的寬度為T(mén)=(2d+1)Ts,F(xiàn)s=1/Ts。設(shè)寬帶高分辨英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)為x(t),對(duì)其進(jìn)行加窗操作[6],英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)在頻譜分布區(qū)間[m0-Δm/2,m0+Δm/2]上服從均勻分布,英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的譜特征量為:
r(t)=g(t)+n(t)
(9)
式中,g(t)為概率密度函數(shù),采用多級(jí)濾波方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的稀疏性檢測(cè),結(jié)構(gòu)模型如圖1所示。根據(jù)英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的譜特征分離結(jié)果,實(shí)現(xiàn)英語(yǔ)口語(yǔ)發(fā)音譜特征量分析。
圖1 英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的譜特征檢測(cè)模型
1.英語(yǔ)口語(yǔ)發(fā)音信號(hào)的特征篩選和分類(lèi)識(shí)別
假設(shè)輸入的英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)為一個(gè)單頻信號(hào)cos2πf0t,其中f0為英語(yǔ)口語(yǔ)發(fā)音頻率,設(shè)第1個(gè)陣元檢測(cè)到的英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的基準(zhǔn)分量,構(gòu)建英語(yǔ)口語(yǔ)發(fā)音的錯(cuò)誤特征篩選模型,采用時(shí)頻特征變換方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)動(dòng)態(tài)檢測(cè)和特征篩選處理[7],則第m個(gè)塊稀疏特征量為:
sm(t)=cos{2πf0[t+τm(θ)]}
(10)
采用目標(biāo)源信號(hào)檢測(cè)方法,進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的特征監(jiān)測(cè),得到英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤特征分布為:
(11)
其中:
um=cos[2πf0τm(θ)];vm=sin[2πf0τm(θ)]
(12)
通過(guò)上述過(guò)程提取到英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的特征量,采用波束形成方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的特征聚焦,采用深層神經(jīng)網(wǎng)絡(luò)檢測(cè)方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)錯(cuò)誤特征檢測(cè)[8],輸出為:
y1(t)=A1(t)exp{j2π[F(t-ta)ln(t-ta)-
F(t-ta)-FlnDt+fe1t]}
(13)
輸出的英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤特征量表示為:
y2(t)=A2(t)exp{j2π[F(t-ta)ln(t-ta)-
F(t-ta)-FlnDt+fe2t]}
(14)
式中,fe1為波束域截止頻率,fe2為諧波截止頻率。采用統(tǒng)計(jì)特征分析方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤特征分離[9],得到英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤信息為:
y(t)=s(t)+n(t)
(15)
英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤信息的頻譜為:
Yp(u)=Fa[y(t)]
=Fa[s(t)+n(t)]
=Fa[s(t)]+Fa[n(t)]
(16)
在信號(hào)的先驗(yàn)概率滿(mǎn)足收斂條件的情況下,計(jì)算英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的時(shí)間寬度:
(17)
英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的頻域特性描述為:
(18)
根據(jù)貝葉斯公式,進(jìn)行英語(yǔ)口語(yǔ)發(fā)音信號(hào)的特征篩選,檢測(cè)輸出為:
(19)
采用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,進(jìn)行英語(yǔ)口語(yǔ)發(fā)音信號(hào)的特征篩選和分類(lèi)識(shí)別。
2.英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音錯(cuò)誤捕捉輸出
建立英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤信號(hào)的統(tǒng)計(jì)特征分析模型,采用深層神經(jīng)網(wǎng)絡(luò)分類(lèi)器進(jìn)行英語(yǔ)口語(yǔ)發(fā)音信號(hào)的特征篩選和分類(lèi)識(shí)別,根據(jù)特征分類(lèi)結(jié)果實(shí)現(xiàn)英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤信息捕捉和識(shí)別,為了防止過(guò)擬合,對(duì)L個(gè)塊特征量采用模糊狀態(tài)分離方法,得到特征參數(shù)a1(t)和a2(t)由下式確定:
(20)
根據(jù)英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音錯(cuò)誤特征篩選輸出為:
(21)
上式中,a(t)稱(chēng)為英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的z(t)瞬時(shí)幅度,φ(t)稱(chēng)為英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤特征的模糊狀態(tài)分量,采用如下檢測(cè)門(mén)限進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音錯(cuò)誤特征檢測(cè):
xmin,j=max{xmin,j,xg,j-ρ(xmax,j-xmin,j)}
(22)
xmax,j=min{xmax,j,xg,j+ρ(xmax,j-xmin,j)}
(23)
結(jié)合先驗(yàn)概率和似然函數(shù)估計(jì)方法[10],得到英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤特征檢測(cè)輸出為:
(24)
此時(shí)英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音錯(cuò)誤捕捉輸出表示為:
其中,γ代表英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤特征分量。
為了測(cè)試本文算法在實(shí)現(xiàn)英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉方面的性能,進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)采用Matlab 7仿真軟件設(shè)計(jì),英語(yǔ)口語(yǔ)發(fā)音信號(hào)采樣節(jié)點(diǎn)數(shù)量為120,特征提取的分辨率為200KHZ,輸出的英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)長(zhǎng)度為1200,待測(cè)語(yǔ)音信號(hào)集個(gè)數(shù)為20,干擾信噪比為20dB,根據(jù)上述仿真參量設(shè)定,進(jìn)行英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉仿真分析,其中英語(yǔ)口語(yǔ)發(fā)音信號(hào)模型如圖2所示。
圖2 英語(yǔ)口語(yǔ)發(fā)音信號(hào)模型
以圖2的英語(yǔ)口語(yǔ)發(fā)音信號(hào)為研究對(duì)象,進(jìn)行英語(yǔ)口語(yǔ)發(fā)音的錯(cuò)誤捕捉,得到捕捉結(jié)果如圖3所示。
圖3 英語(yǔ)口語(yǔ)發(fā)音的錯(cuò)誤捕捉結(jié)果
分析圖3得知,本文方法能有效實(shí)現(xiàn)對(duì)英語(yǔ)口語(yǔ)發(fā)音的錯(cuò)誤捕捉和特征分離。測(cè)試不同方法英語(yǔ)口語(yǔ)發(fā)音的錯(cuò)誤捕捉的精度,得到對(duì)比結(jié)果如圖4所示。
圖4 捕捉精度對(duì)比
分析圖4得知,本文方法的英語(yǔ)口語(yǔ)發(fā)音的錯(cuò)誤捕捉的精度較高,實(shí)用性較強(qiáng)。
研究英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉方法,在提高英語(yǔ)口語(yǔ)教學(xué)有效性方面具有重要意義,能夠促進(jìn)英語(yǔ)口語(yǔ)發(fā)音規(guī)范化,因此本文提出基于深層神經(jīng)網(wǎng)絡(luò)的英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉方法。給出英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)檢測(cè)模型,采用多傳感檢測(cè)方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的原始數(shù)據(jù)采集,對(duì)采集到的英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)進(jìn)行尺度分解和特征提取,提取英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的特征量,采用波束形成方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)的特征聚焦,采用深層神經(jīng)網(wǎng)絡(luò)檢測(cè)方法實(shí)現(xiàn)英語(yǔ)口語(yǔ)發(fā)音語(yǔ)音信號(hào)錯(cuò)誤特征檢測(cè)和捕捉。分析得知,本文方法進(jìn)行英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤捕捉的精度較高,可靠性與實(shí)用性較強(qiáng)。