張 伊,楊靜萍,王萬(wàn)雷
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116605)
2017年,秦楚雄和張連海針對(duì)低資源訓(xùn)練數(shù)據(jù)下DNN特征建模識(shí)別性能不佳的問(wèn)題,提出了一種提取新的基于DNN特征的方法,使其相對(duì)于HMM模型識(shí)別率提升了0.8%~3.4%[8]。但是僅使用DNN模型可能存在記憶斷層及噪聲環(huán)境下性能不穩(wěn)定的問(wèn)題,2018年Mohit Dua等提出一種利用差分進(jìn)化(DE)算法優(yōu)化MFCC、GFCC和BFCC技術(shù)中濾波器數(shù)目和間距的新方法,該方法在噪聲環(huán)境下識(shí)別效率得到有效提高[9]。2019年,李婉玲和張秋菊為提高語(yǔ)音識(shí)別的魯棒性,提出一種基于HMM/SVM的抗噪語(yǔ)音特征提取及優(yōu)化組合方法,實(shí)驗(yàn)表明該方法的系統(tǒng)識(shí)別率達(dá)到95.25%,提高了系統(tǒng)的識(shí)別效率和分類決策力[10]。鄧引引為解決浮點(diǎn)語(yǔ)音數(shù)據(jù)運(yùn)算效率低的問(wèn)題,對(duì)CNN模型進(jìn)行優(yōu)化,提出一種改進(jìn)的卷積運(yùn)算方法,優(yōu)化后中文CNN聲學(xué)模型的語(yǔ)音識(shí)別系統(tǒng)平均識(shí)別效率相對(duì)提升77.58%[11]。2020年Toktam Zoughi等又進(jìn)一步降低了識(shí)別錯(cuò)誤率,提出利用自適應(yīng)窗口卷積神經(jīng)網(wǎng)絡(luò)(AWCNN)分析聯(lián)合時(shí)間-光譜特征的變化和一種新的殘差學(xué)習(xí)方法,在某些語(yǔ)音識(shí)別任務(wù)中比現(xiàn)有方法的絕對(duì)錯(cuò)誤率降低了7%[12]。
在上述方法中,語(yǔ)言模型和聲學(xué)模型優(yōu)化方法能夠有效提升語(yǔ)音識(shí)別效率。然而,由于需要建立相關(guān)模型及訓(xùn)練數(shù)據(jù)集,該方法的工程量大且耗時(shí)長(zhǎng)。在工業(yè)領(lǐng)域中,對(duì)語(yǔ)音識(shí)別的準(zhǔn)確率和安全性要求較高[13]。在確定語(yǔ)音識(shí)別率的情況下,質(zhì)檢數(shù)據(jù)語(yǔ)音識(shí)別效率還有改善的空間。語(yǔ)音識(shí)別在實(shí)際應(yīng)用中主觀性占比較大,存在用戶發(fā)音有要求及使用流程和過(guò)程中出現(xiàn)輸入錯(cuò)誤怎樣改正等問(wèn)題。本研究提出一種基于正交層次分析法的質(zhì)檢數(shù)據(jù)語(yǔ)音識(shí)別效率改善方法,該方法不需要提高語(yǔ)音識(shí)別準(zhǔn)確率及降低噪音影響,而是采用試驗(yàn)統(tǒng)計(jì)方法快速計(jì)算和完成評(píng)價(jià),有效提升了語(yǔ)音識(shí)別的效率,縮減了質(zhì)檢人員錄入電子文本的時(shí)間,提高了質(zhì)檢人員的工作效率。
正交試驗(yàn)設(shè)計(jì)依據(jù)數(shù)理統(tǒng)計(jì)原理,科學(xué)地挑選試驗(yàn)條件,合理減少試驗(yàn)次數(shù)并獲取有效的實(shí)驗(yàn)數(shù)據(jù),提高了試驗(yàn)的效率[14]。層次分析法(Analytic Hierarchy Process,AHP)是一種定性與定量分析相結(jié)合的多準(zhǔn)則決策方法,基本思想是在對(duì)復(fù)雜決策問(wèn)題的本質(zhì)、影響因素及內(nèi)在關(guān)系進(jìn)行深入分析后,構(gòu)建一個(gè)層次結(jié)構(gòu)模型,利用較少的定量信息,將人的思維過(guò)程層次化、數(shù)學(xué)化,為求解多目標(biāo)、多準(zhǔn)則或無(wú)結(jié)構(gòu)特性的復(fù)雜決策問(wèn)題提供一種簡(jiǎn)便的決策方法[15]。
根據(jù)郭穗勛、黃榕波提出的正交試驗(yàn)數(shù)據(jù)分析的新方法——正交試驗(yàn)層次分析法[16],為分析輸入指令方式、錄入人員普通話等級(jí)和改正輸入錯(cuò)誤方式對(duì)質(zhì)檢數(shù)據(jù)語(yǔ)音識(shí)別效率的影響,并找到質(zhì)檢數(shù)據(jù)語(yǔ)音識(shí)別更高效的方法,設(shè)計(jì)了正交實(shí)驗(yàn)(測(cè)試環(huán)境:噪音45~60分貝,沒(méi)有多余外界因素干擾),因子水平設(shè)計(jì)見表1。
表1 因子水平設(shè)計(jì)
正交實(shí)驗(yàn)和層次分析法相結(jié)合,其模型的邏輯結(jié)構(gòu)框圖如圖1。第1層為試驗(yàn)考核指標(biāo)層,第2層為因素層,第3層為水平層。
圖1 模型邏輯結(jié)構(gòu)框圖
計(jì)算相應(yīng)矩陣,進(jìn)而得出影響權(quán)重,評(píng)估各因素對(duì)強(qiáng)度的影響程度,驗(yàn)證正交試驗(yàn)直觀分析的結(jié)論[17]。試驗(yàn)指標(biāo)是時(shí)間,越小越好,則令Mij=1/Kij(i=1,2,…,n;j=1,2,…,m),其中Kij為因子Bi的第j水平下實(shí)驗(yàn)數(shù)據(jù)之和,水平層對(duì)實(shí)驗(yàn)影響效應(yīng)矩陣:
(1)
對(duì)矩陣A的每一列進(jìn)行歸一化,右乘矩陣S,矩陣S如式(2)。
(2)
毛澤東同志曾指出:“科學(xué)研究的區(qū)分,就是根據(jù)科學(xué)對(duì)象所具有的特殊的矛盾性。因此,對(duì)于某一現(xiàn)象的領(lǐng)域所特有的某一種矛盾的研究,就構(gòu)成某一門科學(xué)的對(duì)象?!?我認(rèn)為同其他應(yīng)用經(jīng)濟(jì)學(xué)科一樣,中國(guó)特色貿(mào)易經(jīng)濟(jì)學(xué)是有自己特定研究學(xué)科對(duì)象和研究?jī)?nèi)容的,并可以與相關(guān)的經(jīng)濟(jì)學(xué)嚴(yán)格區(qū)分開來(lái)。
(3)
由式(1)、(2)和(3)可以得到各因子對(duì)語(yǔ)音識(shí)別效率的影響權(quán)重大?。害?ASCT。
效率最直觀的檢測(cè)方式就是時(shí)間與工作量的比值,在同一時(shí)內(nèi),完成的工作量越多效率越高;在同樣的工作任務(wù)下,完成全部工作用時(shí)越短則效率越高。
本試驗(yàn)共涉及三因子二水平,選用L8(2^3)正交表,正交實(shí)驗(yàn)直觀分析見表2,其中T為單次輸入所用時(shí)長(zhǎng)。
表2 正交試驗(yàn)直觀分析表
根據(jù)式(1),M11=0.0033,M21=0.0062,M12=0.0040,M22=0.0047,M13=0.0044,M23=0.0043,則
(4)
因?yàn)槭?2)即1/t1=118.09,1/t2=117.27,1/t3=115.27,
(5)
又因?yàn)槭?3),式中R1為139.212,R2為38.095,R3為7.715,則
(6)
由式(4)、(5)和(6)可以得到各因子對(duì)語(yǔ)音輸入效率的影響權(quán)重如式(7):
(7)
因子B1中對(duì)指標(biāo)權(quán)重影響最大的是B12,因子B2中對(duì)指標(biāo)權(quán)重影響最大的是B22,因子B3中對(duì)指標(biāo)權(quán)重影響最大的是B31,故試驗(yàn)最優(yōu)條件為B12B22B31,各因子影響排序B1>B2>B3,與直觀分析法結(jié)果一致。質(zhì)檢數(shù)據(jù)語(yǔ)音識(shí)別高效的模型:錄入人員普通話等級(jí)在二級(jí)乙等及以上,通過(guò)光標(biāo)指示并在輸入過(guò)程中及時(shí)改正錯(cuò)誤。
語(yǔ)音識(shí)別實(shí)驗(yàn)由語(yǔ)音輸入檢測(cè)原型系統(tǒng)和相關(guān)硬件設(shè)備組成。語(yǔ)音輸入原型系統(tǒng)基于語(yǔ)音輸入軟件開發(fā)工具,結(jié)合語(yǔ)音輸入流程設(shè)計(jì)Android錄入系統(tǒng)。硬件系統(tǒng)包括計(jì)算機(jī)(用于數(shù)據(jù)存儲(chǔ)、系統(tǒng)設(shè)定)、平板電腦或手機(jī)(用于語(yǔ)音輸入原型系統(tǒng)客戶端的運(yùn)行)和藍(lán)牙耳麥(語(yǔ)音數(shù)據(jù)采集)。語(yǔ)音識(shí)別實(shí)驗(yàn)流程如圖2。
圖2 語(yǔ)音識(shí)別實(shí)驗(yàn)流程圖
分別進(jìn)行效率改善前的語(yǔ)音識(shí)別實(shí)驗(yàn)和正交層次分析法得出的模型語(yǔ)音識(shí)別實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)分成5組,每組50次,5組數(shù)據(jù)對(duì)比,選擇每組最優(yōu)的數(shù)據(jù)進(jìn)行記錄。
上述語(yǔ)音識(shí)別輸入實(shí)驗(yàn)和語(yǔ)音模型識(shí)別輸入實(shí)驗(yàn)最優(yōu)數(shù)據(jù)結(jié)果見表3。
表3 實(shí)驗(yàn)最優(yōu)數(shù)據(jù)結(jié)果 /s
將以上實(shí)驗(yàn)數(shù)據(jù)通過(guò)圖像的形式直觀展現(xiàn),語(yǔ)音識(shí)別輸入最優(yōu)數(shù)據(jù)組匯總報(bào)告如圖3。
圖3 語(yǔ)音識(shí)別輸入最優(yōu)數(shù)據(jù)組匯總報(bào)告
模型識(shí)別輸入最優(yōu)數(shù)據(jù)組匯總報(bào)告如圖4。
圖4 模型識(shí)別輸入最優(yōu)數(shù)據(jù)組匯總報(bào)告
通過(guò)實(shí)驗(yàn)數(shù)據(jù)結(jié)果顯示,語(yǔ)音識(shí)別輸入時(shí)間均值為328.04 s,標(biāo)準(zhǔn)差2.79,最大值為333.77 s,最小值為321.08 s;模型識(shí)別輸入時(shí)間均值為141.78 s,標(biāo)準(zhǔn)差為2.18,最大值為145.68 s,最小值為137.75 s。模型輸入質(zhì)檢數(shù)據(jù)的方式用時(shí)較語(yǔ)音輸入質(zhì)檢數(shù)據(jù)的方式少,且時(shí)間波動(dòng)幅度也較小,使用語(yǔ)音模型可提升45.29%語(yǔ)音識(shí)別的效率。
本文提出一種基于正交層次分析法確定語(yǔ)音識(shí)別效率的評(píng)價(jià)與改善方法,首先確定輸入指令方式是影響質(zhì)檢數(shù)據(jù)語(yǔ)音識(shí)別效率的主要因素,錄入人員普通話等級(jí)是次要因素,而改正輸入錯(cuò)誤方式對(duì)效率也有一定影響。通過(guò)正交層次分析法對(duì)比實(shí)驗(yàn)最終確定錄入人員普通話等級(jí)在二級(jí)乙等及以上,通過(guò)光標(biāo)指示并在輸入過(guò)程中及時(shí)改正錯(cuò)誤的方式為質(zhì)檢數(shù)據(jù)語(yǔ)音識(shí)別效率最優(yōu)方式。該方法在保證現(xiàn)有語(yǔ)音識(shí)別準(zhǔn)確率的前提下對(duì)語(yǔ)音識(shí)別的效率提高具有一定作用,實(shí)驗(yàn)結(jié)果表明模型有效。