亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DTW算法的電力調(diào)度語音識(shí)別研究和應(yīng)用

        2021-03-25 04:18:46王素寧朱俊杰李志勇黃宇星田朝陽陳凱鋒
        電力與能源 2021年1期
        關(guān)鍵詞:語譜聲學(xué)指令

        王素寧,朱俊杰,李志勇,黃宇星,李 琪,田朝陽,陳凱鋒

        (1.國網(wǎng)上海市電力公司崇明供電公司,上海 202150;2.東方電子股份有限公司,山東 煙臺(tái) 370602)

        調(diào)度自動(dòng)化作為智能電網(wǎng)系統(tǒng)重要的一部分,在人工智能方向的應(yīng)用有大數(shù)據(jù)、云計(jì)算、調(diào)控云等[1-5]。但是在調(diào)度控制系統(tǒng)方面還是采用鍵盤加鼠標(biāo)的傳統(tǒng)交互方式,因此研究新形式的人機(jī)語音交互方式很有必要[6]。人機(jī)語音交互技術(shù)在其他領(lǐng)域應(yīng)用已經(jīng)比較成熟,因此把其應(yīng)用到電網(wǎng)調(diào)度運(yùn)行中具有可行性[7-8]。人機(jī)語音交互首要需要解決的問題就是語音識(shí)別技術(shù),電力調(diào)度具有很強(qiáng)的專業(yè)術(shù)語和特殊符號等,同時(shí)每個(gè)調(diào)度員有自己的說話口音、語序和方式,在相對嘈雜的環(huán)境中如何有效地識(shí)別出調(diào)度人員的聲音并準(zhǔn)確完成相對應(yīng)的指令操作尤為重要[9-10]。

        語音識(shí)別可分為孤立詞識(shí)別、連接詞識(shí)別和連續(xù)語音識(shí)別等[11]。針對語音識(shí)別最主要的方法有動(dòng)態(tài)時(shí)間規(guī)整 (Dynamic Time Warping,簡稱DTW)算法、隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)、神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)等[12-15]。本文將采用改進(jìn)的DTW與GMM-HMM算法相結(jié)合完成語音地精準(zhǔn)識(shí)別。

        1 語音識(shí)別系統(tǒng)原理和步驟

        1.1 語音識(shí)別基本框架

        一個(gè)語音識(shí)別系統(tǒng)框架主要包括:聲學(xué)分析(Signal Analysis)、聲學(xué)模型(Acoustic Model)、詞典(Lexicon)、語言模型(Language Model)、搜索/解碼(Search/Decoding),具體如圖1所示。

        圖1 語音識(shí)別系統(tǒng)框架

        (1)聲學(xué)分析,也稱特征提取,用于提取有用信息,將一段語音幀解析為一個(gè)固定維數(shù)的特征向量。常用方法有梅爾頻率倒譜系數(shù)(Mel-frequency cepstral Coefficient,簡稱MFCC)和感知線性預(yù)測系數(shù)(Perceptual Linear Prediction,簡稱PLP)。

        (2)聲學(xué)模型:解析聲學(xué)信號,比如將特征向量解析到一個(gè)特征的建模單元上,并獲得相應(yīng)的得分,常用算法有動(dòng)態(tài)時(shí)間規(guī)整 (Dynamic Time Warping,簡稱DTW)、人工神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(Artificial Neural Network-Hidden Markov Model,簡稱ANN-HMM)、深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(Deep Neural Network-Hidden Markov Model,簡稱DNN-HMM)等。

        (3)詞典:給單詞和發(fā)音提供HMM模型(亞詞)和語言模型間關(guān)聯(lián)。通?;谝羲兀蓪<沂止ね瓿?。

        (4)語言模型:提供這部分的先驗(yàn)概率,可以區(qū)分相同發(fā)音時(shí)的識(shí)別結(jié)果。

        (5)搜索/解碼:根據(jù)狀態(tài)系列,在時(shí)間狀態(tài)序列(Time-state Trellis)中找到一個(gè)最優(yōu)路徑,或者說根據(jù)聲學(xué)模型輸出的結(jié)果,結(jié)合辭典、語言模型信息,找出最有可能的識(shí)別結(jié)果。

        1.2 語音識(shí)別流程

        語音識(shí)別原理:①首先對聲音進(jìn)行預(yù)處理(預(yù)加重、分幀、加窗和端點(diǎn)檢測);② 再根據(jù)人的語音特點(diǎn)建立語音模型,對輸入的語音信號進(jìn)行分析,并抽取所需的MFCC 特征參數(shù)和基音周期,在此基礎(chǔ)上建立語音識(shí)別所需的模板[16-17]。計(jì)算機(jī)在識(shí)別過程中要根據(jù)語音識(shí)別的模型,將計(jì)算機(jī)中存放的語音模板與輸入語音信號的特征進(jìn)行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入語音匹配的模板。然后根據(jù)此模板的定義,通過查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。具體流程如圖2所示。

        圖2 語音識(shí)別流程圖

        圖2的左半部分可作為前端,用于處理音頻流,從而分隔可能發(fā)聲的聲音片段,并將它們轉(zhuǎn)換成一系列數(shù)值。聲學(xué)模型就是識(shí)別這些數(shù)值,給出識(shí)別結(jié)果。圖2的右半邊作為后端,是一個(gè)專用的搜索引擎,它獲取前端產(chǎn)生的輸出,在一個(gè)發(fā)音模型、一個(gè)語言模型、一個(gè)詞典這三個(gè)數(shù)據(jù)庫進(jìn)行搜索[18-20]。顯然,計(jì)算機(jī)查表取得最優(yōu)的結(jié)果與特征的選擇、語音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系。

        2 改進(jìn)的DTW算法

        2.1 DTW算法原理

        同一個(gè)人在不同時(shí)間段對相同組詞發(fā)音都可能存在差異。這種差異導(dǎo)致音強(qiáng)的大小、頻譜的偏移和音節(jié)長短每次都不完全相同[21]。DTW算法用于比較兩個(gè)序列的相似程度,或者說兩個(gè)序列的距離。基于動(dòng)態(tài)規(guī)劃構(gòu)建序列和序列的距離矩陣,具體公式如下:

        dp(i)[j]=

        (1)

        DTW算法最后的輸出結(jié)果就是要找到一條累積距離最小的扭曲曲線,也就是損失矩陣的最后一行最后一列的值,即給定了距離矩陣,如何找到一條從左上角到右下角的路徑,使得路徑經(jīng)過的元素值之和最小。最優(yōu)路徑示意圖見圖3。

        圖3 最優(yōu)路徑示意圖

        2.2 GMM-HMM算法原理

        GMM-Model算法是基于高斯分布,主要通過加權(quán)的方式組合得到。隱馬爾可夫模型(HMM)由Markov(狀態(tài)轉(zhuǎn)移序列) 鏈和每次狀態(tài)轉(zhuǎn)移時(shí)轉(zhuǎn)移狀態(tài)和記錄的時(shí)間之間組成的信號和狀態(tài)序列兩個(gè)隨機(jī)過程組成[21]。HMM 模型在數(shù)學(xué)模型上的符號描述為λ=(π,A,B),如圖4所示。

        圖4 HMM示意圖

        在語音識(shí)別系統(tǒng)中,根據(jù)采集到的語音信號通過相應(yīng)的算法去建立相對應(yīng)的高斯混合模型,結(jié)合GMM算法擬合說話者的語音產(chǎn)生。

        (2)

        式中xi——D維語音特征矢量;pi(xi)——GMM模型片段概率;ai——相應(yīng)片段概率pi(xi)的權(quán)重;M——GMM算法中的片段數(shù)目。

        2.3 DTW算法的優(yōu)化

        在語音識(shí)別中使用DTW算法進(jìn)行語音相似度比較,將實(shí)時(shí)語音指令與指令語音樣本序列號成向量進(jìn)行相似度比較,選取相似度最大的指令語音樣本所對應(yīng)的指令來判斷是否是實(shí)時(shí)語音所輸入的指令。通過相似度比較,簡單判斷可以取最近距離的結(jié)果來進(jìn)行判斷,但為了提高準(zhǔn)確率,需要進(jìn)一步對算法進(jìn)行優(yōu)化。

        2.3.1 對語音分片和分組

        本次研究的輸入指令格式是固定的,每個(gè)指令有多少“3U0圖”、“電網(wǎng)精靈”、“通道監(jiān)視圖”等。每個(gè)指令的元音輔音個(gè)數(shù)是確定的,即語音包絡(luò)的峰谷個(gè)數(shù)也是確定的,因此在進(jìn)行語音DTW計(jì)算時(shí)不是與所有樣本匹配,同時(shí)由于發(fā)音會(huì)有長短變化,所以也不能只用時(shí)長、峰谷個(gè)數(shù)來限定匹配范圍,對于“圖”、“站”是指令中經(jīng)常出現(xiàn)的語音單元,通過對包絡(luò)切片,識(shí)別最后一個(gè)包絡(luò)如圖5和圖6所示。

        圖5 “圖”波形

        圖6 “站”波形

        2.3.2 路徑權(quán)重優(yōu)化

        根據(jù)式(1)計(jì)算出“測試指令”與“指令1”和“指令2”的距離,如圖7和圖8所示。

        圖7 測試指令和指令1的距離

        圖8 測試指令和指令2的距離

        從圖7和圖8可以看出,“測試指令”與“指令1”相似。“測試指令”與“指令1”和“指令2”的距離分別是dq1和dq2。其中,dq1=1.802 776;dq2=1.723 369。dq2更小,這個(gè)結(jié)果與實(shí)際不符合。因此,對路徑計(jì)算引入權(quán)重,設(shè)權(quán)重系數(shù)為α。這個(gè)α和原算法的距離dp相乘,得到更新后的dp*?;谠惴ň嚯x,可以求出dp[i][j],改進(jìn)后dp[i][j]*,的公式如下:

        (3)

        式中mseqLen——圖中最優(yōu)路徑節(jié)點(diǎn)個(gè)數(shù);mcomLen——每段直線路徑對角線個(gè)數(shù)。

        改進(jìn)后:dq1=0.725 113;dq2=0.861 68。改進(jìn)后“測試指令”和“指令1”距離更小,更符合匹配結(jié)果。

        2.3.3 路徑搜索范圍優(yōu)化

        同樣的語音指令在穩(wěn)定狀態(tài)有時(shí)間長短、振幅差異,總體包絡(luò)形態(tài)相似。因此,在進(jìn)行DTW計(jì)算之前先將峰谷單元進(jìn)行歸一化。即每個(gè)峰谷都?xì)w一化成時(shí)間長短0.5 s,振幅正負(fù)1的歸一化單元波形。DTW計(jì)算搜索的范圍不對所有點(diǎn)進(jìn)行搜索,集中偏移和對角線鄰居范圍搜索。

        2.4 頻譜優(yōu)化及應(yīng)用

        頻譜反應(yīng)了說話人聲音器官發(fā)音的頻率范圍,高頻率會(huì)在波形中產(chǎn)生更緊密的周期性能量疊加。同時(shí)固定的背景噪聲也有固定的頻譜,因此在以下方面進(jìn)行優(yōu)化。

        通過語音波形計(jì)算出語譜,然后進(jìn)行二階高斯模糊函數(shù)處理,降低高頻譜分量的權(quán)重,調(diào)整高斯函數(shù)的μ(x的均值),σ(x的方差)來適應(yīng)不同語音速度的模糊處理。例如語音指令,其波形、語譜,高斯模糊處理后的語譜經(jīng)過圖像壓縮后得到語譜hash,如圖9和圖10所示。通過處理后可減少DTW向量匹配個(gè)數(shù),“地理圖”可加快匹配速度。

        圖9 “地理圖”波形

        圖10 語音波形、語譜和hash圖

        3 結(jié)語

        本文提出了一種基于改進(jìn)的DTW在電力調(diào)度中應(yīng)用的語音識(shí)別方法,通過試驗(yàn)表明該方法在電力調(diào)度語音識(shí)別中更具有優(yōu)良性。通過在上海崇明電網(wǎng)主配網(wǎng)站一體化的DF8003系統(tǒng)上應(yīng)用,減少了調(diào)控人員的操作,提高了崇明地調(diào)人員的工作效率,可以在上海甚至全國電網(wǎng)調(diào)度推廣。由于本次制作的電力調(diào)度語音庫詞匯有限,針對更復(fù)雜的語音庫需要進(jìn)一步進(jìn)行研究。

        猜你喜歡
        語譜聲學(xué)指令
        聽我指令:大催眠術(shù)
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        ARINC661顯控指令快速驗(yàn)證方法
        LED照明產(chǎn)品歐盟ErP指令要求解讀
        電子測試(2018年18期)2018-11-14 02:30:34
        Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
        基于時(shí)頻域特征的場景音頻研究
        語譜圖二次傅里葉變換特定人二字漢語詞匯識(shí)別
        五月四房播播| 人妻诱惑中文字幕在线视频| 久久精品人搡人妻人少妇| 亚洲丁香婷婷久久一区二区| 丰满少妇被粗大猛烈进人高清| 粗大猛烈进出高潮视频| 久久综合久久鬼色| 馬与人黃色毛片一部| 伊人婷婷色香五月综合缴激情| 国产美女在线精品免费观看网址| 国产日韩欧美在线| 99riav精品国产| 成人免费毛片在线播放| 亚洲成av人片极品少妇| 青青草狠吊色在线视频| 午夜免费福利小电影| 亚洲精品第一国产综合亚av| 乱中年女人伦av| 尤物无码一区| 人妻一区二区三区免费看 | 国产一区二区免费在线视频| 国产在线高清理伦片a| 久久夜色精品国产噜噜亚洲av| 久久aⅴ无码av免费一区| 精品国产一区二区三区久久女人| 日韩av一区在线播放| 99久久婷婷亚洲综合国产| 后入到高潮免费观看| 成人片黄网站色大片免费观看cn | 另类人妖在线观看一区二区| 精品人妻一区二区三区狼人| 国产极品美女高潮无套| 人妻少妇精品中文字幕av| 人妻无码一区二区三区四区| 国产小屁孩cao大人| 伊人久久婷婷综合五月97色| 福利视频一区二区三区| 欧美成妇人吹潮在线播放| 丰满的少妇xxxxx青青青| 伊人精品无码AV一区二区三区| 亲少妇摸少妇和少妇啪啪|