亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向電力行業(yè)的熱詞語(yǔ)音識(shí)別技術(shù)

        2020-09-18 09:13:30張?jiān)葡?/span>李智誠(chéng)
        現(xiàn)代計(jì)算機(jī) 2020年22期
        關(guān)鍵詞:特征提取信號(hào)信息

        張?jiān)葡?,李智誠(chéng)

        (深圳供電局有限公司,深圳 518001)

        0 引言

        隨著智能電網(wǎng)的高速發(fā)展,電網(wǎng)業(yè)務(wù)中對(duì)語(yǔ)音識(shí)別的需求也在不斷增加。與眾多現(xiàn)有行業(yè)相同,電力行業(yè)有其特定的專業(yè)信息,例如:簡(jiǎn)寫(xiě)詞匯、名字、系統(tǒng)名稱等[1]。然而在利用面向公共領(lǐng)域的語(yǔ)音識(shí)別技術(shù)進(jìn)行語(yǔ)音識(shí)別轉(zhuǎn)化時(shí),這些專業(yè)信息詞匯很難被識(shí)別,使得電力行業(yè)語(yǔ)音的識(shí)別準(zhǔn)確率不高,這也影響了電網(wǎng)系統(tǒng)中各項(xiàng)業(yè)務(wù)和服務(wù)的效率和成本。因此,研究面向電力行業(yè)的語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)針對(duì)智能電網(wǎng)的語(yǔ)音信息識(shí)別和處理是十分有必要的。

        語(yǔ)音識(shí)別技術(shù),又名自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),指的是將人類所述的語(yǔ)音信號(hào)轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別讀取的輸入信息或是相應(yīng)的文本[2]。它屬于自然語(yǔ)言處理(NLP)的研究領(lǐng)域,涉及聲學(xué)、語(yǔ)言學(xué)、模式識(shí)別及信息理論等學(xué)科[3],它的典型應(yīng)用有自動(dòng)語(yǔ)言翻譯、自動(dòng)客服、語(yǔ)音驗(yàn)證碼和命令控制等[4]?,F(xiàn)如今的語(yǔ)音識(shí)別技術(shù)主要分為三種類別,第一類是模型匹配法,矢量量化技術(shù)(VQ)[5]和動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)[6]均屬于此類。第二類是以隱式馬爾可夫模型(Hidden Markov Model,HMM)方法為代表的基于統(tǒng)計(jì)模型方法[7]。除此以外,高斯混合模型(Gaussian Mixture Model,GMM)也是常用的統(tǒng)計(jì)概率模型方法,而基于GMM 和HMM 的語(yǔ)音識(shí)別框架更是一度在語(yǔ)音識(shí)別研究中占據(jù)了主導(dǎo)地位[8]。隨著深度神經(jīng)網(wǎng)絡(luò)的提出和發(fā)展,第三類辨別器分類方法成為了目前主流的語(yǔ)音識(shí)別建模方式,該類方法包括支持向量機(jī)(SVM)[9]、人工神經(jīng)網(wǎng)絡(luò)(ANN)和深度神經(jīng)網(wǎng)絡(luò)(DNN)[10]等,該類方法在大詞匯量和連續(xù)語(yǔ)音識(shí)別技術(shù)上取得了突破性進(jìn)展。2017 年,谷歌提出了用于解決NLP 中機(jī)器翻譯任務(wù)的Transformer 模型,改善了RNN 訓(xùn)練慢的缺點(diǎn),達(dá)到了SOTA 效果,使得Transformer 模型成為NLP 領(lǐng)域中最受歡迎的特征抽取器[11]。本文便是在利用CTC 算法將語(yǔ)音信息轉(zhuǎn)化為基本因素信息后,再利用Transformer 模型和發(fā)音字典將基本音素信息轉(zhuǎn)化為中文信息,實(shí)現(xiàn)針對(duì)電力行業(yè)的語(yǔ)音識(shí)別技術(shù)。

        1 方法準(zhǔn)備

        1.1 CCTTCC算法

        CTC 算法(Connectionist Temporal Classification)是一種用于時(shí)序數(shù)據(jù)分類問(wèn)題的算法[12]。在傳統(tǒng)語(yǔ)音識(shí)別聲學(xué)模型中,需要先對(duì)數(shù)據(jù)進(jìn)行反復(fù)迭代來(lái)確保語(yǔ)音對(duì)齊,而CTC 算法引入了空白占位符對(duì)語(yǔ)音信號(hào)進(jìn)行分割,每個(gè)預(yù)測(cè)值都對(duì)應(yīng)語(yǔ)音信息中的一個(gè)尖峰,因此無(wú)需對(duì)齊操作,可以直接識(shí)別語(yǔ)音信息。

        在進(jìn)行語(yǔ)音信號(hào)識(shí)別時(shí),通常為利用RNN 等特征提取算法將音頻信號(hào)轉(zhuǎn)化為與輸入維度相同的概率向量,再利用CTC 算法得到最有可能的輸出結(jié)果,在此將特征提取算法與CTC 作為一個(gè)整體的聲學(xué)模型算法進(jìn)行描述。定義提取的語(yǔ)音信號(hào)特征為X={x1,x2,…,xT},經(jīng)過(guò) CTC 算法后輸出的拼音音素信息為Y={y1,y2,…,yP},那么模型的目的就是通過(guò)訓(xùn)練數(shù)據(jù)找出輸入X 與輸出Y 之間的映射關(guān)系。在訓(xùn)練完成的聲學(xué)模型中輸入X 后,通過(guò)RNN 等特征提取算法得到眾多條件概率輸出Y,再利用CTC 算法得到一個(gè)條件概率最高的Y 值。換句話說(shuō),對(duì)于一個(gè)輸出(X,Y),CTC 聲學(xué)模型的目標(biāo)為:

        其中pi(ai|X)為RNN 等特征提取算法的輸出,所有pi相乘表示一條路徑中的所有字符概率相乘。

        1.2 Transfoorrmmeerr模型

        Transformer 模型由Self-Attention 集成,其實(shí)現(xiàn)了傳統(tǒng)的RNN 結(jié)構(gòu)無(wú)法實(shí)現(xiàn)的并行化訓(xùn)練、結(jié)合上下文語(yǔ)境等功能。Transformer 模型由編碼器和解碼器構(gòu)成,其中編碼器包含F(xiàn)eed Forward 層和Self-Attention層,解碼器在編碼器結(jié)構(gòu)的基礎(chǔ)上多一個(gè)Attention層。其注意力機(jī)制計(jì)算公式如公式(3)所示。

        分別計(jì)算查詢向量Query,鍵向量Key 和值向量Value,Y 為輸入向量,W 為權(quán)值矩陣。

        其中vQ,K表示Q 或者K 中的維度。通過(guò)Softmax歸一化得到概率分布值,將其與V 相乘獲得輸出Y'。

        2 方法構(gòu)建

        本節(jié)提出了一種面向電力行業(yè)的熱詞語(yǔ)音識(shí)別技術(shù)。技術(shù)模型主要分為預(yù)處理模塊,CTC 聲學(xué)模型模塊和語(yǔ)音識(shí)別解碼模塊三部分。如圖1 所示為模型的架構(gòu)圖。

        圖1 面向電力行業(yè)的熱詞語(yǔ)音識(shí)別技術(shù)模型

        2.1 預(yù)處理模塊

        由于采集的語(yǔ)音信號(hào)通常會(huì)含有噪聲,因此模型的第一個(gè)模塊為預(yù)處理模塊。預(yù)處理模塊主要分為信號(hào)處理與信號(hào)特征提取兩部分,如圖2 所示。

        其中,信號(hào)處理的具體步驟如下:

        (1)信號(hào)濾波:設(shè)置上下截止頻率,利用帶通濾波器對(duì)語(yǔ)音信號(hào)進(jìn)行濾波處理。

        (2)信號(hào)平滑:將語(yǔ)音信號(hào)高頻與低頻銜接段進(jìn)行平滑處理,使信號(hào)可以在同一信噪比下下進(jìn)行頻譜求解。

        (3)分幀加窗:設(shè)置不同長(zhǎng)度的采集窗口,將連續(xù)的語(yǔ)音信號(hào)分割為頻域穩(wěn)定獨(dú)立部分,使信號(hào)具有短時(shí)平穩(wěn)特性。

        (4)端點(diǎn)檢測(cè):通過(guò)短時(shí)能量和短時(shí)平均過(guò)零率對(duì)語(yǔ)音信號(hào)的起始點(diǎn)進(jìn)行判斷,進(jìn)行識(shí)別。

        圖2 信號(hào)預(yù)處理步驟圖

        由于直接對(duì)原始波形進(jìn)行識(shí)別效果不佳,在完成語(yǔ)音信號(hào)的預(yù)處理后,需要將原始波形進(jìn)行頻域變換,再將變換之后提取的特征進(jìn)行識(shí)別。本文采用梅爾頻率倒譜系數(shù)(MFCC)特征參數(shù)進(jìn)行特征提取。MFCC通過(guò)模擬聽(tīng)覺(jué)模型,先將線性頻譜映射到基于聽(tīng)覺(jué)感知的Mel 非線性頻譜中,然后轉(zhuǎn)換到倒譜(Cepstrum)上,獲得Mel 頻率倒譜系數(shù)MFCC,MFCC 即為該幀語(yǔ)音的特征。

        將頻率轉(zhuǎn)化為梅爾頻率的公式為:

        2.2 CCTTCC聲學(xué)模型構(gòu)建

        本文采用CTC 算法來(lái)將聲學(xué)信號(hào)轉(zhuǎn)化為拼音信息。經(jīng)過(guò)預(yù)處理模塊后,得到了語(yǔ)音信號(hào)特征序列X={x1,x2,…,xT},其中xi表示第i 幀的語(yǔ)音數(shù)據(jù)經(jīng)過(guò)MFCC 特征提取之后的結(jié)果。

        輸入:語(yǔ)音信號(hào)特征序列X={x1,x2,…,xT}

        輸出:基本因素信息Y={y1,y2,…,yP}

        步驟1:建立并訓(xùn)練RNN 網(wǎng)絡(luò)。

        步驟2:輸入X 序列,其中每一個(gè)特征xt在經(jīng)過(guò)RNN 的計(jì)算之后,再經(jīng)過(guò)Softmax 層得到音素的后驗(yàn)概率;

        步驟3:前向計(jì)算從1~t 時(shí)刻,預(yù)測(cè)正確前綴概率;

        步驟4:后向計(jì)算從t~T 時(shí)刻,預(yù)測(cè)正確后綴概率;

        步驟5:利用前綴概率與后綴概率計(jì)算出t 時(shí)刻所有正確預(yù)測(cè)的概率;

        步驟6:反向傳播,最大化目標(biāo)函數(shù),即所有正確預(yù)測(cè)序列的概率和,得到條件概率最高的輸出yt。

        2.3 語(yǔ)音識(shí)別解碼

        要進(jìn)行語(yǔ)音識(shí)別解碼,首先需要制作發(fā)音字典。漢語(yǔ)含有21 個(gè)聲母和35 個(gè)韻母,聲韻母集合大小合適且符合漢語(yǔ)拼音規(guī)則,本文采用漢語(yǔ)聲韻母作為基本因素信息,并采用漢語(yǔ)語(yǔ)音識(shí)別的主流聲調(diào)方案五聲調(diào)方案來(lái)標(biāo)注音調(diào)變化。

        其次,利用Transformer 制作語(yǔ)言模型。首先利用互聯(lián)網(wǎng)文本語(yǔ)料庫(kù)得到文本語(yǔ)料信息,再刪除文本中的標(biāo)點(diǎn)符號(hào),數(shù)字和其它特殊字符,得到純漢字文本,再利用Jieba 分詞方法進(jìn)行分詞,之后對(duì)分詞集進(jìn)行詞匯量、詞頻的統(tǒng)計(jì)。同時(shí),利用電力行業(yè)的術(shù)語(yǔ)、工作人員名單、電網(wǎng)項(xiàng)目研究報(bào)告等資料創(chuàng)建電力行業(yè)文本資料庫(kù),再對(duì)其進(jìn)行處理和分詞,統(tǒng)計(jì)該分詞集的詞匯量、詞頻,最后將兩個(gè)分詞集的詞頻信息進(jìn)行整合。之后,利用Transformer 建立針對(duì)電力行業(yè)數(shù)據(jù)的語(yǔ)言模型。

        完成Transformer 語(yǔ)言模型和發(fā)音字典的構(gòu)造之后,就可以將2.2 獲得的基本因素信息Y進(jìn)行解碼,解碼過(guò)程如下:

        (1)將聲學(xué)模型識(shí)別得到的基本因素信息及聲學(xué)模型分?jǐn)?shù)輸入發(fā)音字典,得到備選詞語(yǔ)串及聲學(xué)模型分?jǐn)?shù);

        (2)將上文的識(shí)別結(jié)果輸入Transformer 語(yǔ)言模型,得到備選詞語(yǔ)串及對(duì)應(yīng)的語(yǔ)言模型分?jǐn)?shù);

        (3)將聲學(xué)模型分?jǐn)?shù)與語(yǔ)言模型分?jǐn)?shù)結(jié)合,在備選詞語(yǔ)串中選擇最優(yōu)詞語(yǔ)序列,將其作為語(yǔ)音識(shí)別輸出。

        3 實(shí)驗(yàn)驗(yàn)證

        本文實(shí)驗(yàn)部分的數(shù)據(jù)來(lái)自于南方電網(wǎng)提供的基于南網(wǎng)信息系統(tǒng)語(yǔ)料庫(kù)。其采樣頻率為16k 赫茲,大小為16bits。本文使用TensorFlow 構(gòu)建模型。其中學(xué)習(xí)率為 0.0002,beta1=0.7,beta2=0.88。訓(xùn)練次數(shù)為 30次。通過(guò)與BiGRU、BiLSTM 進(jìn)行對(duì)比驗(yàn)證模型性能。

        表1 實(shí)驗(yàn)結(jié)果

        4 結(jié)語(yǔ)

        針對(duì)面向大眾領(lǐng)域的語(yǔ)音識(shí)別技術(shù)識(shí)別電力行業(yè)語(yǔ)音的準(zhǔn)確率不高的問(wèn)題,本文設(shè)計(jì)了一種面向電力行業(yè)的熱詞語(yǔ)音識(shí)別技術(shù),通過(guò)構(gòu)建CTC 聲學(xué)模型將語(yǔ)音信息轉(zhuǎn)化為基本音素信息,再利用電力行業(yè)熱詞庫(kù)構(gòu)建針對(duì)電力數(shù)據(jù)的Transformer 語(yǔ)言模型,最后通過(guò)語(yǔ)言模型和發(fā)音字典將基本音素信息解碼為中文信息,并通過(guò)基于南網(wǎng)信息系統(tǒng)語(yǔ)料庫(kù)的實(shí)驗(yàn)驗(yàn)證了本方法的有效性。

        猜你喜歡
        特征提取信號(hào)信息
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        基于LabVIEW的力加載信號(hào)采集與PID控制
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        展會(huì)信息
        Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        四虎影在永久在线观看| 一区二区三区婷婷中文字幕| 热综合一本伊人久久精品| 国产一区二区三区三区四区精品| 国产亚洲2021成人乱码| 中文字幕精品亚洲人成| 一区二区三区免费观看在线视频| 91亚洲国产成人精品一区.| 国产狂喷潮在线观看| 麻豆精品久久久久久久99蜜桃| 国产一区二区三区最新视频| 久久日韩精品一区二区| 少妇人妻在线无码天堂视频网| 人与嘼av免费| 国产毛片一区二区日韩| 精品人妻中文av一区二区三区| 国产办公室沙发系列高清| 日韩一区二区肥| 亚洲综合色视频在线免费观看| 米奇欧美777四色影视在线| 日本熟妇色xxxxx欧美老妇| 亚洲色偷拍一区二区三区| 久久婷婷综合激情亚洲狠狠| 中文字幕人妻在线中字| 精品性高朝久久久久久久| 亚洲无码观看a| 久久精品蜜桃亚洲av高清| 日韩放荡少妇无码视频| 一级做a爰片久久毛片| 成人短篇在线视频夫妻刺激自拍| 不卡的av网站在线观看| 婷婷五月综合丁香在线| 久久久亚洲精品午夜福利| 国产人妖在线视频网站| 久久不见久久见免费影院国语| 在线播放a欧美专区一区| 丰满人妻一区二区三区免费| 亚洲一区精品无码| 男人边吃奶边做好爽免费视频| 亚洲AV永久无码精品表情包| 日本一区二区三区视频免费在线|