亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音識(shí)別在輪機(jī)模擬器中的應(yīng)用

        2023-04-07 03:13:46何治斌張永成
        關(guān)鍵詞:信號(hào)語言模型

        馮 濤 何治斌 張永成

        (大連海事大學(xué)船舶動(dòng)態(tài)仿真與控制國家重點(diǎn)實(shí)驗(yàn)室 遼寧 大連 116026)

        0 引 言

        輪機(jī)模擬器是能夠模擬船舶機(jī)艙中設(shè)備操作的系統(tǒng),能夠體現(xiàn)船舶機(jī)艙中的實(shí)際操作情況。在一定程度上能夠克服實(shí)際中存在的缺陷,進(jìn)行針對(duì)性的操作訓(xùn)練。近些年在STCW公約馬尼拉修正案的標(biāo)準(zhǔn)約束下,輪機(jī)模擬器的交互方式也一直在發(fā)生著變化[1],而在傳統(tǒng)模擬器的實(shí)際操作中仍然存在著操作者的分工職能無法體現(xiàn)的缺陷[2],并且在VR技術(shù)應(yīng)用于虛擬船舶機(jī)艙后,傳統(tǒng)的交互方式會(huì)破壞仿真環(huán)境下的沉浸感。語音識(shí)別技術(shù)的應(yīng)用能夠在一定程度上解決這個(gè)問題,在訓(xùn)練操作中如果出現(xiàn)超出操作者的職能范圍的操作,可以使用語音交互的方式對(duì)模擬器發(fā)出指令,來模擬合作者的身份,從而更好地體現(xiàn)分工合作的目的。在應(yīng)用了VR技術(shù)后的虛擬船舶機(jī)艙中,語音識(shí)別可以使操作者擺脫鍵盤與鼠標(biāo)的復(fù)雜交互方式,在虛擬船舶機(jī)艙中的交互更加便捷[3]。本實(shí)驗(yàn)工作主要分為兩個(gè)部分:搭建語音識(shí)別系統(tǒng);展示基于語音交互的發(fā)電機(jī)操作。

        1 語音識(shí)別系統(tǒng)搭建

        1.1 語音識(shí)別基本原理

        語音識(shí)別系統(tǒng)的任務(wù)是在輸入為音頻信號(hào)的情況下,輸出最可能的詞序列。搭建語音識(shí)別系統(tǒng)的核心工作是構(gòu)建由語音特征矢量至模型詞序列之間的關(guān)系[4]。語音識(shí)別的原理可以用以下公式簡單概括:

        可以看出,ASR(Automatic Speech Recognition)的概率模型分為P(Y|w)和P(w)兩個(gè)部分,其中:P(Y|w)表示在詞序列w一定的情況下獲得音頻信號(hào)Y的概率;P(w)表示在所有的字詞所組成的語句中,詞序列w的概率。前者在語音識(shí)別系統(tǒng)中通常被稱為聲學(xué)模型(Acoustic Model,AM),后者被稱為語言模型(Language Model,LM)。由式(2)可以看出語言模型和聲學(xué)模型對(duì)語音識(shí)別的結(jié)果至關(guān)重要,因此搭建語音識(shí)別系統(tǒng)的主要工作即在于對(duì)語言模型和聲學(xué)模型的建模[5]。語音識(shí)別系統(tǒng)的基本架構(gòu)如圖1所示。

        圖1 ASR架構(gòu)

        1.2 聲學(xué)模型建立

        1.2.1語音信號(hào)處理與特征提取

        處理語音信號(hào)并提取特征是訓(xùn)練聲學(xué)模型的準(zhǔn)備工作。通過設(shè)備采集到的音頻有低頻段信號(hào)能量小、信號(hào)不平穩(wěn)等問題,需要進(jìn)行信號(hào)數(shù)字化、預(yù)加重、加窗分幀等處理。本實(shí)驗(yàn)提取語音信號(hào)的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)作為聲學(xué)模型訓(xùn)練的聲學(xué)特征[6]。MFCC的特征提取流程如圖2所示。

        圖2 MFCC提取流程

        在提取特征的流程中,為了提高信號(hào)高頻部分的能量,使高頻信號(hào)共振峰更加明顯,對(duì)采集到的語音信號(hào)首先進(jìn)行預(yù)加重。預(yù)加重濾波器為一階高通濾波器。給定時(shí)域輸入信號(hào)x(n),則預(yù)加重之后的信號(hào)可以表示為:

        y(n)=x(n)-α(n-1) 0.9≤α≤1.0

        (3)

        由于語音信號(hào)為非平穩(wěn)信號(hào)且具有短時(shí)平穩(wěn)的特性,因此,對(duì)預(yù)加重后的語音信號(hào)進(jìn)行分幀加窗來獲取短時(shí)平穩(wěn)的語音信號(hào)。具體操作為在時(shí)域上使用窗函數(shù)與原始信號(hào)進(jìn)行相乘,可由式(4)表示。

        y(n)=ω(n)x(n)

        (4)

        式中:x(n)為輸入信號(hào);ω(n)為窗函數(shù);y(n)為加窗語音信號(hào)。窗函數(shù)的選取中較為常用的有:

        對(duì)加窗分幀后的語音信號(hào)使用離散傅里葉變換,將時(shí)域信號(hào)變換到頻域,并取離散傅里葉變換系數(shù)的模,得到譜特征。對(duì)獲取的譜特征使用梅爾濾波器組進(jìn)行濾波,然后對(duì)濾波后的結(jié)果取對(duì)數(shù)并進(jìn)行離散余弦變換,獲取MFCC,這一過程的計(jì)算可表示為:

        (7)

        式中:M為梅爾濾波器組的個(gè)數(shù);s(m)表示第m個(gè)濾波器的輸出;L為MFCC的階數(shù)。

        為了使聲學(xué)模型在輪機(jī)模擬器的指令識(shí)別中表現(xiàn)得更好,采集輪機(jī)領(lǐng)域相關(guān)的音頻作為聲學(xué)模型的訓(xùn)練語料,以80%、10%、10%的比例將數(shù)據(jù)劃分,分別用于對(duì)聲學(xué)模型的訓(xùn)練、測(cè)試與開發(fā)。具體提取過程分為以下幾個(gè)步驟:

        (1) 將語音信號(hào)通過高通濾波器進(jìn)行預(yù)加重。

        (2) 對(duì)預(yù)加重后的語音信號(hào)進(jìn)行加窗分幀,使用漢明窗,幀長為25 ms,幀移為10 ms。

        (3) 對(duì)分幀后的每一幀信號(hào)做離散傅里葉變換,將信號(hào)從時(shí)域變換至頻域,并計(jì)算功率譜。

        (4) 使用梅爾濾波器組對(duì)功率譜進(jìn)行濾波,提取每個(gè)濾波器內(nèi)的對(duì)數(shù)能量。

        (5) 對(duì)對(duì)數(shù)能量進(jìn)行離散余弦變換,輸出12維原始MFCC。

        (6) 計(jì)算原始MFCC的一階差分與二階差分、訊框能量、訊框能量的一階差分與二階差分,共計(jì)39維,作為生成聲學(xué)模型的MFCC特征。圖3為“啟動(dòng)預(yù)潤滑油泵”的MFCC語譜圖展示。

        圖3 “啟動(dòng)預(yù)潤滑油泵”的MFCC語譜圖

        1.2.2聲學(xué)模型訓(xùn)練

        本次實(shí)驗(yàn)采用混合高斯隱馬爾可夫模型(Gaussianof Mixture Hidden Markov Model)對(duì)聲學(xué)模型進(jìn)行建模。其中,HMM(Hidden Markov Model)用于對(duì)聲學(xué)特征序列進(jìn)行建模,HMM是一種雙重隨機(jī)過程的概率模型,通過對(duì)有限個(gè)狀態(tài)之間的轉(zhuǎn)換概率進(jìn)行建模來描述語音信號(hào)特征[7]。GMM(Gaussian of Mixture)用于對(duì)HMM中的每個(gè)狀態(tài)的輸出概率進(jìn)行建模。GMM-HMM聲學(xué)模型的示意圖如圖4所示,其中:Si表示HMM的狀態(tài)序列;Oi表示觀測(cè)序列,在語音識(shí)別中表現(xiàn)為MFCC特征向量;aij表示從狀態(tài)i跳轉(zhuǎn)至狀態(tài)j的轉(zhuǎn)移概率;bi(Ot)表示由狀態(tài)Si輸出觀測(cè)Ot的概率。圖4中語音信號(hào)表示的語句為“出口截止閥打開”。

        圖4 GMM-HMM聲學(xué)模型示意圖

        聲學(xué)模型的訓(xùn)練可表示為在已知觀測(cè)序列O=(o1,o2,…,oT)的情況下,估計(jì)模型λ使得P(O|λ)最大。使用Baum-Welch學(xué)習(xí)算法對(duì)GMM-HMM模型進(jìn)行訓(xùn)練,其具體步驟如下:

        (1) 初始化GMM-HMM參數(shù)。

        (2) E步(count):估計(jì)狀態(tài)占用概率γ,即給定模型γ與觀測(cè)O,在時(shí)刻t處于狀態(tài)Si的概率,表示為:

        γt(i)=P(it=Si|O,λ)

        (8)

        (3) M步(normalize):基于估計(jì)的狀態(tài)占用概率,最大化期望,重新估計(jì)GMM-HMM的參數(shù)。

        (4) 重復(fù)步驟(2)和步驟(3)直至收斂。

        聲學(xué)模型的訓(xùn)練在Kaldi平臺(tái)中實(shí)現(xiàn),其部分展示如圖5所示。

        圖5 聲學(xué)模型片段

        1.3 語言模型建立

        1.3.1語料收集與處理

        語言模型是一種數(shù)學(xué)模型,用來描述語言之間的規(guī)律,決定了語音識(shí)別的輸出結(jié)果是否符合語言邏輯。特定的語言模型能夠使語音識(shí)別系統(tǒng)在其所使用的領(lǐng)域中識(shí)別更準(zhǔn)確。因此,本實(shí)驗(yàn)從中國船務(wù)周刊、現(xiàn)代漢語語料庫等報(bào)刊與語料庫中選取輪機(jī)領(lǐng)域相關(guān)語料72 910句,并結(jié)合清華大學(xué)開源語料庫THCHS30,共計(jì)844 100句,作為本實(shí)驗(yàn)訓(xùn)練語言模型的語料。對(duì)收集到的生語料使用ICTCLAS工具進(jìn)行分詞,將不同詞性的詞語進(jìn)行劃分,并對(duì)句子起始使用進(jìn)行標(biāo)注。語料庫部分如圖6所示。

        圖6 語料庫片段

        1.3.2語言模型生成

        語言模型的基本類型分為基于文法規(guī)則的語言模型和基于統(tǒng)計(jì)的語言模型兩種?;谖姆ㄒ?guī)則的語言模型需要設(shè)立文法規(guī)則并對(duì)不同文法使用不同模型,工作量大且無法覆蓋所有的語言詞句之間的組合。基于統(tǒng)計(jì)的語言模型能夠使用統(tǒng)計(jì)的方法來處理語句之間的前后關(guān)系,在處理大型數(shù)據(jù)時(shí)較基于文法的語言模型更快速準(zhǔn)確[8]。為實(shí)現(xiàn)大詞匯量的連續(xù)語音識(shí)別,本實(shí)驗(yàn)采用基于統(tǒng)計(jì)的方法對(duì)語言模型進(jìn)行建模。統(tǒng)計(jì)語言模型是在提供的語料庫中的所有詞序列上的一個(gè)概率分布,包含有限集合V與函數(shù)P(x1,x2,…,xn),且滿足以下條件:

        對(duì)于任意∈v+,P(x1,x2,…,xn)≥0

        (9)

        本實(shí)驗(yàn)使用統(tǒng)計(jì)語言模型中的N-gram語言模型作為系統(tǒng)使用的語言模型,也可以稱為N元語言模型。N-gram所表示的含義為使用前N-1個(gè)詞作為歷史來估計(jì)第N個(gè)詞(當(dāng)前詞)。一句由n個(gè)詞組成的句子S可以表示為:

        式中:wi表示第i個(gè)詞。N-gram語言模型可以表示為:

        使用SRILM工具訓(xùn)練并測(cè)試語言模型。建立語言模型的步驟分為統(tǒng)計(jì)詞頻、生成語言模型、計(jì)算困惑度三個(gè)步驟。困惑度(Perplexity,ppl)是用來評(píng)價(jià)一個(gè)語言模型性能的指標(biāo),合乎邏輯的詞序列出現(xiàn)概率與其困惑度成反比。在測(cè)試集W=w1w2…wN中,語言模型的困惑度可以表示如下:

        為了得到性能更優(yōu)的語言模型,分別對(duì)基于Uni-gram、Bi-gram和Tri-gram的語言模型進(jìn)行建模并對(duì)比三者困惑度。實(shí)驗(yàn)結(jié)果如表1所示。

        表1 三種語言模型的困惑度對(duì)比

        在對(duì)語言模型進(jìn)行測(cè)試的過程中,出現(xiàn)許多頻率為零的詞序列,這是由語料的稀疏性(sparse data)導(dǎo)致的。為了解決語言模型中出現(xiàn)的這一問題,通常使用平滑算法(Smoothing)處理語言模型,其主要思想是將一部分出現(xiàn)的詞序列概率分給未出現(xiàn)的詞序列。本次實(shí)驗(yàn)采用Kneser-Ney平滑算法對(duì)語言模型進(jìn)行處理。

        Kneser-Ney平滑算法的基本思想為絕對(duì)折扣(absolute discounting)[9],并在此基礎(chǔ)上將絕對(duì)折扣與接續(xù)概率(continuation probability)進(jìn)行插值,從而達(dá)到對(duì)語言模型進(jìn)行平滑處理的效果。絕對(duì)折扣的具體操作是將語言模型中詞頻的統(tǒng)計(jì)計(jì)數(shù)直接減去一個(gè)數(shù)值,作為調(diào)整計(jì)數(shù)使用,減去的這個(gè)數(shù)值被稱作折扣系數(shù)。以Bi-gram為例,絕對(duì)折扣算法可以表示如下:

        (14)

        式中:wi為第i個(gè)詞;C(wi)為wi出現(xiàn)的次數(shù);α(wi)為歸一化系數(shù);D為折扣系數(shù)。

        接續(xù)概率描述了當(dāng)給定詞序列w1w2…wi-1后,下一個(gè)詞為wi概率。當(dāng)一個(gè)詞在語料庫中出現(xiàn)更多種不同上下文時(shí),其接續(xù)概率就更大。接續(xù)概率定義可以表示如下:

        Kneser-Ney平滑算法將絕對(duì)折扣算法與接續(xù)概率結(jié)合并進(jìn)行插值。以Bi-gram為例,可將Kneser-Ney算法表示如下:

        (16)

        經(jīng)過Kneser-Ney平滑算法處理后,將語言模型以ARPA Format形式存儲(chǔ)。ARPA Format是N-gram的標(biāo)準(zhǔn)儲(chǔ)存模式,列舉了所有非零的N元語法概率。每個(gè)語法條目中從左至右依次為:折扣后對(duì)數(shù)概率、詞序列和回退權(quán)重。圖7為生成的語言模型片段。

        圖7 語言模型片段

        1.4 語音識(shí)別系統(tǒng)測(cè)試

        在完成聲學(xué)模型和語言模型的建模后,使用基于OnlineFasterDecoder的解碼器進(jìn)行解碼,用以測(cè)試語音識(shí)別系統(tǒng)。為了驗(yàn)證使用Kneser-Ney平滑算法處理過語言模型的語音識(shí)別系統(tǒng)的性能,使用未處理過語言模型的語音識(shí)別系統(tǒng)作為實(shí)驗(yàn)對(duì)照組。由癱船啟動(dòng)的流程操作指令構(gòu)成測(cè)試使用的待識(shí)別語言,讓8個(gè)測(cè)試者對(duì)兩個(gè)語音識(shí)別系統(tǒng)各進(jìn)行30次語音識(shí)別測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2和表3所示。

        表2 未使用平滑算法的語音識(shí)別系統(tǒng)測(cè)試結(jié)果

        表3 使用Kneser-Ney平滑算法的語音識(shí)別系統(tǒng)測(cè)試結(jié)果

        由實(shí)驗(yàn)結(jié)果可以看出,在使用Kneser-Ney平滑算法處理語言模型后的語音識(shí)別系統(tǒng)中,測(cè)試平均識(shí)別準(zhǔn)確率較未使用平滑算法的語音識(shí)別系統(tǒng)準(zhǔn)確率提升20.4百分點(diǎn),證明了Kneser-Ney平滑算法的有效性。處理后的語音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率可以滿足在輪機(jī)模擬器中對(duì)輪機(jī)設(shè)備日常操作的使用需求。該語音識(shí)別系統(tǒng)的構(gòu)建也為語音識(shí)別系統(tǒng)應(yīng)用于船舶機(jī)艙或無人船中打下了基礎(chǔ)。

        2 基于語音交互的發(fā)電機(jī)操作模擬

        為了在現(xiàn)有輪機(jī)模擬器中展示語音交互的效果,使用訊飛SDK提供的接口進(jìn)行封裝調(diào)用,完成語音合成功能。在Windows平臺(tái)下設(shè)計(jì)船舶發(fā)電機(jī)啟動(dòng)的語音交互流程。交互流程如下:

        (1) 啟動(dòng)語音識(shí)別程序,語音識(shí)別系統(tǒng)進(jìn)入監(jiān)聽狀態(tài),如圖8所示。

        圖8 發(fā)電機(jī)關(guān)閉狀態(tài)

        (2) 通過麥克風(fēng)講話,識(shí)別指令“啟動(dòng)預(yù)潤滑油泵”,輪機(jī)模擬器啟動(dòng)預(yù)潤滑油泵并通過語音播報(bào)“預(yù)潤滑油泵已開啟”。

        (3) 識(shí)別“啟動(dòng)輕油泵”指令,輪機(jī)模擬器啟動(dòng)輕油泵并播報(bào)“輕油泵已啟動(dòng)”。

        (4) 識(shí)別“打開空氣截止閥”指令,輪機(jī)模擬器打開空氣截止閥并播報(bào)“空氣截止閥已打開”。

        (5) 識(shí)別“啟動(dòng)發(fā)電機(jī)”指令,輪機(jī)模擬器啟動(dòng)發(fā)電機(jī)并播報(bào)“發(fā)電機(jī)已啟動(dòng)”,如圖9所示。

        圖9 發(fā)電機(jī)啟動(dòng)狀態(tài)

        通過測(cè)試表明,該交互系統(tǒng)表現(xiàn)良好,識(shí)別率高,行動(dòng)執(zhí)行準(zhǔn)確。

        3 結(jié) 語

        作為最自然的交互方式,語音識(shí)別在智能家居的語音控制系統(tǒng)以及車載語音識(shí)別系統(tǒng)中已經(jīng)十分成熟,但在輪機(jī)模擬器以及船舶機(jī)艙仿真中卻仍未有人實(shí)踐。語音識(shí)別在輪機(jī)模擬器中的應(yīng)用不僅可以減少對(duì)輪機(jī)員培訓(xùn)時(shí)的人力消耗,并且可以提升輪機(jī)員操作體驗(yàn)。本實(shí)驗(yàn)通過對(duì)語音信號(hào)的特征提取、聲學(xué)模型的建模、多元語言模型的對(duì)比實(shí)驗(yàn),最終完成用于輪機(jī)模擬器的語音識(shí)別系統(tǒng),并在輪機(jī)模擬器的發(fā)電機(jī)操作上應(yīng)用語音交互系統(tǒng)。實(shí)驗(yàn)表明語音識(shí)別系統(tǒng)的識(shí)別率能夠滿足應(yīng)用,解決了在培訓(xùn)輪機(jī)員時(shí)一人身兼多職和在虛擬環(huán)境下的交互問題,為在實(shí)際船舶機(jī)艙與無人船中應(yīng)用語音識(shí)別打下了基礎(chǔ),對(duì)船舶輪機(jī)仿真系統(tǒng)的智能化具有促進(jìn)意義。

        猜你喜歡
        信號(hào)語言模型
        一半模型
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        重要模型『一線三等角』
        完形填空二則
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        讓語言描寫搖曳多姿
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        3D打印中的模型分割與打包
        国产日产综合| 性感的小蜜桃在线观看| 欧美亚洲日韩国产人成在线播放| 男女啪啪动态视频在线观看| 亚洲综合天堂av网站在线观看| 边做边流奶水的人妻| 亚洲永久精品ww47永久入口| 国产精品久久国产三级国| 宅男视频一区二区三区在线观看| 人妻熟妇乱又伦精品hd| 欧美成人一区二区三区| 国产在线一区二区三区av| 在线视频免费自拍亚洲| 亚洲乱码无人区卡1卡2卡3| 国产亚洲人成a在线v网站| 中文字幕久久久久久久系列| 亚洲综合小综合中文字幕| 高清毛茸茸的中国少妇| 少妇高潮流白浆在线观看| 国产精品亚韩精品无码a在线| 亚洲AV永久无码制服河南实里 | 狼人综合干伊人网在线观看| 中文字幕日韩人妻少妇毛片| 亚洲第一av导航av尤物| 亚洲日产无码中文字幕| 在线观看亚洲视频一区二区| 精品视频一区二区三区在线观看| 国产免费又色又爽又黄软件| 亚洲午夜无码久久久久软件| 两人前一后地插着她丰满| 性欧美老人牲交xxxxx视频| 亚洲欧洲精品成人久久曰不卡| 一区二区三区日本久久| 久久久久久久亚洲av无码| 亚洲精品久久久久中文字幕二区| 国产精品短视频| 日韩国产一区二区三区在线观看| 夜夜骚久久激情亚洲精品| 国产操逼视频| 男女扒开双腿猛进入免费看污| 在线观看av国产自拍|