亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bi-LSTM的人機(jī)語音交互*

        2022-04-12 08:37:48陶浩兵慕京生劉東陽辜麗川
        傳感器與微系統(tǒng) 2022年4期
        關(guān)鍵詞:模型

        張 鋒, 陶浩兵, 慕京生, 劉東陽, 辜麗川, 焦 俊

        (1.安徽農(nóng)業(yè)大學(xué) 信息與計算機(jī)學(xué)院,安徽 合肥 230036; 2.京徽蒙農(nóng)業(yè)科技發(fā)展有限公司,安徽 亳州 236800)

        0 引 言

        隨著人工智能技術(shù)的快速發(fā)展,語音識別作為一種人機(jī)交互的工具而備受人們的喜愛,國際上很多大型科技公司,如谷歌、微軟、百度等相繼在語音識別上投入大量資源進(jìn)行研究,并取得了不錯的研究成果,Siri、Google Now、Echo等相繼誕生。國內(nèi)學(xué)者也對語音識別與機(jī)器人控制展開研究,并取得了一些成果,譚麗芬等人實(shí)現(xiàn)了語音交互技術(shù)在機(jī)械臂遙操作中的應(yīng)用[1],李艷生等人實(shí)現(xiàn)了基于語音的移動式機(jī)器人控制系統(tǒng)設(shè)計[2]。

        20世紀(jì)80年代,隱馬爾可夫聲學(xué)模型(hidden Markov model,HMM)被應(yīng)用于大詞匯連續(xù)語音識別研究[3],但語音識別技術(shù)并未取得突破發(fā)展。到21世紀(jì),神經(jīng)網(wǎng)絡(luò)的研究取得突破進(jìn)展,深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等相繼被提出,一些研究者將其引入語音識別聲學(xué)建模中,語音識別技術(shù)獲得飛躍式發(fā)展。研究表明,RNN能夠挖掘序列中上文的相關(guān)信息,在時序相關(guān)的問題上表現(xiàn)得比DNN和CNN好[4]。RNN在情感分析、語音識別、股票分析等序列化的特征任務(wù)上表現(xiàn)良好,但在實(shí)際訓(xùn)練過程中會面臨梯度消失與梯度爆炸問題[5]。針對RNN在訓(xùn)練過程中存在的問題,研究并提出了關(guān)于RNN的變體,其中最流行的方案是使用門控循環(huán)單元(gated recurrent unit,GRU)或長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)架構(gòu)[6,7]。本文利用雙向LSTM(bidirectional LSTM,Bi-LSTM)網(wǎng)絡(luò)搭建語音識別模型,并將其在自己制作的語音庫中進(jìn)行訓(xùn)練與優(yōu)化,結(jié)合訓(xùn)練好的語音識別模型制作機(jī)器人遠(yuǎn)程語音控制終端,實(shí)現(xiàn)了通過語音遠(yuǎn)程控制機(jī)器人的運(yùn)動狀態(tài)以及云臺的轉(zhuǎn)動。

        1 LSTM與Bi-LSTM

        1.1 LSTM

        LSTM是RNN的一種變體,能夠?qū)W習(xí)到長期依賴關(guān)系。LSTM引入了一個叫做細(xì)胞狀態(tài)的連接,這個細(xì)胞狀態(tài)用來存放想要記憶的內(nèi)容,LSTM通過三個門來對細(xì)胞狀態(tài)進(jìn)行更新,分別為忘記門、輸入門、輸出門[8~11]。圖1為LSTM單元結(jié)構(gòu)圖,其中,x為輸入的數(shù)據(jù),h為LSTM單元的輸出,C為細(xì)胞狀態(tài)。LSTM單元的輸入與輸出關(guān)系可以通過式(1)~式(6)表示

        ft=σ(Wf×[ht-1,xt)]+bf)

        (1)

        it=σ(Wi×[ht-1,xt)]+bi)

        (2)

        (3)

        Ct=ft×Ct-1+it×t

        (4)

        ot=σ(Wσ×[ht-1,xt)]+bo)

        (5)

        ht=ot×tanh(Ct)

        (6)

        式中σ為Sigmoid激活函數(shù);i,f,o,C分別對應(yīng)輸入門、遺忘門、輸出門及細(xì)胞狀態(tài)。三個門的存在,使得LSTM能夠控制梯度的收斂性,從而梯度消失、梯度爆炸的問題得到緩解,同時也能夠保持長期的記憶性。

        圖1 LSTM單元結(jié)構(gòu)

        1.2 Bi-LSTM

        LSTM網(wǎng)絡(luò)可以利用某一時刻之前的輸入信息來預(yù)測結(jié)果,但有時預(yù)測可能需要由過去若干輸入和未來若干輸入共同來決定,這樣得出的結(jié)果更加準(zhǔn)確,由此,Schuster M等人在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)[12]。圖2為一個Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖,包含一個前向LSTM層和一個后向LSTM層,圖中有6個獨(dú)特的權(quán)重在每一個時步都會被重復(fù)利用,分別為輸入層到向前向后隱含層權(quán)重(W1,W3),隱含層到隱含層權(quán)重(W2,W5),隱含層向前和向后的權(quán)重(W4,W6),訓(xùn)練過程中向前和向后的隱含層之間沒有信息交流,互不干擾。前向LSTM層從1時刻到t時刻正向計算,并保存每個時刻前向LSTM層輸出;后向LSTM層從t時刻到1時刻反向計算,并保存每個時刻后向LSTM層輸出。最后在每個時刻結(jié)合前向和后向LSTM層輸出得到最終輸出,其計算式如式(7)~式(9)。其中,ht,h′t分別為t時刻正反向LSTM層的輸出,ot為t時刻模型最終的輸出

        ht=f(W1xt+W2ht-1)

        (7)

        h′t=f(W3xt+W5h′t+1)

        (8)

        ot=g(W4ht+W6h′t)

        (9)

        圖2 Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)

        2 基于Bi-LSTM的語音識別模型

        2.1 語音庫與語音標(biāo)注

        為實(shí)現(xiàn)基于Bi-LSTM的機(jī)器人人語音交互,首先以采樣率8 000,單通道,8位采樣點(diǎn)的采樣參數(shù)錄制關(guān)于機(jī)器人控制命令的音頻,包括“前進(jìn)”“后退”“左轉(zhuǎn)”“右轉(zhuǎn)”“停止”“加速”“減速”“云臺左轉(zhuǎn)”“云臺右轉(zhuǎn)”“云臺上轉(zhuǎn)”“云臺下轉(zhuǎn)”,以及“零”到“十”,總共22種語音,每種語音錄制50個樣本,樣本總數(shù)為1 100。

        2.2 音頻數(shù)據(jù)預(yù)處理

        數(shù)據(jù)在輸入模型前,需要根據(jù)模型算法的需求對數(shù)據(jù)進(jìn)行變換,以改善模型的訓(xùn)練效果。本實(shí)驗(yàn)提取音頻的梅爾頻率倒譜系數(shù)(MFCC),將音頻數(shù)據(jù)轉(zhuǎn)換為MFCC特征向量。提取MFCC包括對語音的預(yù)加重、分幀、加窗、快速傅里葉變換(fast Fourier transform,FFT)、濾波等操作[13,14]。

        2.3 構(gòu)建Bi-LSTM模型

        本文采用Bi-LSTM構(gòu)建網(wǎng)絡(luò),模型共分6層,由全連接層與LSTM層組成,其中第4層采用LSTM架構(gòu)設(shè)計的單層Bi-LSTM網(wǎng)絡(luò),最后一個全連接層用于SoftMax分類。激活函數(shù)采用帶截斷的ReLU[15],截斷值設(shè)為10,其計算式如式(10)。由于網(wǎng)絡(luò)中節(jié)點(diǎn)較多,學(xué)習(xí)功能強(qiáng)大,為了防止過擬合,在每層均添加Dropout層。語音識別屬于典型的時間序列分類問題,此類問題使用ctc_loss的方法計算損失值,優(yōu)化器選用AdamOptimizer

        f(x)=min(max(x,0),10)

        (10)

        2.4 模型訓(xùn)練與結(jié)果分析

        實(shí)驗(yàn)采用TensorFlow框架來構(gòu)建網(wǎng)絡(luò)模型,主要探究不同隱含層節(jié)點(diǎn)數(shù)與不同Dropout值對網(wǎng)絡(luò)的影響,爭取用較少的隱含層節(jié)點(diǎn)訓(xùn)練出符合要求的網(wǎng)絡(luò)模型。

        首先,研究不同隱含層節(jié)點(diǎn)個數(shù)對Loss值變化的影響。當(dāng)學(xué)習(xí)率為0.001,迭代次數(shù)為40,Dropout值為0.8時,探究隱含層節(jié)點(diǎn)數(shù)分別為128,256,512時Loss值的變化,其結(jié)果如圖3所示。從圖3中可知,在三條曲線中,隱含層節(jié)點(diǎn)數(shù)為128時,網(wǎng)絡(luò)學(xué)習(xí)信息的速度最慢,迭代到40次時Loss曲線才衰減到0.5左右;隱含層節(jié)點(diǎn)數(shù)為512時,Loss曲線衰減速度最快,迭代到20次左右時,Loss曲線已經(jīng)接近零值,曲線開始趨于平穩(wěn)。

        圖3 不同隱含層節(jié)點(diǎn)數(shù)的Loss曲線

        接著,研究不同Dropout值對Loss值變化的影響。當(dāng)學(xué)習(xí)率為0.001,迭代次數(shù)為40,隱含層節(jié)點(diǎn)個數(shù)為512時,探究Dropout值分別為0.7,0.8,0.9時Loss值的變化,其結(jié)果如圖4所示,為了使曲線比較較為明顯,從第5次迭代開始顯示。從圖4中可知,Dropout值為0.9時,Loss曲線衰減速度最快,曲線更平滑,曲線后面未出現(xiàn)明顯抖動。

        圖4 不同Dropout值的Loss曲線

        綜上所述,本實(shí)驗(yàn)最后設(shè)置網(wǎng)絡(luò)參數(shù)為:學(xué)習(xí)率0.001,迭代次數(shù)40,隱含層節(jié)點(diǎn)數(shù)為512,Dropout值為0.9。本文作者通過句錯誤識別率(sentence error rate,SER)和句正確識別率(sentence correct,S.Corr)來評價模型的識別效果,其計算式如式(11)。接著選3名同學(xué),分別對“前進(jìn)”“加速”“云臺左轉(zhuǎn)”“云臺下轉(zhuǎn)”四種命令各錄制5段音頻,測試結(jié)果如表1所示,第一列中1,2,3分別代表3名學(xué)生,中間4列的數(shù)字代表某一同學(xué)對某一命令錄制的5段音頻正確識別的個數(shù),由表中可知,對各種命令的整體識別率達(dá)到80 %以上,達(dá)到了預(yù)期效果,其中第一名同學(xué)的語音識別效果最好,第三名同學(xué)的語音識別效果較差,可見發(fā)音標(biāo)準(zhǔn)對語音識別率有一定的影響

        (11)

        表1 測試結(jié)果

        3 機(jī)器人測控節(jié)點(diǎn)設(shè)計與實(shí)現(xiàn)

        3.1 機(jī)器人測控節(jié)點(diǎn)設(shè)計

        節(jié)點(diǎn)主要由嵌入式開發(fā)板、四合一傳感器、氨氣傳感器、數(shù)字?jǐn)z像頭、雙自由度云臺等組成。采集節(jié)點(diǎn)以NanoPC—T4嵌入式開發(fā)板為核心,分別通過串口連接數(shù)字?jǐn)z像頭采集圖像信息,通過RS—485轉(zhuǎn)串口連接四核一傳感器與氨氣傳感器,采集周圍環(huán)境的溫度、濕度、光照、CO2以及氨氣數(shù)據(jù),通過GPIO口連接云臺,通過控制20 ms內(nèi)GPIO口輸出高低電平的變化來控制云臺的轉(zhuǎn)動角度,將攝像頭安裝在云臺上,控制云臺雙自由度的轉(zhuǎn)動來實(shí)現(xiàn)對周圍環(huán)境圖像的多方位采集。

        3.2 基于用戶數(shù)據(jù)報協(xié)議的數(shù)據(jù)傳輸

        節(jié)點(diǎn)采集圖像數(shù)據(jù),實(shí)現(xiàn)兩種傳輸方式:連續(xù)與定時。定時模式可以通過設(shè)置定時器時間來改變圖像傳輸時間間隔,連續(xù)即實(shí)現(xiàn)圖像實(shí)時傳輸,其對于實(shí)時性、連續(xù)性有很高的要求,要求傳輸?shù)臅r延盡量小,能夠容忍一定范圍內(nèi)的數(shù)據(jù)丟失,以達(dá)到傳輸圖像的連續(xù)顯示,因此,本節(jié)點(diǎn)系統(tǒng)選用用戶數(shù)據(jù)協(xié)議(user datagram protocol,UDP)進(jìn)行數(shù)據(jù)傳輸。

        使用UDP進(jìn)行通信時,為了保證通信雙方能夠正確解析接收到的數(shù)據(jù),需要對數(shù)據(jù)幀的格式進(jìn)行約定。幀分為幀頭與數(shù)據(jù)兩部分,幀頭放一些控制信息(幀頭設(shè)計如表2所示),其中,前導(dǎo)碼設(shè)置為0xEAFB,接收端通過前導(dǎo)碼判斷是否為需要接收的數(shù)據(jù),通過功能碼來區(qū)分圖片數(shù)據(jù)與環(huán)境數(shù)據(jù),當(dāng)功能碼為0xFA時;幀的數(shù)據(jù)部分放的是圖片數(shù)據(jù),當(dāng)功能碼為0xBE時,幀的數(shù)據(jù)部分放的是環(huán)境數(shù)據(jù)。

        表2 幀頭格式表

        由于圖片文件較大,所以需要對圖片進(jìn)行切片傳輸,圖片切片及封裝成幀的過程如圖5所示。

        圖5 圖片切片及封裝過程

        主要分為如下幾步:1)計算需要傳輸?shù)膱D片數(shù)據(jù)大小;2)將圖片大小A與幀的數(shù)據(jù)部分大小B進(jìn)行比較,如果A小于等于B,則不需要進(jìn)行切片,可以通過一幀直接將一張圖片發(fā)送完成,否則需進(jìn)行切片,進(jìn)入步驟(3);3)以B的大小對圖片進(jìn)行切片,并記錄下切片大小與數(shù)據(jù)偏移量等信息;4)將切片封裝成幀,幀號、數(shù)據(jù)偏移量等控制信息放在幀頭,切片放入幀的數(shù)據(jù)部分,封裝后以UDP發(fā)送到接收端,循環(huán)發(fā)送,直到一張圖片的數(shù)據(jù)全部發(fā)送完成。

        3.3 控制架構(gòu)與電路

        本文的機(jī)器人為履帶式機(jī)器人,將多媒體信息采集節(jié)點(diǎn)安置在履帶機(jī)器人上,實(shí)現(xiàn)了多功能、移動式信息采集平臺的設(shè)計,如圖6所示。機(jī)器人采用STM32開發(fā)板作為機(jī)器人控制板,控制板通過驅(qū)動器來實(shí)現(xiàn)對機(jī)器人的控制,后臺與控制板之間通過LoRa模塊進(jìn)行通信,STM32控制板接到數(shù)據(jù)后,會與預(yù)設(shè)控制命令進(jìn)行匹配,若匹配成功,則啟動相應(yīng)中斷程序,通過定時器來改變對應(yīng)引腳輸出脈沖的周期與頻率,驅(qū)動器會根據(jù)脈沖信號對電路中的電流進(jìn)行放大,來驅(qū)動左右直流電機(jī)實(shí)現(xiàn)不同的轉(zhuǎn)動狀態(tài),達(dá)到控制小車的目的。

        圖6 機(jī)器人平臺實(shí)物

        4 基于Bi-LSTM的遠(yuǎn)端控制與顯示

        4.1 基于Bi-LSTM的遠(yuǎn)程控制

        基于前文利用Bi-LSTM網(wǎng)絡(luò)所訓(xùn)練的模型,本實(shí)驗(yàn)設(shè)計了一個基于語音識別的遠(yuǎn)程控制界面,如圖7所示,在界面的左端為音頻輸入設(shè)備與音頻參數(shù)的設(shè)置區(qū),本實(shí)驗(yàn)音頻參數(shù)設(shè)置為固定的采樣率8 000、單通道等,以提高模型的識別率,右端為實(shí)時輸入音頻波形圖,通過觀察波形圖的變化可以判斷有沒有聲音進(jìn)入。當(dāng)點(diǎn)擊界面上的開始錄音后,程序開始錄音,點(diǎn)擊停止結(jié)束錄音,程序會將音頻數(shù)據(jù)保存為.wav文件,并調(diào)用訓(xùn)練好的模型進(jìn)行識別,接著將模型反饋的識別結(jié)果與命令庫中預(yù)設(shè)命令進(jìn)行比較,若反饋信息與控制命令匹配成功,右下角會顯示發(fā)送命令,向節(jié)點(diǎn)發(fā)送相應(yīng)控制命令,如控制機(jī)器人前進(jìn)、后退、云臺轉(zhuǎn)動等,若不匹配則顯示未匹配,不進(jìn)行任何操作。

        圖7 語音識別界面

        4.2 回傳信息處理

        服務(wù)端程序基于UDPSocket套接字函數(shù)與節(jié)點(diǎn)進(jìn)行通信,主要實(shí)現(xiàn)數(shù)據(jù)接收顯示、節(jié)點(diǎn)交互控制、數(shù)據(jù)存儲三個功能。程序界面如圖所8所示,左側(cè)為圖像顯示區(qū),右側(cè)為傳感器參數(shù)顯示區(qū)與節(jié)點(diǎn)控制區(qū),節(jié)點(diǎn)控制區(qū)提供了多種遠(yuǎn)程控制指令,如圖片的連續(xù)/定時傳輸控制、環(huán)境參數(shù)采集定時器時間控制、云臺轉(zhuǎn)動方向控制等。同時,服務(wù)端會對數(shù)據(jù)進(jìn)行存儲,程序先將接收到的數(shù)據(jù)在本地進(jìn)行存儲,然后根據(jù)設(shè)定的實(shí)際定時從本地讀取圖片上傳FTP服務(wù)器,同時將圖片數(shù)據(jù)的地址信息及采集的環(huán)境參數(shù)存入云服務(wù)器的MySQL數(shù)據(jù)庫中。

        圖8 程序界面

        5 結(jié)束語

        本文利用TensorFlow框架搭建了Bi-LSTM網(wǎng)絡(luò),將其在自己制作的數(shù)據(jù)集上進(jìn)行訓(xùn)練,分析了不同參數(shù)對網(wǎng)絡(luò)的影響,選取恰當(dāng)?shù)膮?shù)訓(xùn)練出模型,對其進(jìn)行測試,識別率達(dá)到80 %以上。同時本文設(shè)計了基于嵌入式的多媒體信息采集平臺,實(shí)現(xiàn)對周圍圖像、環(huán)境信息的采集,并結(jié)合語音識別模型設(shè)計了機(jī)器人遠(yuǎn)程語音控制終端,通過語音控制機(jī)器人的運(yùn)動狀態(tài)與云臺轉(zhuǎn)動。

        未來可以在多種不同噪聲環(huán)境下錄制音頻,訓(xùn)練更具有泛化能力的模型。同時,本文設(shè)計的語音識別控制終端還存在一些不足以及局限,后續(xù)將完善語音控制反饋,語音控制命令等內(nèi)容。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        午夜性无码专区| 国产内射一级一片内射视频| 在线天堂av一区二区| 亚洲中文字幕舔尻av网站| 私人vps一夜爽毛片免费| 欧美成人片在线观看| 久久人人爽人人爽人人片亞洲 | 国产激情久久99久久| 人与禽交av在线播放| 亚洲中文无码av在线| 日韩精品网| 亚洲av成人一区二区三区色| 午夜无码无遮挡在线视频| 国产精品一区二区三级| 国产高清精品在线二区| 日本免费一区二区久久久| 亚洲偷自拍国综合第一页| 看黄a大片日本真人视频直播| 欧美最猛黑人xxxxx猛交| 综合无码综合网站| 五码人妻少妇久久五码| 免费观看在线视频播放| 日本一二三区在线观看视频| 国产成人无码精品久久久露脸 | 免费国产黄片视频在线观看| 久久黄色精品内射胖女人| 97人妻精品一区二区三区男同| 骚片av蜜桃精品一区| 亚洲av日韩精品久久久久久| 亚洲欧洲综合有码无码| 中文字幕精品乱码一区| 国产精品人妻熟女男人的天堂| 内射人妻无套中出无码| 午夜无码伦费影视在线观看| 精品国产18禁久久久久久久| 日本女同伦理片在线观看| 亚洲白嫩少妇在线喷水| 久久久久久av无码免费网站下载 | 日日碰狠狠躁久久躁96avv| 久久久久亚洲精品天堂| 丝袜人妻中文字幕首页|