亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于維納濾波的無人機(jī)語音系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)?

2021-11-08 06:22:40潘嘉琦曹科才丁嘉存雷鎮(zhèn)豪

計(jì)算機(jī)與數(shù)字工程 2021年10期

潘嘉琦曹科才丁嘉存雷鎮(zhèn)豪趙勃

（南京郵電大學(xué)自動化學(xué)院人工智能學(xué)院南京 210023）

1 引言

隨著電子信息技術(shù)與控制理論的廣泛應(yīng)用和普及，無人機(jī)技術(shù)得到不斷完善?，F(xiàn)今無人機(jī)正走入各個(gè)領(lǐng)域，逐漸成為各行各業(yè)生產(chǎn)以及生活中的助推劑［1］。但目前極少有支持語音對講功能的無人機(jī)產(chǎn)品以及相關(guān)研究，大部分無人機(jī)只支持視頻拍攝功能，而無法實(shí)現(xiàn)拾音功能。這浪費(fèi)了無人機(jī)潛在的應(yīng)用價(jià)值。如果能夠?qū)崿F(xiàn)無人機(jī)上的語音降噪，實(shí)現(xiàn)無人機(jī)的語音系統(tǒng)，則可以充分挖掘無人機(jī)的應(yīng)用潛力，使無人機(jī)擁有更加完備的功能以及更加廣泛的應(yīng)用。例如當(dāng)人被困于山崖中，或被困于因地震、洪水形成的的孤島中，救援人員難以抵達(dá)，無法與被困人員通信時(shí)，無人機(jī)可以飛抵被困人員身邊，其搭載的麥克風(fēng)接收被困人員喊話，從而使得被困人員有效地向救援人員傳遞信息。但如何在無人機(jī)發(fā)出較大噪音的環(huán)境中盡可能地拾取有效語音信號，并從帶噪語音信號中還原出盡可能純凈的原始語音是一項(xiàng)技術(shù)難題。

語音降噪問題是近年來的一個(gè)研究熱點(diǎn)，對此各國學(xué)者提出了諸多方法［2］，其中應(yīng)用較為廣泛的有基本譜減法［3］、LMS自適應(yīng)濾波［4］、維納濾波［5］、以及獨(dú)立成分分析［6～8］等方法。獨(dú)立成分分析是近年來較為流行的方法［9］，該方法針對人為線性疊加的信號有較好的分離效果，但對于在空氣中自然混合的聲音信號，由于涉及到疊加的非線性以及過程中存在的卷積等問題，難以達(dá)到較好的降噪效果。而在經(jīng)典的語音降噪方法中，維納濾波降噪適應(yīng)性廣、特別是處理平穩(wěn)噪聲效果較好，是較為簡便且應(yīng)用廣泛的方法［10～11］。經(jīng)過對各種方法的仿真測試比較，發(fā)現(xiàn)維納濾波在在無人機(jī)語音系統(tǒng)的中有著較好的效果，因此本文選用維納濾波降噪方法。

此外，為了實(shí)現(xiàn)系統(tǒng)中音視頻的實(shí)時(shí)傳輸，本文基于WebRTC技術(shù)，獲取各終端本地的音視頻媒體信息，在無人機(jī)與地面終端間建立對等連接，將媒體和數(shù)據(jù)通道關(guān)聯(lián)至該連接，實(shí)現(xiàn)流媒體傳輸，并搭建硬件平臺，應(yīng)用維納濾波降噪算法與We?bRTC技術(shù)，最終完成了無人機(jī)語音系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。

2 無人機(jī)語音系統(tǒng)框架

本文基于維納濾波算法以及WebRTC協(xié)議設(shè)計(jì)了一種無人機(jī)語音系統(tǒng)，結(jié)構(gòu)如圖1，本系統(tǒng)實(shí)現(xiàn)了以下功能。

圖1 無人機(jī)語音系統(tǒng)結(jié)構(gòu)圖

1）通過無人機(jī)上搭載的麥克風(fēng)與攝像頭實(shí)時(shí)采集原始音視頻信息；

2）通過流媒體傳輸技術(shù)將采集到的音視頻信息實(shí)時(shí)傳送至地面站；

3）使用維納濾波算法對含噪語音進(jìn)行降噪，獲得較純凈語音信號；

4）將地面站人員語音信息傳送至無人機(jī)終端并通過擴(kuò)音器播放，實(shí)現(xiàn)音頻雙向傳輸。

針對上述系統(tǒng)功能，開展了以下工作。

1）分析無人機(jī)噪聲，并針對其特征采用維納濾波降噪算法設(shè)計(jì)濾波器；

2）搭建相應(yīng)硬件平臺；

3）分析多種流媒體技術(shù)優(yōu)劣，采用WebRTC技術(shù)實(shí)現(xiàn)音視頻雙向交互。

3 基于維納濾波的語音降噪

3.1 無人機(jī)噪聲特征

使用Adobe Audition軟件生成含無人機(jī)噪音的語音的頻率分析圖，如圖2。

圖2 含無人機(jī)噪音的語音頻率分析圖

根據(jù)分析結(jié)果以及相關(guān)資料［12～13］，認(rèn)為無人機(jī)噪音有以下特征。

1）噪音是分別來自電機(jī)、槳葉、氣流、電流等多種噪音源的多種類型噪音的混合；

2）噪音頻帶較寬，覆蓋0～20kHz的全頻帶；

3）噪音能量主要集中在幾個(gè)特定頻率點(diǎn)（電機(jī)、槳葉、電流等工作頻率）附近；

4）無人機(jī)在飛行狀態(tài)穩(wěn)定的情況下，噪音可近似看作平穩(wěn)噪聲。

圖中0.4kHz～4kHz頻段內(nèi)的間斷出現(xiàn)的頻率成分即為語音，可見語音與無人機(jī)噪音頻率雖有重疊，但仍可辨識。因此設(shè)計(jì)合適的濾波器，可達(dá)到語音降噪的效果。

3.2 維納濾波基本原理

維納濾波過程中，混合信號可表示為

其中s(n)為目標(biāo)信號，d(n)為附加噪聲信號。

若設(shè)計(jì)一個(gè)濾波器H(z)，其單位脈沖響應(yīng)為h(n)，當(dāng)如輸入混合信號x(n)時(shí)，濾波器的輸出為

維納濾波的基本原理即為尋找濾波器H(z)，使其輸出與純凈目標(biāo)信號最為接近，即按照最小均方差準(zhǔn)則，使s(n)與的均方誤差取得最小值［14～15］。s(n)與的均方誤差為

設(shè)h(n)的長度為l，為取得ε的最小值，將ε對h(n)的每一個(gè)元素分別求偏導(dǎo)數(shù)，并令其等于0，即：

根據(jù)式（2）、（4）可得到維納-霍夫方程：

令i=1，2，…，l，可得l個(gè)方程，解之可得序列h的全部有限個(gè)元素h(1)，h(2)，…，h(l)，將其做反z變換，即為目標(biāo)濾波器H(z)。

3.3 維納濾波實(shí)現(xiàn)降噪

實(shí)際無人機(jī)飛行過程中，無人機(jī)產(chǎn)生的噪音會隨著氣流的變化以及無人機(jī)運(yùn)動狀態(tài)的變化而變化，但可將其視為短時(shí)平穩(wěn)信號，因此對其做分幀處理。

分幀處理會增加信號的高次諧波分量，加窗處理可使此問題得到改善，這里選用語音信號處理中較為常用的漢明窗進(jìn)行處理。

對于一段帶噪語音信號，應(yīng)用3.2小節(jié)所述方法。首先將前導(dǎo)無話段噪聲視為目標(biāo)信號s(n)，將帶噪語音信號視為混合信號x(n)。得到提取估計(jì)噪聲的濾波器H(z)，對于之后的每一幀帶噪語音信號xj(n)使用濾波器H(z)進(jìn)行濾波，得到噪音信號的估計(jì)，記為(n)。利用譜減法，將x(n)與功率譜相減［16］，可得對語音信號的估計(jì)，記為

維納濾波實(shí)現(xiàn)降噪的算法如下。

函數(shù)功能：對語音與噪聲的混合信號降噪

3.4 維納濾波仿真測試結(jié)果

進(jìn)行無人機(jī)懸停，地面人員喊話“測試，一、二、三”的錄音實(shí)驗(yàn)，并對音頻進(jìn)行本節(jié)所述的降噪處理，結(jié)果如圖3～6。

圖3 混合信號時(shí)域波形

由時(shí)域以及頻域的波形可見，降噪處理后的噪音信號成分明顯減少，處理后的語音信號清晰可辨?？梢娋S納濾波對于無人機(jī)語音系統(tǒng)的降噪應(yīng)用有著顯著的效果。

圖4 維納濾波降噪處理后信號時(shí)域波形

圖5 混合信號頻域圖

圖6 維納濾波降噪處理后信號頻域圖

3.5 其它降噪方法的對比

除維納濾波外，譜減法和獨(dú)立成分分析在降噪中也有著廣泛應(yīng)用。使用3.4小節(jié)測試所使用的音頻進(jìn)行測試，圖7為譜減法降噪后的時(shí)域波形，圖8為加入另一麥克風(fēng)（得到兩路同步的錄音），使用獨(dú)立成分分析后得到的兩路分離信號的時(shí)域波形?？梢钥闯?，相比于維納濾波，譜減法殘留的噪聲較大，而獨(dú)立成分分析幾乎沒有降噪效果，這也佐證了聲音在空氣中自然混合并非單純的線性疊加。

圖7 譜減法降噪處理后信號時(shí)域波形

圖8 獨(dú)立成分分析分離后信號時(shí)域波形

綜上，經(jīng)比較，維納濾波為無人機(jī)語音系統(tǒng)中較為理想的降噪方法。

4 流媒體傳輸?shù)膶?shí)現(xiàn)

4.1 需求分析

流媒體傳輸實(shí)現(xiàn)難點(diǎn)在于控制視頻和音頻的延時(shí)［17］，視頻延遲與感官的關(guān)系如表1。若要獲得較好的實(shí)時(shí)傳輸效果，需將延遲控制在800ms以內(nèi)。

表1 視頻延遲與感官的關(guān)系

目前實(shí)時(shí)流媒體傳輸主流有三種實(shí)現(xiàn)方式：HLS［18］、RTMP［19］和WebRTC［20］。

1）HLS（HTTPLive Streaming）是一種把流媒體拆分成多個(gè)獨(dú)立小文件的技術(shù)，按照播放時(shí)間請求不同文件，將hls的文件進(jìn)行解復(fù)用后，取出音視頻數(shù)據(jù)交由video播放。其優(yōu)點(diǎn)是使用了傳統(tǒng)http協(xié)議，具有良好的兼容性和穩(wěn)定性，缺點(diǎn)是有較大延時(shí)，通常在10s以上。

2）RTMP（Real Time Messaging Protocol）是一套使用長連接的完整流媒體傳輸協(xié)議。相對于HLS請求分片的形式，RTMP由于使用長連接，接收不間斷的數(shù)據(jù)流，因而延遲比HLS小很多，通常是1s～3s，對于低互動需求的直播來說，這種方式的延遲是可以接受的。

3）WebRTC（Web Real Time Communication）由谷歌推出，并在Google、Mozilla、Opera支持下被納入W3C推薦標(biāo)準(zhǔn)。WebRTC致力于高效的實(shí)時(shí)音視頻通信，做到比RTMP提供更低的延遲和更小的緩沖率，通常能夠?qū)⒀舆t控制在300ms～600ms，能夠應(yīng)對對實(shí)時(shí)性要求較高的場景下的需求。

綜合考慮到語音系統(tǒng)對實(shí)時(shí)性的要求［21］以及實(shí)現(xiàn)方式的特點(diǎn)，采用WebRTC實(shí)現(xiàn)實(shí)時(shí)音視頻交互。

4.2 WebRTC實(shí)現(xiàn)流媒體傳輸

4.2.1 WebRTC簡介

WebRTC并不是單個(gè)的協(xié)議，而是提供了包括音視頻的采集、編解碼、網(wǎng)絡(luò)傳輸、展示等功能的一些列協(xié)議的總稱。

WebRTC主要由三大組件組成，如圖9所示。

圖9 WebRTC組件

1）MediaStream負(fù)責(zé)獲取用戶本地的多媒體數(shù)據(jù)，如調(diào)起攝像頭錄像等。

2）RTCPeerConnection負(fù)責(zé)建立P2P連接以及傳輸多媒體數(shù)據(jù)。

3）RTCDataChannel提供的一個(gè)信令通道，在實(shí)現(xiàn)互動的重要元素。

4.2.2 流媒體傳輸過程

建立連接需要的條件如下。

1）需獲取到雙方的IP地址和對應(yīng)端口號；

2）需獲取雙方所支持的音視頻編解碼格式等軟硬件信息。

滿足上述條件后，即可通過RTCPeerConnec?tion對象建立連接，流程如圖10。

圖10 流媒體傳輸流程

1）獲取各終端本地的音視頻媒體信息

（1）如圖10，地面站終端決定與無人機(jī)終端建立連接，首先打開無人機(jī)的攝像頭和麥克風(fēng)陣列，獲取到mediaStream，并把它添加到RTCPeerCon?nection的對象里面，然后創(chuàng)建一個(gè)本地的SDP格式（SDP涵蓋了一個(gè)指定用戶的描述、時(shí)間配置和對媒體的限制等全部信息）的offer，地面站終端將自身的會話描述對象（包含SDP描述符的offer提議信令）發(fā)送至樹莓派服務(wù)器。

（2）樹莓派服務(wù)器將地面站終端的offer通過websocket服務(wù)發(fā)送至無人機(jī)終端。

（3）無人機(jī)終端收到后創(chuàng)建一個(gè)answer，格式、作用和offer一樣，之后將自身的會話描述對象（包含SDP描述符answer應(yīng)答信令）發(fā)送至樹莓派服務(wù)器。

（4）樹莓派服務(wù)器轉(zhuǎn)發(fā)應(yīng)答至地面站終端，當(dāng)任意一方收到對方的sdp信息后就會調(diào)setRemote?Description記錄起來。

2）在無人機(jī)終端與地面站終端間建立對等連接

（1）地面站終端和無人機(jī)終端開始交互，確定訪問對方的最佳方式。

為了實(shí)現(xiàn)雙方的互聯(lián)互通，由服務(wù)器與其中一方（Peer）建立連接，而后路由器將建立一個(gè)內(nèi)網(wǎng)與外網(wǎng)端口號的映射關(guān)系并保存，服務(wù)器將一方的端口加上IP地址告知另一方（Peer），并使其用該地址進(jìn)行連接，此即STUN協(xié)議［22］。

STUN協(xié)議有效性受制于用戶的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。若路由器的映射關(guān)系既取決于內(nèi)網(wǎng)的IP與端口號，也取決于服務(wù)器的IP加端口號，此時(shí)將無法建立連接。因?yàn)榉?wù)器獲取的地址不能給另外一個(gè)外網(wǎng)的應(yīng)用程序使用（會建立不同的映射關(guān)系）。相反如果地址映射表只取決于內(nèi)網(wǎng)機(jī)器的IP和端口號則是可行的。對于無法建立連接的情況，WebRTC也提供了解決方法，TURN服務(wù)器可以在對等連接的雙方之間增加一個(gè)轉(zhuǎn)播，它可以下載、處理并重定向每一個(gè)用戶發(fā)過來的數(shù)據(jù)包

最后，ICE（Interactive Connectivity Establish?ment）則是一個(gè)將STUN和TURN結(jié)合在一起的標(biāo)準(zhǔn)，它會判斷雙方的網(wǎng)絡(luò)狀況，并用相應(yīng)的方法來建立雙方的連接。

（2）完成后，地面站終端和無人機(jī)終端開始協(xié)商通信密鑰，建立連接。

3）將媒體和數(shù)據(jù)通道關(guān)聯(lián)至該連接

地面站終端和無人機(jī)終端開始交換語音、視頻或數(shù)據(jù)，雙方建立連接成功后將會觸發(fā)onaddstream事件，提取event.stream，并對音頻應(yīng)用第3節(jié)所述維納濾波降噪算法，得到最終音視頻流媒體。

5 系統(tǒng)測試結(jié)果

為測試無人機(jī)語音系統(tǒng)的真實(shí)降噪效果，搭建了無人機(jī)語音系統(tǒng)硬件平臺，其構(gòu)成主要為四旋翼無人機(jī)、麥克風(fēng)陣列開發(fā)板、樹莓派以及攝像頭模塊。其中麥克風(fēng)陣列開發(fā)板和攝像頭模塊安裝在無人機(jī)正下方。麥克風(fēng)陣列開發(fā)板同時(shí)具備接收、發(fā)送數(shù)據(jù)功能，如圖11。

圖11 系統(tǒng)硬件實(shí)物圖

使用無人機(jī)語音系統(tǒng)硬件平臺進(jìn)行無人機(jī)懸停，地面人員喊話“測試，一、二、三”的實(shí)際錄音測試。經(jīng)測試系統(tǒng)各模塊運(yùn)行良好，降噪前后對比明顯，降噪后語音較為清晰可辨，其頻譜如圖12～13所示。

圖13 降噪處理后信號時(shí)域波形及頻譜分析

6 結(jié)語

無人機(jī)自身噪聲大，使得實(shí)現(xiàn)無人機(jī)語音系統(tǒng)成為難題，目前市面上極少有無人機(jī)語音系統(tǒng)的相關(guān)研究，這浪費(fèi)了無人機(jī)的潛在應(yīng)用價(jià)值。本文提出了一種基于維納濾波的無人機(jī)語音系統(tǒng)的實(shí)現(xiàn)方案，依照最小均方差準(zhǔn)則，獲得目標(biāo)濾波器，對含噪語音濾波獲得無語音噪聲，應(yīng)用功率譜減法，得到較純凈語音，經(jīng)測試降噪效果優(yōu)良。基于We?bRTC協(xié)議，實(shí)現(xiàn)無人機(jī)與地面站的信息交互，最終實(shí)現(xiàn)無人機(jī)語音系統(tǒng)的降噪以及音頻交互，為無人機(jī)噪音下的語音降噪提供了一種解決方案。下一步工作計(jì)劃優(yōu)化降噪算法，在爭取更好的降噪效果的同時(shí)進(jìn)一步降低系統(tǒng)延遲，進(jìn)一步優(yōu)化無人機(jī)語音系統(tǒng)。