亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于分布式麥克風(fēng)陣列的室內(nèi)拾音系統(tǒng)設(shè)計(jì)

2024-12-31 00:00:00花嶸劉元龍黃澤源

軟件工程 2024年7期

關(guān)鍵詞：分布式麥克風(fēng)陣列;聲源定位;TDOA;GCC

0 引言（Introduction

麥克風(fēng)是一種拾取聲音信號的傳感器。通過對麥克風(fēng)聲音信號的拾取調(diào)查可知，環(huán)境噪聲和混響對單個(gè)麥克風(fēng)的收音效果影響頗大[1]。目前，對語音識(shí)別、聲源定位及語音增強(qiáng)的研究，主要聚焦于麥克風(fēng)陣列技術(shù)。分布式麥克風(fēng)陣列相比于傳統(tǒng)的單麥克風(fēng)陣列，在聲源定位時(shí)具有更高的探測精度和更大的覆蓋面積，并且系統(tǒng)的穩(wěn)定性更強(qiáng)。隨著人工智能技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展，越來越多的語音交互場景出現(xiàn)在人們的日常生活中，在理想環(huán)境下，智能語音系統(tǒng)能夠識(shí)別用戶的語音指令并與其進(jìn)行交互。因此，設(shè)計(jì)一種對室內(nèi)環(huán)境具有較強(qiáng)適應(yīng)性的分布式麥克風(fēng)陣列拾音系統(tǒng)，對后續(xù)進(jìn)行語音增強(qiáng)等操作具有重要的意義。

1 背景知識(shí)（Background knowledge）

1.1 分布式麥克風(fēng)陣列

麥克風(fēng)陣列技術(shù)的實(shí)現(xiàn)原理是利用聲波抵達(dá)陣列中每個(gè)拾音點(diǎn)之間的微小時(shí)差，通過某些算法，實(shí)現(xiàn)聲源定位、聲音降噪，使得麥克風(fēng)陣列能獲得比單個(gè)麥克風(fēng)更高的指向性，也就能夠區(qū)分聲源的方向，并對感興趣方向上的聲音進(jìn)行特別的增強(qiáng)或抑制。

分布式麥克風(fēng)陣列是由多個(gè)麥克風(fēng)陣列有序地組合在一起的，與傳統(tǒng)麥克風(fēng)陣列相比，分布式麥克風(fēng)陣列沒有規(guī)則的拓?fù)浣Y(jié)構(gòu)，在空間中的擺放位置也更加隨意且靈活，因此分布式麥克風(fēng)陣列表現(xiàn)形式正朝著多樣化的方向發(fā)展，分布式麥克風(fēng)陣列的信號處理方法比傳統(tǒng)麥克風(fēng)陣列的信號處理方法更加通用和靈活。

1.2 無線聲學(xué)傳感器

無線聲學(xué)傳感器是一個(gè)低功耗器件，它由一個(gè)或多個(gè)聲傳感器、處理器、存儲(chǔ)器、電源、無線發(fā)射接收裝置及執(zhí)行器組成[2]。聲傳感器主要用于感知和測量環(huán)境信息;處理器和存儲(chǔ)器用于對數(shù)據(jù)進(jìn)行有限的處理與存儲(chǔ);電源一般由電池構(gòu)成，是分布式麥克風(fēng)陣列的主要能量來源，并且能量有限;無線發(fā)射接收裝置用于信息傳輸;執(zhí)行器主要用于進(jìn)行某種局部判別。無線聲學(xué)傳感器結(jié)構(gòu)如圖1所示。

2 傳統(tǒng)聲源定位算法的介紹（Introduction to traditional sound source localization algorithms）

隨著麥克風(fēng)技術(shù)與陣列信號處理技術(shù)的不斷發(fā)展和完善，研究者逐漸將這兩種技術(shù)運(yùn)用于聲源定位，從而得到多種聲源定位方法。傳統(tǒng)的聲源定位算法可以分為3種，分別為基于可控波束形成的聲源定位算法[3]、基于高分辨率空間譜估計(jì)的聲源定位算法[4]及基于到達(dá)時(shí)間差估計(jì)的聲源定位算法[5]。

2.1 基于聲源到達(dá)方向的算法

基于聲音信號到達(dá)入射角（Direction Of Arriva， DOA）的聲源定位方法，是最早取得廣泛應(yīng)用的一種定位技術(shù)，其中比較常見的是波束形成（Beam Forming）算法。波束形成技術(shù)的核心是波束形成器，其本質(zhì)是一個(gè)空間濾波器，通過對特定的波束模式進(jìn)行構(gòu)造，可以對空間中不同方向的信號進(jìn)行不同程度的增益，從而增大目標(biāo)方位信號，抑制其他方位信號。時(shí)延-求和（Delayand-Sum， DS）波束形成器是一種傳統(tǒng)的波束形成器，每個(gè)麥克風(fēng)的傳播延遲和聲音到達(dá)的時(shí)間差決定了每個(gè)權(quán)重。

為了讓波束形成器方向定位更準(zhǔn)確，需要將麥克風(fēng)間距變大，使主瓣盡可能地窄。但是，麥克風(fēng)間距不能無限變大。

其中：d 為麥克風(fēng)間距，c 為聲速，f 為聲源信號的頻率。d 不應(yīng)大于輸入信號波長的一半，否則會(huì)出現(xiàn)多個(gè)功率最大的主瓣，對波束形成器的搜索造成干擾，導(dǎo)致聲源定位失敗。受麥克風(fēng)陣列結(jié)構(gòu)的限制，不易通過增加麥克風(fēng)數(shù)量和增大麥克風(fēng)陣列間距的方法提高算法的分辨率，而且在室內(nèi)環(huán)境中該算法容易受到多徑效應(yīng)的影響，造成聲音波形的失真，從而影響定位結(jié)果。但是，該算法具有較快的計(jì)算速度，并且對麥克風(fēng)陣列的數(shù)量和布局要求也相對較低。

2.2 基于高分辨率空間譜估計(jì)的算法

高分辨率空間譜估計(jì)算法也是一種計(jì)算DOA的估計(jì)方法，其中代表性的算法是R.O.Schmidt等人提出的多重信號分類（Multiple Signal Classification， MUSIC）算法，該算法基于信號的空間譜分析，通過計(jì)算信號在不同方向上的功率譜密度，找到信號源的角度信息，從而實(shí)現(xiàn)對信號源的準(zhǔn)確定位。MUSIC算法的關(guān)鍵步驟包括構(gòu)建協(xié)方差矩陣、計(jì)算空間譜估計(jì)、尋找峰值和估計(jì)信號源的角度。

MUSIC算法具有較高的分辨率、較高的穩(wěn)健性，并且對陣列結(jié)構(gòu)適用面比較廣。但是，與基于波束形成的定位方法類似，當(dāng)陣元間距大于輸入信號波長的一半時(shí)，空間譜同樣會(huì)在信號源方向外的其他方向出現(xiàn)虛假譜峰，從而對定位造成干擾，降低準(zhǔn)確率。MUSIC算法需要對整個(gè)空間進(jìn)行搜索，同時(shí)搜索設(shè)計(jì)協(xié)方差運(yùn)算，雖然此算法定位精度高，但是也帶來了較高的計(jì)算復(fù)雜度，影響了算法的靈活性。

2.3 基于到達(dá)時(shí)間差的算法

基于到達(dá)時(shí)間差（Time Difference of Arrival， TDOA）的聲源定位算法是目前研究最為廣泛的一種兩步定位法。為了便于分析，將麥克風(fēng)陣列模型簡化為均勻線性陣列，聲場模型按照遠(yuǎn)場波進(jìn)行傳輸，即每個(gè)麥克風(fēng)接收到的聲音信號為平行線。如圖2所示，τij 為兩個(gè)麥克風(fēng)陣列mi 和mj 接收到的聲音信號時(shí)間差。

時(shí)間差估計(jì)常見的算法是廣義互相關(guān)算法（GeneralizedCross-Correlation， GCC），算法主要分為兩個(gè)步驟：首先對每個(gè)接收器接收到的聲音信號進(jìn)行時(shí)延估計(jì)，其次根據(jù)得到的時(shí)延結(jié)合陣列空間排布推算出聲源位置。

在現(xiàn)實(shí)環(huán)境中，由于麥克風(fēng)陣列會(huì)受到混響的影響，陣列的互相關(guān)函數(shù)波形會(huì)出現(xiàn)多個(gè)峰值，對時(shí)延的判斷產(chǎn)生影響。因此，需要在頻域引入加權(quán)函數(shù)φ，應(yīng)用相位變換加權(quán)函數(shù)PHAT[6]，其表達(dá)式為

加權(quán)函數(shù)φ 的作用是舍棄幅度信息，保留相位信息，使互相關(guān)函數(shù)的真實(shí)峰更加突出，最終求出經(jīng)過加權(quán)的互相關(guān)函數(shù)取最大值對應(yīng)的τ，即兩個(gè)麥克風(fēng)陣列之間的時(shí)延。需要特別注意的是，GCC-PHAT（權(quán)值為PHAT的廣義互相關(guān)）算法是應(yīng)用在近場模型的，因此聲源定位模型只關(guān)注聲源信號到達(dá)麥克風(fēng)陣列的角度。

TDOA算法可以實(shí)現(xiàn)較高的聲源定位精度，尤其在室內(nèi)環(huán)境中表現(xiàn)出色，并且該算法對環(huán)境噪聲和雜音的抑制能力較強(qiáng)，通過對多個(gè)麥克風(fēng)陣列接收到聲音信號的時(shí)間差進(jìn)行分析，以有效區(qū)分聲源信號和噪聲信號，提高定位的準(zhǔn)確性。但是，TDOA算法需要3個(gè)或更多麥克風(fēng)陣列測量聲波到達(dá)的時(shí)間差，這在一定程度上增加了硬件成本和系統(tǒng)復(fù)雜性，并且各個(gè)陣列的擺放位置需要進(jìn)行精確的測量與布局，增大了實(shí)際應(yīng)用的難度。

3 系統(tǒng)設(shè)計(jì)（System design）

室內(nèi)分布式麥克風(fēng)陣列拾音系統(tǒng)主要的應(yīng)用場景為客廳、臥室及廚房等室內(nèi)環(huán)境，該系統(tǒng)由感知層、傳輸層和應(yīng)用層組成，分布式麥克風(fēng)陣列拾音系統(tǒng)結(jié)構(gòu)圖如圖3所示。

3.1 系統(tǒng)各部分的組成及功能

感知層：主要由多個(gè)無線聲學(xué)傳感器陣列及中繼節(jié)點(diǎn)組成，每個(gè)陣列包含多個(gè)無線聲學(xué)傳感器，這些無線聲學(xué)傳感器負(fù)責(zé)采集環(huán)境中的聲音信息，并且都配備有無線接口，用于陣列內(nèi)彼此間的通信。每個(gè)傳感器都只能有限地處理信息或數(shù)據(jù)，并將處理之后的信息傳輸至中繼節(jié)點(diǎn)，由中繼節(jié)點(diǎn)將信息通過無線網(wǎng)絡(luò)上傳至應(yīng)用層數(shù)據(jù)庫，以便進(jìn)行后續(xù)處理。

傳輸層：主要由無線傳輸模塊和數(shù)據(jù)融合中心接收器組成，無線傳輸模塊負(fù)責(zé)上傳感知層采集的環(huán)境中的語音數(shù)據(jù)和數(shù)據(jù)融合中心接收器下發(fā)的控制命令，而數(shù)據(jù)融合中心接收器則負(fù)責(zé)接收無線傳輸模塊上傳的環(huán)境中的語音數(shù)據(jù)和下發(fā)應(yīng)用層的控制命令。

應(yīng)用層：主要由數(shù)據(jù)庫和數(shù)據(jù)融合中心組成，數(shù)據(jù)庫主要用于存放各個(gè)無線聲音傳感器陣列上傳的語音數(shù)據(jù)及陣列的狀態(tài)，數(shù)據(jù)融合中心負(fù)責(zé)將各個(gè)陣列上傳的語音數(shù)據(jù)進(jìn)行融合，便于后續(xù)進(jìn)行聲源定位、語音增強(qiáng)等操作。

3.2 近場模型和遠(yuǎn)場模型

根據(jù)聲源與麥克風(fēng)距離之間的關(guān)系，聲源產(chǎn)生的聲場模型可分為近場模型和遠(yuǎn)場模型[7]，不同聲場模型的聲音傳播特性有很大的不同。當(dāng)聲源與陣列距離較近或麥克風(fēng)陣列尺寸較大時(shí)，麥克風(fēng)之間的距離對接收聲源有較為明顯的影響。聲源以球面波的形式向外輻射傳播，聲源到達(dá)各個(gè)麥克風(fēng)的相對位置有明顯差異。當(dāng)聲源與陣列距離較遠(yuǎn)或麥克風(fēng)陣列尺寸較小時(shí)，麥克風(fēng)直徑可以忽略不計(jì)，此時(shí)麥克風(fēng)陣列被稱為小型陣列，并且可以認(rèn)為聲波信號被各個(gè)麥克風(fēng)以相同入射角接收，即平行入射。此時(shí)，對聲源入射角的確定是聲源定位的主要問題。結(jié)合房間與麥克風(fēng)陣列的普遍設(shè)置，室內(nèi)環(huán)境以近場小型陣列模型作為研究對象。近場模型和遠(yuǎn)場模型示意圖如圖4所示。

分布式麥克風(fēng)陣列中陣元間距必須滿足空間采樣定理，因此需要對陣元間距加以控制，保證陣元間距不超過采樣信號波長的長度，避免采樣信號出現(xiàn)空間混疊的情況。

3.3 麥克風(fēng)指向性選擇

麥克風(fēng)的指向性也是麥克風(fēng)的重要屬性之一[8]。常見的麥克風(fēng)可分為4種指向性，分別為全指向、心形指向、超心形指向及雙指向。其中，全指向麥克風(fēng)對于不同角度聲音的靈敏度基本相同，但容易接收到環(huán)境噪聲。心形指向麥克風(fēng)對于來自特定方向的聲音有最佳的收音效果，而對于其他方向的信號有衰減效果。超心形指向麥克風(fēng)作為心形指向麥克風(fēng)的一種變形，對于側(cè)面方向聲音的衰減更多，從而降低了回音嘯叫的風(fēng)險(xiǎn)。雙指向麥克風(fēng)可以接收麥克風(fēng)前方和后方的聲音，其在側(cè)面的靈敏度最低。因此，在系統(tǒng)麥克風(fēng)陣列的選擇上，房間中央位置選擇全指向麥克風(fēng)，這種選擇可以最大限度地覆蓋整個(gè)房間，并且能夠均勻地接收到來自各個(gè)方向的聲音，確保聲音的均衡與一致，避免聲音在房間中的某個(gè)特定區(qū)域過于強(qiáng)烈或弱化;房間角落選擇超心形指向麥克風(fēng)，以有效捕捉來自前方聲源的聲音，并且減少來自房間其他方向的背景噪聲和回聲干擾;房間邊緣則選擇雙指向麥克風(fēng)，以有效捕捉來自房間中央或前方的聲音，并減少來自房間其他方向的背景噪聲和回聲干擾。

3.4 麥克風(fēng)陣列之間的連接方式

在分布式麥克風(fēng)陣列中，各個(gè)陣列之間的信息交換一般是通過直接相連的節(jié)點(diǎn)完成的，而各個(gè)節(jié)點(diǎn)之間的連接方式分為全向連接和部分連接。本系統(tǒng)則采用全向連接方式，每個(gè)麥克風(fēng)陣列都可以和相同房間下的其他麥克風(fēng)陣列直接通信，即同一房間中的所有麥克風(fēng)陣列是相互連接的。

由于無線聲學(xué)傳感器的能量有限，所以各個(gè)麥克風(fēng)陣列可選擇使用預(yù)測喚醒模式。在此模式下，無線傳感器網(wǎng)絡(luò)中的陣列選擇性地喚醒與本陣列數(shù)據(jù)處理最相關(guān)的陣列，通過陣列的連接信息和算法需求，選擇下一時(shí)刻需要喚醒的某個(gè)或某些陣列，此種方式能得到較低的陣列能量損耗和較快的信息處理速度。

3.5 動(dòng)態(tài)簇聲源跟蹤

分布式麥克風(fēng)陣列中陣列數(shù)目眾多，若所有陣列都對目標(biāo)聲源進(jìn)行定位和跟蹤，勢必會(huì)帶來龐大的計(jì)算量負(fù)擔(dān)。分布式麥克風(fēng)陣列是一種特殊的無線傳感網(wǎng)絡(luò)，根據(jù)動(dòng)態(tài)成簇理論，在分布式麥克風(fēng)陣列初期的聲源跟蹤方法應(yīng)用中，一旦聲源靠近分布式麥克風(fēng)陣列，該目標(biāo)附近遇到陣列檢測信號后，就開始組建動(dòng)態(tài)簇，以提升分布式麥克風(fēng)陣列系統(tǒng)的運(yùn)行速度和聲源定位的效率及促進(jìn)數(shù)據(jù)融合。動(dòng)態(tài)簇聲源跟蹤過程如圖5所示。

分布式麥克風(fēng)陣列在聲源跟蹤的整個(gè)過程中，每一個(gè)陣列都會(huì)有一個(gè)跟蹤結(jié)果，所以分布式麥克風(fēng)陣列的數(shù)據(jù)在融合過程中，需要將簇內(nèi)各陣列的數(shù)據(jù)按照一定的邏輯算法進(jìn)行融合處理，以求得最精確的結(jié)果。本系統(tǒng)會(huì)根據(jù)聲源所在房間，激活當(dāng)前房間的所有麥克風(fēng)陣列組建動(dòng)態(tài)簇以進(jìn)行聲源跟蹤。

4 測試與測試結(jié)果（Testing and the results）

在室內(nèi)將麥克風(fēng)陣列按照矩形排布，具體的分布式麥克風(fēng)陣列拾音系統(tǒng)室內(nèi)分布圖如圖6所示。

測試在長為15 m、寬8 m、高3 m的房間進(jìn)行，聲源定位抽象示意圖如圖7所示。

具體的測試方案如下。

以圖7左下角為坐標(biāo)原點(diǎn)O 建立坐標(biāo)軸，聲源參考點(diǎn)記作點(diǎn)A，OA 與x 軸的夾角為θ，測量聲源點(diǎn)實(shí)際坐標(biāo)和3種算法計(jì)算得到的聲源點(diǎn)坐標(biāo)。

將DOA-BF算法、DOA-MUSIC算法、GCC-PHAT 算法分別應(yīng)用在該系統(tǒng)中進(jìn)行測試，每個(gè)算法測試5組，并統(tǒng)計(jì)系統(tǒng)給出的定位結(jié)果及反應(yīng)時(shí)間，系統(tǒng)測試數(shù)據(jù)如表1和表2所示。

反應(yīng)時(shí)間為系統(tǒng)接收到聲源的聲波信號到給出定位結(jié)果的時(shí)間，反應(yīng)時(shí)間越短，表明系統(tǒng)的反應(yīng)速度越快。由表1和表2的測試結(jié)果可知，各個(gè)算法的測試最大誤差不超過0.4 m，最大反應(yīng)時(shí)間不超過1 s。DOA-BF算法的系統(tǒng)反應(yīng)時(shí)間快，但是定位精度較低，DOA-MUSIC算法定位精度高，但是系統(tǒng)反應(yīng)時(shí)間較長，而GCC-PHAT算法定位精度較高且系統(tǒng)反應(yīng)時(shí)間較短。綜合各方面因素考慮，GCC-PHAT算法性能表現(xiàn)更均衡，因此選擇該算法作為系統(tǒng)所應(yīng)用的算法。

5 結(jié)論（Conclusion）

本文主要實(shí)現(xiàn)了室內(nèi)環(huán)境的分布式麥克風(fēng)陣列拾音系統(tǒng)的設(shè)計(jì)，從系統(tǒng)的分層設(shè)計(jì)到無線聲學(xué)傳感器的選擇，再到聲源定位算法的選擇，均與室內(nèi)環(huán)境有較高的適配性，但系統(tǒng)未給信號做降噪的預(yù)處理，因此在嘈雜的環(huán)境下，系統(tǒng)的整體精度稍有下降。在當(dāng)今設(shè)備的使用環(huán)境中，聲源定位只是其中的一個(gè)方面，環(huán)境中的人員與攜帶麥克風(fēng)陣列設(shè)備的交互、不同位置的人員通過語音控制不同的功能，這背后除了聲源定位，還需要應(yīng)用語音增強(qiáng)技術(shù)，并對系統(tǒng)的功能模塊做進(jìn)一步的完善，以滿足更多的需求。

軟件工程2024年7期

軟件工程的其它文章: 基于不變量的軟件可靠性計(jì)算; 基于改進(jìn)實(shí)用拜占庭容錯(cuò)的可信分布式區(qū)塊鏈信任機(jī)制研究; 基于三角形相似性的點(diǎn)云配準(zhǔn)算法; 基于TE-NeuS的人體頭部三維重建; 影響織疵產(chǎn)生的灰色關(guān)聯(lián)分析; 基于布隆過濾器的零知識(shí)集成員證明效率提升