亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式麥克風(fēng)陣列的室內(nèi)拾音系統(tǒng)設(shè)計(jì)

        2024-12-31 00:00:00花嶸劉元龍黃澤源
        軟件工程 2024年7期

        關(guān)鍵詞:分布式麥克風(fēng)陣列;聲源定位;TDOA;GCC

        0 引言(Introduction

        麥克風(fēng)是一種拾取聲音信號的傳感器。通過對麥克風(fēng)聲音信號的拾取調(diào)查可知,環(huán)境噪聲和混響對單個(gè)麥克風(fēng)的收音效果影響頗大[1]。目前,對語音識(shí)別、聲源定位及語音增強(qiáng)的研究,主要聚焦于麥克風(fēng)陣列技術(shù)。分布式麥克風(fēng)陣列相比于傳統(tǒng)的單麥克風(fēng)陣列,在聲源定位時(shí)具有更高的探測精度和更大的覆蓋面積,并且系統(tǒng)的穩(wěn)定性更強(qiáng)。隨著人工智能技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,越來越多的語音交互場景出現(xiàn)在人們的日常生活中,在理想環(huán)境下,智能語音系統(tǒng)能夠識(shí)別用戶的語音指令并與其進(jìn)行交互。因此,設(shè)計(jì)一種對室內(nèi)環(huán)境具有較強(qiáng)適應(yīng)性的分布式麥克風(fēng)陣列拾音系統(tǒng),對后續(xù)進(jìn)行語音增強(qiáng)等操作具有重要的意義。

        1 背景知識(shí)(Background knowledge)

        1.1 分布式麥克風(fēng)陣列

        麥克風(fēng)陣列技術(shù)的實(shí)現(xiàn)原理是利用聲波抵達(dá)陣列中每個(gè)拾音點(diǎn)之間的微小時(shí)差,通過某些算法,實(shí)現(xiàn)聲源定位、聲音降噪,使得麥克風(fēng)陣列能獲得比單個(gè)麥克風(fēng)更高的指向性,也就能夠區(qū)分聲源的方向,并對感興趣方向上的聲音進(jìn)行特別的增強(qiáng)或抑制。

        分布式麥克風(fēng)陣列是由多個(gè)麥克風(fēng)陣列有序地組合在一起的,與傳統(tǒng)麥克風(fēng)陣列相比,分布式麥克風(fēng)陣列沒有規(guī)則的拓?fù)浣Y(jié)構(gòu),在空間中的擺放位置也更加隨意且靈活,因此分布式麥克風(fēng)陣列表現(xiàn)形式正朝著多樣化的方向發(fā)展,分布式麥克風(fēng)陣列的信號處理方法比傳統(tǒng)麥克風(fēng)陣列的信號處理方法更加通用和靈活。

        1.2 無線聲學(xué)傳感器

        無線聲學(xué)傳感器是一個(gè)低功耗器件,它由一個(gè)或多個(gè)聲傳感器、處理器、存儲(chǔ)器、電源、無線發(fā)射接收裝置及執(zhí)行器組成[2]。聲傳感器主要用于感知和測量環(huán)境信息;處理器和存儲(chǔ)器用于對數(shù)據(jù)進(jìn)行有限的處理與存儲(chǔ);電源一般由電池構(gòu)成,是分布式麥克風(fēng)陣列的主要能量來源,并且能量有限;無線發(fā)射接收裝置用于信息傳輸;執(zhí)行器主要用于進(jìn)行某種局部判別。無線聲學(xué)傳感器結(jié)構(gòu)如圖1所示。

        2 傳統(tǒng)聲源定位算法的介紹(Introduction to traditional sound source localization algorithms)

        隨著麥克風(fēng)技術(shù)與陣列信號處理技術(shù)的不斷發(fā)展和完善,研究者逐漸將這兩種技術(shù)運(yùn)用于聲源定位,從而得到多種聲源定位方法。傳統(tǒng)的聲源定位算法可以分為3種,分別為基于可控波束形成的聲源定位算法[3]、基于高分辨率空間譜估計(jì)的聲源定位算法[4]及基于到達(dá)時(shí)間差估計(jì)的聲源定位算法[5]。

        2.1 基于聲源到達(dá)方向的算法

        基于聲音信號到達(dá)入射角(Direction Of Arriva, DOA)的聲源定位方法,是最早取得廣泛應(yīng)用的一種定位技術(shù),其中比較常見的是波束形成(Beam Forming)算法。波束形成技術(shù)的核心是波束形成器,其本質(zhì)是一個(gè)空間濾波器,通過對特定的波束模式進(jìn)行構(gòu)造,可以對空間中不同方向的信號進(jìn)行不同程度的增益,從而增大目標(biāo)方位信號,抑制其他方位信號。時(shí)延-求和(Delayand-Sum, DS)波束形成器是一種傳統(tǒng)的波束形成器,每個(gè)麥克風(fēng)的傳播延遲和聲音到達(dá)的時(shí)間差決定了每個(gè)權(quán)重。

        為了讓波束形成器方向定位更準(zhǔn)確,需要將麥克風(fēng)間距變大,使主瓣盡可能地窄。但是,麥克風(fēng)間距不能無限變大。

        其中:d 為麥克風(fēng)間距,c 為聲速,f 為聲源信號的頻率。d 不應(yīng)大于輸入信號波長的一半,否則會(huì)出現(xiàn)多個(gè)功率最大的主瓣,對波束形成器的搜索造成干擾,導(dǎo)致聲源定位失敗。受麥克風(fēng)陣列結(jié)構(gòu)的限制,不易通過增加麥克風(fēng)數(shù)量和增大麥克風(fēng)陣列間距的方法提高算法的分辨率,而且在室內(nèi)環(huán)境中該算法容易受到多徑效應(yīng)的影響,造成聲音波形的失真,從而影響定位結(jié)果。但是,該算法具有較快的計(jì)算速度,并且對麥克風(fēng)陣列的數(shù)量和布局要求也相對較低。

        2.2 基于高分辨率空間譜估計(jì)的算法

        高分辨率空間譜估計(jì)算法也是一種計(jì)算DOA的估計(jì)方法,其中代表性的算法是R.O.Schmidt等人提出的多重信號分類(Multiple Signal Classification, MUSIC)算法,該算法基于信號的空間譜分析,通過計(jì)算信號在不同方向上的功率譜密度,找到信號源的角度信息,從而實(shí)現(xiàn)對信號源的準(zhǔn)確定位。MUSIC算法的關(guān)鍵步驟包括構(gòu)建協(xié)方差矩陣、計(jì)算空間譜估計(jì)、尋找峰值和估計(jì)信號源的角度。

        MUSIC算法具有較高的分辨率、較高的穩(wěn)健性,并且對陣列結(jié)構(gòu)適用面比較廣。但是,與基于波束形成的定位方法類似,當(dāng)陣元間距大于輸入信號波長的一半時(shí),空間譜同樣會(huì)在信號源方向外的其他方向出現(xiàn)虛假譜峰,從而對定位造成干擾,降低準(zhǔn)確率。MUSIC算法需要對整個(gè)空間進(jìn)行搜索,同時(shí)搜索設(shè)計(jì)協(xié)方差運(yùn)算,雖然此算法定位精度高,但是也帶來了較高的計(jì)算復(fù)雜度,影響了算法的靈活性。

        2.3 基于到達(dá)時(shí)間差的算法

        基于到達(dá)時(shí)間差(Time Difference of Arrival, TDOA)的聲源定位算法是目前研究最為廣泛的一種兩步定位法。為了便于分析,將麥克風(fēng)陣列模型簡化為均勻線性陣列,聲場模型按照遠(yuǎn)場波進(jìn)行傳輸,即每個(gè)麥克風(fēng)接收到的聲音信號為平行線。如圖2所示,τij 為兩個(gè)麥克風(fēng)陣列mi 和mj 接收到的聲音信號時(shí)間差。

        時(shí)間差估計(jì)常見的算法是廣義互相關(guān)算法(GeneralizedCross-Correlation, GCC),算法主要分為兩個(gè)步驟:首先對每個(gè)接收器接收到的聲音信號進(jìn)行時(shí)延估計(jì),其次根據(jù)得到的時(shí)延結(jié)合陣列空間排布推算出聲源位置。

        在現(xiàn)實(shí)環(huán)境中,由于麥克風(fēng)陣列會(huì)受到混響的影響,陣列的互相關(guān)函數(shù)波形會(huì)出現(xiàn)多個(gè)峰值,對時(shí)延的判斷產(chǎn)生影響。因此,需要在頻域引入加權(quán)函數(shù)φ,應(yīng)用相位變換加權(quán)函數(shù)PHAT[6],其表達(dá)式為

        加權(quán)函數(shù)φ 的作用是舍棄幅度信息,保留相位信息,使互相關(guān)函數(shù)的真實(shí)峰更加突出,最終求出經(jīng)過加權(quán)的互相關(guān)函數(shù)取最大值對應(yīng)的τ,即兩個(gè)麥克風(fēng)陣列之間的時(shí)延。需要特別注意的是,GCC-PHAT(權(quán)值為PHAT的廣義互相關(guān))算法是應(yīng)用在近場模型的,因此聲源定位模型只關(guān)注聲源信號到達(dá)麥克風(fēng)陣列的角度。

        TDOA算法可以實(shí)現(xiàn)較高的聲源定位精度,尤其在室內(nèi)環(huán)境中表現(xiàn)出色,并且該算法對環(huán)境噪聲和雜音的抑制能力較強(qiáng),通過對多個(gè)麥克風(fēng)陣列接收到聲音信號的時(shí)間差進(jìn)行分析,以有效區(qū)分聲源信號和噪聲信號,提高定位的準(zhǔn)確性。但是,TDOA算法需要3個(gè)或更多麥克風(fēng)陣列測量聲波到達(dá)的時(shí)間差,這在一定程度上增加了硬件成本和系統(tǒng)復(fù)雜性,并且各個(gè)陣列的擺放位置需要進(jìn)行精確的測量與布局,增大了實(shí)際應(yīng)用的難度。

        3 系統(tǒng)設(shè)計(jì)(System design)

        室內(nèi)分布式麥克風(fēng)陣列拾音系統(tǒng)主要的應(yīng)用場景為客廳、臥室及廚房等室內(nèi)環(huán)境,該系統(tǒng)由感知層、傳輸層和應(yīng)用層組成,分布式麥克風(fēng)陣列拾音系統(tǒng)結(jié)構(gòu)圖如圖3所示。

        3.1 系統(tǒng)各部分的組成及功能

        感知層:主要由多個(gè)無線聲學(xué)傳感器陣列及中繼節(jié)點(diǎn)組成,每個(gè)陣列包含多個(gè)無線聲學(xué)傳感器,這些無線聲學(xué)傳感器負(fù)責(zé)采集環(huán)境中的聲音信息,并且都配備有無線接口,用于陣列內(nèi)彼此間的通信。每個(gè)傳感器都只能有限地處理信息或數(shù)據(jù),并將處理之后的信息傳輸至中繼節(jié)點(diǎn),由中繼節(jié)點(diǎn)將信息通過無線網(wǎng)絡(luò)上傳至應(yīng)用層數(shù)據(jù)庫,以便進(jìn)行后續(xù)處理。

        傳輸層:主要由無線傳輸模塊和數(shù)據(jù)融合中心接收器組成,無線傳輸模塊負(fù)責(zé)上傳感知層采集的環(huán)境中的語音數(shù)據(jù)和數(shù)據(jù)融合中心接收器下發(fā)的控制命令,而數(shù)據(jù)融合中心接收器則負(fù)責(zé)接收無線傳輸模塊上傳的環(huán)境中的語音數(shù)據(jù)和下發(fā)應(yīng)用層的控制命令。

        應(yīng)用層:主要由數(shù)據(jù)庫和數(shù)據(jù)融合中心組成,數(shù)據(jù)庫主要用于存放各個(gè)無線聲音傳感器陣列上傳的語音數(shù)據(jù)及陣列的狀態(tài),數(shù)據(jù)融合中心負(fù)責(zé)將各個(gè)陣列上傳的語音數(shù)據(jù)進(jìn)行融合,便于后續(xù)進(jìn)行聲源定位、語音增強(qiáng)等操作。

        3.2 近場模型和遠(yuǎn)場模型

        根據(jù)聲源與麥克風(fēng)距離之間的關(guān)系,聲源產(chǎn)生的聲場模型可分為近場模型和遠(yuǎn)場模型[7],不同聲場模型的聲音傳播特性有很大的不同。當(dāng)聲源與陣列距離較近或麥克風(fēng)陣列尺寸較大時(shí),麥克風(fēng)之間的距離對接收聲源有較為明顯的影響。聲源以球面波的形式向外輻射傳播,聲源到達(dá)各個(gè)麥克風(fēng)的相對位置有明顯差異。當(dāng)聲源與陣列距離較遠(yuǎn)或麥克風(fēng)陣列尺寸較小時(shí),麥克風(fēng)直徑可以忽略不計(jì),此時(shí)麥克風(fēng)陣列被稱為小型陣列,并且可以認(rèn)為聲波信號被各個(gè)麥克風(fēng)以相同入射角接收,即平行入射。此時(shí),對聲源入射角的確定是聲源定位的主要問題。結(jié)合房間與麥克風(fēng)陣列的普遍設(shè)置,室內(nèi)環(huán)境以近場小型陣列模型作為研究對象。近場模型和遠(yuǎn)場模型示意圖如圖4所示。

        分布式麥克風(fēng)陣列中陣元間距必須滿足空間采樣定理,因此需要對陣元間距加以控制,保證陣元間距不超過采樣信號波長的長度,避免采樣信號出現(xiàn)空間混疊的情況。

        3.3 麥克風(fēng)指向性選擇

        麥克風(fēng)的指向性也是麥克風(fēng)的重要屬性之一[8]。常見的麥克風(fēng)可分為4種指向性,分別為全指向、心形指向、超心形指向及雙指向。其中,全指向麥克風(fēng)對于不同角度聲音的靈敏度基本相同,但容易接收到環(huán)境噪聲。心形指向麥克風(fēng)對于來自特定方向的聲音有最佳的收音效果,而對于其他方向的信號有衰減效果。超心形指向麥克風(fēng)作為心形指向麥克風(fēng)的一種變形,對于側(cè)面方向聲音的衰減更多,從而降低了回音嘯叫的風(fēng)險(xiǎn)。雙指向麥克風(fēng)可以接收麥克風(fēng)前方和后方的聲音,其在側(cè)面的靈敏度最低。因此,在系統(tǒng)麥克風(fēng)陣列的選擇上,房間中央位置選擇全指向麥克風(fēng),這種選擇可以最大限度地覆蓋整個(gè)房間,并且能夠均勻地接收到來自各個(gè)方向的聲音,確保聲音的均衡與一致,避免聲音在房間中的某個(gè)特定區(qū)域過于強(qiáng)烈或弱化;房間角落選擇超心形指向麥克風(fēng),以有效捕捉來自前方聲源的聲音,并且減少來自房間其他方向的背景噪聲和回聲干擾;房間邊緣則選擇雙指向麥克風(fēng),以有效捕捉來自房間中央或前方的聲音,并減少來自房間其他方向的背景噪聲和回聲干擾。

        3.4 麥克風(fēng)陣列之間的連接方式

        在分布式麥克風(fēng)陣列中,各個(gè)陣列之間的信息交換一般是通過直接相連的節(jié)點(diǎn)完成的,而各個(gè)節(jié)點(diǎn)之間的連接方式分為全向連接和部分連接。本系統(tǒng)則采用全向連接方式,每個(gè)麥克風(fēng)陣列都可以和相同房間下的其他麥克風(fēng)陣列直接通信,即同一房間中的所有麥克風(fēng)陣列是相互連接的。

        由于無線聲學(xué)傳感器的能量有限,所以各個(gè)麥克風(fēng)陣列可選擇使用預(yù)測喚醒模式。在此模式下,無線傳感器網(wǎng)絡(luò)中的陣列選擇性地喚醒與本陣列數(shù)據(jù)處理最相關(guān)的陣列,通過陣列的連接信息和算法需求,選擇下一時(shí)刻需要喚醒的某個(gè)或某些陣列,此種方式能得到較低的陣列能量損耗和較快的信息處理速度。

        3.5 動(dòng)態(tài)簇聲源跟蹤

        分布式麥克風(fēng)陣列中陣列數(shù)目眾多,若所有陣列都對目標(biāo)聲源進(jìn)行定位和跟蹤,勢必會(huì)帶來龐大的計(jì)算量負(fù)擔(dān)。分布式麥克風(fēng)陣列是一種特殊的無線傳感網(wǎng)絡(luò),根據(jù)動(dòng)態(tài)成簇理論,在分布式麥克風(fēng)陣列初期的聲源跟蹤方法應(yīng)用中,一旦聲源靠近分布式麥克風(fēng)陣列,該目標(biāo)附近遇到陣列檢測信號后,就開始組建動(dòng)態(tài)簇,以提升分布式麥克風(fēng)陣列系統(tǒng)的運(yùn)行速度和聲源定位的效率及促進(jìn)數(shù)據(jù)融合。動(dòng)態(tài)簇聲源跟蹤過程如圖5所示。

        分布式麥克風(fēng)陣列在聲源跟蹤的整個(gè)過程中,每一個(gè)陣列都會(huì)有一個(gè)跟蹤結(jié)果,所以分布式麥克風(fēng)陣列的數(shù)據(jù)在融合過程中,需要將簇內(nèi)各陣列的數(shù)據(jù)按照一定的邏輯算法進(jìn)行融合處理,以求得最精確的結(jié)果。本系統(tǒng)會(huì)根據(jù)聲源所在房間,激活當(dāng)前房間的所有麥克風(fēng)陣列組建動(dòng)態(tài)簇以進(jìn)行聲源跟蹤。

        4 測試與測試結(jié)果(Testing and the results)

        在室內(nèi)將麥克風(fēng)陣列按照矩形排布,具體的分布式麥克風(fēng)陣列拾音系統(tǒng)室內(nèi)分布圖如圖6所示。

        測試在長為15 m、寬8 m、高3 m的房間進(jìn)行,聲源定位抽象示意圖如圖7所示。

        具體的測試方案如下。

        以圖7左下角為坐標(biāo)原點(diǎn)O 建立坐標(biāo)軸,聲源參考點(diǎn)記作點(diǎn)A,OA 與x 軸的夾角為θ,測量聲源點(diǎn)實(shí)際坐標(biāo)和3種算法計(jì)算得到的聲源點(diǎn)坐標(biāo)。

        將DOA-BF算法、DOA-MUSIC算法、GCC-PHAT 算法分別應(yīng)用在該系統(tǒng)中進(jìn)行測試,每個(gè)算法測試5組,并統(tǒng)計(jì)系統(tǒng)給出的定位結(jié)果及反應(yīng)時(shí)間,系統(tǒng)測試數(shù)據(jù)如表1和表2所示。

        反應(yīng)時(shí)間為系統(tǒng)接收到聲源的聲波信號到給出定位結(jié)果的時(shí)間,反應(yīng)時(shí)間越短,表明系統(tǒng)的反應(yīng)速度越快。由表1和表2的測試結(jié)果可知,各個(gè)算法的測試最大誤差不超過0.4 m,最大反應(yīng)時(shí)間不超過1 s。DOA-BF算法的系統(tǒng)反應(yīng)時(shí)間快,但是定位精度較低,DOA-MUSIC算法定位精度高,但是系統(tǒng)反應(yīng)時(shí)間較長,而GCC-PHAT算法定位精度較高且系統(tǒng)反應(yīng)時(shí)間較短。綜合各方面因素考慮,GCC-PHAT算法性能表現(xiàn)更均衡,因此選擇該算法作為系統(tǒng)所應(yīng)用的算法。

        5 結(jié)論(Conclusion)

        本文主要實(shí)現(xiàn)了室內(nèi)環(huán)境的分布式麥克風(fēng)陣列拾音系統(tǒng)的設(shè)計(jì),從系統(tǒng)的分層設(shè)計(jì)到無線聲學(xué)傳感器的選擇,再到聲源定位算法的選擇,均與室內(nèi)環(huán)境有較高的適配性,但系統(tǒng)未給信號做降噪的預(yù)處理,因此在嘈雜的環(huán)境下,系統(tǒng)的整體精度稍有下降。在當(dāng)今設(shè)備的使用環(huán)境中,聲源定位只是其中的一個(gè)方面,環(huán)境中的人員與攜帶麥克風(fēng)陣列設(shè)備的交互、不同位置的人員通過語音控制不同的功能,這背后除了聲源定位,還需要應(yīng)用語音增強(qiáng)技術(shù),并對系統(tǒng)的功能模塊做進(jìn)一步的完善,以滿足更多的需求。

        美女与黑人巨大进入免费观看| 久久久久久久久久久国产| 久久久久亚洲av无码观看| 91网红福利精品区一区二| 一本久道视频无线视频试看| 人妻有码av中文幕久久| 边添小泬边狠狠躁视频| 亚洲国产精品综合久久网各| 国内揄拍国内精品少妇| 久久不见久久见免费影院www| 国产成人免费a在线视频| 久久高潮少妇视频免费| 精品熟女视频一区二区三区国产| 爽爽影院免费观看| 亚洲欧美国产国产综合一区| 日本a级特黄特黄刺激大片| 国产一区二区三区杨幂| 免费看片的网站国产亚洲| 国产无套内射又大又猛又粗又爽 | 国内揄拍国内精品人妻久久 | 免费成人电影在线观看| 初女破初的视频| 欧美视频九九一区二区| 99熟妇人妻精品一区五一看片 | 日本一区二区三区一级片| 男女视频网站在线观看| 内射中出日韩无国产剧情| 亚洲熟妇无码八av在线播放| 亚洲无码a∨在线视频| 亚洲一区二区三区av色婷婷| 国产自拍视频在线观看免费| 无码人妻精品一区二区三| 亚洲精品一区二区三区大桥未久| 天天中文字幕av天天爽| aa日韩免费精品视频一| 国产实拍日韩精品av在线| 人人人妻人人澡人人爽欧美一区 | 国产一级三级三级在线视| 91极品尤物国产在线播放| 国产偷闻女邻居av在线观看| 麻豆亚洲一区|