亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于視聽感知替代的虛擬環(huán)繞聲導盲系統(tǒng)設計

2023-01-09 11:22:16楊新宇張國寧王新鈺

山東科技大學學報(自然科學版) 2022年6期

陸翔，吳冕，楊新宇，張國寧，王新鈺

(山東科技大學電子信息工程學院，山東青島 266590)

世界衛(wèi)生組織估計全世界有盲人約4 000～4 500萬，低視力人群的數(shù)量是盲人的3倍。截至2019年，中國的盲人數(shù)達到1 700萬[1]。隨著視障人士數(shù)量的逐年增加，解決視障人士的出行問題成為熱門問題。近年來，隨著該領域相關技術的快速發(fā)展，國內(nèi)外研發(fā)了不同解決方案的導盲系統(tǒng)，其中障礙物檢測與人機交互是相關研究的重點領域。

在導盲設備研究領域，目前障礙物檢測方法主要有雷達[2]、紅外[3]以及圖像檢測[4]。其中，便攜式三維激光雷達價格昂貴，紅外難以檢測垂直方向障礙物，而圖像檢測方法尚未廣泛應用。但隨著相關研究的不斷推進，有研究表明[5]大多數(shù)視障人士的心理障礙遠大于周圍事物對他們造成的障礙。目前大多數(shù)研究著重關注導盲系統(tǒng)的功能性問題，采取多樣的障礙物檢測方式，但往往忽略了視障人士的心理狀態(tài)。盡管也有導盲系統(tǒng)使用語言提示的方式將導盲信息以語言播報的方式提供給使用者[6]，但通常忽略了人腦在處理聲音信息時，不夠直觀的信息對視障群體造成的認知壓力[7]過大的問題。目前大多數(shù)價格適中的導盲設備無法檢測到垂直方向上的障礙物，對于常使用導盲拐杖的視障人群而言，地面上的障礙物已不是最大的安全隱患。因此迫切需要一種方法，能在檢測到水平及垂直方向障礙物的同時，兼顧解決視障群體認知壓力的問題。

本研究提出一種將視聽融合與虛擬環(huán)繞聲技術融入導盲系統(tǒng)的設計方案，緩解視障人士在使用相關導盲輔助設備時所帶來的認知壓力過大的問題。方案采用圖像障礙物檢測的方式獲取障礙物相關信息，首先提取圖像的輪廓或者特征點，在兩幅或者多幅圖像中進行匹配，利用得到的視差圖計算障礙物的大小、距離、位置等信息，然后將圖像映射為聲音，利用頭相關傳輸函數(shù)實現(xiàn)虛擬環(huán)繞聲，將障礙物信息映射為聲音的音長、頻率和方位，實現(xiàn)系統(tǒng)的導盲功能。該方案在應對復雜多變環(huán)境時有著明顯優(yōu)勢，并且能夠提供足夠的準確度以及穩(wěn)定性，為降低視障群體的認知壓力提供一種新的途徑。

1 理論背景

1.1 映射音頻產(chǎn)生原理

聲音從聲源傳輸?shù)饺说碾p耳過程中，左耳和右耳不是在同一時刻接收到音頻信號的，而是存在一個很小的時間差，該時間差就是雙耳時間差[8]；且由于距離不同，空氣等媒質對聲音的衰減不同，左耳和右耳接收到的聲音強度也不一樣，這個強度差值就是雙耳強度差，如圖1所示。從圖1可以看出，距離聲源遠的耳朵接收到聲音時間比距離聲源近的耳朵接收到聲音的時間更長、聲音強度更小。

圖1 雙耳時間、強度差示意圖

1.2 頭相關傳輸函數(shù)

目前已有相關研究提出了更符合人聽覺特性的頻域傳輸函數(shù)——頭相關傳輸函數(shù)(head-related transfer functions，HRTF)[9-10]。HRTF是一組頻域濾波器，用來描述聲音從聲源傳輸?shù)蕉涞倪^程。HRTF的定義為：

(1)

式中：PL為聲源到左耳的復數(shù)聲壓，PR為聲源到右耳的復數(shù)聲壓，P0為假設人頭部消失時中心處的復數(shù)聲壓，θ為水平方位角，φ為垂直方位角，r為聲源到人頭部中心的距離，ω為聲音的角頻率，α為人的頭部大小。

2 基于視聽融合的導盲系統(tǒng)設計

為了實現(xiàn)輔助導盲并緩解使用者認知壓力，并且在較為復雜的環(huán)境下，如果無法解決垂直方向的障礙物識別問題，將混淆使用者對障礙物方位的判斷。因此，本研究采用虛擬環(huán)繞聲作為提示音，提示使用者障礙物的方位、距離、大小等信息。在獲取3個音頻參數(shù)之前，需要對攝像頭進行預處理，獲得優(yōu)化的圖像后計算與障礙物的3個參數(shù)相對應的音頻參數(shù)，進行圖像聲音映射與虛擬環(huán)繞聲的合成，最后通過耳機輸出音頻。本設計解決了大多數(shù)方案在垂直方向上識別障礙物方位困難的問題，解決了文獻[2]的雷達方案與文獻[3]的紅外方案只能實現(xiàn)水平方向上對障礙物檢測的局限?？傮w方案流程如圖2所示。

圖2 導盲系統(tǒng)流程圖

2.1 圖像采集預處理

為采集到較為準確、穩(wěn)定的圖像，本研究首先利用MATLAB的立體相機校準工具箱對所使用的攝像頭進行相機標定，標定方法參考文獻[11]，用雙目攝像機在不同角度拍攝標定板，通過標定板上的棋盤格角點位置，結合多個圖像，求解出標定參數(shù)，具體標定流程如圖3所示。完成標定后，獲得雙目攝像頭的相關參數(shù)，如表1所示。運用畸變向量、旋轉矩陣等對原始圖像進行矯正。對矯正后的兩張圖片進行像素點匹配，并根據(jù)計算結果得到深度圖。

圖3 MATLAB 工具箱標定流程

2.2 立體匹配獲取深度圖

完成標定之后可以采集并處理得到具有精確參數(shù)的圖像。由于雙目攝像頭拍攝獲得的圖片無法直接用來獲取本研究所需的參數(shù)，需要利用立體匹配將圖片處理為深度圖——通過圖像中某空間點計算出該點與相機的距離。立體匹配利用OpenCV(open computer vision)自有BM(block matching)算法完成，流程如圖4所示。該算法為局部匹配算法，處理速度快。

圖4 OpenCV BM算法實現(xiàn)流程圖

進行立體匹配獲得的深度圖有較多的噪點和部分錯誤匹配的點，對其進行空洞填充和中值濾波后能夠得到修復后的深度圖。原圖、未經(jīng)修復的深度圖以及修復后的深度圖對比如圖5所示。

圖5 修復前后對比圖

對修復后的深度圖，選擇連通面積最大的一個區(qū)域，計算大小參數(shù)、中心點坐標(x，y)，并計算平均距離d。為了獲取本研究所需參數(shù)，首先對修復后的深度圖進行閾值分割獲得二值化圖像，然后進行連通區(qū)域識別，獲得連通區(qū)域數(shù)目、中心點坐標、面積等信息，用以計算距離最近和面積最大障礙物的映射參數(shù)。這里只計算深度圖障礙物的平均距離，也就是深度圖障礙物區(qū)域的平均像素值，最終效果如圖6所示。

圖6 距離最近或面積最大的障礙物

2.3 映射方案設計

為了能夠讓使用者直觀地感受到映射出的音頻參數(shù)與上述參數(shù)的關系，符合常人的聲音分辨習慣，本研究將獲取到的障礙物位置、大小、距離等參數(shù)分別通過各自的映射方案映射為音頻中的方位、音長、頻率[12]，映射參數(shù)如表2所示。

表2 提示音參數(shù)區(qū)間

音長0.1 s對應小障礙物，1 s對應最大障礙物。頻率500 Hz對應遠距離障礙物，聲音柔和；1 500 Hz對應最近距離障礙物，聲音尖銳，以此提醒使用者更加警覺。方位采用HRTF數(shù)據(jù)庫表示方法。

2.3.1 障礙物大小與距離映射

障礙物大小的映射方法與距離的映射方法類似，均為直接映射方式。其中，障礙物的像素個數(shù)映射區(qū)間為[500，4 000]，對應的音長區(qū)間為[0.1 s，1 s]，映射關系為：

(2)

式中：s為映射的大小量；t為映射后的音長，ms。

距離的映射區(qū)間為[300 mm, 3 000 mm]，對應的頻率區(qū)間為[500 Hz, 1 500 Hz]，映射關系為：

(3)

式中：d為映射的平均距離，mm；f為映射后的頻率，Hz。

通過上述映射關系式，可將參數(shù)s映射為音長t，參數(shù)d映射為頻率f。

2.3.2 障礙物方位映射

1) 圖像像素方位到角度轉換

由于圖像像素方位和該像素點現(xiàn)實中角度方位的映射不是線性關系，因此需要把圖像像素方位轉換到角度方位，轉換方法如圖7所示。

圖7 像素角度轉換示意圖

圖7(a)中，扇形為視野范圍[-65°, 65°]，BA為圖像平面水平方向的正半軸方向，∠BOA為65°，可得：

(4)

式中，dAB、dBP分別為圖7中AB、BP的距離。從而得到映射角

(5)

同理可以得：

(6)

式中，hCP、hOD分別為圖7中CP、OD的高度。

借助現(xiàn)有HRTF數(shù)據(jù)庫實現(xiàn)虛擬立體環(huán)繞聲[13]，通過查找α、β在HRTF數(shù)據(jù)庫中對應的頭相關沖激響應 (head-related impulse response，HRIR)，將此HRIR數(shù)據(jù)與合成聲音進行時域卷積，即可實現(xiàn)方位的映射。其中HRIR為HRTF的時域表示，可由傅里葉逆變換得出。

2) 方案實施

方位映射的流程如圖8所示。首先得到物體中心的像素數(shù)據(jù)，將像素數(shù)據(jù)坐標轉化為角度坐標，然后在HRTF數(shù)據(jù)庫中查找最接近該方位的HRIR數(shù)據(jù)位置，最后將該數(shù)據(jù)用于后續(xù)的虛擬環(huán)繞聲合成。

圖8 方位映射流程圖

2.4 虛擬環(huán)繞聲合成

首先利用Python中Numpy庫的相關函數(shù)產(chǎn)生音頻，并對音頻信號進行時域卷積；然后從HRIR數(shù)據(jù)庫中提取左、右耳對應方向上的HRIR數(shù)據(jù)，利用相關卷積函數(shù)對其進行時域卷積得到左、右聲道的音頻文件，并將其合并得到輸出的雙聲道音頻文件；最后將獲取的音頻文件用于音頻設備輸出，為使用者提供導盲功能。

3 試驗結果驗證與分析

3.1 試驗數(shù)據(jù)

本研究采用CIPIC(center for image processing and integrated computing)機構[14]測量的多人數(shù)據(jù)集，該數(shù)據(jù)集有多人的HRTF數(shù)據(jù)且公開發(fā)布，每組數(shù)據(jù)均包含個體特征的測量值，對每個個體測量了1 250個方位的沖激響應。

HRTF在時域中有以下關系：

y(n)=u(n)?h(n)。

(7)

式中：n為離散時間序列，?表示卷積運算，h(n)為HRIR，u(n)為原始音頻序列，y(n)為時域卷積的結果。將左、右聲道的聲音分別與對應的HRIR進行卷積后得到y(tǒng)L(n)和yR(n)，然后將二者合成為雙聲道立體聲yS(n)，通過耳機輸出到人雙耳中。

HRIR數(shù)據(jù)分為左耳和右耳數(shù)據(jù)。單耳的1 250個方位的數(shù)據(jù)構成25×50×200的三維矩陣，分別對應水平方位角(圖9(a))、垂直方位角(圖9(b))及對應數(shù)據(jù)[15]。對于虛擬環(huán)繞聲的生成來說，HRIR數(shù)據(jù)最為重要，其直接與待處理音頻對應聲道時域卷積，參與虛擬環(huán)繞聲的生成過程。

圖9 CIPIC HRTF數(shù)據(jù)方位角示例

1) 水平方位角

水平方位角數(shù)據(jù)一共25個方向，如圖9(a)所示。假定使用者正前方為0°，左側為-90°，右側為90°，則這25組數(shù)據(jù)分布在-80°、-65°、-55°、80°、65°、55°等6個方向和-45°～45°中每5°間隔共19個方向上。

2) 垂直方位角

垂直方位角為均勻分布，如圖9(b)所示，從-45°開始逆時針轉到人體后側230.625°，方位間隔為5.625°。對于每個方位來說，其數(shù)據(jù)是采樣頻率為44.1 kHz的沖激響應函數(shù)。如圖10所示，顯示了水平方位角0°、垂直方位角0°時左耳的HRIR數(shù)據(jù)。

圖10 水平和垂直方位角均為0°時左耳HRIR數(shù)據(jù)

測試好HRIR數(shù)據(jù)后，利用Python的Numpy庫、Simpleaudio庫進行音頻生成與輸出。

3.2 障礙識別及聲音映射準確度試驗

3.2.1 障礙識別試驗

為了便于使用者正確識別障礙物的大小、方位和距離，耳機中播放出的虛擬環(huán)繞聲會呈現(xiàn)不同的特性。對于識別障礙物的大小，障礙物在圖像中像素點個數(shù)越多，則聲音的持續(xù)周期越長，反之越短；對于識別障礙物的方位，基于虛擬環(huán)繞聲的環(huán)繞特性，使用者能識別障礙物在前方某個角度大致的水平與垂直方位；對于識別障礙物的距離，類似于汽車雷達系統(tǒng)中的聲音信號，距離較遠時，聲音頻率較低而低沉，隨著距離逐漸減小，聲音頻率也隨之升高而顯得尖銳。

試驗結果如圖11所示。結果表明，本研究設計的導盲系統(tǒng)在正常光照下對靜止和移動中的障礙物識別準確度能夠維持在90%以上，但在強光位置點的靜止和移動的障礙物識別準確度僅在50%左右，后續(xù)可以考慮通過增加環(huán)境光傳感器來緩解光線強弱的影響。

圖11 障礙識別準確度試驗結果

3.2.2 聲音映射試驗

為使數(shù)據(jù)更具代表性，在選取試驗個體時，遵循普遍性的原則，根據(jù)不同的個體參數(shù)進行篩選，如耳廓尺寸、頭圍等。水平方向聲音映射準確度試驗結果如圖12所示，其中測試點信息如表3所示。垂直方向聲音映射準確度試驗結果如圖13所示，其中測試點信息如表4所示。

表3 水平方向測試點信息

表4 垂直方向測試點信息

圖12 水平方向聲音映射準確度試驗結果

圖13 垂直方向聲音映射準確度試驗結果

試驗結果表明，使用者的方位識別水平偏差角度在15°之內(nèi)的準確度為82.85%，垂直偏差角度在15°之內(nèi)準確度為67.5%，對應水平方向的識別能力總體上高于垂直方向，可輔助盲人進行基本的障礙物識別。試驗結果還可以看出，每個測試個體的準確度均不同，這是由于在CIPIC的HRTF數(shù)據(jù)庫中，受測試個體頭部的形狀、肩寬、耳廓尺寸等人體參數(shù)的影響，每個測試個體對應不同的HRTF數(shù)據(jù)，因此產(chǎn)生準確度的差別。

4 結論

1) 本設計將虛擬環(huán)繞聲應用于導盲領域，而不再拘泥于語言播報等忽視視障人士心理因素的提示方式，為該領域后續(xù)研究提供參考。

2) 采用圖像檢測方式，在復雜環(huán)境中依然能夠穩(wěn)定檢測障礙物，并能夠檢測障礙物的垂直方位，為室外復雜環(huán)境下障礙物檢測方案提供了借鑒。

3) 采用圖像-聲音的映射方案設計，將視聽融合技術引入導盲系統(tǒng)。在方位識別方面，使用者判斷的水平偏差角度在15°之內(nèi)的測試成功數(shù)占總測試次數(shù)的82.85%，垂直偏差角度在15°之內(nèi)的測試成功數(shù)占總測試次數(shù)的67.5%，可實現(xiàn)簡單的導盲功能。

本設計對光強變化較為敏感，在不同光照環(huán)境下障礙物識別準確度差距較大，后續(xù)將嘗試通過環(huán)境光傳感器等手段進行光補償自適應調整方面的試驗研究。