亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

虛擬語音會議系統(tǒng)設計與實現

2018-02-01 11:29:32趙文杰陳磊鄭全普劉鎮(zhèn)瑜霍爍爍

軟件導刊 2018年1期

趙文杰+陳磊+鄭全普+劉鎮(zhèn)瑜+霍爍爍

摘要：

將虛擬聲技術運用于網絡語音會議系統(tǒng)中，利用頭相關傳遞函數對單音頻信號進行處理，使之擴展為兩路立體聲信號，從而對不同的參會者虛擬出帶有不同方位感的虛擬聲像，模擬出圓桌會議的聲像效果，并設計實現了一個簡單的基于Windows平臺的網絡虛擬會議系統(tǒng)。主觀測聽結果顯示，所有測聽者均認為添加虛擬聲功能后用戶體驗更好，大部分測聽者認為該功能將混亂情況下的語音進行了方位感的梳理，增強了雞尾酒會效應，使測聽人更加容易辨別說話人，也更容易辨識說話人所講內容。

關鍵詞：虛擬聲；頭相關傳輸函數；網絡語音通話系統(tǒng)；網絡虛擬會議室

DOIDOI：10.11907/rjdk.171849

中圖分類號：TP319

文獻標識碼：A文章編號文章編號：1672-7800（2018）001-0132-03

Abstract：In this paper， the virtual sound technology applied to the network voice conferencing system， the use of head-related transfer function of single-audio signal processing， so that it is extended to two stereo signals， so that different participants virtual out with a different sense of virtual Audio and video， simulation of the round table audio and video effects， and designed to achieve a simple Windows platform based on the virtual network virtual conference system. Subject audiometry results show that all the participants are considered to add virtual sound function after the user experience better， most of the listener that this feature will be chaotic voice of the location of the carding， and enhance the cocktail effect， so that listeners are more likely to identify the speaker， but also easier to identify the speakers content.

Key Words：virtual sound； head-related transfer function； network virtual conference room

0引言

隨著互聯(lián)網和多媒體技術的發(fā)展，異地召開語音會議成為現實，且語音會議業(yè)務作為一種便利的通信手段，已經被大多數政府部門和企事業(yè)單位所接受和采用。目前，立體聲網絡電話會議系統(tǒng)中通常是將雙麥克風所錄數據經過網絡發(fā)送至客戶端，再使用多個揚聲器進行播放，在兩人以上會議中，多人同時發(fā)言時會出現聲像重疊情況，若發(fā)言人數更多將會造成聲像重疊、言語混雜，造成與會人員無法聽清發(fā)言人聲音的問題，一些語音會議系統(tǒng)采用的方法是限制同時發(fā)言人數。本系統(tǒng)將虛擬聲技術運用于語音會議系統(tǒng)中，僅需要一個麥克風錄取聲音，在播放前將各與會人員的聲音虛擬到各用戶自定義的方位，進行立體聲播放，便可以制造立體聲效果。與會者可以自行設置每個發(fā)言人的位置，系統(tǒng)根據用戶設置，虛擬出一個現實會議中的圓桌會議效果，使語音會議更加真實，同時可在一定程度上解決多人同時發(fā)言時的聲像混疊問題。

1系統(tǒng)總體設計

1.1系統(tǒng)設計方案

本文設計的局域網虛擬聲會議系統(tǒng)主要包含如下功能：①客戶端用戶向服務器發(fā)出登錄、注銷請求并完成登

陸和注銷；②客戶端用戶采集語音數據，并通過降采樣后通過網絡傳輸；③客戶端用戶可以向其它客戶端發(fā)送文字信息；④客戶端提供可視化界面，用戶可以設置其他各參會人的位置信息，系統(tǒng)根據各參會人員的位置信息進行虛擬聲的合成和播放；⑤服務器完成參會人員控制，包括用戶登錄、注銷驗證及文字、語音信息轉發(fā)。

1.2系統(tǒng)結構

系統(tǒng)主要由服務器和客戶端兩部分構成，拓撲結構為星型拓撲結構，采用主從式構架，即客戶端服務器模式[1]。系統(tǒng)結構如圖1所示。

本系統(tǒng)中，服務器端主要功能為驗證用戶登陸信息，并將已驗證用戶的文字信息、語音信息等轉發(fā)到其它各在線客戶端。系統(tǒng)客戶端主要功能為發(fā)送登錄請求，驗證通過后獲取所有在線用戶信息，錄取語音并發(fā)送語音信息至服務器，收到服務器轉發(fā)其它客戶端語音信息后根據客戶設置各與會人員位置信息，虛擬出帶有方位感的立體聲語音信息，進行混音播放?？蛻舳塑浖嫾苋鐖D2所示。

2系統(tǒng)關鍵模塊設計

2.1虛擬聲合成模塊

心理聲學研究表明，聲源產生的（直達聲）聲波經頭部等散射后到達雙耳，產生雙耳時間差（ITD）和聲級差（ILD）。聽覺系統(tǒng)利用這些雙耳差并與過去的聽覺系統(tǒng)經驗進行比較，從而判斷聲源方向。而頭部及耳廓等對聲波的散射作用以及由此產生的雙耳差可用頭相關傳遞函數（Headrelated Transfer Function簡稱HRTF）表達[2]。

HRTF定義為自由場情況下簡諧點聲源在左右耳處產生的頻域復數聲壓和頭移開后聲源在原頭部中心位置處的頻域復數聲壓之比[3]。endprint

PL、PR分別是簡諧點聲源在左、右耳產生的頻域復數聲壓，P0是頭移開后在原點中心位置處的頻域復數聲壓。r為聲源距離頭部中心的距離，θ為方位角，φ為仰角，f為聲波的頻率，a為個性化因素。它包含了人耳對聲源定位所需的雙耳時間差、雙耳聲級差等重要信息。獲取HRTF的方法有實驗測量和理論計算兩種，本系統(tǒng)采用本實驗室試驗測量的仿真頭模BHead210（由中國傳媒大學依據中國成年人頭面部尺寸的國家標準設計與制作）水平面一周的HRTF數據。

有了頭相關傳遞函數庫，將單聲道音頻數據轉換為帶方位的立體聲數據如圖3所示。

生成虛擬聲的主要步驟如下：①加載頭相關傳遞函數庫，這一步是前提，必須將文件存儲形式的頭相關傳遞函數庫全部加載到內存中，本系統(tǒng)僅需要水平面一周的頭相關傳遞函數庫內容，大小為294 912字節(jié)。該步驟需在系統(tǒng)初始化時一同初始化，將全部水平面庫一次性載入內存，是為了在程序運行過程中，用戶改變方位后能夠更快地拿到相應角度的頭相關傳遞函數，不用再重新讀取文件而造成系統(tǒng)反應時間增加；②將存放為時域的相應角度的頭相關傳遞函數作頻域變換，之所以要變換到頻域，是為了提高計算效率，且此步驟每次變換角度后只需作一次變換即可；③將音頻數據進行頻域變換，此處應注意，每次音頻點長度應適中，且必須為512的整數倍。ASIO每次取到的錄音數據以及網絡發(fā)送和接收到的數據長度都是1 024個點，故在此選用1 024個點進行頻域轉換；④將頻域轉換后的音頻數據分別與相應角度的頻域轉換后的左右耳頭相關傳遞函數進行頻域點乘，分別得到與原音頻長度相同的立體聲數據。將計算所得音頻數據放入ASIO聲卡驅動緩存即可播放。

2.2音頻驅動模塊

音頻輸入輸出模塊是系統(tǒng)和聲卡的接口，負責系統(tǒng)的雙通道立體聲錄放。這里使用的音頻流輸入輸出接口（Audio Stream Input Output，簡稱ASIO）（本系統(tǒng)使用的ASIO4ALL是由Wuschel開發(fā)出來的一款綠色小巧的ASIO驅動）支持44 100Hz和48 000Hz采樣率的聲音信號。ASIO接口繞過Windows操作系統(tǒng)對聲卡I/O的控制，直接驅動PC聲卡，從而具有較高的響應速度和較低的錄放延遲。此外，ASIO技術還支持最多32通道錄放音功能。

本系統(tǒng)將ASIO的初始化、啟動錄放、獲取錄音數據、放入放音數據、停止錄放、釋放資源等操作封裝到多個函數中。系統(tǒng)開始運行之后ASIO隨即進行初始化：設定錄放音通道數、一次錄放音的幀長、音頻I/O采樣率等。ASIO啟動錄放后將在連續(xù)錄取近端聲音的同時，播放從遠端接收到的聲音數據，由于ASIO內部錄音緩沖切換速度極快，近端的錄音數據塊必須及時保存；同時接收到的遠端聲音數據需要被保存到一個聲音接收緩存中，緩存的長度和初始指針位置必須嚴格設定，避免ASIO放音時由于網絡擁塞等原因導致話音斷斷續(xù)續(xù)。

2.3網絡通信模塊

網絡通信模塊主要負責客戶端和服務器之間的數據交換。其主要任務是發(fā)送和接收登錄、注銷、開始語音、結束語音等命令信息，以及文字和語音信息。

系統(tǒng)采用Windows操作系統(tǒng)提供的網絡套接字（SOCKET）接口實現實時雙端網絡通信。SOCKET接口通過IP地址和端口定位遠端，可在面向連接的傳輸控制協(xié)議（TCP）和面向無連接的用戶數據包協(xié)議（UDP）之上順利工作?？紤]到系統(tǒng)客戶端與服務器端命令信息需要無差錯可靠傳輸以及TCP面向連接的可靠性特點，本系統(tǒng)使用TCP傳輸系統(tǒng)間命令信息?？紤]到音頻數據的實時性要求和可少量丟幀的限制及UDP協(xié)議本身的特點，本系統(tǒng)采用UDP協(xié)議傳輸語音信息[4]。

2.4混音模塊

混音算法的最終目的是將輸入的多路語音混合成一路語音輸出，但由于實際應用環(huán)境不理想，在算法設計過程中需要著重考慮質量與效率兼顧的問題。由于語音會議中傳輸的是實時語音，如果網絡延時過大或者需要處理時間過長就會影響到會議參與者的正常交流。網絡時延問題非算法所能解決，這要求算法在特定的網絡環(huán)境下保持較高的效率，使延時保證在用戶可以忍受的范圍內，同時語音質量也不能太差[5]。因此，混音算法需要同時兼顧語音質量和算法效率，需要在二者之間做好平衡?；趯ΤＲ娀煲羲惴ǖ牧私饧皩嶒烌炞C，并考慮到會議系統(tǒng)中同時可分辨的發(fā)言人數有限，本系統(tǒng)的混音處理使用鉗位法[6]。

鉗位法是效率最高的混音算法之一，基本做法如同線性疊加法，僅在混音過程中對樣本的溢處部分進行處理，將超過上限的樣本值用上限值代替，超過下限的樣本值用下限代替[7]。例如，用32bit的存儲空間保存一個采樣值，即C語言中的int類型（int最大值表示為INTMAX，最小值表示為INTMIN），處理疊加方法如下：

在溢出情況很少發(fā)生的情況下，此方法輸出波形保真度高，語音質量良好。

3實驗結果分析

經過對16位測聽人員的主觀測聽結果分析可知，虛擬聲功能在本系統(tǒng)中對方位感的模擬是有效的，100%的人體會到了方位感，且均認為此功能的添加對用戶體驗效果良好，但聲像方位的準確度存在一定差距，這與頭中定位有很大關系，若要提高準確度，需增加混響等算法輔助，此問題有待后續(xù)研究。

對虛擬聲功能在2～4人同時講話時辨識度的測聽中，尤其對2～3人同時講話時，100%的測聽者選擇了好于無虛擬聲功能時的效果；4人同時講話時，75%的測聽者選擇了好于無虛擬聲功能時的效果，25%的測聽者認為沒有明顯效果；在添加虛擬聲功能后音質變化上，僅有1人認為音質變差了，其余15人認為并無明顯變化，認為無明顯變化的占總體的93.75%?？傮w評價中，100%的人認為添加虛擬聲功能后用戶體驗更好，其中43.75%的測聽者認為此功能的用戶體驗很好，大部分測聽者認為此功能將混亂情況下的語音進行了方位感梳理，增強了雞尾酒會效應，使測聽人更加容易辨別說話人，也更容易辨識說話人所講內容。

4結語

本系統(tǒng)旨在將虛擬聲技術運用于語音會議系統(tǒng)中，以盡量增加與會者的現場感和真實感，并在一定程度上解決多人同時發(fā)言造成的聲像混疊問題。因此，本系統(tǒng)不考慮會議系統(tǒng)的回聲抵消問題和多揚聲器播放時為保證正確聲像而帶來的串聲消除問題。

虛擬聲技術的運用，增加了系統(tǒng)的計算復雜度和系統(tǒng)設計難度，且由于本系統(tǒng)客戶端需要獲取每個參會人員的聲音，這考驗著網絡的負載能力，因此就目前而言，本系統(tǒng)僅適用于召開少于10人的語音會議。但從未來趨勢看，語音會議系統(tǒng)的復雜度越來越高，在基本功能實現的基礎上增加與會者的現場感和真實感將是語音會議系統(tǒng)的發(fā)展方向。

參考文獻：

[1]羅偉.大容量VoIP電話會議系統(tǒng)的研究與實現[D].西安：西安電子科技大學，2008.

[2]謝菠蓀.頭相關函數與虛擬聽覺[M].北京：國防工業(yè)出版社，2007.

[3]謝菠蓀，管善群.虛擬聲技術及其應用（上）[J].應用聲學，2004，23（4）：43-47

[4]沈鑫剡.多媒體傳輸網絡與VoIP系統(tǒng)設計[M].北京：人民郵電出版社，2005.

[5]殷曉虎，周娟，張靜.基于會議系統(tǒng)混音算法的研究與應用[J].電聲技術，2014，38（3）：53-55.

[6]OHSHIMA K.A teleconferencing system with high-speed stream mixing for voice over IP[Z]. Wikipedia，2004.

[7]蒙肖雷.基于SIP的企業(yè)語音通話系統(tǒng)設計與實現[D].西安：西安電子科技大學，2014.

（責任編輯：孫娟）endprint

軟件導刊2018年1期

軟件導刊的其它文章: 基于自動編碼器與概率神經網絡的人體運動行為識別方法; 基于平滑A*人工勢場法的機器人動態(tài)路徑規(guī)劃; 新能源汽車車內實時以太網技術發(fā)展綜述; 真實感三維人臉建模技術綜述; 信管專業(yè)程序設計類課程“MOOC+翻轉課堂”教學改革研究; 新工科背景下機器學習課程建設研究