亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于動態(tài)競爭的實(shí)時多媒體會議混音算法

2014-07-18 11:53:37王立煒廖延娜

西安郵電大學(xué)學(xué)報(bào) 2014年5期

關(guān)鍵詞：發(fā)言者混音語音

王立煒, 廖延娜

(1.西安郵電大學(xué) 電子工程學(xué)院, 陜西西安 710121； 2.西安郵電大學(xué) 理學(xué)院，陜西西安 710121)

基于動態(tài)競爭的實(shí)時多媒體會議混音算法

王立煒, 廖延娜

(1.西安郵電大學(xué) 電子工程學(xué)院, 陜西西安 710121； 2.西安郵電大學(xué) 理學(xué)院，陜西西安 710121)

為了解決大規(guī)模會議中的混音噪聲問題，提出語音短時累積能量的概念，并據(jù)此設(shè)計(jì)基于動態(tài)競爭模式的實(shí)時多媒體會議混音算法。該算法依據(jù)會議所有成員的語音短時累積能量，通過動態(tài)競爭、自我淘汰、強(qiáng)制淘汰三個過程，實(shí)時從會議所有成員中選擇當(dāng)前的發(fā)言者，并進(jìn)行混音。仿真結(jié)果顯示，該算法可解決大規(guī)模會議中混音質(zhì)量與會議人數(shù)成反比的問題。

大規(guī)模多媒體會議；短時累積能量；動態(tài)競爭；混音

近年來,多媒體會議成為多媒體通信發(fā)展的熱點(diǎn)之一；ITU-T在H.323中建議了集中控制的會議模式，使用多點(diǎn)控制單元(Multipoint Control Unit, MCU)對全體會議成員輸入的音頻、視頻及數(shù)據(jù)信號進(jìn)行集中處理[1]。在多媒體會議中,實(shí)時音頻交流最為重要，MCU對多路音頻信號進(jìn)行混音處理，再將混音后的音頻信號輸出傳送到每個成員，使其能夠同時聽到多個發(fā)言者的聲音。

混音算法的基本原理是對多路輸入音頻信號的采樣數(shù)據(jù)進(jìn)行疊加，如平均權(quán)重混音算法、對齊法、非均勻波形收縮算法[2]、鉗位算法[3]等。這些算法的共同點(diǎn)是：利用不同的算法得到不同的權(quán)系數(shù)后，將所有會議成員的多路音頻輸入信號進(jìn)行加權(quán)，然后疊加得到混音輸出。隨著會議成員數(shù)目的增加，混音后的音頻信號的噪聲必然也隨之增加。在大規(guī)模會議中，上述的混音算法的噪聲均超出人耳的承受范圍，影響多媒體會議質(zhì)量和用戶體驗(yàn)[4]；因此，在大規(guī)模會議中，一般使用“申請—授權(quán)—發(fā)言”的會議方式，控制實(shí)際發(fā)言人數(shù)，以保證會議混音效果。這種方式控制復(fù)雜，且與會者發(fā)言不自由。為了解決上述問題，本文研究了基于動態(tài)競爭模式的實(shí)時快速混音方案，自動從所有與會者中選取當(dāng)前的發(fā)言者。

1 動態(tài)競爭混音原理

動態(tài)競爭混音算法的原理如圖1所示。當(dāng)前時間單元ΔT內(nèi)，根據(jù)會議電話各個成員的語音能量，進(jìn)行競爭和淘汰，動態(tài)更新當(dāng)前發(fā)言者的名單，然后將發(fā)言者的語音信號進(jìn)行混音合成，作為當(dāng)前時間單元內(nèi)的語音輸出。

實(shí)時動態(tài)競爭選擇淘汰算法主要由兩個部分組成：語音短時累積能量計(jì)算，實(shí)時動態(tài)競爭和淘汰。

圖1 實(shí)時動態(tài)競爭模式的混音原理

2 語音短時累積能量

每個時間單元ΔT內(nèi)的語音信號記為一幀，設(shè)幀長度為n，則當(dāng)前語音幀信號x(i)的能量計(jì)算公式為

考慮到聽覺效果的實(shí)時性和延續(xù)性，提出語音短時累積能量的概念：設(shè)定一個時間窗Tw，對應(yīng)窗長度為Nw；Tw>ΔT，即Nw>n。時間窗Tw以ΔT為單位向前推進(jìn)，計(jì)算時間窗Tw內(nèi)語音信號x(i)的加權(quán)平方和，作為Tw內(nèi)最后一幀語音的短時累積能量，即

其中窗函數(shù)w(i)可以是簡單的矩形窗函數(shù)，或取正單調(diào)遞增函數(shù)，如線性單調(diào)遞增窗函數(shù)或四分之一正弦窗[5]。使用矩形窗函數(shù)即是將時間窗Tw的語音信號能量無差別累加；使用單調(diào)遞增形式的窗函數(shù)則在Eaccu中更多地體現(xiàn)了臨近當(dāng)前時刻的語音信號能量。使用四分之一正弦窗，則有

如時間窗長度Nw為幀長度為n的整數(shù)K倍，從提高計(jì)算效率的角度出發(fā)，可以用Nw內(nèi)的每幀能量Eframe的加權(quán)和代替當(dāng)前幀的短時累積能量，即

多媒體會議系統(tǒng)中的音頻信號一般采用壓縮編碼傳送[6]，常見的有G.729協(xié)議和G.723協(xié)議語音壓縮算法，其中G.729采用的語音幀長度為10 ms， G.723采用的語音幀長度為30 ms。本算法中的語音幀時間單元ΔT的選取兼顧G.729和G.723協(xié)議，取ΔT等于10 ms；PSTN規(guī)定電話質(zhì)量的語音信號采樣率為8 000 Hz，即幀長度n=80。短時累積能量時間窗Tw的長度建議為ΔT的8～15倍，本文取短時累積能量時間長度Tw為100 ms，即Nw=800。

3 實(shí)時動態(tài)競爭淘汰算法

在實(shí)時動態(tài)競爭選擇淘汰算法中，將會議成員M分為三個集合：主發(fā)言者集合，成員數(shù)為X；次發(fā)言者集合，允許最大成員數(shù)為Y；其他會議成員則屬于靜默者集合。X+Y為最終參與混音的成員數(shù)，從人耳聽覺有效分辨的角度考慮，一般建議[7]

(X+Y)<8。

首先在會議電話開始的第一個時間單元ΔT，根據(jù)會議電話各個成員第一幀語音信號的能量Eframe，選擇能量最大的X個成員作為主發(fā)言者，其余為靜默者。在其后的每個時間單元，根據(jù)每個成員在當(dāng)前幀的語音信號短時累積能量Eaccu，通過動態(tài)競爭、自我淘汰和強(qiáng)制淘汰，動態(tài)更新三個集合的成員。

3.1 動態(tài)競爭

競爭過程如圖2所示，主要包括4個步驟。

步驟1 選擇主發(fā)言者集合中Eaccu最小的成員，標(biāo)記為A；選擇次發(fā)言者集合和靜默者中Eaccu最大的成員，標(biāo)記為B。

步驟2 如果A、B滿足競爭條件

Eaccu(B)>Eaccu(A)，

則記錄A和B為一對競爭對手，并開啟競爭計(jì)時器T1。

步驟3 在下一個時間單元，若成員A和B依然滿足競爭條件，競爭計(jì)時器T1遞增；否則，競爭失敗，清除A、B標(biāo)記，同時計(jì)時器T1清零。

步驟4 設(shè)置競爭時間門限Th1；如果T1>Th1，則競爭成功，成員B轉(zhuǎn)入主發(fā)言者集合，成員A轉(zhuǎn)入次發(fā)言者集合。

競爭時間門限Th1的大小影響競爭成功的頻率。Th1過小將導(dǎo)致競爭過于頻繁，最終混音合成的語音連續(xù)性較差，Th1過大將導(dǎo)致競爭成功困難。建議Th1取值在500～1 500 ms之間[8]。

圖2 動態(tài)競爭過程

3.2 自我淘汰

顯然，在上述競爭過程中，競爭成功將導(dǎo)致次發(fā)言者集合中的成員數(shù)增加，最終會超過集合允許的最大成員數(shù)Y，故必須對次發(fā)言者集合中的成員進(jìn)行控制，即自我淘汰。自我淘汰過程如圖3所示，其主要步驟可描述如下。

針對次發(fā)言者集合中的每個成員，對比當(dāng)前時間單元的短時累積能量的Eaccu_current與上一時間單元的短時累積能量的Eaccu_last，如果

Eaccu_current<αEaccu_last，

則該成員進(jìn)入預(yù)淘汰狀態(tài)，標(biāo)記為C，啟動預(yù)淘汰計(jì)時器T2，并定義對應(yīng)的預(yù)淘汰能量門限

ETh=αEaccu_last。

參數(shù)α的取值范圍為0～1，建議取α=0.5。

在下一個時間單元，如果成員C滿足

Eaccu_current

計(jì)時器T2遞增；否則，該成員退出預(yù)淘汰狀態(tài)，對應(yīng)的計(jì)時器T2清零。

設(shè)置預(yù)淘汰時間門限Th2；如果成員C的預(yù)淘汰計(jì)時器T2>Th2,則認(rèn)為成員C的發(fā)言結(jié)束，將成員C更新為靜默者，即該成員被自我淘汰。

預(yù)淘汰時間門限Th2的取值可參考競爭時間門限Th2的的取值建議。

圖3 自我淘汰過程

3.3 強(qiáng)制淘汰

上述自我淘汰過程可以減小次發(fā)言者集合中的成員數(shù)，但是邏輯上，依然無法摒除次發(fā)言者集合的“超員”現(xiàn)象。當(dāng)出現(xiàn)“超員”時，可將預(yù)淘汰成員C直接強(qiáng)制淘汰；如果沒有預(yù)淘汰成員，則淘汰次發(fā)言者集合中當(dāng)前累積能量最小的一位。

通過動態(tài)競爭、自我淘汰和強(qiáng)制淘汰，在每個時間單元，主發(fā)言者集合和次發(fā)言者集合內(nèi)的成員可實(shí)時動態(tài)更新。適當(dāng)設(shè)置主發(fā)言者集合成員數(shù)X和次發(fā)言者集合成員數(shù)Y，即可有效控制最終進(jìn)行混音的語音信號路數(shù)，避免大規(guī)模會議中成員數(shù)目過多導(dǎo)致的混音噪聲增加現(xiàn)象。

4 算法仿真

本文使用Matlab進(jìn)行了競爭淘汰算法仿真。設(shè)置會議成員數(shù)為20，主發(fā)言者集合成員數(shù)X=2，次發(fā)言者集合成員數(shù)Y=4；設(shè)置競爭時間門限Th1為500 ms，預(yù)淘汰時間門限Th2為800 ms。

圖4和圖5對比了CoolEdit軟件[9]呈現(xiàn)的時長為26 s的會議混音結(jié)果。圖4為直接使用平均加權(quán)將20路語音進(jìn)行混音合成，圖5為使用競爭淘汰算法，將每個時間單元動態(tài)更新的發(fā)言者的語音信號進(jìn)行平均加權(quán)混音合成輸出。從波形上可以明顯看出，競爭淘汰算法有效減小了混音合成的噪聲。從主觀聽覺效果上，20路直接平均加權(quán)合成的輸出噪聲大，語音幾乎無法分辨，競爭淘汰后合成的輸出，能夠分清楚不同與會者的語音信號，語音清晰連貫。隨著會議成員數(shù)增加，仿真結(jié)果的對比更加明顯。

圖4 平均加權(quán)算法混音輸出

圖5 動態(tài)競爭算法混音輸出

5 結(jié)論

使用語音短時累積能量作為依據(jù)，動態(tài)競爭淘汰算法可有效選取當(dāng)前的發(fā)言成員，合成輸出的語音清晰連貫，噪聲不隨會議成員總數(shù)的增加而增加。該算法計(jì)算量小，可有效使用于大規(guī)模多媒體會議的實(shí)時混音。動態(tài)競爭淘汰的結(jié)果還可以與其它混音算法結(jié)合，如在競爭淘汰的基礎(chǔ)上，結(jié)合文獻(xiàn)[3]中的非均勻波形收縮算法，對發(fā)言者的語音信號進(jìn)行混音，以得到更佳的混音效果。

[1] 周敬利，馬志龍，范曄斌，等. 一種新的多媒體會議實(shí)時混音方案[J].小型微型計(jì)算機(jī)系統(tǒng)，2009，30(1)：169-172.

[2] 李宇，郭雷勇，陳建銘，等. 一種多媒體會議系統(tǒng)的實(shí)時同步混音轉(zhuǎn)發(fā)算法[J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版，2010，49(2)：31-36.

[3] 張海峰，白騁宇. 多媒體會議系統(tǒng)音頻多點(diǎn)處理器的軟件設(shè)計(jì)[J]. 機(jī)電工程，2010，27(6)：104-107.

[4] 吳冀衍，喬秀全，程渤，等. 延遲敏感的移動多媒體會議端到端服務(wù)質(zhì)量保障[J]. 計(jì)算機(jī)學(xué)報(bào)， 2013，36(7)：1399-1412.

[5] 李杭生，陳丹. 頻譜分析中窗函數(shù)的研究[J].微計(jì)算機(jī)信息，2008，24(4-1)：272-273.

[6] 胡建洲，田裕鵬. 基于FreeSwitch和DSP的多媒體會議系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件，2013，30(8)：264-266.

[7] 靳鵬飛.基于DSP的自適應(yīng)會議電話算法設(shè)計(jì)與實(shí)現(xiàn)[J].西安郵電學(xué)院學(xué)報(bào)，2010，15(3)：30-33.

[8] 李衛(wèi)華，廖延娜，戴明，等. 會議電話語音選擇合成的方法：中國，200410073391.6[P].2005-05-25.

[9] 徐洊學(xué)，徐秀珍. 利用CoolEdit Pro及其效果器插件搭建簡易錄音棚的方法[J].內(nèi)蒙古民族大學(xué)學(xué)報(bào):自然科學(xué)版，2009，24(6)：629-631.

[責(zé)任編輯:王輝]

Real-time audio mixing algorithm based on dynamic competition used in multimedia conference

WANG Liwei1, LIAO Yanna2

(1. School of Electronic Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China；2.School of Science, Xi’an University of Posts and Telecommunications, Xi’an 710121, China)

In order to solve the problem of mixing noise in large scale multimedia conference, a concept of short-term cumulative energy of speech signal is put forward, and a real-time audio mixing algorithm based on dynamic competition is given in this paper. In this algorithm, three processes: dynamic competition, self-obsolescing and forcible obsolescing are gone through according to short-term cumulative energy of speech signal which come from each member of the conference. Current spokesmen are selected, and their speech signals are mixed as output. Simulation results show that this algorithm can solve the problem that the audio mixing quality has an inverse relationship with membership of large scale multimedia conference.

Large-scale multimedia conference, short-term cumulative energy, dynamic competition, audio mixing

10.13682/j.issn.2095-6533.2014.05.010

2014-05-04

陜西省教育廳科學(xué)研究計(jì)劃基金資助項(xiàng)目(12JK0559)

王立煒(1968-)，男，講師，從事電路與系統(tǒng)研究。E-mail:wlw@xupt.edu.cn 廖延娜(1974-)，女，碩士，副教授，從事電路與系統(tǒng)、信號與信息處理研究。E-mail:liaoyn@xupt.edu.cn

TN912

2095-6533(2014)05-0051-05