亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音信源的語義編碼傳輸方法研究

2023-05-13 08:44:36牛凱NIUKai姚圣時YAOShengshi戴金晟DAIJincheng

中興通訊技術(shù) 2023年2期

牛凱/NIU Kai，姚圣時/YAO Shengshi，戴金晟/DAI Jincheng

（北京郵電大學(xué)泛網(wǎng)無線通信教育部重點實驗室，中國北京100876）

過去70年，通信技術(shù)取得了突飛猛進的發(fā)展?；诮?jīng)典信息理論[1]，先進的編碼技術(shù)包括信源編碼、信道編碼，已經(jīng)逼近了信源熵/率失真函數(shù)以及信道容量。然而，經(jīng)典信息論只研究語法信息，致力于信息傳輸?shù)挠行院涂煽啃?。從認識論觀點看，信息分為3個層次：語法、語義和語用[1]。C. E. SHANNON 和W. WEAVER[2]指出了通信的另一層面，即通信的語義問題以及有效性問題。得益于人工智能技術(shù)的發(fā)展，之前未能被解決的信息的語義及語用層次重新得到了研究人員的關(guān)注。北京郵電大學(xué)張平院士深入分析語義信息特征，提出語義基（Seb）模型[2]，指出語義信息可以用Seb 進行表征。張平院士提出“智簡（Intellicise）”理念[4]，進一步提出模型驅(qū)動的語義通信框架，實現(xiàn)通信系統(tǒng)由傳輸比特演進為傳輸經(jīng)語義處理得到的新特征，例如Seb等。牛凱等深入研究了從經(jīng)典通信到語義通信的范式轉(zhuǎn)變，提出了語義通信系統(tǒng)的基本框架[5-7]。其他團隊也對語義通信開展了多項研究工作：石光明等提出了語義通信的基本框架[8]，秦志金等針對語義通信系統(tǒng)探討了深度學(xué)習(xí)賦能的語義通信理論、框架和系統(tǒng)模型[9]，北京交通大學(xué)、帝國理工大學(xué)團隊分析了信源信道聯(lián)合編碼在語義通信中的應(yīng)用[10]。本文總結(jié)并回顧已有的面向語音信源的語義編碼傳輸方法，并指出未來的研究方向。

語音編碼一直是移動通信中的基礎(chǔ)問題，其目的是獲得語音信號的緊湊表征，從而實現(xiàn)高效傳輸。波形編碼和參量編碼是傳統(tǒng)語音編碼的兩大主流方法。波形編碼旨在編碼端對波形信號進行數(shù)字化，并在解碼端盡可能重構(gòu)波形，以脈沖編碼調(diào)制（PCM）、差分脈沖編碼調(diào)制（DPCM）和自適應(yīng)差分脈沖編碼調(diào)制（ADPCM）[11]為代表。通過傳輸聲學(xué)模型的系數(shù)，參數(shù)編碼以低比特率成本提供了可比較的重建質(zhì)量。線性預(yù)測編碼（LPC）引入了信源-濾波器模型，它的參數(shù)通過線性來預(yù)測，并根據(jù)語音樣本來確定。碼激勵線性預(yù)測（CELP）[12]是一種結(jié)合波形編碼和LPC 模型的混合編碼方法，適用于窄頻帶和中頻帶語音編碼。Opus 是近幾年性能較好的開源音頻編碼器[13]，支持動態(tài)可調(diào)速率以及從窄帶到全帶寬的音頻編碼。其中，語音編碼采用了基于LPC的SILK和能量約束重疊變換（CELT）編碼器。

現(xiàn)有的通信系統(tǒng)采用傳統(tǒng)的音頻編碼器級聯(lián)信道編碼的方法，但其編碼信息與語義無關(guān)，且易出現(xiàn)差錯傳播的情況。從語義信息傳輸?shù)慕嵌葋碓O(shè)計傳輸方法，可以在語義空間內(nèi)糾正信道傳輸引起的偏差。這種方法的針對性更強，最終可以提升端到端的編碼傳輸效率。基于神經(jīng)網(wǎng)絡(luò)的語音編碼方法已經(jīng)有了初步研究，引入線性預(yù)測和基于變分自編碼器的矢量量化（VQ-VAE）[14]，可以將語音特征以低速率傳輸。這些方法對語音信號的語義編碼傳輸起到了指導(dǎo)作用。傳統(tǒng)語音評價指標的不可微的性質(zhì)導(dǎo)致無法直接用于語義編碼模型優(yōu)化，因此尋找合適的語音信號的語義傳輸?shù)母兄獌?yōu)化函數(shù)至關(guān)重要。

1 語義通信系統(tǒng)簡介

語義通信系統(tǒng)的模型[5]如圖1 所示，參照C. E.SHANNON 和W. WEAVER 的思想[2]，該模型分為Level A 技術(shù)級通信與Level B 語義級通信兩個層級，具體由信源、語義知識庫、語義發(fā)射機、信號發(fā)射機、信道、信號接收機、語義接收機、信宿8個部分組成。

其中，語義知識庫包括信道環(huán)境特征、信源及任務(wù)特征，可以對語義發(fā)射機/接收機、信號發(fā)射機/接收機起到指導(dǎo)作用。語義編碼傳輸問題即如何在語義知識庫的指導(dǎo)下進行語義發(fā)射機/接收機和信號發(fā)射機/接收機的編譯碼設(shè)計問題。

▲圖1 語義通信的系統(tǒng)模型

語音信源的語義傳輸任務(wù)通常分為兩大類：1）面向聽覺的語音信號傳輸；2）傳遞內(nèi)涵文本信息的語音信號傳輸。兩類任務(wù)的語義編碼優(yōu)化設(shè)計準則也不同：面向語音文本內(nèi)容的傳輸以誤詞率、文本重合度為語義傳輸性能的主要評價指標；面向人的聽覺的語義傳輸主要考慮的是人的主觀感受。針對如何提高人的主觀感受（或稱為感知編碼），研究者提出了客觀語音質(zhì)量評估（PESQ）[15]、ViSQOL[16]等語音感知質(zhì)量評價指標。在語音質(zhì)量的主觀評價方面，除平均主觀意見分（MOS）外，常見的還有多激勵隱藏參考基準測試（MUSHRA）[17]方法。

2 面向語音的語義編碼傳輸方法

語音信源的語義編碼傳輸一般包括兩類方法：基于波形的語義編碼傳輸和生成式的語義編碼傳輸。

2.1 基于波形的語義編碼傳輸

基于時域波形信號的語義編碼傳輸方法直接從語音波形信號中提取語義特征并映射為信道中的傳輸符號。此類方法屬于信源信道聯(lián)合編碼范疇。利用深度神經(jīng)網(wǎng)絡(luò)的信源信道聯(lián)合編碼，重建質(zhì)量隨信噪比的降低而柔和降低，不存在懸崖效應(yīng)。QIN Z. J.等針對語音信源，構(gòu)建了一種面向語音信源的深度語義通信網(wǎng)絡(luò)（DeepSC-S）[18]，提高了語音信號的重建質(zhì)量。該方法主要利用卷積神經(jīng)網(wǎng)絡(luò)與“壓縮-激勵”模塊提取語音信源語義特征，實現(xiàn)從信源數(shù)據(jù)到信道中傳輸符號的映射。該編碼過程與信道條件有關(guān)，達到信源信道聯(lián)合編碼的效果。

語音信源向量s ∈Rm經(jīng)過編碼神經(jīng)網(wǎng)絡(luò)fe映射，得到語義編碼向量x ∈Rk，滿足編碼約束x = fe(s; ?e)。其中，?f為DeepSC-S 編碼器模型參數(shù)。經(jīng)過加性高斯白噪聲（AWGN）信道后，解碼器輸入語義向量為y = x + n。其中，n ～N(0,Ik)是獨立同分布的高斯噪聲向量，是噪聲方差，Ik是單位陣。接收端譯碼器由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成，經(jīng)過解碼，得到輸出向量x?= fd(y; ?d)。最后，整個模型聯(lián)合進行端到端聯(lián)合訓(xùn)練，損失函數(shù)為：

DeepSC-S的PESQ-SNR曲線如圖2所示，在不同信道中的相同信噪比下，DeepSC-S（紅色）的性能優(yōu)于傳統(tǒng)分離式編碼PCM+Turbo碼的性能。

▲圖2 DeepSC-S的PESQ-SNR曲線[18]

然而，DeepSC-S 對不同幀語音信號的編碼速率是相同的，且提取的語義特征不明確，無法區(qū)分不同語音幀上的內(nèi)容差異、語義差異，即無法從細粒度上刻畫語義信息量的多少，因此難以獲得接近于熵編碼的壓縮增益。這導(dǎo)致傳輸帶寬較高，且編碼效率較低。

為了進一步提高語音信號的語義傳輸效率，我們借鑒了非線性變換編碼的思想[19-21]，設(shè)計了基于非線性變換的語音語義信源編碼方案[22]和語義編碼傳輸方案[23]。下面我們簡要介紹兩種方案的基本原理。

基于信源變換編碼的流程如圖3所示。首先，語音經(jīng)過分幀預(yù)加重等預(yù)處理后再經(jīng)波形分析變換就可得到語義特征向量y = ga,?g(x)，其中?g為波形分析網(wǎng)絡(luò)的模型參數(shù)。其次，一對超先驗編譯碼器將語義特征向量y變分建模為簡單的高斯分布，從而使用算數(shù)編碼器根據(jù)概率值對語義向量y進行熵編碼。在收端，波形綜合變換網(wǎng)絡(luò)將恢復(fù)的語義特征向量yˉ重構(gòu)為語音波形信號?= gs,ψg()，其中ψg為波形綜合網(wǎng)絡(luò)的模型參數(shù)。

▲圖3 基于非線性變換的語音信源語義編碼流程圖

在端到端優(yōu)化時，為解決量化不可導(dǎo)的問題，引入了取值范圍為的均勻噪聲，得到語義特征向量的近似量化形式。類似地，超先驗向量z 也可近似量化為?，從而得到了熵模型：

其中，z = ha,?h(y)，?h為超先驗編碼器的參數(shù)集合，N(μ,σ2)表示均值為μ，方差為σ2的高斯分布，*表示卷積。

變換編碼的優(yōu)化問題是一個有損信源編碼問題。若語音語義傳輸是面向人主觀聽覺感知質(zhì)量的，那么優(yōu)化語音的主觀感知質(zhì)量比波形失真更加重要?？偟膩碚f，該問題可以轉(zhuǎn)變?yōu)樽钚』鎸嵉穆?lián)合后驗概率與實際概率密度分布的KL散度，即：

其中，等式后大括號內(nèi)第1、2 項刻畫了y 和z 的編碼速率，第3項刻畫了失真度量，第4項為求均值后為常數(shù)。

基于非線性變換的語義編碼的率失真性能曲線如圖4所示。我們可以發(fā)現(xiàn)，在低速率時，相較于自適應(yīng)多速率寬帶語音編碼（AMR-WB）[23]以及基于變分自編碼器的矢量量化（VQ-VAE）神經(jīng)網(wǎng)絡(luò)編碼，基于非線性變換的語義編碼的感知質(zhì)量優(yōu)勢明顯；在高速率時，PESQ 也與Opus 性能相近。

▲圖4 基于非線性變換的語音語義編碼PESQ分數(shù)（取值為1.0～4.5）

在非線性變換語義信源編碼的基礎(chǔ)上，語音信源的語義-信源信道聯(lián)合變換編碼不用對語義特征向量量化并熵編碼，而是將其映射為信道傳輸符號，其流程如圖5所示。一方面，語義特征向量y需要通過超先驗編解碼器將其變分建模為高斯分布。此步驟是為了用語義特征向量的概率分布及概率值來衡量該語音幀的內(nèi)容復(fù)雜度，從而決定編碼所需要的符號數(shù)。另一方面，利用Transformer[24]網(wǎng)絡(luò)構(gòu)成的信源信道聯(lián)合編碼器，可以將N 幀的語義特征向量y1,…,yN映射為信道中傳輸符號序列s = fe,?f(y1,…,yN)。其中，?f為信源信道聯(lián)合編碼器的參數(shù)集合。每個語義特征向量最終的編碼長度由熵模型給出。

▲圖5 基于非線性變換的語音語義信源信道聯(lián)合編碼系統(tǒng)結(jié)構(gòu)

對于傳輸問題，其優(yōu)化函數(shù)轉(zhuǎn)變?yōu)槎说蕉说穆适д鎯?yōu)化問題，速率此時定義為傳輸帶寬，訓(xùn)練的損失函數(shù)如公式（4）：

圖5中基于Transformer網(wǎng)絡(luò)的信源信道聯(lián)合編/譯碼器包括4層8頭注意力層，維度為1 024。語音數(shù)據(jù)來自于TIMIT（英文語音數(shù)據(jù)集）[25]，采樣率為16 kHz。圖6 給出了不同信道下基于非線性變換的語義編碼傳輸方法的仿真結(jié)果。圖6（a）為AWGN信道在傳輸帶寬為4 kHz的條件下，不同編碼傳輸方法在PESQ評估指標下的端到端率失真曲線圖以及主觀得分箱線圖；圖6（b）為COST2100衰落信道[26]在傳輸帶寬10 kHz、平均信噪比為2 dB 的條件下，不同編碼方案的PESQ評估指標下的端到端率失真曲線圖及MUSHRA主觀得分箱線圖。其中，紅色線為非線性變換語義編碼傳輸方法的曲線，藍色線和綠色線為傳統(tǒng)分離式編碼方法曲線。我們可以發(fā)現(xiàn)，在相同主觀/客觀感知質(zhì)量指標下，相較于傳統(tǒng)語音編碼的AMR-WB、Opus編碼器級聯(lián)5G LDPC信道編碼，以及DeepSC-S，基于變換編碼的語音語義傳輸所需帶寬更少，且在衰落信道中也表現(xiàn)出更加出色的魯棒性。

▲圖6 基于非線性變換的語音語義編碼傳輸重建語音質(zhì)量性能

2.2 生成式語音語義編碼傳輸

生成式語音語義編碼傳輸?shù)难芯抗ぷ髂壳斑€較少，HAN T. X.等研究了上述所說的兩種語音語義傳輸?shù)姆妒絒27]。在語音傳輸范式中，HAN T. X.等將卷積神經(jīng)網(wǎng)絡(luò)級聯(lián)雙向長短期記憶網(wǎng)絡(luò)（LSTM）作為語義編碼器，對語音幀的40 組頻率濾波器系數(shù)進行語義特征提取。同時，他們還借鑒了FastSpeech2[28]的做法，通過對齊模塊預(yù)測每幀對應(yīng)的子單詞，并計算每個音素的音高、功率等聲學(xué)特征。在接收側(cè)，文本特征、聲學(xué)特征向量經(jīng)對齊級聯(lián)，由文本-語音綜合器恢復(fù)語音頻譜，最后聲碼器根據(jù)頻譜重新生成語音波形，生成效果如圖7 所示。重建語音的MOS 在AWGN 信道中的各個信噪比下都優(yōu)于DeepSC-S。

▲圖7 生成式語音語義編碼傳輸效果[27]

生成式語音語義編碼傳輸?shù)膬?yōu)勢在于所需帶寬少，無須將語音波形信號的全部信息編碼，利用人的聽覺特性用少量的濾波器組在編碼前就可將高采樣率的波形信號轉(zhuǎn)化為低采樣率的聲學(xué)特征信號，這樣可以降低數(shù)據(jù)量。但根據(jù)數(shù)據(jù)處理定理，對語音信號的處理會導(dǎo)致部分信息的損失。如果接收側(cè)關(guān)注編碼語音特征以外的信息，則會導(dǎo)致語義傳輸?shù)男Ч儾?。另外，生成式的語義編碼傳輸方法通過生成模型來重建語音波形，生成過程的復(fù)雜度、編譯碼器模型的訓(xùn)練難度都將給生成式語義編碼傳輸方法的設(shè)計和實際應(yīng)用帶來挑戰(zhàn)。

近兩年，生成模型正在快速發(fā)展，人工智能生成內(nèi)容（AIGC）的質(zhì)量及自然度逼近人類。可以預(yù)見，基于生成式的語音編碼傳輸也將對語音信號的語義編碼設(shè)計帶來重要影響。

3 結(jié)束語

本文中，我們對語音信源的語義編碼傳輸方法進行了整理與總結(jié)：首先回顧了現(xiàn)有的傳統(tǒng)語音編碼技術(shù)，分析了語音語義編碼傳輸?shù)膬?yōu)化目標，具體而言，在面向人的感知體驗的情境下，優(yōu)化目標主要為提高人的感知質(zhì)量；而在面向文本任務(wù)的情境下，優(yōu)化目標主要為提升文本識別正確率。其次，我們將現(xiàn)有的語音語義編碼傳輸方法分為兩大類：一類為直接對語音信號樣值序列進行編碼，一類為對傳輸語音信號的聲學(xué)特征進行編碼和傳輸，在接收側(cè)通過生成式聲碼器重建語音。最后，我們展望了未來生成模型應(yīng)用于語音語義編碼傳輸?shù)膬?yōu)勢及挑戰(zhàn)。