張振國/ZHANG Zhenguo,楊倩倩/YANG Qianqian,賀詩波/HE Shibo
( 浙江大學(xué),中國 杭州 310058)
當前,中國正大力發(fā)展信息產(chǎn)業(yè)。無線通信技術(shù)的快速發(fā)展為智慧城市、高清視頻、自動駕駛、遠程醫(yī)療等帶來產(chǎn)業(yè)變革?;谖锫?lián)網(wǎng)的智能感知網(wǎng)絡(luò)迅速發(fā)展,在提供便利的同時也帶來了龐大的無線通信數(shù)據(jù)[1]。數(shù)據(jù)通信方式不再受限于人?人通信,而是轉(zhuǎn)變?yōu)橐阅繕藶閷?dǎo)向的通信方式[2]。隨著人工智能的快速發(fā)展,基于深度學(xué)習的通信為克服傳統(tǒng)通信困難提供新思路?;谏疃葘W(xué)習的架構(gòu)在通信系統(tǒng)中取得了顯著成果,達到甚至超過傳統(tǒng)方案的性能?;谙戕r(nóng)定理的1G 到5G 技術(shù)已經(jīng)無法滿足當前的通信需求,基于深度學(xué)習的語義通信為下一代無線通信技術(shù)帶來更多可能[3-5]。深度學(xué)習已被用于優(yōu)化基于分離模塊設(shè)計的傳統(tǒng)通信,如信源編解碼器、信道編解碼器和調(diào)制解調(diào)模塊[6-8]。文獻[9]建立端到端(E2E)的信源信道聯(lián)合編碼(JSCC)通信系統(tǒng),該系統(tǒng)能夠有效應(yīng)對傳統(tǒng)通信系統(tǒng)中的瓶頸問題。E2E通信系統(tǒng)的發(fā)射器和接收器由深度神經(jīng)網(wǎng)絡(luò)(DNN)組成。編碼器學(xué)習輸入數(shù)據(jù)的特征向量,并通過無線信道將復(fù)數(shù)符號發(fā)送到解碼器進行目標重建。
與傳統(tǒng)通信相比,語義通信側(cè)重于傳遞信息的含義,而不是符號的精確傳輸。區(qū)別于傳統(tǒng)通信系統(tǒng)利用誤碼率(BER)或符號錯誤率(SER)評估通信結(jié)果,語義通信系統(tǒng)通過最小化輸入和重建信息之間的語義損失,來恢復(fù)接收器處的信源信息[9]?,F(xiàn)有的語義通信系統(tǒng)聯(lián)合設(shè)計發(fā)射器和接收器,以實現(xiàn)更好的傳輸效率和魯棒性[10]。深度學(xué)習在語義通信模型中得到廣泛的應(yīng)用,具有良好的特征提取和學(xué)習能力,能夠?qū)π旁窗恼Z義信息進行提取和傳輸[11]。相較于數(shù)字通信通信模型,基于深度學(xué)習的通信模型不會出現(xiàn)“懸崖效應(yīng)”。當前,語義通信主要基于深度學(xué)習進行開發(fā)和探索,并且已經(jīng)取得一定的效果[12]。基于深度學(xué)習的語義通信系統(tǒng)顯示出巨大的潛力,能夠有效傳輸不同類型的信息。隨著物聯(lián)網(wǎng)設(shè)備的大量部署,以目標為導(dǎo)向的通信方式[2](如人-機、機-機)不斷涌現(xiàn),這給邊緣設(shè)備帶來巨大的通信壓力。語義通信只傳輸目標需要的信息,大大減少數(shù)據(jù)通信量,提高通信效率。語義通信將成為下一代物聯(lián)網(wǎng)無線通信技術(shù)的重要組成部分。
信道噪聲干擾是影響無線通信系統(tǒng)性能的主要因素之一,因此提高通信系統(tǒng)應(yīng)對噪聲環(huán)境的魯棒性是傳統(tǒng)通信和語義通信的共同目標。數(shù)字通信方案通過增加信道編碼量來提高系統(tǒng)的抗噪能力,使通信量急劇增加。當前,基于深度學(xué)習的通信系統(tǒng)通過DNN 緩解噪聲對系統(tǒng)的干擾,同時平衡系統(tǒng)的通信量。文獻[13]提出了一種用于通用無線信道的基于深度學(xué)習的端到端通信系統(tǒng),其中信源編碼、信道編碼、調(diào)制解調(diào)等傳統(tǒng)模塊被DNN 所取代。該端到端系統(tǒng)以數(shù)據(jù)驅(qū)動的方式成功地利用各種相關(guān)性,獲得較好的結(jié)果。文獻[14]提出了一種基于強化學(xué)習的方法,在不知道信道傳遞函數(shù)或信道狀態(tài)信息(CSI)的情況下優(yōu)化發(fā)送端DNN。在實際系統(tǒng)中,由于存在信令和檢測方案的損傷、硬件缺陷、變化的信道條件等情況,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)所得到的信道與用于訓(xùn)練網(wǎng)絡(luò)的信道顯著不同。文獻[15]使用隨機擾動方法設(shè)計了一個無信道模型的端到端通信框架。該模型在真實信道中訓(xùn)練基于深度學(xué)習的通信系統(tǒng),不需要對信道模型進行任何假設(shè)。文獻[16]開發(fā)了一種基于條件對抗生成網(wǎng)絡(luò)(StyleGAN)的方法,用于構(gòu)建端到端通信系統(tǒng),其中StyleGAN 用于構(gòu)建信道效應(yīng)模型。該模型將與導(dǎo)頻數(shù)據(jù)相對應(yīng)的接收信號作為調(diào)節(jié)信息的一部分,在接收機處獲得信道狀態(tài)信息,并將其用于信號檢測。
近年來,研究人員提出了多種基于深度學(xué)習的語義通信系統(tǒng),旨在提高在噪聲信道上自然語言傳輸?shù)男阅?。文獻[17]提出了一種用于自然語言的JSCC系統(tǒng),通過最小化E2E失真,實現(xiàn)比傳統(tǒng)方法更好的通信性能。文獻[18]提出了兩種方案來處理有限的數(shù)據(jù)速率問題:自適應(yīng)傳輸方案和廣義數(shù)據(jù)表示方案。其中,自適應(yīng)傳輸方案可以在不同信道條件下以均方誤差(MSE)約束最大化數(shù)據(jù)速率;廣義數(shù)據(jù)表示方案取代了one-hot表示,以獲得更高的數(shù)據(jù)速率。文獻[19]則提出了一種新型語義通信系統(tǒng),通過信道估計輔助訓(xùn)練實現(xiàn)文本重建。與文本語義通信系統(tǒng)相比,語音信號難以提取和表示基本的語義特征。研究人員使用多種方法來開發(fā)用于語音信號傳輸?shù)恼Z義通信系統(tǒng),文獻[20]提出了一種基于深度學(xué)習的語音通信系統(tǒng)。該系統(tǒng)通過聯(lián)合訓(xùn)練語義和信道編解碼器,學(xué)習和提取語音特征,同時利用注意力機制減輕實際通信場景中的信道失真和衰減,使系統(tǒng)獲得更好的通信性能。文獻[21]采用波向量(wav2vec)來提取音頻語義特征,并通過強化學(xué)習(RL)提高特征提取的準確性。
針對圖像信息的壓縮和傳輸問題,基于深度學(xué)習的圖像壓縮技術(shù)已經(jīng)成為研究熱點。一系列的圖像無線信號通信系統(tǒng)相繼產(chǎn)生。文獻[22]提出了一種基于深度學(xué)習的無線圖像傳輸系統(tǒng),實現(xiàn)基于E2E 的JSCC,使用峰值信噪比(PSNR)和結(jié)構(gòu)相似性指數(shù)(SSIM)測量重建圖像的質(zhì)量。在JSCC 的基礎(chǔ)上,另一種具有信道反饋的圖像重建方案DeepJSCC-f,通過接收來自接收器的信道反饋,進一步提高圖像重建精度[23]。文獻[24]提出了基于正交頻分復(fù)用(OFDM)數(shù)據(jù)路徑的JSCC 方案,用于多路徑衰落信道的無線圖像傳輸。該通信方案通過整合專家知識實現(xiàn)了更好的性能。文獻[25]開展了物聯(lián)網(wǎng)(IoT)設(shè)備用于圖像傳輸?shù)难芯?,通過將兩個DNN 的聯(lián)合傳輸識別方案部署在設(shè)備端,在識別精度上比傳統(tǒng)方案更好。文獻[26]提出了聯(lián)合特征壓縮和傳輸系統(tǒng),以處理邊緣服務(wù)器上有限的計算資源。該方案不僅提高了E2E 的可靠性,而且降低了計算復(fù)雜度。此外,M. JANKOWSKI等提出了基于自編碼器嚴格約束的設(shè)備邊緣通信系統(tǒng),在有限的計算能力下實現(xiàn)了更好的分類精度[27]。文獻[28]提出了一種新的航空圖像傳輸范式,在無人機端部署一個輕量級模型,用于感知圖像和信道條件的語義傳輸模塊,在接收端通過計算能力更強的基站對收到的信息進一步處理,提高分類精度。文獻[29]提出了基于深度學(xué)習的用于傳輸單模態(tài)和多模態(tài)數(shù)據(jù)的多用戶語義通信系統(tǒng),通過在編碼器和解碼器層之間添加連接來融合多模態(tài)數(shù)據(jù),實現(xiàn)圖像檢索和視覺問答等功能。然而,當前仍缺乏對于圖像語義的評估準則,導(dǎo)致語義通信系統(tǒng)的圖像恢復(fù)仍需要使用傳統(tǒng)的圖像重建準則來衡量系統(tǒng)性能。
語義通信作為下一代通信技術(shù)的重要組成部分,為新一代的通信變革提供新方法。目前,語義通信發(fā)展仍處于探索階段。作為下一代通信技術(shù)的重要組成部分,語義需要理論和技術(shù)的雙重發(fā)展。目前,語義通信在數(shù)學(xué)理論證明方面仍未得到普遍認可,在技術(shù)方面深度學(xué)習的機理和可解釋性仍然有待研究。本文是在技術(shù)層面對圖像語義通信的一次探索,通過簡單的通信環(huán)境假設(shè),驗證通信系統(tǒng)的可行性;通過基于深度學(xué)習的圖像信息挖掘,探索信息內(nèi)容的語義性對信息傳遞的影響。實驗結(jié)果表明,本文所提出的語義通信系統(tǒng)具有較好的魯棒性,特別是在有限帶寬條件下更具優(yōu)勢。這表明高級語義信息在圖像傳輸中具有優(yōu)勢。
圖像語義通信模型的一般框架如圖1所示。與傳統(tǒng)通信系統(tǒng)相同,語義通信系統(tǒng)包含發(fā)送端、無線信道和接收端3個部分。兩者的主要區(qū)別在于語義通信系統(tǒng)所采用的編解碼方式。語義通信系統(tǒng)將信源信道的編解碼作為一個整體。信道編解碼在應(yīng)對噪聲的同時對信源編碼信息的重要程度進行衡量,為其中重要的信息分配更多的符號位以進行編碼。針對信源中的語義內(nèi)容,語義編碼對有含義的信息進行編碼表達,其過程實際就是對信源中語義概念的高度抽象與壓縮。為提高圖像無線通信的高效性和準確性,本文提出一種面向語義的圖像通信系統(tǒng),該系統(tǒng)通過聯(lián)合信源語義編解碼和信道編解碼的方式,提高系統(tǒng)的通信效率和魯棒性。
▲圖1 圖像語義通信系統(tǒng)
編碼器由兩部分構(gòu)成:語義特征提取器和聯(lián)合語義信道編碼器。具體過程為:首先,編碼器的輸入圖像S由歸一化層預(yù)處理,使得每個元素都在[0,1]范圍內(nèi);其次,通過多個基于神經(jīng)網(wǎng)絡(luò)的多級語義特征提取器提取輸入圖像的不同語義特征;最后,利用聯(lián)合語義信道編碼器將語義特征編碼為符號,通過物理通道傳輸?shù)浇邮掌?,傳輸向量x:
其中,Tα(?)為多級語義特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)為α;Tβ(?)為聯(lián)合語義信道編碼器,網(wǎng)絡(luò)參數(shù)為β。
本文所提方案在一個廣泛使用的物理信道——加性白高斯噪聲(AWGN)信道上進行模型測試。則解碼器上接收到的信號y為:
其中,w 為圓對稱高斯分布的獨立同分布向量,w~CN(0,σ2I),σ2為信道的平均噪聲功率,I為單位矩陣。
解碼器也由兩部分組成:聯(lián)合語義信道解碼器和圖像重建模塊。聯(lián)合語義信道解碼器減輕信號在AWGN 信道的噪聲干擾,并恢復(fù)多級語義特征。圖像重建模塊融合不同層次的語義信息并重建目標圖像。反歸一化層將每個元素重新縮放為圖像像素值(0~255)。聯(lián)合語義信道解碼器和圖像重建模塊的參數(shù)為ξ和η,接收器重建圖像為:
其中,Rξ(?)和Rη(?)分別為聯(lián)合語義信道編碼器和圖像重建模塊,y為從信道接收到的信號。
本文提出一種基于深度學(xué)習的無線圖像傳輸語義通信系統(tǒng),如圖2所示。其中,多級語義特征提取器用于提取不同級別的語義特征。高級語義信息包含圖像的抽象性和通用性指標,低級語義信息包含圖像的局部細節(jié)語義信息[30]。該系統(tǒng)通過基于深度學(xué)習的特征提取器提取信源特征,并通過與語義信道的聯(lián)合訓(xùn)練給不同的信息賦予不同的權(quán)重。語義信道編碼器和解碼器聯(lián)合在接收器處成功恢復(fù)這些語義特征,并通過圖像重建模塊對多級語義信息進行融合并重構(gòu)目標圖像。
▲圖2 圖像語義通信系統(tǒng)的整體架構(gòu)
對于輸入圖像S ∈?b×h×w×3,首先通過歸一化層將像素值映射到[0,1]范圍,其中b、h和w分別為圖像的批數(shù)量、高和寬,3表示圖像對應(yīng)的圖像通道數(shù)。一個批次的圖像數(shù)據(jù)會被送入多級語義特征提取器。該提取器包含3個模塊:語義特征模塊、分割特征模塊和低級特征模塊。不同模塊分別提取不同層級和不同形式的圖像語義信息。語義特征模塊包含一個預(yù)訓(xùn)練的圖像字幕模型,該模型由ResNet-152 模型[31]和長短期記憶網(wǎng)絡(luò)(LSTM)[32]層組成,用于提取圖像文本形式的高級語義信息,其中t 為下采樣因子。文本形式語義特征是帶有圖像紋理信息的文本嵌入信息。為了方便理解,本文稱這些特征為“文本形式”。分割特征模塊通過預(yù)訓(xùn)練的圖像分割[33]模型獲取圖像分割形式的高級語義信息a ∈?b×h×w×1。低級特征模塊由兩部分組成:聯(lián)合部分和直取部分。其中,聯(lián)合部分通過concatenate按通道維度將歸一化圖像和分割特征相結(jié)合,并輸出f ∈?b×h×w×1;直取部分為直接輸入歸一化后的圖像特征。低級特征模塊主要用于圖像細節(jié)特征的提取,為高級語義信息做細節(jié)補充,實現(xiàn)更豐富的信息重構(gòu)。超參數(shù)l控制低級特征傳輸信息量,該參數(shù)決定通信量和目標信息的重建質(zhì)量。
通過多級語義特征提取器可獲得4種類型的目標語義信息特征:文本形式特征p、圖像分割特征a、聯(lián)合特征f和圖像歸一化低級特征。語義特征p首先通過全連接層進行維度壓縮,進而通過整形層和編碼模塊輸出,其中×1表示維度信息。語義特征a和f分別輸入兩個獨立的編碼器模塊,并輸出不同的特征維度信息和。c3和cl除了最后一層的輸出通道數(shù)不同外,其他結(jié)構(gòu)均相同。編碼器模型cl獲取圖像細節(jié)信息特征。聯(lián)合層將獲取的不同內(nèi)容的特征c1,…,cl進行聯(lián)合和壓縮,并輸出進而通過功率歸一化層生成k 個數(shù)傳輸符號x,同時這些符號的發(fā)射功率低于給定值,其中信道帶寬壓縮比為,該值可根據(jù)信道環(huán)境自適應(yīng)調(diào)整。高級語義信息是目標重建的增強信息。 當e = 1 時, 聯(lián)合語義信道編碼輸出為
接收端的重塑層將接收到的信號重組為qi,i = 1,…,l個語義特征,其尺寸為。當連接接收到的符號的實部和虛部時,最后一個維度加倍,如。同樣,qi使用第3i ?1 和3i + 1 元素的最后一個維度,。每個qi,i = 1,…,l 都輸入到解碼器模塊,其具有相同的卷積核尺寸(m=3),如圖3所示。每個解碼器的輸出語義特征為其中o為輸出通道數(shù)。卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)由m × m × o/st參數(shù)構(gòu)成,其中m、o 和st 分別是卷積核尺寸、通道輸出數(shù)量和步長。每個卷積層之后為廣義的歸一化變換層(包括廣義除數(shù)歸一化(GDN)和逆GDN(IGDN))。
▲圖3 編碼器模塊、解碼器模塊結(jié)構(gòu)示意圖
圖像重建模塊需要融合不同形式和內(nèi)容的語義特征,完成不同語義內(nèi)容之間的相互補充,通過注意力機制深度挖掘融合信息,進而將融合特征重建為目標圖像。首先借助雙特征融合模塊對兩種形式的高級語義特征進行融合,即雙特征融合模塊通過交叉結(jié)構(gòu)和通道注意力機制(CA)學(xué)習輸入特征;然后通過像素上采樣模塊對特征信息升維,其中像素上采樣模塊由卷積層和像素上采樣層構(gòu)成;最后將相同維度的高級語義信息和低級細節(jié)補充信息進行級聯(lián)操作,通過殘差網(wǎng)絡(luò)對融合后的信息進行提取并重建目標圖像。殘差網(wǎng)絡(luò)由反卷積層和PReLU 激活函數(shù)構(gòu)成(最后一層為sigmoid 激活函數(shù)),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。在圖像重建模塊中,不同形式特征生成的粗糙圖像含有不同的成分,例如比較平滑的低頻信息和充滿邊緣、紋理的高頻信息。同時,卷積層的每個過濾器都包含一個局部感受野,其輸出無法利用局部信息之外的上下文信息。因此,通過通道注意力機制改變特征權(quán)重,能夠提高重要信息的權(quán)重占比。通道注意力機制的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
▲圖4 圖像重建模塊結(jié)構(gòu)示意圖
▲圖5 通道注意力機制網(wǎng)絡(luò)結(jié)構(gòu)示意圖
根據(jù)設(shè)計模型特點,需要使用具有多類型標簽的數(shù)據(jù)集對模型進行訓(xùn)練。本文使用MSCOCO[34]和ADE20K[35]數(shù)據(jù)集訓(xùn)練和評估所提出的系統(tǒng)。MSCOCO 數(shù)據(jù)集包含123 287 張圖像(82 783 張用于訓(xùn)練,40 504 張用于測試),每張圖像都包含5 個不同的字幕標題。ADE20K 數(shù)據(jù)集包含27 574 張圖像、150 個語義標簽,圖像高度和寬度至少為512 像素。訓(xùn)練模型時,每個圖像都被裁剪為固定大?。篽 = 128,w =128。對于文本形式特征,本文使用帶有文本標簽的MSCOCO 數(shù)據(jù)集來訓(xùn)練語義特征模塊CaptionNet[24-25],并使用帶有分割標簽的ADE20K數(shù)據(jù)集來訓(xùn)練系統(tǒng)的其余部分(凍結(jié)語義特征模塊)。最后,本文在Kodak[36]圖像數(shù)據(jù)集上測試所提出的圖像無線通信系統(tǒng)。Kodak數(shù)據(jù)集總共包含24張固定尺寸768×512的圖像。
所提模型在Pytorch[37]中實現(xiàn)。并使用Adam算法[38]進行優(yōu)化。學(xué)習率設(shè)置為0.000 1,批次大小設(shè)置為32,下采樣因子t = 8。本文采用現(xiàn)有的基于深度學(xué)習的方法(DeepJSCC 和Aided Deep-JSCC[39]),以及傳統(tǒng)的基于分離的數(shù)字傳輸方案(JPEG)作為基準進行比較,并使用PSNR 和SSIM 指標來評估性能。PSNR 表示信號最大可能功率和影響其表示精度的破壞性噪聲功率的比值,,其中d(x,y) 為均值誤差,MAX 表示圖像點顏色的最大數(shù)值。SSIM 使用3 個標準度量圖 像 : 亮 度 、 對 比 度 和 結(jié) 構(gòu) 。 SSIM =,其中μ 為亮度,σ 為對比度,C1和C2為常數(shù)。Aided Deep-JSCC是一種用于無線傳感器網(wǎng)絡(luò)的分布式語義通信方案。其中,每個傳感器觀察并編碼一個公共圖像,并通過無線信道獨自將其發(fā)送給接收器。接收器融合來自不同傳感器的信息并重建原始圖像。該方案類似于本文所提方案,即從原始圖像中提取多個版本的語義信息,并將其發(fā)送給接收者以用于信源信息的重建。根據(jù)香農(nóng)分離定理,傳輸速率必須降低信道容量,通過物理信道傳輸?shù)男旁葱畔⑿枰獫M足,其中R 為信源信息的傳輸速率,log2(1 + SNR)為信道容量,k 為信道維度,n為圖像維度。信源信息在物理信道上可靠傳輸?shù)淖畲笏俾蕿镽max。傳統(tǒng)的圖像壓縮方案具有最小壓縮碼率Rmin,這是接收端重建目標圖像的極限。如果Rmin> Rmax,則接收器無法重建輸入圖像。為信噪比,其中Ps為信號功率,Pn為噪聲功率。
圖6 對比了不同壓縮比下圖像重建PSNR 的性能表現(xiàn)??梢钥闯觯疚乃崴惴▋?yōu)于其他深度學(xué)習方案和傳統(tǒng)方案。同時,基于深度學(xué)習的圖像通信系統(tǒng)不會因“懸崖效應(yīng)”(信道條件低于某個閾值,接收器無法恢復(fù)傳輸?shù)膱D像)而遭受大幅的性能下降。數(shù)字傳輸方案在較差的信道環(huán)境中(SNR<10 dB)和低壓縮比(k/n < 1/10)條件下引發(fā)系統(tǒng)崩潰,而基于深度學(xué)習的系統(tǒng)仍然可以完成目標信息的重建。本文所提方案中的聯(lián)合語義信道編解碼方案能夠均衡分配信源信息編碼和抗噪編碼字符數(shù),使得在信號壓縮和重建過程中能夠更好地表達語義信息。在低壓縮比信道情況較好的環(huán)境中,本文所提方案性能與DeepJSCC模型相近。這是由于:在低壓縮比下,發(fā)射端沒有足夠的帶寬來傳達更詳細的圖像細節(jié)信息,導(dǎo)致系統(tǒng)重建目標在細節(jié)信息的刻畫上不足。隨著壓縮比的增大,本文所提算法性能與其他方案之間的差距逐漸拉大。這進一步體現(xiàn)出所提模型在抗噪和信息恢復(fù)上的優(yōu)勢。
▲圖6 AWGN信道上具有不同壓縮比的PSNR和SSIM性能比較
圖6 同時展示了不同方法在SSIM 評估標準下的性能比較。SSIM 從圖像結(jié)構(gòu)方面反映了原始圖像和重建圖像之間的相似性。本文所提方案在低壓縮比及較差的信道條件下(例如,SNR=0)的性能顯著優(yōu)于其他方案。Aided Deep-JSCC 系統(tǒng)將SSIM 和MSE 作為損失函數(shù),在SSIM 指標上具有更好的性能。本文所提方法的圖像重建模塊對高級語義信息進行深度挖掘,并利用殘差網(wǎng)絡(luò)對融合后的多級信息進行學(xué)習,進而提高圖像重建質(zhì)量;在低壓縮比信道環(huán)境較好的情況下,依然能夠達到與Aided Deep-JSCC 方案相同的性能(本文所提方案中并未使用SSIM 作為損失函數(shù))。在高壓縮比情況下,Aided Deep-JSCC 的重建質(zhì)量最差。這是由于:Aided Deep-JSCC 方案中的每個傳感器都獨立于圖像進行編碼,在不同編碼器之間引入了語義信息冗余,造成不必要的帶寬浪費。而本文所提出的方案以聯(lián)合的方式提取多級語義信息,強制不同編碼器獲得的語義信息不同,相對提高了不同壓縮比在較差物理信道情況下(SNR<10 dB)SSIM 的評分,進一步證明了所提方案在帶寬有限、信道條件惡劣情況下的優(yōu)勢。
圖7比較了本文所提方案和基準方法在Kodak 數(shù)據(jù)集上的PSNR 性能表現(xiàn)。在AWGN 信道環(huán)境下壓縮比k/n 設(shè)置為1/16,數(shù)字通信方案信源編解碼采用JPEG,信道編解碼為低密度奇偶檢查碼(LDPC),使用4 符號正交幅度調(diào)制(QAM)數(shù)字調(diào)制方案。如圖7 所示,本文所提方案優(yōu)于其他基于深度學(xué)習的方法,表現(xiàn)出多級語義信息在無線圖像傳輸上的優(yōu)勢。同時,采用數(shù)字通信方案的圖像傳輸質(zhì)量遠低于基于深度學(xué)習的方法。造成該現(xiàn)象的主要原因是傳統(tǒng)方案對信道變化引起的信道錯誤率比較敏感。由于可用于壓縮的位數(shù)是固定的,當信道環(huán)境達到一定閾值后,數(shù)字通信方案圖像重建質(zhì)量不會再提高。在SNRtest< SNRtrain的情況下,本文所提系統(tǒng)不會受到數(shù)字傳輸方案中的“懸崖效應(yīng)”的影響。相反,本文所提方案隨著信噪比值的降低,性能平滑地下降,其能夠平衡壓縮比和魯棒性之間的重要層度。如果模型以高SNR 值訓(xùn)練,則系統(tǒng)的PSNR性能主要由帶寬壓縮比決定,反之亦然。本文所提方法的PSNR性能,比Deep JSCC高1.37~1.96 dB,比Aided Deep-JSCC高3.37~7.39 dB,比傳統(tǒng)方法高6.8~9.06 dB。相較于Aided Deep-JSCC的指標波動性,本文所提方法在面對不同信道環(huán)境時具有更平滑的性能表現(xiàn)。如圖8所示,相比于靜態(tài)信道環(huán)境,本文所提方案的圖像重建質(zhì)量仍具有較好表現(xiàn),這說明網(wǎng)絡(luò)具有估計信道狀態(tài)的能力。
▲圖7 不同圖像無線傳輸方案在Kodak數(shù)據(jù)集上PSNR的性能比較
▲圖8 在SNR=13 dB和壓縮比為1/16的情況下不同方法的可視化比較
本文提出了一種基于深度學(xué)習的無線圖像傳輸語義通信系統(tǒng),與其他基于深度學(xué)習和基于分離的數(shù)字傳輸方案相比,性能表現(xiàn)優(yōu)異。仿真結(jié)果表明,所提出的語義通信系統(tǒng)的有效性和魯棒性均優(yōu)于其他方案。
隨著無線通信技術(shù)的快速發(fā)展,未來6G 高效、智能的通信方式,將給工業(yè)生產(chǎn)和大眾生活帶來顛覆性的變革。語義通信作為新一代通信方式,將助力6G 發(fā)展。然而,有關(guān)語義通信的關(guān)鍵技術(shù)和理論基礎(chǔ)仍需要進一步發(fā)展和完善。本文僅作為語義通信的一次嘗試和探索。語義通信技術(shù)的發(fā)展還需要更多的專家學(xué)者共同推進。