翦 杰,羅 章,賴(lài)明澈,肖立權(quán),徐煒遐
(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410073)
高速互連網(wǎng)絡(luò)是高性能計(jì)算中心的核心基礎(chǔ)設(shè)施,實(shí)現(xiàn)系統(tǒng)內(nèi)部所有結(jié)點(diǎn)間的連接和數(shù)據(jù)傳輸,是高性能計(jì)算HPC(High Performance Computing)得以實(shí)現(xiàn)大規(guī)模并行計(jì)算的關(guān)鍵,也是實(shí)現(xiàn)大規(guī)模存儲(chǔ)數(shù)據(jù)分析挖掘的核心,直接決定HPC的性能和均衡擴(kuò)展能力。
綜合考慮功耗、密度和價(jià)格等因素,傳統(tǒng)的面向高速數(shù)據(jù)傳輸?shù)母咚俅薪涌诩夹g(shù)依然是HPC內(nèi)部互連后續(xù)發(fā)展的重要方向。但是,信號(hào)在實(shí)際的物理傳輸過(guò)程中,還有許多原因會(huì)導(dǎo)致信號(hào)質(zhì)量劣化,其中信道的傳輸損耗是引起信號(hào)劣化的主要原因。信號(hào)在PCB版、銅線(xiàn)和光纖等傳輸介質(zhì)中傳播時(shí),由于傳輸介質(zhì)的電氣特性,信號(hào)傳輸會(huì)產(chǎn)生損耗,使得傳輸信號(hào)的頻率、相位和幅度等特性發(fā)生改變。另外,信道中并行運(yùn)行的多個(gè)差分信號(hào)之間還會(huì)相互干擾,產(chǎn)生信號(hào)串?dāng)_ISI(Inter-Symbol Interference),此外,信號(hào)還會(huì)受到電路器件的熱噪聲、散射噪聲和閃爍噪聲等的影響。
上述串?dāng)_、損耗和噪聲等導(dǎo)致信號(hào)質(zhì)量劣化的因素,增加了信道特性的不確定性,使得信號(hào)在接收端無(wú)法正確識(shí)別。尤其是不同信號(hào)之間的碼間干擾ISI,隨著傳輸信號(hào)頻率的提高,對(duì)傳輸信號(hào)的質(zhì)量影響迅速增加,因此,需要對(duì)信道采用相應(yīng)的補(bǔ)償措施,實(shí)現(xiàn)接收端的信號(hào)均衡。
傳統(tǒng)的信道均衡結(jié)構(gòu)由3種模擬均衡器組成,分別為前向反饋均衡器FFE(Forward Feedback Equalizer)[1 - 3]、連續(xù)時(shí)間線(xiàn)性均衡器CTLE(Continuous-Time Linear Equalizer)[4]和判決反饋均衡器DFE(Decision Feedback Equalizer)[5 - 8]。在接收端,DFE均衡器實(shí)現(xiàn)高效的非線(xiàn)性均衡效果,它能放大信號(hào)高頻分量的幅度,同時(shí)消除當(dāng)前碼元對(duì)后續(xù)碼元的碼間干擾。然而,DFE有2個(gè)因反饋回路導(dǎo)致的固有缺陷:一是突發(fā)錯(cuò)誤問(wèn)題,即當(dāng)碼間串?dāng)_較大時(shí),前序一個(gè)信號(hào)的錯(cuò)誤識(shí)別會(huì)導(dǎo)致后續(xù)一系列信號(hào)的錯(cuò)誤識(shí)別,在確定的比特錯(cuò)誤率BER(Bit Error Rate)情況下,突發(fā)錯(cuò)誤問(wèn)題使得前向糾錯(cuò)機(jī)制更加復(fù)雜,導(dǎo)致編/譯碼的延遲顯著增加,降低編碼效率;第二個(gè)固有缺陷則是致命的,由于DFE的判決輸出依賴(lài)于反饋回路的結(jié)果,因此,前向回路的總延遲必須小于單個(gè)單元間隔UI(Unit Interval,信號(hào)傳輸率的倒數(shù)),在波特率為25 GB時(shí),為優(yōu)化反饋回路延遲,DFE的后向反饋回路階數(shù)已經(jīng)減少至最小值1,這限制了信號(hào)傳輸率的進(jìn)一步提升。
另一方面,在面向PAM4(4-level Pulse Amplitude Modulation)編碼[9]的50 Gb/s/lane的傳輸鏈路中,傳統(tǒng)的模擬均衡器無(wú)法恢復(fù)經(jīng)過(guò)了具有30 dB插損的傳輸通道的信號(hào)。其原因一是因?yàn)槟M反饋電路的設(shè)計(jì)無(wú)法滿(mǎn)足時(shí)序要求,二是在接收端無(wú)法設(shè)計(jì)實(shí)現(xiàn)具有超過(guò)16階的FFE模擬均衡器。因此,在綜合考慮功耗、面積和硬件資源開(kāi)銷(xiāo)等因素后,利用定制化的數(shù)字信號(hào)處理器DSP(Digital Signal Processor)替代模擬電路,實(shí)現(xiàn)下一代高速串行鏈路的信道均衡將是一個(gè)很好的選擇。SerDes設(shè)計(jì)者們傾向于用ADC-DSP(Analog-to-Digital Converter Digital Signal Processor)結(jié)構(gòu)實(shí)現(xiàn)接收端的電路設(shè)計(jì),這種結(jié)構(gòu)將所有的FFE、DFE功能封裝在一個(gè)DSP模塊內(nèi),并在此基礎(chǔ)上添加上層算法,如前向糾錯(cuò)FEC(Forward Error Correction),以此提高信號(hào)完整性。
ADC-DSP結(jié)構(gòu)的引入,為實(shí)現(xiàn)更加復(fù)雜高效的均衡算法提供了可能。在無(wú)線(xiàn)通信領(lǐng)域,深度學(xué)習(xí)已經(jīng)得到廣泛應(yīng)用,借助于ADC-DSP結(jié)構(gòu),本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)[10]的均衡器結(jié)構(gòu)。該結(jié)構(gòu)利用基于隨機(jī)梯度下降SGD(Stochastic Gradient Descent)的反向傳播算法BP(Back Propagation)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的參數(shù),由于沒(méi)有反饋回路,基于DNN的均衡器解決了時(shí)間受限問(wèn)題,理論上支持的信道速率沒(méi)有限制。
深度神經(jīng)網(wǎng)絡(luò)實(shí)際上是一個(gè)全連接的人工神經(jīng)網(wǎng)絡(luò),如圖1所示,DNN網(wǎng)絡(luò)由多層神經(jīng)元組成,其結(jié)構(gòu)由網(wǎng)絡(luò)的層數(shù)以及每層網(wǎng)絡(luò)的神經(jīng)元數(shù)目決定,其結(jié)構(gòu)如式(1)所示:
npre+nmain+npost,N1,…,nm,…,nM-1,nmain
(1)
其中,nmain表示DNN均衡器的并行度,npre表示DNN的前向階數(shù),npost表示DNN的后向階數(shù),整個(gè)網(wǎng)絡(luò)包含M+1個(gè)網(wǎng)絡(luò)層、1個(gè)輸入層、1個(gè)輸出層和M-1個(gè)隱藏層,其中每個(gè)隱藏層包含nm(m=1,2,…,M-1)個(gè)神經(jīng)元。
Figure 1 Architecture of DNN equalizer
在輸入層(即0號(hào)層),網(wǎng)絡(luò)從ADC模塊接收7位的帶符號(hào)數(shù)字信號(hào),為提高判決準(zhǔn)確率,均衡器在處理nmain個(gè)輸入信號(hào)時(shí),會(huì)同時(shí)輸入npre個(gè)前向信號(hào)與npost個(gè)后向信號(hào)。為方便網(wǎng)絡(luò)處理,信號(hào)進(jìn)入輸入層之后,7位帶符號(hào)數(shù)字信號(hào)會(huì)轉(zhuǎn)化為8位無(wú)符號(hào)數(shù)字信號(hào)進(jìn)行處理。
輸出層(即M號(hào)層),包含nmain個(gè)神經(jīng)元,每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)信號(hào)值,一個(gè)額外的判定層用來(lái)實(shí)現(xiàn)判定函數(shù),它根據(jù)DNN的輸出值aM,確定最終的輸出信號(hào)值。如果信道采用NRZ編碼,則利用{0,255}作為信號(hào)值的參考中心值,并利用中間值128對(duì)信號(hào)value進(jìn)行0/1判決;如果信道采用PAM4編碼,則采用{0,85,170,255}作為4個(gè)信號(hào)值的參考中心,并分別利用43,128,213作為邊界,對(duì)信號(hào)value進(jìn)行0/1/2/3判決。上述過(guò)程可用如式(2)表示:
(2)
所有的隱藏層和輸出層,都可以看成是關(guān)于神經(jīng)元(如圖2所示)的數(shù)組,神經(jīng)元的輸出值y,由輸入值z(mì)的加權(quán)和,再經(jīng)過(guò)一個(gè)非線(xiàn)性激勵(lì)函數(shù)σ(*)得到,即:
y=σ(∑iwi*xi-b)=σ(WT*X-b)=σ(z)
其中,W={wi}是權(quán)向量,X={xi}是輸入值,b是閾值,T代表向量的轉(zhuǎn)置。
Figure 2 Mathematical model of a neural
(3)
式(3)也可以寫(xiě)成向量形式,即如式(4)所示:
am=σ(wmam-1-bm)=σ(zm)
(4)
(5)
式(5)所示的激勵(lì)函數(shù)使得神經(jīng)元的輸出值維持在8位整數(shù)值范圍內(nèi),且其導(dǎo)數(shù)計(jì)算簡(jiǎn)單,為1或0。
由以上分析可知,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)完全由網(wǎng)絡(luò)層數(shù)以及每層的神經(jīng)元數(shù)目確定,通過(guò)調(diào)整上述參數(shù),采取最小的網(wǎng)絡(luò)資源,網(wǎng)絡(luò)可以獲得最大的均衡效果。
網(wǎng)絡(luò)訓(xùn)練,即優(yōu)化網(wǎng)絡(luò)參數(shù)wm和bm,使神經(jīng)網(wǎng)絡(luò)獲得較好的均衡性能。為評(píng)估網(wǎng)絡(luò)性能,首先應(yīng)定義一個(gè)代價(jià)函數(shù)C(*),該函數(shù)可以度量網(wǎng)絡(luò)輸出aM和期望輸出yexp之間的差距。本文使用常用的最小均方差作為代價(jià)函數(shù),如式(6)所示:
其中‖*‖2是取模操作。
(7)
為使代價(jià)函數(shù)C的值最小,Hinton等采用反向傳播算法[11]對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其基本原理源于多元函數(shù)的鏈?zhǔn)角髮?dǎo)法則。為更好地展示反向傳播算法,本文定義一個(gè)如式(8)所示的中間誤差向量:
(8)
其中,向量δm表示第m層的變量關(guān)于代價(jià)函數(shù)C的偏導(dǎo)值,當(dāng)利用反向傳播算法計(jì)算每層的偏導(dǎo)值時(shí),利用后續(xù)層的δm值可以簡(jiǎn)化aM(x)值的表示和推導(dǎo),大大簡(jiǎn)化計(jì)算過(guò)程。
(9)
(10)
通過(guò)式(9)和式(10)可以計(jì)算出網(wǎng)絡(luò)所有參數(shù)關(guān)于代價(jià)函數(shù)C的偏導(dǎo)值,因此,神經(jīng)網(wǎng)絡(luò)可以通過(guò)隨機(jī)梯度下降方法進(jìn)行訓(xùn)練。訓(xùn)練開(kāi)始前,先生成一個(gè)訓(xùn)練樣本集及其對(duì)應(yīng)的標(biāo)簽值。訓(xùn)練開(kāi)始后,首先將樣本集分成幾批,每批包含2L組,每組包含nmain個(gè)信號(hào)值;每次向神經(jīng)網(wǎng)絡(luò)輸入一組信號(hào)值,其基本格式包含npre+nmain+npost個(gè)信號(hào)值;接著計(jì)算輸出層的誤差值,并利用反向傳播算法計(jì)算所有網(wǎng)絡(luò)參數(shù)的梯度值;對(duì)每批的2L組輸入信號(hào)產(chǎn)生的梯度值求均值;最后,通過(guò)式(11)和式(12)對(duì)網(wǎng)絡(luò)的權(quán)向量和偏移向量進(jìn)行更新:
(11)
(12)
為控制訓(xùn)練過(guò)程,上述過(guò)程引入了參數(shù)學(xué)習(xí)率η,學(xué)習(xí)率可以根據(jù)梯度值的變化對(duì)參數(shù)變化進(jìn)行控制。而公式尾部的每一個(gè)疊加項(xiàng),代表影響參數(shù)向量wm和bm值的每個(gè)具體分量對(duì)于代價(jià)函數(shù)C的偏導(dǎo)值。
最后,利用一組獨(dú)立的驗(yàn)證樣本作為神經(jīng)網(wǎng)絡(luò)的輸入,計(jì)算經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)之后的信號(hào)錯(cuò)誤率(SER)。重復(fù)迭代上述過(guò)程,直到SER值低于特定閾值或者訓(xùn)練時(shí)間到達(dá)上限。
方法二:將a,b看成一元二次方程x2=3x-1的兩根,用根與系數(shù)的關(guān)系分別求出a+b,ab的值代入式子得到18.
沒(méi)有任何真實(shí)物理通道是一成不變的,無(wú)論是電通道還是光通道,其傳輸特性都會(huì)受到溫度、濕度和物理形變等因素影響。因此,本節(jié)采用了一種參數(shù)反饋結(jié)構(gòu)(如圖3所示),在利用真實(shí)數(shù)據(jù)完成對(duì)均衡器的訓(xùn)練之后,繼續(xù)自適應(yīng)地調(diào)整DNN均衡器,以進(jìn)一步提高DNN均衡器的實(shí)用性。由于DNN均衡器在前期已經(jīng)完成訓(xùn)練,其判決輸出值的比特錯(cuò)誤率(BER)在FEC算法可糾正的范圍之內(nèi),因此,F(xiàn)EC譯碼能夠得到可靠的標(biāo)簽值,神經(jīng)網(wǎng)絡(luò)的參數(shù)還可以繼續(xù)更新。另外,由于參數(shù)的自適應(yīng)更新來(lái)自于標(biāo)簽值經(jīng)過(guò)SGD算法的反饋,而主數(shù)據(jù)路徑不存在反饋回路,因此,上述自適應(yīng)調(diào)整過(guò)程不會(huì)因反饋鏈路而引入時(shí)間限制問(wèn)題。
Figure 3 Parameter feedback mechanism for adaptive training of the DNN equalizer
DNN均衡器的評(píng)估由如圖4所示的仿真系統(tǒng)完成。本文所有信號(hào)均采用PAM4編碼方式,信號(hào)的幅度值分別為{-1,-1/3,1/3,1}。與NRZ編碼相比,PAM4編碼只需一半的波特率和奈奎斯特頻率即可獲得同樣的數(shù)據(jù)率,在高速串行鏈路中PAM4編碼技術(shù)可以提高發(fā)送信號(hào)的頻譜效率,且可降低系統(tǒng)時(shí)鐘頻率。與NRZ編碼相比,PAM4要求的信道帶寬和時(shí)鐘頻率都會(huì)減半,均衡的壓力相對(duì)減小,因此,在面向下一代56 GB、100 GB高速串行通信的實(shí)際需求時(shí),PAM4信號(hào)編碼方式已經(jīng)成為主流選擇。實(shí)驗(yàn)過(guò)程中采用偽隨機(jī)比特序列PRBS(Pseudo Random Bit Sequence)對(duì)信號(hào)進(jìn)行時(shí)鐘同步。
Figure 4 Setting and structure of simulation system
仿真使用的信道模型,是由真實(shí)信道提取出的S參數(shù)轉(zhuǎn)化而成的,其特性如圖5所示,通道的傳輸函數(shù)由S參數(shù)進(jìn)行擬合而來(lái)的。
Figure 5 Amplitude-frequency and phase-frequency characteristics of the simulated channel with a 317 mm-long PCB trace and two connectors
作為對(duì)比,對(duì)傳統(tǒng)的FFE+DFE的均衡器結(jié)構(gòu)(如圖6所示)也進(jìn)行了仿真。FFE+DFE均衡器包含一個(gè)K階FFE均衡器和一個(gè)B階的DFE均衡器,上述均衡器的權(quán)值參數(shù)通過(guò)最小均方差LMS(Least Mean Square)算法進(jìn)行回歸。另外,為便于對(duì)比,本文在56 GB以上的信道情形下,也仿真了多階的DFE均衡器性能。
Figure 6 Architecture of the traditional equalizer consisting of a K-tap FFE and a B-tap DFE
作為對(duì)比,本文首先仿真了FFE+DFE均衡器結(jié)構(gòu)。采用28 GBd的PAM4信號(hào),傳輸損耗約為15 dB。通過(guò)設(shè)置不同的FFE階數(shù)K和DFE階數(shù)B,仿真結(jié)果如圖7所示。結(jié)果顯示,增加FFE均衡器的階數(shù),可以提高均衡效果,且使得均衡過(guò)程加速收斂,DFE均衡器的存在,可以顯著提高BER性能。但是,DFE階數(shù)對(duì)BER值的影響不大,對(duì)于15階的FFE均衡器來(lái)說(shuō),DFE階數(shù)增加對(duì)結(jié)果的影響可以忽略。
Figure 7 Training convergencies of equalizers with different FFE-DFE taps at 28 GBd PAM4 signal over the channel with about 15 dB attenuation
但是,當(dāng)輸入信號(hào)的質(zhì)量變差時(shí),結(jié)果卻完全不一樣。當(dāng)輸入信道速率達(dá)到56 GBd,且傳輸損耗為30 dB時(shí),增加DFE的階數(shù),對(duì)均衡效果產(chǎn)生了明顯的改善,如圖8所示,與一階DFE相比,二階DFE的均衡效果使得BER值達(dá)到了一階DFE的4倍以上,在K=15,B=2的配置下,BER值能收斂至8E-3。
Figure 8 Training convergencies of equalizers with different FFE-DFE taps at 56 GBd PAM4 signal over the channel with about 30 dB attenuation
通過(guò)仿真DNN均衡網(wǎng)絡(luò)可以發(fā)現(xiàn),在28 GBd的PAM4信號(hào),通道衰減為15 dB的配置下,其均衡性能明顯好于FFE+DFE的均衡組合。如圖9所示,在只有一個(gè)隱藏層的配置下,DNN均衡器的最優(yōu)BER值可以達(dá)到7E-4,相比之下,DFE+FFE的均衡后的BER值約為1E-3(如圖7所示)。在通道衰減為30 dB,56 GBd的PAM4信號(hào)情形下,DNN均衡器的BER值可以達(dá)到8E-3(如圖10所示)。
Figure 9 Training convergencies of different DNN equalizers at 28 GBd PAM4 signal over the channel with about 15 dB attenuation
Figure 10 Training convergencies of different DNN equalizers at 28 GBd PAM4 signal over the channel with about 15 dB attenuation
另一方面,DNN均衡器具有更好的訓(xùn)練效率。一般情形下,無(wú)論如何配置均衡器階數(shù),傳統(tǒng)的FFE+DFE均衡結(jié)構(gòu),其收斂時(shí)間都不會(huì)小于200 μs,在56 GBd的配置下(如圖7和圖8所示),F(xiàn)FE+DFE均衡器在180 μs內(nèi),實(shí)際上并沒(méi)有完全收斂,曲線(xiàn)在時(shí)間軸尾部還在繼續(xù)向下。但是,DNN網(wǎng)絡(luò)則具有更好的收斂性。如圖9所示,在nmain=5時(shí),網(wǎng)絡(luò)的收斂時(shí)間均在100 μs以?xún)?nèi)。當(dāng)提高信道速率至56 GBd(如圖10所示),均衡過(guò)程的收斂時(shí)間更是減少到50 μs以?xún)?nèi)。
本文借助數(shù)字信號(hào)處理器(DSP),利用深度神經(jīng)網(wǎng)絡(luò)對(duì)高速信道進(jìn)行信道均衡。仿真結(jié)果表明,在28 GBd和56 GBd的信道速率下,采用PAM4編碼的傳輸信號(hào),包含3層的DNN均衡網(wǎng)絡(luò),其均衡效果可以超過(guò)組合了2-tap DFE和15-tap FFE的傳統(tǒng)均衡結(jié)構(gòu),表明了DNN均衡網(wǎng)絡(luò)在實(shí)際均衡應(yīng)用中具有較強(qiáng)的實(shí)用性。