亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強(qiáng)化學(xué)習(xí)的置信傳播譯碼算法

2021-05-07 23:22:23高源浩劉乃金魯淵明

現(xiàn)代信息科技 2021年21期

高源浩劉乃金魯淵明

摘 ?要：文章通過(guò)深度強(qiáng)化學(xué)習(xí)的方法來(lái)尋求二進(jìn)制線性編碼的有效解碼策略。在加性高斯白噪聲的條件下，將置信傳播（BP）解碼算法中軟信息的迭代看作是對(duì)軟信息的連續(xù)決策，并將其映射到馬爾可夫決策過(guò)程，用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)譯碼器，擴(kuò)大探索空間以提高譯碼性能，從而實(shí)現(xiàn)對(duì)數(shù)據(jù)驅(qū)動(dòng)的最佳決策策略的學(xué)習(xí)。結(jié)果表明，相較于傳統(tǒng)BP解碼器，在誤碼率=10-5時(shí)，學(xué)習(xí)型BP解碼器在BCH碼上取得大約0.75 dB的優(yōu)勢(shì)，這在一定程度上解決了以往研究中過(guò)于依賴數(shù)據(jù)的問(wèn)題。

關(guān)鍵詞：深度強(qiáng)化學(xué)習(xí);置信傳播譯碼;馬爾可夫決策;最佳決策

中圖分類(lèi)號(hào)：TP18 ? ?文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：2096-4706（2021）21-0098-05

Abstracts： This paper uses a deep reinforcement learning approach to find an efficient decoding strategy for binary linear codes. Under the condition of additive Gaussian white noise， the iteration of soft information in the belief propagation （BP） decoding algorithm is regarded as a continuous decision-making of soft information， which is mapped to the Markov decision-making process. The deep reinforcement learning network is used to replace the traditional decoder， expand the exploration space to improve the decoding performance， so as to realize the learning of the best data-driven decision-making strategy. The results show that compared with the traditional BP decoder， when the bit error rate is 10-5， the learning BP decoder has an advantage of about 0.75 dB in BCH code， which solves the problem of relying too much on data in previous research to a certain extent.

Keywords： deep reinforcement learning; belief propagation decoding; Markov decision-making; best decision-making

0 ?引 ?言

數(shù)字信號(hào)在傳輸過(guò)程中，由于受到各種干擾的影響，碼元波形將變壞，接收端收到后可能發(fā)生錯(cuò)誤判決。由乘性干擾引起的碼間串?dāng)_，可以采用均衡的方法進(jìn)行糾正。而加性干擾的影響則需要通過(guò)其他方法解決。在設(shè)計(jì)數(shù)字通信系統(tǒng)的時(shí)候，應(yīng)該首先從合理選擇調(diào)制制度、解調(diào)方法以及發(fā)送功率等方面考慮，使得加性干擾不足以影響到誤碼率要求。在仍不能滿足要求時(shí)，就要考慮采用信道編碼方法了。

為了改善通信的質(zhì)量，研究者們嘗試了很多辦法。信道編碼是人們?cè)诟纳仆ㄐ刨|(zhì)量方面最早采用的方法之一，通過(guò)給原數(shù)據(jù)添加相關(guān)的冗余信息來(lái)對(duì)抗傳輸過(guò)程中的干擾。信道編碼中以線性分組碼應(yīng)用最廣，廣泛應(yīng)用于衛(wèi)星通信、移動(dòng)通信、存儲(chǔ)設(shè)備、數(shù)字視頻廣播等領(lǐng)域，此外，線性分組碼可以在傳輸效率與糾錯(cuò)能力之間進(jìn)行權(quán)衡，允許其在更低的發(fā)射功率下保持同質(zhì)量的服務(wù)。因此，提高線性分組碼性能具有極其重要的意義。

糾錯(cuò)碼的解碼可以看作是一個(gè)分類(lèi)問(wèn)題，能夠通過(guò)監(jiān)督機(jī)器學(xué)習(xí)的方式得以解決。一般的想法是將解碼器視為一個(gè)參數(shù)化的函數(shù)（比如，一個(gè)神經(jīng)網(wǎng)絡(luò)），通過(guò)數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化來(lái)學(xué)習(xí)良好的參數(shù)配置。如果沒(méi)有對(duì)編碼方法的進(jìn)一步限制，深度學(xué)習(xí)方法通常只對(duì)短碼字有較好的效果，不適用于超過(guò)幾百個(gè)碼字長(zhǎng)度的非結(jié)構(gòu)化代碼。對(duì)線性分組碼來(lái)說(shuō)，這個(gè)問(wèn)題就大大簡(jiǎn)化了。人們只需學(xué)習(xí)一個(gè)決策區(qū)域即可，而無(wú)需學(xué)習(xí)每個(gè)碼字所在的各個(gè)區(qū)域，然而，這仍然是一個(gè)極具挑戰(zhàn)性的問(wèn)題，因?yàn)橐粋€(gè)好的編碼方案通常具有復(fù)雜的決策區(qū)域，每一個(gè)碼字都有大量相鄰的碼字。Tobias Gruber認(rèn)為可以通過(guò)深度神經(jīng)網(wǎng)絡(luò)對(duì)隨機(jī)碼和結(jié)構(gòu)化碼（如polar碼）進(jìn)行一次性解碼[1]。通過(guò)學(xué)習(xí)，發(fā)現(xiàn)結(jié)構(gòu)化編碼更容易學(xué)習(xí)。對(duì)于結(jié)構(gòu)化編碼，神經(jīng)網(wǎng)絡(luò)能夠泛化到它在訓(xùn)練期間從未見(jiàn)過(guò)的碼字。Tim OShea提出并討論了深度學(xué)習(xí)（DL）在物理層面的幾個(gè)新應(yīng)用[2]。通過(guò)將通信系統(tǒng)解釋為一個(gè)自動(dòng)編碼器，將通信系統(tǒng)設(shè)計(jì)視為一個(gè)端到端的重建任務(wù)，尋求在單一過(guò)程中同時(shí)優(yōu)化發(fā)射器和接收器組件。EliyaNachmani提出一種基于改進(jìn)信念傳播算法的新型深度學(xué)習(xí)方法[3]。該方法通過(guò)給Tanner圖的邊分配權(quán)重的方式來(lái)概括標(biāo)準(zhǔn)的信念傳播算法，然后使用深度學(xué)習(xí)技術(shù)對(duì)這些邊進(jìn)行訓(xùn)練。信念傳播算法的一個(gè)眾所周知的特性是對(duì)所傳輸碼字性能的獨(dú)立性。Amir Bennatan提出一個(gè)新的框架，將深度神經(jīng)網(wǎng)絡(luò)（DNN）應(yīng)用于任意塊長(zhǎng)度的線性編碼的軟解碼[4]。他們所提出的框架允許無(wú)約束的DNN設(shè)計(jì)，能夠自由靈活地應(yīng)用在其他背景下開(kāi)發(fā)的強(qiáng)大設(shè)計(jì)，對(duì)抑制許多競(jìng)爭(zhēng)性方法的過(guò)擬合具有魯棒性，這源于其訓(xùn)練所需呈指數(shù)級(jí)增長(zhǎng)的大量編碼。結(jié)果表明，其性能有時(shí)接近有序統(tǒng)計(jì)解碼（OSD）算法的性能。EliyaNachmani介紹了一個(gè)基于逐次松弛方法的循環(huán)神經(jīng)解碼器架構(gòu)，在較稀疏的Tanner圖表示的編碼上也觀察到了比標(biāo)準(zhǔn)信念傳播得更好的性能改進(jìn)。此外，他們還證明了神經(jīng)信念傳播解碼器可以用來(lái)提高短BCH碼的性能，或者是降低接近最佳解碼器的計(jì)算復(fù)雜性。

本文中，我們從機(jī)器學(xué)習(xí)的角度研究了二進(jìn)制線性碼的解碼。置信傳播算法利用節(jié)點(diǎn)與節(jié)點(diǎn)之間相互傳遞信息來(lái)更新當(dāng)前所有節(jié)點(diǎn)的狀態(tài)。通過(guò)消息傳播，將該節(jié)點(diǎn)的概率分布狀態(tài)傳遞給相鄰的節(jié)點(diǎn)，從而影響相鄰節(jié)點(diǎn)的概率分布狀態(tài)，經(jīng)過(guò)一定次數(shù)的迭代，每個(gè)節(jié)點(diǎn)的概率分布將收斂于一個(gè)穩(wěn)態(tài)。在實(shí)際的置信傳播譯碼過(guò)程中，校驗(yàn)節(jié)點(diǎn)和變量節(jié)點(diǎn)之間的消息傳遞雖然存在重復(fù)信息，但是重復(fù)信息比較少，因此可以近似地認(rèn)為每一次的迭代譯碼都只用上一次迭代后的對(duì)數(shù)似然比值進(jìn)行計(jì)算，這滿足于馬爾可夫決策中狀態(tài)的改變只與上一個(gè)狀態(tài)有關(guān)，而與上一個(gè)狀態(tài)之前的狀態(tài)無(wú)關(guān)的特點(diǎn)。因此，可以將置信傳播譯碼中軟信息的迭代看作是對(duì)軟信息的連續(xù)決策，并將其映射到馬爾可夫決策過(guò)程。利用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)解決譯碼問(wèn)題，通過(guò)自主探索逼近最佳性能。當(dāng)前，BP解碼已經(jīng)得到了廣泛的研究，例如文獻(xiàn)[5-7]等。據(jù)調(diào)研，本文提出的BP解碼方法仍然是較為新穎的。事實(shí)上，研究和探討RL解碼的參考文獻(xiàn)很少[8，9]，只是涉及一些比較典型的工作。簡(jiǎn)單回顧一下迭代譯碼算法，它們都是基于連續(xù)的決策步驟，因此RL適用于這些算法。

1 ?信道解碼原理

假設(shè)C是一個(gè)由M×N的奇偶校驗(yàn)矩陣H定義的一個(gè)（N，K）二進(jìn)制線性分組碼，其中N為碼長(zhǎng)，K為碼的維度。該碼字用于將信息編碼成碼字c=（c1，...，cN）T，然后在加性高斯白噪聲（AWGN）信道上傳輸，傳輸碼字經(jīng)過(guò)信道得到接收碼字y，y的每一個(gè)分量yn=（-1）Cn+ωn，ωn～N（0，（2REb/N0）-1），R=K/N稱(chēng)作碼率，將Eb/N0稱(chēng)為信噪比，用SNR表示。接收到的碼字y經(jīng)過(guò)硬判決得到結(jié)果z=（z1，...，zN）T， zN是通過(guò)對(duì)yN的符號(hào)進(jìn)行映射得到的，映射規(guī)則為+1→0，-1→1。

當(dāng)前，常用的高效迭代解碼算法有兩種，這兩種算法的每一步都涉及決策過(guò)程：

（1）比特翻轉(zhuǎn)解碼算法。BF解碼的一般思路是構(gòu)建一個(gè)合適的度量，允許解碼器根據(jù)編碼約束條件下的可靠性對(duì)比特進(jìn)行排序[10]。在其最簡(jiǎn)單的形式中，BF使用硬判決輸出z，并在迭代地尋找翻轉(zhuǎn)之后，找出能最大限度減少當(dāng)前違反PC方程數(shù)量的位置。當(dāng)前，BF解碼在學(xué)術(shù)界得到了廣泛的研究，在許多現(xiàn)代編碼理論的文獻(xiàn)中都有涉及，比如[11-14]。

（2）置信傳播譯碼算法。BP算法是一種迭代算法，消息沿著由編碼的tanner圖表示的邊進(jìn)行傳播。BP算法的大概流程為：

首先是初始化，可由式（1）（2）實(shí)現(xiàn)：

其中，Ki為校正因子，保證成立。如果大于0.5則為當(dāng)前碼字判決為0，反之判決為1，從而得到判決結(jié)果r。

4）校正子計(jì)算方法為s′=Hr=[s0，s1，s2，...，sn]，然后將smod 2得到校正子s。如果s不為0向量，則轉(zhuǎn)至1）繼續(xù)迭代過(guò)程直到譯碼成功或者達(dá)到譯碼最大次數(shù)上限。

2 ?馬爾可夫決策過(guò)程

馬爾可夫決策過(guò)程，為確定或隨機(jī)環(huán)境下的決策建模提供了一個(gè)數(shù)學(xué)框架。馬爾可夫決策過(guò)程可以用來(lái)獲得最優(yōu)的決策策略，用數(shù)據(jù)驅(qū)動(dòng)的最優(yōu)度量的學(xué)習(xí)來(lái)替代啟發(fā)式學(xué)習(xí)。

一個(gè)時(shí)不變的馬爾可夫隨機(jī)過(guò)程S0，S1，…，其狀態(tài)轉(zhuǎn)移概率僅受代理根據(jù)對(duì)過(guò)去狀態(tài)的了解而采取的行動(dòng)At影響。其中，s、s′∈S，a∈A，S和A是包含所有可能狀態(tài)與動(dòng)作的有限集合。代理同樣會(huì)接收到一個(gè)獎(jiǎng)勵(lì)Rt=R（St，At，St+1），并且獎(jiǎng)勵(lì)只取決于狀態(tài)St，St+1和動(dòng)作At。這個(gè)代理的決策過(guò)程被描述為一個(gè)策略π：S→A，表示將觀察到的狀態(tài)映射到動(dòng)作。我們的目標(biāo)是找到一個(gè)最佳決策π*，使使得在每個(gè)可能的狀態(tài)下以預(yù)期獎(jiǎng)勵(lì)返回一個(gè)最佳動(dòng)作，其中，0<γ<1是未來(lái)獎(jiǎng)勵(lì)的衰減因子。

過(guò)渡和獎(jiǎng)勵(lì)概率已知的情況下，可以采用動(dòng)態(tài)編程來(lái)計(jì)算最優(yōu)策略;概率未知的情況下，如果假設(shè)狀態(tài)和獎(jiǎng)勵(lì)是可觀察的，則仍可以通過(guò)與環(huán)境的反復(fù)交互發(fā)現(xiàn)最優(yōu)策略，這就是所謂的強(qiáng)化學(xué)習(xí)（RL）。下面介紹兩種文獻(xiàn)中最常用的RL方法：

（1）Q-learning。最直接的RL實(shí)例被稱(chēng)為Q-learning。其最優(yōu)策略根據(jù)Q函數(shù)Q：S×A→R，通過(guò)式子：得到。Q函數(shù)用于衡量行動(dòng)的質(zhì)量，正式定義為當(dāng)智能體處于狀態(tài)s，采取行動(dòng)a，然后采取最佳行動(dòng)時(shí)的預(yù)期折現(xiàn)的未來(lái)獎(jiǎng)勵(lì)。Q函數(shù)的主要優(yōu)點(diǎn)是，它可以從任何“足夠隨機(jī)”的代理的觀察中反復(fù)估計(jì)。下文給出了Q-learning的偽代碼，其中第5行中生成行動(dòng)的一個(gè)探索策略為：

Input： learning rate α， discount factor γ

Output： estimated Q-function

Initialize Q（s， a） ← 0 for all s ∈ S， a ∈ A

Fori = 1， 2， … do

initialize starting state s ? ? ? ? ?// restart the MDP

while s is not terminal do

choose action a ? ? ? ? ? ? // ε-greedy

execute a， observe reward r and next state s

Q（s， a） ← （1-α）Q（s，a）+α（r+ γmaxa∈AQ（s， a））

s ←s

由此，我們發(fā)現(xiàn)Q函數(shù)能用式（9）遞歸的表示為：

這個(gè)表達(dá)式構(gòu)成了Q-learning的理論基礎(chǔ)，它在一定條件下收斂于真正的Q-函數(shù)。

（2）帶有函數(shù)近似值的擬合Q-學(xué)習(xí)。對(duì)于標(biāo)準(zhǔn)的Q-learning，人們必須存儲(chǔ)一個(gè)|S|×|A|的實(shí)值表。如果其中一個(gè)集合非常大，那么標(biāo)準(zhǔn)的Q-learning將難以實(shí)現(xiàn)。擬合Q-learning的想法是學(xué)習(xí)Q（s，a）的低復(fù)雜度近似值。將Qθ（s，a）作為Q函數(shù)的近似值，以θ為參數(shù)。擬合Q-learning在模擬MDP和更新當(dāng)前參數(shù)之間交替進(jìn)行，以獲得對(duì)Q-函數(shù)的更好估計(jì)。假設(shè)我們已經(jīng)模擬并存儲(chǔ)了一個(gè)集合D中B個(gè)過(guò)往經(jīng)驗(yàn)（s，a，r，s′）。更新參數(shù)θ是為了減少經(jīng)驗(yàn)損失，可由式（10）表示：

下面給出擬合Q-learning的偽代碼：

Input： learning rate α， batch size B

Output： parameterized estimate of the Q-function

Initialize parameters θ and D←?

Fori = 1， 2， … do

initialize starting state s ? ? ? ? ?// restart the MDP

while s is not terminal do

choose action a ? ? ? ? ? ? // ε-greedy

execute a， observe reward r and next state s

store transition（s， a， r，） in D

s←

if |D| = B then

θ←θ-α▽?duì)萀D（θ）

empty D

其中，梯度下降是用來(lái)根據(jù)損失（1）更新參數(shù)θ的。通常選擇Qθ（s，a）作為一個(gè)（深度）神經(jīng)網(wǎng)絡(luò)（NN），在這種情況下，θ是網(wǎng)絡(luò)的權(quán)重，擬合Q-learning被稱(chēng)為深度Q-learning。深度Q-learning所采用的主要技巧是經(jīng)驗(yàn)回放（experience replay），即將每次和環(huán)境交互得到的獎(jiǎng)勵(lì)與狀態(tài)更新情況都保存起來(lái)，用于后面目標(biāo)Q值的更新。通過(guò)經(jīng)驗(yàn)回放得到的目標(biāo)Q值與通過(guò)Q網(wǎng)絡(luò)計(jì)算得到的Q值，二者之間肯定是存在一定誤差的，我們可以通過(guò)梯度的反向傳播來(lái)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)w。我們使用了兩個(gè)Q網(wǎng)絡(luò)，一個(gè)當(dāng)前Q網(wǎng)絡(luò)Q用于選擇動(dòng)作，更新模型參數(shù)。另一個(gè)目標(biāo)Q網(wǎng)絡(luò)Q′用于計(jì)算目標(biāo)Q值。目標(biāo)Q網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)不需要迭代更新，而是每隔一段時(shí)間從當(dāng)前Q網(wǎng)絡(luò)Q復(fù)制過(guò)來(lái)（即延時(shí)更新），這樣可以減少目標(biāo)Q值與當(dāng)前Q值的相關(guān)性。

3 ?基于深度強(qiáng)化學(xué)習(xí)的置信傳播算法

我們提出了一種利用深度強(qiáng)化學(xué)習(xí)來(lái)改善置信傳播算法的方案。利用軟信息進(jìn)行譯碼簡(jiǎn)單來(lái)說(shuō)就是通過(guò)每一次的迭代去更新各個(gè)信息節(jié)點(diǎn)的對(duì)數(shù)似然比值，然后進(jìn)行判決，判斷譯碼是否正確。當(dāng)前對(duì)數(shù)似然比值僅與上次迭代過(guò)程中的對(duì)數(shù)似然比值有關(guān)，而與之前的狀態(tài)無(wú)關(guān)（即在tanner圖上進(jìn)行數(shù)據(jù)傳遞），tanner圖如圖1所示。因此，可以將利用軟信息進(jìn)行譯碼的過(guò)程與馬爾科夫決策過(guò)程相類(lèi)比，將軟判決譯碼映射到馬爾科夫決策過(guò)程中去（有些文獻(xiàn)里也用c表示校驗(yàn)節(jié)點(diǎn)，即圖1中的s節(jié)點(diǎn)）。

?本方案的基本流程為：

（1）利用接收碼字初始化各個(gè)信息節(jié)點(diǎn)的對(duì)數(shù)似然比值，作為初始狀態(tài)S0。

（2）根據(jù)既定的探索策略選擇一個(gè)動(dòng)作At，更新變量節(jié)點(diǎn)的對(duì)數(shù)似然比值。

（3）根據(jù)動(dòng)作選擇，變量節(jié)點(diǎn)轉(zhuǎn)變?yōu)樾碌臓顟B(tài)s′和反饋獎(jiǎng)勵(lì)r。

（4）利用神經(jīng)網(wǎng)絡(luò)生成擬合的Q值并更新神經(jīng)網(wǎng)絡(luò)參數(shù)。

（5）根據(jù)新的狀態(tài)s′生成判決結(jié)果x，判決HTx是否為0（或者是否到最大迭代步數(shù)），是則結(jié)束，否則轉(zhuǎn)步驟（2）。

本方案的基本參數(shù)設(shè)定為：

（1）狀態(tài)空間S。取所有變量節(jié)點(diǎn)的對(duì)數(shù)似然比值作為狀態(tài)，由于對(duì)數(shù)似然比值是一個(gè)連續(xù)值，因此狀態(tài)空間是一個(gè)連續(xù)的狀態(tài)空間，我們需要引入神經(jīng)網(wǎng)絡(luò)來(lái)擬合Q-學(xué)習(xí)中的Q值。

（2）動(dòng)作空間A。任選其中一個(gè)變量節(jié)點(diǎn)，取一個(gè)改變值Δ（V ），選擇在原來(lái)對(duì)數(shù)似然比的基礎(chǔ)上+Δ（V ）/-Δ（V ）兩種動(dòng)作，則At一共有2N種動(dòng)作。本方案中取Δ（V ）= 0.01。

（3）信道選擇。AWGN信道，信噪比SNR滿足SNR=10lg（10Eb/N0），白噪聲服從高斯分布，且均值為0，方差為噪聲平均功率。因?yàn)榧俣ǖ腁WGN信道只有高斯白噪聲，所以在信噪比SNR設(shè)定完成后就能直接在傳輸碼字上添加確定的噪聲，之后獲得接收碼字。

4 ?仿真結(jié)果

本方案所采用的開(kāi)發(fā)工具是PyCharm和MATLABR2020a。傳統(tǒng)的置信傳播方法采用MATLAB語(yǔ)言實(shí)現(xiàn)，而基于深度強(qiáng)化學(xué)習(xí)的置信傳播算法則采用Python語(yǔ)言開(kāi)發(fā)，開(kāi)發(fā)環(huán)境為Python3.8，主要使用了torch庫(kù)（用于引入神經(jīng)網(wǎng)絡(luò)）和matplotlib庫(kù)（用于繪圖）。編碼方案為BCH（63，45），其中，輸入為63維，輸出為126維，所以該神經(jīng)網(wǎng)絡(luò)是非常復(fù)雜的，其探索空間也是比較大的。該網(wǎng)絡(luò)一共有三層：輸入層（63，64）、中間層（64，64）、輸出層（64，126），激活函數(shù)為relu，探索率下限設(shè)置為0.1。

圖2展示了采取三種不同探索率下限來(lái)對(duì)比誤碼率的結(jié)果，其中x軸為SNR（即信噪比Eb/N0取對(duì)數(shù)后的結(jié)果），單位為dB，y軸為誤碼率BER（之后的圖表x，y軸也相同）。如果神經(jīng)網(wǎng)絡(luò)訓(xùn)練穩(wěn)定之后，誤碼率會(huì)隨著神經(jīng)網(wǎng)絡(luò)探索率下限的降低而升高，在SNR小于10 dB的范圍內(nèi)，SNR-BER曲線符合我們的預(yù)期。同時(shí)，我們采取不同的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)對(duì)比誤碼率的結(jié)果，例如去掉中間層（64，64），如圖3所示?？梢钥吹?，神經(jīng)網(wǎng)絡(luò)層數(shù)越多，誤碼率越低，在SNR<10 dB的區(qū)間內(nèi)，SNR-BER基本符合預(yù)期。

?同時(shí)，我們也完成了基于深度強(qiáng)化學(xué)習(xí)的BCH（63，45）譯碼，并用訓(xùn)練結(jié)果（BF_RL）與用BP方法實(shí)現(xiàn)的BCH（63，45）碼字解碼（BP）相對(duì)比，如圖4所示，從圖中可以看出基于深度強(qiáng)化學(xué)習(xí)的BCH（63，45）譯碼明顯優(yōu)于傳統(tǒng)的BP算法，在BER為10-5時(shí)有大約0.75 dB的優(yōu)勢(shì)。

?最后，我們針對(duì)比特翻轉(zhuǎn)譯碼使用強(qiáng)化學(xué)習(xí)方法對(duì)文獻(xiàn)[14]進(jìn)行了簡(jiǎn)單復(fù)現(xiàn)（BF_RL），并將本文使用的基于深度強(qiáng)化學(xué)習(xí)的置信傳播譯碼方法進(jìn)行了對(duì)比，如圖5所示，結(jié)果顯示在（7，3）線性分組碼中優(yōu)勢(shì)比較明顯，在BER為10-5時(shí)大約有2 dB增益。

?5 ?結(jié) ?論

在本文中，我們提出了一個(gè)新穎的二進(jìn)制線性碼BP解碼的RL框架。研究表明，如果適當(dāng)選擇狀態(tài)和行動(dòng)空間，BP解碼可以映射到馬爾科夫決策過(guò)程。原則上，這可以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的最佳BP決策策略的學(xué)習(xí)。標(biāo)準(zhǔn)的（基于表格的）和裝有NN函數(shù)近似器的Q-learning都被用來(lái)從數(shù)據(jù)中學(xué)習(xí)好的決策策略。結(jié)果表明，我們所提出的學(xué)習(xí)型BP解碼器具有一定的優(yōu)勢(shì)，然而，優(yōu)勢(shì)僅僅局限在中短碼字上，長(zhǎng)碼字始終面臨狀態(tài)空間和動(dòng)作空間過(guò)大的問(wèn)題。因此，利用強(qiáng)化學(xué)習(xí)進(jìn)行長(zhǎng)碼字的解碼仍然是一個(gè)極具挑戰(zhàn)性的問(wèn)題，這將是我們之后的研究方向。

參考文獻(xiàn)：

[1] GRUBER T，CAMMERER S，HOYDIS J，et al. On deep learning-based channel decoding [C]//2017 51st Annual Conference on Information Sciences and Systems （CISS）.Baltimore：IEEE，2017：1-6.

[2] OSHEA T，HOYDIS J. An introduction to deep learning for the physical layer [J].IEEE Transactions on Cognitive Communications and Networking，2017，3（4）：563-575.

[3] NACHMANI E，BEERY Y，BURSHTEIN D. Learning to decode linear codes using deep learning [C]// 2016 54th Annual Allerton Conference on Communication， Control， and Computing （Allerton）.Monticello：IEEE，2016：341-346.

[4] BENNATAN A，CHOUKROUN Y，KISILEV P. Deep learning for decoding of linear codes-a syndrome-based approach [C]//2018 IEEE International Symposium on Information Theory （ISIT）.Vail：IEEE，2018：1595-1599.

[5] NACHMANI E，MARCIANO E，LUGOSCH L，et al. Deep learning methods for improved decoding of linear codes [J].IEEE Journal of Selected Topics in Signal Processing 2018，12（1）：119-131.

[6] NACHMANI E，BEERY Y，Burshtein D. Learning to decode linear codes using deep learning [C]//2016 54th Annual Allerton Conference on Communication， Control， and Computing （Allerton）. Monticello：IEEE，2016：341-346.

[7] LIANG F，SHEN C，WU F. An iterative BP-CNN architecture for channel decoding [J]. IEEE Journal of Selected Topics in Signal Processing，2018，12（1）：144-159.

[8] Wang X B，Zhang H Z，Li R，et al. Learning to flip successive cancellation decoding of polar codes with LSTM networks [C]//2019 IEEE 30th Annual International Symposium on Personal， Indoor and Mobile Radio Communications （PIMRC）. Istanbul：IEEE，2019：1-5.

[9] CARPI F，H?GER C，MARTAL? M，et al. Reinforcement learning for channel coding： Learned bit-flipping decoding [C]//2019 57th Annual Allerton Conference on Communication， Control， and Computing （Allerton）. Monticello：IEEE，2019：922-929.

[10] Ryan W，Lin S. Channel codes： classical and modern [M]. Cambridge university press，2009.

[11] BOSSERT M，HERGERT F. Hard-and soft-decision decoding beyond the half minimum distance---An algorithm for linear codes （Corresp.） [J]. IEEE transactions on information theory，1986，32（5）：709-714.

[12] KOU Y，LIN S，F(xiàn)OSSORIER M P C. Low-density parity-check codes based on finite geometries： a rediscovery and new results [J].IEEE Transactions on Information theory，2001，47（7）：2711-2736.

[13] Zhang J T，F(xiàn)OSSORIER M P C. A modified weighted bit-flipping decoding of low-density parity-check codes [J].IEEE Communications Letters，2004，8（3）：165-167.

[14] JIANG M，ZHAO C M，SHI Z H，et al. An improvement on the modified weighted bit flipping decoding algorithm for LDPC codes [J].IEEE Communications Letters，2005，9（9）：814-816.

作者簡(jiǎn)介：高源浩（1997—），男，漢族，重慶銅梁人，碩士研究生在讀，研究方向：基于強(qiáng)化學(xué)習(xí)的線性分組碼譯碼方法。