王亞琦,袁 野,孫中華,賈克斌,張海瑛,吳玲玲
(1.北京工業(yè)大學 信息與通信工程學院,北京 100124;2.中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
?
基于K-means聚類的Morse碼自動譯碼研究
王亞琦1,袁 野1,孫中華1,賈克斌1,張海瑛2,吳玲玲2
(1.北京工業(yè)大學 信息與通信工程學院,北京 100124;2.中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
針對短波Morse電報自動譯碼準確率低的問題,提出了一種針對信號時頻圖,采用機器學習理論的Morse信號自動譯碼技術(shù),實現(xiàn)了對機械或手工Morse碼的自動譯碼。通過對短時傅里葉變換生成的Morse信號時頻圖像,進行自適應圖像增強處理,提取Morse信號;采用基于K-means聚類的非監(jiān)督學習方法自動分類Morse點劃、間隔等信息,實現(xiàn)Morse碼自動譯碼;為提高譯碼的正確率,設計了譯碼糾錯方法。仿真試驗和工程實踐均驗證了算法的有效性。
Morse碼;自適應圖像增強;自動譯碼;非監(jiān)督學習
短波電報是無線通信的重要組成部分[1-2],而接收部分大多數(shù)由人工聽抄實現(xiàn)。隨著科學技術(shù)的進步發(fā)展,這種人工的方式日益暴露出一些弊端。這種方式要求報務員具備較強的聽辯能力和抄寫能力。而且抄報譯碼是重復枯燥的,人的反應能力有限,誤譯、漏譯的情況是不可避免的。因此,研究Morse電報信號的自動識別譯碼方法,代替?zhèn)鹘y(tǒng)的人工值守方式,是十分重要的課題,是智能化、自動化建設的需要[3]。
Morse信號自動譯碼,旨在非人工輔助情況下從含噪信號中提取報文信息。Morse碼是一種不均勻的電碼,利用“點”、“劃”和“間隔”的不同組合來表示字母、數(shù)字、標點和符號等。本文利用Morse信號在頻域的表征特性,在時頻域提取Morse碼的圖形特征,采用機器學習方法進行Morse碼信息的還原,即轉(zhuǎn)化為有意義的數(shù)字、字母或符號,以實現(xiàn)機械以及手工拍發(fā)Morse碼的自動識別和譯碼。
1.1 生成Morse時頻圖像
Morse信號在時域和頻域兩個方面都有突出的特點,采用時頻分析方法,兼顧兩者特征分析Morse信號,是目前比較熱門的方法[4-5]。本文首先將一維信號進行時頻變換得到時頻分布,再將時頻分布通過映射函數(shù)轉(zhuǎn)換成時頻圖圖像。Morse信號時頻圖的典型特征:矩形亮條。
對信號進行短時傅里葉變換(Short-time Fourier Transform,STFT),得到時頻分布矩陣f(x,y),其中x、y為矩陣的行列坐標。通過灰度映射函數(shù)生成時頻圖像g(x,y),然后對時頻圖像g(x,y)進行信號分析和目標提取?;叶扔成浜瘮?shù)如下:
(1)
式中,f(x,y)矩陣中的最大值為max_f,最小值為min_f。
1.2 感興趣區(qū)域增強
數(shù)字圖像處理中的圖像增強技術(shù)[6],用于改善圖像的視覺效果。對比度增強是圖像增強技術(shù)中的一種常用方法,本文采用對比度增強方法對Morse時頻圖像進行增強,從而突出信號區(qū)域、抑制噪聲。在對比度增強之前需要對圖像目標區(qū)域的灰度分布進行估計,主要是根據(jù)灰度直方圖的分布特性得到目標的灰度分布區(qū)間[lowhigh]。
(2)
high=max_gray,
(3)
式中,peak_gray為圖像灰度眾數(shù),mean_gray為圖像的灰度均值,max_gray為圖像的灰度最大值。通過灰度估計得到的灰度范圍,對圖像g進行對比度增強,計算公式為:
(4)
1.3 二值化與形態(tài)學去噪
圖像分割是由圖像處理到圖像分析的關(guān)鍵步驟?,F(xiàn)有的圖像分割方法主要有:基于閾值分割、基于區(qū)域分割、基于邊緣分割等。Morse信號時頻圖中,目標區(qū)域所占比例比較小,灰度信息對整幅圖像的貢獻不大,因此本文通過最大類間方差法獲得自適應分割閾值[7],并采用基于閾值的分割方法將目標和背景分開,得到二值圖。二值圖像中仍會存在一些小的噪聲,采用形態(tài)學處理中的去孤立點和小斷枝方法,進一步去噪聲。
2.1 參數(shù)提取
Morse時頻圖像中,信號表現(xiàn)為一個一個的小矩形區(qū)域,矩形塊在時間軸上的長度代表碼長,分析碼長的相對長短可以判斷某個矩形塊屬于點還是劃。相鄰矩形塊的距離代表了間隔,間隔的相對長短代表了間隔的類型,包括碼間隔、字符間隔和字間隔三種類型,利用間隔來對點劃進行正確分組才能譯碼。參數(shù)提取的主要任務是獲得碼和間隔的長度。
2.2 譯碼算法
譯碼是將以數(shù)據(jù)長度形式表示的Morse信號轉(zhuǎn)換成Morse電碼報文。譯碼算法包括兩部分內(nèi)容:基于K-means的點劃識別和查表譯碼。標準Morse碼的各元素(點、劃、碼間隔、字符間隔、字間隔)的時寬存在的比例關(guān)系為1∶3∶1∶5∶7。但在實際中,發(fā)報人的手法一般不標準以及噪聲的干擾,造成得到的數(shù)據(jù)長度不能嚴格滿足上述的比例關(guān)系。采用機器學習中的K-means聚類算法,提高點劃的識別率。
用參數(shù)提取中得到的矩陣B,可由0、1的分布圖表示(圖1)。其中為了方便處理,將ΔT做了歸一化處理。圖1中圈出了5類碼,觀察發(fā)現(xiàn)同類碼是有聚集特性的。
圖1 五類碼的分布情況
K-means算法[8-10]是最為經(jīng)典的基于劃分的聚類方法,基本思想是:以空間中k個點為中心進行聚類,對最靠近它們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。該算法的最大優(yōu)勢在于簡潔和快速,算法的關(guān)鍵在于初始中心的選擇和距離公式。由于Morse碼0、1分布圖聚類明顯,利用k-means聚類算法能很好地將5個類別區(qū)分開。本文提出了一種基于k-means聚類方法的點劃識別譯碼算法:
① 對矩陣B中0、1對應的時間長度T1i、T0j歸一化處理:找到1中最大長度max1,0中的最大長度max0,T1i’=T1i/max1,T0j’=T0j/max0;
② 選擇5個類的初始中心(1,0)、(1,1)、(0,0)、(0,0.4)、(0,1);
③ 用K-means聚類算法聚類;
④ 將5個聚類結(jié)果歸類為點、劃、碼間隔、字符間隔、字間隔;
⑤ 輸出點劃識別結(jié)果;
⑥ 查表譯碼。
表1中的工業(yè)應用數(shù)據(jù)表明,加氫尾氣中的H 2 S和有機硫是外排SO2的主要來源,部分裝置凈化尾氣中有機硫占比甚至達到50%以上。因此,分析掌握硫磺回收裝置過程氣中有機硫形成機理并加以控制尤為重要[5-8]。
2.3 糾錯算法
考慮到明文通信中Morse碼和詞匯的關(guān)系有確定性,而加密的Morse碼與詞匯沒有確定性關(guān)系,所以糾錯只能從碼本身來糾正。參數(shù)提取得到的碼或間隔的長度有可能是錯誤的,這會導致譯碼結(jié)果中有錯誤碼。產(chǎn)生錯誤碼的原因主要有2個[11-12]:一是噪聲干擾,使碼的長度變短,干擾嚴重時碼被噪聲淹沒;二是對間隔估計不準導致點劃錯誤組合,產(chǎn)生無效碼。
具體的幾種情況下的糾錯算法如下:
① 若一個劃的長度大于點長度的7倍以上,考慮是連碼,拆成兩個劃。
② 若一個字符的點劃序列超過 6 個時,在間隔最大處拆分,直到出現(xiàn)有效碼;
③ 若連續(xù)出現(xiàn)兩個無效碼,優(yōu)先合并兩個無效碼,若合并后不能得到有效碼,再考慮合并無效碼與有效碼;
④ 若一個無效碼相鄰兩邊都是有效碼,先考慮無效碼序列中是否存在異常的劃或者點,進行拆分和組合。否則考慮合并無效碼和其鄰近的有效碼;
為驗證本算法的適應性,進行了仿真實驗,對不同信噪比下相同內(nèi)容的Morse信號進行自動譯碼,表1給出了實驗結(jié)果。
表1 譯碼仿真實驗結(jié)果
結(jié)果表明,算法能適應較差的信噪比條件,在信噪比高于-12 dB(圖2)的情況下,均能得到正確的結(jié)果;同時隨著信噪比降低,譯碼的效果有下降的趨勢。
圖2 Morse時頻圖 (-12 dB)
用上述算法對實際采集的受噪聲干擾的一段Morse信號進行自動譯碼。圖3為該信號的時域波形,對信號做短時傅里葉變換后,經(jīng)過灰度映射得到圖4(a),即信號的時頻圖,在時頻圖上可以看到噪聲的干擾。
圖3 時域波形
圖4 結(jié)果對比
圖5為時頻圖的灰度直方圖,上面標出了計算得到的low和high的位置,中間的部分為目標灰度的估計區(qū)間。通過圖像增強后,圖像中的信號部分和背景噪聲的對比度有明顯的改善,如圖4(b)所示。利用圖像分割和形態(tài)學處理方法,去除噪聲,只留下目標區(qū)域,在圖像上表現(xiàn)為矩形塊,如圖4(c)所示。
圖5 時頻圖的灰度直方圖
提取時頻矩陣中灰度值最高的一行,畫出灰度值分布曲線,能代表信號的變化。通過參數(shù)提取,可以得到歸一化的和曲線。如圖6所示,將2條曲線作對比,歸一化的和曲線很好地表示了原始信號。
圖6 曲線對比
對點、劃、間隔進行聚類,如圖7所示,五類元素被正確的歸類。
圖7 K-means聚類結(jié)果
通過聚類得到點劃識別結(jié)果,不同的間隔對點劃進行了分組。通過查表得到相應的碼文,并將譯碼結(jié)果輸出,如圖8所示。
圖8 譯碼結(jié)果輸出
通過分析短波Morse碼自動譯碼中面臨的難題,主要是噪聲對信號的影響和發(fā)報人手法不標準的問題,基于現(xiàn)有的Morse碼譯碼方法,提出了一種基于K-means聚類的Morse碼自動譯碼算法。在譯碼實驗部分,通過不同信噪比條件下的仿真實驗,驗證了本文算法的適應性;對實際采集信號自動譯碼,分析中間過程和最終輸出的譯碼結(jié)果,驗證了本文算法的可行性,具有一定的實用價值。如何優(yōu)化聚類算法,提高聚類的魯棒性是下一步的工作內(nèi)容。
[1] 胡中豫.現(xiàn)代短波通信[M].北京:國防工業(yè)出版社,2003.
[2] 張冬辰.軍事通信[M].北京:國防工業(yè)出版社,2008.
[3] 李國軍,周曉娜,蔣 勇,等.短波電報信號自動檢測技術(shù)研究綜述[J].世界科技研究與發(fā)展,2013,35(3):37-42.
[4] 何立剛.噪聲背景下短波莫爾斯信號的自動檢測和識別研究[D].哈爾濱:哈爾濱工程大學,2005.
[5] 李國軍,曾孝平,周曉娜,等.基于隨機共振的微弱高頻CW信號檢測技術(shù)研究[J].電子科技大學學報,2010,39(5):737-741.
[6] 岡薩雷斯(美).數(shù)字圖像處理(第2版)[M].北京:電子工業(yè)出版社,2007.
[7] Ohtsu N.A Threshold Selection Method from Gray-Level Histograms[J].Systems Man & Cybernetics IEEE Transactions on,1979,9(1):62-66.
[8] 袁 方,周志勇,宋 鑫.初始聚類中心優(yōu)化的k-means算法[J].計算機工程,2007,33(3):65-66.
[9] 張玉芳,毛嘉莉,熊忠陽.一種改進的K-means算法[J].計算機應用,2003,23(8):31-33.
[10]胡朝清.K-means算法研究[J].長春工業(yè)大學學報:自然科學版,2014(2):139-142.
[11]張汝波,何立剛,李雪耀.強噪聲背景下莫爾斯信號的自動檢測與識別[J].哈爾濱工程大學學報,2006,27(1):112-117.
[12]于宏毅,張 貽.手工莫爾斯報的一種新型自動收報算法及其手法識別算法[J].電子對抗,1989(4):26-34.
Study of Automatic Decoding for Morse Code Based on K-means Clustering
WANG Ya-qi1,YUAN Ye1,SUN Zhong-hua1,JIA Ke-bin1,ZHANG Hai-ying2,WU Ling-ling2
(1.College of Information and Communication Engineering,Beijing University of Technology,Beijing 100124,China;2.The 54th Research Institute of CETC,Shijiazhuang Hebei 050081,China)
To solve the technical problems of low accuracy of shortwave Morse telegraph automatic decoding,an automatic manual or mechanical Morse decoding method for time-frequency spectrum of signal is put forward based on machine learning technology.Time-frequency spectrum is generated based on STFT,which is used for extraction of Morse signal based on adaptive image enhancement.Unsupervised learning method based on K-means clustering has been introduced to identify the dots,dashes and intervals between them.Error correction algorithm is put forward to improve the accuracy of decoding.Engineering practice and simulation on Morse signal demonstrate the effectiveness of this algorithm.
Morse code;adaptive image enhancer;automatic decoding;unsupervised learning
10.3969/j.issn.1003-3114.2016.06.02
王亞琦,袁 野,孫中華,等.基于K-means聚類的Morse碼自動譯碼研究[J].無線電通信技術(shù),2016,42(6):9-12.
2016-07-18
國家自然科學基金項目(81370038);北京市自然科學基金項目(7142012);北京市科技新星計劃(Z141101001814107);中國博士后科學基金(2014M560032);北京市教委面上項目(km201410005003);北京工業(yè)大學日新人才培養(yǎng)計劃(2013-RX-L04);北京工業(yè)大學基礎研究基金(002000514312015)
王亞琦(1992—),女,信息與通信工程專業(yè),碩士研究生,主要研究方向:圖像處理和機器學習。孫中華(1978—),男,講師,主要研究方向:視頻圖像處理和機器學習。
TN911.73
A
1003-3114(2016)06-09-4