雷嘉興 王 偉*
(西安電子工程研究所,陜西 西安 710100)
傅里葉變換[1]是一種將時域信號變換變換為頻域信號的方法,二維傅里葉變換是其在二維圖像信號上的推廣應用,可以將二維圖像信號變換到頻域進行分析。目前對傅里葉變換及二維傅里葉變換的原理研究已經(jīng)很透徹了,信號分析領域當前主要的研究熱點是傅里葉及二維傅里葉變換的應用研究。機器學習[3]是自1980 發(fā)展起來的計算機科學研究領域,目前最主流的機器學習研究分支是神經(jīng)網(wǎng)絡的研究。主要的神經(jīng)網(wǎng)絡結構有深度神經(jīng)網(wǎng)絡(DNN)[4]、卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)、長短期記憶網(wǎng)絡(LSTM)等。其中深度神經(jīng)網(wǎng)絡(DNN)、卷積神經(jīng)網(wǎng)絡(CNN)主要用于圖像分類與識別、圖像分割等用途;循環(huán)神經(jīng)網(wǎng)絡(RNN)、長短期記憶網(wǎng)絡(LSTM)則主要用于處理帶時序的一維或者二維信號。將傅里葉變換應用于神經(jīng)網(wǎng)絡領域是一個較新的研究方向和熱點。例如文獻[5]研究了對Fourier 基函數(shù)局部最優(yōu)問題的優(yōu)化問題[5],文獻[6]提出一種將一維水聲信號轉化為二維傅里葉時頻信號進行特征提取的思路[6]。本文以DNN 網(wǎng)絡為研究目標,研究了通過二維傅里葉變換對輸入圖片做預處理后,對DNN 網(wǎng)絡的識別性能有何影響。并且本文提出了一種將原始圖像與二維傅里葉圖像加權聯(lián)合的圖像預處理算法,最終在公開數(shù)據(jù)集Fashion_mnist 上進行了對照驗證。
深度神經(jīng)網(wǎng)絡(DNN)也叫多層感知機,主要由輸入層、若干個隱藏層、輸出層構成。隱藏層中有若干個神經(jīng)元,決定了該神經(jīng)網(wǎng)絡的擬合能力。
一個經(jīng)典DNN 網(wǎng)絡結構如圖1 所示:
圖1 經(jīng)典DNN 網(wǎng)絡結構
本實驗中使用的DNN 網(wǎng)絡結構為:含有一個輸出層,一個隱藏層和一個輸出層。其中輸入層輸入隨訓練集圖像像素值而改變,例如一張5x5 圖像,其輸入單元就為25,隱藏層神經(jīng)元根據(jù)不同的圖像尺寸使用相同的神經(jīng)元密度,即25.51%。輸出層根據(jù)Fashion_mnist 數(shù)據(jù)集的固有標簽數(shù)量,設置為10 個輸出,分別對應如表1 所示。
表1 輸出和圖片類型的對應關系
二維離散傅里葉變換是一維信號傅里葉變換的拓展,通過二維離散傅里葉變、換可以將圖像從空間域變換到頻域進行分析。
將一副M×N 的圖像以M×N 的矩陣表示,其中第x 行y 列的圖像像素灰度值記為f(x,y),則該圖像的二維傅里葉變換為:
由于灰度值只能以實數(shù)的形式表示,對這個值取模:
將取模的值乘以加權系數(shù),與原圖像求并集:
預處理算法效果如圖2 所示。
圖2 二維傅里葉加權聯(lián)合圖像預處理算法效果圖
本實驗實驗環(huán)境為:
CPU:Intel(R) Core(TM) i5-10200H
GPU:GTX 1050
CUDNN:8.1
CUDA:11.2
Tensorflow:2.4.1
Python: 3.8
實驗數(shù)據(jù)集為德國公司Zalando 提供的公開數(shù)據(jù)集Fshion-mnist,它是一個28×28 像素縮略圖的合集,共有60000 張訓練集圖像和10000 張測試集圖像。
Fshion-mnist 包括十大類的服飾、鞋類等商品,并用數(shù)字0 到9 對每一張圖像作了區(qū)分,對應關系如表1 所示。
Fashion-mnist 數(shù)據(jù)集圖像示例如圖3、圖4。
圖3 運動鞋
圖4 T 恤
首先,搭建好DNN 網(wǎng)絡結構。使用Fashion-mnist 原始訓練集與測試集對DNN 網(wǎng)絡進行訓練,訓練epoch=50,batch_size=500。記錄前十次重復訓練完成后,在驗證集上的準確率。
隨后,將Fshion-mnist 的所有圖像全部應用二維傅里葉加權聯(lián)合圖像預處理算法后,生成新的訓練集與測試集(記為Fashion-mnist2),并且不改變相應的標簽,使其仍為一一對應。將算法處理后的訓練集,重新輸入原DNN 網(wǎng)絡中,進行十次訓練。epoch=50,batch_size=500。記錄前十次重復訓練完成后,在現(xiàn)測試集上的準確率。
兩次實驗結果對比如表2 所示。
表2 對照實驗結果
分 別 繪 制 出 val_acc 在 Fashion-mnist 和Fashion-mnist2 上隨epoch 變化的平均值曲線如圖5、圖6 所示。
圖5 Fashion-mnist(十次平均)
圖6 Fashion-mnist2(十次平均)
通過對比表2 中使用二維傅里葉加權聯(lián)合圖像預處理算法前后fashion-mnist 數(shù)據(jù)集在DNN 網(wǎng)絡上準確率的表現(xiàn)可以發(fā)現(xiàn),二維傅里葉加權聯(lián)合圖像預處理算法不會影響DNN 網(wǎng)絡的分類準確率,甚至略有提升。
通過對比圖5、圖6 使用二維傅里葉加權聯(lián)合圖像預處理算法前后fashion-mnist 數(shù)據(jù)集在DNN 網(wǎng)絡上收斂情況的結果可以發(fā)現(xiàn):使用二維傅里葉加權聯(lián)合圖像預處理算法前,F(xiàn)ashion-mnist 數(shù)據(jù)集經(jīng)50 個epoch 的訓練,在訓練集上的準確率才能達到97.5%。而使用二維傅里葉加權聯(lián)合圖像預處理算法后,只需34 個epoch 的訓練,在訓練集上的準確率就可達到97.5%,當經(jīng)過50 個epoch 的訓練后,在訓練集上的準確率明顯超過97.5%。
綜上所述,可以得出結論:本文提出的二維傅里葉加權聯(lián)合圖像預處理算法對DNN 網(wǎng)絡識別準確率無負面影響,并可以加快DNN 網(wǎng)絡的收斂速度。