亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合Deep Qlearning強化的動態(tài)分類算法研究

2021-10-25 08:33:40張園園周靜軒劉治坤

湖北第二師范學院學報 2021年8期

張園園,楊露,鄒耀,周靜軒,劉治坤,鄒靜

(1．國網湖北省電力有限公司技術培訓中心,武漢 430027;2.湖北工業(yè)大學電氣與電子工程學院,武漢 430068)

處理生產線上分類問題時，由于產品貴重、不宜長時間存放以及缺陷樣本比例低等原因，廠家只能提供少量缺陷樣本，導致訓練的模型分類準確率不高。此外訓練的模型無法適應生產過程中因為參數(shù)變化、批次品質變化等產生的樣本特征變化，造成模型識別的穩(wěn)定性不足。針對該問題，本文提出在生產過程中不停采集并補充新樣本，并通過動態(tài)訓練更新模型。實驗證明該方法不僅能夠為廠家節(jié)省采集成本和時間，而且通過采集和訓練的迭代過程有效解決分類準確率低和穩(wěn)定性問題。

通過生成對抗網絡(GAN)[1]生成缺陷樣本可以解決樣本不足問題，該網絡由Ian Goodfellow提出，是當前深度學習中研究的熱點，例如天文圖像、[2]手寫數(shù)字圖像、[3]裂縫圖像[4]等的生成。GAN的起源來自二人零和博弈，包含一個生成模型和一個判別模型，基本構架由圖1可見。生成模型的任務是希望生成的樣本能夠欺騙判別模型，而判別模型的任務則是希望識別出假的樣本，兩者通過相互促進在不斷地對抗中來更新網絡模型并生成可以以假亂真的數(shù)據(jù)樣本。過程如下：首先生成模型G接收到隨機噪聲Z，生成假的樣本；然后將生成的樣本和原始真實的樣本作為判別模型D的輸入判斷真假；將結果返回給G和D讓兩個模型更新參數(shù)，G生成新一批的樣本來欺騙D，而D更新參數(shù)來更準確的區(qū)分真假；兩個網絡模型相互促進更新，直到最后D生成的樣本與真實樣本有相同分布，G也無法再區(qū)分生成樣本與真實樣本的真假。

圖1 GAN基本構架

1 改進GAN方法

實驗表明將傳統(tǒng)GAN方法應用于小龍蝦樣本生成，生成的樣本只有26.7%可以使用，其余73.3%的樣本都是不規(guī)則的，不能用于后續(xù)的圖像分類，這種現(xiàn)象稱為模式崩潰。為解決該問題，本文在LeNet[5]基礎上結合AlexNet、[6]GoogleNet[7]和ResNet[8]模型改進GAN的判別模型，提高GAN模型特征提取能力。

GAN模型的生成模型和判別模型是相互促進，相互競爭的關系，當判別模型能夠準確地識別真實數(shù)據(jù)樣本時，生成模型才能不斷地更新生成更加真實的樣本，從而提高生成樣本的可使用率，解決GAN模型崩潰的問題。因此本文提出采用有監(jiān)督方式預訓練判別模型，然后再以GAN模型的訓練方式交替訓練生成模型和更新判別模型，該方法減少了GAN模型的訓練時間，提高了生成模型生成樣本質量。

1.1 判別模型改進

為解決GAN模型存在的模型崩潰和難以訓練的問題，根據(jù)已有的數(shù)據(jù)樣本，結合多種模型優(yōu)點設計了改進LeNet模型做為GAN模型的判別模型。該模型包括9層卷積層，3層池化層和1層全連接層。基于改進LeNet的判別模型結構圖由圖2可見，主要改進如下：

圖2 判別模型

使用LeakyReLU激活函數(shù)替換Sigmoid。在CNN中常用的激活函數(shù)有Sigmoid，[9]ReLU，[10]LeakyReLU[11]等，Sigmoid可以將輸出映射到0和1之間，適應于二分類問題，但是反向傳播過程中容易出現(xiàn)梯度消失問題；ReLU是最常用的激活函數(shù)，屬于非飽和函數(shù)。反向傳播過程中當輸入為正數(shù)時導數(shù)始終為1，可以用來解決梯度消失的問題并且運算速度快，但是當輸入為負數(shù)時，導數(shù)始終為0，容易造成神經元死亡并不再參與訓練的問題；LeakyReLU函數(shù)是ReLU函數(shù)的拓展，保留了ReLU函數(shù)的優(yōu)點并且在負區(qū)間其導數(shù)不為0，能夠解決神經元死亡的問題，但是訓練時間相對增加?？紤]到改進LeNet不僅需要在已有圖像上有好的分類效果而且還要用來識別生成的樣本，訓練過程中應該盡量保留神經元，所以選擇LeakyReLU作為改進LeNet的激活函數(shù)。

使用兩個3*3卷積替換5*5卷積。堆疊含有小尺寸卷積核的卷積層來代替具有大尺寸的卷積核的卷積層，能夠使得感受野大小不變，而且多個3x3的卷積核比一個大尺寸卷積核有更多的非線性。在一定程度上提升了卷積升級網絡的提取特征能力。同時，使用兩個3*3卷積核所用的參數(shù)更少，減少了過擬合。

在每個卷積操作后加入Batchnorm[12]層。CNN的任務主要是學習訓練樣本的分布，而在每一次訓練過程中包含的樣本分布都不一樣，模型的訓練比較困難。Batchnorm層將幾乎所有數(shù)據(jù)映射到激活函數(shù)的非飽和區(qū)(線性區(qū))，僅利用到了線性變化能力，從而降低了神經網絡的表達能力，提升了訓練的穩(wěn)定性。

通過1*1卷積疊加[13]增加模型深度和改變維度。從而減少過擬合和提高識別準確率。

為了減少在卷積層之間傳遞信息時存在梯度消失和難以訓練的問題，加入圖3所示殘差結構。該結構以跳層連接的形式實現(xiàn)，即將單元的輸入直接與單元輸出加在一起，然后再激活。因此殘差網絡通過微分特性保護了信息的完整性，只需要學習輸入，輸出差別的部分，簡化了學習目標和難度。

圖3 殘差結構圖

1.2 生成模型改進

為了提高生成圖片的質量，設計了反卷積網絡做為GAN模型的生成模型，模型結構圖由圖4可見，主要改進如下：

圖4 生成模型

(1)除了輸出層保留GAN模型的tanh[14]激活函數(shù)，其他層使用ReLU，使用有界限的激活函數(shù)可以允許模型更快地學習達到飽和；

(2)輸入層外每層都添加Batchnorm，將特征層的輸出歸一化到一起，增加模型的穩(wěn)定性；

(3)加入反卷積模塊，圖像分類問題是輸入圖片，經過卷積層提取特征，最終得到圖片類別的概率。而生成圖片則是將該過程反過來，輸入隨機噪聲，經過反卷積層構建圖像信息，最終生成圖片。

1.3 GAN模型訓練方法

為加快改進GAN訓練過程以及生成高質量圖片，提出對判別模型采用有監(jiān)督訓練方法預訓練，然后再以GAN對抗方式訓練生成模型和更新判別模型，主要步驟如下:

以已有圖像數(shù)據(jù)為樣本數(shù)據(jù)，按照有監(jiān)督方法訓練判別模型，使用梯度下降算法更新模型參數(shù)，直到模型收斂并且有良好的分類準確率，讓判別模型對已有圖像的特征有足夠的敏感度。

訓練生成模型。從噪聲分布中隨機選取一批次的樣本，然后使用梯度下降算法更新生成模型的參數(shù)，訓練50步之后保存當前生成的圖片。

隨機從真實樣本中抽取一批次圖片與生成的圖片共同作為訓練好的判別模型的輸入，采用梯度下降算法更新判別模型的參數(shù)。

重復步驟2和3訓練20000步完成訓練。

2 動態(tài)分類算法

隨著產品批次變化，最開始為產品分類訓練的模型逐漸難以適應，需要通過重新訓練模型解決。本文基于改進GAN和Deep Q-Learning(DQN)強化設計一種自動模型調整方法，可有效解決模型動態(tài)適應性問題。

強化學習是處理動態(tài)問題的重要算法，基本原理如圖5所示。智能體通過動作與周圍環(huán)境進行交互,環(huán)境會返回一個評分和產生新的狀態(tài)。如此循環(huán)下去，智能體與環(huán)境不斷地交互從而產生很多數(shù)據(jù)。強化學習算法利用產生的數(shù)據(jù)修改自身的動作策略并再與環(huán)境交互。經過多次迭代學習后，智能體能最終學到完成相應任務的最優(yōu)動作。DQN強化學習算法處理任務時，通過神經網絡得到Q函數(shù)，然后通過訓練不斷更新Q函數(shù)來得到最優(yōu)狀態(tài)。

圖5 強化學習原理圖

2.1 動態(tài)算法框架

動態(tài)算法任務的設計是動態(tài)算法的重要基礎，任務設計的準確性直接影響后續(xù)算法的設計。由前面強化學習算法原理可知，任務的設計主要是循環(huán)系統(tǒng)的設計，即包括智能體、環(huán)境、狀態(tài)空間、動作空間以及評分機制的循環(huán)體設計。本文根據(jù)實際情況將上述元素設計為：

智能體：改進LeNet算法。

環(huán)境：通過GAN算法可以產生新標簽樣本，同時質檢員每天進行現(xiàn)場抽檢和對GAN新樣本評判可以得到有標簽新樣本。通過對比智能體的判別和新產生的有標簽樣本，可以得到環(huán)境的獎勵。

狀態(tài)空間：由每一張圖片構成的樣本空間。

動作空間：0和1，即小龍蝦的兩個類別，0代表需要自動剔除的壞質量龍蝦，1代表需要保留的好質量龍蝦。

評分機制：分類正確得分+1分，分類錯誤得分-1分。

動態(tài)算法框架如圖6所示。通過智能體改進LeNet和產生樣本圖片的環(huán)境不斷交互，不斷的學習并自動更新改進LeNet的網絡參數(shù)，直到最后得到最優(yōu)策略和最優(yōu)狀態(tài)-動作值函數(shù)，此時可以獲得更優(yōu)的分類網絡。

圖6 動態(tài)算法框架

2.2 動態(tài)算法樣本規(guī)劃

通過不斷增加樣本數(shù)量來模擬生產線上動態(tài)過程，由圖7可見。以9000張圖像為例，將它們分為三個相等的部分，為動態(tài)過程的仿真做準備。隨機選擇其中一個3000張作為第一個實驗的數(shù)據(jù)集，然后將第一個數(shù)據(jù)集與第二個數(shù)據(jù)集合并形成6000張圖像作為第二個實驗的數(shù)據(jù)集。最后，將所有三部分數(shù)據(jù)集合并形成9000張圖像作為第三次實驗的數(shù)據(jù)集。沒有將數(shù)據(jù)集直接分為3000、6000和9000，而是逐漸添加圖像，可以更加準確地模擬數(shù)據(jù)的逐漸增加過程。選用3000個數(shù)據(jù)增量作為一檔是因為假設選取增量數(shù)太小會造成實驗差異太小，無法準確判定動態(tài)算法是否有效。

圖7 動態(tài)模擬過程圖

2.3 動態(tài)分類算法流程

通過結合改進LeNet和DQN來處理動態(tài)數(shù)據(jù)集，將圖像分類問題視為一個可以自動調整模型參數(shù)以對圖像進行分類學習的環(huán)境。在不斷產生樣本的環(huán)境中，改進LeNet任務是識別圖像內容。一開始改進LeNet隨機選擇對圖像進行分類的動作，環(huán)境給改進LeNet反饋一張圖片作為更新參數(shù)后的輸入和一個評分，分類正確得分增加1，分類錯誤得分減1。改進LeNet的目標是通過不斷與環(huán)境互動來提高得分，最后當分數(shù)高于一定水平時，改進LeNet已經完成了識別圖像任務。動態(tài)算法的具體步驟如圖8所示。

圖8 動態(tài)算法框架圖

步驟1：讀取圖像樣本作為輸入數(shù)據(jù)集。

步驟2：初始化容器D，該容器可以存儲模型參數(shù)和評分，可保存N條數(shù)據(jù)。

步驟3：隨機初始化改進LeNet的權重獲得函數(shù)。

步驟4：從數(shù)據(jù)集中隨機選擇一張圖片作為此時的狀態(tài)，隨機選擇動作1和0。動作1和0是好的小龍蝦圖片和壞的小龍蝦圖片對應的標簽。在動作下，環(huán)境向改進LeNet返回了評分和一個狀態(tài)即下一張圖片。

步驟5：根據(jù)評分更新改進LeNet權重參數(shù)得到一個新的改進LeNet。

步驟6：將環(huán)境反饋的圖像輸入到新的改進LeNet。

步驟7：重復步驟4-6，直到完成一次迭代為止。通過遍歷數(shù)據(jù)集的所有圖像，保存得分和改進LeNet權重參數(shù)并傳遞給D。

步驟8：經過50次迭代，D包含50套相應的權重和評分，選擇的得分最高的改進LeNet作為當前最優(yōu)模型。

步驟9：使用當前的最優(yōu)模型繼續(xù)與環(huán)境互動以產生新的分數(shù)和模型參數(shù)。

步驟10：每50次迭代記錄得分，直到訓練完成。

3 實驗與分析

通過廠家測試現(xiàn)場采集的龍蝦數(shù)據(jù)集圖片樣本包含4300張圖，但是為了能夠更加準確地剔除有問題的小龍蝦，4300張圖片訓練模型是不夠的。因此本文選擇改進GAN來生成一些小龍蝦圖片，不僅能夠減少廠家的成本而且有利于實施后續(xù)的分類檢測任務。

實驗環(huán)境由表1可見，實驗步驟如下：首先在已有小龍蝦圖片數(shù)據(jù)集上，對比LeNet模型改進前后準確率，驗證改進LeNet作為改進GAN判別模型的可行性；然后通過對比GAN改進前后生成小龍蝦圖片樣本的可使用率來驗證改進GAN的有效性；最后通過圖像分割實驗將生成的小龍蝦圖片做處理得到可以直接用于后續(xù)分類的樣本。

表1 實驗環(huán)境表

3.1 GAN判別模型改進驗證實驗

選擇4300張龍蝦圖片作為樣本，樣本分為兩類，一類為bads(黑蝦和受損的蝦等)，另一類為goods(好的龍蝦)，對應的標簽分別為0和1。將改進LeNet和LeNet應用于已有小龍蝦樣本的分類，訓練10000步結果圖如圖9所示。相比LeNet，改進LeNet訓練集準確率提高14%，測試集準確率提高19%。GAN模型中包含一個判別模型和生成模型，兩者之間是相互競爭、相互促進的關系，只有當判別模型能夠準確判斷圖像的真假時才能促進生成模型生成更真實的圖片。改進LeNet模型分類準確率可達到99%，對已有小龍蝦圖像的特征有一定的分辨能力，驗證了使用改進LeNet模型作為判別模型的可行性。

(a) LeNet準確率圖 (b)改進LeNet準確率圖圖9 準確率對比圖

3.2 改進GAN驗證實驗

實驗按類別生成對應的樣本，而不是直接將所有的樣本進行一次訓練，將Goods類作為第一次實驗樣本用來生成對應好的龍蝦圖片，將Bads類作為第二次實驗樣本用來生成壞的龍蝦樣本。為后續(xù)再分類節(jié)省數(shù)據(jù)整合時間。

(a)GAN生成的圖片 (b)改進GAN生成的圖片圖10 Goods樣本結果對比圖

將GAN和改進GAN分別生成類別為Goods的小龍蝦圖像50張圖片，每張包括64張小龍蝦樣本，生成的Good部分樣本結果對比由圖10可見。其中黑色框標記了可用的小龍蝦圖片，GAN生成的小龍蝦樣本，可使用率為12.5%；改進GAN生成的樣本可使用率為46.8%。

(a)GAN生成的圖片 (b) 改進GAN生成的圖片圖11 Bad樣本結果對比圖

將GAN和改進GAN分別用于生成壞的小龍蝦樣本，同樣生成50張圖片，每張包括64個小龍蝦樣本。生成的Bads部分樣本結果由圖11可見，GAN生成壞的小龍蝦樣本可使用率不足25%；而改進GAN生成的樣本可使用率為57.8%，單張圖片的可使用率提高了32.8%。

3.3 分割實驗

后續(xù)圖像分類任務中需要小龍蝦圖像單獨成為一張圖片，因此需要將整體圖片分割，具體步驟如下。

步驟1：讀取文件夾圖片，并灰度化。

步驟2：根據(jù)全局閾值分割算法將小龍蝦與背景分開，并得到含有小龍蝦和臟污的區(qū)域。

步驟3：將區(qū)域做連通操作。

步驟4：根據(jù)面積大小選出只含有小龍蝦的區(qū)域。

步驟5：將區(qū)域從左往右，從上往下進行排序，并記錄區(qū)域的個數(shù)number。

步驟6：設置索引i來表示小龍蝦的序號，i從1開始一直到number。當i=1時執(zhí)行以下操作：根據(jù)序號選擇小龍蝦區(qū)域；找到該區(qū)域的中心點坐標；根據(jù)中心點坐標生成一個矩形框；從原圖中剪切出矩形框，即剪切出單張小龍蝦。直到i=number，得到number個單張小龍蝦。

步驟7：將單張小龍蝦保存到文件夾中完成一張圖片的分割處理。

步驟8：遍歷文件夾圖片獲得所有單張圖片。

經過篩選后GAN模型生成的總體可使用的圖片為1711張，總體可使用率為26.7%；改進GAN模型生成的總體可使用的圖片為3125張，總體可使用率為48.8%，相比GAN模型提升了22.1%。

3.4 模型適應性實驗

將改進LeNet應用于動態(tài)小龍蝦數(shù)據(jù)集分類問題中，三組實驗的結果如圖12所示，其中的橫坐標表示迭代步數(shù)、縱坐標表示分類準確率，實線表示訓練集準確率，虛線表示測試集準確率。比較三組實驗，當數(shù)據(jù)集中包含6000張圖時訓練集和測試集的準確率最高，可以達到99%左右；但是當數(shù)據(jù)集為3000時，由于樣本過少不能獲取更多的特征而導致測試集準確率低于90%；當數(shù)據(jù)集為9000時，訓練集和測試集準確率均小于90%，無法準確分類。

圖12 改進LeNet三次實驗的結果圖

由實驗結果可以看出單獨使用卷積神經網絡處理動態(tài)數(shù)據(jù)集分類問題時，數(shù)據(jù)集中包含的圖像樣本特征變化導致模型適應性差。如果使用CNN來解決動態(tài)問題即增加分類準確性，則需要手動調整CNN的參數(shù)和結構，修改后的模型也許能夠同時適應本文的3組實驗，但是不能保證能適應后續(xù)的小龍蝦特征，且需消耗大量時間。所以需要設計自動調整參數(shù)的動態(tài)算法來適應變化的數(shù)據(jù)集，節(jié)省調試時間，提高準確率，保證生產效率。

為讓模型適應產品的批次品質變化，進行了模型的參數(shù)動態(tài)調整實驗。將上述改進GAN實驗中最終整合得到的9000張小龍蝦圖像樣本分成3份，每份3000張，逐漸增加樣本，第一個數(shù)據(jù)集3000張，第二個6000張，第三個9000張，并根據(jù)不同的數(shù)據(jù)集設計了相應的訓練迭代次數(shù)。具體的訓練集和測試集圖像數(shù)量分布，相應的迭代次數(shù)如表2所示。

表2 數(shù)據(jù)集分布和迭代次數(shù)

實驗編程環(huán)境采用Keras框架，該框架比Tensorflow編程框架包含的庫少，但是編寫強化學習算法程序簡單，而且強化學習算法的程序訓練過程緩慢，使用Keras編寫動態(tài)分類算法更簡單，更節(jié)省時間。

3.5 融合Qleaning強化的參數(shù)動態(tài)調整實驗

動態(tài)算法的三組實驗結果如圖所示，其中橫坐標表示迭代步數(shù)，縱坐標代表得分，紅色曲線表示訓練集得分，虛線表示測試集得分。為了將改進LeNet與動態(tài)算法進行比較，首先需要將得分轉換為準確率，轉換方法如公式(1)所示，準確率等于最終分數(shù)除以數(shù)據(jù)集包含的圖像樣本數(shù)量。

圖13 動態(tài)算法三次實驗的結果圖

結合表2中訓練集和測試集的分布，以及圖9中得分，通過公式(1)計算出動態(tài)分類算法的準確率如表3所示。

表3 動態(tài)算法準確率結果

準確率=最終分數(shù)/數(shù)據(jù)集數(shù)量

(1)

由表3可知動態(tài)分類算法的三組實驗訓練集和測試集準確率均高于為99%，與單獨使用卷積神經網絡相比，動態(tài)分類算法在數(shù)據(jù)集為3000時，測試集準確率高出10%左右，當數(shù)據(jù)集為9000時，實驗中的訓練集和測試集準確率提高了約10%，驗證了動態(tài)分類算法在處理動態(tài)數(shù)據(jù)集分類問題時的優(yōu)勢。在三組動態(tài)算法實驗中，訓練集準確率之間的差異不超過0.2%，測試集準確率之間的差異不超過0.3%，驗證了動態(tài)算法處理在動態(tài)的數(shù)據(jù)集時的穩(wěn)定性。

從實驗結果可以看出，動態(tài)分類算法通過調整參數(shù)自適應數(shù)據(jù)集變化，能適應生產線上不斷變化的產品品質變化，最終獲得最優(yōu)模型和最高分數(shù)。相比單獨使用卷積神經網絡分類動態(tài)數(shù)據(jù)集，準確率更高、更穩(wěn)定。

4 結語

本文在融合LeNet及多種算法基礎上，提出了一種GAN改進與分類動態(tài)訓練算法，實驗證明，通過GAN算法改進能有效增加樣本數(shù)量。提出的分類動態(tài)訓練算法能有效減少生產線產品批次間品質變化造成的分類準確率不穩(wěn)定問題。