亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于稀疏自編碼器的傳感器在線漂移補償算法

2021-02-25 11:53:06楊皓誠梁志芳黎春燕

儀表技術(shù)與傳感器 2021年1期

陶洋,楊皓誠,梁志芳,黎春燕,胡昊

(重慶郵電大學(xué)通信與信息工程學(xué)院，重慶 400065)

0 引言

電子鼻又稱為仿生嗅覺系統(tǒng)，是一個由氣體傳感器陣列和模式識別算法組成的用于氣體識別的系統(tǒng)[1]，在環(huán)境監(jiān)測[2]、食品檢測[3]和醫(yī)療診斷[4]等多個領(lǐng)域均有所應(yīng)用。電子鼻能夠模擬人類嗅覺系統(tǒng)以實現(xiàn)氣體識別的關(guān)鍵在于其內(nèi)部的氣體傳感器能夠根據(jù)不同氣體的特性產(chǎn)生對應(yīng)的電信號響應(yīng)，這些響應(yīng)通過模式識別算法的處理最終轉(zhuǎn)換為氣體識別結(jié)果。

由于傳感器老化或外界氣體中毒等原因，傳感器會發(fā)生漂移現(xiàn)象。將傳感器未發(fā)生漂移時采集到的樣本定義為源域樣本，而將從已發(fā)生漂移的傳感器中采集到的樣本定義為目標(biāo)域樣本，漂移會引起相同環(huán)境條件下傳感器輸出響應(yīng)發(fā)生變化，導(dǎo)致源域樣本特征與目標(biāo)域樣本特征出現(xiàn)差異，進(jìn)而使得識別算法精度下降。傳感器漂移問題普遍存在于電子鼻系統(tǒng)中且無法避免。近年來許多學(xué)者提出了針對傳感器漂移補償?shù)乃惴?，Zhang等[5]提出了一種基于半監(jiān)督學(xué)習(xí)的領(lǐng)域自適應(yīng)極限學(xué)習(xí)機(jī)(domain adaptation extreme learning machine，DAELM)的漂移補償方法，該方法在使用了目標(biāo)域有標(biāo)簽樣本的同時，還利用了目標(biāo)域中無標(biāo)簽樣本的特征分布共同構(gòu)建分類器。Gong等[6]從減小域間距離的角度出發(fā)提出了基于測地線(geodesic flow kernel，GFK)的無監(jiān)督學(xué)習(xí)算法，該算法被進(jìn)一步的優(yōu)化為Cui等[7]所提出的基于移動協(xié)方差的領(lǐng)域自適應(yīng)算法。Zhang等[8]基于子空間學(xué)習(xí)提出了領(lǐng)域正則化成分分析(domain regularized component analysis，DRCA)方法，該方法將2個不同領(lǐng)域內(nèi)的所有樣本映射到一個具有相同維度的子空間中，并通過最大均值差異(maximum mean discrepancy，MMD)來度量源域與目標(biāo)域間樣本特征的分布差異。上述方法雖然能夠得到較好的傳感器漂移補償效果，但它們均屬于離線方法，需要定期對目標(biāo)域樣本進(jìn)行采集并重新訓(xùn)練識別模型以實現(xiàn)補償過程，而在實際應(yīng)用中對大批量的電子鼻系統(tǒng)進(jìn)行定期離線校正是不現(xiàn)實的。

針對上述現(xiàn)有算法所存在的局限性，本文提出了一種基于稀疏自編碼器的在線漂移補償算法(online drift compensation sparse autoencoder，ODCSAE)。該算法能夠在不借助任何目標(biāo)域樣本的情況下，通過稀疏自編碼器(sparse autoencoder，SAE)的特征學(xué)習(xí)和分類器的標(biāo)簽判別，獲得相近甚至優(yōu)于離線漂移補償方法的分類精度。

本文所提出的ODCSAE算法創(chuàng)新點在于：

(1)模型訓(xùn)練的全過程無需目標(biāo)域樣本參與，訓(xùn)練后所得模型可對流式到達(dá)的目標(biāo)域樣本進(jìn)行在線漂移補償，更貼近于實際應(yīng)用場景；

(2)引入l1范數(shù)實現(xiàn)了自編碼器的稀疏，在加快模型訓(xùn)練速度的同時提升了特征投影的效果；

(3)通過構(gòu)建分類器完成標(biāo)簽預(yù)測，相較于文獻(xiàn)[9]中的方法，在樣本類別數(shù)較多的情況下，大幅減少了模型使用過程中分類標(biāo)簽的判別時間。

1 自編碼器

自編碼器(autoencoder，AE)是一種基于神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)算法，最早由Rumelhart等人[10]提出，常用于數(shù)據(jù)降維和特征學(xué)習(xí)。自編碼器由編碼器和解碼器兩部分組成，其輸出可分別表示為：

z=σ(W1x+b1)

(1)

(2)

一般通過添加約束條件使得重構(gòu)樣本在訓(xùn)練時不斷接近輸入樣本，并在這種迭代中學(xué)習(xí)到輸入樣本的有效特征表示。

自編碼器設(shè)計中常用的一種約束條件是將編碼器的維數(shù)設(shè)置為大于輸入樣本的特征維數(shù)，并加入稀疏懲罰來抑制隱藏層節(jié)點的激活輸出，實現(xiàn)樣本特征的自動提取，這種自編碼器被稱為稀疏自編碼器(sparse autoencoder，SAE)，損失函數(shù)表示為：

(3)

KL散度(kullback-leibler divergence，KL divergence)常作為稀疏自編碼器的稀疏懲罰，用于度量輸入樣本與重構(gòu)樣本間的特征匹配程度[11]，其值的大小與樣本特征的分布差異程度成正比。另一種稀疏性的添加方法是引入l1范數(shù)作為懲罰項,φ用于約束編碼器的輸出。相較于l2范數(shù)，l1范數(shù)更容易獲得有效稀疏解[12]。

2 基于稀疏自編碼器的在線漂移補償算法

2.1 算法模型框架

本文提出的基于稀疏自編碼器的在線漂移補償算法模型(ODCSAE)由稀疏自編碼器與分類器兩部分組成，算法模型如圖1所示。

圖1 ODCSAE算法模型框圖

首先，輸入源域樣本特征訓(xùn)練稀疏自編碼器，而后將編碼器權(quán)重矩陣與源域樣本標(biāo)簽一并帶入到分類器的訓(xùn)練中。當(dāng)目標(biāo)域樣本到達(dá)時，通過訓(xùn)練好的稀疏自編碼器獲得其在源域非線性結(jié)構(gòu)下的重構(gòu)表示，而后對該重構(gòu)樣本進(jìn)行特征增強(qiáng)，并將增強(qiáng)后的樣本輸入到分類器中以實現(xiàn)樣本標(biāo)簽的預(yù)測。

2.2 稀疏自編碼器與分類器的構(gòu)建

圖2 稀疏自編碼器結(jié)構(gòu)圖

稀疏自編碼器訓(xùn)練中不需要使用源域樣本標(biāo)簽，編碼的過程實際上是將源域樣本特征投影到另一個高維子空間中，并使用稀疏懲罰篩選出有效的特征表示。為了保證投影的稀疏性，引入l1范數(shù)對編碼器的輸出進(jìn)行懲罰。此時稀疏自編碼器的損失函數(shù)為：

(4)

(5)

圖3 分類器結(jié)構(gòu)圖

輸入源域樣本及對應(yīng)標(biāo)簽完成分類器權(quán)重與偏置的迭代更新，此時分類器的損失函數(shù)為：

(6)

(7)

分類器的最終輸出表示為：

(8)

式中g(shù)(·)和s(·)為激活函數(shù)，其中g(shù)(·)選為ReLU函數(shù)，而s(·)選為softmax函數(shù)。

本文受文獻(xiàn)[9]的啟發(fā)，對編碼及分類過程進(jìn)行改進(jìn)。主要改進(jìn)在于兩點：一是引入了特征增強(qiáng)，使得整個網(wǎng)絡(luò)能夠在僅使用源域樣本進(jìn)行模型訓(xùn)練的情況下完成對流式到達(dá)的目標(biāo)域樣本的有效標(biāo)簽判別；二是將分類器添加到自編碼器的輸出后，從而將樣本標(biāo)簽分類結(jié)果使用以softmax作為激活函數(shù)的輸出層直接算出。通過softmax函數(shù)，判別輸入樣本標(biāo)簽的度量標(biāo)準(zhǔn)由文獻(xiàn)[9]中的最小均方誤差轉(zhuǎn)換為將網(wǎng)絡(luò)輸出值映射到區(qū)間(0，1)內(nèi)，取輸出值最大的節(jié)點對應(yīng)的標(biāo)簽作為最終的分類結(jié)果，解決了當(dāng)樣本類別數(shù)較多時，使用文獻(xiàn)[9]中的方法逐一計算比對均方誤差而導(dǎo)致較長的標(biāo)簽判別時間的問題。

2.3 樣本特征增強(qiáng)與算法執(zhí)行

(9)

(10)

ODCSAE算法流程如下：

訓(xùn)練過程：

測試過程：

3 實驗驗證與分析

3.1 實驗數(shù)據(jù)集介紹

本文所使用的數(shù)據(jù)集為氣體傳感器陣列漂移數(shù)據(jù)集。該數(shù)據(jù)集收錄于加州大學(xué)歐文分校(university of california irvine，UCI)機(jī)器學(xué)習(xí)數(shù)據(jù)庫，數(shù)據(jù)庫中的各類數(shù)據(jù)集常被機(jī)器學(xué)習(xí)相關(guān)的論文用于算法驗證。數(shù)據(jù)集由Vergara等人[13]自2008年1月至2011年2月歷時3年，使用包含了16個氣體傳感器的電子鼻系統(tǒng)，從每個傳感器的輸出響應(yīng)中提取出8維特征后得到的，如表1所示。數(shù)據(jù)集共含有13 910個樣本，依據(jù)采集時間的不同分為10個批次。

表1 氣體傳感器陣列漂移數(shù)據(jù)集樣本組成個

3.2 實驗設(shè)置

本文中的實驗基于tensorflow-gpu(1.14.0)、keras(2.3.0)深度學(xué)習(xí)框架和scikit-learn(0.21.3)機(jī)器學(xué)習(xí)工具包設(shè)計。測試的分類精度由式(11)算出：

(11)

式中：Nc為每輪測試中通過算法預(yù)測獲得正確氣體分類的樣本數(shù)量；N為當(dāng)輪測試使用到的所有樣本數(shù)量。

本文設(shè)計了兩種不同的實驗場景。

設(shè)置1：將批次1作為源域用于模型訓(xùn)練，批次2至批次10分別作為目標(biāo)域用于測試。

設(shè)置2：將批i作為源域用于模型訓(xùn)練，其中i=1,2,…,9,批次i+1作為目標(biāo)域用于測試。

ODCSAE模型建立過程中，選擇adadelta作為優(yōu)化器，稀疏自編碼器輸入層與輸出層的節(jié)點數(shù)均選擇為128，即數(shù)據(jù)集中樣本的特征維數(shù)，隱藏層節(jié)點數(shù)nh選擇為256，懲罰項系數(shù)λ選擇為10-6，損失度量選擇為均方誤差。分類器的輸出層節(jié)點數(shù)c對應(yīng)于數(shù)據(jù)集中的6類氣體標(biāo)簽選擇為6，輸入層和隱藏層節(jié)點數(shù)與稀疏自編碼器相同分別設(shè)置為128和256，損失度量選擇為交叉熵。

3.3 實驗結(jié)果與分析

為了充分驗證算法的有效性，本文選擇了主成分分析(PCA)、線性判別分析(LDA)、基于徑向基函數(shù)的支持向量機(jī)(SVM-rbf)、基于測地線核函數(shù)的支持向量機(jī)(SVM-gfk)、基于測地線組合核函數(shù)的支持向量機(jī)(SVM-comgfk)、廣義最小二乘加權(quán)(GLSW)、直接標(biāo)準(zhǔn)化(DS)、領(lǐng)域正則化成分分析(DRCA)[8]和增強(qiáng)型極限學(xué)習(xí)機(jī)(AELM)[9]作為對比算法。

設(shè)置1下的各算法分類精度如表2所示。通過表2可以發(fā)現(xiàn)ODCSAE的平均精度達(dá)到了73.99%，僅次于DRCA。ODCSAE在批次6和批次8中獲得了最優(yōu)的分類精度，但在批次9和批次10上表現(xiàn)不佳。由表1可知，造成這種結(jié)果的原因可能是批次9和批次10樣本采集時間距離批次1較遠(yuǎn)，目標(biāo)域樣本特征分布相較于源域已經(jīng)發(fā)生了較大的變化，因此把這兩個批次的樣本進(jìn)行自編碼并完成特征增強(qiáng)后，無法有效地將樣本特征向源域拉近，進(jìn)而導(dǎo)致了較低的分類精度。雖然ODCSAE未在設(shè)置1下獲得最高的平均分類精度，但除ODCSAE和AELM外，其他對比算法均使用了部分或全部目標(biāo)域樣本參與模型的訓(xùn)練。ODCSAE在訓(xùn)練過程中只使用了源域樣本，更貼近于現(xiàn)實場景下的應(yīng)用。

表2 實驗設(shè)置1下各個算法的分類精度 %

表3展現(xiàn)了設(shè)置2下各算法的分類精度對比，可以發(fā)現(xiàn)ODCSAE獲得了最高的平均分類精度77.63%，同時在4→5和5→6兩個批次中獲得了最優(yōu)的分類精度。如表1所示，批次5中并不含有任何標(biāo)簽為甲苯的樣本，因此在批次5→6的測試中，表中所有的方法均無法判別批次6中的甲苯樣本，但即使在這種情況下，ODCSAE依然在這一批次的測試?yán)铽@得了74.61%的分類精度，進(jìn)一步證明了對目標(biāo)域樣本進(jìn)行樣本重構(gòu)與特征增強(qiáng)能夠有效的拉近源域與目標(biāo)域間相似特征的距離。ODCSAE在批次9→10中僅獲得了29.44%的分類精度，產(chǎn)生這種結(jié)果的可能原因在于批次9與批次10的樣本特征分布差異過大，致使特征增強(qiáng)失效，進(jìn)而無法獲得較高的分類精度。

表3 實驗設(shè)置2下各個算法的分類精度 %

4 結(jié)束語

為了解決電子鼻系統(tǒng)中氣體傳感器的漂移補償問題，本文提出了基于稀疏自編碼器的在線漂移補償算法(ODCSAE)。該算法能夠有效地獲取源域樣本的特征信息，并通過樣本重構(gòu)與特征增強(qiáng)將這些信息添加到目標(biāo)域樣本的特征空間中。實驗證明，ODCSAE能夠在沒有任何目標(biāo)域樣本參與模型訓(xùn)練的情況下獲得較好的分類準(zhǔn)確率，有效地實現(xiàn)了電子鼻傳感器的在線漂移補償。但由于傳感器漂移產(chǎn)生因素的復(fù)雜性，ODCSAE對采樣間隔較大的樣本批次分類效果較差。今后的工作將改進(jìn)ODCSAE以探索該算法在線場景下實現(xiàn)模型動態(tài)更新的可能性，擴(kuò)展算法的適用范圍。