亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

稀疏降噪自編碼算法用于近紅外光譜鑒別真假藥的研究

2016-07-12 12:58:28楊輝華雒志超蔣淑潔張學(xué)博尹利輝

光譜學(xué)與光譜分析 2016年9期

關(guān)鍵詞：真假白化光譜

楊輝華，雒志超，蔣淑潔，張學(xué)博，尹利輝

1.桂林電子科技大學(xué)電子工程與自動化學(xué)院，廣西桂林 541004 2.北京郵電大學(xué)自動化學(xué)院，北京 100876 3.中國食品藥品檢定研究院，北京 100050

稀疏降噪自編碼算法用于近紅外光譜鑒別真假藥的研究

楊輝華1, 2，雒志超1，蔣淑潔1，張學(xué)博3，尹利輝3

近紅外光譜分析技術(shù)作為一種快速、無損檢測技術(shù)十分適用于真假藥品現(xiàn)場鑒別。自編碼網(wǎng)絡(luò)作為當(dāng)前機器學(xué)習(xí)領(lǐng)域研究的熱點受到廣泛關(guān)注，自編碼網(wǎng)絡(luò)是一種典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型，它比傳統(tǒng)的潛層學(xué)習(xí)方法具有更強的模型表示能力。自編碼網(wǎng)絡(luò)使用貪婪逐層預(yù)訓(xùn)練算法，通過最小化各層網(wǎng)絡(luò)的重構(gòu)誤差，依次訓(xùn)練網(wǎng)絡(luò)的每一層，進(jìn)而訓(xùn)練整個網(wǎng)絡(luò)。通過對數(shù)據(jù)進(jìn)行白化預(yù)處理并使用無監(jiān)督算法對輸入數(shù)據(jù)進(jìn)行逐層重構(gòu)，使網(wǎng)絡(luò)更有效的學(xué)習(xí)到數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特征。之后使用帶標(biāo)簽數(shù)據(jù)通過監(jiān)督學(xué)習(xí)算法對整個網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)。首先對真假琥乙紅霉素片的近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理以及白化預(yù)處理，通過白化處理降低數(shù)據(jù)特征之間的相關(guān)性，使數(shù)據(jù)各特征具有相同的方差。數(shù)據(jù)處理之后利用稀疏降噪自編碼網(wǎng)絡(luò)針對真假藥品光譜數(shù)據(jù)建立分類模型，并將稀疏降噪自編碼網(wǎng)絡(luò)模型與BP神經(jīng)網(wǎng)絡(luò)以及SVM算法在分類準(zhǔn)確率及算法穩(wěn)定性方面進(jìn)行對比。結(jié)果表明對光譜數(shù)據(jù)進(jìn)行白化預(yù)處理能有效提升稀疏降噪自編碼網(wǎng)絡(luò)的分類準(zhǔn)確率。并且自編碼網(wǎng)絡(luò)分類準(zhǔn)確率在不同訓(xùn)練樣本數(shù)量下均高于BP神經(jīng)網(wǎng)絡(luò)，SVM算法在少量訓(xùn)練樣本的情況下更有優(yōu)勢，但在訓(xùn)練數(shù)據(jù)集樣本數(shù)達(dá)到一定數(shù)量后，自編碼網(wǎng)絡(luò)的分類準(zhǔn)確率將優(yōu)于SVM算法。在算法穩(wěn)定性方面，自編碼網(wǎng)絡(luò)較之BP神經(jīng)網(wǎng)絡(luò)和SVM算法也更穩(wěn)定。使用稀疏降噪自編碼網(wǎng)絡(luò)對真假藥品近紅外光譜數(shù)據(jù)進(jìn)行建模，能對真假藥品進(jìn)行有效的鑒別。

近紅外光譜；真假藥鑒別；自編碼網(wǎng)絡(luò)；白化

引言

藥物與人們的生活息息相關(guān)，但是市場上充斥著大量的假冒偽劣藥品。假如不慎服用假藥不但不能起到治療疾病的效果，反而會對人體產(chǎn)生危害。因此真假藥的鑒別有重要意義。近紅外光譜分析技術(shù)以其分析速度快、不破壞樣本、不污染環(huán)境等特點，廣泛應(yīng)用于農(nóng)業(yè)產(chǎn)品的質(zhì)量檢測、食品工業(yè)、石油化工等領(lǐng)域[1]。同樣在藥物鑒別分析方面也有著廣泛應(yīng)用，Storme-Paris等[2]使用簇類獨立軟模式法(soft independent modeling of class analogy，SIMCA)算法對通過添加不同的賦形劑來達(dá)到相同藥物活性成分的藥品樣本建立藥品鑒別模型，實驗表明使用近紅外光譜技術(shù)能檢測出藥品構(gòu)成中的微小差異，是鑒別真假藥品的一種有效的手段。Deconinck等[3]利用決策樹(classification trees)分別對Viagra和Cialis真假藥品近紅外光譜數(shù)據(jù)進(jìn)行鑒別，其分類準(zhǔn)確率分別達(dá)到83.3%和100%。Michel J Anzanello等[4]使用主成分分析(principal components analysis，PCA)結(jié)合K鄰近算法(K-nearest neighbour，KNN)和支持向量機算法(support vector machine，SVM)對Viagra和Cialis真假藥品進(jìn)行鑒別。實驗表明，SVM算法相對于KNN算法具有更高的分類準(zhǔn)確率。Peinder等[5]、Floyd E Dowell等[6]使用偏最小二乘判別分析法(partial least squares discriminant analysis，PLS-DA)分別對Lipitor和抗瘧疾藥進(jìn)行鑒別，驗證了PLS-DA模型在光譜藥品鑒別上的有效性。國內(nèi)方面，馮艷春等[7]使用一致性檢驗、相關(guān)系數(shù)法、反相關(guān)系數(shù)法以及使用特征譜段的相關(guān)系數(shù)法快速鑒別真假藥品。虞科等[8]使用最小二乘支持向量機(least squares support veotor machine，LSSVM)建立分類模型，對中藥丹參粉末樣品的真?zhèn)芜M(jìn)行判別，相對于傳統(tǒng)的SVM算法，LSSVM在訓(xùn)練速度上更有優(yōu)勢。

自編碼網(wǎng)絡(luò)自Hinton等[9]在2006年首次在Science上提出，便引起了學(xué)術(shù)界廣泛的關(guān)注。自編碼網(wǎng)絡(luò)可以充分的利用未標(biāo)簽數(shù)據(jù)通過逐層的預(yù)訓(xùn)練(pre-train)得到各層網(wǎng)絡(luò)的初始化權(quán)值，從而使網(wǎng)絡(luò)能更有效的提取數(shù)據(jù)的特征。稀疏自編碼(sparse autoencoder，SAE)在自編碼的基礎(chǔ)上加入稀疏懲罰項，限制被激活的隱層節(jié)點數(shù)。降噪自編碼(denoising autoencoder，DAE)[10]在輸入的信號中加入隨機噪聲，通過噪聲數(shù)據(jù)重構(gòu)原始信號使得學(xué)習(xí)到的特征更具有魯棒性。

鑒于自編碼網(wǎng)絡(luò)具有優(yōu)秀的模型表達(dá)能力，不但被廣泛應(yīng)用于海量數(shù)據(jù)建模，并且具有從少數(shù)樣本集中學(xué)習(xí)到數(shù)據(jù)的本質(zhì)特征的能力，針對琥乙紅霉素真假藥數(shù)據(jù)集，首先通過光譜預(yù)處理及白化處理消除光譜特征維度之間的相關(guān)性，然后利用稀疏降噪自編碼網(wǎng)絡(luò)對琥乙紅霉素真假藥數(shù)據(jù)集建立真假藥鑒別模型。并與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)以及SVM算法進(jìn)行比較，結(jié)果表明稀疏降噪自編碼網(wǎng)絡(luò)在分類準(zhǔn)確度和分類穩(wěn)定性方面均優(yōu)于BP神經(jīng)網(wǎng)絡(luò)和SVM算法。

1 算法描述

1.1 數(shù)據(jù)白化

在對數(shù)據(jù)建模的過程中，使建模數(shù)據(jù)的協(xié)方差矩陣轉(zhuǎn)變?yōu)閱挝痪仃嚕瑢５臏?zhǔn)確性產(chǎn)生積極的影響。將數(shù)據(jù)的協(xié)方差矩陣轉(zhuǎn)變?yōu)閱挝痪仃嚨倪^程稱為白化(whitening)或球化(sphering)。當(dāng)數(shù)據(jù)具有統(tǒng)一的協(xié)方差，數(shù)據(jù)的特征之間是相互獨立的，并且每個數(shù)據(jù)特征都具有相同的方差。

之所以要使數(shù)據(jù)的特征之間相互獨立，因為在多維數(shù)據(jù)的概率模型中，各個維度的聯(lián)合概率分布非常復(fù)雜，難以描述。當(dāng)特征維度之間相互獨立，聯(lián)合概率分布就可以分解為多個簡單的分布。每個數(shù)據(jù)特征方差單位化也是非常有必要的。相同的方差意味著特征之間有著相同的重要程度。數(shù)據(jù)白化的步驟如下：

(1) 對x零均值化，構(gòu)造它的協(xié)方差矩陣，

Σ=E(xxT)

(1)

當(dāng)數(shù)據(jù)變量之間是相關(guān)的，那么他的協(xié)方差矩Σ將不是對角矩陣。

(2) 為了解除數(shù)據(jù)之間的相關(guān)性，我們需要將協(xié)方差矩陣轉(zhuǎn)變?yōu)閷蔷仃?。對角矩陣可以通過求解矩陣的特征值和特征向量來得到，

ΣΦ=ΦΛ

(2)

Λ是對角化矩陣，其對角元素就是Σ的特征值。矩陣Φ的列向量是協(xié)方差矩陣Σ的特征向量。對角化公式可以寫作

ΦTΣΦ=Λ

(3)

對x做如下變換，

y=ΦTx

(4)

y即為解除相關(guān)后的數(shù)據(jù)，其協(xié)方差矩陣E(yyT)是一個對角化矩陣。

(3) 上面的Λ矩陣的對角元素可能是不相同的(特征值不同)，白化的過程就是使Λ矩陣的對角元素單位化。已知

Λ-1/2ΛΛ-1/2=I

(5)

代入式(3)后得，

Λ-1/2ΦTΣΦΛ-1/2=I

(6)

因此我們將y乘上縮放因子Λ-1/2就得到白化后的數(shù)據(jù)w

w=Λ-1/2y=Λ-1/2ΦTx

(7)

得到的w不僅協(xié)方差是對角矩陣，而且是單位矩陣Ε(wwT)=Ι。

1.2 稀疏自編碼網(wǎng)絡(luò)

自編碼網(wǎng)絡(luò)是一種無監(jiān)督的特征學(xué)習(xí)算法，通過逐層的預(yù)訓(xùn)練來獲得網(wǎng)絡(luò)的初始化權(quán)值。自編碼網(wǎng)絡(luò)通過構(gòu)造一種使輸入層與輸出層具有相同節(jié)點數(shù)的神經(jīng)網(wǎng)絡(luò)，使用反向傳播算法來訓(xùn)練。使輸入數(shù)據(jù)與輸出數(shù)據(jù)盡可能相等，從而學(xué)習(xí)到數(shù)據(jù)的內(nèi)部特征。

圖1 單層自編碼

如圖1所示，一個單層的自編碼網(wǎng)絡(luò)只有一個隱層，輸入和輸出層有相同數(shù)量的神經(jīng)元。自編碼網(wǎng)絡(luò)可分為編碼層和解碼層。第一階段為編碼過程，設(shè)x∈Rn。

h(x)=f(W1x+b1)

(8)

f(z)=1/(1+exp(-z))是非線性激活函數(shù)，h(x)∈Rm是隱層節(jié)點的激活值，W1∈m×n是連接權(quán)值矩陣。b1∈Rm是偏置值。自編碼網(wǎng)絡(luò)的輸出為解碼過程，

(9)

進(jìn)一步限制隱層單元的激活值的稀疏性[11]，損失函數(shù)添加懲罰因子，懲罰不符合稀疏期望的情況，使隱層節(jié)點的平均激活值保持在一個較低的比例ρ。所以優(yōu)化問題就變?yōu)?/p>

(10)

1.3 降噪自編碼

Vincent等認(rèn)為如果學(xué)習(xí)到的是一個好的特征表示，那么即便是數(shù)據(jù)有所缺失也應(yīng)該能很好的重構(gòu)出原始數(shù)據(jù)，為此提出了降噪自編碼算法[7]。如圖2所示。

圖2 降噪自編碼

2 實驗部分

2.1 數(shù)據(jù)

實驗數(shù)據(jù)為西安利君廠生產(chǎn)的琥乙紅霉素片以及其他藥品, 采用鋁塑包裝透過塑料泡罩來測定光譜、以及打開鋁塑包裝對藥片接觸測定光譜，共2套光譜，涉及了不同批次、不同儀器、不同廠家和不同品種。分析過程中，將不同批次和不同儀器的測定光譜作為自身光譜，把不同廠家和不同品種的光譜作為假劣藥品對照光譜。共包含負(fù)類樣本(真藥)171個，正類樣本(假藥)78個。其中每個光譜數(shù)據(jù)有1 247維。數(shù)據(jù)組成如表1所示。

表1 藥品樣本統(tǒng)計

2.2 數(shù)據(jù)處理

2.2.1 光譜數(shù)據(jù)預(yù)處理

將光譜數(shù)據(jù)進(jìn)行一階導(dǎo)數(shù)化(13個點平滑)消除基線和其他背景干擾，并通過矢量歸一化預(yù)處理來校正由微小光程差異引起的光譜變化。處理后的光譜如圖3所示。

圖3 藥品樣本近紅外光譜

2.2.2 光譜數(shù)據(jù)白化處理

對光譜數(shù)據(jù)預(yù)處理后，將光譜數(shù)據(jù)各維的協(xié)方差矩陣轉(zhuǎn)換為單位矩陣，并使各維的方差歸一化。進(jìn)行數(shù)據(jù)白化后消除了光譜維度之間的相關(guān)性，對建模有積極意義。

2.3 建立分類模型

MATLAB R2012b作為編碼工具，選用DeepLearnToolbox中自編碼工具箱(https://github.com/rasmusbergpalm/DeepLearnToolbox)。通過實驗設(shè)定網(wǎng)絡(luò)結(jié)構(gòu)為1 247-200-100-1，如圖4所示，網(wǎng)絡(luò)中間兩層通過自編碼算法來初始化權(quán)值W，最后一層使用logistic回歸對正負(fù)樣本進(jìn)行分類。

圖4 兩層自編碼網(wǎng)絡(luò)結(jié)構(gòu)

將白化后的光譜數(shù)據(jù)(1 247維)作為稀疏降噪自編碼網(wǎng)絡(luò)的輸入數(shù)據(jù)。在自編碼網(wǎng)絡(luò)預(yù)訓(xùn)練階段無需樣本標(biāo)簽參與訓(xùn)練，用訓(xùn)練集逐層訓(xùn)練自編碼網(wǎng)絡(luò)。共兩層，其網(wǎng)絡(luò)結(jié)構(gòu)分別為1 247-200-1 247和200-100-200。其中稀疏參數(shù)ρ設(shè)為0.09，圖5給出了稀疏參數(shù)ρ與第一層自編碼網(wǎng)絡(luò)重構(gòu)誤差的關(guān)系，可以看出選擇0.09的稀疏參數(shù)使得自編碼網(wǎng)絡(luò)的重構(gòu)誤差最小。加入方差為0.001的高斯噪聲，隨機高斯噪聲的加入使得學(xué)習(xí)到的特征更具有魯棒性。學(xué)習(xí)率為0.001，神經(jīng)元激活函數(shù)為sigmoid，使用BP算法訓(xùn)練網(wǎng)絡(luò)，使用隨機梯度下降法，每一層迭代200次。分別得到自編碼網(wǎng)絡(luò)權(quán)重W1和W2。預(yù)訓(xùn)練后，構(gòu)造網(wǎng)絡(luò)結(jié)構(gòu)為1 247-200-100-1的神經(jīng)網(wǎng)絡(luò)。用預(yù)訓(xùn)練得到的權(quán)值W1和W2初始化神經(jīng)網(wǎng)絡(luò)的前兩層連接權(quán)值。用帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集來訓(xùn)練整個網(wǎng)絡(luò)。

圖5 不同稀疏參數(shù)下的自編碼網(wǎng)絡(luò)重構(gòu)誤差

選用常用的BP神經(jīng)網(wǎng)絡(luò)和SVM算法作為對比實驗。其中神經(jīng)網(wǎng)絡(luò)選用MATLAB中的神經(jīng)網(wǎng)絡(luò)工具箱，網(wǎng)絡(luò)結(jié)構(gòu)分別選用單層網(wǎng)(1 247-200-1)以及與自編碼網(wǎng)絡(luò)具有相同結(jié)構(gòu)的網(wǎng)絡(luò)(1 247-200-100-1)。SVM算法選用臺灣大學(xué)林智仁等開發(fā)的Libsvm工具箱。選用線性核函數(shù)以及高斯核函數(shù)作為對比，通過工具箱中的網(wǎng)格尋參函數(shù)交叉驗證來確定SVM高斯核參數(shù)，其中參數(shù)c=1,g=0.32。

3 結(jié)果與討論

實驗設(shè)計按表2所示，根據(jù)訓(xùn)練集與測試集之間不同的比例，隨機從各個類別的數(shù)據(jù)集中選取相應(yīng)比例的數(shù)據(jù)組成訓(xùn)練集與測試集進(jìn)行測試對比，取10次測試結(jié)果的平均值。測試結(jié)果如圖6所示。

表2 不同比例訓(xùn)練集與測試集的各算法分類準(zhǔn)確率

圖6 各藥品鑒別模型分類準(zhǔn)確率

實驗結(jié)果顯示用經(jīng)過白化處理后的數(shù)據(jù)訓(xùn)練自編碼網(wǎng)絡(luò)的準(zhǔn)確率均高于未經(jīng)白化處理數(shù)據(jù)訓(xùn)練的自編碼網(wǎng)絡(luò)。因此，數(shù)據(jù)白化處理能有效的提升分類模型準(zhǔn)確率。傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)缺少了自編碼網(wǎng)絡(luò)的預(yù)訓(xùn)練過程，容易陷入局部極小值，所以BP神經(jīng)網(wǎng)絡(luò)算法的準(zhǔn)確率不及自編碼網(wǎng)絡(luò)。在訓(xùn)練數(shù)據(jù)集數(shù)量較小的情況下，自編碼能充分利用訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，彌補訓(xùn)練數(shù)據(jù)集不足導(dǎo)致的欠學(xué)習(xí)。少量的訓(xùn)練數(shù)據(jù)集情況下，相對于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)有較大提高，但SVM在小訓(xùn)練數(shù)據(jù)集上的表現(xiàn)更優(yōu)秀。隨著訓(xùn)練集數(shù)量的增加自編碼能的準(zhǔn)確率也隨之提升，并最終達(dá)到甚至優(yōu)于SVM算法的分類準(zhǔn)確率。

同時針對算法穩(wěn)定性方面進(jìn)行比較，分別計算各算法10次分類結(jié)果的平均絕對誤差(mean absolute difference，MAE)。如圖7所示，自編碼網(wǎng)絡(luò)的算法穩(wěn)定性均優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)算法。自編碼算法結(jié)合數(shù)據(jù)白化處理，使自編碼算法的穩(wěn)定性進(jìn)一步提高。在少量訓(xùn)練數(shù)據(jù)集的情況下，自編碼網(wǎng)絡(luò)算法也依然能保持穩(wěn)定性，隨著訓(xùn)練數(shù)據(jù)集數(shù)量的增加，自編碼網(wǎng)絡(luò)算法的穩(wěn)定性普遍優(yōu)于SVM算法。

圖7 各分類器的平均絕對誤差

4 結(jié) 論

將真假藥品光譜數(shù)據(jù)首先進(jìn)行預(yù)處理以及白化處理，去除光譜特征之間的相關(guān)性。預(yù)處理后的光譜數(shù)據(jù)通過稀疏降噪自編碼網(wǎng)絡(luò)逐層預(yù)訓(xùn)練，學(xué)習(xí)得到光譜數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特征。使用各層預(yù)訓(xùn)練得到的網(wǎng)絡(luò)權(quán)重作為稀疏降噪自編碼網(wǎng)絡(luò)各層的初始值。預(yù)訓(xùn)練能避免神經(jīng)網(wǎng)絡(luò)訓(xùn)練中陷入局部最小值，同時提升神經(jīng)網(wǎng)絡(luò)收斂速度。之后使用帶標(biāo)簽訓(xùn)練數(shù)據(jù)集對整個自編碼網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)，得到稀疏降噪自編碼網(wǎng)絡(luò)模型。使用該模型對琥乙紅霉素片真假藥品進(jìn)行鑒別，其鑒別準(zhǔn)確率高于BP神經(jīng)網(wǎng)絡(luò)，雖然在少量訓(xùn)練數(shù)據(jù)的情況下不及SVM，但是隨著訓(xùn)練數(shù)據(jù)增加，自編碼網(wǎng)絡(luò)的準(zhǔn)確性會優(yōu)于SVM，因此自編碼網(wǎng)絡(luò)在大數(shù)據(jù)情況下更具有優(yōu)勢。在算法穩(wěn)定性方面，稀疏降噪自編碼網(wǎng)絡(luò)也有很好的表現(xiàn)。其分類結(jié)果的平均絕對誤差(MAE)整體優(yōu)于BP神經(jīng)網(wǎng)絡(luò)和SVM算法。但是由于自編碼首先需要逐層的預(yù)訓(xùn)練，再訓(xùn)練整個網(wǎng)絡(luò)，其訓(xùn)練時間要長于BP神經(jīng)網(wǎng)絡(luò)和SVM算法。但已有研究通過并行計算或分布式計算來提升自編碼網(wǎng)絡(luò)算法執(zhí)行效率。隨著技術(shù)的不斷成熟、以及數(shù)據(jù)規(guī)模的不斷擴(kuò)大，自編碼網(wǎng)絡(luò)在近紅外藥品鑒別領(lǐng)域會有更好地表現(xiàn)。

[1] CHU Xiao-li, LU Wan-zhen(褚小立, 陸婉珍).Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2014, 34(10): 2595.

[2] Storme-Paris I, Rebiere H, Matoga M, et al.Analytica Chimica Acta, 2010, 658(2): 163.

[3] Deconinck E, Sacré P, Coomans D, et al.Journal of Pharmaceutical and Biomedical Analysis, 2012, 57: 68.

[4] Anzanello M J, Ortiz R S, Limberger R, et al.Forensic Science International, 2014, 235: 1.

[5] De Peinder P, Vredenbregt M J, Visser T, et al.Journal of Pharmaceutical and Biomedical Analysis, 2008, 47(4): 688.

[6] Dowell F E, Maghirang E B, Fernandez F M, et al.Journal of Pharmaceutical and Biomedical Analysis, 2008, 48(3): 1011.

[7] Feng Y C, Yang X L, Yang Z H, et al.Journal of Chinese Pharmaceutical Sciences, 2011, 20(3): 290.

[8] YU Ke, CHENG Yi-yu(虞科，程翼宇).Chinese Journal of Analytical Chemistry(分析化學(xué)), 2006, 34(4): 561.

[9] Hinton G E, Salakhutdinov R R.Science, 2006, 313(5786): 504.

[10] Vincent P, Larochelle H, Bengio Y, et al.Proceedings of the 25th International Conference on Machine Learning, 2008: 1096.

[11] Lee H, Ekanadham C, Ng A Y.Proc.Conference on Advances in Neural Information Processing Systems (NIPS), 2008.873.

(Received Mar.18, 2015; accepted Jul.24, 2015)

Sparse Denoising Autoencoder Application in Identification of Counterfeit Pharmaceutical

YANG Hui-hua1, 2, LUO Zhi-chao1, JIANG Shu-jie1, ZHANG Xue-bo3, YIN Li-hui3

1.College of Electronic Engineering and Automation, Guilin University of Electronic Technology, Guilin 541004, China 2.College of Automation, Beijing University of Posts & Telecommunications, Beijing 100876, China 3.National Institute for Food and Drug Control, Beijing 100050, China

Near-infrared(NIR)As a fast and non-destructive testing technology, spectroscopy techniques is very suitable for pharmaceutical discrimination.Autoencoder network, as a hot research topic, has drawn widespread attention in machine learning research in recent years.Compared with traditional surface learning algorithm models, Autoencoder network has more powerful modeling capability as a typical deep networks model.Based on the unsupervised greedy layer-wise pre-training, autoencoder trains the network layer by layer while minimizing the error in reconstructing.Each layer is pre-trained with an unsupervised learning algorithm, learning a nonlinear transformation of the input of each layer which is the output of the previous layer.Pre-whitening process could get the inner structural features of the data more effectively.The supervised fine-tuning is followed with the unsupervised pre-training which sets the stage for a final training phase.The deep architecture is fine-tuned with respect to a supervised training criterion with gradient-based optimization.In this paper, firstly, the preprocessing step and pre-whitening transformation were used to treat near-infrared spectroscopy data of erythromycin ethylsuccinate, The pre-whitening transformation would reduce the correlation of the features, which gave each feature the same variance.Experimental results showed that the pre-whitening process had improved the classification accuracy of Sparse Denoising Autoencoder (SDAE) effectively.The SDAE with two hidden layers combined with pre-whitening was used to build the classification model for the identification of counterfeit pharmaceutical.The BP neural networks was compared with SVM algorithm for the classification accuracy and mean absolute difference (MAD).SDAE algorithm had higher classification accuracy than BP neural networks which had the same network structure with the SDAE networks, and SDAE algorithm also performed better than the SVM algorithm when the train datasets achieved a certain amount.As to the generalization performances, SDAE algorithm had less mean absolute difference of classification accuracy than SVM and BP Neural Networks.This result showed that SDAE algorithm could be effectively used to discriminate the counterfeit pharmaceutical.

Near-infrared spectroscopy；Pharmaceutical discrimination；Autoencoder；Whitening

2015-03-18，

2015-07-24

國家自然科學(xué)基金項目(21365008，61105004)，廣西自然科學(xué)基金項目(2012GXNSFAA053230，2013GXNSFBA019279)，廣西信息科學(xué)實驗中心重點基金項目(2012-02)，廣西高等學(xué)校優(yōu)秀人才資助計劃項目(桂教人[2011]40號)，桂林電子科技大學(xué)研究生教育創(chuàng)新計劃項目(GDYCSZ201478)資助

楊輝華，1972年生，北京郵電大學(xué)自動化學(xué)院教授 e-mail: 13718680586@139.com

TP391

10.3964/j.issn.1000-0593(2016)09-2774-06

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

稀疏降噪自編碼算法用于近紅外光譜鑒別真假藥的研究

引 言

1 算法描述

2 實驗部分

3 結(jié)果與討論

4 結(jié) 論

引言