亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

最小角回歸結(jié)合競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣的近紅外光譜波長(zhǎng)選擇

2021-06-10 07:15:04路皓翔李靈巧劉振丙楊輝華馮艷春尹利輝

光譜學(xué)與光譜分析 2021年6期

路皓翔，張靜，李靈巧*，劉振丙，楊輝華,3，馮艷春，尹利輝

1. 桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院，廣西桂林 541004 2. 桂林電子科技大學(xué)商學(xué)院，廣西桂林 541004 3. 北京郵電大學(xué)人工智能學(xué)院，北京 100876 4. 中國(guó)食品藥品檢定研究院，北京 100050

引言

近紅外光譜分析憑借其便捷且不存在污染的特點(diǎn)自20世紀(jì)80年代以來，被廣泛應(yīng)用在各個(gè)領(lǐng)域[1-2]。樣品光譜數(shù)據(jù)的重疊以及特征吸收區(qū)域不明顯，導(dǎo)致全譜區(qū)建立的分析模型準(zhǔn)確度和可靠性較差[3-5]。故在利用樣品光譜數(shù)據(jù)建立穩(wěn)定性較強(qiáng)的分析模型時(shí)，首要做的是篩選出能夠表征樣品特征的特征波長(zhǎng)[6]。在國(guó)外， Wang等[7]以樣品光譜數(shù)據(jù)建立的偏最小二乘回歸模型回歸系數(shù)為依據(jù)的無信息變量消除法實(shí)現(xiàn)了樣品光譜數(shù)據(jù)中特征波長(zhǎng)的篩選。 Tsakiridis等[8]采用堆疊的遺傳算法選擇波長(zhǎng)解決光譜數(shù)據(jù)共線性問題。在國(guó)內(nèi)，王坤等[9]采用蒙特卡羅-無信息變量消除-連續(xù)投影算法對(duì)樣品光譜數(shù)據(jù)進(jìn)行特征波長(zhǎng)選擇。李鑫星等[10]采用主成分分析法結(jié)合連續(xù)投影算法對(duì)樣品的特征光譜進(jìn)行篩選。趙環(huán)[11]等對(duì)樣品光譜數(shù)據(jù)二進(jìn)制矩陣采樣法進(jìn)行采樣，然后根據(jù)變量的頻率及偏最小二乘法(partial least squares, PLS)的回歸系數(shù)求解出每個(gè)光譜波長(zhǎng)的貢獻(xiàn)率，進(jìn)而對(duì)樣品光譜數(shù)據(jù)的全波長(zhǎng)進(jìn)行篩選。傳統(tǒng)的變量篩選方法一般采用回歸系數(shù)作為變量篩選的依據(jù)，會(huì)導(dǎo)致篩選出來的變量不能完全表征樣本特征，從而影響分析模型的性能。

近些年來，機(jī)器學(xué)習(xí)憑借其較好的分析能力在各個(gè)領(lǐng)域也有了極為廣泛的應(yīng)用[12-13]。國(guó)內(nèi)外的一些專家學(xué)者嘗試將機(jī)器學(xué)習(xí)算法用于樣品光譜最佳波長(zhǎng)的篩選從而提高近紅外光譜分析模型的準(zhǔn)確性和可靠性[14-16]。文中結(jié)合競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling， CARS)和最小角回歸(least angle regression， LAR)提出了一種自適應(yīng)最小角回歸波長(zhǎng)篩選方法，用于解決樣品光譜數(shù)據(jù)譜區(qū)重疊及共線性問題。首先采用LAR對(duì)樣品光譜數(shù)據(jù)進(jìn)行篩選；然后利用CARS進(jìn)一步優(yōu)選樣品光譜波長(zhǎng)；最后采用藥品的近紅外光譜數(shù)據(jù)進(jìn)行相應(yīng)的定量定性分析，實(shí)驗(yàn)結(jié)果表明經(jīng)過波長(zhǎng)篩選后的藥品近紅外光譜分析模型預(yù)測(cè)更為準(zhǔn)確。

1 相關(guān)理論

1.1 最小角回歸

LAR通過將變量中無關(guān)變量的系數(shù)設(shè)為0實(shí)現(xiàn)有用變量的選擇[17]。其模型為

(1)

其中， (xi1,xi2,…,xip)為樣本i的波長(zhǎng)， yi為樣本的響應(yīng)，βi為樣本i第j個(gè)波長(zhǎng)的系數(shù)， t≥0為約束值。在t→0， LAR通過將對(duì)樣本i影響較小的波長(zhǎng)的系數(shù)βj置為0，篩選出最能表征樣本i屬性的波長(zhǎng)。

1.2 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣

CARS利用自適應(yīng)重采樣依據(jù)求解的回歸系數(shù)絕對(duì)值的大小來進(jìn)行變量的選擇[17]。假設(shè)樣本光譜數(shù)據(jù)為Xm×p，其得分矩陣記為T，則

T=Xm×pW

(2)

其中W為組合系數(shù)，樣本的目標(biāo)響應(yīng)變量Ym×1與樣品光譜Xm×p之間滿足

Y=Tc+e

(3)

式(3)中， c為Y對(duì)T進(jìn)行回歸分析的回歸系數(shù)，e為模型的預(yù)測(cè)殘差。將式(2)代入式(3)中得

Y=XWc+e=Xb+e

(4)

式(4)中， b=Wc=[b1， b2， …， bp]表示相對(duì)于原始變量的回歸系數(shù)向量。 |bi|為b中第i個(gè)波長(zhǎng)對(duì)目標(biāo)響應(yīng)變量Y的貢獻(xiàn)能力，其值越大表示相應(yīng)的波長(zhǎng)越重要。采用經(jīng)過標(biāo)準(zhǔn)化處理的回歸系數(shù)對(duì)各波長(zhǎng)的重要性進(jìn)行評(píng)價(jià)，定義樣品波長(zhǎng)的權(quán)重為

(4)

根據(jù)ωi的值對(duì)樣品變量進(jìn)行篩選，其值越大說明該波長(zhǎng)的貢獻(xiàn)越大。

1.3 LAR-CARS

假設(shè)樣本的光譜數(shù)據(jù)為X={xi1， xi2， …， xil}， LAR-CARS篩選光譜波長(zhǎng)的具體過程為：

Stage Ⅰ： LAR變量初篩

(1) 求解回歸變量矩陣βj。將樣品的光譜數(shù)據(jù)X={xi， yi}送入LAR模型中，遵循最小化AIC原則，對(duì)回歸系數(shù)進(jìn)行求解進(jìn)而構(gòu)造出回歸變量矩陣。該矩陣中1表示該波長(zhǎng)與樣本i相關(guān)性較高， 0表示該波長(zhǎng)與樣本i相關(guān)性較低。

(2) 變量初篩。 LAR模型利用變量矩陣求解樣品光譜的特征波長(zhǎng)，即，

(6)

Stage Ⅱ： CARS變量再篩

(7)

貢獻(xiàn)力矩陣bi可以表示為

(8)

進(jìn)而通過該矩陣求解各個(gè)波長(zhǎng)相應(yīng)的權(quán)重ωi，式(8)代入式(4)中得，

(9)

2 實(shí)驗(yàn)部分

為了評(píng)價(jià)LAR-CARS波長(zhǎng)選擇方法的有效性，分別采用不同樣品的光譜數(shù)據(jù)進(jìn)行定量定性分析，并采用全波長(zhǎng)(FULL)， LAR， CARS， SPA和UVE作為對(duì)比方法。

2.1 定量分析

2.1.1 實(shí)驗(yàn)數(shù)據(jù)

用由國(guó)際漫反射會(huì)議公開的藥品近紅外光譜數(shù)據(jù)為例評(píng)價(jià)LAR-CARS模型。其中，藥品樣品包含655個(gè)藥品的近紅外光譜信息(155條作為模型校正集， 460條作為測(cè)試集， 40條作為驗(yàn)證集)，這些光譜由Foss NIR Systems光譜儀以2 nm為間隔在600～1 898 nm范圍內(nèi)測(cè)得。具體信息如表1所示。

表1 實(shí)驗(yàn)樣品詳細(xì)信息

2.1.2 數(shù)據(jù)預(yù)處理

藥品樣品的近紅外光譜信息如圖1所示。從圖中可以看出受環(huán)境及儀器的影響通常采集的樣品和藥品光譜數(shù)據(jù)中包含電噪聲、雜散光等，這些信息會(huì)對(duì)模型的建立產(chǎn)生消極的影響。故采用S-G卷積平滑法(窗口大小17，多項(xiàng)式導(dǎo)數(shù)為3)對(duì)樣品光譜數(shù)據(jù)進(jìn)行平滑化處理，以消除噪聲、雜散光等信息。

圖1 藥品的近紅外光譜

2.1.3 變量篩選結(jié)果

LAR， CARS， UVE， SPA和LAR-CARDS在藥品數(shù)據(jù)集上篩選出來的變量分布為152， 76， 198， 103和51。圖2直觀的表示出了不同的變量篩選方法在藥品數(shù)據(jù)集上篩選出來特征變量在全譜區(qū)的分布。

圖2 各方法在藥品數(shù)據(jù)集上篩選出來的變量分布

實(shí)驗(yàn)中不同變量選擇方法對(duì)樣本的波長(zhǎng)篩選存在隨機(jī)性。以藥品數(shù)據(jù)集一次實(shí)驗(yàn)為例，由圖2可看出LAR篩選出來的波長(zhǎng)主要分布在1 150～1 200， 1 450～1 550和1 750～1 850 nm范圍內(nèi)， CARS篩選出來的波長(zhǎng)主要分布在1 200～1 250, 1 450～1 500和1 650～1 750 nm范圍內(nèi)， LAR-CARS篩選出來的波長(zhǎng)主要分布在1 150～1 250, 1 450～1 550和1 650～1 700 nm范圍內(nèi)，基本與LAR和CARS篩選出來的變量重合，但其篩選出的變量更少。

2.1.4 PLS回歸結(jié)果分析

以表1中藥品光譜數(shù)據(jù)為例建立藥品近紅外光譜定量分析模型對(duì)LAR-CARS的性能進(jìn)行分析評(píng)估，并與全波長(zhǎng)(記為FULL)， LAR， CARS， UVE和SPA進(jìn)行對(duì)比。在利用PLS建立預(yù)測(cè)模型時(shí)采用RMSEC最小來確定樣品主成分?jǐn)?shù)，并從校正決定系數(shù)、校正均方根誤差、預(yù)測(cè)決定系數(shù)和預(yù)測(cè)均方根誤差四個(gè)方面評(píng)估各模型。預(yù)測(cè)決定系數(shù)越小、預(yù)測(cè)均方根誤差越大表明近紅外光譜分析模型的性能越穩(wěn)定。 PLS回歸模型在藥品數(shù)據(jù)集上經(jīng)過不同波長(zhǎng)選擇方法篩選的樣品波長(zhǎng)數(shù)、 PLS回歸分析的主成分?jǐn)?shù)以及訓(xùn)練集和測(cè)試集的決定系數(shù)和均方根誤差結(jié)果如表2所示。從表2中可看出，采用各模型篩選的波長(zhǎng)建立的藥品近紅外光譜定量分析模型較全波長(zhǎng)建立的模型具有更高的預(yù)測(cè)精度且用于建立模型的波長(zhǎng)數(shù)較少。

表2 PLS回歸模型用不同波長(zhǎng)選擇方法的預(yù)測(cè)效果

在藥品樣品的分析模型中，經(jīng)過LAR-CARS篩選后建立的PLS分析模型所需波長(zhǎng)數(shù)最少為51個(gè)，同時(shí)PLS模型具有最高的預(yù)測(cè)標(biāo)準(zhǔn)偏差和預(yù)測(cè)校正系數(shù)分別為0.929 1和4.667 4。 LAR和UVE所需要的波長(zhǎng)數(shù)最多分別為152和198個(gè)，但其預(yù)測(cè)標(biāo)準(zhǔn)偏差較全波長(zhǎng)較低較LAR-CARS較高，預(yù)測(cè)決定系數(shù)較全波長(zhǎng)較高但是較LAR-CARS較低，說明該模型的性能較LAR-CARS較差。

2.2 定性分析

2.2.1 實(shí)驗(yàn)數(shù)據(jù)

采用中國(guó)食品藥品檢定研究院利用Bruker Matrix光譜儀測(cè)定的不同生產(chǎn)廠家生產(chǎn)的頭孢克肟片光譜數(shù)據(jù)驗(yàn)證LAR-CARS方法的有效性。其中光譜儀的采樣區(qū)間設(shè)置為4 000～11 995 cm-1，采樣間隔為4 cm-1，每個(gè)頭孢克肟片光譜包含2 074個(gè)特征波長(zhǎng)。頭孢克肟片樣品的詳細(xì)信息如表3所示。

表3 頭孢克肟片近紅外光譜數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)

2.2.2 數(shù)據(jù)預(yù)處理

由于頭孢克肟片藥品的光譜數(shù)據(jù)存在偏移，為了增大頭孢克肟光譜樣品數(shù)據(jù)的識(shí)別度、減少樣品譜圖之間的信息重疊，采用歸一化、平滑求導(dǎo)及標(biāo)準(zhǔn)正態(tài)變量多階段數(shù)據(jù)預(yù)處理方法對(duì)其進(jìn)行處理，預(yù)處理后的光譜信息如圖3所示。可以看出經(jīng)過預(yù)處理后的頭孢克肟片的光譜的辨識(shí)度增加，更有利于藥品的鑒別。

圖3 頭孢克肟片的原始近紅外光譜

2.2.3 定量結(jié)果分析

將江蘇正大生產(chǎn)的藥品光譜數(shù)據(jù)作為正類藥品，其他三個(gè)廠商生產(chǎn)藥品的作為負(fù)類藥品。采用分類精度、預(yù)測(cè)時(shí)間以及預(yù)測(cè)標(biāo)準(zhǔn)偏差作為各個(gè)模型性能的衡量指標(biāo)。

(1) 與其他模型比較

為了進(jìn)一步驗(yàn)證LAR-CARS在近紅外光譜定性分析模型中的性能，采用SVM， ELM， SWELM和BP作為對(duì)比方法進(jìn)行鑒別實(shí)驗(yàn)，將測(cè)試集按0.1～0.9的比例從藥品近紅外光譜數(shù)據(jù)集中隨機(jī)抽取數(shù)據(jù)構(gòu)建不同規(guī)模的訓(xùn)練集，并對(duì)SVM， ELM， SWELM和BP各模型進(jìn)行配置。結(jié)果如表4所示。從表中可看出無論訓(xùn)練集的大小如何，經(jīng)過LAR-CARS篩選波長(zhǎng)并采用SVM對(duì)藥品鑒別較全波長(zhǎng)建立SVM模型的預(yù)測(cè)準(zhǔn)確度有了較大的提高，尤其當(dāng)比例越大LAR-CARS-SVM的預(yù)測(cè)精度越高，最高達(dá)100%。之所以LAR-CARS-SVM較SVM的鑒別精度有提高，是因?yàn)長(zhǎng)AR-CARS方法濾除了樣品光譜數(shù)據(jù)中無關(guān)的波長(zhǎng)。 ELM和SWELM表現(xiàn)出的分類能力一致，表明激活函數(shù)對(duì)模型的分類精度影響不大。 BP神經(jīng)網(wǎng)絡(luò)較ELM和SWELM具有較高的分類準(zhǔn)確度，這說明BP神經(jīng)網(wǎng)絡(luò)較ELM和SWELM具有較強(qiáng)的建模能力。

表4 不同比例下各模型的分類準(zhǔn)確度

在運(yùn)行時(shí)間方面，從表4中可看出ELM， SVM， SWELM和LAR-CARS-SVM模型較BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間均更短，這是因?yàn)锽P神經(jīng)網(wǎng)絡(luò)需要通過多次迭代對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行反向微調(diào)從而求解出最優(yōu)模型，然而ELM和SWELM屬于淺層神經(jīng)網(wǎng)絡(luò)無需參數(shù)的反向微調(diào)、 SVM則無需對(duì)參數(shù)的迭代更新。此外經(jīng)LAR-CARS篩選后用于建立SVM模型的時(shí)間較采用全波長(zhǎng)建立模型的時(shí)間較短，這主要是LAR-CARS篩選后用建立模型的波長(zhǎng)數(shù)較少，減少了運(yùn)算量使得LAR-CARS-SVM較SVM模型的運(yùn)行時(shí)間更短。

以預(yù)測(cè)標(biāo)準(zhǔn)偏差作為模型穩(wěn)定性的評(píng)價(jià)指標(biāo)， ELM， SVM， SWELM， LAR-CARS-SVM模型在不同規(guī)模訓(xùn)練集的預(yù)測(cè)標(biāo)準(zhǔn)偏差如圖4所示。從圖中可看出，經(jīng)過LAR-CARS變量篩選后建立的SVM藥品鑒別模型較全波長(zhǎng)建立的SVM模型具有更強(qiáng)的穩(wěn)定性，說明LAR-CARS可有效刪除不利于模型穩(wěn)定性的樣品波長(zhǎng)。 BP神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性次之、 SWELM和ELM表現(xiàn)出最差的穩(wěn)定性。

圖4 不同比例訓(xùn)練集下各模型的預(yù)測(cè)標(biāo)準(zhǔn)偏差

(2)變量篩選結(jié)果

為了更加直觀的表示出LAR， CARS， LAR-CARS， SPA和UVE變量篩選方法篩選出來的變量分布，以比例為0.7訓(xùn)練集為實(shí)例進(jìn)行實(shí)驗(yàn)。 LAR， CARS， LAR-CARS， SPA和UVE在訓(xùn)練集上篩選出來的變量數(shù)分別為70， 46， 40， 100和130，其在全譜區(qū)的分布如圖5所示。由于波長(zhǎng)在選擇過程中會(huì)存在些許誤差。以頭孢克肟片光譜數(shù)據(jù)的一次實(shí)驗(yàn)為例，由圖5可以看出LAR篩選出來的波長(zhǎng)主要分布在8 050～9 050和10 800～11 300 nm范圍內(nèi)， CARS篩選出來的波長(zhǎng)主要分布在8 050～9 060和10 500～11 200 nm范圍內(nèi)， LAR-CARS篩選出來的波長(zhǎng)主要分布在8 050～9 050和11 000～11 500 nm范圍內(nèi)，可看出LAR-CARS篩選出來的波長(zhǎng)變量基本和上述LAR和CARS篩選出來的波長(zhǎng)變量吻合。

圖5 各方法在頭孢克肟片數(shù)據(jù)集中篩選出來的變量分布

(3)與已有波長(zhǎng)選擇方法比較

為了說明LAR-CARS波長(zhǎng)篩選方法的有效性，分別采用FULL， LAR， CARS， SPA和UVE變量選擇方法作為對(duì)比方法，然后將不同變量篩選法篩選出來的樣品的特征波長(zhǎng)點(diǎn)送入ELM， SWELM和SVM進(jìn)行真假藥品的鑒別。在訓(xùn)練集占頭孢克肟片光譜數(shù)據(jù)的比例為0.7時(shí)的實(shí)驗(yàn)結(jié)果如表5所示。

表5 不同變量選擇方法下各模型的分類精度

從表5中可看出采用全波長(zhǎng)建立的ELM， SWELM和SVM模型的分類精度較采用變量篩選選擇的變量建立的模型低，這是由于樣品的近紅外光譜數(shù)據(jù)包含了隨機(jī)噪聲和對(duì)表征樣品特征相關(guān)性較差的波長(zhǎng)，這些波長(zhǎng)對(duì)于鑒別模型的建立起著消極的影響，而變量篩選能夠篩選出更能表征樣品特征的波長(zhǎng)并將無關(guān)的波長(zhǎng)刪除。與SPA， UVE相比，用本方法篩選的樣品光譜數(shù)據(jù)的波長(zhǎng)建立的ELM， SWELM和SVM模型具有更優(yōu)良的性能。

3 結(jié) 論

近紅外光譜分析應(yīng)用廣泛，但樣品光譜數(shù)據(jù)中通常包含較多的共線性或低信噪比波長(zhǎng)，嚴(yán)重影響了近紅外光譜分析模型的準(zhǔn)確性。針對(duì)這一問題，采用LAR結(jié)合CARS提出了一種新的變量選擇方法，并以藥品數(shù)據(jù)集的定量和定性分析為例對(duì)該方法進(jìn)行了評(píng)價(jià)。首先，利用PLS模型建立了藥品近紅外光譜定量回歸分析模型，實(shí)驗(yàn)結(jié)果表明經(jīng)過LAR-CARS篩選出的變量建立的PLS模型具有更優(yōu)的性能。接著，以四個(gè)不同廠家生產(chǎn)的頭孢克肟片光譜數(shù)據(jù)為例構(gòu)建了不同廠商藥品近紅外光譜的定性分析模型，采用不同比例的訓(xùn)練驗(yàn)證LAR-CARS方法的有效性，結(jié)果表明，采用LAR-CARS篩選出來的變量建立的分類模型具有更高的分類準(zhǔn)確度。綜上， LAR-CARS方法能夠很好的篩選出樣品的有效波長(zhǎng)，建立的近紅外光譜分析模型具有更強(qiáng)的應(yīng)用性和魯棒性。