亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        最小角回歸結(jié)合競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣的近紅外光譜波長(zhǎng)選擇

        2021-06-10 07:15:04路皓翔李靈巧劉振丙楊輝華馮艷春尹利輝
        光譜學(xué)與光譜分析 2021年6期
        關(guān)鍵詞:藥品方法模型

        路皓翔, 張 靜, 李靈巧*, 劉振丙, 楊輝華,3, 馮艷春, 尹利輝

        1. 桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院, 廣西 桂林 541004 2. 桂林電子科技大學(xué)商學(xué)院, 廣西 桂林 541004 3. 北京郵電大學(xué)人工智能學(xué)院, 北京 100876 4. 中國(guó)食品藥品檢定研究院, 北京 100050

        引 言

        近紅外光譜分析憑借其便捷且不存在污染的特點(diǎn)自20世紀(jì)80年代以來, 被廣泛應(yīng)用在各個(gè)領(lǐng)域[1-2]。 樣品光譜數(shù)據(jù)的重疊以及特征吸收區(qū)域不明顯, 導(dǎo)致全譜區(qū)建立的分析模型準(zhǔn)確度和可靠性較差[3-5]。 故在利用樣品光譜數(shù)據(jù)建立穩(wěn)定性較強(qiáng)的分析模型時(shí), 首要做的是篩選出能夠表征樣品特征的特征波長(zhǎng)[6]。 在國(guó)外, Wang等[7]以樣品光譜數(shù)據(jù)建立的偏最小二乘回歸模型回歸系數(shù)為依據(jù)的無信息變量消除法實(shí)現(xiàn)了樣品光譜數(shù)據(jù)中特征波長(zhǎng)的篩選。 Tsakiridis等[8]采用堆疊的遺傳算法選擇波長(zhǎng)解決光譜數(shù)據(jù)共線性問題。 在國(guó)內(nèi), 王坤等[9]采用蒙特卡羅-無信息變量消除-連續(xù)投影算法對(duì)樣品光譜數(shù)據(jù)進(jìn)行特征波長(zhǎng)選擇。 李鑫星等[10]采用主成分分析法結(jié)合連續(xù)投影算法對(duì)樣品的特征光譜進(jìn)行篩選。 趙環(huán)[11]等對(duì)樣品光譜數(shù)據(jù)二進(jìn)制矩陣采樣法進(jìn)行采樣, 然后根據(jù)變量的頻率及偏最小二乘法(partial least squares, PLS)的回歸系數(shù)求解出每個(gè)光譜波長(zhǎng)的貢獻(xiàn)率, 進(jìn)而對(duì)樣品光譜數(shù)據(jù)的全波長(zhǎng)進(jìn)行篩選。 傳統(tǒng)的變量篩選方法一般采用回歸系數(shù)作為變量篩選的依據(jù), 會(huì)導(dǎo)致篩選出來的變量不能完全表征樣本特征, 從而影響分析模型的性能。

        近些年來, 機(jī)器學(xué)習(xí)憑借其較好的分析能力在各個(gè)領(lǐng)域也有了極為廣泛的應(yīng)用[12-13]。 國(guó)內(nèi)外的一些專家學(xué)者嘗試將機(jī)器學(xué)習(xí)算法用于樣品光譜最佳波長(zhǎng)的篩選從而提高近紅外光譜分析模型的準(zhǔn)確性和可靠性[14-16]。 文中結(jié)合競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling, CARS)和最小角回歸(least angle regression, LAR)提出了一種自適應(yīng)最小角回歸波長(zhǎng)篩選方法, 用于解決樣品光譜數(shù)據(jù)譜區(qū)重疊及共線性問題。 首先采用LAR對(duì)樣品光譜數(shù)據(jù)進(jìn)行篩選; 然后利用CARS進(jìn)一步優(yōu)選樣品光譜波長(zhǎng); 最后采用藥品的近紅外光譜數(shù)據(jù)進(jìn)行相應(yīng)的定量定性分析, 實(shí)驗(yàn)結(jié)果表明經(jīng)過波長(zhǎng)篩選后的藥品近紅外光譜分析模型預(yù)測(cè)更為準(zhǔn)確。

        1 相關(guān)理論

        1.1 最小角回歸

        LAR通過將變量中無關(guān)變量的系數(shù)設(shè)為0實(shí)現(xiàn)有用變量的選擇[17]。 其模型為

        (1)

        其中, (xi1,xi2,…,xip)為樣本i的波長(zhǎng), yi為樣本的響應(yīng),βi為樣本i第j個(gè)波長(zhǎng)的系數(shù), t≥0為約束值。 在t→0, LAR通過將對(duì)樣本i影響較小的波長(zhǎng)的系數(shù)βj置為0, 篩選出最能表征樣本i屬性的波長(zhǎng)。

        1.2 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣

        CARS利用自適應(yīng)重采樣依據(jù)求解的回歸系數(shù)絕對(duì)值的大小來進(jìn)行變量的選擇[17]。 假設(shè)樣本光譜數(shù)據(jù)為Xm×p, 其得分矩陣記為T, 則

        T=Xm×pW

        (2)

        其中W為組合系數(shù), 樣本的目標(biāo)響應(yīng)變量Ym×1與樣品光譜Xm×p之間滿足

        Y=Tc+e

        (3)

        式(3)中, c為Y對(duì)T進(jìn)行回歸分析的回歸系數(shù),e為模型的預(yù)測(cè)殘差。 將式(2)代入式(3)中得

        Y=XWc+e=Xb+e

        (4)

        式(4)中, b=Wc=[b1, b2, …, bp]表示相對(duì)于原始變量的回歸系數(shù)向量。 |bi|為b中第i個(gè)波長(zhǎng)對(duì)目標(biāo)響應(yīng)變量Y的貢獻(xiàn)能力, 其值越大表示相應(yīng)的波長(zhǎng)越重要。 采用經(jīng)過標(biāo)準(zhǔn)化處理的回歸系數(shù)對(duì)各波長(zhǎng)的重要性進(jìn)行評(píng)價(jià), 定義樣品波長(zhǎng)的權(quán)重為

        (4)

        根據(jù)ωi的值對(duì)樣品變量進(jìn)行篩選, 其值越大說明該波長(zhǎng)的貢獻(xiàn)越大。

        1.3 LAR-CARS

        假設(shè)樣本的光譜數(shù)據(jù)為X={xi1, xi2, …, xil}, LAR-CARS篩選光譜波長(zhǎng)的具體過程為:

        Stage Ⅰ: LAR變量初篩

        (1) 求解回歸變量矩陣βj。 將樣品的光譜數(shù)據(jù)X={xi, yi}送入LAR模型中, 遵循最小化AIC原則, 對(duì)回歸系數(shù)進(jìn)行求解進(jìn)而構(gòu)造出回歸變量矩陣。 該矩陣中1表示該波長(zhǎng)與樣本i相關(guān)性較高, 0表示該波長(zhǎng)與樣本i相關(guān)性較低。

        (2) 變量初篩。 LAR模型利用變量矩陣求解樣品光譜的特征波長(zhǎng), 即,

        (6)

        Stage Ⅱ: CARS變量再篩

        (7)

        貢獻(xiàn)力矩陣bi可以表示為

        (8)

        進(jìn)而通過該矩陣求解各個(gè)波長(zhǎng)相應(yīng)的權(quán)重ωi, 式(8)代入式(4)中得,

        (9)

        2 實(shí)驗(yàn)部分

        為了評(píng)價(jià)LAR-CARS波長(zhǎng)選擇方法的有效性, 分別采用不同樣品的光譜數(shù)據(jù)進(jìn)行定量定性分析, 并采用全波長(zhǎng)(FULL), LAR, CARS, SPA和UVE作為對(duì)比方法。

        2.1 定量分析

        2.1.1 實(shí)驗(yàn)數(shù)據(jù)

        用由國(guó)際漫反射會(huì)議公開的藥品近紅外光譜數(shù)據(jù)為例評(píng)價(jià)LAR-CARS模型。 其中, 藥品樣品包含655個(gè)藥品的近紅外光譜信息(155條作為模型校正集, 460條作為測(cè)試集, 40條作為驗(yàn)證集), 這些光譜由Foss NIR Systems光譜儀以2 nm為間隔在600~1 898 nm范圍內(nèi)測(cè)得。 具體信息如表1所示。

        表1 實(shí)驗(yàn)樣品詳細(xì)信息

        2.1.2 數(shù)據(jù)預(yù)處理

        藥品樣品的近紅外光譜信息如圖1所示。 從圖中可以看出受環(huán)境及儀器的影響通常采集的樣品和藥品光譜數(shù)據(jù)中包含電噪聲、 雜散光等, 這些信息會(huì)對(duì)模型的建立產(chǎn)生消極的影響。 故采用S-G卷積平滑法(窗口大小17, 多項(xiàng)式導(dǎo)數(shù)為3)對(duì)樣品光譜數(shù)據(jù)進(jìn)行平滑化處理, 以消除噪聲、 雜散光等信息。

        圖1 藥品的近紅外光譜

        2.1.3 變量篩選結(jié)果

        LAR, CARS, UVE, SPA和LAR-CARDS在藥品數(shù)據(jù)集上篩選出來的變量分布為152, 76, 198, 103和51。 圖2直觀的表示出了不同的變量篩選方法在藥品數(shù)據(jù)集上篩選出來特征變量在全譜區(qū)的分布。

        圖2 各方法在藥品數(shù)據(jù)集上篩選出來的變量分布

        實(shí)驗(yàn)中不同變量選擇方法對(duì)樣本的波長(zhǎng)篩選存在隨機(jī)性。 以藥品數(shù)據(jù)集一次實(shí)驗(yàn)為例, 由圖2可看出LAR篩選出來的波長(zhǎng)主要分布在1 150~1 200, 1 450~1 550和1 750~1 850 nm范圍內(nèi), CARS篩選出來的波長(zhǎng)主要分布在1 200~1 250, 1 450~1 500和1 650~1 750 nm范圍內(nèi), LAR-CARS篩選出來的波長(zhǎng)主要分布在1 150~1 250, 1 450~1 550和1 650~1 700 nm范圍內(nèi), 基本與LAR和CARS篩選出來的變量重合, 但其篩選出的變量更少。

        2.1.4 PLS回歸結(jié)果分析

        以表1中藥品光譜數(shù)據(jù)為例建立藥品近紅外光譜定量分析模型對(duì)LAR-CARS的性能進(jìn)行分析評(píng)估, 并與全波長(zhǎng)(記為FULL), LAR, CARS, UVE和SPA進(jìn)行對(duì)比。 在利用PLS建立預(yù)測(cè)模型時(shí)采用RMSEC最小來確定樣品主成分?jǐn)?shù), 并從校正決定系數(shù)、 校正均方根誤差、 預(yù)測(cè)決定系數(shù)和預(yù)測(cè)均方根誤差四個(gè)方面評(píng)估各模型。 預(yù)測(cè)決定系數(shù)越小、 預(yù)測(cè)均方根誤差越大表明近紅外光譜分析模型的性能越穩(wěn)定。 PLS回歸模型在藥品數(shù)據(jù)集上經(jīng)過不同波長(zhǎng)選擇方法篩選的樣品波長(zhǎng)數(shù)、 PLS回歸分析的主成分?jǐn)?shù)以及訓(xùn)練集和測(cè)試集的決定系數(shù)和均方根誤差結(jié)果如表2所示。 從表2中可看出, 采用各模型篩選的波長(zhǎng)建立的藥品近紅外光譜定量分析模型較全波長(zhǎng)建立的模型具有更高的預(yù)測(cè)精度且用于建立模型的波長(zhǎng)數(shù)較少。

        表2 PLS回歸模型用不同波長(zhǎng)選擇方法的預(yù)測(cè)效果

        在藥品樣品的分析模型中, 經(jīng)過LAR-CARS篩選后建立的PLS分析模型所需波長(zhǎng)數(shù)最少為51個(gè), 同時(shí)PLS模型具有最高的預(yù)測(cè)標(biāo)準(zhǔn)偏差和預(yù)測(cè)校正系數(shù)分別為0.929 1和4.667 4。 LAR和UVE所需要的波長(zhǎng)數(shù)最多分別為152和198個(gè), 但其預(yù)測(cè)標(biāo)準(zhǔn)偏差較全波長(zhǎng)較低較LAR-CARS較高, 預(yù)測(cè)決定系數(shù)較全波長(zhǎng)較高但是較LAR-CARS較低, 說明該模型的性能較LAR-CARS較差。

        2.2 定性分析

        2.2.1 實(shí)驗(yàn)數(shù)據(jù)

        采用中國(guó)食品藥品檢定研究院利用Bruker Matrix光譜儀測(cè)定的不同生產(chǎn)廠家生產(chǎn)的頭孢克肟片光譜數(shù)據(jù)驗(yàn)證LAR-CARS方法的有效性。 其中光譜儀的采樣區(qū)間設(shè)置為4 000~11 995 cm-1, 采樣間隔為4 cm-1, 每個(gè)頭孢克肟片光譜包含2 074個(gè)特征波長(zhǎng)。 頭孢克肟片樣品的詳細(xì)信息如表3所示。

        表3 頭孢克肟片近紅外光譜數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)

        2.2.2 數(shù)據(jù)預(yù)處理

        由于頭孢克肟片藥品的光譜數(shù)據(jù)存在偏移, 為了增大頭孢克肟光譜樣品數(shù)據(jù)的識(shí)別度、 減少樣品譜圖之間的信息重疊, 采用歸一化、 平滑求導(dǎo)及標(biāo)準(zhǔn)正態(tài)變量多階段數(shù)據(jù)預(yù)處理方法對(duì)其進(jìn)行處理, 預(yù)處理后的光譜信息如圖3所示。 可以看出經(jīng)過預(yù)處理后的頭孢克肟片的光譜的辨識(shí)度增加, 更有利于藥品的鑒別。

        圖3 頭孢克肟片的原始近紅外光譜

        2.2.3 定量結(jié)果分析

        將江蘇正大生產(chǎn)的藥品光譜數(shù)據(jù)作為正類藥品, 其他三個(gè)廠商生產(chǎn)藥品的作為負(fù)類藥品。 采用分類精度、 預(yù)測(cè)時(shí)間以及預(yù)測(cè)標(biāo)準(zhǔn)偏差作為各個(gè)模型性能的衡量指標(biāo)。

        (1) 與其他模型比較

        為了進(jìn)一步驗(yàn)證LAR-CARS在近紅外光譜定性分析模型中的性能, 采用SVM, ELM, SWELM和BP作為對(duì)比方法進(jìn)行鑒別實(shí)驗(yàn), 將測(cè)試集按0.1~0.9的比例從藥品近紅外光譜數(shù)據(jù)集中隨機(jī)抽取數(shù)據(jù)構(gòu)建不同規(guī)模的訓(xùn)練集, 并對(duì)SVM, ELM, SWELM和BP各模型進(jìn)行配置。 結(jié)果如表4所示。 從表中可看出無論訓(xùn)練集的大小如何, 經(jīng)過LAR-CARS篩選波長(zhǎng)并采用SVM對(duì)藥品鑒別較全波長(zhǎng)建立SVM模型的預(yù)測(cè)準(zhǔn)確度有了較大的提高, 尤其當(dāng)比例越大LAR-CARS-SVM的預(yù)測(cè)精度越高, 最高達(dá)100%。 之所以LAR-CARS-SVM較SVM的鑒別精度有提高, 是因?yàn)長(zhǎng)AR-CARS方法濾除了樣品光譜數(shù)據(jù)中無關(guān)的波長(zhǎng)。 ELM和SWELM表現(xiàn)出的分類能力一致, 表明激活函數(shù)對(duì)模型的分類精度影響不大。 BP神經(jīng)網(wǎng)絡(luò)較ELM和SWELM具有較高的分類準(zhǔn)確度, 這說明BP神經(jīng)網(wǎng)絡(luò)較ELM和SWELM具有較強(qiáng)的建模能力。

        表4 不同比例下各模型的分類準(zhǔn)確度

        在運(yùn)行時(shí)間方面, 從表4中可看出ELM, SVM, SWELM和LAR-CARS-SVM模型較BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間均更短, 這是因?yàn)锽P神經(jīng)網(wǎng)絡(luò)需要通過多次迭代對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行反向微調(diào)從而求解出最優(yōu)模型, 然而ELM和SWELM屬于淺層神經(jīng)網(wǎng)絡(luò)無需參數(shù)的反向微調(diào)、 SVM則無需對(duì)參數(shù)的迭代更新。 此外經(jīng)LAR-CARS篩選后用于建立SVM模型的時(shí)間較采用全波長(zhǎng)建立模型的時(shí)間較短, 這主要是LAR-CARS篩選后用建立模型的波長(zhǎng)數(shù)較少, 減少了運(yùn)算量使得LAR-CARS-SVM較SVM模型的運(yùn)行時(shí)間更短。

        以預(yù)測(cè)標(biāo)準(zhǔn)偏差作為模型穩(wěn)定性的評(píng)價(jià)指標(biāo), ELM, SVM, SWELM, LAR-CARS-SVM模型在不同規(guī)模訓(xùn)練集的預(yù)測(cè)標(biāo)準(zhǔn)偏差如圖4所示。 從圖中可看出, 經(jīng)過LAR-CARS變量篩選后建立的SVM藥品鑒別模型較全波長(zhǎng)建立的SVM模型具有更強(qiáng)的穩(wěn)定性, 說明LAR-CARS可有效刪除不利于模型穩(wěn)定性的樣品波長(zhǎng)。 BP神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性次之、 SWELM和ELM表現(xiàn)出最差的穩(wěn)定性。

        圖4 不同比例訓(xùn)練集下各模型的預(yù)測(cè)標(biāo)準(zhǔn)偏差

        (2)變量篩選結(jié)果

        為了更加直觀的表示出LAR, CARS, LAR-CARS, SPA和UVE變量篩選方法篩選出來的變量分布, 以比例為0.7訓(xùn)練集為實(shí)例進(jìn)行實(shí)驗(yàn)。 LAR, CARS, LAR-CARS, SPA和UVE在訓(xùn)練集上篩選出來的變量數(shù)分別為70, 46, 40, 100和130, 其在全譜區(qū)的分布如圖5所示。 由于波長(zhǎng)在選擇過程中會(huì)存在些許誤差。 以頭孢克肟片光譜數(shù)據(jù)的一次實(shí)驗(yàn)為例, 由圖5可以看出LAR篩選出來的波長(zhǎng)主要分布在8 050~9 050和10 800~11 300 nm范圍內(nèi), CARS篩選出來的波長(zhǎng)主要分布在8 050~9 060和10 500~11 200 nm范圍內(nèi), LAR-CARS篩選出來的波長(zhǎng)主要分布在8 050~9 050和11 000~11 500 nm范圍內(nèi), 可看出LAR-CARS篩選出來的波長(zhǎng)變量基本和上述LAR和CARS篩選出來的波長(zhǎng)變量吻合。

        圖5 各方法在頭孢克肟片數(shù)據(jù)集中篩選出來的變量分布

        (3)與已有波長(zhǎng)選擇方法比較

        為了說明LAR-CARS波長(zhǎng)篩選方法的有效性, 分別采用FULL, LAR, CARS, SPA和UVE變量選擇方法作為對(duì)比方法, 然后將不同變量篩選法篩選出來的樣品的特征波長(zhǎng)點(diǎn)送入ELM, SWELM和SVM進(jìn)行真假藥品的鑒別。 在訓(xùn)練集占頭孢克肟片光譜數(shù)據(jù)的比例為0.7時(shí)的實(shí)驗(yàn)結(jié)果如表5所示。

        表5 不同變量選擇方法下各模型的分類精度

        從表5中可看出采用全波長(zhǎng)建立的ELM, SWELM和SVM模型的分類精度較采用變量篩選選擇的變量建立的模型低, 這是由于樣品的近紅外光譜數(shù)據(jù)包含了隨機(jī)噪聲和對(duì)表征樣品特征相關(guān)性較差的波長(zhǎng), 這些波長(zhǎng)對(duì)于鑒別模型的建立起著消極的影響, 而變量篩選能夠篩選出更能表征樣品特征的波長(zhǎng)并將無關(guān)的波長(zhǎng)刪除。 與SPA, UVE相比, 用本方法篩選的樣品光譜數(shù)據(jù)的波長(zhǎng)建立的ELM, SWELM和SVM模型具有更優(yōu)良的性能。

        3 結(jié) 論

        近紅外光譜分析應(yīng)用廣泛, 但樣品光譜數(shù)據(jù)中通常包含較多的共線性或低信噪比波長(zhǎng), 嚴(yán)重影響了近紅外光譜分析模型的準(zhǔn)確性。 針對(duì)這一問題, 采用LAR結(jié)合CARS提出了一種新的變量選擇方法, 并以藥品數(shù)據(jù)集的定量和定性分析為例對(duì)該方法進(jìn)行了評(píng)價(jià)。 首先, 利用PLS模型建立了藥品近紅外光譜定量回歸分析模型, 實(shí)驗(yàn)結(jié)果表明經(jīng)過LAR-CARS篩選出的變量建立的PLS模型具有更優(yōu)的性能。 接著, 以四個(gè)不同廠家生產(chǎn)的頭孢克肟片光譜數(shù)據(jù)為例構(gòu)建了不同廠商藥品近紅外光譜的定性分析模型, 采用不同比例的訓(xùn)練驗(yàn)證LAR-CARS方法的有效性, 結(jié)果表明, 采用LAR-CARS篩選出來的變量建立的分類模型具有更高的分類準(zhǔn)確度。 綜上, LAR-CARS方法能夠很好的篩選出樣品的有效波長(zhǎng), 建立的近紅外光譜分析模型具有更強(qiáng)的應(yīng)用性和魯棒性。

        猜你喜歡
        藥品方法模型
        一半模型
        是不是只有假冒偽劣藥品才會(huì)有不良反應(yīng)?
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        可能是方法不對(duì)
        藥品采購(gòu) 在探索中前行
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        藥品集中帶量采購(gòu):誰贏誰輸?
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        热99精品| 无码任你躁久久久久久久| 久久黄色精品内射胖女人| 综合成人亚洲网友偷自拍| 国产亚洲aⅴ在线电影| 亚洲午夜精品一区二区| 日韩av高清在线观看| 成年女人a毛片免费视频| 色 综合 欧美 亚洲 国产| 熟女人妻在线视频| 中国精学生妹品射精久久| 亚洲免费天堂| 女人的天堂av免费看| 亚洲一区二区三区在线观看蜜桃| 国产目拍亚洲精品二区| 成人在线观看视频免费播放| 亚洲av在线观看播放| 国产人妖网站在线视频| 日韩人妻中文无码一区二区| 丰满熟妇乱子伦| 亚洲国产高清在线观看视频| 久久国产热精品波多野结衣av| 欧美成人a视频免费专区| 二区三区视频在线观看| 日本精品人妻一区二区| 在线观看免费日韩精品| 人人妻人人澡人人爽超污| 高潮又爽又无遮挡又免费| 国产成人亚洲综合一区| 超清无码AV丝袜片在线观看| 91国产视频自拍在线观看| 日本中文字幕精品久久 | 少妇人妻综合久久中文字幕| 国产综合久久久久久鬼色| 午夜精品久久久久久| 亚洲欧美日韩国产精品一区| 网红极品女神精品视频在线| 久久精品国产亚洲av不卡国产| 高潮毛片无遮挡高清视频播放| 久久精品麻豆日日躁夜夜躁| 亚洲av之男人的天堂|