亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于拉曼光譜技術(shù)的海水微塑料快速識別技術(shù)研究

        2021-08-17 02:51:26楊思節(jié)馮巍巍蔡宗岐
        光譜學(xué)與光譜分析 2021年8期
        關(guān)鍵詞:曼光譜決策樹交叉

        楊思節(jié),馮巍巍,蔡宗岐,王 清

        1. 哈爾濱工業(yè)大學(xué)(威海),山東 威海 264200 2. 中國科學(xué)院海岸帶環(huán)境過程與生態(tài)修復(fù)重點(diǎn)實(shí)驗(yàn)室(煙臺海岸帶研究所),山東 煙臺 264003 3.中國科學(xué)院海洋大科學(xué)研究中心, 山東 青島 266071 4.中國科學(xué)院大學(xué), 北京 100049

        引 言

        自從發(fā)現(xiàn)微塑料在海洋和海洋生物中無處不在,全球?qū)ξ⑺芰系年P(guān)注已大大增加[1-3]。2015年第二屆聯(lián)合國環(huán)境大會上,微塑料污染被列為與全球氣候變化、 臭氧耗竭和海洋酸化并列的重大全球環(huán)境問題[4]。研究表明微塑料已經(jīng)大量存在于各個大洋、 海灣中,例如在北冰洋中發(fā)現(xiàn)了高濃度的微塑料[5],天津近岸海域微塑料污染嚴(yán)重[4],山東桑溝灣微塑料豐度很高[6]。但是目前國內(nèi)還沒提出成熟的快速智能識別海水中微塑料的方法。

        微塑料是指粒徑小于5 mm的塑料顆粒,由于其粒徑較小,微塑料的識別鑒定仍然是一個挑戰(zhàn)[2]。目前研究表明,光譜分析法(FTIR、 Raman)和熱分析法(Py-GC-MS、 TED-GC-MS)應(yīng)用于微塑料的識別檢測頻率最高。熱分析法容易破壞微塑料的屬性,紅外光譜分辨率較低且容易受海水的干擾,而拉曼光譜作為紅外互補(bǔ)光譜,近年來受到越來越多的關(guān)注。通過拉曼光譜的基團(tuán)頻率振動峰對微塑料進(jìn)行分類鑒別,指紋峰明確易于識別,而且不需要制樣、 為非破壞性,避免了樣品制備過程中可能造成的污染和保持樣品的完整性[7]。因此本文基于拉曼光譜探測技術(shù),提出了一種結(jié)合小波處理、 隨機(jī)森林算法實(shí)現(xiàn)海水中微塑料快速識別的智能分類方法。

        1 實(shí)驗(yàn)部分

        激光拉曼系統(tǒng)可實(shí)現(xiàn)對微塑料的直接測量,不需要對樣品進(jìn)行預(yù)處理,并且檢測速度快,可以很好地實(shí)現(xiàn)微塑料的快速識別。圖1為激光拉曼探測系統(tǒng)完成微塑料光譜數(shù)據(jù)收集的過程。有光源控制電路、 探測單元和信號處理傳輸單元,其中探測單元包括激發(fā)光源、 入射光纖、 探頭、 接收光纖、 光譜采集模塊,信號處理傳輸單元包括光譜處理模塊、 光電轉(zhuǎn)換模塊、 數(shù)據(jù)處理模塊和數(shù)據(jù)傳輸接口。采用785 nm的激發(fā)光源。

        1.1 原始拉曼數(shù)據(jù)獲取

        選取環(huán)境中比較常見的六種微塑料: 丙烯腈(A)-丁二烯(B)-苯乙烯(S)的三元共聚物(ABS)、 聚酰胺(PA)、 聚對苯二甲酸乙二醇酯(PET)、 聚丙烯(PP)、 聚苯乙烯(PS)、 聚氯乙烯(PVC)。選取激發(fā)波長為785 nm的激光探測器固定在距離標(biāo)準(zhǔn)樣品2 cm處進(jìn)行測量,光譜采集模塊的光譜范圍為768~1 190 nm,拉曼光譜的積分時間為500 ms。

        1.2 數(shù)據(jù)預(yù)處理

        1.2.1 標(biāo)準(zhǔn)差歸一化處理

        標(biāo)準(zhǔn)差歸一化是對拉曼光譜數(shù)據(jù)進(jìn)行中心平移變換和無量綱壓縮處理,可以用來消除拉曼光譜中激光光源功率變化、 光強(qiáng)衰減等影響。分別取波數(shù)在0~4 000 cm-1共1 745個光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)差歸一化運(yùn)算。

        1.2.2 小波分析處理

        拉曼采集微塑料光譜數(shù)據(jù)時存在的噪聲和熒光背景是影響分析拉曼光譜的主要問題。本文利用小波分析來降低采集的微塑料拉曼光譜的噪聲。小波變換(wavelet transform, WT)通過伸縮平移運(yùn)算對信號(函數(shù))逐步進(jìn)行多尺度細(xì)化,可以局部化分析非平穩(wěn)信號[8]。根據(jù)常用去噪小波函數(shù)選取了Daubechies(DBN)小波。實(shí)驗(yàn)發(fā)現(xiàn)用DB7小波基,分解次數(shù)選擇3次分析微塑料的拉曼光譜最合適。圖2分別是聚丙烯(PP)原始光譜和經(jīng)過標(biāo)準(zhǔn)差歸一化、 DB7小波分析后的拉曼光譜圖。

        1.2.3 數(shù)據(jù)壓縮預(yù)處理

        原始拉曼光譜具有1 745個數(shù)據(jù)點(diǎn),不同的屬性對光譜分析具有不同的重要程度,為了提高模型識別速度需要對原始光譜進(jìn)行數(shù)據(jù)壓縮。利用隨機(jī)森林算法能評估各個屬性在分類問題上的重要性程度,選出重要性重要程度高的屬性,達(dá)到數(shù)據(jù)壓縮的目的。

        圖2 聚丙烯原始拉曼光譜和經(jīng)預(yù)處理后的拉曼光譜

        1.3 構(gòu)建分類識別算法

        選擇機(jī)器學(xué)習(xí)中的決策樹算法和隨機(jī)森林算法分別構(gòu)建識別模型,他們都比較適合小樣本集的分類識別。決策樹(decision tree,DT)算法實(shí)現(xiàn)分類的原理[9-10]: 構(gòu)造一種模型,使模型能夠從樣本數(shù)據(jù)的特征屬性中,通過學(xué)習(xí)簡單的決策規(guī)則,從而預(yù)測目標(biāo)變量的值。隨機(jī)森林(random forest,RF)算法是建立了多個決策樹,并將它們合并在一起,最終葉節(jié)點(diǎn)是分類問題的多數(shù)類。

        利用訓(xùn)練數(shù)據(jù)根據(jù)損失函數(shù)最小化的原則建立決策樹模型。把輸入數(shù)據(jù)集劃分成訓(xùn)練集(train)和測試集(test)兩部分,模型通過fit方法從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí),然后調(diào)用score方法在測試集上進(jìn)行評估,打分; 從分?jǐn)?shù)上我們可以知道模型當(dāng)前的訓(xùn)練水平如何。用精度(accuracy)來判斷分類(classification)模型的好壞。其中決策樹分割算法選擇ID3。

        隨機(jī)森林算法中樹的個數(shù)需要事先指定,這種需要人工選擇的參數(shù)稱為超參數(shù)。超參數(shù)選擇不恰當(dāng),就會出現(xiàn)欠擬合或者過擬合的問題。使用網(wǎng)格搜索(GridSearchCV)來找到一個合適的樹個數(shù)。最終用GridSearchCV確定隨機(jī)森林算法中樹的個數(shù)為100個。為了調(diào)整超參數(shù),測試集的數(shù)據(jù)會“泄漏”給模型。選擇交叉驗(yàn)證(cross-validation,CV)作為精度測試方法,可以很好的解決這些問題。常用k折交叉驗(yàn)證,即數(shù)據(jù)集被劃分成k個子集,每次訓(xùn)練的時候,用其中k-1份作為訓(xùn)練數(shù)據(jù),剩下的1份作為測試,重復(fù)k次,然后取k次精度的平均值。交叉驗(yàn)證通過多次劃分,大大降低了這種由一次隨機(jī)劃分帶來的偶然性,同時通過多次訓(xùn)練,模型也能遇到各種各樣的數(shù)據(jù),從而提高其泛化能力。

        數(shù)據(jù)處理模塊流程圖如圖3所示。

        圖3 數(shù)據(jù)處理模塊流程圖Fig.3 Flow chart of data processing module

        2 結(jié)果與討論

        采用精度(accuracy)、 交叉驗(yàn)證精度(CV accuracy)、 均方誤差(MSE)作為判定決策樹算法、 隨機(jī)森林算法識別模型的指標(biāo),模型的普通精度、 交叉驗(yàn)證精度越接近1,均方誤差越接近0,表明模型具有越好的識別精度和性能。

        2.1 數(shù)據(jù)壓縮結(jié)果與討論

        利用隨機(jī)森林算法中的屬性重要性排列(feature_importances)返回特征的重要性,feature_importances越高代表特征越重要,然后保留重要程度高的屬性,去掉重要程度低的屬性,達(dá)到數(shù)據(jù)壓縮的目的。

        利用拉曼光譜1 745個光譜點(diǎn)中的排名前64,128,256,512和1 024的光譜點(diǎn)分別形成的數(shù)據(jù)作為決策樹算法和隨機(jī)森林算法的訓(xùn)練數(shù)據(jù)集,結(jié)果如圖4所示,可以為實(shí)際工程應(yīng)用中選擇數(shù)據(jù)壓縮點(diǎn)數(shù)提供參考。

        圖4 不同光譜點(diǎn)個數(shù)決策樹(DT)算法和隨機(jī)森林(RF)算法的交叉驗(yàn)證精度

        由圖4可以看出光譜點(diǎn)個數(shù)在512之前,隨著光譜點(diǎn)個數(shù)的增多交叉驗(yàn)證精度增加幅度較大,而在512個光譜點(diǎn)之后隨著點(diǎn)個數(shù)的增加,決策樹算法和隨機(jī)森林算法的交叉驗(yàn)證精度都基本維持不變。最終選取512個光譜點(diǎn),此時的光譜點(diǎn)個數(shù)較少,既能提高計(jì)算速度且又能保證微塑料識別的交叉驗(yàn)證精度,有利于實(shí)際工程應(yīng)用。

        圖5 不同k值時決策樹(DT)算法模型和隨機(jī)森林(RF)算法模型交叉驗(yàn)證精度

        2.2 折次(參數(shù)k)對模型精度影響分析

        k折交叉驗(yàn)證中數(shù)據(jù)集被劃分成k個子集,每次訓(xùn)練的時候,用其中k-1份作為訓(xùn)練數(shù)據(jù),剩下的1份作為測試,重復(fù)k次,然后取k次精度的平均值。不同模型具有不同的最優(yōu)k值。實(shí)驗(yàn)分別取k=4,7,10,15,20,25對比交叉驗(yàn)證精度,如圖5,來選取識別微塑料模型的最優(yōu)k值。

        由圖5可以看出,不論決策樹算法模型還是隨機(jī)森林算法模型,并不是k值越高精度越高,而是隨著k值的增加精度都會出現(xiàn)拐點(diǎn),具體模型出現(xiàn)拐點(diǎn)的k值可能會有差異。實(shí)驗(yàn)結(jié)果表明,針對微塑料拉曼光譜識別決策樹算法模型智能識別的最優(yōu)k值是10,此時交叉驗(yàn)證精度可以達(dá)到93.55%。隨機(jī)森林算法模型智能識別塑料拉曼光譜的最優(yōu)k值是20,此時交叉驗(yàn)證精度可以達(dá)到97.24%。

        2.3 決策樹、 隨機(jī)森林算法比較分析

        表1是選取5個不同的拉曼光譜數(shù)據(jù)集時,決策樹(DT)和隨機(jī)森林(RF)算法對同一數(shù)據(jù)集訓(xùn)練后的普通精度、 交叉驗(yàn)證精度和均方誤差結(jié)果對比。

        表1 決策樹(DT)和隨機(jī)森林(RF)算法運(yùn)行結(jié)果對比Table 1 Comparison of operation results between decision tree (DT) and random forest (RF) algorithm

        圖6 決策樹(DT)和隨機(jī)森林(RF)算法的運(yùn)行結(jié)果Fig.6 Operation results of decision tree (DT) and random forest (RF)

        由表1和圖6可以看出,在同等條件下,隨機(jī)森林算法的普通精度和交叉驗(yàn)證精度始終都高于決策樹算法,且隨機(jī)森林算法的均方誤差低于決策樹算法。所以在基于拉曼光譜識別分類微塑料時,選取隨機(jī)森林算法來建立快速識別模型。這是由于隨機(jī)森林算法采用自舉隨機(jī)采樣技術(shù),而且通過交叉驗(yàn)證避免隨機(jī)采樣結(jié)果的偶然性,對非平衡數(shù)據(jù)具有較好的模型預(yù)測性能。

        3 結(jié) 論

        利用激光拉曼檢測系統(tǒng)對海水中常見的六種微塑料樣品進(jìn)行了分析,利用DB7小波分析方法,標(biāo)準(zhǔn)差預(yù)處理對拉曼光譜數(shù)據(jù)集進(jìn)行了預(yù)處理,為了提高識別速度,同時對光譜數(shù)據(jù)進(jìn)行了數(shù)據(jù)壓縮,分別進(jìn)行了數(shù)據(jù)壓縮點(diǎn)為64,128,256,512和1 024點(diǎn)的數(shù)據(jù)壓縮比較,它們的決策樹算法識別精度分別為91.51%,91.67,92.35%,93.17%和93.21%,隨機(jī)森林算法識別精度分別為93.12%,93.92%,94.83%,96.81%和96.81%?;诰群托士紤],最終光譜數(shù)據(jù)壓縮點(diǎn)數(shù)選擇512個點(diǎn)。研究了參數(shù)k對識別精度的影響。分別比較了決策樹、 隨機(jī)森林兩種算法識別微塑料。研究結(jié)果表明,針對海水中典型的微塑料樣品,當(dāng)k值為20,隨機(jī)森林算法可以達(dá)到97.24%??梢詾閷?shí)際海水中微塑料的快速識別提供技術(shù)參考。

        猜你喜歡
        曼光譜決策樹交叉
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        “六法”巧解分式方程
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        連一連
        基于決策樹的出租車乘客出行目的識別
        基于Fast-ICA的Wigner-Ville分布交叉項(xiàng)消除方法
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        雙線性時頻分布交叉項(xiàng)提取及損傷識別應(yīng)用
        BMSCs分化為NCs的拉曼光譜研究
        便攜式薄層色譜-拉曼光譜聯(lián)用儀重大專項(xiàng)獲批
        无码乱人伦一区二区亚洲一| 免费人成在线观看播放视频| 在线观看视频日本一区二区| 中文字幕日韩人妻不卡一区| 久久婷婷综合色丁香五月| Jizz国产一区二区| 男女搞事在线观看视频| av综合网男人的天堂| 肉体裸交丰满丰满少妇在线观看| 久草视频在线这里只有精品| 国产情侣亚洲自拍第一页| 寂寞少妇做spa按摩无码| 豆国产95在线 | 亚洲| 亚洲色图视频在线播放| 久久久天堂国产精品女人| 午夜福利一区二区三区在线观看| 五月天丁香久久| 日产精品一区二区在线| 日韩精品成人区中文字幕| 日本丰满熟妇hd| 91精品国产免费久久久久久青草| 国产午夜视频高清在线观看| 国产极品视觉盛宴| 亚洲av无码乱码国产精品fc2| 亚洲欧美v国产蜜芽tv| 国产白浆一区二区在线| av无码人妻中文字幕| 日韩精品国产自在欧美| 久久少妇高潮免费观看| 日日摸天天摸97狠狠婷婷| 狠狠爱无码一区二区三区| 精品粉嫩国产一区二区三区| 中文字幕人成人乱码亚洲av| 久久久久久伊人高潮影院| 亚欧乱色束缚一区二区三区| 美腿丝袜日韩在线观看| 伊人久久大香线蕉综合影院首页 | 国产呦精品系列在线播放| 亚洲一区日本一区二区| 中国一级特黄真人片久久| 国产专区国产av|