亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的水體化學(xué)需氧量高光譜反演模型對比研究

        2022-08-07 07:01:16王春玲史鍇源叢茂勤劉昕悅郭文記
        光譜學(xué)與光譜分析 2022年8期
        關(guān)鍵詞:方法模型

        王春玲, 史鍇源, 明 星, 叢茂勤, 劉昕悅, 郭文記

        1. 北京林業(yè)大學(xué)信息學(xué)院, 北京 100083

        2. 國家林業(yè)和草原局林業(yè)智能信息處理工程技術(shù)研究中心, 北京 100083

        3. 中國科學(xué)院軟件研究所南京軟件技術(shù)研究院, 江蘇 南京 210049

        引 言

        化學(xué)需氧量(chemical oxygen demand, COD)是以化學(xué)方法測量水樣中需要被氧化的還原性物質(zhì)的量。 水樣在一定條件下的COD以氧化1升水樣中還原性物質(zhì)縮小化的氧化劑的量為指標(biāo), 折算成每升水樣全部被氧化后, 需要的氧的毫克數(shù), 以mg·L-1來表示。 COD測試可以很容易地量化水中有機(jī)物的含量。 COD最常見的應(yīng)用是量化地表水(如湖泊和河流)或廢水中可氧化污染物的量, 在水質(zhì)監(jiān)測中起到了巨大的作用。

        傳統(tǒng)的化學(xué)需氧量的檢測方法有重鉻酸鹽滴定法和分光光度法等方法, 電化學(xué)方法和流動注射分析法也用于COD的檢測, 但這些檢測方法都存在檢測周期較長、 消耗試劑等缺點(diǎn), 對水體的批量檢測也難以實(shí)現(xiàn)。 而利用高光譜技術(shù)和機(jī)器學(xué)習(xí)手段對水質(zhì)參數(shù)進(jìn)行反演近期已成為國內(nèi)外熱點(diǎn)研究問題。 高光譜技術(shù)能夠獲得物體連續(xù)的光譜信息, 近年來逐步應(yīng)用于水農(nóng)產(chǎn)品檢測、 生物醫(yī)學(xué)診斷和指導(dǎo)、 植被和水資源調(diào)控等領(lǐng)域并取得了一定成果[1-5]。 在水質(zhì)參數(shù)高光譜反演建模中, 國內(nèi)外學(xué)者采取機(jī)器學(xué)習(xí)方法對不同水質(zhì)參數(shù)進(jìn)行建模, 如總氮、 總磷、 水質(zhì)濁度、 一般懸浮物、 化學(xué)需氧量等, 并取得了一定成果[6-12]。 盡管利用高光譜和機(jī)器學(xué)習(xí)手段對化學(xué)需氧量反演的研究逐步增多, 但是仍存在一定問題: 例如對高光譜數(shù)據(jù)的預(yù)處理手段不夠完善, 導(dǎo)致數(shù)據(jù)集存在較多的噪音或者丟失波段信息, 所采用的機(jī)器學(xué)習(xí)方法擬合效果較差或機(jī)器學(xué)習(xí)模型過于復(fù)雜, 導(dǎo)致模型精度低或建模成本過大。

        基于高光譜和機(jī)器學(xué)習(xí)技術(shù)對揚(yáng)州寶帶河水體COD進(jìn)行反演建模。 分別使用Savitzky-Golay(SG)平滑、 多元散射校正數(shù)據(jù)(multiplicative scatter correction, MSC)以及SG平滑和MSC相結(jié)合的方法對原始光譜進(jìn)行預(yù)處理。 對預(yù)處理后的全波段光譜基于多元線性回歸、 隨機(jī)森林、 AdaBoost、 XGBoost機(jī)器學(xué)習(xí)方法建立COD反演模型。 結(jié)合主成分分析法(principal component analysis, PCA)對全波段光譜提取特征波段, 再基于特征波段建立COD反演模型, 并對模型的精度和訓(xùn)練時(shí)間進(jìn)行對比。

        1 實(shí)驗(yàn)部分

        1.1 研究區(qū)與采樣

        研究區(qū)位于江蘇省揚(yáng)州市寶帶河水域(119°25′27″E, 32°24′13″N)。 研究采用ZK-UVIR-I型原位光譜水質(zhì)在線監(jiān)測儀(北京智科遠(yuǎn)達(dá)數(shù)據(jù)技術(shù)有限公司), 該監(jiān)測儀能夠?qū)崟r(shí)檢測水體化學(xué)需氧量信息, 并能夠采集樣本在400~1 000 nm之間的高光譜數(shù)據(jù), 采集高度為3 m, 采集位置位于河岸邊, 采集時(shí)間選在晴朗的白天。 由于光譜在810~1 000 nm范圍內(nèi)受噪聲影響較大, 最終選用400~810 nm波段對光譜數(shù)據(jù)進(jìn)行處理分析。 該設(shè)備共獲取1 548組高光譜。 使用隨機(jī)抽樣的方法對采樣樣本進(jìn)行劃分, 80%用作模型訓(xùn)練, 20%用作模型測試。

        1.2 數(shù)據(jù)處理

        數(shù)據(jù)處理使用windows10(64位操作系統(tǒng)), Intel(R)Core(TM) i5-7200U CPU @ 2.50GHZ處理器, python3.6。

        1.2.1 光譜數(shù)據(jù)預(yù)處理

        高光譜數(shù)據(jù)通常包含由相機(jī)或儀器產(chǎn)生的隨機(jī)噪聲和光譜變化。 光譜預(yù)處理可以減少或消除數(shù)據(jù)中與自身性質(zhì)無關(guān)的信息, 降低模型的復(fù)雜性, 提高數(shù)據(jù)和模型的可解釋性(魯棒性和準(zhǔn)確性)。 光譜數(shù)據(jù)的預(yù)處理在進(jìn)行多變量分析之前是必不可少的。 SG平滑能夠使光譜曲線平滑, MSC方法能夠消除基線漂移和平移現(xiàn)象。 采用SG平滑、 MSC以及SG平滑結(jié)合MSC光譜預(yù)處理手段對原始光譜進(jìn)行預(yù)處理并進(jìn)行比較。

        1.2.2 特征波段提取

        高光譜波段由大量的波段組成, 有些波段的相關(guān)性較高而且存在冗余以及噪聲等。 對特征波段的提取在一定程度上可以規(guī)避這兩種情況。 PCA是一種分析、 簡化數(shù)據(jù)集的方法[13], 能夠最大程度提取原始數(shù)據(jù)的有效信息, 同時(shí)能夠大大降低數(shù)據(jù)集維數(shù)。 選用主成分分析法對特征波段進(jìn)行提取, 并對所建模型的精度、 模型訓(xùn)練速度進(jìn)行分析比較。

        1.2.3 反演模型

        選取線性回歸、 隨機(jī)森林、 AdaBoost、 XGBoost四種機(jī)器學(xué)習(xí)建模方法。 線性回歸是一種確定兩個(gè)或多個(gè)變量間相互依賴定量關(guān)系的機(jī)器學(xué)習(xí)方法; 隨機(jī)森林算法是決策樹的集成, 通過平均決策樹可以大大降低過擬合的風(fēng)險(xiǎn), 是比單一決策樹性能更優(yōu)的模型[14]; Adaboost是將弱學(xué)習(xí)器結(jié)合創(chuàng)造一個(gè)強(qiáng)學(xué)習(xí)器的機(jī)器學(xué)習(xí)方法[15], 本研究將決策樹作為Adaboost的弱學(xué)習(xí)器; XGBoost是一種改進(jìn)的梯度提升迭代決策樹(gradient boosting decision tree, GBDT)算法, 基于損失函數(shù)2階泰勒展開進(jìn)行優(yōu)化并引入正則項(xiàng), 同時(shí)支持多線程運(yùn)算。

        1.2.4 模型評估

        采取RMSE,R2和RPD三個(gè)指標(biāo)對反演模型進(jìn)行對比和評價(jià)。

        (1)

        (2)

        (3)

        2 結(jié)果與討論

        2.1 原始光譜及數(shù)值統(tǒng)計(jì)分析

        圖1為樣本水體的原始光譜曲線, 水體在550~600 nm的反射率較高, 在700~750 nm的反射率較低。 從圖中可以看出每個(gè)水體樣本曲線的變化趨勢類似, 沒有呈現(xiàn)較大的差異, 而且難以直接通過光譜曲線對其COD含量進(jìn)行判斷。 水體樣本的COD值統(tǒng)計(jì)結(jié)果如表1所示, 模型的訓(xùn)練集與測試集都涵蓋了較大的范圍, 各標(biāo)準(zhǔn)差與總樣本的標(biāo)準(zhǔn)差也基本一致, 滿足訓(xùn)練以及檢驗(yàn)的需求。

        圖1 水體樣本原始光譜反射率曲線

        表1 COD含量描述統(tǒng)計(jì)分析

        2.2 光譜預(yù)處理結(jié)果

        使用三種光譜預(yù)處理方法對原始光譜進(jìn)行預(yù)處理, 預(yù)處理后的光譜分布如圖2(a,b,c)所示。

        經(jīng)過光譜預(yù)處理后, 高光譜的數(shù)據(jù)質(zhì)量得到了一定改善, 但還是無法直觀的從光譜曲線上判斷水體的COD含量, 因此還需要通過機(jī)器學(xué)習(xí)方法對其建模進(jìn)行分析。

        2.3 反演模型建模及對比

        2.3.1 機(jī)器學(xué)習(xí)模型超參數(shù)調(diào)整

        在機(jī)器學(xué)習(xí)中, 超參數(shù)是在開始學(xué)習(xí)過程之前設(shè)置值的參數(shù)。 決策樹的數(shù)量直接決定了隨機(jī)森林、 Adaboost、 XGBoost模型的性能, 以5作為步長設(shè)定決策樹的數(shù)量并對上述三個(gè)模型進(jìn)行訓(xùn)練, 通過觀察訓(xùn)練集均方誤差(mean-square error, MSE)隨決策樹的數(shù)量變化調(diào)整模型的決策樹數(shù)量, 最終結(jié)果如圖3(a,b,c)所示。 由于隨機(jī)森林模型具有隨機(jī)性, 所以決策樹增加時(shí), 模型的預(yù)測性能會出現(xiàn)波動, 在考慮模型性能以及模型運(yùn)行時(shí)間因素后, 將隨機(jī)森林的決策樹的數(shù)量設(shè)為175, AdaBoost的決策樹數(shù)量設(shè)為200, XGBoost決策樹數(shù)量設(shè)為350。

        圖2 水體樣本預(yù)處理后的光譜分布

        圖3 機(jī)器學(xué)習(xí)模型中決策樹數(shù)量與模型在訓(xùn)練集上的MSE的關(guān)系

        2.3.2 反演模型精度及對比

        對原始光譜數(shù)據(jù)和三種不同的預(yù)處理方法分別使用四種機(jī)器學(xué)習(xí)模型建模。 模型的反演精度與建模的訓(xùn)練時(shí)間如表2—表5所示。

        由表2—表5中數(shù)據(jù)可以看到, XGBoost在原始光譜以及三種經(jīng)過預(yù)處理數(shù)據(jù)上的建模精度均優(yōu)于其他模型, 且訓(xùn)練時(shí)間小于隨機(jī)森林模型以及Adaboost模型。 線性回歸所建的反演模型表現(xiàn)較差, 說明COD與光譜數(shù)據(jù)并沒有直接的線性關(guān)系。 在所有的模型中, 通過XGBooost對經(jīng)過SG平滑和MSC處理的數(shù)據(jù)所建的反演模型精度最高, 其中R2為0.92, RMSE為7.1 mg·L-1, RPD為3.4。 通過不同預(yù)處理方式所得的XGBoost反演模型散點(diǎn)圖如圖4(a—d)所示。

        表2 基于原始數(shù)據(jù)機(jī)器學(xué)習(xí)模型結(jié)果

        表4 基于MSC預(yù)處理機(jī)器學(xué)習(xí)模型結(jié)果

        表3 基于SG平滑預(yù)處理機(jī)器學(xué)習(xí)模型結(jié)果

        表5 基于SG平滑和MSC預(yù)處理機(jī)器學(xué)習(xí)模型結(jié)果

        圖4 不同預(yù)處理方法下XGBoost反演模型COD預(yù)測值與實(shí)測值關(guān)系散點(diǎn)圖

        2.4 特征波段提取及建模分析

        2.4.1 PCA提取特征波段

        利用主成分分析法(PCA)對經(jīng)過SG平滑以及MSC處理的高光譜數(shù)據(jù)進(jìn)行特征提取。 圖5為前10個(gè)主成分的方差貢獻(xiàn)率, 其中前五個(gè)主成分的累計(jì)方差貢獻(xiàn)率已經(jīng)達(dá)到95%以上, 包含了原始波段的大多數(shù)信息。 最終, 為保證盡可能多地保留原始高光譜信息, 選取了前十個(gè)主成分作為特征變量用于后續(xù)的建模及預(yù)測。

        圖5 利用PCA方法得到的前十個(gè)主成分的方差貢獻(xiàn)率

        表6 基于PCA方法XGBoost模型的結(jié)果

        2.4.2 基于特征波段的建模分析

        基于XGBoost機(jī)器學(xué)習(xí)方法對特征波段建立COD反演模型, 并在測試集進(jìn)行驗(yàn)證, 模型的精度以及模型訓(xùn)練時(shí)間見表6。

        由表6中可以看出, 在XGBoost模型中經(jīng)過PCA進(jìn)行特征波段提取所建的反演模型精度高于全波段所建的反演模型, 且大大縮短了訓(xùn)練時(shí)間, 說明經(jīng)過PCA進(jìn)行波段特征提取能夠一定程度上降低數(shù)據(jù)冗余。

        3 結(jié) 論

        以揚(yáng)州寶帶河COD為研究對象, 利用ZK-UVIR-I型原位光譜水質(zhì)在線監(jiān)測儀獲取COD的高光譜數(shù)據(jù)及對應(yīng)濃度數(shù)值, 分別采用SG平滑、 MSC以及SG平滑和MSC組合的方式對原始高光譜數(shù)據(jù)進(jìn)行預(yù)處理, 并使用四種機(jī)器學(xué)習(xí)算法(線性回歸模型、 隨機(jī)森林模型、 AdaBoost模型、 XGBoost)建立COD反演模型。 比較了不同預(yù)處理方法和機(jī)器學(xué)習(xí)模型COD反演模型精度的影響。 基于R2, RMSE和RPD比較了這幾種模型的精度, 此外還比較了各個(gè)模型的訓(xùn)練時(shí)間。 結(jié)果顯示, 線性回歸模型訓(xùn)練時(shí)間最短但是精度也最低。 XGBoost方法所建的反演模型精度, 最高RPD達(dá)到3.4。 XGBoost訓(xùn)練時(shí)間也少于隨機(jī)森林和Adaboost模型。 通過PCA方式對經(jīng)過SG平滑和MSC預(yù)處理后的全波段數(shù)據(jù)進(jìn)行特征提取, 所提取的特征波段數(shù)為10, 最后對這10個(gè)特征波段使用XGBoost進(jìn)行建模并取得了較好的效果, 而且特征波段訓(xùn)練時(shí)間遠(yuǎn)遠(yuǎn)低于全波段訓(xùn)練時(shí)間。 在實(shí)際生產(chǎn)過程中也可根據(jù)實(shí)際需求, 綜合考慮模型精度、 模型訓(xùn)練時(shí)間等因素進(jìn)行模型的選擇。

        研究結(jié)果表明, 基于機(jī)器學(xué)習(xí)的高光譜COD反演模型精度可以達(dá)到較高水平, 為機(jī)器學(xué)習(xí)在高光譜水質(zhì)監(jiān)測領(lǐng)域的應(yīng)用提供了參考。 此外, 機(jī)器學(xué)習(xí)模型可解釋性需要進(jìn)一步研究。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        成人欧美一区二区三区在线| 日本一区二区三区中文字幕最新 | 人妻少妇久久中文字幕一区二区| 亚洲香蕉视频| 亚洲成人av一区二区麻豆蜜桃| 最新在线观看免费的a站国产| 免费观看交性大片| 日本a爱视频二区三区| 美女mm131爽爽爽| 日产精品久久久久久久蜜臀| 久久久亚洲精品蜜桃臀| 国产人妖在线观看一区二区三区| 亚洲国产精品久久久久久无码| 内射无码专区久久亚洲 | 国产精品视频二区不卡| 久久久久综合一本久道| 国产精品成人一区二区在线不卡| 欧美日韩一区二区三区在线观看视频 | 亚洲青青草视频在线播放| 日本不卡一区二区三区在线视频 | 国产精品98福利小视频| 成人爽a毛片在线播放| 国产激情无码一区二区三区| 人与嘼av免费| 极品少妇被后入内射视| 亚洲最好看的中文字幕| 精品免费看国产一区二区| 青青国产成人久久91| 极品少妇一区二区三区四区视频| 久久99国产精品久久| 成人做爰69片免费看网站| 中文字幕色视频在线播放| 日本一区二区三区人妻| ā片在线观看免费观看| 黑人巨大精品欧美在线观看| 免费看片的网站国产亚洲| 精品国产青草久久久久福利| 国产一区二区波多野结衣| 人妻被猛烈进入中文字幕| 日本一区二区三区清视频| 亚洲av无码av在线播放|