亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的聯(lián)合區(qū)間隨機蛙跳算法的近紅外光譜波長選擇

        2020-11-05 00:58:02程介虹陳爭光
        光譜學與光譜分析 2020年11期
        關鍵詞:子集波長光譜

        程介虹,陳爭光,2*

        1. 黑龍江八一農墾大學電氣與信息學院,黑龍江 大慶 163319 2. 黑龍江省水稻生態(tài)育秧裝置及全程機械化工程技術中心,黑龍江 大慶 163319

        引 言

        近紅外光譜區(qū)(800~2 500 nm)的含氫基團的倍頻和合頻吸收峰組成的吸收強度較弱靈敏度較低,吸收帶較寬且嚴重重疊。若采用全譜建模,不僅會存在某些光譜區(qū)域與待測組分相關性弱,而且相鄰的波長高度相關,包含了大量的冗余信息,這都會影響模型的精度和穩(wěn)健性??朔@些問題的有效途徑是對所測得的光譜進行波長選擇,減少建模所需的波長點和計算工作量,進而得到預測能力強、魯棒性高的模型。在眾多特征波長選擇算法中,隨機蛙跳(random frog, RF)[1]是近年來提出的一種新型特征波長選擇算法。其依據(jù)不同的變量具有不同的被選擇可能性,通過多次迭代,計算每個變量被選擇的概率,選擇概率高的變量為特征波長。

        陳立旦等[2]通過RF選出特征波長后,建立最小二乘支持向量機(least squares support vector machine, LS-SVM)模型,對生物柴油的含水量進行預測,發(fā)現(xiàn)RF-LS-SVM模型的相關系數(shù)大于0.95,可以準確地預測生物柴油的含水量。胡孟晗等[3]通過RF對特征波長進行提取,建立LS-SVM模型預測藍莓硬度和彈性模量,與全譜模型對比,RF算法可以有效地去除冗余信息,提升模型預測準確率。孫紅等[4]采用相關系數(shù)法(correlation coefficient, CC)和RF算法篩選對葉綠素含量敏感的波長,建立偏最小二乘回歸(partial least squares regression, PLSR)模型對馬鈴薯作物的葉綠素含量進行預測,結果表明RF-PLSR模型預測精度優(yōu)于CC-PLSR,可實現(xiàn)馬鈴薯不同葉位葉綠素含量的無損檢測。此外,Yu等[5]采用RF和PLSR建立校準模型,發(fā)現(xiàn)通過380~1 030 nm區(qū)域的波長可實現(xiàn)辣椒植物的總氮含量的預測。Zhao等[6]通過RF算法選擇特征波長,建立RF-PLSR和RF-LS-SVM模型預測桑葚果實的總可溶性固體值含量,兩個模型皆具有良好的性能。以上結果表明RF算法在數(shù)據(jù)降維方面是有效的。

        盡管RF算法在特征波長選擇方面具有一定優(yōu)勢,但存在兩方面的不足:其一是,初始變量集V0的產(chǎn)生是隨機的,難以保證初始信息的有效性;算法為保證運行過程中遍歷整個數(shù)據(jù)集,要求迭代次數(shù)N需足夠大,從而導致算法的運行時間長、收斂速度慢。其二是,RF在選擇特征波長時,選擇被選概率值大于閾值的變量為特征波長,但對閾值的設定無理論依據(jù),易受人為因素影響。

        針對上述兩點,對RF算法進行了改進,提出一種聯(lián)合區(qū)間隨機蛙跳(synergy interval-random frog, Si-RF)算法,以一組公開的土壤樣本近紅外光譜數(shù)據(jù)為例,分別利用RF和改進的Si-RF進行特征波長選擇,建立多元線性回歸(multiple linear regression, MLR)模型,比較預測精度,并與全譜的PLSR模型進行對比,以證明改進的Si-RF算法的有效性。

        1 實驗部分

        1.1 樣本數(shù)據(jù)

        所用數(shù)據(jù)為一組土壤樣本近紅外光譜數(shù)據(jù),來自于網(wǎng)站Quality & Technology。該數(shù)據(jù)集包含108個土壤樣本。樣本光譜的波長范圍為400~2 500 nm,采樣間隔為2 nm,共計1 050個波長點。本文以土壤有機質(soil organic matter, SOM)的含量作為因變量進行波長選擇及近紅外光譜數(shù)據(jù)建模預測分析。

        1.2 隨機蛙跳算法

        1.2.1 算法步驟

        RF是Li[1]提出的一種類似于可逆跳躍馬爾可夫鏈蒙特卡羅(reversible jump Markov Chain Monte Carlo, RJMCMC)的算法,它以迭代的方式進行,計算每個變量在每次迭代中被選擇的概率,概率越高變量重要性越大,優(yōu)選概率高的變量為特征變量。

        隨機蛙跳的主要步驟包括以下三步[1]:

        (1)初始化:參數(shù)設置,隨機選擇一個包含Q個變量的變量子集V0;

        (2)概率引導模型搜索:基于V0,選擇包含Q*(隨機產(chǎn)生)個變量的候選變量子集V*,以一定概率接受V*作為V1,并用V1代替V0,循環(huán)此步驟直至N次迭代完成;

        (3)變量評估:計算每個變量被選擇的概率,概率越高變量重要性越大。

        其中概率引導模型搜索和變量評估具體方法如下。

        1.2.2 概率引導模型搜索

        首先,從均值為Q、方差為0.3Q的正態(tài)分布中隨機選擇一個整數(shù)Q*,之后通過以下三種方式之一產(chǎn)生一個包含Q*個變量的候選變量子集V*:

        (1)如果Q*=Q,則令V*=V0。

        (2)如果Q*

        (3)如果Q*>Q,則從V-V0(V代表包含全部p個變量的集合)中隨機抽取ω(Q*-Q)個變量,ω默認值為3,生成一個變量子集T,通過V0和T的組合建立PLS模型,保留模型中回歸系數(shù)最大的Q*個變量,并將其設為候選子集V*。

        簡而言之,利用所提出的正態(tài)分布控制變量數(shù),實現(xiàn)變量的增、刪操作。在得到候選變量子集V*后,下一步是確定V*是否可以被接受。分別對V0和V*建立PLS模型,計算交叉驗證均方根誤差(cross-validation root mean square error, RMSECV),得到RMSECV和RMSECV*。如果RMSECV*≤RMSECV,接受V*為V1,否則接受V*為V1概率為0.1RMSECV/RMSECV*。最后,使用V1中的變量更新V0,并重復N次迭代,直至循環(huán)結束。

        1.2.3 變量評估

        N次迭代之后,總共獲得N個變量子集。對于每個變量,可以使用式(1)計算其被選擇的概率。

        (1)

        式(1)中,Nj為第j個變量在N次迭代中被選擇的次數(shù),變量越重要,被這N個變量子集選擇的機會就越多。因此,該選擇概率可以用作變量重要性的度量,可以用作變量選擇的標準。

        1.3 對RF算法的改進

        1.3.1V0子集的初選

        在RF算法中,初始變量集V0的產(chǎn)生是隨機的,具有較大的不確定性,可能會產(chǎn)生無信息變量或干擾信息,從而導致算法的迭代次數(shù)大,運行時間長。為了提高初始集V0變量的有效性,減少迭代次數(shù),對V0子集的產(chǎn)生進行改進。

        聯(lián)合區(qū)間偏最小二乘法(synergy interval partial least squares, SiPLS)是Norgaard提出的一種波長選擇算法。該方法將光譜劃分為等寬的n個子區(qū)間,對其中m個子區(qū)間任意組合為聯(lián)合區(qū)間?;诼?lián)合區(qū)間建立PLS模型,比較各PLS模型的RMSECV的值,將最小RMSECV值所對應的聯(lián)合區(qū)間的波長設為初始變量集V0,開始迭代,可以消除V0的隨機性,避免無信息變量及噪聲的干擾,從而減少迭代次數(shù)。

        1.3.2 建模波長的優(yōu)選

        在RF算法中,一般選擇概率值較大的前10或15個變量,或者通過人為設定概率的閾值,取概率值大于閾值的變量來選擇符合要求的特征波長,建模波長數(shù)量選擇存在不確定性。

        本文的改進是:對排序后的變量從第一個波長開始,每次增加一個波長,建立光譜數(shù)據(jù)和有機質含量數(shù)據(jù)之間的MLR模型。計算每個模型的驗證均方根誤差(root mean square error of validation, RMSEV)值,其中最小RMSEV值所對應的變量子集即為特征波長。RMSEV可以使用式(2)計算

        (2)

        這樣可以找到預測精度最優(yōu)所包含的波長數(shù),提高預測精度。

        1.4 建模方法

        現(xiàn)有研究大多對RF所選特征波長建立PLSR模型。而MLR是一種常規(guī)的校正方法,直觀簡單,且具有良好的統(tǒng)計特性,應用非常普遍,其優(yōu)點是產(chǎn)生的模型比主成分回歸(principal components regression, PCR)和PLSR模型更簡單,更易于解釋。

        本工作建立三種模型:基于全譜的PLSR模型、基于RF波長選擇的MLR模型和基于Si-RF改進的波長選擇的MLR模型。通過三種模型預測能力的比較驗證本法的有效性。模型的預測能力主要通過校正相關系數(shù)(Rc)、校正均方根誤差(RMSEC)、預測相關系數(shù)(Rp)、預測均方根誤差(RMSEP)指標來評價。其中,R取值越接近1,RMSEC和RMSEP越接近0,模型的擬合性越好,預測精度越高。

        1.5 數(shù)據(jù)分析

        軟件采用MATLAB R2015b及The Unscrambler X 10.3 (64-bit),光譜數(shù)據(jù)的預處理、建模分析及預測在Unscrambler軟件中實現(xiàn),特征波長提取、圖形的繪制在MATLAB中實現(xiàn)。計算機硬件的配置為Intel(R)Core(TM)i5-3450CPU@3.50GHz處理器,8GB內存,操作系統(tǒng)為windows10。

        2 結果與討論

        2.1 光譜數(shù)據(jù)特征

        土壤樣本的原始近紅外光譜圖如圖1(a)所示。為校正光譜基線,消除其他背景的干擾,提高光譜分辨率,并且在一定程度上減少各變量間的線性相關性,利用Savitzky-Golay窗口寬度為11的一階求導法對原始光譜數(shù)據(jù)進行預處理,預處理后的近紅外光譜圖如圖1(b)所示,可以發(fā)現(xiàn)通過預處理后的近紅外光譜曲線,能更精確地確定吸收峰的位置。

        圖1 原始光譜圖及預處理后的光譜圖(a): 原始光譜圖;(b): S-G一階導處理后的光譜圖Fig.1 Original and pre-processed spectra(a): Original; (b): S-G first derivative

        將108個土壤樣本通過SPXY(sample set portioning based on joint x-y distance)算法分為75%訓練集和25%預測集,建模集包含81個樣本,預測集包含27個樣本,土壤有機質含量統(tǒng)計數(shù)據(jù)結果如表1所示。劃分后的建模集的SOM含量范圍涵蓋預測集的SOM含量,建模集具有代表性。

        表1 土壤有機質含量統(tǒng)計數(shù)據(jù)結果Table 1 Statistical data of soil organic matter content

        2.2 特征波長選取

        2.2.1 RF變量選擇結果

        如前所述,首先對RF進行初始化參數(shù)設置,N設定為10 000,Q設定為10,開始運行。每個變量被選擇的概率結果如圖2所示,選擇概率大于0.2的變量為最終特征波長,得到滿足條件的有10個波長點分別為1 420,1 390,1 392,1 394,1 388,1 422,2 318,1 424,1 396和1 922 nm。

        圖2 RF運行結果Fig.2 The result of random frog

        2.2.2 Si-RF變量選擇結果

        表2 SiPLS子區(qū)間優(yōu)選結果Table 2 Sub-interval optimization results of SiPLS

        由表2可以發(fā)現(xiàn),將全譜等分為30個區(qū)間,組合數(shù)設置為3時,RMSECV最小,此時所選的特征波長點為104個,將這三個波段1 182~1 250,1 392~1 460和2 288~2 354 nm,共計104個波長點作為初始變量子集V0,RF算法的迭代次數(shù)分別設置為500,1 000,1 500和2 000次,得到結果如表3所示。

        表3 不同迭代次數(shù)的優(yōu)選結果Table 3 Optimal results of different iteration times

        由表3可知,當N設置為1 000次時,RMSEV值最小。該情況下Si-RF運行結果如圖3所示,每個變量被選擇的概率結果如圖3(a)所示。將每個變量被選擇的概率值進行降序排列,從第一個波長開始,逐次增加一個波長建立MLR模型。各模型的RMSEV值如圖3(b)所示,正方形標記所示為最低RMSEV值,為0.818 4,此時選擇的特征波長數(shù)為17個,分別為1 392,1 394,1 420,2 332,2 330,1 418,1 440,1 348,1 920,1 402,2 000,1 424,2 312,1 442,1 426,1 444和2 364 nm。

        圖3 Si-RF運行結果(a): 各變量被選概率;(b): 各模型RMSEV值Fig.3 The result of Si-RF(a): Selection probability of each variable;(b): RMSEV values of each model

        2.3 模型建立與比較

        將全譜、RF以及 Si-RF選擇的特征波長,建立回歸模型比較預測能力,得到模型的校正、預測相關系數(shù)和校正、預測均方根誤差的值如表4所示。

        表4 不同波長選擇方法下模型的結果Table 4 Results of model with different wavelength selection methods

        從表4可以看出,RF和Si-RF模型的各項參數(shù)均優(yōu)于全譜,改進的Si-RF算法模型的各項參數(shù)均優(yōu)于RF?;赗F所選特征波長的MLR模型的Rp為0.9354,RMSEP為1.627 6,而改進后Si-RF選擇的特征波長MLR模型的Rp為0.984 8,RMSEP減小到0.818 4,大大提升了預測精度。

        圖4分別為對建模集、預測集樣本的全譜-PLS、RF-MLR和Si-RF-MLR模型的SOM的實測值和預測值相關圖。從圖中可以更加直觀的看出,基于Si-RF波長選擇算法的MLR模型優(yōu)于全譜模型及RF算法的MLR模型。

        圖4 不同模型下土壤有機質的實測值和預測值相關圖(a): 全譜-PLS;(b): RF-MLR;(c): Si-RF-MLRFig.4 Correlation between measured and predicted values of SOM obtained from different models(a): Full spectrum PLS; (b): RF-MLR; (c): Si-RF-MLR

        由于RF算法對初始變量集的產(chǎn)生是隨機的,有較大的不確定性,可能會包含無信息變量或干擾信息,從而導致算法的迭代次數(shù)大、運行時間長。而通過SiPLS特征波長初選,得到的波長對于目標變量變化最為敏感,同時避免了其他光譜無信息變量與噪聲的影響。所以首先對全譜通過SiPLS進行特征波長初選,將其初選結果作為RF的初始變量子集V0,這樣可以改善RF收斂速度慢的問題,減少RF算法的迭代次數(shù),大大節(jié)省運行時間,并且由于初始變量子集是針對于有效信息的波長,有利于RF每次迭代中V*所包含的波長的選擇,可以提高預測精度。在運行中,迭代次數(shù)也由10 000次減少至1 000次,提高運行效率。

        通過Si-RF選出的特征波長點的范圍在1 348~1 444,1 920~2 364 nm之間,這與許多前人研究所選波長點范圍基本一致。如:白婷等[7]針對艾比湖60個表層土樣,基于CARS算法提取的SOM特征波段主要集中在1 970和2 340 nm附近;朱亞星等[8]通過UVE-CARS優(yōu)選出84個變量做為預測SOM含量的特征波長,分布于561~721和1 920~2 280 nm波段;于雷等[9]通過CARS-SPA優(yōu)選出的37個特征波長,集中在近紅外區(qū)域1 800~2 400 nm,而且基于波長選擇建立的SOM含量的PLSR模型預測精度最優(yōu)。本工作Si-RF優(yōu)選出的波段與圖2B近紅外光譜曲線吸收峰的位置也基本一致,符合高志海等[10]的論點,即光譜曲線上的凸起區(qū)可能對提取土壤有機質信息有實際意義。

        對比RF及Si-RF所選波長點范圍,RF的范圍在1 388~1 424和1 922~2 318 nm之間,Si-RF的范圍在1 348~1 444和1 920~2 364 nm之間,可以發(fā)現(xiàn)Si-RF已經(jīng)基本涵蓋RF所選波長的大部分,這也在一定程度上說明可以減少算法迭代次數(shù)。

        3 結 論

        提出了一種近紅外光譜分析中特征波長選擇的Si-RF算法,該方法通過對全譜進行SiPLS特征波長初選,將所得的波長做為初始變量子集,使得初始變量子集涵蓋有效信息,以解決RF中迭代次數(shù)過多,運行效率較低的問題。將RF和改進的Si-RF應用于一組土壤樣本近紅外光譜數(shù)據(jù)集,將由RF選擇的特征波長和改進的Si-RF選擇的特征波長提取出來,建立MLR模型,發(fā)現(xiàn)Si-RF-MLR模型的預測精度優(yōu)于RF-MLR,并且在運行時間上也大大降低,提高運行效率;相較于全譜的PLSR模型,也極大的提高了預測精度,簡化模型的復雜度。證明改進的Si-RF是一種有效的特征波長選擇算法。

        猜你喜歡
        子集波長光譜
        由一道有關集合的子集個數(shù)題引發(fā)的思考
        HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
        基于三維Saab變換的高光譜圖像壓縮方法
        拓撲空間中緊致子集的性質研究
        關于奇數(shù)階二元子集的分離序列
        雙波長激光治療慢性牙周炎的療效觀察
        日本研發(fā)出可完全覆蓋可見光波長的LED光源
        中國照明(2016年4期)2016-05-17 06:16:15
        星載近紅外高光譜CO2遙感進展
        中國光學(2015年5期)2015-12-09 09:00:28
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        便攜式多用途光波波長測量儀
        物理實驗(2015年9期)2015-02-28 17:36:46
        中文字幕色偷偷人妻久久一区| 综合无码一区二区三区四区五区| 91精品91久久久久久| 美女射精视频在线观看| 亚洲av丰满熟妇在线播放| 久久和欧洲码一码二码三码| 亚洲国产精品嫩草影院久久| 国产一区二区三区经典| 亚洲麻豆视频免费观看| 中国女人做爰视频| 精品伊人久久香线蕉| 国产91九色视频在线播放| 午夜免费观看日韩一级视频| 亚洲狠狠婷婷综合久久久久图片 | 婷婷丁香五月中文字幕| 久久久亚洲精品午夜福利| 国产亚洲精品一区二区在线观看| 日日日日做夜夜夜夜做无码| 永久免费无码av在线网站| 日本一区免费喷水| 国产不卡视频在线观看| 日本亚洲欧美色视频在线播放| 色老头一区二区三区| 又爽又猛又大又湿的视频| 色偷偷激情日本亚洲一区二区| 人人妻人人澡人人爽久久av| 99re国产电影精品| 激情五月天色婷婷久久| 特级精品毛片免费观看| 亚洲成人福利在线观看| 国产麻豆成人精品av| 伊人久久精品无码av一区| 国产精品福利视频一区| 在线你懂| 国产熟女露脸91麻豆| 精品国产一区二区三区免费| 久久久国产精品免费无卡顿| 精品久久一品二品三品| 国产精品亚洲а∨无码播放不卡| 夜夜综合网| 亚洲综合新区一区二区|