亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合特征子空間分布對齊的標(biāo)定遷移方法

        2021-11-11 06:07:44趙煜輝劉曉東劉永宏
        光譜學(xué)與光譜分析 2021年11期
        關(guān)鍵詞:差異方法模型

        趙煜輝,劉曉東,張 磊,劉永宏

        東北大學(xué)秦皇島分校,河北 秦皇島 066000

        引 言

        近紅外光(NIR)是一種波長在780~2 526 nm之間的電磁波,近紅外光譜區(qū)與有機分子中含氫基團(O—H,N—H,C—H)振動的合頻和各級倍頻的吸收區(qū)一致,通過掃描樣品的近紅外光譜,可以得到樣品中有機分子含氫基團的特征信息[1-2]。近紅外光譜的多元標(biāo)定方法是利用含有氫基團化學(xué)鍵伸縮振動倍頻和合頻,在近紅外區(qū)域的吸收光譜,通過選擇適當(dāng)?shù)幕瘜W(xué)計量學(xué)領(lǐng)域的多元標(biāo)定方法,找到標(biāo)定樣本的近紅外吸收光譜與其相應(yīng)的成分濃度或性質(zhì)數(shù)據(jù)之間的關(guān)聯(lián),建立兩者之間的標(biāo)定關(guān)系模型[3]。主成分回歸(principal component regression,PCR)[4]和偏最小二乘(partial least squares,PLS)[5]等標(biāo)定方法已經(jīng)被證實是有效的,建立可靠的多元標(biāo)定模型通常耗時且成本高昂,然而在實際工業(yè)生產(chǎn)中,通過對原有近紅外光譜數(shù)據(jù)進行分析建立的模型往往對新的數(shù)據(jù)集并不適用,從而導(dǎo)致原有模型失效。解決此類問題通常有兩種方法:一是重新對新的數(shù)據(jù)集進行重新標(biāo)定和重建模型;二是建立標(biāo)定遷移模型,將已有可靠的源域多元標(biāo)定模型遷移到目標(biāo)域中。重新標(biāo)定和重建模型需要耗費大量的時間和資源[6],而標(biāo)定遷移不僅可以有效的避免這一缺點,而且還可以使得目標(biāo)領(lǐng)域取得可靠的學(xué)習(xí)效果。顯然,選擇第二種方法是解決此類問題的最佳策略[7]。

        一般來說,標(biāo)定遷移方法可以分為兩類:有標(biāo)樣的標(biāo)定遷移和無標(biāo)樣的標(biāo)定遷移。目前比較有代表性的有標(biāo)樣的標(biāo)定遷移方法有直接標(biāo)準(zhǔn)化(direct standardization,DS)[8]、分段直接標(biāo)準(zhǔn)化(piecewise direct standardization,PDS)[9]、基于典型相關(guān)分析的標(biāo)定遷移(canonical correlation analysis based calibration transfer,CCACT)[10-11]以及斜率和偏差校正算法(slope bias correction, SBC)[12]等,無標(biāo)樣的標(biāo)定遷移方法有多元散射校正(multiplicative scatter correction,MSC)[13]、遷移成分回歸(transfer component regression,TCR)[14]等,其中DS和PDS的前提是假設(shè)光譜響應(yīng)的變異都是測量環(huán)境引起的;但是實際上,我們所收集和整理的化學(xué)樣品也存在著一定的不確定性;SBC為一種單變量方法,因此在測量儀器和測量條件變化引起系統(tǒng)化的光譜差異的情況下,才能取得較好的效果?,F(xiàn)實生活中,光譜差異往往比較復(fù)雜,此時它的預(yù)測能力是不確定的;MSC 預(yù)處理方法并不能顯著提高模型的預(yù)測能力;TCR雖然具有較好的泛化能力,但與其他方法相比預(yù)測精度較低。

        大多數(shù)能夠顯著地提高預(yù)測性能的遷移方法都屬于有標(biāo)樣的標(biāo)定遷移方法,即需要標(biāo)準(zhǔn)樣本來構(gòu)建標(biāo)定遷移模型,且標(biāo)準(zhǔn)樣本中主儀器與從儀器的樣本必須一一對應(yīng)緊密匹配,具備良好的代表性和適應(yīng)性,能夠很好地解釋兩種儀器之間的差異。由于這些要求的限制,有標(biāo)樣的模型通常泛化能力較差。而已被提出的少量無標(biāo)準(zhǔn)標(biāo)定遷移方法雖然不需要標(biāo)準(zhǔn)樣本,但其預(yù)測性能與有標(biāo)樣的標(biāo)定遷移方法相比相差較大。因此,結(jié)合兩者優(yōu)點,開發(fā)一種性能可與有標(biāo)樣的遷移方法媲美的無標(biāo)準(zhǔn)樣本的遷移學(xué)習(xí)方法,將具有很大的意義。因此結(jié)合近紅外光譜維度高且存在多重共線性的特點,以主成分回歸(PCR)作為標(biāo)定模型,應(yīng)用遷移學(xué)習(xí)的思想,提出了一種無標(biāo)準(zhǔn)樣本的基于聯(lián)合特征子空間分布對齊(joint feature subspace distribution alignment,JSDA)的標(biāo)定遷移方法,在不需要標(biāo)準(zhǔn)樣本的情況下,取得相同甚至優(yōu)于已有經(jīng)典有標(biāo)樣的標(biāo)定遷移方法的預(yù)測性能。

        1 理 論

        1.1 符號定義

        1.2 模型建立

        下面我們將具體說明如何建立基于近紅外光譜特征預(yù)測物質(zhì)成分濃度的無標(biāo)準(zhǔn)樣本的標(biāo)定遷移模型。用均值和協(xié)方差來描述光譜數(shù)據(jù)分布。由于均值在數(shù)據(jù)預(yù)處理(如中心化)后通常為零,不受子空間投影的影響,因此不需要對它們進行處理。協(xié)方差反映著多維空間基向量之間的相關(guān)關(guān)系,源域和目標(biāo)域的協(xié)方差矩陣存在差異,且向子空間投影會對其產(chǎn)生影響,因此我們需要消除投影后兩者特征光譜協(xié)方差矩陣之間的差異,進而使得兩者數(shù)據(jù)分布對齊[15]。

        下面我們從理論上詳細闡述JSDA模型的建立過程:

        第一步:構(gòu)建聯(lián)合公共特征子空間

        (1)

        對于傳統(tǒng)的子空間對齊方法,源域與目標(biāo)域數(shù)據(jù)分別構(gòu)建低維特征子空間時,存在一個問題,由于投影矩陣Us和Ut的不同,造成轉(zhuǎn)換后兩者特征子空間基存在差異;通過計算線性映射矩陣來對齊子空間,從而最小化它們之間分布差異,這種方法稱為子空間對齊。而我們提出的構(gòu)建源域和目標(biāo)域的聯(lián)合特征子空間,使得源域和目標(biāo)域的特征光譜不僅具有相同的子空間基,并且能夠盡可能的保證原始數(shù)據(jù)在投影到該子空間上的時候不會失真,達到最優(yōu)狀態(tài),因此不需要進一步對齊子空間,又有很好的優(yōu)越性。

        第二步:特征分布對齊

        公共特征子空間中,源域和目標(biāo)域具有相同的子空間基,但這并不能解決兩者數(shù)據(jù)特征分布之間的差異,不能滿足預(yù)測模型應(yīng)用的獨立同分布條件。如上所述,我們用均值和方差描述一個分布。前面提到,均值在數(shù)據(jù)中心化處理后不受子空間投影的影響,因此我們只需消除投影后兩者特征光譜的協(xié)方差差異。為了最小化源域特征和目標(biāo)域特征的二階統(tǒng)計量(協(xié)方差:Σs和Σt∈Rd×d)之間的距離,我們對源域特征進行線性變換A∈Rd×d,使用Frobenius范數(shù)作為矩陣距離度量,從而最小化它們之間差異,如式(2)所示

        (2)

        進一步對式(2)推導(dǎo)可得

        ATΣsA=Σt

        (3)

        (4)

        而實際應(yīng)用中根據(jù)已有樣本估計的光譜數(shù)據(jù)協(xié)方差矩陣常是不可逆的,因為樣本數(shù)據(jù)集的特征數(shù)總大于樣本數(shù),但一般樣本可以集中于一個低維子空間中,構(gòu)建子空間中的特征光譜,此時一般可逆。對于協(xié)方差矩陣不可逆的情況,我們將結(jié)果修正如式(5)所示

        (5)

        為了便于理解,我們給出聯(lián)合特征子空間下的特征分布對齊示意圖如圖1,紅色表示源域特征樣本,藍色表示目標(biāo)域特征樣本。其中圖1(a)表示中心化后的兩域原始數(shù)據(jù)投影到聯(lián)合特征子空間上的分布差異,圖1(b)表示對源域特征進行線性變換后差異??梢钥吹浇?jīng)過均值和協(xié)方差校正后,兩域的特征分布基本相同。

        圖1 特征分布對齊示意圖

        第三步:構(gòu)建目標(biāo)函數(shù)

        本工作所解決的標(biāo)定遷移問題是一個預(yù)測問題,根據(jù)上述步驟的結(jié)果,我們可以應(yīng)用最小二乘法構(gòu)建校正分布差異后的源域回歸預(yù)測模型的目標(biāo)函數(shù),其形式化如式(6)所示

        (6)

        (7)

        經(jīng)過上述步驟,源域和目標(biāo)域具有相同的子空間基,且實現(xiàn)數(shù)據(jù)分布對齊,因而源域上構(gòu)建的回歸模型在兩域之前滿足數(shù)據(jù)獨立同分布條件。顯然,上述目標(biāo)函數(shù)求解得到的源域回歸模型,可以直接用于目標(biāo)域上的回歸預(yù)測。

        第四步:得到目標(biāo)域標(biāo)定模型

        上一步中,源域上得到的最小二乘回歸模型參數(shù)β和b可以直接用于目標(biāo)域上的回歸預(yù)測,如式(8)所示

        (8)

        1.3 算法流程

        算法:JSDA算法

        輸入:主儀器光譜矩陣Xs; 主儀器樣本物質(zhì)濃度矩陣ys; 從儀器光譜矩陣Xt。

        輸出:標(biāo)定遷移模型f(β,b,A)。

        開始:

        (1)數(shù)據(jù)中心化處理

        (3)利用式(1)找到公共特征子空間Ud;

        (6)利用式(6)建立源域標(biāo)定模型,得到模型參數(shù)β和b,返回標(biāo)定遷移模型。

        2 實驗部分

        為了驗證算法的準(zhǔn)確性和實用性,使用玉米數(shù)據(jù)集和小麥數(shù)據(jù)集作為實驗對象,對數(shù)據(jù)集進行了數(shù)據(jù)分析,來檢驗JSDA方法的性能。

        2.1 數(shù)據(jù)集

        第一個數(shù)據(jù)集是玉米數(shù)據(jù)集,包含三個 NIR 光譜儀(M5,MP5和 MP6)測得的80個樣品的光譜數(shù)據(jù)。這三臺不同的紅外光譜儀因其工作原理不同,所以得到的近紅外光譜略有差異,但對絕大多數(shù)谷物而言,儀器的工作原理不同所產(chǎn)生的誤差并不會影響試驗結(jié)果,所以我們采用這三臺儀器測量的80個玉米的近紅外光譜做分析。玉米數(shù)據(jù)集中每個樣品含有四種成分:水分,油,蛋白質(zhì)和淀粉。波長范圍為1 100~2 498 nm(700通道),間隔為2 nm。該數(shù)據(jù)集可以從http://www.eigenvector.com/Data/Corn/下載。儀器M5和儀器MP5之間的光譜差異如圖2(a)所示;儀器M5和儀器MP6之間的光譜差異如圖2(b)所示;儀器MP5和儀器MP6之間的光譜差異如圖2(c)所示。其中橫軸表示波長,縱軸表示吸光度差異(即兩種儀器的吸光度差值),每條曲線代表一個光譜樣本。

        第二個數(shù)據(jù)集是小麥數(shù)據(jù)集,它被用作2016年國際漫反射會議(IDRC)上發(fā)布的“Shootout”數(shù)據(jù)集,選擇蛋白質(zhì)含量作為屬性。小麥數(shù)據(jù)集的相關(guān)信息訪問網(wǎng)址http://www.idrc-chambersburg.org/content.aspx?page_id=22&club_id=409746&module_id=191116。它分析了來自三個不同NIR儀器制造商(A1,A2和A3)的248份小麥數(shù)據(jù)集的樣本。儀器A1和儀器A2之間的光譜差異如圖2(d)所示;儀器A1和儀器A3之間的光譜差異如圖2(e)所示;儀器A2和儀器A3之間的光譜差異如圖2(f)所示。

        圖2 不用儀器之間的光譜差異

        2.2 數(shù)據(jù)處理

        通過Kennard-Stone(KS)算法將玉米數(shù)據(jù)集的80個樣本分成兩組:80%用做標(biāo)定集的樣本,20%用做測試集的樣本;將小麥數(shù)據(jù)集的248個樣本分成兩組:80%用作標(biāo)定集的樣本,20%用作測試集的樣本。對于有遷移標(biāo)準(zhǔn)的遷移方法,使用Kennard-Stone(KS)算法在標(biāo)定樣本上選擇若干個標(biāo)準(zhǔn)樣品。

        2.3 模型評估指標(biāo)

        在該實驗中,均方根誤差(root mean squard error, RMSE)被用作參數(shù)選擇和模型評估的指標(biāo)。RMSE是預(yù)測值與真實值偏差的平方與觀測次數(shù)n比值的平方根,可表示數(shù)據(jù)偏離真實值的程度,其計算方法如式(9)所示

        (9)

        3 結(jié)果與討論

        玉米數(shù)據(jù)集包含各儀器樣本各80個,以M5為主儀器,MP5和MP6分別為從儀器以及MP5為主儀器,MP6為從儀器的實驗預(yù)測誤差RMSEP如表1所示。小麥數(shù)據(jù)集包含各儀器樣本各248個,以A1為主儀器、A2和A3分別為從儀器以及A3為主儀器、A2為從儀器的實驗預(yù)測誤差RMSEP如表2所示。其中表中有標(biāo)樣的遷移學(xué)習(xí)模型(SBC,PDS,CCACT)需要遷移標(biāo)準(zhǔn)樣本的個數(shù)Nstd不能過少也不能過多,因此,在[15, 35]的范圍內(nèi)選取標(biāo)準(zhǔn)樣本,以10為增量,獲取不同數(shù)量標(biāo)準(zhǔn)樣本對模型預(yù)測誤差的影響。觀察表中的預(yù)測誤差結(jié)果,總體來說,本文提出的JSDA方法在六組對比實驗中具有最小的預(yù)測誤差,最好的預(yù)測精度。在其他五種有標(biāo)樣和無標(biāo)樣標(biāo)定遷移方法中,可以發(fā)現(xiàn)三種有標(biāo)樣標(biāo)定遷移方法(SBC, PDS, CCACT)的預(yù)測誤差都小于無標(biāo)樣標(biāo)定遷移方法(MSC, TCR)。有標(biāo)樣方法雖然需要獲取標(biāo)準(zhǔn)樣本,增加了模型的應(yīng)用代價,但相應(yīng)的預(yù)測精度也得到了提升,而無標(biāo)樣方法不需要標(biāo)準(zhǔn)樣本,提高了模型的泛化能力和適用性,但相應(yīng)的預(yù)測精度也受到了影響。本文提出的JSDA方法,很好的解決了無標(biāo)樣標(biāo)定遷移方法預(yù)測精度較低的問題,在具備與標(biāo)定遷移方法相同甚至更加優(yōu)異的預(yù)測精度的同時,還具備良好的適用性,應(yīng)用代價較低。

        表1 SBC, PDS, CCACT, MSC, TCR 和 JSDA 六種遷移方法在玉米數(shù)據(jù)集下的RMSEP

        表2 SBC, PDS, CCACT, MSC, TCR和JSDA六種遷移方法在小麥數(shù)據(jù)集下的RMSEP

        為了直觀地觀測六種標(biāo)定遷移方法的性能,實驗中,以從儀器測試集的物質(zhì)濃度數(shù)據(jù)測量值為橫坐標(biāo),以標(biāo)定遷移方法的預(yù)測值為縱坐標(biāo),描繪玉米數(shù)據(jù)集三組實驗和小麥數(shù)據(jù)集三組實驗的觀測濃度與預(yù)測濃度關(guān)系圖,如圖3—圖8所示。圖中的無差異直線表示,若觀測濃度與預(yù)測濃度之間誤差為零,則對應(yīng)的樣本點會落在此直線上。對比觀察圖3—圖8中的預(yù)測結(jié)果可知,六種模型中MSC模型在兩組實驗四種物質(zhì)上的預(yù)測結(jié)果基本都聚集在無差異直線的某一側(cè),這與表1和表2中展示的結(jié)果相呼應(yīng),表明MSC模型的性能較差,無法準(zhǔn)確的標(biāo)定從儀器的物質(zhì)濃度。而CCACT,PDS,SBC,TCR以及本文提出的JSDA模型在兩組實驗上的預(yù)測結(jié)果基本都聚集在無差異直線的兩側(cè),分布都較為均勻,但相對來說,SBC模型的預(yù)測結(jié)果分布較為散亂,表明模型魯棒性較差。對比所有模型的預(yù)測結(jié)果,以JSDA模型的預(yù)測結(jié)果最為貼近無差異直線,擬合效果最好,結(jié)合表1和表2中的結(jié)果,可以得知,本文提出的JSDA方法具備最佳的預(yù)測性能,同時具有更好的泛化能力。

        圖3 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器M5和儀器MP5之間預(yù)測結(jié)果的散點圖

        圖4 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器M5和儀器MP6之間預(yù)測結(jié)果的散點圖

        圖5 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器MP5和儀器MP6之間預(yù)測結(jié)果的散點圖

        圖6 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器A1和儀器A2之間預(yù)測結(jié)果的散點圖

        圖7 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器A1和儀器A3之間預(yù)測結(jié)果的散點圖

        圖8 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器A3和儀器A2之間預(yù)測結(jié)果的散點圖

        4 結(jié) 論

        通過在玉米和小麥的近紅外光譜數(shù)據(jù)集上,在JSDA與SBC,PDS,CCACT,MSC,TCR五種對比標(biāo)定遷移方法之間,進行的兩組對比實驗,驗證了本文方法的性能??傮w來說,實驗結(jié)果中,本文提出的JSDA方法的預(yù)測誤差都是最低的,表明在實驗的兩個數(shù)據(jù)集上,JSDA方法的性能最優(yōu)異,其次是PDS和CCACT,SBC雖然預(yù)測的RMSE較小,但預(yù)測結(jié)果不穩(wěn)定,然后是TCR,而MSC方法的預(yù)測性能最差。實驗結(jié)果充分驗證了本文所提JSDA方法在實際應(yīng)用中的優(yōu)越性,JSDA方法在解決傳統(tǒng)標(biāo)定遷移方法大多需要標(biāo)準(zhǔn)樣本這一缺點的同時,具備與有標(biāo)樣的標(biāo)定遷移方法相同甚至更優(yōu)異的性能。

        猜你喜歡
        差異方法模型
        一半模型
        相似與差異
        音樂探索(2022年2期)2022-05-30 21:01:37
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        找句子差異
        生物為什么會有差異?
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        色综合久久精品中文字幕| 亚洲av熟女天堂久久天堂| 蜜桃视频成年人在线观看| 亚洲伦理第一页中文字幕| 极品少妇被猛的白浆直喷白浆| 久久久精品免费观看国产| 国产av91在线播放| 在线国产激情视频观看| 欧美精品亚洲精品日韩专区 | 丰满人妻猛进入中文字幕| 国产亚洲欧美精品久久久| 四虎永久在线精品免费观看地址| 免费观看成人稀缺视频在线播放| 国产高清大片一级黄色| 国产一区二区三区日韩精品| 午夜射精日本三级| 亚洲第一成人网站| 久久人妻av不卡中文字幕| 国产又湿又爽又猛的视频| 精品久久久久久亚洲综合网| 小蜜被两老头吸奶头在线观看| 麻豆成人在线视频| 视频二区精品中文字幕| 久久狠狠髙潮曰十八女人| 国产自拍在线视频91| 十八禁在线观看视频播放免费 | 一道本中文字幕在线播放| 人妻少妇精品中文字幕专区| 亚洲日本中文字幕天天更新| 亚洲精品6久久久久中文字幕| 日韩在线精品免费观看| 大香焦av一区二区三区| 精品乱码久久久久久久| 久久久久亚洲AV成人网毛片 | 国产一级一片内射视频在线| 手机在线看片国产人妻| 成人国产精品一区二区视频 | 人人鲁人人莫人人爱精品| 亚洲深深色噜噜狠狠爱网站| 一区二区三区在线观看日本视频| 亚洲人成综合第一网站|