亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于流形降維和梯度提升樹的大氣腐蝕速率預測模型

        2018-08-02 01:12:18梁喜旺付冬梅楊燾
        裝備環(huán)境工程 2018年6期
        關鍵詞:特征模型

        梁喜旺,付冬梅,楊燾

        (北京科技大學 自動化學院,北京 100083)

        大氣環(huán)境下的金屬腐蝕作為一種常見現(xiàn)象,會造成嚴重的經(jīng)濟損失、安全隱患、資源浪費[1-2],研究和掌握大氣腐蝕規(guī)律具有重要的工程意義。大氣腐蝕受到大氣環(huán)境、金屬化學成分含量和暴露時間等多方面因素影響,不同于基于腐蝕速率與環(huán)境因素關系的研究,預測新環(huán)境下特定材料的腐蝕行為,文中分析了特定大氣環(huán)境下金屬化學成分含量和暴露時間因素對大氣腐蝕速率的影響,建立了腐蝕速率預測模型。

        文中數(shù)據(jù)集具有高維、非線性且小樣本的特點,化學成分對腐蝕速率的影響非常復雜,多達14種的化學元素影響程度各不相同,部分元素之間還存在相互作用的現(xiàn)象。由于樣本種類有限,含有某些元素如鈮、鐳的金屬比較少,這些特征變化不大,出現(xiàn)大量0值,帶來了特征突變、數(shù)據(jù)冗余等問題,為建模預測帶來困難。針對這些問題,文中首先對化學成分數(shù)據(jù)進行降維處理,得到更為約簡、預測能力更強的特征。一般認為,腐蝕現(xiàn)象的發(fā)生是有一定條件的,各個化學成分之間存在一定形態(tài)的約束關系,這種約束關系決定了金屬材料自身的耐腐蝕性。常用的主成分分析 PCA[3]是基于數(shù)據(jù)歐式距離全局結構的線性降維方法,可能會破壞數(shù)據(jù)間的非線性約束關系。流形方法[4]在保持數(shù)據(jù)全局或局部約束關系的同時,尋找一個映射子空間,使得降維后數(shù)據(jù)更加接近原始數(shù)據(jù)的非線性本質(zhì),比較具有代表性的有ISOMAP,LLE,LE等。等度規(guī)映射ISOMAP是多維尺度分析的拓展,盡量保持全局流形上兩點距離不變;局部線性嵌入LLE在樣本點和它的鄰域點之間構造一個重構權向量,在低維空間中保持權值不變;拉普拉斯特征映射LE構造樣本點之間的關聯(lián)矩陣,并在重構低維嵌入時,保持高維空間中距離近的點在低維空間距離也近。上述流形方法雖然能實現(xiàn)高維數(shù)據(jù)的約簡,卻不能得到高維空間到低維空間的顯式映射,降維處理只限于訓練樣本,難以應用到測試樣本,此問題能通過引入線性化過程得以解決[5]。局部保持投影LPP是[6]LE算法的線性化算法,依據(jù)流形思想,保持局部信息,并得到高維數(shù)據(jù)到低維嵌入的線性映射。文中采用 LPP算法對金屬化學成分進行降維處理,此外,為了較好地重構低維嵌入,提高局部保持能力,對LPP算法進行正交化改進。

        LPP降維后的低維特征未與大氣腐蝕速率建立聯(lián)系,需要利用一定的建模方法實現(xiàn)腐蝕速率的預測。腐蝕速率預測領域常用的方法有灰色預測模型[7]、人工神經(jīng)元網(wǎng)絡[8]和CART回歸樹[9]等。典型的灰色GM(1,1)模型適合單一時序預測,難以引入金屬化學成分的影響;神經(jīng)元網(wǎng)絡雖然能實現(xiàn)基于多個因素的預測,但需要大量樣本和復雜的網(wǎng)絡結構,且易于過擬合;CART回歸樹從單個特征入手,遍歷所有特征,尋找最優(yōu)劃分特征和最優(yōu)劃分點,并在子空間重復劃分,比較適合文中數(shù)據(jù)。單個回歸模型結構簡單,預測精度較低,容易出現(xiàn)過擬合現(xiàn)象,并對噪聲敏感[10]。針對這些問題,文中采用梯度提升決策樹算法。GBDT是近年來最有效的機器學習方法之一,是一種基于CART樹的集成模型,最早由Friedman提出[11],具有較好的健壯性和泛化能力,能有效提升預測準確性。同時,GBDT模型的可解釋性比較好,能夠分析影響腐蝕的關鍵因素。

        文中主要利用 LPP算法挖掘了高維、非線性且小樣本數(shù)據(jù)的本質(zhì)特征,并結合 GBDT模型實現(xiàn)了大氣腐蝕速率的預測,同時與幾種典型預測模型進行對比研究。

        1 LPP算法及正交化改進

        LPP作為流形學習的重要分支,是一種典型的基于近鄰圖的降維方法,是拉普拉斯特征映射LE算法的線性化算法。為了方便表示,設原始數(shù)據(jù)集為低維嵌入為滿足?D×d,為線性映射矩陣。LPP的目標是在尋找最優(yōu)映射的同時,保持原始數(shù)據(jù)中的局部幾何結構,通過k近鄰法構建近鄰圖 G={ X, W },若xi和xj互為近鄰點,則通過熱核函數(shù)為兩點賦予連接權值,定義如式(1)所示。

        式中:代表L2范數(shù);t為熱核參數(shù)。

        LPP優(yōu)化目標函數(shù)[12]:

        式中:I為單位矩陣;D為對角線矩陣,為W 矩陣的行求和或列求和,即為拉普拉斯矩陣。為了得到唯一解,需要滿足約束條件

        由式(1)熱核函數(shù)定義可知,原始高維空間距離較近的點之間具有較大的連接權值,因此,映射到低維空間中的點只有保持較近的距離才能使得目標函數(shù)達到最小。采用該方法計算的連接權值Wij保證了高維空間中處于近鄰的數(shù)據(jù)點在低維空間中距離也很近。

        顯然,可以將式(1)改寫成:

        先考慮分子項

        式中:tr(·)代表矩陣跡操作。令ei表示單位向量,第i個元素為1,其余為0,因此有:

        展開括號內(nèi)項,并重新合并項可得:

        因此可得:

        同理可得:

        因此可將 LPP優(yōu)化問題(1)轉(zhuǎn)化成式(9)所示的矩陣跡之比形式。

        通常來說,矩陣跡之比優(yōu)化問題是非凸的,同時不存在閉式解,一般轉(zhuǎn)化為更為簡單的比值之跡形式[12],如式(10)所示:

        上式能夠通過以下廣義特征值問題求解:

        A由式(11)的前d個最小特征值對應的特征向量組成。

        LPP兼顧了局部最小映射和保持全局信息,但LPP得到的映射 A是非正交的,由式(3)和歐式距離定義,低維空間中yi和yj的距離可以表示為式(12)??梢?,非正交的A在數(shù)據(jù)重構的過程中必然造成原始歐式空間結構不能完全被恢復。

        通過正交化投影矩陣A,使得AAT=I,那么原始數(shù)據(jù)空間結構能被完全保持,局部信息損失降低。此外,降維后數(shù)據(jù)正交,特征區(qū)分度更高,有利于建模預測。文中采用一種基于QR分解的正交化LPP方法[6]。由式(10)可得出一個結論:若?A為它的一個最優(yōu)解,則V也是它的一個最優(yōu)解,V是任意可逆矩陣,因為:

        QR分解是一種應用廣泛的矩陣分解方式,將矩陣分解為正交矩陣Q和上三角矩陣R的乘積形式,對式(10)最優(yōu)解進行QR分解:可得由上述結論可知也是優(yōu)化問題(10)的最優(yōu)解,并滿足正交約束條件:A~A~T=I。

        文中采用的正交化 LPP算法首先求解原始 LPP算法投影矩陣然后對進行QR分解,得到正交矩陣最終得到低維嵌入算法為非監(jiān)督學習,低維數(shù)據(jù)集沒有與腐蝕速率建立聯(lián)系,需要借助回歸模型實現(xiàn)腐蝕速率預測。

        《易經(jīng)》所提到的“天行健,君子以自強不息;地勢坤,君子以厚德載物”,其意思是天(即自然)的運動剛強勁健,相應于此,君子處世,應像天一樣,自我力求進步,剛毅堅卓,發(fā)憤圖強,永不停息;大地的氣勢厚實和順,君子應增厚美德,容載萬物。中國幾千年來所積淀的傳統(tǒng)文化精髓告訴我們,不論是做人還是做事,都必須把“修身”“修德”作為人生的第一課?!白詮姴幌?、厚德載物”這也是做人應該具備的態(tài)度、胸懷與品格。

        2 GBDT模型

        梯度提升決策樹(GBDT)是一種提升算法,其原理是將大量簡單CART樹在提升過程中進行集成,以提高樹模型的預測能力。由于基于決策樹算法,GBDT具有較好的模型可解釋性[13],為分析腐蝕影響因素的重要性提供了一種方法。

        2.1 GBDT基本算法

        假設輸入訓練樣本集為:為了尋找回歸樹的最優(yōu)組合,在每次迭代過程中順序添加新的回歸樹來減少預測誤差,新加入的回歸樹建立在之前所有樹的負梯度之上。

        估計函數(shù)f(x)預測y的損失函數(shù)L(f)定義為:

        在回歸問題中,一般為平方誤差損失:

        在梯度提升框架 M 次迭代中,全局函數(shù)估計( x)可以由加法模型表示:

        其中,f0(x)為初始值,定義為:

        在迭代次數(shù)中,對樣本i=1,2,3,…,N計算負梯度:

        利用擬合一棵 CART回歸樹,得到第 m棵樹,其對應的葉子節(jié)點區(qū)域為為回歸樹m的葉子節(jié)點個數(shù)。對葉子區(qū)域計算最佳擬合值,并更新強學習器:

        η的取值范圍為:0<η≤1。對于同樣的訓練集學習效果,較小的η需要更多的迭代次數(shù),即回歸樹的總棵數(shù);較大的η容易出現(xiàn)過擬合,通常同時調(diào)節(jié)迭代次數(shù)和學習率來決定模型的預測性能。

        2.2 GBDT的模型可解釋性

        在腐蝕速率預測中,模型的可解釋性十分重要,GBDT模型通過計算特征重要性來分析影響腐蝕的關鍵因素,F(xiàn)riedman在GBM論文中[12]提出的方法:

        設特征總數(shù)為D,特征的全局重要性通過特征在單個樹中的平均值來衡量:

        式中:M是樹的數(shù)量;Tm為第 m棵樹。特征 d在單棵樹中的重要性為:

        式中:J為樹的葉子節(jié)點數(shù)量;vj是和節(jié)點j相關聯(lián)的特征;是節(jié)點j分裂后平方損失的減少值;為示性函數(shù),當vj與特征d相關聯(lián)時,示性函數(shù)值為1,否則為0。

        3 實驗結果與分析

        3.1 數(shù)據(jù)集準備和分析

        文中采用數(shù)據(jù)來源于中國腐蝕與防護網(wǎng)黑色金屬大氣腐蝕數(shù)據(jù)庫青島腐蝕站點數(shù)據(jù),包含了暴露時間、碳、硅、錳、硫、磷等共14種化學元素含量參數(shù)和實驗金屬的腐蝕速率,共16種實驗金屬,80個樣本,部分腐蝕速率數(shù)據(jù)見表1。對于每一個站點而言,每年的平均環(huán)境因素變化不大,為了便于分析,可忽略環(huán)境因素影響,分析特定站點下的金屬合金元素含量和暴露時間對腐蝕的影響。

        3.2 預測性能評估方法

        文中采用平均絕對誤差MAE和平均絕對百分誤差 MAPE來評估模型的預測效果。平均絕對誤差MAE計算預測值和實際值之間偏差絕對值的平均,計算公式為:

        為了評估預測誤差相對于實際值的大小,還采用了平均絕對百分比誤差MAPE,計算公式為:

        式中:N為樣本數(shù)量;y為實際值;為模型預測值。

        表1 青島腐蝕站點部分數(shù)據(jù)

        3.3 模型建立過程

        LPP-GBDT預測模型分為兩部分,第一步利用LPP對金屬化學成分數(shù)據(jù)進行降維處理,第二步利用低維數(shù)據(jù)訓練 GBDT模型,實現(xiàn)腐蝕速率的預測。該模型需要調(diào)節(jié)的參數(shù)共有 5個,分別為 LPP算法的目標維數(shù)d、近鄰點個數(shù)k、熱核函數(shù)參數(shù)t、GBDT算法的迭代次數(shù)(回歸樹數(shù)量)M、學習率η??紤]到時間開銷和計算機性能,分兩步優(yōu)化參數(shù),采用留一法交叉驗證,以 GBDT預測的平均絕對誤差作為評價標準。

        以確定LPP參數(shù)為例,首先將GBDT模型參數(shù)固定為M=100,η=0.1,優(yōu)化LPP算法3個參數(shù)。參數(shù)區(qū)間設置為:d為區(qū)間[2,13]內(nèi)的整數(shù);k為區(qū)間[2,27]內(nèi)的整數(shù);t為區(qū)間[0.05,2]內(nèi)的浮點數(shù),步長為0.05。同時搜索了效果對比方法PCA的參數(shù),參數(shù)優(yōu)化結果見表2。

        表2 參數(shù)優(yōu)化結果

        LPP算法降維處理可以視為一個特征重構的過程,LPP降維結果如式(26)—(29)所示,其中,F(xiàn)eaturei(i=1,2,…,4)表示構造的低維特征:

        從降維結果可以看出,金屬化學成分數(shù)據(jù)集通過不同的降維方法降至4維具有較好的預測能力,說明此數(shù)據(jù)集的本征維數(shù)極有可能為4維,需要更多后續(xù)研究加以驗證。

        在獲得LPP參數(shù)后,優(yōu)化GBDT參數(shù),區(qū)間設置為:M為區(qū)間[30,1000]內(nèi)的整數(shù),以10為步長;學習率η分別取 0.01,0.03,0.05,0.1,結果如圖 1所示。可以看出,訓練集誤差隨回歸樹數(shù)量的增加而降低并趨于不變,降低速度隨η的增加而變大。當η比較大時,測試集很快出現(xiàn)過擬合現(xiàn)象;若η太小,則需要較多的基學習器個數(shù)(M)。結合訓練、測試誤差及模型復雜度綜合考慮,確定GBDT的參數(shù)為:M=600,R=0.03。

        3.4 預測模型性能檢驗

        為了驗證文中建立模型的預測性能和泛化能力,隨機選取4種金屬的共20個樣本作為測試集,其余60個樣本作為預測模型訓練樣本,采用留一交叉驗證訓練模型參數(shù)?;谠紨?shù)據(jù),不同模型預測結果見表3。其中,SVR支持向量機非線性回歸,核函數(shù)為RBF,懲罰系數(shù)C=10,松弛變量ξ=0.1。ANN為多層感知器模型,設置3層網(wǎng)絡,迭代次數(shù)為600。CART回歸樹取50次實驗結果平均值。

        通過單個模型仿真結果看出,實驗采用的單個模型的預測效果普遍較低,訓練誤差和測試誤差都比較大。幾種模型相比而言,CART回歸樹的預測誤差較低,比較適合本文數(shù)據(jù)集建模。通過梯度提升算法的引入,建立多棵回歸樹,GBDT極大地提升了單棵CART回歸樹的預測效果,預測誤差降低近一半。

        為了進一步提高 GBDT的預測性能,采用 LPP和正交化 LPP算法對原始數(shù)據(jù)進行降維處理,為了驗證LPP方法降維的有效性,采用PCA算法作為參考,仿真結果見表4。

        表3 基于原始數(shù)據(jù)模型預測性能對比

        表4 基于降維數(shù)據(jù)模型預測性能對比

        相比于基于原始數(shù)據(jù)建立的GBDT模型,PCAGBDT的訓練誤差變化不大,但測試誤差幾乎提高了1倍,模型的泛化能力大大降低。可見,PCA的線性降維過程破壞了金屬化學成分之間的復雜非線性關系。采用LPP算法降維GBDT模型的訓練、測試誤差都降低,擬合和泛化能力明顯提升,預測性能明顯改善。其中正交化 LPP-GBDT取得了最低的測試誤差,比原始數(shù)據(jù)GBDT提高近8%,驗證了LPP方法構造的簡約化特征具有更高的回歸預測能力,同時也驗證了正交化處理在提高局部能力和增加數(shù)據(jù)區(qū)分度方面的優(yōu)勢。

        3.5 腐蝕速率影響因素重要性分析

        GBDT是解釋性比較好的模型,對原始數(shù)據(jù)集建模預測時,通過2.2中所述方法對模型進行分析,各影響因素重要性結果見表5,特征重要性合計為 1,平均值為0.0667。

        表5 影響因素重要性排序

        可以看出,暴露時間是影響大氣腐蝕速率的主導因素,在金屬化學成分中,硫、碳、磷、銅、鉬、釩、錳的影響比較大,其中硫、磷、銅的重要性符合相關文獻的描述[14],硫、碳降低金屬的耐腐蝕性,磷、銅、錳增強金屬的耐腐蝕性。青島站點為典型的海洋大氣環(huán)境,大氣中海鹽粒子較多,鉬有利于防止氯離子的存在所產(chǎn)生的點蝕傾向,釩具有耐酸、耐鹽的特性,因此鉬和釩具有較高的特征重要性。硅通常被認為具有增強耐腐蝕性的作用,能促進耐腐蝕的稀土元素的富集[15],但實驗結果卻沒有印證這一結論,原因可能是本文樣本中含稀土元素的金屬極少,或硅在濕熱的大氣環(huán)境下的作用更為明顯[14]。此外,由于樣本金屬材料的種類限制,一些合金元素對腐蝕速率的影響不是很明顯,需要擴充樣本種類作進一步研究。

        4 結論

        1)針對高維、非線性和小樣本數(shù)據(jù)集,通過與其他典型方法的比較,GBDT取得了較好的預測效果,并分析了眾多因素對于腐蝕速率的影響程度,為特定環(huán)境下金屬材料的合金元素的調(diào)整提供一定的參考。

        2)LPP及其正交化改進方法能有效處理高維非線性數(shù)據(jù),線性重構簡約化特征。實驗結果表明,LPP算法的引入進一步提升了GBDT的預測性能。

        3)文中建立的LPP-GBDT模型不僅適用于青島腐蝕站點腐蝕數(shù)據(jù),還可推廣到其他大氣環(huán)境下的腐蝕速率預測。

        [1]LI X, ZHANG D, LIU Z, et al. Materials Science: Share Corrosion Data[J]. Nature, 2015, 527(7579): 441.

        [2]高蒙, 孫志華, 劉明, 等. 7B04鋁合金在 NaCl沉積與SO_2環(huán)境下的大氣腐蝕行為[J]. 環(huán)境技術, 2016,34(5): 9-13.

        [3]JOLLIFFE I T, CADIMA J. Principal Component Analysis: A Review and Recent Developments[J]. Philosophical Transactions, 2016, 374(2065): 20150202.

        [4]IZENMAN A J. Introduction to Manifold Learning[J].Wiley Interdisciplinary Reviews Computational Statistics,2012, 4(5): 439-446.

        [5]WANG R, NIE F, HONG R, et al. Fast and Orthogonal Locality Preserving Projections for Dimensionality Reduction[J]. IEEE Transactions on Image Processing, 2017,PP(99): 1.

        [6]HE X, NIYOGI P. Locality Preserving Projections[J].Advances in Neural Information Processing Systems,2004, 16(1): 186-197.

        [7]黃海軍, 李嬋, 王俊. 典型大氣腐蝕介質(zhì)的灰色預測模型分析[J]. 裝備環(huán)境工程, 2012, 9(1): 13-16.

        [8]鄧志安, 李姝儀, 李曉坤, 等. 基于模糊神經(jīng)網(wǎng)絡的海洋管線腐蝕速率預測新方法[J]. 中國腐蝕與防護學報,2015, 35(6): 571-576.

        [9]BRIAN R. Tree: Classification and Regression Trees[J].Wiley Interdisciplinary Reviews Data Mining &Knowledge Discovery, 2016(1): 14-23.

        [10]CHOU J S, NGO N T, CHONG W K. The Use of Artificial Intelligence Combiners for Modeling Steel Pitting Risk and Corrosion Rate[J]. Engineering Applications of Artificial Intelligence, 2016, 65: 471-483.

        [11]FRIEDMAN J H. Greedy Function Approximation: A Gradient Boosting Machine[J]. Annals of Statistics, 2001,29(5): 1189-1232.

        [12]ZHANG L, QIAO L, CHEN S. Graph-optimized Locality Preserving Projections[J]. Pattern Recognition, 2010,43(6): 1993-2002.

        [13]YANG S, WU J, DU Y, et al. Ensemble Learning for Short-term Traffic Prediction Based on Gradient Boosting Machine[J]. Journal of Sensors, 2017(4): 1-15.

        [14]梁彩鳳, 侯文泰. 鋼的大氣腐蝕預測[J]. 中國腐蝕與防護學報, 2006, 26(3): 129-135.

        [15]陶鵬, 孫金全, 董彩常, 等. 海洋大氣環(huán)境中含稀土耐候鋼暴露1年的耐蝕性能研究[J]. 裝備環(huán)境工程, 2017,14(5): 21-24.

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學特征認識
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产精品久久国产精麻豆| 粉嫩少妇内射浓精videos| 亚洲综合色区无码专区| av免费看网站在线观看| 不卡一本av天堂专区| 日本高清视频永久网站www| 国产成+人+综合+亚洲 欧美| 无码成年性午夜免费网站蜜蜂| 国产亚洲精品一品二品| 东京热人妻系列无码专区| 无码精品a∨在线观看十八禁| 中文字幕亚洲人妻系列| 久久久噜噜噜久久熟女| 国产精品久久久久久av| 国产精品jizz在线观看老狼| 美女高潮流白浆视频在线观看| 午夜一区二区三区福利视频| 久久久久久久亚洲av无码| 国产内射在线激情一区| 欧美深夜福利视频| 国产一品二品三区在线观看| 亚洲国产成人一区二区精品区| 色妺妺视频网| 偷拍女厕尿尿在线免费看| 精品国产亚洲级一区二区| 国产揄拍国产精品| 国产免费一级在线观看| 精品中文字幕久久久人妻| 国产精品美女久久久网av| 野花社区www高清视频| 亚洲色AV天天天天天天| 一区二区在线观看精品在线观看| 精品久久久久久无码人妻蜜桃 | 色婷婷资源网| 91成人自拍视频网站| 日韩大片高清播放器大全| 人人妻人人澡人人爽曰本| 激情文学人妻中文字幕| 人妻免费一区二区三区免费| 午夜无码片在线观看影视| 一个人免费观看在线视频播放|