亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林結(jié)合前向序列選擇算法的鐵路隧道防水板檢測數(shù)據(jù)關(guān)鍵影響因素識別

        2022-03-12 08:04:30侯秀林李世林張憲清姜惠峰
        鐵道建筑 2022年2期
        關(guān)鍵詞:關(guān)鍵性子集樣本

        侯秀林 李世林 張憲清 姜惠峰

        1.中國鐵道科學研究院集團有限公司標準計量研究所,北京 100081;2.中鐵檢驗認證中心有限公司,北京 100081

        通過分析鐵路產(chǎn)品多年檢測產(chǎn)生的大量數(shù)據(jù),可得到產(chǎn)品的特征指標,為創(chuàng)新檢驗檢測方法、提高檢驗檢測效率提供技術(shù)支撐。傳統(tǒng)的影響因素識別方法存在依賴經(jīng)驗、多因素分析能力弱、僅能讀取數(shù)值型特征等問題,導(dǎo)致關(guān)鍵影響因素錯漏?;跀?shù)據(jù)挖掘和機器學習理論,探索更加智能高效的方法來分析檢驗檢測數(shù)據(jù),獲得產(chǎn)品的關(guān)鍵影響特征,有助于改進后續(xù)同類產(chǎn)品的檢驗工作并指導(dǎo)產(chǎn)品的后續(xù)生產(chǎn)。

        鐵路隧道防水板是一種熱塑性塑料[1],加工流程復(fù)雜,涉及不同材質(zhì)的不同特性,相關(guān)的檢測指標高達26項。TB/T 3360.1—2014《鐵路隧道防水材料 第1部分 防水板》[2]實行后,防水板檢測不合格率驟增,嚴重影響了檢測效能。本文基于防水板檢測數(shù)據(jù),提出隨機森林(Random Forest,RF)算法與前向序列選擇(Sequential Forward Selection,SFS)算法相結(jié)合的RF?SFS算法并運用于防水板檢測關(guān)鍵特征選擇,獲得影響防水板檢測合格率的關(guān)鍵因素,為智能化鐵路產(chǎn)品檢驗檢測標準編制提供理論支撐和技術(shù)手段。

        1 方法介紹

        特征選擇方法是近年來機器學習、模式識別和統(tǒng)計學等領(lǐng)域的重要方法,是獲得模型最好性能特征集的方法[3-6]。該方法分為3類。

        1.1 過濾器法

        過濾器法通過檢驗特征與目標變量之間的關(guān)聯(lián)性與信息內(nèi)容進行特征選擇,包含皮爾森相關(guān)系數(shù)法、互信息法等,屬于傳統(tǒng)的數(shù)據(jù)處理方法,特征選擇的過程與后續(xù)建模無關(guān)。其優(yōu)點是易于計算,避免過擬合。缺點是:僅能給出特征相對結(jié)果向量的關(guān)鍵性,不能判定特征是有效特征還是冗余特征;依賴特征與結(jié)果向量之間的關(guān)系,忽略變量之間的關(guān)系,易導(dǎo)致關(guān)鍵特征錯漏;僅能處理數(shù)值型特征,不能直接用于處理離散型特征。

        1.2 包裹式法

        包裹式法為自定義學習器選擇最有利于其性能的特征子集,進行迭代優(yōu)化,包含SFS算法與后向序列選擇(Sequential Backward Selection,SBS)算法。SFS算法是指從空集開始搜索,每次選擇一個特征加入到這個特征子集中,通過迭代選出使得學習器預(yù)測能力達到最優(yōu)值的特征子集。包裹式法可以彌補過濾器法的缺點,但容易陷入局部最優(yōu)解,并且由于在特征選擇過程中需多次訓(xùn)練學習器,計算開銷較大。

        1.3 嵌入式法

        嵌入式法在學習器訓(xùn)練過程中自動進行特征選擇,通過將特征選擇納入訓(xùn)練過程而減少對不同子集進行重新分類的計算時間,包含RF算法。RF算法是一種基于決策樹算法的自助聚合算法[7],已被證明具有很高的準確性,對異常值和噪聲具有穩(wěn)定性,且能有效規(guī)避過擬合[8],可直接處理數(shù)值型和離散型數(shù)據(jù)。RF算法在建模時可為每個特征賦予關(guān)鍵性度量,得出特征關(guān)鍵性評分序列。由于RF算法具有隨機選擇樣本和隨機選擇特征的特點,建模時使用多個基學習器進行預(yù)測,最后投票選出最優(yōu)模型[9]。該方法可以檢測到特征之間的相互作用對模型的影響,其缺點是無法判定特征有效性。

        2 RF建模

        2.1 數(shù)據(jù)清洗

        選取2007年—2020年的防水板檢測數(shù)據(jù)作為樣本數(shù)據(jù)集,共計1 405份檢測報告,每份檢測報告包含30項特征。30項特征中包含26個檢測指標與4個外部影響因素,它們共同作用于檢測結(jié)果。其中,VA含量、人工候化、拉伸強度、斷裂伸長率、撕裂強度、刺破強度等為數(shù)值型特征;不透水性、生產(chǎn)年份、樣品來源等為離散型特征。此外,將檢測結(jié)果作為目標特征,分為合格和不合格兩類。

        由于檢測委托項目不同,需檢測的特征項也不盡相同,部分報告存在特征缺失的問題,需對數(shù)據(jù)集進行篩選。剔除50%以上特征缺失的數(shù)據(jù)后,有效樣本數(shù)量為1 224份。缺失率前二十的特征缺失模式如圖1所示。可知,缺失率的排序基本按照檢測項目呈現(xiàn)聚集性排列。例如,同時缺失刺破強度和VA含量的報告有234份。

        圖1 缺失率前二十的特征缺失模式

        簡單地去除所有包含缺失值的樣本數(shù)據(jù)將導(dǎo)致有效數(shù)據(jù)不足,所以在使用RF算法建模時對缺失數(shù)據(jù)進行補空處理,數(shù)值型特征的空值用中位數(shù)補齊,離散型特征的空值用眾數(shù)補齊,形成有效數(shù)據(jù)集。

        2.2 RF模型結(jié)構(gòu)

        在總樣本集中隨機抽取90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},剩余10%作為測試數(shù)據(jù)集。其中,x=(x1,x2,…,xn)為樣本特征向量,y=(y1,y2,…,yn)為檢測結(jié)果。

        RF算法模型如圖2所示。

        圖2 RF模型結(jié)構(gòu)

        1)從訓(xùn)練數(shù)據(jù)集中有放回地取樣,即自助采樣法,得到T個含m個特征的基學習器,其中T={1,…,t},m為基學習器使用的特征個數(shù),M為總特征數(shù)目。

        2)輸入特征數(shù)目m,對于每個節(jié)點,隨機選擇m個特征,再從這個子集中選擇一個最優(yōu)特征進行劃分。

        3)生成分類樹ht,得到對樣本x的預(yù)測H(x)作為分類結(jié)果:

        其中∏(·)為指示函數(shù)。

        4)投票選擇最優(yōu)檢測結(jié)果分類[10]。

        2.3 模型評估

        評估模型的預(yù)測能力有多種指標,常用準確率和受試者工作特征(Receiver Operating Characteristic,ROC)曲線。由于樣本數(shù)據(jù)集中的不合格率僅為14%,屬于不平衡數(shù)據(jù)集,準確率無法正確地表現(xiàn)模型效果。ROC曲線是反映真陽性率(True Positive Rate)和假陽性率(False Positive Rate)連續(xù)變量的綜合指標[11],對不平衡數(shù)據(jù)具有穩(wěn)健性。因此,選取ROC曲線評估預(yù)測模型的準確性。

        ROC曲線用構(gòu)圖法揭示靈敏性和特異性的相互關(guān)系,通過將連續(xù)變量設(shè)定出多個不同的閾值,從而計算出一系列真陽性率和假陽性率,再以真陽性率為縱坐標、假陽性率為橫坐標繪制曲線,曲線下面積越大,預(yù)測準確性越高。AUC(Area Under the Curve)是ROC曲線下的面積。當AUC值為0.5時,學習器與隨機猜測模型一致,模型無預(yù)測價值;當AUC值為1時,模型為完美學習器。通常情況下AUC值在0.5~1.0。

        由于RF算法不會產(chǎn)生過擬合現(xiàn)象,隨著基學習器增加,RF算法通常會收斂到更低的泛化誤差,再增加基學習器的數(shù)目,效果基本不會提升[12],只會使算法效率降低。考慮運算效率,選擇模型參數(shù)T=500;防水板數(shù)據(jù)有30個特征,根據(jù)式(1)取整選擇m=5。采用十折交叉驗證法得到的均值繪制的ROC曲線見圖3??芍浪鍣z測數(shù)據(jù)RF模型的AUC值為99.46%,表明該模型具有非常強的分類預(yù)測能力。

        圖3 防水板檢測數(shù)據(jù)RF模型的ROC曲線

        3 RF?SFS關(guān)鍵特征識別

        3.1 RF關(guān)鍵特征評分算法

        RF算法關(guān)鍵特征評分是計算隨機改變某一特征后RF模型預(yù)測誤差增大的程度[13]。對于樣本T={1,…,t}和訓(xùn)練數(shù)據(jù)集D,評分如下。

        1)在自助取樣法中,每個基學習器只使用了初始訓(xùn)練集中約2/3的樣本,剩余約1/3的樣本為包外樣本,確定包外樣本集Dt,oob。

        2)使用決策樹ht預(yù)測Dt,oob的分類,令Hoob(x)表示對樣本x的包外預(yù)測。

        對預(yù)測正確類的次數(shù)加總并計算包外誤差εoob。

        3)對于特征M={1,…,m},在Dt,oob中重新隨機排列特征xm的值,其余特征的值不變。

        4)使用ht通過排列的xm值來預(yù)測Dt,oob的分類,將預(yù)測Dt,oob樣本的正確分類次數(shù)加總并計算排列后的包外誤差

        5)在T棵樹上計算包外樣本和排列后包外樣本的誤差差異,取其平均值即為特征m的關(guān)鍵性評分--Pm。

        使用樣本數(shù)據(jù)計算30個特征的關(guān)鍵性評分,取十折交叉驗證得出的平均分,按分數(shù)從高到低進行排序,如圖4所示。可知,關(guān)鍵性評分最高的特征為VA含量,達43.74,其次為縱向撕裂強度、人工候化橫向斷裂拉伸強度保持率。關(guān)鍵性評分最低的3個特征為縱向低溫彎折性、不透水性、橫向低溫彎折性。

        圖4 特征關(guān)鍵性評分排序

        3.2 SFS算法

        給定總特征集F={f1,f2,…,fn},f為特征總數(shù),可將每個特征看做一個候選子集,對f個候選特征子集進行建模,評價其預(yù)測能力,假定{f2}最優(yōu),將其作為第一輪的選定子集;然后,在上一輪的選定集中加入一個特征,構(gòu)成包含兩個特征的候選子集,假定在這f-1個候選特征子集中{f2,f4}最優(yōu),且優(yōu)于{f2},于是將{f2,f4}作為本輪的選定集。令i∈(0,f]且為整數(shù),假定運行到第i輪時,最優(yōu)的候選特征子集不如第i-1輪的選定集,則停止生成候選子集,并將上一輪選定的包含i-1個特征的集合作為特征選擇結(jié)果。

        3.3 RF?SFS算法

        Huang等[14]研究的特征數(shù)量超過200項,使用RF的特征關(guān)鍵性評分序列以步長為10個特征進行預(yù)選擇,形成預(yù)選特征集,達到降維目的,隨后使用傳統(tǒng)SBS方法得出關(guān)鍵特征。該方法適用于特征數(shù)目超過100項的數(shù)據(jù),一定程度上降低了算法的時間復(fù)雜度,但沒有解決SBS算法易陷入局部最優(yōu)解、導(dǎo)致關(guān)鍵特征錯漏的缺點。

        本文提出的RF?SFS方法流程如圖5所示。其中,防水板數(shù)據(jù)中f為30,特征關(guān)鍵性評分序列S順序參見圖4。

        圖5 RF?SFS算法流程

        RF?SFS算法彌補了RF算法關(guān)鍵特征評分算法無法判別特征有效性的缺點,改進了SFS算法隨機添加特征的方式。根據(jù)特征關(guān)鍵性評分序列由高到低排列,遍歷特征子集,可使SFS算法的時間復(fù)雜度[15]由O(n2)降低至O(1),并且遍歷的方式可以避免算法陷入局部最優(yōu)解。

        3.4 關(guān)鍵影響因素識別與分析

        選用關(guān)鍵性評分排名前m個特征預(yù)測時的RF模型AUC曲線見圖6??芍孩賰H選用VA含量一個特征時,ROC曲線的AUC值為66.07%。選用VA含量和縱向撕裂強度兩個特征時,AUC值為73.85%。當繼續(xù)加入人工候化橫向斷裂拉伸強度保持率以及年份特征時,RF模型的AUC值分別達到了96.41%和99.91%。隨著關(guān)鍵特征的加入,模型的預(yù)測能力逐步提升。②當AUC值達到99.98%后,隨著特征數(shù)量增加AUC值逐步降低,說明冗余特征的加入降低了模型的預(yù)測能力。選擇前6個特征時,AUC達到峰值99.98%,隨后AUC開始下降,表明關(guān)鍵特征集為包含序列前6個特征的K6集合。

        圖6 選用關(guān)鍵性評分排名前m個特征預(yù)測RF模型AUC曲線

        K6集合中的特征包括VA含量、2個人工候化相關(guān)參數(shù)、2個撕裂強度特征,說明其對檢測結(jié)果的影響較大。實際生產(chǎn)過程中造成不合格主要有4個原因:①產(chǎn)品配方體系不同造成的影響;②填料的選擇不適宜、比例不合理;③再生料添加比例過高,生產(chǎn)過程控制不嚴;④部分企業(yè)沒有人工候化處理的專用檢測設(shè)備,出廠時沒有進行該項的確認和驗證試驗。

        大量試驗表明,這些原因?qū)е铝水a(chǎn)品VA含量、拉伸性能、撕裂性能不合格,與RF模型預(yù)測是一致的。進一步分析得出,人工候化、撕裂強度和VA含量互為關(guān)聯(lián),VA含量要達到標準中5%的要求,就必然要增加VA在配方體系中的比重,隨著VA含量增大,分子結(jié)構(gòu)的規(guī)整性變差,材料柔性增大,撕裂強度就會降低,同時導(dǎo)致人工候化性能降低,因此要生產(chǎn)出合格產(chǎn)品,合理的配方體系設(shè)計尤為重要。

        除上述5個特征外,年份特征排在第4位。2007年—2020年防水板檢測數(shù)量如圖7所示。2007年防水板檢測數(shù)量很少,從2008年至2015年防水板檢測數(shù)量總體呈上升趨勢,之后稍有回落,在2019年又達到檢測數(shù)量峰值。從不合格占比來看,2015年和2016年的防水板檢測不合格報告占比較高,這是由于2014年10月30日發(fā)布了防水板新版鐵標TB/T 3360.1—2014,增加VA含量不小于5%的要求。為達到該要求,國內(nèi)許多生產(chǎn)廠家對原有配方體系甚至原材料進行變更,導(dǎo)致撕裂性能降低,不滿足標準要求。通過生產(chǎn)工藝、配方調(diào)整和不斷的試驗,從2017年開始不合格的防水板報告占比明顯下降。說明標準發(fā)生變化時,關(guān)鍵特征可能發(fā)生變化,需實時調(diào)整模型。

        圖7 防水板檢測數(shù)量

        4 模型驗證分析

        為了驗證RF?SFS模型識別的關(guān)鍵特征有效性,基于RF?SFS方法獲得的關(guān)鍵性評分序列,將其按照評分遞減的方式分為5組特征子集,每組包含6個特征。以RF模型作為參考,建立防水板檢測數(shù)據(jù)集的分類與回歸樹(Classification and Regression Tree,CART)模型和支持向量機(Support Vector Machines,SVM)模型,比較RF、SVM、CART模型在不同特征子集下的AUC。

        CART模型與RF模型同屬決策樹算法,可直接處理離散型與數(shù)值型特征,但因未使用自助聚合法對樣本進行隨機抽取,在特征多的情況下易出現(xiàn)過擬合。SVM算法與決策樹算法分屬不同種類,其優(yōu)點是不容易受到噪聲、異常數(shù)據(jù)的影響,且不容易出現(xiàn)過擬合,缺點是尋找最優(yōu)模型需要測試不同的核函數(shù)和參數(shù)組合,并且最終訓(xùn)練結(jié)果是復(fù)雜的高維模型,通常無法直觀解釋。由于SVM算法無法直接處理離散型特征,建模前使用獨熱編碼對數(shù)據(jù)進行預(yù)處理。

        選用不同特征子集時各模型ROC曲線見圖8??芍孩侔刑卣鞯腞OC曲線,RF模型(即RF?SFS模型)表現(xiàn)最好。②當選取第1組特征時,3種模型的預(yù)測能力都得到了不同程度的提升。③當選取第2組特征時,3種模型的預(yù)測能力出現(xiàn)了明顯下降,主要原因是第2組特征包含冗余特征,導(dǎo)致模型的預(yù)測能力下降。④當選擇第3組、第4組特征時,3種模型的預(yù)測能力進一步下降,SVM模型和CART模型的預(yù)測能力接近隨機猜測模型。其中,第4組特征子集的CART模型預(yù)測能力低于隨機猜測模型。⑤當選擇第5組特征子集時,3種模型的預(yù)測能力達到最低,CART模型和SVM模型的預(yù)測能力低于隨機猜測模型,RF模型的預(yù)測能力略高于隨機猜測模型。

        圖8 選用不同特征子集時各模型ROC曲線

        對比分析上述5組特征子集的計算結(jié)果,RF模型的預(yù)測能力始終為3種模型中最優(yōu)。在選用第1組特征子集時3種模型的預(yù)測能力均達到最佳,圖4的關(guān)鍵性評分排序以及第1組特征為防水板檢測數(shù)據(jù)集的關(guān)鍵特征得以驗證。

        5 結(jié)論

        1)基于機器學習理論對防水板檢測數(shù)據(jù)進行預(yù)處理,剔除無效樣本數(shù)據(jù),獲得有效樣本1 224份,并對缺失數(shù)據(jù)進行補空。建立了防水板檢測數(shù)據(jù)的RF模型,使用ROC曲線對模型進行評估,AUC值為99.46%,表明模型可有效預(yù)測防水板數(shù)據(jù)。

        2)使用RF模型得出防水板特征關(guān)鍵性評分序列,結(jié)合SFS模型找到關(guān)鍵特征與冗余特征的分界點,可將SFS算法的時間復(fù)雜度由O(n2)降低至O(1),并且采用遍歷的方式可以避免算法陷入局部最優(yōu)解。通過RF?SFS方法獲得了6個影響防水板檢測的關(guān)鍵影響因素,包括VA含量、縱向撕裂強度、人工候化橫向斷裂拉伸強度保持率、年份、橫向撕裂強度、人工候化縱向斷裂拉伸強度保持率。在僅選用6個關(guān)鍵特征進行檢測時,模型的預(yù)測能力達到了99.98%。若將其作為標準編制的參考,可提高檢測效率。

        3)對比分析了5組特征子集下RF、SVM、CART模型的預(yù)測能力,表明RF模型的預(yù)測能力始終為3種模型中最優(yōu)。在選用關(guān)鍵影響因素子集時3種模型的預(yù)測能力均達到最佳,AUC值分別為99.98%、93.03%、90.02%,進一步驗證了RF?SFS識別方法的準確性。

        猜你喜歡
        關(guān)鍵性子集樣本
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        拓撲空間中緊致子集的性質(zhì)研究
        用樣本估計總體復(fù)習點撥
        關(guān)于奇數(shù)階二元子集的分離序列
        推動醫(yī)改的“直銷樣本”
        隨機微分方程的樣本Lyapunov二次型估計
        關(guān)于汽車經(jīng)銷商DMS系統(tǒng)實施的關(guān)鍵性
        村企共贏的樣本
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        寫作過程中結(jié)構(gòu)起著關(guān)鍵性的作用
        日韩av无码一区二区三区| 欧美巨大xxxx做受中文字幕| 高清亚洲精品一区二区三区 | 青青草手机在线观看视频在线观看| 韩国三级在线观看久| 国产午夜精品久久久久免费视| 日本在线观看不卡| 国产精品亚洲最新地址| 女优一区二区三区在线观看| 性色做爰片在线观看ww| 亚洲男人精品| 日韩精品av在线一区二区| 中文字日产幕码三区国产| 色婷婷亚洲精品综合影院| 亚洲免费观看| 日本成人免费一区二区三区| 蜜桃a人妻精品一区二区三区| 亚欧美日韩香蕉在线播放视频| 欧美人与动牲交片免费| 一区二区特别黄色大片| 亚洲一区二区三区99| 粗大的内捧猛烈进出视频| 亚洲大尺度在线观看| 国产精品污一区二区三区在线观看 | 国产精品毛片完整版视频| 久久国产精彩视频| 精品av一区二区在线| 国产女人好紧好爽| 性色av无码一区二区三区人妻| 一区二区三区放荡人妻| 国产少妇高潮在线视频| 粗大的内捧猛烈进出看视频| 亚洲日韩精品国产一区二区三区| 日本熟妇中文字幕三级| 日本亚洲系列中文字幕| 人妻少妇乱子伦精品无码专区电影| 成人三级在线| 久久久亚洲精品蜜臀av| 97色伦图片97综合影院| 少妇脱了内裤让我添| 亚洲国产日韩在线精品频道|