亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于GBRT算法的CA砂漿脫空檢測(cè)方法

        2018-03-07 01:48:11李自法謝維波劉濤
        關(guān)鍵詞:分類檢測(cè)模型

        李自法,謝維波,劉濤

        (華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門 361021)

        高速鐵路是我國(guó)現(xiàn)階段的重點(diǎn)建設(shè)項(xiàng)目,發(fā)展高速鐵路是帶動(dòng)國(guó)家經(jīng)濟(jì)發(fā)展,滿足人民出行便捷、高質(zhì)量的必然選擇[1]。我國(guó)的高速鐵路建設(shè)在技術(shù)上已經(jīng)處于世界領(lǐng)先[2],但是由于起步晚,配套的檢修技術(shù)還沒有跟上。軌道維護(hù)是鐵路建設(shè)的重要一環(huán),它關(guān)系到列車能否平穩(wěn)運(yùn)行,甚至關(guān)系到列車行進(jìn)的安全。對(duì)無砟軌道而言,CA砂漿脫空檢測(cè)是其中的主要問題之一。對(duì)于CA砂漿脫空檢測(cè)問題,已經(jīng)有不少研究者分別提出了不同的檢測(cè)方法。張春毅等[3]提出利用瞬態(tài)機(jī)械阻抗的方法,利用石家莊鐵道大學(xué)內(nèi)的全尺寸模型 CRTSⅡ型無砟軌道板,通過沖擊錘敲擊和沖擊瞬態(tài)脈沖反應(yīng)測(cè)試儀來采集實(shí)驗(yàn)數(shù)據(jù),然后根據(jù)得到的平均導(dǎo)納值和導(dǎo)納頻譜曲線判斷是否脫空。胡志鵬等[4]利用模態(tài)分析理論中的曲率模態(tài)對(duì)傷損敏感的特性,提出一種基于高斯曲率的識(shí)別方法來檢測(cè) CA砂漿脫空。該方法利用有限元軟件構(gòu)建軌道板CA砂漿模型并采集實(shí)驗(yàn)數(shù)據(jù),然后通過觀察高斯曲率圖來區(qū)分 CA砂漿是否脫空。陳夢(mèng)[5]根據(jù)彈性波在層狀介質(zhì)中的傳播理論,捕捉彈性場(chǎng)的振幅、頻率以及時(shí)頻特征,分別比較脫空和非脫空情況下的區(qū)別進(jìn)而做出判斷。該方法的論證是根據(jù)高速鐵路線下結(jié)構(gòu)施工工藝,通過現(xiàn)場(chǎng)施工,最大限度的構(gòu)建仿真實(shí)驗(yàn)?zāi)P停缓蠼柚卣饍x等數(shù)據(jù)采集設(shè)備通過小鐵錘敲擊來采集數(shù)據(jù),最后通過分析實(shí)驗(yàn)數(shù)據(jù)的波形圖、頻譜圖或時(shí)頻圖來區(qū)分?jǐn)?shù)據(jù)采集區(qū)域是否有缺陷。這些方法的論證都是建立在仿真模型的基礎(chǔ)之上,采集到的數(shù)據(jù)也多是模擬數(shù)據(jù),沒有足夠的說服力;而且,這些方法都是通過觀察、分析對(duì)應(yīng)的結(jié)果圖來判斷數(shù)據(jù)采集位置是否脫空,檢測(cè)效率較低。不同于已有方法,本文提出把機(jī)器學(xué)習(xí)領(lǐng)域的GBRT算法應(yīng)用到CA砂漿脫空檢測(cè)領(lǐng)域。利用該方法檢測(cè)CA砂漿是否脫空時(shí),只需要拾音器和筆記本電腦兩種設(shè)備便可完成真實(shí)數(shù)據(jù)的采集,得到的數(shù)據(jù)真實(shí)可靠;然后使用計(jì)算機(jī),利用采集到的真實(shí)數(shù)據(jù)和GBRT算法構(gòu)建二分類模型,進(jìn)而對(duì)采集到的數(shù)據(jù)進(jìn)行分類決策。構(gòu)建好的GBRT二分類模型不僅有較高的識(shí)別率,還可以在短時(shí)間內(nèi)處理大量的數(shù)據(jù)樣本,大大提高了檢測(cè)效率。因此,GBRT算法在CA砂漿脫空檢測(cè)領(lǐng)域具有非常廣闊的應(yīng)用前景。

        1 CA砂漿脫空問題

        我國(guó)的高速鐵路軌道結(jié)構(gòu)有有砟軌道和無砟軌道2種類型,其中大多數(shù)是無砟軌道。無砟軌道包括雙塊和板式無砟軌道2種,其中板式無砟軌道分為CRTSⅠ型,CRTSⅡ型和CRTS Ⅲ型。本文的研究對(duì)象是單元板式無砟軌道[6],其結(jié)構(gòu)簡(jiǎn)圖如圖1所示。CA砂漿層在整個(gè)軌道結(jié)構(gòu)中起到支承、緩沖、減震作用,CA砂漿層是否完好無損、與上下結(jié)構(gòu)黏結(jié)緊密將會(huì)影響到列車的平穩(wěn)、安全運(yùn)行。CA砂漿脫空,即指砂漿層出現(xiàn)損傷,或者與上下結(jié)構(gòu)脫離現(xiàn)象。

        圖1 單元板式無砟軌道垂直結(jié)構(gòu)簡(jiǎn)圖Fig. 1 Vertical structure of slab ballastless track

        引起CA砂漿脫空的原因有:砂漿層的材料、配比等制作工藝欠缺造成砂漿層出現(xiàn)破損[7];軌道板出現(xiàn)裂縫引起雨水浸入砂漿層,進(jìn)而引起砂漿層粉蝕[8];軌道所在地基沉降引起砂漿層與底座脫離[9]等。

        CA砂漿脫空對(duì)高速列車軌道危害很大,具體表現(xiàn)為:由于部分砂漿所起到的支撐作用的缺失,導(dǎo)致其他部分砂漿承受動(dòng)壓應(yīng)力急劇增大,會(huì)進(jìn)一步使更多的砂漿受損;扣件所受到的來自軌道板的拉力增大,容易引起扣件損傷;鋼軌受力失衡,可能引起鋼軌幾何形變;軌道板受力不均,可能引起軌道板板角豎向翹曲位移,軌道板產(chǎn)生裂縫,甚至斷裂等[10-11]。CA砂漿脫空檢測(cè)是預(yù)防災(zāi)害發(fā)生的關(guān)鍵,因此對(duì)于保證列車平穩(wěn)運(yùn)行具有重要意義。

        利用GBRT算法檢測(cè)CA砂漿脫空的依據(jù)是:無砟軌道板在脫空和非脫空2種情況下,列車經(jīng)過時(shí)產(chǎn)生的聲音信號(hào)不同,對(duì)無砟軌道板進(jìn)行脫空檢測(cè)本質(zhì)上是一個(gè)聲音信號(hào)的二分類問題。圖2是從數(shù)據(jù)集中隨機(jī)抽取的 20個(gè)聲音數(shù)據(jù)樣本,顯示的是每個(gè)數(shù)據(jù)樣本的前100個(gè)數(shù)據(jù)點(diǎn)及其對(duì)應(yīng)的歸一化之后的值。其中,有斷點(diǎn)的曲線表示非脫空樣本數(shù)據(jù),沒有斷點(diǎn)的曲線表示脫空樣本數(shù)據(jù)(分別包含10個(gè)數(shù)據(jù)樣本)。

        圖2 脫空和非脫空樣本數(shù)據(jù)Fig. 2 Void and non-void data

        從圖中可以看出,2類樣本數(shù)據(jù)分別分布在上界和下界。由于數(shù)據(jù)是列車正常運(yùn)行現(xiàn)場(chǎng)采集的,因此有部分噪聲數(shù)據(jù)造成了干擾??傮w上來看,2類數(shù)據(jù)是可分的,GBRT算法作為優(yōu)秀的機(jī)器學(xué)習(xí)分類算法可以用來嘗試解決 CA砂漿脫空檢測(cè)問題。

        2 GBRT算法原理

        GBRT(Gradient Boosted Regression Trees)算法[12-13],即梯度提升回歸樹,是機(jī)器學(xué)習(xí)領(lǐng)域集成學(xué)習(xí)方法[14]的一種,又叫 GBDT (Gradient Boosting Decision Tree)和 MART (Multiple Additive Regression Tree)。近年來,由于其在著名的數(shù)據(jù)競(jìng)賽(如 Kaggle、天池等)中表現(xiàn)突出,因此獲得了很多關(guān)注。GBRT算法基于 boosting[15]算法框架,其基本思想是基于多個(gè)回歸樹子模型構(gòu)建一個(gè)GBRT二分類模型,利用回歸樹不斷學(xué)習(xí)殘差,減少整體分類模型的偏差。下面在介紹回歸樹的基礎(chǔ)上,介紹GBRT算法原理。

        2.1 回歸樹

        回歸樹(Regression Tree)算法源于 CART(Classification And Regression Tree)[16]算法,是決策樹算法的一種,是一種用于做回歸預(yù)測(cè)的二叉樹。構(gòu)建回歸樹的過程,其實(shí)是對(duì)輸入空間的一種劃分。假定有數(shù)據(jù)集 S ={(xi, yi)}1N,xi和 yi分別表示第i個(gè)樣本和對(duì)應(yīng)的類別標(biāo)簽,N表示該數(shù)據(jù)集中樣本的個(gè)數(shù), xi∈χ∈Rn,χ表示輸入空間,yi∈γ∈R,γ表示輸出空間。

        現(xiàn)在用數(shù)據(jù)集S來生成一棵回歸樹。每次對(duì)某個(gè)數(shù)據(jù)集的劃分,都是將對(duì)應(yīng)的輸入空間一分為二,生成回歸樹時(shí),總共將輸入空間劃分為J個(gè)單元。第j個(gè)單元用Rj表示,cj表示每個(gè)單元都有對(duì)應(yīng)的返回值。于是,回歸樹模型可以表示為:

        其中: I(x ∈Rj)為指示函數(shù),當(dāng)參數(shù)條件為真時(shí)返回1,否則返回0。用m表示落在單元Rj里的樣本個(gè)數(shù),則cj是單元Rj里的樣本標(biāo)簽的均值,即

        這是因?yàn)?,回歸樹用平方誤差作為訓(xùn)練誤差 e的評(píng)價(jià)函數(shù),即

        構(gòu)建回歸樹的關(guān)鍵,是如何劃分輸入空間。這里采用啟發(fā)式的辦法,選擇第v個(gè)特征xv和它的特征值s作為劃分位置,用(v,s)表示。根據(jù)xv的其他特征值與s的比較結(jié)果,將輸入空間進(jìn)行劃分,形成2個(gè)子區(qū)域,分別定義為:

        遍歷所有可能的劃分位置,找到最佳的劃分位置(v, s),滿足

        構(gòu)建回歸樹的完整算法如下。

        輸入:數(shù)據(jù)集S

        輸出:回歸樹f (x)

        2) 用式(1)得到的最佳劃分位置(v,s)對(duì)數(shù)據(jù)集S進(jìn)行劃分,得到2個(gè)子區(qū)域 R (v,s)={x|xv≥s}和R(v,s)={x|xv<s}以及對(duì)應(yīng)的返回值

        其中:m和n分別表示落在2個(gè)區(qū)域里的樣本數(shù)量。

        3) 遞歸調(diào)用式(1)~(2),對(duì)生成的2個(gè)子區(qū)域繼續(xù)進(jìn)行劃分,直到滿足停止條件。這里的停止條件包括待劃分樣本最小數(shù)量,落在子區(qū)域里的最小樣本數(shù)量等。

        4) 將輸入空間劃分成 J個(gè)單元區(qū)域及對(duì)應(yīng)的返回值,即回歸樹模型

        作為GBRT分類模型子模型的回歸樹,其葉子節(jié)點(diǎn)的返回值并不是由式(2)得到的,這里提到的區(qū)域返回值僅僅用于輔助介紹回歸樹模型。

        2.2 GBRT算法

        GBRT算法構(gòu)建二分類模型的過程是,計(jì)算現(xiàn)有模型的預(yù)測(cè)值與真實(shí)值之間的殘差,然后把該值作為新的回歸樹要擬合的目標(biāo);不斷重復(fù)這個(gè)過程,整體模型的預(yù)測(cè)值與真實(shí)值不斷逼近,整體模型的偏差便不斷縮小。下面結(jié)合數(shù)據(jù)集S和回歸樹,詳細(xì)介紹GBRT算法原理。

        GBRT算法實(shí)際上是一個(gè)加法模型,可以表示為

        其中: T (x;Θm)表示第m棵回歸樹模型;Θm是該回歸樹模型的參數(shù);M表示回歸樹模型的個(gè)數(shù)。若給定損失函數(shù)L(y, fm(x)),則學(xué)習(xí)加法模型fm(x)成為損失函數(shù)極小化問題:

        同時(shí)對(duì)所有回歸樹的參數(shù)進(jìn)行優(yōu)化很難,因此,GBRT算法采用前向分步策略,對(duì)回歸樹進(jìn)行逐個(gè)優(yōu)化。于是,式(6)和(7)可以分別表示為:

        當(dāng)采用特殊損失函數(shù)時(shí),對(duì)回歸樹進(jìn)行逐個(gè)優(yōu)化是很簡(jiǎn)單的,比如平方誤差函數(shù)和指數(shù)損失函數(shù)。但是,對(duì)于一般的函數(shù)而言,這種優(yōu)化是很困難的。Friedman針對(duì)這一問題提出了梯度提升(gradient boosting)的方法,其原理是用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,作為當(dāng)前新構(gòu)建的回歸樹要擬合的殘差的近似值,用數(shù)學(xué)公式表示為:

        本文使用負(fù)二項(xiàng)對(duì)數(shù)似然函數(shù)(negative binomial log-likelihood)作為損失函數(shù):

        其中

        這里的

        把式(11)代入式(10),得到當(dāng)前回歸樹要擬合的近似殘差:

        建立回歸樹的過程中,GBRT算法采用在每個(gè)單元區(qū)域使用線性搜索的方法,保證損失函數(shù)在每個(gè)單元區(qū)域獲得最小值,進(jìn)而使總的損失函數(shù)最小化。通過最優(yōu)化損失函數(shù)尋找對(duì)于的返回值。由式(1)得知,回歸樹模型可以表示為:

        這里,令

        其中,Θ={(R1,c1),(R2,c2),… ,( RJ,cJ)}表示各個(gè)單元區(qū)域以及對(duì)應(yīng)的返回值。此時(shí)的 cj不是由式(2)得到,而是通過求解下面的式子得到

        cmj表示第m棵回歸樹的第j個(gè)單元區(qū)域的返回值。但此處并沒有固定的方法策略,本文使用單個(gè)Newton-Raphson步伐逼近c(diǎn)mj,此時(shí)

        因此,GBRT算法的完整過程可以描述為:

        輸出:回歸樹f?(x)

        2) 對(duì) m=1, 2, …, M

        2(a)對(duì)i=1, 2, …, N,計(jì)算:

        2(b)以rmi為目標(biāo)變量,擬合一棵回歸樹,得到該回歸樹的各個(gè)葉子節(jié)點(diǎn)Rmj,j=1, 2, …, J

        2(c)對(duì) j=1, 2, …, J, 計(jì)算:

        2(d)更新:

        3) 返回梯度提升回歸樹模型:

        步驟1對(duì)回歸樹模型進(jìn)行初始化,由式(12)=0求解得到,y表示數(shù)據(jù)集S中所有類別標(biāo)簽的平均值。f0(x)實(shí)際上是一棵只有根節(jié)點(diǎn)的回歸樹。

        3 實(shí)驗(yàn)分析

        3.1 數(shù)據(jù)獲取

        數(shù)據(jù)集來自現(xiàn)場(chǎng)采集的真實(shí)數(shù)據(jù)。將1號(hào)和2號(hào)拾音器安裝在軌道旁邊的護(hù)墻內(nèi)側(cè),分別對(duì)應(yīng)無脫空和脫空位點(diǎn),拾音器通過 USB線連接筆記本電腦。當(dāng)列車經(jīng)過時(shí),通過筆記本電腦控制聲音數(shù)據(jù)的采集。數(shù)據(jù)采集方案如圖3所示。數(shù)據(jù)采集時(shí),涉及到拾音器的具體安裝位置以及其參數(shù)設(shè)置、列車速度、行車方向等變化因素,在保證信號(hào)質(zhì)量的前提下,只要2個(gè)采集位點(diǎn)保持一致,這些都不會(huì)對(duì)檢測(cè)結(jié)果造成實(shí)質(zhì)影響。

        圖3 數(shù)據(jù)采集方案Fig. 3 Data collection scheme

        共采集到 20個(gè)聲音數(shù)據(jù)文件,脫空和非脫空條件下各 10個(gè),這些數(shù)據(jù)文件的時(shí)長(zhǎng)不等,其他參數(shù)一致。每一個(gè)聲音數(shù)據(jù)文件都完整的記錄了一列火車進(jìn)過拾音器的全過程,時(shí)長(zhǎng)10 s左右,雙聲道(2個(gè)聲道記錄的數(shù)據(jù)相同),采樣率為48 k/s。在采集數(shù)據(jù)的過程中,列車車輪依次經(jīng)過拾音器的放置位置并且產(chǎn)生聲音信號(hào)。在忽略不同車輪之間微小差別和周圍噪聲的前提下,這些采集到的聲音數(shù)據(jù)顯然是周期性的。

        理想的單個(gè)數(shù)據(jù)樣本,恰好記錄了一個(gè)周期的聲音信號(hào)段。因此,需要對(duì)原始數(shù)據(jù)做包括數(shù)據(jù)切分在內(nèi)的一系列數(shù)據(jù)預(yù)處理。主要包括以下幾個(gè)步驟:

        1) 格式轉(zhuǎn)換,把原始數(shù)據(jù)格式wma轉(zhuǎn)化為wav格式;

        2) 取單個(gè)聲道的數(shù)據(jù),并對(duì)其掐頭去尾,保留中間的有價(jià)值數(shù)據(jù)(列車經(jīng)過時(shí),拾音器提前開啟并且延遲關(guān)閉);

        3) 數(shù)據(jù)歸一化,把所有數(shù)據(jù)歸一化到 0和 1之間;

        4) 對(duì)單個(gè)數(shù)據(jù)文件進(jìn)行切分;

        5) 對(duì)切分好的實(shí)驗(yàn)數(shù)據(jù)加標(biāo)簽,用0和1分別代表沒有脫空和脫空2類數(shù)據(jù);

        6) 打亂數(shù)據(jù)次序,使得2樣本數(shù)據(jù)均勻分布。

        對(duì)于步驟 4,找到理想的切分結(jié)果是很難的??尚械那蟹址桨甘?,用切分好的數(shù)據(jù)訓(xùn)練分類器并進(jìn)行分類測(cè)試,以分類準(zhǔn)確率為評(píng)價(jià)指標(biāo),不斷改變切分長(zhǎng)度和交叉分割長(zhǎng)度,選擇分類效果最好的數(shù)據(jù)集作為最終切分結(jié)果?!扒蟹珠L(zhǎng)度”指單個(gè)數(shù)據(jù)樣本的時(shí)間長(zhǎng)度。切分是有重疊的交叉切分,每隔一段時(shí)間對(duì)音頻文件切分一次,“交叉切分長(zhǎng)度”即表示2次切分的時(shí)間間隔。

        具體切分方案為,首先把交叉切分長(zhǎng)度設(shè)置為切分長(zhǎng)度的 1/2,根據(jù)經(jīng)驗(yàn)同時(shí)改變交叉切分長(zhǎng)度和切分長(zhǎng)度;然后保持切分長(zhǎng)度不變,改變交叉切分長(zhǎng)度,得到不同的數(shù)據(jù)集以及對(duì)應(yīng)的測(cè)試結(jié)果如圖4所示。

        圖4 數(shù)據(jù)切分Fig. 4 Data split

        從圖4可以出,把切分長(zhǎng)度設(shè)置為66 ms,交叉切分長(zhǎng)度設(shè)置為26 ms時(shí),獲得的數(shù)據(jù)用來構(gòu)造GBRT分類模型效果最好。因此,最終采用26~66 ms這種數(shù)據(jù)切分方式來獲取數(shù)據(jù)。這樣,最終得到共3 834個(gè)數(shù)據(jù)樣本,每個(gè)樣本有3 169個(gè)點(diǎn)(最后一個(gè)點(diǎn)表示類別標(biāo)簽,值為0或者1),構(gòu)成一個(gè)3 834×3 169的矩陣,數(shù)據(jù)預(yù)處理完成。

        3.2 調(diào)節(jié)模型參數(shù)

        調(diào)節(jié)模型參數(shù),即通過調(diào)整模型參數(shù)的設(shè)置方式,使模型的偏差和方差相互協(xié)調(diào),在提高模型準(zhǔn)確率的同時(shí),保證模型有較強(qiáng)的泛化能力[17-18]。GBRT是以回歸樹為子模型的集成分類模型,有眾多的參數(shù)需要調(diào)整,包括與回歸樹有關(guān)的子模型類參數(shù)和直接關(guān)系到整體模型性能的過程類參數(shù)。下面利用前面采集到的數(shù)據(jù),結(jié)合文獻(xiàn)[19],利用交叉驗(yàn)證(5-fold)[20]實(shí)驗(yàn)策略,通過實(shí)驗(yàn)分析各個(gè)參數(shù)對(duì)模型性能的影響,從而發(fā)現(xiàn)合適的參數(shù)值設(shè)置方式。

        過程類參數(shù)主要有2個(gè):迭代次數(shù)(即回歸樹的個(gè)數(shù))和學(xué)習(xí)率。GBRT算法希望通過增加回歸樹的個(gè)數(shù)來降低整體模型的偏差,因此,迭代次數(shù)的增加有利于降低整體模型的偏差,提高模型準(zhǔn)確率。學(xué)習(xí)率,又叫縮減率,是對(duì)模型進(jìn)行正則化的系數(shù),用于減少模型過擬合。子模型類參數(shù)主要有:回歸樹的最大深度,劃分節(jié)點(diǎn)時(shí)候考慮的最小樣本數(shù)量以及落在葉子節(jié)點(diǎn)的最小樣本數(shù)量?;貧w樹的最大深度決定了子模型的基本結(jié)構(gòu),該值設(shè)置的越大,子模型越復(fù)雜,有利于降低模型偏差,但是會(huì)導(dǎo)致模型方差升高。后2個(gè)子模型類參數(shù)主要用于減少子模型復(fù)雜度,從而減少整體模型方差。

        由于回歸樹的最大深度對(duì)整體模型的復(fù)雜度有根本性的影響,因此,本文對(duì)模型參數(shù)的調(diào)整從對(duì)該參數(shù)的設(shè)置開始。調(diào)參之前,有必要對(duì)過程類參數(shù)進(jìn)行粗略設(shè)置,在此基礎(chǔ)之上,以回歸樹的最大深度值的設(shè)置為起點(diǎn),分別對(duì)子模型類參數(shù)進(jìn)行精細(xì)調(diào)整。當(dāng)對(duì)某個(gè)參數(shù)進(jìn)行調(diào)整時(shí),其他參數(shù)保持程序允許的最小值,或者設(shè)置為已經(jīng)調(diào)整的值。當(dāng)所有的參數(shù)都調(diào)整完畢之后,再重新對(duì)2個(gè)過程類參數(shù)進(jìn)行精細(xì)調(diào)整。

        圖5顯示,隨著迭代次數(shù)的增加,模型的訓(xùn)練得分和測(cè)試得分都趨于增長(zhǎng)趨勢(shì),當(dāng)?shù)螖?shù)超過400后,訓(xùn)練得分已經(jīng)達(dá)到1.0,測(cè)試得分也不再繼續(xù)增加。圖6顯示了學(xué)習(xí)率對(duì)模型性能的影響,曲線趨勢(shì)與圖5類似,但是變化幅度更大??紤]到粗調(diào),因此,2個(gè)參數(shù)分別取值為600和0.03。接下來調(diào)整回歸樹的最大深度,如圖7所示。

        圖5 粗略調(diào)整回歸樹的個(gè)數(shù)Fig. 5 Roughly adjust the number of regression tree

        圖6 粗略調(diào)整學(xué)習(xí)率的大小Fig. 6 Roughly adjust the size of the learning rate

        從圖7可以看出,當(dāng)深度值小于3時(shí)模型偏差太大,分類準(zhǔn)確率較低;當(dāng)深度值大于3時(shí),訓(xùn)練得分等于1.0,模型方差太大,容易過擬合。因此,本文把最大深度值設(shè)置為 3。接下來,通過仔細(xì)調(diào)整剩余子模型類參數(shù),降低模型復(fù)雜度,減小模型方差,這個(gè)過程會(huì)一定程度上提高偏差。

        圖7 調(diào)整回歸樹的最大深度Fig. 7 Adjust the maximum depth of regression trees

        圖8 調(diào)整落在葉子節(jié)點(diǎn)的最少樣本個(gè)數(shù)Fig. 8 Adjust the minimal number of samples

        圖8 顯示,落在葉子節(jié)點(diǎn)的最小樣本數(shù)量對(duì)模型性能的影響,圖9顯示,切分?jǐn)?shù)據(jù)集時(shí),數(shù)據(jù)集的最小樣本數(shù)量對(duì)模型性能的影響。2個(gè)參數(shù)值設(shè)置得較大時(shí),有利于降低模型的方差。結(jié)合圖8和圖9,把落在葉子節(jié)點(diǎn)的最小樣本個(gè)數(shù)設(shè)置為80,把待切分?jǐn)?shù)據(jù)集的最小樣本個(gè)數(shù)設(shè)置為410。

        圖9 調(diào)整待切分?jǐn)?shù)據(jù)集的最小樣本個(gè)數(shù)Fig. 9 Adjust the minimal number of samples of the dataset under divided in the leaf node

        圖10 調(diào)整數(shù)據(jù)集采樣率Fig. 10 Adjust the subsample of dataset

        還有2個(gè)關(guān)于回歸樹的子模型類參數(shù),分別是訓(xùn)練數(shù)據(jù)采樣率和特征采樣率。在每次訓(xùn)練子模型時(shí),前者通過對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)采樣,擾亂數(shù)據(jù),增大模型之間的差異性;后者通過對(duì)每個(gè)樣本數(shù)據(jù)的特征進(jìn)行隨機(jī)采樣,簡(jiǎn)化建模過程,增大模型之間的差異性。它們對(duì)模型性能的影響如圖 10和圖11所示。

        從圖10和圖11看到,模型的方差并沒有降低,這與數(shù)據(jù)集以及數(shù)據(jù)集的各個(gè)特征之間區(qū)分度都太小有關(guān)??紤]到模型的準(zhǔn)確率和復(fù)雜度,這里分別把訓(xùn)練數(shù)據(jù)采樣率和特征采樣率設(shè)置為 0.9和0.05。最后,在獲得以上所有調(diào)整結(jié)果的基礎(chǔ)上,重新對(duì)2個(gè)過程類參數(shù)進(jìn)行仔細(xì)調(diào)整,得到實(shí)驗(yàn)結(jié)果如圖12和圖13所示。

        圖11 調(diào)整特征采樣率Fig. 11 Adjust the subsample of features

        圖12 重新調(diào)整學(xué)習(xí)率的大小Fig. 12 Readjust the size of learning rate

        根據(jù)圖12,把學(xué)習(xí)率的值設(shè)置為0.02,該值越小,越有利于減小模型方差。在此基礎(chǔ)上得到圖13,從中可以看出,把迭代次數(shù)設(shè)置為3 400比較合適。在模型沒有過擬合的前提下,最終獲得的分類準(zhǔn)確率約為90.62%。

        圖13 重新調(diào)整回歸樹的個(gè)數(shù)Fig. 13 Readjust the number of regression trees

        3.3 與其他機(jī)器學(xué)習(xí)分類算法的比較與分析

        除了GBRT算法之外,機(jī)器學(xué)習(xí)領(lǐng)域還有很多分類算法也可以用來解決聲音信號(hào)的分類問題。經(jīng)典的機(jī)器學(xué)習(xí)分類算法還有樸素貝葉斯(Na?ve Bayes,NB)、K 近鄰(K-Neighbors,KN)、線性判別分析(Linear Discriminant Analysis,LDA)、決策樹(Decision Tree,DT)、支持向量機(jī)(Support Vector Machine,SVM)以及集成學(xué)習(xí)方法的自適應(yīng)提升(Adaboost,AB)和隨機(jī)森林(Random Forest,RF)。把這些算法也引入到解決 CA砂漿脫空檢測(cè)問題上,獲得的準(zhǔn)確率如圖14所示,各自的ROC曲線如圖15所示。

        圖14 不同分類模型的準(zhǔn)確率對(duì)比Fig. 14 Accuracy of different classification models

        圖 14中的小短線表示各個(gè)算法分類準(zhǔn)確率的波動(dòng)區(qū)間。從圖14中可以看到, GBRT算法構(gòu)造的分類模型的平均準(zhǔn)確率最高。而且,使用GBRT算法訓(xùn)練分類模型時(shí)所用的數(shù)據(jù)都是完整數(shù)據(jù),其他準(zhǔn)確率相對(duì)較高一點(diǎn)的方法如支持向量機(jī)在訓(xùn)練模型之前,需要使用諸如 PCA(Principe Component Analysis)等降維方法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行重要特征提取,增加了模型訓(xùn)練的復(fù)雜度,也破壞了數(shù)據(jù)的完整性。進(jìn)一步觀察圖14發(fā)現(xiàn),GBRT算法不僅準(zhǔn)確率高,而且準(zhǔn)確率的波動(dòng)區(qū)間較小,說明該算法比其他算法更加穩(wěn)定可靠,泛化能力更強(qiáng)。圖15的ROC曲線進(jìn)一步顯示,GBRT算法的ROC曲線最接近左上角,AUC值達(dá)到了0.96,充分表現(xiàn)了GBRT模型的性能優(yōu)越性。

        圖15 不同分類模型的ROC曲線圖Fig. 15 ROC of different classification models

        GBRT算法的缺點(diǎn)是時(shí)間消耗較大。GBRT算法所屬的boosting算法框架決定了其子模型之間較強(qiáng)的關(guān)聯(lián)度,因此很難進(jìn)行并行處理,模型的訓(xùn)練速度相對(duì)較慢。但是,用訓(xùn)練好的模型進(jìn)行樣本點(diǎn)檢測(cè)時(shí),速度非???,而每次進(jìn)行脫空檢測(cè)時(shí)并不需要重新訓(xùn)練模型。

        3.4 模型驗(yàn)證

        GBRT分類模型根據(jù)分類結(jié)果確定脫空與否并定位脫空位置,模型分類準(zhǔn)確率反映了模型對(duì) CA砂漿脫空的檢測(cè)能力。利用5-fold交叉驗(yàn)證算法和已經(jīng)打亂的數(shù)據(jù)集,獲取5個(gè)不同的驗(yàn)證數(shù)據(jù)集(每個(gè)樣本來自位點(diǎn)1或者位點(diǎn)2)。利用該驗(yàn)證數(shù)據(jù)集,GBRT分類模型獲得的檢測(cè)結(jié)果如表1所示。

        表1 模型驗(yàn)證結(jié)果Table 1 Results of model validation

        另外,本方法的本質(zhì)是利用脫空和非脫空情況下列車經(jīng)過軌道板時(shí)產(chǎn)生聲音信號(hào)的差異,對(duì)特定位點(diǎn)進(jìn)行脫空檢測(cè)。因此,本方法基本不受具體的脫空類型限制(只要差異足夠明顯),比如是否貫穿、脫空形狀等,可以實(shí)現(xiàn)多種脫空類型檢測(cè)。

        4 結(jié)論

        1) 利用采集自位點(diǎn)1和位點(diǎn)2的767個(gè)數(shù)據(jù)樣本對(duì)提出的GBRT檢測(cè)模型進(jìn)行驗(yàn)證,該檢測(cè)模型獲得了超過90%的檢測(cè)率,證明了GBRT算法用于解決CA砂漿脫空檢測(cè)問題的可行性。

        2) 本方法基于脫空聲音信號(hào)和和非脫空聲音信號(hào)的差異對(duì)CA砂漿脫空進(jìn)行檢測(cè),不受脫空類型的限制,有能力檢測(cè)各種脫空類型;而且,本方法基于分類模型的分類決策進(jìn)行脫空檢測(cè),可以同時(shí)對(duì)多個(gè)位點(diǎn)進(jìn)行檢測(cè),檢測(cè)效率較高。

        3) GBRT分類模型有眾多參數(shù)需要調(diào)節(jié),目前沒有標(biāo)準(zhǔn)的調(diào)參方法,現(xiàn)有方法大多根據(jù)實(shí)際情況和實(shí)驗(yàn)效果進(jìn)行調(diào)節(jié)。也可以借助于參數(shù)搜索算法,但是時(shí)間消耗巨大。

        4) 常見的經(jīng)典機(jī)器學(xué)習(xí)分類算法同樣適用于CA砂漿脫空檢測(cè),但檢測(cè)效果沒有GBRT算法好。如果實(shí)驗(yàn)數(shù)據(jù)集足夠大,采集方法更合理,GBRT算法可以獲得更好的檢測(cè)效果。

        [1] 王亦軍. 中國(guó)高速鐵路建設(shè)回顧與發(fā)展思考[J]. 鐵道經(jīng)濟(jì)研究, 2016(1): 6-11.WANG Yijun. Review and prospection of China’s high-speed railway[J]. Railway Economics Research,2016(1): 6-11.

        [2] 卿三惠, 李雪梅, 卿光輝. 中國(guó)高速鐵路的發(fā)展與技術(shù)創(chuàng)新[J]. 高速鐵路技術(shù), 2014, 5(1): 1-7.QING Sanhui, LI Xuemei, QING Guanghui.Development and technical innovation of china's high-speed railway[J]. High Speed Railway Technology,2014, 5(1): 1-7.

        [3] 張春毅, 田秀淑, 張旭, 等. CRTSⅡ 型無砟軌道 CA砂漿層脫空的瞬態(tài)機(jī)械阻抗法檢測(cè)試驗(yàn)研究[J]. 國(guó)防交通工程與技術(shù), 2015(6): 26-29, 40.ZHANG Chunyi, TIAN Xiushu, ZHANG Xu, et al. An experimental study of the transient mechanical impedance method for detection the disengaging in the CA mortar layer of type-CRTSⅡ non-ballasted tracks[J].Traffic Engineering and Technology for National Defence,2015(6): 26-29, 40.

        [4] 胡志鵬, 王平, 熊震威, 等. 基于高斯曲率識(shí)別板式無砟軌道中CA 砂漿脫空傷損[J]. 鐵道科學(xué)與工程學(xué)報(bào),2014, 11(3): 54-59.HU Zhipeng, WANG ping, XIONG Zhenwei, et al. The void damage identification of CA mortar in slab track based on the Gaussian curvature[J]. Journal of Railway Science and Engineering, 2014, 11(3): 54-59.

        [5] 陳夢(mèng). 高速鐵路多層線下結(jié)構(gòu)病害彈性波場(chǎng)無損檢測(cè)方法研究[D]. 上海: 上海交通大學(xué), 2014.CHEN Meng. Study on elastic wave field detection method used in under line layered structure of high-speed railway[D]. Shanghai: Shanghai Jiaotong University,2014.

        [6] Esveld C. Recent developments in slab track[J]. European Railway Review, 2003, 9(2): 81-85.

        [7] 徐健, 陳志華, 王凱, 等. 板式無碴軌道墊層 CA 砂漿研究與進(jìn)展[J]. 華東交通大學(xué)學(xué)報(bào), 2009, 26(4):58-62.XU Jian, CHEN Zhihua, WANG Kai, et al. Research and progress on CA mortar of ballastless slab track cushion[J].Journal of East China Jiaotong University, 2009, 26(4):58-62.

        [8] X Yongjiang, L Huajian, F Zhongwei, et al. Concrete crack of ballastless track structure and its repair[J]. IJR International Journal of Railway, 2009, 2(1): 30-36.

        [9] 肖威, 郭宇, 高建敏, 等. 高速鐵路路基不均勻沉降對(duì)CRTS III板式軌道受力變形的影響[J]. 鐵道科學(xué)與工程學(xué)報(bào), 2015, 12(4): 724-730.XIAO Wei, GUO Yu, GAO Jianmin, et al. Effect of uneven subgrade settlement on the CRTS Ⅲ slab track stress and deformation of high-speed railway[J]. Journal of Railway Science and Engineering, 2015, 12(4): 724-730.

        [10] 蔡世昱, 闕顯廷, 楊榮山. CA 砂漿脫空對(duì)框架型軌道板翹曲的影響分析[J]. 鐵道標(biāo)準(zhǔn)設(shè)計(jì), 2013 (1): 21-24.CAI Shiyu, QUE Xianting, YANG Rongshan. Effect analysis of CA Mortar disengaging on frame-type track slab’s warping[J]. Railway Standard Design, 2013(1):21-24.

        [11] 楊榮山, 劉克飛, 任娟娟, 等. 砂漿傷損對(duì)輪軌系統(tǒng)動(dòng)力特性的影響研究[J]. 鐵道學(xué)報(bào), 2014, 36(7): 79-84.YANG Rongshan, LIU Kefei, REN Juanjuan, et al.Research on effect of cement asphalt mortar damages on dynamic characteristics of wheel-rail system[J]. Journal of the China Railway Society, 2014, 36(7): 79-84.

        [12] Friedman J H. Greedy function approximation: a gradient boosting machine[J]. Annals of Statistics, 2001, 29(5):1189-1232.

        [13] 李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M]. 北京: 清華大學(xué)出版社,2012.LI Hang. Statistical learning method[M]. Beijing:Tsinghua University Press, 2012.

        [14] Opitz D, Maclin R. Popular ensemble methods: An empirical study[J]. Journal of Artificial Intelligence Research, 2011(11): 169-198.

        [15] Freund Y, Schapire R, Abe N. A short introduction to boosting[J]. Journal-Japanese Society for Artificial Intelligence, 1999, 14(5): 771-780.

        [16] Breiman L, Friedman J H, Olshen R, et al. Classification and regression trees[J]. Wadsworth International Group,1984, 40(3): 17-23.

        [17] Hawkins D. The problem of overfitting[J]. Journal of Chemical Information and Computer Sciences, 2004,44(1): 1-12.

        [18] Bramer M. Using T-pruning to reduce overfitting in classification tress[J]. Knowledge-Based Systems, 2002,15(5-6): 301-308.

        [19] Schonlau M. Boosted regression (boosting): An introductory tutorial and a stata plugin[J]. Stata Journal,2005, 5(3): 330.

        [20] Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection[C]// Proc of the 14th Int Joint Conf on A I, Montréal, 1995: 1137-1143.

        猜你喜歡
        分類檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        亚洲av无码专区亚洲av伊甸园| 91久久精品一二三区色| 大屁股流白浆一区二区三区| 国产精品国产三级国产av品爱网| 无遮挡又黄又刺激又爽的视频| 久久久久久久妓女精品免费影院| 一个人看的在线播放视频| 亚洲视频高清一区二区| 国产在线精品一区在线观看| 亚洲精品国产字幕久久vr| 亚洲一区二区三区在线| 国产肥熟女免费一区二区| 狼人香蕉香蕉在线28 - 百度| 国产一区曰韩二区欧美三区| 国产一区二区黑丝美女| 日韩女同精品av在线观看| 琪琪的色原网站| 亚洲片一区二区三区| 久久精品一区二区三区夜夜| 国产乱码人妻一区二区三区| 人人妻人人澡人人爽久久av| 亚洲国产精品久久久性色av| 大香蕉视频在线青青草| 亚洲精品蜜夜内射| 亚洲人成网站免费播放| 国内自拍第一区二区三区| 亚洲视频免费一区二区| 欧美大屁股xxxx| 亚洲AV无码一区二区三区性色学| av在线播放一区二区免费| 国产99视频精品免视看7| 亚洲人成网7777777国产 | 欧洲成人午夜精品无码区久久| 无码人妻精品一区二区三区下载| 色婷婷av一区二区三区丝袜美腿 | 国产亚洲午夜高清国产拍精品| 人妻丰满熟妇AV无码片| 日本一区二区三区一级片| 国产精品久久久久久福利| 84pao强力打造免费视频34| 熟女丝袜美腿亚洲一区二区三区|