亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于mRMR 算法的滑坡多源特征選擇*

        2023-11-07 06:04:06
        微處理機(jī) 2023年5期
        關(guān)鍵詞:特征方法模型

        張 垚

        (西安工程大學(xué)電子信息學(xué)院,西安 710600)

        1 引 言

        滑坡是地質(zhì)災(zāi)害中最為常見(jiàn)的災(zāi)害形式之一,對(duì)人類社會(huì)造成了巨大的經(jīng)濟(jì)損失和人員傷亡[1]?;聻?zāi)害的預(yù)測(cè)和預(yù)警一直是地質(zhì)災(zāi)害領(lǐng)域研究的熱點(diǎn)與難點(diǎn)之一。通過(guò)特征選擇能夠篩選滑坡的主要成災(zāi)因子,使多維數(shù)據(jù)復(fù)雜的問(wèn)題得以簡(jiǎn)化,因此這一方法在滑坡災(zāi)害研究中得到了廣泛應(yīng)用。當(dāng)前國(guó)外的主要相關(guān)研究包括:采用現(xiàn)場(chǎng)調(diào)查統(tǒng)計(jì)的方法對(duì)滑坡主要特征進(jìn)行選擇[2],但此法實(shí)驗(yàn)周期過(guò)長(zhǎng),時(shí)效性較差;利用邏輯回歸的方法對(duì)影響滑坡的特征因子進(jìn)行篩選[3],該方法過(guò)濾掉了過(guò)多的有效特征,導(dǎo)致最后的預(yù)報(bào)精度不高;采用機(jī)器學(xué)習(xí)的方法對(duì)滑坡影響因子進(jìn)行分類[4],該方法只考慮了影響滑坡的少數(shù)因素。國(guó)內(nèi)方面也有學(xué)者們針對(duì)滑坡災(zāi)害多源特征的選取問(wèn)題展開(kāi)研究:黃鑫等人[5]采用統(tǒng)計(jì)學(xué)的相關(guān)系數(shù)法進(jìn)行特征分析及相關(guān)性研究,該方法受異常數(shù)據(jù)的影響較大;程少康等人[6]對(duì)傳統(tǒng)的主成分分析(PCA)數(shù)據(jù)降維方法加以改進(jìn),提出了加權(quán)型PCA 和KPCA,該方法能夠有效降低數(shù)據(jù)維度,同時(shí)考慮了各類致災(zāi)因子所占的影響權(quán)重,但矩陣運(yùn)算過(guò)多導(dǎo)致計(jì)算復(fù)雜、時(shí)間過(guò)長(zhǎng);郭伏等人[7]提出灰色關(guān)聯(lián)分析(GRA)方法,該方法能夠篩選出對(duì)滑坡變形具有促進(jìn)作用的因子,但數(shù)據(jù)指標(biāo)受主觀因素影響較大,存在一定的局限性。針對(duì)以上研究中存在的問(wèn)題,本研究將采集的滑坡特征數(shù)據(jù)使用mRMR 特征選擇算法與導(dǎo)致滑坡發(fā)生相關(guān)性大的特征保留,將冗余的特征剔除,以此減少非必要監(jiān)測(cè)傳感器的數(shù)量、降低信息的采集成本,同時(shí)可以降低預(yù)報(bào)模型訓(xùn)練時(shí)的復(fù)雜度。

        2 mRMR 算法

        2.1 算法原理

        最大相關(guān)最小冗余(Max-Relevance and Min-Redundancy, mRMR)算法是由彭漢川團(tuán)隊(duì)[8]提出,它以不同的方式在相關(guān)性和冗余性之間進(jìn)行權(quán)衡,并且以互信息作為計(jì)算準(zhǔn)則來(lái)衡量特征之間的冗余度以及特征與目標(biāo)變量之間的相關(guān)性。通過(guò)最大化特征與目標(biāo)變量的相關(guān)性以及最小化特征之間的冗余度來(lái)進(jìn)行特征選擇,最終使得特征之間的差異性很大,而同目標(biāo)變量的相關(guān)性也很大。mRMR 算法是一種過(guò)濾型算法,具有計(jì)算復(fù)雜度低、魯棒性好、效率高的優(yōu)點(diǎn),適用于滑坡復(fù)雜環(huán)境中的特征選擇。

        互信息是信息論里有用的信息度量,它可以用來(lái)評(píng)價(jià)變量之間的相關(guān)性。若兩個(gè)隨機(jī)變量之間的互信息值越大,則它們之間的相關(guān)性就越強(qiáng);若兩個(gè)隨機(jī)變量相互獨(dú)立,則它們之間的互信息值為零。

        對(duì)于兩個(gè)離散型隨機(jī)變量,互信息可定義為:

        對(duì)于兩個(gè)連續(xù)型隨機(jī)變量,互信息可定義為:

        式(1)與式(2)中,P(x,y)是X 和Y 的聯(lián)合概率分布函數(shù);p(x)和p(y)分別為X 和Y 的邊緣概率分布函數(shù)。

        互信息具有非負(fù)性、對(duì)稱性、獨(dú)立性、自信息性和邊界性的特點(diǎn),其中對(duì)稱性是度量變量間的互相依賴和獨(dú)立關(guān)系的重要依據(jù),即有:

        在獲得變量的相關(guān)性之后,最大相關(guān)性和最小冗余度計(jì)算方法分別由以下目標(biāo)函數(shù)定義:

        最大相關(guān)最小冗余算法的特征選擇標(biāo)準(zhǔn)由下式定義:

        在式(4)、式(5)和式(6)中,S 為輸入特征集合;Φ為輸出特征集合;y 為目標(biāo)變量;I(xi,y)為輸入特征變量和輸出目標(biāo)變量之間的互信息;I(x,yj)為輸入特征之間的互信息;D 是特征集S 中各特征xi與目標(biāo)變量y 之間所有互信息的均值,表示兩者之間的相關(guān)程度;R 是特征集S 中各特征xi與xj之間所有互信息的均值,表示特征之間的冗余大小。

        可使用增量式搜索方法將優(yōu)化問(wèn)題表述成如下的操作:

        這一操作表示假設(shè)當(dāng)前已進(jìn)行m-1 次選擇,選出了具有m-1 個(gè)特征的特征子集Sm-1。在進(jìn)行第m次選擇時(shí),在剩下的特征空間X-Sm-1中需要通過(guò)上式來(lái)尋找使得mRMR 最大化的特征。

        當(dāng)進(jìn)行某次選擇時(shí),若取得的最大值等于零或小于某一設(shè)定閾值時(shí),則停止選擇,已選特征即為特征優(yōu)選結(jié)果。實(shí)質(zhì)上,該過(guò)程也相當(dāng)于不斷地遍歷和計(jì)算得到局部最優(yōu)特征的過(guò)程。因此,mRMR 的本質(zhì)就是用標(biāo)準(zhǔn)即相關(guān)性和冗余性來(lái)對(duì)特征進(jìn)行重要性排序。

        2.2 算法流程

        mRMR 特征選擇算法流程框圖如圖1 所示??筛爬ㄈ缦拢?/p>

        圖1 mRMR 特征選擇算法基本流程

        1)計(jì)算出各個(gè)特征之間以及各個(gè)特征與目標(biāo)變量的互信息;

        2)最大化最大相關(guān)與最小冗余之間的差值,得到評(píng)價(jià)函數(shù);

        3)通過(guò)評(píng)價(jià)函數(shù)式對(duì)原始數(shù)據(jù)集內(nèi)部的特征進(jìn)行評(píng)分,并對(duì)評(píng)分按照從高到低的原則對(duì)這些特征進(jìn)行重要性排序。評(píng)分越優(yōu),說(shuō)明該特征與目標(biāo)變量之間的相關(guān)性越高,重要性程度也就越高,包含的有用信息量就越多,與其它特征之間的冗余度越低;

        4)最終選取一定數(shù)目的特征子集組成最優(yōu)特征子集。

        3 數(shù)據(jù)來(lái)源及預(yù)處理

        研究采用的數(shù)據(jù)來(lái)源于陜西省榆林市子洲縣氣象監(jiān)測(cè)數(shù)據(jù)、地面監(jiān)測(cè)數(shù)據(jù)、地質(zhì)勘探數(shù)據(jù)以及人類活動(dòng)影響數(shù)據(jù)等。相關(guān)實(shí)驗(yàn)數(shù)據(jù)來(lái)源于子洲縣滑坡重點(diǎn)整治示范區(qū)的監(jiān)測(cè)數(shù)據(jù)。獲取到的相關(guān)特征有:降雨量、土壤含水率、土壓力、裂縫位移、人類活動(dòng)影響、斜坡傾角、高程、坡形特征,共8 類。數(shù)據(jù)集使用的是2018 年5 月到2019 年5 月之間的500 組數(shù)據(jù)(每12 小時(shí)采集一次)。將所有數(shù)據(jù)分為訓(xùn)練集與測(cè)試集兩部分,其中,選擇80%作為訓(xùn)練集,20%作為測(cè)試集。前400 組數(shù)據(jù)輸入建立預(yù)測(cè)模型作為模型的訓(xùn)練數(shù)據(jù),剩余的100 組數(shù)據(jù)用來(lái)檢測(cè)預(yù)報(bào)模型的精確度。

        滑坡的多源特征有定性和定量之分。針對(duì)定性類型數(shù)據(jù),需要將其轉(zhuǎn)化為定量數(shù)據(jù),然后同定量數(shù)據(jù)一起做歸一化處理,作為滑坡特征選擇的輸入。

        對(duì)收集到的滑坡多源特征(降雨量、土壤含水率、土壓力、裂縫位移、人類活動(dòng)影響、斜坡傾角、高程、坡形特征)進(jìn)行分析。由于高程、坡形特征、斜坡傾角、及人類活動(dòng)影響屬于定性數(shù)據(jù),需要轉(zhuǎn)化為定量數(shù)據(jù),依據(jù)對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析、工程經(jīng)驗(yàn)、現(xiàn)有的劃分方法劃分對(duì)應(yīng)離散區(qū)間,結(jié)果如表1 所示。

        表1 滑坡定性特征及指標(biāo)量化表

        由于不同監(jiān)測(cè)設(shè)備采集到的滑坡相關(guān)數(shù)據(jù),其特征與特征之間的屬性、量綱不同,數(shù)據(jù)的不統(tǒng)一性質(zhì)很容易影響預(yù)報(bào)模型的精度,因此在研究滑坡災(zāi)害預(yù)測(cè)模型時(shí),將多種傳感器采集來(lái)的不同屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,之后再將其作為模型的輸入進(jìn)行訓(xùn)練,從而確?;骂A(yù)報(bào)的科學(xué)性與準(zhǔn)確性。具體步驟如下:

        1)基于程序判斷濾波,對(duì)數(shù)據(jù)采用偏差的方法進(jìn)行清洗。首先,根據(jù)生產(chǎn)經(jīng)驗(yàn),確定出相鄰兩次采樣信號(hào)之間可能出現(xiàn)的最大偏差;然后,將兩次相鄰的采樣值相減,求出其增量(以絕對(duì)值表示);然后,將該增量與兩次采樣允許的最大偏差進(jìn)行比較,若超過(guò)此偏差,則取上次采樣值作為本次采樣值,若小于或等于此偏差,則將本次采樣信號(hào)作為本次采樣值。該步驟能克服因偶然因素引起的脈沖干擾。

        2)對(duì)多種特征數(shù)據(jù)進(jìn)行歸一化處理,變換公式如下式所示:

        式中,X 代表歸一化后的數(shù)據(jù);x 為采集到的數(shù)據(jù);xmin和xmax為該樣本數(shù)據(jù)的最大值和最小值。

        對(duì)收集到的多源特征做歸一化處理,處理后的部分?jǐn)?shù)據(jù)如表2 所示。

        4 實(shí)驗(yàn)分析

        在實(shí)驗(yàn)研究中,針對(duì)mRMR 算法而言,初始特征為獲取到的滑坡災(zāi)害多源特征,包括降雨量、土壤含水率、土壓力、裂縫位移、人類活動(dòng)影響、斜坡傾角、高程、坡形特征,共8 類;目標(biāo)變量則為滑坡災(zāi)害的發(fā)生概率。

        將陜西省榆林市子洲縣地質(zhì)災(zāi)害研究區(qū)收集到的8 類滑坡初始特征共500 組樣本數(shù)據(jù)輸入到mRMR 算法中。定義x1、x2、x3、x4、x5、x6、x7、x8分別為降雨量、土壤含水率、土壓力、裂縫位移、人類活動(dòng)影響、斜坡傾角、高程、坡形特征;y 為滑坡災(zāi)害發(fā)生概率;輸出滑坡各個(gè)特征的評(píng)分及重要性排序,如圖2所示。根據(jù)相關(guān)工程實(shí)踐經(jīng)驗(yàn),定義評(píng)分設(shè)定閾值為70,即若某一滑坡特征的評(píng)分超過(guò)70 分時(shí),則表明該特征為描述滑坡災(zāi)害發(fā)生的重要特征。

        圖2 mRMR 特征選擇重要性排序圖

        在圖2 中,研究基于mRMR 算法的特征選擇,滑坡各個(gè)特征評(píng)分從高到低依次排序?yàn)椋簒1=87.532、x6=80.641、x4=75.423、x5=70.149、x7=54.473、x3=52.393、x2=46.324、x8=39.548,可見(jiàn)其中x1、x6、x4、x5滿足實(shí)驗(yàn)設(shè)定閾值的要求。

        實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)對(duì)第5 類特征(高程)進(jìn)行評(píng)分時(shí),其評(píng)分相比前4 類特征大幅下降,與前4 類特征評(píng)分存在顯著差異,且從第4 類特征(人類活動(dòng)影響)之后的特征評(píng)分變化波動(dòng)已不再明顯、下降趨勢(shì)較為緩慢,這說(shuō)明前4 類主要的輸入特征和滑坡發(fā)生概率相關(guān)性較強(qiáng),后4 類特征和滑坡發(fā)生概率相關(guān)性相對(duì)較弱,即前4 類特征能夠較好地表征滑坡災(zāi)害的發(fā)生,需要將其保留,后4 類滑坡特征較為冗余,需要將其剔除。因此,最終將8 類滑坡初始特征經(jīng)過(guò)mRMR 算法處理后的前4 類特征(降雨量、斜坡傾角、裂縫位移、人類活動(dòng)影響)作為滑坡預(yù)報(bào)模型的輸入?yún)?shù),用于神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,該方法降低了模型數(shù)據(jù)結(jié)構(gòu)的復(fù)雜度,同時(shí)為后期傳感器優(yōu)化布設(shè)提供了依據(jù),有助于節(jié)約成本。

        5 結(jié) 束 語(yǔ)

        所提出的基于mRMR 算法的滑坡多源特征選擇方法,具有以下優(yōu)勢(shì):方法原理簡(jiǎn)單、計(jì)算方便、復(fù)雜度低、效率高;泛化能力強(qiáng),并且適用于多維小樣本數(shù)據(jù);對(duì)于非線性的變量直接進(jìn)行篩選,縮短了模型的訓(xùn)練步數(shù)和仿真時(shí)間。通過(guò)該方法進(jìn)行特征選擇,8 類滑坡初始特征經(jīng)選擇后降低為4 類,實(shí)驗(yàn)結(jié)果表明該方法降低了數(shù)據(jù)的復(fù)雜度、消除了部分特征的冗余度,對(duì)于提高模型的魯棒性、降低傳感器設(shè)備的監(jiān)測(cè)采集成本具有一定的工程實(shí)踐意義,可為有關(guān)部門的決策提供科學(xué)依據(jù)。

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        爆乳午夜福利视频精品| 国产特级毛片aaaaaa| 4444亚洲人成无码网在线观看| 国产午夜视频免费观看| 国产高清不卡二区三区在线观看 | 熟女人妻在线视频| 国产美女一级做a爱视频| 在线观看国产精品一区二区不卡 | 亚洲日本天堂| 亚洲天堂av社区久久| 97超碰国产成人在线| 无码人妻精品一区二区| 精品手机在线视频| 肉丝高跟国产精品啪啪| 男人天堂这里只有精品| 精品无码日韩一区二区三区不卡| 国产精品短视频| av网站一区二区三区| 色综合天天综合网国产成人网| 欧美野外疯狂做受xxxx高潮| 福利视频一二区| 一区二区激情偷拍老牛视频av | 国产精品美女久久久久久| 日韩成人免费一级毛片| 粗大挺进孕妇人妻在线| 亚洲av综合色区无码一区| 中日韩精品视频在线观看| 亚洲乱码少妇中文字幕| 精品高清一区二区三区人妖| 亚洲欧美日韩另类精品一区 | 亚洲性感毛片在线视频| 免费欧洲毛片a级视频老妇女| 免费人成年小说在线观看| 亚洲区精品久久一区二区三区女同| 天天射综合网天天插天天干| 东京热人妻一区二区三区| 青春草国产视频| 水蜜桃在线观看一区二区国产 | 99精品久久精品一区| 色婷婷综合久久久久中文字幕| 国产美熟女乱又伦av果冻传媒|