亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于地質(zhì)大數(shù)據(jù)的泥石流災(zāi)害易發(fā)性評(píng)價(jià)

        2018-12-14 05:26:26張永宏葛濤濤夏廣浩
        計(jì)算機(jī)應(yīng)用 2018年11期
        關(guān)鍵詞:易發(fā)泥石流準(zhǔn)確率

        張永宏,葛濤濤,田 偉,夏廣浩,何 靜

        (1.南京信息工程大學(xué) 信息與控制學(xué)院,南京210044; 2.南京信息工程大學(xué) 計(jì)算機(jī)與軟件學(xué)院,南京 210044)(*通信作者電子郵箱tw@nuist.edu.cn)

        0 引言

        隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)所創(chuàng)造的價(jià)值滲透在當(dāng)今生活的方方面面,已成為高校和企業(yè)的重點(diǎn)研究對(duì)象。傳統(tǒng)方法難以處理量大、異構(gòu)、更新快速的數(shù)據(jù)[1],而神經(jīng)網(wǎng)絡(luò)特征提取能力強(qiáng),易于整合多源信息,對(duì)動(dòng)態(tài)變化的數(shù)據(jù)適應(yīng)性高的特點(diǎn),足夠使其成為大數(shù)據(jù)價(jià)值轉(zhuǎn)化的紐帶;同時(shí),大數(shù)據(jù)也為神經(jīng)網(wǎng)絡(luò)訓(xùn)練供應(yīng)了足夠多的訓(xùn)練樣本。伴隨著計(jì)算機(jī)軟硬件技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)應(yīng)用到了各個(gè)領(lǐng)域,如語(yǔ)音大數(shù)據(jù)分析[2]、醫(yī)學(xué)大數(shù)據(jù)分析[3]、農(nóng)業(yè)大數(shù)據(jù)分析[4]以及電力大數(shù)據(jù)分析[5]等,大數(shù)據(jù)結(jié)合神經(jīng)網(wǎng)絡(luò)已成為當(dāng)下推動(dòng)社會(huì)與科學(xué)發(fā)展的重要?jiǎng)恿Α?/p>

        長(zhǎng)期地質(zhì)調(diào)查工作積累了大量的地質(zhì)原始數(shù)據(jù),通過遙感、鉆探、物探等手段獲得多源、多模態(tài)、多時(shí)態(tài)的地質(zhì)數(shù)據(jù)具有大數(shù)據(jù)的典型特性,即地質(zhì)大數(shù)據(jù)。泥石流是發(fā)生在山區(qū)的一種突發(fā)性地質(zhì)災(zāi)害,其易發(fā)性評(píng)價(jià)以地質(zhì)環(huán)境為基礎(chǔ),根據(jù)地質(zhì)災(zāi)害現(xiàn)狀,靜態(tài)考察泥石流災(zāi)害在一定區(qū)域內(nèi)發(fā)生的可能性大小,它的強(qiáng)弱同時(shí)受多種外在因素和內(nèi)在因素的共同影響[6]。泥石流易發(fā)性評(píng)價(jià)的實(shí)施可以為當(dāng)?shù)毓苍O(shè)施建立、居民人生安全以及防災(zāi)減災(zāi)提供巨大幫助。

        目前比較常用的泥石流易發(fā)性的評(píng)價(jià)方法有層次分析法[7]、模糊數(shù)學(xué)[8-9]、邏輯回歸[6]等,也有學(xué)者將已有方法結(jié)合使用,取長(zhǎng)補(bǔ)短[10]。這些算法在取得不錯(cuò)成績(jī)的同時(shí)也存在一些不足之處,如:層次分析法指標(biāo)體系的提出需要有專家系統(tǒng)的支持,且泥石流指標(biāo)維度較多,標(biāo)度工作量太大;模糊綜合評(píng)價(jià)計(jì)算復(fù)雜,確定泥石流指標(biāo)權(quán)重向量時(shí)過于主觀,造成泥石流易發(fā)性評(píng)價(jià)精度不高;邏輯回歸屬于廣義線性回歸模型,泥石流易發(fā)性評(píng)價(jià)指標(biāo)中的多重共線性問題對(duì)其影響較大。

        從上述傳統(tǒng)泥石流易發(fā)性評(píng)價(jià)方法來(lái)看,它們存在一些共同的局限性:評(píng)價(jià)主觀,難以處理多維度的大數(shù)據(jù)信息。神經(jīng)網(wǎng)絡(luò)具有良好的非線性映射能力,能夠在海量地質(zhì)數(shù)據(jù)中揭示數(shù)據(jù)內(nèi)部聯(lián)系,對(duì)未來(lái)作出精準(zhǔn)的預(yù)測(cè),在泥石流易發(fā)性評(píng)價(jià)應(yīng)用中成果顯著[11]; 然而神經(jīng)網(wǎng)絡(luò)存在學(xué)習(xí)速度慢,難以處理非平衡數(shù)據(jù)等問題,使其作用得不到充分發(fā)揮,并且面對(duì)地質(zhì)大數(shù)據(jù),無(wú)法找出輸入指標(biāo)對(duì)易發(fā)性的影響程度。針對(duì)傳統(tǒng)方法的不足,本文基于神經(jīng)網(wǎng)絡(luò),結(jié)合Borderline-SMOTE(Synthetic Minority Oversampling TEchnique)算法,遺傳算法(Genetic Algorithm, GA)和平均影響值(Mean Impact Value, MIV)算法對(duì)影響泥石流發(fā)生的地質(zhì)大數(shù)據(jù)進(jìn)行分析與挖掘,并建立泥石流易發(fā)性評(píng)價(jià)模型。實(shí)驗(yàn)證明,在研究地處“一帶一路”重要節(jié)點(diǎn)之一的雅魯藏布江中上游流域泥石流孕災(zāi)環(huán)境的基礎(chǔ)上,使用TensorFlow框架搭建的神經(jīng)網(wǎng)絡(luò)結(jié)合優(yōu)化算法可以對(duì)研究區(qū)域內(nèi)山地泥石流災(zāi)害易發(fā)性進(jìn)行準(zhǔn)確的評(píng)價(jià)。

        1 泥石流易發(fā)性評(píng)價(jià)模型框架

        為了應(yīng)對(duì)區(qū)域泥石流易發(fā)性評(píng)價(jià)所面臨的挑戰(zhàn),本文構(gòu)建了一種能夠客觀準(zhǔn)確地評(píng)價(jià)區(qū)域泥石流易發(fā)性的模型框架,如圖1所示。本框架一共包含5層,自下而上分別為數(shù)據(jù)層、學(xué)習(xí)框架層、易發(fā)性評(píng)價(jià)方法層、易發(fā)性評(píng)價(jià)技術(shù)層以及應(yīng)用層。該泥石流易發(fā)性評(píng)價(jià)框架中,各個(gè)層次核心功能描述如下:

        數(shù)據(jù)層 數(shù)據(jù)層主要提供遙感圖像,地形圖,地質(zhì)圖,災(zāi)害歷史事件等基礎(chǔ)資料。對(duì)地質(zhì)大數(shù)據(jù)數(shù)據(jù)庫(kù)的管理包括定義、檢索、修改、增減等操作,并建立數(shù)據(jù)字典。由于泥石流溝的基礎(chǔ)數(shù)據(jù)以及各種孕災(zāi)環(huán)境因子處于動(dòng)態(tài)變化之中,所以該層應(yīng)具有開放性,有利于隨時(shí)更新和維護(hù)數(shù)據(jù)庫(kù)中的存儲(chǔ)數(shù)據(jù)。

        學(xué)習(xí)框架層 TensorFlow學(xué)習(xí)框架能夠在多種運(yùn)行環(huán)境下使用,并且在前端支持多種主流語(yǔ)言調(diào)用其API(Application Programming Interface)。該框架封裝了當(dāng)下流行的眾多神經(jīng)網(wǎng)絡(luò)模型,可以根據(jù)需要構(gòu)建和實(shí)現(xiàn)所需要的網(wǎng)絡(luò)模型。本文在Windows系統(tǒng)下調(diào)用TensorFlow框架,通過import命令導(dǎo)入待使用的數(shù)據(jù)庫(kù),并使用Python編程語(yǔ)言搭建能夠準(zhǔn)確評(píng)價(jià)泥石流易發(fā)程度的學(xué)習(xí)架構(gòu)。

        易發(fā)性評(píng)價(jià)方法層 泥石流成災(zāi)條件復(fù)雜,影響其易發(fā)程度的因素隨機(jī)且模糊。BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)無(wú)須建立確定的模型,只需根據(jù)一定量的樣本來(lái)學(xué)習(xí)研究對(duì)象的內(nèi)部結(jié)構(gòu),便可完成輸入集合與輸出結(jié)果之間的非線性映射。網(wǎng)絡(luò)采取隨機(jī)初始化的方式獲取權(quán)值和閾值,導(dǎo)致分類效率低下,易陷入局部最優(yōu), 因此,采用遺傳算法搜索全局最優(yōu)權(quán)值和閾值,可縮減訓(xùn)練時(shí)間,提升網(wǎng)絡(luò)的泛化性能。

        易發(fā)性評(píng)價(jià)技術(shù)層 在易發(fā)性評(píng)價(jià)過程中,分類器能夠?qū)︻悇e分布均衡的數(shù)據(jù)作較為精準(zhǔn)的分類; 然而,實(shí)際生活中,不同易發(fā)等級(jí)的數(shù)據(jù)極不平衡, 且雖然網(wǎng)絡(luò)能夠逼近任意非線性關(guān)系,但是難以表達(dá)輸入指標(biāo)與模型的相關(guān)性, 因此,需要設(shè)計(jì)易發(fā)性評(píng)價(jià)方法優(yōu)化技術(shù),在解決類別間數(shù)據(jù)不平衡問題對(duì)分類器影響的同時(shí)篩選輸入指標(biāo)。分別采用重采樣技術(shù)和平均影響值算法,達(dá)成上述優(yōu)化目標(biāo)。

        應(yīng)用層 泥石流易發(fā)性評(píng)價(jià)實(shí)際應(yīng)用中,將已知的歷史災(zāi)害數(shù)據(jù)集按訓(xùn)練集、驗(yàn)證集、測(cè)試集進(jìn)行合理的分配。設(shè)網(wǎng)絡(luò)的訓(xùn)練樣本數(shù)據(jù)集為{(x1,d1), (x2,d2),…,(xm,dm)},xi為泥石流i的特征向量,di為對(duì)應(yīng)的泥石流易發(fā)性等級(jí)標(biāo)簽,di∈{1,2,…,r},r為標(biāo)簽的類別數(shù),m為訓(xùn)練的樣本個(gè)數(shù)?;谀嗍饕装l(fā)性評(píng)價(jià)方法層和技術(shù)層,實(shí)現(xiàn)類別不平衡數(shù)據(jù)下,根據(jù)輸入孕災(zāi)環(huán)境,快速準(zhǔn)確地評(píng)價(jià)區(qū)域泥石流易發(fā)性,并獲取影響當(dāng)?shù)啬嗍靼l(fā)生的主要影響因子。

        圖1 泥石流易發(fā)性評(píng)價(jià)模型框架

        2 泥石流易發(fā)性評(píng)價(jià)方法

        本文對(duì)于泥石流易發(fā)性的評(píng)價(jià)包含兩個(gè)基本過程:基于神經(jīng)網(wǎng)絡(luò)的泥石流易發(fā)性模型搭建及其技術(shù)優(yōu)化,所以將泥石流易發(fā)性評(píng)價(jià)問題劃分為以下3個(gè)步驟:

        1)從采集到的泥石流災(zāi)害系統(tǒng)的眾多影響因子中提取能夠準(zhǔn)確反映區(qū)域特征的泥石流易發(fā)性評(píng)估指標(biāo),對(duì)其作歸一化和過采樣Borderline-SMOTE的處理;

        2)構(gòu)建評(píng)價(jià)泥石流易發(fā)性神經(jīng)網(wǎng)絡(luò)模型,將過采樣后的訓(xùn)練數(shù)據(jù)輸入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練,調(diào)整并確定模型參數(shù),并對(duì)已經(jīng)確定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)采用遺傳算法進(jìn)行優(yōu)化,找到全局最優(yōu)權(quán)值和閾值,提升模型的效率和泛化性能;

        3)使用MIV算法探討指標(biāo)因子與上述GA_BP模型的相關(guān)性,刪減冗余信息,最后通過網(wǎng)絡(luò)Softmax分類器計(jì)算模型輸出結(jié)果。

        技術(shù)路線圖如圖2所示。

        圖2 泥石流易發(fā)性分類技術(shù)路線

        最后采用基于受試者工作特征曲線(Receiver Operating Characteristic Curve, ROC)分析的AUC(Area Under the Curve)方法評(píng)估模型的準(zhǔn)確性和可靠性。

        2.1 重采樣技術(shù)

        過采樣技術(shù)在解決數(shù)據(jù)不平衡分類問題中具有廣泛的應(yīng)用價(jià)值[12-13]。在山地災(zāi)害研究中,往往可以發(fā)現(xiàn),中易發(fā)性的地區(qū)占絕大多數(shù),而其他易發(fā)性的地區(qū)是相對(duì)較少的。分類過程中,少數(shù)類數(shù)據(jù)稀少是影響神經(jīng)網(wǎng)絡(luò)分類精度的主要原因之一。本文使用一種基于邊界的SMOTE算法(Borderline-SMOTE),其具體的方法為:

        首先使用K近鄰算法計(jì)算少數(shù)類樣本集T中每一個(gè)樣本在訓(xùn)練集x中的K近鄰樣本集P,并分析其中屬于多數(shù)類樣本集T′的比例:若多數(shù)類樣本占少數(shù)則直接將該樣本放回少數(shù)類樣本集;若多數(shù)類樣本占多數(shù)則將該樣本作為邊界樣本,放至邊界(Borderline)集合F中。計(jì)算邊界樣本集中每個(gè)樣本Ti在T中的K近鄰,并從中隨機(jī)選取一個(gè)樣本Tj,使用Ti與Tj結(jié)合SMOTE算法,由式(1)生成新的少數(shù)類樣本Tnew,合成的新樣本Tnew加入到原始樣本集形成新的樣本集Xinput。

        Tnew=Ti+random(0,1)*|Ti-Tj|

        (1)

        算法描述偽代碼如下:

        算法1 過采樣。

        InputK,m,T,T′,x;

        OutputXinput。

        1)

        fori=1 to |T| do

        2)

        計(jì)算少數(shù)類樣本中Ti在訓(xùn)練集x中的K近鄰集合P;

        3)

        if (K/2<|P∩T′|

        4)

        將Ti加入到邊界集合F中;

        5)

        計(jì)算集合F中元素在少數(shù)類樣本的K近鄰;

        6)

        end if

        7)

        end for

        8)

        z=|T′|-|F|;

        9)

        whilez≠0 do

        10)

        隨機(jī)選擇集合F中的Ti;

        11)

        diff=Ti與其近鄰Tj之間的距離;

        12)

        gap=0到1之間的隨機(jī)數(shù);

        13)

        Tnew=Ti+gap*diff;

        14)

        Xinput=Tnew∪x

        15)

        z=z-1;

        16)

        end while

        17)

        returnXinput

        2.2 易發(fā)性分類方法

        人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是一種模仿生物神經(jīng)系統(tǒng)處理信息的數(shù)學(xué)模型,BP神經(jīng)網(wǎng)絡(luò)作為ANN中最精華的部分,通常具有3層及以上的網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層、輸出層以及隱藏層, 其功能包括信號(hào)的前向傳播和誤差的反向傳播。

        由于網(wǎng)絡(luò)各層的激活函數(shù)和學(xué)習(xí)規(guī)則等存在差異,所以在神經(jīng)網(wǎng)絡(luò)的輸入端應(yīng)對(duì)重采樣后的數(shù)據(jù)使用歸一化算法,定義如下:

        xnew=(xij-xi_min)/(xi max-xi_min)

        (2)

        樣本x完成歸一化后,樣本集Xinput離開輸入層進(jìn)入隱藏層,經(jīng)傳遞函數(shù)(如Tanh、Relu等函數(shù),經(jīng)實(shí)驗(yàn)對(duì)比,本文使用Tanh函數(shù))激活后繼續(xù)往下一層傳遞,直至輸出層,各層輸出公式為:

        (3)

        其中:f(·)表示傳遞函數(shù);θ={w,b}表示網(wǎng)絡(luò)參數(shù),其中w為權(quán)重,b為閾值。網(wǎng)絡(luò)的輸出層采用Softmax分類器進(jìn)行分類識(shí)別,其公式定義為:

        (4)

        式中:p(di=k|xi)表示樣本xi識(shí)別為第k個(gè)類別的概率;hλ(xi)是r行1列的向量,即r個(gè)類別分類器輸出的也是一個(gè)r維向量,所有行元素之和為1;λ1,λ2,…,λr∈Rn+1是分類器的參數(shù),且構(gòu)成參數(shù)矩陣λ。對(duì)于xi,選擇輸出向量中最大概率對(duì)應(yīng)的k值作為分類結(jié)果。

        模型的訓(xùn)練目標(biāo)是通過尋找一組最優(yōu)參數(shù)θ*={w*,b*},使預(yù)測(cè)值與實(shí)際值誤差最小,即在訓(xùn)練過程中,使代價(jià)函數(shù)J(λ)達(dá)到最小,代價(jià)函數(shù)J(λ)定義為:

        (5)

        式中:1{·}是一個(gè)指示性函數(shù),大括號(hào)里的值為真返回1; 否則返回0。經(jīng)過實(shí)驗(yàn),利用誤差逆?zhèn)鞑ズ虯dam優(yōu)化算法可實(shí)現(xiàn)式(5)達(dá)到最小,結(jié)束訓(xùn)練。

        由上可知,BP算法的權(quán)重和閾值對(duì)學(xué)習(xí)結(jié)果存在很大影響,而網(wǎng)絡(luò)采用隨機(jī)初始化的方式使其存在波動(dòng)、難以收斂或訓(xùn)練速度慢的問題,最終導(dǎo)致學(xué)習(xí)結(jié)果不理想。遺傳算法是一種基于自然選擇和遺傳變異等自然界進(jìn)化過程的計(jì)算模型,具有很強(qiáng)的全局搜索能力和全局優(yōu)化性能[14]。遺傳算法將前述神經(jīng)網(wǎng)絡(luò)中的初始權(quán)值和閾值作為種群中的個(gè)體,采用二進(jìn)制編碼為其編碼,編碼長(zhǎng)度由BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)而定,包括網(wǎng)絡(luò)層數(shù)及各層節(jié)點(diǎn)數(shù)。其中隱層神經(jīng)元個(gè)數(shù)通常由式(6)確定:

        (6)

        式中:l為隱層節(jié)點(diǎn)數(shù),n為輸入層節(jié)點(diǎn)數(shù),r為輸出層節(jié)點(diǎn)數(shù),α為整數(shù),取值范圍為1~10。一組個(gè)體的集合作為種群(pop),種群規(guī)模應(yīng)根據(jù)具體問題選擇合適的數(shù)量,初始種群規(guī)模設(shè)為S;最大遺傳代數(shù)設(shè)為Gen。遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值和閾值主要分為兩步: 第一步, 構(gòu)造適應(yīng)度函數(shù)用于考察個(gè)體的優(yōu)劣情況,本文設(shè)定為神經(jīng)網(wǎng)絡(luò)代價(jià)函數(shù)的倒數(shù)。輸出值與期望值之差越小,適應(yīng)度值越高,個(gè)體越有優(yōu)勢(shì),反之則會(huì)在進(jìn)化過程中被淘汰。 第二步,進(jìn)行遺傳操作:1)根據(jù)計(jì)算的適應(yīng)度,進(jìn)行個(gè)體的選擇。首先通過最優(yōu)策略選出適應(yīng)度最高的最佳個(gè)體,直接遺傳給下一代種群,其余個(gè)體通過概率值進(jìn)行選擇,公式如下:

        (7)

        其中fi為個(gè)體i的適應(yīng)度值。2)選擇種群中的一對(duì)作為父體,以一定的交叉概率Pc進(jìn)行交叉配對(duì),產(chǎn)生另外兩個(gè)新個(gè)體。3)隨機(jī)選擇種群中的個(gè)體,以特定概率Pm進(jìn)行變異,即通過改變個(gè)體中的某一基因位而產(chǎn)生新個(gè)體。4)最后進(jìn)行循環(huán)操作,當(dāng)遺傳代數(shù)小于最大遺傳次數(shù)時(shí),轉(zhuǎn)至第一步,繼續(xù)運(yùn)行。直至指定的進(jìn)化次數(shù)時(shí)停止運(yùn)行,從種群中選擇適應(yīng)度最高的個(gè)體,輸出對(duì)應(yīng)的權(quán)值w和閾值b。最后將這組權(quán)值和閾值應(yīng)用于BP神經(jīng)網(wǎng)絡(luò)中,當(dāng)達(dá)到目標(biāo)準(zhǔn)確率(Aim_accuracy)時(shí),結(jié)束訓(xùn)練,輸出分類結(jié)果。算法偽代碼描述如下:

        算法2 遺傳神經(jīng)網(wǎng)絡(luò)(GA_BP)。

        輸入Pm,Pc,Gen,Aim_accuracy,S,Xinput;

        輸出 GA_BP網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)。

        1)

        初始化遺傳算法的參數(shù)和種群pop;

        2)

        t=0;

        3)

        while(t

        4)

        基于Xinput數(shù)據(jù)集計(jì)算S組w和b的網(wǎng)絡(luò)誤差;

        5)

        計(jì)算個(gè)體適應(yīng)度;

        6)

        根據(jù)適應(yīng)度,從pop(t) 中選擇優(yōu)質(zhì)下一代pop(t+1);

        6)

        if (random(0,1)

        7)

        執(zhí)行交叉操作;

        8)

        end if

        9)

        if (random(0,1)

        10)

        執(zhí)行變異操作;

        11)

        end if

        12)

        end while

        13)

        選擇具有最佳適應(yīng)度的一組w和b;

        14)

        accuracy=0

        15)

        while(accuracy

        16)

        使用最優(yōu)w和b迭代計(jì)算輸出結(jié)果;

        17)

        計(jì)算準(zhǔn)確率;

        18)

        最小化損失函數(shù);

        19)

        更新w和b;

        20)

        end while

        21)

        return GA_BP網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)

        2.3 指標(biāo)因子評(píng)價(jià)

        影響泥石流易發(fā)性的因子眾多,在構(gòu)建泥石流易發(fā)性模型時(shí),應(yīng)該考慮特征因子影響力的大小,但是神經(jīng)網(wǎng)絡(luò)無(wú)法從已有的特征中確定特征所占的權(quán)重。MIV值可作為確定輸入神經(jīng)元對(duì)輸出神經(jīng)元影響大小的指標(biāo)[15],所以本文使用該算法確定泥石流易發(fā)性分類中各個(gè)因素與網(wǎng)絡(luò)的相關(guān)程度,刪減冗余信息,提升分類精度和速度,同時(shí)可為研究人員野外勘察提供參考。具體過程如下:

        將訓(xùn)練樣本Xinput中每一個(gè)樣本在其原有基礎(chǔ)上加減10%,形成兩個(gè)新的訓(xùn)練樣本A1、A2。將這兩個(gè)新的訓(xùn)練樣本代入已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)中,得到另外兩個(gè)仿真結(jié)果B1、B2。將B1-B2的值作為改變?cè)撎卣鲗?duì)輸出結(jié)果產(chǎn)生的影響變化值IV。最后將該影響值按災(zāi)害觀測(cè)數(shù)求取平均值。按照上述步驟分別算出n個(gè)特征的平均影響值MIV,最后根據(jù)平均影響值絕對(duì)值的大小對(duì)特征進(jìn)行從大到小排序,并構(gòu)建包括排序值前1至前13個(gè)因子的13種因子組合。利用前述GA_BP算法對(duì)比計(jì)算13種組合分類效果。算法描述偽代碼如下:

        算法3 指標(biāo)評(píng)價(jià)與選擇。

        輸入 GA_BP網(wǎng)絡(luò),Xinput;

        輸出 最優(yōu)指標(biāo)組合x*。

        1)

        fori=0 tondo

        2)

        A1=x,A2=x;

        3)

        A1[:,i] =A[:,i]*1.1;

        4)

        A2[:,i] =A[:,i]*0.9;

        5)

        分別計(jì)算數(shù)據(jù)集A1和A2在GA_BP的預(yù)測(cè)結(jié)果B1和B2;

        6)

        IV=B1-B2;

        7)

        MIV=總體IV的均值;

        8)

        end for;

        9)

        按照MIV值從大到小的順序?yàn)橹笜?biāo)因子排序;

        10)

        根據(jù)排序構(gòu)建13組輸入組合;

        11)

        計(jì)算各組合在GA_BP 模型的輸出準(zhǔn)確率;

        12)

        根據(jù)準(zhǔn)確率大小選擇最優(yōu)組合x*作為輸入;

        13)

        returnx*

        3 實(shí)驗(yàn)與結(jié)果檢驗(yàn)

        本次實(shí)驗(yàn)使用Windows版本的TensorFlow學(xué)習(xí)框架,采用Anaconda軟件包結(jié)合Python語(yǔ)言進(jìn)行程序編寫,實(shí)驗(yàn)平臺(tái)使用的CPU為Inter Core i7- 4790 3.6 GHz,Windows7操作系統(tǒng),運(yùn)行內(nèi)存為8 GB。

        3.1 評(píng)價(jià)因子的選取與數(shù)據(jù)源

        根據(jù)《泥石流災(zāi)害防治工程勘察規(guī)范》(DZ/T 0220— 2006)[16],通過野外考察和實(shí)地勘測(cè),收集雅魯藏布江中上游的地形地貌、地質(zhì)構(gòu)造、地層巖性以及泥石流發(fā)生的歷史記錄,初步選取13個(gè)影響因子作為影響泥石流易發(fā)性評(píng)價(jià)的主要評(píng)價(jià)指標(biāo),具體指標(biāo)及表征意義如表1所示。

        表1 指標(biāo)及表征意義

        研究區(qū)災(zāi)害點(diǎn)的基礎(chǔ)數(shù)據(jù),主要來(lái)源于西藏高原大氣環(huán)境科學(xué)研究所研究人員長(zhǎng)年累月的調(diào)查與收集,總共統(tǒng)計(jì)出有記載的1 778個(gè)泥石流地質(zhì)災(zāi)害點(diǎn)。本文采用中國(guó)地質(zhì)調(diào)查局《滑坡崩塌泥石流災(zāi)害詳細(xì)調(diào)查規(guī)范》來(lái)劃分暴發(fā)頻率,如表2。

        由暴發(fā)頻率圖(圖3)可以看出,雅魯藏布江中上游流域泥石流災(zāi)害主要以中易發(fā)為主。

        圖3 研究區(qū)域泥石流災(zāi)害易發(fā)性等級(jí)統(tǒng)計(jì)

        3.2 數(shù)據(jù)預(yù)處理

        泥石流易發(fā)性受孕災(zāi)環(huán)境的多重因子影響,各類別數(shù)據(jù)之間存在不平衡現(xiàn)象, 因此,需要彌補(bǔ)少數(shù)類樣本在信息分布方面的不足。本文使用Borderline-SMOTE算法為少數(shù)類樣本:不易發(fā)、低易發(fā)、高易發(fā)插值生成新的樣本,提高分類器對(duì)少數(shù)類樣本的識(shí)別精度。對(duì)評(píng)價(jià)因子進(jìn)行歸一化處理既是模型建立的需要也是為防止不同指標(biāo)因單位不同,數(shù)據(jù)存在偏大或偏小問題。最后將訓(xùn)練樣本的目標(biāo)矢量設(shè)為(1,0,0,0)、(0,1,0,0)、(0,0,1,0)以及(0,0,0,1),作為易發(fā)性的等級(jí),結(jié)果如表3所示, 樣本數(shù)均為1 194。

        表3 泥石流易發(fā)性等級(jí)

        3.3 確定BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        依據(jù)神經(jīng)網(wǎng)絡(luò)的基本原理,三層神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠有較好的分類性能。本文使用兩層隱藏層,因?yàn)樵趯?shí)驗(yàn)過程中發(fā)現(xiàn)多一層隱藏層能更快地實(shí)現(xiàn)收斂,且準(zhǔn)確率更高。輸入層根據(jù)泥石流易發(fā)性評(píng)價(jià)因子,使用13個(gè)神經(jīng)元。輸出層根據(jù)待分類類別數(shù),使用4個(gè)神經(jīng)元。實(shí)驗(yàn)設(shè)置初始的權(quán)值與閾值為隨機(jī)系統(tǒng)值。隱藏層節(jié)點(diǎn)數(shù)常常使用試湊法確定,使用經(jīng)驗(yàn)公式(6)獲取節(jié)點(diǎn)數(shù)的取值范圍為5~14,使用排列組合的方式,對(duì)同一個(gè)樣本集進(jìn)行訓(xùn)練,最終選取高準(zhǔn)確率對(duì)應(yīng)的節(jié)點(diǎn)數(shù)。實(shí)驗(yàn)基于雅魯藏布江中上游流域泥石流災(zāi)害歷史數(shù)據(jù)集,在迭代次數(shù)相同的情況下,不同隱藏層節(jié)點(diǎn)數(shù)訓(xùn)練后,得到對(duì)應(yīng)的驗(yàn)證集準(zhǔn)確率如圖4所示。

        橫坐標(biāo)為第一層隱藏層節(jié)點(diǎn)數(shù),圖例不同形狀表示第二層隱藏層節(jié)點(diǎn)數(shù)(如:5、6分別表示第二層隱藏層節(jié)點(diǎn)個(gè)數(shù)為5和6),縱坐標(biāo)表示分類準(zhǔn)確率。分析圖4可知,當(dāng)隱藏層結(jié)構(gòu)為11- 14時(shí),網(wǎng)絡(luò)準(zhǔn)確率能夠到達(dá)最高值,因此神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)為13- 11- 14- 4。

        圖4 不同隱節(jié)點(diǎn)數(shù)準(zhǔn)確率統(tǒng)計(jì)

        下面對(duì)比研究泥石流災(zāi)害歷史數(shù)據(jù)集有無(wú)Borderline-SMOTE算法處理對(duì)模型分類準(zhǔn)確率的影響。

        如圖5(a)所示,地質(zhì)數(shù)據(jù)未經(jīng)預(yù)處理時(shí),網(wǎng)絡(luò)驗(yàn)證準(zhǔn)確率在迭代2 000次之后趨于穩(wěn)定,迭代時(shí)間為12.3 s,此時(shí),訓(xùn)練準(zhǔn)確率為94%,但是驗(yàn)證準(zhǔn)確率僅85%左右,類別間數(shù)據(jù)不平衡導(dǎo)致嚴(yán)重過擬合現(xiàn)象。相反,從圖5(b)可以看出,經(jīng)過算法處理后的數(shù)據(jù)集,進(jìn)入網(wǎng)絡(luò)迭代至8 000次左右,網(wǎng)絡(luò)驗(yàn)證準(zhǔn)確率趨于穩(wěn)定,訓(xùn)練時(shí)間較長(zhǎng),為23.5 s,此時(shí)訓(xùn)練準(zhǔn)確率達(dá)96.5%,驗(yàn)證準(zhǔn)確率為94.3%,過擬合現(xiàn)象得到明顯緩和,可見該重采樣算法降低了不平衡數(shù)據(jù)集對(duì)神經(jīng)網(wǎng)絡(luò)的影響,使模型更具有普適性。

        3.4 遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值和閾值

        GA_BP網(wǎng)絡(luò)在訓(xùn)練時(shí),使用與之前一樣的網(wǎng)絡(luò)結(jié)構(gòu),即:13- 11- 14- 4。對(duì)于GA參數(shù),本文依據(jù)前人工作[17-18]以及多次反復(fù)實(shí)驗(yàn),選擇種初始群規(guī)模為Size=20。最大遺傳代數(shù)Gen=20;交叉概率為Pc= 0.6;變異概率為Pm=0.1。訓(xùn)練過程中,設(shè)置最大訓(xùn)練次數(shù)為900,驗(yàn)證準(zhǔn)確率目標(biāo)為94%。圖6所示為遺傳算法優(yōu)化后的準(zhǔn)確率曲線,模型迭代到300次以后趨于穩(wěn)定,訓(xùn)練準(zhǔn)確率高達(dá)96%,此時(shí)驗(yàn)證準(zhǔn)確率為94.03%,運(yùn)行時(shí)間僅為3.25 s。對(duì)于神經(jīng)網(wǎng)絡(luò),計(jì)算復(fù)雜度最直接的性能評(píng)價(jià)參數(shù)可通過收斂速度直觀衡量[19]。實(shí)驗(yàn)證明,遺傳算法的全局搜索能力使其在指定進(jìn)化次數(shù)內(nèi)優(yōu)化了網(wǎng)絡(luò)的初始權(quán)值和閾值,與3.3節(jié)隨機(jī)初始化的方式相比較,訓(xùn)練所需要的迭代次數(shù)和時(shí)間大幅降低。因此遺傳算法有利于降低神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度,提升收斂速度。

        圖6 GA_BP準(zhǔn)確率曲線

        3.5 計(jì)算指標(biāo)MIV值

        根據(jù)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò),設(shè)置訓(xùn)練集每個(gè)特征數(shù)據(jù)的調(diào)節(jié)率為10%,即對(duì)其分別做乘以1.1和0.9操作,然后計(jì)算每個(gè)泥石流影響因子的MIV算法值,并按照MIV絕對(duì)值從大到小排序,計(jì)算結(jié)果如表4所示。

        表4 各指標(biāo)MIV

        表4中x2、x4、x5、x6、x8、x9、x10、x11、x12呈現(xiàn)正相關(guān),其余特征為負(fù)相關(guān)。

        據(jù)泥石流易發(fā)性評(píng)價(jià)因子從大到小排序,構(gòu)建包括排序值前1至前13個(gè)因子的13種因子組合。將每種組合作為模型的輸入,使用上述GA_BP網(wǎng)絡(luò)對(duì)其訓(xùn)練,并對(duì)包含955個(gè)樣本的驗(yàn)證集進(jìn)行驗(yàn)證,記錄模型分類準(zhǔn)確率如圖7所示。

        圖7 不同因子組合分類結(jié)果

        從圖7可以看出,評(píng)價(jià)因子的不同組合對(duì)分類準(zhǔn)確率影響較大。隨著泥石流指標(biāo)因素的增加,分類準(zhǔn)確率值總體上呈上升趨勢(shì),在到達(dá)一定的個(gè)數(shù)時(shí),趨于穩(wěn)定。組合1、2、3的準(zhǔn)確率相較之下明顯偏低,組合8~13的分類準(zhǔn)確率十分接近,其中組合11的分類準(zhǔn)確率最高(95.23%),所以選取因子組合為11的序號(hào),結(jié)果顯示,該方法能夠有效優(yōu)化輸入維度,刪減冗余信息,提升模型精度。

        3.6 模型檢驗(yàn)

        由于準(zhǔn)確率評(píng)估在多類不平衡的分類評(píng)價(jià)中存在一些不足,所以其不適合作為評(píng)判算法優(yōu)劣的標(biāo)準(zhǔn)。AUC方法相較于準(zhǔn)確率具有更強(qiáng)的可區(qū)分性,能夠給出不同類的不同分布情況差別[20]。AUC方法定義為受試者工作特征曲線(ROC)下的面積,其值大小作為評(píng)判分類器性能的優(yōu)劣,其中,ROC曲線繪制為真陽(yáng)性率(True Positive Rate, TPR)與假陽(yáng)性率(False Positive Rate, FPR)之間的變化關(guān)系。本文采用AUC方法,針對(duì)13種影響因子,基于未曾使用的400個(gè)泥石流災(zāi)害數(shù)據(jù)集,采用Logistic、BP、GA_BP、XGBoost[21]以及本文模型進(jìn)行區(qū)域泥石流易發(fā)性評(píng)價(jià),對(duì)比測(cè)試結(jié)果如圖8和表5所示。

        圖8 五種評(píng)價(jià)模型ROC測(cè)試曲線

        方法輸入維度各類別比例AUC值/%測(cè)試時(shí)間/sLogistic1386∶50∶241∶2392.420.0512BP1386∶50∶241∶2395.230.0016GA_BP1386∶50∶241∶2396.900.0041XGBoost1386∶50∶241∶2397.850.0018本文方法1186∶50∶241∶2397.950.0020

        選取400處泥石流災(zāi)害點(diǎn)作為測(cè)試樣本進(jìn)行模型檢驗(yàn)與比較(表5),分析數(shù)據(jù)顯示,本文模型取得97.95%的AUC值,較傳統(tǒng)的Logistic算法提升較大,且處理速度有較大幅度領(lǐng)先;BP和GA_BP模型相比,GA_BP算法有著較高AUC值,但在測(cè)試時(shí)間上稍慢于BP模型;本文在GA_BP基礎(chǔ)上結(jié)合MIV算法,優(yōu)化了輸入維度,AUC值提高了1個(gè)百分點(diǎn),災(zāi)害易發(fā)性評(píng)價(jià)速度也提升了接近50%;最后與當(dāng)下較為熱門的XGBoost分類模型相比,本文算法在AUC值和處理時(shí)間上與其幾乎持平??傮w來(lái)說(shuō),本文基于神經(jīng)網(wǎng)絡(luò)的區(qū)域泥石流易發(fā)性評(píng)價(jià)模型具備良好的分類性能和運(yùn)行速度。

        4 結(jié)語(yǔ)

        充分利用地質(zhì)大數(shù)據(jù),基于遺傳神經(jīng)網(wǎng)絡(luò),結(jié)合Borderline-SMOTE算法和MIV算法建立泥石流主要指標(biāo)與易發(fā)程度關(guān)系,提高泥石流易發(fā)性評(píng)價(jià)精度,從中挖掘孕災(zāi)環(huán)境中的泥石流災(zāi)害發(fā)生規(guī)律,以上研究表明:

        1)影響研究區(qū)泥石流易發(fā)程度的原因主要是不良地質(zhì)現(xiàn)象、主溝縱坡以及新構(gòu)造影響。輸入指標(biāo)存在冗余信息:松散物平均厚度與地層巖性,影響模型的分類精度和速度。

        2)Borderline-SMOTE算法有選擇地對(duì)少數(shù)類數(shù)據(jù)進(jìn)行過采樣,能夠有效克服已有泥石流歷史災(zāi)害數(shù)據(jù)分布不平衡的困難,緩解了模型的過擬合現(xiàn)象;遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,避免了原有網(wǎng)絡(luò)隨機(jī)初始化的不足,有效提升了泥石流易發(fā)性分類的效率和泛化能力;MIV算法能夠從13個(gè)特征因子中選擇11個(gè)特征因子作為模型的輸入,降低了模型的輸入維度;最后以測(cè)試樣本進(jìn)行仿真,較高的AUC值表明系統(tǒng)可以對(duì)泥石流易發(fā)性進(jìn)行分類。本文建立的模型對(duì)雅魯藏布江中上游流域泥石流易發(fā)性進(jìn)行分類,能夠根據(jù)研究區(qū)域內(nèi)孕災(zāi)環(huán)境的特征,對(duì)泥石流易發(fā)性作出合理的分類,避免了個(gè)人主觀因素對(duì)泥石流易發(fā)性評(píng)價(jià)的影響,對(duì)當(dāng)?shù)鼗A(chǔ)設(shè)施(如:公路、鐵路)建設(shè),具有重要的指導(dǎo)價(jià)值。與此同時(shí),本文模型亦存在一些問題值得進(jìn)一步研究:加入人類活動(dòng)的相關(guān)因子對(duì)模型的影響;采用強(qiáng)正則模型解決過采樣可能帶來(lái)的局部過擬合,以提升化性能。

        猜你喜歡
        易發(fā)泥石流準(zhǔn)確率
        機(jī)用鎳鈦銼在乳磨牙根管治療中的應(yīng)用
        貴州省地質(zhì)災(zāi)害易發(fā)分區(qū)圖
        夏季羊易發(fā)疾病及防治方法
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        冬季雞腸炎易發(fā) 科學(xué)防治有方法
        泥石流
        雜文月刊(2018年21期)2019-01-05 05:55:28
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        “民謠泥石流”花粥:唱出自己
        海峽姐妹(2017年6期)2017-06-24 09:37:36
        精品区2区3区4区产品乱码9| 激情五月天俺也去综合网| 亚洲中文字幕不卡一区二区三区 | 日韩女优av一区二区| 亚洲乱码国产乱码精品精| 亚洲男人的天堂网站| 午夜无码一区二区三区在线| 午夜视频福利一区二区三区 | 日本最新在线一区二区| 人妻蜜桃日产一本久道综合在线 | 一女被多男玩喷潮视频| 亚洲国产成人久久综合电影| 999精品免费视频观看| 免费av网址一区二区| 中文字幕日韩有码国产| 成人国成人国产suv| 无码国产精品一区二区高潮| 97福利视频| 中文字幕亚洲精品高清| 久久女人精品天堂av影院麻| 97人伦色伦成人免费视频| 国内揄拍国内精品人妻浪潮av| 亚洲熟女av中文字幕网站| 一区二区三区视频偷拍| 日韩不卡的av二三四区| 奇米影视第四色首页| 色偷偷一区二区无码视频| 91精品亚洲一区二区三区| 蜜桃久久综合一区二区| 国产成人无码a区在线观看导航| 精品深夜av无码一区二区| 国内精品一区二区2021在线| 自拍偷拍一区二区三区四区| 国产流白浆视频在线观看| 国产成人无码18禁午夜福利p| 三上悠亚av影院在线看| 国产西西裸体一级黄色大片| 亚洲精品中字在线观看| 放荡的少妇2欧美版| 初尝黑人巨砲波多野结衣| 天干天干天啪啪夜爽爽av|