亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進XGBoost的地震多屬性地質構造識別方法

        2023-11-06 12:04:40楊楚龍王懷秀劉最亮
        科學技術與工程 2023年29期
        關鍵詞:分類器標簽樣本

        楊楚龍, 王懷秀*, 劉最亮

        (1.北京建筑大學電氣與信息工程學院, 北京 102616; 2.華陽新材料科技集團有限公司, 陽泉 045000)

        煤炭在現(xiàn)在以及將來很長一段時間仍為中國的最主要能源來源,是中國賴以生存和發(fā)展的物質基礎[1]。進入21世紀以來,大型化和向深處掘進成為煤礦的發(fā)展趨勢,許多煤礦的地質條件處于不穩(wěn)定狀態(tài),而煤礦的地質構造會引起礦井突水、瓦斯爆炸、塌方等一系列安全問題[2-4]。地質構造的存在嚴重威脅著礦井生產的安全,為此急需解決地質構造位置的預測,為提高煤炭的產量和保證煤礦安全提供有力的支持[5]。地震屬性可以用來預測地質構造,而這些地震屬性可以從三維地震勘探成果數(shù)據體中提取出來[6-7]。地震數(shù)據經過一系列數(shù)學變換和處理,從中可以提取出關于地震波的幾何屬性、動力學屬性、運動學屬性和統(tǒng)計學屬性,這些屬性就稱之為地震屬性。地震屬性經提取后對其進行分析利用,最后用來預測[8]。礦井中的地質情況十分復雜,影響地質構造的因素眾多,利用單一的地震屬性往往不能夠準確地識別出構造,因此利用地震多屬性融合技術十分有必要。

        地震屬性的研究早在20世紀90年代就開始了,何隆運[9]于1992年將波形合成追蹤法融合地質屬性,該方法建立了地震信息與地質信息間的對應關系,并利用此對應關系解決了許多復雜的地質問題,取得了良好的地質勘探成果。進入21世紀以來,隨著機器學習和人工智能的蓬勃發(fā)展,地震多屬性融合技術與各種算法的結合更加緊密。金龍等[10]將支持向量機(support vector machine,SVM)應用于地震屬性融合,SVM是一種理論基礎嚴密、魯棒性強的機器學習算法,但是其在解決大數(shù)據量樣本以及多分類問題上具有一定的局限性。丁峰等[11]用主成分分析(principal component analysis,PCA)根據主分量對多個地震屬性進行排序,取前3個主分量進行RGB顏色融合,該方法可在一定程度上提高地震屬性分析的效率。但是PCA屬于“有損失”壓縮,會損失一些有用的信息。楊久強等[12]把深度神經網絡應用于地震屬性的融合中,深度神經網絡一般含多個隱藏層,理論上可以模擬任何的復雜函數(shù),對模型的擬合能力十分強大,但是其容易出現(xiàn)過擬合、梯度爆炸的問題。上述研究雖然取得了一定的成果,但是仍然存在著屬性選擇較為單一、不能全面反映地質構造特征的問題。

        在大數(shù)據時代,各行各業(yè)都面臨著海量的數(shù)據,但是這些數(shù)據大部分都存在類別不均衡的問題。面對此類問題,傳統(tǒng)的分類算法會自動地忽略少數(shù)類,并把少數(shù)類樣本歸類到多數(shù)類樣本中以提高分類準確率[13]。例如,在二分類問題中,多數(shù)類樣本的比例為98%,少數(shù)類樣本的比例為2%,分類器即使把任意樣本都預測為多數(shù)類,該分類器的準確率都可以達到98%。該分類器會導致大量的少數(shù)類被分為多數(shù)類,這種情況在一些特殊應用場所會造成嚴重后果。例如在醫(yī)院的癌癥診斷中,正常病例占大多數(shù),而真正的病例只占少數(shù),醫(yī)生關心的是怎么把這些真正的病例識別出來,在這種情況下把真正病例判斷為正常病例的代價非常大。類似的情況在電信詐騙檢測、煤礦地質構造識別中也很常見。

        在實際礦區(qū)中,構造體只占礦區(qū)的極少數(shù)部分,礦區(qū)大部分區(qū)域都為無構造,而目前關于地質構造識別的研究大都沒有考慮這一因素。因此,在不平衡數(shù)據的情況下識別構造體具有重要的現(xiàn)實意義。

        為了克服上述問題,現(xiàn)提出一種基于邊界樣本分類算法(boundary sample classification,BSC)的合成少數(shù)類過采樣技術(synthetic minority over-sampling technique,SMOTE)算法BSC-SMOTE。BSC-SMOTE算法把處于正負樣本邊界的樣本進行分類,只對“邊界樣本”進行合成,有效地避免正負樣本邊界模糊的問題。再用平衡后的數(shù)據集訓練極限梯度提升(extreme gradient boosting,XGBoost)分類器,并使用貝葉斯優(yōu)化(Bayesian optimization,BO)算法對該分類器進行超參數(shù)尋優(yōu),最后使用優(yōu)化后的XGBoost分類器對構造體進行識別。

        1 方法原理及其改進

        1.1 SMOTE算法原理及其改進

        合成少數(shù)類過采樣技術(SMOTE)[14]是由Chawla等于2002年提出的,該算法的提出主要是為了改進隨機過采樣的弊端。隨機過采樣在合成新的少數(shù)類樣本時,只是簡單的對樣本進行復制,這種簡單的隨機復制容易導致算法模型過擬合,不利于模型的泛化能力。而SMOTE算法不是對少數(shù)類樣本進行簡單的復制,而是根據一定的規(guī)則合成新的少數(shù)類樣本。但是SMOTE在生成新樣本時容易受樣本集分布的影響,容易發(fā)生分布邊緣化的問題,模糊樣本的邊界,如表1所示。

        表1 SMOTE算法Table 1 SMOTE algorithm

        SMOTE過采樣的主要思想是:對樣本集中每一個少數(shù)類樣本Xi,計算其到其他所有少數(shù)類樣本的歐式距離,然后對這些距離按從小到大的順序進行排序,找出與其最近的K個樣本,最后按照式(1)對該樣本Xi與其K近鄰Xk進行插值處理生成新的少數(shù)類樣本Xnew,其中rand(0,1)表示0~1的隨機數(shù)。SMOTE算法合成少數(shù)類的示意圖如圖1所示。

        圖1 SMOTE示意圖Fig.1 Schematic diagram of SMOTE

        Xnew=Xi+rand(0,1)|Xi-Xk|

        (1)

        SMOTE在生成新樣本時容易受樣本集分布的影響,發(fā)生分布邊緣化的問題。對處于多數(shù)類樣本與少數(shù)類樣本分界處的少數(shù)類樣本,在其選擇K近鄰樣本時,這些鄰居樣本也分布在邊界上,因此插值產生的新樣本也處于邊界上,反復迭代產生的新樣本會模糊邊界。極端情況下,如果有少數(shù)類樣本分布于多數(shù)類樣本之中,那么由它合成的新樣本也會落在多數(shù)類樣本之中。在這種情況下,樣本集雖然得到了平衡,但是無形中給模型的分類增加了難度。

        針對SMOTE算法容易模糊邊界的問題,提出了基于邊界樣本劃分的BSC-SMOTE算法,該算法強化了邊界的界限,使之更有利于算法的分類,如表2所示。該算法的主要思想是:對樣本集中每一個少數(shù)類樣本Xi,計算其到其他所有樣本的歐式距離,然后對這些距離按從小到大進行排序,找出與其最近的K個樣本,如果其K個最近鄰中全部為多數(shù)類樣本則將此少數(shù)類樣本劃分為噪聲樣本,如果其K個最近鄰中有一半以上為多數(shù)類則將此少數(shù)類樣本劃分為邊界樣本,如果其K個最近鄰中有一半以上為少數(shù)類樣本則將此少數(shù)類樣本劃分為安全樣本。最后,只對邊界樣本按照式(1)進行插值處理,對安全樣本和噪聲樣本不做處理。BSC-SMOTE算法合成少數(shù)類的示意圖如圖2所示。

        表2 BSC-SMOTE算法Table 2 BSC-SMOTE algorithm

        圖2 BSC-SMOTE示意圖Fig.2 Schematic diagram of BSC-SMOTE

        1.2 XGBoost算法

        在解決不平衡數(shù)據的分類問題時,通常有兩種解決思路[15],一種是對數(shù)據集進行平衡,使得改造后的數(shù)據集均衡;另一種思路是對算法層面進行一些改進,例如使用集成學習算法。

        XGBoost的全稱為extreme gradient boosting,可翻譯為極限梯度提升算法,是集成算法的一種。XGBoost是由陳天奇等[16]于2016年所提出的,自XGBoost提出以來,各種機器學習競賽均由XGBoost算法所統(tǒng)治。XGBoost具有運行速度快,同時支持分類和回歸、精度高、擁有正則化、防止過擬合等優(yōu)點。XGBoost是在梯度提升樹(gradient boosting decision tree,GBDT)的基礎上進行改進的,GBDT只使用了一階導數(shù)信息,XGBoost在GBDT的基礎上還使用了二階導數(shù)信息,并且XGBoost可以自己定義代價函數(shù),其代價函數(shù)引入了正則項用于控制模型的復雜度,使XGBoost學習出來的模型更簡單,泛化性能更高。其主要思想為:先訓練一棵樹,得到預測結果,把預測值和真實值的差值記作殘差,用殘差代替真實值。然后在第一棵樹的基礎上訓練第二棵樹,得到第二棵樹的殘差,用殘差代替真實值,以此類推直到第K棵樹,最后把K棵樹的預測值加起來得到最終結果。

        XGBoost是由k個基分類器集成的一個分類器,例如第t次迭代的樹模型是ft(xi),有

        (2)

        (3)

        表3 XGBoost常用超參數(shù)Table 3 XGBoost common hyperparameters

        用BSC-SMOTE算法平衡后的數(shù)據集訓練XGBoost分類器,得到BSC-SMOTE-XGBoost模型。

        1.3 貝葉斯優(yōu)化算法

        貝葉斯優(yōu)化(BO)是一種全局優(yōu)化算法,具有高效性和魯棒性的優(yōu)點,能夠在非常少的采樣次數(shù)下快速找到全局最優(yōu)解,因此被廣泛地運用在超參數(shù)優(yōu)化、機器學習模型優(yōu)化、神經網絡結構搜索等領域。貝葉斯優(yōu)化算法的原理是通過貝葉斯公式,將先驗分布和觀測數(shù)據結合起來,計算后驗分布,并不斷更新后驗分布,最終找到全局最優(yōu)解[17]。貝葉斯公式為

        (4)

        式(4)中:f為待優(yōu)化的函數(shù);D為已知數(shù)據;P(f|D)為已知數(shù)據D的情況下,待優(yōu)化函數(shù)f的后驗概率;P(D|f)為函數(shù)f的似然函數(shù),表示在函數(shù)f下,數(shù)據D出現(xiàn)的概率;P(f)為先驗概率,表示對函數(shù)f的先驗分布的假設;P(D)為歸一化因子,用于將后驗概率歸一化為概率分布。通過最大化后驗概率P(f|D),可以找到最優(yōu)函數(shù)f*。在每次迭代中,貝葉斯優(yōu)化算法使用已知的數(shù)據D來更新函數(shù)f的后驗概率分布,然后根據后驗概率分布選擇下一個函數(shù)參數(shù)進行評估。這個過程不斷迭代,直到找到最優(yōu)的函數(shù)參數(shù)。

        用貝葉斯優(yōu)化算法對所得到的BSC-SMOTE-XGBoost模型進行超參數(shù)尋優(yōu)得到BO-BSC-SMOTE-XGBoost模型,其中待優(yōu)化函數(shù)f為XGBoost的目標函數(shù)obj。找到最優(yōu)函數(shù)f*就找到了XGBoost的最優(yōu)超參數(shù)組合。

        2 地震屬性融合與篩選

        2.1 數(shù)據獲取與分析

        地震屬性可以用來解釋與預測地質構造,因此地震屬性被廣泛地運用在煤礦地質構造的識別。以山西新元煤礦三維地震勘探成果數(shù)據體為基礎,提取出12種地震屬性。這12種地震屬性分別為:傾角、最小振幅、最大振幅、瞬時相位、瞬時頻率、均方根振幅、方差體、相干體、曲率、主頻、瞬時振幅和平均能量。這12種地震屬性的最大值、最小值和平均值如表4所示。可知,各個屬性之間極差以及平均值差異較大,加上各屬性的量綱不同,如果直接對這些屬性進行融合,各個屬性之間的差異會影響最后數(shù)據融合的效果。為了消除各個地震屬性之間的差異,就需要對屬性進行數(shù)據標準化處理。采用離差標準化消除各個屬性之間量綱的差異,并把各個屬性通過線性變換映射到[0,1]。離差標準化的轉換公式為

        表4 地震屬性的數(shù)據分布情況Table 4 Data distribution of seismic attributes

        (5)

        式(5)中:x為原始屬性的值;min(x)為屬性最小值;max(x)為屬性最大值;x*為標準化后的屬性值。

        以經過標準化處理后的12種地震屬性作為數(shù)據集的特征,以山西新元煤礦有限公司前方實際揭露的地質構造作為數(shù)據集的標簽,由此構成數(shù)據集的特征和標簽。數(shù)據集的標簽為3類:無構造(標簽記為0)、陷落柱(標簽記為1)、斷層(標簽記為2)。其中斷層破壞了煤巖體內部應力場的初始平衡狀態(tài),使煤層發(fā)生滑動位移,大規(guī)模的斷層會造成煤礦停產和工作面搬家,甚至會造成透水、瓦斯突水等安全問題[18]。陷落柱會影響煤層分布的連續(xù)性及穩(wěn)定性,同時陷落柱會對工作面的布置和推進產生巨大影響,導致工作面的開采效率大幅降低[19]。通過對礦方提供的數(shù)據進行分析,發(fā)現(xiàn)已揭露的礦區(qū)中,無構造區(qū)域占絕大多數(shù),而斷層和陷落柱只占一少部分。新元煤礦已揭露礦區(qū)數(shù)據分布情況如表5所示。

        表5 已揭露礦區(qū)數(shù)據分布Table 5 Data distribution of exposed mining areas

        由表5可知東翼勘探區(qū)無構造標簽數(shù)最多,數(shù)據的不平衡程度最高,且斷層和陷落柱較為發(fā)育,具有一定的典型性,故選取東翼勘探區(qū)作為研究區(qū)域。

        2.2 地震屬性優(yōu)選

        在選擇特征時,如果特征選擇偏少,模型學習不到足夠的信息,會影響模型的效果。如果特征選擇過多,其中可能存在著噪聲,也不利于模型的學習。特征重要性是用來描述特征對于標簽的重要性,特征重要性越大表明特征對于標簽的貢獻越大,反之特征對于標簽的貢獻越小?;バ畔⒎ㄊ且环N用來衡量特征與標簽相關性的過濾方法,互信息法既可以用于回歸也可以用于分類,它的返回值在0~1,返回0證明特征與標簽不相關,返回1證明特征與標簽完全相關?;バ畔⒌挠嬎愎綖?/p>

        (6)

        式(6)中:X和Y為兩個隨機變量;x為隨機變量X可能取的值;y為隨機變量Y可能取的值;X和Y的邊緣分布分別為p(x)與p(y),聯(lián)合概率分布為p(x,y)。利用互信息法計算特征與標簽之間的關系如圖3所示。

        圖3 特征相關性Fig.3 Feature correlation

        如圖3所示,所有的特征對于標簽的相關性都大于0,證明所有的特征都與標簽相關,其中瞬時振幅與標簽的相關性最大為0.141。但曲率、均方根振幅等特征與標簽的相關性比較低,為了找出真正對算法模型有效的特征,以特征相關性為變量畫出學習曲線。首先以0~0.141為特征相關性的范圍畫出學習曲線,如圖4所示,可以看出,當特征相關性閾值設為0.10左右時,分類算法的準確度可以達到最高。

        圖4 大范圍學習曲線Fig.4 Large scale learning curve

        進一步縮小閾值范圍,以0.09~0.11為范圍畫出學習曲線如圖5所示。

        圖5 小范圍學習曲線Fig.5 Small range learning curve

        從圖5可以看出,當特征相關性為0.102 5時,算法準確率達到最高,所以設置特征相關性閾值為0.102 5,即只保留相關性大于等于0.102 5的特征,小于0.102 5的特征全部舍去。通過屬性篩選,最后只保留了瞬時振幅、平均能量、最小振幅、主頻、瞬時相位和最大振幅這6個特征。

        3 實驗驗證與分析

        3.1 評價指標

        通常情況下,分類器性能的好壞可以使用準確率(accuracy)作為評價指標,但是在數(shù)據集不平衡的情況下,單純比較分類器準確率的高低沒有太大的意義。因為準確率把多數(shù)類分類錯誤的代價和少數(shù)類分類錯誤的代價沒有區(qū)分開,顯然把少數(shù)類分類錯誤的代價比把多數(shù)類分類錯誤的代價要大。此時可以使用精確率(precision)、F1(F1score)和召回率(recall)這些更加科學的指標來評價模型,這些指標都是建立在混淆矩陣的基礎上,混淆矩陣如表6所示。

        表6 混淆矩陣Table 6 Confusion matrix

        精確率的定義是所有預測為正類的樣本中真正是正類的比例,其計算公式為

        (7)

        召回率的定義是所有正確預測為正的樣本占所有實際為正的比例,其計算公式為

        (8)

        F1同時兼顧了精確率和召回率,是兩者的調和平均值,F1的值越大表示分類器越有效,其計算公式為

        (9)

        3.2 模型構建

        首先把東翼勘探區(qū)數(shù)據集按照7∶3分成訓練集和測試集,對訓練集運用BSC-SMOTE算法進行平衡,然后用平衡后的訓練集訓練XGBoost,再用貝葉斯優(yōu)化算法對XGBoost進行超參數(shù)尋優(yōu),最終形成了BO-BSC-SMOTE-XGBoost模型。貝葉斯優(yōu)化算法尋優(yōu)的過程和模型訓練過程如圖6和圖7所示。

        圖6 貝葉斯優(yōu)化過程Fig.6 Bayesian optimization process

        圖7 模型訓練過程Fig.7 Model training process

        如圖6所示,當?shù)螖?shù)為30次時,模型取得了最小誤差值,即XGBoost的目標函數(shù)obj取得最小值,此時模型對應的超參數(shù)為最優(yōu)超參數(shù)組合,并且如圖7所示此時模型的準確率最高,最優(yōu)參數(shù)組合如表7所示。

        表7 最優(yōu)超參數(shù)組合Table 7 Optimal hyperparametric combination

        將改進后的XGBoost算法與KNN、隨機森林,SVM以及未改進的XGBoost算法進行對比,對比結果如表8所示。

        表8 算法對比(東翼)Table 8 Algorithm comparison (Dongyi)

        通過實驗對比發(fā)現(xiàn),提出的改進XGBoost算法在精確率、召回率、F1均有明顯的提升,改進XGBoost算法模型的預測精確度為0.95,比未改進的XGBoost算法提高了0.16,比KNN、隨機森林和SVM等傳統(tǒng)算法提高了0.15以上。把算法模型獲取的模型參數(shù)應用于東翼勘探區(qū),得到東翼勘探區(qū)構造預測結果,并把預測結果經軟件可視化得到如圖8所示的預測構造圖。經過與東翼實際揭露構造(圖9)對比,可以發(fā)現(xiàn)預測構造的數(shù)量與實際構造的數(shù)量基本相同,且預測構造的坐標與實際構造的坐標吻合,說明本文算法模型能夠克服類別不平衡的影響,較為精確地識別出地質構造。

        淺藍色區(qū)域為開采的范圍;紅色區(qū)域為陷落柱;深藍色區(qū)域為斷層

        棕色線條為開采的巷道;紅色線條圍成的區(qū)域為陷落柱;藍色線條圍成的區(qū)域為斷層

        4 結論

        為研究不平衡數(shù)據條件下的地質構造體識別的問題,通過理論分析與實例驗證。得出以下結論。

        (1)煤礦的地質構造體(斷層,陷落柱)是造成煤炭減產,煤礦事故頻發(fā)的因素之一,預測煤礦的地質構造體具有重要的現(xiàn)實意義。通過對三維地震勘探成果數(shù)據體的地震屬性進行融合分析后可以用來預測構造體。

        (2)在眾多地震屬性中,不是所有的地震屬性都對算法模型的構建有用,篩選出與標簽相關的屬性能夠提高模型的準確率和效率。

        (3)實際的應用中,構造體的數(shù)量只占勘探區(qū)的極少部分,這種分布的不均衡會直接影響算法模型的分類性能,可以通過改善這種分布的不均衡來提高模型的分類性能。

        (4)XGBoost具有運行速度快,同時支持分類和回歸、精度高、擁有正則化、防止過擬合等特點。貝葉斯優(yōu)化算法考慮之前的參數(shù)信息,不斷地更新先驗,能夠又快又準地找到XGBoost的最佳超參數(shù)組合。

        猜你喜歡
        分類器標簽樣本
        用樣本估計總體復習點撥
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        推動醫(yī)改的“直銷樣本”
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        隨機微分方程的樣本Lyapunov二次型估計
        加權空-譜與最近鄰分類器相結合的高光譜圖像分類
        結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        標簽化傷害了誰
        村企共贏的樣本
        国产无遮挡aaa片爽爽| 无码AV午夜福利一区| av天堂一区二区三区精品| 日本一区二区三区光视频| 黑人巨大精品欧美一区二区免费| 无遮挡边吃摸边吃奶边做| 爆乳日韩尤物无码一区| 麻豆成人久久精品二区三区免费| 无码人妻丰满熟妇啪啪网不卡| 真实国产老熟女粗口对白| 久久精品免视看国产明星| 中文亚洲一区二区三区| 国产精品一区二区av麻豆| 国产高潮国产高潮久久久| 日韩免费高清视频网站| 人妻蜜桃日产一本久道综合在线| 精品精品国产自在97香蕉| 色老汉免费网站免费视频| 国产日产亚洲系列av| 中文字幕亚洲综合久久综合| 老太脱裤子让老头玩xxxxx | 毛片毛片免费看| 操老熟妇老女人一区二区| 国产人妖乱国产精品人妖| 夜夜欢性恔免费视频| 爆乳日韩尤物无码一区| 加勒比婷婷色综合久久| 欧美私人情侣网站| 国产午夜无码视频免费网站| 国产精品午夜高潮呻吟久久av| 亚洲精品久久激情国产片| 无码专区久久综合久中文字幕| 亚洲av色香蕉一区二区蜜桃 | 波多野结衣在线播放| 97久久精品人人做人人爽| 亚洲国产AⅤ精品一区二区久| 中文字幕在线看精品乱码| 中文字幕在线观看亚洲日韩| 日本a在线播放| 东京热加勒比视频一区| 亚洲av无码专区在线播放|