劉凱偉,張冬梅
中國(guó)地質(zhì)大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430074
基于流形學(xué)習(xí)的異常檢測(cè)算法研究
劉凱偉,張冬梅
中國(guó)地質(zhì)大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430074
化探異常識(shí)別是成礦預(yù)測(cè)和資源評(píng)價(jià)的關(guān)鍵。傳統(tǒng)地質(zhì)統(tǒng)計(jì)方法具有無(wú)偏、最優(yōu)等特點(diǎn),但要求數(shù)據(jù)呈正態(tài)分布,而實(shí)際應(yīng)用往往不符合統(tǒng)計(jì)假設(shè);近年來(lái)分形理論被大量應(yīng)用于地球化學(xué)異常確定,但基本思路還是采取單元素值來(lái)確定背景值,存在需要平滑處理數(shù)據(jù)以及對(duì)樣品中特高品位敏感等問(wèn)題。因此,尋找能體現(xiàn)地球化學(xué)數(shù)據(jù)空間結(jié)構(gòu)和非線形特征的異常識(shí)別方法具有重要的研究?jī)r(jià)值。
針對(duì)地質(zhì)異常現(xiàn)象的不平穩(wěn)性,即地理空間的有礦樣本的數(shù)目遠(yuǎn)遠(yuǎn)小于無(wú)礦樣本的數(shù)目,化探異常識(shí)別從本質(zhì)上來(lái)看是一種不均衡數(shù)據(jù)的分類問(wèn)題。傳統(tǒng)機(jī)器學(xué)習(xí)分類算法往往基于三點(diǎn)假設(shè)[1]:(1)追求最大分類正確率;(2)不同分類錯(cuò)誤代價(jià)相同;(3)數(shù)據(jù)集中不同類別包含的樣本數(shù)目大致相當(dāng)。在區(qū)域化探數(shù)據(jù)集中有礦、無(wú)礦樣本數(shù)目并不均衡,不符合上述假設(shè),如果采用傳統(tǒng)研究方法,處理往往會(huì)“偏向”多數(shù)類樣本即無(wú)礦樣本而忽略少數(shù)類樣本即有礦樣本,導(dǎo)致將測(cè)試樣本全部判別為大類,雖然總體分類正確率很高但小類有礦異常樣本識(shí)別率卻非常低。而在成礦識(shí)別中,人們更關(guān)心的是少數(shù)類即有礦樣本的分類正確率,因此有效提高少數(shù)類的分類性能是成礦異常識(shí)別亟待解決的問(wèn)題。本研究擬將非均衡數(shù)據(jù)分類問(wèn)題引入到區(qū)域化探異常識(shí)別中。
但是隨著數(shù)據(jù)維數(shù)的不斷增加,面對(duì)這些數(shù)據(jù)集,如何從中發(fā)現(xiàn)其中的異常數(shù)據(jù)仍然是一個(gè)難題。為了更好地理解和處理這些高維復(fù)雜數(shù)據(jù),數(shù)據(jù)降維技術(shù)被廣泛應(yīng)用。數(shù)據(jù)降維的目的是找出高維數(shù)據(jù)中隱藏的低維結(jié)構(gòu),即將原始高維空間映射到低維空間中。目前,在成礦預(yù)測(cè)中線性數(shù)據(jù)降維方法仍然是數(shù)據(jù)分析處理中使用最為廣泛的降維方法,如主成分分析(Principal Component Analysis,PCA)[2]等。主成分分析從20世紀(jì)90年代至今,在成礦預(yù)測(cè)中取得了較好的效果。2006年,宋明輝等[3]以東昆侖祁漫塔格研究區(qū)為實(shí)驗(yàn)區(qū),提出了利用比值分析和主成分分析(PCA)的方法對(duì)預(yù)測(cè)單元進(jìn)行蝕變遙感異常信息提取,取得了較好的效果。2009年,郭云開[4]等提出一種基于局部能量規(guī)則的第二代Curvelet變換和主成分分析(PCA)相結(jié)合的影像融合的方法,實(shí)驗(yàn)也表明在異常信息的提取上取得了較好的效果。2010年,王瑞國(guó)[5]等以內(nèi)蒙古錫林郭勒盟布魯特地區(qū)為研究區(qū),采用PCA和比值圖像處理方法,進(jìn)行試驗(yàn)區(qū)的成礦預(yù)測(cè),取得了較好的實(shí)際運(yùn)用效果。但是,地學(xué)數(shù)據(jù)如化探數(shù)據(jù),往往是非線性的高維數(shù)據(jù),利用線性降維方法很難發(fā)掘這類數(shù)據(jù)的內(nèi)在結(jié)構(gòu)及非線性分布特征。
為了彌補(bǔ)線性降維方法的不足,針對(duì)高維數(shù)據(jù)的非線性特征,近年來(lái)出現(xiàn)了很多非線性降維方法。流形學(xué)習(xí)是典型的非線性降維方法[6],通過(guò)流形學(xué)習(xí)方法建立高維-低維映射模型,能更加合理地顯示高維數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。因此本文擬將流形學(xué)習(xí)算法運(yùn)用在異常檢測(cè)中,在非線性降維的同時(shí)保持原樣本空間的分布特性,并在此基礎(chǔ)上,將集成學(xué)習(xí)AdaCost[7]方法嵌入到流形學(xué)習(xí)算法中,按分類的錯(cuò)誤率更新樣本的權(quán)值,通過(guò)關(guān)注分類錯(cuò)誤的樣本,進(jìn)一步提高少數(shù)類樣本的分類性能和異常檢測(cè)的準(zhǔn)確率。本文以UCI三組不均衡數(shù)據(jù)以及另外一組的地學(xué)數(shù)據(jù)為研究對(duì)象,進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文算法預(yù)測(cè)結(jié)果在評(píng)價(jià)指標(biāo)上好于傳統(tǒng)方法,能更準(zhǔn)確地找出異常。
2.1 流形學(xué)習(xí)算法
定義1(流形)流形是微分幾何學(xué)的一個(gè)概念,最早由Riemann在1854年提出,其定義為:設(shè)M是一個(gè)Hausorff拓?fù)淇臻g,若M的每一點(diǎn)P都有一個(gè)開鄰域U?M,使得U和n維歐氏空間Rn中的一個(gè)開子集同胚,則稱M是一個(gè)n維拓?fù)淞餍危?jiǎn)稱為n維流形。
定義2(流形學(xué)習(xí))流形學(xué)習(xí)過(guò)程定義為:設(shè)Y?Rd是一個(gè)低維流形,f:Y→RD是一個(gè)光滑嵌入,其中D>d。數(shù)據(jù)集{yi}是隨機(jī)生成的,且經(jīng)過(guò)f映射為觀察空間的數(shù)據(jù){xi=f(yi)}。流形學(xué)習(xí)就是給定觀察樣本集的xi條件下重構(gòu)f和{yi}。
流形學(xué)習(xí)算法本質(zhì)是一種非線性的降維方法,即從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),并求出相應(yīng)的嵌入映射,把高維空間中的數(shù)據(jù)在低維空間中重新表示,以實(shí)現(xiàn)維數(shù)約簡(jiǎn)或者數(shù)據(jù)簡(jiǎn)化。常見的流形學(xué)習(xí)算法有LLE算法[8]、ISOMAP算法[9]、LE算法[10]等。本文主要采取的是LLE算法。
2.2 LLE算法分析
LLE算法的基本步驟如下:
步驟1給的數(shù)據(jù)集為X,其中Xi∈RD,i=1,2,…,n,n為樣本總數(shù),D為原始空間維數(shù),搜索數(shù)據(jù)集中每個(gè)Xi的K個(gè)最近鄰,{Xi1,Xi2,…,Xik},Xik∈X,K<n,對(duì)于計(jì)算每一個(gè)點(diǎn)Xi的近鄰點(diǎn),一般采用K近鄰或者ξ鄰域。
3.1 代價(jià)敏感分類
目前的異常分類算法都強(qiáng)調(diào)分類的準(zhǔn)確率,并且基于這樣一個(gè)假設(shè),即所有錯(cuò)誤分類的代價(jià)都是相等的。但在很多實(shí)際應(yīng)用中,不同類型的錯(cuò)誤往往對(duì)應(yīng)不同的分類代價(jià),例如在100個(gè)人中,只有1人患有癌癥,一個(gè)非代價(jià)敏感學(xué)習(xí)算法可能將所有人都分到“健康”這一類,雖然準(zhǔn)確率很高,但這個(gè)模型是無(wú)用的,而且把一個(gè)癌癥患者診斷為健康的代價(jià)也遠(yuǎn)遠(yuǎn)高于把一個(gè)健康人診斷為絕癥的代價(jià)。代價(jià)敏感分類就是為不同類型的錯(cuò)誤分配不同的代價(jià),使得在分類時(shí),高代價(jià)錯(cuò)誤產(chǎn)生的數(shù)量和錯(cuò)誤分類的代價(jià)總和最小。
3.2 AdaCost算法
AdaCost代價(jià)算法是一種高效的誤分類代價(jià)敏感算法[11],它是Adaboost算法的一種改進(jìn)。AdaCost算法保持了Adaboost算法的核心理論,并在權(quán)值調(diào)整中加入了代價(jià)調(diào)整函數(shù)使其成為了代價(jià)敏感算法。其基本思想是利用大量的弱分類器通過(guò)一定方法組合起來(lái),這樣可以得到一個(gè)分類性能很強(qiáng)的強(qiáng)分類器。AdaCost算法的具體描述如下所示。
輸入:數(shù)據(jù)集S={(x1,y1,c1),…,(xi,yi,ci),…(xm,ym,cm)},其中ci∈[0,1],yi∈{0,1},迭代次數(shù)T,弱分類學(xué)習(xí)算法WeakLearn;
輸出:強(qiáng)分類器H(x)。
Step 2循環(huán)迭代;t<T時(shí)循環(huán):
Step 2.1對(duì)帶有權(quán)重的訓(xùn)練樣本用WeakLearn算法進(jìn)行訓(xùn)練學(xué)習(xí),得到一個(gè)弱分類器ht;
Step 2.3如果ξt≥0.5或者εt=0,則令t=1,返回Step 2;
Step 2.4計(jì)算加權(quán)參數(shù)αi=0.5?[ln(1-εt)/εt],選擇代價(jià)調(diào)整函數(shù)βi=β(sign(yih(xi)),ci);
Step 2.5更新樣本的權(quán)值,Zi為歸一化因子:
wt+1(i)=wt(i)exp[-αiyiht(xi)βi]/Zi
Step 2.6t=t+1。
基于流形學(xué)習(xí)的異常檢測(cè)算法首先通過(guò)流形學(xué)習(xí)降維方法生成新的樣本數(shù)據(jù),新的樣本數(shù)據(jù)集的格式與Ada-Cost算法要求輸入的數(shù)據(jù)集格式完全一致,本文提出的算法具備很好的連貫性。因此可以直接將集成學(xué)習(xí)AdaCost算法嵌入到新數(shù)據(jù)集中,按分類的錯(cuò)誤率更新樣本的權(quán)值,進(jìn)一步提高少數(shù)類樣本的分類性能,進(jìn)而提高異常分類的準(zhǔn)確率,檢測(cè)出異常?;诹餍螌W(xué)習(xí)的AdaCost代價(jià)敏感算法基本框架如下所示。
輸入:數(shù)據(jù)集X={x1,x2,…,xn∈RN},迭代次數(shù)T,弱分類學(xué)習(xí)算法WeakLearn;
輸出:強(qiáng)分類器H(x)。
Step 1根據(jù)流形學(xué)習(xí)的降維算法LLE,生成維數(shù)較少的數(shù)據(jù)樣本。
Step 3循環(huán)迭代;t<T時(shí)循環(huán):
Step 3.1對(duì)將為后的的數(shù)據(jù)集用WeakLearn算法進(jìn)行訓(xùn)練學(xué)習(xí),得到一個(gè)弱分類器ht;
Step 3.3計(jì)算加權(quán)參數(shù)αi=0.5?[ln(1-εt)/εt],選擇代價(jià)調(diào)整函數(shù)βi=β(sign(yih(xi)),ci);
Step 3.4更新樣本的權(quán)值,Zi為歸一化因子:
Step 3.5t=t+1;
5.1 實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證提出的算法的效果,本文選取UCI數(shù)據(jù)集中的三組數(shù)據(jù)以及一組地學(xué)化探數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn),從UCI提供的數(shù)據(jù)集中選擇了三組非均衡數(shù)據(jù)集,這些數(shù)據(jù)集是國(guó)際通用、權(quán)威的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集。
另外還選取云南個(gè)舊錫銅多金屬礦床化探數(shù)據(jù)為研究對(duì)象,個(gè)舊礦區(qū)分布在東北、西北和南北方向多個(gè)褶皺斷裂帶的交匯處[12],個(gè)舊地區(qū)是錫銅多金屬成礦區(qū)。本文選取Sn、Cu、Pb、Zn等39種共計(jì)524條1∶20萬(wàn)系沉淀物進(jìn)行仿真實(shí)驗(yàn),其中已經(jīng)勘明的有礦點(diǎn)41個(gè),無(wú)礦點(diǎn)483個(gè),無(wú)礦與有礦的不平衡率為11.78(比例為483∶41),是典型非均衡數(shù)據(jù)集,符合實(shí)驗(yàn)要求。
5.2 仿真實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)
5.2.1 實(shí)驗(yàn)仿真環(huán)境
本實(shí)驗(yàn)使用PC機(jī)配置為Pentium?2.92 GHz中央處理器,2 GB內(nèi)存,操作系統(tǒng)是Windows XP;LLE程序用Matlab語(yǔ)言編制,在Matlab7.0平臺(tái)上運(yùn)行,SMO與AdaCost程序在WEKA平臺(tái)上運(yùn)行。
5.2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
當(dāng)分類的數(shù)據(jù)是不均衡數(shù)據(jù)時(shí),傳統(tǒng)的分類方法往往偏向多數(shù)類樣本,這樣會(huì)導(dǎo)致少數(shù)類的識(shí)別率很差,但在實(shí)際應(yīng)用中人們更加關(guān)注少數(shù)類的分類正確性。因此,單純將分類精度作為不均衡數(shù)據(jù)的評(píng)價(jià)指標(biāo)并不合理。為了更全面地反映化探異常識(shí)別的性能,本文主要引入AUC、G-mean復(fù)合指標(biāo)進(jìn)行評(píng)價(jià)。復(fù)合指標(biāo)的定義如下:
定義3(G-mean指標(biāo))G-mean也稱幾何平均準(zhǔn)則,由Kubat和Matwin在1997年提出,是一種有效衡量不平衡數(shù)據(jù)分類效果的準(zhǔn)則。
其中,acc+為少數(shù)樣本的精度,acc-多數(shù)樣本的精度[1]。如果acc+精度大而acc-精度小,則G-mean值較小;兩者精度都很大且保持平衡時(shí),G-mean值較大。G-mean指標(biāo)綜合考慮了兩類樣本的精度,能更好地衡量不平衡數(shù)據(jù)分類器的性能。
定義4(AUC指標(biāo))ROC曲線能較全面地描述分類器的性能,由于不能定量分析,采用ROCArea值表示[13-14]。ROCArea值表示ROC曲線下的面積(AUC),其計(jì)算公式為:
其中,n+為少數(shù)類樣本的個(gè)數(shù),n-為多數(shù)類樣本的個(gè)數(shù)。對(duì)任一少數(shù)類樣本,若分類算法f將其分類為少數(shù)類的概率大于多數(shù)類的概率,則記值越接近1,模型的預(yù)測(cè)效果越好。
5.3 仿真實(shí)驗(yàn)過(guò)程描述
首先采用線性降維以及流形學(xué)習(xí)算法對(duì)實(shí)驗(yàn)用到的四組數(shù)據(jù)進(jìn)行降維處理,將降維后的結(jié)果作為新的數(shù)據(jù)集輸入WEKA平臺(tái),選擇SMO算法作為基分類器,將分類結(jié)果同標(biāo)準(zhǔn)SMO算法、基于線性降維的分類算法(PCAAdaCost)、基于流形學(xué)習(xí)的分類算法(LLE-AdaCost)進(jìn)行性能對(duì)比。
5.4 實(shí)驗(yàn)結(jié)果與分析
根據(jù)上述實(shí)驗(yàn)設(shè)置,分別對(duì)UCI數(shù)據(jù)以及個(gè)舊區(qū)域化探數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn)。以下是UCI數(shù)據(jù)與化探數(shù)據(jù)的實(shí)驗(yàn)結(jié)果。
5.4.1 UCI數(shù)據(jù)集
實(shí)驗(yàn)結(jié)果如表1所示,為方便對(duì)比,各算法評(píng)測(cè)指標(biāo)表現(xiàn)最好的結(jié)果背景用深灰色標(biāo)出,次好的結(jié)果用淺灰色標(biāo)出。
從表1看出對(duì)三組UCI數(shù)據(jù)的實(shí)驗(yàn),提出的算法在各項(xiàng)評(píng)測(cè)指標(biāo)G-mean、AUC的表現(xiàn)均優(yōu)于采用標(biāo)準(zhǔn)SMO分類器以及基于線性降維的算法,能夠有效地檢測(cè)出異常。
表1 測(cè)評(píng)指標(biāo)對(duì)比表
5.4.2 化探數(shù)據(jù)
如表1,如果采用標(biāo)準(zhǔn)SMO分類器,少數(shù)類(有礦類)樣本的預(yù)測(cè)效果很差,也就是模型在外推時(shí)幾乎沒有識(shí)別出有礦樣本,而少數(shù)類樣本正是要重點(diǎn)關(guān)注的,因此標(biāo)準(zhǔn)SMO分類器幾乎不能滿足實(shí)際需求。進(jìn)一步對(duì)比基于線性降維的異常識(shí)別算法與本文提出的異常識(shí)別算法發(fā)現(xiàn),各項(xiàng)評(píng)測(cè)指標(biāo)G-mean、AUC相對(duì)基于線性降維的異常識(shí)別算法均表現(xiàn)較好,大大提高了少數(shù)類樣本的分類精度。這是因?yàn)榧葾daCost算法更關(guān)注少數(shù)類樣本,通過(guò)犧牲多數(shù)類的準(zhǔn)確率來(lái)提高少數(shù)類的精度,以達(dá)到提高分類器實(shí)際性能的目的。
為了進(jìn)一步說(shuō)明本文算法的效果,分別采用了柱狀圖與折線圖來(lái)顯示實(shí)驗(yàn)的結(jié)果,如圖1~圖4所示。圖1和圖2是三種方法在G-mean和AUC上的柱狀圖對(duì)比圖。圖1和圖2中,橫坐標(biāo)代表三組標(biāo)準(zhǔn)UCI數(shù)據(jù)集以及一組地學(xué)數(shù)據(jù),從左到右分別為Glass、Hepatitis、Sonar、地學(xué)數(shù)據(jù);藍(lán)色代表SMO,綠色代表PCA-AdaCost,紅色代表LLE-AdaCost。圖1和圖3中,縱坐標(biāo)代表G-mean,圖2和圖4中縱坐標(biāo)代表AUC。
從圖1~圖4可以看出,本文提出的異常分類算法(LLE-AdaCost)相比于傳統(tǒng)的SOM、PCA-AdaCost,在仿真實(shí)驗(yàn)設(shè)置的評(píng)價(jià)指標(biāo)上表現(xiàn)較好。進(jìn)一步,在三組標(biāo)準(zhǔn)UCI數(shù)據(jù)集上以及另外一組地學(xué)數(shù)據(jù)中可以看出,LLE-AdaCost算法在G-mean上優(yōu)于其他兩組的有三個(gè),而另一個(gè)不是最優(yōu)的數(shù)據(jù)集也優(yōu)于傳統(tǒng)的PCA-AdaCost算法;在AUC上三組標(biāo)準(zhǔn)UCI數(shù)據(jù)集以及另外一組地學(xué)數(shù)據(jù)中,LLE-AdaCost相對(duì)于其他兩種傳統(tǒng)算法全部是最優(yōu)的,比PCA-AdaCost算法表現(xiàn)更優(yōu)。這是由于相對(duì)于傳統(tǒng)的線性降維方法,通過(guò)流形學(xué)習(xí)建立的高維-低維映射模型,能夠更加合理地顯示高維數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),在非線性降維的同時(shí)保持了原樣本空間的分布特性。通過(guò)集成的AdaCost算法能夠進(jìn)一步提高少數(shù)類樣本的分類性能和異常檢測(cè)的準(zhǔn)確率。
圖1 G-mean條形對(duì)比圖
圖2 AUC條形對(duì)比圖
圖3 G-mean折線對(duì)比圖
圖4 AUC折線對(duì)比圖
表1顯示,以G-mean為評(píng)價(jià)標(biāo)準(zhǔn),LLE-AdaCost算法的數(shù)據(jù)集Sonar不是最優(yōu)分類方法,這個(gè)數(shù)據(jù)集中多數(shù)類與少數(shù)類樣本數(shù)目比例為1.14∶1,維數(shù)為60,而這個(gè)數(shù)據(jù)集中最優(yōu)的方法為傳統(tǒng)的SOM。這是由于基于流形學(xué)習(xí)的代價(jià)敏感性學(xué)習(xí)算法也可能遭遇到Over-Samping的問(wèn)題,例如過(guò)度擬合,這是因?yàn)槿绻o少數(shù)類賦以比較大的代價(jià)因子等于進(jìn)一步賦予少數(shù)類樣本更大的權(quán)值,所以產(chǎn)生了過(guò)度擬合,致使分類效果有所下降,從而進(jìn)一步使異常檢測(cè)效果下降。從表1還可以看出,若以AUC為評(píng)價(jià)標(biāo)準(zhǔn)則,本文的異常分類算法的關(guān)于少數(shù)類的分類精度得到了大大提高?;诹餍螌W(xué)習(xí)的異常檢測(cè)算法由于流形學(xué)習(xí)降維算法保證了原始數(shù)據(jù)結(jié)構(gòu)的完整性,使得降維后的數(shù)據(jù)符合原始數(shù)據(jù)的空間分布,分類器的性能得到大大提高。這說(shuō)明,僅僅以G-measure為評(píng)價(jià)標(biāo)準(zhǔn)并不能正確地說(shuō)明分類器的分類效果,以G-mean和AUC為評(píng)價(jià)標(biāo)準(zhǔn)綜合考慮才能正確評(píng)價(jià)分類器的分類效果,這樣才能說(shuō)明分類的正確性以及少數(shù)類分類的正確性,進(jìn)而才能進(jìn)一步檢測(cè)出少數(shù)類也就是所說(shuō)的異常數(shù)據(jù)。
異常數(shù)據(jù)挖掘在很多領(lǐng)域都具有非常重要的意義,其中少數(shù)類的識(shí)別即分類性能的提高更令人關(guān)注。本文提出了一種新型的基于流形學(xué)習(xí)的異常檢測(cè)算法,利用非線性降維方法,通過(guò)建立高維-低維映射關(guān)系真實(shí)地反映出高維數(shù)據(jù)的數(shù)據(jù)特征,同時(shí)嵌入的集成學(xué)習(xí)AdaCost代價(jià)敏感算法進(jìn)一步提高了小類異常樣本識(shí)別率。最后,分別對(duì)UCI數(shù)據(jù)集以及不均衡的地學(xué)數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,基于流行學(xué)習(xí)的AdaCost算法預(yù)測(cè)的結(jié)果較傳統(tǒng)方法精度更高,為礦產(chǎn)資源定量預(yù)測(cè)與評(píng)價(jià)提供了新的解決途徑。
[1]Probost F.Machine learning imbalance data sets 101[C]//Proceedings of the AAAI 2000 Workshop on Imbalanced Data Sets,2002.
[2]Jolliffe I T.Principal component analysis[M].New York:Springer, 2002.
[3]宋明輝,潘軍,邢立新.東昆侖祁漫塔格地區(qū)找礦預(yù)測(cè)遙感研究[J].吉林大學(xué)學(xué)報(bào):地球科學(xué)版,2006(S1).
[4]郭云開,董勝光,彭悅.基于Curvelet變換和PCA相結(jié)合的方法提取地質(zhì)構(gòu)造信息[J].測(cè)繪通報(bào),2010(4).
[5]王瑞國(guó),于濤,李軍,等.內(nèi)蒙古錫林郭勒盟布魯特地區(qū)遙感礦化信息提取及應(yīng)用[J].測(cè)繪與空間地理信息,2010,34(4).
[6]de Silva V,Tenenbaum J B.Global versus local methods in nonlineardimensionalityreduction[C]//Proceedingsofthe Conference on Neural Information Processing Systems,2003:705-712.
[7]Fan W,Stolfo S J,Zhang J,et al.AdaCost:miss-classification cost-sensitive boosting[C]//Proceedings of the 16th International Conference on Machine Learning,1999:97-105.
[8]Roweis Sam T,Saul Lawrence K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(22):2323-2326.
[9]Tenenbaum J B,Silva V,Langford J C.A global geometirc framework for nonlinear dimensionality reduction[J].Science,2000,290(22):2319-2323.
[10]Belkin M,Niyogi P.Laplacian eigenmaps for dimensionality reductionanddatarepresentation[J].NeuralComputation,2003,15(6):1373-1396.
[11]Friedman J H,Olshen R A,Stone C J,et al.Classification and regression trees[M].[S.l.]:American Statistical Association,1986.
[12]劉才澤,胡光道.個(gè)舊地區(qū)化探數(shù)據(jù)的各向異性及東西礦區(qū)的對(duì)比研究[J].地質(zhì)與勘探,2007,43(6):81-85.
[13]Fawcet T.ROC graphs;notes and practical considerations for researchers[J].Machine Learning,2004(3):1-38.
[14]張曉龍,江川.基于AUC的SVM多類分類方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(14):166-169.
LIU Kaiwei,ZHANG Dongmei
School of Computer Science,China University of Geosciences,Wuhan 430074,China
Anomaly detection has important significance in many fields.Essentially speaking,the recognition of geochemical anomalies is the problem of imbalanced data classification.The main problems faced by anomaly identification is the processing problems of high-dimensional data,manifold learning is a nonlinear dimensionality reduction method that can reasonably reduce the data dimension.Therefore this paper proposes an anomaly detection algorithm based on the manifold learning,through manifold learning to achieve the dimension reduction,the new algorithm combines AdaCost technology of integrated learning,to improve classification performance.The new algorithm is based on the simulation experiment on the research objection of polymetallic deposits such as tin and copper from Gejiu,Yunnan province.The experimental results show that predicted results for the new algorithm delineating regional geochemical anomalies are better than traditional methods,which can more accurately identify the forming-ore abnormality.
anomaly detection;unbalanced data;manifold learning;cost-sensitive learning
化探異常識(shí)別是成礦預(yù)測(cè)的重要依據(jù)?;疆惓WR(shí)別本質(zhì)上是一不均衡數(shù)據(jù)的分類問(wèn)題。異常識(shí)別過(guò)程中面臨的主要問(wèn)題是高維數(shù)據(jù)的處理問(wèn)題,流形學(xué)習(xí)通過(guò)非線性降維方法實(shí)現(xiàn)維數(shù)約簡(jiǎn)。提出了一種基于流形學(xué)習(xí)的異常識(shí)別算法,通過(guò)流形學(xué)習(xí)進(jìn)行維數(shù)約簡(jiǎn),結(jié)合AdaCost技術(shù),以改善不平衡數(shù)據(jù)的分類性能。以某錫銅多金屬礦床的數(shù)據(jù)為研究對(duì)象進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該算法能夠更準(zhǔn)確地圈定區(qū)域化探異常,為成礦預(yù)測(cè)與評(píng)價(jià)提供了新的解決途徑。
異常檢測(cè)分類;不均衡數(shù)據(jù);流形學(xué)習(xí);代價(jià)敏感學(xué)習(xí)
A
TP181
10.3778/j.issn.1002-8331.1111-0210
LIU Kaiwei,ZHANG Dongmei.Manifold learning-based anomaly detection algorithm.Computer Engineering and Applications,2013,49(13):105-109.
國(guó)家自然科學(xué)基金(No.40972206);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(No.1323520909)。
劉凱偉(1987—),男,碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘與智能計(jì)算;張冬梅(1972—),女,博士,教授,主要研究領(lǐng)域?yàn)榭茖W(xué)計(jì)算可視化,智能計(jì)算,智能信息處理等。E-mail:373907551@qq.com
2011-11-16
2012-02-17
1002-8331(2013)13-0105-05
CNKI出版日期:2012-04-25http://www.cnki.net/kcms/detail/11.2127.TP.20120425.1721.064.html