王玉玲,王 蒙,閆 巖,宮淑蘭,汪 明,徐 亞
?
基于聚類(lèi)算法的ERT污染區(qū)域識(shí)別方法
王玉玲1*,王 蒙1,2,閆 巖1,宮淑蘭1,汪 明1,徐 亞3
(1.山東建筑大學(xué)信息與電氣工程學(xué)院,山東省智能建筑技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250101;2.林雪平大學(xué)科學(xué)工程學(xué)院,瑞典 林雪平 58183;3.中國(guó)環(huán)境科學(xué)研究院,北京 100012)
本文提出將聚類(lèi)算法引入到ERT監(jiān)測(cè)系統(tǒng)中,采用K均值(K-means)聚類(lèi)、模糊C均值算法(FCM)以及混合高斯模型(GMM)3種常用聚類(lèi)算法對(duì)ERT檢測(cè)結(jié)果進(jìn)行污染區(qū)域識(shí)別,通過(guò)一個(gè)數(shù)值模型分析了3種算法的識(shí)別效果.研究結(jié)果表明當(dāng)污染區(qū)域與背景土壤的電阻率區(qū)分度較大時(shí)(電阻率差異性大于30%),采用3種聚類(lèi)算法都可以識(shí)別出污染區(qū)域,K-means和FCM的識(shí)別效果優(yōu)于GMM算法.最后,給出一個(gè)實(shí)際場(chǎng)地調(diào)查的應(yīng)用案例.
ERT檢測(cè);污染場(chǎng)地;聚類(lèi)算法;污染區(qū)域識(shí)別
我國(guó)存在大量污染場(chǎng)地,這些污染場(chǎng)地會(huì)造成對(duì)土壤和地下水污染,對(duì)人類(lèi)健康和環(huán)境產(chǎn)生危害[1-2],因此,對(duì)污染場(chǎng)地的檢測(cè)和修復(fù)是亟待解決的問(wèn)題.由于電阻率成像(ERT)方法具有快速、費(fèi)用低等優(yōu)點(diǎn),近年來(lái)開(kāi)始嘗試將ERT應(yīng)用于場(chǎng)地污染及修復(fù)進(jìn)程監(jiān)測(cè)領(lǐng)域[3-4].在采用ERT進(jìn)行場(chǎng)地監(jiān)測(cè)時(shí),通常會(huì)周期性地對(duì)場(chǎng)地進(jìn)行ERT檢測(cè),這些檢測(cè)數(shù)據(jù)需要被實(shí)時(shí)地分析處理.然而,目前對(duì)ERT檢測(cè)數(shù)據(jù)的分析處理主要依靠人工完成,因此很難保證識(shí)別的效率和準(zhǔn)確性,這成為制約ERT監(jiān)測(cè)系統(tǒng)應(yīng)用的關(guān)鍵問(wèn)題之一.
近年來(lái)人工智能技術(shù)取得了高速發(fā)展,涌現(xiàn)出了許多新技術(shù)新方法,這些方法已被用來(lái)解決醫(yī)學(xué)圖像處理、自動(dòng)駕駛等領(lǐng)域的問(wèn)題,獲得了良好的應(yīng)用效果[5-7].其中,聚類(lèi)算法用于在事先并不知道任何樣本的類(lèi)別標(biāo)號(hào)的情況下,按照個(gè)體或樣本的特征通過(guò)某種算法來(lái)把一組未知類(lèi)別的樣本劃分成若干類(lèi)別,使同一類(lèi)別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性,而類(lèi)別之間則應(yīng)具有盡可能高的異質(zhì)性.
常用的聚類(lèi)算法包括:K均值(K-means)算法、模糊C均值算法(FCM)、混合高斯模型(GMM)等.國(guó)內(nèi)外學(xué)者對(duì)這些算法開(kāi)展了大量研究[8-9].針對(duì)K-means算法對(duì)初始中心點(diǎn)的選擇十分敏感,易陷入局部最優(yōu)解的問(wèn)題,Bradley等[10]提出了基于分布模式估計(jì)初始中心的方法,該方法使得迭代求解收斂于更優(yōu)的局部最小值;Bagirov[11]研究了一種改進(jìn)的最小平方和聚類(lèi)問(wèn)題的全局K-means算法,改善了K-means算法中初始中心點(diǎn)的選擇問(wèn)題; Tzortzis[12]提出了一種MinMax K-means算法,該算法根據(jù)類(lèi)別的方差對(duì)每個(gè)類(lèi)別賦予不同權(quán)重,得到一個(gè)優(yōu)化的K-means目標(biāo)函數(shù),解決了對(duì)初始值的依賴(lài).模糊C均值算法(FCM)[13]是在C均值基礎(chǔ)上的一種改進(jìn)算法,采用隸屬度函數(shù)表示樣本點(diǎn)隸屬于某一類(lèi)別的程度,通過(guò)優(yōu)化各個(gè)樣本點(diǎn)對(duì)不同類(lèi)別中心的隸屬度,使不同類(lèi)之間的相似性最小化,同類(lèi)之間的相似性最大化,從而決定各樣本點(diǎn)的類(lèi)別.Wang等[14]在FCM算法的基礎(chǔ)上增加了空間信息,基于局部空間相似性度量模型自適應(yīng)地確定初始聚類(lèi)中心和初始隸屬度.然后根據(jù)其固有的像素間的相關(guān)性,對(duì)模糊隸屬度函數(shù)進(jìn)行修正. GMM是由多個(gè)高斯分布函數(shù)的線性組合建立的模型.Huang等[15]提出了一種基于高斯混合模型搜索圖像全局閾值的有效方法,該方法具有較強(qiáng)的魯棒性,但是對(duì)于對(duì)比度較差的圖像處理效果不精確.這些聚類(lèi)算法被應(yīng)用于醫(yī)學(xué)圖像處理領(lǐng)域: Baid[16]對(duì)K-means算法、高斯混合模型和模糊C均值聚類(lèi)算法在腦腫瘤分割中的應(yīng)用進(jìn)行了比較研究;Kannan等[17]利用FCM算法對(duì)乳房以及大腦核磁共振圖像進(jìn)行了有效分割,其中該算法可將乳腺分為四個(gè)集群:脂肪、正常組織、良性病變以及惡性病變; Janssen等[18]采用GMM算法對(duì)人腦圖像進(jìn)行分割;徐立等[19]提出一種新的基于腦部MR圖像的腫瘤診斷方法,該方法通過(guò)多閾值分割形態(tài)學(xué)操作檢測(cè)圖像的畸形區(qū)域,提取用于分類(lèi)的高斯混合模型(GMM)特征,利用決策樹(shù)分類(lèi)器對(duì)腫瘤圖像類(lèi)型進(jìn)行分類(lèi);Lalaoui等[20]提出了一種改進(jìn)的期望最大化(MEM)算法并且對(duì)比了五種算法(K-means、FCM、MS、ES以及MEM算法)在分割人腦圖像中的效果.除此以外,Li等[21]采用K-means算法對(duì)為巖石間斷集進(jìn)行識(shí)別.然而目前尚未有將聚類(lèi)算法用于ERT檢測(cè)結(jié)果中土壤污染區(qū)域的識(shí)別的報(bào)道.
研究表明,土壤的電阻率受到多種因素的影響,例如土壤類(lèi)型、含水率、孔隙水離子濃度等[22-23],這使得在對(duì)ERT檢測(cè)得到的電阻率數(shù)據(jù)進(jìn)行解釋時(shí),沒(méi)有一個(gè)普適的電阻率值可以用來(lái)劃分污染土壤以及未受污染的土壤,不合理的閾值會(huì)導(dǎo)致錯(cuò)誤的污染區(qū)域判定.針對(duì)此問(wèn)題,本文研究了采用聚類(lèi)算法,利用數(shù)據(jù)之間的相似性和差異性將ERT數(shù)據(jù)劃分成若干類(lèi)別,從而實(shí)現(xiàn)污染區(qū)域自動(dòng)識(shí)別.
K-means算法是聚類(lèi)算法中使用最廣泛的算法之一,它把個(gè)對(duì)象根據(jù)屬性分為個(gè)類(lèi)別,使得聚類(lèi)結(jié)果滿(mǎn)足:同一聚類(lèi)中的對(duì)象相似度較高;而不同聚類(lèi)中的對(duì)象相似度較小.定義損失函數(shù)如下:
式中:x為待分類(lèi)的數(shù)據(jù)點(diǎn);為第個(gè)類(lèi)別的聚類(lèi)中心;r∈{0,1}來(lái)表示數(shù)據(jù)點(diǎn)x對(duì)于聚類(lèi)的歸屬(其中=1,...,;=1,...,),如果數(shù)據(jù)點(diǎn)x屬于第聚類(lèi),則r=1,否則為0.
K-means通過(guò)迭代求解,得到使得損失函數(shù)最小的所有數(shù)據(jù)點(diǎn)的歸屬值{r}和聚類(lèi)中心{}.
模糊C均值聚類(lèi)(FCM)用隸屬度確定每個(gè)數(shù)據(jù)點(diǎn)屬于某個(gè)聚類(lèi)的程度.它是硬C均值聚類(lèi)(HCM)方法的一種改進(jìn).FCM把個(gè)向量x(=1,2,…,)分為個(gè)模糊組,隸屬矩陣的元素允取的取值范圍為[0,1].
FCM定義了目標(biāo)函數(shù)如下:
式中:u介于0,1間;c為模糊組的聚類(lèi)中心,d=||c-x||為第個(gè)聚類(lèi)中心與第個(gè)數(shù)據(jù)點(diǎn)間的歐幾里德距離,是隸屬度因子.一個(gè)數(shù)據(jù)的隸屬度之和等于1:
基于(4)和(5),構(gòu)造新的目標(biāo)函數(shù)如下:
式中:是約束式的拉格朗日乘子.對(duì)所有輸入?yún)⒘壳髮?dǎo),使式(6)達(dá)到最小的必要條件為: