, , ,
(1.石家莊鐵道大學 電氣與電子工程學院,河北 石家莊 050043;2. 中國鐵路北京局集團有限公司,北京 100000)
k-means 算法是 Mac Queen J提出的一種經(jīng)典的聚類算法。聚類分析又是數(shù)據(jù)挖掘中的重要研究領(lǐng)域,廣泛應(yīng)用于數(shù)據(jù)壓縮、模式識別、圖像識別、客戶分類、空間數(shù)據(jù)處理等。算法依據(jù)經(jīng)驗給出聚類數(shù)k值,結(jié)果受初始中心影響大,魯棒性不強。因此有必要對k值的獲取進行研究,提高聚類的準確性。
k值的選擇,沒有固定的選取方法,一般根據(jù)具體情況具體分析。文獻[1]運用距離代價函數(shù),選取檢測距離代價函數(shù)最小值時的聚類結(jié)果。文獻[2]提出一種基于參考區(qū)域的初始化方法,用于k-means文本聚類算法自動閾值確定。劉婷等通過評價算法分類程度好壞的適度函數(shù)獲得k值,并應(yīng)用人工數(shù)據(jù)集進行驗證[3]。2012年,劉小丹、牛少敏提出結(jié)合蟻群算法的分割方法,進行k值獲取和聚類中心選定[4]。但由于蟻群算法的自組織性,同時算法復雜、程序運行時間長和易受環(huán)境變化的影響,實際應(yīng)用效果并不理想。2014年,和敬涵等提出基于k-mean聚類的電氣設(shè)備紅外圖像故障識別方法[5],但文中僅僅給出設(shè)定k值,分割效果也有待提升,并且成像背景中不含有樹木、建筑、電纜、電線桿等復雜背景因素。本文結(jié)合紅外圖像特點,選取用灰度級直方圖進行估計。
紅外圖像具有對比度低、邊緣模糊(設(shè)備自身熱傳導,尤其同材質(zhì)接觸情況下更為嚴重)、信噪比低、成分比較復雜的特點[6],并且受傳感器自身性能影響,不能較好地反應(yīng)局部細節(jié)差異。另外,紅外成像因其被動工作,在成像儀感應(yīng)到的物體表面的紅外能量較弱并且在反射干擾(成像儀中會對反射與輻射能量一并計算)等情況下,檢測物邊緣雜波含量大,使得圖像信噪比降低和形狀信息不足,也使識別更加困難[7]。因此,根據(jù)紅外圖像自身特點,使用FLUKE TI400熱成像儀,現(xiàn)場獲取變壓器紅外數(shù)字圖像,根據(jù)直方圖選取k值,然后進行均衡化,調(diào)節(jié)灰度圖像明暗對比度,再結(jié)合模糊集理論進行圖像增強,更有利于提高k-means算法后續(xù)數(shù)據(jù)的處理,有效提高了分割的準確性。
k-means算法主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別,并逐次更新聚類中心直至達到要求的精度[8],下文中將給出具體過程說明與程序流程圖。
(1)相似度測度的選擇。計算數(shù)據(jù)相似度時,根據(jù)實際需要選擇歐氏距離,也可以根據(jù)具體情況選擇曼哈頓距離或者明考斯距離作為相似性度量[9]。設(shè)數(shù)據(jù)集為X={xm|m=1,2,…,total},X含有的數(shù)據(jù)用d個屬性A1,A2,…,Ad(維度)來描述。數(shù)據(jù)樣本為xi=(xi1,xi2,…,xid),xj=(xj1,xj2,…,xjd),其中,xi1,xi2,…,xid和xj1,xj2,…,xjd分別是樣本xi和xj對應(yīng)d個描述屬性A1,A2,…,Ad的具體取值。d值越大,相似度越小,反之亦然。歐式距離
(1)
(2)選擇評價聚類性能的準則函數(shù)。聚類分析是數(shù)據(jù)挖掘的重要工具,其有效性評價方法選用也各有不同。這里選用誤差平方和準則函數(shù)作為聚類性能的評價標準
(2)
式中,X為數(shù)據(jù)集,Xi聚類子集(k個),mi聚類子集的聚類中心,E為所有對象均方差之和,p為對象的空間中的點。
(3)簇中數(shù)據(jù)相似度計算。①把所有數(shù)據(jù)對象隨機分配到k個非空的簇中;②計算各個簇的平均值,并用該平均值代表相應(yīng)的簇;③根據(jù)每個數(shù)據(jù)與聚類中心的距離,分配給最近的簇;④轉(zhuǎn)到步驟②,重新計算各個簇的平均值,新的聚類中心被計算出。不斷重復此過程,直到滿足準則函數(shù)為止。
k-means算法對大數(shù)據(jù)集挖掘,具有相對可伸縮性,是一種高效的聚類算法[10]。但是k-means算法需要設(shè)定初始k值,結(jié)果受初始中心影響大,并對“噪聲”和孤立點數(shù)據(jù)敏感,魯棒性不強。
紅外圖像對比度較低,低端熱成像產(chǎn)品往往不能兼具良好的溫度分辨率與較好的成像質(zhì)量,而國外高端產(chǎn)品價格昂貴,并且通常降低性能進行出口限制。紅外圖像對比度低、目標識別與分割較為困難[11],尤其戶外情況下紅外成像背景相較于變電站更為復雜,易受天氣、陽光反射和“天空陷阱”等因素影響。目前許多研究所與企業(yè)都在進行無人機電力巡線開發(fā)試驗,對戶外復雜情況下紅外圖像的處理,也將更具有實際使用價值。
2.1.1 直方圖均衡化
直方圖均衡化是一種利用灰度變換,自動調(diào)節(jié)圖像對比度的方法,是一種以累計分布函數(shù)變換法為基礎(chǔ)的直方圖修正法。在低對比度紅外圖像中應(yīng)用效果更加明顯,如圖1,處理后的變壓器紅外圖像目標物輪廓更為清晰。理論關(guān)系式為
(3)
式中,T(r)為變換函數(shù),T(r)需滿足1≥T(r)≥0,pr(r)為圖像概率密度函數(shù)。數(shù)字圖像處理中離散形式為
(4)
下面分析變壓器紅外圖像的灰度直方圖,由圖2(a)可以發(fā)現(xiàn)灰度集中分布于灰度級210、230、240附近,低灰度級也存在少部分,因此估計k=3。
圖1 紅外原始圖像增強后效果對比圖
2.1.2 基于模糊集的圖像增強步驟
(1)圖像模糊特征的提取。通過式(5)實現(xiàn)圖像空間域到模糊域的變換
(5)
式中,gmn為當前像素點的灰度值;基本參數(shù)Fe和Fd為變換系數(shù);gmax為當前圖像中最大灰度值。
(2)隸屬度修正。 運用模糊增強算子(INT)的回歸調(diào)用來修正隸屬度
(6)
模糊增強是在模糊特征平面上對μmn進行非線性變換,其關(guān)鍵在于用模糊增強算子增大(當μmn≥0.5)μmn的值和減小(當μmn≤0.5)μmn的值。
(3)增強處理后的模糊域逆變換。通過式(7)將圖像數(shù)據(jù)從模糊域逆變換回空間域
(7)
形態(tài)學具有完備的數(shù)學基礎(chǔ)理論,較空域和頻域處理也具有明顯優(yōu)勢,并且提取邊緣光滑、抗噪性好,易用于圖像并行處理的實現(xiàn)。通過開運算去除圖像中較小的點,并增強圖像整體性。
結(jié)構(gòu)元素B對A的開運算,記作AοB:
AοB=(AΘB)⊕B
(8)
圖2變壓器紅外原始圖像與改進后圖像的直方圖對比圖
(1)根據(jù)原始變壓器紅外圖像直方圖估計k值。
(2)直方圖均衡化、模糊集增強后,為每個聚類確定一個初始聚類中心,這樣就有k個初始聚類中心。
(3)將樣本集中的樣本按照最小距離原則分配到最鄰近聚類。
(4)使用每個聚類中的樣本均值作為新的聚類中心。
(5)重復步驟(2)、(3)直到聚類中心不再變化。
(6)結(jié)束,得到k個聚類,再結(jié)合形態(tài)學開運算進行細節(jié)處理,應(yīng)用邊緣檢測進行圖像分割。
在數(shù)字圖像處理中常應(yīng)用Matlab或vs2015+opencv進行編程算法改進,其中Matlab也集成了大量內(nèi)部函數(shù),編寫程序比較簡單,新版本的opencv已由C語言轉(zhuǎn)向C++/python/C語言開發(fā),開發(fā)難度相對較大。在Matlab中通過imhist()函數(shù)計算和顯示灰度直方圖,通過histeq()函數(shù)進行直方圖均衡化。也可以根據(jù)灰度集中分布于灰度級210、230、240附近,取k=3。
圖3 改進算法變壓器紅外圖像分割結(jié)果對比圖
誤差概率是一種常見的衡量圖像分割結(jié)果優(yōu)劣的加權(quán)方法。同樣適用于紅外圖像分割。誤差概率可用下式計算
PE=P(O)P(B|O)+P(B)P(O|B)
(9)
式中,P(B|O)是將目標錯分為背景的概率;P(O|B)是將背景錯分為目標的概率;P(O)和P(B)分別是圖像中目標和背景所占比例的先驗概率。原始圖像分割基本不能判別目標,均衡化后,計算得PE=6.41%。
下面對比幾個常用的圖像分割評價指標:邊界邊緣重合度(EBC)、目標分割率(OSP)、分割冗余度(SRR)、分割有效測度(SEM)、dice系數(shù)(衡量分割的完整性)。
(10)
式中,B為由邊緣檢測算子對分割參考圖像提取的像素點集合;E為某分割算法分割出邊界的像素點的集合。
(11)
式中,RT為真實目標區(qū)域;RS為實際結(jié)果分割區(qū)域。
(12)
(13)
表1 圖像分割評價指標
從表1中數(shù)據(jù)分析圖像邊緣重合度、目標分割率、分割有效測度、dice系數(shù)都有較大提升,分割冗余度(SRR)體現(xiàn)了目標的偏移程度,本文方法在一定程度上使偏移增大,但可以看出增長并不明顯,基本可以忽略其對分割效果的影響。
為驗證算法的魯棒性,人為設(shè)定k=2,5,10時的原始圖像分割結(jié)果與改進后分割結(jié)果,來做對比分析。從實驗結(jié)果分析,k=2~9之間都可以較好地分割出變壓器,改進后k=2時分割結(jié)果更加清晰;k=5時,改進后方法對由變壓器底部拍攝到的鋼支撐架部分(彩色原圖中可以發(fā)現(xiàn)支撐鋼梁的位置),也做出了有效分割,并且受物體的發(fā)射率及外界光線強度等外部因素影響小。k=9時變壓器散熱油管也能較好地分割,并且反映了變壓箱體溫度范圍的分布情況。從圖4 (m)中明顯可以看出4個溫度層次,下文將應(yīng)用smartview軟件對變壓器溫度范圍進行溫度統(tǒng)計與分析。
圖4 分割結(jié)果圖與驗證算法的魯棒性分割效果對比圖
圖5在原始紅外圖像中標記與統(tǒng)計了部分溫度代表點,主要有4個集中分布于溫度100.0、96.8、95.5、92.2(°F)附近及背景溫度。從k=9的分割圖中可以辨別溫度區(qū)間分布上高下低。為突出變壓器溫度細節(jié)分布,在分割區(qū)域內(nèi)屏蔽模糊增強,增加細節(jié)區(qū)分度(如圖4 (m))。實驗中,通過直方圖溫度統(tǒng)計和3D-IR溫度統(tǒng)計圖(以三維方式顯示像素溫度,X與Y軸由圖像像素位置組成,Z軸是圖像上(X,Y)位置的溫度值)驗證變壓器表面溫度分布情況,同時驗證了k=9時改進方法的溫度細節(jié)表現(xiàn)性。若在已分割區(qū)域?qū)Ψ指钅繕?,做針對性的細?jié)增強處理,將更好地體現(xiàn)細節(jié)區(qū)分性,同時也將更好地應(yīng)用于紅外圖像的電氣設(shè)備溫度故障判別工作中。
圖5 變壓器紅外圖像溫度分布標記與綜合統(tǒng)計圖
針對k-means 算法k值選定和復雜背景下紅外圖像誤分割問題,提出了根據(jù)灰度級直方圖估計k值方法,并利用直方圖均衡化和模糊集進行圖像增強,然后通過k-means 算法結(jié)合數(shù)學形態(tài)學的開運算,再進行圖像分割。通過Matlab編寫程序,并與原來算法處理結(jié)果比較,表明該改進算法分割更為準確并且魯棒性好,又使用FLUKE的smartview軟件對紅外圖像中溫度分布進行統(tǒng)計,驗證了該算法的溫度分布細節(jié)的表現(xiàn)能力。
參 考 文 獻
[1]楊善林,李永森,胡笑旋,等. K-MEANS算法中的K值優(yōu)化問題研究[J]. 系統(tǒng)工程理論與實踐,2006,2:97-101.
[2]索紅光,王玉偉. 基于參考區(qū)域的k-means文本聚類算法[J]. 計算機工程與設(shè)計,2009,2:401-403+407.
[3]劉婷,郭海湘,諸克軍,等. 一種改進的遺傳k-means聚類算法[J]. 數(shù)學的實踐與認識,2007,8:104-111.
[4]劉小丹,牛少敏.一種改進的k-means聚類彩色圖像分割方法[J]. 湘潭大學自然科學學報,2012,34(2):90-93.
[5]和敬涵,楊洋,張沛,等.基于k-means聚類旳電氣設(shè)備紅外圖像故障識別[C]//中國高等學校電力系統(tǒng)及其自動化專業(yè)學術(shù)年會論文集.北京:北京交通大學,2014.
[6]顧建雄. 紅外圖像增強算法研究[D].蘭州:蘭州大學,2009.
[7]余小英. 云背景下紅外弱小目標檢測算法研究[D].西安:西安電子科技大學,2009.
[8]任景彪. K-均值聚類算法的研究與分析[D]. 天津:天津工業(yè)大學, 2010.
[9]Fahim A M,Salme A M,Torkey F A,et al. An efficient enhanced k-means clustering algorithm[J]. Journal of Zhejiang University Science A:Science in Engineering,2006,10:1626-1633.
[10]Chen Na,Xu Zeshui,Xia Meimei. Hierarchical hesitant fuzzy K-means clustering algorithm[J]. Applied Mathematics:A Journal of Chinese Universities(Series B),2014,1:1-17.
[11]周西柳, 章潔. 基于聚類余弦變換的圖像增強算法研究[J]. 計算機仿真, 2012, 29(2):216-219.