李奇生 趙成萍 尹子琴 李博 周新志
摘要:針對(duì)傳統(tǒng)的模糊C-均值聚類算法(FCM算法)對(duì)大數(shù)據(jù)集收斂速度慢,聚類不均勻類別樣本時(shí)出現(xiàn)大類吃小類現(xiàn)象以及對(duì)初始聚類中心點(diǎn)要求高等問(wèn)題,提出了一種基于均衡樣本集思想的模糊C-均值聚類算法(均衡FCM算法)。選取Landsat8、Sentinel2A遙感衛(wèi)星采集獲得的哈爾濱市賓縣2018年遙感圖像,驗(yàn)證方法的有效性。結(jié)果顯示,提出的均衡FCM算法可以改善傳統(tǒng)FCM算法存在的問(wèn)題,驗(yàn)證了均衡FCM算法的有效性。
關(guān)鍵詞:均衡C-均值聚類算法(均衡FCM算法);混合像元;面積提取;圖像分類
中圖分類號(hào):S127文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-4440(2020)05-1163-06
Abstract:To solve the conventional fuzzy C-means clustering algorithm(FCM algorithm) problems including slow convergence speed for large data sets, the occurrence of neglect of smaller clustered groups when the clustering categories are uneven, and high requirement on the initial clustering center points, this paper proposed a fuzzy clustering algorithm model based on balanced data sets (BDS-FCM algorithm). To verify the effectiveness, the remote sensing images of Bin County, Harbin City collected by Landsat8 and Sentinel2A remote sensing satellites in 2018 was selected as experimental subjects. Results of the experiment show that the proposed BDS-FCM algorithm can improve the conventional FCM algorithm and verify the effectiveness of BDS-FCM.
Key words:fuzzy C-means clustering algorithm based on balanced data sets(BDS-FCM algorithm);mixed pixel;area extraction;image classification
由于中低分辨率遙感衛(wèi)星空間分辨率較低,單個(gè)像元中可能會(huì)存在多種地物信息(混合像元)。該問(wèn)題是進(jìn)行遙感解譯的難點(diǎn)之一,許多研究者進(jìn)行過(guò)混合像元分解研究[1-3]。世界各國(guó)現(xiàn)已將遙感技術(shù)融入農(nóng)作物分類、面積估算等工作中,發(fā)展至今已經(jīng)取得不錯(cuò)的成就[4-6]。在多作物分類以及面積估算工作中,能否改善或解決混合像元問(wèn)題常??梢詻Q定解譯工作能否達(dá)到理想精度。常見(jiàn)的混合像元分解模型有線性模型、非線性模型、幾何光學(xué)模型以及模糊模型等。Kai等在決策樹(shù)分類后加入基于線性光譜混合模型用于分解混合像元,提升了分類和面積提取精度[7]。由Bezdek等提出的基于模糊集思想的模糊C-均值算法(FCM),操作簡(jiǎn)單,將每個(gè)樣本點(diǎn)用一個(gè)隸屬度來(lái)反映數(shù)據(jù)的關(guān)聯(lián)程度,不同于其他的硬分類算法,它建立了樣本類屬的不確定性,客觀反映現(xiàn)實(shí)世界,被廣泛用于各領(lǐng)域[8-9]。
模糊C-均值算法被很多研究者用于遙感研究。Kaur等[10]利用了模糊算法隸屬度函數(shù)對(duì)混合像元進(jìn)行分解,但該算法對(duì)噪聲敏感、魯棒性較差,初始聚類中心的選擇對(duì)最終的聚類結(jié)果影響很大,若選取不當(dāng)可能會(huì)陷入局部最優(yōu),對(duì)運(yùn)算速度有很大影響。同時(shí)在處理樣本集差距較大的多類別聚類中,很可能會(huì)出現(xiàn)大類吞并小類等情況。很多研究人員在改善其魯棒性上提出了優(yōu)化方法,主流的方法有2種。一種是對(duì)模糊算法自身目標(biāo)函數(shù)的優(yōu)化,例如將區(qū)間2型模糊理論引入模糊算法改進(jìn)目標(biāo)函數(shù)[11],利用局部空間信息和灰色信息給出新的目標(biāo)函數(shù)[12],引入一種加權(quán)因子同時(shí)考慮居中像素與其相鄰像素之間的空間距離和隸屬關(guān)系,以此優(yōu)化目標(biāo)函數(shù)[13];另一種方法是將其他算法和FCM算法相融合,解決FCM的局限性,例如在FCM前引入SSO算法優(yōu)化目標(biāo)函數(shù),進(jìn)一步尋找最優(yōu)聚類中心[14]。Honglei等[15]提出一種將模糊C均值聚類與馬爾可夫隨機(jī)場(chǎng)相結(jié)合的聚類算法,算法本身魯棒性很強(qiáng),分類精度高,但在農(nóng)業(yè)遙感面積估算工作中,樣本集的分布一般并不平均,以上方法在處理類別間樣本差距較大的情況時(shí)效果仍不夠理想。
鑒于此,本研究提出一種均衡模糊C-均值聚類算法(均衡FCM算法),將模糊算法與支持向量機(jī)算法(SVM算法)相融合,在SVM算法對(duì)樣本集粗分類后的規(guī)則文件中選取分類把握較大的點(diǎn)作為純凈樣本點(diǎn),采用小樣本類過(guò)采樣方法平衡數(shù)據(jù)集,再將純凈樣本點(diǎn)各維度特征值的平均值作為初始中心點(diǎn)輸入FCM算法,并將該方法用于多類別農(nóng)作物的解譯。
1材料與方法
1.1研究區(qū)域與數(shù)據(jù)
賓縣是黑龍江省哈爾濱市的下轄縣,位于黑龍江省南部(圖1)。其主要農(nóng)作物有玉米、水稻等。主要糧食作物空間變化呈現(xiàn)較強(qiáng)的規(guī)律性。土地利用率高,其中耕地面積比例為59.56%,林地面積比例為31.64%,水域面積比例為4.97%,居民用地面積比例為3.22%,而其他類型用地如草地、未利用土地等面積比例為僅占0.61%[16]。賓縣年降雨量少,適合進(jìn)行遙感研究。賓縣統(tǒng)計(jì)局2016年農(nóng)作物播種面積統(tǒng)計(jì)結(jié)果顯示玉米和水稻的播種面積占總面積的94.5%,因此本研究對(duì)主要農(nóng)作物玉米和水稻進(jìn)行解譯。賓縣玉米種植面積分布較均衡,水稻種植面積集中在北部和西部地區(qū)。玉米播種時(shí)間在4月20日至5月10日之間,收獲在10月中旬。水稻 于4月育苗,5月插秧,9月末至10月上中旬收獲,主要作物生長(zhǎng)期基本同步。在5月底至6月中旬左右,玉米還未完全長(zhǎng)出,水稻處于泡田整地期,在該時(shí)期作物田塊易于識(shí)別。為了方便方法驗(yàn)證,在無(wú)云或少云天氣下選定了2種6幅遙感圖像,即2018年6月1日、10月10日的Landsat8 OLI圖像和2018年5月31日、7月25日各2幅Sentinel 2A圖像。為了方便研究,對(duì)5月31日以及7月25日各2幅Sentinel2A圖像進(jìn)行拼接,得到完整的賓縣區(qū)域。但在5月底6月初時(shí),玉米尚未長(zhǎng)出,其光譜信息更接近于裸地,在此情況下不易區(qū)分玉米和建筑兩種地物,而處于泡田期的水稻與水域相近。為此利用10月10日的Landsat8數(shù)據(jù)以及7月25日的Sentinel2A數(shù)據(jù)進(jìn)行掩膜,在此時(shí)期植被已經(jīng)完全長(zhǎng)出,根據(jù)其光譜信息將水域與建筑地物掩膜并裁剪5月底6月初數(shù)據(jù)。在選定特征值時(shí),利用多波段信息進(jìn)行波段運(yùn)算,計(jì)算歸一化植被指數(shù)(NDVI)以及陸表水指數(shù)(LSWI),計(jì)算公式如下:
同時(shí)選取Landsat8的第6波段以及Sentinel 2A的第11波段SWIR1作為特征值輸入模型。
1.2研究方法
將BDS-FCM算法應(yīng)用于不同空間分辨率和光譜分辨率的衛(wèi)星數(shù)據(jù)。具體工作模型如圖2所示,共分為4個(gè)模塊。
1.2.1遙感數(shù)據(jù)預(yù)處理模塊預(yù)處理是進(jìn)行遙感研究的必備流程。衛(wèi)星原始遙感數(shù)據(jù)無(wú)法直接用于圖像解譯,對(duì)其進(jìn)行預(yù)處理的目的主要是對(duì)遙感圖像進(jìn)行噪聲濾除,更好地利用預(yù)處理后的遙感圖像所反映的地物目標(biāo)波譜特性進(jìn)行反演、統(tǒng)計(jì)和分析。包括輻射定標(biāo)、大氣校正、幾何校正等。
1.2.2特征提取模塊以人工解譯的方式選定各類監(jiān)督像元,設(shè)定樣本集中共C類子樣本。對(duì)其進(jìn)行特征提取后組成一個(gè)多維特征空間。該特征空間分為2個(gè)部分,用于分類輸入的多維特征以及地理空間坐標(biāo)特征。特征空間可由一個(gè)特征矩陣來(lái)表示,矩陣中元素為Ax,y={a1,a2,…,am},其中x、y表示其空間地理坐標(biāo),以便最后進(jìn)行圖像還原。am為該點(diǎn)的第m個(gè)特征值。
1.2.3算法處理模塊BDS-FCM算法執(zhí)行步驟如下:
(1)選用SVM工具箱中l(wèi)ibsvm方法進(jìn)行粗分類。選擇參數(shù)訓(xùn)練SVM模型,將監(jiān)督像元打上標(biāo)簽輸入訓(xùn)練函數(shù)得到結(jié)構(gòu)模型model。其中在進(jìn)行SVM算法選擇時(shí),分類處理可選擇模型C-支持向量分類機(jī)(C-SVC)和V-支持向量分類機(jī)(V-SVC)。面對(duì)不同的應(yīng)用場(chǎng)景應(yīng)選擇不同的分類方法以達(dá)到最優(yōu)效果。同時(shí)核函數(shù)有線性、多項(xiàng)式、RBF等,選定合適的核函數(shù)將特征合理地映射至高維空間也是影響分類結(jié)果的重要因素之一。
(2)SVM分類預(yù)測(cè),將方法1.2中的特征矩陣輸入第1步訓(xùn)練的model中進(jìn)行分類,得到粗分類結(jié)果文件decision_values,由其統(tǒng)計(jì)分類結(jié)果并確定小樣本集。該文件為一個(gè)矩陣,可表示為D=[dx,y,c],其中dx,y,c表示對(duì)橫、縱坐標(biāo)為x、y的點(diǎn)分類結(jié)果第c類的決策度,以百分?jǐn)?shù)表示。
(3)擴(kuò)充小樣本集,選用的方法為基于線性直插的過(guò)采樣方法(Synthetic minority oversampling technique,SMOTE)。SMOTE算法是由Nitesh等提出的面對(duì)小樣本的采樣方法[17],其原理如圖3所示。
其中X為小樣本集中的一個(gè)隨機(jī)樣本,X1、X2、X3、X4、X5是其相鄰樣本,人工合成樣本點(diǎn)為Y1、Y2、Y3、Y4、Y5。按照以下公式隨機(jī)插入在X與它相鄰樣本連線上的某一不確定位置。
為了減少混合像元點(diǎn)對(duì)結(jié)果的影響。擴(kuò)充小樣本集時(shí)選擇決策度(dx,y,c)>0.9的點(diǎn)作為樣本進(jìn)行擴(kuò)充,擴(kuò)充倍數(shù)為第2步中統(tǒng)計(jì)分類結(jié)果中大樣本與小樣本的比值,并將人工合成樣本并入原始樣本。將決策度(dx,y,c)>0.95的點(diǎn)進(jìn)行分類別平均,所得各類的平均值作為下一步模糊算法的初始中心點(diǎn)輸入。
(4)進(jìn)行模糊聚類。Ax,y點(diǎn)對(duì)各類地物的隸屬度表示為集合Ux,y={ux,y,1,ux,y,2,…,ux,y,C}。模糊像元點(diǎn)的隸屬度矩陣滿足:
對(duì)于閾值(δ)的選擇可以根據(jù)不同遙感數(shù)據(jù)源來(lái)調(diào)整,不同的空間分辨率形成模糊像元的概率不同,分辨率越高的數(shù)據(jù)閾值(δ)可設(shè)置越高。根據(jù)隸屬度矩陣將一個(gè)像元面積(S)進(jìn)行分解,第i類作物占第j個(gè)混合像元的比例面積表示為:
1.2.4結(jié)果驗(yàn)證模塊將方法1.3的分類結(jié)果以及分類后的面積進(jìn)行統(tǒng)計(jì)。一方面將各像元分類結(jié)果與坐標(biāo)特征相結(jié)合還原圖像,另一方面將試驗(yàn)結(jié)果和驗(yàn)證數(shù)據(jù)進(jìn)行數(shù)據(jù)比對(duì)以驗(yàn)證算法的準(zhǔn)確度。
2結(jié)果與分析
數(shù)據(jù)特征空間建立后輸入模型,SVM方法選取參數(shù)更好設(shè)定的V-支持向量分類機(jī),其中懲罰因子設(shè)置為0.5,設(shè)定對(duì)特征維度低、較大數(shù)據(jù)集分類效果較好的RBF核函數(shù)處理數(shù)據(jù)集。在模糊算法參數(shù)選擇中設(shè)定c=3,m=2,ε=1×10-5。Landsat8以及Sentinel 2A的分類效果如圖4所示,同時(shí)加入使用傳統(tǒng)FCM對(duì)Landsat8數(shù)據(jù)處理的分類結(jié)果進(jìn)行對(duì)比。為了驗(yàn)證本試驗(yàn)的分類精度,采取混淆矩陣進(jìn)行統(tǒng)計(jì)分析。為了保證選取驗(yàn)證參照點(diǎn)的科學(xué)性,對(duì)3類地物采取分層抽樣的方法共選取500個(gè)參照點(diǎn),同時(shí)利用與全色波段融合后的15 m分辨率Landsat8數(shù)據(jù)確定參照點(diǎn)的地物歸屬。驗(yàn)證結(jié)果如表1所示。
從分類結(jié)果圖可以看到水稻樣本點(diǎn)沒(méi)有被正常識(shí)別,而一些玉米地和林地交界處的樣本點(diǎn)被識(shí)別為水稻。由于FCM本質(zhì)上是一種聚類算法,實(shí)現(xiàn)原理為優(yōu)化目標(biāo)函數(shù)以達(dá)到類內(nèi)距離最小化。圖5a表示分類所要達(dá)到的效果,兩類別分類并不均勻。當(dāng)FCM算法用于該數(shù)據(jù)分類時(shí),會(huì)出現(xiàn)圖5b的問(wèn)題,即為了達(dá)到距離最小化將類別中心向大類靠近,甚至將小類看作噪聲點(diǎn),導(dǎo)致小類被吞并。因此在試驗(yàn)數(shù)據(jù)中處于大類別的玉米樣本和林地樣本將小樣本水稻樣本吞噬,而交界處的混合樣本點(diǎn)數(shù)量多于水稻樣本,因此被識(shí)別為第3類。在本研究算法(均衡FCM算法)中,Landsat8數(shù)據(jù)處理的總體分類精度達(dá)到了96.2%,卡帕系數(shù)為92.98%;Sentinel2A數(shù)據(jù)處理的分類精度達(dá)到了94.8%,卡帕系數(shù)為90.34%??梢钥闯?,本研究算法(均衡FCM算法)對(duì)Landsat8數(shù)據(jù)處理的分類精度高于Sentinel2A數(shù)據(jù)處理。但是Sentinel2A的空間分辨率高于Landsat8,這是由于在處理Sentinel2A數(shù)據(jù)時(shí)由兩景數(shù)據(jù)拼接時(shí)出現(xiàn)的色差問(wèn)題影響了圖像解譯過(guò)程,進(jìn)而導(dǎo)致分類精度下降。
閾值(δ)的選擇影響混合像元分解的精度。對(duì)賓縣Landsat8和Sentinel2A數(shù)據(jù)分別選取0.80、0.82的閾值,此參數(shù)是根據(jù)大量手動(dòng)調(diào)試結(jié)果挑選出的較優(yōu)參數(shù)。選定Landsat8數(shù)據(jù)源驗(yàn)證面積統(tǒng)計(jì)精度,將30 m分辨率的多光譜數(shù)據(jù)與15 m分辨率的全色波段融合得到15 m分辨率數(shù)據(jù),并通過(guò)人工先驗(yàn)知識(shí)設(shè)立監(jiān)督像元點(diǎn)后進(jìn)行監(jiān)督分類和面積統(tǒng)計(jì)用于驗(yàn)證(表2、表3)。對(duì)各作物的面積統(tǒng)計(jì)精度(表3)進(jìn)行加權(quán)平均可得總精度,受圖像拼接時(shí)的誤差影響,Sentinel2A的總精度略低于Landsat8。由于分解了混合像元,各類作物的面積統(tǒng)計(jì)精度獲得了提升。
3討論
本研究提出了均衡模糊C-均值聚類算法(均衡FCM算法),并用于農(nóng)作物遙感解譯。優(yōu)化了模糊算法對(duì)初始中心點(diǎn)的選擇,解決了當(dāng)樣本集不平衡時(shí)大類吞并小類的問(wèn)題。該算法利用SVM算法對(duì)數(shù)據(jù)源的特征值進(jìn)行粗分類,根據(jù)粗分類的結(jié)果確定FCM算法的初始類中心點(diǎn)并擴(kuò)充小樣本數(shù)據(jù)集以達(dá)到數(shù)據(jù)平衡的效果。選取哈爾濱市賓縣不同數(shù)據(jù)源的圖像進(jìn)行試驗(yàn),分類結(jié)果和卡帕系數(shù)表明該算法可以達(dá)到較好的分類效果。通過(guò)分解混合像元提升了各類地物的面積統(tǒng)計(jì)精度。通過(guò)本試驗(yàn)得到如下結(jié)論:(1)聚類算法在處理類別分布不均勻樣本時(shí),常常會(huì)將小樣本當(dāng)作噪聲而影響聚類精度,這對(duì)于農(nóng)作物遙感解譯過(guò)程是難以接受的。(2)由于地形、土壤等因素的影響,農(nóng)作物遙感樣本常出現(xiàn)分布不均情況,因此在處理類似問(wèn)題時(shí)要對(duì)樣本集進(jìn)行均衡化處理。(3)模糊算法將像元分解至多類,利于處理中低精度遙感數(shù)據(jù)問(wèn)題,而在農(nóng)作物遙感解譯時(shí)利用此算法可以提高解譯精度,尤其在作物面積統(tǒng)計(jì)上。
研究中存在的問(wèn)題:混合像元和純凈像元最高隸屬度閾值的選擇問(wèn)題上本研究未給出明確的方法,選擇的主要依據(jù)是試驗(yàn)結(jié)果和經(jīng)驗(yàn)。但此閾值的選擇影響農(nóng)作物面積統(tǒng)計(jì)精度,需要提出一套選擇理論。此外,由于本研究算法(均衡FCM算法)在分類前要進(jìn)行粗分類以確定樣本類別分布,耗時(shí)較長(zhǎng)。因此建議在解譯前目視粗略判斷各類別分布情況,若分布相對(duì)均衡,可直接利用FCM算法進(jìn)行解譯。
參考文獻(xiàn):
[1]LI Q, LAN H, ZHAO X, et al. River centerline extraction? using the multiple direction integration algorithm for mixed and pure water pixels[J]. GIScience & Remote Sensing, 2019, 56(2): 256-281.
[2]XIAN-CHUAN Y, XIAO-FENG C, HENG-ZHI C, et al. Mixed-Pixel decomposition of SAR images based on single-pixel ICA with selective members[J]. GIScience & Remote Sensing, 2011, 48(1): 130-140.
[3]KAVZOGLU T, REIS S. Performance analysis of maximum likelihood and artificial neural network classifiers for training sets with mixed pixels[J]. GIScience & Remote Sensing, 2008, 45(3): 330-342.
[4]孟令奎,李曉香,張文. 植被覆蓋區(qū)VIIRS與MODIS遙感指數(shù)的相關(guān)性[J]. 江蘇農(nóng)業(yè)學(xué)報(bào), 2018,34(3):570-577.
[5]SON N T, CHEN C F, CHEN C R, et al. AssBDSment of Sentinel-1A data for rice crop classification using random forests and support vector machines[J]. Geocarto International, 2018, 33(6): 587-601.
[6]何瑞銀,沈明霞,從靜華,等. 植被信息提取過(guò)程中ETM+遙感影像的分類方法[J]. 江蘇農(nóng)業(yè)學(xué)報(bào), 2008, 24(1):29-32.
[7]KAI W, JUN Z, GUOFENG Z. Early estimation of winter wheat planting area in Qingyang city by decision tree and pixel Unmixing methods based on GF-1 satellite data[J]. Remote Sensing Technology and Application, 2018, 33(1): 158-167.
[8]MAHELA O P, SHAIK A G. Recognition of power quality disturbances using S-transform based ruled decision tree and fuzzy C-means clustering classifiers[J]. Applied Soft Computing, 2017, 59: 243-257.
[9]LIANG-QUN L, WEI-XIN X, ZONG-XIANG L. A novel quadrature particle filtering based on fuzzy c-means clustering[J]. Knowledge-Based Systems, 2016, 106: 105-115.
[10]KAUR S, BANSAL R K, MITTAL M, et al. Mixed pixel decomposition based on extended fuzzy clustering for single spectral value remote sensing images[J]. Journal of the Indian Society of Remote Sensing, 2019, 47(3): 427-437.
[11]QIU C, XIAO J, HAN L, et al. Enhanced interval type-2 fuzzy c-means algorithm with improved initial center[J]. Pattern Recognition Letters, 2014, 38: 86-92.
[12]KRINIDIS S, CHATZIS V. A robust fuzzy local information C-means clustering algorithm[J]. IEEE Transactions on Image ProcBDSing, 2010, 19(5): 1328-1337.
[13]ZHANG H, SHI W, HAO M, et al. An adaptive spatially constrained fuzzy c-means algorithm for multispectral remotely sensed imagery clustering[J]. International Journal of Remote Sensing, 2018, 39(8): 2207-2237.
[14]BUI Q T, NGUYEN Q H, PHAM V M, et al. A novel method for multispectral image classification by using social spider optimization algorithm integrated to fuzzy C-mean clustering[J]. Canadian Journal of Remote Sensing, 2019, 45(1): 42-53.
[15]HONGLEI Y, JUNHUAN P, BAIRU X, et al. Remote sensing classification using fuzzy C-means clustering with spatial constraints based on Markov random field[J]. European Journal of Remote Sensing, 2013, 46(1): 305-316.
[16]成勝權(quán). 基于RS和GIS的賓縣土地利用和土壤侵蝕的定量研究[J]. 水利科技與經(jīng)濟(jì), 2012, 18(9):100.
(責(zé)任編輯:張震林)