紀(jì) 雪,唐秋華,陳義蘭,李 杰,丁德秋
1.測繪遙感信息工程國家重點(diǎn)實驗室,湖北 武漢 430079;2.自然資源部第一海洋研究所,山東 青島 266061;3.山東科技大學(xué)測繪科學(xué)與工程學(xué)院,山東 青島 266590
海底底質(zhì)是一種重要的海底淺層環(huán)境信息載體,其類型及分布是海洋空間規(guī)劃、海洋調(diào)查、海洋工程建設(shè)、海洋生物棲息地調(diào)查、海洋資源開發(fā)利用以及海洋科學(xué)等研究的重要基礎(chǔ)數(shù)據(jù)[1]?;诙嗖ㄊ晫W(xué)遙感探測數(shù)據(jù),結(jié)合一定的底質(zhì)取樣進(jìn)行海底沉積物分類研究,是近年來迅速發(fā)展起來的新型海底底質(zhì)分類方法,為底質(zhì)類型劃分提供了一種快速而有效的探測手段[2]。
常見的基于多波束的聲學(xué)底質(zhì)分類方法概括起來有統(tǒng)計分析[3-5]、圖像分析[6]、聚類分析[7]、神經(jīng)網(wǎng)絡(luò)[8-10]、支持向量機(jī)(support vector machine,SVM)[11]、隨機(jī)森林[12-15]、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[16-18]等。目前底質(zhì)分類模型多采用單一的分類模型,分類性能參差不齊。單一的分類模型不可避免地會存在一定局限,比如對初始參數(shù)敏感、泛化能力差、容易受噪聲干擾、穩(wěn)健性不佳等等。Boosting是一種組合單一分類方法的集成學(xué)習(xí)算法,其理論框架源于PAC(probably approximately correct)學(xué)習(xí)模型,通過對樣本集的操作獲得樣本子集,然后用弱分類算法(弱分類器)在樣本子集上訓(xùn)練生成一系列的基分類器。這種將弱學(xué)習(xí)方法提升為強(qiáng)學(xué)習(xí)方法的Boosting算法很多,AdaBoost(adaptive boosting)自適應(yīng)增強(qiáng)算法作為Boosting算法家族最具代表性的算法參數(shù)設(shè)置簡單,且無須先驗知識[19-20]。由于AdaBoost分類精度在一定程度上依賴弱分類器的分類性能,并且隨著訓(xùn)練樣本數(shù)目和類別的增加,分類速度降低,訓(xùn)練時間變長。因此弱分類器的選擇成為研究者關(guān)注的重點(diǎn)之一。
SVM基于結(jié)構(gòu)風(fēng)險最小化理論在特征空間中構(gòu)建最優(yōu)分類面,使得模型能夠得到全局最優(yōu),并且整個樣本空間的期望風(fēng)險以某個概率滿足一定上界[21]。與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,SVM具有嚴(yán)謹(jǐn)?shù)睦碚摵蛿?shù)學(xué)基礎(chǔ),泛化能力強(qiáng),可有效解決局部收斂、非線性、過學(xué)習(xí)等問題[22],在數(shù)據(jù)挖掘、模式識別、數(shù)據(jù)分類、信號處理及估計回歸函數(shù)等方面得到廣泛應(yīng)用[23-24]。但在實際應(yīng)用中,對于SVM最優(yōu)參數(shù)的選擇在理論上尚未得到較好解決。目前常用的SVM參數(shù)選擇一般采取窮舉法,但該方法計算量大,耗用時間長,尋優(yōu)精度低,且不易獲得最優(yōu)參數(shù)。遺傳算法(genetic algorithm,GA)是基于進(jìn)化生物學(xué)中遺傳、突變、自然選擇、雜交等現(xiàn)象的進(jìn)化機(jī)制而探索出的一種搜索自適應(yīng)概率優(yōu)化算法,用于解決復(fù)雜系統(tǒng)優(yōu)化問題[25]。與傳統(tǒng)優(yōu)化算法相比,GA尋優(yōu)具有搜索效率高,以群體為單位,對自變量中所有個體進(jìn)行并行搜索,避免陷入局部最優(yōu)解,不受目標(biāo)函數(shù)影響,適應(yīng)性強(qiáng)。
本文結(jié)合GA、SVM和AdaBoost的優(yōu)勢,基于SVM和增強(qiáng)學(xué)習(xí)框架提出一種GA-SVM-AdaBoost算法進(jìn)行海底底質(zhì)分類研究。首先采用GA算法對SVM的參數(shù)進(jìn)行自動搜索,解決SVM的參數(shù)自動優(yōu)選問題,然后將GA算法優(yōu)化后的多個SVM模型作為弱分類器,根據(jù)AdaBoost算法構(gòu)建強(qiáng)分類模型,最后應(yīng)用于解決海底底質(zhì)類型多樣化、類型之間差異較小等多分類難點(diǎn)問題。
試驗區(qū)位于中國黃海中部,膠東半島南岸青島市境內(nèi)的膠州灣。膠州灣屬于半封閉海灣,具有較典型的港灣海岸,海底地貌類型多樣,有豐富的粉砂質(zhì)黏土、黏土質(zhì)粉砂、泥質(zhì)砂、砂質(zhì)泥、粉砂、礫石、泥巖、基巖、粗砂等底質(zhì)類型,有利于開展聲學(xué)底質(zhì)分類研究。本文試驗利用挪威Kongsberg公司的EM3000多波束測深系統(tǒng)在試驗區(qū)進(jìn)行數(shù)據(jù)采集工作,共采集17條多波束測線數(shù)據(jù)。研究區(qū)地形、測線布設(shè)和海底表層沉積物位置及類型如圖1所示。研究區(qū)水深在5~40 m范圍內(nèi),結(jié)合現(xiàn)場底質(zhì)取樣分析數(shù)據(jù)以及歷史沉積物類型分布資料,試驗區(qū)淺表層海底沉積物包括基巖、砂、黏土質(zhì)粉砂和粉砂質(zhì)黏土4類。
1.2.1 反向散射強(qiáng)度數(shù)據(jù)處理
多波束測深系統(tǒng)詳細(xì)記錄了每一個時序采樣點(diǎn)的位置信息和反向散射強(qiáng)度信息,可以同時獲取高精度的水深地形和高分辨率的聲吶圖像。由于動態(tài)復(fù)雜的海洋環(huán)境以及多波束測深系統(tǒng)自身的局限,原始的反向散射強(qiáng)度測量值并不能直接反映真實的海底底質(zhì)特征,需進(jìn)行系統(tǒng)的校正處理。反向散射強(qiáng)度數(shù)據(jù)在進(jìn)行底質(zhì)識別之前通常需要經(jīng)過定位、系統(tǒng)誤差改正、聲強(qiáng)補(bǔ)償改正、聲吶圖像處理、聲吶圖像特征提取等一系列處理,可以概括為以下4步:
(1)聲強(qiáng)數(shù)據(jù)位置改正。解析多波束原始數(shù)據(jù)包中的姿態(tài)信息、導(dǎo)航信息、聲速剖面等數(shù)據(jù),通過聲線跟蹤、姿態(tài)改正、基陣空間坐標(biāo)確定、基陣空間姿態(tài)確定、平面直角坐標(biāo)系下水深點(diǎn)位置歸算以及反向散射強(qiáng)度位置歸算。
(2)聲強(qiáng)數(shù)據(jù)補(bǔ)償校正。聲強(qiáng)數(shù)據(jù)依次進(jìn)行傳播損失補(bǔ)償、TVG改正、聲照面積改正、地形起伏度改正、中央波束改正和角度響應(yīng)分析等在內(nèi)的聲強(qiáng)補(bǔ)償改正[26-31],得到能反映海底底質(zhì)特征的真實聲強(qiáng)值。
(3)聲吶圖像獲取。對聲強(qiáng)條帶數(shù)據(jù)進(jìn)行拼接,然后數(shù)據(jù)重采樣得到聲吶圖像,得到的聲吶圖像進(jìn)行增強(qiáng)處理提高底質(zhì)辨識度。
(4)底質(zhì)分類。基于聲吶圖像進(jìn)行特征提取和篩選,選擇優(yōu)勢特征同時降低圖像特征維度,構(gòu)建分類器進(jìn)行海底底質(zhì)自動分類識別。
本文通過自主設(shè)計完成的MBClass多波束數(shù)據(jù)處理軟件進(jìn)行聲吶數(shù)據(jù)改正,數(shù)據(jù)改正前后的聲吶圖像如圖2所示。從圖2的3處局部放大圖可以很明顯地看出,聲強(qiáng)補(bǔ)償改正模型改正后的聲吶圖像較好地解決了聲強(qiáng)的角度響應(yīng)問題和中央亮條帶問題,聲強(qiáng)過渡更清晰、自然。
圖1 研究區(qū)概況Fig.1 Overview of the research area
圖2 反向散射聲強(qiáng)數(shù)據(jù)改正前后對比Fig.2 Comparison of backscattered strength data before and after correction
1.2.2 聲吶圖像增強(qiáng)
為改善聲吶圖像的視覺效果,突出不同海底底質(zhì)之間的細(xì)節(jié)特征,利用基于雙邊濾波的Retinex算法進(jìn)行海底聲吶圖像增強(qiáng)[32]。Retinex理論是一種顏色恒常知覺的計算理論[33]。該算法綜合考慮像素亮度本身和周圍像素位置進(jìn)行照度估計,采用具有保邊去噪優(yōu)勢的雙邊濾波算法進(jìn)行照度估計,有效避免照度估計時高對比度邊緣附近高低像素之間的相互影響。采用策略壓縮照度圖像和增強(qiáng)反射圖像,最后將兩者融合形成一幅新圖像,如圖3所示。對比輸入和輸出圖像的局部統(tǒng)計直方圖可以看出,經(jīng)過增強(qiáng)后的聲吶圖像像素空間分布更均勻,不同底質(zhì)類型對比更明顯。
圖3 基于雙邊濾波的Retinex圖像增強(qiáng)算法實現(xiàn)流程Fig.3 Flow chart of Retinex image enhancement algorithm based on bilateral filtering
1.2.3 特征提取及優(yōu)化
反向散射強(qiáng)度數(shù)據(jù)比較抽象和復(fù)雜,只憑借強(qiáng)度數(shù)據(jù)進(jìn)行底質(zhì)分類效果較差,尤其是在地形復(fù)雜和沉積物類型差異較小的區(qū)域。針對這一問題,在底質(zhì)分類過程中,除了充分考慮聲強(qiáng)變化,還要兼顧數(shù)據(jù)的空間特征。除了基本灰度信息外,本文還提取了包括12維離散小波變換(discrete wavelet transform,DWT)、9維Laws紋理特征、8維灰度共生矩陣(gray-level co-occurrence matrix,GLCM)、3維Gabor變換、2維Tamura紋理特征和1維局部二值模式(local binary pattern,LBP)等在內(nèi)共計36維特征,如表1所示。不同特征的箱式圖如圖4所示,考慮到部分特征值較大,為了在一個范圍區(qū)間內(nèi)更好地展示所有特征的空間分布,文中對2號特征做2倍壓縮,6號特征做5倍壓縮,10號特征做10倍壓縮,36號特征做2倍壓縮。其中L5、E5、S5、W5和R5是長度為5的1維向量集合,分別表示灰度、邊緣、點(diǎn)、波、紋波特征,定義如下
表1 特征信息統(tǒng)計Tab.1 List of characteristic information
圖4 聲吶圖像特征提取顯示Fig.4 Sonar image feature extraction
(1)
L5R5、L5S5、L5W5、E5S5、E5W5、E5R5、S5W5、S5R5和W5R5是Laws紋理的卷積模板,通過對相應(yīng)的紋理向量進(jìn)行卷積得到。
為了提高分類模型的性能,減少計算空間和運(yùn)行時間,在底質(zhì)分類前需要對36維特征進(jìn)行篩選,刪除冗余特征。目前特征的篩選算法有很多,從特征選擇算法的發(fā)展歷程來看,目前特征選擇算法趨向于特征相關(guān)性。因此,本文在支持向量機(jī)遞歸特征約簡算法(SVM recursive feature elimination,SVM-RFE)基礎(chǔ)上增加相關(guān)偏置約簡算法(correlation bias reduction,CBR,簡稱SVM-RFE-CBR算法[34])進(jìn)行特征選擇,SVM核函數(shù)選擇Gauss徑向基核函數(shù)(RBF)。對于訓(xùn)練數(shù)據(jù)集{xi,yi}、xi∈Rd、yi∈{-1,1},i=1,…,n,非線性SVM模型有
(2)
式中,β是有符號的列向量,即βi=αiyi;αi是拉格朗日乘子;H是核矩陣;符號(-k)表示特征k已被刪除;Hij=K(xi,yi)只包含支持向量。對于核函數(shù)Hij=e-gSij,其中g(shù)是核函數(shù)參數(shù),Sij=‖xi-xj‖2,則
(3)
結(jié)合采樣樣本,選取一定數(shù)量的樣本數(shù)據(jù),隨機(jī)有放回地選取500個樣本數(shù)據(jù)進(jìn)行分析。保留前10維的特征分配得分(1—10,排名越靠前得分越高),重復(fù)操作6次。得分累計如圖5所示,其中特征序號與表1特征序號對應(yīng)。
圖5 特征得分統(tǒng)計Fig.5 Statistics of characteristic scores
最終按照得分篩選前10維特征輸入分類器進(jìn)行分類,其中包括Gabor變換(0°)、3層小波分解近似分量、Gabor變換(90°)、二層小波分解近似分量、聲吶圖像聲強(qiáng)、一層小波分解近似分量、Gabor變換(45°)、LBP、GLCM中值和能量。
GA-SVM-AdaBoost算法通過構(gòu)造GA優(yōu)化后的SVM分類器作為弱分類器,綜合訓(xùn)練樣本集的分類結(jié)果以及之前總體分類的準(zhǔn)確率,給每個訓(xùn)練樣本分配權(quán)值,提高前一輪被弱分類器錯誤分類的樣本權(quán)值,降低被正確分類的樣本權(quán)值,并通過不斷迭代改善錯誤分類樣本的分類精度[35]。其工作流程如圖6所示,可以概括為弱分類器(GA-SVM)構(gòu)建和強(qiáng)分類模型(GA-SVM-AdaBoost)集成兩部分。
圖6 GA-SVM-AdaBoost分類流程Fig.6 GA-SVM-AdaBoost classification flow chart
特征選擇部分已經(jīng)對SVM模型有一個簡單介紹,SVM分類模型將樣本空間映射到高維空間φ(x)=[φ(x1),φ(x2),…,φ(xn)],然后在高維特征空間構(gòu)造最優(yōu)決策函數(shù)
y=wTφ(x)+b
(4)
式中,w是權(quán)值向量;b為偏置量。通過求解最優(yōu)化問題來解決分類問題的SVM模型
(5)
式中,εi為引入的松弛變量;C是懲罰因子。引入拉格朗日乘子進(jìn)行最優(yōu)計算得到SVM決策函數(shù)
(6)
懲罰因子C和核函數(shù)參數(shù)g的取值會直接影響分類準(zhǔn)確率,基于此,本文選用GA算法優(yōu)化SVM模型參數(shù)。具體優(yōu)化流程如下(圖7):
(1)對輸入的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行歸一化處理,消除原始變量之間的量綱差異。
(2)進(jìn)行染色體編碼與種群初始化,對SVM的懲罰函數(shù)C和核函數(shù)參數(shù)g進(jìn)行二進(jìn)制編碼,并隨機(jī)產(chǎn)生初始化種群。
(3)進(jìn)行解碼與適應(yīng)度函數(shù)的確定,對種群中的各染色體解碼,獲取C及g的值,再用訓(xùn)練樣本對SVM進(jìn)行訓(xùn)練,并用訓(xùn)練好的SVM計算測試樣本集的預(yù)測精度,由預(yù)測精度構(gòu)造種群個體的適應(yīng)度函數(shù)。
(4)判斷優(yōu)化過程是否滿足遺傳算法的終止條件(最大進(jìn)化代數(shù)),若滿足終止條件,則停止計算,輸出最優(yōu)參數(shù)組合,否則進(jìn)行選擇、交叉、變異等操作以產(chǎn)生新一代種群,并開始新一代遺傳。
(5)將得到的最優(yōu)參數(shù)懲罰因子C和核函數(shù)參數(shù)g代入SVM模型中對訓(xùn)練集進(jìn)行訓(xùn)練。
(6)對測試集進(jìn)行分類預(yù)測,得出分類結(jié)果并計算分類精度。
圖7 GA優(yōu)化的SVM神經(jīng)網(wǎng)絡(luò)工作流程Fig.7 GA-SVM neural network workflow
假設(shè)訓(xùn)練數(shù)據(jù)集T={(xi,yi),…,(xm,ym)},xi∈X為特征矩陣,yi∈{1,2,…,N}為對應(yīng)的類別標(biāo)簽。依次取兩類樣本,一類為正,一類為負(fù),將yi設(shè)為正類,將剩余樣本設(shè)為負(fù)類,設(shè)置弱分類器個數(shù)K。輸入訓(xùn)練樣本數(shù)據(jù),初始化訓(xùn)練樣本權(quán)值w1(i)=1/m。依次遍歷所有弱分類器,第t個弱分類器ht(x),計算誤差率
(7)
計算ht(x)的權(quán)值分配系數(shù)
(8)
結(jié)合多分類指數(shù)損失函數(shù)的主見疊加建模(SAMME)[36]算法構(gòu)造強(qiáng)分類器,并對AdaBoost算法的權(quán)值分配策略進(jìn)行改進(jìn)
(9)
在原算法的基礎(chǔ)上增加ln(K-t+1),更新訓(xùn)練數(shù)據(jù)的權(quán)值分布
(10)
(11)
式中,Zt為歸一化因子。第K個弱分類器分類結(jié)束后,訓(xùn)練得到的所有弱分類器組成最終的強(qiáng)分類器G(x),輸出所屬類別的決策值
(12)
AdaBoost在循環(huán)中反復(fù)調(diào)用弱分類器,根據(jù)訓(xùn)練樣本的預(yù)測結(jié)果,更新每個周期后的分布wt,使得正確分類的樣本權(quán)重較低,而錯誤分類樣本權(quán)重較高,不斷改善分類精度。最后,所有的弱分類器線性組合成一個最終強(qiáng)分類器G(x)。
為了驗證GA-SVM-AdaBoost分類模型在海底底質(zhì)分類中的有效性和優(yōu)勢性,結(jié)合研究區(qū)歷史海底沉積物資料及采樣數(shù)據(jù)分布,在研究區(qū)底質(zhì)采樣位置附近分別選取4類底質(zhì)的樣本。抽取其中15 600個基巖樣本,9360個砂樣本,6630個黏土質(zhì)粉砂樣本和13 650個粉砂質(zhì)黏土樣本,將同類樣本數(shù)據(jù)順序打亂后平均分成訓(xùn)練樣本和測試樣本數(shù)據(jù),將訓(xùn)練數(shù)據(jù)分別輸入,對SVM、GA-SVM、基于單層決策樹的AdaBoost和GA-SVM-AdaBoost分類模型進(jìn)行訓(xùn)練學(xué)習(xí)。然后用測試數(shù)據(jù)進(jìn)行測試,最終對整個試驗區(qū)進(jìn)行分類,結(jié)果如圖8所示。對測試數(shù)據(jù)分類結(jié)果分別計算單個類別的分類精度、總體分類精度和Kappa系數(shù),結(jié)果如表2所示。
由表2和圖8可以看出,單個分類模型如SVM、GA-SVM存在對某一類或兩類分類效果不佳的問題,且分類結(jié)果會有很多“噪聲”值,混合底質(zhì)分類效果不好。但GA對SVM的參數(shù)優(yōu)化使得SVM總體分類精度提高了4.11%?;趩螌記Q策樹的AdaBoost算法對砂、黏土質(zhì)粉砂和粉砂質(zhì)黏土分類表現(xiàn)不佳,分類精度均在70%以下?;谕瑯拥腁daBoost框架將多GA-SVM組合構(gòu)成的GA-SVM-AdaBoost模型得到的混淆矩陣Kappa系數(shù)最高達(dá)到0.89,總體分類精度達(dá)到92.19%,高出基于單層決策樹的AdaBoost算法16.32%,分別高出另外兩種分類模型6.98%和2.87%。充分驗證GA-SVM作為弱分類器在分類性能上要優(yōu)于單層決策樹,以及AdaBoost增強(qiáng)算法集成多個單分類器要優(yōu)于單個分類模型。除此之外,GA-SVM-AdaBoost算法在整個試驗區(qū)底質(zhì)分類中表現(xiàn)出明顯的優(yōu)勢,類別之間“噪聲”混合現(xiàn)象得到很好的弱化,對混合底質(zhì)表現(xiàn)出較好的適應(yīng)性,其中,砂分類精度最低也有85.36%,對基巖的分類精度為94.90%、黏土質(zhì)粉砂分類精度為90.4%、粉砂質(zhì)黏土的分類精度為97.26%。
表2 4種分類方法的精度對比Tab.2 Comparison of four classification methods
基于多波束聲吶數(shù)據(jù)的聲學(xué)底質(zhì)分類相對于傳統(tǒng)海底底質(zhì)分類具有高精度、高效率和高覆蓋率等優(yōu)勢,是傳統(tǒng)底質(zhì)分類的有益補(bǔ)充,不但具有重要的科學(xué)研究意義,更具有較強(qiáng)的應(yīng)用推廣價值。本文圍繞多波束反向散射聲強(qiáng)數(shù)據(jù)處理,以及聯(lián)合SVM和AdaBoost算法的分類模型構(gòu)建等關(guān)鍵問題進(jìn)行系統(tǒng)、深入的研究,得到如下結(jié)論:
(1)通過完善的聲強(qiáng)數(shù)據(jù)補(bǔ)償改正模型對多波束反向散射聲強(qiáng)數(shù)據(jù)進(jìn)行補(bǔ)償改正,得到反映真實海底底質(zhì)的聲強(qiáng)信息。SVM-RFE-CBR算法可以對36維特征進(jìn)行分析篩選出10維最具分類優(yōu)勢的特征,大大減少計算工作量,提高分類效率和分類精度。
圖8 4種分類方法分類結(jié)果Fig.8 Classification results of the four classification methods
(2)利用GA算法自適應(yīng)全局優(yōu)化搜索能力與SVM有機(jī)結(jié)合,通過不斷的選擇、交叉、變異計算得到SVM模型最優(yōu)參數(shù)懲罰因子C和核函數(shù)參數(shù)g,提高了SVM模型分類精度。
(3)GA-SVM-AdaBoost算法將GA、SVM和AdaBoost三者的優(yōu)勢組合,通過多個GA-SVM弱分類器組合成AdaBoost強(qiáng)分類器?;谀z州灣試驗區(qū)多波束數(shù)據(jù)分別利用SVM、GA-SVM、基于單層決策樹的AdaBoost和GA-SVM-AdaBoost 4種算法進(jìn)行底質(zhì)分類試驗并證明其有效性和優(yōu)勢性。GA-SVM-AdaBoost算法對基巖分類精度達(dá)到94.90%、砂分類精度為85.36%、黏土質(zhì)粉砂精度為90.40%、粉砂質(zhì)黏土分類精度為97.26%,其分類精度明顯優(yōu)于另外3種分類器。一方面證明GA對SVM參數(shù)優(yōu)化可以提高SVM的分類性能;另一方面證明基于GA-SVM弱分類器的AdaBoost增強(qiáng)學(xué)習(xí)算法可以集成多個GA-SVM分類器的優(yōu)勢,分類效果要優(yōu)于單一分類器和傳統(tǒng)的AdaBoost模型。