孫 琳, 畢衛(wèi)紅, 劉 桐, 武家晴, 張保軍, 付廣偉, 金 娃, 王 兵, 付興虎*
1. 燕山大學(xué)信息科學(xué)與工程學(xué)院, 河北省特種光纖與光纖傳感重點(diǎn)實驗室, 河北 秦皇島 066004
2. 秦皇島紅燕光電科技有限公司, 河北 秦皇島 066004
綠潮是海洋大型藻暴發(fā)性生長聚集形成的藻華現(xiàn)象[1]。 自2007年以來, 以滸苔為主要原因種的綠潮于每年的5月—7月間在我國黃海海域周期性大規(guī)模暴發(fā), 已嚴(yán)重影響到該海域和沿海地區(qū)的生態(tài)環(huán)境[2-3]。 除在黃海暴發(fā)外, 綠潮還相繼在河北的秦皇島海域和廣西的北海海域暴發(fā)。 不僅對秦皇島市的旅游業(yè)造成了強(qiáng)烈的負(fù)面影響, 而且對北戴河景區(qū)的海洋生態(tài)環(huán)境也構(gòu)成了巨大威脅。 綠潮藻華面積是衡量綠潮災(zāi)情的一個重要指標(biāo), 及時準(zhǔn)確地監(jiān)測綠潮面積是預(yù)防災(zāi)害、 掌握災(zāi)情和災(zāi)后治理的關(guān)鍵。
目前, 海洋監(jiān)測領(lǐng)域?qū)G潮災(zāi)情的監(jiān)測方法主要有走航式調(diào)查、 衛(wèi)星遙感和無人機(jī)遙感監(jiān)測方法。 傳統(tǒng)的走航式調(diào)查通過科研考察船等在研究海域進(jìn)行連續(xù)觀測[4], 通過監(jiān)測綠潮分布區(qū)域的包絡(luò)線監(jiān)測綠潮覆蓋面積, 耗費(fèi)的人力、 物力大。 衛(wèi)星遙感通過GOCI、 Landsat、 MODIS、 HY-1C和GF衛(wèi)星等獲得研究海域的多光譜圖像[5-11], 通過綠藻的光譜特征對綠藻進(jìn)行識別, 進(jìn)而監(jiān)測綠潮覆蓋面積。 衛(wèi)星遙感監(jiān)測的監(jiān)測頻率高, 范圍廣, 但監(jiān)測數(shù)據(jù)受云層遮擋的大氣影響, 且空間和光譜分辨率低, 監(jiān)測得到的數(shù)據(jù)存在大量混合像元, 給后續(xù)的數(shù)據(jù)處理帶來較大的分類難度和誤差。 無人機(jī)遙感利用搭載光譜成像儀的無人機(jī)對研究海域進(jìn)行航拍[12-14], 耗材少, 靈活性高, 同時具有高空間和光譜分辨率, 但由此帶來嚴(yán)重的數(shù)據(jù)冗余現(xiàn)象, 為數(shù)據(jù)處理和模型建立帶來難度[15]。 目前, 學(xué)者們采用的識別方法主要有植被指數(shù)和機(jī)器學(xué)習(xí)算法。 植被指數(shù)法, 如歸一化植被指數(shù)(NDVI)、 比值植被指數(shù)(RVI)和綠度植被指數(shù)等[5, 7, 9-11, 13-14], 應(yīng)用廣泛、 計算量少, 但監(jiān)測復(fù)雜的海洋環(huán)境時易引入大量誤差。 機(jī)器學(xué)習(xí)算法通過數(shù)據(jù)集構(gòu)建模型對樣本進(jìn)行預(yù)測, 高光譜數(shù)據(jù)存在大量的數(shù)據(jù)冗余, 在處理高光譜數(shù)據(jù)時需進(jìn)行預(yù)處理減少計算量[6, 16]。
本工作采用機(jī)載高光譜成像系統(tǒng)對河北秦皇島的金夢海灣海域了進(jìn)行圖像和光譜數(shù)據(jù)采集, 運(yùn)用決策樹分類器、 隨機(jī)森林分類器、 支持向量機(jī)、 K最近鄰分類器和投票分類器完成像元分類工作并進(jìn)行分類結(jié)果對比和分類精度評價, 選出最佳的機(jī)器學(xué)習(xí)分類算法并應(yīng)用于綠藻識別算法的研究和綠潮面積監(jiān)測。
于2021年4月26日進(jìn)行了野外實驗, 實驗地點(diǎn)為河北省秦皇島市金夢海灣海域, 天氣晴朗無云。 采用大疆M300 RTK專業(yè)級無人機(jī)搭載410 Shark高光譜成像系統(tǒng)獲取實驗區(qū)域的高光譜原始圖像, 無人機(jī)和高光譜成像系統(tǒng)如圖1所示。
圖1 大疆M300 RTK無人機(jī)與410 Shark高光譜成像系統(tǒng)
410 Shark機(jī)載高光譜成像系統(tǒng)配備的高光譜傳感器光譜范圍為400~1 000 nm, 光譜分辨率為2 nm, 共計150個波段。 實驗前在沙灘上人為預(yù)設(shè)一個1 m×1 m的綠藻標(biāo)準(zhǔn)面積用于數(shù)據(jù)處理誤差分析。 無人機(jī)起飛前在拍攝區(qū)域放置反射率校正布。 共飛行一次, 包含三條航帶。 飛行拍攝區(qū)域的主要藻種為龍須菜、 滸苔等。
1.2.1 圖像預(yù)處理
(1)樣本選擇
人工目視檢查航拍得到的高光譜圖像, 裁剪去除因無人機(jī)轉(zhuǎn)彎變相和陣風(fēng)引起無人機(jī)發(fā)生抖動而造成的圖像扭曲部分; 選取一張綠潮覆蓋面積較多的航道影像作為實驗對象繼續(xù)進(jìn)行高光譜圖像預(yù)處理操作。 考慮到傳感器本身的暗角效應(yīng), 選取高光譜圖像的第100—599列為實驗圖像。
實驗圖像共計2 150 500個像素, 代表地面幅寬約為37.5 m, 面積約為12 096.562 5 m2。
(2)反射率校正
高光譜成像儀拍攝得到的數(shù)據(jù)并不是地物反射率數(shù)據(jù), 為了得到地物的真實反射率數(shù)據(jù), 需要在航拍實驗區(qū)域放置一塊反射率校正布。 在高光譜圖像中, 選取反射率校正布上的區(qū)域作為感興趣區(qū)提取其反射光譜曲線, 利用平場校正逐波段相除得到地物的真實反射率。 反射率校正的公式為
(1)
式(1)中,Ra為實驗航拍得到的光譜數(shù)據(jù), 0.7為反射率校正布的反射比例,Rw為反射率校正布的反射光譜曲線,λ為光譜波段。
(3)光譜增強(qiáng)
考慮到高光譜圖像在生成和傳輸時會受到不同噪聲源的干擾, 使得圖像質(zhì)量下降, 光譜曲線存在大量噪聲, 故對實驗得到的高光譜圖像做平滑降噪處理。 考慮到圖像預(yù)處理后得到的反射率數(shù)據(jù)均在0~1之間, 且高光譜成像儀與地物間距離為100 m的遠(yuǎn)距離, 在可見光部分光譜間差異較小, 故對光譜曲線做對數(shù)運(yùn)算, 增強(qiáng)光譜之間的差異。 航拍實驗海域圖像如圖2(a)所示。 經(jīng)對數(shù)運(yùn)算后的實驗海域圖像如圖2(b)所示, 高光譜圖像中的綠藻像元更加醒目。
圖2 航拍實驗海域的高光譜圖像
(4)光譜特征提取
利用導(dǎo)數(shù)法確定了反射光譜峰谷的波段, 通過改進(jìn)的差值環(huán)境植被指數(shù)思想進(jìn)行了光譜特征提取。 秦皇島市金夢海灣海域暴發(fā)的綠潮災(zāi)害屬懸浮綠潮, 多數(shù)綠潮懸浮于淺水區(qū)[17], 導(dǎo)致水中綠潮的反射光譜受到海水影響。 由于海水在近紅外波段有著強(qiáng)吸收[18], 故以可見光為研究譜區(qū)。 不同地物反射光譜曲線的一階差分結(jié)果如圖3所示, 選擇了以綠藻為主的特征波峰波谷進(jìn)行波段運(yùn)算構(gòu)建光譜特征。 圖3中的彩色點(diǎn)為所選擇的基礎(chǔ)波段, 由于高光譜數(shù)據(jù)有一定的采樣間隔, 所以這些點(diǎn)分布在值為0的虛擬線周邊, 并不嚴(yán)格在值為0的虛擬線上。
圖3 不同地物反射光譜曲線的一階差分結(jié)果
選取各地物光譜的第12波段(449.57 nm)減去第25波段(501.78 nm)作為特征1, 第25波段(501.78 nm)減去第48波段(594.15 nm)作為特征2, 第48波段(594.15 nm)減去第56波段(626.27 nm)作為特征3, 第56波段(626.27 nm)減去第61波段(646.35 nm)作為特征4, 第61波段(646.35 nm)減去第67波段(670.45 nm)作為特征5, 第67波段(670.45 nm)減去第79波段(718.64 nm)作為特征6, 第79波段(718.64 nm)減去第85波段(742.74 nm)為特征7構(gòu)建數(shù)據(jù)集。
1.2.2 建立高光譜綠潮反演模型
經(jīng)人工標(biāo)定, 自經(jīng)過圖像裁剪和反射率校正預(yù)處理的高光譜圖像中提取綠藻像元15 000個, 其他地物像元15 000個, 提取其光譜曲線, 構(gòu)建數(shù)據(jù)集。 對數(shù)據(jù)進(jìn)行預(yù)處理后, 提取該數(shù)據(jù)集的75%, 即22 500個樣本為訓(xùn)練集, 剩余的25%, 即7 500個樣本為測試集。
選用了決策樹、 隨機(jī)森林、 支持向量機(jī)(SVM)、 K最近鄰(KNN)和三輸入的投票分類器五種機(jī)器學(xué)習(xí)算法建立了高光譜綠潮反演模型。
決策樹分類器是基于基尼系數(shù)將系統(tǒng)的混亂程度向降低的方向逼近, 利用歸納算法生成可讀的規(guī)則和決策樹, 使用決策樹對新數(shù)據(jù)進(jìn)行分析的分類方法。 隨機(jī)森林分類器是一種包含多棵決策樹的分類算法, 對訓(xùn)練樣本和樣本特征進(jìn)行隨機(jī)有放回抽樣, 避免了單棵決策樹可能存在的模型過擬合的問題。 SVM是通過更改核函數(shù)對訓(xùn)練集樣本進(jìn)行線性分類和非線性分類的二分類算法。 KNN在定類決策上依據(jù)在特征空間種最鄰近的n個樣本的類別來決定待分樣本所屬的類別。 投票分類器是一種將弱學(xué)習(xí)器集成后提高其分類能力的集成分類器, 將隨機(jī)森林、 SVM、 KNN三種分類算法進(jìn)行集成, 構(gòu)建投票分類器, 并進(jìn)行網(wǎng)格化超參數(shù)搜索, 采用交叉驗證的方式進(jìn)行評估, 選出最佳參數(shù)進(jìn)行分類模型的構(gòu)建。
410 Shark機(jī)載高光譜成像系統(tǒng)光譜范圍為400~1 000 nm, 視場角為29.5°, 瞬時視場角為0.043 3°, 實驗時無人機(jī)飛行速度為8.8 m·s-1, 航向重疊度為40%, 旁向重疊度為30%, 飛行高度為100 m。 高光譜成像系統(tǒng)在不同高度下的地面分辨單元(GRC)計算公式為
(2)
式(2)中, IFOV為高光譜成像系統(tǒng)的瞬時視場角,H為無人機(jī)的飛行高度。 經(jīng)計算可得, 高光譜成像儀在100 m高度下的地面分辨單元為0.075 m, 即采集到的高光譜原始圖像中每個像元的代表面積為0.005 625 m2。
(1)數(shù)據(jù)集分類準(zhǔn)確度和Kappa系數(shù)
在利用Python進(jìn)行分類實驗時, 首先應(yīng)考慮數(shù)據(jù)集內(nèi)的分類準(zhǔn)確度, 選取在數(shù)據(jù)集內(nèi)能達(dá)到更高分類準(zhǔn)確度的分類方法更易在大數(shù)據(jù)的預(yù)測中獲得好的分類效果。 Kappa系數(shù)是一種基于混淆矩陣的衡量分類精度的指標(biāo), 比起常用的分類準(zhǔn)確度指標(biāo)能夠“懲罰”模型的偏向性, 比準(zhǔn)確率更能代表分類模型的分類能力。 Kappa系數(shù)的計算公式為
(3)
式(3)中,k為Kappa系數(shù),po為正確的樣本數(shù)量除以總樣本數(shù), 即總分類精度,pe為實際數(shù)量與預(yù)測數(shù)量的乘積除以樣本總數(shù)的平方。
(2)標(biāo)準(zhǔn)面積計算分類誤差
由于無人機(jī)航拍海域?qū)嵕皶r, 綠潮實際覆蓋面積不可知。 讀取航拍實驗圖像后, 也因圖像中存在大量混合像元而難以通過人工目視對全圖的綠藻像元進(jìn)行標(biāo)定, 導(dǎo)致分類精度難以評價。 為了給出一個可供對比的精度結(jié)果, 在航拍實驗前于沙灘上人工設(shè)置一個1 m×1 m的綠潮標(biāo)準(zhǔn)面積, 從而計算出分類結(jié)果的誤差, 預(yù)設(shè)標(biāo)準(zhǔn)面積使用的綠藻搬運(yùn)自研究海域的岸上堆積綠藻。
將經(jīng)過預(yù)處理后的高光譜圖像作為分類實驗對象, 提取干沙灘、 濕沙灘、 岸上綠藻、 水中綠藻和海水的標(biāo)準(zhǔn)反射光譜進(jìn)行對比, 航拍得到的不同地物的像元亮度值如圖4(a), 反射率校正后的不同地物的光譜特征曲線如圖4(b)所示, 經(jīng)對數(shù)運(yùn)算后的不同地物的反射光譜曲線如圖4(c)所示。 觀察可肢, 綠藻在中心波長為600和640 nm附近處有反射峰, 在680 nm之后光譜反射率會急劇增加, 形成“紅邊(REP)”現(xiàn)象。 水中綠藻在可見光范圍內(nèi)與岸上綠藻的反射光譜有著相似的特征, 而在近紅外波段, 其與海水的反射光譜有著一致的特征。 干沙灘和濕沙灘的標(biāo)準(zhǔn)反射光譜在整條光譜曲線上反射率都持上升趨勢, 隨著含水量的增加, 標(biāo)準(zhǔn)反射曲線的高度會下降, 但仍保持上升趨勢。 經(jīng)波段選擇后計算得到的不同地物的光譜特征如圖4(d)所示, 不同地物在特征2和特征6處有明顯差異。
基于光譜增強(qiáng)和波段選擇的樣本構(gòu)建分類器的實驗分類結(jié)果如表1所示。
表1 根據(jù)經(jīng)光譜增強(qiáng)和波段選擇的樣本構(gòu)建分類器的分類結(jié)果
由表1可知, 決策樹分類器, 隨機(jī)森林分類器, SVM, KNN分類器都能在數(shù)據(jù)集內(nèi)保持高準(zhǔn)確率, 決策樹分類器預(yù)測時耗時最短。 由于KNN分類器對每一個待分類的文本都需要計算它到全體已知樣本的距離, SVM引入了高斯核函數(shù), 所以KNN和SVM分類模型進(jìn)行大數(shù)據(jù)預(yù)測時會相對久。
將樣本的分類結(jié)果根據(jù)樣本坐標(biāo)繪圖, 選取實驗圖像中涵蓋地物種類較多的一景為例, 所選景象中含有人、 干沙灘、 濕沙灘、 岸上綠藻、 水中綠藻、 海水等多種地物。 各分類算法的分類實驗效果如圖5所示。
圖5 分類實驗結(jié)果
如圖5(b)所示, 決策樹分類器會在沙灘、 人等其他地物中引入部分誤分類像元, 在大面積的綠潮區(qū)域也會有漏分現(xiàn)象。 決策樹分類器雖然預(yù)測速度快, 但由于是相對小數(shù)據(jù)集預(yù)測大數(shù)據(jù), 對訓(xùn)練集的針對性過強(qiáng)從而在大數(shù)據(jù)預(yù)測中引入大量誤差, 得到的分類結(jié)果不可靠。
如圖5(c)所示, 隨機(jī)森林分類器由于是包含了多棵決策樹的集成算法, 并且在不同的測試集中進(jìn)行了交叉驗證, 所以避免了因?qū)我挥?xùn)練集的針對性從而在大數(shù)據(jù)預(yù)測中引入誤差的問題。 但經(jīng)人工目視檢查分類質(zhì)量, 預(yù)測面積比真實綠潮面積小, 是一種“過于嚴(yán)格”的分類算法。
如圖5(d)所示, SVM的分類結(jié)果在岸上沙灘的標(biāo)準(zhǔn)面積部分出現(xiàn)了大量漏分的現(xiàn)象, 使算法在標(biāo)準(zhǔn)面積預(yù)測誤差達(dá)到了33.63%。 出現(xiàn)這種情況的原因是SVM的魯棒性較差, 對訓(xùn)練集敏感, 若取更合適的訓(xùn)練集, 分類效果可能會有所改變。
如圖5(e)所示, KNN的分類結(jié)果將部分人的像元樣本誤分為綠藻。
經(jīng)觀察分類結(jié)果, 發(fā)現(xiàn)在綠潮聚集的中心區(qū)域即綠潮純凈像元部分各分類結(jié)果是一致正確的, 分類結(jié)果受混合像元和訓(xùn)練集選擇的影響, 所以對隨機(jī)森林分類器、 SVM和KNN分類器做算法集成, 構(gòu)建投票分類器, 分類結(jié)果如圖5(f)所示。 投票分類器得到的分類結(jié)果在保持自身分類高準(zhǔn)確率的基礎(chǔ)上, 相較于SVM和KNN分類器提高了在數(shù)據(jù)集中的分類精度, 對隨機(jī)森林的分類結(jié)果進(jìn)行了合理補(bǔ)充, 改正了SVM法在干沙灘的標(biāo)準(zhǔn)面積部分出現(xiàn)誤分的情況。
根據(jù)經(jīng)反射率校正后的全波段的樣本, 以相同的方法構(gòu)建分類器作為對比實驗一, 經(jīng)反射率校正和波段選擇后的樣本構(gòu)建分類器作為對比實驗二, 對比實驗的分類結(jié)果如表2所示。
將樣本的分類結(jié)果根據(jù)樣本坐標(biāo)繪圖, 選取實驗圖像中涵蓋地物種類較多的一景為例, 所選景象中含有人、 干沙灘、 濕沙灘、 岸上綠藻、 水中綠藻、 海水等多種地物。 各分類算法的分類效果如圖6所示。
圖6 對比試驗分類結(jié)果
由表2可知, 經(jīng)波段選擇后的樣本構(gòu)建分類器時, 耗時相比由全波段樣本構(gòu)建分類器時, 預(yù)測耗時縮短了2~3倍。 本研究構(gòu)建的分類模型較對比實驗一在數(shù)據(jù)集內(nèi)的表現(xiàn)更優(yōu),在實際應(yīng)用中能夠識別到更多的綠藻像元, 且能夠完全排除人的像元對分類結(jié)果的影響。 由于綠潮災(zāi)害暴發(fā)的時間在每年的4月到9月, 海濱景區(qū)會有大量游客聚集, 所以對人的像元識別效果應(yīng)被著重考慮。 如圖6所示, 相較于本研究采用算法的分類結(jié)果, 對比實驗一和對比試驗二不能有效區(qū)分人與綠藻像元, 存在大量誤分和茅分情況。
在對高光譜數(shù)據(jù)構(gòu)建是否為綠藻像元的二分類模型和利用所構(gòu)建的分類模型進(jìn)行大數(shù)據(jù)預(yù)測時, 先對高光譜數(shù)據(jù)進(jìn)行對數(shù)運(yùn)算增強(qiáng)譜間差異, 再進(jìn)行波段選擇后再構(gòu)建以隨機(jī)森林分類器、 SVM和KNN分類器的分類結(jié)果為三輸入的投票分類器模型, 該模型在數(shù)據(jù)集內(nèi)準(zhǔn)確率為98.95%, Kappa系數(shù)為0.978 9。 該方法提高了模型的分類準(zhǔn)確率, 同時節(jié)約了大量分類時間。 通過對實驗區(qū)高光譜圖像的預(yù)測應(yīng)用, 證明了該模型在預(yù)測大數(shù)據(jù)時仍保持較高準(zhǔn)確率, 且對混合像元區(qū)的水中綠藻像元也能給出定義, 證明了該方法的在綠潮遙感監(jiān)測領(lǐng)域的可行性和優(yōu)越性, 在綠潮面積監(jiān)測領(lǐng)域具有普適性, 在海洋監(jiān)測領(lǐng)域具有廣泛的應(yīng)用前景。