周嘉儒,盧 鵬,王慶凱,解 飛,李潤玲
(1.大連理工大學 海岸和近海工程國家重點實驗室,遼寧 大連 116024;2.河北建筑工程學院 市政與環(huán)境工程系,河北 張家口 075000)
在全球氣候變化的大背景下,對氣溫敏感的冰凍圈是地球圈層中變化最為明顯的[1]。因此對冰變化的連續(xù)監(jiān)測是研究氣候變化及其工程效應的重要內(nèi)容?,F(xiàn)場冰觀測通常受到惡劣自然條件和后勤保障困難的限制;衛(wèi)星遙感能夠滿足大范圍監(jiān)測要求,但在識別冰面小尺度特征,如海上流冰形狀及其表面融池尺寸、冰面粗糙度等,顯得無能為力[2]。河冰的流凌對冰壩形成,海冰的流冰對冰脊形成,它們對水工結構物、海洋結構[3]以及航行船舶抗冰設計都是必要的。因此需要這些冰塊的幾何參數(shù)和表面特征參數(shù)。隨著數(shù)碼攝影技術和硬件的發(fā)展,在岸基河冰發(fā)展過程的可視圖像研究基礎上[4-6],國內(nèi)迅速發(fā)展出船基海冰[7]、岸基河冰[8-9]、無人機海冰[10]和河冰[11]的可視圖像技術,從中提取冰面特征成為冰研究的重要手段之一。
目前制約該技術全面推廣應用的主要瓶頸在于如何自動化地處理海量圖像,從而高效提取冰面特征參數(shù)。國內(nèi)已經(jīng)完成對海冰圖像人工處理得到海冰密集度[7];對CT圖像裁剪、濾波和閾值分割等處理,構建了天然冰的三維孔隙模型,提取了其內(nèi)部微結構信息[12];使用Canny算子對黃河冰晶體的邊界進行提取,再基于連通區(qū)域原理統(tǒng)計分析冰晶等效直徑的分布規(guī)律[13];對黃河防凌遠程視頻影像提取黃河沿岸流凌密集度和流速等[9]。然而,它們的圖像處理方法都需要大量人工輔助,存在費時費力、效率低下的缺陷。本文基于自動海冰表面特征檢測開源算法Open Source Sea-ice Processing(OSSP)[14],對其在船基海冰圖像上的適用性進行應用探討和算法拓展,同時與人工處理結果進行對比分析,為船基圖像的自動處理和冰面特征參數(shù)提取奠定基礎;也能支持岸基河冰可視圖像分析技術的改進。
從數(shù)字圖像中提取冰面特征一般包括兩步:首先對圖像進行有效分割,將不同表面特征的區(qū)域劃分開;再將分割后的區(qū)域作為單獨的對象進行分類和合并,對某一類對象進行統(tǒng)計分析。
閾值法是一種傳統(tǒng)的圖像分割方法,因其實現(xiàn)簡單、計算量小、性能較穩(wěn)定而成為圖像分割中最基本和應用最廣泛的分割技術,也被應用于冰圖像分析。例如,王明鋒等通過RGB三通道灰度值與光譜反射曲線的關系,并依據(jù)貝葉斯原理尋找最佳閾值,對融池、融洞和海冰進行了分割[10]。然而,閾值法適合將海冰圖像分割為兩種表面類型,也就是簡單區(qū)分冰和海水,而無法將冰面融池參數(shù)提取出來,所以它用于提取海冰圖像融池的可行性不大。
K-means聚類算法因其高效簡單的優(yōu)勢,在各領域?qū)嶋H應用中十分廣泛。Xu等提出了一種從合成孔徑雷達(SAR)圖像中獲取海冰信息的基于核主成分分析(KPCA)局部紋理特征的海冰分割方法[15]。此方法在對圖像處理得到KPCA特征后,利用K-means算法分割圖像。它與其他幾種常用海冰分割方法相比具有較強的魯棒性,并且更準確和快速。K-means聚類算法簡單、快速、高效,并對大數(shù)據(jù)集處理具有一定的相對可擴展性和高效性。當分割圖像包含的聚類數(shù)量較多,且每個聚類之間差異明顯時效果較好。缺點是初始的聚類中心K值需要事先給出,而初始聚類中心的位置對分割結果有顯著影響。而海冰圖像常見的分割為三個聚類,即海冰、水和融池,聚類數(shù)目較少,并且融池和海水兩種聚類的差異也較為不明顯。因此,K-means聚類算法不適用于處理海冰圖像提取融池信息。
分水嶺變換已經(jīng)被證明是一種非常有用和強大的形態(tài)學圖像分割工具[16-17],也應用在海冰圖像分割中。例如,趙慶平等人針對SAR圖像分割僅考慮像素本身灰度值而不考慮空間特征的閾值法和聚類方法中存在的圖像有噪或邊界模糊問題,提出一種基于區(qū)域增長迭代算法的SAR海冰圖像分水嶺分割,真實SAR圖像的實驗結果表明該算法的快速性和有效性,同時保留了目標的細節(jié)信息[18]。由于分水嶺算法相比于閾值法和聚類算法的巨大優(yōu)勢,本文描述的海冰圖像自動處理算法選用分水嶺分割算法,它能夠有效分割出圖像中感興趣的海冰類型區(qū)域。
支持向量機方法的原理是建立在統(tǒng)計學習理論的VC維理論和結構風險最小原理基礎上,能夠依據(jù)小樣本數(shù)據(jù)完成分類。但是它對分類依據(jù)的特征標簽要求較高,會直接影響分類結果的精度。張明等選用SAR遙感數(shù)據(jù),結合紋理特征分析,通過實驗得到適宜用于海冰分類的多特征組合。在此基礎上利用支持向量機開展SAR海冰類型的分類研究。結果表明,該方法可以識別海冰SAR圖像中一年冰、多年冰和海水3種類型[19]。但是此方法提取特征標簽的前期工作難度和工作量均較大,對時空復雜的冰情和日照等條件下的現(xiàn)場實拍圖像,優(yōu)質(zhì)特征難以提取。大樣本、批處理和較強的泛用性是硬要求,目前支持向量機的功能還無法達到。
隨機森林作為新興起的、高度靈活的一種機器學習算法,擁有廣泛的應用前景。隨機森林就是通過集成學習的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質(zhì)屬于機器學習的一大分支——集成學習方法。隨機森林算法簡單且容易實現(xiàn),計算量小,并且它在很多現(xiàn)實任務中展現(xiàn)出強大的性能。隨機森林分類方法與海冰表面特征分類較為契合,分類結果不受分類個數(shù)的影響,包容性強,眾多不同的環(huán)境下拍攝的圖像也可以囊括在訓練集的創(chuàng)建當中,通過較小的工作量即可完成一定量的批處理分類。盡管目前隨機森林算法在海冰圖像上的應用研究較少,但本文所用算法中最后的分類工作選擇隨機森林算法,并如期獲得了較準確的分類結果。
自動海冰表面特征檢測開源算法(OSSP)[14]采用分水嶺算法作為分割方法,并利用隨機森林算法對分割后的對象進行分類。最初設計用來對不同種類的海冰圖像進行自動化處理,主要包括下面四類:WorldView衛(wèi)星全色高分辨率衛(wèi)星圖像,八波段多光譜格式的高分辨率衛(wèi)星圖像,SIZONet項目的航拍sRGB圖像,和NASA冰橋行動數(shù)字測繪系統(tǒng)光學圖像。對每一種圖像來源都制作了相應的初始訓練集,容量分別為1000、859、945和940,并且分類結果精度分別達到94%、89%、94%和91%,其處理流程見圖1[14]。主要步驟包括:(1)在測試算法前,需要先對圖像進行一定的預處理。(2)對預處理后圖像應用索貝爾濾波器過濾,再轉換得到標記有高梯度線的梯度圖像。(3)利用分水嶺分割算法基于分割出每一個完整且單獨的對象區(qū)域,將算法從像素水平提升至區(qū)域水平,得到分割后的圖像。(4)通過隨機森林分類算法對分割出的所有對象進行分類。
圖1 原OSSP算法流程圖
但使用原OSSP算法對船基海冰圖像進行處理時,還面臨許多問題。(1)因為船基圖像的分辨率遠高于初始訓練集中的衛(wèi)星圖像,而投影方式又與初始訓練集中的航拍圖像不同。所以船基海冰圖像處理需要創(chuàng)建新的船基海冰圖像個性化訓練集。(2)原算法的輸出結果是像素數(shù)比例,不能直接給出密集度。因此需要對原算法做些改進。當重點關注冰面融池覆蓋率時,需要將原算法中多余表面類型移除,只留下冰、融池和水域三種;同時,輸出結果由原來的像素數(shù)量改為輸出更加直觀的三色圖(白色為海冰,藍色為融池,紅色為海水)。(3)船基圖像處于傾斜拍攝,拍攝方式不僅影響了現(xiàn)有訓練集對船基圖像處理的可行性,也使得原算法在最終計算各種表面特征類型占比的結果出現(xiàn)較大偏差。需要傾斜圖像幾何校正算法[7],解決三色圖中真實的冰、水、融池的面積比。
創(chuàng)建訓練集是隨機森林算法中的重要步驟,也是海冰圖像自動處理的關鍵。訓練集的大小在原算法中并未嚴格規(guī)定,需要首先研究訓練集大小對冰面特征提取結果的影響。具體做法是(1)隨機抽出100張船基海冰圖像作為待處理圖像,記為計算集J。(2)從剩余船基圖像中隨機選擇三張進行訓練,每張圖像限制1000個訓練對象,得到訓練集X,利用算法基于訓練集X對計算集J進行處理。(3)根據(jù)同樣的方式隨機挑選三張加入訓練集X當中,再對計算集J進行處理,依此類推。(4)統(tǒng)計基于不同容量訓練集X處理計算集J得到的融池覆蓋率參數(shù)變化,結果如圖2所示。
圖2 計算集處理結果隨訓練集容量增大的變化
從圖2中可以看到,在起始訓練集容量較小時融池覆蓋率曲線波動相對較大,而在訓練集容量達到12 000個后,隨著訓練集容量的繼續(xù)增大曲線逐漸趨于穩(wěn)定。這說明融池覆蓋率隨著訓練集容量的增大而趨于穩(wěn)定。此外,隨著訓練集容量增大,融池覆蓋率的標準誤差逐漸減小,這說明選取訓練集容量時較大的訓練集容量依然占取微弱的優(yōu)勢。因此對于海冰表面特征應選取容量盡可能大,本文取84 000個的訓練集對計算集進行處理。
2018年7月30日—9月1日是中國第九次北極科學考察冰區(qū)航行,船基圖像共計42 821幅。圖像中包含的冰情分為三類。第Ⅰ類為只存在冰和融池的“冰融池”類型,約占總圖像的10%,如圖3(a);第Ⅱ類為水、冰和融池共存的“水冰融池”類型,約占總圖像的50%,如圖3(b);第Ⅲ類為只存在水和冰的“水居多”類型,約占總圖像的40%,如圖3(c)。其中選擇第Ⅰ類型148張;第Ⅱ類型124張和第Ⅲ類型183張,利用改進的算法進行自動處理,所得結果與人工處理結果[20]進行比較,如圖4。SIC為海冰密集度,MPF為融池覆蓋率。
圖3 三種類型九北船基圖像示例(2018年7月30日—9月1日)
圖4 三種類型船基圖像自動處理與人工處理對比
圖4中“○”和“×”的數(shù)據(jù)點分別是海冰密集度(SIC)和融池覆蓋率(MPF)。海冰密集度是指冰與融池之和的面積占比,融池覆蓋率是指融池的面積占比。由圖4(a)和4(b)發(fā)現(xiàn),Ⅰ和Ⅱ兩類海冰圖像的改進算法和人工處理的海冰密集度(SIC)、融池覆蓋率(MPF),二者基本相符。Ⅰ類型的SIC和MPF回歸性分析的可決系數(shù)R2分別為0.416和0.564。Ⅱ類型的SIC和MPF回歸性分析的可決系數(shù)R2分別達到0.713和0.409。兩者處理結果均落在±2ε范圍內(nèi),處于99%置信區(qū)間內(nèi)。圖4(c)中第Ⅲ類型的海冰圖像SIC和MPF約有一半的數(shù)據(jù)點分布在等線附近,還有另外一半分布在等線右下方距離較遠處(黑色三角框內(nèi)部)。
當圖像上半方受光照不均勻影響,暗藍色的水域卻呈現(xiàn)出與雪冰相近的白色(圖5(a)),深色的海水也有可能呈現(xiàn)出接近于融池的藍色(圖5(b)),這些圖像主要發(fā)生在第Ⅲ類型。圖像處理結果欠佳,只有一半的圖像自動算法與傳統(tǒng)人工處理結果相符。
圖5 第Ⅲ類型受光照不均勻影響處理欠佳圖像示例
(1)對于船基海冰圖像,隨機森林分類器的訓練集樣本容量至少需要達到12 000個,自動處理結果才與樣本容量無關。同時隨著訓練集容量的增大,融池覆蓋率的標準差仍逐漸減少,因此應盡可能選擇較大容量的訓練集。建議采用84 000個。
(2)改進后的自動處理算法對“冰融池”“水冰融池”類型的海冰圖像成功率接近100%;“水居多”類型的海冰圖像成功率接近50%。就全部第九次北極科學考察的42 821幅圖像,約80%能自動準確處理。剩余的20%主要是“水居多”類型海冰圖像,它們因拍攝時光照條件的影響,常有將遠方開闊水域部分分類為白色冰或者藍色融池。
(3)以船基海冰圖像中提取冰面融池為例,驗證了OSSP算法的可行性。未來可以利用更多的現(xiàn)場圖像來驗證和拓展該算法的適用性,為船基、無人機海冰或者岸基、無人機淡水冰的現(xiàn)場可視圖像的自動化地提取幾何和表面特征參數(shù)提供有效手段。