王冬海,盧峰,方曉蓉,郭剛
中電科海洋信息技術(shù)研究院有限公司,北京 100041
應(yīng)用
海洋大數(shù)據(jù)關(guān)鍵技術(shù)及在災(zāi)害天氣下船舶行為預(yù)測(cè)上的應(yīng)用
王冬海,盧峰,方曉蓉,郭剛
中電科海洋信息技術(shù)研究院有限公司,北京 100041
隨著海洋數(shù)據(jù)量的爆炸式增長,海洋大數(shù)據(jù)受到越來越多的關(guān)注。主要分析和總結(jié)了當(dāng)前海洋大數(shù)據(jù)的研究現(xiàn)狀和關(guān)鍵技術(shù),聚焦了機(jī)器學(xué)習(xí)在海洋大數(shù)據(jù)中的模型預(yù)測(cè)研究的實(shí)例,對(duì)海上船舶在災(zāi)害天氣(臺(tái)風(fēng))下的行為進(jìn)行了回歸訓(xùn)練和預(yù)測(cè)。通過構(gòu)建和對(duì)比決策樹、Bagging、隨機(jī)森林等多種機(jī)器學(xué)習(xí)算法,對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)、預(yù)測(cè)和檢驗(yàn)評(píng)估。最終結(jié)果表明,隨機(jī)森林方法在災(zāi)害天氣下船舶密度的預(yù)測(cè)應(yīng)用中具有良好和穩(wěn)健的效果。
ocean big data, machine learning, ship behavior prediction
在經(jīng)濟(jì)全球化的今天,全球90%的貿(mào)易都經(jīng)過海洋,全球70%的經(jīng)濟(jì)活動(dòng)都發(fā)生在沿海地區(qū),沿海地區(qū)海洋經(jīng)濟(jì)發(fā)展已經(jīng)成為帶動(dòng)我國國民經(jīng)濟(jì)增長的重要因素。隨著信息技術(shù)的快速發(fā)展和國家海洋戰(zhàn)略的實(shí)施,與海洋相關(guān)的科學(xué)觀測(cè)/監(jiān)測(cè)與數(shù)值計(jì)算、海洋經(jīng)濟(jì)和管理等數(shù)據(jù)日益增多,與海洋相關(guān)的音頻、視頻、文字和圖片等數(shù)據(jù)大量涌現(xiàn),數(shù)據(jù)存儲(chǔ)量、規(guī)模、種類飛速增長,海洋大數(shù)據(jù)正成為大數(shù)據(jù)領(lǐng)域的重要應(yīng)用之一。
海洋大數(shù)據(jù)作為全球大數(shù)據(jù)的重要組成部分,是實(shí)現(xiàn)海洋信息行業(yè)智能化管理和“互聯(lián)網(wǎng)+”的基礎(chǔ)和前提,也是實(shí)現(xiàn)我國“海洋強(qiáng)國”戰(zhàn)略的重要支撐與保障。隨著我國“空天地海潛”一體化立體監(jiān)測(cè)技術(shù)的發(fā)展和數(shù)字海洋建設(shè)的全面深入,海洋信息化已經(jīng)逐步從數(shù)字海洋向智慧海洋發(fā)展,海洋數(shù)據(jù)在數(shù)量、增長速度、種類擴(kuò)展3個(gè)方面都有了飛躍式的進(jìn)展,海洋數(shù)據(jù)蘊(yùn)含的價(jià)值也越來越高。
同時(shí),海洋大數(shù)據(jù)還面臨著一些挑戰(zhàn):海洋相關(guān)數(shù)據(jù)體量巨大、類型多樣、數(shù)據(jù)利用率較低、處理算法過于簡單、遠(yuǎn)海海域數(shù)據(jù)獲取不足等問題,難以滿足海洋信息服務(wù)的需求。迫切需要發(fā)展海洋大數(shù)據(jù)及其應(yīng)用技術(shù),充分挖掘海洋數(shù)據(jù)價(jià)值,全面提升資源保護(hù)與開發(fā)、環(huán)境預(yù)警與預(yù)報(bào)、應(yīng)急與救助、安全管控等領(lǐng)域的智能化、精細(xì)化能力,為實(shí)現(xiàn)“海洋強(qiáng)國”“一帶一路”國家戰(zhàn)略提供信息技術(shù)支撐。
本文針對(duì)海洋大數(shù)據(jù)技術(shù)現(xiàn)狀,圍繞國家海洋發(fā)展戰(zhàn)略在海洋安全建設(shè)、智慧海洋建設(shè)等方面的關(guān)鍵技術(shù)研究與工程應(yīng)用,介紹了海洋大數(shù)據(jù)研究的關(guān)鍵技術(shù)及海洋大數(shù)據(jù)在災(zāi)害天氣下輔助決策方面的初步應(yīng)用。
海洋大數(shù)據(jù)應(yīng)用技術(shù)平臺(tái)基于云計(jì)算架構(gòu),搭建包括數(shù)據(jù)匯集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理的大數(shù)據(jù)業(yè)務(wù)處理系統(tǒng)以及運(yùn)維管控、安全保障、標(biāo)準(zhǔn)規(guī)范3個(gè)支撐體系,如圖1所示。
2.1 海洋多源信息感知探測(cè)技術(shù)
構(gòu)建覆蓋空、天、海、岸、潛的一體化數(shù)據(jù)采集信息網(wǎng)絡(luò),獲取來自天基信息系統(tǒng)(衛(wèi)星)、無人機(jī)信息系統(tǒng)、岸基雷達(dá)和觀測(cè)站、船載探測(cè)平臺(tái)、浮標(biāo)、水下觀測(cè)信息系統(tǒng)(水下滑翔機(jī)、水下潛器和海底觀測(cè)網(wǎng)等)多源觀測(cè)信息,實(shí)現(xiàn)海洋的全天時(shí)、全天候環(huán)境與目標(biāo)觀測(cè),通過海上綜合通信傳輸網(wǎng)絡(luò),對(duì)感知網(wǎng)絡(luò)進(jìn)行集成連接,形成一體化綜合信息網(wǎng)絡(luò),獲取衛(wèi)星遙感影像數(shù)據(jù)、航空影像遙感數(shù)據(jù)、沿海臺(tái)站觀測(cè)數(shù)據(jù)、岸基雷達(dá)觀測(cè)數(shù)據(jù)、海洋浮標(biāo)觀測(cè)數(shù)據(jù)、調(diào)查船走航斷面的觀測(cè)數(shù)據(jù)、海底潛標(biāo)平臺(tái)數(shù)據(jù)等海洋觀測(cè)/監(jiān)測(cè)數(shù)據(jù)以及漁業(yè)經(jīng)濟(jì)數(shù)據(jù)、漁業(yè)捕撈數(shù)據(jù)、漁業(yè)管理數(shù)據(jù)、海洋旅游數(shù)據(jù)、航運(yùn)交通數(shù)據(jù)、海上貿(mào)易數(shù)據(jù)、全球海關(guān)數(shù)據(jù)等海洋行業(yè)數(shù)據(jù),達(dá)到對(duì)海域安全態(tài)勢(shì)、環(huán)境信息、海域資源、目標(biāo)活動(dòng)的全面掌控。
2.2 海洋大數(shù)據(jù)處理平臺(tái)技術(shù)
海洋大數(shù)據(jù)平臺(tái)基于云計(jì)算架構(gòu),解決海量數(shù)據(jù)的分布式存儲(chǔ)、管理和分析等大數(shù)據(jù)業(yè)務(wù),改變海洋信息資源使用的無序狀態(tài)。突破海量數(shù)據(jù)存儲(chǔ)及高效管理,重點(diǎn)解決各類涉海信息自成體系、數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)量和采樣頻率差異大等問題,構(gòu)建統(tǒng)一數(shù)據(jù)提取接口,制定信息技術(shù)標(biāo)準(zhǔn)和數(shù)據(jù)轉(zhuǎn)換規(guī)范,建立多源大數(shù)據(jù)存儲(chǔ)及管理系統(tǒng)。數(shù)據(jù)庫采用分布式非結(jié)構(gòu)化數(shù)據(jù)庫——HBase,數(shù)據(jù)統(tǒng)一采用基于Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)進(jìn)行存儲(chǔ)。針對(duì)海量數(shù)據(jù)的分布式存儲(chǔ)及離線快速分析處理,采用包括實(shí)時(shí)性處理能力強(qiáng)的Spark計(jì)算框架以及適用于超大規(guī)模作業(yè)離線處理的基于map/reduce并行編程模型的Hadoop計(jì)算框架,對(duì)海量涉海數(shù)據(jù)進(jìn)行批量自動(dòng)轉(zhuǎn)換,最終實(shí)現(xiàn)海洋數(shù)據(jù)從存儲(chǔ)、管理到數(shù)據(jù)清洗、融合、挖掘、顯示的大數(shù)據(jù)平臺(tái)構(gòu)建[1]。
圖1 海洋大數(shù)據(jù)應(yīng)用技術(shù)平臺(tái)架構(gòu)
2.3 海洋多維重建與可視技術(shù)
海洋環(huán)境要素多維重建與可視計(jì)算是在基于地球球體模型的三維可視化基礎(chǔ)平臺(tái)上,對(duì)海底、水體、海面和海岸的各種海洋自然要素以及海洋自然現(xiàn)象進(jìn)行可視化表達(dá)、再現(xiàn)或預(yù)現(xiàn)。綜合運(yùn)用增強(qiáng)現(xiàn)實(shí)等技術(shù)實(shí)現(xiàn)海洋要素、自然要素、海上設(shè)施、目標(biāo)要素等的三維可視化表達(dá)。將計(jì)算機(jī)生成的海面及海岸等虛擬圖形疊加在用戶看到的一個(gè)現(xiàn)實(shí)海岸及海面場(chǎng)景上,從而代替虛擬現(xiàn)實(shí)中完全由計(jì)算機(jī)虛擬生成的世界。海洋要素?cái)?shù)據(jù)可視化通過海洋數(shù)值模擬,實(shí)現(xiàn)對(duì)海水溫度、鹽度、海表面高度異常、海流、密度、聲、光、電、磁等參數(shù)的三維動(dòng)態(tài)再現(xiàn)。海洋自然要素通常采用場(chǎng)模型來表達(dá),實(shí)現(xiàn)對(duì)泥沙沉積、礦產(chǎn)等海底地質(zhì)、地形地貌、礦產(chǎn)資源、海底電纜管道和毗鄰區(qū)、專屬經(jīng)濟(jì)區(qū)及大陸架區(qū)域的大陸坡線、海槽等自然要素的可視化表達(dá)。目標(biāo)要素包括出現(xiàn)在水面及水下的船舶、無人潛航器、蛙人等目標(biāo)。將不同參數(shù)的海洋狀態(tài)數(shù)據(jù)疊加展示在二維、三維海洋地理信息系統(tǒng)(geographic information system,GIS)平臺(tái)之上,實(shí)現(xiàn)對(duì)海洋基礎(chǔ)數(shù)據(jù)、海洋目標(biāo)數(shù)據(jù)、海洋環(huán)境數(shù)據(jù)以及衍生數(shù)據(jù)(海洋同化數(shù)據(jù)、海洋遙感反演數(shù)據(jù)、數(shù)值分析輸出數(shù)據(jù)等)的管理、集成、分析以及可視化表達(dá)等功能,為研究海洋系統(tǒng)的結(jié)構(gòu)與功能、揭示并認(rèn)識(shí)海洋現(xiàn)象的各種規(guī)律等活動(dòng)提供通用、易用、規(guī)范的工具。
2.4 海洋大數(shù)據(jù)關(guān)聯(lián)與挖掘技術(shù)
針對(duì)海上分布式多源異構(gòu)性傳感器間目標(biāo)關(guān)聯(lián)問題,利用多特征融合的目標(biāo)關(guān)聯(lián)方法,通過分析雷達(dá)、船舶自動(dòng)識(shí)別系統(tǒng)(automatic identification system,AIS)、廣播式自動(dòng)相關(guān)監(jiān)視(automatic dependent surveillance-broadcast,ADS-B)系統(tǒng)、電磁、光電等多傳感器之間觀測(cè)上提取的共有特征,計(jì)算目標(biāo)間通過特征信息融合成的關(guān)聯(lián)測(cè)度,形成關(guān)聯(lián)判決依據(jù),并在關(guān)聯(lián)決策上采用基于有效特征數(shù)累積的全局最優(yōu)關(guān)聯(lián)算法,對(duì)直接的關(guān)聯(lián)依據(jù)決策判決進(jìn)行修正,提供海洋情報(bào)的關(guān)聯(lián)挖掘和輔助決策[2]。通過采集海洋氣象、海浪、洋流、海洋資源、海洋災(zāi)害等海洋環(huán)境信息以及AIS、ADS-B、雷達(dá)、光電等手段感知目標(biāo)信息,再結(jié)合航運(yùn)交通信息、海上貿(mào)易信息、地理信息、市場(chǎng)信息等,采用序列建模、聚類等無監(jiān)督方法以及決策樹(decision tree)、隨機(jī)森林(random forest)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、貝葉斯等有監(jiān)督方法的機(jī)器學(xué)習(xí)預(yù)測(cè)分析,得到相關(guān)關(guān)系與基本規(guī)律,預(yù)測(cè)未來的變化趨勢(shì)[3],為海洋資源利用、航運(yùn)、漁業(yè)、旅游等各項(xiàng)海洋活動(dòng)提供信息服務(wù)支撐。
利用機(jī)器學(xué)習(xí)對(duì)海洋關(guān)聯(lián)事件進(jìn)行預(yù)測(cè)是海洋大數(shù)據(jù)應(yīng)用的一個(gè)重要方向。采用機(jī)器學(xué)習(xí)中的決策樹、Bagging、隨機(jī)森林等算法,對(duì)海上船舶在災(zāi)害天氣(臺(tái)風(fēng))情況下的行為進(jìn)行了預(yù)測(cè)。針對(duì)機(jī)器學(xué)習(xí)在多源異構(gòu)海洋大數(shù)據(jù)的預(yù)處理、特征工程、特征選擇、模型訓(xùn)練、模型評(píng)估等算法流程進(jìn)行了介紹。
3.1 災(zāi)害天氣下的船舶行為預(yù)測(cè)
海上船舶在災(zāi)害天氣下需要隨時(shí)掌握天氣變化情況,并在臺(tái)風(fēng)、海嘯等極端天氣來臨之前及時(shí)做出到就近港口避難等行為反饋。然而不同海域的船舶在何時(shí)做出何種避難行為往往受到船長的主觀因素影響較大。船舶在災(zāi)害天氣下的行為模式是否存在顯著特征,能否得到合理的預(yù)測(cè),該問題的解決對(duì)于災(zāi)害天氣下港口應(yīng)急調(diào)度與高效管理具有重要意義,可通過臺(tái)風(fēng)路徑的預(yù)測(cè)信息精確預(yù)測(cè)船舶的行為,從而減輕災(zāi)害天氣對(duì)航運(yùn)業(yè)的經(jīng)濟(jì)損失。近年來隨著大數(shù)據(jù)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)的強(qiáng)大學(xué)習(xí)和智能化應(yīng)用在各行各業(yè)逐漸火熱和成熟。機(jī)器學(xué)習(xí)主要研究計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能,目前已經(jīng)成為多源異構(gòu)大數(shù)據(jù)挖掘和處理的重要科學(xué)工具。
本文通過船舶行為與異常天氣的回放來構(gòu)建極端天氣條件與船舶密度變化的算法預(yù)測(cè)模型,根據(jù)對(duì)大量樣本的學(xué)習(xí)、預(yù)報(bào)和檢驗(yàn),得到災(zāi)害天氣情況下的船舶行為預(yù)測(cè),為海上防災(zāi)預(yù)警、港口泊位管理與指揮調(diào)度等應(yīng)用提供信息支撐。
3.2 多源數(shù)據(jù)采集
本文主要采用中國氣象局臺(tái)風(fēng)最佳路徑數(shù)據(jù)集[4]、美國國家環(huán)境預(yù)報(bào)中心(National Centers For Environmental Prediction,NCEP)全球數(shù)值環(huán)境再分析場(chǎng)[5]和全球船舶自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)來進(jìn)行分析訓(xùn)練研究。臺(tái)風(fēng)路徑數(shù)據(jù)由中國氣象局熱帶氣旋資料中心提供,該中心網(wǎng)站提供了1949年以來西北太平洋海域熱帶氣旋每6 h的最佳路徑數(shù)據(jù)集①http://tcdata. typhoon.gov.cn。該數(shù)據(jù)集參數(shù)主要包括臺(tái)風(fēng)路徑經(jīng)緯度坐標(biāo)、時(shí)間、強(qiáng)度等級(jí)等。同時(shí),還獲取了同步的三維NCEP再分析環(huán)境場(chǎng)數(shù)據(jù),該數(shù)據(jù)由美國國家海洋和大氣局(National Oceanic and Atmospheric Administration,NOAA)的國家環(huán)境預(yù)報(bào)中心②https://www. esrl.noaa.gov開發(fā)和提供。該中心每天定時(shí)發(fā)布前一天4次的同化再分析數(shù)據(jù),分別為00:00、06:00、12:00和18:00,數(shù)據(jù)空間分辨率是2.5°×2.5°經(jīng)緯網(wǎng)格,垂直方向26層(從地面到10 hPa)。該資料集分為大氣等壓面資料、地面(海表)資料、通量資料等。本文主要使用地面(海表)資料作為輔助分析。AIS資料[6]主要來自船舶上配備的船舶自動(dòng)識(shí)別系統(tǒng),通過連接船上全球定位系統(tǒng)(global positioning system,GPS)定位儀、測(cè)深儀、電羅經(jīng)等設(shè)備,能夠自動(dòng)采集并發(fā)射船舶實(shí)時(shí)的靜態(tài)信息和動(dòng)態(tài)信息(船舶身份、船舶位置、吃水、航速、船舶艏向、船舶類型、船舶長度、寬度等),實(shí)時(shí)反映船舶航行狀態(tài)和海上交通態(tài)勢(shì)。本文采用AIS船舶靜態(tài)信息和動(dòng)態(tài)信息進(jìn)行分析,全球AIS一年的數(shù)據(jù)量約為300多億條。此外,由于船舶空間分布密度和距沿岸各港口的距離存在一定關(guān)系,所以這里還引入了全球16 831個(gè)船舶??奎c(diǎn)的坐標(biāo)信息。該數(shù)據(jù)主要包含了港口的地理坐標(biāo)、名稱、所屬國家等信息。
3.3 數(shù)據(jù)分析和處理方法
3.3.1 多源異構(gòu)數(shù)據(jù)預(yù)處理
預(yù)處理主要針對(duì)需要預(yù)測(cè)的船舶分布密度進(jìn)行各種數(shù)據(jù)的匹配、插值處理、質(zhì)量控制等步驟。這里采用的數(shù)據(jù)特征呈現(xiàn)多源異構(gòu)性,包括從1~3維的不同領(lǐng)域和特征信息的數(shù)據(jù)。需要針對(duì)計(jì)算船舶分布密度問題進(jìn)行多源異構(gòu)數(shù)據(jù)的預(yù)處理。最終獲得一套時(shí)空匹配的多源異構(gòu)融合數(shù)據(jù)集,為后面的訓(xùn)練和預(yù)測(cè)研究奠定基礎(chǔ)。這里的船舶密度利用AIS數(shù)據(jù)進(jìn)行網(wǎng)格化處理,然后針對(duì)每個(gè)網(wǎng)格的數(shù)據(jù)進(jìn)行求和統(tǒng)計(jì)。
臺(tái)風(fēng)最佳路徑數(shù)據(jù)采用文本格式保存,是混合數(shù)值和字符型信息保存的一維數(shù)組。首先從臺(tái)風(fēng)最佳路徑數(shù)據(jù)選取過境南海海域的時(shí)段,針對(duì)這些臺(tái)風(fēng)時(shí)段的數(shù)據(jù),采用線性插值方法將6 h一次的定位數(shù)據(jù)插值到1 h的時(shí)間分辨率。由于地理網(wǎng)格化的船舶密度可能和臺(tái)風(fēng)中心距離密切相關(guān),所以這里還要利用地球坐標(biāo)最近距離算法求解每個(gè)網(wǎng)格中心點(diǎn)和臺(tái)風(fēng)中心的絕對(duì)距離。NCEP再分析資料是采用氣象上標(biāo)準(zhǔn)的網(wǎng)絡(luò)通用數(shù)據(jù)格式(network common data form,NetCDF)存儲(chǔ)的三維資料。由于時(shí)間分辨率不高,這里采用時(shí)間權(quán)重方法進(jìn)行插值處理,計(jì)算式如下:
這里P1~Pn表示需要獲得的第1~n個(gè)參數(shù)(主要包括氣壓、氣溫等),w1和w2表示每個(gè)時(shí)刻的再分析資料的時(shí)間權(quán)重,P和P表示前后兩個(gè)時(shí)間對(duì)應(yīng)的參數(shù)。最后,將經(jīng)過時(shí)間插值的三維數(shù)據(jù)插值到0.5°×0.5°(50 km)水平分辨率進(jìn)行匹配。經(jīng)過特征分析結(jié)果表明,災(zāi)害天氣下的氣溫、相對(duì)濕度等參數(shù)的變化特征不太明顯,與船舶行為的關(guān)聯(lián)性不大,而風(fēng)場(chǎng)、氣壓和降水在災(zāi)害天氣下有顯著的變化響應(yīng),可以作為災(zāi)害天氣(臺(tái)風(fēng))的表征參數(shù)。另外,從本算例可以看出,能夠影響船舶航行行為的特殊天氣情況主要為臺(tái)風(fēng)、風(fēng)暴潮(海嘯)等極端天氣情況。一般的天氣情況對(duì)船舶航行行為影響不顯著。在開展氣象環(huán)境對(duì)船舶行為影響分析時(shí),可以重點(diǎn)以臺(tái)風(fēng)、風(fēng)暴潮等災(zāi)害天氣情況為主要數(shù)據(jù)源,以風(fēng)場(chǎng)、氣壓、降雨等數(shù)據(jù)為輔助數(shù)據(jù)進(jìn)行分析。通過相關(guān)性分析進(jìn)行變量篩選(過程圖片太多,考慮篇幅在此省去),選取與臺(tái)風(fēng)最佳路徑最相關(guān)的氣象數(shù)據(jù)(風(fēng)場(chǎng)、氣壓、降雨),刪除與臺(tái)風(fēng)路徑相關(guān)性較小的氣象數(shù)據(jù)(氣溫、濕度)。由于以逗號(hào)分隔值(comma separated value,CSV)格式存儲(chǔ)的AIS數(shù)據(jù)受到信息傳輸、錯(cuò)誤解碼等因素的影響,無法避免地會(huì)存在錯(cuò)誤信息,因此需要對(duì)AIS數(shù)據(jù)進(jìn)行清洗和插值補(bǔ)充,從而提高AIS數(shù)據(jù)的可用性和可靠性。這里選取106°~115°E,10.5°~20.5°N范圍,按照小時(shí)分辨率對(duì)AIS全年數(shù)據(jù)進(jìn)行0.5°×0.5°網(wǎng)格上的分布密度計(jì)算,得到需要特征庫數(shù)據(jù)集。最后,基于AIS網(wǎng)格數(shù)據(jù),對(duì)全球船舶??奎c(diǎn)進(jìn)行研究區(qū)域內(nèi)的快速自動(dòng)篩選,確定118個(gè)??奎c(diǎn)及相對(duì)每個(gè)船舶密度空間網(wǎng)格的距離因子。
在參數(shù)選擇過程中,根據(jù)一般經(jīng)驗(yàn)、特征重要性排序和模型預(yù)測(cè)的誤差結(jié)果反饋對(duì)特征參數(shù)做了篩選(刪除特征重要性較低的參數(shù))。最終選擇的特征參數(shù)包括:網(wǎng)格距最近港口距離(distance)、每天時(shí)刻(ta,取00:00~23:00的整點(diǎn))、網(wǎng)格距臺(tái)風(fēng)中心距離(typhoon_distance)、臺(tái)風(fēng)中心經(jīng)度(typhoon_lon)、臺(tái)風(fēng)中心緯度(typhoon_lat)、臺(tái)風(fēng)年齡(ddt)、NCEP海面降雨場(chǎng)(rain)、NCEP海面風(fēng)場(chǎng)(wind)、NCEP海面氣壓場(chǎng)(pressure)、網(wǎng)格船舶密度(density),共10個(gè)參數(shù)。
● 網(wǎng)格距最近港口距離(distance):由于交通流(AIS)與感興趣點(diǎn)(point of interest,POI)有關(guān),其中感興趣點(diǎn)是指對(duì)交通流有明顯影響的地點(diǎn),選取港口作為POI。
● 每天時(shí)刻(ta):白天和晚上船舶的行為活動(dòng)存在差異,因此加入該特征。
● 網(wǎng)格距臺(tái)風(fēng)中心距離(typhoon_ distance):由于缺乏臺(tái)風(fēng)作用距離參數(shù),因此用臺(tái)風(fēng)中心距網(wǎng)格距離來代替。
● 臺(tái)風(fēng)中心經(jīng)度(typhoon_lon)、臺(tái)風(fēng)中心緯度(typhoon_lat):臺(tái)風(fēng)位置影響船舶行為。
● 臺(tái)風(fēng)年齡(ddt):臺(tái)風(fēng)生成到消亡存在時(shí)間周期,船舶行為與臺(tái)風(fēng)生成后的時(shí)間有關(guān)。
● NCEP海面降雨場(chǎng)(rain)、NCEP海面風(fēng)場(chǎng)(wind)、NCEP海面氣壓場(chǎng)(pressure):通過相關(guān)性分析選取與臺(tái)風(fēng)相關(guān)的氣象參數(shù)降雨、風(fēng)場(chǎng)、氣壓場(chǎng)。由于臺(tái)風(fēng)路徑信息僅包含臺(tái)風(fēng)位置和強(qiáng)度信息,缺乏空間變化,因此在此加入了氣象場(chǎng)數(shù)據(jù)。
● 網(wǎng)格船舶密度(density):模型的預(yù)測(cè)因子。
其中模型輸出為船舶密度,其余9個(gè)與氣象、時(shí)間、POI相關(guān)的變量為模型輸入。從特征庫資料隨機(jī)選取其中80%的數(shù)據(jù)作為訓(xùn)練集,其余20%的數(shù)據(jù)作為測(cè)試集。
3.3.2 機(jī)器學(xué)習(xí)訓(xùn)練模型選擇
針對(duì)需要預(yù)測(cè)的問題,選擇了3種主要的機(jī)器學(xué)習(xí)模型來訓(xùn)練前面預(yù)處理的多源異構(gòu)數(shù)據(jù)集。模型包括決策樹、Bagging和隨機(jī)森林方法。除了以上3種模型外,還可以選擇神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(support vector machine,SVM)、XGBoost等回歸模型,本文暫不做詳細(xì)探索。
決策樹模型是一種樹型結(jié)構(gòu)(可以是二叉樹或非二叉樹),基于特征對(duì)實(shí)例進(jìn)行分類或回歸的過程。其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的判定,每個(gè)分支代表這個(gè)特征屬性在其值域上的輸出,而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別。使用決策樹進(jìn)行決策的過程就是從根節(jié)點(diǎn)開始,測(cè)試待分類項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果。
Bagging是bootstrap aggregation的簡稱,它是一種有放回的抽樣方法。Bagging方法是多模型融合方法,它主要是為了解決單一分類器容易產(chǎn)生過擬合的問題。Bagging通過重復(fù)取樣,相同訓(xùn)練的數(shù)據(jù)多了之后,能夠減少結(jié)果的方差,可以理解為綜合多個(gè)弱分類器的結(jié)果得到一個(gè)強(qiáng)分類器。
隨機(jī)森林[7]是通過構(gòu)建多個(gè)弱分類器,使得最終分類效果能夠超過單個(gè)分類器的一種融合算法。隨機(jī)森林可理解為由很多決策樹組成的森林。隨機(jī)意味著每棵樹之間沒有任何聯(lián)系,都是獨(dú)立的。它也是按照Bagging的方法重復(fù)取樣,抽取的數(shù)量和樣本總量相等。但是在訓(xùn)練樹的時(shí)候并不是把所有特征都用上。假設(shè)總共有M個(gè)特征。每次訓(xùn)練一棵樹的時(shí)候,隨機(jī)抽取其中的m(m< 分類與預(yù)測(cè)模型對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè)得到的準(zhǔn)確率并不能很好地反映預(yù)測(cè)模型未來的預(yù)測(cè)性能,為了能夠有效地判斷一個(gè)預(yù)測(cè)模型的性能表現(xiàn),需要一組沒有參與預(yù)測(cè)模型建立的數(shù)據(jù)集(測(cè)試集),并在該數(shù)據(jù)集上評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確率。將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集,然后通過訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,通過測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試。模型預(yù)測(cè)效果的評(píng)估方法采用均方誤差(MSE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、正則均方誤差(NMSE)等。 3.4 結(jié)果分析 3.4.1 模型訓(xùn)練 圖2 決策樹、Bagging、隨機(jī)森林模型訓(xùn)練結(jié)果 圖2顯示了采用決策樹、Bagging、隨機(jī)森林模型對(duì)特征庫樣本的訓(xùn)練結(jié)果,橫坐標(biāo)為訓(xùn)練集的船舶密度(可理解為真值),縱坐標(biāo)為模型預(yù)測(cè)的船舶密度(預(yù)測(cè)值)。可以看出隨機(jī)森林模型的預(yù)測(cè)值與真值幾乎為一條直線,模擬結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于決策樹和Bagging方法。說明隨機(jī)森林模型能夠很好地預(yù)測(cè)臺(tái)風(fēng)天氣下船舶的密度變化。 3.4.2 誤差分析 采用均方誤差、均方根誤差、平均絕對(duì)誤差、正則均方誤差4項(xiàng)指標(biāo)進(jìn)行模型的誤差分析。模型訓(xùn)練集誤差(見表2)顯示,隨機(jī)森林模型的誤差遠(yuǎn)遠(yuǎn)優(yōu)于決策樹和Bagging法的誤差。 表1 訓(xùn)練集誤差分析 表2 測(cè)試集誤差分析 表3 隨機(jī)森林模型特征重要性排序 表3和圖3顯示了隨機(jī)森林模型的特征重要性降序排序結(jié)果。隨機(jī)森林對(duì)連續(xù)變量設(shè)置了兩種重要性,一種是平均均方誤差減少百分比(%IncMSE),另一種是平均節(jié)點(diǎn)不純度下降量(IncNodePurity)。變量重要性排名第1位的是臺(tái)風(fēng)年齡(臺(tái)風(fēng)生成后的時(shí)間);排名第2位的是每天的時(shí)刻,說明白天或夜晚船舶的行為響應(yīng)不同;排名第3位的是網(wǎng)格距最近港口距離;排名第4位的是臺(tái)風(fēng)中心緯度;排名第5位的是臺(tái)風(fēng)中心經(jīng)度;排名第6位的是氣壓場(chǎng);排名第7位的是距臺(tái)風(fēng)中心距離。風(fēng)場(chǎng)和降雨場(chǎng)的影響較小,其原因可能是,臺(tái)風(fēng)登陸帶來大風(fēng)強(qiáng)降雨之前,船舶已經(jīng)進(jìn)入避風(fēng)港,并將持續(xù)停留,直到大氣和降雨天氣好轉(zhuǎn)。另外,兩種特征重要性定義不同導(dǎo)致其排序的結(jié)果也不同③http://www. paper.edu.cn/ releasepaper/ content/201507-212。這是由于預(yù)測(cè)變量船舶密度是空間變化的,而某些特征因素是純時(shí)間(如臺(tái)風(fēng)年齡),因此雖然在%IncMSE重要性上影響很大(加噪聲后的誤差),但由于缺乏空間分布信息,它們?cè)贗ncNodePurity的重要性排序并不高。 以上結(jié)果說明,在臺(tái)風(fēng)等災(zāi)害天氣下,船舶行為受到天氣作用的影響十分顯著。 由于影響船舶航行的水文氣象因素還有海浪、海冰、海流、海霧等[8],未來可以考慮在特征數(shù)據(jù)庫中加入海浪、海霧等海洋環(huán)境數(shù)據(jù),進(jìn)一步提高模型預(yù)測(cè)精度。另外,由于在臺(tái)風(fēng)作用半徑以外,對(duì)船舶行為影響較小,因此,應(yīng)當(dāng)加入臺(tái)風(fēng)作用半徑的參數(shù)來修正各網(wǎng)格點(diǎn)距離臺(tái)風(fēng)中心距離的參數(shù)。最后,還應(yīng)當(dāng)考慮加入K層交叉驗(yàn)證(K-fold cross-validation),將K個(gè)模型在K個(gè)測(cè)試集上的準(zhǔn)確率(NMSE/RMSE)的平均值作為模型的綜合性能評(píng)價(jià)指標(biāo),從而減少由于抽樣不均勻?qū)е碌挠?xùn)練集和測(cè)試集的誤差變化。 本文介紹了海洋大數(shù)據(jù)的特點(diǎn)與發(fā)展現(xiàn)狀,分析了海洋大數(shù)據(jù)行業(yè)的數(shù)據(jù)來源與特點(diǎn),介紹了海洋大數(shù)據(jù)的關(guān)鍵技術(shù),并使用機(jī)器學(xué)習(xí)中的決策樹、Bagging、隨機(jī)森林模型開展了海上船舶密度分布預(yù)測(cè)的大數(shù)據(jù)應(yīng)用案例研究。目前,海洋大數(shù)據(jù)仍然面臨著諸多挑戰(zhàn),海洋數(shù)據(jù)在不同行業(yè)間難以共享,數(shù)據(jù)缺乏標(biāo)準(zhǔn)化統(tǒng)一管理等。然而,隨著技術(shù)的發(fā)展,對(duì)海洋的認(rèn)知和大數(shù)據(jù)技術(shù)的深入結(jié)合,海上信息服務(wù)應(yīng)用與智能化管理必然將得到逐步提高。 圖3 隨機(jī)森林模型特征重要性排序 [1] 孫朝隨, 劉青, 胡桐, 等. 海洋大數(shù)據(jù)處理軟件體系結(jié)構(gòu)設(shè)計(jì)[J]. 中國海洋大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 45(2): 134-137. SUN C S, LIU Q, HU T, et al. Software architecture for oceanographic big data processing[J]. Periodical of Ocean University of China, 2016, 45(2): 134-137. [2] 黃昌. 海洋氣象導(dǎo)航服務(wù)信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 上海: 華東師范大學(xué), 2010. HUANG C. Designing and developing marine meteorological service operational system[D]. Shanghai: East China Normal University, 2010. [3] KüHNLEIN M, APPELHANS T, THIES B, et al. Precipitation estimates from MSG SEVIRI daytime, nighttime, and twilight data with random forests[J]. Journal of Applied Meteorology & Climatology, 2014, 53(11): 2457-2480. [4] YING M, ZHANG W, YU H, et al. An overview of the China meteorological administration tropical cyclone database[J]. Journal of Atmospheric & Oceanic Technology, 2014, 31(2): 287-301. [5] KALNAY E, KANAMITSU M, KISTLER R, et al. The NCEP/NCAR 40-year reanalysis project[J]. Bulletin of the American Meteorological Society, 1996, 77(3): 437-471. [6] 肖瀟, 邵哲平, 潘家財(cái), 等. 基于AIS信息的船舶軌跡聚類模型及應(yīng)用[J]. 中國航海, 2015, 38(2): 82-86. XIAO X, SHAO Z P, PAN J C, et al. Ship trajectory clustering model based on AISdata and its application[J]. Navigation of China, 2015, 38(2): 82-86. [7] BREIMAN L. Random forest[J]. Machine Learning, 2001, 45: 5-32. [8] 王輝, 劉娜, 逄仁波, 等. 全球海洋預(yù)報(bào)與科學(xué)大數(shù)據(jù)[J]. 科學(xué)通報(bào), 2015, 60(5): 479-484. WANG H, LIU N, PANG R B, et al. Global ocean forecasting and scientific big data[J]. Chinese Science Bulletin, 2015, 60(5): 479-484. Ocean big data and applications in ship behavior prediction under disaster weather WANG Donghai, LU Feng, FANG Xiaorong, GUO Gang With the explosive growth of marine data, the ocean big data have more attention and concern recently. The current status and key technologies of ocean big data here were summarized and analyzed. A specific case about the application of machine learning in the prediction model of ocean big data was also focused, which was a forecasting test of maritime ships behavior based on regression training in disaster weather (typhoon). The sample data for validating and evaluating three machine learning algorithms of decision tree, Bagging and random forest were trained and tested. The final results prove the best and robust effect of the random forest algorithm in the prediction of ship density under the disaster weather. TP181 A 10.11959/j.issn.2096-0271.2017044 王冬海(1968-),男,中電科海洋信息技術(shù)研究院有限公司研究員,中國電子科技集團(tuán)公司首席專家,長期從事信息系統(tǒng)總體、系統(tǒng)仿真、信息安全等前沿技術(shù)研究工作,對(duì)信息系統(tǒng)仿真和軟件工程有深入研究,在軟件配置管理方面有豐富的實(shí)踐經(jīng)驗(yàn)。 盧峰(1972-),男,中電科海洋信息技術(shù)研究院有限公司高級(jí)工程師,長期從事信息系統(tǒng)總體、信息處理技術(shù)等方向的研究工作,曾在微軟和聯(lián)想公司長期從事國內(nèi)外大型系統(tǒng)總體設(shè)計(jì),熟悉大數(shù)據(jù)挖掘技術(shù),在軟件計(jì)算和服務(wù)平臺(tái)方面有豐富的實(shí)踐經(jīng)驗(yàn)?,F(xiàn)負(fù)責(zé)海洋大數(shù)據(jù)平臺(tái)架構(gòu)搭建及海洋信息處理技術(shù)研發(fā)。 方曉蓉(1990-),女,中電科海洋信息技術(shù)研究院有限公司助理工程師,主要研究方向?yàn)楹Q蟠髷?shù)據(jù)、海洋觀測(cè)數(shù)據(jù)分析、海洋模型數(shù)值模擬。 郭剛(1983-),男,中電科海洋信息技術(shù)研究院有限公司工程師,主要研究方向?yàn)榇髷?shù)據(jù)分析、信息安全。 2017-03-21 海洋大數(shù)據(jù);機(jī)器學(xué)習(xí);船舶行為預(yù)測(cè)4 結(jié)束語
CETC Ocean Information Co., Ltd., Beijing 100041, China