鄒國良,韓金菊,屠正飛,葉建成,陳小琴(.上海海洋大學 信息學院,上海 0306;.三江學院 土木工程學院,江蘇 南京 0000)
?
基于BP神經(jīng)網(wǎng)絡(luò)的海洋監(jiān)測數(shù)據(jù)等級劃分
鄒國良1,韓金菊1,屠正飛1,葉建成1,陳小琴2
(1.上海海洋大學信息學院,上海201306;2.三江學院土木工程學院,江蘇南京210000)
摘要:數(shù)據(jù)的分類是數(shù)據(jù)處理和應(yīng)用的重要環(huán)節(jié)和前提。在海洋領(lǐng)域中,海洋數(shù)據(jù)呈現(xiàn)多元、多類等的復雜多樣性,給數(shù)據(jù)的分類帶來一定的技術(shù)挑戰(zhàn)。主要針對海洋數(shù)據(jù)分類難這一問題,首先利用BP神經(jīng)網(wǎng)絡(luò)技術(shù)對海洋環(huán)境監(jiān)測數(shù)據(jù)進行分類,且通過對獲取的海洋環(huán)境監(jiān)測數(shù)據(jù)進行分類預測,最后,實驗驗證了海洋環(huán)境監(jiān)測數(shù)據(jù)分類方法的正確性和可行性,給海洋監(jiān)測數(shù)據(jù)根據(jù)秘密等級進行數(shù)據(jù)分類提供了支持。
關(guān)鍵詞:數(shù)據(jù)分類;BP神經(jīng)網(wǎng)絡(luò);海洋監(jiān)測數(shù)據(jù);隱含層單元個數(shù)
2001年,著名的高德納咨詢公司(Gartner)在一份研究報告中指出,數(shù)據(jù)的爆炸性是“三維的”、是立體的,這三個維度,主要表現(xiàn)在以下三個方面:一是同一類型的數(shù)據(jù)量在快速增大;二是數(shù)據(jù)增長的速度在加快;三是數(shù)據(jù)的多樣性,即新的數(shù)據(jù)來源和新的數(shù)據(jù)種類在不斷增加。如何收集、保存、維護、管理、分析、共享正在呈指數(shù)級增長的數(shù)據(jù)是必須面對的一個重要挑戰(zhàn)。(徐子沛,2013)
近年來,由于海洋監(jiān)測數(shù)據(jù)獲取手段多樣化,包括衛(wèi)星遙感、航空、氣象氣球、臺站、浮標、船舶、以及水下傳感器等多種方式;各個涉海相關(guān)職能部門累積的海洋數(shù)據(jù)類型復雜,主要包括了海洋水文、環(huán)境質(zhì)量、地質(zhì)、氣象、經(jīng)濟、化學及生物等各種各樣的資料;數(shù)據(jù)多尺度、數(shù)據(jù)量大,涉及空間范圍極廣,既有全球范圍的海洋觀測數(shù)據(jù),也有小范圍的定點觀測數(shù)據(jù),同時具有時間跨度大的特點,有即時海洋觀測數(shù)據(jù),也有幾十年長序列的海洋氣象數(shù)據(jù),并且交叉了海洋科學相關(guān)多個學科,累積數(shù)據(jù)總量已遠遠超過PB級,尤其是我國的重點海域,其累積數(shù)據(jù)量往往占數(shù)據(jù)總量的絕大部分,海洋監(jiān)測數(shù)據(jù)已呈現(xiàn)爆炸性增長的趨勢;隨著遙感、浮標、臺站等各類觀測手段的應(yīng)用,海洋數(shù)據(jù)的動態(tài)更新變得日益簡單和頻繁。
由于海洋監(jiān)測數(shù)據(jù)的獲取手段多樣、數(shù)據(jù)類型復雜、數(shù)據(jù)頻繁變動和數(shù)據(jù)量爆炸性增長,在實際應(yīng)用中,常常要對采集到的海洋監(jiān)測數(shù)據(jù)進行相應(yīng)的劃分處理,而這種劃分處理的方法需要簡單易行且準確率高,BP神經(jīng)網(wǎng)絡(luò)中的網(wǎng)絡(luò)工具箱中包含了設(shè)計神經(jīng)網(wǎng)絡(luò)模型所需要的各類函數(shù)及算法,包括初始化函數(shù)、訓練函數(shù)、仿真函數(shù)等等。這樣一來,設(shè)計者在進行BP神經(jīng)網(wǎng)絡(luò)模型的設(shè)計時,只需要調(diào)用神經(jīng)網(wǎng)絡(luò)工具箱中的相關(guān)函數(shù)和程序,即可建立所需的網(wǎng)絡(luò)模型,在面對大范圍變動的數(shù)據(jù)時,節(jié)省了程序的設(shè)計與調(diào)試時間,提高了實驗設(shè)計的效率,更具有可靠性。通過BP神經(jīng)網(wǎng)絡(luò)把數(shù)據(jù)劃分成不同的安全等級,進而采取不同的安全措施。
目前對海洋信息的處理有了一定的發(fā)展,魏永星等(2014)提出了對實測海洋環(huán)境噪聲數(shù)據(jù)進行數(shù)據(jù)處理,為更廣泛的海洋環(huán)境噪聲數(shù)據(jù)的分析和應(yīng)用奠定了基礎(chǔ);周鵬等(2011)提出了海洋環(huán)境放射性監(jiān)測數(shù)據(jù)科學判斷模式,為海洋環(huán)境放射性監(jiān)測的數(shù)據(jù)處理提供借鑒;王曉民(2008)在分析“數(shù)字海洋”信息需求的基礎(chǔ)上,提出了數(shù)據(jù)處理與信息服務(wù)模型;Narayanan等(2014)提出了一種新的數(shù)據(jù)分類方法用于電力公司的安全框架,將數(shù)據(jù)分類應(yīng)用到企業(yè)數(shù)據(jù)中。
利用BP神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行分類也有了一定的研究基礎(chǔ),通過描述并分析BP算法,利用實際案例證明BP網(wǎng)絡(luò)在數(shù)據(jù)分類領(lǐng)域具有實際應(yīng)用價值(莫禮平等,2006);利用BP神經(jīng)網(wǎng)絡(luò)化對探數(shù)據(jù)分類(陰江寧等,2010);將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用在高維數(shù)據(jù)分類中(曹云忠等,2007)。但是對海洋監(jiān)測數(shù)據(jù)利用BP神經(jīng)網(wǎng)絡(luò)進行秘密級的劃分方面的研究開展的比較晚,研究報道相對比較少,本文在閱讀大量文獻的基礎(chǔ)上,利用BP神經(jīng)網(wǎng)絡(luò)工具箱將海洋監(jiān)測數(shù)據(jù)劃分為不同的秘密等級,實現(xiàn)了數(shù)據(jù)秘密等級分類。
本文實現(xiàn)了對海洋監(jiān)測數(shù)據(jù)進行秘密級分類,分類的過程具有簡單、易行、實用等特點。
1.1BP神經(jīng)網(wǎng)絡(luò)的原理
BP神經(jīng)網(wǎng)絡(luò)(Back Propagation)是一種按誤差逆向傳播算法訓練的多層前饋網(wǎng)絡(luò),分為輸入層、隱含層和輸出層,層與層之間采用全互連方式,層內(nèi)神經(jīng)元之間無連接,其模型結(jié)構(gòu)如圖1。
圖1 BP網(wǎng)絡(luò)結(jié)構(gòu)
BP算法通過迭代地處理一組訓練樣本,將樣本的網(wǎng)絡(luò)預測與實際已知類標號比較來進行學習。對于各樣本反向修改其權(quán)值,使得網(wǎng)絡(luò)預測與實際類之間的誤差平方最小。BP算法按照最優(yōu)訓練準則反復迭代,確定并不斷調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過迭代修改,當權(quán)值收斂時,學習過程終止(李穗豐等,2006;蔡自興等,1996)。
1.2行隱含層單元數(shù)的確定方法
以下3種途徑可用于選擇最佳隱含層單元數(shù)時的參考公式(飛思科技產(chǎn)品研發(fā)中心,2005,沈花玉等,2008)。
(3)n1= log2n,其中,n1為隱含層單元數(shù),n為輸入單元數(shù)。
在實際問題中,通常的選擇是每種方法分別驗證其最佳隱含層單元數(shù),然后確定網(wǎng)絡(luò)最終的最佳隱含層單元數(shù)。
2.1海洋數(shù)據(jù)的來源
本文的數(shù)據(jù)采集有一部分是來自于網(wǎng)絡(luò)資源數(shù)據(jù)(http://www.ndbc.noaa.gov/;樊妙等,2013),有一部分是來自于我院對我國某重點海域環(huán)境監(jiān)測數(shù)據(jù)的收集。這些數(shù)據(jù)中包含大比例尺、長周期、遠岸和近岸數(shù)據(jù),這些數(shù)據(jù)必定是有一定海洋研究價值,是符合本文數(shù)據(jù)秘密等級分類的要求。
在指標的選取時,所選取的這些指標是海洋環(huán)境監(jiān)測的基礎(chǔ)要素指標,這些指標參量數(shù)據(jù)中包含有本文收集的大比例尺、長周期、近岸、遠岸數(shù)據(jù),是符合本文價值等級分類實驗要求的數(shù)據(jù),其中有1/5的數(shù)據(jù)是大比例尺、長周期、近岸數(shù)據(jù);1/5的數(shù)據(jù)是長周期,大比例尺數(shù)據(jù);1/5的數(shù)據(jù)是長周期,近岸數(shù)據(jù);1/5的數(shù)據(jù)是長周期,遠岸數(shù)據(jù);1/5的數(shù)據(jù)是遠岸數(shù)據(jù)。實驗環(huán)境是MATLAB神經(jīng)網(wǎng)絡(luò)工具箱。實驗數(shù)據(jù)如表1。收集海洋監(jiān)測數(shù)據(jù)的工具為各類浮標、水位觀測網(wǎng)絡(luò)和石油平臺,圖2、圖3為海洋環(huán)境監(jiān)測數(shù)據(jù)浮標,圖4為海洋環(huán)境監(jiān)測數(shù)據(jù)分布圖。MATLAB神經(jīng)網(wǎng)絡(luò)工具箱提供了一系列相關(guān)建立BP網(wǎng)絡(luò)模型的函數(shù),只需掌握這些函數(shù)的調(diào)用,即可建立所需的網(wǎng)絡(luò)模型,從而可以提高研究效率(劉松青,2003)。
表1 部分歸一化后的訓練數(shù)據(jù)
圖2 海洋環(huán)境監(jiān)測浮標
圖2中浮標為海洋環(huán)境監(jiān)測浮標,其主要參數(shù)如下:
浮標類型:近岸監(jiān)測浮標
浮標自重:57 kg
毛排水量:622 kg
整體毛重:307 kg
最大浮力:320 kg
浮力/重量比:2.96:1
浮標尺寸:1.83 m直徑,1.13 m高
支架高度:1.52 m
浮標整體高度(不含頂端加裝設(shè)備的高度):2.58 m
最大整體高度(含典型的天線及燈標):不超過4.5 m
圖3 海洋環(huán)境監(jiān)測浮標
圖4 數(shù)據(jù)分布圖
2.2數(shù)據(jù)分類依據(jù)
海洋資料涉及國家機密,屬于保密范圍。為使海洋資料既利于保密又便于使用,結(jié)合幾年來海洋工作的具體情況,國家海洋局對主要海洋資料的密級劃分作如下規(guī)定(http://sdinfo.coi.gov.cn/hyfg/ hyfgdb/fg151.htm):
(1)絕密:我國實測的重力資料及其整編成果;實測的我軍艦艇水下噪聲資料等。
(2)機密:各種海洋調(diào)查計劃;我國實測的磁場資料及其整編成果等。
(3)秘密:海洋站的潮位資料和潮汐調(diào)和常數(shù);位于軍港的海洋站觀測資料等。
(4)內(nèi)部:非位于軍港的海洋站觀測資料(除潮位);各種未經(jīng)公開的船舶測報資料等。
(5)公開資料:純理論性的科研成果;一般的海洋儀器技術(shù)資料等。
2.3實驗基本流程
本文利用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱,對海洋監(jiān)測數(shù)據(jù)進行秘密等級劃分,首先將海洋監(jiān)測數(shù)據(jù)劃分成訓練和校驗兩個樣本集,然后利用訓練樣本集將神經(jīng)網(wǎng)絡(luò)訓練達到誤差可接受的范圍,最后用校驗數(shù)據(jù)進行校驗,數(shù)據(jù)分類流程如圖5所示:
圖5 數(shù)據(jù)分類流程
2.4隱含層數(shù)的確定
通過1.2所述,隱含層單元數(shù)的確定需要樣本數(shù),輸入單元數(shù),輸出單元數(shù)。本實驗利用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱,對數(shù)據(jù)的秘密等級進行劃分。將流速、流向、波高、氣壓、氣溫、水溫、緯度、經(jīng)度、可訪問人數(shù)這9個元素作為輸入,將絕密、機密、秘密、公開4個指標作為輸出,輸出結(jié)果的方法依次表示為0001,0010,0100,1000,見表2。選取500個樣本數(shù)據(jù)進行實驗,其中有300個數(shù)據(jù)作為訓練數(shù)據(jù),有75個數(shù)據(jù)作為校驗數(shù)據(jù),有125個數(shù)據(jù)作為測試數(shù)據(jù),通過1.2所述的3種方法,分別計算隱含層的單元數(shù)。
(3)n1= log2n,n = 9,計算n1= 4。
通過方法(1)、(2)、(3)中計算的隱含層單元數(shù),選擇隱含層單元數(shù)分別為4,5,6,7,8,9,10,11,12,13,14時,利用BP神經(jīng)網(wǎng)絡(luò)工具箱訓練數(shù)據(jù),觀看數(shù)據(jù)訓練后的混肴函數(shù),如圖6-9所示。當隱含層數(shù)為6時,訓練數(shù)據(jù)的混淆函數(shù)已經(jīng)達到很好的收斂,由于篇幅原因,此處不再贅述插入當隱含層數(shù)為8-14時的混淆函數(shù)。
表2 價值等級輸出表示
圖7 隱含層數(shù)為5
圖9 隱含層數(shù)為7
圖10 隱含層數(shù)為6時的準確率
圖6-圖9分別代表隱含層數(shù)為4-7時,BP網(wǎng)絡(luò)訓練數(shù)據(jù)的具體情況,以圖6為例加以說明:圖6中共包含4個圖,其中分別為訓練混淆矩陣、驗證混淆矩陣、測試混淆矩陣和總混淆矩陣。
訓練混淆矩陣是對網(wǎng)絡(luò)訓練數(shù)據(jù)情況的具體反映,由訓練混淆矩陣圖可以看出矩陣的橫坐標代表目標類,矩陣縱坐標代表輸出類,根據(jù)輸出指標得到訓練混淆矩陣橫縱坐標分別表示為1、2、3、4四類,實驗的訓練數(shù)據(jù)為300條,圖6的訓練混淆矩陣中有88條1類數(shù)據(jù)被訓練成1類數(shù)據(jù),有0 條1類數(shù)據(jù)被訓練成2類數(shù)據(jù),有6條1類數(shù)據(jù)被訓練成3類數(shù)據(jù),有0條1類數(shù)據(jù)被訓練成4類數(shù)據(jù)。2類、3類、4類數(shù)據(jù)訓練情況以此類推。
驗證混淆矩陣是對訓練完成的網(wǎng)絡(luò)進行驗證情況的具體反映,由驗證混淆矩陣圖可知驗證數(shù)據(jù)為75條,其中有23條1類數(shù)據(jù)被判斷為1類數(shù)據(jù),0條1類數(shù)據(jù)被判斷成2類數(shù)據(jù),0條1類數(shù)據(jù)被判斷成3類數(shù)據(jù),0條1類數(shù)據(jù)被判斷成4類數(shù)據(jù)。2類、3類、4類數(shù)據(jù)驗證情況以此類推。
測試混淆矩陣是對訓練完成的網(wǎng)絡(luò)進行測試情況的具體反映,由測試混淆矩陣圖可知測試數(shù)據(jù)為125條,其中有35條1類數(shù)據(jù)被判斷為1類數(shù)據(jù),0條1類數(shù)據(jù)被判斷成2類數(shù)據(jù),4條1類數(shù)據(jù)被判斷成3類數(shù)據(jù),0條1類數(shù)據(jù)被判斷成4類數(shù)據(jù)。2類、3類、4類數(shù)據(jù)測試情況以此類推。
總混淆矩陣反映了總體數(shù)據(jù)分類的情況,與上述混淆矩陣類似,此處不再贅述。
圖10這張準確率的圖可以看出,訓練數(shù)據(jù)、校驗數(shù)據(jù)、測試數(shù)據(jù)的錯誤率大部分都在0.000891,少部分在0.00135,極少部分在0.00359 和0.003131。
2.5等級劃分仿真實驗
由2.4節(jié)可知,本實驗確定的隱含層數(shù)為6,當隱含層數(shù)為6時,網(wǎng)絡(luò)訓練速度快,所需迭代次數(shù)少,誤差小,收斂性好,因此本文采用了的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示,表3為測試數(shù)據(jù)的輸出,可以看出使用訓練好的密級分類模型所得到的評估結(jié)果是符合期望的。
利用訓練好的BP數(shù)據(jù)分類模型進行預測評估,結(jié)果顯示出利用BP數(shù)據(jù)分類網(wǎng)絡(luò)模型對浮標系統(tǒng)中存儲的數(shù)據(jù)的秘密等級進行預測評估是可行的,只要有足夠準確可靠的樣本數(shù)據(jù)供網(wǎng)絡(luò)進行學習訓練,就可以對海量海洋數(shù)據(jù)的秘密等級進行分類,這對于海量海洋數(shù)據(jù)的分類保存具有十分重要的意義。
圖11 網(wǎng)絡(luò)結(jié)構(gòu)圖
表3 測試數(shù)據(jù)輸出
本文在總結(jié)了計算BP神經(jīng)網(wǎng)絡(luò)隱含層單元個數(shù)方法的基礎(chǔ)上,利用BP神經(jīng)網(wǎng)絡(luò)工具箱,構(gòu)建出最符合數(shù)據(jù)秘密級分類的網(wǎng)絡(luò)結(jié)構(gòu),在莫禮平等(2006)給出的數(shù)據(jù)分類思想的基礎(chǔ)上,將BP神經(jīng)網(wǎng)絡(luò)延伸到海洋領(lǐng)域,使用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱比莫禮平等(2006)所使用的方法簡單易行,且可大幅度降低海洋監(jiān)測數(shù)據(jù)學習時間,500多個點的輸入只需學習幾次,且收斂性也很好。同時,本文考慮到了BP神經(jīng)網(wǎng)絡(luò)隱含層單元數(shù)個數(shù)的選取,這是莫禮平等(2006)所沒有考慮到的。本文所使用的方法可以很好的處理海洋監(jiān)測數(shù)據(jù),正確的劃分了海洋數(shù)據(jù)的秘密等級,具有現(xiàn)實的應(yīng)用價值。
另外,本文采用了實際的應(yīng)用案例,克服了周鵬等(2011),王曉民等(2008)單純使用判斷模式的缺點,得到的結(jié)果更加真實可信。
隨著海洋事業(yè)的發(fā)展,海洋監(jiān)測數(shù)據(jù)的爆炸性增長問題已經(jīng)是一個不可回避的問題,本文利用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱對海洋監(jiān)測數(shù)據(jù)進行秘密等級劃分。通過實際的應(yīng)用案例,利用BP神經(jīng)網(wǎng)絡(luò)可以達到很好的精度和較高的學習效率,收斂速度快。
參考文獻
http://sdinfo.coi.gov.cn/hyfg/hyfgdb/fg151.htm.
蔡自興,徐光佑,1996.人工智能及其應(yīng)用(第二版).北京:清華大學出版社.
曹云忠,王超,2007.多神經(jīng)網(wǎng)絡(luò)在高維數(shù)據(jù)分類中的應(yīng)用研究.計算機應(yīng)用與軟件,24(7):146-148.
樊妙,章任群,金繼業(yè),2013.美國海洋測繪數(shù)據(jù)的共享和管理及對我國的啟示.海洋通報,32(3):246-249.
飛思科技產(chǎn)品研發(fā)中心,2005.神經(jīng)網(wǎng)絡(luò)理論與MATLAB7實現(xiàn).
李穗豐,陳燕清,2006. BP神經(jīng)網(wǎng)絡(luò)及其在數(shù)據(jù)分類中的應(yīng)用.電腦與電信,(9):13-15.
劉松青,2003. MATLAB神經(jīng)網(wǎng)絡(luò)BP網(wǎng)絡(luò)研究與應(yīng)用.計算機工程與設(shè)計,24(11):81-83.
莫禮平,樊曉平,2006. BP神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘分類中的應(yīng)用.吉首大學學報(自然科學版),27(1):59-62.
沈花玉,王兆霞,高成耀,等,2008. BP神經(jīng)網(wǎng)絡(luò)隱含層單元數(shù)的確定.天津理工大學學報,24(5):14-15.
王曉民,張新,池天河,2008.“數(shù)字海洋”的數(shù)據(jù)處理與應(yīng)用模式研究.計算機應(yīng)用,28:358-363.
魏永星,于金花,常哲,等,2014.海洋環(huán)境噪聲數(shù)據(jù)處理及時空特性研究.電子設(shè)計工程,22(14):28-30.
徐子沛,2013.大數(shù)據(jù),廣西師范大學出版社.
陰江寧,肖克炎,李楠,等,2010. BP神經(jīng)網(wǎng)絡(luò)在化探數(shù)據(jù)分類中的應(yīng)用.地質(zhì)通報,29(10):1564-1571.
周鵬,李冬梅,蔣躍進,等,2011.海洋環(huán)境放射性監(jiān)測的數(shù)據(jù)處理中存在的問題.海洋通報,30(5):544-550.
(本文編輯:岳心陽)
Marine monitoring data hierarchy based on the Back Propogation neural network
ZOU Guo-liang1,HAN Jin-ju1,TU Zheng-fei1,YE Jian-cheng1,CHEN Xiao-qin2
(1. Shanghai Ocean University,College of Information,Shanghai 201306,China;2. San Jiang University,College of Architecture and Construction,Nanjing 210000,China)
Abstract:Data classification is the key step of marine data processing. In the ocean field,the multiple and multiclass diversity of marine data brings technical challenges to the data classification. This paper mainly focuses on solving this problem. First,BP neural network technology is used to classify the marine environmental monitoring data. Then we bring out a prediction from the classification of obtained marine environmental monitoring data. At last,the experiment verifies the validity and feasibility of the method of marine environmental monitoring data classification,which has laid a foundation for the marine monitoring data classification based on secret levels.
Keywords:data classification;BP neural network;marine monitoring data;hidden layer unit number
中圖分類號:P736.22
文獻標識碼:A
文章編號:1001-6932(2016)02-0187-07
Doi:10.11840/j.issn.1001-6392.2016.02.009
收稿日期:2014-12-21;
修訂日期:2015-06-05
基金項目:上海市科委重點支撐項目(12510502000);華東師范大學河口海岸學國家重點實驗室開發(fā)基金(2008DFB90240)。
作者簡介:鄒國良(1961-),男,博士,教授,主要從事信息安全、信號系統(tǒng)研究。電子郵箱:glzou@shou.edu.cn。
通訊作者:韓金菊,碩士,研究生。電子郵箱:994825467@qq.com。