亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        船舶行為異常檢測(cè)研究進(jìn)展*

        2020-03-01 06:53:12陳影玉楊神化索永峰
        交通信息與安全 2020年5期
        關(guān)鍵詞:船舶檢測(cè)方法

        陳影玉 楊神化 索永峰

        (集美大學(xué)航海學(xué)院 福建 廈門 361021)

        0 引 言

        異常檢測(cè)可以及時(shí)發(fā)現(xiàn)軌跡中偏離正常航道航行的船舶,及時(shí)采取措施,有效避免交通事故的發(fā)生。當(dāng)前異常檢測(cè)根據(jù)對(duì)象的不同,主要可分為:異常行為檢測(cè)、網(wǎng)絡(luò)流量異常檢測(cè),以及異常軌跡檢測(cè)等。異常行為檢測(cè)是利用交通監(jiān)控視頻或圖像,再通過計(jì)算機(jī)視覺進(jìn)行特征提取、行為學(xué)習(xí),以及行為建模來檢測(cè)交通異常。網(wǎng)絡(luò)流量異常檢測(cè)[1]是對(duì)數(shù)據(jù)源利用網(wǎng)絡(luò)流量傳感器進(jìn)行數(shù)據(jù)自動(dòng)化采集,再建立網(wǎng)絡(luò)流量異常檢測(cè)模型進(jìn)行異常檢測(cè)的研究。異常軌跡檢測(cè)主要是對(duì)物聯(lián)網(wǎng)采集設(shè)備捕獲并發(fā)送回來的自動(dòng)識(shí)別系統(tǒng)(automatic identification system,AIS)信息,船舶的航行信息進(jìn)行分析,判斷該船的活動(dòng)是否正常,進(jìn)而對(duì)船舶自身安全,或者是是否存在非法活動(dòng)進(jìn)行識(shí)別,并對(duì)可能發(fā)生的危險(xiǎn)進(jìn)行評(píng)估和預(yù)警。船舶的有效軌跡特征可以預(yù)示船舶的大致行為,主要是對(duì)船舶軌跡的異常挖掘,船舶的異常行為進(jìn)行研究。

        國(guó)內(nèi)外有關(guān)船舶行為異常的研究集中在2個(gè)方面:①基于船舶軌跡點(diǎn);②船舶軌跡。船舶航行軌跡是船舶行為的直觀體現(xiàn),更能反映船舶運(yùn)動(dòng)特征。因此,本文主要是基于船舶軌跡對(duì)其行為展開研究的。結(jié)合船舶運(yùn)動(dòng)情況對(duì)船舶異常行為分類,對(duì)用于檢測(cè)船舶行為的各類方法作簡(jiǎn)要概述,并針對(duì)每種方法分析其效果及優(yōu)缺點(diǎn),最后對(duì)船舶行為異常檢測(cè)可能的發(fā)展方向進(jìn)行展望。

        1 船舶異常行為分類

        通過分析AIS信息,可以提取出大量的海上交通特征,結(jié)合數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù),對(duì)船舶的軌跡進(jìn)行研究和分析,提取出船舶的運(yùn)動(dòng)特征。那些不符合普遍運(yùn)動(dòng)特征規(guī)律的船舶即可大致認(rèn)為是有異常的。對(duì)船舶異常行為的分析可分別從數(shù)據(jù)采集和獲取、數(shù)據(jù)的發(fā)送和接收,以及對(duì)這些數(shù)據(jù)的挖掘分析等進(jìn)行研究。

        數(shù)據(jù)采集作為異常檢測(cè)的第一步,它在很大程度上決定著后續(xù)步驟能否成功。如果數(shù)據(jù)不足或不準(zhǔn)確,就會(huì)影響其他過程,進(jìn)而影響異常檢測(cè)的有效性。通過調(diào)研,總結(jié)出AIS異常的4種情形。

        1)AIS傳感器接收GPS信號(hào)過程中產(chǎn)生的數(shù)據(jù)錯(cuò)誤。

        2)AIS信號(hào)傳輸過程中產(chǎn)生的數(shù)據(jù)錯(cuò)誤,這會(huì)導(dǎo)致位置坐標(biāo)與前后軌跡位置點(diǎn)的邏輯關(guān)系明顯不符,AIS設(shè)備可以自動(dòng)過濾掉CRC校驗(yàn)有偏差的信息,因此,這種由于AIS信息傳輸產(chǎn)生的錯(cuò)誤不需修復(fù)。

        3)AIS設(shè)備自身原因產(chǎn)生的數(shù)據(jù)錯(cuò)誤,這會(huì)使得接收到該船舶的所有AIS位置數(shù)據(jù)均不在正常的AIS通信范圍內(nèi)。

        4)AIS網(wǎng)絡(luò)通信擁堵導(dǎo)致AIS信號(hào)發(fā)射延遲。

        以上4類AIS異常情況中,有的是不需要修復(fù)就可以通過AIS設(shè)備自動(dòng)過濾掉的,從而不會(huì)對(duì)軌跡研究產(chǎn)生影響的,如第2條。有時(shí)AIS設(shè)備故障或人為設(shè)置,導(dǎo)致接收到的信息不正確,雖然它會(huì)影響AIS數(shù)據(jù)的有效使用,但是該類的異常情況是無法修復(fù)的,如第3條。對(duì)于第1條可以通過判斷船舶軌跡上點(diǎn)的邏輯關(guān)聯(lián)進(jìn)行辨認(rèn)和修復(fù)。對(duì)于第4條的情況,可根據(jù)信息更新頻率、船舶速率,以及軌跡點(diǎn)之間的間隔三者間的聯(lián)系加以檢測(cè),并利用數(shù)學(xué)插值法進(jìn)行修復(fù)[2]。

        在海上交通的異常檢測(cè)問題中,出現(xiàn)了2種主要類型的方法:①側(cè)重于定義異常行為;②側(cè)重于建模正常行為。在前一種情況下,通?;趯<抑R(shí)來定義異常行為,然后將其用作定義異常識(shí)別和檢測(cè)規(guī)則的基礎(chǔ)。在后一種情況下,正常行為以模型的形式捕獲,與模型的偏差被認(rèn)為是不正常的。J.G.Lee等[3]給出數(shù)據(jù)挖掘領(lǐng)域異常行為檢測(cè)的定義是“異常行為檢測(cè)方法是對(duì)正常行為進(jìn)行建模,然后檢測(cè)觀察數(shù)據(jù)與正常數(shù)據(jù)建模的差異”。從異常行為的定義看出,為了識(shí)別出異常行為,必須首先明確正常行為和異常行為之間的界限。

        船舶異常行為與其經(jīng)過航跡、速度,以及所處位置有關(guān),航跡與該類型船舶正常運(yùn)行特征不一致,或船舶在某一時(shí)間內(nèi)處于不合適的位置,船舶處于稀疏區(qū)域,船舶航向航速等與近鄰軌跡不相符[4]等,都視為異常。船舶異常行為包括運(yùn)動(dòng)異常和位置異常。將船舶異常行為具體劃分為以下14類,見圖1。

        圖1 船舶異常行為分類Fig.1 Classification of abnormal behavior of ships

        上述的分類只考慮單個(gè)船舶的異常情形,沒有考慮到多個(gè)相互作用的船舶之間的異常行為。由于各種原因,船舶航跡可能離群外出,船舶可能駛向不規(guī)則的地方,提前或延遲時(shí)間表轉(zhuǎn)向目的地,并轉(zhuǎn)向大多數(shù)船舶跟隨的主航線的左側(cè)或右側(cè)。異常也可能是由于船舶的推進(jìn)裝置或航向保持裝置故障而失控的船舶意外情況的結(jié)果[5]。船舶異常行為其實(shí)是指與周圍其他運(yùn)動(dòng)船舶對(duì)象有差別的運(yùn)動(dòng)行為。異常檢測(cè)過程需要對(duì)數(shù)據(jù)的屬性性質(zhì)和數(shù)據(jù)之間的關(guān)系敏感,分析可能引發(fā)船舶行為異常的根本原因,主要是環(huán)境的不確定、船員操作的不確定性,以及多船之間的相互作用等造成的。

        2 船舶行為異常檢測(cè)方法

        如何從船舶軌跡數(shù)據(jù)中檢測(cè)異常的船舶軌跡點(diǎn)或異常行為,是船舶軌跡異常檢測(cè)的核心問題。不同的研究者對(duì)異常檢測(cè)方式有不同的分類規(guī)范,基于異常檢測(cè)所使用方法的本質(zhì)原理進(jìn)行分類。目前為止,主要使用的異常檢測(cè)方法可大體分為:基于統(tǒng)計(jì)分析、基于預(yù)測(cè)、基于機(jī)器學(xué)習(xí),以及其他方法,見圖2。

        圖2 異常檢測(cè)方法Fig.2 abnormal detection method

        2.1 基于統(tǒng)計(jì)分析的方法

        異常檢測(cè)最早使用的是統(tǒng)計(jì)學(xué)方法,統(tǒng)計(jì)學(xué)方法通常是用特定的數(shù)據(jù)集擬合正常行為的統(tǒng)計(jì)模型,獲取船舶航行軌跡的概率進(jìn)行異常檢測(cè)及行為預(yù)測(cè)。通常情況下,該隨機(jī)模型的高概率區(qū)域中分布著正常數(shù)據(jù),異常點(diǎn)分布在低概率區(qū)域。統(tǒng)計(jì)分析方法包括參數(shù)化方法和非參數(shù)化方法。采用參數(shù)化方法,若數(shù)據(jù)對(duì)應(yīng)于具體統(tǒng)計(jì)模型,則可快速無監(jiān)督的檢測(cè)異常,但此方法需要對(duì)參數(shù)優(yōu)化狀況進(jìn)行估計(jì)。而使用非參數(shù)化方法不用對(duì)數(shù)據(jù)底層分布做出任何假設(shè)。

        2.1.1 參數(shù)化方法

        在該方法中,一般的數(shù)據(jù)是通過參數(shù)和數(shù)據(jù)實(shí)例的異常值來創(chuàng)建的。參數(shù)化方法還可以分為基于回歸模型、基于高斯模型和混合模型。在基于回歸的模型中,先將數(shù)據(jù)設(shè)置到回歸模型,再測(cè)量模型中沒有突出顯示的每個(gè)數(shù)據(jù)的殘差,最后獲取數(shù)據(jù)實(shí)例的異常得分。

        在海事領(lǐng)域大多數(shù)統(tǒng)計(jì)模型是建立在單個(gè)船舶的瞬時(shí)運(yùn)動(dòng)學(xué)特征(位置、航向、速度,以及加速度)的基礎(chǔ)上。R.Laxhammar[6]在假設(shè)無異常的情況下,對(duì)任意航跡建模,使用自適應(yīng)核密度估計(jì)器估計(jì)新檢測(cè)點(diǎn)的概率密度,與假警報(bào)相關(guān)的檢測(cè)參數(shù)比較,以確定新檢測(cè)點(diǎn)的異常情況。在經(jīng)典的航道中,最明顯的船舶異常行為發(fā)生于越過海路和靠近大海并朝相反的方向行駛的船只。

        G.Pallotta等[7]使用基于規(guī)則和低似然模型進(jìn)行異常檢測(cè)。利用交通路線提取與異常檢測(cè)獲取海上交通知識(shí),以檢測(cè)低可能性行為,并預(yù)測(cè)船只未來位置。這種方法需要海事領(lǐng)域?qū)<业闹R(shí),例如,港口地區(qū)預(yù)先設(shè)定的最大速度只能由了解該地區(qū)的專家準(zhǔn)確地估計(jì)出來。對(duì)于低似然檢測(cè),可采用威布爾模型和滑動(dòng)時(shí)間窗技術(shù),以避免不完整和分段軌跡問題。

        H.Rong等[8]表征船舶典型行為,計(jì)算船舶橫向分布的高斯函數(shù)值來檢測(cè)偏離航向的行為,如果該值低于閾值,則檢測(cè)到該船未遵循指定路線。定義路線橫向流量分布的95%概率區(qū)間為航線邊界。實(shí)驗(yàn)結(jié)果表明:當(dāng)船舶航跡偏離時(shí),概率急劇下降。

        2.1.2 非參數(shù)方法

        非參數(shù)方法使用普通的數(shù)據(jù)實(shí)例生成模型。假設(shè)模型不是演繹的,那么給定的數(shù)據(jù)與模型的偏差將被賦值為1個(gè)異常值。在基于直方圖的模型中,由bin組成的直方圖是對(duì)正常數(shù)據(jù)的估計(jì)產(chǎn)生的。為了確定該實(shí)例是否異常,可以繪制1張圖來檢查它是否落在任何1個(gè)bin中,如果它落在任何1個(gè)bin中,則認(rèn)為該實(shí)例是異常的。

        基于核的建模方式為所提供數(shù)據(jù)推導(dǎo)相似函數(shù),允許基于數(shù)據(jù)構(gòu)造模型。如果給定的數(shù)據(jù)不能完全描述特定的行為,那么就缺乏準(zhǔn)確性。同時(shí),基于核的建模也可用于識(shí)別異常序列。

        B.Ristic等[9]利用 AIS數(shù)據(jù),提取并統(tǒng)計(jì)分析港口和水道的運(yùn)動(dòng)模式,基于自適應(yīng)的核密度估計(jì)算法構(gòu)建一個(gè)簡(jiǎn)單快速的船舶異常檢測(cè)器,評(píng)估該探測(cè)器的誤報(bào)概率。在假設(shè)零異常的情況下,基于歷史數(shù)據(jù)利用高斯和跟蹤濾波器預(yù)測(cè)船舶運(yùn)動(dòng)。

        向琛[10]通過聚類算法探尋船舶正常運(yùn)動(dòng)模式,度量每條軌跡與聚類中心的距離,對(duì)屬于同一運(yùn)動(dòng)模式的船舶使用孤立森林算法檢測(cè)航行信息,對(duì)單項(xiàng)異常采用熵權(quán)法計(jì)算得出綜合異常檢測(cè)評(píng)分,最后輸出高于閾值的船舶異常評(píng)分。該方法結(jié)合了船舶間的相互影響與單因素異常,可檢測(cè)多種不同的船舶異常行為并分辨其種類。但當(dāng)運(yùn)動(dòng)異常的數(shù)據(jù)量大于正常數(shù)據(jù)的數(shù)據(jù)量時(shí)準(zhǔn)確率會(huì)大幅下降。

        2.1.3 小結(jié)

        統(tǒng)計(jì)分析方法建立在概率統(tǒng)計(jì)的基礎(chǔ)上,已廣泛應(yīng)用于各領(lǐng)域來檢測(cè)異常。使用該方法的前提是需要大量歷史數(shù)據(jù),假設(shè)這些數(shù)據(jù)符合某一類型分布,建立相應(yīng)模型獲取船舶航行軌跡概率分布,并對(duì)其進(jìn)行分析。它的突出優(yōu)勢(shì)是,在對(duì)數(shù)據(jù)分布的假設(shè)正確的情況下,它可以為異常檢測(cè)提供一個(gè)統(tǒng)計(jì)上合理的答案。與閾值相比,異常值為極值的情況下檢測(cè)最為有效。統(tǒng)計(jì)方法的選擇主要涉及計(jì)算代價(jià)、擬合精確度等情況。由于對(duì)模型要求不同,各模型對(duì)不同數(shù)據(jù)異常的擬合效果不一,可結(jié)合特定應(yīng)用場(chǎng)景選擇使用不同的統(tǒng)計(jì)模型檢測(cè)船舶行為,比如可采用高斯分布、泊松分布不斷評(píng)估船舶運(yùn)動(dòng)數(shù)據(jù)中的某個(gè)因素,通過實(shí)驗(yàn)分析特定統(tǒng)計(jì)變量的變動(dòng)情況和特定行為異常的對(duì)應(yīng)關(guān)系。若樣本中異常均勻分布,則統(tǒng)計(jì)方法無效。統(tǒng)計(jì)方法用于處理高維數(shù)據(jù)仍是挑戰(zhàn)。

        2.2 基于預(yù)測(cè)模型的方法

        基于預(yù)測(cè)模型的方法通常是預(yù)測(cè)未來的狀態(tài)信息(例如船舶的位置、速度和航向),通過相應(yīng)算法建立預(yù)測(cè)模型,預(yù)測(cè)船舶行為并比較實(shí)際值與預(yù)測(cè)值,從而判定是否異常。

        2.2.1 保形異常檢測(cè)

        保形異常檢測(cè)是保形預(yù)測(cè)器的應(yīng)用。保形異常檢測(cè)(conformal anomaly detector,CAD)的主要思想是基于指定的不合格測(cè)量(non conformity measure,NCM)來估計(jì)新數(shù)據(jù)的p-value。如果p-value低于預(yù)設(shè)的異常閾值,則將新數(shù)據(jù)歸類為異常。CAD的一個(gè)關(guān)鍵特性是,它提供了一種合理的方法來調(diào)整異常閾值,從而保證在相對(duì)較弱的統(tǒng)計(jì)假設(shè)下能夠很好地校準(zhǔn)警告率。除了異常閾值之外,CAD唯一需要設(shè)定的參數(shù)是NCM。

        R.Laxhammer等[11-12]采用Hausdorff距離度量軌跡相似性,通過保形預(yù)測(cè)產(chǎn)生預(yù)測(cè)集,若觀測(cè)數(shù)據(jù)不在預(yù)測(cè)集中,則判定為異常。針對(duì)正常軌跡模式學(xué)習(xí)算法進(jìn)行改進(jìn),提出并研究了序列Hausdorff最近鄰保形異常檢測(cè)用于在線學(xué)習(xí)和軌跡序列異常檢測(cè)。這是一種為異常閾值的校準(zhǔn)提供輕參數(shù)的算法。在無監(jiān)督在線學(xué)習(xí)和軌跡序列異常檢測(cè)過程中,通過調(diào)整最少的參數(shù)獲得了卓越的分類性能。

        I.Nouretdinov等[13]介紹一種多層級(jí)保形聚類方法(multi-level conformal clustering,MLCC),不用對(duì)數(shù)據(jù)分布做出任何假設(shè)的情況下,在聚類中借助保形預(yù)測(cè)會(huì)有一個(gè)清晰的統(tǒng)計(jì)結(jié)果。MLCC結(jié)合聚類和異常檢測(cè)能夠提供統(tǒng)計(jì)上的魯棒性,可同步執(zhí)行聚類和異常檢測(cè)。該方法的性能依賴于特征空間網(wǎng)格的大小,在聚類數(shù)據(jù)集中性能趨于指數(shù)型增長(zhǎng)。

        2.2.2 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

        長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊形式。記憶單元之間彼此循環(huán)連接,3個(gè)線性門控單元可以調(diào)節(jié)流入和流出記憶單元的信息。LSTM允許跨越任意時(shí)間滯后存儲(chǔ)信息,錯(cuò)誤信號(hào)將被及時(shí)帶回。但是如果表示連續(xù)的輸入流,單元狀態(tài)可能會(huì)無限增長(zhǎng),從而導(dǎo)致輸出飽和壓縮函數(shù)。

        雙向長(zhǎng)短時(shí)記憶(bidirectional long short-term memory,Bi-LSTM)網(wǎng)絡(luò)把從序列起點(diǎn)開始移動(dòng)的LSTM和從序列末尾開始移動(dòng)的LSTM結(jié)合,根據(jù)當(dāng)前點(diǎn)和其相鄰t時(shí)刻內(nèi)的軌跡信息,輸出分別由正反向LSTM狀態(tài)連接得到的單元。雙向LSTM可自動(dòng)學(xué)習(xí)正常點(diǎn)和異常點(diǎn)在序列運(yùn)動(dòng)特征上的差異,減少與數(shù)據(jù)時(shí)序性相關(guān)特征工程的任務(wù)量,支持異常檢測(cè)的有效決策。

        Zhao R.等[14]提出卷積雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)監(jiān)督機(jī)器的狀況。使用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征,LSTM是可以捕獲長(zhǎng)時(shí)間依賴和模型的序列數(shù)據(jù),雙向結(jié)構(gòu)可以捕獲過去和未來的背景信息。在雙向LSTM的基礎(chǔ)上建立堆疊的全連接層和線性回歸層,以預(yù)測(cè)目標(biāo)值,基于原始數(shù)據(jù)預(yù)測(cè)機(jī)器真正的磨損情況,并捕獲和發(fā)現(xiàn)有用的特征。

        韓昭蓉等[15]提出一種基于Bi-LSTM模型的軌跡異常點(diǎn)檢測(cè)算法,首先對(duì)每個(gè)軌跡點(diǎn)提取1個(gè)6維的運(yùn)動(dòng)特征向量,構(gòu)建Bi-LSTM模型,利用欠采樣和過采樣組合的方法,緩解種類不均衡對(duì)檢測(cè)性能的影響,并證明了Bi-LSTM模型可自動(dòng)學(xué)習(xí)正常點(diǎn)和相近異常點(diǎn)在運(yùn)動(dòng)特征上的不同。由于Bi-LSTM考慮了軌跡的歷史和未來信息,在離線處理時(shí)訓(xùn)練好模型,它就可以準(zhǔn)確快速地檢測(cè)異常點(diǎn),擴(kuò)展性強(qiáng)。

        2.2.3 小結(jié)

        基于預(yù)測(cè)的方法總結(jié)了保形異常檢測(cè)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)2類,多層級(jí)保形聚類可同步執(zhí)行聚類和異常檢測(cè),數(shù)據(jù)集為聚類的情形下,效果較好??傮w來說操作相對(duì)容易,可比較方便的獲取異常閾值用于檢測(cè)。保形預(yù)測(cè)變量出現(xiàn)差錯(cuò)的概率不超過預(yù)定的顯著性水平。在隨機(jī)性假設(shè)下,在線設(shè)置可以很好地校準(zhǔn)檢測(cè)到的異常率。不合格度量的選擇對(duì)于保形異常檢測(cè)器的分類性能至關(guān)重要。由于循環(huán)神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)層數(shù)增多,會(huì)產(chǎn)生梯度消失或爆炸問題,因此引入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。結(jié)合新輸入信息,不斷地對(duì)當(dāng)前信息進(jìn)行更新,通過這樣的機(jī)制利用當(dāng)前信息預(yù)測(cè)下一時(shí)刻的情形,不斷循環(huán),直到最后輸出結(jié)果。它可使信息持久存在,能夠處理長(zhǎng)期信息,解決長(zhǎng)期依賴問題。

        基于預(yù)測(cè)模型的方法是在對(duì)歷史狀況熟悉的情況下,建立預(yù)測(cè)模型,通過實(shí)際值與預(yù)測(cè)值的比較判定是否異常。比如通過提取船舶歷史運(yùn)動(dòng)數(shù)據(jù),預(yù)測(cè)未來船舶的運(yùn)動(dòng)情況。但這也同時(shí)是個(gè)限制,預(yù)測(cè)方法的選擇,歷史情況的獲取有一定影響,對(duì)歷史情況的掌握是否全面,是否準(zhǔn)確是不好評(píng)判的。

        2.3 基于機(jī)器學(xué)習(xí)的方法

        基于機(jī)器學(xué)習(xí)的方法旨在運(yùn)用機(jī)器學(xué)習(xí)技術(shù)來構(gòu)建船舶常態(tài)行為的模型,使用常態(tài)模型檢測(cè)異常船舶,如果船舶行為與學(xué)習(xí)得到的常態(tài)模型相差較大,則判定這些船舶的行為異常。

        基于機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘常用的方法有分類、最近鄰和聚類。

        2.3.1 分類

        基于分類方法的主要目標(biāo)是根據(jù)每個(gè)數(shù)據(jù)實(shí)例的特征將其分配到任意一個(gè)預(yù)置類中。

        常用的分類方法主要有:神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、基于規(guī)則、支持向量機(jī)等。

        1)神經(jīng)網(wǎng)絡(luò)?;谏窠?jīng)網(wǎng)絡(luò)的異常檢測(cè)算法通過建立神經(jīng)網(wǎng)絡(luò)模型,利用歷史數(shù)據(jù)訓(xùn)練模型,再將目標(biāo)數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行驗(yàn)證,從而判斷該數(shù)據(jù)是否異常。這種方法的主要缺點(diǎn)是過程十分模糊,并且輸入和輸出層通過隱含層相聯(lián)系,同時(shí),神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)過擬合現(xiàn)象。

        反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)基于經(jīng)驗(yàn)知識(shí),經(jīng)過訓(xùn)練學(xué)習(xí)某種規(guī)則,給定輸入值,可得到最接近期望輸出值的結(jié)果。俞慶英等[16]提出一種基于BP神經(jīng)網(wǎng)絡(luò)的異常軌跡檢測(cè)方法,將軌跡自身的基本屬性作為BP神經(jīng)網(wǎng)絡(luò)的輸入層,調(diào)整隱含層的權(quán)值和閾值得到軌跡異常判斷模型,利用訓(xùn)練好的模型,判定用戶軌跡是否異常,并獲得用戶的異常軌跡數(shù)據(jù)。該實(shí)驗(yàn)選用微軟研究院GeoLift項(xiàng)目的GPS Trajectories數(shù)據(jù)集,在2個(gè)用戶的軌跡數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),均取得了較高的異常軌跡識(shí)別準(zhǔn)確率。

        Yin C.等[17]提出了卷積神經(jīng)網(wǎng)絡(luò)和遞歸自動(dòng)編碼器相結(jié)合的異常檢測(cè)模型。通過第一階段滑動(dòng)窗口將含有異常點(diǎn)的原始時(shí)間序列擴(kuò)展為具有正?;虍惓?biāo)簽的固定長(zhǎng)度序列。再通過另一個(gè)較小的滑動(dòng)窗口將每個(gè)序列轉(zhuǎn)換成連續(xù)的時(shí)間相關(guān)子序列。兩階段滑動(dòng)窗口的預(yù)處理進(jìn)行特征提取,對(duì)全連通網(wǎng)絡(luò)進(jìn)行分類,提高異常檢測(cè)效果。

        2)貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)(bayesian network,BN)由一個(gè)有向無環(huán)圖和每個(gè)節(jié)點(diǎn)的概率組成,每個(gè)節(jié)點(diǎn)的概率稱為BN參數(shù),可通過結(jié)構(gòu)學(xué)習(xí)或參數(shù)學(xué)習(xí)獲得??紤]到異常只是在普通情況下極不可能發(fā)生的事件,貝葉斯網(wǎng)絡(luò)可以自然的表示推理結(jié)果,計(jì)算模型中某事件發(fā)生的概率,通過對(duì)概率進(jìn)行閾值檢驗(yàn)或聚合,檢測(cè)出異常情況。

        Ding N.等[18]提出一種基于分層時(shí)間記憶(hierarchical temporal memory,HTM)和貝葉斯網(wǎng)絡(luò)的實(shí)時(shí)異常檢測(cè)算法,在多變量時(shí)間序列(multivariate time series,MTS)中,使用HTM模型評(píng)估每個(gè)單變量時(shí)間序列的實(shí)時(shí)異常,基于樸素貝葉斯異常狀態(tài)監(jiān)測(cè)模型分析有效性。將HTM和BN結(jié)合可以在不降維的情況下有效實(shí)現(xiàn)MTS中的異常檢測(cè),該方法可應(yīng)用于復(fù)雜系統(tǒng)中MTS的異常檢測(cè)。在不同的應(yīng)用場(chǎng)景中,通過輸入相應(yīng)的MTS,設(shè)置時(shí)間序列根據(jù)不同的問題調(diào)整BN模型,可以應(yīng)用到其他系統(tǒng)。

        吳伋等[19]通過對(duì)船舶碰撞事故報(bào)告進(jìn)行文本挖掘,構(gòu)建基于“人-船-環(huán)境-管理”系統(tǒng)的船舶碰撞風(fēng)險(xiǎn)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中各節(jié)點(diǎn)的條件概率表,對(duì)船舶碰撞風(fēng)險(xiǎn)建模并進(jìn)行預(yù)測(cè),為船舶碰撞事故的防控提供數(shù)據(jù)支撐。

        M.Injadat等[20]利用貝葉斯優(yōu)化(bayesian optimization,BO)法,通過尋找目標(biāo)函數(shù)的全局最小值,設(shè)置具有高斯內(nèi)核的支持向量機(jī)、隨機(jī)森林、K最近鄰3種傳統(tǒng)分類器的參數(shù)提高異常檢測(cè)方法的性能,獲得1個(gè)高效、準(zhǔn)確率高和假陽性率低的異常檢測(cè)系統(tǒng)。

        3)基于規(guī)則?;谝?guī)則的分類是一種監(jiān)督學(xué)習(xí),可捕獲數(shù)據(jù)的常態(tài)行為。在基于規(guī)則的技術(shù)中,規(guī)則是基于數(shù)據(jù)生成的。根據(jù)數(shù)據(jù)中規(guī)則的頻率為每個(gè)規(guī)則賦予1個(gè)權(quán)重值,并使用一些閾值檢測(cè)異常數(shù)據(jù)。利用1組基于規(guī)則的決策樹技術(shù),通過訓(xùn)練數(shù)據(jù)實(shí)例對(duì)規(guī)則進(jìn)行研究。

        He Z.等[21]提出一種基于關(guān)聯(lián)規(guī)則的異常檢測(cè)技術(shù),通過發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式來檢測(cè)異常。在這種方法中,數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)都被視為事務(wù),包含較少頻率模式的事務(wù)被檢測(cè)為異常。該方法可以很好地處理精確的數(shù)據(jù),不適用于性質(zhì)模糊的數(shù)據(jù)。

        R.U.Islam等[22]提出一種基于規(guī)則的異常檢測(cè)技術(shù)來檢測(cè)傳感器數(shù)據(jù)中的異常。該規(guī)則具有處理各種不確定性的能力。相比于高斯、二元關(guān)聯(lián)規(guī)則和模糊關(guān)聯(lián)規(guī)則的異常檢測(cè)算法,該技術(shù)具有較高的性能和檢測(cè)精度。

        為了彌補(bǔ)基于回歸模型的異常檢測(cè)方法過度依賴預(yù)測(cè)結(jié)果的不足,Wang X.等[23]將自回歸綜合移動(dòng)平均模型和人工神經(jīng)網(wǎng)絡(luò)進(jìn)行級(jí)聯(lián),集成了支持向量機(jī)、K最近鄰,以及交叉熵?fù)p失函數(shù),建立獨(dú)立的檢測(cè)過程,分析數(shù)據(jù)的正確性。同時(shí),利用貝葉斯信息準(zhǔn)則有效地降低了過擬合或不擬合問題對(duì)實(shí)時(shí)預(yù)測(cè)的影響,提高了預(yù)測(cè)精度。

        4)支持向量機(jī)。支持向量機(jī)是一種監(jiān)督學(xué)習(xí)算法,它將訓(xùn)練數(shù)據(jù)編輯到多維平面,然后將數(shù)據(jù)劃分為2個(gè)不相交的組,支持向量機(jī)僅使用正常數(shù)據(jù)進(jìn)行訓(xùn)練,由于支持向量機(jī)使用邊界將數(shù)據(jù)劃分為正常和異常,它被視為線性分類器。

        F.Palmieri等[24]利用了基于小波相關(guān)的大量交通特征,允許在多個(gè)時(shí)間和頻率尺度上同時(shí)觀察信號(hào)的屬性,通過機(jī)器學(xué)習(xí)技術(shù)線性支持向量機(jī)(support vector machine,SVM)進(jìn)行分析和關(guān)聯(lián),從這些明顯不同但又經(jīng)常重復(fù)出現(xiàn)的流量中識(shí)別異常流量。

        Yang J.等[25]提出基于受限的玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)來檢測(cè)網(wǎng)絡(luò)流量。以無監(jiān)督的方式顯示示例,可以學(xué)習(xí)重建輸入,然后充當(dāng)輸入的特征檢測(cè)器,解決學(xué)習(xí)步驟中的特征提取問題。在這之后可以在監(jiān)督下進(jìn)一步訓(xùn)練模型進(jìn)行分類。該算法不僅保留了RBM強(qiáng)大的學(xué)習(xí)特性,而且具有期望的檢測(cè)率。

        M.S.Pozi等[26]提出基于支持向量機(jī)的分類器方法。通過1個(gè)新的后SVM優(yōu)化算法,提高針對(duì)罕見攻擊的入侵檢測(cè)率,無需降低整體精度,并且可以推廣到具有不同的輸入和攻擊分布的隱藏?cái)?shù)據(jù)上。另外這種方法沒有引入或使用任何預(yù)處理技術(shù),例如,重采樣或降維策略。

        分類是一種典型的監(jiān)督學(xué)習(xí)算法,它通過將預(yù)測(cè)結(jié)果與訓(xùn)練數(shù)據(jù)的實(shí)際結(jié)果比較,不斷的調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到預(yù)期準(zhǔn)確率。分類方法中,神經(jīng)網(wǎng)絡(luò)有一個(gè)龐大的分支,準(zhǔn)確度高,學(xué)習(xí)、處理能力強(qiáng),有著較強(qiáng)的魯棒性和容錯(cuò)能力,計(jì)算時(shí)需要大量參數(shù)且輸出結(jié)果難以解釋。使用貝葉斯網(wǎng)絡(luò)時(shí)需要知道先驗(yàn)概率,在屬性之間相關(guān)性較小時(shí),分類性能最好。支持向量機(jī)對(duì)缺失數(shù)據(jù)敏感,可以提高泛化性能,有效避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)的問題。

        2.3.2 最近鄰

        最近鄰是利用基于距離或密度的函數(shù)來測(cè)量數(shù)據(jù)與其最近鄰居之間的距離,其中實(shí)例的異常值是距離。根據(jù)數(shù)據(jù)標(biāo)簽的不同,可以在無監(jiān)督和監(jiān)督學(xué)習(xí)中使用這種技術(shù)。

        Wang X.等[27]提出一種2層方法來檢測(cè)船舶航線的異?;顒?dòng),在第一層考慮速度和方向,使用基于密度的空間聚類(density-based spatial clustering of applications with noise,DBSCAN),然后利用海事領(lǐng)域?qū)<抑R(shí)調(diào)整特征,得到數(shù)據(jù)點(diǎn)是正常或異常的最優(yōu)標(biāo)記結(jié)果。在第二層,利用第一層的標(biāo)記數(shù)據(jù)訓(xùn)練Hadoop上的并行元學(xué)習(xí)算法。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),船舶路徑異常檢測(cè)器的檢測(cè)性能隨群集中節(jié)點(diǎn)的數(shù)量線性增加。

        為了降低海上船舶行為異常檢測(cè)中的誤報(bào)率,A.N.Radon等[28]提出兩階段法。在第一階段,使用軌跡劃分,空間聚類和線段聚類算法從歷史船只軌跡(特定起點(diǎn)和目的地內(nèi)的軌跡)中提取正常船只的運(yùn)動(dòng)模式。在第二階段檢測(cè)潛在的異常,并根據(jù)上下文濾除實(shí)際異常。

        T.R.Bandaragoda等[29]提出基于最近鄰居機(jī)制的隔離異常檢測(cè)。利用局部異常和高維的數(shù)據(jù)異常對(duì)其機(jī)理進(jìn)行評(píng)價(jià)。評(píng)價(jià)結(jié)果表明,該機(jī)制能夠隨數(shù)據(jù)集的增大而增大,在異常識(shí)別方面具有較好的性能。

        Wang B.等[30]提出一種改進(jìn)的最近鄰(K-nearest neighbor,KNN)算法,該方法利用現(xiàn)有的均值漂移聚類算法從海量日志中高效地選擇訓(xùn)練集。然后對(duì)不同距離的樣本賦予不同的權(quán)重,減少了新樣本分布不均衡對(duì)KNN算法精度的負(fù)面影響。該方法能夠有效地應(yīng)用于基于日志的異常檢測(cè),其準(zhǔn)確率、召回率和F值均高于傳統(tǒng)的方法。

        最近鄰技術(shù)被廣泛采用,不需要對(duì)數(shù)據(jù)進(jìn)行任何分發(fā),并且可以直接將其用于各種數(shù)據(jù)類型。它有1個(gè)限制條件,如果正常數(shù)據(jù)實(shí)例沒有充足的近鄰,或者異常有近鄰,那么這種技術(shù)就不能識(shí)別異常。此外,這種技術(shù)的計(jì)算復(fù)雜性也是一個(gè)挑戰(zhàn)。

        2.3.3 聚類

        聚類是根據(jù)船舶軌跡的位置數(shù)據(jù)或運(yùn)動(dòng)狀態(tài)的相似度原則,找出具有相似船舶行為的軌跡簇,實(shí)現(xiàn)運(yùn)動(dòng)模式的聚類,將聚類結(jié)果作為正常的模式,其他偏離聚類的行為看作異常行為。

        集群聚類方法分為3類:基于成對(duì)相似度、中位數(shù)分區(qū)和圖分區(qū)的方法。成對(duì)相似度通過一些成對(duì)的相似度測(cè)量表示整體信息。A.L.Fred等[31]提出證據(jù)積累聚類的成對(duì)相似度方法。在多個(gè)基本簇的集合中,通過計(jì)算2個(gè)對(duì)象在同一個(gè)簇中出現(xiàn)的次數(shù)來構(gòu)造一個(gè)關(guān)聯(lián)矩陣。將關(guān)聯(lián)矩陣作為一種新的相似矩陣,可以進(jìn)一步利用聚類算法,如凝聚聚類方法,得到一致聚類。

        中位數(shù)分區(qū)法主要是在所有的集群中找到最大相似度集群的中位點(diǎn)。在所有可能集群的最大空間,找到中位分區(qū)問題的最優(yōu)解通常是不可行的。A.Topchy等[32]提出將中值分割問題轉(zhuǎn)化為極大似然問題,并用期望最大化算法求解。

        基于圖劃分的方式是集群聚類的另一種類型。A.Strehl等[33]提出將集群聚類問題轉(zhuǎn)化為圖數(shù)據(jù)劃分問題,提出了3種集群聚類方法:基于聚類劃分、超圖數(shù)據(jù)劃分和元聚類算法。考慮到集群的難度,Y.Ren等[34]將權(quán)重分配給數(shù)據(jù)對(duì)象,基于權(quán)重對(duì)象提出3個(gè)圖劃分算法:權(quán)重對(duì)象元聚類、權(quán)重對(duì)象分區(qū)聚類,以及權(quán)重對(duì)象混合2偶聚類圖分區(qū)。

        雖然集群聚類取得一些進(jìn)展,但仍然存在不足:①它們大多忽略了不確定的聯(lián)系,這可能誤導(dǎo)整體共識(shí)的形成;②缺少將全局信息整合到本地的能力。Huang D.等[35]提出基于稀疏圖表示和概率軌跡分析的集群聚類方法。利用局部自適應(yīng)閾值的精英鄰域選擇策略來識(shí)別不確定鏈路,并建立了具有少量可靠鏈路的稀疏圖。利用1個(gè)新的轉(zhuǎn)移概率矩陣來探索圖中的全局信息。通過分析隨機(jī)移動(dòng)的概率軌跡,從稀疏圖中推導(dǎo)出1種新的稠密相似測(cè)度,并在此基礎(chǔ)上進(jìn)一步提出了2個(gè)共識(shí)函數(shù)。

        針對(duì)傳統(tǒng)數(shù)據(jù)流聚類算法聚類信息丟失、不準(zhǔn)確的特點(diǎn),Geng Z.Q.等[36]提出一種基于維度最大熵的數(shù)據(jù)流聚類算法。利用數(shù)據(jù)直方圖將滑動(dòng)窗口中的動(dòng)態(tài)數(shù)據(jù)劃分為不同的維度,計(jì)算不同維度的最大熵,對(duì)維度空間進(jìn)行分類,形成聚類維度。通過比較信息熵的聚類大小及其分布特征,實(shí)現(xiàn)數(shù)據(jù)流的離群點(diǎn)檢測(cè)。該方法提高了聚類速度,克服傳統(tǒng)數(shù)據(jù)流聚類算法信息丟失的缺點(diǎn)。

        Zhen R.等[37]提出一種結(jié)合船舶軌跡聚類和樸素貝葉斯分類器的方法,檢測(cè)海上監(jiān)視系統(tǒng)中的異常船舶行為?;贏IS數(shù)據(jù)的空間和方向特征,設(shè)計(jì)了一種船舶軌跡間的相似性度量方法,然后應(yīng)用層次聚類和k-medoids聚類方法對(duì)港口水域內(nèi)典型的船舶航行模式進(jìn)行建模和學(xué)習(xí),建立船舶行為的樸素貝葉斯分類器來分類和檢測(cè)異常船舶行為。

        Zheng H.等[38]根據(jù)海況設(shè)置靠泊速度和靠泊位置變化閾值,建立船舶靠泊確定模型。采用基于密度的空間聚類算法,獲得外高橋港區(qū)船舶靠泊點(diǎn)的密度分布。對(duì)所有靠泊船舶進(jìn)行密度聚類。通過與外高橋港區(qū)泊位及錨泊分布圖的比較,得出可疑靠泊船舶的清單。通過對(duì)船舶歷史軌跡的分析,可以明確船舶真實(shí)靠泊記錄,識(shí)別港區(qū)異??坎创?。

        數(shù)據(jù)集中不可避免地會(huì)出現(xiàn)有效和無效的異常以及不同的正常數(shù)據(jù)模式,Liu H.等[39]提出一種基于輔助特征向量和密度的空間聚類異常檢測(cè)方法。構(gòu)造每個(gè)條件變量的輔助特征向量用于聚類以識(shí)別正常數(shù)據(jù)模式和不同類型的異常。基于聚類數(shù)閾值曲線的啟發(fā)式方法,還提出一種無監(jiān)督環(huán)境下數(shù)據(jù)庫(kù)掃描的參數(shù)選擇方法。與現(xiàn)有的異常檢測(cè)技術(shù)相比,該方法能夠準(zhǔn)確地識(shí)別和區(qū)分正常數(shù)據(jù)模式以及有效和無效異常,前提條件是監(jiān)測(cè)數(shù)據(jù)滿足平穩(wěn)性假設(shè)。

        基于聚類的方法利用無監(jiān)督方法來識(shí)別相同訓(xùn)練數(shù)據(jù)實(shí)例的聚集。異??赡苁且粋€(gè)稀疏集群的模型,或者根本不適合任何集群。它比基于距離方法更快,因?yàn)樗哂休^低的計(jì)算復(fù)雜性。然而,它可能無法在較小的數(shù)據(jù)實(shí)例中提供準(zhǔn)確的結(jié)果。

        2.3.4 小結(jié)

        基于機(jī)器學(xué)習(xí)的方式主要有分類、最近鄰、聚類。其中基于分類的方法主要是依據(jù)數(shù)據(jù)對(duì)象的特征,對(duì)其建立相應(yīng)的模型,將目標(biāo)數(shù)據(jù)輸入模型進(jìn)行訓(xùn)練用于異常檢測(cè)。這類方法需要依賴數(shù)據(jù)的特征分布,過程模糊,計(jì)算量大。比如,分類方法中神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程封閉,輸入與輸出神經(jīng)元之間的處理不易解釋,容易出現(xiàn)過擬合,數(shù)據(jù)分類準(zhǔn)確度在某些情況下可能會(huì)下降,貝葉斯網(wǎng)絡(luò)融合不同概率的能力強(qiáng),但是在建模之前需要準(zhǔn)備大量的工作。分類方法有著強(qiáng)魯棒性和容錯(cuò)能力,需要大量參數(shù)用于計(jì)算,且結(jié)果難以解釋。最近鄰發(fā)揮效用的前提是要有足夠的近鄰,無需估計(jì)參數(shù),無需訓(xùn)練,計(jì)算比較復(fù)雜。聚類算法原理簡(jiǎn)單,計(jì)算速度快,可處理任意形狀和大小的簇,但是處理密度差異較大的簇、高維數(shù)據(jù),或者是聚類間距相差很大時(shí)效果不理想。

        2.4 其他方法

        除了以上介紹的一些方法外,還有一些比較有研究?jī)r(jià)值,也值得借鑒和學(xué)習(xí)的方法,這里只對(duì)部分代表性的方法進(jìn)行說明。

        1)可視化方法。船舶的異常檢測(cè)是發(fā)現(xiàn)軌跡數(shù)據(jù)中位置或行為的異常,采用圖表等可視化方法輔助船舶檢測(cè)的過程,可以使用戶更加清晰地了解這些數(shù)據(jù)的潛在信息,從而發(fā)現(xiàn)船舶行為模式的異常。船舶的各種運(yùn)動(dòng)行為也可方便地進(jìn)行研究和分析。通過交互結(jié)合人類領(lǐng)域知識(shí)有益于異常檢測(cè)過程,特別是當(dāng)正常和異常之間的邊界沒有被精確定義時(shí)。

        為了結(jié)合現(xiàn)有平臺(tái)資源,更智能化的分析船舶異常行為,何帆等[40]基于電子海圖提出時(shí)空分析法、航行狀態(tài)判定法對(duì)航行中的船舶進(jìn)行異常行為識(shí)別,它將船舶AIS數(shù)據(jù)的時(shí)間、空間和周邊水域結(jié)合起來,分別對(duì)位置、相對(duì)距離、軌跡和航向進(jìn)行判定。根據(jù)自選AIS數(shù)據(jù),在ECIVMS SDK電子海圖上描繪出某段時(shí)間范圍內(nèi)的所有船舶的軌跡,并模擬違法追越行為。這樣有助于全面清晰的了解追越行為,下一步可完善模型應(yīng)用于其他電子海圖平臺(tái)。

        2)特征學(xué)習(xí)方法。有時(shí)遵循相同運(yùn)動(dòng)模式的船舶,其軌跡相似性很低,同時(shí)沒有其他知識(shí)用于校準(zhǔn)航跡。針對(duì)海洋軌跡數(shù)據(jù)中存在的不確定性、稀疏性、偏態(tài)性、規(guī)模大、快速更新等問題,F(xiàn)u等[41]提出了一種新的異常軌跡檢測(cè)系統(tǒng),該系統(tǒng)利用特征學(xué)習(xí)算法從船舶AIS記錄中檢測(cè)異常的船舶。為了減少搜索空間,調(diào)用了參考點(diǎn)和分段線性分割算法來壓縮軌跡而不丟失重要信息。使用動(dòng)態(tài)時(shí)間規(guī)整算法衡量參考軌跡之間的差異。最后,利用時(shí)間感知的方法來平衡新軌跡數(shù)據(jù)更新和參考系統(tǒng)的影響,以增加軌跡密度,提高檢測(cè)算法精度。下一步可分析區(qū)域中多種類型和屬性的船只之間的復(fù)雜關(guān)系,分析船群狀況和預(yù)測(cè)船群行為的方法。

        3)潛在場(chǎng)方法。為了能夠最大限度的利用船舶運(yùn)動(dòng)數(shù)據(jù),以清晰、易懂的方式,從豐富的信息中提取交通模式并檢測(cè)異常,E.Osekowska等[42]引入潛在場(chǎng)的概念抽象表示船舶AIS數(shù)據(jù),使用每艘船產(chǎn)生的潛在電荷代表船舶的行為,用于船舶行為異常檢測(cè)。在數(shù)據(jù)建模過程中,船舶通過某位置時(shí)會(huì)丟棄電荷,每個(gè)AIS信息報(bào)告船只位置上的消耗。勢(shì)場(chǎng)的集合代表正常行為的模型,與之不符的船舶被標(biāo)記為異常?;跐撛趫?chǎng)異常檢測(cè)的有效結(jié)果是過濾出所有行為正常的船舶并呈現(xiàn)出一組異常,作為信息可視化工具進(jìn)行事件分析。

        通過AIS信息優(yōu)化海上交通異常檢測(cè),可提高海上監(jiān)視能力。也可擴(kuò)展全球船舶跟蹤系統(tǒng)的設(shè)置,以適應(yīng)密集港口區(qū)域以及監(jiān)管不嚴(yán)的公海交通的特殊性。同時(shí)這項(xiàng)研究通過檢查網(wǎng)格精度對(duì)異常檢測(cè)結(jié)果的影響,確定交通密集和稀疏區(qū)域的最佳網(wǎng)格大小,用于后續(xù)的分析。

        2.5 小結(jié)

        這部分小結(jié)常用的異常檢測(cè)方法,根據(jù)方式的不同大體分為3類:基于統(tǒng)計(jì)分析、基于預(yù)測(cè),以及基于機(jī)器學(xué)習(xí)方法。具體選擇使用哪種算法時(shí),可結(jié)合特定使用場(chǎng)景、模型的要求等,統(tǒng)計(jì)分析方法需要先對(duì)數(shù)據(jù)分布做出假設(shè),原理容易理解,實(shí)現(xiàn)過程也較為容易,但處理高維數(shù)據(jù)時(shí)不理想。預(yù)測(cè)方法中基于距離計(jì)算軌跡之間相似度并與預(yù)測(cè)集比較,數(shù)據(jù)集為聚類的情形下效果較好,而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)可以很好的應(yīng)對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度爆炸和消失問題,通過預(yù)測(cè)檢測(cè)異常,很大程度上是依賴于對(duì)歷史經(jīng)驗(yàn)的把握。機(jī)器學(xué)習(xí)方法又分為分類、最近鄰和聚類,三者各有其優(yōu)缺點(diǎn),分類作為一種無監(jiān)督學(xué)習(xí)算法,大多數(shù)情形下是可以達(dá)到預(yù)期準(zhǔn)確率的,雖然可能會(huì)引起其他方面如計(jì)算時(shí)間、存儲(chǔ)等方面成本增加。擁有足夠近鄰的情況下,最近鄰無需訓(xùn)練,但其計(jì)算較復(fù)雜。聚類可處理任意形狀的簇,在數(shù)據(jù)不適合集群或聚類、數(shù)據(jù)量少、高維數(shù)據(jù)的情況下,聚類效果往往不理想。實(shí)際應(yīng)用中,機(jī)器學(xué)習(xí)面臨著高維特征空間與樣本數(shù)不足、尋找最優(yōu)解困難和可解釋性差等問題。

        3 異常檢測(cè)效果的評(píng)估指標(biāo)

        評(píng)估異常檢測(cè)技術(shù)的指標(biāo)有:檢出率、準(zhǔn)確度、性能、伸縮性等。

        1)檢出率。檢出率通常是用來衡量異常檢測(cè)技術(shù)的指標(biāo)。異常檢出率的檢測(cè)結(jié)果可以分為4類:真陽性(true positive,TP)、真陰性(true negative,TN)、假 陽 性 (falsepositive,F(xiàn)P)、假 陰 性 (false negative,F(xiàn)N)。通常使用的檢測(cè)率度量是TP和TN,定義了檢測(cè)器分類為異常實(shí)例的比例。同時(shí),F(xiàn)P是另一個(gè)重要的度量指標(biāo),它指的是被錯(cuò)誤地歸類為異常實(shí)例的比例,因?yàn)樗梢杂蔁o意義的活動(dòng)觸發(fā)。FN比率是指被錯(cuò)誤地歸類為正常的異常實(shí)例的比例,因?yàn)檫@些活動(dòng)總是被忽略的。

        2)準(zhǔn)確度。準(zhǔn)確度指標(biāo)是指所有分類正確的正?;虍惓?shí)例的比率。精確度度量是預(yù)測(cè)到的異常樣本與異常樣本總數(shù)的比例。如果精確度是1,則所有預(yù)測(cè)到的樣本都符合要求,但可能還存在一些符合要求但沒有被預(yù)測(cè)到的樣本。

        3)性能。受試者工作特性(ROC)指標(biāo)被用來衡量技術(shù)的性能。它是通過將TP速率與FP速率繪制在不同的閾值上創(chuàng)建的,在這些閾值中,閾值作為判斷實(shí)例是否異?;蛘5姆纸琰c(diǎn)。

        4)可伸縮性??缮炜s性指標(biāo)定義了異常檢測(cè)技術(shù)向外擴(kuò)展并有效處理數(shù)據(jù)集增長(zhǎng)的能力,可使用這個(gè)度量來度量他們的技術(shù)在增加數(shù)據(jù)集大小時(shí)的伸縮性。需要測(cè)試不同的工作負(fù)載,以確保該技術(shù)能夠處理大數(shù)據(jù)量的快速變化[43]。

        4 未來研究方向

        雖然國(guó)內(nèi)外對(duì)于異常檢測(cè)的研究已取得一定的進(jìn)展,仍存在一些問題。譬如:忽視數(shù)據(jù)預(yù)處理的重要性,主要是基于歷史數(shù)據(jù)離線建模,檢測(cè)對(duì)象單一,大多僅分析運(yùn)動(dòng)情況而沒有結(jié)合情境信息等。因此這部分主要針對(duì)現(xiàn)有方法的不足之處,分別從數(shù)據(jù)處理、軌跡表示、挖掘分析和情境語義等方面進(jìn)行研究,用于提高異常檢測(cè)的效果。

        1)數(shù)據(jù)處理。AIS數(shù)據(jù)可能由于天氣、水文和傳播等因素而丟失。這樣的數(shù)據(jù)丟失會(huì)影響軌跡的準(zhǔn)確記錄。在這種情況下,需要預(yù)測(cè)和分析這些缺失但重要的數(shù)據(jù)。此外,AIS系統(tǒng)對(duì)每艘船舶的航行狀態(tài)進(jìn)行了實(shí)時(shí)的傳播,記錄和存儲(chǔ),這些數(shù)據(jù)對(duì)存儲(chǔ)和計(jì)算能力提出較高的要求??紤]到船舶在實(shí)際航行過程中會(huì)表現(xiàn)出一定的規(guī)律性,可以對(duì)原始AIS數(shù)據(jù)進(jìn)行壓縮,減小數(shù)據(jù)量。另外,GPS設(shè)備收集到的船舶軌跡信息具有不確定性,對(duì)于船舶軌跡沒有額外的輔助知識(shí)用于校準(zhǔn)船舶軌跡,這降低了異常檢測(cè)的準(zhǔn)確性。

        由于船舶行為數(shù)據(jù)是隨著時(shí)間不斷變化的,相關(guān)模型不能有效處理行為異常的演化問題,已建立的模型不能有效融合新數(shù)據(jù),有必要結(jié)合新軌跡的異常影響因子和歷史異常值,設(shè)置閾值關(guān)注檢測(cè)時(shí)刻的異常軌跡,從而獲取軌跡演化的異常值,進(jìn)而檢測(cè)一段時(shí)間內(nèi)的異常情形,以有效降低噪聲對(duì)結(jié)果的影響。機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法用于船舶行為異常檢測(cè)的可伸縮性問題,以及有關(guān)異常船舶行為檢測(cè)文獻(xiàn)的稀缺,例如,缺乏大數(shù)據(jù)技術(shù)的使用,船舶行為實(shí)時(shí)異常檢測(cè)的稀缺性以及在異常行為檢測(cè)中缺乏使用船舶運(yùn)動(dòng)屬性和靜態(tài)屬性的特征。

        2)軌跡表示。在軌跡的表示學(xué)習(xí)中,可以嘗試使用更加高階的技術(shù)來學(xué)習(xí)軌跡的表示。因此,如何學(xué)習(xí)長(zhǎng)序列軌跡的表示仍然是一個(gè)棘手的問題。

        通過圖表、動(dòng)畫等形式直觀地描述軌跡數(shù)據(jù)及異常檢測(cè)結(jié)果,并進(jìn)行可視化交互分析。同時(shí)利用各類交互機(jī)制幫助人們發(fā)現(xiàn)蘊(yùn)含信息,了解軌跡數(shù)據(jù)不確定性,實(shí)現(xiàn)軌跡數(shù)據(jù)的異常檢測(cè)。

        3)對(duì)特征的挖掘分析?,F(xiàn)有的方法大多忽視軌跡的序列信息?;诰嚯x和密度聚類等的方法,通過尋找子軌跡中的頻繁模式,定義數(shù)據(jù)集中的軌跡流,從而推斷差別大的軌跡流為異常。下一步可提取正常和異常軌跡數(shù)據(jù)中的時(shí)空特征和行為特征,分析和預(yù)測(cè)行為方面進(jìn)行研究。針對(duì)特征學(xué)習(xí)算法,可進(jìn)一步分析區(qū)域內(nèi)多類型多屬性船舶之間的復(fù)雜關(guān)系,研究分析船舶群情況,預(yù)測(cè)船舶群行為。

        由于船舶的慢速運(yùn)動(dòng)和高采樣率,海上軌跡數(shù)據(jù)集包含大量的冗余信息,且分布高度疏散,不僅降低處理速度,而且浪費(fèi)了存儲(chǔ)空間,干擾了模式挖掘算法。

        4)結(jié)合情境語義信息。海上船舶所處情境會(huì)對(duì)船舶行為造成影響,如港口、航道、能見度、船舶行駛在不同時(shí)段、周圍船舶間的相互作用,因此可以把異常行為檢測(cè)與情境信息和人工反饋結(jié)合,使異常行為的檢測(cè)具體化,如船舶走私、劫持、海盜襲擊和恐怖分子襲擊等,及時(shí)檢測(cè)出異常行為,準(zhǔn)確識(shí)別危險(xiǎn)預(yù)警,根據(jù)異常事件的危險(xiǎn)類型,采取應(yīng)對(duì)措施。

        異常檢測(cè)成效的語義分析方面還有缺陷。大部分方法都只針對(duì)單一類異常,而忽視了異常的起因以及不同行為之間的聯(lián)系。異常語義分析時(shí)可考慮將關(guān)聯(lián)規(guī)則、專家系統(tǒng)與數(shù)據(jù)挖掘方法結(jié)合起來,具體分析海上情景,探索各行為異常的聯(lián)系,合理解釋并持續(xù)關(guān)注異常的發(fā)展趨勢(shì)。

        5)在線實(shí)時(shí)異常檢測(cè)。實(shí)時(shí)獲取船舶運(yùn)動(dòng)數(shù)據(jù),自動(dòng)識(shí)別出海上異常目標(biāo),可克服值班人員由于疲勞、注意力分散和值班人員數(shù)量不足導(dǎo)致的船舶危險(xiǎn),保障船舶航行安全。目前在線實(shí)時(shí)異常檢測(cè)方面的研究尚且不足,在線實(shí)時(shí)檢測(cè)可快速及時(shí)的檢測(cè)到船舶航行中可能面臨的風(fēng)險(xiǎn),及時(shí)報(bào)告給駕駛員,為駕駛員安全操縱船舶提供支撐,避免不必要的交通事故發(fā)生,減少人員傷亡,同時(shí)保障了有關(guān)部門對(duì)相應(yīng)海域的監(jiān)管。在線實(shí)時(shí)檢測(cè)對(duì)模型等各方面提出更高的要求,建議可從主動(dòng)學(xué)習(xí),特征選擇,異常檢測(cè),模型選擇等方面展開研究。

        5 結(jié) 論

        明確異常行為,分析船舶異常行為檢測(cè)的研究現(xiàn)狀,將船舶異常行為分為2個(gè)大類,分析幾種主要的船舶行為異常檢測(cè)方法,總結(jié)其優(yōu)缺點(diǎn),統(tǒng)計(jì)分析最早應(yīng)用于異常檢測(cè),其原理簡(jiǎn)單,處理高維數(shù)據(jù)有一定困難。基于預(yù)測(cè)的異常檢測(cè)建立在對(duì)已有知識(shí)的把握和理解之上,結(jié)合最新信息對(duì)其進(jìn)行處理,以預(yù)測(cè)可能的結(jié)果。基于機(jī)器學(xué)習(xí)的異常檢測(cè)是應(yīng)用最廣泛,它能夠根據(jù)經(jīng)驗(yàn)將異常行為與正常行為區(qū)分開來,并適應(yīng)于未見過的異常。還比較各種有助于找到最相關(guān)的評(píng)估指標(biāo)的度量方法,在異常檢測(cè)技術(shù)的測(cè)量中,精度和性能指標(biāo)是最常用的指標(biāo)。精度和性能度量提供了對(duì)方法和技術(shù)的全面評(píng)估,并已成為機(jī)器學(xué)習(xí)等各個(gè)領(lǐng)域的重要度量標(biāo)準(zhǔn)。

        船舶行為異常的研究在不確定性、實(shí)時(shí)性、準(zhǔn)確性和魯棒性等方面仍有較大的發(fā)展空間。數(shù)據(jù)的處理效果直接影響著數(shù)據(jù)的質(zhì)量,高質(zhì)量的數(shù)據(jù)無疑會(huì)提高后續(xù)分析結(jié)果的準(zhǔn)確度;形象化的表示軌跡,將船舶行為可視化,不僅更清晰地了解船舶行為,更有利于監(jiān)管人員對(duì)海域的安全保障;提取出軌跡序列中的有用信息,不僅節(jié)約成本,而且有利于對(duì)船舶行為的有效分析;船舶的異常行為與情境語義信息結(jié)合,判定異常行為會(huì)更準(zhǔn)確,更有利于對(duì)船舶行為的全面掌握;在線實(shí)時(shí)的檢測(cè)船舶異常行為對(duì)于保障海域安全、海上情境態(tài)勢(shì)感知既是機(jī)遇也是挑戰(zhàn)?;谝陨戏治?,提出船舶行為異常的未來發(fā)展方向,為船舶行為異常的相關(guān)研究提供參考。

        猜你喜歡
        船舶檢測(cè)方法
        計(jì)算流體力學(xué)在船舶操縱運(yùn)動(dòng)仿真中的應(yīng)用
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        《船舶》2022 年度征訂啟事
        船舶(2021年4期)2021-09-07 17:32:22
        船舶!請(qǐng)加速
        可能是方法不對(duì)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        中文字幕无码高清一区二区三区 | 一边做一边说国语对白| 亚洲av手机在线观看| 天堂网日韩av在线播放一区 | 欧洲熟妇色xxxx欧美老妇多毛 | 色丁香久久| 国产丝袜高跟美腿一区在线| 久久热免费最新精品视频网站| 麻豆免费观看高清完整视频| 免费现黄频在线观看国产| 区无码字幕中文色| 91一区二区三区在线观看视频| 永久免费人禽av在线观看| 亚洲av区无码字幕中文色| 东京热无码人妻中文字幕| 中文字幕日本熟妇少妇| 一区二区三区乱码专区| 奇米影视7777久久精品| 巨熟乳波霸若妻在线播放| 亚洲va中文字幕欧美不卡| 国产精品亚洲一区二区麻豆| 人人妻一区二区三区| 国产女在线| 国产精品成人黄色大片| 久久精品国产亚洲av麻豆会员| 国产人妻人伦精品1国产盗摄| 亚洲欧美日韩高清中文在线| 在线观看免费的黄片小视频| 邻居少妇张开腿让我爽了一夜| 五月丁香六月综合缴清无码 | 亚洲av无码成人网站www| 亚洲av日韩av天堂久久不卡| 国产免费观看黄av片| 久久久精品人妻一区二区三区| 亚洲欧美另类自拍| 亚洲中文字幕高清乱码毛片| 亚洲啪啪视频一区二区| 国产精品美女久久久久av福利 | 免费国产黄网站在线观看视频| 国产乱子伦精品免费无码专区 | 久久理论片午夜琪琪电影网|