亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)環(huán)境的海事船舶數(shù)據(jù)研究

        2018-07-31 09:21:00李凡
        科教導(dǎo)刊·電子版 2018年13期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        李凡

        摘 要 目前長江海事局現(xiàn)有的數(shù)十個信息系統(tǒng)在支撐傳統(tǒng)海事業(yè)務(wù)中扮演著重要的角色,但是隨著時代的發(fā)展越來越暴露出很多問題,如:系統(tǒng)之間接口繁雜,信息孤島,各系統(tǒng)之間數(shù)據(jù)不一致,無法支持智能化安全監(jiān)管、船舶防污、人命救助等業(yè)務(wù)。通過大數(shù)據(jù)的技術(shù),打通數(shù)據(jù)孤島,建立業(yè)務(wù)分析預(yù)測模型,對現(xiàn)有海事信息系統(tǒng)進(jìn)行智能化改造,可以全面提升海事局的各項業(yè)務(wù)的速度和質(zhì)量。

        關(guān)鍵詞 數(shù)據(jù)清洗 數(shù)據(jù)挖掘 關(guān)聯(lián)分析

        1航運(yùn)船舶大數(shù)據(jù)研究的意義

        國家海事部門2011年組織編制了《海事信息系統(tǒng)頂層設(shè)計》,提出了“一個目標(biāo)、二個模型、四套體系”,即海事信息化總體發(fā)展目標(biāo),信息系統(tǒng)和基礎(chǔ)設(shè)施的架構(gòu)模型,以及標(biāo)準(zhǔn)規(guī)范、管理控制、規(guī)章制度和組織體系,以指導(dǎo)海事未來一段時期的信息化建設(shè)。在“大數(shù)據(jù)”管理時代,這一切將發(fā)生改變?;跀?shù)據(jù)的“事實(shí)”將會成為決策的重要依據(jù)。

        海事管理涉及人、船、環(huán)境等多個方面,其中船舶的管理是其中的一大重點(diǎn)。目前,海事局已經(jīng)建立了完善的船舶登記系統(tǒng)和船舶動態(tài)管理系統(tǒng),用于收集和管理船舶的基本情況和安全管理狀況,包含船舶基本數(shù)據(jù)、登記注冊信息、安全檢查、事故、行政處罰、重點(diǎn)跟蹤及協(xié)查船舶等分類管理信息。在“大數(shù)據(jù)”時代,經(jīng)過專業(yè)化的處理,每一艘船的信息都將詳盡地記錄在案。對于船舶的管理,更多是基于計算機(jī)系統(tǒng)對數(shù)據(jù)分析后得出的“客觀判斷”,讓“事實(shí)”成為真正的“決策人”。隨著長江海事局?jǐn)?shù)據(jù)資源中心的建成并投入使用,海事業(yè)務(wù)系統(tǒng)信息孤島的問題基本得到解決,為海事數(shù)據(jù)的大數(shù)據(jù)分析和挖掘奠定了堅實(shí)的基礎(chǔ)。

        2航運(yùn)船舶大數(shù)據(jù)研究的目標(biāo)

        對海事數(shù)據(jù)進(jìn)行清洗、整合,抽取幾個關(guān)鍵維度,建模分析,預(yù)測船舶是否違章。把建立的模型應(yīng)用到業(yè)務(wù)系統(tǒng):通過實(shí)時抽取業(yè)務(wù)系統(tǒng)數(shù)據(jù),實(shí)時預(yù)測船舶違章狀態(tài)并提供報表展示。

        3航運(yùn)船舶大數(shù)據(jù)研究的方法

        3.1理論依據(jù)

        實(shí)施大數(shù)據(jù)戰(zhàn)略意味著管理模式的轉(zhuǎn)變,從經(jīng)驗思維過渡到數(shù)據(jù)思維。經(jīng)驗思維是以個人知識和經(jīng)驗為中心的管理,強(qiáng)調(diào)個體的作用。數(shù)據(jù)思維則以客觀數(shù)據(jù)為基礎(chǔ),通過對數(shù)據(jù)抽取、清洗、整合、建模、分析和可視化,形成決策信息和知識。所以,數(shù)據(jù),特別是海量大數(shù)據(jù),對于海事管理意義重大。

        數(shù)據(jù)對于管理模式的提升分為三個層次(如圖1所示):

        第一層:報表。這是對部門的數(shù)據(jù)進(jìn)行分析匯總,制作業(yè)務(wù)所需要的各種報表。由于數(shù)據(jù)的采集范圍所限,報表層的大數(shù)據(jù)分析,體現(xiàn)的是局部信息;

        第二層:數(shù)據(jù)倉庫/商業(yè)智能。這是對全海事各個部門的數(shù)據(jù)進(jìn)行統(tǒng)一歸類,抽取,清洗和集成,形成企業(yè)統(tǒng)一數(shù)據(jù)中心?;跀?shù)據(jù)中心,開發(fā)商業(yè)智能應(yīng)用,包括多維分析、企業(yè)儀表盤,即席查詢報表等;由于數(shù)據(jù)倉庫是企業(yè)全部數(shù)據(jù)的整合,它所展示的是整體信息;

        第三層:數(shù)據(jù)挖掘。這是根據(jù)歷史業(yè)務(wù)數(shù)據(jù)建立挖掘模型,包括客戶分類模型、精準(zhǔn)營銷模型、客戶購買決策判斷模型、客戶流失預(yù)警模型等。建立好的模型用于對當(dāng)前客戶進(jìn)行實(shí)時預(yù)測分析,給管理者提供一個預(yù)知未來的能力。

        3.2大數(shù)據(jù)平臺系統(tǒng)部署架構(gòu)圖

        工作流程:

        (1)大數(shù)據(jù)開發(fā)工程師了解客戶業(yè)務(wù),整理需求,設(shè)計大數(shù)據(jù)解決方案;

        (2)大數(shù)據(jù)開發(fā)工程師使用客戶端,根據(jù)設(shè)計方案開發(fā)數(shù)據(jù)處理流程;

        (3)數(shù)據(jù)處理流程通過“后臺服務(wù)”推送到“引擎服務(wù)”;

        (4)“引擎服務(wù)”對數(shù)據(jù)處理流程進(jìn)行翻譯,把翻譯的結(jié)果推送到“計算集群”;

        (5)“計算集群”申請計算資源,執(zhí)行翻譯結(jié)果。

        (6)如果執(zhí)行過程中需要抽取網(wǎng)頁/微博數(shù)據(jù),則請求“抽取服務(wù)”獲取對應(yīng)數(shù)據(jù)。

        (7)如果需要其他類型數(shù)據(jù),則直接從“數(shù)據(jù)源”請求數(shù)據(jù);

        (8)“計算集群”對數(shù)據(jù)處理分析的結(jié)果以推送到“報表服務(wù)”,由報表服務(wù)渲染成可視化報表;

        (9)最終用戶通過筆記本,手機(jī)或其他終端設(shè)備訪問報表服務(wù),獲取分析報告。

        系統(tǒng)配置清單:

        3.3系統(tǒng)功能架構(gòu)圖

        海事大數(shù)據(jù)平臺包括5個子模塊:數(shù)據(jù)抽取、數(shù)據(jù)整合、數(shù)據(jù)中心、建模分析和報表展示。新平臺提供10多種不同的數(shù)據(jù)接口,可以抽取任意的業(yè)務(wù)數(shù)據(jù),包括海事外部的數(shù)據(jù),比如新浪微博和網(wǎng)頁等。抽取來的數(shù)據(jù)輸入到分布式整合引擎,進(jìn)行數(shù)據(jù)的清洗、過濾、整合。其目的是解決數(shù)據(jù)質(zhì)量問題,把最終清洗整合好的高質(zhì)量業(yè)務(wù)數(shù)據(jù),統(tǒng)一導(dǎo)入一個分布式的大數(shù)據(jù)中心,實(shí)現(xiàn)數(shù)據(jù)的長時間永久保存?;诖髷?shù)據(jù)中心可以建立各種挖掘分析模型。挖掘分析的結(jié)果,通過可視化的方式展示給最終用戶。

        整個大數(shù)據(jù)平臺為可視化環(huán)境(IDE),工程師可以通過一個可視化的工具對各個模塊進(jìn)行配置和管理。

        整個大數(shù)據(jù)平臺的功能,運(yùn)行在高性能分布式的計算集群上。

        3.4數(shù)據(jù)抽取子模塊

        數(shù)據(jù)抽取子模塊用于從海事的各個業(yè)務(wù)系統(tǒng)中抽取數(shù)據(jù)。抽取上來的數(shù)據(jù)通過接口自動導(dǎo)入到數(shù)據(jù)整合子模塊,進(jìn)而對業(yè)務(wù)數(shù)據(jù)進(jìn)行過濾、清洗、變換和集成。

        抽取功能通過可視化組件的形式在敏捷大數(shù)據(jù)IDE中提供。抽取功能也提供了http和webservice接口,用于和第三方應(yīng)用的整合。

        3.5數(shù)據(jù)整合子模塊

        該模塊用于對抽取來的原始業(yè)務(wù)數(shù)據(jù)進(jìn)行過濾、清洗、變換和集成。業(yè)務(wù)數(shù)據(jù)在被整合的過程中,逐步解決多種數(shù)據(jù)質(zhì)量問題:

        數(shù)據(jù)不一致:比如同一個船員的手機(jī)號碼,在不同系統(tǒng)中不同。數(shù)據(jù)不一致,將導(dǎo)致最終的報表可能數(shù)據(jù)有沖突,影響運(yùn)營和決策;解決數(shù)據(jù)不一致問題,一般是先確定業(yè)務(wù)規(guī)則,然后在數(shù)據(jù)整合系統(tǒng)中實(shí)現(xiàn)該業(yè)務(wù)邏輯。

        數(shù)據(jù)丟失:多種原因可能導(dǎo)致數(shù)據(jù)丟失,比如個人隱私,像船舶AIS狀態(tài)。采用敏捷大數(shù)據(jù)有多種數(shù)據(jù)擬合模型,可以用于對缺失的數(shù)據(jù)進(jìn)行推測補(bǔ)充。

        數(shù)據(jù)孤島:來源于不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)其目的并不是為分析設(shè)計。使用大數(shù)據(jù)技術(shù)建立360度的業(yè)務(wù)模型,比如客戶畫像,依賴海事全局的大數(shù)據(jù)中心。該大數(shù)據(jù)中心整合了各個業(yè)務(wù)部門、各個業(yè)務(wù)流程、各個渠道的數(shù)據(jù)。

        3.6數(shù)據(jù)中心子模塊

        數(shù)據(jù)中心子模塊以敏捷大數(shù)據(jù)平臺本身的數(shù)據(jù)存儲系統(tǒng)為核心搭建。它是一個分布式的大數(shù)據(jù)存儲系統(tǒng),可用于GB、TB、PB級的海量數(shù)據(jù)存儲和高效讀取檢索。和傳統(tǒng)關(guān)系型數(shù)據(jù)庫對比,其存儲能力幾乎無限,可以通過集群低成本快速水平擴(kuò)充。同時,它可以對分析,建模,報表,以及第三方系統(tǒng)提供高性能查詢接口。億級記錄,實(shí)時查詢可控制在秒級。

        3.7建模分析子模塊

        建模分析子模塊主要是數(shù)據(jù)挖掘模型支持,包括聚類、分類、回歸、支持向量機(jī)等10多種不同的數(shù)據(jù)挖掘模型。這些挖掘模型可用于解決各種海事大數(shù)據(jù)分析模型,這些模型同樣也是通過可視化組件的形式提供:

        4航運(yùn)船舶大數(shù)據(jù)研究的結(jié)論

        4.1事故關(guān)聯(lián)分析

        關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)規(guī)則是指幾種事物之間存在的因果關(guān)系。例如在船舶碰撞事故中,瞭望不當(dāng)和疲勞之間的相關(guān)性就是一種關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“90%的碰撞中,當(dāng)了望不當(dāng)時,值班人員總是處于疲勞狀態(tài)之類的知識”。

        關(guān)聯(lián)規(guī)則挖掘旨在建立數(shù)據(jù)項間潛在相互關(guān)系的模型,并用規(guī)則的形式表示出來。其中支持度 是關(guān)聯(lián)規(guī)則中的一個重要概念, 表示包含某個事務(wù)在數(shù)據(jù)庫中所占的比例。

        內(nèi)河航線固定,事故與其發(fā)生河段存在著很大的相關(guān)性, 海事管理部門的經(jīng)驗性的分析主要是集中在幾個重點(diǎn)航段中的海事發(fā)生率。但數(shù)據(jù)挖掘技術(shù)的優(yōu)勢可以通過多個數(shù)據(jù)分析主題的關(guān)聯(lián), 在更高層次上對數(shù)據(jù)進(jìn)行泛化, 從而得出優(yōu)于個人經(jīng)驗的相關(guān)結(jié)論。通過對海事事故進(jìn)行關(guān)聯(lián)分析,確定導(dǎo)致事故的客觀或主管因素,從而可以制定有針對性的預(yù)防和救治措施,以預(yù)防事故發(fā)生。

        4.2事故聚類分析

        聚類分析屬于探索性的數(shù)據(jù)分析方法。通常,我們利用聚類分析將看似無序的對象進(jìn)行分組、歸類,以達(dá)到更好地理解研究對象的目的。聚類結(jié)果要求組內(nèi)對象相似性較高,組間對象相似性較低。聚類分析把海事事故自動分組,再對每一分組進(jìn)行關(guān)聯(lián)查詢,特征化,即可得到該組事故的關(guān)鍵特征。由此,可以判斷導(dǎo)致特定類型事故發(fā)生的主要因素,從而可以制定有針對性的預(yù)防和救治措施,以預(yù)防事故發(fā)生。

        4.3船舶航行軌跡聚類分析

        通過提取船舶AIS數(shù)據(jù),采用KMeans聚類技術(shù)對船舶的航行軌跡進(jìn)行刻畫和自動分組,并以形象的可視化形式進(jìn)行展示見圖5。

        ·航道預(yù)警分析

        ·在船舶密度達(dá)到一定閾值時,系統(tǒng)報警,預(yù)防事故發(fā)生。

        ·分析航道使用率

        ·分析航道使用密度和事故的關(guān)聯(lián)性

        ·最繁忙航道

        ·航道使用情況隨時間、季節(jié)、水文、氣象等變化

        4.4河道交通流量預(yù)測

        通過測試,完全實(shí)現(xiàn)了預(yù)先設(shè)定的測試目標(biāo),基本驗證了敏捷大數(shù)據(jù)技術(shù)在海事當(dāng)中應(yīng)用的價值和可能性,為正式立項和推廣奠定了堅實(shí)的基礎(chǔ)。通過對AIS、簽證、違章的數(shù)據(jù)清洗整合,克服了數(shù)據(jù)存儲方式導(dǎo)致的抽取耗時高、數(shù)據(jù)質(zhì)量、海事業(yè)務(wù)知識積累不足的困難。通過抽取幾個維度的信息,建立了一個能對運(yùn)行船舶是否違章進(jìn)行實(shí)時預(yù)測的模型。

        5未來展望

        5.1建立船舶完整數(shù)據(jù)鏈

        打通各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù),消除信息孤島.整合AIS軌跡、簽證、違章、船員、貨物等各個業(yè)務(wù)系統(tǒng)及外部數(shù)據(jù),建立一個全方位的船舶信息中心。實(shí)現(xiàn)船舶監(jiān)管的立體化。

        5.2通過數(shù)據(jù)挖掘提升監(jiān)管介入

        通過對海事數(shù)據(jù)建模分析,提高對違章、事故的防范能力,通過數(shù)據(jù)預(yù)測結(jié)果,優(yōu)化監(jiān)管流程、監(jiān)管介入時間及地點(diǎn),精準(zhǔn)監(jiān)管,提高監(jiān)管效率。

        5.3數(shù)據(jù)輔助決策

        通過大數(shù)據(jù)中心的建立,對各個業(yè)務(wù)進(jìn)行建模分析,優(yōu)化流程,輔助決策。改變以往的憑經(jīng)驗、拍腦袋的主觀決策方式,尋求通過數(shù)據(jù)層次的支持來輔助決策的方式。

        參考文獻(xiàn)

        [1] 刁瑩. 用數(shù)學(xué)建模方法評價存儲系統(tǒng)性能[D].哈爾濱:哈爾濱工程大學(xué),2013.

        [2] 符青云.面向大規(guī)模流媒體服務(wù)的高性能存儲系統(tǒng)研究[D].成都:電子科技大學(xué),2009.

        [3] 王玉林.多節(jié)點(diǎn)容錯存儲系統(tǒng)的數(shù)據(jù)與緩存組織研究[D].成都:電子科技大學(xué),2010.

        [4] 羅東健.大規(guī)模存儲系統(tǒng)高可靠性關(guān)鍵技術(shù)研究[D].武漢:華中科技大學(xué),2011.

        [5] 劉洋. 層次混合存儲系統(tǒng)中緩存和預(yù)取技術(shù)研究[D].武漢:華中科技大學(xué),2013.

        [6] 任崇廣.面向海量數(shù)據(jù)處理領(lǐng)域的云計算及其關(guān)鍵技術(shù)研究[D].南京:南京理工大學(xué),2013.

        [7] Pavlo,A. et. al. A Comparison of Approaches to Large-Scale Data Analysis[D].In Proc. of ACM SIGMOD, 2009.

        [8] Chaiken,R. et. al. Scope: Easy and Efficient Parallel Processing of Massive Data Sets[D].In Proc. of VLDB, 2008.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        在线国产丝袜自拍观看| 国产精品高潮呻吟av久久无吗 | 首页动漫亚洲欧美日韩| 亚洲成a人网站在线看| 青青草视频在线观看9| 亚洲精品乱码久久久久久| 一品二品三品中文字幕| 国产精品三级一区二区按摩| 国产日产免费在线视频| 国产农村妇女精品一区| 无码任你躁久久久久久久| 在线精品免费观看| av东京热一区二区三区| 亚洲高清一区二区三区在线播放| 国产精品免费_区二区三区观看| 国产一品道av在线一二三区| 国产亚洲av人片在线播放| 大香蕉国产av一区二区三区 | 300部国产真实乱| 国产成人免费高清激情明星| 白嫩少妇在线喷水18禁| 国产人妻高清国产拍精品| 夜夜欢性恔免费视频| 国产精品98福利小视频| 亚洲综合视频一区二区| 免费无码高潮流白浆视频| 精品国产三级a在线观看| 老熟妇高潮av一区二区三区啪啪| 日本免费在线一区二区三区| 亚洲精品午夜无码专区| 国产97色在线 | 免| 国产精品午夜福利亚洲综合网| 国产成人无码a在线观看不卡| 日日碰狠狠躁久久躁9| 亚洲性无码av在线| 东京热加勒比久久精品| 黑色丝袜秘书夹住巨龙摩擦| 在线观看亚洲AV日韩A∨| 久久亚洲综合亚洲综合| 国产综合色在线视频区| 亚洲av无码国产精品麻豆天美 |