郭宇棟,李生林
(后勤工程學(xué)院,重慶 401331)
大數(shù)據(jù)關(guān)鍵技術(shù)在基建營房綜合管理系統(tǒng)中的應(yīng)用
郭宇棟,李生林
(后勤工程學(xué)院,重慶 401331)
重點研究了大數(shù)據(jù)處理及分析挖掘等關(guān)鍵技術(shù),結(jié)合基建營房綜合管理系統(tǒng)的應(yīng)用環(huán)境,論述大數(shù)據(jù)技術(shù)在基建營房綜合管理系統(tǒng)架構(gòu)、數(shù)據(jù)標(biāo)準、數(shù)據(jù)處理、分析挖掘等方面的應(yīng)用情況。
大數(shù)據(jù)挖掘;基建營房;信息管理系統(tǒng)
隨著信息系統(tǒng)的廣泛應(yīng)用和信息技術(shù)的高速發(fā)展,特別是地理信息系統(tǒng)、數(shù)據(jù)存儲技術(shù)和物聯(lián)網(wǎng)等技術(shù)的發(fā)展,使得“數(shù)據(jù)”規(guī)模呈現(xiàn)指數(shù)級別增長。在工業(yè)、交通運輸、醫(yī)療衛(wèi)生、電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域,都積累了TB級、PB級乃至EB級的大數(shù)據(jù)。這些大數(shù)據(jù)正在影響著人類認識、理解社會的方式,推動社會發(fā)展和管理模式變革,成為信息社會的重要財富[1]。
2011年5月,在麥肯錫全球研究院發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》的研究報告中指出,大量數(shù)據(jù)作為重要的信息要素,已經(jīng)滲透到各行各業(yè)和業(yè)務(wù)職能領(lǐng)域,大數(shù)據(jù)的實際應(yīng)用將引領(lǐng)一波新的生產(chǎn)率增長和商業(yè)利潤浪潮的到來。2012年3月29日,美國政府在白宮網(wǎng)站發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,提出通過收集大量復(fù)雜的數(shù)據(jù)資料提升獲取知識的能力,并且將投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”。
人類進入信息化時代以后,短短的數(shù)年時間,積累了大量的數(shù)據(jù),步入了“大數(shù)據(jù)時代”,使人類以前所未有的速度、厚度、細度和準確度對信息的掌握成為可能。面對大量的數(shù)據(jù),基于充足的數(shù)據(jù)基礎(chǔ),對數(shù)據(jù)進行挖掘與分析,并將其運用于企業(yè)、軍隊等領(lǐng)域的精細管理,也就不僅成為可能而且勢在必行[2]。
隨著國家、軍隊建設(shè)發(fā)展和改革深入,基建營房建設(shè)管理面臨著前所未有的挑戰(zhàn)和困難,工程建設(shè)“三超”(超規(guī)模、超投資、超面積)現(xiàn)象屢禁不止,房地產(chǎn)“管不住”問題無法根治,國防工程維護管理消耗“不明確”問題長期存在,住房制度改革舉步維艱等,這些困難和挑戰(zhàn)靠現(xiàn)有的信息能力已無法支撐,靠傳統(tǒng)的管理模式難以解決。大數(shù)據(jù)關(guān)鍵技術(shù)及在基建營房綜合管理系統(tǒng)中的應(yīng)用研究,是將大數(shù)據(jù)應(yīng)用到基建營房綜合管理系統(tǒng)中,運用大數(shù)據(jù)的理論、機制、模型和方法等解決基建營房建設(shè)、管理、維護中的決策問題,通過問題分析原因、通過現(xiàn)象預(yù)測結(jié)果,并提供大數(shù)據(jù)關(guān)鍵技術(shù)在基建營房綜合管理系統(tǒng)中的應(yīng)用方案,實現(xiàn)基建營房信息主導(dǎo)、精確管控、工程透明、科學(xué)決策的目標(biāo),為提升信息保障能力、創(chuàng)新管理保障模式提供新的方法和手段[3]。
圖1 分布式文件存儲架構(gòu)
一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)的特點可以總結(jié)為4個V,即Volume(體量巨大)、Variety(類型繁多)、Velocity(生成快速)和Value(價值巨大但密度很低)。大數(shù)據(jù)處理的關(guān)鍵技術(shù)主要是指能夠在容忍時間內(nèi)處理大量不同類型的數(shù)據(jù),而大數(shù)據(jù)分析挖掘的關(guān)鍵技術(shù)主要體現(xiàn)在運用各種機器學(xué)習(xí)算法分析和挖掘數(shù)據(jù)中的價值。本文將分別介紹大數(shù)據(jù)處理和分析數(shù)據(jù)挖掘的關(guān)鍵技術(shù)[4]。
2.1 大數(shù)據(jù)處理關(guān)鍵技術(shù)
2.1.1 分布式計算架構(gòu)。大數(shù)據(jù)環(huán)境下的分布式計算架構(gòu)與傳統(tǒng)的分布式處理系統(tǒng)有所區(qū)別。傳統(tǒng)的分布式計算架構(gòu)通常采用縱向拓展的方式,其計算性能增長速度無法跟上數(shù)據(jù)增長速度,性能提升存在上限。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)呈現(xiàn)指數(shù)級增長,傳統(tǒng)的數(shù)據(jù)處理架構(gòu)顯然已無法適應(yīng),所以采用橫向拓展方式的分布式計算架構(gòu)將成為大數(shù)據(jù)處理架構(gòu)的主流。
2006年Google首次提出大數(shù)據(jù)的分布式處理模式,包括分布式文件存儲系統(tǒng)、分布式計算編程模式等技術(shù)體系,同時還提出了一系列學(xué)術(shù)論文作為理論依據(jù)供研究學(xué)者進行討論。在這種分布式計算思想的指導(dǎo)下,Hadoop等優(yōu)秀的分布式處理軟件框架應(yīng)運而生,架構(gòu)如圖1所示。
分布式文件存儲架構(gòu)是通過大量普通PC機或廉價服務(wù)器集群而構(gòu)建的松耦合存儲系統(tǒng),能夠以分塊、分片等方式高效地存儲海量數(shù)據(jù)。其中,MapReduce是利用了分布式文件存儲架構(gòu)而設(shè)計的大數(shù)據(jù)存儲與計算編程模型,主要思想是搭建廉價的中低端服務(wù)器集群,對每個服務(wù)器節(jié)點性能要求不高,提供整體的松耦合性、擴展性和容錯性等。當(dāng)發(fā)生服務(wù)器宕機或者節(jié)點從集群中移除時,整個集群依然能夠保持良好的運行狀態(tài)和計算性能,幾乎不受單個節(jié)點的影響。在電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域,分布式存儲和計算架構(gòu)已經(jīng)成功得到了實際驗證,其開源模式更為程序開發(fā)人員提供了二次開發(fā)的可能,以鍵值對<key,value>形式存儲數(shù)據(jù)格式不受限定;在MapReduce編程模式中,Map和Reduce函數(shù)為用戶提供了計算編程接口,可以自定義實現(xiàn)較復(fù)雜的數(shù)據(jù)處理邏輯,為海量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理提供了高效的處理方式,也為大規(guī)模數(shù)據(jù)集機器學(xué)習(xí)與挖掘等技術(shù)的實現(xiàn)提供了基礎(chǔ)架構(gòu)[5]。
2.1.2 并行數(shù)據(jù)庫技術(shù)。分布式計算架構(gòu)為大規(guī)模數(shù)據(jù)集的處理提供了技術(shù)基礎(chǔ),但是由于所有的數(shù)據(jù)處理邏輯必須由用戶自定義開發(fā),原本應(yīng)該由數(shù)據(jù)庫完成的任務(wù)移交給了程序開發(fā)人員,導(dǎo)致應(yīng)用程序的使用成本增長。所以,并行數(shù)據(jù)庫技術(shù)的出現(xiàn)則針對這方面的缺陷提供了一個優(yōu)勢的解決方案。
并行數(shù)據(jù)庫技術(shù)經(jīng)過幾十年的研究發(fā)展,技術(shù)水平有了長足的進步。早在20世紀70年代,并行數(shù)據(jù)庫技術(shù)在數(shù)據(jù)庫機的研究領(lǐng)域中逐漸走進人們的視野,主要研究內(nèi)容是關(guān)系數(shù)據(jù)庫的并行操作與專用硬件設(shè)備的開發(fā),旨在通過硬件設(shè)備實現(xiàn)分布式操作關(guān)系型數(shù)據(jù)庫。上世紀80年代,并行數(shù)據(jù)庫技術(shù)摒棄了原來的硬件設(shè)備的研發(fā),轉(zhuǎn)移到從組織調(diào)度策略層面構(gòu)建并行數(shù)據(jù)庫機。90年代后,隨著多核處理器、大容量存儲、高速計算能力等信息技術(shù)的發(fā)展,并行數(shù)據(jù)庫技術(shù)的研究得到了質(zhì)的飛躍,其研究的重心變?yōu)闀r間、空間數(shù)據(jù)的并行化方面,如圖2所示。
圖2 并行數(shù)據(jù)庫架構(gòu)圖
在處理大規(guī)模數(shù)據(jù)集的過程中采用并行數(shù)據(jù)庫技術(shù),目的是利用系統(tǒng)集群的高效運算性能,實施時將關(guān)系數(shù)據(jù)庫的數(shù)據(jù)表中的數(shù)據(jù)分塊或分片,根據(jù)分配策略分發(fā)給各個節(jié)點進行處理并執(zhí)行數(shù)據(jù)庫事務(wù)操作,最后將處理結(jié)果反饋給用戶,實現(xiàn)節(jié)點間的完全無共享,同時將各節(jié)點數(shù)據(jù)進行鏡像備份,強化冗余并提升數(shù)據(jù)庫性能。此外,并行數(shù)據(jù)庫能夠建立在廉價的服務(wù)器集群上,節(jié)點間可保持很好的拓展性和容錯性。
2.1.3 大數(shù)據(jù)處理模式。目前,為了滿足大數(shù)據(jù)在極短的時間內(nèi)處理海量數(shù)據(jù),獲取有價值信息的需求,在數(shù)據(jù)處理過程中主要采用流處理和批處理兩種方式。流處理是在不存儲數(shù)據(jù)情況下對實時數(shù)據(jù)進行處理,批處理則是先將數(shù)據(jù)存儲至本地后再處理。
(1)流處理。流處理是指數(shù)據(jù)的來源是實時的,數(shù)據(jù)價值的時效性非常高,而隨著時間的增加價值不斷地減少,因此必須用最短的時間處理數(shù)據(jù)給出最優(yōu)結(jié)果。在大數(shù)據(jù)處理過程中需采用流數(shù)據(jù)處理模式的領(lǐng)域主要有數(shù)字化傳感器實時監(jiān)控、網(wǎng)站點擊量的實時統(tǒng)計、電子商務(wù)及社交網(wǎng)絡(luò)中的高頻通信等。在流處理的處理過程中,在一段時間內(nèi)的數(shù)據(jù)將被視為流,每次數(shù)據(jù)流到來時立即進行處理并返回運算結(jié)果。流處理模式中的數(shù)據(jù)流模型,如圖3所示。
圖3 基本數(shù)據(jù)流模型
在數(shù)據(jù)流處理的實際過程中,由于數(shù)據(jù)來源是源源不斷的且數(shù)據(jù)量巨大,對時效性要求極高,所以只對數(shù)據(jù)本身進行處理運算,而不會對數(shù)據(jù)進行持久化儲存,所有的計算都在內(nèi)存中完成,所以系統(tǒng)這種處理方式具有較高的運算效率。但是,流處理方式更多地依賴內(nèi)存設(shè)備的性能,內(nèi)存容量成為限制流處理的一個瓶頸。目前,多核處理器與相變存儲器等設(shè)備的出現(xiàn),為流處理模式的發(fā)展提供了更好的平臺。
經(jīng)過幾十年的研究發(fā)展,數(shù)據(jù)流處理模式不僅在理論層面有較為深入的研究,在各個領(lǐng)域也得到了廣泛的應(yīng)用,一些代表性的開源流處理框架如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。
(2)批處理。2004年Google公司首先提出分布式計算思想和并行批處理編程模型MapReduce,處理過程如圖4所示。
MapReduce模型利用了分布式計算的思想,處理過程是首先將數(shù)據(jù)源進行分塊、分片處理,然后分別傳遞至Map任務(wù)區(qū)進行任務(wù)分配。Map過程能夠從各自的輸入數(shù)據(jù)中解析獲取鍵值對<key,value>集合,然后調(diào)用用戶自定義的Map函數(shù)執(zhí)行,將計算結(jié)果持久化存儲至本地硬盤文件系統(tǒng)或數(shù)據(jù)庫系統(tǒng)中。在執(zhí)行Reduce任務(wù)過程時,從本地硬盤讀取數(shù)據(jù),根據(jù)Key值索引排序,執(zhí)行用戶自定義的Reduce函數(shù),將Key對應(yīng)的Value值合并返回結(jié)果。
圖4 MapReduce處理過程圖
從上述處理過程可以看出,以MapReduce為代表的批處理模式主要設(shè)計思想是:(1)將復(fù)雜計算分散化,再將計算結(jié)果合并返回;(2)以數(shù)據(jù)為驅(qū)動旨在解決任務(wù)分配,而不是以運算為中心,這樣可以有效地減少數(shù)據(jù)通信過程中的開銷。批處理模式架構(gòu)部署方便快捷,在很多領(lǐng)域都得到了廣泛應(yīng)用,如輿情分析、文本挖掘、數(shù)據(jù)預(yù)測等。
流處理和批處理作為大數(shù)據(jù)處理的兩種主流方法,各有利弊。在實際數(shù)據(jù)處理過程中應(yīng)該按照用戶的需求選擇使用其中一種,亦或二者結(jié)合。海量數(shù)據(jù)的一個重要的來源是互聯(lián)網(wǎng)(包括網(wǎng)站流量、電子商務(wù)和社交網(wǎng)絡(luò)等),很多互聯(lián)網(wǎng)大數(shù)據(jù)解決方案都是根據(jù)具體業(yè)務(wù)處理的時效性需求定制擬采用的處理模式。如著名的職場社交平臺Linkedin將自身的業(yè)務(wù)劃分為在線處理、近線處理和離線處理三種方式,每一種處理方式所需的時間消耗是不同的。其中,在線處理時間范圍是秒級甚至是毫秒級,所以采用上述的流處理方式;近線處理的時間范圍在分鐘級或者小時級,用戶可自定義采用任何一種處理模式,實際應(yīng)用較多采用批處理或者傳統(tǒng)的OLAP等;離線處理的時間范圍是24小時,即1天之內(nèi)的數(shù)據(jù),可以采用批處理方式有效地節(jié)約內(nèi)存消耗,提升磁盤利用率[6]。
2.2 大數(shù)據(jù)分析挖掘關(guān)鍵技術(shù)
2.2.1 大數(shù)據(jù)機器學(xué)習(xí)方法。傳統(tǒng)的數(shù)據(jù)分析方法有很多,包括數(shù)據(jù)倉庫、多維在線分析(OLAP)和經(jīng)典的數(shù)據(jù)挖掘算法等。隨著信息產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)量的劇增,傳統(tǒng)數(shù)據(jù)分析方法已經(jīng)無法滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析需求。相比之下,大數(shù)據(jù)分析的核心需求就是從數(shù)據(jù)量巨大、結(jié)構(gòu)種類繁多、高速變化的數(shù)據(jù)中挖掘出隱藏的規(guī)律,進而使數(shù)據(jù)發(fā)揮出最大化的價值,這些需求使得傳統(tǒng)的數(shù)據(jù)分析方法不再適用,大數(shù)據(jù)機器學(xué)習(xí)方法的優(yōu)勢逐漸展現(xiàn)出來。
大數(shù)據(jù)時代根據(jù)用戶數(shù)據(jù)量、時效性和價值等的需求選擇機器學(xué)習(xí)算法,并對其加以改造,例如數(shù)據(jù)分類與預(yù)測(決策樹、神經(jīng)網(wǎng)絡(luò)算法等)、聚類分析(KMeans、SOM、FCM算法等)、關(guān)聯(lián)規(guī)則(Apriori、FPGrowth算法等)、時序分析(平穩(wěn)時序分析、非平穩(wěn)時序分析算法等)。機器學(xué)習(xí)的監(jiān)督、半監(jiān)督式學(xué)習(xí)方法是獲取大量數(shù)據(jù)中隱藏價值的核心,這些數(shù)據(jù)既包括結(jié)構(gòu)化的文本數(shù)據(jù)、關(guān)系型數(shù)據(jù)庫,又包括圖片、視頻等非結(jié)構(gòu)化的數(shù)據(jù)。對于大數(shù)據(jù)處理架構(gòu)編程中還需考慮采用時空亞線性算法、外存索引算法、并行算法和眾包算法等來提高分析處理的時空效能、存儲能力、運算能力和信息協(xié)調(diào)能力。
2.2.2 大數(shù)據(jù)可視化方法。傳統(tǒng)的數(shù)據(jù)可視化是通過圖表、報表、儀表盤等方式進行展現(xiàn),這種圖文集合的方式能夠直觀體現(xiàn)數(shù)據(jù)價值。但是這些數(shù)據(jù)價值往往是一次性的,而不是實時的分析結(jié)果,更無法與用戶做出實時交互式查詢,對于一些復(fù)雜的數(shù)據(jù)分析需求可能還需更改程序。傳統(tǒng)的可視化方法在大數(shù)據(jù)環(huán)境下難以適用,因此需借助SPSS、SAS、Weka、Gephi、R等專業(yè)數(shù)據(jù)分析與可視化工具來進行數(shù)據(jù)展現(xiàn)。
R作為大數(shù)據(jù)分析可視化的一款常用工具,本身屬于GNU系統(tǒng)的一個開源軟件,不僅用于統(tǒng)計計算和數(shù)據(jù)繪圖,更包含了大量數(shù)據(jù)挖掘算法,如線性和非線性回歸、統(tǒng)計檢驗、時空序列分析、分類與聚類分析等。開源的R語言插件能夠部署運行在Hadoop集群中,實現(xiàn)跨平臺部署,能夠?qū)DFS分布式文件系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù)進行分析和對HBase中的非關(guān)系型數(shù)據(jù)進行分析,以滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘與可視化需求[7]。
圖5 大數(shù)據(jù)環(huán)境下基建營房綜合管理系統(tǒng)架構(gòu)圖
3.1 基建營房綜合管理系統(tǒng)概述
為了切實貫徹總后首長“要建立基礎(chǔ)數(shù)據(jù)庫,實行信息化聯(lián)網(wǎng)管理”,“通過信息手段,實現(xiàn)房地產(chǎn)保障資源可視掌控、基本建設(shè)投向投量精確合理”的指示要求,積極推進軍隊基建營房向信息化轉(zhuǎn)型發(fā)展,基建營房綜合管理系統(tǒng)擬綜合運用信息化手段構(gòu)建涵蓋基建營房各業(yè)務(wù)領(lǐng)域、滿足各使用對象需求,能為實現(xiàn)工程透明、資產(chǎn)可視、營區(qū)感知、全域管控提供支撐,能形成基于信息系統(tǒng)體系作戰(zhàn)基建營房保障能力,提高基建營房保障效能提供技術(shù)手段的基建營房大系統(tǒng)。
在基建營房綜合管理系統(tǒng)中引入大數(shù)據(jù)關(guān)鍵技術(shù),重點解決基建營房各業(yè)務(wù)領(lǐng)域信息系統(tǒng)數(shù)據(jù)標(biāo)準不一致、業(yè)務(wù)覆蓋不全面、流程管控不透明、輔助決策水平低等問題,實現(xiàn)基建營房信息主導(dǎo)、精確管控、工程透明、科學(xué)決策的目標(biāo),形成基于計算機網(wǎng)絡(luò)環(huán)境下通過信息系統(tǒng)開展?fàn)I房保障和管理的工作模式。
3.2 系統(tǒng)架構(gòu)設(shè)計
大數(shù)據(jù)環(huán)境下的基建營房綜合管理系統(tǒng)架構(gòu)如圖5所示,主要采用分布式計算架構(gòu),結(jié)合并行數(shù)據(jù)庫技術(shù),有效地搭載基建營房各類數(shù)據(jù)(包括業(yè)務(wù)數(shù)據(jù)、控制數(shù)據(jù)等),支持大數(shù)據(jù)的流處理模式和批處理模式,能夠?qū)崿F(xiàn)基建營房海量數(shù)據(jù)存儲與維護和跨層級分布式業(yè)務(wù)處理,為系統(tǒng)功能的柔性重組提供一個松耦合的集成框架[8]。
3.3 數(shù)據(jù)標(biāo)準編制
(1)基建營房大數(shù)據(jù)的來源?;I房大數(shù)據(jù)來源,一方面是全軍展開的“兩項普查”數(shù)據(jù)作為大數(shù)據(jù)分析決策的基礎(chǔ),優(yōu)選出基建營房相關(guān)的基礎(chǔ)數(shù)據(jù)項和數(shù)據(jù)庫表,建立了從計劃、建設(shè)、竣工、移交、住用、日常管理到輔助決策的數(shù)據(jù)關(guān)聯(lián),另一方面是基于軍隊基建營房綜合管理系統(tǒng)實時動態(tài)數(shù)據(jù)采集,包括對業(yè)務(wù)人員、指揮人員、系統(tǒng)訪問人員的行為數(shù)據(jù)和數(shù)字化、智能化設(shè)施設(shè)備實時生成的數(shù)據(jù),這些數(shù)據(jù)是具有大數(shù)據(jù)4V特征的動態(tài)數(shù)據(jù),是基建營房大數(shù)據(jù)時效性和精準性的保證。因此,解決基建營房大數(shù)據(jù)的來源問題是保證數(shù)據(jù)集成真實有效、數(shù)據(jù)分析實時精準、數(shù)據(jù)挖掘科學(xué)合理的前提條件。
(2)基建營房大數(shù)據(jù)的標(biāo)準?;I房數(shù)據(jù)標(biāo)準的統(tǒng)一,是實現(xiàn)數(shù)據(jù)集中管理、融合共享的前提,是建立唯一的基建營房中心數(shù)據(jù)庫與統(tǒng)一挖掘模型的基礎(chǔ)。首先,利用大數(shù)據(jù)并行數(shù)據(jù)庫技術(shù)建立分布式業(yè)務(wù)數(shù)據(jù)庫,為基建營房各個業(yè)務(wù)子系統(tǒng)提供高自由度的數(shù)據(jù)環(huán)境;然后,分別建立業(yè)務(wù)數(shù)據(jù)模型與標(biāo)準模型的映射管理,這里包括結(jié)構(gòu)化數(shù)據(jù)的字段映射、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的語義映射等大數(shù)據(jù)映射標(biāo)準;最后,分別將各業(yè)務(wù)子系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)按照時間節(jié)點橫向劃分,通過多個節(jié)點并行數(shù)據(jù)處理任務(wù),為實現(xiàn)基建營房綜合管理系統(tǒng)大數(shù)據(jù)分析挖掘提供數(shù)據(jù)準備。
3.4 數(shù)據(jù)處理應(yīng)用
基建營房業(yè)務(wù)領(lǐng)域涵蓋面廣、部門交叉性強、處理過程中存在大量的大數(shù)據(jù)存儲與交換,例如包括營房土地、國防工程、住房實力、環(huán)保綠化核防、空余房地產(chǎn)、物資裝備等房地產(chǎn)資源數(shù)據(jù)和包括建設(shè)項目、住用單位、營區(qū)坐落、設(shè)施設(shè)備、室外管線、綠化資源、儲備營區(qū)應(yīng)急保障能力以及五圖一影等的日常維護保障數(shù)據(jù)。這些數(shù)據(jù)規(guī)模遠遠超過GB級,達到TB級。另外,這些數(shù)據(jù)結(jié)構(gòu)復(fù)雜,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)(如地理信息、衛(wèi)星影像、三維模型等數(shù)據(jù)),遠遠超出普通管理信息系統(tǒng)數(shù)據(jù)處理能力的范圍,必須借助大數(shù)據(jù)技術(shù)才能對其進行有效的存儲和分析。因此,解決基建營房大數(shù)據(jù)的處理問題是保證數(shù)據(jù)存儲與交換的可靠性、數(shù)據(jù)分析與預(yù)測的科學(xué)性和先進性的核心因素。
在基建營房綜合管理系統(tǒng)中,所有的業(yè)務(wù)處理都是通過數(shù)據(jù)的流動來實現(xiàn)的,包括子系統(tǒng)內(nèi)部數(shù)據(jù)流動和跨系統(tǒng)分布式的數(shù)據(jù)流動?;I房綜合管理系統(tǒng)的業(yè)務(wù)數(shù)據(jù)中除了結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)表單外,還有很多文檔、方案等半結(jié)構(gòu)化數(shù)據(jù)和地理信息、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。而且各類的數(shù)據(jù)又存儲在不同系統(tǒng)、不同數(shù)據(jù)庫、不同服務(wù)器、不同的數(shù)字化裝備設(shè)備中。所以,在建立集成中心數(shù)據(jù)庫時采用服務(wù)器的分布式存儲與控制,這種方式會大大提高系統(tǒng)穩(wěn)定性且減少系統(tǒng)響應(yīng)時間,實現(xiàn)更穩(wěn)定的信息化保障方式和更好的用戶體驗。同時,還應(yīng)當(dāng)考慮服務(wù)器集群的分級、分類構(gòu)建,半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)在不同類型服務(wù)器中的分片存儲與處理,異地數(shù)據(jù)加密與備份等。
由于基建營房業(yè)務(wù)需求廣泛和數(shù)據(jù)多樣化的特點,需要對基建營房大數(shù)據(jù)處理策略進行研究,目標(biāo)是構(gòu)建一個滿足能存儲海量數(shù)據(jù)、自主定時定量、高度適應(yīng)、容錯一致性可調(diào)的大數(shù)據(jù)集成環(huán)境,明確數(shù)據(jù)動態(tài)監(jiān)管過程中的數(shù)據(jù)粒度與數(shù)據(jù)實時性,不同的數(shù)據(jù)類型指定動態(tài)監(jiān)管方式也不同。例如國防工程日常維護設(shè)施設(shè)備監(jiān)控數(shù)據(jù)項,這種數(shù)據(jù)粒度細、實時性極強。全軍各種設(shè)施設(shè)備每個參數(shù)每秒鐘的動態(tài)變化是不可能記錄到系統(tǒng)數(shù)據(jù)庫中的,只能存在于智能設(shè)備的內(nèi)部存儲中??偛考壖汝P(guān)注戰(zhàn)時保障數(shù)據(jù)的精確定位與實時反饋,又關(guān)注各戰(zhàn)區(qū)的年度、季度、任務(wù)消耗統(tǒng)計值的橫向比較與決策分析,所以如何利用智能設(shè)備接口調(diào)用實時數(shù)據(jù)是實現(xiàn)動態(tài)數(shù)據(jù)監(jiān)管的基礎(chǔ),而且集成中心數(shù)據(jù)庫的動態(tài)數(shù)據(jù)抽取、轉(zhuǎn)換、加載過程(ETL)的時間范圍須謹慎設(shè)計并加以控制。
3.5 數(shù)據(jù)分析與挖掘
解決大數(shù)據(jù)的挖掘問題是解決數(shù)據(jù)之間聯(lián)系的問題,通過問題分析原因,通過現(xiàn)象預(yù)測結(jié)果,打破業(yè)務(wù)數(shù)據(jù)之間的屏障,使之統(tǒng)一化、透明化?;I房各領(lǐng)域內(nèi)業(yè)務(wù)處理過程中,會出現(xiàn)許多決策問題,例如通過對基建營房工程項目三年滾動計劃(建設(shè)、預(yù)備、儲備)數(shù)據(jù)的挖掘分析,預(yù)測工程建設(shè)中的違規(guī)違紀,實現(xiàn)工程項目定量、定向管控安排,防止工程建設(shè)項目中的腐敗問題;通過對住房管理數(shù)據(jù)挖掘分析,提供年度、季度住房人員、房屋面積、房源租賃信息等計量值,提供住房管理的實時“陽光維護”,有效解決并預(yù)防住房“三超”(超規(guī)模、超投資、超面積)問題;通過對國防工程戰(zhàn)場設(shè)施實時動態(tài)監(jiān)控數(shù)據(jù)分析,預(yù)測不同環(huán)境下的各級工程維護管理費年度消耗標(biāo)準,解決國防工程維護管理消耗“不明確”的問題;通過對軍隊基建營房綜合管理系統(tǒng)中業(yè)務(wù)人員、指揮人員、系統(tǒng)訪問人員的行為(包括瀏覽、留言等操作)數(shù)據(jù)挖掘分析,提供可靠的各類人群數(shù)據(jù)模型,分析不同人群對房地產(chǎn)資源政策制度的觀點和對未來住房政策的期望,科學(xué)有效地推進軍隊住房制度改革等。這些問題類型復(fù)雜,專業(yè)性強,計算量大,傳統(tǒng)的解決方式是依靠經(jīng)驗判斷和人工完成,然而這種方式過多依賴于業(yè)務(wù)人員和決策人員的能力素質(zhì),缺乏客觀的數(shù)據(jù)定量分析作為支持,局限于主觀性、盲目性和偶然性。因此,解決基建營房大數(shù)據(jù)的挖掘問題是解決基建營房業(yè)務(wù)領(lǐng)域現(xiàn)實問題的決定因素。
在確定基建營房綜合管理系統(tǒng)的系統(tǒng)架構(gòu)、數(shù)據(jù)標(biāo)準和數(shù)據(jù)處理的基礎(chǔ)上,完成對數(shù)據(jù)的智能化處理,即建立分級索引庫和挖掘模型庫,實現(xiàn)對海量數(shù)據(jù)抽取、轉(zhuǎn)換、加載、搜索、挖掘、分析和預(yù)測。
著眼新時期軍隊基建營房發(fā)展,按照全面建設(shè)現(xiàn)代后勤總體部署,本文以大數(shù)據(jù)為技術(shù)基礎(chǔ),通過對大數(shù)據(jù)關(guān)鍵技術(shù)在基建營房綜合管理系統(tǒng)中應(yīng)用研究,介紹分布式計算架構(gòu)、并行數(shù)據(jù)庫技術(shù)、大數(shù)據(jù)處理模式等大數(shù)據(jù)處理關(guān)鍵技術(shù)和大規(guī)模機器學(xué)習(xí)、統(tǒng)計分析可視化等大數(shù)據(jù)分析挖掘關(guān)鍵技術(shù),提出大數(shù)據(jù)環(huán)境下基建營房綜合管理系統(tǒng)架構(gòu)、數(shù)據(jù)標(biāo)準、數(shù)據(jù)處理、分析挖掘等應(yīng)用,實現(xiàn)充分有效地利用基建營房數(shù)據(jù)資源并提供資源動態(tài)分析預(yù)測,為優(yōu)化基建營房資源配置、強化營房業(yè)務(wù)科學(xué)管理、加快推進建設(shè)現(xiàn)代營房、切實轉(zhuǎn)變基建營房保障模式提供理論基礎(chǔ),進一步增強核心保障能力和提升質(zhì)量效益。
[1]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域—大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2013,27(6):647-657.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[3]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國防科技,2013,34(2):10-77.
[4]Frankel F,Reid R.Big Data:Distilling meaning from data[J]. Nature,2008,455(7 209):1-136.
[5]Silva Y N,Reed J M.Exploiting MapReduce-based similarity joins[A].Proc of SIGMOD 2012[C].New York,2012.
[6]Yang Lai,Shi Zhongzhi.An efficient data mining framework on Hadoop using Java persistence API[A].Proc of CIT 2010[C]. Piscataway,NJ,2010.
[7]Apache.Apache Mahout:Scalable machine learning and data mining[EB/OL].http://mahout.apache org.
[8]賈俊芳,張日權(quán).基于分布式的大數(shù)據(jù)集聚類分析[J].計算機工程與應(yīng)用,2008,44(28):133-135.
Study on Application of Key Big Data Technologies in Capital Construction and Barrack Comprehensive Management System
GuoYudong,LiShenglin
(LogisticalEngineeringUniversity,Chongqing 401331,China)
In this paper,we mainly studied the key big data processing and mining technologies,then in connection with the application environment of the capital construction and barrack comprehensive management system,elaborated on the application of the big data technologiesinthearchitecture,datastandard,dataprocessing,anddatamining,etc.,ofthesystem.
bigdatamining;capitalconstructionandbarrack;informationmanagementsystem
E235
A
1005-152X(2016)05-0169-07
10.3969/j.issn.1005-152X.2016.05.037
2016-04-14
郭宇棟(1987-),男,遼寧遼陽人,后勤工程學(xué)院研究生五隊博士研究生,研究方向:后勤信息化。