◎北京神舟航天軟件技術(shù)有限公司 吳彥軍 丘斌 王占峰 嚴(yán)慶江
隨著移動(dòng)互聯(lián)網(wǎng)、智能設(shè)備、傳感器、無線通信等技術(shù)的飛速發(fā)展,各行各業(yè)產(chǎn)生的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)類型也各式各樣,對(duì)于數(shù)據(jù)的傳輸、存儲(chǔ)和分析提出了更高的挑戰(zhàn)。為了應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn)以及充分利用大量數(shù)據(jù)所帶來的價(jià)值,NoSQL數(shù)據(jù)庫、云平臺(tái)、數(shù)據(jù)挖掘、人工智能等技術(shù)應(yīng)運(yùn)而生,并廣泛應(yīng)用于公安、金融、政府等各個(gè)領(lǐng)域中。
大數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)的海量上,還在于其數(shù)據(jù)類型的復(fù)雜性、多樣性。不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括圖片、文檔、視頻等非結(jié)構(gòu)化數(shù)據(jù)。與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)具有數(shù)量大、增長(zhǎng)速度快、種類多、價(jià)值密度低等特性。
大數(shù)據(jù)的爆發(fā)意味著機(jī)遇,同時(shí)也帶來了挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)處理手段已經(jīng)無法滿足大數(shù)據(jù)的海量實(shí)時(shí)處理需求,需要采用新一代的信息技術(shù)來應(yīng)對(duì)。大數(shù)據(jù)技術(shù)主要分為五類,如表1所示。
某政府部門需要對(duì)轄區(qū)內(nèi)工業(yè)企業(yè)的經(jīng)濟(jì)運(yùn)行狀況進(jìn)行統(tǒng)計(jì),并在統(tǒng)計(jì)數(shù)據(jù)基礎(chǔ)上對(duì)未來的經(jīng)濟(jì)走勢(shì)進(jìn)行預(yù)測(cè),對(duì)重大項(xiàng)目進(jìn)行審批和監(jiān)管,以便對(duì)工業(yè)企業(yè)進(jìn)行有效管理,并針對(duì)不同行業(yè)提供有針對(duì)性的金融支持或產(chǎn)業(yè)扶持政策。
事實(shí)上,企業(yè)每個(gè)月都需要給統(tǒng)計(jì)局上報(bào)相應(yīng)的經(jīng)濟(jì)運(yùn)行數(shù)據(jù),包括能源消耗量、原料消耗量、工業(yè)總產(chǎn)值等,但是數(shù)據(jù)的時(shí)效性不高,用于經(jīng)濟(jì)運(yùn)行情況監(jiān)控、預(yù)警預(yù)測(cè)、輔助調(diào)控區(qū)域經(jīng)濟(jì)的價(jià)值不大。
隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,利用傳感器、視頻監(jiān)控、分布式數(shù)據(jù)庫等工具與技術(shù),可以多途徑實(shí)時(shí)了解企業(yè)生產(chǎn)經(jīng)營(yíng)情況,準(zhǔn)確統(tǒng)計(jì)企業(yè)經(jīng)濟(jì)運(yùn)行情況,可大幅提高工作效率。
該部門需要收集的數(shù)據(jù)包括企業(yè)申報(bào)的經(jīng)濟(jì)數(shù)據(jù)、項(xiàng)目數(shù)據(jù),企業(yè)的實(shí)時(shí)用水用電等能耗數(shù)據(jù),以及已批準(zhǔn)項(xiàng)目的建設(shè)現(xiàn)場(chǎng)視頻數(shù)據(jù)。
表1 大數(shù)據(jù)技術(shù)分類
通過整合傳感器、云平臺(tái)、BI工具等軟硬件工具,搭建一套完整的工業(yè)企業(yè)經(jīng)濟(jì)運(yùn)行情況統(tǒng)計(jì)與預(yù)測(cè)系統(tǒng)。其系統(tǒng)總體架構(gòu)如圖2所示。
系統(tǒng)分為采集層、傳輸層、存儲(chǔ)層、集成層、應(yīng)用層、展示層和用戶層。采集層包括智能終端設(shè)備、視頻監(jiān)控設(shè)備和客戶端;傳輸層包括有線網(wǎng)絡(luò)和無線網(wǎng)絡(luò);存儲(chǔ)層包括關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫及數(shù)據(jù)倉庫;集成層包括數(shù)據(jù)抽取、數(shù)據(jù)加載、數(shù)據(jù)清洗、數(shù)據(jù)交換及數(shù)據(jù)整合;應(yīng)用層包括應(yīng)用開發(fā)與集成平臺(tái)和項(xiàng)目申報(bào)、項(xiàng)目審批等應(yīng)用模塊;展示層包括BI展示、GIS展示及視頻展示;用戶層包括企業(yè)用戶和省、市、縣三級(jí)政府用戶。
為了獲取基礎(chǔ)數(shù)據(jù),數(shù)據(jù)采集來源包括智能終端設(shè)備、視頻監(jiān)控設(shè)備和客戶端。系統(tǒng)在重點(diǎn)企業(yè)安裝水、電、氣等智能終端設(shè)備,在重點(diǎn)項(xiàng)目建設(shè)現(xiàn)場(chǎng)安裝視頻監(jiān)控設(shè)備,同時(shí)由企業(yè)指定人員在客戶端定期上報(bào)能耗、經(jīng)營(yíng)等數(shù)據(jù)。
圖2 系統(tǒng)總體架構(gòu)圖
圖3 利用Matlab搭建的BP神經(jīng)網(wǎng)絡(luò)模型
系統(tǒng)采集的數(shù)據(jù)不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。為了實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的高效存儲(chǔ),系統(tǒng)采用的存儲(chǔ)工具包括結(jié)構(gòu)化數(shù)據(jù)庫MySQL以及非結(jié)構(gòu)化數(shù)據(jù)庫HDFS。其中,企業(yè)基本信息、經(jīng)濟(jì)運(yùn)行數(shù)據(jù)、水電氣等物聯(lián)網(wǎng)數(shù)據(jù)都保存在MySQL數(shù)據(jù)庫中,而項(xiàng)目申報(bào)中的附件、圖片及項(xiàng)目現(xiàn)場(chǎng)視頻等保存在HDFS中。
針對(duì)來自智能終端設(shè)備、視頻監(jiān)控設(shè)備和客戶端的數(shù)據(jù),系統(tǒng)搭建了數(shù)據(jù)倉庫,并采用了ETL工具,實(shí)現(xiàn)了多源數(shù)據(jù)的抽取、轉(zhuǎn)化和加載,便于數(shù)據(jù)的后期分析與展示。
對(duì)于數(shù)據(jù)倉庫中的數(shù)據(jù),系統(tǒng)采用BI工具進(jìn)行展示。BI工具中配有地圖,包括矢量地圖和GIS地圖。矢量地圖可到區(qū)(縣)一級(jí),可交互顯示各地區(qū)的統(tǒng)計(jì)分析;GIS地圖可標(biāo)注園區(qū)、企業(yè)、攝像頭位置,可動(dòng)態(tài)展示所標(biāo)注節(jié)點(diǎn)的信息。通過對(duì)工業(yè)增加值及增速、主要產(chǎn)品產(chǎn)量、財(cái)務(wù)指標(biāo)等數(shù)據(jù)進(jìn)行預(yù)先配置,分析各所有制形式、10大行業(yè)、地區(qū)(省、市、區(qū)縣)、國(guó)標(biāo)行業(yè)、時(shí)間、企業(yè)分類等維度的總體經(jīng)濟(jì)情況。
1、基于計(jì)算機(jī)視覺的視頻分析
由于視頻監(jiān)控的目的是為了掌握項(xiàng)目施工進(jìn)度,為項(xiàng)目的各個(gè)節(jié)點(diǎn)驗(yàn)收提供數(shù)據(jù)支持。而很多時(shí)候項(xiàng)目現(xiàn)場(chǎng)沒有變化,視頻信息量又很大,耗費(fèi)的流量費(fèi)較多。為了降低視頻監(jiān)控流量費(fèi)用,可以在項(xiàng)目現(xiàn)場(chǎng)發(fā)生變化的時(shí)候才保存視頻信息。為了自動(dòng)地進(jìn)行視頻數(shù)據(jù)的智能存儲(chǔ),采用計(jì)算機(jī)視覺技術(shù),通過對(duì)視頻信息的實(shí)時(shí)解讀,實(shí)時(shí)保存現(xiàn)場(chǎng)發(fā)生變化的視頻信息,減少流量費(fèi)用并減輕大量的視頻數(shù)據(jù)信息對(duì)服務(wù)器存儲(chǔ)的壓力。
2、基于BP神經(jīng)網(wǎng)絡(luò)的經(jīng)濟(jì)預(yù)測(cè)
人工神經(jīng)網(wǎng)絡(luò)對(duì)信息的處理具有自組織、自學(xué)習(xí)的特點(diǎn),便于聯(lián)想、綜合和推廣。神經(jīng)網(wǎng)絡(luò)的神經(jīng)元之間的連接強(qiáng)度用權(quán)值大小來表示,這種權(quán)值可以通過對(duì)訓(xùn)練樣本的學(xué)習(xí)而不斷變化,而且隨著訓(xùn)練樣本量的增加和反復(fù)學(xué)習(xí),這些神經(jīng)元之間的連接強(qiáng)度會(huì)不斷增加,從而提高神經(jīng)元對(duì)這些樣本特征的反應(yīng)靈敏度。其中BP網(wǎng)絡(luò)是最著名的多層網(wǎng)絡(luò)學(xué)習(xí)算法,同時(shí)利用Matlab建模,建立的模型如圖3所示。
在不限制隱層節(jié)點(diǎn)數(shù)的情況下,兩層的BP網(wǎng)絡(luò)可以實(shí)現(xiàn)任意非線性映射,所以BP神經(jīng)網(wǎng)絡(luò)包含輸入層、一個(gè)隱層和輸出層。BP神經(jīng)網(wǎng)絡(luò)采用的激活函數(shù)為Sigmoid函數(shù)。通過輸入數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到神經(jīng)元之間的連接權(quán)重以及每個(gè)功能神經(jīng)元的閾值。
該政府部門工作職能包括投資項(xiàng)目審批以及對(duì)重點(diǎn)投資項(xiàng)目進(jìn)行補(bǔ)貼。為了對(duì)所補(bǔ)貼項(xiàng)目進(jìn)度進(jìn)行管理,項(xiàng)目承擔(dān)方需要在關(guān)鍵項(xiàng)目進(jìn)度節(jié)點(diǎn)上上報(bào)項(xiàng)目進(jìn)展情況。同時(shí)為了防止項(xiàng)目上報(bào)情況不符,系統(tǒng)在重點(diǎn)建設(shè)項(xiàng)目現(xiàn)場(chǎng)安裝了視頻監(jiān)控,能夠?qū)崟r(shí)查看項(xiàng)目施工進(jìn)度情況。通過多渠道數(shù)據(jù)源的綜合分析,政府管理部門能夠?qū)χ攸c(diǎn)項(xiàng)目進(jìn)度進(jìn)行有效的監(jiān)管,保證國(guó)家補(bǔ)助資金的精準(zhǔn)投放和有效使用。
基于該平臺(tái),能夠?qū)ν顿Y項(xiàng)目的申報(bào)、審批進(jìn)行有效的數(shù)字化管理。同時(shí)在項(xiàng)目審批后,通過項(xiàng)目現(xiàn)場(chǎng)的視頻監(jiān)控能夠?qū)崟r(shí)查看項(xiàng)目建設(shè)進(jìn)度,對(duì)重大投資項(xiàng)目進(jìn)行有效的監(jiān)管。
面對(duì)經(jīng)濟(jì)結(jié)構(gòu)調(diào)整和產(chǎn)業(yè)轉(zhuǎn)型的壓力,政府對(duì)于工業(yè)能耗及綜合利用提出了更高的要求,本項(xiàng)目建立了符合地區(qū)實(shí)際的統(tǒng)一、科學(xué)、全面的節(jié)能降耗監(jiān)測(cè)指標(biāo)體系。在能耗統(tǒng)計(jì)和實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)基礎(chǔ)上,全面建立涉及能源生產(chǎn)、消費(fèi)、流通、庫存、利用效率、綜合利用的工業(yè)企業(yè)能耗數(shù)據(jù)指標(biāo)體系。
利用水、電、氣等相關(guān)智能設(shè)備采集的數(shù)據(jù),分別根據(jù)綜合指標(biāo)(如萬元工業(yè)產(chǎn)值綜合能耗、萬元工業(yè)增加值綜合能耗、萬元工業(yè)增加值綜合水耗)和單項(xiàng)指標(biāo)(如發(fā)電標(biāo)準(zhǔn)能耗、碳素產(chǎn)品單位能耗、鐵合金單位產(chǎn)品冶煉電耗)進(jìn)行統(tǒng)計(jì),掌握企業(yè)的整體能源消耗水平及增長(zhǎng)趨勢(shì),為節(jié)能降耗目標(biāo)完成提供數(shù)據(jù)支撐。企業(yè)能耗統(tǒng)計(jì)如圖4所示。
圖4 企業(yè)能耗統(tǒng)計(jì)
基于該系統(tǒng),政府部門能全面掌握全省工業(yè)運(yùn)行的現(xiàn)狀以及變化趨勢(shì),能從行業(yè)、地域、工業(yè)園區(qū)、產(chǎn)品、企業(yè)等不同的角度展現(xiàn)全省工業(yè)經(jīng)濟(jì)運(yùn)行情況。工業(yè)經(jīng)濟(jì)運(yùn)行監(jiān)測(cè)包含重點(diǎn)企業(yè)運(yùn)行監(jiān)測(cè)、園區(qū)運(yùn)行監(jiān)測(cè)、行業(yè)運(yùn)行監(jiān)測(cè)、重點(diǎn)產(chǎn)品運(yùn)行監(jiān)測(cè)等,是精細(xì)化的工業(yè)經(jīng)濟(jì)運(yùn)行監(jiān)測(cè)和精準(zhǔn)化經(jīng)濟(jì)運(yùn)行綜合協(xié)調(diào)的核心支撐能力之一。
企業(yè)按行業(yè)劃分主要包括:煤炭、電力、化工、冶金、有色、輕紡、機(jī)械、建材、醫(yī)藥等行業(yè)。按行業(yè)統(tǒng)計(jì)的各行業(yè)工業(yè)增加值及增速如圖5所示。
通過開發(fā)面向工業(yè)經(jīng)濟(jì)運(yùn)行的預(yù)警規(guī)則和知識(shí)模型,對(duì)各項(xiàng)管理指標(biāo)能夠設(shè)置預(yù)警,并實(shí)現(xiàn)主要指標(biāo)數(shù)據(jù)預(yù)測(cè)功能。在運(yùn)行監(jiān)測(cè)業(yè)務(wù)門戶中,展示工業(yè)運(yùn)行中超出預(yù)警線的業(yè)務(wù)指標(biāo),使領(lǐng)導(dǎo)可以看到超出預(yù)警線的指標(biāo),及時(shí)針對(duì)出現(xiàn)的問題提出解決方案。
同時(shí)對(duì)工業(yè)經(jīng)濟(jì)的預(yù)測(cè)主要考察兩個(gè)指標(biāo):工業(yè)增加值和工業(yè)增加值增速。利用建立的模型對(duì)整個(gè)省級(jí)及各地級(jí)市的工業(yè)增加值和工業(yè)增加值增速進(jìn)行預(yù)測(cè),得到相關(guān)預(yù)測(cè)曲線。某地區(qū)2018年的工業(yè)增加值及工業(yè)增加值增速預(yù)測(cè)值如圖6所示。
同時(shí)隨著數(shù)據(jù)量的不斷增加,模型需要進(jìn)行及時(shí)訓(xùn)練,從而使預(yù)測(cè)結(jié)果具有更大的可信度。
圖5 各行業(yè)工業(yè)增加值及增速
圖6 某地區(qū)2018年的工業(yè)增加值及工業(yè)增加值增速預(yù)測(cè)值
通過整合傳感器、無線通信、分布式數(shù)據(jù)庫等大數(shù)據(jù)技術(shù),實(shí)現(xiàn)了多數(shù)據(jù)源的高效采集、傳輸、存儲(chǔ)和分析,搭建了一套用于重大投資項(xiàng)目管理、企業(yè)節(jié)能降耗監(jiān)測(cè)、經(jīng)濟(jì)運(yùn)行監(jiān)控與預(yù)測(cè)的工業(yè)大數(shù)據(jù)管理系統(tǒng)。利用該系統(tǒng)不僅服務(wù)于現(xiàn)有政府項(xiàng)目管理、經(jīng)濟(jì)統(tǒng)計(jì)工作,還能夠?qū)?jīng)濟(jì)形勢(shì)進(jìn)行預(yù)測(cè),為企業(yè)轉(zhuǎn)型、政府產(chǎn)業(yè)機(jī)構(gòu)調(diào)整提供技術(shù)支撐。同時(shí)系統(tǒng)保留二期的擴(kuò)展能力,加強(qiáng)與統(tǒng)計(jì)、電力、稅務(wù)、銀行等部門的企業(yè)數(shù)據(jù)共享、關(guān)聯(lián)比對(duì)和分析,充分挖掘企業(yè)動(dòng)態(tài)數(shù)據(jù)價(jià)值,改進(jìn)提升經(jīng)濟(jì)運(yùn)行監(jiān)測(cè)、預(yù)測(cè)和風(fēng)險(xiǎn)預(yù)警,從而帶動(dòng)工業(yè)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展。