張娟萍
(山西工程科技職業(yè)大學(xué),山西 晉中 030619)
大數(shù)據(jù)是數(shù)字化時(shí)代的新型戰(zhàn)略資源,是當(dāng)今信息化社會(huì)最重要的生產(chǎn)力要素。在全國(guó)推進(jìn)“交通強(qiáng)國(guó)”和“數(shù)字交通”戰(zhàn)略實(shí)施的重要?dú)v史時(shí)期,推動(dòng)我國(guó)綜合交通運(yùn)輸大數(shù)據(jù)體系發(fā)展已成為新時(shí)代交通運(yùn)輸信息化、數(shù)字化發(fā)展的核心內(nèi)容和關(guān)鍵所在。在利用大數(shù)據(jù)技術(shù)促進(jìn)綜合交通運(yùn)輸體系發(fā)展方面,一些發(fā)達(dá)國(guó)家及發(fā)展中國(guó)家都已經(jīng)開(kāi)展了諸多前沿研究和探索應(yīng)用[1,2]。在當(dāng)前我國(guó)現(xiàn)代綜合交通運(yùn)輸體系構(gòu)建的關(guān)鍵時(shí)期,借鑒已有經(jīng)驗(yàn),結(jié)合交通運(yùn)輸行業(yè)特點(diǎn),建設(shè)和完善大數(shù)據(jù)體系對(duì)促進(jìn)綜合運(yùn)輸現(xiàn)代化發(fā)展具有非常積極的作用。
在百度百科中,大數(shù)據(jù)(big data)是IT行業(yè)術(shù)語(yǔ),是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)[3]。IBM提出了大數(shù)據(jù)“5V”特點(diǎn)[4,5],即Volume(大量),Variety(多樣),Value(價(jià)值密度),Velocity(高速)和Veracity(真實(shí)性)。
相比于IT領(lǐng)域大數(shù)據(jù)特征,綜合交通運(yùn)輸行業(yè)大數(shù)據(jù)具有更鮮明的特征。
1) 數(shù)據(jù)量大。各類動(dòng)靜態(tài)管理對(duì)象和管理要素全周期數(shù)字化過(guò)程中,各類結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)構(gòu)成了綜合交通運(yùn)輸行業(yè)的大數(shù)據(jù)。隨著發(fā)展,數(shù)據(jù)量呈現(xiàn)出數(shù)量級(jí)式、階躍式增加。
2) 數(shù)據(jù)類型多。綜合交通運(yùn)輸系統(tǒng)中既有自身產(chǎn)生的數(shù)據(jù),也有外部交換共享所得的數(shù)據(jù);既有靜態(tài)數(shù)據(jù),又有動(dòng)態(tài)實(shí)時(shí)數(shù)據(jù);既有字符、數(shù)值等結(jié)構(gòu)化數(shù)據(jù),又有視頻圖像非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)類型多種多樣。
3) 處理速度快。在綜合交通運(yùn)輸領(lǐng)域,各類數(shù)據(jù)數(shù)量隨時(shí)間推移而快速增長(zhǎng)。海量、快速的數(shù)據(jù)積累,勢(shì)必要求更加高速、更加準(zhǔn)確的數(shù)據(jù)分析與應(yīng)用。只有實(shí)現(xiàn)快速化數(shù)據(jù)檢索和分析,才能保證數(shù)據(jù)的生命力。
4) 價(jià)值密度低。隨著行業(yè)信息化、網(wǎng)絡(luò)化、數(shù)字化的發(fā)展,交通運(yùn)輸行業(yè)數(shù)據(jù)在大量積累,與此同時(shí),無(wú)效數(shù)據(jù)、冗余數(shù)據(jù)也在大量增加,數(shù)值質(zhì)量問(wèn)題愈發(fā)突出,數(shù)據(jù)價(jià)值密度的高低與數(shù)據(jù)總量呈現(xiàn)出反比關(guān)系。
5) 真實(shí)性較差。由于各種原因,綜合交通運(yùn)輸行業(yè)仍然存在“數(shù)出多源”、“一數(shù)多源”的現(xiàn)象,數(shù)據(jù)的唯一性、準(zhǔn)確性、完整性、真實(shí)性仍有待提高。數(shù)據(jù)“質(zhì)”與“量”的矛盾仍然存在。
大數(shù)據(jù)是信息技術(shù)發(fā)展的必然產(chǎn)物[6],更是行業(yè)數(shù)字化、信息化發(fā)展不可逾越的新階段。伴隨著數(shù)字化、網(wǎng)絡(luò)化和智能化發(fā)展的新態(tài)勢(shì),綜合交通運(yùn)輸大數(shù)據(jù)的發(fā)展也體現(xiàn)出了更加豐富的內(nèi)涵。
1) 交通要素?cái)?shù)字化。利用物聯(lián)網(wǎng)感知、數(shù)字建模等技術(shù),推動(dòng)交通運(yùn)輸基礎(chǔ)設(shè)施、交通運(yùn)輸載運(yùn)裝備、交通運(yùn)輸管理服務(wù)對(duì)象與事項(xiàng)的全面數(shù)字化,實(shí)現(xiàn)各類交通要素的數(shù)字化構(gòu)建,打造“數(shù)字化交通要素”[7]。
2) 多網(wǎng)融合互聯(lián)化。利用光纖網(wǎng)、移動(dòng)通信網(wǎng)、無(wú)線傳感網(wǎng)、衛(wèi)星通信網(wǎng)等多種信息通信技術(shù),通過(guò)“有線+無(wú)線”、“公網(wǎng)+專網(wǎng)”等多種模式組合,促進(jìn)各類交通運(yùn)輸業(yè)務(wù)與信息系統(tǒng)互聯(lián)互通和聯(lián)網(wǎng)運(yùn)行。
3) 綜合應(yīng)用智能化。在數(shù)據(jù)開(kāi)放與應(yīng)用層面,不同業(yè)務(wù)領(lǐng)域?qū)崿F(xiàn)了數(shù)據(jù)的深度挖掘應(yīng)用,推動(dòng)了綜合交通運(yùn)輸行業(yè)管理、公共服務(wù)更加精準(zhǔn)化、智能化和科學(xué)化,支撐了業(yè)務(wù)協(xié)同和融合創(chuàng)新應(yīng)用。
“十三五”時(shí)期以來(lái),交通運(yùn)輸部在大數(shù)據(jù)頂層規(guī)劃與指引方面出臺(tái)了多個(gè)綱領(lǐng)性文件和相關(guān)政策性文件,為行業(yè)大數(shù)據(jù)發(fā)展指明了發(fā)展方向和路徑,從管理和技術(shù)兩個(gè)方面不斷完善制度體系,為綜合交通運(yùn)輸大數(shù)據(jù)發(fā)展奠定了良好基礎(chǔ)。從體制機(jī)制來(lái)看,交通運(yùn)輸部、各省(市)交通運(yùn)輸主管部門都設(shè)有專職信息中心、職能部門或者委托省級(jí)政務(wù)信息化主管部門承擔(dān)大數(shù)據(jù)發(fā)展規(guī)劃、建設(shè)等相關(guān)職能。在多方有利因素的保障下,交通運(yùn)輸行業(yè)數(shù)據(jù)建設(shè)取得了理想成果:交通運(yùn)輸基礎(chǔ)設(shè)施及載運(yùn)工具數(shù)字化監(jiān)測(cè)水平顯著提高,為行業(yè)現(xiàn)代化進(jìn)程奠定了扎實(shí)基礎(chǔ);國(guó)家綜合交通運(yùn)輸信息平臺(tái)建設(shè)取得新進(jìn)展,行業(yè)管理水平和管理效率得到了大幅提高,基于大數(shù)據(jù)的決策和監(jiān)管水平明顯提升;在公共服務(wù)領(lǐng)域、物流服務(wù)方面,數(shù)字化進(jìn)程明顯加快,運(yùn)輸效率和服務(wù)水平顯著提升。
經(jīng)過(guò)多年的努力,在交通運(yùn)輸信息化建設(shè)方面,我們?nèi)〉昧溯^為理想的成績(jī),也積累了很多寶貴經(jīng)驗(yàn),但在大數(shù)據(jù)建設(shè)、應(yīng)用管理方面仍存在一些問(wèn)題。信息系統(tǒng)建設(shè)需求貼合度不高,應(yīng)用系統(tǒng)與數(shù)據(jù)建設(shè)相對(duì)分散,信息孤島仍然存在;數(shù)據(jù)和信息系統(tǒng)建設(shè)中標(biāo)準(zhǔn)采用不夠理想,數(shù)據(jù)共享困難;數(shù)字質(zhì)量不高,缺乏統(tǒng)一的數(shù)據(jù)治理體系,數(shù)字資源未能實(shí)現(xiàn)向數(shù)據(jù)資產(chǎn)的良性轉(zhuǎn)化。大數(shù)據(jù)整合、共享、開(kāi)放、應(yīng)用,特別是涉及數(shù)據(jù)安全、增值應(yīng)用等方面相關(guān)標(biāo)準(zhǔn)規(guī)范有待進(jìn)一步完善;此外,涉及大數(shù)據(jù)全壽命周期的管理體制機(jī)制有待完善,亟需建立完善有效的跟蹤監(jiān)督和激勵(lì)約束機(jī)制。
綜合交通運(yùn)輸大數(shù)據(jù)體系是復(fù)雜系統(tǒng),在具體建設(shè)中涉及到很多問(wèn)題。主要的建設(shè)內(nèi)容包括大數(shù)據(jù)中心、支撐保障體系和大數(shù)據(jù)支撐技術(shù)平臺(tái)建設(shè)。
綜合交通運(yùn)輸大數(shù)據(jù)體系基于大數(shù)據(jù)標(biāo)準(zhǔn)及規(guī)范體系、運(yùn)維及安全管理體系兩個(gè)保障體系,由數(shù)據(jù)源和數(shù)據(jù)治理及交換共享體系構(gòu)建大數(shù)據(jù)中心,通過(guò)大數(shù)據(jù)支撐技術(shù),實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用。
圖1 交通運(yùn)輸大數(shù)據(jù)體系總體架構(gòu)
3.2.1 大數(shù)據(jù)中心
基于云計(jì)算架構(gòu),接入、整合、融合交通運(yùn)輸行業(yè)內(nèi)外部綜合交通大數(shù)據(jù),并提供數(shù)據(jù)存儲(chǔ)、預(yù)處理等服務(wù),建成行業(yè)全要素?cái)?shù)據(jù)的數(shù)據(jù)資源匯聚共享池;梳理行業(yè)內(nèi)外綜合交通大數(shù)據(jù)資源,形成統(tǒng)一的省級(jí)綜合交通大數(shù)據(jù)資源目錄;建設(shè)綜合交通大數(shù)據(jù)治理系統(tǒng),實(shí)現(xiàn)“交換共享、資源目錄、質(zhì)量管控、平臺(tái)監(jiān)控”四位一體的數(shù)據(jù)治理體系,保障數(shù)據(jù)資源可查詢、可追溯、可共享、可管理。
3.2.2 支撐保障體系
1) 在國(guó)家、行業(yè)、省級(jí)相關(guān)標(biāo)準(zhǔn)規(guī)范體系框架下,建立省級(jí)綜合交通運(yùn)輸信息化建設(shè)標(biāo)準(zhǔn)規(guī)范體系,加強(qiáng)關(guān)鍵標(biāo)準(zhǔn)規(guī)范研究,加大標(biāo)準(zhǔn)規(guī)范宣傳貫徹力度,開(kāi)展標(biāo)準(zhǔn)規(guī)范符合性檢測(cè)和考核評(píng)估工作。
2) 在行業(yè)、省級(jí)政務(wù)信息化運(yùn)維和安全管理框架體系下,針對(duì)行業(yè)信息化運(yùn)維與安全管理特殊需求,建立運(yùn)維管理系統(tǒng)及安全監(jiān)測(cè)管理工作機(jī)制,完善運(yùn)維及安全管理制度,加強(qiáng)運(yùn)維及安全管理。
3.2.3 大數(shù)據(jù)支撐技術(shù)平臺(tái)
數(shù)據(jù)處理是大數(shù)據(jù)產(chǎn)生價(jià)值的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)處理要完成大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理,以及大數(shù)據(jù)分析及挖掘。
1) 大數(shù)據(jù)采集技術(shù),主要有基于開(kāi)源系統(tǒng)Flume、Scribe的日志采集系統(tǒng);基于Apache Nutch、Crawler4j、Scrapy等框架和MySQL和Oracle數(shù)據(jù)庫(kù)技術(shù)的網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)。
2) 大數(shù)據(jù)預(yù)處理技術(shù),通過(guò)ETL處理,包含抽取Extract、轉(zhuǎn)換Transform、加載load,將采集的各類結(jié)構(gòu)和類型的復(fù)雜數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型;對(duì)數(shù)據(jù)進(jìn)行“過(guò)濾”和“去噪”,從而高效、快速獲得有效數(shù)據(jù)。
3) 大數(shù)據(jù)存儲(chǔ)及管理技術(shù),可采用Shared Nothing架構(gòu),結(jié)合MPP架構(gòu)的高效數(shù)據(jù)庫(kù)集群和基于Hadoop的技術(shù)擴(kuò)展和封裝來(lái)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析、調(diào)用和管理的支撐。
4) 大數(shù)據(jù)分析及挖掘技術(shù),基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù),采用MapReduce、Hive、Pig、Spark、Flink、Storm、MLlib等大數(shù)據(jù)分析與挖掘技術(shù),從海量數(shù)據(jù)中獲得信息和知識(shí),服務(wù)于交通運(yùn)輸行業(yè),提高行業(yè)運(yùn)行效率和集約化水平。
綜合交通運(yùn)輸大數(shù)據(jù)體系在發(fā)揮積極作用的同時(shí),也面臨著一些挑戰(zhàn)。相關(guān)標(biāo)準(zhǔn)規(guī)范、數(shù)據(jù)治理體系、數(shù)據(jù)共享開(kāi)放應(yīng)用等都是在建立綜合交通運(yùn)輸大數(shù)據(jù)體系中需要重點(diǎn)關(guān)注的課題。伴隨著管理和技術(shù)進(jìn)步,大數(shù)據(jù)在綜合交通運(yùn)輸中的應(yīng)用將從根本上緩解傳統(tǒng)交通運(yùn)輸治理面臨的各種壓力問(wèn)題,為數(shù)字交通發(fā)展帶來(lái)新的機(jī)遇。我們相信,隨著新時(shí)期“數(shù)字交通”、“新基建”等戰(zhàn)略的推進(jìn),交通運(yùn)輸大數(shù)據(jù)體系發(fā)展必將為現(xiàn)代綜合交通運(yùn)輸體系的建立提供更多動(dòng)能。