李兆君
摘 要:針對(duì)大數(shù)據(jù)的5V特點(diǎn)、技術(shù)特征,采用大數(shù)據(jù)常用的處理軟件,對(duì)大數(shù)據(jù)常用工具、基本面和應(yīng)用領(lǐng)域進(jìn)行全面闡述,從而充分挖掘大數(shù)據(jù)的重要價(jià)值,同時(shí)基于地鐵機(jī)電系統(tǒng)故障統(tǒng)計(jì)的大數(shù)據(jù)分析應(yīng)用為案例,為用戶提供大數(shù)據(jù)價(jià)值挖掘方向和探索目標(biāo),并對(duì)大數(shù)據(jù)發(fā)展方向進(jìn)行預(yù)測(cè)。
關(guān)鍵詞:大數(shù)據(jù) 5V 技術(shù)特征 常用軟件 常用工具 應(yīng)用領(lǐng)域 地鐵機(jī)電 故障統(tǒng)計(jì) 分析應(yīng)用 發(fā)展方向
Abstract: According to 5v characteristics, technical features of large data, USES the commonly used data processing software, tools, fundamentals and application fields, which are used in large data comprehensively expounded, so as to fully explore the important values of big data, at the same time based on the mechanical and electrical system failure statistics of big data analysis application as a case, to provide users with large data value direction of mining and exploration target, and the trend of the development of big data to make predictions.
Key words: Big data,5V,Technical features,Commonly used software,Commonly used tools,Application field,Subway mechanical and electrical, Fault statistics, Analysis and application, Development direction.
0引言
大數(shù)據(jù)(big data,mega data)或稱巨量資料,是指需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值密度)、Veracity(真實(shí)性)。從技術(shù)上看,大數(shù)據(jù)與云計(jì)算密不可分,必須采用分布式計(jì)算架構(gòu)[1]。它的特色在于對(duì)海量數(shù)據(jù)的挖掘,依托云計(jì)算的分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)、分布式處理和虛擬化技術(shù)。大數(shù)據(jù)并不在“大”,而在于“有用”的價(jià)值含量、挖掘成本比數(shù)量更為重要。如何利用這些大規(guī)模數(shù)據(jù)是成為贏得競(jìng)爭(zhēng)的關(guān)鍵。
1大數(shù)據(jù)的特點(diǎn)、技術(shù)特征、價(jià)值
1.1大數(shù)據(jù)5V特點(diǎn)的五個(gè)層面
1)數(shù)據(jù)體量大:從TB級(jí)別,躍升到PB級(jí)別;
2)數(shù)據(jù)類型多:網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等;
3)價(jià)值密度低:以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅有一兩秒;
4)處理速度快:秒定律。
1.2大數(shù)據(jù)結(jié)構(gòu)技術(shù)特征
以有效地處理大量的容忍經(jīng)過(guò)時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
1.3大數(shù)據(jù)最核心的價(jià)值
在于對(duì)于海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析,大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。如圖1,大數(shù)據(jù)價(jià)值鏈。
1)利用大數(shù)據(jù)對(duì)消費(fèi)者精準(zhǔn)營(yíng)銷(xiāo);
2)利用大數(shù)據(jù)做企業(yè)服務(wù)轉(zhuǎn)型[2];
3)面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時(shí)俱進(jìn)充分利用大數(shù)據(jù)的價(jià)值;
4)及時(shí)解析故障、問(wèn)題和缺陷的根源,有目標(biāo)性改進(jìn)修程,指導(dǎo)備件采購(gòu)與倉(cāng)儲(chǔ),規(guī)劃人力資源、預(yù)算方向。
2大數(shù)據(jù)常用處理軟件及工具
2.1常用軟件
有Hadoop、HPCC(High Performance Computing and Communications高性能計(jì)算與通信)、Storm、Apache Drill、RapidMiner、Pentaho BI[3]。
1)Hadoop
Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是以可靠、高效、可伸縮的方式進(jìn)行處理的。主要有6個(gè)優(yōu)點(diǎn):高可靠性,按位存儲(chǔ)和處理數(shù)據(jù)的能力大;高擴(kuò)展性,在計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù),集簇可以擴(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中;高效性,能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,處理速度快;高容錯(cuò)性,能夠自動(dòng)保存多個(gè)數(shù)據(jù)副本,并且自動(dòng)重新分配失敗的任務(wù);可伸縮性,能夠處理 PB 級(jí)數(shù)據(jù);低成本性,可依賴于社區(qū)服務(wù)器。
Hadoop可以使用其他語(yǔ)言編寫(xiě),比如 C++,帶有用 Java 語(yǔ)言編寫(xiě)的框架,在 Linux平臺(tái)上運(yùn)行是非常理想的。
2)HPCC
HPCC是美國(guó)總統(tǒng)科學(xué)戰(zhàn)略項(xiàng)目,主要由五部分組成:高性能計(jì)算機(jī)系統(tǒng)(HPCS)、先進(jìn)軟件技術(shù)與算法(ASTA)、國(guó)家科研與教育網(wǎng)格(NREN)、基本研究與人類資源(BRHR)、信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應(yīng)用(IITA )。
3)Storm
Storm是分布式、容錯(cuò)、實(shí)時(shí)計(jì)算且自由、開(kāi)源軟件系統(tǒng),特點(diǎn)是可擴(kuò)展、容錯(cuò)、易操作和設(shè)置,應(yīng)用領(lǐng)域包括實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、不停頓的計(jì)算、分布式RPC(遠(yuǎn)過(guò)程調(diào)用協(xié)議,一種通過(guò)網(wǎng)絡(luò)從遠(yuǎn)程計(jì)算機(jī)程序上請(qǐng)求服務(wù)),使用企業(yè)包括Groupon、淘寶、支付寶、阿里巴巴、樂(lè)元素、Admaster等。
4)Apache Drill
Apache Drill有助于Hadoop用戶實(shí)現(xiàn)更快查詢海量數(shù)據(jù)集,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應(yīng)用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構(gòu)建系統(tǒng)上的測(cè)試結(jié)果等,Drill所屬的API接口和靈活強(qiáng)大的體系架構(gòu),支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語(yǔ)言。
5)RapidMiner
RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程的設(shè)計(jì)和評(píng)價(jià)。
6) Pentaho BI
Pentaho BI 平臺(tái)以流程為中心的,面向解決方案(Solution)的框架。構(gòu)建于服務(wù)器、引擎和組件的基礎(chǔ)之上,提供了系統(tǒng)的J2EE 服務(wù)器、安全、portal、工作流、規(guī)則引擎、圖表、協(xié)作、內(nèi)容管理、數(shù)據(jù)集成、分析和建模功能。
2.2常用工具
1)用于展現(xiàn)分析的前端開(kāi)源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等。
2)用于展現(xiàn)分析商用分析工具有Style Intelligence、RapidMiner Radoop、Cognos, BO, Microsoft Power BI, Oracle,Microstrategy,QlikView、 Tableau ,國(guó)內(nèi)的有BDP,國(guó)云數(shù)據(jù)(大數(shù)據(jù)魔鏡),思邁特,F(xiàn)ineBI等。
3)折疊數(shù)據(jù)倉(cāng)庫(kù)有Teradata AsterData, EMC GreenPlum, HP Vertica 等。
4)折疊數(shù)據(jù)集市有QlikView、 Tableau 、Style Intelligence等。
3大數(shù)據(jù)分析的基本面和應(yīng)用領(lǐng)域[4]
3.1大數(shù)據(jù)分析的6個(gè)主要基本面
1)可視化分析AV(Analytic Visualizations),可以直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,讓觀眾聽(tīng)到結(jié)果。
2)數(shù)據(jù)挖掘算法DMA(Data Mining Algorithms),數(shù)據(jù)挖掘就是給機(jī)器看的,集群、分割、孤立點(diǎn)分析,以及算法可深入數(shù)據(jù)內(nèi)部挖掘價(jià)值[1]。
3)預(yù)測(cè)性分析能力PAC(Predictive Analytic Capabilities),預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。
4)語(yǔ)義引擎SE(Semantic Engines),用工具去解析,提取,分析多樣性、非結(jié)構(gòu)化數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從"文檔"中智能提取信息。
5)數(shù)據(jù)質(zhì)量和管理DQM(Data Quality and Management),數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。
6)數(shù)據(jù)存儲(chǔ)倉(cāng)庫(kù)DSW (Data Storage Warehouse) [5],是為便于多維分析和多角度展示數(shù)據(jù),按特定模式進(jìn)行存儲(chǔ)所建立起來(lái)的關(guān)系型數(shù)據(jù)庫(kù)。
3.2應(yīng)用領(lǐng)域
主要應(yīng)用領(lǐng)域體現(xiàn)在9個(gè)領(lǐng)域:改善我們的生活;優(yōu)化業(yè)務(wù)流程;理解客戶、滿足客戶服務(wù)需求;搜集社交方面的數(shù)據(jù)、瀏覽器的日志、分析出文本和傳感器的數(shù)據(jù),建立數(shù)據(jù)模型進(jìn)行預(yù)測(cè);跟蹤各項(xiàng)成績(jī);提高醫(yī)療和研發(fā);金融交易;改善城市;改善安全和執(zhí)法;優(yōu)化機(jī)器和設(shè)備性能,還可以讓積極和設(shè)備在應(yīng)用上更加智能化和自主化。
4 基于故障統(tǒng)計(jì)的大數(shù)據(jù)分析應(yīng)用實(shí)例
在物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。大數(shù)據(jù)不僅在建設(shè)中應(yīng)用,也應(yīng)用在智能化運(yùn)營(yíng),比如通過(guò)跟蹤空調(diào)、照明系統(tǒng)等積累下來(lái)的超大量數(shù)據(jù),找到節(jié)能方向,制訂節(jié)能方案?,F(xiàn)以地鐵機(jī)電系統(tǒng)在運(yùn)維過(guò)程中應(yīng)用舉例。
4.1計(jì)劃統(tǒng)計(jì)
4.1.1計(jì)劃兌現(xiàn)率
按照五級(jí)修程制定工作計(jì)劃,并實(shí)時(shí)統(tǒng)計(jì)工作計(jì)劃兌現(xiàn)率,如圖2,月度計(jì)劃申報(bào)統(tǒng)計(jì)表。
4.1.2人力資源分布統(tǒng)計(jì)
1)按能力層次
制訂重點(diǎn)作業(yè)監(jiān)控管理監(jiān)督辦法,把故障分為三類,檢修作業(yè)分為一~四級(jí),每級(jí)分別由對(duì)應(yīng)層級(jí)的人員監(jiān)控,如下表1,重點(diǎn)作業(yè)監(jiān)控表:
A-直接影響行車(chē)、公共安全、運(yùn)能及大面積客服質(zhì)量的故障
B-間接影響并降低行車(chē)、運(yùn)能、大面積客運(yùn)質(zhì)量的,但尚不能構(gòu)成安全隱患的故障
C-除以上以外的故障
表1.重點(diǎn)作業(yè)監(jiān)控表
2)按專業(yè)劃分
根據(jù)作業(yè)項(xiàng)目,確定專業(yè)維修項(xiàng)目參與人員專業(yè)范圍,配合專業(yè)范圍,同時(shí)為提高年度檢修計(jì)劃的合理性,針對(duì)地鐵設(shè)備系統(tǒng)接口多、配合多的特點(diǎn),對(duì)關(guān)聯(lián)多的施工作業(yè)進(jìn)行計(jì)劃資源、空間資源,時(shí)間資源進(jìn)行融合、聯(lián)合、整合和集中等四種作業(yè)類型,以系統(tǒng)專業(yè)為主控、以主要專業(yè)為主控的原則進(jìn)行融、聯(lián)、整、集合作業(yè)。既提高效率、減少配合頻次,又減少人員、節(jié)約時(shí)間。
3)按作業(yè)內(nèi)容
根據(jù)作業(yè)內(nèi)容,確定專業(yè)維修人員技能、持證、數(shù)量要求,配合人員技能、持證、數(shù)量要求。也可以圍繞工作、員工職業(yè)生涯,制定培訓(xùn)方案、培訓(xùn)要求、培訓(xùn)周期,同時(shí)確定教師、教材、教具等,進(jìn)行專業(yè)化、系統(tǒng)性培訓(xùn)。
4)按時(shí)間分布
根據(jù)作業(yè)計(jì)劃安排,確定合理排班表。同時(shí)也圍繞工作、員工職業(yè)素質(zhì)要求,制定招聘方案、招聘計(jì)劃、招聘專業(yè)、招聘數(shù)量等,指導(dǎo)招聘工作有序開(kāi)展。
4.2故障統(tǒng)計(jì)分析
1)故障數(shù)量分布統(tǒng)計(jì)分析
通過(guò)調(diào)度運(yùn)維管理平臺(tái)實(shí)時(shí)統(tǒng)計(jì)故障,基于大數(shù)據(jù)統(tǒng)計(jì)的故障數(shù)量和故障處理率統(tǒng)計(jì),如圖3,故障數(shù)量統(tǒng)計(jì)及修復(fù)率。
2)故障專業(yè)分布統(tǒng)計(jì)分析
基于大數(shù)據(jù)統(tǒng)計(jì)的故障分布,可以按專業(yè)數(shù)量分布,如圖4. 故障專業(yè)分布圖
3)故障等級(jí)系統(tǒng)分析
基于大數(shù)據(jù)統(tǒng)計(jì)的故障分布,可以按故障重要性等級(jí)進(jìn)行劃分,如圖5. 故障等級(jí)分布圖。
再選擇一條線路的一個(gè)專業(yè)進(jìn)行詳細(xì)分析,如FAS專業(yè),按時(shí)間、車(chē)站、模塊分別進(jìn)行分析。分別如下圖6-8,系統(tǒng)故障統(tǒng)計(jì)及修復(fù)率折線圖、車(chē)站級(jí)設(shè)備故障統(tǒng)計(jì)折線圖、子系統(tǒng)/模塊故障統(tǒng)計(jì)圖。
1)FAS系統(tǒng)故障統(tǒng)計(jì)及修復(fù)率折線圖
2)車(chē)站級(jí)設(shè)備故障統(tǒng)計(jì)折線圖
按車(chē)站統(tǒng)計(jì),如圖7. FAS專業(yè)車(chē)站級(jí)設(shè)備故障統(tǒng)計(jì)折線圖。
3)子系統(tǒng)/模塊故障統(tǒng)計(jì)圖
按模塊故障統(tǒng)計(jì),如圖8.FAS專業(yè)子系統(tǒng)/模塊故障統(tǒng)計(jì)圖。
5 小結(jié)
綜上所述,基于地鐵機(jī)電系統(tǒng)故障統(tǒng)計(jì)的大數(shù)據(jù)分析應(yīng)用,可以對(duì)人力資源的研究應(yīng)用,即人員招聘、培訓(xùn)、取證、排班、考勤等有針對(duì)性管理;對(duì)修程修制的研究應(yīng)用,即預(yù)防性計(jì)劃修、預(yù)防性狀態(tài)修、故障修,故障容忍度,設(shè)備可靠度,智能化巡檢內(nèi)容、標(biāo)準(zhǔn)及頻次;對(duì)計(jì)劃編排的研究應(yīng)用,即五級(jí)修程層級(jí)、頻率、內(nèi)容、標(biāo)準(zhǔn)、資源配置及調(diào)度,是否采用均衡修,如何平均分配,配合專業(yè)的安排等;對(duì)故障分析的研究應(yīng)用,即故障類型,從人、機(jī)、料、法、環(huán)來(lái)分析故障原因,找到故障薄弱點(diǎn),拿出解決措施;對(duì)資源整合的研究應(yīng)用,即人員整合、時(shí)間整合、作業(yè)整合、空間整合,對(duì)檢修計(jì)劃進(jìn)行合理地融合、聯(lián)合、整合和集中檢修,提高工作效率,提高資源利用率;對(duì)物資采購(gòu)的研究應(yīng)用,即根據(jù)修程用耗材、故障用備件,確定采購(gòu)物資品名、規(guī)格型號(hào)、數(shù)量、質(zhì)量等要求,同時(shí)對(duì)采購(gòu)周期、儲(chǔ)運(yùn)條件,提出備件采購(gòu)計(jì)劃、方案以及確定合理倉(cāng)儲(chǔ)紅線;對(duì)預(yù)算資金的研究應(yīng)用,即對(duì)采購(gòu)金額、發(fā)生時(shí)間、發(fā)生部門(mén),以及供應(yīng)鏈、儲(chǔ)運(yùn)、質(zhì)保、保險(xiǎn)等進(jìn)行有效管理;對(duì)維保模式的研究應(yīng)用,即是采用自主、委外、聯(lián)合方式維保,專業(yè)性、優(yōu)缺點(diǎn)對(duì)比,時(shí)機(jī)、效果分析;對(duì)效能分析的研究應(yīng)用,即以“五心”服務(wù)為考評(píng)[6],規(guī)劃為設(shè)計(jì)、設(shè)計(jì)為建設(shè)、建設(shè)為運(yùn)營(yíng),土建為設(shè)備、設(shè)備為行車(chē)、行車(chē)為客運(yùn)、客運(yùn)為乘客、職能為業(yè)務(wù)、業(yè)務(wù)為生產(chǎn)、生產(chǎn)為一線的管理理念。
同時(shí),大數(shù)據(jù)未來(lái)的七大趨勢(shì):傳感器無(wú)處不在、數(shù)據(jù)服務(wù)隨時(shí)可用、大數(shù)據(jù)浪潮席卷各行各業(yè)、數(shù)據(jù)資產(chǎn)權(quán)及立法引發(fā)激辯、人工智能全面滲透人類生活、社會(huì)關(guān)系面臨全面變革、人類文明進(jìn)入全新紀(jì)元。
參考文獻(xiàn):
[1] 大數(shù)據(jù)究竟是什么?一篇文章讓你認(rèn)識(shí)并讀懂大數(shù)據(jù),中國(guó)大數(shù)據(jù),2013-11-4, [2014-1-12]
[2] 李克強(qiáng)的“大數(shù)據(jù)觀” 鳳凰網(wǎng) , 2015-2-17 ,[2016-5-6]
[3] 大數(shù)據(jù)處理分析的六大最好工具 , 云創(chuàng)存儲(chǔ),[2014-4-23]
[4] 大數(shù)據(jù)分析與處理方法介紹 ,中國(guó)互聯(lián)網(wǎng)數(shù)據(jù)咨詢中心 , 2014-06-30
[5] BIM數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建和BIM數(shù)據(jù)分析應(yīng)用 ,中國(guó)大數(shù)據(jù), 2016-06-25
[6] 《打造“五心”服務(wù)品牌鑄 就城市服務(wù)新標(biāo)桿》,陳華、羅斌,合肥城市軌道交通有限公司,第十六屆全國(guó)交通企業(yè)管理現(xiàn)代化創(chuàng)新成果,中國(guó)交通行業(yè)管理協(xié)會(huì),2017.12 北京。