摘要本文介紹了一種公交大數(shù)據(jù)以及數(shù)據(jù)挖掘服務(wù)模型。文章包括適用于公交數(shù)據(jù)的大數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)與公交數(shù)據(jù)語(yǔ)義化分析模型,介紹了公交數(shù)據(jù)構(gòu)成的大數(shù)據(jù)基礎(chǔ)架構(gòu)以及其為應(yīng)用提供服務(wù)的方式。文章最后介紹了三種得到大數(shù)據(jù)支撐的公交應(yīng)用以及其目前工作的進(jìn)展,并對(duì)公交大數(shù)據(jù)未來(lái)的發(fā)展做出了預(yù)測(cè)。
關(guān)鍵詞智能公交大數(shù)據(jù)挖掘模型
一、引言
智能公交目前面臨海量數(shù)據(jù)管理與應(yīng)用的難題,必須引入大數(shù)據(jù)挖掘技術(shù)來(lái)加以解決。大數(shù)據(jù)挖掘是包含了數(shù)據(jù)處理、分析、挖掘等方面的一系列技術(shù)的總稱,根據(jù)智能公交自身數(shù)據(jù)與業(yè)務(wù)特點(diǎn),選擇合理的大數(shù)據(jù)架構(gòu)和數(shù)據(jù)挖掘技術(shù),建立符合行業(yè)特點(diǎn)的大數(shù)據(jù)應(yīng)用服務(wù)架構(gòu),是智能公交新型應(yīng)用需要面對(duì)的首要問(wèn)題。
數(shù)據(jù)挖掘在智能公交系統(tǒng)中的定位是基礎(chǔ)性與服務(wù)性的。公交大數(shù)據(jù)挖掘的意義在于利用大數(shù)據(jù)的技術(shù)完成智能公交整體底層數(shù)據(jù)的接入與管理,實(shí)現(xiàn)不同類型數(shù)據(jù)之間的統(tǒng)一索引與融合,對(duì)數(shù)據(jù)做處理與分析,完成可視化、語(yǔ)義化的數(shù)據(jù)挖掘,從而能夠支持上層各種智能公交復(fù)雜應(yīng)用的要求。從這個(gè)目的出發(fā),基于大數(shù)據(jù)的智能公交數(shù)據(jù)應(yīng)用應(yīng)首先選擇合適的架構(gòu)與數(shù)據(jù)挖掘手段。
二、需求分析
智能公交系統(tǒng)的功能需求分為三大部分:企業(yè)運(yùn)營(yíng)需求、公眾服務(wù)需求、行業(yè)監(jiān)管需求,整個(gè)智能公交系統(tǒng)的數(shù)據(jù)來(lái)源又可劃分為車輛(機(jī)務(wù))數(shù)據(jù)、線網(wǎng)數(shù)據(jù)、路網(wǎng)數(shù)據(jù)、乘客數(shù)據(jù)、人員數(shù)據(jù)、運(yùn)行數(shù)據(jù)等分類。智能公交大數(shù)據(jù)必須從智能公交系統(tǒng)的數(shù)據(jù)出發(fā),支持智能公交系統(tǒng)的功能需求,為了實(shí)現(xiàn)這一目標(biāo),智能公交大數(shù)據(jù)必須具有以下特征:
1、支持多源異構(gòu)的大規(guī)模數(shù)據(jù)存儲(chǔ)。智能公交系統(tǒng)的數(shù)據(jù)來(lái)源廣泛,格式各異,各種數(shù)據(jù)之間結(jié)構(gòu)也不相同;隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,智能公交數(shù)據(jù)增長(zhǎng)是非常迅速的,各類傳感器產(chǎn)生的大量數(shù)據(jù)必須迅速的得到處理。因此智能公交大數(shù)據(jù)必須能夠支多源異構(gòu)的、增長(zhǎng)迅速的數(shù)據(jù)存儲(chǔ)。
2、支持多種查詢方式?;跀?shù)據(jù)來(lái)源的復(fù)雜性,智能公交大數(shù)據(jù)應(yīng)能夠支持nosql、newsql以及傳統(tǒng)的結(jié)構(gòu)化查詢方式,這是實(shí)現(xiàn)數(shù)據(jù)集成應(yīng)用的基礎(chǔ)。
3、支持多種分析與挖掘技術(shù):智能公交大數(shù)據(jù)與其他數(shù)據(jù)系統(tǒng)相比,其數(shù)據(jù)中包含的價(jià)值很高,但是面對(duì)特定的應(yīng)用,數(shù)據(jù)中的冗余較大,相關(guān)性比較隱晦,需要有力的數(shù)據(jù)分析挖掘技術(shù)進(jìn)行處理。智能公交大數(shù)據(jù)應(yīng)包含數(shù)據(jù)分析與挖掘技術(shù)。
4、支持可視化分析技術(shù):面對(duì)海量智能公交數(shù)據(jù),其分析結(jié)果與日常管理均需提供直觀的展示。
三、系統(tǒng)架構(gòu)
1、大數(shù)據(jù)架構(gòu)
智能公交大數(shù)據(jù)架構(gòu)以滿足應(yīng)用需求為目標(biāo),選擇合適的實(shí)現(xiàn)方式進(jìn)行搭建,(如圖1)其主體分為數(shù)據(jù)接入、數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)管理三部分。
在智能公交大數(shù)據(jù)架構(gòu)中,數(shù)據(jù)接入負(fù)責(zé)對(duì)分布廣泛、多源異構(gòu)的海量公交數(shù)據(jù)進(jìn)行采集、匯聚與清洗;數(shù)據(jù)存儲(chǔ)負(fù)責(zé)各種公交數(shù)據(jù)的存儲(chǔ)并相應(yīng)系統(tǒng)的各種查詢、處理請(qǐng)求;數(shù)據(jù)管理負(fù)責(zé)對(duì)整個(gè)大數(shù)據(jù)系統(tǒng)以及其內(nèi)部的數(shù)據(jù)進(jìn)行各種配置與管理。
為了能夠全面的滿足智能公交系統(tǒng)需求,智能公交大數(shù)據(jù)架構(gòu)必須選擇合適的技術(shù)路線,其中數(shù)據(jù)存儲(chǔ)層是大數(shù)據(jù)系統(tǒng)的核心,它直接關(guān)系到其他系統(tǒng)組件的選型與整個(gè)系統(tǒng)的性能。本文采用的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)(如圖2所示)包含了一套分布式文件系統(tǒng)與資源管理系統(tǒng),在文件系統(tǒng)上構(gòu)建了數(shù)據(jù)倉(cāng)庫(kù),支援結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的并行存儲(chǔ)、查詢、處理操作。另外還在存儲(chǔ)結(jié)構(gòu)之外部署了輔助控制系統(tǒng),便于實(shí)現(xiàn)對(duì)存儲(chǔ)集群的監(jiān)控與協(xié)調(diào)操作。
在數(shù)據(jù)存儲(chǔ)架構(gòu)中,HDFS組成透明的分布式文件系統(tǒng),HBase是系統(tǒng)的主數(shù)據(jù)庫(kù),利用基于MapReduce技術(shù)的Spark進(jìn)行運(yùn)算加速,能夠?qū)崿F(xiàn)數(shù)據(jù)庫(kù)的快速查找與分析。Nagios與Ganglia分別用于監(jiān)視系統(tǒng)狀態(tài)與數(shù)據(jù)庫(kù)狀態(tài),方便維護(hù)人員進(jìn)行日常管理。
2、語(yǔ)義化模型
對(duì)于海量的公交大數(shù)據(jù)來(lái)說(shuō),面對(duì)不同應(yīng)用,均需要對(duì)駁雜的數(shù)據(jù)進(jìn)行分析與挖掘,大數(shù)據(jù)需要對(duì)數(shù)據(jù)進(jìn)行語(yǔ)義化處理,為應(yīng)用提供智能化、場(chǎng)景化、價(jià)值化的數(shù)據(jù)索引。
本文主要使用基于語(yǔ)義關(guān)聯(lián)與本體適配技術(shù)的語(yǔ)義化處理模型對(duì)公交數(shù)據(jù)進(jìn)行語(yǔ)義化處理,再由大數(shù)據(jù)平臺(tái)Hbase對(duì)外提供應(yīng)用支持(見圖3)。
在本系統(tǒng)中,來(lái)自不同采集方式獲得的公交數(shù)據(jù)均被轉(zhuǎn)化為URL表達(dá)的數(shù)據(jù),具有這項(xiàng)功能的模塊稱為URL化處理模塊。隨后所有數(shù)據(jù)都進(jìn)入RDF標(biāo)準(zhǔn)化處理流程,經(jīng)過(guò)關(guān)鍵詞提取與語(yǔ)義識(shí)別后,成為計(jì)算機(jī)可以理解的數(shù)據(jù)形式,以上過(guò)程統(tǒng)稱為語(yǔ)義化處理。數(shù)據(jù)經(jīng)過(guò)語(yǔ)義化處理后,即可進(jìn)行規(guī)則匹配,通過(guò)不同的匹配條件,實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián)操作,完成應(yīng)用需求與數(shù)據(jù)之間的連接。
3、數(shù)據(jù)挖掘
利用語(yǔ)義化公交數(shù)據(jù),大數(shù)據(jù)系統(tǒng)能夠完成多種類型的數(shù)據(jù)挖掘。
(1)數(shù)據(jù)場(chǎng)景化挖掘:為數(shù)據(jù)找到對(duì)應(yīng)的場(chǎng)景,并為數(shù)據(jù)標(biāo)示場(chǎng)景標(biāo)簽,實(shí)現(xiàn)場(chǎng)景分類功能。數(shù)據(jù)場(chǎng)景化挖掘利用六種場(chǎng)景化定義進(jìn)行數(shù)據(jù)索引,包括場(chǎng)景名、本體集、屬性集、語(yǔ)義集、屬性權(quán)重和語(yǔ)義權(quán)重。利用場(chǎng)景化定義,將數(shù)據(jù)分類至不同的場(chǎng)景中,例如車輛位置數(shù)據(jù),既可以歸類到車輛信息場(chǎng)景下,也可以歸類到運(yùn)營(yíng)狀態(tài)場(chǎng)景下。(2)數(shù)據(jù)語(yǔ)義查詢:傳統(tǒng)的數(shù)據(jù)查詢是按照一定的屬性對(duì)數(shù)據(jù)進(jìn)行查詢。利用語(yǔ)義化后的公交數(shù)據(jù),可以實(shí)現(xiàn)模糊化的跨種類語(yǔ)義查詢,例如查詢某車站,能直接查詢到車站位置以及在車站附近的公交車輛。(3)數(shù)據(jù)組合展示:利用語(yǔ)義化后的公交數(shù)據(jù),開發(fā)新的展示應(yīng)用,能夠以不同的視角,展示新的數(shù)據(jù)聯(lián)系,是公交數(shù)據(jù)全方位應(yīng)用的重要手段。
基于語(yǔ)義化的數(shù)據(jù)挖掘,在智能公交中的應(yīng)用價(jià)值,體現(xiàn)于現(xiàn)有智能公交數(shù)據(jù)采集的后端應(yīng)用方面,例如:利用車載視頻監(jiān)控,進(jìn)行車輛滿載率、乘客計(jì)數(shù)應(yīng)用時(shí),完全不需要對(duì)視頻數(shù)據(jù)本身進(jìn)行傳輸和使用,而是通過(guò)前置的語(yǔ)義化處理技術(shù),直接解讀視頻數(shù)據(jù),將結(jié)果回傳給后端應(yīng)用,不僅僅解決了傳輸?shù)某杀締?wèn)題,而且充分發(fā)揮了車載視頻在智能公交運(yùn)營(yíng)上的服務(wù)作用,利用這些通過(guò)語(yǔ)義化技術(shù)處理過(guò)的采集信息進(jìn)行深度挖掘,整合信息資源,就能提供諸如“客流”、“安全駕駛”、“擁擠程度”等豐富的交通相關(guān)信息。
四、應(yīng)用示例
公交數(shù)據(jù)挖掘技術(shù)在公交行業(yè)將會(huì)有廣泛的應(yīng)用,并體現(xiàn)巨大的價(jià)值,能夠較好的解決智能公交領(lǐng)域海量數(shù)據(jù)累積和處理,有效的為公交運(yùn)行、運(yùn)營(yíng)監(jiān)控、信息服務(wù)等提供支持。
(1)重構(gòu)公交評(píng)價(jià)體系
關(guān)于公交現(xiàn)有的評(píng)價(jià)體系形式上是完整的,但局限于當(dāng)時(shí)的技術(shù)條件和有限數(shù)據(jù),存在有很多的不合理、不科學(xué)。借助公交大數(shù)據(jù)系統(tǒng),重構(gòu)公交評(píng)價(jià)標(biāo)系,包括明確一些指標(biāo)的計(jì)算方法,減少一些沒(méi)有多少評(píng)價(jià)作用的指標(biāo),增加一些更具評(píng)價(jià)作用的新指標(biāo),充分大數(shù)據(jù)可視化分析的能力,提供直觀、準(zhǔn)確、動(dòng)態(tài)的評(píng)估結(jié)果,并分析體系優(yōu)缺點(diǎn),提出解決方案。目前該應(yīng)用已經(jīng)進(jìn)行試運(yùn)行,取得了良好的用戶反響,未來(lái)該應(yīng)用將增強(qiáng)橫向與縱向可比性,持續(xù)改進(jìn),日臻完善,屆時(shí)還可以引入多種形式資本,形成適度競(jìng)爭(zhēng)格局。
(2)還原真實(shí)客流需求,吸引出行者乘坐公交
出行成本除了直接經(jīng)濟(jì)成本之外,人們更在意時(shí)間成本、安全、方便、舒適、快捷等非經(jīng)濟(jì)方面。對(duì)于乘坐公交出行而言,現(xiàn)行的票價(jià)能夠?yàn)榻^大多數(shù)人所接受,吸引更多人乘坐公交的關(guān)鍵在于公交能否在服務(wù)方面有所改善,達(dá)到較好的公交出行體驗(yàn),大數(shù)據(jù)時(shí)代的來(lái)臨為此提供了可能性。
公交大數(shù)據(jù)能夠真實(shí)還原客流需求,吸引更多出行者乘坐公交。客流所表現(xiàn)出來(lái)的出行需求是相當(dāng)復(fù)雜的,不是小樣本數(shù)據(jù)、簡(jiǎn)單規(guī)則所能刻化的,通過(guò)對(duì)大數(shù)據(jù)的分析和預(yù)測(cè),公交企業(yè)利用該系統(tǒng)不但觀察到出行需求,還能通過(guò)長(zhǎng)尾數(shù)據(jù)來(lái)發(fā)現(xiàn)個(gè)性化的小眾需求,從而科學(xué)地規(guī)劃線路,合理地投入運(yùn)力,避免了經(jīng)驗(yàn)式的一刀切、簡(jiǎn)單化。比如,可以通過(guò)運(yùn)營(yíng)商的數(shù)據(jù)擬合高峰時(shí)段的人流遷移而開展定制公交服務(wù)。目前由公交大數(shù)據(jù)支撐的智能化公交調(diào)度系統(tǒng)已經(jīng)投入使用,獲得了良好的反響。
(3)創(chuàng)新車輛維修保養(yǎng)模式
大數(shù)據(jù)在公交運(yùn)營(yíng)管理中的運(yùn)營(yíng)、調(diào)度、安全、服務(wù)等多個(gè)方面、多個(gè)環(huán)節(jié)、所有層面都有潛在的新應(yīng)用,利用公交大數(shù)據(jù)管理公交企業(yè)的生產(chǎn)資料也是公交大數(shù)據(jù)的一種新型應(yīng)用方式。目前車輛已經(jīng)實(shí)現(xiàn)對(duì)油、氣、水、電等多類管線(路)的實(shí)時(shí)監(jiān)控和數(shù)據(jù)采集,記錄了引擎、燃潤(rùn)、制動(dòng)、懸掛等所有部系的工作狀態(tài),甚至還包括與駕駛員操作相關(guān)的數(shù)據(jù)。利用大數(shù)據(jù)技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,能夠揭示許多潛在的關(guān)聯(lián),利用這種關(guān)聯(lián)關(guān)系,優(yōu)化公交企業(yè)生產(chǎn)資料配置,提升從業(yè)者技能水平,節(jié)約生產(chǎn)開支,通過(guò)各種手段,提升企業(yè)運(yùn)營(yíng)效率。基于大數(shù)據(jù)的機(jī)務(wù)系統(tǒng)已經(jīng)得到全面應(yīng)用,徹底改變修理等報(bào)修、保養(yǎng)遵從間隔里程的傳統(tǒng)做法,顛覆現(xiàn)有維修保養(yǎng)模式,已經(jīng)在很大程度上減少因機(jī)械故障引發(fā)的安全事故,降低維修成本,降低拋錨率,提高運(yùn)營(yíng)效率,為企業(yè)節(jié)約了大量成本。
五、結(jié)論
大數(shù)據(jù)給許多行業(yè)帶來(lái)了變革,智能公交擁抱大數(shù)據(jù)同樣能夠取得豐碩的成果。文中說(shuō)明了一種以現(xiàn)有公交數(shù)據(jù)匯集構(gòu)成的公交大數(shù)據(jù)結(jié)構(gòu),該公交大數(shù)據(jù)服務(wù)于多個(gè)公交業(yè)務(wù)系統(tǒng),最后已經(jīng)實(shí)施的公交大數(shù)據(jù)應(yīng)用為例,說(shuō)明了大數(shù)據(jù)技術(shù)對(duì)公交現(xiàn)有業(yè)務(wù)的促進(jìn)作用。展望未來(lái),隨著綜合交通、智慧交通的發(fā)展,公交大數(shù)據(jù)應(yīng)用將在智能公交領(lǐng)域全面開花,其應(yīng)用范圍也將逐漸拓展出公交行業(yè)的限制,成為城市交通系統(tǒng)中不可或缺的重要組成部分。
參考文獻(xiàn):
[1]Fay Chang, Jeffrey Dean, Sanjay etc, Bigtable: A Distributed Storage System for Structured Data, Google, Inc.
[2]王瑋.基于模糊綜合評(píng)價(jià)法的快速公共交通系統(tǒng)評(píng)價(jià)研究[D].長(zhǎng)安大學(xué),2012(05).
[3]梁楓明.基于IC卡信息的公交客流出行特征分析系統(tǒng)研究[D].華南理工大學(xué),2011(06).
[4]劉小峰.基于大數(shù)據(jù)的智慧云公交調(diào)度管理系統(tǒng)[J].電腦開發(fā)與應(yīng)用,2014(09).
(作者單位:合肥公交集團(tuán)有限公司)