方曉洪 陸濤 吳金成 何建兵
【摘 要】隨著城市公共交通一卡通互聯(lián)互通的發(fā)展,越來越多的企業(yè)重視數(shù)據(jù)的價(jià)值與利用,然而現(xiàn)有的數(shù)據(jù)挖掘方法已經(jīng)滿足不了一卡通跨區(qū)域多領(lǐng)域的數(shù)據(jù)應(yīng)用要求。本文從需求和技術(shù)等兩個(gè)方面進(jìn)行分析說明建立基于Hadoop計(jì)算模型的城市公共交通一卡通數(shù)據(jù)挖掘方法的可行性。
【關(guān)鍵詞】IC卡;云計(jì)算;大數(shù)據(jù)挖掘;Hadoop
0 引言
公共交通在我國經(jīng)濟(jì)發(fā)展與日常生活中占據(jù)著非常重要的地位,為了鼓勵(lì)與便利市民公共交通出行,大部分城市都采用了發(fā)行非接觸式公交IC卡的方式,實(shí)現(xiàn)了大眾乘坐公交、地鐵等公共交通的便捷支付。隨著區(qū)域經(jīng)濟(jì)一體化融合發(fā)展,跨區(qū)多領(lǐng)域的應(yīng)用將是城市公共交通一卡通未來的發(fā)展趨勢。廣東嶺南通股份有限公司(下稱“嶺南通公司”)在政府的支持和地市的配合下承擔(dān)粵港澳城市公共交通一卡通互聯(lián)互通工程建設(shè),致力于打造服務(wù)于區(qū)域經(jīng)濟(jì)發(fā)展的現(xiàn)代公共交通信息化管理平臺。本文將結(jié)合嶺南通跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展趨勢,分析了基于云平臺的IC卡大數(shù)據(jù)挖掘的需求,對云計(jì)算和大數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,從而給出相應(yīng)的一個(gè)解決方案。
1 IC卡數(shù)據(jù)挖掘云平臺需求分析
近年來,我國公交IC卡發(fā)展十分迅猛,覆蓋范圍廣泛,卡片發(fā)行量巨大,由此而產(chǎn)生的數(shù)據(jù)量異常龐大,以往基于數(shù)據(jù)統(tǒng)計(jì)的“小數(shù)據(jù)”模式已經(jīng)滿足不了現(xiàn)代公共交通信息化應(yīng)用的需要。隨著信息技術(shù)的發(fā)展,如今的IT技術(shù)已經(jīng)足夠有條件實(shí)現(xiàn)一種新的基于大數(shù)據(jù)思維模式的人工智能。基于IC卡的大數(shù)據(jù)挖掘技術(shù)不僅可以全面掌握龐大的數(shù)據(jù)信息,還能對這些有意義、有價(jià)值的數(shù)據(jù)進(jìn)行專業(yè)化的分析與處理,從中挖掘潛藏其中的內(nèi)在價(jià)值,并通過這些價(jià)值的利用來提高交通出行效率和管理水平[1]。
通過文獻(xiàn)研究可以發(fā)現(xiàn),國內(nèi)外已有不少專家學(xué)者對IC卡數(shù)據(jù)分析與利用進(jìn)行過相關(guān)的研究,如James J.(2002年)和Zhao(2004年)先后運(yùn)用出行鏈的思想結(jié)合紐約市公交AFC數(shù)據(jù)得到了下車站點(diǎn)推到方法;Yves Croissant(2013年)等人基于公交IC卡數(shù)據(jù)對居民的日常出行行為進(jìn)行研究以及國內(nèi)東南大學(xué)陳學(xué)武等人(2004年)對IC卡數(shù)據(jù)的采集、分析及應(yīng)用進(jìn)行了相關(guān)探索。隨著人們對公共交通出行數(shù)據(jù)重視程度的提高,國內(nèi)外學(xué)者對IC卡數(shù)據(jù)分析挖掘的研究也越來越多。由上面可以發(fā)現(xiàn)國內(nèi)外有關(guān)IC卡數(shù)據(jù)的研究雖然給后來人提供了重要的理論基礎(chǔ)和寶貴的經(jīng)驗(yàn),但是他們的研究一般僅限于某一個(gè)城市或者單一的交通工具或者單一的主題分析與研究,缺乏對跨區(qū)域公交數(shù)據(jù)的相關(guān)研究,面對城市共交通一卡通跨區(qū)域多領(lǐng)域應(yīng)用(互聯(lián)互通)的發(fā)展趨勢,迫切需要建立一種理論來填補(bǔ)這一空白。
2 基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘旨在發(fā)現(xiàn)大量的數(shù)據(jù)中客觀存在的一些規(guī)律,而這種規(guī)律需要通過相關(guān)技術(shù)分析數(shù)據(jù)才能夠獲得。盡管目前數(shù)據(jù)處理技術(shù)在不斷地提高,但是在數(shù)據(jù)規(guī)模日益增大的背景下,人們對海量數(shù)據(jù)的快速高效處理又提出了新的需求。隨著公共交通出行比例日益增加和城市公共交通一卡通的跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展,日常刷卡公交支付行為產(chǎn)生了海量的公共交通出行數(shù)據(jù),規(guī)模可達(dá)GB、TB、PB級別的數(shù)據(jù)集隨處可見,傳統(tǒng)的技術(shù)要處理這些數(shù)據(jù)顯得力不從心了。
云計(jì)算是當(dāng)今信息技術(shù)產(chǎn)業(yè)變革的結(jié)果,是對分布式、并行處理和網(wǎng)格計(jì)算的進(jìn)一步發(fā)展,它是一種基于互聯(lián)網(wǎng)的計(jì)算,同時(shí)能夠向各種互聯(lián)網(wǎng)應(yīng)用提供硬件服務(wù)、基礎(chǔ)架構(gòu)服務(wù)、平臺服務(wù)、軟件服務(wù)、存儲服務(wù)的系統(tǒng)。對用戶來說,云計(jì)算可以降低成本、提高了靈活性和擴(kuò)展性,采用云計(jì)算架構(gòu)模式能夠降低信息系統(tǒng)的復(fù)雜性。在云計(jì)算的架構(gòu)中,復(fù)雜的計(jì)算過程、資源管理都集中在位于“云端”的數(shù)據(jù)中心層面實(shí)現(xiàn),用戶付費(fèi)使用云計(jì)算產(chǎn)品和服務(wù),無需考慮云端后臺的技術(shù)復(fù)雜性。
為了解決海量數(shù)據(jù)計(jì)算分析的問題,國內(nèi)外學(xué)者相繼提出了基于集群、基于網(wǎng)格、基于Agent等各種分布式數(shù)據(jù)挖掘平臺,雖然在一定程度上提高了數(shù)據(jù)挖掘系統(tǒng)的處理能力,但容易衍生出一些自身難以解決的問題。如果能將云計(jì)算融入數(shù)據(jù)挖掘,通過云平臺的大規(guī)模數(shù)據(jù)并行計(jì)算,可以解決海量數(shù)據(jù)挖掘的效率問題。結(jié)合嶺南通數(shù)據(jù)源的特點(diǎn),基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)滿足了未來城市公共交通一卡通互聯(lián)互通的發(fā)展趨勢,建立一個(gè)嶺南通“云”平臺系統(tǒng)是順應(yīng)了這一發(fā)展的要求,如圖1所示。
圖1 嶺南通“云”平臺系統(tǒng)架構(gòu)
3 基于Hadoop的嶺南通數(shù)據(jù)挖掘云平臺
3.1 Hadoop框架原理
Hadoop是Apache軟件基金會所研發(fā)的一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是GFS和MapReduce的Java實(shí)現(xiàn)。Hadoop實(shí)現(xiàn)了MapReduce并行編程模型,提供了分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),為分布式計(jì)算提供底層存儲支持。一個(gè)MapReduce作業(yè)由大量Map和Reduce任務(wù)組成,它將大規(guī)模數(shù)據(jù)處理作業(yè)拆分成若干個(gè)獨(dú)立運(yùn)行的Map任務(wù),分配到不同的機(jī)器上去執(zhí)行,生成某種中間格式的文件,再由若干個(gè)Reduce任務(wù)合并這些中間文件或得最后輸出文件。HDFS是一個(gè)由名字節(jié)點(diǎn)NameNode和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode的組成。NameNode負(fù)責(zé)存儲文件系統(tǒng)中的元數(shù)據(jù)和控制外部客戶的訪問,DataNode用來存放實(shí)際的數(shù)據(jù)。每個(gè)文件都被劃分成若干個(gè)64M的數(shù)據(jù)塊,這些數(shù)據(jù)塊被分散的存儲到各個(gè)DataNode上,HDFS為了保證數(shù)據(jù)的安全性,還會為數(shù)據(jù)進(jìn)行備份存儲到不同的機(jī)器上。用戶從NameNode那里獲取數(shù)據(jù)的位置信息后,直接與存放數(shù)據(jù)塊的DataNode進(jìn)行通信。
3.2 基于Hadoop 的嶺南通數(shù)據(jù)挖掘模型
基于Hadoop的嶺南通數(shù)據(jù)挖掘模型大體上可以分為三層,如圖2所示。
最底層為云計(jì)算服務(wù)層,提供分布式并行數(shù)據(jù)處理和大數(shù)據(jù)的云存儲。分布式存儲為數(shù)據(jù)保存多份副本保證數(shù)據(jù)發(fā)生災(zāi)難時(shí)不影響用戶的正常使用,提高了數(shù)據(jù)的安全性。
數(shù)據(jù)挖掘處理層位于云計(jì)算服務(wù)層之上,包括大數(shù)據(jù)的預(yù)處理和數(shù)據(jù)挖掘算法的并行化。數(shù)據(jù)預(yù)處理對形態(tài)各異的海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和集成等,預(yù)處理后的數(shù)據(jù)提高了數(shù)據(jù)挖掘的質(zhì)量,使挖掘的過程變得更有效、更容易。數(shù)據(jù)挖掘算法的并行化是大數(shù)據(jù)挖掘的關(guān)鍵,需要進(jìn)一步深入研究,使得改造后的挖掘算法和并行化策略能直接應(yīng)用在云計(jì)算平臺上的挖掘任務(wù)。
最頂層是面向各類用戶的用戶層。改成主要接受各類用戶啊的請求,并將其傳遞給中層和底層,最后將最終的數(shù)據(jù)挖掘結(jié)果展示給用戶。用戶可以通過可視化的界面監(jiān)視任務(wù)的執(zhí)行,并且方便的查看執(zhí)行結(jié)果。
基于云計(jì)算的大數(shù)據(jù)挖掘模式是大數(shù)據(jù)挖掘的主流方式?;谠朴?jì)算的大數(shù)據(jù)挖掘服務(wù)能夠?yàn)椴煌?guī)模的企業(yè)應(yīng)用,使得各類用戶能夠方便地定制和提交數(shù)據(jù)挖掘任務(wù),直接使用數(shù)據(jù)挖掘能力,不必關(guān)心數(shù)據(jù)挖掘具體執(zhí)行者,挖掘數(shù)據(jù)存在的隱藏價(jià)值。
4 結(jié)束語
本文從城市共交通一卡通發(fā)展需求分析,可以發(fā)現(xiàn)基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)是合理和可行的。利用Hadoop的分布式文件系統(tǒng)靈活擴(kuò)展的特性可以解決公交一卡通公司快速增加的數(shù)據(jù)存儲問題。利用基于Hadoop的嶺南通數(shù)據(jù)挖掘模型在面向大眾、企業(yè)內(nèi)部管理和政府決策方面的對應(yīng)數(shù)據(jù)分析與利用能夠發(fā)揮極大的優(yōu)勢,對打造區(qū)域城市公共交通一卡通信息服務(wù)平臺具有很大的幫助和應(yīng)用前景。
【參考文獻(xiàn)】
[1]顧建國.走進(jìn)大數(shù)據(jù)時(shí)代的常州智慧公交:專訪常州市公共交通集團(tuán)公司董事長、總經(jīng)理蔡健臣[J].人民公交,2013(07):24-32.
[2]洑云龍.云平臺下的數(shù)據(jù)挖掘研究[D].南京:南京郵電大學(xué),2013.
[3]楊來,史忠植,梁帆.基于Hadoop云平臺的并行數(shù)據(jù)挖掘方法[J].系統(tǒng)仿真學(xué)報(bào),2013,25(05):936-944.
[4]韓艷,關(guān)宏志,嚴(yán)海.公交IC卡數(shù)據(jù)分析處理方法[J].交通標(biāo)準(zhǔn)化,2010(19):14-18.
[5]羅華群,易國平.校園一卡通數(shù)據(jù)的挖掘與應(yīng)用[J].科技信息,2010(01): 41-42.
[責(zé)任編輯:孫珊珊]
【摘 要】隨著城市公共交通一卡通互聯(lián)互通的發(fā)展,越來越多的企業(yè)重視數(shù)據(jù)的價(jià)值與利用,然而現(xiàn)有的數(shù)據(jù)挖掘方法已經(jīng)滿足不了一卡通跨區(qū)域多領(lǐng)域的數(shù)據(jù)應(yīng)用要求。本文從需求和技術(shù)等兩個(gè)方面進(jìn)行分析說明建立基于Hadoop計(jì)算模型的城市公共交通一卡通數(shù)據(jù)挖掘方法的可行性。
【關(guān)鍵詞】IC卡;云計(jì)算;大數(shù)據(jù)挖掘;Hadoop
0 引言
公共交通在我國經(jīng)濟(jì)發(fā)展與日常生活中占據(jù)著非常重要的地位,為了鼓勵(lì)與便利市民公共交通出行,大部分城市都采用了發(fā)行非接觸式公交IC卡的方式,實(shí)現(xiàn)了大眾乘坐公交、地鐵等公共交通的便捷支付。隨著區(qū)域經(jīng)濟(jì)一體化融合發(fā)展,跨區(qū)多領(lǐng)域的應(yīng)用將是城市公共交通一卡通未來的發(fā)展趨勢。廣東嶺南通股份有限公司(下稱“嶺南通公司”)在政府的支持和地市的配合下承擔(dān)粵港澳城市公共交通一卡通互聯(lián)互通工程建設(shè),致力于打造服務(wù)于區(qū)域經(jīng)濟(jì)發(fā)展的現(xiàn)代公共交通信息化管理平臺。本文將結(jié)合嶺南通跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展趨勢,分析了基于云平臺的IC卡大數(shù)據(jù)挖掘的需求,對云計(jì)算和大數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,從而給出相應(yīng)的一個(gè)解決方案。
1 IC卡數(shù)據(jù)挖掘云平臺需求分析
近年來,我國公交IC卡發(fā)展十分迅猛,覆蓋范圍廣泛,卡片發(fā)行量巨大,由此而產(chǎn)生的數(shù)據(jù)量異常龐大,以往基于數(shù)據(jù)統(tǒng)計(jì)的“小數(shù)據(jù)”模式已經(jīng)滿足不了現(xiàn)代公共交通信息化應(yīng)用的需要。隨著信息技術(shù)的發(fā)展,如今的IT技術(shù)已經(jīng)足夠有條件實(shí)現(xiàn)一種新的基于大數(shù)據(jù)思維模式的人工智能?;贗C卡的大數(shù)據(jù)挖掘技術(shù)不僅可以全面掌握龐大的數(shù)據(jù)信息,還能對這些有意義、有價(jià)值的數(shù)據(jù)進(jìn)行專業(yè)化的分析與處理,從中挖掘潛藏其中的內(nèi)在價(jià)值,并通過這些價(jià)值的利用來提高交通出行效率和管理水平[1]。
通過文獻(xiàn)研究可以發(fā)現(xiàn),國內(nèi)外已有不少專家學(xué)者對IC卡數(shù)據(jù)分析與利用進(jìn)行過相關(guān)的研究,如James J.(2002年)和Zhao(2004年)先后運(yùn)用出行鏈的思想結(jié)合紐約市公交AFC數(shù)據(jù)得到了下車站點(diǎn)推到方法;Yves Croissant(2013年)等人基于公交IC卡數(shù)據(jù)對居民的日常出行行為進(jìn)行研究以及國內(nèi)東南大學(xué)陳學(xué)武等人(2004年)對IC卡數(shù)據(jù)的采集、分析及應(yīng)用進(jìn)行了相關(guān)探索。隨著人們對公共交通出行數(shù)據(jù)重視程度的提高,國內(nèi)外學(xué)者對IC卡數(shù)據(jù)分析挖掘的研究也越來越多。由上面可以發(fā)現(xiàn)國內(nèi)外有關(guān)IC卡數(shù)據(jù)的研究雖然給后來人提供了重要的理論基礎(chǔ)和寶貴的經(jīng)驗(yàn),但是他們的研究一般僅限于某一個(gè)城市或者單一的交通工具或者單一的主題分析與研究,缺乏對跨區(qū)域公交數(shù)據(jù)的相關(guān)研究,面對城市共交通一卡通跨區(qū)域多領(lǐng)域應(yīng)用(互聯(lián)互通)的發(fā)展趨勢,迫切需要建立一種理論來填補(bǔ)這一空白。
2 基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘旨在發(fā)現(xiàn)大量的數(shù)據(jù)中客觀存在的一些規(guī)律,而這種規(guī)律需要通過相關(guān)技術(shù)分析數(shù)據(jù)才能夠獲得。盡管目前數(shù)據(jù)處理技術(shù)在不斷地提高,但是在數(shù)據(jù)規(guī)模日益增大的背景下,人們對海量數(shù)據(jù)的快速高效處理又提出了新的需求。隨著公共交通出行比例日益增加和城市公共交通一卡通的跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展,日常刷卡公交支付行為產(chǎn)生了海量的公共交通出行數(shù)據(jù),規(guī)模可達(dá)GB、TB、PB級別的數(shù)據(jù)集隨處可見,傳統(tǒng)的技術(shù)要處理這些數(shù)據(jù)顯得力不從心了。
云計(jì)算是當(dāng)今信息技術(shù)產(chǎn)業(yè)變革的結(jié)果,是對分布式、并行處理和網(wǎng)格計(jì)算的進(jìn)一步發(fā)展,它是一種基于互聯(lián)網(wǎng)的計(jì)算,同時(shí)能夠向各種互聯(lián)網(wǎng)應(yīng)用提供硬件服務(wù)、基礎(chǔ)架構(gòu)服務(wù)、平臺服務(wù)、軟件服務(wù)、存儲服務(wù)的系統(tǒng)。對用戶來說,云計(jì)算可以降低成本、提高了靈活性和擴(kuò)展性,采用云計(jì)算架構(gòu)模式能夠降低信息系統(tǒng)的復(fù)雜性。在云計(jì)算的架構(gòu)中,復(fù)雜的計(jì)算過程、資源管理都集中在位于“云端”的數(shù)據(jù)中心層面實(shí)現(xiàn),用戶付費(fèi)使用云計(jì)算產(chǎn)品和服務(wù),無需考慮云端后臺的技術(shù)復(fù)雜性。
為了解決海量數(shù)據(jù)計(jì)算分析的問題,國內(nèi)外學(xué)者相繼提出了基于集群、基于網(wǎng)格、基于Agent等各種分布式數(shù)據(jù)挖掘平臺,雖然在一定程度上提高了數(shù)據(jù)挖掘系統(tǒng)的處理能力,但容易衍生出一些自身難以解決的問題。如果能將云計(jì)算融入數(shù)據(jù)挖掘,通過云平臺的大規(guī)模數(shù)據(jù)并行計(jì)算,可以解決海量數(shù)據(jù)挖掘的效率問題。結(jié)合嶺南通數(shù)據(jù)源的特點(diǎn),基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)滿足了未來城市公共交通一卡通互聯(lián)互通的發(fā)展趨勢,建立一個(gè)嶺南通“云”平臺系統(tǒng)是順應(yīng)了這一發(fā)展的要求,如圖1所示。
圖1 嶺南通“云”平臺系統(tǒng)架構(gòu)
3 基于Hadoop的嶺南通數(shù)據(jù)挖掘云平臺
3.1 Hadoop框架原理
Hadoop是Apache軟件基金會所研發(fā)的一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是GFS和MapReduce的Java實(shí)現(xiàn)。Hadoop實(shí)現(xiàn)了MapReduce并行編程模型,提供了分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),為分布式計(jì)算提供底層存儲支持。一個(gè)MapReduce作業(yè)由大量Map和Reduce任務(wù)組成,它將大規(guī)模數(shù)據(jù)處理作業(yè)拆分成若干個(gè)獨(dú)立運(yùn)行的Map任務(wù),分配到不同的機(jī)器上去執(zhí)行,生成某種中間格式的文件,再由若干個(gè)Reduce任務(wù)合并這些中間文件或得最后輸出文件。HDFS是一個(gè)由名字節(jié)點(diǎn)NameNode和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode的組成。NameNode負(fù)責(zé)存儲文件系統(tǒng)中的元數(shù)據(jù)和控制外部客戶的訪問,DataNode用來存放實(shí)際的數(shù)據(jù)。每個(gè)文件都被劃分成若干個(gè)64M的數(shù)據(jù)塊,這些數(shù)據(jù)塊被分散的存儲到各個(gè)DataNode上,HDFS為了保證數(shù)據(jù)的安全性,還會為數(shù)據(jù)進(jìn)行備份存儲到不同的機(jī)器上。用戶從NameNode那里獲取數(shù)據(jù)的位置信息后,直接與存放數(shù)據(jù)塊的DataNode進(jìn)行通信。
3.2 基于Hadoop 的嶺南通數(shù)據(jù)挖掘模型
基于Hadoop的嶺南通數(shù)據(jù)挖掘模型大體上可以分為三層,如圖2所示。
最底層為云計(jì)算服務(wù)層,提供分布式并行數(shù)據(jù)處理和大數(shù)據(jù)的云存儲。分布式存儲為數(shù)據(jù)保存多份副本保證數(shù)據(jù)發(fā)生災(zāi)難時(shí)不影響用戶的正常使用,提高了數(shù)據(jù)的安全性。
數(shù)據(jù)挖掘處理層位于云計(jì)算服務(wù)層之上,包括大數(shù)據(jù)的預(yù)處理和數(shù)據(jù)挖掘算法的并行化。數(shù)據(jù)預(yù)處理對形態(tài)各異的海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和集成等,預(yù)處理后的數(shù)據(jù)提高了數(shù)據(jù)挖掘的質(zhì)量,使挖掘的過程變得更有效、更容易。數(shù)據(jù)挖掘算法的并行化是大數(shù)據(jù)挖掘的關(guān)鍵,需要進(jìn)一步深入研究,使得改造后的挖掘算法和并行化策略能直接應(yīng)用在云計(jì)算平臺上的挖掘任務(wù)。
最頂層是面向各類用戶的用戶層。改成主要接受各類用戶啊的請求,并將其傳遞給中層和底層,最后將最終的數(shù)據(jù)挖掘結(jié)果展示給用戶。用戶可以通過可視化的界面監(jiān)視任務(wù)的執(zhí)行,并且方便的查看執(zhí)行結(jié)果。
基于云計(jì)算的大數(shù)據(jù)挖掘模式是大數(shù)據(jù)挖掘的主流方式。基于云計(jì)算的大數(shù)據(jù)挖掘服務(wù)能夠?yàn)椴煌?guī)模的企業(yè)應(yīng)用,使得各類用戶能夠方便地定制和提交數(shù)據(jù)挖掘任務(wù),直接使用數(shù)據(jù)挖掘能力,不必關(guān)心數(shù)據(jù)挖掘具體執(zhí)行者,挖掘數(shù)據(jù)存在的隱藏價(jià)值。
4 結(jié)束語
本文從城市共交通一卡通發(fā)展需求分析,可以發(fā)現(xiàn)基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)是合理和可行的。利用Hadoop的分布式文件系統(tǒng)靈活擴(kuò)展的特性可以解決公交一卡通公司快速增加的數(shù)據(jù)存儲問題。利用基于Hadoop的嶺南通數(shù)據(jù)挖掘模型在面向大眾、企業(yè)內(nèi)部管理和政府決策方面的對應(yīng)數(shù)據(jù)分析與利用能夠發(fā)揮極大的優(yōu)勢,對打造區(qū)域城市公共交通一卡通信息服務(wù)平臺具有很大的幫助和應(yīng)用前景。
【參考文獻(xiàn)】
[1]顧建國.走進(jìn)大數(shù)據(jù)時(shí)代的常州智慧公交:專訪常州市公共交通集團(tuán)公司董事長、總經(jīng)理蔡健臣[J].人民公交,2013(07):24-32.
[2]洑云龍.云平臺下的數(shù)據(jù)挖掘研究[D].南京:南京郵電大學(xué),2013.
[3]楊來,史忠植,梁帆.基于Hadoop云平臺的并行數(shù)據(jù)挖掘方法[J].系統(tǒng)仿真學(xué)報(bào),2013,25(05):936-944.
[4]韓艷,關(guān)宏志,嚴(yán)海.公交IC卡數(shù)據(jù)分析處理方法[J].交通標(biāo)準(zhǔn)化,2010(19):14-18.
[5]羅華群,易國平.校園一卡通數(shù)據(jù)的挖掘與應(yīng)用[J].科技信息,2010(01): 41-42.
[責(zé)任編輯:孫珊珊]
【摘 要】隨著城市公共交通一卡通互聯(lián)互通的發(fā)展,越來越多的企業(yè)重視數(shù)據(jù)的價(jià)值與利用,然而現(xiàn)有的數(shù)據(jù)挖掘方法已經(jīng)滿足不了一卡通跨區(qū)域多領(lǐng)域的數(shù)據(jù)應(yīng)用要求。本文從需求和技術(shù)等兩個(gè)方面進(jìn)行分析說明建立基于Hadoop計(jì)算模型的城市公共交通一卡通數(shù)據(jù)挖掘方法的可行性。
【關(guān)鍵詞】IC卡;云計(jì)算;大數(shù)據(jù)挖掘;Hadoop
0 引言
公共交通在我國經(jīng)濟(jì)發(fā)展與日常生活中占據(jù)著非常重要的地位,為了鼓勵(lì)與便利市民公共交通出行,大部分城市都采用了發(fā)行非接觸式公交IC卡的方式,實(shí)現(xiàn)了大眾乘坐公交、地鐵等公共交通的便捷支付。隨著區(qū)域經(jīng)濟(jì)一體化融合發(fā)展,跨區(qū)多領(lǐng)域的應(yīng)用將是城市公共交通一卡通未來的發(fā)展趨勢。廣東嶺南通股份有限公司(下稱“嶺南通公司”)在政府的支持和地市的配合下承擔(dān)粵港澳城市公共交通一卡通互聯(lián)互通工程建設(shè),致力于打造服務(wù)于區(qū)域經(jīng)濟(jì)發(fā)展的現(xiàn)代公共交通信息化管理平臺。本文將結(jié)合嶺南通跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展趨勢,分析了基于云平臺的IC卡大數(shù)據(jù)挖掘的需求,對云計(jì)算和大數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,從而給出相應(yīng)的一個(gè)解決方案。
1 IC卡數(shù)據(jù)挖掘云平臺需求分析
近年來,我國公交IC卡發(fā)展十分迅猛,覆蓋范圍廣泛,卡片發(fā)行量巨大,由此而產(chǎn)生的數(shù)據(jù)量異常龐大,以往基于數(shù)據(jù)統(tǒng)計(jì)的“小數(shù)據(jù)”模式已經(jīng)滿足不了現(xiàn)代公共交通信息化應(yīng)用的需要。隨著信息技術(shù)的發(fā)展,如今的IT技術(shù)已經(jīng)足夠有條件實(shí)現(xiàn)一種新的基于大數(shù)據(jù)思維模式的人工智能。基于IC卡的大數(shù)據(jù)挖掘技術(shù)不僅可以全面掌握龐大的數(shù)據(jù)信息,還能對這些有意義、有價(jià)值的數(shù)據(jù)進(jìn)行專業(yè)化的分析與處理,從中挖掘潛藏其中的內(nèi)在價(jià)值,并通過這些價(jià)值的利用來提高交通出行效率和管理水平[1]。
通過文獻(xiàn)研究可以發(fā)現(xiàn),國內(nèi)外已有不少專家學(xué)者對IC卡數(shù)據(jù)分析與利用進(jìn)行過相關(guān)的研究,如James J.(2002年)和Zhao(2004年)先后運(yùn)用出行鏈的思想結(jié)合紐約市公交AFC數(shù)據(jù)得到了下車站點(diǎn)推到方法;Yves Croissant(2013年)等人基于公交IC卡數(shù)據(jù)對居民的日常出行行為進(jìn)行研究以及國內(nèi)東南大學(xué)陳學(xué)武等人(2004年)對IC卡數(shù)據(jù)的采集、分析及應(yīng)用進(jìn)行了相關(guān)探索。隨著人們對公共交通出行數(shù)據(jù)重視程度的提高,國內(nèi)外學(xué)者對IC卡數(shù)據(jù)分析挖掘的研究也越來越多。由上面可以發(fā)現(xiàn)國內(nèi)外有關(guān)IC卡數(shù)據(jù)的研究雖然給后來人提供了重要的理論基礎(chǔ)和寶貴的經(jīng)驗(yàn),但是他們的研究一般僅限于某一個(gè)城市或者單一的交通工具或者單一的主題分析與研究,缺乏對跨區(qū)域公交數(shù)據(jù)的相關(guān)研究,面對城市共交通一卡通跨區(qū)域多領(lǐng)域應(yīng)用(互聯(lián)互通)的發(fā)展趨勢,迫切需要建立一種理論來填補(bǔ)這一空白。
2 基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘旨在發(fā)現(xiàn)大量的數(shù)據(jù)中客觀存在的一些規(guī)律,而這種規(guī)律需要通過相關(guān)技術(shù)分析數(shù)據(jù)才能夠獲得。盡管目前數(shù)據(jù)處理技術(shù)在不斷地提高,但是在數(shù)據(jù)規(guī)模日益增大的背景下,人們對海量數(shù)據(jù)的快速高效處理又提出了新的需求。隨著公共交通出行比例日益增加和城市公共交通一卡通的跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展,日常刷卡公交支付行為產(chǎn)生了海量的公共交通出行數(shù)據(jù),規(guī)??蛇_(dá)GB、TB、PB級別的數(shù)據(jù)集隨處可見,傳統(tǒng)的技術(shù)要處理這些數(shù)據(jù)顯得力不從心了。
云計(jì)算是當(dāng)今信息技術(shù)產(chǎn)業(yè)變革的結(jié)果,是對分布式、并行處理和網(wǎng)格計(jì)算的進(jìn)一步發(fā)展,它是一種基于互聯(lián)網(wǎng)的計(jì)算,同時(shí)能夠向各種互聯(lián)網(wǎng)應(yīng)用提供硬件服務(wù)、基礎(chǔ)架構(gòu)服務(wù)、平臺服務(wù)、軟件服務(wù)、存儲服務(wù)的系統(tǒng)。對用戶來說,云計(jì)算可以降低成本、提高了靈活性和擴(kuò)展性,采用云計(jì)算架構(gòu)模式能夠降低信息系統(tǒng)的復(fù)雜性。在云計(jì)算的架構(gòu)中,復(fù)雜的計(jì)算過程、資源管理都集中在位于“云端”的數(shù)據(jù)中心層面實(shí)現(xiàn),用戶付費(fèi)使用云計(jì)算產(chǎn)品和服務(wù),無需考慮云端后臺的技術(shù)復(fù)雜性。
為了解決海量數(shù)據(jù)計(jì)算分析的問題,國內(nèi)外學(xué)者相繼提出了基于集群、基于網(wǎng)格、基于Agent等各種分布式數(shù)據(jù)挖掘平臺,雖然在一定程度上提高了數(shù)據(jù)挖掘系統(tǒng)的處理能力,但容易衍生出一些自身難以解決的問題。如果能將云計(jì)算融入數(shù)據(jù)挖掘,通過云平臺的大規(guī)模數(shù)據(jù)并行計(jì)算,可以解決海量數(shù)據(jù)挖掘的效率問題。結(jié)合嶺南通數(shù)據(jù)源的特點(diǎn),基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)滿足了未來城市公共交通一卡通互聯(lián)互通的發(fā)展趨勢,建立一個(gè)嶺南通“云”平臺系統(tǒng)是順應(yīng)了這一發(fā)展的要求,如圖1所示。
圖1 嶺南通“云”平臺系統(tǒng)架構(gòu)
3 基于Hadoop的嶺南通數(shù)據(jù)挖掘云平臺
3.1 Hadoop框架原理
Hadoop是Apache軟件基金會所研發(fā)的一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是GFS和MapReduce的Java實(shí)現(xiàn)。Hadoop實(shí)現(xiàn)了MapReduce并行編程模型,提供了分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),為分布式計(jì)算提供底層存儲支持。一個(gè)MapReduce作業(yè)由大量Map和Reduce任務(wù)組成,它將大規(guī)模數(shù)據(jù)處理作業(yè)拆分成若干個(gè)獨(dú)立運(yùn)行的Map任務(wù),分配到不同的機(jī)器上去執(zhí)行,生成某種中間格式的文件,再由若干個(gè)Reduce任務(wù)合并這些中間文件或得最后輸出文件。HDFS是一個(gè)由名字節(jié)點(diǎn)NameNode和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode的組成。NameNode負(fù)責(zé)存儲文件系統(tǒng)中的元數(shù)據(jù)和控制外部客戶的訪問,DataNode用來存放實(shí)際的數(shù)據(jù)。每個(gè)文件都被劃分成若干個(gè)64M的數(shù)據(jù)塊,這些數(shù)據(jù)塊被分散的存儲到各個(gè)DataNode上,HDFS為了保證數(shù)據(jù)的安全性,還會為數(shù)據(jù)進(jìn)行備份存儲到不同的機(jī)器上。用戶從NameNode那里獲取數(shù)據(jù)的位置信息后,直接與存放數(shù)據(jù)塊的DataNode進(jìn)行通信。
3.2 基于Hadoop 的嶺南通數(shù)據(jù)挖掘模型
基于Hadoop的嶺南通數(shù)據(jù)挖掘模型大體上可以分為三層,如圖2所示。
最底層為云計(jì)算服務(wù)層,提供分布式并行數(shù)據(jù)處理和大數(shù)據(jù)的云存儲。分布式存儲為數(shù)據(jù)保存多份副本保證數(shù)據(jù)發(fā)生災(zāi)難時(shí)不影響用戶的正常使用,提高了數(shù)據(jù)的安全性。
數(shù)據(jù)挖掘處理層位于云計(jì)算服務(wù)層之上,包括大數(shù)據(jù)的預(yù)處理和數(shù)據(jù)挖掘算法的并行化。數(shù)據(jù)預(yù)處理對形態(tài)各異的海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和集成等,預(yù)處理后的數(shù)據(jù)提高了數(shù)據(jù)挖掘的質(zhì)量,使挖掘的過程變得更有效、更容易。數(shù)據(jù)挖掘算法的并行化是大數(shù)據(jù)挖掘的關(guān)鍵,需要進(jìn)一步深入研究,使得改造后的挖掘算法和并行化策略能直接應(yīng)用在云計(jì)算平臺上的挖掘任務(wù)。
最頂層是面向各類用戶的用戶層。改成主要接受各類用戶啊的請求,并將其傳遞給中層和底層,最后將最終的數(shù)據(jù)挖掘結(jié)果展示給用戶。用戶可以通過可視化的界面監(jiān)視任務(wù)的執(zhí)行,并且方便的查看執(zhí)行結(jié)果。
基于云計(jì)算的大數(shù)據(jù)挖掘模式是大數(shù)據(jù)挖掘的主流方式?;谠朴?jì)算的大數(shù)據(jù)挖掘服務(wù)能夠?yàn)椴煌?guī)模的企業(yè)應(yīng)用,使得各類用戶能夠方便地定制和提交數(shù)據(jù)挖掘任務(wù),直接使用數(shù)據(jù)挖掘能力,不必關(guān)心數(shù)據(jù)挖掘具體執(zhí)行者,挖掘數(shù)據(jù)存在的隱藏價(jià)值。
4 結(jié)束語
本文從城市共交通一卡通發(fā)展需求分析,可以發(fā)現(xiàn)基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)是合理和可行的。利用Hadoop的分布式文件系統(tǒng)靈活擴(kuò)展的特性可以解決公交一卡通公司快速增加的數(shù)據(jù)存儲問題。利用基于Hadoop的嶺南通數(shù)據(jù)挖掘模型在面向大眾、企業(yè)內(nèi)部管理和政府決策方面的對應(yīng)數(shù)據(jù)分析與利用能夠發(fā)揮極大的優(yōu)勢,對打造區(qū)域城市公共交通一卡通信息服務(wù)平臺具有很大的幫助和應(yīng)用前景。
【參考文獻(xiàn)】
[1]顧建國.走進(jìn)大數(shù)據(jù)時(shí)代的常州智慧公交:專訪常州市公共交通集團(tuán)公司董事長、總經(jīng)理蔡健臣[J].人民公交,2013(07):24-32.
[2]洑云龍.云平臺下的數(shù)據(jù)挖掘研究[D].南京:南京郵電大學(xué),2013.
[3]楊來,史忠植,梁帆.基于Hadoop云平臺的并行數(shù)據(jù)挖掘方法[J].系統(tǒng)仿真學(xué)報(bào),2013,25(05):936-944.
[4]韓艷,關(guān)宏志,嚴(yán)海.公交IC卡數(shù)據(jù)分析處理方法[J].交通標(biāo)準(zhǔn)化,2010(19):14-18.
[5]羅華群,易國平.校園一卡通數(shù)據(jù)的挖掘與應(yīng)用[J].科技信息,2010(01): 41-42.
[責(zé)任編輯:孫珊珊]