亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云平臺的嶺南通IC卡數(shù)據(jù)挖掘方法研究

        2014-08-12 21:05:05方曉洪陸濤吳金成何建兵
        科技視界 2014年19期
        關(guān)鍵詞:IC卡云計(jì)算

        方曉洪 陸濤 吳金成 何建兵

        【摘 要】隨著城市公共交通一卡通互聯(lián)互通的發(fā)展,越來越多的企業(yè)重視數(shù)據(jù)的價(jià)值與利用,然而現(xiàn)有的數(shù)據(jù)挖掘方法已經(jīng)滿足不了一卡通跨區(qū)域多領(lǐng)域的數(shù)據(jù)應(yīng)用要求。本文從需求和技術(shù)等兩個(gè)方面進(jìn)行分析說明建立基于Hadoop計(jì)算模型的城市公共交通一卡通數(shù)據(jù)挖掘方法的可行性。

        【關(guān)鍵詞】IC卡;云計(jì)算;大數(shù)據(jù)挖掘;Hadoop

        0 引言

        公共交通在我國經(jīng)濟(jì)發(fā)展與日常生活中占據(jù)著非常重要的地位,為了鼓勵(lì)與便利市民公共交通出行,大部分城市都采用了發(fā)行非接觸式公交IC卡的方式,實(shí)現(xiàn)了大眾乘坐公交、地鐵等公共交通的便捷支付。隨著區(qū)域經(jīng)濟(jì)一體化融合發(fā)展,跨區(qū)多領(lǐng)域的應(yīng)用將是城市公共交通一卡通未來的發(fā)展趨勢。廣東嶺南通股份有限公司(下稱“嶺南通公司”)在政府的支持和地市的配合下承擔(dān)粵港澳城市公共交通一卡通互聯(lián)互通工程建設(shè),致力于打造服務(wù)于區(qū)域經(jīng)濟(jì)發(fā)展的現(xiàn)代公共交通信息化管理平臺。本文將結(jié)合嶺南通跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展趨勢,分析了基于云平臺的IC卡大數(shù)據(jù)挖掘的需求,對云計(jì)算和大數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,從而給出相應(yīng)的一個(gè)解決方案。

        1 IC卡數(shù)據(jù)挖掘云平臺需求分析

        近年來,我國公交IC卡發(fā)展十分迅猛,覆蓋范圍廣泛,卡片發(fā)行量巨大,由此而產(chǎn)生的數(shù)據(jù)量異常龐大,以往基于數(shù)據(jù)統(tǒng)計(jì)的“小數(shù)據(jù)”模式已經(jīng)滿足不了現(xiàn)代公共交通信息化應(yīng)用的需要。隨著信息技術(shù)的發(fā)展,如今的IT技術(shù)已經(jīng)足夠有條件實(shí)現(xiàn)一種新的基于大數(shù)據(jù)思維模式的人工智能。基于IC卡的大數(shù)據(jù)挖掘技術(shù)不僅可以全面掌握龐大的數(shù)據(jù)信息,還能對這些有意義、有價(jià)值的數(shù)據(jù)進(jìn)行專業(yè)化的分析與處理,從中挖掘潛藏其中的內(nèi)在價(jià)值,并通過這些價(jià)值的利用來提高交通出行效率和管理水平[1]。

        通過文獻(xiàn)研究可以發(fā)現(xiàn),國內(nèi)外已有不少專家學(xué)者對IC卡數(shù)據(jù)分析與利用進(jìn)行過相關(guān)的研究,如James J.(2002年)和Zhao(2004年)先后運(yùn)用出行鏈的思想結(jié)合紐約市公交AFC數(shù)據(jù)得到了下車站點(diǎn)推到方法;Yves Croissant(2013年)等人基于公交IC卡數(shù)據(jù)對居民的日常出行行為進(jìn)行研究以及國內(nèi)東南大學(xué)陳學(xué)武等人(2004年)對IC卡數(shù)據(jù)的采集、分析及應(yīng)用進(jìn)行了相關(guān)探索。隨著人們對公共交通出行數(shù)據(jù)重視程度的提高,國內(nèi)外學(xué)者對IC卡數(shù)據(jù)分析挖掘的研究也越來越多。由上面可以發(fā)現(xiàn)國內(nèi)外有關(guān)IC卡數(shù)據(jù)的研究雖然給后來人提供了重要的理論基礎(chǔ)和寶貴的經(jīng)驗(yàn),但是他們的研究一般僅限于某一個(gè)城市或者單一的交通工具或者單一的主題分析與研究,缺乏對跨區(qū)域公交數(shù)據(jù)的相關(guān)研究,面對城市共交通一卡通跨區(qū)域多領(lǐng)域應(yīng)用(互聯(lián)互通)的發(fā)展趨勢,迫切需要建立一種理論來填補(bǔ)這一空白。

        2 基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)

        數(shù)據(jù)挖掘旨在發(fā)現(xiàn)大量的數(shù)據(jù)中客觀存在的一些規(guī)律,而這種規(guī)律需要通過相關(guān)技術(shù)分析數(shù)據(jù)才能夠獲得。盡管目前數(shù)據(jù)處理技術(shù)在不斷地提高,但是在數(shù)據(jù)規(guī)模日益增大的背景下,人們對海量數(shù)據(jù)的快速高效處理又提出了新的需求。隨著公共交通出行比例日益增加和城市公共交通一卡通的跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展,日常刷卡公交支付行為產(chǎn)生了海量的公共交通出行數(shù)據(jù),規(guī)模可達(dá)GB、TB、PB級別的數(shù)據(jù)集隨處可見,傳統(tǒng)的技術(shù)要處理這些數(shù)據(jù)顯得力不從心了。

        云計(jì)算是當(dāng)今信息技術(shù)產(chǎn)業(yè)變革的結(jié)果,是對分布式、并行處理和網(wǎng)格計(jì)算的進(jìn)一步發(fā)展,它是一種基于互聯(lián)網(wǎng)的計(jì)算,同時(shí)能夠向各種互聯(lián)網(wǎng)應(yīng)用提供硬件服務(wù)、基礎(chǔ)架構(gòu)服務(wù)、平臺服務(wù)、軟件服務(wù)、存儲服務(wù)的系統(tǒng)。對用戶來說,云計(jì)算可以降低成本、提高了靈活性和擴(kuò)展性,采用云計(jì)算架構(gòu)模式能夠降低信息系統(tǒng)的復(fù)雜性。在云計(jì)算的架構(gòu)中,復(fù)雜的計(jì)算過程、資源管理都集中在位于“云端”的數(shù)據(jù)中心層面實(shí)現(xiàn),用戶付費(fèi)使用云計(jì)算產(chǎn)品和服務(wù),無需考慮云端后臺的技術(shù)復(fù)雜性。

        為了解決海量數(shù)據(jù)計(jì)算分析的問題,國內(nèi)外學(xué)者相繼提出了基于集群、基于網(wǎng)格、基于Agent等各種分布式數(shù)據(jù)挖掘平臺,雖然在一定程度上提高了數(shù)據(jù)挖掘系統(tǒng)的處理能力,但容易衍生出一些自身難以解決的問題。如果能將云計(jì)算融入數(shù)據(jù)挖掘,通過云平臺的大規(guī)模數(shù)據(jù)并行計(jì)算,可以解決海量數(shù)據(jù)挖掘的效率問題。結(jié)合嶺南通數(shù)據(jù)源的特點(diǎn),基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)滿足了未來城市公共交通一卡通互聯(lián)互通的發(fā)展趨勢,建立一個(gè)嶺南通“云”平臺系統(tǒng)是順應(yīng)了這一發(fā)展的要求,如圖1所示。

        圖1 嶺南通“云”平臺系統(tǒng)架構(gòu)

        3 基于Hadoop的嶺南通數(shù)據(jù)挖掘云平臺

        3.1 Hadoop框架原理

        Hadoop是Apache軟件基金會所研發(fā)的一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是GFS和MapReduce的Java實(shí)現(xiàn)。Hadoop實(shí)現(xiàn)了MapReduce并行編程模型,提供了分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),為分布式計(jì)算提供底層存儲支持。一個(gè)MapReduce作業(yè)由大量Map和Reduce任務(wù)組成,它將大規(guī)模數(shù)據(jù)處理作業(yè)拆分成若干個(gè)獨(dú)立運(yùn)行的Map任務(wù),分配到不同的機(jī)器上去執(zhí)行,生成某種中間格式的文件,再由若干個(gè)Reduce任務(wù)合并這些中間文件或得最后輸出文件。HDFS是一個(gè)由名字節(jié)點(diǎn)NameNode和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode的組成。NameNode負(fù)責(zé)存儲文件系統(tǒng)中的元數(shù)據(jù)和控制外部客戶的訪問,DataNode用來存放實(shí)際的數(shù)據(jù)。每個(gè)文件都被劃分成若干個(gè)64M的數(shù)據(jù)塊,這些數(shù)據(jù)塊被分散的存儲到各個(gè)DataNode上,HDFS為了保證數(shù)據(jù)的安全性,還會為數(shù)據(jù)進(jìn)行備份存儲到不同的機(jī)器上。用戶從NameNode那里獲取數(shù)據(jù)的位置信息后,直接與存放數(shù)據(jù)塊的DataNode進(jìn)行通信。

        3.2 基于Hadoop 的嶺南通數(shù)據(jù)挖掘模型

        基于Hadoop的嶺南通數(shù)據(jù)挖掘模型大體上可以分為三層,如圖2所示。

        最底層為云計(jì)算服務(wù)層,提供分布式并行數(shù)據(jù)處理和大數(shù)據(jù)的云存儲。分布式存儲為數(shù)據(jù)保存多份副本保證數(shù)據(jù)發(fā)生災(zāi)難時(shí)不影響用戶的正常使用,提高了數(shù)據(jù)的安全性。

        數(shù)據(jù)挖掘處理層位于云計(jì)算服務(wù)層之上,包括大數(shù)據(jù)的預(yù)處理和數(shù)據(jù)挖掘算法的并行化。數(shù)據(jù)預(yù)處理對形態(tài)各異的海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和集成等,預(yù)處理后的數(shù)據(jù)提高了數(shù)據(jù)挖掘的質(zhì)量,使挖掘的過程變得更有效、更容易。數(shù)據(jù)挖掘算法的并行化是大數(shù)據(jù)挖掘的關(guān)鍵,需要進(jìn)一步深入研究,使得改造后的挖掘算法和并行化策略能直接應(yīng)用在云計(jì)算平臺上的挖掘任務(wù)。

        最頂層是面向各類用戶的用戶層。改成主要接受各類用戶啊的請求,并將其傳遞給中層和底層,最后將最終的數(shù)據(jù)挖掘結(jié)果展示給用戶。用戶可以通過可視化的界面監(jiān)視任務(wù)的執(zhí)行,并且方便的查看執(zhí)行結(jié)果。

        基于云計(jì)算的大數(shù)據(jù)挖掘模式是大數(shù)據(jù)挖掘的主流方式?;谠朴?jì)算的大數(shù)據(jù)挖掘服務(wù)能夠?yàn)椴煌?guī)模的企業(yè)應(yīng)用,使得各類用戶能夠方便地定制和提交數(shù)據(jù)挖掘任務(wù),直接使用數(shù)據(jù)挖掘能力,不必關(guān)心數(shù)據(jù)挖掘具體執(zhí)行者,挖掘數(shù)據(jù)存在的隱藏價(jià)值。

        4 結(jié)束語

        本文從城市共交通一卡通發(fā)展需求分析,可以發(fā)現(xiàn)基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)是合理和可行的。利用Hadoop的分布式文件系統(tǒng)靈活擴(kuò)展的特性可以解決公交一卡通公司快速增加的數(shù)據(jù)存儲問題。利用基于Hadoop的嶺南通數(shù)據(jù)挖掘模型在面向大眾、企業(yè)內(nèi)部管理和政府決策方面的對應(yīng)數(shù)據(jù)分析與利用能夠發(fā)揮極大的優(yōu)勢,對打造區(qū)域城市公共交通一卡通信息服務(wù)平臺具有很大的幫助和應(yīng)用前景。

        【參考文獻(xiàn)】

        [1]顧建國.走進(jìn)大數(shù)據(jù)時(shí)代的常州智慧公交:專訪常州市公共交通集團(tuán)公司董事長、總經(jīng)理蔡健臣[J].人民公交,2013(07):24-32.

        [2]洑云龍.云平臺下的數(shù)據(jù)挖掘研究[D].南京:南京郵電大學(xué),2013.

        [3]楊來,史忠植,梁帆.基于Hadoop云平臺的并行數(shù)據(jù)挖掘方法[J].系統(tǒng)仿真學(xué)報(bào),2013,25(05):936-944.

        [4]韓艷,關(guān)宏志,嚴(yán)海.公交IC卡數(shù)據(jù)分析處理方法[J].交通標(biāo)準(zhǔn)化,2010(19):14-18.

        [5]羅華群,易國平.校園一卡通數(shù)據(jù)的挖掘與應(yīng)用[J].科技信息,2010(01): 41-42.

        [責(zé)任編輯:孫珊珊]

        【摘 要】隨著城市公共交通一卡通互聯(lián)互通的發(fā)展,越來越多的企業(yè)重視數(shù)據(jù)的價(jià)值與利用,然而現(xiàn)有的數(shù)據(jù)挖掘方法已經(jīng)滿足不了一卡通跨區(qū)域多領(lǐng)域的數(shù)據(jù)應(yīng)用要求。本文從需求和技術(shù)等兩個(gè)方面進(jìn)行分析說明建立基于Hadoop計(jì)算模型的城市公共交通一卡通數(shù)據(jù)挖掘方法的可行性。

        【關(guān)鍵詞】IC卡;云計(jì)算;大數(shù)據(jù)挖掘;Hadoop

        0 引言

        公共交通在我國經(jīng)濟(jì)發(fā)展與日常生活中占據(jù)著非常重要的地位,為了鼓勵(lì)與便利市民公共交通出行,大部分城市都采用了發(fā)行非接觸式公交IC卡的方式,實(shí)現(xiàn)了大眾乘坐公交、地鐵等公共交通的便捷支付。隨著區(qū)域經(jīng)濟(jì)一體化融合發(fā)展,跨區(qū)多領(lǐng)域的應(yīng)用將是城市公共交通一卡通未來的發(fā)展趨勢。廣東嶺南通股份有限公司(下稱“嶺南通公司”)在政府的支持和地市的配合下承擔(dān)粵港澳城市公共交通一卡通互聯(lián)互通工程建設(shè),致力于打造服務(wù)于區(qū)域經(jīng)濟(jì)發(fā)展的現(xiàn)代公共交通信息化管理平臺。本文將結(jié)合嶺南通跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展趨勢,分析了基于云平臺的IC卡大數(shù)據(jù)挖掘的需求,對云計(jì)算和大數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,從而給出相應(yīng)的一個(gè)解決方案。

        1 IC卡數(shù)據(jù)挖掘云平臺需求分析

        近年來,我國公交IC卡發(fā)展十分迅猛,覆蓋范圍廣泛,卡片發(fā)行量巨大,由此而產(chǎn)生的數(shù)據(jù)量異常龐大,以往基于數(shù)據(jù)統(tǒng)計(jì)的“小數(shù)據(jù)”模式已經(jīng)滿足不了現(xiàn)代公共交通信息化應(yīng)用的需要。隨著信息技術(shù)的發(fā)展,如今的IT技術(shù)已經(jīng)足夠有條件實(shí)現(xiàn)一種新的基于大數(shù)據(jù)思維模式的人工智能?;贗C卡的大數(shù)據(jù)挖掘技術(shù)不僅可以全面掌握龐大的數(shù)據(jù)信息,還能對這些有意義、有價(jià)值的數(shù)據(jù)進(jìn)行專業(yè)化的分析與處理,從中挖掘潛藏其中的內(nèi)在價(jià)值,并通過這些價(jià)值的利用來提高交通出行效率和管理水平[1]。

        通過文獻(xiàn)研究可以發(fā)現(xiàn),國內(nèi)外已有不少專家學(xué)者對IC卡數(shù)據(jù)分析與利用進(jìn)行過相關(guān)的研究,如James J.(2002年)和Zhao(2004年)先后運(yùn)用出行鏈的思想結(jié)合紐約市公交AFC數(shù)據(jù)得到了下車站點(diǎn)推到方法;Yves Croissant(2013年)等人基于公交IC卡數(shù)據(jù)對居民的日常出行行為進(jìn)行研究以及國內(nèi)東南大學(xué)陳學(xué)武等人(2004年)對IC卡數(shù)據(jù)的采集、分析及應(yīng)用進(jìn)行了相關(guān)探索。隨著人們對公共交通出行數(shù)據(jù)重視程度的提高,國內(nèi)外學(xué)者對IC卡數(shù)據(jù)分析挖掘的研究也越來越多。由上面可以發(fā)現(xiàn)國內(nèi)外有關(guān)IC卡數(shù)據(jù)的研究雖然給后來人提供了重要的理論基礎(chǔ)和寶貴的經(jīng)驗(yàn),但是他們的研究一般僅限于某一個(gè)城市或者單一的交通工具或者單一的主題分析與研究,缺乏對跨區(qū)域公交數(shù)據(jù)的相關(guān)研究,面對城市共交通一卡通跨區(qū)域多領(lǐng)域應(yīng)用(互聯(lián)互通)的發(fā)展趨勢,迫切需要建立一種理論來填補(bǔ)這一空白。

        2 基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)

        數(shù)據(jù)挖掘旨在發(fā)現(xiàn)大量的數(shù)據(jù)中客觀存在的一些規(guī)律,而這種規(guī)律需要通過相關(guān)技術(shù)分析數(shù)據(jù)才能夠獲得。盡管目前數(shù)據(jù)處理技術(shù)在不斷地提高,但是在數(shù)據(jù)規(guī)模日益增大的背景下,人們對海量數(shù)據(jù)的快速高效處理又提出了新的需求。隨著公共交通出行比例日益增加和城市公共交通一卡通的跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展,日常刷卡公交支付行為產(chǎn)生了海量的公共交通出行數(shù)據(jù),規(guī)模可達(dá)GB、TB、PB級別的數(shù)據(jù)集隨處可見,傳統(tǒng)的技術(shù)要處理這些數(shù)據(jù)顯得力不從心了。

        云計(jì)算是當(dāng)今信息技術(shù)產(chǎn)業(yè)變革的結(jié)果,是對分布式、并行處理和網(wǎng)格計(jì)算的進(jìn)一步發(fā)展,它是一種基于互聯(lián)網(wǎng)的計(jì)算,同時(shí)能夠向各種互聯(lián)網(wǎng)應(yīng)用提供硬件服務(wù)、基礎(chǔ)架構(gòu)服務(wù)、平臺服務(wù)、軟件服務(wù)、存儲服務(wù)的系統(tǒng)。對用戶來說,云計(jì)算可以降低成本、提高了靈活性和擴(kuò)展性,采用云計(jì)算架構(gòu)模式能夠降低信息系統(tǒng)的復(fù)雜性。在云計(jì)算的架構(gòu)中,復(fù)雜的計(jì)算過程、資源管理都集中在位于“云端”的數(shù)據(jù)中心層面實(shí)現(xiàn),用戶付費(fèi)使用云計(jì)算產(chǎn)品和服務(wù),無需考慮云端后臺的技術(shù)復(fù)雜性。

        為了解決海量數(shù)據(jù)計(jì)算分析的問題,國內(nèi)外學(xué)者相繼提出了基于集群、基于網(wǎng)格、基于Agent等各種分布式數(shù)據(jù)挖掘平臺,雖然在一定程度上提高了數(shù)據(jù)挖掘系統(tǒng)的處理能力,但容易衍生出一些自身難以解決的問題。如果能將云計(jì)算融入數(shù)據(jù)挖掘,通過云平臺的大規(guī)模數(shù)據(jù)并行計(jì)算,可以解決海量數(shù)據(jù)挖掘的效率問題。結(jié)合嶺南通數(shù)據(jù)源的特點(diǎn),基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)滿足了未來城市公共交通一卡通互聯(lián)互通的發(fā)展趨勢,建立一個(gè)嶺南通“云”平臺系統(tǒng)是順應(yīng)了這一發(fā)展的要求,如圖1所示。

        圖1 嶺南通“云”平臺系統(tǒng)架構(gòu)

        3 基于Hadoop的嶺南通數(shù)據(jù)挖掘云平臺

        3.1 Hadoop框架原理

        Hadoop是Apache軟件基金會所研發(fā)的一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是GFS和MapReduce的Java實(shí)現(xiàn)。Hadoop實(shí)現(xiàn)了MapReduce并行編程模型,提供了分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),為分布式計(jì)算提供底層存儲支持。一個(gè)MapReduce作業(yè)由大量Map和Reduce任務(wù)組成,它將大規(guī)模數(shù)據(jù)處理作業(yè)拆分成若干個(gè)獨(dú)立運(yùn)行的Map任務(wù),分配到不同的機(jī)器上去執(zhí)行,生成某種中間格式的文件,再由若干個(gè)Reduce任務(wù)合并這些中間文件或得最后輸出文件。HDFS是一個(gè)由名字節(jié)點(diǎn)NameNode和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode的組成。NameNode負(fù)責(zé)存儲文件系統(tǒng)中的元數(shù)據(jù)和控制外部客戶的訪問,DataNode用來存放實(shí)際的數(shù)據(jù)。每個(gè)文件都被劃分成若干個(gè)64M的數(shù)據(jù)塊,這些數(shù)據(jù)塊被分散的存儲到各個(gè)DataNode上,HDFS為了保證數(shù)據(jù)的安全性,還會為數(shù)據(jù)進(jìn)行備份存儲到不同的機(jī)器上。用戶從NameNode那里獲取數(shù)據(jù)的位置信息后,直接與存放數(shù)據(jù)塊的DataNode進(jìn)行通信。

        3.2 基于Hadoop 的嶺南通數(shù)據(jù)挖掘模型

        基于Hadoop的嶺南通數(shù)據(jù)挖掘模型大體上可以分為三層,如圖2所示。

        最底層為云計(jì)算服務(wù)層,提供分布式并行數(shù)據(jù)處理和大數(shù)據(jù)的云存儲。分布式存儲為數(shù)據(jù)保存多份副本保證數(shù)據(jù)發(fā)生災(zāi)難時(shí)不影響用戶的正常使用,提高了數(shù)據(jù)的安全性。

        數(shù)據(jù)挖掘處理層位于云計(jì)算服務(wù)層之上,包括大數(shù)據(jù)的預(yù)處理和數(shù)據(jù)挖掘算法的并行化。數(shù)據(jù)預(yù)處理對形態(tài)各異的海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和集成等,預(yù)處理后的數(shù)據(jù)提高了數(shù)據(jù)挖掘的質(zhì)量,使挖掘的過程變得更有效、更容易。數(shù)據(jù)挖掘算法的并行化是大數(shù)據(jù)挖掘的關(guān)鍵,需要進(jìn)一步深入研究,使得改造后的挖掘算法和并行化策略能直接應(yīng)用在云計(jì)算平臺上的挖掘任務(wù)。

        最頂層是面向各類用戶的用戶層。改成主要接受各類用戶啊的請求,并將其傳遞給中層和底層,最后將最終的數(shù)據(jù)挖掘結(jié)果展示給用戶。用戶可以通過可視化的界面監(jiān)視任務(wù)的執(zhí)行,并且方便的查看執(zhí)行結(jié)果。

        基于云計(jì)算的大數(shù)據(jù)挖掘模式是大數(shù)據(jù)挖掘的主流方式。基于云計(jì)算的大數(shù)據(jù)挖掘服務(wù)能夠?yàn)椴煌?guī)模的企業(yè)應(yīng)用,使得各類用戶能夠方便地定制和提交數(shù)據(jù)挖掘任務(wù),直接使用數(shù)據(jù)挖掘能力,不必關(guān)心數(shù)據(jù)挖掘具體執(zhí)行者,挖掘數(shù)據(jù)存在的隱藏價(jià)值。

        4 結(jié)束語

        本文從城市共交通一卡通發(fā)展需求分析,可以發(fā)現(xiàn)基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)是合理和可行的。利用Hadoop的分布式文件系統(tǒng)靈活擴(kuò)展的特性可以解決公交一卡通公司快速增加的數(shù)據(jù)存儲問題。利用基于Hadoop的嶺南通數(shù)據(jù)挖掘模型在面向大眾、企業(yè)內(nèi)部管理和政府決策方面的對應(yīng)數(shù)據(jù)分析與利用能夠發(fā)揮極大的優(yōu)勢,對打造區(qū)域城市公共交通一卡通信息服務(wù)平臺具有很大的幫助和應(yīng)用前景。

        【參考文獻(xiàn)】

        [1]顧建國.走進(jìn)大數(shù)據(jù)時(shí)代的常州智慧公交:專訪常州市公共交通集團(tuán)公司董事長、總經(jīng)理蔡健臣[J].人民公交,2013(07):24-32.

        [2]洑云龍.云平臺下的數(shù)據(jù)挖掘研究[D].南京:南京郵電大學(xué),2013.

        [3]楊來,史忠植,梁帆.基于Hadoop云平臺的并行數(shù)據(jù)挖掘方法[J].系統(tǒng)仿真學(xué)報(bào),2013,25(05):936-944.

        [4]韓艷,關(guān)宏志,嚴(yán)海.公交IC卡數(shù)據(jù)分析處理方法[J].交通標(biāo)準(zhǔn)化,2010(19):14-18.

        [5]羅華群,易國平.校園一卡通數(shù)據(jù)的挖掘與應(yīng)用[J].科技信息,2010(01): 41-42.

        [責(zé)任編輯:孫珊珊]

        【摘 要】隨著城市公共交通一卡通互聯(lián)互通的發(fā)展,越來越多的企業(yè)重視數(shù)據(jù)的價(jià)值與利用,然而現(xiàn)有的數(shù)據(jù)挖掘方法已經(jīng)滿足不了一卡通跨區(qū)域多領(lǐng)域的數(shù)據(jù)應(yīng)用要求。本文從需求和技術(shù)等兩個(gè)方面進(jìn)行分析說明建立基于Hadoop計(jì)算模型的城市公共交通一卡通數(shù)據(jù)挖掘方法的可行性。

        【關(guān)鍵詞】IC卡;云計(jì)算;大數(shù)據(jù)挖掘;Hadoop

        0 引言

        公共交通在我國經(jīng)濟(jì)發(fā)展與日常生活中占據(jù)著非常重要的地位,為了鼓勵(lì)與便利市民公共交通出行,大部分城市都采用了發(fā)行非接觸式公交IC卡的方式,實(shí)現(xiàn)了大眾乘坐公交、地鐵等公共交通的便捷支付。隨著區(qū)域經(jīng)濟(jì)一體化融合發(fā)展,跨區(qū)多領(lǐng)域的應(yīng)用將是城市公共交通一卡通未來的發(fā)展趨勢。廣東嶺南通股份有限公司(下稱“嶺南通公司”)在政府的支持和地市的配合下承擔(dān)粵港澳城市公共交通一卡通互聯(lián)互通工程建設(shè),致力于打造服務(wù)于區(qū)域經(jīng)濟(jì)發(fā)展的現(xiàn)代公共交通信息化管理平臺。本文將結(jié)合嶺南通跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展趨勢,分析了基于云平臺的IC卡大數(shù)據(jù)挖掘的需求,對云計(jì)算和大數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,從而給出相應(yīng)的一個(gè)解決方案。

        1 IC卡數(shù)據(jù)挖掘云平臺需求分析

        近年來,我國公交IC卡發(fā)展十分迅猛,覆蓋范圍廣泛,卡片發(fā)行量巨大,由此而產(chǎn)生的數(shù)據(jù)量異常龐大,以往基于數(shù)據(jù)統(tǒng)計(jì)的“小數(shù)據(jù)”模式已經(jīng)滿足不了現(xiàn)代公共交通信息化應(yīng)用的需要。隨著信息技術(shù)的發(fā)展,如今的IT技術(shù)已經(jīng)足夠有條件實(shí)現(xiàn)一種新的基于大數(shù)據(jù)思維模式的人工智能。基于IC卡的大數(shù)據(jù)挖掘技術(shù)不僅可以全面掌握龐大的數(shù)據(jù)信息,還能對這些有意義、有價(jià)值的數(shù)據(jù)進(jìn)行專業(yè)化的分析與處理,從中挖掘潛藏其中的內(nèi)在價(jià)值,并通過這些價(jià)值的利用來提高交通出行效率和管理水平[1]。

        通過文獻(xiàn)研究可以發(fā)現(xiàn),國內(nèi)外已有不少專家學(xué)者對IC卡數(shù)據(jù)分析與利用進(jìn)行過相關(guān)的研究,如James J.(2002年)和Zhao(2004年)先后運(yùn)用出行鏈的思想結(jié)合紐約市公交AFC數(shù)據(jù)得到了下車站點(diǎn)推到方法;Yves Croissant(2013年)等人基于公交IC卡數(shù)據(jù)對居民的日常出行行為進(jìn)行研究以及國內(nèi)東南大學(xué)陳學(xué)武等人(2004年)對IC卡數(shù)據(jù)的采集、分析及應(yīng)用進(jìn)行了相關(guān)探索。隨著人們對公共交通出行數(shù)據(jù)重視程度的提高,國內(nèi)外學(xué)者對IC卡數(shù)據(jù)分析挖掘的研究也越來越多。由上面可以發(fā)現(xiàn)國內(nèi)外有關(guān)IC卡數(shù)據(jù)的研究雖然給后來人提供了重要的理論基礎(chǔ)和寶貴的經(jīng)驗(yàn),但是他們的研究一般僅限于某一個(gè)城市或者單一的交通工具或者單一的主題分析與研究,缺乏對跨區(qū)域公交數(shù)據(jù)的相關(guān)研究,面對城市共交通一卡通跨區(qū)域多領(lǐng)域應(yīng)用(互聯(lián)互通)的發(fā)展趨勢,迫切需要建立一種理論來填補(bǔ)這一空白。

        2 基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)

        數(shù)據(jù)挖掘旨在發(fā)現(xiàn)大量的數(shù)據(jù)中客觀存在的一些規(guī)律,而這種規(guī)律需要通過相關(guān)技術(shù)分析數(shù)據(jù)才能夠獲得。盡管目前數(shù)據(jù)處理技術(shù)在不斷地提高,但是在數(shù)據(jù)規(guī)模日益增大的背景下,人們對海量數(shù)據(jù)的快速高效處理又提出了新的需求。隨著公共交通出行比例日益增加和城市公共交通一卡通的跨區(qū)多領(lǐng)域應(yīng)用的發(fā)展,日常刷卡公交支付行為產(chǎn)生了海量的公共交通出行數(shù)據(jù),規(guī)??蛇_(dá)GB、TB、PB級別的數(shù)據(jù)集隨處可見,傳統(tǒng)的技術(shù)要處理這些數(shù)據(jù)顯得力不從心了。

        云計(jì)算是當(dāng)今信息技術(shù)產(chǎn)業(yè)變革的結(jié)果,是對分布式、并行處理和網(wǎng)格計(jì)算的進(jìn)一步發(fā)展,它是一種基于互聯(lián)網(wǎng)的計(jì)算,同時(shí)能夠向各種互聯(lián)網(wǎng)應(yīng)用提供硬件服務(wù)、基礎(chǔ)架構(gòu)服務(wù)、平臺服務(wù)、軟件服務(wù)、存儲服務(wù)的系統(tǒng)。對用戶來說,云計(jì)算可以降低成本、提高了靈活性和擴(kuò)展性,采用云計(jì)算架構(gòu)模式能夠降低信息系統(tǒng)的復(fù)雜性。在云計(jì)算的架構(gòu)中,復(fù)雜的計(jì)算過程、資源管理都集中在位于“云端”的數(shù)據(jù)中心層面實(shí)現(xiàn),用戶付費(fèi)使用云計(jì)算產(chǎn)品和服務(wù),無需考慮云端后臺的技術(shù)復(fù)雜性。

        為了解決海量數(shù)據(jù)計(jì)算分析的問題,國內(nèi)外學(xué)者相繼提出了基于集群、基于網(wǎng)格、基于Agent等各種分布式數(shù)據(jù)挖掘平臺,雖然在一定程度上提高了數(shù)據(jù)挖掘系統(tǒng)的處理能力,但容易衍生出一些自身難以解決的問題。如果能將云計(jì)算融入數(shù)據(jù)挖掘,通過云平臺的大規(guī)模數(shù)據(jù)并行計(jì)算,可以解決海量數(shù)據(jù)挖掘的效率問題。結(jié)合嶺南通數(shù)據(jù)源的特點(diǎn),基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)滿足了未來城市公共交通一卡通互聯(lián)互通的發(fā)展趨勢,建立一個(gè)嶺南通“云”平臺系統(tǒng)是順應(yīng)了這一發(fā)展的要求,如圖1所示。

        圖1 嶺南通“云”平臺系統(tǒng)架構(gòu)

        3 基于Hadoop的嶺南通數(shù)據(jù)挖掘云平臺

        3.1 Hadoop框架原理

        Hadoop是Apache軟件基金會所研發(fā)的一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是GFS和MapReduce的Java實(shí)現(xiàn)。Hadoop實(shí)現(xiàn)了MapReduce并行編程模型,提供了分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),為分布式計(jì)算提供底層存儲支持。一個(gè)MapReduce作業(yè)由大量Map和Reduce任務(wù)組成,它將大規(guī)模數(shù)據(jù)處理作業(yè)拆分成若干個(gè)獨(dú)立運(yùn)行的Map任務(wù),分配到不同的機(jī)器上去執(zhí)行,生成某種中間格式的文件,再由若干個(gè)Reduce任務(wù)合并這些中間文件或得最后輸出文件。HDFS是一個(gè)由名字節(jié)點(diǎn)NameNode和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode的組成。NameNode負(fù)責(zé)存儲文件系統(tǒng)中的元數(shù)據(jù)和控制外部客戶的訪問,DataNode用來存放實(shí)際的數(shù)據(jù)。每個(gè)文件都被劃分成若干個(gè)64M的數(shù)據(jù)塊,這些數(shù)據(jù)塊被分散的存儲到各個(gè)DataNode上,HDFS為了保證數(shù)據(jù)的安全性,還會為數(shù)據(jù)進(jìn)行備份存儲到不同的機(jī)器上。用戶從NameNode那里獲取數(shù)據(jù)的位置信息后,直接與存放數(shù)據(jù)塊的DataNode進(jìn)行通信。

        3.2 基于Hadoop 的嶺南通數(shù)據(jù)挖掘模型

        基于Hadoop的嶺南通數(shù)據(jù)挖掘模型大體上可以分為三層,如圖2所示。

        最底層為云計(jì)算服務(wù)層,提供分布式并行數(shù)據(jù)處理和大數(shù)據(jù)的云存儲。分布式存儲為數(shù)據(jù)保存多份副本保證數(shù)據(jù)發(fā)生災(zāi)難時(shí)不影響用戶的正常使用,提高了數(shù)據(jù)的安全性。

        數(shù)據(jù)挖掘處理層位于云計(jì)算服務(wù)層之上,包括大數(shù)據(jù)的預(yù)處理和數(shù)據(jù)挖掘算法的并行化。數(shù)據(jù)預(yù)處理對形態(tài)各異的海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和集成等,預(yù)處理后的數(shù)據(jù)提高了數(shù)據(jù)挖掘的質(zhì)量,使挖掘的過程變得更有效、更容易。數(shù)據(jù)挖掘算法的并行化是大數(shù)據(jù)挖掘的關(guān)鍵,需要進(jìn)一步深入研究,使得改造后的挖掘算法和并行化策略能直接應(yīng)用在云計(jì)算平臺上的挖掘任務(wù)。

        最頂層是面向各類用戶的用戶層。改成主要接受各類用戶啊的請求,并將其傳遞給中層和底層,最后將最終的數(shù)據(jù)挖掘結(jié)果展示給用戶。用戶可以通過可視化的界面監(jiān)視任務(wù)的執(zhí)行,并且方便的查看執(zhí)行結(jié)果。

        基于云計(jì)算的大數(shù)據(jù)挖掘模式是大數(shù)據(jù)挖掘的主流方式?;谠朴?jì)算的大數(shù)據(jù)挖掘服務(wù)能夠?yàn)椴煌?guī)模的企業(yè)應(yīng)用,使得各類用戶能夠方便地定制和提交數(shù)據(jù)挖掘任務(wù),直接使用數(shù)據(jù)挖掘能力,不必關(guān)心數(shù)據(jù)挖掘具體執(zhí)行者,挖掘數(shù)據(jù)存在的隱藏價(jià)值。

        4 結(jié)束語

        本文從城市共交通一卡通發(fā)展需求分析,可以發(fā)現(xiàn)基于云計(jì)算的大數(shù)據(jù)挖掘技術(shù)是合理和可行的。利用Hadoop的分布式文件系統(tǒng)靈活擴(kuò)展的特性可以解決公交一卡通公司快速增加的數(shù)據(jù)存儲問題。利用基于Hadoop的嶺南通數(shù)據(jù)挖掘模型在面向大眾、企業(yè)內(nèi)部管理和政府決策方面的對應(yīng)數(shù)據(jù)分析與利用能夠發(fā)揮極大的優(yōu)勢,對打造區(qū)域城市公共交通一卡通信息服務(wù)平臺具有很大的幫助和應(yīng)用前景。

        【參考文獻(xiàn)】

        [1]顧建國.走進(jìn)大數(shù)據(jù)時(shí)代的常州智慧公交:專訪常州市公共交通集團(tuán)公司董事長、總經(jīng)理蔡健臣[J].人民公交,2013(07):24-32.

        [2]洑云龍.云平臺下的數(shù)據(jù)挖掘研究[D].南京:南京郵電大學(xué),2013.

        [3]楊來,史忠植,梁帆.基于Hadoop云平臺的并行數(shù)據(jù)挖掘方法[J].系統(tǒng)仿真學(xué)報(bào),2013,25(05):936-944.

        [4]韓艷,關(guān)宏志,嚴(yán)海.公交IC卡數(shù)據(jù)分析處理方法[J].交通標(biāo)準(zhǔn)化,2010(19):14-18.

        [5]羅華群,易國平.校園一卡通數(shù)據(jù)的挖掘與應(yīng)用[J].科技信息,2010(01): 41-42.

        [責(zé)任編輯:孫珊珊]

        猜你喜歡
        IC卡云計(jì)算
        工商業(yè)IC卡控制器改造為物聯(lián)網(wǎng)控制器實(shí)踐
        在用電梯加裝外接式IC卡運(yùn)行控制系統(tǒng)設(shè)計(jì)改進(jìn)
        一種新的無觸點(diǎn)IC卡的檢測方法
        電子測試(2017年15期)2017-12-18 07:19:05
        基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺的設(shè)計(jì)
        實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
        云計(jì)算中的存儲虛擬化技術(shù)應(yīng)用
        科技視界(2016年20期)2016-09-29 13:34:06
        讀IC卡
        黨員文摘(2014年12期)2014-12-05 20:10:56
        亚洲在线一区二区三区四区| 欧美大屁股xxxx高潮喷水| av中文字幕潮喷人妻系列| 天堂а√在线中文在线新版| 日日摸日日碰人妻无码老牲| 日本一区二区不卡超清在线播放| 人妻丰满精品一区二区| 色婷婷色丁香久久婷婷| 东京热无码av一区二区| 欧美激情a∨在线视频播放| 亚洲嫩模高清在线视频| 亚洲天堂av免费在线| 中文字幕久久久人妻人区| 国产精品99精品久久免费| 玩弄放荡人妻少妇系列| 久久国产精品老女人| 男女午夜视频一区二区三区| 国产三级国产精品国产专区50| 国产电影无码午夜在线播放| 欧妇女乱妇女乱视频| 精品午夜一区二区三区久久| av免费在线观看网站大全| 国产精品狼人久久影院软件介绍 | 精人妻无码一区二区三区| 亚洲成av人片在线观看麦芽 | 亚洲av无码一区二区三区网址| 青青草97国产精品免费观看| 成人午夜视频一区二区无码| 亚洲一区二区三区视频免费| 亚洲一区二区三区蜜桃| 东京热加勒比国产精品| 91中文人妻熟女乱又乱| 成人午夜性a级毛片免费| 国产精品免费久久久免费| 精品人妻一区二区蜜臀av| 精品三级国产一区二区三| 亚洲av精品一区二区三区| 亚洲色自偷自拍另类小说| 黑人一区二区三区在线| 视频女同久久久一区二区| 精品伊人久久大线蕉色首页|