艾麗蓉,劉云峰
(西北工業(yè)大學(xué) 計算機學(xué)院,陜西 西安 710129)
智慧城市(smart city)是把新一代信息技術(shù)充分運用到城市運行和管理的各行業(yè),用以分析、整合城市運行核心系統(tǒng)的各項關(guān)鍵信息,從而對各行業(yè)的多種需求做出智能響應(yīng)[1-3]。其實質(zhì)是運用先進的信息技術(shù),實現(xiàn)信息化、工業(yè)化與城鎮(zhèn)化的深度融合,對于提高城市生活質(zhì)量有顯著作用[2]。
智慧城市在運行過程中產(chǎn)生的大量數(shù)據(jù)是智慧城市寶貴的資源,通過對這些數(shù)據(jù)的收集、匯總、分析,能夠體現(xiàn)出城市各部門、系統(tǒng)的運行情況,幫助管理者做出最符合城市發(fā)展的決策。大數(shù)據(jù)與智慧城市的關(guān)系可表述為:物聯(lián)網(wǎng)技術(shù)的運用推動大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)的發(fā)展又成為智慧城市的發(fā)展的基石,智慧城市的衡量指標(biāo)由大數(shù)據(jù)來體現(xiàn)。
為了應(yīng)對智慧園區(qū)項目運行過程中所產(chǎn)生的海量數(shù)據(jù)的存儲要求,以及對數(shù)據(jù)分析效率的要求,充分利用智慧園區(qū)中多核主機、大容量存儲等硬件資源,特別引入Hadoop平臺中HDFS(分布式文件系統(tǒng))、MapReduce(并行計算框架)和Hive(數(shù)據(jù)倉庫工具)。三個組件作為Hadoop的核心能夠使用戶輕松地架構(gòu)和使用分布式計算平臺,并在該平臺的基礎(chǔ)上對大規(guī)模數(shù)據(jù)進行處理與分析。圖1顯示了Hadoop生態(tài)圈中的各主要技術(shù)。
圖1 Hadoop生態(tài)圈
1.1.1 HDFS分布式存儲
HDFS(Hadoop distributed file system)是Hadoop項目的核心子項目,是Hadoop生態(tài)系統(tǒng)中所有組件的基礎(chǔ),具有容錯性高、可靠性高、可擴展性高、吞吐率高等特性[4]。HDFS在系統(tǒng)架構(gòu)上采用master-slave結(jié)構(gòu),可以用廉價的硬件實現(xiàn)大規(guī)模數(shù)據(jù)的可靠性并可實現(xiàn)對數(shù)據(jù)的高吞吐量的訪問,非常適合于需要對大量數(shù)據(jù)進行存儲與處理的應(yīng)用場景。
1.1.2 數(shù)據(jù)倉庫Hive
Hive是一個以Hadoop為基礎(chǔ)的,建立在Hadoop生態(tài)系統(tǒng)之上的數(shù)據(jù)倉庫,能夠?qū)Υ罅康慕Y(jié)構(gòu)化數(shù)據(jù)進行存儲與處理[5]。它將大量的數(shù)據(jù)存儲在HDFS中,采用類SQL語言HQL對數(shù)據(jù)進行操作與管理。Hive中的解釋器負(fù)責(zé)對HQL進行解析和轉(zhuǎn)換,將其解釋為map/reduce任務(wù),并通過執(zhí)行map/reduce任務(wù)返回對Hive中數(shù)據(jù)的查詢或處理的結(jié)果。
1.1.3 MapReduce分布式計算
作為Hadoop的核心組件之一,MapReduce是一種分布式計算框架[6]。該框架由編程模型和運行時環(huán)境兩部分組成,其中編程模型由谷歌于2004年發(fā)表的分布式計算框架MapReduce的論文提出,為用戶提供了非常易用的編程接口,用戶只需像編寫串行程序一樣實現(xiàn)幾個簡單的函數(shù)就可以實現(xiàn)分布式程序。通過運行時環(huán)境來完成如節(jié)點間通訊,數(shù)據(jù)切分和節(jié)點失效等復(fù)雜工作,用戶無需關(guān)注框架的運行細(xì)節(jié),可以輕易地完成大規(guī)模數(shù)據(jù)的處理任務(wù)。
ETL過程的主要作用為從各個數(shù)據(jù)源(如業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫、文本文件等)將數(shù)據(jù)抽取到中間層,之后根據(jù)制定的數(shù)據(jù)清洗規(guī)則對抽取到的數(shù)據(jù)進行清洗、轉(zhuǎn)換,最后加載到數(shù)據(jù)倉庫中,為進行數(shù)據(jù)分析打下基礎(chǔ)。
ETL過程是構(gòu)建數(shù)據(jù)倉庫過程中非常關(guān)鍵的一部分,起到了承前啟后的作用[7-9]。智慧園區(qū)各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)均存放在自己的業(yè)務(wù)數(shù)據(jù)庫中,其中存放的數(shù)據(jù)是面向業(yè)務(wù)的,數(shù)據(jù)粒度較細(xì),存儲的信息較為詳細(xì),不適于直接對其中的數(shù)據(jù)進行分析并且各個業(yè)務(wù)數(shù)據(jù)庫是相對獨立的,直接進行分析需要面對多表聯(lián)結(jié)、數(shù)據(jù)格式不一致等相關(guān)問題,給分析工作增加難度。
為了解決上述問題,引入ETL與數(shù)據(jù)倉庫。通過ETL過程提取不同數(shù)據(jù)庫中的數(shù)據(jù),按照數(shù)據(jù)分析需求制定數(shù)據(jù)清洗策略,完成對數(shù)據(jù)的清洗、轉(zhuǎn)換之后將數(shù)據(jù)加載到數(shù)據(jù)倉庫。ETL過程的工作直接關(guān)系數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,同時也關(guān)系到數(shù)據(jù)分析的質(zhì)量與結(jié)果。
Google首席經(jīng)濟學(xué)家Hal Varian教授指出:“數(shù)據(jù)正在變得無處不在、觸手可及;而數(shù)據(jù)創(chuàng)造的真正價值,在于我們能否提供進一步的稀缺的附加服務(wù);這種增值服務(wù)就是數(shù)據(jù)分析[10]?!睌?shù)據(jù)是信息化系統(tǒng)最寶貴的財富,在數(shù)據(jù)中蘊含著大量可為企業(yè)進行決策提供支持的關(guān)鍵信息。而蘊藏在數(shù)據(jù)中的信息只有采用相關(guān)的數(shù)據(jù)分析技術(shù)進行深入挖掘才能得到,僅僅憑借經(jīng)驗與直覺并不能充分利用數(shù)據(jù)中的信息。Thomas和Cook在文獻[11]中對可視化的定義是:可視分析是一種通過交互式可視化界面,來輔助用戶對大規(guī)模復(fù)雜數(shù)據(jù)集進行分析推理的科學(xué)與技術(shù)??梢暦治龅倪\行過程可看作“數(shù)據(jù)→知識→數(shù)據(jù)”的循環(huán)過程,中間經(jīng)過兩條主線:可視化技術(shù)和自動化分析模型。從數(shù)據(jù)中洞悉知識的過程主要依賴上述兩條主線的互動與協(xié)作[12-13]。
隨著信息化系統(tǒng)產(chǎn)生的數(shù)據(jù)量的增大,傳統(tǒng)的數(shù)據(jù)分析技術(shù)已經(jīng)不能滿足對大規(guī)模數(shù)據(jù)集進行有效分析的需求。而如何對數(shù)據(jù)量大但價值密度較低的大數(shù)據(jù)進行有效分析是每一個現(xiàn)代化信息系統(tǒng)必須面對的問題。人類獲得的絕大部分信息來源于視覺,將現(xiàn)有的大數(shù)據(jù)平臺與數(shù)據(jù)可視化分析技術(shù)結(jié)合起來,借助于大數(shù)據(jù)平臺具有的數(shù)據(jù)處理能力,將數(shù)據(jù)以更直觀的形式(圖片等)展示出來,能夠幫助決策人員更好地理解數(shù)據(jù)中所蘊含的信息。
因此,大數(shù)據(jù)可視化是對大數(shù)據(jù)進行分析的最有效、最重要的環(huán)節(jié),數(shù)據(jù)可視化技術(shù)在大數(shù)據(jù)分析中扮演著非常重要的角色。
如圖2所示,底層采用虛擬化技術(shù),虛擬化實現(xiàn)了IT資源的邏輯抽象和統(tǒng)一表示,在大規(guī)模數(shù)據(jù)中心管理和解決方案交付方面發(fā)揮著巨大作用,是支撐云計算最重要的技術(shù)基石。ETL過程則采用ETL工具從智慧園區(qū)各個業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù)庫抽取數(shù)據(jù),經(jīng)過清洗、轉(zhuǎn)換之后加載到大數(shù)據(jù)系統(tǒng)的Hive數(shù)據(jù)倉庫中,之后利用可視化數(shù)據(jù)分析工具對加載到Hive中的數(shù)據(jù)進行分析。
圖2 智慧園區(qū)數(shù)據(jù)分析系統(tǒng)架構(gòu)
在硬件方面,針對數(shù)據(jù)分析系統(tǒng)對高可用性、可伸縮性、高吞吐量、高效性以及部分應(yīng)用的低時延的需求,在網(wǎng)絡(luò)交換傳輸使用層使用Infiniband交換機;在數(shù)據(jù)傳輸協(xié)議層,將原有的Hadoop中的socket傳輸機制替換成RDMA(遠(yuǎn)程直接內(nèi)存存取),從而極大地縮短了傳輸時延,并充分發(fā)揮Infiniband交換機的數(shù)據(jù)傳輸能力,同時減少了CPU在節(jié)點間數(shù)據(jù)交換所耗費的資源。
根據(jù)智慧園區(qū)數(shù)據(jù)分析業(yè)務(wù)的功能需求,在原有大數(shù)據(jù)平臺的基礎(chǔ)上,充分滿足業(yè)務(wù)可伸縮性的要求,建設(shè)數(shù)據(jù)分析系統(tǒng)。系統(tǒng)主要分為三個功能模塊:數(shù)據(jù)采集模塊、數(shù)據(jù)存儲模塊、數(shù)據(jù)可視化分析模塊。數(shù)據(jù)清洗模塊的主要功能為數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載。數(shù)據(jù)存儲模塊的主要功能為將數(shù)據(jù)采集模塊處理過的數(shù)據(jù)存儲到Hive數(shù)據(jù)倉庫中。數(shù)據(jù)可視化分析模塊的主要功能為數(shù)據(jù)源鏈接、數(shù)據(jù)整合、數(shù)據(jù)可視化展示。具體的模塊功能劃分和模塊關(guān)系如圖3所示。
為了實現(xiàn)和現(xiàn)有數(shù)據(jù)庫的無縫連接,建立不重不漏、互通互聯(lián)的數(shù)據(jù)分析系統(tǒng),開發(fā)數(shù)據(jù)采集子系統(tǒng),主要用于連接各種已有業(yè)務(wù)數(shù)據(jù)庫(如:Oracle、SQL Server和MySQL),并且可以對變化更新的數(shù)據(jù)進行捕捉然后提取數(shù)據(jù)。具體功能主要包括:
(1)數(shù)據(jù)導(dǎo)入:首次運行時,與現(xiàn)有的數(shù)據(jù)庫進行系統(tǒng)對接,將各數(shù)據(jù)庫中的數(shù)據(jù)提取后并進行清理與治理,最后存入大數(shù)據(jù)庫中;
(2)自動抓?。合到y(tǒng)正常運行后,在不影響現(xiàn)有系統(tǒng)正常運行的基礎(chǔ)上,對各庫進行實時監(jiān)控,并對新數(shù)據(jù)進行增量抓取,最后存入大數(shù)據(jù)庫中;
(3)數(shù)據(jù)錄入:對于部分動態(tài)數(shù)據(jù)庫中的數(shù)據(jù)庫,開放接口,方便用戶通過其他終端錄入數(shù)據(jù);
(4)數(shù)據(jù)清洗:對獲得的數(shù)據(jù),根據(jù)業(yè)務(wù)以及用戶的規(guī)定進行清洗、去重與治理。
圖3 數(shù)據(jù)分析系統(tǒng)功能模塊
數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)主要來自于正在運行的業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(如:惠民系統(tǒng)數(shù)據(jù)庫、城管系統(tǒng)數(shù)據(jù)庫、環(huán)衛(wèi)系統(tǒng)數(shù)據(jù)庫等),數(shù)據(jù)采集系統(tǒng)與這些業(yè)務(wù)數(shù)據(jù)庫建立連接,從中抽取需要的數(shù)據(jù),經(jīng)過轉(zhuǎn)換、數(shù)據(jù)清洗等操作,最后加載到Hadoop大數(shù)據(jù)平臺的Hive數(shù)據(jù)倉庫中。數(shù)據(jù)的抽取、轉(zhuǎn)換、加載的過程稱之為ETL過程。
數(shù)據(jù)采集首先經(jīng)過數(shù)據(jù)抽取,數(shù)據(jù)抽取的數(shù)據(jù)來源為業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫、文件系統(tǒng)。抽取的數(shù)據(jù)按照制定的清洗規(guī)則進行清洗后到達數(shù)據(jù)轉(zhuǎn)換模塊。數(shù)據(jù)轉(zhuǎn)換模塊按照轉(zhuǎn)換規(guī)則對數(shù)據(jù)進行轉(zhuǎn)換后,加載到數(shù)據(jù)倉庫或者輸出到文件。
3.2.1 數(shù)據(jù)抽取
數(shù)據(jù)抽取是進行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換的前提。數(shù)據(jù)抽取是一項艱難的工作,因為數(shù)據(jù)是多樣和復(fù)雜的。這一部分需要在調(diào)研階段做大量的工作,首先要搞清楚數(shù)據(jù)是從幾個業(yè)務(wù)系統(tǒng)中來,各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫服務(wù)器運行的是何種DBMS,是否存在手工數(shù)據(jù),手工數(shù)據(jù)存量有多大,是否存在非結(jié)構(gòu)化的數(shù)據(jù)等等。等收集完這些信息之后再進行數(shù)據(jù)抽取設(shè)計。抽取的方式分為全量抽取和增量抽取。
該系統(tǒng)是智慧城市的一個模塊,智慧城市還包括各個業(yè)務(wù)系統(tǒng)(城管系統(tǒng)、執(zhí)法系統(tǒng)、環(huán)衛(wèi)系統(tǒng)、惠民系統(tǒng)等)。在數(shù)據(jù)采集系統(tǒng)第一次運行時,需要將各個業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)全部抽取出來,經(jīng)過后續(xù)的數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換后加載到數(shù)據(jù)倉庫中。由于系統(tǒng)是持續(xù)性運行的,會不斷有新的數(shù)據(jù)進入到業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫,此時再對數(shù)據(jù)進行全量抽取是不現(xiàn)實的,不僅會加重整個系統(tǒng)的負(fù)擔(dān),更可能造成網(wǎng)絡(luò)的擁塞,使整個系統(tǒng)的延遲增大[10]。此時便需要采用另外一種數(shù)據(jù)抽取方式—增量抽取。該系統(tǒng)中采取的增量抽取方式為基于時間戳的抽取方式。
數(shù)據(jù)抽取流程如圖4所示。首先加載數(shù)據(jù)庫驅(qū)動程序,連接到要抽取的數(shù)據(jù)源。判斷是否連接成功,如果連接失敗,寫日志,記錄失敗的原因。如果連接成功,查詢表中記錄,進行數(shù)據(jù)的抽取工作,將抽取的數(shù)據(jù)放入數(shù)據(jù)緩存區(qū),留待進行數(shù)據(jù)清洗轉(zhuǎn)換。此外,由于后續(xù)要進行基于時間戳的CDC(數(shù)據(jù)增量抽取工作),系統(tǒng)需要維護CDC表來保存此次數(shù)據(jù)抽取的時間,獲取當(dāng)前系統(tǒng)時間,更新CDC表中l(wèi)oad字段(上次抽取時間)。在進行增量抽取時,需要先讀取CDC表中的load字段,之后只抽取業(yè)務(wù)庫中更新時間大于load字段值的記錄。
圖4 全量抽取、增量抽取流程
3.2.2 數(shù)據(jù)清洗轉(zhuǎn)換
如圖5所示,數(shù)據(jù)清洗轉(zhuǎn)換是數(shù)據(jù)采集系統(tǒng)的核心。由于數(shù)據(jù)來源的多樣性,業(yè)務(wù)系統(tǒng)不能完全保證存儲在業(yè)務(wù)數(shù)據(jù)庫中數(shù)據(jù)的真實有效性與準(zhǔn)確性。而數(shù)據(jù)倉庫是用來進行輔助決策的,要求存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)都是正確且真實有效的,避免臟數(shù)據(jù)出現(xiàn)在數(shù)據(jù)倉庫中。
數(shù)據(jù)清洗轉(zhuǎn)換主要包括數(shù)據(jù)去重、不一致數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度轉(zhuǎn)換等過程。數(shù)據(jù)清洗轉(zhuǎn)換是一個長期、反復(fù)的過程,不是短時間內(nèi)能夠完成的,是一項持續(xù)性的工作[11]。
3.2.3 數(shù)據(jù)加載(加載事實表)
事實表是用于分析的詳細(xì)業(yè)務(wù)數(shù)據(jù)的集合。它的數(shù)據(jù)量大,會消耗大量的存儲。圖6展示了數(shù)據(jù)加載流程。由于數(shù)據(jù)抽取分為全量抽取和增量抽取,在加載事實表時也分為增量加載與全量加載。但其中對于數(shù)據(jù)的處理方式是相同的。此外,在進行數(shù)據(jù)加載時,必須先查詢維度表中是否存在相對應(yīng)的代理鍵,如果不存在,先進行維度表的更新,之后進行事實表的加載。
圖5 數(shù)據(jù)清洗轉(zhuǎn)換流程
圖6 數(shù)據(jù)加載流程
數(shù)據(jù)分析系統(tǒng)的功能流程如圖7所示。
圖7 數(shù)據(jù)可視化系統(tǒng)業(yè)務(wù)流程
數(shù)據(jù)可視化分析系統(tǒng)具有以下功能:
(1)數(shù)據(jù)源連接:數(shù)據(jù)是進行數(shù)據(jù)分析的基礎(chǔ)。第三節(jié)介紹了數(shù)據(jù)采集系統(tǒng),其將數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫中經(jīng)過數(shù)據(jù)清洗轉(zhuǎn)換之后加載到大數(shù)據(jù)系統(tǒng)中的Hive數(shù)據(jù)倉庫中,為數(shù)據(jù)分析提供了數(shù)據(jù)源。因此,數(shù)據(jù)可視化分析系統(tǒng)應(yīng)當(dāng)具有連接到Hive并從中提取數(shù)據(jù)的功能。
(2)數(shù)據(jù)整合、維護:用來進行分析的數(shù)據(jù)可能來自于同一張表,也可能來自于多張表或者不同的服務(wù)器。因此數(shù)據(jù)可視化分析系統(tǒng)應(yīng)當(dāng)具有數(shù)據(jù)整合功能,用以實現(xiàn)同一數(shù)據(jù)源的多表聯(lián)結(jié)、多個數(shù)據(jù)源的數(shù)據(jù)融合。同時由于分析時對數(shù)據(jù)有不同的需求、數(shù)據(jù)源中數(shù)據(jù)會發(fā)生變化,因此應(yīng)當(dāng)對數(shù)據(jù)進行篩選,限定數(shù)據(jù)的分析范圍并且可以刷新數(shù)據(jù)源,保持?jǐn)?shù)據(jù)更新。
(3)數(shù)據(jù)可視化分析:是數(shù)據(jù)可視化分析系統(tǒng)的核心功能??梢詫⒎治鼋Y(jié)果以條形圖、直方圖、餅圖、折線圖等形式展示。并且具有統(tǒng)計分析、基于時間序列預(yù)測等功能。
(4)分析結(jié)果導(dǎo)出、發(fā)布:數(shù)據(jù)可視化分析系統(tǒng)可以將分析結(jié)果導(dǎo)出到文件,如Excel、PDF或圖片。并將成果發(fā)布到服務(wù)器上,通過瀏覽器或者移動終端進行交互式訪問。
現(xiàn)階段城市的發(fā)展遇到了各種各樣的挑戰(zhàn),如健康與環(huán)境、交通、水資源、能源利用、城市管理等問題,已經(jīng)不能通過傳統(tǒng)意義上的城市規(guī)劃設(shè)計予以解決。通過運用新一代信息技術(shù)來管理城市的運行,將城市中不同的部門結(jié)合起來,共享不同部門間的信息。但是新一代信息技術(shù)的引入勢必帶來數(shù)據(jù)量的劇增,為信息系統(tǒng)的數(shù)據(jù)服務(wù)器帶來巨大的壓力,與此同時如何對海量數(shù)據(jù)進行有效的分析,為智慧城市決策人員的決策提供依據(jù)也是智慧城市在發(fā)展過程中需要解決的問題。為了解決海量數(shù)據(jù)的分析問題,對數(shù)據(jù)進行有效的分析,并保證數(shù)據(jù)分析的效率,文中在智慧園區(qū)信息系統(tǒng)的開發(fā)過程中引入Hadoop大數(shù)據(jù)平臺、Hive數(shù)據(jù)倉庫等大數(shù)據(jù)技術(shù),為海量數(shù)據(jù)的存儲、分析提供支持。通過充分了解智慧園區(qū)數(shù)據(jù)分析系統(tǒng)的功能需求,并考慮到系統(tǒng)的穩(wěn)定、易用等因素,決定采用Kettle+Hive+Tableau的方式來實現(xiàn)對智慧園區(qū)數(shù)據(jù)的分析。經(jīng)過充分的技術(shù)驗證與測試,證明了該方案能夠解決智慧園區(qū)對數(shù)據(jù)分析的業(yè)務(wù)要求。
[1] 甄 峰,秦 蕭.大數(shù)據(jù)在智慧城市研究與規(guī)劃中的應(yīng)用[J].國際城市規(guī)劃,2014(6):44-50.
[2] 陳紅松,韓 至,鄧淑寧.智慧城市中大數(shù)據(jù)安全分析與研究[J].信息網(wǎng)絡(luò)安全,2015(7):1-6.
[3] 李光亞,張敬誼,童 慶.大數(shù)據(jù)在智慧城市中的應(yīng)用[J].微型電腦應(yīng)用,2014,30(12):1-4.
[4] SHVACHKO K,KUANG H,RADIA S,et al.The Hadoop distributed file system[C]//26th symposium on mass storage systems and technologies.[s.l.]:IEEE,2010.
[5] THUSOO A,SARMA J S,JAIN N,et al.Hive:a warehousing solution over a map-reduce framework[J].Proceedings of the VLDB Endowment,2009,2(2):1626-1629.
[6] DEAN J,GHEMAWAT S.MapReduce[J].Communications of the ACM,2008,51(1):107.
[7] 宋旭東,劉曉冰.數(shù)據(jù)倉庫ETL任務(wù)調(diào)度模型研究[J].控制與決策,2011,26(2):271-275.
[8] 張 寧,賈自艷,史忠植.數(shù)據(jù)倉庫中ETL技術(shù)的研究[J].計算機工程與應(yīng)用,2002,38(24):213-216.
[9] 徐俊剛,裴 瑩.數(shù)據(jù)ETL研究綜述[J].計算機科學(xué),2011,38(4):15-20.
[10] 任 磊,杜 一,馬 帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014,25(9):1909-1936.
[11] THOMAS J J,COOK K A.Illuminating the path:the research and development agenda for visual analytics[M].[s.l.]:National Visualization and Analytics Ctr,2005.
[12] 陳 聰,張國惠,馬曉磊,等.利用大數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)輔助智慧城市發(fā)展[J].大數(shù)據(jù),2016(3):39-48.
[13] 官思發(fā),孟 璽,李宗潔,等.大數(shù)據(jù)分析研究現(xiàn)狀、問題與對策[J].情報雜志,2015,34(5):98-104.