趙志超
(河北中信聯(lián)信息技術(shù)有限公司 河北 石家莊 050091)
電子政務(wù)大數(shù)據(jù)系統(tǒng)應(yīng)用云計(jì)算架構(gòu)
趙志超
(河北中信聯(lián)信息技術(shù)有限公司 河北 石家莊 050091)
電子政務(wù)數(shù)年的建設(shè)和發(fā)展積累了一定量的政務(wù)數(shù)據(jù),如何對(duì)其進(jìn)行大規(guī)模的綜合分析、挖掘和利用,提高政府運(yùn)作的效率、提高管理和決策水平已成為迫切需要解決的問題。針對(duì)這一需求,結(jié)合國(guó)民經(jīng)濟(jì)發(fā)展對(duì)電子政務(wù)大數(shù)據(jù)綜合研究專題進(jìn)行了分析,提出了一種電子政務(wù)大數(shù)據(jù)云計(jì)算的實(shí)現(xiàn)架構(gòu),討論了分布式數(shù)據(jù)計(jì)算開源云平臺(tái)Hadoop于電子政務(wù)大數(shù)據(jù)計(jì)算的特性。
電子政務(wù)云計(jì)算大數(shù)據(jù)Hadoop
電子政務(wù)建設(shè)經(jīng)過數(shù)年的建設(shè)與發(fā)展,已見規(guī)模,并為政府的信息化管理和服務(wù)帶來了顯著的社會(huì)效益,但是相對(duì)獨(dú)立的業(yè)務(wù)應(yīng)用系統(tǒng)和部門管轄,缺乏對(duì)大數(shù)據(jù)的認(rèn)識(shí)和相應(yīng)的分析處理手段,無法實(shí)現(xiàn)“從數(shù)據(jù)到信息,從信息到知識(shí)”的轉(zhuǎn)化,使得這些建設(shè)難以發(fā)揮綜合效益,造成了“數(shù)據(jù)爆炸卻知識(shí)貧乏”的現(xiàn)象,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,更遑論利用數(shù)據(jù)指導(dǎo)政務(wù)工作和預(yù)測(cè)未來發(fā)展趨勢(shì)。
進(jìn)行電子政務(wù)大數(shù)據(jù)應(yīng)用的專題分析,可以為區(qū)域國(guó)民經(jīng)濟(jì)和民生帶來諸多現(xiàn)實(shí)的經(jīng)濟(jì)和社會(huì)效益,并將為國(guó)計(jì)民生和持續(xù)發(fā)展提供決策支持。采用云計(jì)算架構(gòu),成功應(yīng)用于多項(xiàng)大數(shù)據(jù)應(yīng)用的、可以有效運(yùn)行于常規(guī)硬件資源之上的開源Hadoop分布式數(shù)據(jù)計(jì)算平臺(tái)及其計(jì)算框架是當(dāng)前實(shí)現(xiàn)電子政務(wù)大數(shù)據(jù)融合應(yīng)用的適當(dāng)選擇。
為了充分發(fā)揮既有資源作用和新一代信息技術(shù)潛能,開展基于云計(jì)算的電子政務(wù)公共平臺(tái)頂層設(shè)計(jì),繼續(xù)深化電子政務(wù)應(yīng)用,全面提升電子政務(wù)服務(wù)能力和水平,最近工信部頒發(fā)了《基于云計(jì)算的電子政務(wù)公共平臺(tái)頂層設(shè)計(jì)指南》,對(duì)電子政務(wù)大數(shù)據(jù)應(yīng)用發(fā)展云計(jì)算提出了明確的要求:積極推動(dòng)云計(jì)算模式在電子政務(wù)中的應(yīng)用,充分發(fā)揮云計(jì)算虛擬化、高可靠性、通用性和高可擴(kuò)展性等優(yōu)勢(shì),建設(shè)完善電子政務(wù)公共平臺(tái);推動(dòng)數(shù)據(jù)和業(yè)務(wù)系統(tǒng)與承載的技術(shù)環(huán)境分離;電子政務(wù)公共平臺(tái)的設(shè)計(jì)應(yīng)滿足大量數(shù)據(jù)訪問、存儲(chǔ)和智能化處理的需要[1]。通過大數(shù)據(jù)中心建設(shè),將政務(wù)部門的數(shù)據(jù)進(jìn)行匯總、清洗和比對(duì)分析后,形成信息資源,并建設(shè)一個(gè)大數(shù)據(jù)公開平臺(tái),統(tǒng)一對(duì)社會(huì)開放政務(wù)數(shù)據(jù),提高整個(gè)社會(huì)對(duì)信息資源的開發(fā)利用已成為形勢(shì)發(fā)展所需。
電子政務(wù)大數(shù)據(jù)分析挖掘應(yīng)用需要布署海量數(shù)據(jù)的存儲(chǔ)池,存放跨地域的各種行業(yè)的歷史數(shù)據(jù),構(gòu)建數(shù)據(jù)倉庫,并具有駕馭對(duì)大數(shù)據(jù)進(jìn)行挖掘應(yīng)用的平臺(tái)和工具。從技術(shù)層面上,云計(jì)算可以提供按需分配的彈性資源和一系列的服務(wù)集合,是當(dāng)前構(gòu)建電子政務(wù)大數(shù)據(jù)應(yīng)用的恰當(dāng)結(jié)構(gòu),根據(jù)需求[1],電子政務(wù)大數(shù)據(jù)應(yīng)用云計(jì)算平臺(tái)的體系架構(gòu)設(shè)計(jì)如圖1所示。
①電子政務(wù)基礎(chǔ)設(shè)施服務(wù):提供虛擬化的基礎(chǔ)設(shè)施支撐的服務(wù),對(duì)資源實(shí)時(shí)監(jiān)控、綜合分析、統(tǒng)一調(diào)度和快速部署,實(shí)現(xiàn)資源高效利用;
②電子政務(wù)支撐軟件服務(wù):提供集成的業(yè)務(wù)應(yīng)用開發(fā)、運(yùn)行和支撐環(huán)境,滿足快速開發(fā)部門業(yè)務(wù)應(yīng)用需要;
③電子政務(wù)應(yīng)用功能服務(wù):提供直接使用的各種業(yè)務(wù)軟件,使各政務(wù)部門按照一定的授權(quán)進(jìn)行部署使用,保持接口一致性和系統(tǒng)的高度可用性;
④電子政務(wù)信息資源服務(wù):提供信息資源支撐的服務(wù),滿足信息資源共享和交換;
⑤電子政務(wù)信息安全服務(wù):基于公共平臺(tái)開展業(yè)務(wù)應(yīng)用提供安全保障的服務(wù)。
電子政務(wù)大數(shù)據(jù)應(yīng)用分析應(yīng)根據(jù)數(shù)據(jù)資源完備情況、需求緊迫性、分析整合工具和平臺(tái)建設(shè),以及資金準(zhǔn)備綜合考慮進(jìn)行。根據(jù)區(qū)域電子政務(wù)建設(shè)情況可以進(jìn)行如下專題的研究。
①綜合實(shí)力分析:通過對(duì)歷年整體經(jīng)濟(jì)運(yùn)行情況進(jìn)行數(shù)據(jù)挖掘分析,反映國(guó)民經(jīng)濟(jì)發(fā)展、資源與能源、固定資產(chǎn)投資和物價(jià)管理等發(fā)展?fàn)顩r和趨勢(shì);
②輿情分析:掌握社情民意、提高公共服務(wù)能力、解決民生關(guān)切問題及應(yīng)對(duì)突發(fā)事件;
③財(cái)稅金融分析:對(duì)財(cái)政收入和支出、金融及保險(xiǎn)行業(yè)發(fā)展情況進(jìn)行對(duì)比分析;
④產(chǎn)業(yè)發(fā)展分析:提供工業(yè)、農(nóng)業(yè)、建筑業(yè)和服務(wù)業(yè)的各項(xiàng)產(chǎn)業(yè)數(shù)據(jù)挖掘,實(shí)現(xiàn)產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展?fàn)顩r和趨勢(shì)分析;
⑤醫(yī)療保障和教育分析:對(duì)科技創(chuàng)新、教育、文化、醫(yī)療、衛(wèi)生、體育、民生、就業(yè)及保障救濟(jì)信息綜合管理,加強(qiáng)信息互通,資源共享;
⑥環(huán)境保護(hù)分析:環(huán)境監(jiān)測(cè)管理、環(huán)境污染源及影響分析和環(huán)境綜合治理發(fā)展預(yù)測(cè);
⑦安全生產(chǎn)分析:安全生產(chǎn)運(yùn)行監(jiān)測(cè)與統(tǒng)計(jì)分析,事故分析與災(zāi)害預(yù)測(cè)預(yù)報(bào);
⑧能源、節(jié)能降耗分析:各類能源資源的需求、生產(chǎn)、供應(yīng)和消費(fèi)分析,監(jiān)測(cè)重點(diǎn)領(lǐng)域能源運(yùn)行和重點(diǎn)單位的能效情況,統(tǒng)籌能源的供需平衡和節(jié)能減排管理;
⑨經(jīng)濟(jì)專題分析:綜合分析歷年的各類數(shù)據(jù),對(duì)整體經(jīng)濟(jì)運(yùn)行情況進(jìn)行分析,反映國(guó)民經(jīng)濟(jì)現(xiàn)狀和發(fā)展趨勢(shì);
⑩城市比較分析:對(duì)區(qū)域內(nèi)重點(diǎn)城市的整體經(jīng)濟(jì)運(yùn)行情況進(jìn)行分析和排名,并可與國(guó)內(nèi)外相關(guān)城市比較分析,發(fā)現(xiàn)地域發(fā)展的優(yōu)劣勢(shì)、機(jī)會(huì)與風(fēng)險(xiǎn)和城市規(guī)劃決策;
人力資源分析:人口總體發(fā)展情況,勞動(dòng)力和知識(shí)結(jié)構(gòu)態(tài)勢(shì),就業(yè)市場(chǎng)供需分析;
城市管理:城市規(guī)劃布局、防災(zāi)減災(zāi)、交通疏導(dǎo)、反恐和應(yīng)急防范處理。
借助大數(shù)據(jù)應(yīng)用的發(fā)展,提高政府預(yù)測(cè)預(yù)警能力以及應(yīng)急響應(yīng)能力,節(jié)約決策的成本,加快推進(jìn)智能化電子政務(wù)服務(wù)和移動(dòng)政務(wù)服務(wù)新模式的應(yīng)用,拓展個(gè)性化服務(wù),增強(qiáng)政府與社會(huì)、老百姓直接的雙向互動(dòng)和同步交流,提升電子政務(wù)價(jià)值,提高決策的效率,提高政府決策的科學(xué)性和精準(zhǔn)性,獲得極大的社會(huì)效益和經(jīng)濟(jì)效益。
圖1電子政務(wù)大數(shù)據(jù)云計(jì)算體系架構(gòu)設(shè)計(jì)示意圖
脫胎于Google的GFS、MapReduce、BigTable技術(shù)的開源分布式處理平臺(tái)——Hadoop,是目前在互聯(lián)網(wǎng)使用廣泛的一種云計(jì)算支撐架構(gòu),借助于Hadoop,程序員可以輕松地編寫分布式并行程序,將其運(yùn)行于大型計(jì)算機(jī)集群上,完成海量數(shù)據(jù)的計(jì)算。Hadoop對(duì)硬件資源要求寬松,可以在大量廉價(jià)的硬件設(shè)備組成的集群上運(yùn)行應(yīng)用程序,構(gòu)建一個(gè)具有高可靠性和良好擴(kuò)展性的并行分布式系統(tǒng)。這些特點(diǎn)非常適合選擇為電子政務(wù)大數(shù)據(jù)云計(jì)算的開發(fā)和使用平臺(tái),提供電子政務(wù)的支撐軟件服務(wù)和應(yīng)用功能服務(wù)[2,3]。
Hadoop的HDFS(Hadoop Distributed File System),Hadoop分布式文件系統(tǒng)、MapReduc編程模型和HBase分布式數(shù)據(jù)庫是其3大核心技術(shù),Hive和Pig分別是基于Hadoop的數(shù)據(jù)倉庫工具和大規(guī)模數(shù)據(jù)分析工具[4,5]。
(1)MapReduce大數(shù)據(jù)處理框架
MapReduce采用基于能夠接受其他函數(shù)作為參數(shù)的高階函數(shù)完成程序開發(fā),2個(gè)最常用地內(nèi)置高階函數(shù)是map和reduce,MapReduce的執(zhí)行框架能自行協(xié)調(diào)map與reduce,并將其應(yīng)用于在商業(yè)服務(wù)器硬件平臺(tái)上并行處理海量數(shù)據(jù),MapReduce計(jì)算過程如圖2所示。由此,MapReduce可以看做是[6]:一個(gè)如上所述的函數(shù)式編程語言、能夠協(xié)調(diào)運(yùn)行基于MapReduce思想開發(fā)的程序的運(yùn)行框架、編程模型和執(zhí)行框架的實(shí)現(xiàn)。
圖2 MapReduce計(jì)算過程
MapReduce程序(mapreduce job)由客戶端提交到集群中的具體專門節(jié)點(diǎn),根據(jù)集群配置及作業(yè)的屬性等選定運(yùn)行環(huán)境,分mapper和reducer兩個(gè)階段處理數(shù)據(jù),鍵/值對(duì)(key-value pair)是MapReduce的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)。MapReduce在大數(shù)據(jù)處理時(shí),會(huì)根據(jù)要處理的數(shù)據(jù)文件及用戶編寫的map函數(shù)首先將數(shù)據(jù)分割為多個(gè)部分(split),而后為每一個(gè)split啟動(dòng)一個(gè)map任務(wù)(map task),這些map任務(wù)由MapReduce運(yùn)行環(huán)境調(diào)度著分散運(yùn)行于集群中的一個(gè)或多個(gè)節(jié)點(diǎn)上;每個(gè)mapper執(zhí)行結(jié)束后,都可能會(huì)輸出許多的鍵值對(duì),稱作中間鍵值對(duì),這些中間鍵值對(duì)臨時(shí)性地存放在某出,直到所有的mapper都執(zhí)行結(jié)束;MapReduce再把這些中間鍵/值對(duì)依鍵聚合重新進(jìn)行分割為一個(gè)或多個(gè)分組,同一組可以包含一個(gè)或多個(gè)鍵及其對(duì)應(yīng)的數(shù)據(jù),MapReduce運(yùn)行環(huán)境會(huì)為每個(gè)分組啟動(dòng)一個(gè)reduce任務(wù)(reduce task),這些reduce任務(wù)由MapReduce運(yùn)行環(huán)境調(diào)度著運(yùn)行于集群中的一個(gè)或多個(gè)節(jié)點(diǎn)上。
MapReduce先進(jìn)之處還在于它利用執(zhí)行框架分離了編寫并行算法的對(duì)象和方法,程序員不需關(guān)注所有底層執(zhí)行的細(xì)節(jié),并能保證MapReduce集群處理能力隨著節(jié)點(diǎn)的增加而線性增長(zhǎng),即集群規(guī)模增長(zhǎng)N倍其處理相同規(guī)模數(shù)據(jù)的時(shí)長(zhǎng)也會(huì)縮短N(yùn)倍,使海量數(shù)據(jù)并行處理被“分割包圍、逐個(gè)殲滅”。這些正是快速分析大數(shù)據(jù)所需要的計(jì)算能力。
(2)分布式文件系統(tǒng)HDFS
HDFS為MapReduce的計(jì)算框架而設(shè)計(jì),將數(shù)據(jù)存儲(chǔ)于多個(gè)節(jié)點(diǎn)上,采用計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)合二為一的集群模型,極大地降低了數(shù)據(jù)通過網(wǎng)絡(luò)傳送的需求。且可以在低成本設(shè)備上實(shí)現(xiàn)。HDFS的主旨是數(shù)據(jù)分塊與復(fù)制。相對(duì)于本地磁盤幾KB大的塊(block),HDFS中的塊要大得多(通常默認(rèn)64M)。HDFS存儲(chǔ)下來數(shù)據(jù)主要用于后續(xù)的處理分析,其訪問模型為“一次寫入、多次讀取”;因此,數(shù)據(jù)在HDFS中存儲(chǔ)完成后,僅能在文件尾部附加新數(shù)據(jù),而不能對(duì)文件進(jìn)行修改。HDFS首先訪問namenode以確定文件存放位置。對(duì)于客戶端請(qǐng)求,namenode將會(huì)返回datanode節(jié)點(diǎn)號(hào)與塊號(hào)??蛻舳烁鶕?jù)節(jié)點(diǎn)號(hào)與塊號(hào)訪問對(duì)應(yīng)的datanode,獲取文件數(shù)據(jù)。需要注意的一點(diǎn)是文件數(shù)據(jù)傳輸只發(fā)生于客戶端與datanode之間,不經(jīng)過namenode;客戶端與namenode之間只會(huì)傳輸元數(shù)據(jù)。
圖3 HDFS架構(gòu)
HDFS通常默認(rèn)將每個(gè)數(shù)據(jù)塊在不同機(jī)架的機(jī)器上存儲(chǔ)3份,以確??煽啃?、可用性與性能,在規(guī)模較大的集群中,這樣可以保證單點(diǎn)故障或整個(gè)機(jī)架遭遇斷網(wǎng)的時(shí)候數(shù)據(jù)仍然可用,同時(shí)保證了更好的數(shù)據(jù)局部性,避免大量數(shù)據(jù)跨節(jié)點(diǎn)傳輸。
(3)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫HBase
HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,可實(shí)時(shí)地隨機(jī)讀/寫超大規(guī)模數(shù)據(jù)集,能夠簡(jiǎn)單地通過增加節(jié)點(diǎn)來達(dá)到線性擴(kuò)展。為大規(guī)??缮炜s的分布式處理設(shè)計(jì),表可以很“高”(數(shù)十億個(gè)數(shù)據(jù)行);表可以很“寬”(數(shù)百萬個(gè)列);在表增長(zhǎng)的時(shí)候,表會(huì)自動(dòng)分裂成區(qū)域,并分布到可用的節(jié)點(diǎn)上。
從電子政務(wù)大數(shù)據(jù)的研究專題可以看出,內(nèi)容形式有數(shù)據(jù)、文字和圖像,甚至音視頻材料,數(shù)據(jù)類型既有結(jié)構(gòu)型的,也有非結(jié)構(gòu)型的;基本上是穩(wěn)定的歷史記錄數(shù)據(jù),不是即時(shí)交易事務(wù)型數(shù)據(jù),不存在處理過程中需要隨時(shí)增刪數(shù)據(jù)的問題。這正是大數(shù)據(jù)分析運(yùn)算對(duì)象的特點(diǎn),Hadoop的分布式云計(jì)算架構(gòu)正是適應(yīng)這樣需要的一種體系結(jié)構(gòu)。高速流式讀寫操作可方便地通過云計(jì)算虛擬化的節(jié)點(diǎn)增加來提高處理速度,而成本并不增加很多,能更好地利用既有電子政務(wù)建設(shè)的資源。
Hadoop發(fā)布至今近十年發(fā)展,取得了令人矚目的成功,增添了Hive、HBase、Zookeeper、Avro、Pig、Ambari、Sqoop、Mahout和Chukwa等子項(xiàng)目工具,但其編程思想和技能還未能被大眾所熟悉和掌握,在項(xiàng)目建設(shè)中需要考慮學(xué)習(xí)成本和風(fēng)險(xiǎn)。
[1]信息化推進(jìn)司.基于云計(jì)算的電子政務(wù)公共平臺(tái)頂層設(shè)計(jì)指南[EB/0L].http://xxhs.miit.gov.cn/,2014.
[2]封俊.基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D].太原:太原理工大學(xué),2010.
[3]ANAND R,JEFFREY D U.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].王斌,譯.北京:人民郵電出版社,2012.
[4]T0M W.Hadoop權(quán)威指南[M].周敏奇,等,譯.北京:清華大學(xué)出版社,2011.
[5]劉鵬.實(shí)戰(zhàn)Hadoop:開啟通向云計(jì)算的捷徑[M].北京:電子工業(yè)出版社,2011.
[6]JIMMY L,CHRIS D.Data-Intensive Text Processing with MapReduce[M].USA:Morgan&Claypool publishers,2010.
Application of Cloud Computing Architecture in E-government Big Data System
ZHAO Zhi-chao
(Hebei UniWin Information Technology Co.,Ltd.,Shijiazhuang Hebei 050091,China)
A certain amount of government data is accumulated with the construction and development of E-government for several years.How to synthetically analyze,mine and use the data to improve the operation efficiency,management and decision-making level of government has become an urgent problem.Aiming at this problem and combining with the development of national economy,this paper analyzes the comprehensive research topic of E-government big data,proposes the implementation architecture of cloud computing of E-government big data and discusses the characteristics of Hadoop distributed data calculation open-source cloud platform and E-government big data calculation.
E-government system;cloud computing;big data;Hadoop
TP393
A
1008-1739(2014)14-62-4
定稿日期:2014-06-26