謝輝榮,錢 佩,謝剛生
(1. 華南農(nóng)業(yè)大學(xué)資源環(huán)境學(xué)院,廣東 廣州 510642; 2. 廣東省國土資源測繪院,廣東 廣州 510500)
佛山市稅源地圖大數(shù)據(jù)展示系統(tǒng)的設(shè)計與實現(xiàn)
謝輝榮1,錢 佩2,謝剛生1
(1. 華南農(nóng)業(yè)大學(xué)資源環(huán)境學(xué)院,廣東 廣州 510642; 2. 廣東省國土資源測繪院,廣東 廣州 510500)
在智慧時空大數(shù)據(jù)與云平臺建設(shè)工作中,如何進一步挖掘分析海量空間數(shù)據(jù)是實現(xiàn)高效應(yīng)用的一項關(guān)鍵任務(wù)。針對佛山市稅務(wù)機關(guān)的業(yè)務(wù)需求,研究了基于Hadoop框架的大數(shù)據(jù)技術(shù),結(jié)合GIS數(shù)據(jù),利用互聯(lián)網(wǎng)云平臺對海量稅務(wù)數(shù)據(jù)進行存儲、計算、分析的佛山市稅源地圖大數(shù)據(jù)展示系統(tǒng)的設(shè)計與實現(xiàn)。
智慧城市;大數(shù)據(jù);數(shù)據(jù)挖掘;智慧稅務(wù);Hadoop框架
2016年底,國家測繪地理信息局庫熱西局長在全國測繪地理信息工作報告中指出,我國即將大力推進智慧時空大數(shù)據(jù)與云平臺建設(shè)試點,在智慧時空大數(shù)據(jù)與云平臺建設(shè)工作中,如何進一步挖掘分析海量空間數(shù)據(jù)是平臺實現(xiàn)高效應(yīng)用的一項關(guān)鍵任務(wù)[1]。經(jīng)濟運行數(shù)據(jù)是智慧時空大數(shù)據(jù)的一個重要組成部分,以空間大數(shù)據(jù)的維度研究經(jīng)濟運行數(shù)據(jù)的挖掘與分析,能夠有效幫助智慧時空大數(shù)據(jù)與云平臺的推廣與應(yīng)用[2]。
稅務(wù)機關(guān)是國家經(jīng)濟運行的關(guān)鍵機構(gòu),在大數(shù)據(jù)分析與應(yīng)用領(lǐng)域需求極為旺盛[3]。在稅務(wù)領(lǐng)域,隨著市場經(jīng)濟的不斷發(fā)展,納稅人生產(chǎn)經(jīng)營的形式呈現(xiàn)多樣化,稅源分布的領(lǐng)域越來越廣泛,流動性和隱蔽性越來越強,對納稅人實施有效監(jiān)控管理的難度越來越大[4]。在海量稅收數(shù)據(jù)的基礎(chǔ)上進一步開發(fā)完善基于GIS的稅務(wù)查詢分析輔助系統(tǒng),利用空間地理信息數(shù)據(jù)的直觀性為稅務(wù)人員提供便捷的數(shù)據(jù)分析服務(wù);提高數(shù)據(jù)利用能力,為以稅收風險管理為導(dǎo)向的專業(yè)化管理及稅源監(jiān)控提供技術(shù)支持和保障,能夠有效緩解以上難題。
佛山市稅務(wù)機關(guān)在推進深化國稅、地稅征管體制改革方面,積極拓展了互聯(lián)網(wǎng)與大數(shù)據(jù)的數(shù)據(jù)應(yīng)用模式[5],基于空間地理信息數(shù)據(jù),結(jié)合國稅、地稅大數(shù)據(jù)提出了稅源地圖大數(shù)據(jù)展示系統(tǒng)的業(yè)務(wù)需求,以期解決稅務(wù)征管大數(shù)據(jù)空間化管理、分析、展示等問題,并將稅務(wù)數(shù)據(jù)分析過程與結(jié)果以空間思維導(dǎo)向設(shè)計和展現(xiàn)。本文在稅務(wù)信息化與大數(shù)據(jù)、時空信息基礎(chǔ)上,以佛山市為例,通過延伸稅務(wù)云計算體系,研究了基于空間大數(shù)據(jù)的稅源地圖大數(shù)據(jù)展示系統(tǒng)的設(shè)計與實現(xiàn),構(gòu)建稅務(wù)業(yè)務(wù)、宏觀經(jīng)濟分析、戰(zhàn)略策劃、風險預(yù)警、服務(wù)轉(zhuǎn)型、管理創(chuàng)新、安防監(jiān)管等的智慧化應(yīng)用平臺。
1.1 需求分析
稅收數(shù)據(jù)資源涵蓋納稅人的全部涉稅數(shù)據(jù),包括從登記到注銷的整個生命周期內(nèi)所有生產(chǎn)經(jīng)營數(shù)據(jù)信息。由于納稅人的生產(chǎn)經(jīng)營活動存在明顯的區(qū)域與時間特征,稅務(wù)數(shù)據(jù)與公安、水利、城管等數(shù)據(jù)都屬于非傳統(tǒng)GIS領(lǐng)域的強GIS應(yīng)用數(shù)據(jù)[6],這一類型數(shù)據(jù)的應(yīng)用分析過程對泛在地理信息大數(shù)據(jù)的依賴日益增長。
隨著各地“金稅工程”一期、二期、三期的建設(shè)與陸續(xù)上線運行,稅務(wù)部門已經(jīng)建成了多級網(wǎng)絡(luò)和管理系統(tǒng),對大多數(shù)納稅人實現(xiàn)了統(tǒng)一的信息化管理,形成了海量稅務(wù)數(shù)據(jù),部分地方還通過綜合治稅平臺建設(shè)、“網(wǎng)絡(luò)爬蟲”技術(shù)等方式,掌握了部分第三方數(shù)據(jù)[7]。不斷拓寬的稅務(wù)數(shù)據(jù)信息獲取與利用渠道,不斷整合的現(xiàn)有涉稅數(shù)據(jù)資源,對提升稅收數(shù)據(jù)利用層次及提高征管質(zhì)量和效率具有重要意義[8]。
首先,系統(tǒng)應(yīng)滿足日常管理的需要。新一輪征管改革的特征是信息化支撐下的專業(yè)化,強化征管基礎(chǔ)成為稅務(wù)管理的重要內(nèi)容[9]。稅收數(shù)據(jù)的綜合利用,對加強稅源管理、監(jiān)督企業(yè)按時準確申報、堵塞稅收漏洞具有十分重要的推動作用。其次,系統(tǒng)建設(shè)需適應(yīng)稅源專業(yè)化管理發(fā)展的需要。稅源專業(yè)化管理改革以來,通過稅收數(shù)據(jù)一戶式共享促進征管業(yè)務(wù)事項流程化,在一定程度上緩解了取消管戶制征管模式所帶來的信息獲取渠道減少、征納信息不對稱等問題。最后,系統(tǒng)應(yīng)能夠強化稅源監(jiān)控。大企業(yè)之間經(jīng)濟往來的日益頻繁,迫切要求稅務(wù)部門加強重點稅源戶稅收數(shù)據(jù)資源的分析和開發(fā)利用。
基于以上分析內(nèi)容,系統(tǒng)應(yīng)實現(xiàn)基本GIS、強化征管、稅源專業(yè)化、稅源數(shù)據(jù)分析4個層面的建設(shè)需求,對稅收數(shù)據(jù)的分析與利用工作展開探索、實踐,以滿足稅源專業(yè)化管理改革和稅務(wù)人員日常征管查詢的需求。
1.2 技術(shù)框架
系統(tǒng)采用基于J2EE的B/S架構(gòu),同時選擇了基于J2EE實現(xiàn)的OpenGIS Web服務(wù)器規(guī)范的GeoServer實現(xiàn)地圖數(shù)據(jù)發(fā)布,以及Apache基金會的Hadoop框架實現(xiàn)分布式計算與大數(shù)據(jù)處理。數(shù)據(jù)庫采用輕量級的MySQL數(shù)據(jù)庫,系統(tǒng)嚴格遵循SOA(service oriented architecture)面向服務(wù)的體系架構(gòu)及基于OGC的地圖服務(wù)標準化技術(shù)。將所有的地理空間數(shù)據(jù)處理成遵循OGC規(guī)范標準地理數(shù)據(jù)服務(wù),通過發(fā)布網(wǎng)絡(luò)地圖服務(wù)(web map service,WMS)、網(wǎng)絡(luò)地圖分塊服務(wù)(web map tiled service,WMTS)、網(wǎng)絡(luò)要素服務(wù)(web feature service,WFS)、網(wǎng)絡(luò)覆蓋服務(wù)(web coverage service,WCS)和網(wǎng)絡(luò)處理服務(wù)(web processing services,WPS)等來實現(xiàn)數(shù)據(jù)的集成共享[10],保證了系統(tǒng)在保留現(xiàn)有的IT資產(chǎn)、開發(fā)效率、異構(gòu)環(huán)境支持、可伸縮性及穩(wěn)定性等方面的需求。
1.3 數(shù)據(jù)組織管理方式
佛山市稅源地圖大數(shù)據(jù)展示系統(tǒng)擬處理的數(shù)據(jù)經(jīng)前期估算,各類數(shù)據(jù)的總條目超過1億條,數(shù)據(jù)總?cè)萘恳堰_到TB級,同時數(shù)據(jù)類型包括相關(guān)記錄、工作底稿、調(diào)查記錄、電子信息、會計統(tǒng)計數(shù)據(jù)、企業(yè)納稅信息等各類稅務(wù)文書及相關(guān)文字、數(shù)據(jù)、圖片等,具備明顯的海量數(shù)據(jù)與多源異構(gòu)數(shù)據(jù)特征。再進一步考慮系統(tǒng)數(shù)據(jù)未來3~5年的增長量,這一體量的數(shù)據(jù)管理與處理方式在傳統(tǒng)的數(shù)據(jù)庫+文件系統(tǒng)的管理模式上存在顯著的性能瓶頸。因此系統(tǒng)采用了關(guān)系型數(shù)據(jù)庫MySQL結(jié)合分布式大數(shù)據(jù)框架Hadoop的組織管理方式。
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲[11]。Hadoop框架的最核心設(shè)計為HDFS和MapReduce。HDFS為海量數(shù)據(jù)提供了存儲,MapReduce為海量數(shù)據(jù)提供計算。HDFS存儲Hadoop集群中全部存儲節(jié)點上的文件,有高容錯性的特點,普通硬件上就可以部署;通過高吞吐量來訪問應(yīng)用程序的數(shù)據(jù)。MapReduce是處理大量半結(jié)構(gòu)化數(shù)據(jù)集合的編程模型;利用MapReduce極強的并行處理大數(shù)據(jù)集的能力來實現(xiàn)稅源數(shù)據(jù)的快速查詢、顯示及分析處理[12]。
2.1 架構(gòu)設(shè)計
稅源地圖大數(shù)據(jù)展示系統(tǒng)總體架構(gòu)由運行支撐層、數(shù)據(jù)層、管理層、服務(wù)接口層、應(yīng)用層和用戶層組成。
運行支撐層主要為系統(tǒng)運行提供軟硬件、網(wǎng)絡(luò)基礎(chǔ)環(huán)境,其中基礎(chǔ)軟件包括操作系統(tǒng)、GIS平臺、數(shù)據(jù)庫平臺、系統(tǒng)軟件等;網(wǎng)絡(luò)指稅務(wù)內(nèi)網(wǎng);硬件設(shè)備包括服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備等計算機設(shè)備。
數(shù)據(jù)層為系統(tǒng)的運行提供數(shù)據(jù)存儲與分布式運算支撐,主要包括基于Hadoop的分布式系統(tǒng)架構(gòu),以及公共地理框架數(shù)據(jù)、專題數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和其他支撐數(shù)據(jù)等。
服務(wù)接口層通過企業(yè)服務(wù)總線來實現(xiàn),主要包括經(jīng)濟稅收數(shù)據(jù)、支柱行業(yè)數(shù)據(jù)、重點稅源數(shù)據(jù)、區(qū)域信息數(shù)據(jù)等。
應(yīng)用層即稅源地圖大數(shù)據(jù)展示系統(tǒng),是直接面對用戶的應(yīng)用軟件。
用戶層是指使用該系統(tǒng)的用戶,主要包括3大類,分別是領(lǐng)導(dǎo)、業(yè)務(wù)辦公用戶和其他用戶,每類用戶具有各自不同的特性。系統(tǒng)的架構(gòu)如圖1所示。
圖1 系統(tǒng)架構(gòu)
2.2 功能設(shè)計
佛山市稅源地圖大數(shù)據(jù)展示系統(tǒng)基于基本GIS、強化征管、稅源專業(yè)化、稅源數(shù)據(jù)分析4個層面的建設(shè)需求,嚴格遵循先進實用、完整規(guī)范、開放易擴充及維護管理友好的建設(shè)原則,以稅務(wù)體系大數(shù)據(jù)服務(wù)為依托,結(jié)合國土資源登記發(fā)證數(shù)據(jù),疊加稅務(wù)專題數(shù)據(jù),對全區(qū)域的稅收數(shù)據(jù)進行空間可視化表達,主要設(shè)計實現(xiàn)了以下功能模塊。
(1) 地圖可視化引擎。為涉稅數(shù)據(jù)的時空特征提供了有效的GIS支撐。
(2) 征管數(shù)據(jù)實時監(jiān)控模塊。強化征管基礎(chǔ),重點支撐監(jiān)督企業(yè)按時準確申報、堵塞稅收漏洞。
(3) 稅源監(jiān)管模塊。通過對經(jīng)濟稅收、重點稅源、支柱行業(yè)、區(qū)域經(jīng)濟等數(shù)據(jù)的精細化分類管理,有效促進了稅源專業(yè)化管理,在一定程度上緩解了取消管戶制征管模式所帶來的信息獲取渠道減少、征納信息不對稱等問題。
(4) 分析決策模塊。通過實現(xiàn)區(qū)域分析、分屏對比、企業(yè)清冊等功能,對各類重點稅源戶稅收數(shù)據(jù)資源的分析和開發(fā)利用得到了充分加強。
(5) 其他。系統(tǒng)設(shè)計了常用功能收藏、地址維護等其他功能,兼顧了系統(tǒng)的可用性與友好度。
3.1 數(shù)據(jù)存儲建設(shè)
本系統(tǒng)基于稅源數(shù)據(jù)進行開發(fā),采用分布式架構(gòu)中基于云計算環(huán)境的海量數(shù)據(jù)組織模型,利用HDFS實現(xiàn)數(shù)據(jù)的分布式存儲[13]。該模型為網(wǎng)絡(luò)中分布著多個存儲站點,存儲管理中心站點負責管理虛擬存儲空間,映射各個分布式存儲站點。中心站點靜態(tài)地將存儲系統(tǒng)劃分為N個虛擬磁盤空間(virtual disk space)。虛擬磁盤空間映射到M個分布式的存儲站點上(其中M≤N),所有數(shù)據(jù)文件的直接尋址的路徑信息都記錄在嵌入式索引文件EIF中,創(chuàng)建索引,索引文件記錄與數(shù)據(jù)的變更同步進行。VDS按照標準化的文件路徑來組織管理稅源數(shù)據(jù),解析來自客戶端的服務(wù)請求。
由于Hadoop缺失對空間數(shù)據(jù)計算能力的支持,在空間數(shù)據(jù)的存儲與運算部分,針對稅源類數(shù)據(jù)的空間數(shù)據(jù)結(jié)構(gòu)相對較為簡單,無需考慮高程數(shù)據(jù)及3D數(shù)據(jù)結(jié)構(gòu)的特點,系統(tǒng)并未采用PostgreSQL+PostGIS或Oracle Spatial等成熟的GIS數(shù)據(jù)庫解決方案。而是選擇了在傳統(tǒng)數(shù)據(jù)庫MySQL或直接在文件中存儲文本結(jié)構(gòu)的點、線數(shù)據(jù),同時在系統(tǒng)中單獨開發(fā)對應(yīng)的空間數(shù)據(jù)運算組件來實現(xiàn),在基于Hadoop的分布式大數(shù)據(jù)運算能力的支持下,系統(tǒng)運算性能未受明顯影響。存儲架構(gòu)如圖2所示。
圖2 存儲架構(gòu)
3.2 分析應(yīng)用
系統(tǒng)的分析應(yīng)用部分即為稅源地圖大數(shù)據(jù)展示部分,是直接面對用戶的系統(tǒng)模塊。
系統(tǒng)需要用到大量的空間分析展示效果,在電子地圖等GIS模塊采用ArcGIS API for JavaScript實現(xiàn)相關(guān)功能。近年來,在基于B/S架構(gòu)的GIS開發(fā)領(lǐng)域,由于瀏覽器性能與兼容性的限制,大多系統(tǒng)均采用了基于富互聯(lián)網(wǎng)應(yīng)用的Flex或Silverlight技術(shù)實現(xiàn),但無論Flex還是Silverlight都存在必須安裝第三方插件、與后臺邏輯層無法完全分離及不能良好支持移動互聯(lián)網(wǎng)的特點。而在不考慮瀏覽器性能與兼容性的限制的基礎(chǔ)上,基于HTML5及JavaScript的前端開發(fā)技術(shù)能夠有效避免富互聯(lián)網(wǎng)應(yīng)用的缺點,Esri公司近年來也逐步加強了對ArcGIS API for JavaScript的推廣力度[14]。同時為滿足系統(tǒng)用戶的個性化需求,系統(tǒng)采用了ArcGIS API for JavaScript+JavaScript模板技術(shù)的開發(fā)模式,避免了常用的ArcGIS JavaScript dojo框架業(yè)務(wù)功能修改較為復(fù)雜的問題,其中JavaScript模板采用了騰訊的artTemplate模板引擎以實現(xiàn)前后端的邏輯分離。
其他分析與展示模塊的主要展示效果集中為圖表分析統(tǒng)計,系統(tǒng)采用了基于JavaScript的Echarts框架實現(xiàn),實現(xiàn)了按區(qū)域、時間、地址、行業(yè)、稅源、企業(yè)等多種統(tǒng)計、查詢方式。不但方便用戶根據(jù)多種方式查詢、統(tǒng)計數(shù)據(jù)及數(shù)據(jù)挖掘結(jié)果,同時兼顧了系統(tǒng)的兼容性與友好度。
(1) 征管數(shù)據(jù)實時監(jiān)控:對各類稅務(wù)征管數(shù)據(jù)進行實時化的情況統(tǒng)計、分析及展示。
(2) 區(qū)域分析:基于空間位置的數(shù)據(jù)統(tǒng)計分析,同時提供表格、地圖、統(tǒng)計圖3種展現(xiàn)方式。
(3) 分屏對比:對固定時間不同區(qū)域的經(jīng)濟稅收、支柱行業(yè)、重點稅源、區(qū)域經(jīng)濟等各類數(shù)據(jù)實現(xiàn)分屏對比。
本文研究的稅源地圖大數(shù)據(jù)展示系統(tǒng),是基于大數(shù)據(jù)技術(shù)結(jié)合GIS數(shù)據(jù)利用互聯(lián)網(wǎng)云平臺對海量稅務(wù)數(shù)據(jù)進行存儲、計算、分析的空間大數(shù)據(jù)應(yīng)用系統(tǒng),系統(tǒng)能夠讓經(jīng)濟數(shù)據(jù)信息自動生成對比分析,提供可視化、客觀化的價值信息,實現(xiàn)信息增值[15],能夠間接提高業(yè)務(wù)管理信息化的科學(xué)決策水平,增強政府調(diào)控宏觀經(jīng)濟、駕馭市場變化、應(yīng)對突發(fā)事件、總攬經(jīng)濟全局的能力。
[1] 杜江毅,邊馥苓.面向大數(shù)據(jù)的空間數(shù)據(jù)挖掘綜述[J].地理空間信息,2017,15(1):8-11.
[2] 楊麗娜,邵靜,彭玲,等.面向智慧城市數(shù)據(jù)管理和多維決策的時空數(shù)據(jù)倉庫建設(shè)[J].測繪科學(xué),2014,39(8):45-49.
[3] 彭驥鳴,曹永旭,韓曉琴.大數(shù)據(jù)時代稅源專業(yè)化管理面臨的機遇與挑戰(zhàn)[J].稅收經(jīng)濟研究,2013(6):21-24.
[4] 任東飚,費銘海,袁明昌.稅收數(shù)據(jù)在大數(shù)據(jù)中的利用探析[J].稅務(wù)研究,2015(10):25-27.
[5] 新華網(wǎng).廣東深化國地稅征管體制改革中的“工匠精神”[EB/OL].(2016-09-27)[2017-02-23].http:∥www.chinatax.gov.cn/n810219/n810724/c2276675/content.html.
[6] 季順海,武俊紅.市縣級智慧城市時空信息云平臺建設(shè)方案研究與應(yīng)用——以智慧大豐時空信息云平臺建設(shè)為例[J].測繪通報,2016(6):113-116.
[7] 王向東,王文匯,王再堂,等.大數(shù)據(jù)時代下我國稅收征管模式轉(zhuǎn)型的機遇與挑戰(zhàn)[J].當代經(jīng)濟研究,2014(8):92-96.
[8] 張建光,朱建明,張翔.基于云計算的稅務(wù)信息化建設(shè)模式探討[J].稅務(wù)研究,2013(11):59-61.
[9] 孫開,沈昱池.大數(shù)據(jù)——構(gòu)建現(xiàn)代稅收征管體系的推進器[J].稅務(wù)研究,2015(1):96-99.
[10] 于艷超,許捍衛(wèi).基于OGC規(guī)范的WebGIS開源平臺研究[J].測繪與空間地理信息,2015,38(4):56-58.
[11] 朱月琴,譚永杰,張建通,等.基于Hadoop的地質(zhì)大數(shù)據(jù)融合與挖掘技術(shù)框架[J].測繪學(xué)報,2015,44(S0):152-159.
[12] 劉云峰,李發(fā)紅,曹廣強. Hadoop 框架下海量影像數(shù)據(jù)庫管理系統(tǒng)的研究與實現(xiàn)[J].測繪通報,2016(12): 74-76.
[13] 王凱,曹建成,王乃生,等.Hadoop 支持下的地理信息大數(shù)據(jù)處理技術(shù)初探[J].測繪通報,2015(10): 114-117.
[14] 劉光,曾敬文,曾慶豐.Web GIS從基礎(chǔ)到開發(fā)實踐(基于ArcGIS API for JavaScript)[M].北京:清華大學(xué)出版社,2015.
[15] 張珣,于重重,張小虎,等. 利用經(jīng)濟普查數(shù)據(jù)建設(shè)商業(yè)地理信息系統(tǒng)——以北京市為例[J].測繪通報,2016(6): 41-45.
DesignandDevelopmentofFoshanBigDataMapSystemforTaxSourceData
XIE Huirong1,QIAN Pei2,XIE Gangsheng1
(1. College of Natural Resources and Environment, South China Agricultural University, Guangzhou 510642, China; 2. Surveying and Mapping Institute, Lands and Resource Department of Guangdong Province, Guangzhou 510500, China)
It is an important mission that how to mine the big geography data to build smart cloud platform for space-time big data.Directed against business requirement for Foshan tax office, this paper makes a study for design and development of Foshan big data map system based on GIS big Data with Hadoop and achieve big tax data’s storage, calculation and analysis using the Internet cloud platform.
smart city; big data; data mining; smart tax;Hadoop framework
謝輝榮,錢佩,謝剛生.佛山市稅源地圖大數(shù)據(jù)展示系統(tǒng)的設(shè)計與實現(xiàn)[J].測繪通報,2017(10):133-136.
10.13474/j.cnki.11-2246.2017.0331.
2017-02-20;
2017-04-26
國家自然科學(xué)基金(41101278)
謝輝榮(1987—),男,碩士生,主要研究方向為測繪地理信息應(yīng)用開發(fā)。E-mail:450282452@qq.com
謝剛生。E-mail: cyberxp@163.com
P208
A
0494-0911(2017)10-0133-04