李萍?朱春琴?魏房忠?孫毅
摘要:隨著“數(shù)字政府”建設(shè)的不斷推進(jìn),在政務(wù)服務(wù)、社會(huì)治理、政務(wù)運(yùn)行等場(chǎng)景中不斷深化應(yīng)用,政務(wù)數(shù)據(jù)共享交換對(duì)實(shí)時(shí)性、高效性、靈活性有了更高的要求。結(jié)合傳統(tǒng)政務(wù)數(shù)據(jù)共享交換平臺(tái)的架構(gòu),分析了傳統(tǒng)數(shù)據(jù)共享交換方式面臨的短板與不足,重點(diǎn)對(duì)“統(tǒng)一數(shù)據(jù)資源目錄+CDC”、實(shí)時(shí)流處理技術(shù)、API整合封裝等新興技術(shù)路線(xiàn)進(jìn)行了研究、分析和比較,以探索新形勢(shì)下實(shí)現(xiàn)政務(wù)數(shù)據(jù)高效共享的新方式。希望能為相關(guān)從業(yè)者提供借鑒。
關(guān)鍵詞:高效共享交換;CDC;實(shí)時(shí)流;API整合封裝
一、前言
當(dāng)前,數(shù)字化轉(zhuǎn)型在社會(huì)各行業(yè)如火如荼地開(kāi)展?!皵?shù)字政府”建設(shè)從規(guī)劃到落地,由此帶來(lái)了政務(wù)服務(wù)“一件事”、社會(huì)治理“一類(lèi)事”、政務(wù)運(yùn)行“一體事”等場(chǎng)景應(yīng)用,政務(wù)數(shù)據(jù)共享的意愿更加強(qiáng)烈、需求更加靈活、時(shí)效性要求更高。傳統(tǒng)“T+N”離線(xiàn)采集或交換模式往往會(huì)面臨著交換鏈路長(zhǎng)、實(shí)施環(huán)節(jié)多、交換效率低等問(wèn)題,難以滿(mǎn)足實(shí)時(shí)性要求。
在政務(wù)服務(wù)領(lǐng)域,實(shí)現(xiàn)政務(wù)服務(wù)事項(xiàng)清單標(biāo)準(zhǔn)化、政務(wù)服務(wù)精準(zhǔn)化和政務(wù)服務(wù)便捷化[1],讓企業(yè)和群眾辦事“少跑腿”,讓數(shù)據(jù)“多跑腿”[2],加快數(shù)據(jù)匯聚共享,制定政務(wù)數(shù)據(jù)共享服務(wù)管理辦法,優(yōu)化一體化大數(shù)據(jù)共享交換體系[3],是現(xiàn)在比較迫切的需求。因此,為滿(mǎn)足“數(shù)字政府”新形勢(shì)下政務(wù)數(shù)據(jù)共享開(kāi)放的需要,開(kāi)展政務(wù)數(shù)據(jù)高效共享交換的研究,探索新技術(shù)實(shí)現(xiàn)方式,顯得尤為必要。
二、政務(wù)數(shù)據(jù)共享交換的現(xiàn)狀
(一)共享交換平臺(tái)
現(xiàn)行政務(wù)數(shù)據(jù)共享交換平臺(tái)通常主要由統(tǒng)一數(shù)據(jù)資源目錄、數(shù)據(jù)交換系統(tǒng)、政務(wù)信息共享網(wǎng)站等系統(tǒng)組成,平臺(tái)架構(gòu)如圖1所示。
(1)統(tǒng)一數(shù)據(jù)資源目錄
統(tǒng)一數(shù)據(jù)資源目錄是實(shí)現(xiàn)政務(wù)信息資源共享和業(yè)務(wù)協(xié)同的基礎(chǔ),是各政務(wù)部門(mén)之間信息共享的依據(jù),統(tǒng)一數(shù)據(jù)資源目錄通過(guò)掛接各類(lèi)數(shù)據(jù)資源,以目錄為紐帶實(shí)現(xiàn)數(shù)據(jù)資源的特征描述和數(shù)據(jù)的定位獲取。
(2)數(shù)據(jù)交換系統(tǒng)
數(shù)據(jù)交換系統(tǒng)作為政務(wù)信息資源交換的基礎(chǔ)設(shè)施和通用系統(tǒng),提供統(tǒng)一的政務(wù)數(shù)據(jù)共享交換通道,具備政務(wù)數(shù)據(jù)歸集和政務(wù)數(shù)據(jù)訂閱交換等功能。
(3)共享網(wǎng)站
共享網(wǎng)站作為大數(shù)據(jù)管理部門(mén)信息發(fā)布和政務(wù)信息資源服務(wù)的綜合性門(mén)戶(hù),面向各政務(wù)部門(mén)業(yè)務(wù)工作人員,提供政務(wù)數(shù)據(jù)資源檢索和政務(wù)數(shù)據(jù)共享申請(qǐng)等功能。各政務(wù)部門(mén)既是數(shù)據(jù)提供部門(mén),也是數(shù)據(jù)使用部門(mén)。
(二)共享交換流程
政務(wù)數(shù)據(jù)共享交換流程主要包含了歸集、注冊(cè)、申請(qǐng)、共享等步驟。
(1)歸集?;跀?shù)據(jù)交換系統(tǒng)歸集各數(shù)據(jù)提供部門(mén)提供的政務(wù)數(shù)據(jù),涉及庫(kù)表、文件、API服務(wù)接口等類(lèi)型資源。
(2)注冊(cè)。數(shù)據(jù)提供部門(mén)在統(tǒng)一數(shù)據(jù)資源目錄中完成目錄注冊(cè)、資源掛接等發(fā)布工作,形成本部門(mén)對(duì)外共享開(kāi)放的數(shù)據(jù)資源目錄。
(3)申請(qǐng)。數(shù)據(jù)使用部門(mén)通過(guò)共享網(wǎng)站進(jìn)行數(shù)據(jù)資源的檢索,針對(duì)有使用需求的數(shù)據(jù)資源發(fā)起共享申請(qǐng)。
(4)共享。申請(qǐng)流程經(jīng)數(shù)據(jù)提供部門(mén)審核通過(guò)后,由數(shù)據(jù)交換系統(tǒng)響應(yīng)本次共享請(qǐng)求,實(shí)現(xiàn)數(shù)據(jù)從數(shù)據(jù)提供部門(mén)到數(shù)據(jù)使用部門(mén)的交換。
(三)共享交換方式
政務(wù)數(shù)據(jù)共享交換通常采用“前置機(jī)庫(kù)表”方式和“API服務(wù)接口”方式。
(1)“前置機(jī)庫(kù)表”方式
“前置機(jī)庫(kù)表”在各數(shù)據(jù)提供部門(mén)推送數(shù)據(jù)至共享交換前置庫(kù)后,由大數(shù)據(jù)主管部門(mén)對(duì)數(shù)據(jù)進(jìn)行匯聚整理,再對(duì)外提供共享服務(wù)。這種方式必須由數(shù)據(jù)提供部門(mén)進(jìn)行大量工作配合,往往需增加人工操作、系統(tǒng)改造工作量大、成本高,導(dǎo)致數(shù)據(jù)匯聚困難,實(shí)時(shí)性不高[4]。在有新的業(yè)務(wù)需求時(shí),數(shù)據(jù)提供部門(mén)需要配置新的推送任務(wù),把數(shù)據(jù)從業(yè)務(wù)系統(tǒng)同步到共享交換前置庫(kù)。
在支撐辦理跨部門(mén)、跨系統(tǒng)事項(xiàng)時(shí),如果以這種方式開(kāi)展多部門(mén)、跨層級(jí)數(shù)據(jù)交換,則會(huì)凸顯數(shù)據(jù)交換鏈路長(zhǎng)、實(shí)施環(huán)節(jié)多、交換時(shí)效性不高等問(wèn)題。繼而出現(xiàn)數(shù)據(jù)同步不及時(shí),辦理等待時(shí)間長(zhǎng)等問(wèn)題,企業(yè)和群眾辦事體驗(yàn)比較差。
(2)“API服務(wù)接口”方式
“API服務(wù)接口”方式是指數(shù)據(jù)提供部門(mén)通過(guò)預(yù)先定義函數(shù),制定輸入、輸出參數(shù)和訪(fǎng)問(wèn)協(xié)議等指定內(nèi)容,對(duì)外提供數(shù)據(jù)服務(wù)的一種共享方式。由于API的輸入和輸出參數(shù)相對(duì)固定,當(dāng)新的業(yè)務(wù)需求出現(xiàn)時(shí),需要數(shù)據(jù)提供部門(mén)開(kāi)發(fā)新的API,而無(wú)法復(fù)用現(xiàn)有API的能力進(jìn)行二次開(kāi)發(fā)或編排,也無(wú)法對(duì)多個(gè)API進(jìn)行關(guān)聯(lián)整合,實(shí)現(xiàn)跨部門(mén)、跨業(yè)務(wù)聯(lián)合查詢(xún)。
(四)共享交換工作演進(jìn)
之前,政務(wù)數(shù)據(jù)共享交換的任務(wù)以完成數(shù)據(jù)批量歸集、集中匯聚為主。在現(xiàn)階段,政務(wù)數(shù)據(jù)共享交換的工作重點(diǎn)已經(jīng)發(fā)生轉(zhuǎn)移,一方面要求提高數(shù)據(jù)共享交換的效率,確保數(shù)據(jù)鮮活度,減少辦事等待時(shí)間;另一方面要求通過(guò)數(shù)據(jù)流動(dòng)促進(jìn)業(yè)務(wù)協(xié)同,實(shí)現(xiàn)跨部門(mén)、跨地域、跨層級(jí)的業(yè)務(wù)對(duì)接。
三、政務(wù)數(shù)據(jù)高效共享技術(shù)研究
為滿(mǎn)足政務(wù)數(shù)據(jù)高效共享的要求,在技術(shù)選型研究時(shí),既要滿(mǎn)足新的業(yè)務(wù)需求,提高數(shù)據(jù)共享交換效率,同時(shí)又要減少對(duì)現(xiàn)有平臺(tái)技術(shù)架構(gòu)和接入部門(mén)的影響,為此,本文提出“統(tǒng)一數(shù)據(jù)資源目錄+CDC”、實(shí)時(shí)流處理、API整合封裝等技術(shù)方案。
(一)“統(tǒng)一數(shù)據(jù)資源目錄+CDC”技術(shù)
CDC(Change Data Capture,變化數(shù)據(jù)捕獲)是在數(shù)據(jù)庫(kù)級(jí)別實(shí)現(xiàn)數(shù)據(jù)增量抽取的解決方案,是業(yè)界成熟的實(shí)時(shí)數(shù)據(jù)變化捕獲技術(shù)。CDC通過(guò)日志記錄事務(wù)的開(kāi)始、提交以及撤銷(xiāo)等一系列屬性,以事務(wù)為單位對(duì)掃描記錄進(jìn)行交叉記錄,同時(shí)為每個(gè)事務(wù)建立相關(guān)的鏈表以更好地將日志記錄整合在一起[5],完成對(duì)數(shù)據(jù)變化捕獲。
CDC是對(duì)現(xiàn)有政務(wù)數(shù)據(jù)共享交換體系非常好的一個(gè)補(bǔ)充。利用它可實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)共享交換,結(jié)合現(xiàn)有統(tǒng)一數(shù)據(jù)資源目錄和共享網(wǎng)站功能,在與CDC程序之間增加了一個(gè)適配層,實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)資源目錄和共享網(wǎng)站與CDC的有機(jī)串聯(lián)。適配層實(shí)現(xiàn)以下兩個(gè)核心功能。
(1)業(yè)務(wù)銜接貫通:實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)資源目錄、共享網(wǎng)站與CDC程序的集成,為統(tǒng)一數(shù)據(jù)資源目錄提供CDC類(lèi)型的數(shù)據(jù)源,并響應(yīng)共享網(wǎng)站的實(shí)時(shí)數(shù)據(jù)共享訂閱請(qǐng)求,將實(shí)時(shí)數(shù)據(jù)推送到數(shù)據(jù)訂閱方。
(2)數(shù)據(jù)實(shí)時(shí)打通:驅(qū)動(dòng)CDC程序從數(shù)據(jù)提供部門(mén)獲取實(shí)時(shí)數(shù)據(jù),并向數(shù)據(jù)訂閱部門(mén)推送,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)共享交換。
“統(tǒng)一數(shù)據(jù)資源目錄+CDC”的數(shù)據(jù)共享交換,首先不需要數(shù)據(jù)提供部門(mén)把數(shù)據(jù)從業(yè)務(wù)系統(tǒng)定期推送到共享交換前置庫(kù);同時(shí),數(shù)據(jù)提供部門(mén)也能按現(xiàn)有的政務(wù)數(shù)據(jù)共享交換流程,自主控制數(shù)據(jù)共享的范圍,能精確到表級(jí)或字段級(jí),保障他們作為數(shù)據(jù)擁有者的權(quán)利。減少了數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié),提升了數(shù)據(jù)共享的時(shí)效性,也會(huì)在一定程度上減少對(duì)前置機(jī)的使用;另外也可提升由于時(shí)間戳造成的數(shù)據(jù)錯(cuò)誤或丟失問(wèn)題,提高數(shù)據(jù)共享交換質(zhì)量。這種方式只需對(duì)現(xiàn)有共享交換的技術(shù)框架和業(yè)務(wù)流程進(jìn)行細(xì)微地改造,易于快速地在各級(jí)政務(wù)部門(mén)落地實(shí)施。
但此方式也存在一定的局限性,首先只適用于庫(kù)表數(shù)據(jù)交換,無(wú)法對(duì)文件、API等類(lèi)型數(shù)據(jù)變化進(jìn)行捕獲,其次要求數(shù)據(jù)提供部門(mén)提供具備讀取數(shù)據(jù)庫(kù)日志的訪(fǎng)問(wèn)權(quán)限。
(二)實(shí)時(shí)流處理技術(shù)
大數(shù)據(jù)時(shí)代的到來(lái)使單節(jié)點(diǎn)的計(jì)算模式已經(jīng)不能滿(mǎn)足數(shù)據(jù)處理的需求,分布式數(shù)據(jù)處理與存儲(chǔ)系統(tǒng)(如Hadoop)逐步成為大數(shù)據(jù)平臺(tái)首選的架構(gòu),但基于Hadoop架構(gòu)的大數(shù)據(jù)平臺(tái)主要基于靜態(tài)數(shù)據(jù)文件的并行處理,雖然在海量數(shù)據(jù)吞吐、計(jì)算、存儲(chǔ)方面有極高的效率,但是實(shí)時(shí)性較差,屬高吞吐高并發(fā),高時(shí)延的架構(gòu)[6]。
為滿(mǎn)足業(yè)務(wù)場(chǎng)景實(shí)時(shí)性要求,在數(shù)據(jù)采集、數(shù)據(jù)傳送、數(shù)據(jù)處理和數(shù)據(jù)加載等環(huán)節(jié)中,需根據(jù)場(chǎng)景特點(diǎn),應(yīng)用不同的流數(shù)據(jù)處理技術(shù),以實(shí)現(xiàn)高速實(shí)時(shí)的流式數(shù)據(jù)處理分析。提高數(shù)據(jù)共享交換效率進(jìn)行研究。
(1)數(shù)據(jù)采集
通過(guò)實(shí)時(shí)流組件,對(duì)數(shù)據(jù)量大、實(shí)時(shí)性高的數(shù)據(jù)進(jìn)行歸集,可提升數(shù)據(jù)歸集效率。對(duì)于日志類(lèi)數(shù)據(jù),使用Flume(高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng))進(jìn)行實(shí)時(shí)采集;對(duì)于數(shù)據(jù)庫(kù)類(lèi)數(shù)據(jù)則使用CDC等數(shù)據(jù)庫(kù)事務(wù)日志解析工具實(shí)時(shí)捕獲數(shù)據(jù)的變化。
(2)數(shù)據(jù)傳送
將采集的數(shù)據(jù)寫(xiě)入Kafka(高吞吐量的分布式發(fā)布訂閱消息系統(tǒng))中,利用Kafka的低延遲、高吞吐特性,下游消費(fèi)者可以實(shí)時(shí)、高速地讀取Kafka中的消息,減少延遲。
(3)數(shù)據(jù)處理
Flink(分布式流數(shù)據(jù)流引擎)從Kafka中讀取到數(shù)據(jù),可以利用強(qiáng)大的流處理能力對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,同時(shí)實(shí)現(xiàn)對(duì)數(shù)據(jù)的輕度治理,如字段填充、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等。
(4)數(shù)據(jù)加載
根據(jù)數(shù)據(jù)特點(diǎn)及業(yè)務(wù)需求,將數(shù)據(jù)存放到合適的組件,提升數(shù)據(jù)應(yīng)用效率。如全量數(shù)據(jù)可存放在HBase(分布式的、面向列的數(shù)據(jù)庫(kù)),快速高并發(fā)訪(fǎng)問(wèn)的熱點(diǎn)數(shù)據(jù)可存放在Redis(基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫(kù))。
實(shí)時(shí)流處理技術(shù)適用于數(shù)據(jù)量大、時(shí)效要求高的業(yè)務(wù),在部署時(shí)需要考慮結(jié)合業(yè)務(wù)特點(diǎn)選取相應(yīng)的組件,配備相應(yīng)的軟硬件資源,滿(mǎn)足實(shí)時(shí)流處理分析效率。
(三)API整合封裝技術(shù)
API(Application Programming Interface,應(yīng)用程序接口)整合封裝是指對(duì)各數(shù)據(jù)提供部門(mén)提供的一個(gè)或多個(gè)API服務(wù)接口進(jìn)行二次圖形化編排開(kāi)發(fā),并對(duì)每個(gè)API服務(wù)接口的返回結(jié)果做一定的數(shù)據(jù)處理,比如過(guò)濾、關(guān)聯(lián)和合并等,最終整合成一個(gè)全新結(jié)果返回給前端。API整合封裝技術(shù)能提升API服務(wù)接口復(fù)用性,并提供圖形化拖拉拽的“零代碼”操作界面,降低對(duì)開(kāi)發(fā)人員的技術(shù)要求,同時(shí)提高開(kāi)發(fā)效率。
API整合封裝技術(shù),通過(guò)三個(gè)步驟來(lái)實(shí)現(xiàn)對(duì)API服務(wù)接口進(jìn)行封裝:
(1)首先是數(shù)據(jù)源采集,通過(guò)API整合封裝技術(shù)提供的數(shù)據(jù)庫(kù)、API等多種數(shù)據(jù)源的適配器,采集各類(lèi)源數(shù)據(jù),封裝轉(zhuǎn)換為應(yīng)用模型;
(2)其次是模型關(guān)系和圖譜構(gòu)建,根據(jù)應(yīng)用模型間的關(guān)系,構(gòu)建模型圖譜;
(3)最后是場(chǎng)景化構(gòu)建,根據(jù)業(yè)務(wù)需求,在模型圖譜中選擇適合的模型,通過(guò)圖形界面拖拉拽方式,進(jìn)行場(chǎng)景化構(gòu)建。
例如,在構(gòu)建“人才安居房資格核實(shí)”的業(yè)務(wù)場(chǎng)景中,條件為人員年齡在40歲以下、學(xué)歷本科以上、社保交納年限在5年以上,之前需要分別查詢(xún)?nèi)藛T基本信息、學(xué)歷信息、社保信息三個(gè)API服務(wù)接口,并對(duì)返回?cái)?shù)據(jù)分別進(jìn)行核實(shí)。利用API整合封裝技術(shù),對(duì)這三個(gè)API服務(wù)接口進(jìn)行源數(shù)據(jù)采集,并通過(guò)身份證號(hào)碼進(jìn)行關(guān)聯(lián),配置對(duì)應(yīng)的條件,設(shè)定輸入和輸出參數(shù),最終實(shí)現(xiàn)以一個(gè)API服務(wù)接口滿(mǎn)足新增業(yè)務(wù)的需求。
API整合封裝技術(shù)通過(guò)圖形化編排,能減少開(kāi)發(fā)工作量,提升現(xiàn)有API服務(wù)接口復(fù)用率和共享效率。但此技術(shù)有一定的限制,在對(duì)多個(gè)API服務(wù)接口進(jìn)行編排時(shí),API服務(wù)接口間要有關(guān)聯(lián)的關(guān)系,并且對(duì)API服務(wù)接口的參數(shù)格式也有一定要求。
四、結(jié)語(yǔ)
優(yōu)化政務(wù)數(shù)據(jù)共享交換平臺(tái)技術(shù)架構(gòu),促進(jìn)政務(wù)數(shù)據(jù)高效共享交換,可加快數(shù)據(jù)在各級(jí)部門(mén)間橫向和縱向流動(dòng),提升發(fā)揮數(shù)據(jù)在政務(wù)服務(wù)、社會(huì)治理、政務(wù)運(yùn)行等場(chǎng)景中的作用,幫助各級(jí)政府建立起協(xié)同高效的數(shù)字政務(wù)運(yùn)轉(zhuǎn)體系,全面激活數(shù)據(jù)要素潛能,推動(dòng)“數(shù)字政府”建設(shè)邁上新臺(tái)階。
參考文獻(xiàn)
[1]國(guó)辦函〔2016〕108號(hào),《國(guó)務(wù)院辦公廳關(guān)于印發(fā)“互聯(lián)網(wǎng)+政務(wù)服務(wù)”技術(shù)體系建設(shè)指南的通知》
[2]國(guó)辦發(fā)〔2018〕45號(hào),《國(guó)務(wù)院辦公廳關(guān)于印發(fā)進(jìn)一步深化“互聯(lián)網(wǎng)+政務(wù)服務(wù)”推進(jìn)政務(wù)服務(wù)“一網(wǎng)、一門(mén)、一次”改革實(shí)施方案的通知》
[3]2020年江蘇省深化“放管服”改革工作要點(diǎn)[EB/OL].
[4]吳應(yīng)良,肖炯恩.電子政務(wù)治理理論框架下的政務(wù)數(shù)據(jù)共享創(chuàng)新研究[J].電子政務(wù),2018(10):51-59.
[5]曾遠(yuǎn)柔,方鵬.以數(shù)據(jù)庫(kù)日志為基礎(chǔ)的變化數(shù)據(jù)捕獲分析[J].中國(guó)高新區(qū),2017(23):192.
[6]朱奕健,張正卿.基于通信運(yùn)營(yíng)商數(shù)據(jù)的大數(shù)據(jù)實(shí)時(shí)流處理系統(tǒng)[J].中國(guó)新通信,2016(3):100-103.
作者單位:江蘇省大數(shù)據(jù)管理中心