孫彩萍,王維
中國(guó)環(huán)境科學(xué)研究院環(huán)境信息研究所
科學(xué)數(shù)據(jù)是國(guó)家重要的戰(zhàn)略資源,其開(kāi)放共享意義重大。20世紀(jì)90年代,美國(guó)率先提出數(shù)據(jù)開(kāi)放共享概念,并建立了9個(gè)國(guó)家級(jí)數(shù)據(jù)中心。2000年,中國(guó)氣象局在國(guó)內(nèi)率先實(shí)現(xiàn)部門(mén)內(nèi)部數(shù)據(jù)共享;2001年我國(guó)試點(diǎn)建立了8個(gè)數(shù)據(jù)中心;2008年開(kāi)始要求國(guó)家項(xiàng)目產(chǎn)生的科學(xué)數(shù)據(jù)進(jìn)行匯交[1]。近年來(lái),我國(guó)持續(xù)推動(dòng)農(nóng)、林、氣象等領(lǐng)域的科學(xué)數(shù)據(jù)開(kāi)放共享,但因整體缺乏頂層設(shè)計(jì)和驅(qū)動(dòng)機(jī)制,統(tǒng)籌管理相對(duì)薄弱,科技領(lǐng)域更易形成“數(shù)據(jù)孤島”和“數(shù)據(jù)煙囪”,導(dǎo)致科學(xué)數(shù)據(jù)在開(kāi)發(fā)利用、開(kāi)放共享和安全保護(hù)等方面存在明顯不足[2]。
2017年以來(lái),我國(guó)大數(shù)據(jù)總體規(guī)模增速在20%以上,有60%以上的企業(yè)開(kāi)展了包括數(shù)據(jù)資產(chǎn)管理、智慧決策等大數(shù)據(jù)技術(shù)研究與應(yīng)用,各行業(yè)對(duì)數(shù)據(jù)分析的重視程度進(jìn)一步提高。在數(shù)字化轉(zhuǎn)型的大背景下,大數(shù)據(jù)的多維屬性為行業(yè)發(fā)展提供了全新視角,相應(yīng)地大數(shù)據(jù)發(fā)展也從技術(shù)優(yōu)先向數(shù)據(jù)優(yōu)先轉(zhuǎn)移。大數(shù)據(jù)時(shí)代的科學(xué)研究,定量化特點(diǎn)突出,創(chuàng)新越來(lái)越依賴于大量、系統(tǒng)、高可信度的數(shù)據(jù)。此外,海量數(shù)據(jù)還引發(fā)了科學(xué)研究方法論的變革。2018年《科學(xué)數(shù)據(jù)管理辦法》發(fā)布,將對(duì)科學(xué)數(shù)據(jù)的共享和利用納入法制軌道,以“開(kāi)放為常態(tài)、不開(kāi)放為例外”為原則,拔掉“數(shù)據(jù)煙囪”,補(bǔ)齊科學(xué)數(shù)據(jù)管理短板,促進(jìn)協(xié)同創(chuàng)新。
在生態(tài)環(huán)境領(lǐng)域,2017年原環(huán)境保護(hù)部(現(xiàn)生態(tài)環(huán)境部)發(fā)布《大氣重污染成因與治理攻關(guān)項(xiàng)目管理辦法》[3],率先以數(shù)據(jù)資源共享作為重大專項(xiàng)科研創(chuàng)新的助力,創(chuàng)新科學(xué)研究范式。2017年4月,國(guó)務(wù)院常務(wù)會(huì)議確定由原環(huán)境保護(hù)部牽頭,科學(xué)技術(shù)部、中國(guó)科學(xué)院、農(nóng)業(yè)部、工業(yè)和信息化部、氣象局、衛(wèi)生部、高校等多部門(mén)和單位協(xié)作,針對(duì)京津冀及周邊地區(qū)秋冬季大氣重污染成因、重點(diǎn)行業(yè)和污染物排放管控技術(shù)等難題開(kāi)展集中攻關(guān)。原環(huán)境保護(hù)部按照“1+X”模式成立了國(guó)家大氣污染防治攻關(guān)聯(lián)合中心,組建了由國(guó)內(nèi)200多家單位、近2 000人組成的科技攻關(guān)團(tuán)隊(duì)。面對(duì)信息化建設(shè)現(xiàn)狀和大氣攻關(guān)項(xiàng)目數(shù)據(jù)資源共享建設(shè)需求,亟需探索共享方法體系,以期指導(dǎo)大氣環(huán)境數(shù)據(jù)資源共享技術(shù)研究。
國(guó)內(nèi)生態(tài)環(huán)境信息化領(lǐng)域已頒布50多項(xiàng)標(biāo)準(zhǔn)、規(guī)范和管理制度,覆蓋環(huán)境信息術(shù)語(yǔ)、分類、編碼、數(shù)據(jù)采集、加工、交換、數(shù)據(jù)庫(kù)建設(shè)、網(wǎng)絡(luò)建設(shè)及管理等全流程,以統(tǒng)一、規(guī)范信息化建設(shè)。2014年依托《電子政務(wù)信息共享互聯(lián)互通平臺(tái)技術(shù)指南》,原環(huán)境保護(hù)部編制并發(fā)布了HJ 718—2014《環(huán)境信息共享互聯(lián)互通平臺(tái)總體框架技術(shù)規(guī)范》[4],該規(guī)范對(duì)環(huán)境信息共享平臺(tái)的基礎(chǔ)架構(gòu)、數(shù)據(jù)集成模式、應(yīng)用集成方法、流程協(xié)同、管理監(jiān)控及安全支撐方式等進(jìn)行了概念統(tǒng)一,明確了其定義和主要工作內(nèi)容,但其更側(cè)重軟件工程,對(duì)環(huán)境業(yè)務(wù)驅(qū)動(dòng)的支撐不足,這也是諸多國(guó)內(nèi)信息化標(biāo)準(zhǔn)存在的普遍問(wèn)題。
與數(shù)據(jù)資源中心建設(shè)不同,大氣環(huán)境數(shù)據(jù)資源共享建設(shè)具有業(yè)務(wù)屬性強(qiáng)、共享目標(biāo)明確的特點(diǎn),因此在其建設(shè)過(guò)程中需要著力解決三大關(guān)鍵問(wèn)題:即發(fā)現(xiàn)優(yōu)質(zhì)的科研數(shù)據(jù);劃定科研數(shù)據(jù)共享邊界;評(píng)估科研數(shù)據(jù)共享效果。但國(guó)內(nèi)對(duì)行業(yè)數(shù)據(jù)共享的系統(tǒng)性研究不足,更鮮見(jiàn)相應(yīng)的實(shí)證研究。
FEA(Federal Enterprise Archtecture)框架是美國(guó)電子政務(wù)共享框架,提供通用、標(biāo)準(zhǔn)化的參考模型及組件工具,指導(dǎo)企業(yè)、政府、公眾間的信息發(fā)現(xiàn)、共享、交換等IT交付服務(wù)的投資、生產(chǎn)、監(jiān)管和評(píng)估,為企業(yè)和政府機(jī)構(gòu)的戰(zhàn)略發(fā)展規(guī)劃、決策提供信息化支撐[5],2013年發(fā)布了第2版。相比于HJ 718—2014和國(guó)內(nèi)電子政務(wù)共享指南,以及主流框架參考模型[6-7],F(xiàn)EA框架突出目標(biāo)績(jī)效管理,具有共享、削減重復(fù)投資的雙重指導(dǎo)意義。
FEA框架由2個(gè)部分組成:1)實(shí)施指導(dǎo)部分,即協(xié)作計(jì)劃方法論(collaborative planning methodology,CPM);2)綜合參考模型(consolidated reference model,CRM)。在CPM實(shí)施中,主要包括組織和計(jì)劃、實(shí)施和評(píng)估2個(gè)階段:在第一階段,確定信息建設(shè)的優(yōu)先級(jí)需求,以及具有同類需求的其他組織,并制定共享解決方案;在第二階段,開(kāi)展計(jì)劃實(shí)施、監(jiān)管與調(diào)整等相關(guān)活動(dòng)。CRM模型由6個(gè)部分組成,分別為績(jī)效參考模型(PRM)、業(yè)務(wù)參考模型(BRM)、數(shù)據(jù)參考模型(DRM)、應(yīng)用參考模型(ARM)、基礎(chǔ)設(shè)施參考模型(IRM)和安全參考模型(SRM)。各部分提出分類體系、重點(diǎn)領(lǐng)域,并提供最佳實(shí)踐。與其他在用框架相比,F(xiàn)EA框架是信息共享方法論,具有以下特點(diǎn):1)建立了統(tǒng)一、龐大的公共數(shù)據(jù)目錄,通過(guò)該目錄達(dá)到發(fā)現(xiàn)數(shù)據(jù)、尋找數(shù)據(jù)共享、合作協(xié)作的目的;2)給出了信息共享邊界,涉及到數(shù)字化的所有內(nèi)容,不只是數(shù)字化的結(jié)果——信息,還包括過(guò)程數(shù)據(jù)、設(shè)備數(shù)據(jù)、服務(wù)數(shù)據(jù)等,達(dá)到了系統(tǒng)組件、接口級(jí)別的共享;3)共享的目標(biāo),其一是服務(wù)于部門(mén)和政府間業(yè)務(wù)決策及目標(biāo)管理,其二是發(fā)現(xiàn)重復(fù)建設(shè)項(xiàng)目,通過(guò)項(xiàng)目壓減合并節(jié)約政府投資。FEA框架建有龐大的分類體系,以及以業(yè)務(wù)為核心的數(shù)據(jù)資產(chǎn)清單,對(duì)實(shí)踐具有極強(qiáng)的指導(dǎo)意義。
數(shù)據(jù)應(yīng)用的核心關(guān)鍵是要解決效率和決策問(wèn)題,參照傳統(tǒng)方法開(kāi)發(fā)的信息系統(tǒng)因缺乏數(shù)據(jù)標(biāo)準(zhǔn)化體系建設(shè),致使數(shù)據(jù)管理不規(guī)范,數(shù)據(jù)結(jié)構(gòu)不一致,使用率低,不能發(fā)揮出數(shù)據(jù)戰(zhàn)略資源的價(jià)值。2015年,阿里在總結(jié)Super Cell快速擴(kuò)張經(jīng)驗(yàn)時(shí),提出數(shù)據(jù)中臺(tái)(middle platform)方案,用于解決其內(nèi)部電商系統(tǒng)迅捷開(kāi)發(fā)布署的應(yīng)用難題,后因其為多部門(mén)、多業(yè)務(wù)協(xié)同應(yīng)用提供了穩(wěn)定的技術(shù)框架,加快了業(yè)務(wù)需求響應(yīng)速度,縮短了業(yè)務(wù)創(chuàng)新周期,迅速在電力、銀行和城市管理的數(shù)字化轉(zhuǎn)型、大數(shù)據(jù)應(yīng)用中取得突破[8-11]。
數(shù)據(jù)中臺(tái)是從業(yè)務(wù)全局規(guī)劃出發(fā),通過(guò)對(duì)傳統(tǒng)信息系統(tǒng)前臺(tái)和后臺(tái)的徹底解耦,實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)的共享和復(fù)用,類似于DAAS(data as a service)層。它是通過(guò)對(duì)海量數(shù)據(jù)統(tǒng)一采集、計(jì)算、存儲(chǔ),制定數(shù)據(jù)管理規(guī)范,形成標(biāo)準(zhǔn)化數(shù)據(jù),構(gòu)建數(shù)據(jù)資產(chǎn)庫(kù),通過(guò)共享和復(fù)用,提供一致、高可用的大數(shù)據(jù)服務(wù),響應(yīng)業(yè)務(wù)敏捷發(fā)展需求,促進(jìn)業(yè)務(wù)創(chuàng)新。廣義的數(shù)據(jù)中臺(tái),還包括長(zhǎng)期積累下來(lái)與業(yè)務(wù)有較強(qiáng)關(guān)聯(lián)性的一些技術(shù)組件,如業(yè)務(wù)標(biāo)簽、算法模型、數(shù)據(jù)產(chǎn)品等[12]。綜上,數(shù)據(jù)中臺(tái)在頂層規(guī)劃上要求面向業(yè)務(wù)全局,實(shí)施上要求執(zhí)行統(tǒng)一數(shù)據(jù)、統(tǒng)一建模、統(tǒng)一質(zhì)量、統(tǒng)一服務(wù)的建設(shè)標(biāo)準(zhǔn),在強(qiáng)調(diào)統(tǒng)一規(guī)劃的數(shù)據(jù)治理能力上,具有滿足數(shù)據(jù)共享、復(fù)用、響應(yīng)業(yè)務(wù)需求三大特點(diǎn)。筆者擬將FEA框架方法編制數(shù)據(jù)清單用于大氣數(shù)據(jù)資源共享的建設(shè)中,同時(shí)在方案設(shè)計(jì)上參照數(shù)據(jù)中臺(tái)建設(shè)思想,以期達(dá)到科研數(shù)據(jù)共享和復(fù)用的目標(biāo)。
FEA框架方法論的數(shù)據(jù)資產(chǎn)清單編制路徑如圖1所示。由圖1可見(jiàn),F(xiàn)EA框架的6個(gè)參考模型均有分類體系和目錄,在編制數(shù)據(jù)資產(chǎn)清單時(shí),需要將已有數(shù)據(jù)資源與各參考模型的分類體系、資源目錄進(jìn)行映射,建立清單目錄并注冊(cè),完成數(shù)據(jù)資產(chǎn)共享;另一方面,利用FEA框架的公共數(shù)據(jù)目錄,可以發(fā)現(xiàn)數(shù)據(jù),開(kāi)展跨部門(mén)、跨系統(tǒng)的數(shù)據(jù)共享、合作與協(xié)作。在編制數(shù)據(jù)資產(chǎn)清單時(shí),要注意:1)以實(shí)現(xiàn)部門(mén)或單位規(guī)劃或戰(zhàn)略目標(biāo)為導(dǎo)向;2)需要從部門(mén)的職能和業(yè)務(wù)需求出發(fā);3)基于當(dāng)前的可得數(shù)據(jù)資源和IT基礎(chǔ)設(shè)施及技術(shù)建設(shè)現(xiàn)狀,編制數(shù)據(jù)資產(chǎn)清單。
圖1 FEA框架中的數(shù)據(jù)資產(chǎn)清單編制路徑Fig.1 Compilation path of data asset list based on FEA Framework
大氣環(huán)境數(shù)據(jù)資源共享的目標(biāo)是對(duì)項(xiàng)目產(chǎn)出的多源數(shù)據(jù)在線集成、統(tǒng)一管理和全面共享。對(duì)業(yè)務(wù)需求分析可知,大氣攻關(guān)項(xiàng)目5個(gè)研究部門(mén)——大氣重污染來(lái)源與成因、排放現(xiàn)狀評(píng)估和強(qiáng)化管控、綜合科學(xué)決策支撐、大氣污染對(duì)人群健康影響以及城市研究部,在研究架構(gòu)設(shè)計(jì)上為專題—課題—子課題三級(jí)科研體系,包含28個(gè)研究方向,對(duì)大氣重污染三大因素——污染排放、氣象條件和區(qū)域傳輸,從污染來(lái)源、排放強(qiáng)度、時(shí)間分布、行業(yè)分布方面開(kāi)展精細(xì)化、定量化研究。與之配套支撐的科研數(shù)據(jù)資源體系建設(shè)和管理極其復(fù)雜。因此,采用FEA框架方法論,對(duì)數(shù)據(jù)資源實(shí)行域—主題—專題—資源目錄管理模式,建立雙向的數(shù)據(jù)共識(shí)、發(fā)現(xiàn)機(jī)制:1)數(shù)據(jù)生產(chǎn)方知曉科研數(shù)據(jù)需求,按需提供數(shù)據(jù);2)數(shù)據(jù)使用方能及時(shí)找到所需數(shù)據(jù)入口,申請(qǐng)共享。
在FEA框架方法論中,數(shù)據(jù)域分為政府域、企業(yè)域、指南和自然資源4類。具體到本研究,覆蓋政府域的環(huán)境科學(xué)數(shù)據(jù)占比最大。根據(jù)《科學(xué)數(shù)據(jù)管理辦法》定義,科學(xué)數(shù)據(jù)包括通過(guò)基礎(chǔ)研究、應(yīng)用研究、試驗(yàn)開(kāi)發(fā)等產(chǎn)生的數(shù)據(jù),以及觀測(cè)監(jiān)測(cè)、考察調(diào)查、檢驗(yàn)檢測(cè)等方式取得的數(shù)據(jù)??茖W(xué)數(shù)據(jù)是有智力投入的,其產(chǎn)生是創(chuàng)造性勞動(dòng)的成果,因此,科學(xué)數(shù)據(jù)擁有版權(quán),而版權(quán)屬于知識(shí)產(chǎn)權(quán)的范疇。對(duì)科學(xué)數(shù)據(jù)的共享要在知識(shí)產(chǎn)權(quán)的框架下進(jìn)行,準(zhǔn)確刻畫(huà)共享邊界,制定數(shù)據(jù)授權(quán)框架,以符合遵循分級(jí)管理、安全可控、充分利用的數(shù)據(jù)共享原則。在國(guó)家對(duì)科學(xué)數(shù)據(jù)管理政策的基礎(chǔ)上,原環(huán)境保護(hù)部發(fā)布了《大氣重污染成因與治理攻關(guān)項(xiàng)目數(shù)據(jù)管理辦法》[13]。為完成大氣環(huán)境科學(xué)數(shù)據(jù)資源共享,依據(jù)該辦法,本研究確定了大氣環(huán)境數(shù)據(jù)資源共享版權(quán)保障體系,該體系包括數(shù)據(jù)生產(chǎn)方、數(shù)據(jù)使用方、相關(guān)利益方和管理者,以保護(hù)共享數(shù)據(jù)的版權(quán)。
為了有效開(kāi)展并評(píng)估數(shù)據(jù)資源共享,參照FEA方法論,建立動(dòng)態(tài)數(shù)據(jù)資產(chǎn)清單制度。根據(jù)當(dāng)前的IT及基礎(chǔ)設(shè)施管理現(xiàn)狀,數(shù)據(jù)資產(chǎn)清單主要是面向科學(xué)數(shù)據(jù)。資產(chǎn)清單的編制依據(jù)數(shù)據(jù)資源目錄進(jìn)行。大氣環(huán)境數(shù)據(jù)資源目錄包括大氣監(jiān)測(cè)觀測(cè)、污染源排放、氣象觀測(cè)及探空、污染源解析、健康及體檢、社會(huì)經(jīng)濟(jì)、空間數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、質(zhì)控?cái)?shù)據(jù)、標(biāo)準(zhǔn)規(guī)范、模型方法等大類。數(shù)據(jù)資產(chǎn)清單包括數(shù)據(jù)資源和共享2個(gè)部分,自頂向下分3層:第1層,根據(jù)信息系統(tǒng)對(duì)數(shù)據(jù)的分類方法,劃為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)清單;第2層,向資源目錄映射,建立主題數(shù)據(jù)清單;第3層,業(yè)務(wù)專題數(shù)據(jù)集清單,動(dòng)態(tài)記錄各級(jí)資源總量、增量。共享清單通過(guò)動(dòng)態(tài)統(tǒng)計(jì)數(shù)據(jù)資源使用情況獲得,操作類型包括數(shù)據(jù)查詢、數(shù)據(jù)導(dǎo)出、接口調(diào)用。統(tǒng)計(jì)口徑包括以上操作的累計(jì)次數(shù)、數(shù)據(jù)量(注意結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)單位不同)、數(shù)據(jù)大小。對(duì)數(shù)據(jù)資源共享進(jìn)行使用動(dòng)態(tài)排名、使用習(xí)慣分析。數(shù)據(jù)匯交項(xiàng)也是數(shù)據(jù)資產(chǎn)清單的一部分,該部分包括采集接口及活躍度、FTP上傳文件統(tǒng)計(jì)等。
FEA框架參考模型為信息化建設(shè)提供了通用的、統(tǒng)一的設(shè)計(jì)模式,具有高度的概括性。在使用該框架時(shí),重點(diǎn)要明確共享績(jī)效考核目標(biāo),統(tǒng)領(lǐng)全過(guò)程;從建立業(yè)務(wù)服務(wù)模型出發(fā),以提升業(yè)務(wù)能力為抓手,發(fā)現(xiàn)共性數(shù)據(jù)資源,依托基礎(chǔ)設(shè)施建設(shè)現(xiàn)狀,開(kāi)發(fā)標(biāo)準(zhǔn)化的應(yīng)用組件,實(shí)現(xiàn)信息共享。在建模過(guò)程中,一是要注意將業(yè)務(wù)需求與各模型分類進(jìn)行準(zhǔn)確映射,通過(guò)映射找到實(shí)施的重要節(jié)點(diǎn);二是要認(rèn)識(shí)該框架仍為邏輯模型,指導(dǎo)實(shí)踐時(shí)應(yīng)根據(jù)具體業(yè)務(wù)或服務(wù)進(jìn)行調(diào)整。
國(guó)內(nèi)信息交換框架偏重系統(tǒng)流程配置、節(jié)點(diǎn)管理,數(shù)據(jù)層面標(biāo)準(zhǔn)化停留在數(shù)據(jù)庫(kù)粒度上。FEA框架指出,數(shù)據(jù)標(biāo)準(zhǔn)化的建設(shè)包括數(shù)據(jù)描述、數(shù)據(jù)上下文(目錄)、數(shù)據(jù)共享3個(gè)部分。在信息共享和交換中,數(shù)據(jù)元素是最小的信息單位,對(duì)數(shù)據(jù)描述的統(tǒng)一是數(shù)據(jù)標(biāo)準(zhǔn)化的重要內(nèi)容。FEA框架面向結(jié)構(gòu)化數(shù)據(jù),推薦了UML(統(tǒng)一建模語(yǔ)言)、IDEF1X(ICAM DEFinition method)建模工具;為應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)挑戰(zhàn),第二版的FEA框架已被修訂面向更宏大的元數(shù)據(jù)主題,并推薦ISOIEC 11179、Dublin Core(都柏林:元數(shù)據(jù)系統(tǒng))兩大元數(shù)據(jù)系統(tǒng)。數(shù)據(jù)上下文又稱目錄,是以表、層或樹(shù)結(jié)構(gòu)組織的術(shù)語(yǔ)形式來(lái)表達(dá),是為增加對(duì)數(shù)據(jù)理解而提供的附加信息,常用于數(shù)據(jù)資源分類。通過(guò)數(shù)據(jù)目錄,可以讓用戶發(fā)現(xiàn)和查詢所需信息,而不需要知道信息在哪里甚至信息是否存在。眾多研究表明,數(shù)據(jù)共享必須通過(guò)數(shù)據(jù)描述和分類的標(biāo)準(zhǔn)化才能實(shí)現(xiàn),F(xiàn)EA框架推薦國(guó)家信息交換模型(national information exchange model,NIEM)、信息共享環(huán)境構(gòu)建模塊(information sharing environment building blocks)等共享交換框架。數(shù)據(jù)中臺(tái)也對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化提出了明確要求,在系統(tǒng)開(kāi)發(fā)與建設(shè)過(guò)程中執(zhí)行統(tǒng)一數(shù)據(jù)、統(tǒng)一建模、統(tǒng)一質(zhì)量、統(tǒng)一服務(wù)的建設(shè)標(biāo)準(zhǔn),最終實(shí)現(xiàn)四統(tǒng)一[14]。
依據(jù)《大氣重污染成因與治理攻關(guān)項(xiàng)目數(shù)據(jù)管理技術(shù)規(guī)定》[15],參照FEA框架中的相關(guān)方法和生態(tài)環(huán)境信息化建設(shè)標(biāo)準(zhǔn),在大氣環(huán)境數(shù)據(jù)資源共享設(shè)計(jì)中,將標(biāo)準(zhǔn)化框架設(shè)計(jì)下沉到數(shù)據(jù)元素,分別對(duì)數(shù)據(jù)元素、數(shù)據(jù)表、元數(shù)據(jù)進(jìn)行建模,以滿足重大項(xiàng)目產(chǎn)出的多源異構(gòu)數(shù)據(jù)存儲(chǔ)和實(shí)時(shí)交換的要求,實(shí)現(xiàn)大氣環(huán)境數(shù)據(jù)資源共享。在數(shù)據(jù)元素模型設(shè)計(jì)中,主要是數(shù)據(jù)元素概念和值域2個(gè)部分,基于共享交換時(shí)二者描述需保持統(tǒng)一和相近。數(shù)據(jù)模型與業(yè)務(wù)的關(guān)系如圖2所示,建立數(shù)據(jù)模型主要目的是提供業(yè)務(wù)核心功能可執(zhí)行跨部門(mén)的標(biāo)準(zhǔn)化互操作(如數(shù)據(jù)交換、建立資源目錄等),并且經(jīng)濟(jì)上可行。數(shù)據(jù)模型只強(qiáng)調(diào)概念模型和邏輯模型,不涉及到物理模型的具體實(shí)現(xiàn)。概念模型聚焦大氣環(huán)境業(yè)務(wù)下各級(jí)業(yè)務(wù)流程關(guān)聯(lián)數(shù)據(jù)的規(guī)范,而邏輯模型是在概念模型基礎(chǔ)上,包括支持流程和系統(tǒng)更多詳細(xì)信息。好的數(shù)據(jù)模型設(shè)計(jì)應(yīng)體現(xiàn)端到端設(shè)計(jì)的原則,較全面反映出同一業(yè)務(wù)下不同主題域概念模型的特點(diǎn)[16]。元數(shù)據(jù)建模重點(diǎn)是面向非結(jié)構(gòu)化數(shù)據(jù)的發(fā)現(xiàn)和應(yīng)用,因此,在建模上要考慮將結(jié)構(gòu)化數(shù)據(jù)主要特征(如數(shù)據(jù)質(zhì)量、數(shù)據(jù)特征等)的描述映射到非結(jié)構(gòu)化的元數(shù)據(jù)中,保持二者除存儲(chǔ)外的無(wú)差別應(yīng)用。
圖2 數(shù)據(jù)模型Fig.2 Data model
在進(jìn)行大氣環(huán)境數(shù)據(jù)資源共享建設(shè)時(shí),如何用好數(shù)據(jù),如何發(fā)揮數(shù)據(jù)資源對(duì)科研和決策的支撐作用,是本研究需要考慮的重點(diǎn)問(wèn)題。在國(guó)內(nèi)信息化建設(shè)孤島、共享困境和業(yè)務(wù)賦能不足的當(dāng)下,數(shù)據(jù)中臺(tái)為數(shù)據(jù)業(yè)務(wù)化應(yīng)用,實(shí)現(xiàn)通用計(jì)算、數(shù)據(jù)復(fù)能、自助式服務(wù)等業(yè)務(wù)響應(yīng)提供了可行的解決方案。因此,遵照數(shù)據(jù)中臺(tái)思想,從大氣重污染成因的科研核心需求出發(fā),以促進(jìn)PM2.5精細(xì)化管理等垂直業(yè)務(wù)為抓手,打通數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、治理、服務(wù)的工作全流程,逐步擴(kuò)展到全域數(shù)據(jù)的接入、加工和管理,減少冗余,增加數(shù)據(jù)資產(chǎn)復(fù)用,以快速響應(yīng)業(yè)務(wù)需求。
數(shù)據(jù)中臺(tái)在建設(shè)上也要執(zhí)行統(tǒng)一數(shù)據(jù)、統(tǒng)一建模、統(tǒng)一質(zhì)量、統(tǒng)一服務(wù)的建設(shè)標(biāo)準(zhǔn)[14]。據(jù)《2020中國(guó)首席數(shù)據(jù)官報(bào)告》報(bào)道,在數(shù)據(jù)管理遇到的五大主要技術(shù)障礙中,多樣、海量和復(fù)雜的企業(yè)級(jí)數(shù)據(jù)質(zhì)量管理已成為首要技術(shù)難題,主要體現(xiàn)在:無(wú)有效的數(shù)據(jù)質(zhì)量管理方法;無(wú)法發(fā)現(xiàn)數(shù)據(jù)所在位置;無(wú)法對(duì)數(shù)據(jù)進(jìn)行分類;數(shù)據(jù)安全和合規(guī)管理;企業(yè)級(jí)數(shù)據(jù)統(tǒng)一策略和標(biāo)準(zhǔn)規(guī)則的建立。數(shù)據(jù)中臺(tái)的標(biāo)準(zhǔn)化不同之處在于:1)強(qiáng)調(diào)通過(guò)數(shù)據(jù)治理建立包括數(shù)據(jù)質(zhì)量體系在內(nèi)的標(biāo)準(zhǔn)化體系;2)通過(guò)重構(gòu)業(yè)務(wù)指標(biāo)體系建立統(tǒng)一的管理標(biāo)準(zhǔn),實(shí)現(xiàn)統(tǒng)一服務(wù)。在組成上,數(shù)據(jù)中臺(tái)主要由數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用等組成。在實(shí)踐中,主要以建立統(tǒng)一數(shù)據(jù)目錄和規(guī)范,建立跨部門(mén)行業(yè)的數(shù)據(jù)共享交換標(biāo)準(zhǔn),搭建數(shù)據(jù)匯集、使用和訪問(wèn)統(tǒng)一口徑,實(shí)現(xiàn)安全可控。
綜合數(shù)據(jù)中臺(tái)思想核心和建設(shè)目標(biāo),在大氣環(huán)境數(shù)據(jù)資源共享和建設(shè)上,重點(diǎn)面向大氣環(huán)境數(shù)據(jù)的統(tǒng)一治理,建立基于系統(tǒng)質(zhì)控和業(yè)務(wù)質(zhì)控聯(lián)合的數(shù)據(jù)質(zhì)控體系,在數(shù)據(jù)標(biāo)準(zhǔn)化的基礎(chǔ)上,執(zhí)行全流程的數(shù)據(jù)治理,提供規(guī)范化、歸一化的數(shù)據(jù)服務(wù)(圖3);構(gòu)建統(tǒng)一的業(yè)務(wù)指標(biāo)體系,在數(shù)據(jù)應(yīng)用中,主要從KPI(key performance indicator,關(guān)鍵績(jī)效指標(biāo))、主題分析、場(chǎng)景分析、駕駛艙等功能的規(guī)范化設(shè)計(jì)來(lái)體現(xiàn)。需要說(shuō)明的是,一般數(shù)據(jù)中臺(tái)常采用MPP(massively parallel processing)架構(gòu)特點(diǎn)的數(shù)據(jù)庫(kù),考慮到大氣攻關(guān)項(xiàng)目數(shù)據(jù)的類型、總量、實(shí)時(shí)計(jì)算能力需求、建設(shè)和運(yùn)維成本,采用更易維護(hù)的Oracle架構(gòu)建立數(shù)據(jù)倉(cāng)庫(kù),進(jìn)行數(shù)據(jù)中臺(tái)建設(shè)。
圖3 數(shù)據(jù)治理體系Fig.3 Data governance system
采用數(shù)據(jù)中臺(tái)進(jìn)行物理設(shè)計(jì),探索大氣環(huán)境全域信息組織和同步服務(wù),通過(guò)數(shù)字化、規(guī)范化和場(chǎng)景化應(yīng)用,整合全域大氣環(huán)境數(shù)據(jù)資源,建立大氣環(huán)境綜合數(shù)據(jù)采集與共享平臺(tái),以實(shí)現(xiàn)下列目標(biāo):1)對(duì)項(xiàng)目所有匯交數(shù)據(jù)資源進(jìn)行統(tǒng)一管理,實(shí)現(xiàn)一站式數(shù)據(jù)共享;2)面向PM2.5精細(xì)化決策,建立大氣數(shù)據(jù)時(shí)空關(guān)聯(lián)分析計(jì)算能力,提供空氣質(zhì)量達(dá)標(biāo)、多要素聯(lián)動(dòng)、污染時(shí)空分布等實(shí)時(shí)業(yè)務(wù)服務(wù)能力,響應(yīng)數(shù)據(jù)敏捷化、自動(dòng)化和場(chǎng)景化的應(yīng)用。未來(lái)將面向業(yè)務(wù)中臺(tái)和污染精細(xì)化管控需求,繼續(xù)深化大氣平臺(tái)的能力建設(shè),為打贏大氣污染攻堅(jiān)戰(zhàn)提供全面支撐。
(1)針對(duì)信息共享建設(shè)目標(biāo),以FEA框架為方法論,對(duì)共享數(shù)據(jù)發(fā)現(xiàn)—共享邊界刻畫(huà)—共享績(jī)效評(píng)估進(jìn)行研究,提出了以大氣環(huán)境精細(xì)化管理作為業(yè)務(wù)方向,圍繞精細(xì)化、定量化的數(shù)據(jù)需求,以共享考核為目標(biāo),在系統(tǒng)的分類基礎(chǔ)上,建立大氣環(huán)境數(shù)據(jù)共享資源清單。
(2)基于科學(xué)數(shù)據(jù)的版權(quán)保護(hù),探索數(shù)據(jù)共享權(quán)限邊界,建立包括數(shù)據(jù)生產(chǎn)方、使用方、相關(guān)利益方和管理者等在內(nèi)的數(shù)據(jù)共享共識(shí)機(jī)制,實(shí)現(xiàn)科研數(shù)據(jù)權(quán)限分級(jí)管理和使用。
(3)在數(shù)據(jù)共享的標(biāo)準(zhǔn)化建設(shè)中,將標(biāo)準(zhǔn)化框架設(shè)計(jì)下沉到數(shù)據(jù)元素,分別對(duì)數(shù)據(jù)元素、數(shù)據(jù)表、元數(shù)據(jù)進(jìn)行建模,以滿足重大項(xiàng)目產(chǎn)出的多源異構(gòu)數(shù)據(jù)存儲(chǔ)和實(shí)時(shí)交換的要求。
(4)依據(jù)數(shù)據(jù)中臺(tái)思想,全面建立數(shù)據(jù)治理體系、管理標(biāo)準(zhǔn)體系,依據(jù)PM2.5精細(xì)化管理和空氣質(zhì)量考核,建立大氣綜合數(shù)據(jù)時(shí)空關(guān)聯(lián)分析計(jì)算能力,提供空氣質(zhì)量達(dá)標(biāo)、多要素聯(lián)動(dòng)、污染時(shí)空分析等實(shí)時(shí)業(yè)務(wù)服務(wù)能力。