王輝 邢偉 曹帥 陰鵬飛 史夢(mèng)瑤
摘 要:本文介紹了煤炭企業(yè)數(shù)據(jù)采集系統(tǒng)的開發(fā)背景,分析了該系統(tǒng)針對(duì)企業(yè)數(shù)據(jù)進(jìn)行元數(shù)據(jù)體系化、數(shù)據(jù)采集標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)模型、主題域、數(shù)據(jù)服務(wù)、數(shù)據(jù)分析算法等數(shù)據(jù)治理體系的建設(shè),提出了實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)等的方法,為數(shù)據(jù)分析系統(tǒng)和智能問答系統(tǒng)提供了行業(yè)數(shù)據(jù)服務(wù)和行業(yè)業(yè)務(wù)基礎(chǔ)服務(wù)。
關(guān)鍵詞:數(shù)據(jù)采集,煤炭企業(yè)元數(shù)據(jù),數(shù)據(jù)清洗,數(shù)據(jù)治理
DOI編碼:10.3969/j.issn.1002-5944.2023.19.015
Research on the Construction of Metadata Collection and Governance System for Coal Enterprises
WANG Hui XING Wei CAO Shuai YIN Peng-fei SHI Meng-yao
(Shanxi Yangmei Lianchuang Information Technology CO., Ltd.)
Abstract: This paper introduces the development background of the data collection system of coal enterprises, and analyzes the construction of data governance systems such as metadata systematization, data collection standards, data quality, data models, subject domains, data services, data analysis algorithms, etc. The paper proposes the methods of data collection, data cleaning and data storage, etc., and provides industry data services and industry business basic services for data analysis systems and intelligent question answering systems.
Keywords: data collection, coal enterprise metadata, data cleaning, data governance
1 系統(tǒng)開發(fā)背景
當(dāng)前,煤炭行業(yè)相關(guān)企業(yè)結(jié)合生產(chǎn)制造模式、平臺(tái)企業(yè)服務(wù)運(yùn)營(yíng)模式,分析梳理業(yè)務(wù)流程和系統(tǒng)設(shè)備,考慮行業(yè)要求、業(yè)務(wù)規(guī)模、數(shù)據(jù)復(fù)雜程度等實(shí)際情況,對(duì)企業(yè)數(shù)據(jù)和行業(yè)數(shù)據(jù)進(jìn)行分類梳理、標(biāo)識(shí),基本形成行業(yè)數(shù)據(jù)分類清單。其數(shù)據(jù)分類維度包括但不限于研發(fā)數(shù)據(jù)域、生產(chǎn)數(shù)據(jù)域、運(yùn)維數(shù)據(jù)域、管理數(shù)據(jù)域、外部數(shù)據(jù)域等[1]。
依據(jù)《工業(yè)數(shù)據(jù)分類分級(jí)指南(試行)》(工信廳信發(fā)〔2020〕6號(hào))規(guī)定的類別,結(jié)合實(shí)際數(shù)據(jù)獲取渠道和來源,在行業(yè)數(shù)據(jù)分類基礎(chǔ)上,形成了煤炭行業(yè)的數(shù)據(jù)采集、治理、應(yīng)用的生態(tài)化平臺(tái)體系,解決煤炭行業(yè)數(shù)據(jù)復(fù)雜性問題。
2 數(shù)據(jù)體系設(shè)計(jì)(系統(tǒng)開發(fā)設(shè)計(jì))
數(shù)據(jù)治理體系主要針對(duì)煤炭企業(yè)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行治理。通過對(duì)元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)模型、主題域、數(shù)據(jù)服務(wù)、數(shù)據(jù)分析算法庫(kù)等進(jìn)行規(guī)范和設(shè)計(jì),構(gòu)建數(shù)據(jù)治理體系,并形成企業(yè)數(shù)據(jù)資產(chǎn)目錄和數(shù)據(jù)資產(chǎn)。煤炭行業(yè)數(shù)據(jù)體系如圖1所示。
本體系的主要業(yè)務(wù)范疇集中于數(shù)據(jù)源體系、數(shù)據(jù)匯聚標(biāo)準(zhǔn)建設(shè)、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)模型庫(kù)設(shè)計(jì)。
2.1 數(shù)據(jù)匯聚標(biāo)準(zhǔn)建設(shè)
系統(tǒng)的規(guī)范化流程為煤炭企業(yè)用戶提供數(shù)據(jù)全流程及業(yè)務(wù)系統(tǒng)接入的規(guī)范化方案,將實(shí)現(xiàn)特色數(shù)據(jù)全流程和業(yè)務(wù)系統(tǒng)的快速統(tǒng)一接入[2]。
系統(tǒng)設(shè)置多為異構(gòu)數(shù)據(jù)的匯聚、抽取、清洗、轉(zhuǎn)換、合并等,將數(shù)據(jù)整合統(tǒng)一,建立標(biāo)準(zhǔn)化的大數(shù)據(jù)平臺(tái),并對(duì)平臺(tái)的數(shù)據(jù)匯聚、存儲(chǔ)和共享的性能進(jìn)行評(píng)估測(cè)試,具備較高的穩(wěn)定性和可靠性[3]。
匯聚流程如下:
a) 資源提供方提供接口,實(shí)現(xiàn)通過接口調(diào)取業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù);
b) 按照選擇的網(wǎng)絡(luò)圖譜配置前置機(jī)及網(wǎng)絡(luò)安全設(shè)備并打通網(wǎng)絡(luò)鏈路;
c)數(shù)據(jù)平臺(tái)工具通過資源提供方提供的接口地址、用戶名密碼、傳入?yún)?shù)進(jìn)行服務(wù)調(diào)用獲取數(shù)據(jù),并把數(shù)據(jù)采集至前置庫(kù)中;
d)數(shù)據(jù)系統(tǒng)把前置庫(kù)中的數(shù)據(jù)采集至中心前置庫(kù)中。
數(shù)據(jù)要求包括:
a) 明確每條記錄中數(shù)據(jù)的主鍵數(shù)據(jù)項(xiàng),且不能為空;
b) 每條記錄中的數(shù)據(jù)需增加一個(gè)時(shí)間戳字段,以方便系統(tǒng)根據(jù)時(shí)間戳識(shí)別增量數(shù)據(jù);
c) 按照目錄的匯聚頻率來更新數(shù)據(jù);
d) 服務(wù)調(diào)用必須根據(jù)時(shí)間段進(jìn)行數(shù)據(jù)的采集,輸入?yún)?shù)中必須包含起始時(shí)間參數(shù)和截止時(shí)間參數(shù)。
各業(yè)務(wù)系統(tǒng)以增量更新的方式按規(guī)定的頻率進(jìn)行數(shù)據(jù)交換。更新頻率應(yīng)為資源提供方根據(jù)業(yè)務(wù)產(chǎn)生的實(shí)際頻率進(jìn)行定義。
2.2 數(shù)據(jù)質(zhì)量控制
2.2.1 數(shù)據(jù)質(zhì)量控制中的常見錯(cuò)誤類型
(1)數(shù)據(jù)完整性錯(cuò)誤。完整性錯(cuò)誤是最常見的數(shù)據(jù)錯(cuò)誤。數(shù)據(jù)不完整導(dǎo)致不能檢查出來,嚴(yán)重的錯(cuò)誤可能導(dǎo)致結(jié)論錯(cuò)誤。
(2)數(shù)據(jù)一致性錯(cuò)誤。一些數(shù)據(jù)記錄的規(guī)則未按照數(shù)據(jù)存儲(chǔ)的一致規(guī)則記錄,有些數(shù)據(jù)的邏輯關(guān)系出現(xiàn)了錯(cuò)誤,還有些數(shù)據(jù)在抽取轉(zhuǎn)化過程中,造成了數(shù)據(jù)不一致的錯(cuò)誤。
(3)數(shù)據(jù)準(zhǔn)確性錯(cuò)誤。導(dǎo)致數(shù)據(jù)準(zhǔn)確性錯(cuò)誤原因有三種:一是數(shù)據(jù)值落在定義域之外。二是系統(tǒng)應(yīng)用控制缺失,導(dǎo)致錄入錯(cuò)誤未能發(fā)現(xiàn)。三是數(shù)據(jù)在導(dǎo)出、整理過程中出現(xiàn)的字符型數(shù)據(jù)的亂碼現(xiàn)象。
(4)空值錯(cuò)誤。在數(shù)據(jù)庫(kù)中,空值不等同與空白或零值,其含義往往不確定。若不將空值表達(dá)成確定的值后再進(jìn)行數(shù)據(jù)的匯總或分析,可能出現(xiàn)因?yàn)榭罩祵?dǎo)致的錯(cuò)誤。
2.2.2 數(shù)據(jù)質(zhì)量控制的思路方法
(1)核對(duì)記錄數(shù)。可以運(yùn)用在數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)化等三個(gè)階段。對(duì)采集到的數(shù)據(jù)必須進(jìn)行質(zhì)量控制,以排除遺漏和錯(cuò)誤,降低由于被刻意修改的風(fēng)險(xiǎn)。將取得數(shù)據(jù)的記錄數(shù)與被系統(tǒng)中反映的記錄數(shù)核對(duì),有原始資料的還要與紙質(zhì)記錄進(jìn)行核對(duì),確保取得的電子數(shù)據(jù)完整。
(2)核對(duì)總數(shù)量。一是對(duì)采集的原始數(shù)據(jù)總數(shù)量進(jìn)行驗(yàn)證。對(duì)非結(jié)構(gòu)化數(shù)據(jù),將數(shù)據(jù)文件數(shù)量和大小,與提供的數(shù)據(jù)清單進(jìn)行比對(duì),核實(shí)是否遺漏,同時(shí)還需要核實(shí)數(shù)據(jù)是否可用、內(nèi)容是否完整;對(duì)結(jié)構(gòu)化數(shù)據(jù)通過核對(duì)總數(shù)量、分類匯總分項(xiàng)數(shù)量,與信息系統(tǒng)中的數(shù)據(jù)進(jìn)行核對(duì)。
(3)驗(yàn)證數(shù)據(jù)表關(guān)鍵字段。對(duì)數(shù)據(jù)表中的關(guān)鍵字段進(jìn)行一致性驗(yàn)證、錯(cuò)誤值修改、空值替換、冗余數(shù)據(jù)消除、保證數(shù)據(jù)值落入定義域等處理,以提高數(shù)據(jù)質(zhì)量,為下一步工作做好準(zhǔn)備。首先核實(shí)數(shù)據(jù)表字段是否齊備,關(guān)鍵字段值是否缺失,內(nèi)容是否存在亂碼。其次通過統(tǒng)計(jì)計(jì)算、分類匯總等方式,核實(shí)數(shù)據(jù)表內(nèi)數(shù)據(jù)是否真實(shí)可信??刹扇¢L(zhǎng)度核對(duì)、最大和最小值審核、孤立點(diǎn)檢測(cè)、真實(shí)性核對(duì)、范圍核對(duì)、空值替換等驗(yàn)證方法。
(4)驗(yàn)證業(yè)務(wù)規(guī)則。數(shù)據(jù)在整理標(biāo)準(zhǔn)化和分析挖掘的過程中,將原始數(shù)據(jù)中表名、字段名、記錄值代碼以及關(guān)聯(lián)的經(jīng)濟(jì)含義明確標(biāo)識(shí)出來,需要進(jìn)行大量的查詢匯總或細(xì)分、替換修改、插入數(shù)據(jù)、更新數(shù)據(jù)、刪除數(shù)據(jù)等操作,每一步轉(zhuǎn)換工作都有可能影響到數(shù)據(jù)的完整性和準(zhǔn)確性,這需要有非常規(guī)范和標(biāo)準(zhǔn)的統(tǒng)計(jì)邏輯關(guān)系約束,所有指標(biāo)的計(jì)算規(guī)則必須保證一致。
3 關(guān)鍵技術(shù)分析
數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)來源包括擬定的6大系統(tǒng)、互聯(lián)網(wǎng)各類數(shù)據(jù),經(jīng)過本系統(tǒng)處理后,流向數(shù)據(jù)中臺(tái),提供給煤炭企業(yè)數(shù)據(jù)的分析平臺(tái)。由此可見,本系統(tǒng)的工作要點(diǎn)包括數(shù)據(jù)采集和數(shù)據(jù)清洗兩個(gè)業(yè)務(wù)范疇。
3.1 元數(shù)據(jù)管理技術(shù)
基于業(yè)務(wù)域分類維度,梳理一級(jí)、二級(jí)主題,形成數(shù)據(jù)資源目錄?;趹?yīng)用分類維度,收集數(shù)據(jù)應(yīng)用相關(guān)設(shè)計(jì)文檔、說明文檔等,整理應(yīng)用名稱、模塊名稱形成應(yīng)用業(yè)務(wù)元數(shù)據(jù)。
元數(shù)據(jù)管理是數(shù)據(jù)治理工作的重要組成部分。以元數(shù)據(jù)為抓手進(jìn)行數(shù)據(jù)治理,可以幫助企業(yè)更好地對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行管理,理清數(shù)據(jù)之間的關(guān)系,實(shí)現(xiàn)精準(zhǔn)高效的分析和決策。可以為數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)加工整合、日常運(yùn)行維護(hù)、數(shù)據(jù)安全管理和業(yè)務(wù)應(yīng)用提供基礎(chǔ)能力支持。
元數(shù)據(jù)管理通過建立元數(shù)據(jù)模塊、元數(shù)據(jù)表、元數(shù)據(jù)視圖實(shí)現(xiàn)機(jī)器自動(dòng)寫代碼功能。如圖2所示。
3.2 數(shù)據(jù)采集技術(shù)
業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)通過KETTEL工具抽取到煤炭企業(yè)數(shù)智化平臺(tái)數(shù)據(jù)庫(kù)中,如圖3所示。
煤炭企業(yè)數(shù)智化平臺(tái)數(shù)據(jù)庫(kù)數(shù)據(jù)通過KETTEL抽取到ES數(shù)據(jù)庫(kù),如圖4所示。
3.2.1 抽取物理技術(shù)
從業(yè)務(wù)系統(tǒng)中采集原始物理表元數(shù)據(jù)。數(shù)據(jù)包括用戶、數(shù)據(jù)表名稱(中英文)、數(shù)據(jù)表類型、數(shù)據(jù)標(biāo)識(shí)、來源方式、表中文名等。
物理表的抽取分別依據(jù)三種維度進(jìn)行元數(shù)據(jù)抽取。
(1)基于系統(tǒng)分類維度抽取貼源層物理表。
(2)基于業(yè)務(wù)域分類維度抽取明細(xì)數(shù)據(jù)層物理表。
(3)基于應(yīng)用分類維度抽取集市層物理表。
3.2.2 數(shù)據(jù)篩選
制定有效表判斷規(guī)則,梳理有效數(shù)據(jù)表,建立有效數(shù)據(jù)物理表清單。對(duì)已抽取的貼源層、明細(xì)層、集市層物理表進(jìn)行自動(dòng)識(shí)別,篩選出空表、備份表、系統(tǒng)配置表、臨時(shí)表、垃圾表等無效數(shù)據(jù)表,梳理有效數(shù)據(jù)表并進(jìn)行標(biāo)注,形成有效數(shù)據(jù)物理表清單。
3.2.3 數(shù)據(jù)采集
(1)互聯(lián)網(wǎng)數(shù)據(jù)—通過爬蟲技術(shù)方式采集煤炭行業(yè)全網(wǎng)數(shù)據(jù),采集各平臺(tái)的圖文、音視頻數(shù)據(jù)。具有靈活性高、速度快的特點(diǎn)。適用于各種復(fù)雜場(chǎng)景數(shù)據(jù)采集的需求,為客戶提供基礎(chǔ)數(shù)據(jù)。
(2)非結(jié)構(gòu)化數(shù)據(jù)—通過手機(jī)office文件、圖片、語(yǔ)音、視頻等煤炭企業(yè)數(shù)據(jù),在輸出表中定義文件格式并建立輸出和字段間映射,以及存儲(chǔ)文件的名字和位置就能導(dǎo)出文件。
(3)流式數(shù)據(jù)—Spark Streaming是Spark核心API的一個(gè)擴(kuò)展,可以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)的可拓展,高吞吐量,容錯(cuò)機(jī)制的實(shí)時(shí)流處理框架。如圖5所示。
Spark Streaming支持的數(shù)據(jù)輸入源很多,如Kafka和簡(jiǎn)單的TCP套接字等。數(shù)據(jù)輸入后可以用Spark的高度抽象原語(yǔ)如map、reduce、join、window等進(jìn)行運(yùn)算。而結(jié)果也能保存在很多地方,如HDFS、數(shù)據(jù)庫(kù)等。另外Spark Streaming也能和MLlib(機(jī)器學(xué)習(xí))以及Graphx完美融合。
3.3 數(shù)據(jù)清洗技術(shù)
對(duì)重復(fù)數(shù)據(jù)、時(shí)間日期格式、空白字符、異常字符、國(guó)家權(quán)威行政區(qū)劃規(guī)范化業(yè)務(wù)系統(tǒng)的地理信息、文件向文本轉(zhuǎn)化等內(nèi)容進(jìn)行清洗。
(1)針對(duì)重復(fù)數(shù)據(jù)本系統(tǒng)采取的首要措施為“排序和合并”即先將數(shù)據(jù)庫(kù)中的記錄按一定規(guī)則排序,在清洗轉(zhuǎn)換階段,對(duì)于重復(fù)數(shù)據(jù)項(xiàng)盡量不要輕易做出刪除決策。
(2)針對(duì)時(shí)間日期格式進(jìn)行轉(zhuǎn)換過的時(shí)間和日期字段的數(shù)據(jù)利用標(biāo)準(zhǔn)的時(shí)間戳給予明確的數(shù)據(jù)修正標(biāo)識(shí),確保數(shù)據(jù)的可持續(xù)和可跟蹤。
(3)針對(duì)空白字符、異常字符直接忽略空值、合理填充空值、常見的是會(huì)使用屬性的平均值進(jìn)行中位數(shù)或者眾數(shù)去填充。
(4)針對(duì)國(guó)家權(quán)威行政區(qū)劃規(guī)范化業(yè)務(wù)系統(tǒng)的地理信息對(duì)行政區(qū)劃代碼是國(guó)家對(duì)能夠統(tǒng)治的行政管轄區(qū)域進(jìn)行分級(jí)分層進(jìn)行管轄,用信息化手段編制的對(duì)各層級(jí)行政區(qū)劃編制的替代數(shù)碼,按照國(guó)務(wù)院最新的中華人民共和國(guó)國(guó)務(wù)院令(2018)第704號(hào)《行政區(qū)劃管理?xiàng)l例》規(guī)定執(zhí)行[4]。
(5)針對(duì)文件向文本轉(zhuǎn)化對(duì)WPS文字文件轉(zhuǎn)換為文本數(shù)據(jù);WPS表格文件轉(zhuǎn)換為文本數(shù)據(jù);WPS演示文件轉(zhuǎn)換文本數(shù)據(jù);圖片格式的文本數(shù)據(jù)轉(zhuǎn)化。
3.4 數(shù)據(jù)治理技術(shù)
數(shù)據(jù)治理完成后,會(huì)形成一系列供算法分析和業(yè)務(wù)服務(wù)的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)包括詞典庫(kù)、索引庫(kù)、配置庫(kù)、規(guī)則庫(kù)、業(yè)務(wù)庫(kù)及其他庫(kù)。
(1)行業(yè)企業(yè)詞典庫(kù)內(nèi)容包括主題詞管理-人名庫(kù)、主題詞管理-地名庫(kù)、主題詞管理-機(jī)構(gòu)名錄庫(kù)、相關(guān)詞管理等。
(2)基礎(chǔ)與應(yīng)用索引庫(kù)對(duì)元數(shù)據(jù)模塊管理、元數(shù)據(jù)表設(shè)計(jì)、元數(shù)據(jù)視圖管理、分組管理、分類法進(jìn)行庫(kù)。
(3)數(shù)據(jù)治理配置庫(kù)包括應(yīng)用API管理、前臺(tái)菜單、后臺(tái)菜單管理等。
(4)數(shù)據(jù)治理規(guī)則庫(kù)包括屬性詞管理、主題詞管理、場(chǎng)景詞管理、停用詞管理、形容詞管理、反義詞管理、滿意強(qiáng)度管理等規(guī)則配置庫(kù)。
(5)行業(yè)應(yīng)用業(yè)務(wù)庫(kù)包括各類業(yè)務(wù)數(shù)據(jù)庫(kù)和表單。
(6)其它模型庫(kù)主要是其它業(yè)務(wù)庫(kù)。
4 應(yīng)用效果展示
4.1 主題域
根據(jù)數(shù)據(jù)分類清單和數(shù)據(jù)主題域分類維度,在API管理中分別建立基于系統(tǒng)維度、業(yè)務(wù)域維度和應(yīng)用維度的煤炭行業(yè)主題域結(jié)構(gòu)。
初期的煤炭主題域建設(shè),是基于戰(zhàn)略發(fā)展、財(cái)務(wù)、審計(jì)與風(fēng)險(xiǎn)管理、科技質(zhì)量網(wǎng)絡(luò)信息化安全4大領(lǐng)域(一級(jí)類目)的基礎(chǔ)上,在建設(shè)過程中逐步完善二、三、四級(jí)類目。主題域如圖6所示。
4.2 數(shù)據(jù)服務(wù)
通過建立統(tǒng)一的煤炭行業(yè)服務(wù)平臺(tái)以滿足針對(duì)跨部門、跨系統(tǒng)的數(shù)據(jù)行業(yè)應(yīng)用。通過統(tǒng)一的數(shù)據(jù)服務(wù)平臺(tái)來統(tǒng)一數(shù)據(jù)源,變多源為單源,加快數(shù)據(jù)流轉(zhuǎn)速度,提升數(shù)據(jù)服務(wù)的效率。
基于煤炭行業(yè)數(shù)據(jù)平臺(tái)將數(shù)據(jù)提供給上層訪問調(diào)用,實(shí)現(xiàn)數(shù)據(jù)的應(yīng)用變現(xiàn)和數(shù)據(jù)的閉環(huán)。
4.3 跨庫(kù)檢索
為優(yōu)化數(shù)據(jù)遷移對(duì)多數(shù)據(jù)源關(guān)聯(lián)查詢性能的影響,提出一個(gè)多數(shù)據(jù)源的關(guān)聯(lián)查詢優(yōu)化模型,使用包裝器對(duì)需要查詢的存儲(chǔ)系統(tǒng)進(jìn)行包裝,為用戶提供統(tǒng)一的多數(shù)據(jù)源關(guān)聯(lián)查詢接口;提出區(qū)域劃分策略,以存儲(chǔ)系統(tǒng)的關(guān)系表為劃分粒度,構(gòu)建基于多數(shù)據(jù)源關(guān)聯(lián)查詢命令的區(qū)域有向圖,劃分出查詢子任務(wù)[5]。
5 結(jié) 語(yǔ)
本文通過構(gòu)建煤炭企業(yè)數(shù)據(jù)平臺(tái)的數(shù)據(jù)采集系統(tǒng),對(duì)大數(shù)據(jù)體系的理念和實(shí)際理論進(jìn)行了探討。本企業(yè)特點(diǎn)和業(yè)務(wù)數(shù)據(jù),通過大數(shù)據(jù)理念和處理技術(shù)首先進(jìn)行了重新治理和優(yōu)化,為煤炭企業(yè)數(shù)據(jù)平臺(tái)的分析系統(tǒng)提供了必要的結(jié)構(gòu)化數(shù)據(jù)支撐。理論結(jié)合實(shí)際應(yīng)用,大數(shù)據(jù)數(shù)據(jù)采集和數(shù)據(jù)治理的處理,為大數(shù)據(jù)理論的實(shí)際落地提供寶貴的經(jīng)驗(yàn)積累,為后續(xù)業(yè)務(wù)系統(tǒng)的收集和整理積攢了寶貴理論經(jīng)驗(yàn)和實(shí)踐經(jīng)驗(yàn)。
參考文獻(xiàn)
[1]工業(yè)和信息化部辦公廳關(guān)于印發(fā)《工業(yè)數(shù)據(jù)分類分級(jí)指南(試行)》的通知(工信廳信發(fā)〔2020〕6號(hào))[Z].
[2]袁雅涵,馮勇,朱輝,等.基于多源數(shù)據(jù)的快速統(tǒng)一監(jiān)控關(guān)鍵技術(shù)研究[J].電子技術(shù)與軟件工程,2022(6):241-245.
[3]張偉,張恩東,魏永長(zhǎng).多源異構(gòu)大數(shù)據(jù)匯聚共享平臺(tái)技術(shù)研究[C]//第十五屆中國(guó)航天電子技術(shù)研究院學(xué)術(shù)交流會(huì)優(yōu)秀論文集.2018.
[4]民政部門戶網(wǎng)站.2021年中華人民共和國(guó)行政區(qū)劃代碼[EB/OL].(2022-03-21)[2023-05-09].https://www.mca. gov.cn/n156/n186/c110745/content.html.
[5]郭東新,張偉,徐濤.多數(shù)據(jù)源的關(guān)聯(lián)查詢優(yōu)化技術(shù)[J].計(jì)算機(jī)工程與設(shè)計(jì),2021(4):1006-1013.
作者簡(jiǎn)介
王輝,本科,高級(jí)工程師,從事企業(yè)管理工作。
邢偉,本科,工程師,從事項(xiàng)目管理工作。
曹帥,本科,工程師,從事技術(shù)管理工作。
陰鵬飛,本科,高級(jí)工程師,從事項(xiàng)目管理工作。
史夢(mèng)瑤,本科,工程師,從事軟件開發(fā)工作。
(責(zé)任編輯:張瑞洋)
中國(guó)標(biāo)準(zhǔn)化2023年19期