亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        公共數(shù)據(jù)清洗相關(guān)標(biāo)準(zhǔn)研究

        2024-10-12 00:00:00邵華高剛楊成實田歆
        品牌與標(biāo)準(zhǔn)化 2024年5期

        【摘要】在信息化發(fā)展迅速的當(dāng)下,數(shù)據(jù)質(zhì)量在各個領(lǐng)域都至關(guān)重要。鑒于常見數(shù)據(jù)存在多種質(zhì)量問題,公共數(shù)據(jù)清洗的主要目的是檢測并去除數(shù)據(jù)中的錯誤和不一致性,以提高數(shù)據(jù)質(zhì)量。首先,數(shù)據(jù)脫敏是確保數(shù)據(jù)清洗環(huán)境安全的重要步驟。其次,通過數(shù)據(jù)質(zhì)量管理可以進(jìn)一步規(guī)范數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn)。為了深入理解公共數(shù)據(jù)清洗,本文將探討數(shù)據(jù)脫敏的方法和公共數(shù)據(jù)質(zhì)量管理規(guī)范。

        【關(guān)鍵詞】公共數(shù)據(jù);數(shù)據(jù)清洗;數(shù)據(jù)脫敏

        【DOI編碼】10.3969/j.issn.1674-4977.2024.05.016

        Research on Standards Related to Public Data Cleaning

        SHAO Hua1*, GAO Gang2, YANG Chengshi3, TIAN Xin1

        (1.Shenyang Huaruibo Information Technology Company Limited, Shengyang 110004, China; 2.China National Tobacco Corporation Liaoning Province Company, Shenyang 110000; 3.Liaoning Big Data Management Center, Shenyang 110000, China)

        Abstract: In the rapidly developing era of informatization, data quality is crucial in various fields. Given that common data has multiple quality issues, the main purpose of public data cleaning is to detect and remove errors and inconsistencies in the data, in order to improve data quality. Firstly, data desensitization is an important step in ensuring the security of the data cleaning environment. Secondly, data quality management can further standardize the quality standards of data. In order to gain a deeper understanding of public data cleansing, this article will explore methods for data desensitization and standards for public data quality management.

        Keywords: public data; data cleaning; data desensitization

        0引言

        在當(dāng)今信息時代,公共數(shù)據(jù)在政府決策、企業(yè)管理和科學(xué)研究中扮演著至關(guān)重要的角色。然而,由于公共數(shù)據(jù)來源廣泛、格式不一、質(zhì)量參差不齊等問題,公共數(shù)據(jù)的準(zhǔn)確性和可靠性受到挑戰(zhàn)。因此,對公共數(shù)據(jù)進(jìn)行清洗是保證數(shù)據(jù)質(zhì)量和可信度的重要步驟。

        本論文的目標(biāo)是研究和探討公共數(shù)據(jù)清洗相關(guān)的標(biāo)準(zhǔn)和存在的問題,提高數(shù)據(jù)質(zhì)量和可用性,促進(jìn)公共數(shù)據(jù)的應(yīng)用和共享,為決策制定和科學(xué)研究提供可靠的數(shù)據(jù)支持。

        1公共數(shù)據(jù)的定義及類型

        公共數(shù)據(jù)是指由政府、機構(gòu)、組織或社會公眾所擁有和生成的非私人數(shù)據(jù),可供公眾訪問和利用的數(shù)據(jù)資源,通常以開放、透明和非專有的方式提供,旨在促進(jìn)信息共享、民眾參與和社會創(chuàng)新。

        公共數(shù)據(jù)的范圍廣泛,涵蓋各個領(lǐng)域和行業(yè)的數(shù)據(jù)。包括但不限于以下類型:

        1)政府?dāng)?shù)據(jù)。政府部門、機構(gòu)收集和管理的數(shù)據(jù),包括行政管理、法規(guī)政策、土地房產(chǎn)、人口統(tǒng)計、財政預(yù)算、政府采購、交通運輸、環(huán)境監(jiān)測等數(shù)據(jù)。

        2)經(jīng)濟數(shù)據(jù)。涵蓋宏觀經(jīng)濟指標(biāo)、國內(nèi)生產(chǎn)總值、就業(yè)和失業(yè)率、物價指數(shù)、金融數(shù)據(jù)、貿(mào)易數(shù)據(jù)、商業(yè)注冊等與經(jīng)濟發(fā)展相關(guān)的數(shù)據(jù)。

        3)社會數(shù)據(jù)。關(guān)于社會問題、人口和社會群體特征、教育就業(yè)、社會福利、社會保障等方面的數(shù)據(jù)。

        4)科學(xué)研究數(shù)據(jù)??茖W(xué)實驗、觀測和研究所收集的數(shù)據(jù),包括地球科學(xué)、天文學(xué)、生物學(xué)、生態(tài)學(xué)等領(lǐng)域的數(shù)據(jù)。

        5)健康醫(yī)療數(shù)據(jù)。醫(yī)療衛(wèi)生機構(gòu)和研究機構(gòu)收集的與健康狀況、疾病流行、醫(yī)療資源等有關(guān)的數(shù)據(jù)。

        2數(shù)據(jù)清洗加工規(guī)范解讀

        對于國內(nèi)數(shù)據(jù)清洗的問題,貴州省制定了DB52/T 1540.3—2020《政務(wù)數(shù)據(jù)第3部分:數(shù)據(jù)清洗加工規(guī)范》,該標(biāo)準(zhǔn)對數(shù)據(jù)清洗的環(huán)境和過程作出了具體要求。

        針對環(huán)境要求,敏感數(shù)據(jù)脫敏,以及數(shù)據(jù)機密和安全需要重點關(guān)注,除此之外還需要注意適當(dāng)?shù)挠嬎阗Y源、數(shù)據(jù)存儲、數(shù)據(jù)訪問權(quán)限、數(shù)據(jù)格式和標(biāo)準(zhǔn)、清洗工具和軟件,以及數(shù)據(jù)校驗和驗證等方面的需求。這些要求會在實際清洗過程中根據(jù)具體情況進(jìn)行調(diào)整和配置。具體要求如下:

        1)計算資源。數(shù)據(jù)清洗可能涉及大規(guī)模的數(shù)據(jù)處理操作,因此需要足夠的計算資源來支持高效的數(shù)據(jù)清洗流程。這包括計算機的處理能力、內(nèi)存和存儲容量等方面的要求。

        2)數(shù)據(jù)存儲。清洗過程中需要對數(shù)據(jù)進(jìn)行讀取、寫入和存儲,因此需要具備足夠的存儲空間來容納原始數(shù)據(jù)和清洗后的數(shù)據(jù)。存儲介質(zhì)的性能和可靠性也是考慮因素之一。

        3)數(shù)據(jù)訪問權(quán)限。數(shù)據(jù)清洗可能涉及敏感數(shù)據(jù),因此需要確保數(shù)據(jù)的訪問權(quán)限和安全性。只有經(jīng)過授權(quán)的人員才能訪問和處理數(shù)據(jù),以保護(hù)數(shù)據(jù)的機密性和隱私性。

        4)數(shù)據(jù)格式和標(biāo)準(zhǔn)。數(shù)據(jù)清洗需要對數(shù)據(jù)進(jìn)行讀取和解析,因此要求數(shù)據(jù)以一定的格式,并符合特定的標(biāo)準(zhǔn)。清洗環(huán)境需要支持處理各種常見的數(shù)據(jù)格式,如文本文件、CSV、JSON、數(shù)據(jù)庫等,并具備相應(yīng)的數(shù)據(jù)解析和轉(zhuǎn)換能力。

        5)清洗工具和軟件。數(shù)據(jù)清洗通常需要使用相應(yīng)的工具和軟件來實施清洗過程。這可能包括數(shù)據(jù)處理軟件、編程語言、數(shù)據(jù)集成工具、數(shù)據(jù)庫管理系統(tǒng)等。清洗環(huán)境需要配置和安裝這些工具,并保證其正常運行。

        6)數(shù)據(jù)校驗和驗證。數(shù)據(jù)清洗過程中需要對數(shù)據(jù)進(jìn)行校驗和驗證,以確保清洗后的數(shù)據(jù)符合一定的標(biāo)準(zhǔn)和規(guī)范。因此,清洗環(huán)境應(yīng)提供相應(yīng)的數(shù)據(jù)校驗工具、算法和方法,以保證數(shù)據(jù)的準(zhǔn)確性和一致性。

        針對數(shù)據(jù)清洗過程,采用了ETL和ELT兩種方式的流程進(jìn)行介紹,其中對數(shù)據(jù)抽取、定義規(guī)則、數(shù)據(jù)過濾、數(shù)據(jù)驗核、錯誤標(biāo)識、數(shù)據(jù)處理、數(shù)據(jù)轉(zhuǎn)化、結(jié)果檢驗的部分單獨做了規(guī)范要求。最重要的部分是針對不同的數(shù)據(jù)錯誤類型,采用對應(yīng)的清洗方法,常用的一些清洗方法有缺失值處理、異常值處理、數(shù)據(jù)格式化、重復(fù)值處理、數(shù)據(jù)一致性處理等。

        3數(shù)據(jù)脫敏指南解讀

        數(shù)據(jù)脫敏是解決數(shù)據(jù)清洗環(huán)境要求的重點之一,也是一種保護(hù)敏感數(shù)據(jù)隱私的方法,可以在數(shù)據(jù)使用和共享過程中降低敏感數(shù)據(jù)的風(fēng)險。DB37/T 3523.2給出了數(shù)據(jù)脫敏的指導(dǎo)和建議,需要注意以下幾個方面。

        1)確定敏感數(shù)據(jù)。明確哪些數(shù)據(jù)屬于敏感數(shù)據(jù),例如個人身份信息、財務(wù)數(shù)據(jù)等。這有助于集中精力對這些數(shù)據(jù)進(jìn)行脫敏處理。

        2)選擇合適的脫敏方法。根據(jù)具體的數(shù)據(jù)類型和使用需求,選擇適合的脫敏方法。常見的脫敏方法包括替換、加密和擾動等。選擇的方法需確保脫敏后數(shù)據(jù)的可用性和實用性。

        3)脫敏層次的確定。根據(jù)數(shù)據(jù)需求和隱私保護(hù)要求,確定脫敏的層次??梢赃x擇整體脫敏、部分脫敏或字段級脫敏,以最大限度地保障數(shù)據(jù)隱私。

        4)隨機性和一致性。在脫敏過程中,確保脫敏后的數(shù)據(jù)保持一定的隨機性和一致性。隨機性可使攻擊者難以還原原始數(shù)據(jù),而一致性可確保數(shù)據(jù)在不同場景下的有效性。

        5)數(shù)據(jù)保護(hù)措施。對于已經(jīng)脫敏的數(shù)據(jù),依然需要采取相應(yīng)的數(shù)據(jù)保護(hù)措施,如訪問權(quán)限控制、加密傳輸、安全存儲等,以防止數(shù)據(jù)泄露或未經(jīng)授權(quán)訪問。

        6)數(shù)據(jù)脫敏評估和驗證。對脫敏后的數(shù)據(jù)進(jìn)行評估和驗證,確保脫敏處理的有效性和數(shù)據(jù)質(zhì)量。這包括驗證脫敏后數(shù)據(jù)的一致性、安全性和可用性等方面的檢查。

        7)監(jiān)控和更新。持續(xù)監(jiān)控脫敏數(shù)據(jù)的使用和共享,及時更新脫敏策略和方法,以應(yīng)對不斷變化的數(shù)據(jù)隱私保護(hù)需求。

        同時,遵守相關(guān)法規(guī)和隱私保護(hù)政策也是進(jìn)行數(shù)據(jù)脫敏的重要指導(dǎo)。確保了解適用的法律法規(guī),并與數(shù)據(jù)保護(hù)專業(yè)人員和法律顧問合作,以確保數(shù)據(jù)處理和共享符合法律和隱私規(guī)定。

        除此之外,標(biāo)準(zhǔn)文件中給出了脫敏的基本原則、脫敏規(guī)劃、脫敏流程等方面需考慮的要點信息,其中脫敏的流程包括:識別脫敏數(shù)據(jù)、標(biāo)識敏感數(shù)據(jù)、確定脫敏場景、選擇脫敏方法、定義脫敏規(guī)則、執(zhí)行脫敏操作、評估脫敏效果。脫敏方法作為其中重點之一,常用的幾種脫敏方法有掩碼、規(guī)整、替換、亂序、均化等。這么做的目的是保護(hù)敏感數(shù)據(jù)的隱私,遵守法規(guī)和規(guī)范,促進(jìn)合規(guī)共享,支持?jǐn)?shù)據(jù)分析使用,增強組織的公眾信任和聲譽。通過數(shù)據(jù)脫敏,在充分利用數(shù)據(jù)的同時,最大限度地降低敏感數(shù)據(jù)的風(fēng)險,提前建立好數(shù)據(jù)清洗所需要的環(huán)境。

        4公共數(shù)據(jù)質(zhì)量管理規(guī)范解讀

        數(shù)據(jù)清洗過程中的數(shù)據(jù)質(zhì)量是十分重要的。良好的數(shù)據(jù)質(zhì)量可以作為決策依據(jù)、確保分析結(jié)果準(zhǔn)確可信、提高數(shù)據(jù)的可用性和可靠性、促進(jìn)數(shù)據(jù)集成和共享,并提高業(yè)務(wù)流程的效率。因此,在數(shù)據(jù)清洗過程中,務(wù)必重視和提高數(shù)據(jù)質(zhì)量的處理和保證。在標(biāo)準(zhǔn)DB3713/T 261文件中,重點規(guī)定了公共數(shù)據(jù)質(zhì)量管理的職責(zé)要求、數(shù)據(jù)質(zhì)量管理指標(biāo)、公共數(shù)據(jù)生存周期與各階段管理要求和評價,其中數(shù)據(jù)的評價指標(biāo)包括:規(guī)范性、完整性、準(zhǔn)確性、一致性、時效性、可訪問性。最終得到的數(shù)據(jù)都要依靠這六個指標(biāo)去判斷數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的管理要求包括:數(shù)據(jù)需求、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)開放、數(shù)據(jù)應(yīng)用、數(shù)據(jù)評估和數(shù)據(jù)退役。其中數(shù)據(jù)清洗是保證數(shù)據(jù)質(zhì)量的關(guān)鍵內(nèi)容,重點應(yīng)關(guān)注以下內(nèi)容。

        1)數(shù)據(jù)準(zhǔn)確性。數(shù)據(jù)應(yīng)該準(zhǔn)確無誤,反映真實的事實和情況。確保數(shù)據(jù)來源可信,并通過驗證、審查和驗證機制來保證數(shù)據(jù)的準(zhǔn)確性。

        2)數(shù)據(jù)完整性。數(shù)據(jù)應(yīng)該完整,不應(yīng)缺少重要的字段或記錄。確保數(shù)據(jù)集中包含完整的信息,并對缺失的數(shù)據(jù)進(jìn)行處理,填充有意義的值或進(jìn)行相應(yīng)的標(biāo)注。

        3)數(shù)據(jù)一致性。數(shù)據(jù)應(yīng)該在不同數(shù)據(jù)源、不同系統(tǒng)和不同時間維度下保持一致性。確保數(shù)據(jù)定義和格式的一致性,避免數(shù)據(jù)沖突和不一致的問題。

        4)數(shù)據(jù)時效性。數(shù)據(jù)應(yīng)該及時更新,反映最新的情況和事實。確保數(shù)據(jù)采集、更新和發(fā)布的及時性,同時留意數(shù)據(jù)質(zhì)量和可用性與即時性之間的平衡。

        5)數(shù)據(jù)安全和隱私保護(hù)。數(shù)據(jù)應(yīng)該經(jīng)過適當(dāng)?shù)陌踩胧┻M(jìn)行保護(hù),防止未經(jīng)授權(quán)訪問和濫用。采取數(shù)據(jù)脫敏、加密、訪問權(quán)限控制等措施,確保數(shù)據(jù)的安全和隱私保護(hù)。

        以上是一些公共數(shù)據(jù)質(zhì)量管理規(guī)范的要點,具體的規(guī)范可根據(jù)不同的行業(yè)、組織和數(shù)據(jù)使用場景進(jìn)行調(diào)整和補充。關(guān)鍵是建立一套系統(tǒng)化的規(guī)范和流程,確保公共數(shù)據(jù)的質(zhì)量和可用性,提供可靠的數(shù)據(jù)支持和決策依據(jù)。

        5結(jié)束語

        數(shù)據(jù)質(zhì)量問題越來越受到學(xué)術(shù)界和商界的廣泛關(guān)注,高質(zhì)量的數(shù)據(jù)才能提供準(zhǔn)確可靠的信息,為決策支持提供幫助。國外針對數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗雖研究較早,成果較多,但仍有新的問題提出。如隨著Web數(shù)據(jù)量迅速增長,如何對大量的Web數(shù)據(jù)進(jìn)行清洗是一個值得關(guān)注的問題。

        總之,數(shù)據(jù)清洗是公共數(shù)據(jù)分析中的重要環(huán)節(jié),在大數(shù)據(jù)時代,傳統(tǒng)的數(shù)據(jù)清洗方法已經(jīng)不符合現(xiàn)代數(shù)據(jù)分析的要求,必須根據(jù)數(shù)據(jù)的轉(zhuǎn)變,結(jié)合數(shù)據(jù)挖掘等知識進(jìn)行數(shù)據(jù)清洗,提高數(shù)據(jù)清洗的效果,滿足大數(shù)據(jù)時代企業(yè)對數(shù)據(jù)清洗的要求。未來的數(shù)據(jù)清洗將更加自動化、智能化和實時化,處理多源數(shù)據(jù)、跨領(lǐng)域應(yīng)用,并注重數(shù)據(jù)倫理和隱私保護(hù)。數(shù)據(jù)清洗將成為數(shù)據(jù)處理和分析的重要基礎(chǔ),為決策和創(chuàng)新提供可靠的數(shù)據(jù)支持。

        【參考文獻(xiàn)】

        [1]公共數(shù)據(jù)開放第2部分:數(shù)據(jù)脫敏指南:DB37/T 3523.2—2019[S].

        [2]公共數(shù)據(jù)開放數(shù)據(jù)質(zhì)量管理規(guī)范:DB3713/T 261—2022[S].

        [3]政務(wù)數(shù)據(jù)第3部分:數(shù)據(jù)清洗加工規(guī)范:DB52/T 1540.3—2020[S]

        【作者簡介】

        通信作者:邵華,男,1973年出生,高級工程師,博士,研究方向為電子信息技術(shù),shaohcn@foxmail.com。

        高剛,男,1978年出生,高級經(jīng)濟師、高級會計師,碩士,研究方向為經(jīng)濟管理。

        楊成實,男,1967年出生,正高級工程師,學(xué)士,研究方向為數(shù)字政府及大數(shù)據(jù)管理。

        田歆,女,1997年出生,學(xué)士,研究方向為標(biāo)準(zhǔn)化文件編寫。

        (編輯:侯睿琪)

        97超碰国产一区二区三区| 亚洲精品无播放器在线播放| а中文在线天堂| 大屁股少妇一区二区无码| 91青青草手机在线视频| 亚洲天堂av三区四区不卡| a级毛片无码久久精品免费| 国偷自产av一区二区三区| 欧美亚洲日韩国产人成在线播放| 青青草手机视频免费在线播放| 波多野结衣av一区二区全免费观看| 女性女同性aⅴ免费观女性恋| 毛片无遮挡高清免费久久| av免费网站不卡观看| 亚洲成av人片在www鸭子| 日产国产精品亚洲系列| 久久国产成人午夜av影院| 蜜桃视频永久免费在线观看 | 国产精品久久久久久久成人午夜 | 久久综合狠狠综合久久| 在线观看网址你懂的| 最全精品自拍视频在线| 久久婷婷五月综合色高清| 欧美激情a∨在线视频播放| 天堂69亚洲精品中文字幕| av在线免费观看麻豆| 午夜性色一区二区三区不卡视频| 亚洲的天堂av无码| 无码国产精品一区二区免费式芒果| 久久伊人精品色婷婷国产| 久久精品国产亚洲av果冻传媒| 99久久精品国产成人综合| 国产91AV免费播放| 一区二区在线视频免费蜜桃 | 亚洲免费人成在线视频观看| 国产男女做爰猛烈视频网站| 国产精品国产三级国产av18| 真人新婚之夜破苞第一次视频| 9久久精品视香蕉蕉| 精品国产日韩亚洲一区在线| 欧美人妻aⅴ中文字幕|