亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        北京數(shù)字檔案館項目數(shù)據(jù)清理情況分析

        2017-04-21 22:26:25尹哲
        北京檔案 2017年3期
        關(guān)鍵詞:副本結(jié)構(gòu)化檔案館

        尹哲

        摘要:目前由于數(shù)字檔案館的投入運行,各類檔案數(shù)據(jù)的存儲數(shù)量急速增加。與此同時,檔案數(shù)據(jù)質(zhì)量隨著臟數(shù)據(jù)的出現(xiàn)受到很大影響,針對數(shù)據(jù)質(zhì)量的清理工作勢在必行。本文根據(jù)北京市檔案館的工作經(jīng)驗整理出檔案數(shù)據(jù)質(zhì)量存在的典型問題,提出了數(shù)據(jù)清理的基本方法和步驟,為今后檔案工作數(shù)據(jù)清理提供相關(guān)經(jīng)驗和建議。

        關(guān)鍵詞:數(shù)字檔案館數(shù)據(jù)質(zhì)量臟數(shù)據(jù)數(shù)據(jù)清理

        北京市檔案館檔案管理系統(tǒng)經(jīng)過十余年的應用,目前積累的存儲數(shù)據(jù)非常龐大,其中檔案機讀目錄1400余萬條,檔案數(shù)字化副本7000余萬頁,存儲量達到80TB。由于數(shù)據(jù)庫設(shè)計約束不足、數(shù)據(jù)錄入錯誤等多種原因?qū)е孪到y(tǒng)中存在臟數(shù)據(jù)(dirty data,是指數(shù)據(jù)集中存在較多相似重復的、不一致的、格式不匹配的、不符合邏輯的、帶有空缺值的以及沒有實際作用的數(shù)據(jù))。[1]這些數(shù)據(jù)直接拉低了檔案數(shù)據(jù)質(zhì)量,影響檔案檢索查詢效果。隨著北京市數(shù)字檔案館項目的深入推進,為更好地配合北京數(shù)字檔案館項目建設(shè)工作,北京市檔案館在2016年開展了檔案數(shù)據(jù)集中清理工作。

        一、北京市檔案館現(xiàn)有數(shù)據(jù)情況

        北京市檔案館館藏數(shù)據(jù)主要包括:各類檔案數(shù)字化副本(紙質(zhì)文書檔案、紙質(zhì)照片檔案、音視頻檔案等數(shù)字化副本)、電子文件(含數(shù)碼照片)、檔案機讀目錄數(shù)據(jù)、檔案系統(tǒng)管理數(shù)據(jù)等。其中檔案系統(tǒng)管理數(shù)據(jù)通常包括檔案實體表、檔案存址表、檔案原缺表、利用者信息表、調(diào)歸卷信息表等數(shù)據(jù)。

        這些數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類。結(jié)構(gòu)化數(shù)據(jù)是指存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,如文本、圖像、聲音、網(wǎng)頁等,稱之為非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括檔案機讀目錄數(shù)據(jù)和檔案系統(tǒng)管理數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括各類數(shù)字化副本、電子文件、數(shù)碼照片等。兩類數(shù)據(jù)存在問題和解決的方法不同。結(jié)構(gòu)化數(shù)據(jù)整體存儲在數(shù)據(jù)庫中,數(shù)據(jù)清理依賴數(shù)據(jù)庫執(zhí)行指令完成。非結(jié)構(gòu)化數(shù)據(jù)是以單個文件形式存儲在磁盤驅(qū)動器中,可以人工進行清理,但當數(shù)據(jù)量非常大的情況下,則需依靠定制開發(fā)計算機程序完成。在向北京數(shù)字檔案館系統(tǒng)遷移數(shù)據(jù)的過程中,紙質(zhì)檔案數(shù)字化副本和檔案機讀目錄是存在問題最多、清理工作量最大的兩類數(shù)據(jù)資源。因此,數(shù)據(jù)清理的重點也集中在紙質(zhì)檔案數(shù)字化副本和檔案機讀目錄數(shù)據(jù)上。

        二、北京市檔案館數(shù)據(jù)質(zhì)量存在的典型問題(以機讀目錄和紙質(zhì)檔案數(shù)字化副本為例)

        (一)檔案機讀目錄數(shù)據(jù)存在以下四類問題:

        1.重復數(shù)據(jù)

        數(shù)據(jù)重復主要有兩種情況,一種是在同一個庫表中存在全部字段值完全相同的記錄;另一種是在不同的庫表中存在相同的記錄。產(chǎn)生的主要原因均為數(shù)據(jù)被重復導入,數(shù)據(jù)庫沒有唯一性校驗造成的。應保留一份數(shù)據(jù),刪除重復數(shù)據(jù)。

        2.缺失數(shù)據(jù)

        數(shù)據(jù)庫表中很多記錄缺失關(guān)鍵字段值,關(guān)鍵字段例如“全宗號”“目錄號”“案卷號”“檔號”“題名”“開控狀態(tài)”等字段。產(chǎn)生問題的主要原因是目錄在手工錄入過程中遺漏造成的,數(shù)據(jù)庫在設(shè)計上完整性約束不足也是原因之一。這些關(guān)鍵字段值應進行補充以保證數(shù)據(jù)檢索、利用的需求得以滿足。

        3.錯誤數(shù)據(jù)

        數(shù)據(jù)庫表中有的記錄中“檔號”字段值編制錯誤,例如照片檔案檔號結(jié)構(gòu)應該是“全宗號-目錄號-案卷號-張?zhí)枴?,但是實際錄入的是“全宗號-目錄號-案卷號”。有的記錄賦值錯誤,例如有的“張頁數(shù)”字段中含有“+”等非法字符,其值域范圍本應僅限于正整數(shù)。有的記錄編制位數(shù)不足,例如“起始頁號”字段值按照目前標準應該是5位,但是早期的記錄只有3位或4位。這些錯誤的原因有的是由于手工錄入錯誤造成的,有的是由于字段值編制標準發(fā)生變化造成的。錯誤的數(shù)據(jù)應通過數(shù)據(jù)清理進行修正。

        4.無效數(shù)據(jù)

        數(shù)據(jù)庫表中的歷史測試數(shù)據(jù),暫存數(shù)據(jù)等,應通過清理工作直接刪除。

        (二)數(shù)字化副本數(shù)據(jù)存在四類問題

        1.數(shù)據(jù)命名不規(guī)范

        數(shù)字化副本文件命名有如下幾類:3位流水號.tif、4位流水號.tif、5位流水號.tif、a_p流水號.tif、檔號.tif。產(chǎn)生這種情況的原因是由于不同時期數(shù)字化加工采用的標準不同,還有一些不符合規(guī)范采用手工命名導致的特殊命名方式。不符合命名規(guī)范的數(shù)字化副本在數(shù)據(jù)管理和數(shù)據(jù)掛接中存在隱患,容易產(chǎn)生掛接錯誤等問題,應采用統(tǒng)一的命名標準,保證數(shù)據(jù)在案卷級和文件級掛接的可靠性。

        2.數(shù)據(jù)質(zhì)量不可靠

        個別數(shù)字化副本存在無法打開的情況,屬于數(shù)據(jù)掃描質(zhì)量問題。錯誤的數(shù)據(jù)會導致無法掛接,系統(tǒng)無法正常讀取數(shù)據(jù)??梢允褂密浖z測圖像的可讀性,保證數(shù)據(jù)質(zhì)量。

        3.數(shù)據(jù)保存不唯一

        有些檔案的數(shù)字化副本在系統(tǒng)中存在兩份,彩色一份、黑白一份,黑白的是早期的數(shù)字化成果,彩色的是近期數(shù)字化成果。重復數(shù)據(jù)不利于數(shù)據(jù)管理,也浪費存儲空間,選取圖像質(zhì)量好的副本進行存儲即可。

        4.存儲方式不統(tǒng)一

        數(shù)據(jù)在磁盤上的存儲方式不同,存在多種形式。有在線存儲管理方式和離線存儲脫機管理方式兩類。在線存儲管理方式使用不同的系統(tǒng)其數(shù)據(jù)具體存儲方式也不相同。建議將同類型數(shù)據(jù)集中管理采取統(tǒng)一的數(shù)據(jù)存儲方式。

        三、北京市檔案館數(shù)據(jù)清理的步驟

        檔案數(shù)據(jù)清理的步驟為:數(shù)據(jù)分析、確定清理工作流程和清理規(guī)則、數(shù)據(jù)清理驗證、清理臟數(shù)據(jù)、干凈數(shù)據(jù)整理和核對。

        (一)數(shù)據(jù)分析

        數(shù)據(jù)分析是整個數(shù)據(jù)清理流程的第一步。數(shù)據(jù)分析的作用是在于得到一些數(shù)據(jù)的特征,根據(jù)這些屬性可以確定合適的檢測算法和清理規(guī)則,因此,數(shù)據(jù)分析也是數(shù)據(jù)清理中的非常重要的一步。檔案機讀目錄采用結(jié)構(gòu)化數(shù)據(jù)庫管理,因此對數(shù)據(jù)庫表進行分析是第一步。通過數(shù)據(jù)庫表的單表查詢和多表查詢功能可以發(fā)現(xiàn)重復數(shù)據(jù)、不完整數(shù)據(jù)、錯誤數(shù)據(jù)和無效數(shù)據(jù)。數(shù)字化副本一方面實體存儲在服務(wù)器磁盤,另一方面其命名、存儲位置等信息也是由數(shù)據(jù)庫保存,所以其數(shù)據(jù)問題可以從文件實體角度發(fā)現(xiàn),也可以從數(shù)據(jù)表的查詢對比中發(fā)現(xiàn)。

        (二)確定清理工作流程和清理規(guī)則

        數(shù)據(jù)清理工作根據(jù)數(shù)據(jù)分析的結(jié)果及數(shù)據(jù)所屬標準定義清理工作流。數(shù)據(jù)清理的標準來自于各類數(shù)據(jù)所對應的數(shù)字檔案館標準和規(guī)范,這些標準和規(guī)范同時也是數(shù)據(jù)分析問題的來源和依據(jù)。由于各類數(shù)據(jù)存在的問題不同,清理的方法也不一樣,要根據(jù)實際數(shù)據(jù)情況確定需要執(zhí)行的數(shù)據(jù)清理的具體流程。

        (三)數(shù)據(jù)清理驗證

        這一個階段主要驗證數(shù)據(jù)清理的正確性、評估工作流程的效率??梢愿鶕?jù)數(shù)據(jù)分析情況和清理規(guī)則對部分待清理數(shù)據(jù)進行測試,通過測試發(fā)現(xiàn)問題,提高效率和準確性。

        (四)清理“臟數(shù)據(jù)”

        經(jīng)數(shù)據(jù)清理驗證無誤后,可以按照數(shù)據(jù)清理驗證階段制定的規(guī)則對數(shù)據(jù)進行清理。但在這一個階段特別要注意數(shù)據(jù)的安全性,應首先備份源數(shù)據(jù),再對數(shù)據(jù)源進行數(shù)據(jù)清理,避免操作不當對數(shù)據(jù)造成的嚴重損失。清理過程可能持續(xù)時間會比較長,應該做好記錄和管理工作。數(shù)據(jù)的修改有可能需要人工參與,需要相關(guān)部門的配合。

        (五)干凈數(shù)據(jù)整理和核對

        數(shù)據(jù)清理工作完成后,將干凈的數(shù)據(jù)進行整理和核對??梢詫⒏蓛舻臄?shù)據(jù)集中整理存儲,有必要的話可以再備份一份,可以有效地保障數(shù)據(jù)的安全性。

        四、數(shù)據(jù)清理工作的經(jīng)驗總結(jié)和相關(guān)建議

        (一)數(shù)據(jù)清理工作的幾點經(jīng)驗

        1.控制清理時間。數(shù)據(jù)集中清理工作盡管工作量很大,但時間不宜過長,一般應控制在4個月以內(nèi)。

        2.做好過程管理。要提前制定詳細的清理計劃,嚴格按照時間進度進行清理,并做好相關(guān)工作記錄,清理過程中暫不接收導入新數(shù)據(jù)。

        3.保證清理質(zhì)量。數(shù)據(jù)清理工作主要依靠數(shù)據(jù)庫技術(shù)、軟件批量重命名技術(shù)、圖形圖像質(zhì)量查驗技術(shù)等,在具體操作之前要進行必要的測試。例如對數(shù)據(jù)庫值的轉(zhuǎn)換,從日期型轉(zhuǎn)換成字符型就有可能出現(xiàn)丟失數(shù)據(jù)現(xiàn)象。

        4.部門協(xié)同工作。數(shù)據(jù)清理是一個復雜的工作,需要多個部門共同實施。以北京市檔案館為例,在數(shù)據(jù)清理過程中,信息化部門負責牽頭和管理工作,運維公司負責技術(shù)支撐工作,檔案館業(yè)務(wù)處室負責清理標準的提供和特殊數(shù)據(jù)修改的審核,各部門各司其職,協(xié)同工作。

        (二)數(shù)據(jù)清理工作要把好數(shù)據(jù)入口關(guān)

        數(shù)據(jù)清理工作反映出檔案部門對數(shù)據(jù)應該遵從的唯一性、完整性、準確性問題還要更加重視。一方面在數(shù)字檔案館系統(tǒng)建設(shè)的時候?qū)?shù)據(jù)庫表的設(shè)計更加完善,使其具備良好的約束性,例如在系統(tǒng)設(shè)計過程中加強對完整性、準確性、可用性和安全性檢測,設(shè)計良好的四性檢測方案;另一方面要加強管理,對于錯誤數(shù)據(jù)或者問題數(shù)據(jù)要及時發(fā)現(xiàn)并糾正,避免臟數(shù)據(jù)進入系統(tǒng);第三是要檔案各類數(shù)據(jù)標準應趨于穩(wěn)定一致,如果標準發(fā)生了改變,原存儲數(shù)據(jù)需及時修正。

        隨著大數(shù)據(jù)時代的來臨,檔案數(shù)據(jù)量隨著信息化時代發(fā)展已經(jīng)進入到海量的現(xiàn)狀。期望一次數(shù)據(jù)清理就能夠解決數(shù)十年來的問題也不現(xiàn)實,應該在日常管理中對數(shù)據(jù)定期進行分析,及時發(fā)現(xiàn)、解決問題,為北京數(shù)字檔案館項目建設(shè)提供優(yōu)質(zhì)的數(shù)據(jù)資源基礎(chǔ)工作。

        參考文獻:

        [1]蔡鐘杰.數(shù)據(jù)清理關(guān)鍵技術(shù)在醫(yī)療保險管理系統(tǒng)的應用研究[D].蘭州:蘭州交通大學,2014:7-12.

        作者單位:北京市檔案局(館)

        猜你喜歡
        副本結(jié)構(gòu)化檔案館
        促進知識結(jié)構(gòu)化的主題式復習初探
        結(jié)構(gòu)化面試方法在研究生復試中的應用
        計算機教育(2020年5期)2020-07-24 08:53:00
        面向流媒體基于蟻群的副本選擇算法①
        關(guān)于縣級檔案館館藏檔案開發(fā)利用的思考
        全省部分檔案館新館掠影
        浙江檔案(2017年10期)2017-03-31 06:27:31
        副本放置中的更新策略及算法*
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        計算機工程(2015年8期)2015-07-03 12:20:35
        when與while檔案館
        樹形網(wǎng)絡(luò)中的副本更新策略及算法*
        基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
        亚洲激情一区二区三区视频| 精品午夜福利无人区乱码一区| 免费精品无码av片在线观看| 欧美色资源| 久久精品一区二区三区夜夜| 色婷婷精品久久二区二区蜜臀av| 日韩精品极品视频在线观看免费| 人妻被黑人粗大的猛烈进出 | 少妇伦子伦精品无吗| 亚洲av伊人久久综合密臀性色| 一区二区三区福利在线视频| 日本高清一区二区三区不卡| 亚洲一区毛片在线观看| 2021久久精品国产99国产精品| 精品国产一级毛片大全| 女女同性av一区二区三区免费看 | 亚洲中文字幕乱码一二三区| 放荡成熟人妻中文字幕| 黑人巨大精品欧美一区二区免费| 99久久久无码国产aaa精品| 人妻av一区二区三区高| 国产三级国产精品国产专区50| 国产成人无码精品久久二区三区| 这里只有久久精品| 亚洲精品尤物av在线网站| 东京热日本av在线观看| www插插插无码视频网站| 亚州精品无码人妻久久| 少妇又色又爽又刺激的视频| 男女av一区二区三区| 毛片内射久久久一区| 亚洲av美女在线播放啊| 国产精品女同二区五区九区| 精品欧美一区二区三区久久久| 午夜成人无码福利免费视频| 欧美日韩中文亚洲另类春色| 91久久精品一区二区三区大全| 亚洲av高清在线观看一区二区 | 一区二区三区国产视频在线观看| 国产91精品高潮白浆喷水| 国产午夜精品一区二区三区嫩草|