安天浩,張會(huì)瓊,孫紫堅(jiān),熊靚輝,薛陳利
(北京礦產(chǎn)地質(zhì)研究院有限責(zé)任公司,北京 100012)
近年來(lái),伴隨著信息科技的快速發(fā)展,信息技術(shù)對(duì)各行業(yè)產(chǎn)生了深遠(yuǎn)影響。“十三五”綱要提出實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略(趙林林等,2019),有色金屬地質(zhì)工作也逐步進(jìn)入數(shù)據(jù)密集型時(shí)代。在有色地質(zhì)工作中,項(xiàng)目人員采集到的大量電子化數(shù)據(jù)需要安全存儲(chǔ),數(shù)據(jù)的共享、分析、挖掘需要便捷高效的資料借閱體系支撐。因此,以紙介質(zhì)為主,光盤為輔的存儲(chǔ)模式,以紙質(zhì)目錄、簡(jiǎn)單的電子表格作為借閱索引的傳統(tǒng)資料借閱管理模式,已經(jīng)成為了橫亙?cè)谟猩刭|(zhì)工作者之間的“數(shù)據(jù)壁壘”(李豐丹等,2019)。北京礦產(chǎn)地質(zhì)研究院有限責(zé)任公司以建設(shè)“地質(zhì)云·北京有色”節(jié)點(diǎn)為契機(jī),對(duì)館藏的有色地質(zhì)資料開(kāi)展了數(shù)字化工作,優(yōu)選其中典型、特色、代表性的資料通過(guò)“地質(zhì)云·北京有色節(jié)點(diǎn)”向社會(huì)發(fā)布共享;在單位內(nèi)部設(shè)計(jì)部署了有色地質(zhì)資料借閱系統(tǒng),顯著提高了有色地質(zhì)資料利用率。
在開(kāi)展數(shù)字化工作前需對(duì)現(xiàn)有的資料進(jìn)行全盤梳理,收集并研究有色地質(zhì)資料數(shù)字化、標(biāo)準(zhǔn)化的相關(guān)標(biāo)準(zhǔn)。對(duì)資料進(jìn)行分類、查重,梳理資料的工作手段、工作區(qū)位置與形成時(shí)間等要素。挑選其中具有較高價(jià)值的有色地質(zhì)資料作為數(shù)字化加工對(duì)象,并根據(jù)資料的內(nèi)容、涉密級(jí)別劃定其共享方式。
加工環(huán)境的部署包含加工設(shè)備的選擇、加工所需場(chǎng)地及網(wǎng)絡(luò)環(huán)境與安防系統(tǒng)的部署、數(shù)字化加工流程的制定。明確的數(shù)字化加工流程是保障數(shù)字化生產(chǎn)效率、質(zhì)量的重要基礎(chǔ),其內(nèi)容是對(duì)場(chǎng)地內(nèi)的不同工作區(qū)域進(jìn)行劃分,對(duì)各環(huán)節(jié)的加工標(biāo)準(zhǔn)進(jìn)行明確。各環(huán)節(jié)分區(qū)作業(yè)可避免實(shí)體資料交叉,同時(shí)可提升加工的總效率。
數(shù)字化加工設(shè)備主要有高速掃描儀、平板式掃描儀、大幅面掃描儀、切紙機(jī)、膠裝機(jī)、工作站等。高速掃描儀用于加工便于拆除裝訂的資料,平板掃描儀處理不宜拆除裝訂的資料。掃描設(shè)備最高分辨率不低于300 dpi。加工場(chǎng)所內(nèi)建立局域網(wǎng),使用千兆交換機(jī)和六類或更高級(jí)別網(wǎng)線,接入全部掃描設(shè)備及工作站與磁盤陣列。通過(guò)局域網(wǎng)保障數(shù)字化文件在加工流轉(zhuǎn)中的傳輸效率,利用磁盤陣列備份加工的過(guò)程性文件。
完成加工環(huán)境部署,建立加工流程后,即可開(kāi)展數(shù)字化加工。數(shù)字化加工分為領(lǐng)取資料、數(shù)字化前處理、資料掃描、圖像處理、質(zhì)量檢查、資料復(fù)原、設(shè)備維護(hù)等7個(gè)環(huán)節(jié),各環(huán)節(jié)內(nèi)包含的工作如圖1所示。
圖1 有色地質(zhì)資料數(shù)字化流程
檔案實(shí)體資料領(lǐng)取需根據(jù)資料形成時(shí)間與資料實(shí)體的特點(diǎn),分批次進(jìn)行。同時(shí)對(duì)照紙質(zhì)檔案實(shí)體,對(duì)每個(gè)批次領(lǐng)取的每一檔資料登記成表。
數(shù)字化前處理需要對(duì)褶皺、破損的資料進(jìn)行修復(fù)、除塵并根據(jù)情況拆除裝訂。
資料掃描過(guò)程中,可拆除裝訂的紙質(zhì)資料使用切紙機(jī)進(jìn)行剪切,而后利用高速掃描儀進(jìn)行加工,不可拆除裝訂的紙質(zhì)資料使用平板式掃描儀進(jìn)行加工。圖件類的紙質(zhì)資料使用大幅面掃描儀加工,對(duì)超出所使用掃描儀掃描尺寸的圖件可采用更大幅面掃描儀進(jìn)行掃描,如硬件條件有限,也可以采用小幅面掃描儀分幅掃描后進(jìn)行圖像拼接的方式進(jìn)行處理。分幅掃描時(shí),相鄰圖像之間應(yīng)留有足夠的重疊,并且采用標(biāo)板等方式明確說(shuō)明分幅方法;若后期采用軟件自動(dòng)拼接的方式,重疊尺寸建議不小于單幅圖像對(duì)應(yīng)原件尺寸的1/3。對(duì)于極其珍貴且尺寸不規(guī)則的檔案,為方便直觀顯示原件大小,可采用標(biāo)板、標(biāo)尺等方式標(biāo)識(shí)原件大小等信息。為最大限度保留資料原件信息,便于多種方式的利用,宜全部采用彩色模式進(jìn)行掃描,建議掃描分辨率不小于300 dpi,保存格式推薦為為TIFF、JPEG或JPEG2000等通用格式(黃少芳和劉曉鴻,2016)。
圖像處理環(huán)節(jié)需要對(duì)生產(chǎn)出的圖像文件進(jìn)行圖像拼接、旋轉(zhuǎn)及糾偏、裁邊、去污等精細(xì)處理,力求保持檔案原貌,不建議用軟件糾偏或自動(dòng)裁剪功能處理檔案原有頁(yè)面。
完成處理后需進(jìn)行質(zhì)量檢查,圖像質(zhì)檢必須逐頁(yè)翻看檢查圖像,檢查圖像反映的文件數(shù)量、頁(yè)數(shù)是否與其目錄一致,圖像是否還原檔案原貌、文字清晰,每頁(yè)圖像的頁(yè)碼是否存在,有無(wú)漏失、多頁(yè)、不清晰、變形、偏斜、失真、頁(yè)碼錯(cuò)誤等情況。根據(jù)檢查結(jié)果進(jìn)行修改完善,對(duì)成品進(jìn)行備份,并同步開(kāi)展文件級(jí)目錄的制作。
地質(zhì)資料的目錄是開(kāi)展有色地質(zhì)資料管理工作的基礎(chǔ),是對(duì)地質(zhì)資料數(shù)據(jù)描述、組織和管理的著力點(diǎn)(高學(xué)正等,2019),傳統(tǒng)的以案卷級(jí)目錄對(duì)地質(zhì)資料進(jìn)行管理的方式,已經(jīng)不能適應(yīng)目前的信息化、碎片化管理需求(江云華,2019)。因此在加工的過(guò)程中,需按標(biāo)準(zhǔn)為每檔資料制作文件級(jí)目錄。在文件級(jí)目錄中,文件題名是建立電子檔案檢索系統(tǒng)、實(shí)現(xiàn)檔案信息計(jì)算機(jī)檢索目標(biāo)的基本要素(田園等,2019),因此需要形成文件級(jí)目錄標(biāo)準(zhǔn),對(duì)“題名”等字段的內(nèi)容與表述結(jié)構(gòu)進(jìn)行規(guī)范,按統(tǒng)一標(biāo)準(zhǔn)制作文件級(jí)目錄,并完成自檢、互檢、抽檢,保證文件級(jí)目錄的質(zhì)量。
元數(shù)據(jù)是有色地質(zhì)資料管理工作的核心,也是提供數(shù)字化服務(wù)的根本,因此在開(kāi)展元數(shù)據(jù)著錄工作前,需制定元數(shù)據(jù)標(biāo)準(zhǔn)。元數(shù)據(jù)著錄的本質(zhì)是資料碎片化的過(guò)程,重點(diǎn)是設(shè)計(jì)元數(shù)據(jù)的字段。字段數(shù)量不宜繁冗,但需涵蓋研究對(duì)象要素、資料來(lái)源、時(shí)空位置等多角度要素,同時(shí)對(duì)各類有色地質(zhì)資料具有普遍適用性。有色地質(zhì)資料元數(shù)據(jù)設(shè)計(jì)為54個(gè)字段,見(jiàn)表1。
表1 有色地質(zhì)資料元數(shù)據(jù)字段
內(nèi)容相對(duì)單一的字段需規(guī)范元數(shù)據(jù)內(nèi)容,如“行政區(qū)”、“礦種”等內(nèi)容固定的字段,應(yīng)設(shè)計(jì)字典值;對(duì)于“時(shí)間”、“坐標(biāo)”等內(nèi)容范圍較大的字段,應(yīng)規(guī)定填寫格式;對(duì)于“內(nèi)容提要”等無(wú)法確定內(nèi)容范圍的字段需要規(guī)定描述的模式,例如普查、詳查、勘探類報(bào)告資料,可規(guī)定描述模式,如先描述礦床位置、大地構(gòu)造,再描述主要工作量,最后描述結(jié)論與建議等。
在元數(shù)據(jù)著錄過(guò)程中,應(yīng)同步設(shè)置自檢、互檢、抽檢等環(huán)節(jié),確保元數(shù)據(jù)內(nèi)容準(zhǔn)確,另外需根據(jù)提取的進(jìn)度,合理安排元數(shù)據(jù)的備份。
有色地質(zhì)資料管理系統(tǒng)是高效利用元數(shù)據(jù)的工具,系統(tǒng)設(shè)計(jì)的優(yōu)劣決定了資料檢索結(jié)果的準(zhǔn)確性與全面性。因此,開(kāi)展系統(tǒng)的設(shè)計(jì)工作需要明確系統(tǒng)的核心功能需求(圖2):
圖2 系統(tǒng)架構(gòu)設(shè)計(jì)
①儲(chǔ)存管理非結(jié)構(gòu)化數(shù)據(jù)及其元數(shù)據(jù)。包括數(shù)據(jù)的上傳、刪除、調(diào)用以及元數(shù)據(jù)的增、刪、改、查等。
②實(shí)現(xiàn)數(shù)據(jù)的借閱申請(qǐng)、審批、下載與權(quán)限管理等功能。同時(shí),系統(tǒng)的設(shè)計(jì)需遵循國(guó)家及行業(yè)相關(guān)標(biāo)準(zhǔn),以實(shí)用、標(biāo)準(zhǔn)、安全和可擴(kuò)展為原則的前提下進(jìn)行,同時(shí)為與“地質(zhì)云”資源管理系統(tǒng)對(duì)接預(yù)留接口(汪艷梅,2020)。
系統(tǒng)的基礎(chǔ)設(shè)施即服務(wù)層包括網(wǎng)絡(luò)設(shè)備、服務(wù)器等硬件設(shè)施以及虛擬化平臺(tái)和虛擬化操作系統(tǒng)等軟件環(huán)境,提供有色地質(zhì)資料管理系統(tǒng)運(yùn)行的硬件、網(wǎng)絡(luò)基礎(chǔ)。系統(tǒng)部署在Win2008 Server R2環(huán)境的服務(wù)器內(nèi),借閱者和管理者可在局域網(wǎng)內(nèi)直接訪問(wèn)服務(wù)器的IIS服務(wù),也可通過(guò)網(wǎng)關(guān)設(shè)備遠(yuǎn)程撥號(hào)進(jìn)入局域網(wǎng)使用系統(tǒng)(譚永杰,2016)。
數(shù)據(jù)即服務(wù)層包含數(shù)據(jù)庫(kù)管理系統(tǒng)SQL Server,實(shí)體數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)含有兩部分內(nèi)容:在數(shù)字化加工環(huán)節(jié)提取出的全體數(shù)據(jù)的元數(shù)據(jù)(繆謹(jǐn)勵(lì)等,2020)與有色地質(zhì)資料中以數(shù)據(jù)庫(kù)形式存儲(chǔ)的數(shù)據(jù)(任曉霞等,2019)。非結(jié)構(gòu)化數(shù)據(jù)包含數(shù)字化加工環(huán)節(jié)生產(chǎn)出的文檔、圖件等。
應(yīng)用即服務(wù)層包含兩個(gè)功能模塊:有色地質(zhì)數(shù)據(jù)管理模塊、有色地質(zhì)資料借閱模塊。兩個(gè)模塊統(tǒng)一認(rèn)證登陸。管理模塊中包含數(shù)據(jù)管理、用戶管理、權(quán)限管理、借閱審批等四方面的主要功能。數(shù)據(jù)管理功能包括對(duì)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的增、刪、改、查。用戶管理功能包括對(duì)借閱用戶的增加、刪除與用戶角色的設(shè)置(高學(xué)正等,2018)。權(quán)限管理為資料設(shè)置權(quán)限,實(shí)現(xiàn)特定的數(shù)據(jù)只向特定的用戶組開(kāi)放,如某些特定的結(jié)構(gòu)化數(shù)據(jù)只對(duì)借閱用戶組開(kāi)放其元數(shù)據(jù)的查詢功能,從而實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)管理與高效利用(高振記等,2018)。借閱審批功能包括對(duì)接收到的借閱申請(qǐng)進(jìn)行審批、反饋意見(jiàn)等功能。
有色地質(zhì)資料借閱模塊是地質(zhì)工作者借閱資料的主模塊,包含資料檢索功能、折疊菜單分類功能。資料檢索功能包含對(duì)資料的關(guān)鍵字檢索、多條件檢索、檢索結(jié)果展示等。折疊菜單分類功能展示資料的不同類別,并設(shè)計(jì)折疊隱藏功能,單擊某一級(jí)菜單后,即可展示分布于該級(jí)菜單下的檢索結(jié)果。
有色地質(zhì)資料管理系統(tǒng)已完成搭建并通過(guò)測(cè)試,系統(tǒng)界面見(jiàn)圖3。經(jīng)過(guò)試運(yùn)行階段的探索、完善,北京有色節(jié)點(diǎn)制定了《有色地質(zhì)數(shù)據(jù)權(quán)限管理辦法》,對(duì)資料的敏感程度及其權(quán)限的管理辦法進(jìn)行明確;制定了《有色地質(zhì)資料復(fù)制借閱管理辦法》,劃分不同敏感程度的有色地質(zhì)資料的服務(wù)方式,補(bǔ)充線下共享的服務(wù)方式;制定了《有色地質(zhì)數(shù)據(jù)管理系統(tǒng)運(yùn)行維護(hù)管理辦法》,對(duì)系統(tǒng)的數(shù)據(jù)上傳、修改、刪除以及用戶管理、權(quán)限管理等運(yùn)維工作進(jìn)行了明確劃分(梁虹等,2020)。
圖3 有色地質(zhì)資料管理系統(tǒng)界面
結(jié)合試運(yùn)行階段的使用情況分析,對(duì)系統(tǒng)的元數(shù)據(jù)批量導(dǎo)入功能進(jìn)行優(yōu)化,增強(qiáng)穩(wěn)定性。弱化對(duì)于元數(shù)據(jù)導(dǎo)入過(guò)程中對(duì)必填字段的檢查,提升導(dǎo)入效率(張麗華,2020)。
通過(guò)有色地質(zhì)資料數(shù)字化與信息化建設(shè)工作,梳理查清了館藏的有色地質(zhì)資料情況,完成了資料的數(shù)字化工作,并按規(guī)范提取了資料的元數(shù)據(jù)。設(shè)計(jì)建設(shè)有色地質(zhì)資料管理系統(tǒng),完成元數(shù)據(jù)、數(shù)據(jù)入庫(kù),實(shí)現(xiàn)了在線查詢、借閱、管理有色地質(zhì)資料,使原有的紙介質(zhì)資料,零散分布的電子資料得到充分運(yùn)用(陳建平等,2017),并通過(guò)“地質(zhì)云·北京有色”節(jié)點(diǎn)向社會(huì)發(fā)布共享。截止2020年末,提供有色地質(zhì)產(chǎn)品服務(wù)3000余件次,服務(wù)對(duì)象包括高校、地勘單位、有色地勘單位等,取得了良好的社會(huì)效益。因此倡導(dǎo)各有色行業(yè)單位盡快開(kāi)展有色地質(zhì)資料數(shù)字化與信息化建設(shè)工作。
關(guān)于有色地質(zhì)資料的數(shù)字化需嚴(yán)格遵守國(guó)家相關(guān)法律與《地質(zhì)資料管理?xiàng)l例》、《涉密地質(zhì)資料管理細(xì)則》等法規(guī)。對(duì)于數(shù)字化工作與信息化建設(shè)的建議如下:
(1)非涉密但內(nèi)容敏感,即公開(kāi)后會(huì)造成一定范圍或一定程度社會(huì)影響的有色地質(zhì)數(shù)據(jù),以及涉及單位或個(gè)人利益等的有色地質(zhì)數(shù)據(jù),可采取“只提供部分元數(shù)據(jù)”的方式進(jìn)行共享。
(2)元數(shù)據(jù)著錄的字段及其字典值的設(shè)計(jì)建議由有色地質(zhì)檔案管理人員參與完成,數(shù)字化加工完成后形成的文件級(jí)目錄、元數(shù)據(jù)、電子文檔應(yīng)進(jìn)行異地備份、多介質(zhì)備份。
(3)系統(tǒng)設(shè)計(jì)工作需地質(zhì)專家與信息化專業(yè)人員共同參與,保障系統(tǒng)滿足地質(zhì)人員需求且結(jié)構(gòu)穩(wěn)定易于運(yùn)維。