高學(xué)正,孔昭煜,李曉蕾,賈麗瓊
(1.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037; 2.全國(guó)地質(zhì)資料館,北京 100037)
地質(zhì)資料是地質(zhì)工作的真實(shí)記錄與成果結(jié)晶,兼具專業(yè)性與檔案性,對(duì)于現(xiàn)勢(shì)性地質(zhì)工作具有指導(dǎo)和參考意義[1-2]。地質(zhì)資料的管理與服務(wù)是開展地質(zhì)工作的重要基礎(chǔ)環(huán)節(jié),為我國(guó)能源保障與資源安全做出了重要貢獻(xiàn)[3]。隨著信息時(shí)代的到來,服務(wù)需求日益多元化[4],科學(xué)管理、快速提供、精準(zhǔn)服務(wù)已成為我國(guó)地質(zhì)資料館藏機(jī)構(gòu)面臨的重要命題。元數(shù)據(jù)作為數(shù)據(jù)管理與服務(wù)的基礎(chǔ),在地質(zhì)數(shù)字化服務(wù)方面發(fā)揮著核心作用[5],也成為了地質(zhì)資料館藏機(jī)構(gòu)持續(xù)提供權(quán)威、高效服務(wù)的助推器。
數(shù)字地質(zhì)資料館是以數(shù)字資源為核心的資料館,面向數(shù)字資源管理、面向新技術(shù)環(huán)境下社會(huì)化服務(wù)需求,以現(xiàn)代信息技術(shù)改造傳統(tǒng)工作流程,匯聚全國(guó)地質(zhì)數(shù)字資源,集合了各地質(zhì)學(xué)科和各專業(yè)的地質(zhì)數(shù)據(jù)[6],能夠向社會(huì)提供公益權(quán)威、開放穩(wěn)定、持續(xù)發(fā)展的地質(zhì)信息服務(wù)的國(guó)家級(jí)地質(zhì)信息資源基礎(chǔ)設(shè)施[7]。簡(jiǎn)而言之,數(shù)字地質(zhì)資料館是用數(shù)字技術(shù)處理、存儲(chǔ)、發(fā)布數(shù)字形式的地質(zhì)工作記錄與地質(zhì)工作成果的分布式信息系統(tǒng)。
數(shù)字資料館是一個(gè)不斷建設(shè)持續(xù)運(yùn)行的系統(tǒng),從建設(shè)與運(yùn)行的角度,其技術(shù)系統(tǒng)包括一站式門戶與關(guān)聯(lián)網(wǎng)站系統(tǒng)、應(yīng)用服務(wù)系統(tǒng)與支撐系統(tǒng)、元數(shù)據(jù)、框架數(shù)據(jù)和地質(zhì)專題數(shù)據(jù)構(gòu)成的數(shù)據(jù)庫體系、標(biāo)準(zhǔn)規(guī)范與政策、技術(shù)平臺(tái)等六大部分[8]。
地質(zhì)資料元數(shù)據(jù)與數(shù)據(jù)目錄是數(shù)字地質(zhì)資料館的核心內(nèi)容,包括館藏資料數(shù)據(jù)目錄、案卷級(jí)和文件級(jí)元數(shù)據(jù)信息、各類地質(zhì)數(shù)據(jù)的衍生產(chǎn)品元數(shù)據(jù)(數(shù)據(jù)產(chǎn)品元數(shù)據(jù)、地質(zhì)專題與應(yīng)用元數(shù)據(jù)、地質(zhì)文獻(xiàn)元數(shù)據(jù)、在線服務(wù)元數(shù)據(jù)、地質(zhì)圖庫元數(shù)據(jù)等)。標(biāo)準(zhǔn)規(guī)范與政策是系統(tǒng)各部分建設(shè)的準(zhǔn)則和指導(dǎo),系統(tǒng)各構(gòu)件建設(shè)和運(yùn)行,要根據(jù)建設(shè)內(nèi)容,按照相應(yīng)的標(biāo)準(zhǔn)和規(guī)范進(jìn)行,是保證系統(tǒng)各部分能夠有效互聯(lián)互通的基礎(chǔ);技術(shù)平臺(tái)包括計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)、安全保障系統(tǒng)。前者為數(shù)字資料館各個(gè)構(gòu)件的信息交換提供互連互通的基礎(chǔ),使之形成一個(gè)整體。后者用于在各個(gè)層面保障計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)、數(shù)字信息庫系統(tǒng)、各類應(yīng)用與支撐系統(tǒng)的運(yùn)行安全;信息體系由實(shí)體資料、電子文檔與數(shù)據(jù)庫構(gòu)成,是數(shù)據(jù)服務(wù)提供基礎(chǔ),同時(shí)信息體系也是其余構(gòu)件的主要工作對(duì)象;應(yīng)用服務(wù)系統(tǒng)與支撐系統(tǒng)是各類終端用戶和應(yīng)用系統(tǒng)類用戶獲得系統(tǒng)服務(wù)能力的平臺(tái),同時(shí)也是數(shù)字地質(zhì)資料館內(nèi)部運(yùn)轉(zhuǎn),開展數(shù)據(jù)組織管理和整合處理的平臺(tái)。資料數(shù)據(jù)成果包括館藏資料成果、研發(fā)的地質(zhì)數(shù)據(jù)產(chǎn)品以及其他渠道獲取的數(shù)據(jù)信息。
地質(zhì)資料的內(nèi)容與組織結(jié)構(gòu)較為復(fù)雜,具有工作周期長(zhǎng)、涉及專業(yè)多、數(shù)據(jù)量大、格式多樣、難以重復(fù)獲取等特點(diǎn)。成果地質(zhì)資料以檔為基本單元,內(nèi)容十分豐富,不僅有多格式的文檔資料,還包括有附圖、附表、附件等內(nèi)容。地質(zhì)資料具有現(xiàn)代信息數(shù)據(jù)的屬性,同時(shí)具有極強(qiáng)的現(xiàn)勢(shì)性服務(wù)價(jià)值,因此,能夠?qū)ζ渌休d的信息內(nèi)容進(jìn)行準(zhǔn)確地描述至關(guān)重要。
為加快地質(zhì)資料元數(shù)據(jù)的編目速度,尤其是文件級(jí)地質(zhì)資料元數(shù)據(jù)的建設(shè),實(shí)現(xiàn)地質(zhì)資料的精細(xì)化管理和高質(zhì)量服務(wù),全國(guó)地質(zhì)資料館開發(fā)建設(shè)了地質(zhì)資料元數(shù)據(jù)編目系統(tǒng),并利用這套系統(tǒng)開展了館藏地質(zhì)資料元數(shù)據(jù)的采集生產(chǎn)。系統(tǒng)以自動(dòng)化采集的方式完成主要是元數(shù)據(jù)項(xiàng)的快速建立,并在人工數(shù)據(jù)采集過程中使用了流程化模型實(shí)現(xiàn)數(shù)據(jù)質(zhì)量控制,數(shù)據(jù)需要經(jīng)過自檢、互檢和抽檢三級(jí)質(zhì)量檢查方可入庫。元數(shù)據(jù)與每件存檔數(shù)據(jù)都進(jìn)行了數(shù)據(jù)關(guān)聯(lián),并全部存儲(chǔ)于數(shù)據(jù)庫中,使百萬件數(shù)據(jù)的檢索與獲取變得高效便捷,安全可靠。
圖1 地質(zhì)資料元數(shù)據(jù)編目系統(tǒng)功能結(jié)構(gòu)
Fig.1 Functional structure of geological data metadata cataloging system
系統(tǒng)的功能包括用戶管理、數(shù)據(jù)導(dǎo)入、信息提取、任務(wù)分配、案卷級(jí)和文件級(jí)編目、質(zhì)量檢查、元數(shù)據(jù)查詢、數(shù)據(jù)統(tǒng)計(jì)以及成果導(dǎo)出,數(shù)據(jù)生產(chǎn)過程由系統(tǒng)自動(dòng)完成和人機(jī)交互來共同完成,主要的流程包括提取案卷級(jí)元數(shù)據(jù)內(nèi)容及文件級(jí)題名清單、自動(dòng)生成默認(rèn)項(xiàng)、人工編目、質(zhì)量檢查、數(shù)據(jù)入庫和數(shù)據(jù)庫備份等6個(gè)步驟。
地質(zhì)服務(wù),目錄先行。近年來,隨著數(shù)字地質(zhì)資料館的不斷建設(shè)與發(fā)展,元數(shù)據(jù)編目工作也取得了顯著的成就。經(jīng)過多年的積累與實(shí)踐,以館藏?cái)?shù)據(jù)目錄為基礎(chǔ),以地質(zhì)資料元數(shù)據(jù)編目系統(tǒng)為工作手段,全國(guó)地質(zhì)資料館取得了大量有價(jià)值的元數(shù)據(jù)成果,從而進(jìn)一步明確了成果地質(zhì)資料中“檔”和“件”的關(guān)系,同時(shí)也建立了“檔”和“庫”的關(guān)聯(lián),促進(jìn)館藏機(jī)構(gòu)全面掌握館內(nèi)數(shù)據(jù)內(nèi)容,實(shí)現(xiàn)了數(shù)據(jù)的精細(xì)化、科學(xué)化管理。另一方面,元數(shù)據(jù)已經(jīng)成為提高社會(huì)化服務(wù)水平的重要抓手。不同于實(shí)體數(shù)據(jù),目錄的處理相對(duì)簡(jiǎn)單,及時(shí)向用戶公開進(jìn)館資料的基本信息,可以極大地滿足地質(zhì)資料的服務(wù)利用要求,為用戶了解、跟蹤和使用地質(zhì)資料提供了便利。截至目前,全國(guó)地質(zhì)資料館地質(zhì)資料元數(shù)據(jù)庫包含文件級(jí)元數(shù)據(jù)5 203 080條,其中矢量數(shù)據(jù)共計(jì)2 454 669條,圖文數(shù)字化數(shù)據(jù)共計(jì)27 848 411條,見表1。
表1 館藏地質(zhì)資料元數(shù)據(jù)分類別統(tǒng)計(jì)
數(shù)據(jù)目錄和元數(shù)據(jù)是用戶開展資源檢索的基礎(chǔ),同時(shí)也是地質(zhì)資料館藏機(jī)構(gòu)滿足地質(zhì)資料多元化需求的必要條件。隨著網(wǎng)絡(luò)服務(wù)的日益發(fā)達(dá)和地質(zhì)資料數(shù)字化的完成,全國(guó)地質(zhì)資料館基于館藏目錄和元數(shù)據(jù)成果研發(fā)了多種地質(zhì)資料數(shù)據(jù)產(chǎn)品,并通過數(shù)字地質(zhì)資料館進(jìn)行了發(fā)布,公眾可以方便的進(jìn)行查詢,取得了很好的實(shí)踐效果。
1) 地質(zhì)資料網(wǎng)絡(luò)服務(wù)產(chǎn)品建設(shè)。作為由“紙”向“電”轉(zhuǎn)換的代表性內(nèi)容,地質(zhì)資料網(wǎng)絡(luò)服務(wù)產(chǎn)品受到了廣大用戶的歡迎,已經(jīng)成為數(shù)字地質(zhì)資料館開展網(wǎng)絡(luò)服務(wù)的重要組成內(nèi)容,連同元數(shù)據(jù)成果一同發(fā)布,使用戶實(shí)現(xiàn)了對(duì)地質(zhì)資料的一站式查詢,體現(xiàn)了網(wǎng)絡(luò)服務(wù)的跨時(shí)空、交互式、不間斷、范圍廣的特點(diǎn)。通過對(duì)用戶點(diǎn)擊行為和關(guān)注度的監(jiān)督與統(tǒng)計(jì),館藏機(jī)構(gòu)可以更好的追蹤用戶的使用習(xí)慣,更好地了解用戶需求,并根據(jù)需求持續(xù)改進(jìn)產(chǎn)品內(nèi)容,更好的滿足用戶,形成了地質(zhì)資料服務(wù)的良性循環(huán)。
2) 地質(zhì)資料元數(shù)據(jù)互聯(lián)互查平臺(tái)實(shí)踐。地質(zhì)資料元數(shù)據(jù)互聯(lián)互查平臺(tái)是在開展元數(shù)據(jù)互聯(lián)互查技術(shù)、國(guó)際標(biāo)準(zhǔn)、數(shù)據(jù)接口與數(shù)據(jù)語義[9]技術(shù)的研究基礎(chǔ)上逐步建設(shè)完成的?;诖?,全國(guó)地質(zhì)資料館實(shí)現(xiàn)了與我國(guó)測(cè)繪部門、地理信息部門,以及相關(guān)國(guó)際地質(zhì)調(diào)查機(jī)構(gòu)的元數(shù)據(jù)互聯(lián)查詢。平臺(tái)很好地體現(xiàn)了跨越空間的語義檢索,實(shí)現(xiàn)了不同網(wǎng)絡(luò)環(huán)境、不同職責(zé)部門開展多層次、多類別用戶的在線元數(shù)據(jù)服務(wù),極大地促進(jìn)了地質(zhì)資料信息資源的共享,擴(kuò)大了地質(zhì)資料的影響范圍,起到良好的宣傳和傳播效果。通過元數(shù)據(jù)互聯(lián)互查技術(shù)的實(shí)踐,對(duì)外實(shí)現(xiàn)了規(guī)范化化元數(shù)據(jù)服務(wù)的接入,向互查方提供了地質(zhì)資料元數(shù)據(jù)的查詢檢索接口。對(duì)內(nèi)依據(jù)互查要求完善了元數(shù)據(jù)編目系統(tǒng)功能,補(bǔ)充了數(shù)據(jù)采集內(nèi)容,建立了數(shù)據(jù)的簡(jiǎn)單統(tǒng)計(jì)與導(dǎo)出機(jī)制。在內(nèi)、外網(wǎng)絡(luò)環(huán)境下提供的元數(shù)據(jù)互聯(lián)互查服務(wù),有效地支撐了地質(zhì)資料數(shù)據(jù)管理與服務(wù)工作的開展。
1) 元數(shù)據(jù)資源優(yōu)勢(shì)沒有得到很好的發(fā)揮。我國(guó)地質(zhì)資料館藏機(jī)構(gòu)建設(shè)程度不一,尤其是信息化水平和能力有較大差別,部分機(jī)構(gòu)的信息系統(tǒng)和網(wǎng)絡(luò)支撐受資金和人力因素限制建設(shè)效果不佳。大量地質(zhì)信息數(shù)據(jù)內(nèi)容沒有整理或沒有條件進(jìn)行網(wǎng)絡(luò)發(fā)布,用戶獲取資料還只能依賴到館申請(qǐng),沒有體現(xiàn)出數(shù)字資源優(yōu)勢(shì)。
2) 元數(shù)據(jù)采編的標(biāo)準(zhǔn)不一。當(dāng)前,地質(zhì)資料館藏機(jī)構(gòu)的目錄和元數(shù)據(jù)編目標(biāo)準(zhǔn)沒有進(jìn)行統(tǒng)一,元數(shù)據(jù)編目尤其是文件級(jí)元數(shù)據(jù)編目細(xì)粒度程度也存在不一致的情況,元數(shù)據(jù)字段內(nèi)容和編目細(xì)則沒有進(jìn)行統(tǒng)一規(guī)范。各級(jí)館藏機(jī)構(gòu)所使用的編目系統(tǒng)以及系統(tǒng)的接口沒有進(jìn)行統(tǒng)一,甚至部分館藏機(jī)構(gòu)并沒有開展文件級(jí)元數(shù)據(jù)的編目工作,對(duì)后期開展元數(shù)據(jù)開放與共享工作造成困難。
3) 館藏機(jī)構(gòu)間缺乏數(shù)據(jù)合作與共享。地質(zhì)資料數(shù)字資源作為一種信息資源,利用信息技術(shù)實(shí)現(xiàn)其所蘊(yùn)含的巨大價(jià)值至關(guān)重要。但截至目前,地質(zhì)資料館藏機(jī)構(gòu)間信息資源集成匯聚程度不夠、資源開放共享程度不高、合作創(chuàng)新能力不足。這些問題的存在,造成了資金資源浪費(fèi),重復(fù)工作現(xiàn)象的存在,拖慢元數(shù)據(jù)的編目速度與水平,不利于地質(zhì)資料的管理和服務(wù)工作的開展。
4) 元數(shù)據(jù)采集與發(fā)布內(nèi)容不全面。大多數(shù)地質(zhì)資料館藏機(jī)構(gòu)發(fā)布內(nèi)容僅僅為館藏資料目錄,缺乏元數(shù)據(jù)內(nèi)部生產(chǎn)和管理機(jī)制,對(duì)于所研發(fā)的地質(zhì)資料產(chǎn)品、災(zāi)害應(yīng)急服務(wù)、公開版地質(zhì)圖產(chǎn)品沒有開展元數(shù)據(jù)的采集與發(fā)布,用戶若需要相關(guān)資料只能到館獲取,影響網(wǎng)絡(luò)數(shù)據(jù)服務(wù)利用的開展。
在信息技術(shù)高速發(fā)展的當(dāng)今,地質(zhì)資料信息資源的管理、組織、發(fā)布與服務(wù)面臨巨大的機(jī)遇與挑戰(zhàn)。利用信息化技術(shù),建立地質(zhì)信息數(shù)字化管理與服務(wù)平臺(tái),將地質(zhì)元數(shù)據(jù)成果最大范圍的進(jìn)行社會(huì)服務(wù),讓“數(shù)據(jù)多跑腿,群眾少跑路”成為地質(zhì)資料館藏機(jī)構(gòu)發(fā)展的方向和目標(biāo)。
1) 統(tǒng)一元數(shù)據(jù)采編標(biāo)準(zhǔn)。無規(guī)矩不成方圓,元數(shù)據(jù)的規(guī)范化編目是開展元數(shù)據(jù)管理和進(jìn)行元數(shù)據(jù)服務(wù)的基礎(chǔ),也可以為地質(zhì)資料數(shù)字信息的管理提供基礎(chǔ)。通過參考圖書館界與檔案界的目錄和元數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合地質(zhì)資料的實(shí)際工作特點(diǎn),確立符合地質(zhì)資料工作規(guī)律與特點(diǎn)的各級(jí)館藏機(jī)構(gòu)可以統(tǒng)一執(zhí)行的元數(shù)據(jù)編目標(biāo)準(zhǔn)。通過利用數(shù)字資源唯一標(biāo)識(shí)符,為全國(guó)每一檔、每一件地質(zhì)資料進(jìn)行唯一身份標(biāo)識(shí),解決館藏機(jī)構(gòu)間檔號(hào)不一致的問題,同時(shí)提供網(wǎng)絡(luò)環(huán)境下可解析的、持久的、可語義互操作的標(biāo)識(shí)機(jī)制,為開展分布式環(huán)境下地質(zhì)資料數(shù)字資源的集成、管理和服務(wù)提供有力支持。
2) 建立多元的元數(shù)據(jù)編目機(jī)制。在在線服務(wù)、數(shù)據(jù)產(chǎn)品大量涌現(xiàn)的情況下,地質(zhì)資料的目錄和元數(shù)據(jù)并不僅局限于館藏資料一種,支持館藏機(jī)構(gòu)的各類數(shù)據(jù)庫和相關(guān)數(shù)據(jù)產(chǎn)品的元數(shù)據(jù)和傳統(tǒng)館藏元數(shù)據(jù)也不完全一致,做好館藏資料元數(shù)據(jù)的編目的同時(shí),需建立更為多元的元數(shù)據(jù)采編機(jī)制,開展更大范圍的地質(zhì)元數(shù)據(jù)編目工作,從而豐富元數(shù)據(jù)內(nèi)容提供用戶進(jìn)行快速索取。
3) 開展元數(shù)據(jù)合作創(chuàng)新。通過館藏目錄的對(duì)接,推進(jìn)館藏機(jī)構(gòu)間元數(shù)據(jù)的共享與交換,建立數(shù)據(jù)共享交換系統(tǒng),形成數(shù)據(jù)和目錄的共享工作機(jī)制。加強(qiáng)各機(jī)構(gòu)彼此聯(lián)系與創(chuàng)新合作,分享的元數(shù)建設(shè)目成果,減少重復(fù)投資與建設(shè)。以點(diǎn)帶面,促進(jìn)信息資源編目的同時(shí),提高館藏機(jī)構(gòu)的信息化能力和技術(shù)水平。通過聯(lián)合編目工作的開展提高我國(guó)地質(zhì)資料元數(shù)據(jù)的編目速度,使元數(shù)據(jù)管理與服務(wù)達(dá)到快速聚集、組織有序、分工明確、精準(zhǔn)服務(wù)的目標(biāo),最大化的發(fā)揮地質(zhì)資料的巨大價(jià)值。
4) 開展多維多層次的元數(shù)據(jù)服務(wù)。對(duì)國(guó)內(nèi)外信息系統(tǒng)建設(shè)進(jìn)行調(diào)研,借鑒其先進(jìn)經(jīng)驗(yàn)與做法,探索開展多維度、多樣化、多展現(xiàn)形式的目錄服務(wù)模式。提高實(shí)體數(shù)據(jù)與目錄服務(wù)信息的集成整合程度,開展關(guān)聯(lián)數(shù)據(jù)、數(shù)據(jù)挖掘、語義檢索、知識(shí)發(fā)現(xiàn)、人工智能等數(shù)據(jù)發(fā)現(xiàn)應(yīng)用的技術(shù)研究工作[9-10],為用戶提供更為豐富和準(zhǔn)確的信息。針對(duì)特定用戶,在了解其需求的基礎(chǔ)上,開展元數(shù)據(jù)定制化服務(wù)并定期更新,多措并舉提高館藏機(jī)構(gòu)目錄和元數(shù)據(jù)資源的利用效率。