亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        我國檔案元數(shù)據(jù)互操作的現(xiàn)狀、問題和對策研究

        2023-05-30 23:38:07孔祥盛
        檔案管理 2023年1期

        摘 ?要:檔案元數(shù)據(jù)互操作對檔案信息資源整合意義重大。通過分析我國新舊《檔案著錄規(guī)則》、不同格式檔案元數(shù)據(jù)標準、不同門類間檔案元數(shù)據(jù)標準和不同領(lǐng)域間檔案元數(shù)據(jù)的互操作情況,提出結(jié)構(gòu)、語義和技術(shù)三個層次的互操作問題,并從重視檔案元數(shù)據(jù)標準制定、切實提高檔案元數(shù)據(jù)質(zhì)量、加強檔案資源整合實踐和重視語義本體技術(shù)應(yīng)用四方面提出對策。

        關(guān)鍵詞:檔案元數(shù)據(jù);檔案著錄;互操作

        Abstract: Archival metadata interoperability is of great significance to the integration of archival information resources. By analyzing the interoperability of Rules for Archival Description(1999) and Rules for Archival Description(2022), archival metadata standards in different formats, archival metadata standards among different categories and archival metadata among different fields, we propose the interoperability problems at three levels: structure, semantics and technology, and then we propose four countermeasures: attaching importance to the formulation of archival metadata standards, effectively improving the quality of archival metadata, strengthening the practice of archival resource integration and attaching importance to the application of semantic ontology technology.

        Keywords: ?Archival metadata; Archival description; Interoperability

        從“互聯(lián)網(wǎng)+政務(wù)”“一網(wǎng)通辦”的服務(wù)要求,到政府開放數(shù)據(jù)、開放科學數(shù)據(jù)的興起,大數(shù)據(jù)時代給檔案信息資源整合開放提出了更新、更高的互操作要求。2021年中辦、國辦發(fā)布《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》,要求“加強本區(qū)域檔案信息資源共享平臺建設(shè),實現(xiàn)本區(qū)域各級綜合檔案館互聯(lián)互通,推動共享平臺向機關(guān)等單位延伸,促進檔案信息資源館際、館室共建互通,推進檔案信息資源跨層級跨部門共享利用”。檔案元數(shù)據(jù)互操作是在數(shù)字轉(zhuǎn)型、在線公共服務(wù)和開放數(shù)據(jù)背景下的新需求,也是檔案資源整合和提供多元利用服務(wù)的必經(jīng)之路。

        1 引言

        1.1 概念界定?;ゲ僮魇侵竷蓚€或多個系統(tǒng)及其組成部分之間交換數(shù)據(jù)并相互使用已交換數(shù)據(jù)以實現(xiàn)協(xié)同共享的能力?;ゲ僮鞲拍钭钤鐟?yīng)用于鐵路工程系統(tǒng)領(lǐng)域,用于解決鐵路和列車零部件、信號系統(tǒng)以及操作規(guī)范等兼容性問題。隨后,開始應(yīng)用于各個領(lǐng)域的信息系統(tǒng)中,如軍事領(lǐng)域美軍基于C4I作戰(zhàn)指揮系統(tǒng)、電子政務(wù)領(lǐng)域的泛歐洲互操作框架(EIF)、電子醫(yī)療領(lǐng)域的健康信息系統(tǒng)等。

        所謂互操作,那么就至少需要存在兩套不同系統(tǒng)。如果系統(tǒng)間采用相同的數(shù)據(jù)編碼、命名、格式、結(jié)構(gòu)和傳輸方式,那么就不存在元數(shù)據(jù)互操作問題。一般而言,規(guī)定元數(shù)據(jù)的元素、結(jié)構(gòu)和描述方法等規(guī)則集合稱之為元數(shù)據(jù)標準或元數(shù)據(jù)方案。因此,本文所討論的元數(shù)據(jù)互操作是指不同元數(shù)據(jù)標準或方案之間映射問題。

        1.2 文獻綜述。元數(shù)據(jù)互操作并不是一個新的研究領(lǐng)域,在圖書情報、電子政務(wù)等領(lǐng)域較早受到廣泛關(guān)注。研究主要集中在二個方面:

        一是元數(shù)據(jù)互操作的層次和方法。國內(nèi)張曉林[1]較早提出應(yīng)從元數(shù)據(jù)結(jié)構(gòu)分析,從數(shù)據(jù)內(nèi)容、元素語義、編碼規(guī)則等七個層面來實現(xiàn)元數(shù)據(jù)互操作,并指出其中語義、描述規(guī)則和語法結(jié)構(gòu)三項互操作是核心,后續(xù)張東[2]、畢強[3]、彭靜[4]等也提出了各自關(guān)于元數(shù)據(jù)互操作的劃分層次觀點。國外方面,William Y. Arms等[5]根據(jù)實現(xiàn)互操作的效果和性價比程度將元數(shù)據(jù)互操作分為聯(lián)盟(Federation)、采集(Harvesting)和搜集(Gathering)三個級別。Lois Mai Chan 和Marcia Lei Zeng,[6,7]從元數(shù)據(jù)標準構(gòu)建、元數(shù)據(jù)記錄產(chǎn)生到信息檢索應(yīng)用的全過程將元數(shù)據(jù)互操作分為模式級(Schema)、記錄級(Record)和倉儲級(Repository),并總結(jié)了14種互操作方法,對后續(xù)學者研究元數(shù)據(jù)互操作范式影響深遠??偟膩砜矗瑥恼Z義、語法、結(jié)構(gòu)等層面的互操作已基本成為共識。

        二是元數(shù)據(jù)互操作核心技術(shù),主要可以概括為互操作規(guī)范、互操作描述語言、數(shù)據(jù)轉(zhuǎn)換技術(shù)和符號標識技術(shù)四類,其中互操作規(guī)范包括OAI、Z39.50等,互操作描述語言包括XML、RDF、JSON等,數(shù)據(jù)轉(zhuǎn)換技術(shù)包括中間庫、WebService、XSLT、RestfulAPI等,符號標識技術(shù)主要指唯一標識符如DOI、Handle、CSTR、ORCID等。

        目前國內(nèi)檔案領(lǐng)域關(guān)于元數(shù)據(jù)互操作的研究成果較少,主要包括元數(shù)據(jù)互操作協(xié)議[8-11]、元數(shù)據(jù)互操作技術(shù)[12-14]以及互操作框架構(gòu)建[15]等,大多以理論層面介紹和分析為主,缺乏互操作實際應(yīng)用場景的視角研究。

        2 我國檔案元數(shù)據(jù)互操作現(xiàn)狀

        本文篩選了我國有代表性的元數(shù)據(jù)標準或方案,包括通用的著錄規(guī)則以及不同門類、不同領(lǐng)域的元數(shù)據(jù)方案,通過映射的方式對比總結(jié)互操作現(xiàn)狀。美國檔案學者David Wallance曾指出“元數(shù)據(jù)是著錄的替代策略(an alternative strategy)”,[16]劉越男也曾提出“電子環(huán)境中可以將文件管理元數(shù)據(jù)理解為著錄信息”。理論上所有的元數(shù)據(jù)標準/方案中值域和類型都應(yīng)遵循通用的《檔案著錄規(guī)則》的相應(yīng)要求,故本文也將檔案著錄標準視為元數(shù)據(jù)標準的子集,納入討論范圍。

        2.1 新舊《檔案著錄規(guī)則》的互操作情況。2022年,國家檔案局時隔23年正式發(fā)布了修訂《檔案著錄規(guī)則》(以下簡稱“《規(guī)則》”),新《規(guī)則》在實現(xiàn)多級著錄、調(diào)整著錄項目和適應(yīng)電子環(huán)境的著錄等方面做了較大調(diào)整。[17]

        從著錄項來看,新《規(guī)則》較好地兼容了舊《規(guī)則》原有的著錄項目,僅刪除了不常用的“電子文檔號”,以及將“提要”修改為“范圍和提要”,其他著錄項目均得到保留。但是新《規(guī)則》同時新增了17個著錄項,其中必著的有著錄層級、開放標識等,這也意味著從舊《規(guī)則》轉(zhuǎn)向新《規(guī)則》時可能需要補充缺失的必要信息。

        從著錄層級來看,舊《規(guī)則》僅適用于文件級、案卷級的著錄,而新《規(guī)則》著錄層級包括文件級、案卷級、類別級和全宗級四類,其中包含一些必填著錄項如著錄層級(所有)、檔號(所有)、題名(所有)、檔案保管沿革(全宗級)等,這導(dǎo)致新舊《規(guī)則》相互映射時可能無法對應(yīng)層級,造成互操作障礙。

        從著錄細則來看,由于舊《規(guī)則》是基于傳統(tǒng)手工整理和檢索需求編制,如今看來許多格式要求已不再有必要,因此新《規(guī)則》在內(nèi)容格式上也做了修改。比如,舊《規(guī)則》要求在第一個責任者前加“/”,新《規(guī)則》無此要求;對于文件責任者不完整、有誤的情況,舊《規(guī)則》要求照原文著錄,并直接附上加“[]”的考證結(jié)果,新《規(guī)則》要求將原文責任者注明在附注項目;舊《規(guī)則》要求主題詞和關(guān)鍵詞之間用空格分割,新《規(guī)則》要求用“;”分割。這種格式上細微差異雖然不影響人的正常識讀,但是會影響機器理解,為后續(xù)資源開發(fā)帶來阻礙。

        2.2 我國不同格式檔案元數(shù)據(jù)標準的互操作情況。我國現(xiàn)行的通用檔案元數(shù)據(jù)標準主要包括基于置標語言的XML封裝格式(即《DA/T 48-2009 基于XML的電子文件封裝規(guī)范》和《DA/T 46-2009文書類電子文件元數(shù)據(jù)方案》)和基于MARC檔案機讀目錄格式(即《GB/T 20163-2006 中國檔案機讀目錄格式》)兩類。

        從結(jié)構(gòu)上看,檔案機讀目錄數(shù)據(jù)由頭標區(qū)、目次區(qū)、數(shù)據(jù)區(qū)和記錄分隔符四部分構(gòu)成,其中數(shù)據(jù)區(qū)主要記錄著錄信息。一條機讀目錄數(shù)據(jù)可對應(yīng)一個全宗、類別、案卷或文件,整體呈現(xiàn)扁平的結(jié)構(gòu)?;赬ML封裝的檔案元數(shù)據(jù)由聲明、元素和注釋組成,其中元素包括標簽、文本、屬性等信息,且元素可以嵌套,整體呈現(xiàn)多層次的樹結(jié)構(gòu)。

        從著錄項數(shù)量上看,檔案機讀目錄格式包括10個記錄塊和77個字段,《文書類電子文件元數(shù)據(jù)方案》包括88個元素(如果加上封裝元數(shù)據(jù),共有129個),考慮到機讀目錄中的字段仍可包含多個子字段和數(shù)據(jù)元,因此檔案機讀目錄格式的著錄粒度實際上遠超過XML封裝格式的元數(shù)據(jù)。

        從映射情況看,兩種不同格式的元數(shù)據(jù)標準基本能夠相互映射,主要存在“一對多”或“多對一”映射障礙?!痘赬ML的電子文件封裝規(guī)范》只是封裝規(guī)范,要結(jié)合具體元數(shù)據(jù)方案使用,以《文書類電子文件元數(shù)據(jù)方案》為例,如:

        ①以日期著錄項為例,《文書類電子文件元數(shù)據(jù)方案》中的“日期”著錄項對應(yīng)《中國檔案機讀目錄格式》的“100通用處理數(shù)據(jù)”和“210檔案形成時間”兩個字段中數(shù)據(jù)元。

        ②《中國檔案機讀目錄格式》將“附注”分為一般性附注、標識號附注、編碼信息附注等25種不同類型的附注,而在《文書類電子文件元數(shù)據(jù)方案》中僅有“M75附注”一種,無法完整映射。

        ③《中國檔案機讀目錄格式》將“主題詞”分為受控主題詞(如600人名、601機關(guān)團體名、602家族名、606職能、607地名等)和非受控主題詞,可從多維度進行主題標引。而《文書類電子文件元數(shù)據(jù)方案》中僅有“M26主題詞”“M27關(guān)鍵詞”“M28人名”,兩者對于主題詞的詳略以及采用主題詞表、著錄規(guī)則不完全一致,無法完整準確映射。

        ④《文書類電子文件元數(shù)據(jù)方案》中“M87關(guān)系”字段的值域包括轉(zhuǎn)發(fā)/被轉(zhuǎn)發(fā)、來文/復(fù)文、正文/附件等若干常用關(guān)系,而《中國檔案機讀目錄格式》的“4--記錄連接塊”僅提供了繼承/由……繼承、替代/由……替代4種可選關(guān)系,無法完整映射。

        ⑤《文書類電子文件元數(shù)據(jù)方案》中“M56圖像壓縮方案”對應(yīng)《中國檔案機讀目錄格式》中的“135編碼數(shù)據(jù)字段:電子檔案”中子字段“電子檔案的壓縮級別”,雖然含義相近,但是值域范圍不同,無法準確映射。

        ⑥《中國檔案機讀目錄格式》中缺少關(guān)于電子簽名、權(quán)限管理、實體及實體關(guān)系相關(guān)的元數(shù)據(jù)項。《文書類電子文件元數(shù)據(jù)方案》中缺少關(guān)于著錄行為、國別地區(qū)、歷史沿革、獎懲、參見關(guān)聯(lián)等元數(shù)據(jù)項。

        雖然檔案機讀目錄格式是出于檔案數(shù)據(jù)共享、交換和傳輸?shù)哪康亩a(chǎn)生,但是由于結(jié)構(gòu)規(guī)則復(fù)雜、人工可讀性差等缺點,目前實際中應(yīng)用并不廣泛,因此互操作需求并不旺盛。

        2.3 我國不同門類間檔案元數(shù)據(jù)標準的互操作情況。我國目前針對電子文件/電子檔案的現(xiàn)行檔案元數(shù)據(jù)方案共涉及三個門類,分別是《DA/T 46-2009 文書類電子文件元數(shù)據(jù)方案》《DA/T 54-2014 照片類電子檔案元數(shù)據(jù)方案》和《DA/T 63-2017 錄音錄像類電子檔案元數(shù)據(jù)方案》。其中文書類的檔案元數(shù)據(jù)方案制定最早,為后續(xù)其他門類檔案元數(shù)據(jù)奠定了基礎(chǔ)。照片類和錄音錄像類院屬方案制定較晚,結(jié)構(gòu)和內(nèi)容上兩者較為相似,即使考慮各自個性化的元素,它們之間能夠相互映射元素的比例也分別達到了73.96%和72.34%。錄音錄像類電子檔案元數(shù)據(jù)方案作為制定最晚的元數(shù)據(jù)方案,在元數(shù)據(jù)項的數(shù)量上略多于其他兩者。

        《DA/T 46-2009 文書類電子文件元數(shù)據(jù)方案》《DA/T 54-2014 照片類電子檔案元數(shù)據(jù)方案》和《DA/T 63-2017 錄音錄像類電子檔案元數(shù)據(jù)方案》中必選元數(shù)據(jù)項映射關(guān)系如表1所示。考慮到涉及元數(shù)據(jù)項較多,表中僅展示了三個門類元數(shù)據(jù)方案中的必填項映射情況,可以發(fā)現(xiàn)主要存在以下映射問題:

        ①《文書類電子文件元數(shù)據(jù)方案》中“立檔單位名稱”“年度”“脫機載體編號”等字段無法映射到其他兩個門類元數(shù)據(jù)方案中。《照片類電子檔案元數(shù)據(jù)方案》中“生成方式”“圖像參數(shù)”等字段無法映射到其他兩個門類元數(shù)據(jù)方案中?!朵浺翡浵耦愲娮訖n案元數(shù)據(jù)方案》中“時間長度”等字段無法映射到其他兩個門類元數(shù)據(jù)方案中。

        表1 各類方案中必選元數(shù)據(jù)項映射關(guān)系

        ②由于容器型元數(shù)據(jù)并不實際著錄信息,因此容易出現(xiàn)容器型元數(shù)據(jù)與字符型元數(shù)據(jù)的映射障礙。如《文書類電子文件元數(shù)據(jù)方案》中“檔號”字段是需要組配多個元數(shù)據(jù)形成,無法直接對應(yīng)其他兩個門類元數(shù)據(jù)的中“檔號”字段。

        ③同樣的字段在不同元數(shù)據(jù)方案中的必選、可選或條件選屬性差異,導(dǎo)致無法完整映射。如“密級”在《文書類電子文件元數(shù)據(jù)方案》中屬于必填,但是在其他兩個門類元數(shù)據(jù)方案中屬于選填。

        ④同樣的字段實際定義不同,導(dǎo)致無法準確映射。如《錄音錄像類電子檔案元數(shù)據(jù)方案》中的“責任者”描述的是對錄音錄像內(nèi)容負有責任的組織或個人,而在《照片類電子檔案元數(shù)據(jù)方案》中與之含義相對應(yīng)的實際應(yīng)為“人物”字段,并不是名為“責任者(容器型)”的字段。

        ⑤相似字段在定義上有所差異,導(dǎo)致無法完整映射。如《照片類電子檔案元數(shù)據(jù)方案》中“軟件信息”字段包括創(chuàng)建、形成、處理電子檔案的軟件名稱、版本等信息,而對應(yīng)《文書類電子文件元數(shù)據(jù)方案》中“文檔創(chuàng)建程序”字段僅包含創(chuàng)建電子文件的軟件信息,在定義范圍上有所差異。

        2.4 我國不同領(lǐng)域間檔案元數(shù)據(jù)的互操作情況。除了按照檔案門類劃分元數(shù)據(jù),各領(lǐng)域也根據(jù)自身特點形成了各自的檔案元數(shù)據(jù),如《LD/T 03-2021 社會保險業(yè)務(wù)檔案元數(shù)據(jù)規(guī)范》《QX/T 514—2019 氣象檔案元數(shù)據(jù)》《NB/T 20418-2017核電電子文件元數(shù)據(jù)》《CJJ/T 187-2012建設(shè)電子檔案元數(shù)據(jù)標準》等。經(jīng)過比對,大部分領(lǐng)域的檔案元數(shù)據(jù)方案制定是參考了《文書類電子文件元數(shù)據(jù)方案》,理論上都可以《文書類電子文件元數(shù)據(jù)方案》為中間元數(shù)據(jù)從而實現(xiàn)互操作。但也有學者通過專門比對發(fā)現(xiàn),即使不考慮標準之間的結(jié)構(gòu)差異,《文書類電子文件元數(shù)據(jù)方案》與《核電電子文件元數(shù)據(jù)》之間相互能夠映射的元素比例也很低(分別為23.86%和12.85%),而其中完全映射的也僅占65%,同時兩個標準與DC元數(shù)據(jù)映射的覆蓋率也十分不樂觀(分別為6.82%和5.03%)。[18]

        值得一提的是,一些領(lǐng)域針對檔案目錄數(shù)據(jù)交換制定了專門的規(guī)范和格式要求,如《GJB 4500-2002 軍隊檔案機讀目錄信息交換格式》《HJ/T 79-2001 環(huán)境保護檔案機讀目錄數(shù)據(jù)交換格式》《QJ 2878A-2005 航天檔案數(shù)據(jù)采集規(guī)定》等,雖然不是元數(shù)據(jù)方案,但也提供一條可行的互操作路徑。

        3 我國檔案元數(shù)據(jù)互操作問題

        從上述我國檔案元數(shù)據(jù)互操作現(xiàn)狀可以看出,我國檔案元數(shù)據(jù)互操作在結(jié)構(gòu)、語義和技術(shù)三個層面存在問題。

        3.1 結(jié)構(gòu)互操作問題。結(jié)構(gòu)問題包括語法結(jié)構(gòu)和內(nèi)容結(jié)構(gòu)兩方面,目前國內(nèi)大多數(shù)學者習慣將語法互操作和結(jié)構(gòu)互操作分開闡釋,但是這忽略了元數(shù)據(jù)的語法和結(jié)構(gòu)往往是一體的,很難區(qū)分開。比如XML和MARC,既規(guī)定了數(shù)據(jù)結(jié)構(gòu),也是標記語法/句法規(guī)則,元數(shù)據(jù)的語法和結(jié)構(gòu)往往取決于采用什么定義語言(Definition Language)及建模語言(Modelling Language)來表達,因此在本文將內(nèi)容結(jié)構(gòu)和語法結(jié)構(gòu)統(tǒng)一概括為結(jié)構(gòu)問題。語法結(jié)構(gòu)沖突指不同元數(shù)據(jù)方案在命名、表達、定義能力和方式上的問題,包括命名及標識沖突、語法/句法沖突和元素定義沖突。內(nèi)容結(jié)構(gòu)問題主要指兩種或兩種以上元數(shù)據(jù)方案在結(jié)構(gòu)映射時出現(xiàn)的問題,包括一對多/多對一、層次錯位、無對應(yīng)。

        ①命名及標識沖突。命名沖突是指不同元數(shù)據(jù)方案中同一實體的元素被賦予不同命名名稱所帶來的沖突。

        ②語法/句法沖突。語法/句法(syntax)規(guī)定了機器可讀的編碼方式,語法沖突是指不同元數(shù)據(jù)方案采用了不同的編碼方式帶來的互操作差異。

        ③元素定義沖突。不同元語言提供不同的定義能力,例如XML描述語言一般可以從約束性(必選/可選)、可重復(fù)性、元素類型、數(shù)據(jù)類型、值域、缺省值等方面提供豐富的定義。即便是同一實體的元素在不同的元數(shù)據(jù)方案中也可能采取不同的定義。

        ④一對多/多對一映射沖突。元數(shù)據(jù)方案映射時,源元數(shù)據(jù)中的一個元素可能對應(yīng)目標元數(shù)據(jù)中的多個元素,即一對多沖突??紤]到映射的雙向性,也必然存在源元數(shù)據(jù)中的多個元素對應(yīng)目標元數(shù)據(jù)中的一個元素,即多對一沖突。

        ⑤層次映射錯位。一般領(lǐng)域的元數(shù)據(jù)方案僅起到多角度描述作用,元素之間的層級簡單,結(jié)構(gòu)扁平,而檔案元數(shù)據(jù)方案通常有著明顯的多層著錄特征,因此在與其他元數(shù)據(jù)方案映射時常常會出現(xiàn)層次錯位現(xiàn)象。即便同是檔案元數(shù)據(jù)方案,也可能因為元素屬性(如容器型、復(fù)合型和字符型)造成準確對應(yīng)層次。

        ⑥無對應(yīng)映射關(guān)系。無對應(yīng)是指源元數(shù)據(jù)中的一個元素無法對應(yīng)到目標元數(shù)據(jù)中的任何一個元素。這在跨門類、跨領(lǐng)域元數(shù)據(jù)之間互操作時最常見。

        3.2 語義互操作問題。語義問題是目前元數(shù)據(jù)互操作研究的共識,主要包括領(lǐng)域沖突、術(shù)語沖突、表達沖突、多語言等問題。

        ①領(lǐng)域沖突。這里的領(lǐng)域沖突皆可以指元素概念之間的相交、包含或相離關(guān)系帶來的語義沖突,也可以指定義語言表達能力之間的差別帶來的語義沖突。比如電子文件領(lǐng)域的元數(shù)據(jù)和地理信息領(lǐng)域的元數(shù)據(jù)之間領(lǐng)域重疊范圍小,互操作存在沖突。再比如OWL可以表示兩個元素之間的相等關(guān)系,而XML Schema并不能做到。

        ②術(shù)語沖突。術(shù)語沖突是元數(shù)據(jù)互操作中最常見的問題之一,是指將相同域的概念映射到不同名稱的元素(即命名沖突)會發(fā)生同義詞沖突。

        ③表達沖突。表達沖突主要表現(xiàn)為單位不一致和編碼規(guī)則不一致。當元數(shù)據(jù)元素值涉及測量數(shù)字時,往往可能出現(xiàn)由于單位不一致導(dǎo)致的互操作沖突。如在DC中規(guī)定采用厘米作為長度單位,而在照片類電子檔案元數(shù)據(jù)方案中采用分辨率(即像素)作為單位。此外,編碼規(guī)則不一致問題在諸如日期表達中常見,不同的表達規(guī)范會在語義上造成歧義。

        ④多語言。不同語種之間也存在互操作的要求,跨語言的互操作一般使用受控詞表及多語言的敘詞表,通過翻譯建立不同元素之間的關(guān)聯(lián)。我國是一個多民族多語言國家,解決好多語言間的互操作問題也是語義互操作關(guān)注點之一。

        3.3 技術(shù)互操作問題。①文件格式不一致。目前檔案領(lǐng)域常用的XML格式作為元數(shù)據(jù)存儲和交換格式,但使用MARC機讀目錄格式、DBF數(shù)據(jù)庫文件格式甚至Excel格式的情況也仍然存在,不同的文件格式在轉(zhuǎn)換過程中會造成數(shù)據(jù)失真、缺失等情況,影響元數(shù)據(jù)互操作效果。

        ②數(shù)據(jù)交換協(xié)議/接口缺失。系統(tǒng)之間及系統(tǒng)內(nèi)部各組件之間常用的元數(shù)據(jù)交換方式包括Web Service、SOAP、OAI-PMH、Restful API等。目前我國各領(lǐng)域內(nèi)的信息壁壘、信息煙囪現(xiàn)象較常見,信息系統(tǒng)間普遍缺少數(shù)據(jù)交換接口。

        ③安全問題?;ゲ僮鞔蚱屏嗽蟹忾]環(huán)境,引進了新的數(shù)據(jù)必然會帶來新的風險?;ゲ僮靼踩珕栴}如未鑒權(quán)訪問、元數(shù)據(jù)傳輸泄露、跳板攻擊、惡意爬蟲及DDOS攻擊等。

        4 促進我國檔案元數(shù)據(jù)互操作對策

        4.1 重視檔案元數(shù)據(jù)標準制定。通過現(xiàn)狀總結(jié)不難發(fā)現(xiàn),我國檔案元數(shù)據(jù)標準的制定相對滯后,嚴重限制了元數(shù)據(jù)互操作以及檔案資源開發(fā)。在檔案元數(shù)據(jù)互操作中,檔案元數(shù)據(jù)標準/方案無疑是處于核心地位,其制定和實施將直接影響檔案元數(shù)據(jù)的格式和形態(tài),決定了與其他元數(shù)據(jù)互操作的難易程度。因此重視檔案元數(shù)據(jù)標準的制定尤為重要。

        一是遵循制定元數(shù)據(jù)標準通用原則。元數(shù)據(jù)標準設(shè)計原則包括簡單性和準確性、專指度和通用性、易轉(zhuǎn)換性、可擴展性和用戶需求導(dǎo)向等。[19]目前我國的《文書類電子文件元數(shù)據(jù)方案》《照片類電子檔案元數(shù)據(jù)方案》和《錄音錄像類電子檔案元數(shù)據(jù)方案》在元數(shù)據(jù)元素的選擇和定義上體現(xiàn)的通用性不足,沒有復(fù)用國際上通用的檔案元數(shù)據(jù)元素,未來制定我國通用檔案元數(shù)據(jù)標準時需要注意這一點。可以通過制定檔案元數(shù)據(jù)標準框架,明確設(shè)計檔案元數(shù)據(jù)標準時需要遵守的規(guī)則和方法。

        二是參與國際元數(shù)據(jù)標準研究。國際上主要的元數(shù)據(jù)標準主要包括由DCMI主導(dǎo)的DC、SAA主導(dǎo)的EAD和EAC-CPF、ICA主導(dǎo)的RiC等,這些標準大多以專業(yè)組織為單位,廣泛結(jié)合國際各國的力量和實踐經(jīng)驗展開研發(fā)。元數(shù)據(jù)標準規(guī)定了數(shù)據(jù)在電子環(huán)境下的存儲和傳輸方式,可以說元數(shù)據(jù)標準就是網(wǎng)絡(luò)空間的話語權(quán)。隨著我國經(jīng)濟和政治影響力不斷提升,我國檔案界有責任和義務(wù)在國際元數(shù)據(jù)標準舞臺上發(fā)聲,積極融入國際檔案元數(shù)據(jù)標準的研究進程中,努力與世界水平接軌。

        三是引入國際成熟標準,加快研究檔案語義本體。EAD、EAC-CPF等標準已經(jīng)成為事實上的通用國際標準,現(xiàn)有的大多數(shù)檔案語義本體標準也是基于此研制。由于我國尚無類似的檔案通用元數(shù)據(jù)標準,導(dǎo)致檔案資源開發(fā)和利用很難直接借鑒國外的經(jīng)驗和方法。為了保障和其他國家檔案資源的互操作,有必要引入成熟的國際標準,并在全國范圍內(nèi)推行,同時加強研究中文語境下的檔案本體,構(gòu)建具有中國特色的檔案元數(shù)據(jù)標準。

        4.2 切實提高檔案元數(shù)據(jù)質(zhì)量。受限我國各地區(qū)、各領(lǐng)域參差不齊的信息化水平以及著錄人員的負責程度,檔案元數(shù)據(jù)質(zhì)量水平高低不等令人擔憂。有調(diào)查曾指出,現(xiàn)有檔案目錄數(shù)據(jù)庫建設(shè)中存在諸如著錄格式不規(guī)范、數(shù)據(jù)庫設(shè)計不合理、分類標引工作停滯等,為建設(shè)統(tǒng)一元數(shù)據(jù)目錄中心以及后續(xù)合并數(shù)據(jù)帶來了困難。[20]因此,必須首先提高檔案元數(shù)據(jù)質(zhì)量,才能為后續(xù)互操作打下堅實基礎(chǔ)。

        一是要加強檔案信息化建設(shè)。檔案信息化是資源整合的前提,也是元數(shù)據(jù)互操作的前提。加強數(shù)字檔案資源建設(shè),尤其是原生電子文件的管理,確保檔案元數(shù)據(jù)及時準確捕獲。二是加強檔案元數(shù)據(jù)著錄工作。新《規(guī)則》對檔案內(nèi)容著錄提出了更高的要求,檔案著錄不再是“一次性”工作。檔案元數(shù)據(jù)著錄工作必須嚴格遵守相關(guān)的著錄規(guī)則,確保在格式和內(nèi)容上保持統(tǒng)一。三是開發(fā)元數(shù)據(jù)自動著錄技術(shù)。面對海量的存量檔案資源,僅依賴人工手動著錄是不現(xiàn)實的,也不可能完全避免錯誤,因此開發(fā)基于AI的自動著錄技術(shù)是有必要的,再通過人工審核進一步確保檔案元數(shù)據(jù)質(zhì)量。

        4.3 加強檔案資源整合實踐。目前我國檔案元數(shù)據(jù)互操作實踐大多還停留在以地域為單位或特定類型檔案資源整合方面,表面看起來問題并不突出,但在整合理念、整合主體和整合范圍等方面都有較大的提升空間。

        一是轉(zhuǎn)變重藏輕用思想,加快檔案開放共享。開放共享數(shù)字檔案資源是實現(xiàn)檔案元數(shù)據(jù)互操作的重要基礎(chǔ)。加快開放共享檔案資源具體可以從法律、政策和社會環(huán)境幾個角度著手。法律層面,盡快給檔案資源“松綁”,確定檔案開放的法律義務(wù)和責任,針對信息公開和檔案開放之間的不適應(yīng),及時做出修訂和調(diào)整,為開放共享打下基礎(chǔ)。政策方面,政府和檔案部門要積極推動檔案資源的開放,更加強調(diào)檔案資源的文化屬性而不是政治屬性,發(fā)布促進檔案資源開發(fā)和利用的政策和保障措施。社會層面,努力改善公眾對檔案的認識,提高檔案利用意識,通過開發(fā)歷史檔案資源激起社會對檔案研究價值的重視。

        二是積極開展跨領(lǐng)域檔案資源整合。首先,檔案機構(gòu)要革新自我定位,要認識到除了有保存的職能,更有傳播和開發(fā)文化遺產(chǎn)、歷史記憶的職能,樹立為公民服務(wù)的理念,為公眾提供一站式服務(wù)。其次,積極和其他領(lǐng)域文化機構(gòu)合作,如圖書館和博物館等,以專題項目為契機,關(guān)聯(lián)共性資源,提供更豐富的檔案元數(shù)據(jù)信息。最后,探索與非公共文化領(lǐng)域的合作,鼓勵跨界合作,比如與百度百科鏈接,提供專業(yè)詞條撰寫和鏈接;與國際相關(guān)數(shù)據(jù)集建立(如人名、地名、事件)關(guān)聯(lián),充實元數(shù)據(jù)內(nèi)容;建立眾包平臺,吸引不同專業(yè)背景的用戶參與添加標簽,豐富檔案著錄信息等。從整合內(nèi)容看,可以保持目前以整合歷史檔案為主做法,同時適當放開其他類型檔案的利用限制,如民生檔案、名人檔案、非遺檔案等,以特色檔案資源整合服務(wù)為抓手,擴大檔案元數(shù)據(jù)互操作的實踐面。

        4.4 重視語義本體技術(shù)應(yīng)用。結(jié)構(gòu)/語法和技術(shù)層面的互操作問題目前已經(jīng)通過統(tǒng)一XML和API技術(shù)基本解決,語義互操作成為下一步關(guān)注的核心問題,因此重視語義及本體相關(guān)技術(shù)的應(yīng)用就顯得尤為重要。

        一是積極開發(fā)和應(yīng)用檔案本體標準。RiC作為檔案領(lǐng)域最新的國際著錄標準,在設(shè)計理念上引入了本體概念,構(gòu)建了一套基于實體的概念體系。目前國外已經(jīng)在PIAAF、Docuteam、SNAC等多個項目中開始應(yīng)用實施RiC。

        二是語義網(wǎng)環(huán)境下的敘詞表開發(fā)。敘詞表、分類表、主題詞表等作為傳統(tǒng)手工管理常用的標引工具,具有良好的檢索性能,但是并不能被機器直接讀取和理解。通過SKOS數(shù)據(jù)模型規(guī)范、統(tǒng)一組織后可以形成各類知識組織系統(tǒng),并且彼此相互映射、相互兼容,共同組成了語義網(wǎng)的重要部分。

        三是關(guān)聯(lián)技術(shù)的廣泛應(yīng)用。目前比較常用的關(guān)聯(lián)技術(shù)包括OWL、知識圖、知識圖譜等,其本質(zhì)都是構(gòu)建實體之間的RDF關(guān)系三元組,再將彼此鏈接起來形成一張復(fù)雜的語義網(wǎng),從而實現(xiàn)語義關(guān)聯(lián)。

        參考文獻:

        [1]張曉林.元數(shù)據(jù)研究與應(yīng)用[M].北京:北京圖書館出版社,2002.

        [2]張東.論元數(shù)據(jù)互操作的層次[J].情報理論與實踐,2005(06):91-93.

        [3]畢強,朱亞玲.元數(shù)據(jù)標準及其互操作研究[J].情報理論與實踐,2007(05):666-670.

        [4]彭靜,高林,張展新.元數(shù)據(jù)互操作技術(shù)研究[J].信息技術(shù)與標準化,2008(11):50-53.

        [5]Arms W A,Hillman D,Lagoze C,et al.A Spectrum of Interoperability,The Site for Science Prototype for the NSDL[J].D-Lib magazine;2002(08):1,2002.

        [6]Chan L M,Zeng M L.Metadata interoperability and standardization-a study of methodology part I[J].D-Lib magazine,2006,12(06):1082-9873.

        [7]Zeng M L,Chan L M.Metadata interoperability and standardization-A study of methodology,Part II[J].D-Lib Magazine,2006,12(06):1082-9873.

        [8]王芳,王小麗.基于OAI協(xié)議的數(shù)字檔案館元數(shù)據(jù)互操作問題研究[J].現(xiàn)代圖書情報技術(shù),2007(03):18-24.

        [9]王萍,鄧君,高漸.開放獲取理念及技術(shù)在檔案領(lǐng)域中的應(yīng)用[J].檔案學通訊,2007,No.179(06):43-46.

        [10]包海峰,陳剛.基于OAI互操作協(xié)議的檔案信息資源整合模式研究[J].檔案與建設(shè),2012,No.286(12):13-16.

        [11]彭楨,包海峰,徐濼燚.支持元數(shù)據(jù)和服務(wù)共享的三類互操作協(xié)議比較[J].檔案與建設(shè),2016,No.336(12):23-27.

        [12]安海寧,程子彧.檔案系統(tǒng)互操作問題研究[J].合作經(jīng)濟與科技,2013,No.466(11):125-126.

        [13]房小可.OAI環(huán)境下基于本體的DC元數(shù)據(jù)與檔案元數(shù)據(jù)EAD的映射[J].蘭臺世界,2018,No.554(12):41-45.

        [14]郭學敏,Ryan Shaw.基于關(guān)聯(lián)數(shù)據(jù)的檔案語義轉(zhuǎn)換實踐分析[J].檔案學通訊,2019(05):50-57.

        [15]呂元智.數(shù)字檔案資源體系的語義互操作實現(xiàn)研究[J].檔案學通訊,2013,No.214(05):53-57.

        [16]Wallace D A.Managing the present:Metadata as archival description[J].Archivaria,1995,39.

        [17]王熹.《檔案著錄規(guī)則》修訂解讀[J].中國檔案,2022,(09):28-29.

        [18]蘇洲,劉娟.核電文檔元數(shù)據(jù)比較研究[J].浙江檔案,2014(12):12-16.

        [19]肖瓏,陳凌,馮項云,馮英.中文元數(shù)據(jù)標準框架及其應(yīng)用[J].大學圖書館學報,2001(05):29-35+91.

        [20]浙江省檔案數(shù)據(jù)庫建設(shè)調(diào)查組 ,韓李敏.檔案信息化建設(shè) 數(shù)據(jù)質(zhì)量是關(guān)鍵──浙江省綜合檔案館信息數(shù)據(jù)庫建設(shè)調(diào)查報告[J].檔案學研究,2002(03):45-48.

        (作者單位:中國科學院檔案館 孔祥盛,碩士,館員 ?來稿日期:2022-10-20)

        一区二区三区在线观看视频精品| 亚洲国产av玩弄放荡人妇系列| 人人妻人人澡人人爽久久av| 拍摄av现场失控高潮数次| 久久99精品久久久66| 久久久精品人妻一区二区三区免费| 亚洲黄色天堂网站在线观看禁18| 午夜精品射精入后重之免费观看| 久久精品国产亚洲av麻豆| 中文字幕精品亚洲人成| 国产91在线精品福利| 亚洲国产高清在线视频| 国产91在线精品观看| 欧美xxxxx高潮喷水麻豆| 亚洲av国产精品色午夜洪2| 亚洲视频毛片| 国产午夜激情视频自拍| 国产内射视频在线观看| 国产亚洲精品一区二区在线观看| 国色天香中文字幕在线视频| 欧美黑人性暴力猛交喷水| av鲁丝一区鲁丝二区| 久久AⅤ无码精品色午麻豆| av网站免费在线浏览| 神马影院午夜dy888| 曰韩人妻无码一区二区三区综合部| 国产成人av一区二区三区在线| 级毛片免费看无码| 精品亚洲人伦一区二区三区| 日本一区二区视频在线| 午夜性无码专区| 8av国产精品爽爽ⅴa在线观看| 日韩在线手机专区av| 精品国产一区二区三区a | 国产呦精品系列在线播放| 日韩在线观看网址| 狼狼色丁香久久女婷婷综合| 综合偷自拍亚洲乱中文字幕| 亚洲美免无码中文字幕在线| 色爱无码A V 综合区| av人妻在线一区二区三区|