王艷翠 蔣南 周麗 王旻霞
【摘 要】檔案館的用戶本身擁有一個巨大的檔案知識庫,本文對旨在探索捕捉用戶知識并將其轉(zhuǎn)化為檔案知識的方法,并對愛沙尼亞國家檔案館將用戶知識轉(zhuǎn)化為檔案知識的實(shí)際應(yīng)用開發(fā)情況進(jìn)行了介紹。
【關(guān)鍵詞】數(shù)字化保存;開放數(shù)據(jù);知識;眾包;OAIS
0 引言
檔案館的用戶本身擁有一個巨大的檔案知識庫。有一部分用戶已經(jīng)參與了某些活動,還有一部分用戶對參與者有所了解,還有一部分用戶是某方面主題的專家學(xué)者,他們所擁有的知識足以能夠彌補(bǔ)檔案知識中存在的不足。開放檔案信息系統(tǒng)(OAIS)定義了由指定機(jī)構(gòu)為了維護(hù)信息獨(dú)立而做出的長期保存行動是天經(jīng)地義的。但在現(xiàn)實(shí)生活中要做到這一點(diǎn)卻是非常困難的 ,由于各種原因,信息的描述不夠詳盡、在預(yù)獲取或獲取過程中信息的結(jié)構(gòu)不足。例如,如果生產(chǎn)者在組織歸檔時已不存在,那么就不可能達(dá)到提交信息時預(yù)期的質(zhì)量水平;檔案館有興趣(或有義務(wù))獲取這些記錄,可能的結(jié)果就是傳遞的信息低于理想質(zhì)量。而事實(shí)上,檔案館已經(jīng)獲得了這條信息質(zhì)量優(yōu)劣不等的各種記錄。愛沙尼亞國家檔案館對OAIS進(jìn)行了改進(jìn):在數(shù)據(jù)獲取和數(shù)據(jù)管理功能條目之間補(bǔ)充增加一個新的鏈接從而能夠更有效地更新詳細(xì)的信息;從而研發(fā)出新的檔案信息系統(tǒng)——AIS2.0(檔案信息系統(tǒng)2.0)。
1 愛沙尼亞國家檔案館的檔案軟件
1.1 開放檔案信息系統(tǒng)
DIKW(數(shù)據(jù)、信息、知識和智慧)模型中有三個模塊從數(shù)據(jù)、信息和知識三個基本方面來劃分。檔案館藏的部分材料僅僅是內(nèi)容片段——沒有明確關(guān)聯(lián)的、離散的事實(shí),從而被認(rèn)為是簡單的數(shù)據(jù);部分館藏可以被視作是信息,因?yàn)樗袃?nèi)容并且相互關(guān)聯(lián)而且還是數(shù)據(jù)的集合,還有部分館藏被認(rèn)為是相互關(guān)聯(lián)的(已收錄的)知識。在本文中,我們遵循OAIS精神。OAIS認(rèn)為有可能在個人和個別系統(tǒng)的基礎(chǔ)上對知識進(jìn)行合并,這就意味著在個人和系統(tǒng)之間的基礎(chǔ)上對知識庫的元素進(jìn)行傳送。通過走近知識(如:根據(jù)語境聯(lián)系和組織來補(bǔ)充簡單的數(shù)據(jù)和信息),我們可以獲得更好的關(guān)于檔案收藏內(nèi)容的概述,從而使我們建立更好的(更快、更準(zhǔn)確、人性化、個性化等)獲取解決方案,并提供對已存檔知識的多方面、多角度的可獲取性。
1.2 愛沙尼亞國家檔案館的檔案軟件
愛沙尼亞國家檔案館設(shè)計(jì)的檔案軟硬件都適合應(yīng)用OAIS系統(tǒng)。OAIS系統(tǒng)同樣用于管理模擬記錄和數(shù)字化記錄(具有明顯媒介差異的記錄)。目錄工具是媒介未知的——用記錄數(shù)字記錄的工具模擬記錄檔案描述的處理。
愛沙尼亞國家檔案館有一個電子檔案目錄——檔案信息系統(tǒng)。檔案描述通常具有以下典型特征:第一,背景——更多的傾向于水準(zhǔn)描述,而不是綜合性描述。第二,僅用較少的數(shù)據(jù)填充較低級別的文件項(xiàng)目。第三,集合獨(dú)立:除了把背景改編成普通目錄外,沒有其他方式獲取記錄水平(即在不同集合找到相似的記錄)。鑒于以上情況,愛沙尼亞國家檔案館決定開發(fā)一個新的中心目錄系統(tǒng),該系統(tǒng)是以分面分類法和眾包設(shè)計(jì)為核心,有助于用各個可能的方式把知識轉(zhuǎn)化成檔案。
1.3 OAIS系統(tǒng)中用戶——檔案的知識轉(zhuǎn)化
要建立這種知識轉(zhuǎn)化的理論基礎(chǔ),我們需要一種方法采取用戶輸入并用它來更新檔案信息。OAIS認(rèn)為需要用戶補(bǔ)充和更新現(xiàn)有的信息:重要的是OAIS的獲取和內(nèi)部數(shù)據(jù)模型能夠足夠靈活的吸收這些新的描述,從而普通用戶群體能夠從這些研究中獲益。所有的詳細(xì)數(shù)據(jù)都是在數(shù)據(jù)管理和檔案存儲功能模塊中處理的。數(shù)據(jù)管理功能模塊不嚴(yán)格提供任何具體的知識,但它包含了更新檔案知識的一般邏輯。數(shù)據(jù)管理功能模塊負(fù)責(zé)檔案數(shù)據(jù)更新,更新包括加載新的描述性信息以及歸檔管理數(shù)據(jù)。數(shù)據(jù)管理功能模塊包括接收數(shù)據(jù)更新功能,它可以在數(shù)據(jù)管理的永久性存儲中增加、修改或刪除數(shù)據(jù)。根據(jù)OAIS的設(shè)想:“更新的主要來源是采集,它為新的檔案數(shù)據(jù)包提供描述性信息并管理系統(tǒng)更新和檢驗(yàn)更新”。由于管理模塊涉及由定期審查而產(chǎn)生的系統(tǒng)相關(guān)信息,而不是檔案館藏的描述性信息,管理模塊在此不做討論。采集功能模塊協(xié)調(diào)數(shù)據(jù)管理和檔案存儲之間的更新。然而,實(shí)際上可能涉及一些難題:第一,OAIS設(shè)計(jì)的采集接收原則是:“一次一個集合”,但富集過程可能涉及來自多個集合/背景資源的最佳使用。第二,質(zhì)量控制方面的異議:通常并不要求不同檔案機(jī)構(gòu)的檔案保管員檢查提交信息包描述的準(zhǔn)確性(這通常是檔案保管員作為生產(chǎn)方的責(zé)任),但在眾包情況下,用戶提出的更新描述在成為正式存檔說明的一部分之前進(jìn)行手動檢查和確認(rèn)。某些情況下,上述原因可能導(dǎo)致采集功能模塊通過眾包實(shí)現(xiàn)更新描述的功能不能夠升級。愛沙尼亞國家檔案館在一代數(shù)據(jù)管理功能模塊的基礎(chǔ)上進(jìn)行了升級。在OAIS 模型中加入了一個“從獲取功能模塊”到“接收數(shù)據(jù)更新”直接連接功能(如圖中加粗虛線箭頭)。
【參考文獻(xiàn)】
[1]http://dlib.org/dlib/march16/karberg/03karberg.html.
[2]Archer P,Goedertier S, Loutas N(2012).D7.1.3-Study on persistent URIs, with identification of best practices and recommendations on the topic for the MSs and the EC.
[3]CCSDS(2012).Reference model for an open archival information system (OAIS), Consultative Committee for Space Data Systems, Magenta Book.
[責(zé)任編輯:朱麗娜]