吳燕
[摘 要]本文通過對舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)存在的不足之處進行分析,提出引入互聯(lián)網(wǎng)環(huán)境下的數(shù)字對象單一標識技術,應用于舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)建設。該技術既可以極大地提高舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)的應用效率,又可以進一步擴大館藏數(shù)據(jù)的應用范圍,還可以降低管理、軟件、硬件的成本投入,大幅度減少用戶訪問館藏舊有文件的時間、瀏覽時間,進而提升館藏檔案的利用率。
[關鍵詞]互聯(lián)網(wǎng);數(shù)字檔案館;標識技術
doi:10.3969/j.issn.1673 - 0194.2017.24.116
[中圖分類號]G270.7 [文獻標識碼]A [文章編號]1673-0194(2017)24-0-02
0 引 言
互聯(lián)網(wǎng)技術環(huán)境下的舊有文件的數(shù)字、電子化和信息化是互聯(lián)網(wǎng)技術環(huán)境下的形式創(chuàng)新,指的是電子信息條件下的檔案管理的新方式。所有文獻的數(shù)字、電子化和對其進行管理的電子信息系統(tǒng)的研發(fā)與升級換代,已經(jīng)給傳統(tǒng)的檔案館管理帶來了強烈的沖擊,還將對舊有檔案館管理格局的發(fā)展造成影響。計算機和互聯(lián)網(wǎng)技術的普及,也加快了檔案管理部門不斷提升信息化、數(shù)字、電子化步伐。
1 館藏舊有文件的數(shù)字、電子化和管理信息系統(tǒng)的定義
目前,互聯(lián)網(wǎng)環(huán)境下的各類館藏舊有文獻的數(shù)字、電子化和與其對應的管理系統(tǒng),是一個依靠計算機技術、互聯(lián)網(wǎng)技術、電子存儲技術等一系列前沿科技,使其能夠進行信息接收、文獻管理和舊有檔案的數(shù)字化處理,并提供互聯(lián)網(wǎng)環(huán)境和文獻物理存儲兩方面高效利用、服務的管理信息系統(tǒng)。
有序的信息空間和開放的信息環(huán)境是舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)的重要特征之一。它說明舊有文件的數(shù)字、電子化和信息化信息系統(tǒng),不是封閉的檔案館信息互聯(lián)網(wǎng)技術,而是包含在OA系統(tǒng)、CAD和MIS等更為廣闊的大系統(tǒng)中的組成部分;是由網(wǎng)狀分布式、檔案資源構(gòu)成的具有各類服務功能的跨管理層級、跨地理分布的管理信息系統(tǒng)。
2 舊有檔案文件的數(shù)字、電子化和信息化系統(tǒng)的劣勢
現(xiàn)有關于人類的各類信息記錄的技術,使各類型載體所需要儲存的內(nèi)容迅速增加。而現(xiàn)有可用于信息長期和永久存儲的技術,遠沒有得到相應的快速發(fā)展,存儲各類信息的物理載體的使用期反而下降了很多。
數(shù)字檔案存儲、管理的安全問題?;ヂ?lián)網(wǎng)技術有其存取速度快捷的優(yōu)點。因為互聯(lián)網(wǎng)技術本身的無中心特點,也有其安全性差和不甚可靠的缺點。其一,互聯(lián)網(wǎng)技術本身的隱患。由眾多計算機組成的網(wǎng)絡環(huán)境,其技術系統(tǒng)本身就是開放的。其廣域性、信息的共享性、通信網(wǎng)絡的共享性等特點,都為竊取、盜用、非法操作、篡改及惡意破壞提供了可能。其二,由于互聯(lián)網(wǎng)技術本身就與計算技術有著不可或缺的關系,所以,計算機具有的一些漏洞,如計算機病毒、黑客攻擊等,都會造成檔案內(nèi)容的被篡改和遺失。其三,受人工影響的幾率很大。人為的或小概率事故等,都會導致不可估量的結(jié)果。
3 “數(shù)字對象”定義的引入
“數(shù)字對象”就是互聯(lián)網(wǎng)和計算機技術興起后,對檔案領域的各類文檔的一種新提法。數(shù)字對象模型對不同內(nèi)容、不同形式的信息的表示具有普適性,它為信息系統(tǒng)的構(gòu)造提供了一個通用的工具,運用這個數(shù)字、電子化的信息基礎,完全可以建立一個包括各類文獻格式、可以對復雜檔案進行整理、按照各類用戶的實際需求,形成高水平服務且可以滿足外部環(huán)境變化的數(shù)字文件檔案系統(tǒng)。其他的表現(xiàn)格式,如,OCLC使用“Document-Like Object(DLO)”、W3C的“Document Object Model”、威倫斯基體系的“Digital Object”、FEDORA項目作為專有名詞使用的“Digital Object”、加州伯克利分校舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)項目提出的“Multivalent Document”等。這些對電子信息的描述都是引用和借用了計算機相關理論中“對象”的定義方法,來表示檔案領域文本數(shù)字、電子化,但其應用目的、文本文獻的組成結(jié)構(gòu)、檔案管理的管理過程等方面各有不同而已。
“館藏舊有文件數(shù)字、電子化”作為互聯(lián)網(wǎng)環(huán)境下文獻、檔案信息化實現(xiàn)的最小單元,它不僅僅是最小的信息單位,還可以成為互聯(lián)網(wǎng)環(huán)境下舊有文件的數(shù)字、電子化和信息化的重要組成部分,更是最底層的基本訪問操作,還是舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)各種復雜結(jié)構(gòu)的組成單元。館藏舊有文件對象數(shù)字、電子化后,這個被數(shù)字、電子化的館藏對象,能夠表示各種不同含義與格式的信息,因為數(shù)字、電子化過程是對館藏各類文獻的一個高度統(tǒng)一的邏輯抽象表達。這種高度統(tǒng)一,確保了文獻在格式和基本操作系統(tǒng)上的單一,這一過程將給互聯(lián)網(wǎng)環(huán)境下的館藏管理帶來館藏訪問的快速和館藏利用上的簡潔。館藏舊有文件的數(shù)字、電子化,就是為館藏舊有文件建立一個數(shù)學模型,這個模型是可以被計算機程序進行處理的模型,這個對象的數(shù)學模型的形成過程,是一個從案例到高度抽象的邏輯抽象過程的全過程,正好是高度抽象的邏輯順序的逆過程,即館藏對象的案例的形成和實際運行的完成順序。
4 館藏舊有文件數(shù)字、電子化對象的單一標識方法
隨著互聯(lián)網(wǎng)技術和計算機技術的快速發(fā)展,互聯(lián)網(wǎng)環(huán)境下的信息資源的數(shù)量級數(shù)也快速的變化著。由于互聯(lián)網(wǎng)技術環(huán)境自身就沒有一個統(tǒng)一的管理,同一信息資源被多次、重復拷貝和使用的事情皆有發(fā)生。這造成了互聯(lián)網(wǎng)技術空間的低效率使用,其更嚴重的是,極大地妨礙了互聯(lián)網(wǎng)環(huán)境下用戶對信息資源的有效利用。
為了順應互聯(lián)網(wǎng)技術和計算機技術的巨大、快速的環(huán)境變化,國內(nèi)外的科技從業(yè)者,經(jīng)過研究,提出了用數(shù)字對象單一標識符技術(Digital Object Identifier),來描述、詮釋互聯(lián)網(wǎng)環(huán)境中的館藏舊有文件的數(shù)字、電子化對象,進而將表現(xiàn)格式和物理存儲位置不同但信息本質(zhì)屬性相同(所描述的內(nèi)容相同)的數(shù)字對象描述出來,以方便人們加以利用。Handle System就是最早提出的應用范圍最廣的全互聯(lián)網(wǎng)范圍的數(shù)字對象單一標識符系統(tǒng),作為第一個完整的數(shù)字對象單一標識符系統(tǒng),其對數(shù)字對象描述、詮釋和解析、管理、利用以及開放式數(shù)字信息環(huán)境的構(gòu)建都產(chǎn)生了深遠影響。
1998年,國際數(shù)字對象標識符基金會(International DOI Foundation,IDF)在德國的法蘭克福成立,是專門負責數(shù)字對象標識符運作的國際性專業(yè)機構(gòu)。因其是一個非盈利性的國際組織,因而任何組織和用戶都可以在其網(wǎng)頁上下載其提供的DOI手冊以供使用,包括DOI技術手冊、系統(tǒng)組成架構(gòu)、算法的使用方法、運行管理方式等。IDF發(fā)出的數(shù)字單一的對象標識符超過2 000多萬個。
4.1 DOI系統(tǒng)的特點
DOI單一標識符管理系統(tǒng)的功能在于,給被描述的對象分配全互聯(lián)網(wǎng)范圍內(nèi)的不變且單一的標識符,其標識符是由一串數(shù)字組成的,不但要體現(xiàn)其價值,更包含對標識符的處理算法系統(tǒng)正確的描述、邏輯元數(shù)據(jù)盡可能正確的描述,以及所有者自己闡述的合適編碼組合等。DOI單一標識符系統(tǒng)一般有4部分:編碼、描述、處理算法和要求。
DOI的特點有以下幾方面。第一,單一特性。一個數(shù)字對象只對應一個專用編碼。第二,不變性。即使被標識的對象被邏輯移動、物理上重新組合或者被修改,其單一性不被破壞。第三,能與別的來源的數(shù)據(jù)進行邏輯互操作。第四,延展性。DOI系統(tǒng)可增加新的被描述對象的新特征和服務。第五,跨平臺性。同一被描述對象,可以多種輸出格式進行單一管理(與平臺無關)。第六,對應用和服務兩個方面的操作,系統(tǒng)可以分開進行。第七,邏輯上的元數(shù)據(jù)、應用操作和服務過程及其內(nèi)容的動態(tài)更新。
4.2 DOI算法(Resolution)
DOI系統(tǒng)算法,即由互聯(lián)網(wǎng)技術和組成互聯(lián)網(wǎng)的各個計算機(網(wǎng)絡服務器),在接收到DOI編碼后,通過計算機服務器內(nèi)預先儲存的處理算法,將DOI轉(zhuǎn)變成該對象在該服務器的邏輯值空間內(nèi)的有效地址。由于所有數(shù)字出版文獻的對象識別資料都集中在注冊中心的大型數(shù)據(jù)庫中進行管理,如果數(shù)字對象的存放地址發(fā)生變化,只要伴隨DOI的元數(shù)據(jù)隨之更新,用戶即可通過其固定的DOI碼方便地找到該數(shù)字對象。通常一種數(shù)字出版品可能有多種版本及格式,但只對應一個DOI碼,用戶查找時可通過處理算法器自動或手動選擇想要的資料。目前,DOI的處理算法功能是采用CNRI(The Corporation for National Research Initiatives)開發(fā)的Handle System技術。Handle System是一個通用的分布式名稱服務系統(tǒng),它包括一套開放的系統(tǒng)協(xié)議,惟一標識符名稱空間以及協(xié)議的參考實現(xiàn)模型。目前,Handle System的相關標準已被互聯(lián)網(wǎng)工程任務組(The Internet Engineering Task Force,IETF)接收為RFC文檔。
5 結(jié) 語
當前,互聯(lián)網(wǎng)技術飛速發(fā)展、計算機技術日新月異,所以,舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)勢在必行。互聯(lián)網(wǎng)技術環(huán)境下的舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)的存儲內(nèi)容(文字、圖片、視頻等信息)都是符合數(shù)字對象的定義的?;ヂ?lián)網(wǎng)環(huán)境數(shù)字對象唯一標識技術(DOI)不僅可以給舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)帶來不可估量的效率,更可以解決舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)的諸多不足。
主要參考文獻
[1]李敏.企業(yè)舊有文件的數(shù)字、電子化和信息化信息系統(tǒng)建設[J].機電兵船檔案,2008(3).
[2]張孺.數(shù)字檔案館的優(yōu)勢與劣勢分析[J].蘭臺世界,2014(z2).
[3]S Payette ,C Lagoze . Flexible and Extensible Digital Object and Repository Architecture (FEDORA)[C]// European Conference on Research and Advanced Technology for Digital Libraries,1998.
[4]于順安.石油勘探開發(fā)信息化必須依靠物聯(lián)網(wǎng)與虛擬現(xiàn)實技術的完美結(jié)合[J].天然氣勘探與開發(fā),2014(3).