程靖
目前人類已經進入大數(shù)據(jù)時代,大數(shù)據(jù)應用在生物信息、智能交通、金融、醫(yī)療等領域都取得了可喜的成績。大數(shù)據(jù)時代的到來,為檔案信息化建設也帶來了新的挑戰(zhàn)和新的機遇。在歐美等發(fā)達國家,在檔案領域通過依托檔案公眾網站建設“網上檔案館”,已成為了各國開展檔案公共服務的重要形式。在國內,本世紀初以來,檔案信息化建設也受到各級檔案部門的高度重視,然而,由于我們起步晚,技術欠成熟,還處在學習、借鑒、起步階段,盡管如此,實現(xiàn)檔案數(shù)字化建設也已成為了全國檔案信息化建設的發(fā)展趨勢。作為高校檔案從業(yè)人員,實現(xiàn)高校檔案數(shù)字化和數(shù)字檔案館是我們所追求目標,所以,我們就建設我國高?!熬W上檔案館”網站建設方案提出自己的構想,不成熟之處,敬請批評指正。
一、建設方案
檔案的保管和利用是檔案館的兩大功能,如何安全保管和有效利用是檔案管理者的兩大任務。檔案數(shù)字化無疑是目前保護檔案實體安全、促進對外開放利用、實現(xiàn)檔案信息資源社會共享的有效技術手段。為此,如何構建和構建怎么樣的一個數(shù)字化檔案館技術平臺將是實現(xiàn)上述檔案館兩大功能和任務關鍵所在。面對大數(shù)據(jù)容量大,種類多、處理快、價值高的特點,在建設數(shù)字檔案館和檔案數(shù)字化過程中就要特別重視基礎設施的完善、前沿技術的應用、檔案資源的構建和管理。本文結合我們熟悉的高校檔案目前的保管和利用的情況,以及我們對數(shù)字化檔案館網絡平臺的技術的認識,談談我們對構建高校數(shù)字化檔案館的思考和設想。要在網絡上實現(xiàn)“網上檔案館”平臺的實時開放和有效利用,關鍵是要應用聚類分析、語義分析、數(shù)據(jù)挖掘將檔案信息資源轉化為結構化數(shù)據(jù),并合理開放數(shù)據(jù),為社會需求服務。高校數(shù)字化檔案館平臺建設應包含主要三個部分:檔案網站的建設、文獻檢索系統(tǒng)的建設、檔案地理信息系統(tǒng)建設。
1、通過廣泛的資料查閱、專家咨詢、走訪調查,對平臺做出總體設計。
2、選擇某個高校做試點,綜合、整理現(xiàn)有的高校檔案資料,分門別類,特別是無需保密的檔案資料都做好歸類處理。
3、對已整理核實好的高校檔案資料進行數(shù)字化處理,建設檔案館網站,對各種檔案資源做多模態(tài)的展示。
4、用GIS技術,建立全國高校檔案地理信息系統(tǒng),對各高校檔案館做廣泛系連。
5、利用網絡交互技術建立與用戶的互動平臺,使廣大用戶既是平臺資源的受用者,也是平臺資源的提供者。
6、在平臺上建立文獻檢索系統(tǒng),向國內外提供檔案文獻的特色服務。
二、功能設計
從現(xiàn)有的國內外數(shù)字化平臺建設的類型來看,其最大的特點都采用功能設計突出用戶導向,立足用戶需求開展信息檢索、利用互動、用戶分類、信息更新、公共教育、在線幫助、網上展覽、網上購物等多重服務,以滿足眾多用戶的需要。根據(jù)這一服務理念,我們初步設計了如下的建設方案:
1、前臺頁面
面向最終用戶的頁面表現(xiàn)。優(yōu)先考慮效率問題,以提高用戶體驗。包括緩存策略、功能性界面設計、搜索引擎設計、用戶個性化界面等。
2、后臺管理
內容管理和表現(xiàn)的分離是網絡程序的常見設計方式。內容一般用數(shù)據(jù)庫存儲,后臺各種子系統(tǒng)可以根據(jù)需要來調取各項內容。表現(xiàn)模板則和后臺各種子系統(tǒng)設計分開,控制后臺各個子系統(tǒng)數(shù)據(jù)的取舍和表現(xiàn),與后臺各個子系統(tǒng)之間只是數(shù)據(jù)傳遞的關系。而后臺的各個子系統(tǒng)也都非常容易插拔。表現(xiàn)模塊以腳本語言或標記語言保存在數(shù)據(jù)庫中,可以自行設計修改。頁面表現(xiàn)一般就是各種后臺子系統(tǒng)模塊的各種組合,這種頁面表現(xiàn)的組合邏輯是非常豐富的。
后臺管理主要是業(yè)務子系統(tǒng)模塊的管理。如:信息錄入子系統(tǒng)、信息分類子系統(tǒng)、信息討論子系統(tǒng)、信息提取子系統(tǒng)等。針對不同的子系統(tǒng)方便管理者的內容錄入;所見即所得的編輯管理界面等,清晰的業(yè)務邏輯;各種子系統(tǒng)的權限控制機制等。
3、數(shù)據(jù)庫結構設計
(1)設計方案
①數(shù)據(jù)字典
分離內容的管理和設計。頁面設計存儲在模板里,而內容存儲在數(shù)據(jù)庫或獨立的文件中。當一個用戶請求頁面時,各部分聯(lián)合生成一個標準的HTML頁面。每個模型都可以自定義擴展字段,由用戶自定義屬性字段,以適應未來的拓展要求。
②信息條目相關關系
信息條目的相關關系有:同義、近義、反義、上下義。主要的目的就是便于統(tǒng)計,用于信息提取。搜索引擎設計,有一個字段專門用于標明是同義關系,還是近義關系、反義、上下義。有了這個關系標識,信息提取就非常方便。
(2)安全保密設計
通過后臺數(shù)據(jù)管理,分不同的管理員確保數(shù)據(jù)的安全性。其次,也采取了詞語過濾,IP策略保障信息數(shù)據(jù)的安全性。
(3)數(shù)據(jù)庫結構
數(shù)據(jù)庫表信息結構如下表所示:
序號 數(shù)據(jù)表英文名 數(shù)據(jù)表中文名
1 DepartmentInfo 部門信息表;2 UserTypeInfo 用戶類型表;3 UserInfo 用戶信息表;4 AreaInfo 地域信息表;5 UniversitiesInfo 高校信息表
6 CategoryInfo 分類信息表;7 TsarchivesInfo 特色檔案信息表;8 TsArchivesAreaInfo 特色檔案地域單位表;9 TsArchivesInfo 特色檔案關聯(lián)表;10 ArchivesInfo 檔案信息表;11 ArchivesReference 檔案參考資料;12 ArchivesPicInfo 檔案圖片信息表;13 ImageAlbumInfo 圖冊信息表;14 ArchivesAuInfo 檔案音頻信息表;15 ArchivesAvinfo 檔案視頻信息表;16 ArchivesTagInfo 檔案標簽信息表;17 ArticleTag 文章標簽表;18 Comment 文章評論表;19 CommentReport 文章評論回復表;20 FilterWords 系統(tǒng)敏感詞過濾表;21 IpControl 系統(tǒng)IP過濾表;22 MailConfig 郵件配置信息表;23 ScoreLevel 系統(tǒng)積分等級表;24 SysConfig 系統(tǒng)基本配置表;
(4)接口設計
①用戶接口
a)各級別的用戶登錄接口。
b)各級別的管理員登錄接口。
②外部接口
a)WIKI接口:強大的信息采集功能,可掛接插件。能夠從其它網頁上導入進來,作為我們的信息條,然后加工它。
b)GIS接口:URL。地圖上的顯示,可以跳轉出去,因為GIS系統(tǒng)是我們自己開發(fā)的。
c)文獻接口:URL,獲取大量的電子文獻內容,也可以是跳轉出去,能夠檢索出一些相關的內容。文獻系統(tǒng)也是我們自己開發(fā)的。
d)大數(shù)據(jù)接口:預留,將來可以獲取大量豐富的檔案資源數(shù)據(jù),例如查看檔案原件模型,也是跳轉出去。
2、數(shù)據(jù)與材料的搜集與整理
數(shù)據(jù)與材料是本平臺的最核心內容,分兩個步驟進行。
第一步,試點單位檔案管整理已經過鑒別的非保密的館藏檔案材料,經過數(shù)字化處理,做成數(shù)據(jù)庫,導入我們已建成的數(shù)字化檔案館平臺進行示范展示。
第二步,擴大參與單位,增加數(shù)字化檔案館檔案材料。本數(shù)字平臺涉及的檔案數(shù)據(jù)和研究面大,必須采用大協(xié)作的方法,協(xié)同攻關。初步設想是以本平臺為藍本,國內其他高校均參與到檔案網站建設中來,最終建成全國高校檔案資源數(shù)字化網絡檔案館。為我國實施大數(shù)據(jù)戰(zhàn)略在檔案領域做開拓性的探索。
綜觀國內外數(shù)字化檔案館的功能設計無不圍繞用戶的需求而展開,所以,本建設設計方案以突出用戶為導向,強化高校數(shù)字化檔案館平臺建設即數(shù)字化檔案網站前后平臺以及數(shù)據(jù)庫的建設,這是數(shù)字化檔案館的核心部分,如果光有技術平臺而無可以查詢利用的數(shù)據(jù)、檔案,那就達不到建設的目的,但如果只有數(shù)據(jù)、檔案等文獻,其檢索功能單一低效,那么也不會吸引利用者查詢或因為麻煩而不愿意使用,也還是達不到建設的目的和效果。為此,我們著重開發(fā)功能強大的文獻檢索系統(tǒng),接口設計詳盡周到,以期為用戶提供豐富而詳細的檢索條件和互動利用,方便用戶檢索利用。我們還受地理信息系統(tǒng)的啟示,在數(shù)字化檔案館的建設中引入檔案地理信息系統(tǒng)建設,這樣更為直觀明了,不僅給使用者找到歷史的時空感,還能把使用者帶入地理的空間,可以更為直觀地了解該檔案事件發(fā)生的時間地點,給人更多的感悟和理解。
(作者單位:廣東技術師范學院檔案館)