苗洪麗
檔案信息資源具有來源多元、內容豐富、信息散布、數(shù)據(jù)繁雜等特性,尤其是隨著高校的發(fā)展,檔案的種類、數(shù)量和內容都在不斷增多,這對高校檔案管理部門的檔案信息管理控制能力和開發(fā)利用能力提出了更高的要求。2016年印發(fā)的《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》明確提出,要采用大數(shù)據(jù)、智慧管理、智能樓宇管理等技術,提高檔案館業(yè)務信息化和檔案信息資源深度開發(fā)與服務水平[1]。通過檔案數(shù)據(jù)化,更新信息處理模式,可以為提升檔案信息管理和開發(fā)能力提供新的思路和技術手段。
檔案信息的數(shù)據(jù)化是新時代檔案事業(yè)發(fā)展的新趨向,是建立在數(shù)字化基礎上的進一步發(fā)展。數(shù)字化的主要工作是將檔案由物理形態(tài)轉變成電子形態(tài),即可通過計算機來閱讀和編輯的二進制數(shù)據(jù)檔案信息。數(shù)字化的確有很多優(yōu)勢,豐富了檔案儲存方式,增加了流通渠道,但在檔案利用方面,只是將實物變成了電腦屏幕,沒有從實質上改變檔案的利用方式。真正要實現(xiàn)檔案利用方式的進一步發(fā)展就需要實現(xiàn)檔案數(shù)據(jù)化,也就是將其中蘊含的信息轉變成可制表分析的量化形式的過程[2]。
檔案數(shù)據(jù)化是在數(shù)字化的基礎上,用OCR(Optical Character Recognition,光學字符識別)、ASR(Automatic Speech Recognition,自動語音識別)等技術,對檔案中的內容進行智能識別,完成基本的分類和著錄工作,通過詞頻分析、GIS以及關系網(wǎng)絡分析等方法,將利用文獻的方式從“讀”轉變?yōu)椤胺治觥?,重組檔案內容,置入新的文本或數(shù)據(jù)結構中,實現(xiàn)結構化。換言之,數(shù)據(jù)化是將利用檔案的途徑由“頁面閱讀”轉變?yōu)椤靶畔㈤_發(fā)”,在由計算機識讀檔案文字的基礎上,借助智能化的工具轉換成計算機可以理解的內容,實現(xiàn)檔案利用價值的深度開發(fā)[3]。
檔案數(shù)字化主要是將檔案信息轉化為二進制代碼,數(shù)據(jù)化對應的則是檔案中零散的信息。檔案數(shù)字化是數(shù)據(jù)化的基礎,如果沒有數(shù)字化對檔案的收入和轉化,那么就無法開展檔案數(shù)據(jù)化工作;但數(shù)據(jù)化對檔案信息的識別和處理,是數(shù)字化所不能替代的。所以檔案數(shù)據(jù)化和數(shù)字化并不是對立的,而是承接與完善的發(fā)展過程。
隨著高校的發(fā)展,各類檔案的數(shù)量必然是呈增加趨勢的。截至2018年,全國共有普通高等學校2663所,比上年增加32所,增長1.22%。普通本??普猩?90.99萬人,比上年增加29.50萬人,增長3.87%;普通高等學校教職工248.75萬人,比上年增加4.45萬人,增長1.82%。普通高等學校校舍總建筑面積97713.56萬平方米,比上年增加2313.23萬平方米;教學科研儀器設備總值5533.06億元,比上年增加537.77億元[4]。我國高等教育事業(yè)在蓬勃發(fā)展的同時,檔案中包含的信息數(shù)量也逐漸增多,這為高校檔案部門帶來了巨大的壓力。傳統(tǒng)的檔案管理和數(shù)字化檔案管理模式,仍然需要大量的人工介入,才能完成對檔案信息的利用和整理,導致一定的滯后性、片面性和主觀性,已經(jīng)不能滿足高校的現(xiàn)實要求。
新時代對高校檔案部門提出了更高的要求,只有具備探索數(shù)據(jù)時代改善業(yè)務能力、服務水平,提升檔案利用率的能力,才能更好地為高校師生服務。數(shù)字化解決了檔案信息的收集、轉化、錄入和儲存的問題,而具有高密度價值的檔案信息,只有通過數(shù)據(jù)化手段才能對其進行智能分析與利用,實現(xiàn)對多源異構的低密度價值數(shù)據(jù)資源的深層次開發(fā)與整合,為高校發(fā)展和規(guī)劃提供有效的檔案信息。
在大數(shù)據(jù)時代,只有大數(shù)據(jù)和人工智能技術完成檔案數(shù)據(jù)化,才能完成檔案的深層次利用,可以說全面推進高校檔案數(shù)據(jù)化,正是高校檔案管理未來的發(fā)展方向。但需要注意的是,數(shù)據(jù)分析和數(shù)據(jù)挖掘應當作為高校檔案業(yè)務的拓展部分,而非高校檔案管理工作的全部內容。
數(shù)據(jù)化可以實現(xiàn)檔案信息從機器讀取到智能理解的轉變,為高校檔案部門業(yè)務工作智能化轉型奠定基礎,對于實現(xiàn)檔案智能化深度開發(fā)、增強智能化服務能力、提升智能化管理水平,具有重要的現(xiàn)實意義。
1.實現(xiàn)智能化深度開發(fā)。檔案信息資源的深度開發(fā)一直以來都是高校檔案部門重點研究內容,單純的數(shù)字化技術不能通過計算機技術對檔案信息進行識別和處理,使得高校的檔案信息停滯于數(shù)據(jù)領域之外,無法實現(xiàn)更深層次的內容開發(fā)和挖掘。這樣一來,伴隨著檔案數(shù)字化工作的不斷推進,高校檔案部門利用數(shù)字化技術完成了對檔案信息的收錄、保存、檢索工作,大量的檔案信息得以通過PDF、圖片、文本文檔等數(shù)字格式進行保存,呈現(xiàn)出“內卷化”趨勢。即雖然擁有大量有價值的檔案信息,但沒有足夠的能力來加以利用,檔案工作難以突破“有編無研”的瓶頸,使得檔案數(shù)字化也逐漸變成了“雞肋”。
檔案數(shù)據(jù)化為高校檔案信息資源開發(fā)和利用帶來新的方向,不但改變了檔案信息的儲存模式——將檔案信息與檔案實體剝離,也實現(xiàn)了對檔案信息的有序化組織和內容的開發(fā)。通過適當?shù)慕y(tǒng)計分析方法對檔案信息進行分析,提取有效數(shù)據(jù),并對其加以詳細研究及概括總結,實現(xiàn)了將檔案信息從基礎性的“載體轉化”到更深層的“內容開發(fā)”,再進一步對檔案信息進行融合、關聯(lián)、挖掘與分析,實現(xiàn)智能化的處理。
2.增強智能化服務能力。目前,高校檔案部門為師生提供的服務主要集中在:檔案查閱、檔案展覽、跨館出證、信息推送、參考咨詢等方面,在需求多樣化和差異化的今天,這些服務已經(jīng)不能完全滿足于高校師生的需求。在傳統(tǒng)管理模式下,要利用檔案信息往往是要建立在對檔案內容有初步掌握的前提下,但是龐雜的高校檔案決定了其不可能進行完全掌握,尤其是在定期更新的環(huán)境里,對于檔案內容的了解就有了更高的門檻。這需要高校檔案部門能預測用戶隱性訴求,改善服務方式,實現(xiàn)檔案服務的人性化和知識化,從“供給導向”服務模式向以用戶為中心的“需求導向”服務模式轉變[5]。
高校檔案的數(shù)據(jù)化是為了滿足不同個體的檔案需求,在收集分析檔案信息的基礎上,通過大數(shù)據(jù)技術,對檔案用戶的身份、習慣、借閱內容、搜索方式、言行記錄等結構化、半結構化、非結構化數(shù)據(jù)進行分析。精準地將檔案信息提供給有具體需求的師生,甚至是挖掘內在需求,做到定點推送,完成檔案服務和用戶需求的匹配、檔案信息和傳輸渠道匹配。
3.提升智能化管理水平。傳統(tǒng)的高校檔案管理模式,在很大程度上依賴于著錄標引深度以及文件目錄、專題指南、專題目錄、全宗指南、案卷目錄等檢索工具的編制,這一工作模式,操作相對簡單,在檔案工作的初步階段,有利于檔案的著錄描述、檢索、管理和長期保存。但是工作量大,對人力依賴性比較高,無法解析檔案中信息單元的復雜特征及信息單元間的復雜語義關系,也不能對其進行定義和識別。
推行檔案數(shù)據(jù)化后,通過數(shù)據(jù)挖掘技術分析檔案數(shù)據(jù),從檔案數(shù)據(jù)中挖掘出潛在信息,實現(xiàn)檔案信息智能檢索服務、檔案信息決策服務[6]。基于元數(shù)據(jù)進行檔案信息的標引,從而對檔案數(shù)據(jù)進行聚類、分類和相關性分析,利用大數(shù)據(jù)和人工智能領域的技術,按照預設模型和流程,自主感知、匯集、記憶、分析信息,把檔案信息變成電腦可以任意檢索的數(shù)據(jù),在非人為干預的情況下,實現(xiàn)檔案的收集、立卷、歸檔、標引、鑒定、檢索、編研、利用和服務等,提升高校檔案部門對檔案信息內容層面的把控能力。
只有推行檔案數(shù)據(jù)化,才能完成高校檔案信息的數(shù)據(jù)挖掘與數(shù)據(jù)的深度整合,充分將高校的信息加以利用,最大限度實現(xiàn)高校檔案信息的價值。