王 靜 王 喆 魯達(dá)志
(吉林大學(xué)檔案館,吉林 長春 130012)
高校歷史檔案是學(xué)校校史文化的重要載體,它真實(shí)而全面的收集了高校在學(xué)校文化傳承、辦學(xué)教育思想、科學(xué)研究等歷史發(fā)展進(jìn)程的珍貴資料,是見證高校發(fā)展與變化的一面明鏡。而產(chǎn)生于各高校建校早期的歷史檔案不僅有效的記載著高校這一時(shí)期的歷史軌跡,同時(shí)也是當(dāng)時(shí)國家政策制定、執(zhí)行、反饋的最好的外在表現(xiàn)之一。將這些珍貴的檔案資源尤其是歷史檔案資源應(yīng)用于檔案編研及校史研究中,不僅能夠增加研究成果的真實(shí)性、權(quán)威性,更是對(duì)學(xué)校發(fā)展歷程的進(jìn)一步開拓和完善。
檔案機(jī)構(gòu)針對(duì)歷史檔案的傳統(tǒng)編研模式為:成立編研小組、對(duì)檔案文獻(xiàn)進(jìn)行整理、研究與考證、編寫研究成果。這一過程基于多人協(xié)作且對(duì)人工依賴程度較高,當(dāng)所需處理的檔案資料體量較大時(shí)效率不高,另一方面因?yàn)樾畔⑻幚淼臉?biāo)準(zhǔn)因人而異,編研成果的客觀性也將大打折扣。利用文本挖掘技術(shù)模擬傳統(tǒng)編研模式對(duì)數(shù)字化完畢的歷史檔案中的文本內(nèi)容進(jìn)行分析與挖掘,獲取有價(jià)值的、潛藏的新知識(shí)和史實(shí),可以輔助檔案工作人員對(duì)學(xué)校歷史進(jìn)行編纂和研究。
1)原始檔案文獻(xiàn)的數(shù)字化。高校歷史檔案多形成于學(xué)校建校初期,產(chǎn)生年限較長,以筆者所在學(xué)校為例,最早的歷史檔案可追溯至百余年前,這一部分檔案多為手稿形式。由于年代久遠(yuǎn),受當(dāng)時(shí)紙質(zhì)、書寫工具及保管條件的限制,很多手稿檔案如今紙張發(fā)黃、變薄、受潮,字跡褪色、掉色嚴(yán)重, 與此同時(shí)手稿檔案往往還存在字跡潦草等現(xiàn)象給檔案的開發(fā)、利用和研究工作帶來很多不便。這也造成了歷史檔案資料大多處于“重保管, 少利用”的狀態(tài)。雖然部分高校檔案部門已經(jīng)認(rèn)識(shí)到了歷史檔案開發(fā)和利用的重要性并且逐步開展了這部分檔案的數(shù)字化加工,但是加工形式多為圖片掃描,想要借助文本挖掘來輔助編研,必須將檔案文獻(xiàn)進(jìn)一步轉(zhuǎn)換為文本類型。
2)待挖掘案例的選取。歷史檔案體量龐大,隱含知識(shí)豐富,先期挖掘案例的選取關(guān)系挖掘過程的效率、結(jié)果的有效性驗(yàn)證等,因此需要多方考察與論證。在進(jìn)行檔案編研實(shí)際選題前,需要對(duì)歷史檔案的原始狀況進(jìn)行初步采集與分析,劃定編研選題及相關(guān)檔案的范圍,排除不屬于編研范疇的檔案信息。
3)文本數(shù)據(jù)轉(zhuǎn)化。文本挖掘從廣義上講屬于數(shù)據(jù)挖掘的范疇,但是有別于傳統(tǒng)的對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的數(shù)據(jù)挖掘技術(shù),文本挖掘首先需要將非結(jié)構(gòu)化的文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)值型數(shù)據(jù),再采用成熟的數(shù)據(jù)挖掘技術(shù)進(jìn)行后續(xù)的處理。因此如何將文本數(shù)據(jù)轉(zhuǎn)化成可以直接進(jìn)行數(shù)據(jù)挖掘分析的結(jié)構(gòu)化數(shù)據(jù),是實(shí)現(xiàn)文本挖掘的首要和核心任務(wù)。
4)文本挖掘方式的選擇。文本挖掘是一個(gè)廣泛概念,包含文本分類、文本聚類、序列標(biāo)注、信息檢索、文本摘要等多種方法,這些方法又包含多種算法,其實(shí)現(xiàn)過程及挖掘的側(cè)重點(diǎn)不一,如何選定適用的算法將依賴具體案例和編研需求而定。因此,在進(jìn)行歷史檔案的實(shí)際挖掘操作前,需要對(duì)挖掘內(nèi)容和挖掘方法進(jìn)行初步規(guī)劃。
以高校歷史檔案的現(xiàn)實(shí)情況為依據(jù),結(jié)合其他領(lǐng)域成功的應(yīng)用范例,筆者將整體挖掘過程分為4個(gè)主要環(huán)節(jié),分別為:
1)文本數(shù)據(jù)獲取。因歷史檔案原件年代久遠(yuǎn)且多為手稿,除去前文提到的檔案紙張和字跡等問題還可能存在有批注、修改、繁體字等情況,因此數(shù)字化加工人員嘗試?yán)肙CR識(shí)別技術(shù)來輔助檔案原件進(jìn)行文本轉(zhuǎn)化。OCR識(shí)別技術(shù)相對(duì)于傳統(tǒng)的手工錄入方式來說,具有處理速度方面巨大的優(yōu)勢(shì)。但考慮到原始檔案的實(shí)際情況,需要重視識(shí)別前期的影像前處理工作以及后期的人工校正工作,這樣才能進(jìn)一步保證文本處理的質(zhì)量。對(duì)于原始檔案實(shí)在辨識(shí)不清的情況,可以采取手工著錄的形式來進(jìn)行文本轉(zhuǎn)換。
2)文本預(yù)處理。在這一環(huán)節(jié)的處理上,首先需要對(duì)原始?xì)v史檔案文本進(jìn)行內(nèi)容篩選即簡單分析去除無關(guān)文獻(xiàn),再進(jìn)行文本標(biāo)準(zhǔn)化和文本結(jié)構(gòu)化處理。文本標(biāo)準(zhǔn)化主要指去除無效、特殊字符,錯(cuò)別字修復(fù)、簡體字繁體字統(tǒng)一、構(gòu)建同義詞、近義詞表以減少文本特征等過程,目的在于通過有效的設(shè)計(jì)和利用標(biāo)準(zhǔn)化模型來降低后續(xù)文本分析任務(wù)的復(fù)雜性。文本結(jié)構(gòu)化將文本對(duì)象轉(zhuǎn)換為數(shù)值類型,從而使文本挖掘任務(wù)轉(zhuǎn)換為較為簡單的數(shù)據(jù)挖掘任務(wù)。歷史檔案文檔大多為包含大量連續(xù)字串的中文文本,除了標(biāo)點(diǎn)符號(hào)外沒有任何間隔。因此在處理歷史檔案文本時(shí)首先應(yīng)該完成對(duì)文本的分詞。然而不同的分詞結(jié)果可能會(huì)影響算法處理結(jié)果,所以正確的切分是文本預(yù)處理的關(guān)鍵一步。分詞后得到的詞項(xiàng)和詞集再進(jìn)行特征表示、特征抽取等環(huán)節(jié),隨后以此為基礎(chǔ)建立分析模型。模型的建立需要如實(shí)地反應(yīng)詞匯與原始文檔的關(guān)系,還要有對(duì)不同文檔的區(qū)分能力。值得注意的是任何統(tǒng)計(jì)模型都不能把原始文本的所有含義表達(dá)出來。因此在對(duì)歷史檔案進(jìn)行分析時(shí),應(yīng)當(dāng)以當(dāng)前檔案編研工作真正關(guān)心的信息和需求為出發(fā)點(diǎn)來進(jìn)行文本建模。
3)文本挖掘分析。歷史檔案文本轉(zhuǎn)換為結(jié)構(gòu)化的向量形式后就可以進(jìn)行后續(xù)的挖掘分析了。常用的文本挖掘分析方式有:文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、文本關(guān)聯(lián)分析、分布趨勢(shì)和趨勢(shì)預(yù)測(cè)等。根據(jù)編研任務(wù)的不同,我們可以選取其中某些分析方式為自己所用。聚類技術(shù)可以自動(dòng)對(duì)大量無序、無類別的檔案文檔進(jìn)行歸類,將內(nèi)容相近的文檔歸類并自動(dòng)生成這一類檔案的主題詞,為編研人員確定編研類目提供方便,這是一種無監(jiān)督的挖掘方式。而分類技術(shù)可以實(shí)現(xiàn)檔案史料的有監(jiān)督挖掘,即通過預(yù)設(shè)主題分類對(duì)原始檔案資料進(jìn)行自動(dòng)分析和判別,從而劃分出滿足編研需求的文檔對(duì)象。文本摘要技術(shù)可以對(duì)文本內(nèi)容進(jìn)行壓縮,生成原始檔案文檔的簡要概述以幫助編研人員快速領(lǐng)會(huì)原文檔的基本內(nèi)容,從而節(jié)省了編研人員對(duì)文檔的甄別時(shí)效。關(guān)聯(lián)分析可以協(xié)助編研人員從原始檔案文檔集合中挖掘出不同詞語間的關(guān)系。分布趨勢(shì)和趨勢(shì)預(yù)測(cè)對(duì)原始檔案文檔觀點(diǎn)進(jìn)行傾向性分析和統(tǒng)計(jì),可以協(xié)助編研人員識(shí)別文檔的分布趨勢(shì)。
4)文本可視化。在文本挖掘過程中可以結(jié)合可視化技術(shù)及工具來實(shí)現(xiàn)挖掘過程及結(jié)果的展示。通過開發(fā)相關(guān)功能,將數(shù)據(jù)映射為圖表、圖形等形式,并添加點(diǎn)擊、縮放等交互操作效果來全面直觀的掌控挖掘過程,協(xié)助編研人員觀察和探索文檔間及文檔內(nèi)部的隱含信息??梢暬δ艿募尤霝榫幯腥藛T提供了參考思路,增強(qiáng)了編研人員對(duì)歷史文檔的認(rèn)知效率與認(rèn)知能力,減輕他們的信息壓力與信息負(fù)荷,從而也成為數(shù)據(jù)分析領(lǐng)域中不可或缺工具。
高校歷史檔案中涵蓋了大量的學(xué)校早期的重要史實(shí)信息,實(shí)現(xiàn)堪稱海量的歷史檔案資料的快速整理、分類、錄入和知識(shí)挖掘是檔案編研工作者的訴求。利用文本挖掘技術(shù)協(xié)助完成此項(xiàng)工作,為傳統(tǒng)的檔案編研工作提供了一種新的思路和解決方案,同時(shí)也為實(shí)現(xiàn)歷史檔案的妥善保護(hù)與知識(shí)共享創(chuàng)造了可能性。