亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

文本挖掘在高校歷史檔案編研中的應(yīng)用策略探討

2021-04-14 20:04:39魯達(dá)志

卷宗 2021年1期

王靜王喆魯達(dá)志

（吉林大學(xué)檔案館，吉林長春 130012）

高校歷史檔案是學(xué)校校史文化的重要載體，它真實(shí)而全面的收集了高校在學(xué)校文化傳承、辦學(xué)教育思想、科學(xué)研究等歷史發(fā)展進(jìn)程的珍貴資料，是見證高校發(fā)展與變化的一面明鏡。而產(chǎn)生于各高校建校早期的歷史檔案不僅有效的記載著高校這一時(shí)期的歷史軌跡，同時(shí)也是當(dāng)時(shí)國家政策制定、執(zhí)行、反饋的最好的外在表現(xiàn)之一。將這些珍貴的檔案資源尤其是歷史檔案資源應(yīng)用于檔案編研及校史研究中，不僅能夠增加研究成果的真實(shí)性、權(quán)威性，更是對學(xué)校發(fā)展歷程的進(jìn)一步開拓和完善。

檔案機(jī)構(gòu)針對歷史檔案的傳統(tǒng)編研模式為：成立編研小組、對檔案文獻(xiàn)進(jìn)行整理、研究與考證、編寫研究成果。這一過程基于多人協(xié)作且對人工依賴程度較高，當(dāng)所需處理的檔案資料體量較大時(shí)效率不高，另一方面因?yàn)樾畔⑻幚淼臉?biāo)準(zhǔn)因人而異，編研成果的客觀性也將大打折扣。利用文本挖掘技術(shù)模擬傳統(tǒng)編研模式對數(shù)字化完畢的歷史檔案中的文本內(nèi)容進(jìn)行分析與挖掘，獲取有價(jià)值的、潛藏的新知識和史實(shí)，可以輔助檔案工作人員對學(xué)校歷史進(jìn)行編纂和研究。

1 文本挖掘應(yīng)用面臨的問題

1）原始檔案文獻(xiàn)的數(shù)字化。高校歷史檔案多形成于學(xué)校建校初期，產(chǎn)生年限較長，以筆者所在學(xué)校為例，最早的歷史檔案可追溯至百余年前，這一部分檔案多為手稿形式。由于年代久遠(yuǎn),受當(dāng)時(shí)紙質(zhì)、書寫工具及保管條件的限制,很多手稿檔案如今紙張發(fā)黃、變薄、受潮,字跡褪色、掉色嚴(yán)重, 與此同時(shí)手稿檔案往往還存在字跡潦草等現(xiàn)象給檔案的開發(fā)、利用和研究工作帶來很多不便。這也造成了歷史檔案資料大多處于“重保管, 少利用”的狀態(tài)。雖然部分高校檔案部門已經(jīng)認(rèn)識到了歷史檔案開發(fā)和利用的重要性并且逐步開展了這部分檔案的數(shù)字化加工，但是加工形式多為圖片掃描，想要借助文本挖掘來輔助編研，必須將檔案文獻(xiàn)進(jìn)一步轉(zhuǎn)換為文本類型。

2）待挖掘案例的選取。歷史檔案體量龐大，隱含知識豐富，先期挖掘案例的選取關(guān)系挖掘過程的效率、結(jié)果的有效性驗(yàn)證等，因此需要多方考察與論證。在進(jìn)行檔案編研實(shí)際選題前，需要對歷史檔案的原始狀況進(jìn)行初步采集與分析，劃定編研選題及相關(guān)檔案的范圍，排除不屬于編研范疇的檔案信息。

3）文本數(shù)據(jù)轉(zhuǎn)化。文本挖掘從廣義上講屬于數(shù)據(jù)挖掘的范疇，但是有別于傳統(tǒng)的對結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的數(shù)據(jù)挖掘技術(shù)，文本挖掘首先需要將非結(jié)構(gòu)化的文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)值型數(shù)據(jù)，再采用成熟的數(shù)據(jù)挖掘技術(shù)進(jìn)行后續(xù)的處理。因此如何將文本數(shù)據(jù)轉(zhuǎn)化成可以直接進(jìn)行數(shù)據(jù)挖掘分析的結(jié)構(gòu)化數(shù)據(jù)，是實(shí)現(xiàn)文本挖掘的首要和核心任務(wù)。

4）文本挖掘方式的選擇。文本挖掘是一個(gè)廣泛概念，包含文本分類、文本聚類、序列標(biāo)注、信息檢索、文本摘要等多種方法，這些方法又包含多種算法，其實(shí)現(xiàn)過程及挖掘的側(cè)重點(diǎn)不一，如何選定適用的算法將依賴具體案例和編研需求而定。因此，在進(jìn)行歷史檔案的實(shí)際挖掘操作前，需要對挖掘內(nèi)容和挖掘方法進(jìn)行初步規(guī)劃。

2 文本挖掘應(yīng)用的策略探討

以高校歷史檔案的現(xiàn)實(shí)情況為依據(jù)，結(jié)合其他領(lǐng)域成功的應(yīng)用范例，筆者將整體挖掘過程分為4個(gè)主要環(huán)節(jié)，分別為：

1）文本數(shù)據(jù)獲取。因歷史檔案原件年代久遠(yuǎn)且多為手稿，除去前文提到的檔案紙張和字跡等問題還可能存在有批注、修改、繁體字等情況，因此數(shù)字化加工人員嘗試?yán)肙CR識別技術(shù)來輔助檔案原件進(jìn)行文本轉(zhuǎn)化。OCR識別技術(shù)相對于傳統(tǒng)的手工錄入方式來說，具有處理速度方面巨大的優(yōu)勢。但考慮到原始檔案的實(shí)際情況，需要重視識別前期的影像前處理工作以及后期的人工校正工作，這樣才能進(jìn)一步保證文本處理的質(zhì)量。對于原始檔案實(shí)在辨識不清的情況，可以采取手工著錄的形式來進(jìn)行文本轉(zhuǎn)換。

2）文本預(yù)處理。在這一環(huán)節(jié)的處理上，首先需要對原始?xì)v史檔案文本進(jìn)行內(nèi)容篩選即簡單分析去除無關(guān)文獻(xiàn)，再進(jìn)行文本標(biāo)準(zhǔn)化和文本結(jié)構(gòu)化處理。文本標(biāo)準(zhǔn)化主要指去除無效、特殊字符，錯(cuò)別字修復(fù)、簡體字繁體字統(tǒng)一、構(gòu)建同義詞、近義詞表以減少文本特征等過程，目的在于通過有效的設(shè)計(jì)和利用標(biāo)準(zhǔn)化模型來降低后續(xù)文本分析任務(wù)的復(fù)雜性。文本結(jié)構(gòu)化將文本對象轉(zhuǎn)換為數(shù)值類型，從而使文本挖掘任務(wù)轉(zhuǎn)換為較為簡單的數(shù)據(jù)挖掘任務(wù)。歷史檔案文檔大多為包含大量連續(xù)字串的中文文本，除了標(biāo)點(diǎn)符號外沒有任何間隔。因此在處理歷史檔案文本時(shí)首先應(yīng)該完成對文本的分詞。然而不同的分詞結(jié)果可能會(huì)影響算法處理結(jié)果，所以正確的切分是文本預(yù)處理的關(guān)鍵一步。分詞后得到的詞項(xiàng)和詞集再進(jìn)行特征表示、特征抽取等環(huán)節(jié)，隨后以此為基礎(chǔ)建立分析模型。模型的建立需要如實(shí)地反應(yīng)詞匯與原始文檔的關(guān)系，還要有對不同文檔的區(qū)分能力。值得注意的是任何統(tǒng)計(jì)模型都不能把原始文本的所有含義表達(dá)出來。因此在對歷史檔案進(jìn)行分析時(shí)，應(yīng)當(dāng)以當(dāng)前檔案編研工作真正關(guān)心的信息和需求為出發(fā)點(diǎn)來進(jìn)行文本建模。

3）文本挖掘分析。歷史檔案文本轉(zhuǎn)換為結(jié)構(gòu)化的向量形式后就可以進(jìn)行后續(xù)的挖掘分析了。常用的文本挖掘分析方式有：文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、文本關(guān)聯(lián)分析、分布趨勢和趨勢預(yù)測等。根據(jù)編研任務(wù)的不同，我們可以選取其中某些分析方式為自己所用。聚類技術(shù)可以自動(dòng)對大量無序、無類別的檔案文檔進(jìn)行歸類，將內(nèi)容相近的文檔歸類并自動(dòng)生成這一類檔案的主題詞，為編研人員確定編研類目提供方便，這是一種無監(jiān)督的挖掘方式。而分類技術(shù)可以實(shí)現(xiàn)檔案史料的有監(jiān)督挖掘，即通過預(yù)設(shè)主題分類對原始檔案資料進(jìn)行自動(dòng)分析和判別，從而劃分出滿足編研需求的文檔對象。文本摘要技術(shù)可以對文本內(nèi)容進(jìn)行壓縮，生成原始檔案文檔的簡要概述以幫助編研人員快速領(lǐng)會(huì)原文檔的基本內(nèi)容，從而節(jié)省了編研人員對文檔的甄別時(shí)效。關(guān)聯(lián)分析可以協(xié)助編研人員從原始檔案文檔集合中挖掘出不同詞語間的關(guān)系。分布趨勢和趨勢預(yù)測對原始檔案文檔觀點(diǎn)進(jìn)行傾向性分析和統(tǒng)計(jì)，可以協(xié)助編研人員識別文檔的分布趨勢。

4）文本可視化。在文本挖掘過程中可以結(jié)合可視化技術(shù)及工具來實(shí)現(xiàn)挖掘過程及結(jié)果的展示。通過開發(fā)相關(guān)功能，將數(shù)據(jù)映射為圖表、圖形等形式，并添加點(diǎn)擊、縮放等交互操作效果來全面直觀的掌控挖掘過程，協(xié)助編研人員觀察和探索文檔間及文檔內(nèi)部的隱含信息。可視化功能的加入為編研人員提供了參考思路，增強(qiáng)了編研人員對歷史文檔的認(rèn)知效率與認(rèn)知能力，減輕他們的信息壓力與信息負(fù)荷，從而也成為數(shù)據(jù)分析領(lǐng)域中不可或缺工具。

3 結(jié)語

高校歷史檔案中涵蓋了大量的學(xué)校早期的重要史實(shí)信息，實(shí)現(xiàn)堪稱海量的歷史檔案資料的快速整理、分類、錄入和知識挖掘是檔案編研工作者的訴求。利用文本挖掘技術(shù)協(xié)助完成此項(xiàng)工作，為傳統(tǒng)的檔案編研工作提供了一種新的思路和解決方案，同時(shí)也為實(shí)現(xiàn)歷史檔案的妥善保護(hù)與知識共享創(chuàng)造了可能性。