《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》指出:“新一代信息技術廣泛應用,檔案工作環(huán)境、對象、內容發(fā)生巨大變化,迫切要求創(chuàng)新檔案工作理念、方法、模式,加快全面數字轉型和智能升級?!盵1]黨的十九屆四中全會首次提出將數據作為生產要素參與分配,數據成為繼土地、勞動力、資本、技術之后的第五大生產要素。隨著信息技術水平的不斷提高,社會智能化、數字化程度也隨之提高,人類生活生產方式的轉變導致信息資源空間結構發(fā)生顛覆性變化,傳統(tǒng)的檔案數字化已經不能很好地滿足目前以至未來人們的檔案開發(fā)利用需求,檔案數據化已經成為檔案事業(yè)數字轉型和全面升級的必要條件。檔案數據化的核心在于進一步細化電子化檔案的信息顆粒度,使得信息顆粒度重組為計算機可識別語義的精細化數據[2],簡單來說就是將電子化的檔案進一步加工成機器可理解識別的機讀數據。語料庫是為研究自然語言現象而收集、整理和存儲的文本數據集 [3],也是檔案數據化的表現形式之一。2024年1月,國家數據局等17部門聯合印發(fā)《“數據要素×”三年行動計劃(2024—2026年)》,提出“深入挖掘各類科學數據和科技文獻,通過細粒度知識抽取和多來源知識融合,構建科學知識資源底座,建設高質量語料庫和基礎科學數據集” [4]。構建高質量的語料庫是對檔案資源進行深度數字加工、知識組織、知識發(fā)現的必備條件。目前,我國檔案資源種類繁多,保密期限不同,開放利用的方式也不盡相同,因此,以專題為單位構建檔案語料庫可以進一步幫助我國檔案資源開發(fā)與利用。本文在分析面向專題的檔案語料庫構建必要性的基礎上提出語料庫的構建原則,并給出了面向專題的檔案語料庫構建方法,以抗美援朝檔案為例,構建抗美援朝專題檔案語料庫模型,以期為其他專題檔案語料庫構建提供參考。
一、面向專題的檔案語料庫構建的必要性
首先,從國家層面來說,專題檔案語料庫的建立是檔案數據化建設的重要途徑之一,不僅契合將數據作為五大生產要素之一合理利用的思想,更推動了數字中國建設進程。
其次,從社會層面來說,隨著信息化時代的到來,社會公眾對于信息透明、知識共享的需求日益增長。目前,檔案館的檔案開放工作正在如火如荼地進行,傳統(tǒng)的檔案管理模式通常以紙質或電子掃描保存為主,查閱流程復雜且費時,難以滿足現代社會對檔案高效查閱與利用的需求。面向專題的檔案語料庫通過數字化、網絡化的方式開放檔案資料,使公眾能夠通過互聯網輕松獲取相關檔案數據,尤其是在某些具有廣泛社會影響力的專題領域構建檔案語料庫,有助于公眾更好地理解歷史、關注社會問題。
最后,從文化價值方面來說,檔案是社會歷史和文化的真實記錄,具有獨特的歷史文化價值,每一份檔案都承載著一個時代的印記,是人類社會發(fā)展歷程的重要見證。面向專題的檔案語料庫能夠將與特定主題相關的重要檔案資料集中收錄,形成一個結構化的數字化平臺,有效避免珍貴資料散失、遺忘或被忽略。這不僅有利于檔案的保存和傳承,同時也為后代研究、考證提供了寶貴的資料,從而推動歷史文化的傳承與保護。
因此,面向專題的檔案語料庫構建不僅在國家層面推動數字化進程,在社會層面滿足公眾的需求,更在文化價值層面保護和傳承了歷史文化。它是實現檔案數字化管理、信息公開共享、文化保護的重要途徑,也是社會各界進行深入研究、探討歷史與現實問題的堅實基礎。
二、面向專題的檔案語料庫構建原則
(一)真實可靠原則
確保語料庫中收集的檔案資料真實可靠是構建檔案語料庫的首要原則,也是構建高質量檔案語料庫的核心條件。確保語料庫中收集的檔案資料真實、準確,首先要做到所有檔案資料來源明確,并經過仔細驗證,防止篡改、偽造,以及不準確、不完整的數據進入語料庫。這一原則是為了確保研究人員和其他用戶能夠依賴語料庫中的數據進行可信的分析和研究。
(二)全面性原則
以專題為單位對檔案收集齊全,確保同一專題的可開放利用檔案都能進入語料庫,其來源通常并不拘泥于單一的館藏單位,保存在檔案館、圖書館、文化館、史志辦等文化機構的相關材料都應該納入收集范圍[5]。這種廣泛的收集方式能夠保證語料庫內容的多樣性與豐富性,使其能夠更全面地反映出某一專題的方方面面,為研究者提供一個廣闊的有深度的研究基礎。
(三)安全性原則
語料庫作為一個可供研究和公眾使用的開放性文本數據集,安全性是其構建過程中必須嚴肅考慮的重要因素。在構建語料庫之前,需要首先檢查檔案資料的保密期限,確保所有納入語料庫的資料都已經解密或無保密限制。此外,在數據的存儲、傳輸和應用過程中,應采取必要的安全措施,以保證數據載體和內容的安全,防止數據丟失、泄露或被非法篡改,確保語料庫的長期穩(wěn)定和安全使用。
三、面向專題的檔案語料庫構建方法
(一)數據收集
明確收集范圍,在確保真實可靠的基礎上盡可能從不同角度全面地收集專題檔案數據資源,以確保語料庫的全面性和適用性。收集過程中,應注意不同類型檔案的綜合性和代表性,以便為后續(xù)研究提供豐富、詳細的數據支持。
(二)數據預處理
收集到的數據可能存在許多噪聲和無用信息,因此需要進行數據清洗和預處理。首先,可以將文本拆分成單詞或詞組,去掉頻繁出現但沒有實際意義的詞語。其次,可以對文本進行標準化處理,如統(tǒng)一格式、糾正拼寫錯誤等。此外,數據預處理還包括文本的結構化處理,以便更好地進行后續(xù)分析和應用。
(三)數據標注
數據標注是指為語料庫中的數據添加結構化標簽或注釋,以便機器學習模型可以使用這些標簽進行訓練和評估。數據標注是構建高質量語料庫的重要環(huán)節(jié),標注原則與方法的確定是做好數據標注工作的重中之重。
在標注體系的確定上,常見的標注方法有實體標注,即標注人名、物名、組織名等實體;詞性標注以及基于依存句法的標注,即標注句子中詞與詞之間的語法關系。目前信息資源領域主流的標注方法是實體標注,為了更好地體現文本核心語義信息以實現檔案文本的語義計算,可以將語義本體引入數據標注階段。通過本體建模進而指導數據標注,構建標注體系。
在標注方法上,目前數據標注策略主要有人工標注、機器標注和人機結合標注三種[6]。人工標注耗時較多,且需要標注人員有一定的行業(yè)知識儲備才能保證標注內容的準確,費時費力,適合小型語料庫的標注。目前機器標注的研究尚未完全成熟,因此可以選擇人機結合的標注方法進行數據標注。
(四)數據存儲
專題的檔案語料庫存儲可以選用非關系型數據庫進行存儲。這些數據庫具有高擴展性和靈活性,能夠高效地處理大量的非結構化數據,并支持復雜查詢和實時分析。選擇合適的存儲方案,可以確保語料庫的數據管理和檢索更為高效、便捷。
四、面向專題檔案語料庫構建模型——以抗美援朝檔案為例
抗美援朝檔案是指在抗美援朝時期形成的,記錄與反映抗美援朝歷史,體現抗美援朝精神的具有保存價值的歷史文化資料[7]。圖1為抗美援朝檔案語料庫構建模型,主要分為:檔案數據資源層、檔案數據處理層和檔案數據資產層三個模塊。
(一)檔案數據資源層
檔案數據資源層主要包括應收納進語料庫的抗美援朝檔案資源,語料庫數據資源的選取應遵循數量規(guī)模大、覆蓋面廣、真實可靠、來源清晰、合法合規(guī)的原則。在此基礎上將抗美援朝時期電子化文件、抗美援朝口述資料、抗美援朝回憶錄等抗美援朝檔案收集齊全,再通過人工篩查重復檔案、文本提取等一系列操作手段形成抗美援朝檔案數據資源。
(二)檔案數據處理層
檔案數據處理層是抗美援朝專題檔案語料庫構建模型的核心部分,也是抗美援朝專題檔案語料庫構建的主要步驟。首先對抗美援朝檔案進行本體建模,明確檔案數據的結構和關系,為后續(xù)的處理和分析提供基礎,并構建語料標注體系。其次,將檔案數據資源層得到的抗美援朝檔案數據資源進行數據清洗、去重、分詞。數據清洗是指去除數據中的噪聲和錯誤,保證數據的質量;去重是指消除重復的檔案記錄,保證數據的獨特性;分詞是指將文本數據按照詞語進行切分,便于后續(xù)的分析和處理,經過一系列操作后得到抗美援朝檔案原始語料。在數據預處理之后,進入數據標注階段??梢圆扇∪斯俗⒌姆绞礁鶕嫿ǖ臉俗Ⅲw系進行實體標注,也可以采用命名實體識別技術識別出抗美援朝檔案數據資源中的實體進行標注,標注后即得到抗美援朝專題檔案語料庫。
(三)檔案數據資產層
將檔案數據處理層得到的抗美援朝專題檔案語料庫采用非關系型數據庫進行存儲即得到抗美援朝專題檔案數據資產。非關系型數據庫具有高效的存儲和檢索性能,能夠滿足大規(guī)模檔案數據的存儲需求,設計存儲數據結構并導入非關系型數據庫中即可進行檢索??姑涝瘜n}檔案語料庫不僅可以作為數據資產,為檔案管理部門提供高效的數據存儲和檢索服務,還可以作為抗美援朝相關研究的基礎數據。將抗美援朝檔案語料進行進一步知識融合與抽取即可構建抗美援朝領域知識圖譜。領域知識圖譜又稱為行業(yè)知識圖譜或垂直知識圖譜,是面向某一特定領域,由該領域的專業(yè)數據構成的行業(yè)知識庫[8]。除此之外,還可以進行抗美援朝檔案的文本挖掘與語義分析。文本挖掘可以從海量的檔案數據中提取有價值的信息,語義分析可以深入理解檔案數據的內容和意義。這些技術手段的應用,可以極大地提升檔案數據的利用價值,為抗美援朝相關研究提供新的視角和方法。
五、結語
大數據時代,數據成為國家基礎性戰(zhàn)略資源和關鍵生產要素,推動經濟運行方式、生產生活方式和社會治理方式深刻變革[9]。檔案數據已經成為了檔案管理的新對象。本文立足于檔案數據化背景之下,探究面向專題的檔案語料庫的實現路徑,以抗美援朝檔案為例,構建抗美援朝專題檔案語料庫模型,以期為其他專題檔案語料庫構建提供參考。
參考文獻:
[1] 中共中央辦公廳,國務院辦公廳.“十四五”全國檔案事業(yè)發(fā)展規(guī)劃[EB/OL].(2021-06-09)[2024-07-01]. https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[2]陸國強.檔案信息智能化利用:從數字化到數據化[J].浙江檔案,2023(5):48-50.
[3]周明. 中文語言學與計算語言學[M]. 北京:高等教育出版社,2017.
[4] 中華人民共和國國家發(fā)展和改革委員會.國家數據局等17部門聯合印發(fā)《“數據要素×”三年行動計劃(2024—2026年)》[EB/OL].(2024-01-04)[2024-07-02]. https://www.ndrc.gov.cn/xwdt/ztzl/szjj/zcwj/202406/t20240607_1386734.html.
[5]婁麗娜.紅色檔案語料庫構建的原則與方法[J].山西檔案,2024(1):70-72.
[6] 黃水清,王東波.國內語料庫研究綜述[J].信息資源管理學報,2021 (3):4-17+87.
[7] 趙彥昌,吉日格勒.抗美援朝檔案資源敘事化開發(fā)研究:紀念抗美援朝戰(zhàn)爭勝利70周年[J].檔案與建設,2023(12):8-11.
[8] 劉燁宸,李華昱.領域知識圖譜研究綜述[J].計算機系統(tǒng)應用,2020 (6):1-12.
[9] 金波,楊鵬.檔案數據治理賦能的思維意象與行動具象[J].檔案學研究,2024(3):4-12.
基金項目:2024年遼寧省教育廳高?;究蒲许椖俊皵祿鼗尘跋聰底謾n案資源知識組織與開放利用研究”(LJ112410140076)
作者單位:遼寧大學信息資源管理學院