肖雪麗,廖常輝,李惠儀
(廣東電網(wǎng)有限責任公司東莞供電局 廣東 東莞 523109)
在深度學習技術快速發(fā)展的當下,其對于文本、圖像和語音等多種類型數(shù)據(jù)的處理能力已經(jīng)在各個領域取得了顯著的突破。對于檔案領域而言,如何借助深度學習技術優(yōu)化檔案文件齊全性檢驗的效率已成為迫在眉睫的問題[1]。面對不斷增長的檔案檢驗需求,找到一個結合深度學習與檔案管理的有效方法顯得尤為關鍵[2-4]。因此,本文旨在研究并構建一個以深度學習為基礎的檔案文件齊全性檢驗方法,希望通過此途徑,提高傳統(tǒng)檔案檢驗的工作效益。
當前,檔案文件齊全性檢驗主要依賴于傳統(tǒng)文本分詞和匹配技術。其中,文本分詞主要采用基于統(tǒng)計學習的方法[5-6],如隱馬爾可夫模型和最大熵模型,以及基于詞典的方法[7],如前向最大匹配法[8]和雙向最大匹配法[9]。文本匹配研究則集中在表示型和交互型模型[10]。
而傳統(tǒng)技術在處理檔案文件完整性檢驗時面臨巨大的挑戰(zhàn),尤其是對于具有強烈專業(yè)性和領域性的文本。詞典分詞方法在處理歧義和新詞上不足。檔案文本涵蓋行業(yè)術語、縮略詞等,增加了處理難度,導致基于規(guī)則的技術可能出現(xiàn)偏差。同時,檔案數(shù)據(jù)的不均衡性,如齊全與不齊全檔案數(shù)量差異,也可能導致模型的預測不準確。
近期的研究趨勢是結合深度學習分詞技術和預訓練語言模型如BERT(bidirectional encoder representations from transformers)[11]和RoBERTa(BERT 的改進版)[12],以提升檔案文件檢驗的效率。有研究者已嘗試使用深度學習的自然語言處理技術解決檔案文本的特殊性問題,例如采用分詞模型進行關鍵詞提取并計算文本相似度。
檔案文件齊全性檢驗是檔案管理的關鍵環(huán)節(jié),其目的在于確保檔案文件的完整性和準確性。相比傳統(tǒng)的、依賴人工的方法,本文提出了一種結合深度學習、自動化與智能化的檔案文件完整性檢驗策略,為現(xiàn)代檔案管理帶來了創(chuàng)新和高效。該方法主要包括以下步驟:①深度學習文本分詞與關鍵詞提取。利用BiLSTM-CRF[13]模型進行文本處理,該模型可以準確地進行關鍵詞提取。②構建關鍵詞庫。研究人員創(chuàng)建了一個全面的關鍵詞庫,結合預定規(guī)則,以確保高效和靈活的檔案文件完整性檢驗。③深度學習文本匹配。通過Sentence-BERT[14]模型,可以精確計算文本間的相似度,在檔案文件之間進行比對。④自動評估流程。本方法通過自動化流程,迅速且準確地評估檔案文件的齊全性,從而為檔案管理工作提供支持。該方法的處理全流程如圖1 所示。
圖1 檔案齊全性檢驗方法處理流程
在本方法中,采用的文本分詞模型是基于雙向長短期記憶網(wǎng)絡(bidirectional long short-term network,BiLSTM)與條件隨機場(conditional random field, CRF)的結構設計。詳細的模型架構可以參見圖2。
圖2 BiLSTM-CRF 模型結構
模型首先通過嵌入層(embedding layer)進行輸入處理,將單一字符轉化為對應的向量形式,其中,該向量編碼了字符的深層語義屬性,并作為模型的初始輸入數(shù)據(jù)。其次,輸入向量經(jīng)過雙向長短期記憶網(wǎng)絡層(BiLSTM layer)計算處理。而BiLSTM 層由兩部分LSTM 單元組成,兩個單元分別以從左至右和從右至左的方向處理輸入數(shù)據(jù),旨在捕獲文本中的雙向上下文信息[15]。最后,條件隨機場層基于BiLSTM 層生成的上下文向量,執(zhí)行標注決策。此結構不僅保證了文本的精確分詞,還確保了其上下文信息的有效捕獲。
為了優(yōu)化BiLSTM-CRF 分詞模型在電網(wǎng)檔案文件的應用魯棒性,研究人員針對性地收集了大量電網(wǎng)領域的檔案數(shù)據(jù),并據(jù)此構建了一個大規(guī)模的、具備豐富注釋的文本數(shù)據(jù)集。
在模型的訓練階段,為了更加精確地計算預測與實際分布之間的差異,研究人員選擇了負對數(shù)似然損失函數(shù)作為損失計算方法,如式(1)所示。為了高效地最小化損失并更新模型參數(shù),研究人員結合了隨機梯度下降方法和Adam 優(yōu)化器,這兩者均在深度學習中有著廣泛的應用,并已被證明具有良好的收斂性。
式(1)中,PG(xi;θ) 為實際標簽概率值,m為樣本數(shù)量,∑表示所有樣本求和。
在檔案文件完整性檢驗方法研究中,文本分詞技術占據(jù)了核心地位,其能夠精準地提取出文本中的關鍵信息,并為后續(xù)的文本匹配和深度分析創(chuàng)造有利條件。
以標題“中心輸變電配套線路墊層分項工程質量驗收記錄表[電纜埋管子分部工程]”為案例,通過應用分詞算法,得到以下分詞序列:“中心/輸變電/配套/線路/墊層/分項/工程質量/驗收/記錄表/[/電纜/埋/管子/分部/工程/]”。然后,依據(jù)預先設定的篩選機制,從中挑選出關鍵性詞匯,即“墊層分項工程質量驗收”,整體流程如圖3 所示。此策略不僅顯著地減少了數(shù)據(jù)處理的計算量,而且增強了匹配算法在面對文本差異時的魯棒性。
圖3 文本分詞技術應用示意圖
在檔案齊全性檢驗中,快速而準確地匹配文本相似度至關重要。面對眾多檔案文件,研究人員需高效地識別高度相似的文檔。為此,采用了Sentence-BERT(SBERT)模型,其模型結構如圖4 所示。
圖4 Sentence-BERT 模型結構圖
SBERT 是BERT 模型的優(yōu)化,后者基于深度的Transformer 架構。與BERT 針對單詞級別不同,SBERT 專為句子級任務設計,更好地捕獲語義。它在BERT 基礎上加入池化層,得到固定長度的embedding,再通過孿生和三胞胎網(wǎng)絡結構生成語義豐富的句子嵌入。使相似語義的句子嵌入向量會距離更近,便于使用余弦相似度等方法進行相似度計算。
為了訓練SBERT 模型,研究人員基于電網(wǎng)檔案特性,構建了百萬級別的實際業(yè)務文本數(shù)據(jù)集。經(jīng)過數(shù)據(jù)清洗、分詞和編碼等預處理后,這些數(shù)據(jù)具備高度的實踐價值。在模型訓練階段,為了優(yōu)化模型參數(shù)并使模型更好地擬合訓練數(shù)據(jù),研究人員采用了平均絕對誤差(mean absolute error, MAE)作為損失函數(shù)。MAE 是一種有效的損失函數(shù),能夠衡量模型預測結果與實際結果之間的偏差。其計算公式如式(2)所示:
式(2)中,h(x(i)) 代表模型的預測結果,y(i)代表實際結果,m代表樣本總數(shù)。
在本方法中,文本首先被輸入到BiLSTM-CRF 分詞模型中提取關鍵詞。然后,利用Sentence-BERT 模型將這些關鍵詞與預設關鍵詞庫進行向量化比對,流程如圖5 所示。以“墊層分項工程質量驗收”為待匹配標題和“墊層分項工程”為預設關鍵詞為例,這兩者都會被轉化為特定的向量表征。通過計算這兩向量間的余弦相似度,當該相似度值趨近于1 時,便可以認為這兩個文本存在高度的相似性。此策略不僅提供了一種高度精確的文本匹配手段,而且顯著提高了處理的效率和準確性。
圖5 文本相似度匹配應用示意圖
本文介紹了一種基于深度學習的檔案文件齊全性校驗方法。其核心流程包括利用BiLSTM-CRF 進行文本分詞和采用Sentence-BERT 計算文本相似度。通過這些關鍵技術,研究者成功為檔案文件的齊全性提供了準確的評估。
展望未來,為適應檔案文件管理日益增長的需求,我們將進一步優(yōu)化檔案文件齊全性檢驗方法。具體而言,后期研究工作將聚焦于以下幾個主要方向:第一,研究更為先進的文本處理技術,旨在提高關鍵詞提取和文本匹配的效率和精度。第二,為了確保檔案文件完整性,使檢驗方法更具靈活性,研究人員計劃探索關鍵詞庫的動態(tài)更新與維護方式,從而更好地適應檔案數(shù)據(jù)的變化趨勢。