引言
在企業(yè)日常運營產(chǎn)生的數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)占企業(yè)數(shù)據(jù)總量的 80% 1。員工日常工作中面臨繁重的非結(jié)構(gòu)化文檔處理任務(wù),由于文檔格式復(fù)雜、行文標準不統(tǒng)一,處理過程既困難又耗時,產(chǎn)生了高昂的人力成本和時間成本。
盡管機器人流程自動化(roboticprocessautomation,RPA)、大模型在文本切片處理方面表現(xiàn)出色,但對于非結(jié)構(gòu)化文檔的數(shù)據(jù)抽取效果卻不盡如人意。例如,文檔中表格出現(xiàn)單元格合并、無邊框、標題行列與內(nèi)容行列不對應(yīng)等情況時,識別可能為空或錯誤數(shù)據(jù)。
筆者團隊以職業(yè)年金信息披露這一典型應(yīng)用場景為例,詳細闡述了對復(fù)雜非結(jié)構(gòu)化文檔的自動化和智能化處理的探索研究。
1.職業(yè)年金信息披露應(yīng)用場景介紹
職業(yè)年金是為完善機關(guān)事業(yè)單位多層次養(yǎng)老保險體系而建立的補充養(yǎng)老保險制度2。隨著年金市場化投資運營穩(wěn)步推進,年金基金投資規(guī)模不斷增長。為加強基金監(jiān)管,保障基金安全,要求各基金管理機構(gòu)加強基金信息報告和信息披露行為[3-4]。
(以下簡稱“泰康養(yǎng)老”)作為受托人,須收集來自投資管理人和托管人等管理機構(gòu)的信息披露報告,進行數(shù)據(jù)比對后形成受托人信息披露報告報送。各機構(gòu)信息披露報告通常以多種非結(jié)構(gòu)化文檔形式傳遞,在行業(yè)內(nèi)沿用多年并得到普遍認可。泰康養(yǎng)老雖曾多次嘗試通過數(shù)字化轉(zhuǎn)型推動信息數(shù)字化報送,但由于行業(yè)慣例根深蒂固,基于非結(jié)構(gòu)化文檔信息交換的方式在短期內(nèi)難以被完全取代。
面對日益增長的年金運營規(guī)模,人工信息披露比對暴露出效率低下、易出錯且難以應(yīng)對復(fù)雜多樣數(shù)據(jù)情況等問題。因此,如何在現(xiàn)有情況下,實現(xiàn)對非結(jié)構(gòu)化文檔數(shù)據(jù)的精準抽取與比對,成為提升年金運營效率、保障信息披露質(zhì)量的關(guān)鍵挑戰(zhàn)。
2.非結(jié)構(gòu)化文檔處理解決方案探索
基于以上問題,筆者團隊進行了非結(jié)構(gòu)化文檔智能處理的探索。
2.1RPA+DeepSeek
自動化探索初期,筆者團隊采用“RPA[5+DeepSeek[]”方式嘗試解決數(shù)據(jù)抽取和比對問題。包括以下三個步驟:
(1)表格數(shù)據(jù)抽取。將每個省份的信息披露報告的所有表格標題分別存儲到對應(yīng)省份列表中,通過PDFplumber.getTable方法找到對應(yīng)標題下的表格,最后將表格抽取到Excel中,形成各省份的特征表格。
(2)DeepSeek模型學(xué)習。將特征表格中抽取的行列標題存儲到對應(yīng)省份字典中,再將字典結(jié)構(gòu)輸入DeepSeek模型,通過數(shù)據(jù)結(jié)構(gòu)訓(xùn)練,構(gòu)建出包含各省份特征的模型庫。
(3)特征表格數(shù)據(jù)抽取和比對。將源文件傳送給特征模型庫進行數(shù)據(jù)抽取,通過Python編程實現(xiàn)最終的數(shù)據(jù)比對和校驗。
但此方案仍有以下三個方面的不足:
(1)表格抽取偏移量計算不準確。因無法保證表格最后的單元格為標準格式,如存在合并單元格、插入公式等情況,導(dǎo)致RPA無法準確計算偏移量值,使數(shù)據(jù)抽取丟失。
(2)須手動配置字典庫。如某個省份表格字段發(fā)生變化,須手動更新對應(yīng)省份字典庫。
(3)模型訓(xùn)練效果不理想。因DeepSeek對表格復(fù)雜格式學(xué)習效果欠佳,無法較好理解表格字段邏輯,所以成功率僅 35% 。
2.2預(yù)訓(xùn)練模型
預(yù)訓(xùn)練模型是指在大規(guī)模數(shù)據(jù)集上預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,在自然語言處理(NLP)、圖像識別等領(lǐng)域應(yīng)用廣泛,常見模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、基于Transformer的雙向編碼器表征(bidirectionalencoderrepresentationsfromtransformers,BERT)模型、詞向量(Word2Vec)模型等。在大規(guī)模數(shù)據(jù)集上,通過某些特定任務(wù)進行模型預(yù)先訓(xùn)練。通過預(yù)訓(xùn)練,讓模型學(xué)習到數(shù)據(jù)內(nèi)在結(jié)構(gòu)和規(guī)律,以及語言通用表示。經(jīng)筆者團隊反復(fù)實驗及論證,最終采用預(yù)訓(xùn)練模型技術(shù)方案進行智能化處理,具體方案及技術(shù)見后文。
3.非結(jié)構(gòu)化文檔智能處理方案設(shè)計
參照人工信息披露處理流程,基于預(yù)訓(xùn)練模型設(shè)計了非結(jié)構(gòu)化文檔智能處理方案,具體設(shè)計如下文所述。
3.1數(shù)據(jù)輸入與預(yù)處理
(1)支持用戶上傳多種格式的年金信息披露報告文檔。
(2)自動進行文本清洗和格式標準化。
3.2信息抽取
通過預(yù)訓(xùn)練模型強大的學(xué)習能力,自動識別文本中的表格和關(guān)鍵信息。系統(tǒng)能處理多樣化及復(fù)雜化的表格結(jié)構(gòu),確保準確抽取所需字段信息。
3.3上下文理解與分析
通過預(yù)訓(xùn)練階段學(xué)習到的上下文語義關(guān)系,對抽取到的信息進行深人學(xué)習與分析,掌握語義之間的邏輯關(guān)系。
3.4比對結(jié)果報告生成與輸出
將處理后的數(shù)據(jù)比對結(jié)果生成結(jié)構(gòu)化報告,支持導(dǎo)出PDF或Excel格式,便于進一步分析。
4.預(yù)訓(xùn)練模型關(guān)鍵技術(shù)分析
本方案技術(shù)難點在于預(yù)訓(xùn)練模型訓(xùn)練和訓(xùn)練階段數(shù)據(jù)處理。通過對信息披露報告中表格樣本進行特征抽取和訓(xùn)練,建立非結(jié)構(gòu)化文檔智能模型,實現(xiàn)對各種復(fù)雜、動態(tài)表格數(shù)據(jù)的精準抽取,完成數(shù)據(jù)比對(如圖1所示),具體分為三個步驟。
(1)表格切片。以表格為中心進行切割,將表格拆分為“表格標題”“列標題”“行標題”和“數(shù)據(jù)區(qū)域”。
(2)模型訓(xùn)練。根據(jù)拆分后的表格切片確定字段和數(shù)據(jù)抽取的模型和算法,通過TensorFlow進行模型訓(xùn)練,生成對應(yīng)表格模型。
(3)數(shù)據(jù)提取。將不同表格樣本數(shù)據(jù)輸入對應(yīng)表格訓(xùn)練模型,抽取所有字段數(shù)據(jù)。
下面分別闡述各環(huán)節(jié)中涉及的相關(guān)技術(shù)。
4.1表格切片
切片時文本中存在各種特殊情況,會產(chǎn)生大量噪聲干擾,對數(shù)據(jù)準確抽取與比對有很大影響。實踐中筆者團隊遇到的情況包括表格標題位置差異、表格格式復(fù)雜多樣、相似度文本識別等。
(1)表格標題位置差異。源文件標題位置和標準文件中位置不一致,無法通過默認標題位置找到對應(yīng)數(shù)據(jù)。
(2)表格格式復(fù)雜多樣。第一,表格標題、行列分布等特征結(jié)構(gòu)繁多,如表格標題在表格內(nèi)層、表格外層等。第二,同一實體在不同報告中存在差異,包括標題、表格字段、基金名稱等。第三,部分省份接收到的報告規(guī)范化較差,存在連體表格、隱藏目錄等情況。
(3)相似度文本識別。實際樣本數(shù)據(jù)中存在大量相似度文本,如“受托戶凈資產(chǎn)變動表、受托財產(chǎn)資產(chǎn)變動表”“占凈資產(chǎn)比例 (% )、占組合凈資產(chǎn)比例(% )”等,極易被解析為同義詞。
為減少文本數(shù)據(jù)干擾,確保表格切片準確度,筆者團隊進行了文本降噪和相似度處理的研究和解決。筆者團隊采用自然語言處理(NLP)工具SpaCy和NLTK雙模型降噪方法,對兩種模型降噪結(jié)果進行比對,取交集,提高可信度,減少因降噪帶來的誤差。
4.1.1 SpaCy模型
第一,分詞階段。使用分界符(表格中特定的標點符號)初始化分詞器,切分原始文本,獲得單獨token。例如,將“定期存款/協(xié)議存款”進行分詞,剔除分隔符,轉(zhuǎn)換成“定期存款”“協(xié)議存款”。
第二,模式匹配階段。將上一步得到的分詞,建立parten(要進行匹配的短語模式列表)在文中查找符合各自模式的短語。
第三,將短語中的分詞進行詞性標注,構(gòu)建具有年金信息披露特征的語料庫,用于模型訓(xùn)練。
第四,將訓(xùn)練好的模型應(yīng)用于全部樣本,最終查找出符合匹配規(guī)則的對象。
4.1.2NLTK模型
第一,分詞。使用NLTK模型中的函數(shù)work_tokenize將樣本切割成單詞。
第二,降噪。采用停用詞庫篩選掉分詞后的無意義詞語。
第三,標注詞性。為分詞的每個單詞標注詞性,建立單詞、單詞屬性映射表。
第四,使用正則表達式定義簡單的語法規(guī)則來表示名詞短語,NP表示名詞短語,NN表示名詞。
第五,使用解析器對標注后的文本進行解析,并抽取出符合語法規(guī)則的短語。
NLTK模型是SpaCy模型的有效補充,能有效提高文本分詞精準度。通過使用兩種降噪方法,模型能更準確地理解和處理信息,實現(xiàn)了 100% 精確匹配。
另外,筆者團隊采用基于NLP文本相似度處理技術(shù),解決相似度文本問題。例如,對于“受托戶凈資產(chǎn)變動表、受托財產(chǎn)資產(chǎn)變動表”,通常模型處理時會產(chǎn)生幻覺問題,容易把這類相似度文本理解為同義詞,造成數(shù)據(jù)抽取混亂。
為解決這個問題,筆者團隊采用詞嵌入方法,通過預(yù)訓(xùn)練詞向量(Word2Vec)模型加載詞向量,構(gòu)建高維空間,并將每個短語映射到高維空間中,通過余弦相似度方法計算出兩個文本的相似度。以“資產(chǎn)”“受托戶”“凈資產(chǎn)”“受托資產(chǎn)”“受托組合”為例,在分詞設(shè)計中,每個分詞按照7D維度張量解釋,最后通過余弦相似度找到分詞間的差異。如圖2所示,可以看出分詞向量點之間的距離差異,從而實現(xiàn)分詞之間相似度匹配。
4.2模型訓(xùn)練及數(shù)據(jù)提取
筆者團隊在TensorFlow中使用卷積神經(jīng)網(wǎng)絡(luò)[1]實現(xiàn)表格特征信息抽取,為本方案核心技術(shù)。具體包括以下步驟。
4.2.1特征表格分析
通過對各省份樣本數(shù)據(jù)分析,歸結(jié)出不同類型的表格情況,抽取表格特征包括:表格標題位置;行、列標題位置;列標題位置;數(shù)據(jù)起始、終止位置。
4.2.2設(shè)計卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
設(shè)計卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于提取上述表格特征。本模型由兩個卷積層、兩個池化層以及兩個全連接層組成,激活函數(shù)使用常見的ReLU函數(shù)。
(1)模型輸入是一個 32×32×64 張量,分別為行列標題、數(shù)據(jù)區(qū)域。
(2)卷積層。第一層應(yīng)用32個過濾器用于提取表格基本特征。隨著網(wǎng)絡(luò)加深,特征圖空間維度逐漸減少,特征數(shù)量逐漸增加;第二層卷積采用64個過濾器。
(3)根據(jù)輸入數(shù)據(jù)特征,兩個池化層均采用最大池化層,可更好地保留顯著特征。
(4)在神經(jīng)網(wǎng)絡(luò)最后放置兩個全連接層配合ReLU函數(shù)對結(jié)果進行分類并輸出。
4.2.3模型實現(xiàn)
用Sequential0函數(shù)類定義表格特征模型,并用add(函數(shù)將每層神經(jīng)網(wǎng)絡(luò)添加到模型中,最后通過summary(函數(shù)得到整體模型架構(gòu),如圖3所示。模型中包含每一層類型、特征形態(tài)、訓(xùn)練參數(shù)總數(shù)的全部信息。
最終經(jīng)過各省份樣本數(shù)據(jù)的模型訓(xùn)練,通過show_curve輔助函數(shù)繪制模型訓(xùn)練后的數(shù)據(jù)準確度、精準度(如圖4所示)。當模型訓(xùn)練樣本數(shù)據(jù)不足5個時,訓(xùn)練準確度和精度已達到68% 。隨著樣本數(shù)據(jù)增加到 80% ,模型準確率接近 95% ,從而驗證了預(yù)訓(xùn)練模型的有效性。
4.2.4數(shù)據(jù)提取
模型訓(xùn)練確定后,對所有樣本數(shù)據(jù)進行切片,逐一輸入模型,根據(jù)模型特征找到對應(yīng)的解析算法,完成數(shù)據(jù)提取。
最后,筆者團隊將預(yù)訓(xùn)練模型的識別準確度與“RPA + DeepSeek”進行了效果對比,如表1所示,預(yù)訓(xùn)練模型對表格特殊類型的識別成功率均明顯高于\"RPA+DeepSeek”。
5.進化方向
由于當前案例場景獲取的樣本數(shù)據(jù)有限,模型訓(xùn)練還有較多需完善和優(yōu)化的空間。筆者團隊下階段主要聚焦預(yù)訓(xùn)練模型降噪能力的提升和改進。
5.1增強模型降噪能力
當前各省文檔存在較多噪聲干擾,部分嚴重噪點須通過手工預(yù)處理才可提交模型解析。
5.2建立定制化預(yù)訓(xùn)練模型
增加更多維度文檔特征,如隱藏數(shù)據(jù)、表格錯位、連體表格等特征,按省份建立定制化預(yù)訓(xùn)練模型,進一步減少手工干預(yù),提升智能化和效率。
最終,通過持續(xù)科學(xué)嚴謹?shù)哪P蛢?yōu)化,實現(xiàn)對非結(jié)構(gòu)化文檔數(shù)據(jù)提取和比對的端到端全流程智能化操作。
結(jié)語
本文選擇采用年金信息披露數(shù)據(jù)比對這一典型復(fù)雜場景,來進行技術(shù)方案的實驗和研究,結(jié)果表明能大幅提高數(shù)據(jù)提取準確度。除此之外,該技術(shù)在政府機構(gòu)、企事業(yè)單位、金融機構(gòu)等擁有大量非結(jié)構(gòu)化文檔數(shù)據(jù)的組織中也有廣泛應(yīng)用場景,并可與其他技術(shù)結(jié)合,拓展應(yīng)用場景。例如,結(jié)合圖形圖像處理技術(shù)、模型訓(xùn)練和自然語言處理工具,可應(yīng)用于智能問答語料的切片處理、標書編寫、機構(gòu)年報編寫等場景,顯著提高作業(yè)效率、降低人工成本、提升數(shù)據(jù)處理準確性,也可應(yīng)用于非結(jié)構(gòu)化文檔的數(shù)據(jù)治理,賦能數(shù)據(jù)價值的挖掘和實現(xiàn)。
參考文獻:
[1]中國新聞網(wǎng).電子標準院-鴻翼非結(jié)構(gòu)化數(shù)據(jù)管理解決方案聯(lián)合實驗室成立[EB/OL].(2020-09-24)[2025-03-20].https://www.chinanews.com.cn/business/2020/09-24/9298887.shtml.
[2]國務(wù)院辦公廳.國務(wù)院辦公廳關(guān) 于印發(fā)機關(guān)事業(yè)單位職業(yè)年金辦法的 通知(國辦發(fā)[2015]18號)[EB/OL]. (2015-04-06)[2025-03-20].https://www. gov.cn/zhengce/content/2015-04/06/ content_9581.htm.
[3]人社部財政部印發(fā)職業(yè)年金基金管理暫行辦法(人社部發(fā)[2016]92號)[EB/OL].(2016-09-28)[2024-12-5].https://www.gov.cn/xinwen/2016-10/12/content_5117950.htm.
[4]工商銀行.《職業(yè)年金基金信息報告和信息披露暫行辦法》(人社廳發(fā)[2019]120號)[EB/OL].https://icbc.com.cn/page/721852693214953512.html.
[5]廖萬里.金融行業(yè)企業(yè)級RPA案例分析[].金融科技時代,2021,29(7):32-34.
[6]BiX,Chen DL,Chen GT,et al.DeepSeek LLM:Scaling Open-Source Language Models with Longtermism[EB/ OL].(2024-01-05)[2025-03-20].https:// arxiv.org/abs/2401.02954.
[7]Devlin J,Chang M W,Lee K,et al.BERT: Pre-training ofDeep Bidirectional Transformers for Language Understanding. [EB/OL].(2018-10-11)[2025-03-20]. https://arxiv.org/abs/1810.04805.
[8]Mikolov T,Chen K,Corrado G,etal.EfficientEstimationofWord Representations in Vector Space[EB/OL]. (2013-01-16)[2025-03-20].https://arxiv. org/abs/1301.3781.
[9]AbadiM,AgarwalA,BarhamP,et al.TensorFlow:Large-ScaleMachine Learning on Heterogeneous Distributed Systems[EB/OL].(2016-03-14[2025-03- 20].https://arxiv.org/abs/1603.04467.
[10]Fukushima,K.Neocognitron: Aself-organizing neural network model for a mechanism of pattern recognition unaffectedbyshiftinposition[J].Biological Cybernetics,1980,36:193-202.
作者簡介:師謙,碩士研究生,277525428@qq.com,研究方向:智能化處理技術(shù)。