摘要:隨著社會信息化程度不斷提高,檔案管理數(shù)字化智能化是檔案領(lǐng)域建設(shè)的重點方向之一。針對傳統(tǒng)檔案管理模式存在數(shù)據(jù)采集困難、統(tǒng)計和利用不便等問題,文章設(shè)計了一種國產(chǎn)智能檔案管理系統(tǒng)架構(gòu)并基于該架構(gòu)建設(shè)了一個國產(chǎn)智能檔案管理系統(tǒng)。系統(tǒng)的應(yīng)用結(jié)果表明,該系統(tǒng)能夠適應(yīng)新時期檔案數(shù)字化發(fā)展,打破了檔案管理工作發(fā)展瓶頸,更好地滿足社會各界的需求。
關(guān)鍵詞:國產(chǎn)智能檔案管理系統(tǒng);架構(gòu)設(shè)計;檔案數(shù)字化;應(yīng)用實踐
中圖分類號:TP315
文獻(xiàn)標(biāo)志碼:A
0 引言
長期以來,經(jīng)濟(jì)相對落后地區(qū)電子檔案全面推行存在諸多困難,電子檔案管理工作基礎(chǔ)較差,原有系統(tǒng)難以適應(yīng)時代發(fā)展,現(xiàn)使用的檔案管理軟件存在無法按照最新標(biāo)準(zhǔn)升級、國產(chǎn)化替代工作難以開展[1]等諸多問題。此外,檔案工作效率整體偏低,數(shù)字化工作大部分由人工操作完成,實體檔案存儲管理、盤點、查找、借閱等耗費過多人員精力。同時,國產(chǎn)化替代迫在眉睫,自主可控成為政務(wù)信息系統(tǒng)建設(shè)的首要原則[2],原有的電子檔案管理系統(tǒng)及其運行硬件須要迭代升級以滿足自主可控要求。
隨著檔案管理從紙質(zhì)化向電子化轉(zhuǎn)型,電子檔案的出現(xiàn)徹底革新了傳統(tǒng)管理模式,其應(yīng)用也成為電子政務(wù)建設(shè)中的關(guān)鍵環(huán)節(jié)[3]。然而,當(dāng)前的非自主可控電子檔案管理系統(tǒng)已無法滿足數(shù)字化、智能化治理的新需求。與此同時,社會各界將AI、大數(shù)據(jù)等技術(shù)相互融合,解決了各領(lǐng)域的痛點問題,推動各領(lǐng)域的數(shù)字化、智能化,促進(jìn)了社會發(fā)展[4]。在AI等信息技術(shù)基礎(chǔ)上建設(shè)的新興電子檔案逐漸替代了紙質(zhì)檔案且憑借其智能化優(yōu)勢彌補(bǔ)了紙質(zhì)檔案的短板[5]。檔案領(lǐng)域亟須引入人工智能等新技術(shù),提升管理效率與安全性。為此,本文設(shè)計了一種基于AI的國產(chǎn)智能檔案管理系統(tǒng)架構(gòu),旨在通過技術(shù)創(chuàng)新,實現(xiàn)檔案管理的自主可控和智能化發(fā)展,以滿足未來電子檔案管理的更高要求。
1 系統(tǒng)架構(gòu)方案
1.1 總體架構(gòu)
國產(chǎn)智能檔案管理系統(tǒng)總體業(yè)務(wù)架構(gòu)由智能檔案管理系統(tǒng)、檔案數(shù)字化服務(wù)及標(biāo)準(zhǔn)規(guī)范體系3大部分組成?;谧灾骺煽氐脑瓌t,利用云計算、大數(shù)據(jù)、人工智能等先進(jìn)技術(shù),在充分保障檔案信息安全保密的前提下,構(gòu)建功能齊全的文件收集、高效管理、安全存儲、協(xié)同利用的智能檔案管理系統(tǒng),實現(xiàn)檔案資源數(shù)字化、檔案管理信息化、檔案服務(wù)知識化、檔案業(yè)務(wù)規(guī)范化,全面推進(jìn)數(shù)字檔案資源建設(shè),提升檔案業(yè)務(wù)信息化水平,實現(xiàn)檔案工作集約、高效、可持續(xù)發(fā)展。國產(chǎn)智能檔案管理系統(tǒng)的總體架構(gòu)如圖1所示。
1.1.1 智能檔案管理系統(tǒng)
建立1套基于自主可控技術(shù)、符合國家最新檔案標(biāo)準(zhǔn)、結(jié)合地區(qū)實際應(yīng)用情況的智能檔案管理系統(tǒng),為檔案室/館提供“收、管、存、用”全生命周期的“無紙化”“智能化”管理的檔案管理標(biāo)準(zhǔn)化產(chǎn)品能力;提供標(biāo)準(zhǔn)統(tǒng)一接口,對接不同類型的辦公、應(yīng)用系統(tǒng),實現(xiàn)電子文件在線一鍵歸檔;應(yīng)用 AI 技術(shù)實現(xiàn)檔案智能化管理,全面提升檔案管理工作效率,降低人力成本。
1.1.2 檔案數(shù)字化服務(wù)
為檔案室/館提供專業(yè)的檔案數(shù)字化服務(wù)能力,包括檔案接收、拆、裝、檔案掃描、掛接等符合國家、省、市檔案管理要求的檔案數(shù)字化服務(wù)[6]。檔案數(shù)字化過程包括檔案整理、掃描、圖像處理、圖像質(zhì)檢、OCR識別全文、音視頻轉(zhuǎn)換、著錄索引、文件格式轉(zhuǎn)換、大數(shù)據(jù)檢索等全過程。通過引入新技術(shù),包括OCR識別、NLP自然語言處理、機(jī)器學(xué)習(xí)、知識圖譜等AI技術(shù)以及大數(shù)據(jù)檢索、分析、建模、挖掘等技術(shù),盡可能保存?zhèn)鹘y(tǒng)紙質(zhì)或?qū)嶓w檔案的完整性,同時可提高傳統(tǒng)紙質(zhì)或?qū)嶓w檔案數(shù)字副本的識別率、檢索率以及利用率。
1.1.3 標(biāo)準(zhǔn)規(guī)范體系
制定智能檔案管理系統(tǒng)相關(guān)技術(shù)標(biāo)準(zhǔn)、運行管理和服務(wù)規(guī)范[7],包括系統(tǒng)標(biāo)準(zhǔn)規(guī)范體系、安全保障體系以及運維保障體系。
1.2 主體IT架構(gòu)方案
系統(tǒng)主體IT架構(gòu)方案是基于自主可控原則進(jìn)行設(shè)計。方案在統(tǒng)一的界面生成框架、業(yè)務(wù)規(guī)則引擎、業(yè)務(wù)流程引擎和公共基礎(chǔ)組件服務(wù)基礎(chǔ)上[8],在整體上采用了基于J2EE技術(shù)架構(gòu)和基于分布式架構(gòu)的多層模型,如圖2所示。
總體上系統(tǒng)劃分為5大層面:基礎(chǔ)設(shè)施層、存儲層、服務(wù)實現(xiàn)層、數(shù)據(jù)交換層與表現(xiàn)層。在這樣的多層模型中,每一層都可視作一個虛擬機(jī),是一個抽象的功能模塊集合,可以提供一類專門的功能和服務(wù)。通常而言,各層只與相鄰層發(fā)生交互行為,不允許越層訪問其他層的服務(wù)。同時,此方案通過統(tǒng)一的接入框架,面向不同應(yīng)用系統(tǒng)的不同技術(shù)實現(xiàn)形式,提供相應(yīng)的接口適配方式,使系統(tǒng)與外部系統(tǒng)對接時,能夠?qū)ν獠肯到y(tǒng)的影響降到最低。
1.3 AI應(yīng)用整體架構(gòu)
AI云平臺基于基礎(chǔ)設(shè)施云平臺構(gòu)建,提供OCR識別、圖像處理、自然語言處理等AI能力,助力檔案管理工作智能化。AI應(yīng)用整體架構(gòu)如圖3所示。
通過AI應(yīng)用,國產(chǎn)智能檔案管理系統(tǒng)能夠滿足當(dāng)前電子檔案領(lǐng)域檔案數(shù)字化、智能化與檔案智能檢索的迫切需求。
1.3.1 實現(xiàn)檔案數(shù)字化、智能化
檔案數(shù)字化、智能化流程如圖4所示。首先,通過選定掃描儀終端品牌、型號,實現(xiàn)設(shè)備與智能檔案管理系統(tǒng)聯(lián)動并完成國產(chǎn)化適配工作。其次,采用圖像處理算法,對文書檔案掃描圖像進(jìn)行糾偏切邊、去污降噪、對比度增強(qiáng)等處理,采用圖像超分辨率算法增強(qiáng)文字清晰度,提升檔案質(zhì)量,確保檔案的規(guī)范性;采用OCR文字識別算法對增強(qiáng)后的圖像進(jìn)行文本檢測與文本識別,提取檔案題名、文號、年度等元數(shù)據(jù)以及全文文字,根據(jù)檔案規(guī)范要求形成標(biāo)準(zhǔn)檔案數(shù)據(jù)。最后,設(shè)備與系統(tǒng)實現(xiàn)互聯(lián),自動將識別的檔案元數(shù)據(jù)自動上傳至系統(tǒng)并將處理好的圖片對應(yīng)元數(shù)據(jù)自動掛接至系統(tǒng)。
為保證數(shù)字化環(huán)節(jié)流暢開展,系統(tǒng)具備快速的圖片處理能力,單張A4文檔大小圖片處理速度小于1 s;OCR文字識別方面,支持對多種字體進(jìn)行識別,包括印刷體、手寫體等,印刷體識別率不低于99%,支持快速解析輸出檔案元數(shù)據(jù)。
1.3.2 實現(xiàn)檔案智能檢索
檔案智能檢索流程如圖5所示。系統(tǒng)采用OCR文字識別算法對文本圖像進(jìn)行文本檢測與識別,提取文本內(nèi)容;采用語音識別算法對音頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)寫,將語音轉(zhuǎn)換為文字;采用圖像識別、視頻識別算法對圖像、視頻數(shù)據(jù)內(nèi)容進(jìn)行人物識別、場景分析等,轉(zhuǎn)換為文本數(shù)據(jù);采用自然語言處理算法對文本數(shù)據(jù)進(jìn)行文本分類、信息抽取、摘要生成、情感分析等處理,生成結(jié)構(gòu)化數(shù)據(jù),構(gòu)建知識圖譜,精準(zhǔn)檢索所需檔案,大幅提升檢索效率,同時可進(jìn)一步獲取檔案之間的相關(guān)性,便于深入分析,充分挖掘數(shù)據(jù)價值。
系統(tǒng)支持將視頻信息、圖像信息和文字信息準(zhǔn)確轉(zhuǎn)化為文本全文、摘要、主題、關(guān)鍵字、時間、來源、類型等結(jié)構(gòu)化的數(shù)據(jù),轉(zhuǎn)換準(zhǔn)確率不低于98%;支持進(jìn)行符合業(yè)務(wù)場景的準(zhǔn)確分詞處理,分詞準(zhǔn)確率達(dá)90%以上;支持根據(jù)提取出的實體和全文建立實體之間的關(guān)系。檢索速度方面,檢索結(jié)果響應(yīng)時間不超過3 s。
2 應(yīng)用實踐
通過調(diào)研廣西電子檔案管理業(yè)務(wù)需求、管理機(jī)制、信息化應(yīng)用等情況,本文基于該系統(tǒng)架構(gòu)建設(shè)了一個國產(chǎn)智能檔案管理系統(tǒng)。系統(tǒng)融入AI識別技術(shù)、智能翻譯等智能新技術(shù),從硬件、基礎(chǔ)軟件到AI算法模型與框架完全國產(chǎn)自主可控并依托廣西適配認(rèn)證中心開展系統(tǒng)與國內(nèi)主流技術(shù)路線的適配測試,進(jìn)行3種服務(wù)器×6種終端(含Windows)共18個組合路線測試。目前已完成鯤鵬920、飛騰2000、騰銳D2000、龍心3A4000芯片以及銀河麒麟、統(tǒng)信UOS操作系統(tǒng)5個組合共5615項測試用例。
國產(chǎn)智能檔案管理系統(tǒng)已在廣西8家政府單位和1家企業(yè)部署應(yīng)用,共存儲4.5 T電子檔案數(shù)據(jù)。通過引入AI技術(shù)實現(xiàn)檔案數(shù)字化智能化,檔案整理工作效率提升60%,檔案智能檢索查詢響應(yīng)時間縮短70%以上,檢索準(zhǔn)確率提升至95%以上。
3 結(jié)語
本文將AI等新一代信息技術(shù)融合到檔案領(lǐng)域的實際工作中,構(gòu)建的國產(chǎn)智能檔案管理系統(tǒng)能夠優(yōu)化檔案管理工作流程。國產(chǎn)智能檔案管理系統(tǒng)的應(yīng)用結(jié)果表明,在實際中能夠解決數(shù)字化工作大部分由人工操作完成,多模態(tài)文檔的檢索效率低下或只能采用人工檢索,實體檔案存儲管理、盤點、查找、借閱等耗費過多人員精力等檔案行業(yè)痛點問題。
參考文獻(xiàn)
[1]王紅,侯雯.大數(shù)據(jù)背景下電子檔案數(shù)字化轉(zhuǎn)型的優(yōu)化策略分析[J].辦公室業(yè)務(wù),2024(23):36-38.
[2]劉紅.基于自主可控的電子文件歸檔和電子檔案管理研究[J].蘭臺內(nèi)外,2022(29):40-42.
[3]鮑玉靜,周瓊,??》?基于自主可控的電子檔案管理系統(tǒng)構(gòu)建研究[J].辦公室業(yè)務(wù),2024(12):54-56.
[4]李浩,周媛媛.人工智能、大數(shù)據(jù)和云計算的融合發(fā)展及應(yīng)用[J].無線互聯(lián)科技,2023(10):114-116.
[5]蹇嵐.計算機(jī)技術(shù)在現(xiàn)代電子檔案管理中的應(yīng)用[J].無線互聯(lián)科技,2021(23):74-75.
[6]楊林.數(shù)字化戰(zhàn)略轉(zhuǎn)型期檔案服務(wù)業(yè)發(fā)展取向與演進(jìn)路徑分析[J].檔案管理,2023(4):111-114.
[7]王慕蘊.數(shù)字政府環(huán)境下電子檔案管理的法律規(guī)制與技術(shù)標(biāo)準(zhǔn)體系[J].山西檔案,2025(1):67-70.
[8]梁明君,張莉莉.電子政務(wù)系統(tǒng)自主可控的研究與實踐[J].信息網(wǎng)絡(luò)安全,2010(5):37-39.
(編輯 王雪芬)
Architectural design and application practice of the new generation of domestic intelligent archival management system
HUANG Yan, LIANG Dequan*
(Guangxi Beitou It Innovation Technology Investment Group Co., Ltd., Nanning 530200, China)
Abstract:With the continuous improvement of social informatization, the digital and intelligent management of archives has become one of the key directions in the construction of the archival field. To address the challenges associated with traditional archival management, such as difficulties in data collection, inconvenient statistics, and limited usability, this paper proposes a novel architecture for a domestic intelligent archival management system and develops a system based on this architecture. The application of the system demonstrates its ability to adapt to the digitization trends of archival management in the new era. It effectively addresses the bottlenecks in archival management, thereby better serving the needs of various sectors of society.
Key words:domestic intelligent archival management system; architectural design; archival digitization; applied practice