摘要:文章介紹了對檔案信息資源數(shù)字化管理前置進(jìn)行處理優(yōu)化的過程,通過應(yīng)用智能OCR識別技術(shù),將相關(guān)識別軟件與OCR識別接口串接到一起,從而實現(xiàn)對海量檔案信息資料的有序劃分。在結(jié)合C/S架構(gòu)和B/S架構(gòu)的基礎(chǔ)上,通過Java EE開發(fā)平臺對檔案信息進(jìn)行收集與整理,并最終通過驗證表明該方法的有效性,特別是與傳統(tǒng)檔案信息管理方法相比,采用人工智能技術(shù)會使檔案管理更具精準(zhǔn)性與高效性。
關(guān)鍵詞:人工智能;數(shù)字化加工;數(shù)字檔案館
中圖法分類號:TP391文獻(xiàn)標(biāo)識碼:A
Development and application of archives management systembased onintelligent OCR recognition technology
LIU Siyang
(Tangshan Personnel Examination Center,Tangshan,Hebei 063000,China)
Abstract:This paper introduces the process of processing and optimizing the digital management ofarchives information resources. By applying the intelligent OCR identification technology,therelevant identification software and the OCR identification interface are connected in series, so as torealize the orderly division of massive archives information materials. On the basis of combining theC/S architecture and the B/S architecture, the archive information is collected and organized throughthe Java EE development platform, and the validity of the method is finally verified throughverification,especially compared with the traditional archive information management method,Theuse of artificial intelligence will make file management more accurate and efficient.
Key words: artificial intelligence, digital processing,digital archives
本文提出通過應(yīng)用人工智能技術(shù)來對大型企業(yè)檔案數(shù)字化管理系統(tǒng)進(jìn)行設(shè)計的方法,再結(jié)合應(yīng)用 C/S 架構(gòu)和 B/S 架構(gòu)制定一套具有前置數(shù)據(jù)處理系統(tǒng)的綜合數(shù)字檔案管理方案,以達(dá)到對檔案的高效管理目標(biāo)。
1前置處理
大數(shù)據(jù)時代下,大型企業(yè)更應(yīng)順應(yīng)社會的發(fā)展潮流,充分利用高科技技術(shù)(如人工智能技術(shù))對海量檔案信息資料進(jìn)行數(shù)字化處理,并最終實現(xiàn)檔案智能編研的開發(fā)與應(yīng)用。近年來,我國的人工智能技術(shù)發(fā)展速度較快,無論是自然語言理解技術(shù)還是文字模式識別技術(shù)等都可應(yīng)用到檔案的電子文件處理中,從而使電子檔案的信息管理進(jìn)入智能化管理模式中,使其成為一個整體化作業(yè)流程(圖1)。
2系統(tǒng)結(jié)構(gòu)
為了將人工智能技術(shù)應(yīng)用于大型企業(yè)的檔案數(shù)字化管理系統(tǒng)中,就要注重系統(tǒng)運行環(huán)境的生成。換言之,就是要借助技術(shù)以及網(wǎng)絡(luò)來達(dá)到檔案數(shù)字化管理的設(shè)計需求。通過應(yīng)用智能 OCR 識別技術(shù),將相關(guān)識別軟件與 OCR 識別接口串接到一起,可以實現(xiàn)對海量檔案信息資料有序劃分的目的。首先,可以通過掃描設(shè)備,將檔案信息進(jìn)行精準(zhǔn)性掃描,經(jīng)過與原有檔案信息進(jìn)行比對后,便可借助 C/S 架構(gòu)來實現(xiàn)對企業(yè)檔案信息的科學(xué)化管理,包括數(shù)據(jù)導(dǎo)入、數(shù)據(jù)比對、以及數(shù)據(jù)分析等。在經(jīng)過一系列信息處理后,系統(tǒng)便可將優(yōu)化過的信息進(jìn)行自動存儲。結(jié)合 B/S 架構(gòu)以及 Java EE 技術(shù),檔案信息資料便可自動生成,并隨時可生成數(shù)據(jù)化交換,而這只是人工智能檔案數(shù)字化管理系統(tǒng)功能模塊中的一小部分。待數(shù)據(jù)全部錄入完畢,便可通過終端服務(wù)器對數(shù)據(jù)進(jìn)行存儲。
當(dāng)然,若要實現(xiàn)上述操作,要保證硬件設(shè)施齊全,特別是要配備前后端的研發(fā)工具,以有效保證系統(tǒng)正常運行。在對檔案信息資料進(jìn)行管理過程中,可借助智能化手段對角色權(quán)限進(jìn)行設(shè)定,以保證數(shù)據(jù)的安全化管理。將 XML 的報文交換數(shù)據(jù)接口標(biāo)準(zhǔn),以 Web Service 服務(wù)描述標(biāo)準(zhǔn)開發(fā)統(tǒng)一數(shù)據(jù)接口平臺,這不僅能有效保證數(shù)據(jù)分析的精準(zhǔn)性,也能實現(xiàn)對檔案數(shù)據(jù)的高效管理。例如,可以借助檔案信息資料中的詞頻進(jìn)行信息提取,由算法服務(wù)來進(jìn)行分析,這能精準(zhǔn)地對檔案信息資料進(jìn)行分類。此外,我們也可建立測評信息標(biāo)簽,并將標(biāo)簽數(shù)據(jù)進(jìn)行分類,隨后生成與之對應(yīng)的模型,以實現(xiàn)對檔案信息的相關(guān)操作,如手寫檔案識別、檔案分類、自動轉(zhuǎn)錄等[1]。
對于檔案信息管理的操作要支持在線或離線以及單個或批量的數(shù)據(jù)信息化處理方式,為了實現(xiàn)這一目的,就需要構(gòu)建前置采集處理系統(tǒng),實現(xiàn)精準(zhǔn)對應(yīng)不同的檔案文件,尋找相應(yīng)的標(biāo)簽信息,以達(dá)到精準(zhǔn)劃分的目的,從而有效避免信息丟失。在客戶端采用 DELPHI 開發(fā)工具優(yōu)化系統(tǒng)功能,方便實時共享數(shù)字信息資源,利用 OCR 智能識別技術(shù),檔案數(shù)據(jù)信息便可自動錄入系統(tǒng)(圖2)。
基于圖2系統(tǒng),可以對所錄入的檔案信息進(jìn)行進(jìn)一步優(yōu)化,并且在該系統(tǒng)中可以對檔案信息進(jìn)行細(xì)分處理,即通過添加 C/S 結(jié)構(gòu)的電子檔案數(shù)據(jù)源,利用 B/S 平臺層完成數(shù)據(jù)之間的交換與共享。換言之,在該檔案信息處理結(jié)構(gòu)系統(tǒng)中,所包含的結(jié)構(gòu)類型不僅有 C/S 結(jié)構(gòu)的 client 端 exe 主程序,還包含 B/S 平臺服務(wù)管理模塊以及檔案數(shù)據(jù)中心等。它們都是作為檔案信息系統(tǒng)的重要功能模塊而存在。這也是人工智能技術(shù)應(yīng)用于檔案數(shù)字信息管理系統(tǒng)中的一個重要標(biāo)志。
通過該系統(tǒng),可以對檔案信息進(jìn)行平臺化操作。通過設(shè)置用戶權(quán)限,可以實現(xiàn)對檔案管理的安全性操控[2]。用戶在最初進(jìn)行注冊以及身份認(rèn)證的過程中,會被賦予相應(yīng)的使用權(quán)限,當(dāng)面對各種檔案信息的決策處理時便可以利用該權(quán)限來完成。其中,數(shù)據(jù)交換層也可接收來自表現(xiàn)層的數(shù)據(jù)信息,之后數(shù)據(jù)信息便可以提交到數(shù)據(jù)層。B/S 平臺下所包含的內(nèi)容會直接影響數(shù)據(jù)的交換與共享,而 C/S 結(jié)構(gòu)的客戶端被納入檔案標(biāo)準(zhǔn)的規(guī)范體系中。
通過上述結(jié)構(gòu)框架的建立,能有效實現(xiàn)對大型企業(yè)檔案信息的科學(xué)化管理,特別是對檔案信息的精準(zhǔn)化操作和處理。
3系統(tǒng)軟件結(jié)構(gòu)優(yōu)化
為了能夠?qū)⒋笮推髽I(yè)檔案信息實現(xiàn)數(shù)據(jù)化信息處理,可結(jié)合檔案管理系統(tǒng)軟件的框架結(jié)構(gòu)來實施精準(zhǔn)部署。在此,使用“客戶端+瀏覽器”模式,從而對海量的檔案信息進(jìn)行采集以及優(yōu)化處理。數(shù)據(jù)資源會通過 B/S 平臺服務(wù)進(jìn)入企業(yè)的總部系統(tǒng)中,然后經(jīng)過總部系統(tǒng)的共享,從而使下屬部門也能夠獲取相應(yīng)的數(shù)據(jù)資源。在這一過程中,企業(yè)總部將作為檔案信息數(shù)據(jù)的系統(tǒng)中心對海量信息進(jìn)行維護(hù)與優(yōu)化處理。而下屬部門通過權(quán)限設(shè)置,可以實現(xiàn)數(shù)據(jù)信息共享。
通過以上步驟,能夠?qū)n案信息進(jìn)行初步管理。利用Java EE 技術(shù)和 Html5技術(shù)建立網(wǎng)絡(luò)平臺。在這一過程中,可以使用人工智能技術(shù)對海量檔案資料進(jìn)行有序管理,以實現(xiàn)對檔案資料的精準(zhǔn)分類。其中,功能模塊可借助查詢接口來完成對所需檔案的提取與共享(圖3)。
圖3中,數(shù)據(jù)管理功能模塊會轉(zhuǎn)換為數(shù)字化存儲模塊,以完成對檔案信息的整理。與傳統(tǒng)檔案信息管理方式相比,它更具高效性與精準(zhǔn)性[3]。因為它能夠結(jié)合 OCR 軟件與現(xiàn)有的歸檔系統(tǒng)進(jìn)行對接,并進(jìn)行二次開發(fā),這可對檔案信息中所存有的標(biāo)簽性信息通過接口的精準(zhǔn)性銜接來進(jìn)行提取,大大降低錯誤率。利用人工智能技術(shù)可以將檔案信息資料進(jìn)行精準(zhǔn)處理,而隨著功能模塊的建立,更能有效提升索引的精準(zhǔn)度。
4檔案數(shù)字化管理的實現(xiàn)
只有通過建立數(shù)據(jù)庫才能夠方便對數(shù)據(jù)信息進(jìn)行提取以及共享。因此,在建立數(shù)據(jù)庫的過程中,用戶可通過注冊來實現(xiàn)不同部門對不同信息資料的提取,使具有管理員權(quán)限的用戶能自由進(jìn)入網(wǎng)站,對功能模塊進(jìn)行管理,也可對用戶的權(quán)限進(jìn)行設(shè)置,從而實現(xiàn)對數(shù)據(jù)資源的有效管理。通過設(shè)置不同的用戶權(quán)限,可以將數(shù)據(jù)資源按照不同種類進(jìn)行劃分,也可通過信息模塊將權(quán)限納入用戶的使用過程中[4]。普通用戶僅限于對所需的數(shù)據(jù)資源進(jìn)行搜索;特殊用戶則可實現(xiàn)對普通用戶的權(quán)限設(shè)置,以保證檔案信息得以安全儲存。在用戶對檔案信息進(jìn)行檢索的過程中,會通過相應(yīng)的流程來完成。利用上述操作方式,可以對海量的檔案信息進(jìn)行高效管理—不僅能精準(zhǔn)搜索所需的信息內(nèi)容,還可以有效提升信息搜索效率以及搜索的精準(zhǔn)度。
5應(yīng)用實驗
為了能夠使實驗所得到的結(jié)果具有精準(zhǔn)性,建議對所使用的實驗環(huán)境以及設(shè)備進(jìn)行統(tǒng)一管理。其中,以 MATLAB r2010b 為實驗平臺;以 Windows Server 2012/Windows 7為實驗系統(tǒng);數(shù)據(jù)庫為 SQL SERV?ER2015;C/S 開發(fā)工具為 Delphi;數(shù)據(jù)庫接口為 ODBC;服務(wù)器 OS 為 Windows? Server 2012/Database: MySQL5.0;瀏覽器為 IE11.0及 IE;開發(fā)環(huán)境為 jdk8; B/S 開發(fā)工具為“ My Eclipse10+JDK1.8+Tomcat8.0+ MySql5.0”。選取某大型建筑企業(yè)的檔案信息資料作為實驗的參照對象,與傳統(tǒng)檢測方法相比,應(yīng)用人工智能技術(shù)對檔案資料信息進(jìn)行管理,不僅能夠?qū)崿F(xiàn)精準(zhǔn)化與高效化的管理目標(biāo),還能有效降低錯誤率,特別是對海量檔案信息資料進(jìn)行處理時更為方便、快捷。
6結(jié)束語
為了對大型企業(yè)所產(chǎn)生的海量檔案信息資料進(jìn)行精準(zhǔn)管理,可以利用人工智能技術(shù)對其進(jìn)行分析和整理,從而有效實現(xiàn)檔案資料的管理、開發(fā)和利用。實驗表明,借助人工智能技術(shù),不僅能使檔案資料檢索更為方便,還可提升檔案資料的整理速度和信息提取效率。
參考文獻(xiàn):
[1]任杰.基于 RFID 的檔案管理系統(tǒng)設(shè)計與實現(xiàn)[ J].辦公室業(yè)務(wù),2022(6):169?170.
[2]趙紫毫,薛四新.測評視角電子檔案管理系統(tǒng)質(zhì)量治理方法研究[J].中國檔案,2022(3):68?69.
[3]趙玉萍.論檔案管理系統(tǒng)與 OA 系統(tǒng)之間的無縫鏈接[J].信息系統(tǒng)工程,2022(3):36?39.
[4]王岳,王明杰,李文杰.基于物聯(lián)網(wǎng)的數(shù)字檔案管理系統(tǒng)設(shè)計與實現(xiàn)[J].信息技術(shù),2022(1):158?162.
作者簡介:
劉思陽(1989—),本科,中級館員,研究方向:檔案管理信息化建設(shè)。