亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動著錄技術(shù)在戶籍檔案數(shù)字化中的應(yīng)用研究與實(shí)踐

        2022-07-11 00:49:00李新功
        北京檔案 2022年6期
        關(guān)鍵詞:人工智能數(shù)字化

        李新功

        摘要:為適應(yīng)社會的數(shù)字化轉(zhuǎn)型,公安機(jī)構(gòu)在全國范圍內(nèi)開展了戶籍檔案數(shù)字化工作。面對戶籍檔案數(shù)字化工作在組卷復(fù)雜、紙張狀況較差且著錄工作量大等方面的挑戰(zhàn),實(shí)現(xiàn)數(shù)字化工作的智能化與自動化成為探索焦點(diǎn),所以采用自動著錄技術(shù)勢在必行。該文對采用自動著錄技術(shù)的必要性、技術(shù)框架及系統(tǒng)實(shí)現(xiàn)邏輯等展開介紹與分析。

        關(guān)鍵詞:戶籍檔案 數(shù)字化 PaddleOCR 人工智能

        隨著我國國民經(jīng)濟(jì)和社會發(fā)展的第十四個五年規(guī)劃綱要的發(fā)布,“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國”迅速成為工作中的焦點(diǎn)。這也為檔案行業(yè)的發(fā)展帶來了新機(jī)遇。近幾年,檔案行業(yè)的全流程管理研究紛紛著眼于自動分類、自動著錄及智能鑒定等領(lǐng)域。公安機(jī)構(gòu)也投入了大量資源開展戶籍檔案數(shù)據(jù)建設(shè)、戶籍檔案數(shù)字化建設(shè)工作。本文根據(jù)實(shí)踐中遇到的戶籍檔案需要大規(guī)模著錄問題,研究利用百度飛槳平臺(PaddlePaddle)加以解決。作為世界頂級的深度學(xué)習(xí)平臺,飛槳平臺以百度公司多年深度學(xué)習(xí)技術(shù)的研究和業(yè)務(wù)應(yīng)用為基礎(chǔ),集深度學(xué)習(xí)核心訓(xùn)練和推理框架、基礎(chǔ)模型庫、端到端開發(fā)套件、豐富的工具組件于一體,是中國首個自主研發(fā)、功能完備、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺。[1]飛槳平臺匯聚開發(fā)者數(shù)量達(dá)370萬,服務(wù)14萬家企事業(yè)單位,產(chǎn)生了42.5萬個模型。[2]它是百度公司的開源平臺,體量輕是其最大的特點(diǎn)之一。PaddleOCR是飛槳平臺上的細(xì)分應(yīng)用平臺,非常適合檔案行業(yè)解決大規(guī)模自動著錄問題。本文提及的自動著錄技術(shù)研究及實(shí)踐就是基于這個細(xì)分平臺而完成的。

        (一)采用自動著錄技術(shù)是戶籍檔案全面數(shù)字化的社會要求

        本文所稱戶籍檔案,是指常住戶口登記、暫住登記及居住證管理、居民身份證管理、人口信息管理等相關(guān)戶籍資料。目前在戶籍管理中,仍然以紙質(zhì)檔案居多。紙質(zhì)戶籍檔案管理有著諸多弊端,難以查詢,難以追溯,難以獲得完整的信息,難以關(guān)聯(lián),所以引發(fā)了一系列社會問題。在不少地方,“老、破、舊”的戶籍檔案不在少數(shù),其紙張發(fā)黃發(fā)脆,字跡暈染、模糊,手寫體居多。

        在這次戶籍檔案數(shù)字化進(jìn)程中,無論從管理、技術(shù)還是實(shí)施角度,戶籍檔案信息系統(tǒng)的建設(shè)并不是重點(diǎn)和難點(diǎn),反而是億級紙質(zhì)檔案數(shù)字化的工作才是重點(diǎn)和難點(diǎn),而難上加難的就是應(yīng)對海量數(shù)據(jù)的著錄。舉個例子,某省有近50億頁戶籍檔案需要數(shù)字化,目前僅完成1.2億頁的工作量。其中某個下屬市28個分局共有905.7萬卷、3761萬頁戶籍檔案,僅完成了405萬頁的數(shù)字化副本在戶籍檔案系統(tǒng)中的掛接,占比大約為10.8%,也就是說歷史戶籍檔案數(shù)字化程度較低。所以采用自動著錄技術(shù)勢在必行,這是戶籍檔案全面數(shù)字化的社會要求,可以確保戶籍檔案信息可用、可查、可追溯。

        (二)采用自動著錄技術(shù)是戶籍檔案深度數(shù)字化的新要求

        近兩年,公安機(jī)構(gòu)在全國全面展開了戶籍檔案信息化的工作:在建設(shè)戶籍檔案管理系統(tǒng)的同時將紙質(zhì)檔案數(shù)字化,并將數(shù)字化副本按照要求掛接到系統(tǒng)中,以便查詢。但是此次公安部部署的戶籍檔案信息化工作不同于以往,呈現(xiàn)出以下特點(diǎn):第一,此次工作部署更加落地,在全國范圍全面推進(jìn),有的省份公安系統(tǒng)甚至提出了信息化量化管理指標(biāo),同時優(yōu)先配套財(cái)政費(fèi)用,有效保障該項(xiàng)工作所需資源。第二,此次戶籍檔案數(shù)字化并非僅僅著眼于檔案管理視角,而是從數(shù)據(jù)觀視角出發(fā),提出了深化戶籍檔案數(shù)字化的實(shí)施要求,要求著錄戶籍檔案80%或以上的內(nèi)容。有別于以往的標(biāo)準(zhǔn)檔案內(nèi)容著錄要求,戶籍檔案深度數(shù)字化反映在以下兩個方面:一是橫向擴(kuò)展,對于每個級別的著錄內(nèi)容要求都有所增加,例如案卷級著錄信息標(biāo)準(zhǔn)字段是檔號、案卷題名、保管期限等,而此次著錄要求除了標(biāo)準(zhǔn)字段外增加了不少其他字段,比如卷宗編碼,它是業(yè)務(wù)流水編碼,以及卷宗編碼的條形碼、檔號的條形碼以及原類別號等十幾個字段。二是縱向擴(kuò)展,著錄層級從標(biāo)準(zhǔn)的案卷層級、卷內(nèi)文件層級擴(kuò)展到具體的每一頁頁面層級,并且擴(kuò)展到頁面中的字段級別,數(shù)據(jù)顆粒度細(xì)化到詞/詞組級別。這也符合未來檔案數(shù)據(jù)化的要求:向檔案內(nèi)容要數(shù)據(jù),從內(nèi)容中提取數(shù)據(jù),將數(shù)據(jù)顆粒度細(xì)化,為將來精準(zhǔn)檢索、數(shù)據(jù)關(guān)聯(lián)利用、數(shù)據(jù)挖掘和分析及深度展示檢索結(jié)果做準(zhǔn)備。

        深度學(xué)習(xí)為OCR賦能,也為自動著錄帶來了新機(jī)遇。本研究就是抓住了此機(jī)遇,開發(fā)了基于PaddleOCR技術(shù)平臺的自動著錄應(yīng)用系統(tǒng)。

        (一)深度學(xué)習(xí)為OCR技術(shù)賦能,為自動著錄夯實(shí)基礎(chǔ)

        OCR是英文Optical Character Recognition(光學(xué)字符識別)的縮寫。簡單來說,OCR識別包括以下基本步驟:第一步是圖像預(yù)處理;第二步是文字檢測;第三步是文字截取;第四步是字符識別。其中第一到第三步屬于文本檢測階段,而第四步才是文字識別階段。傳統(tǒng)的OCR技術(shù)在檔案行業(yè)的應(yīng)用一直處于尷尬狀態(tài),因?yàn)闄n案門類繁多、紙張情況復(fù)雜,錯誤率比較高。而且手寫體、表格、字體上的不規(guī)范都會造成識別錯誤,如果在錯誤識別的結(jié)果上再改錯,效率比較低,甚至不如直接人工著錄。所以在相當(dāng)長的一段時間,OCR未被大規(guī)模使用和推廣。但是在人工智能研究快速推進(jìn)的技術(shù)環(huán)境下,OCR也開始了與深度學(xué)習(xí)的融合,產(chǎn)生出多種算法、模型和應(yīng)用,這也是本研究能夠有所推進(jìn)的根本原因。

        目前融合在OCR深度學(xué)習(xí)文本檢測階段的算法大致分為以下幾類:第一類是基于目標(biāo)檢測的方法,一般是預(yù)測得到文本框后,通過NMS(Non Maximum Sup? pression)篩選得到最終文本框,多是四點(diǎn)文本框。該檢測法對較大彎曲文本場景效果還不是太理想。典型算法為EAST(An Efficient and Accu? rate Scene Text Detector)、Text Box等方法。第二類是基于分割的方法,即將文本行當(dāng)成分割目標(biāo),然后通過分割結(jié)果構(gòu)建外接文本框,可以處理彎曲文本,但是對于文本交叉場景問題效果不理想。典型算法為DB(Differentiable Binarization)等方法,目前最常用的有效方法是二者的混合。OCR識別階段,其輸入數(shù)據(jù)一般是文本行,背景信息不多,文字占據(jù)主要部分,識別算法目前可以分為兩類:一類是基于CTC(Connectionist Tem? poral Classification)的算法,常用的算法組合為CNN(Convolu? tional Neural Network)+RNN(Recurrent Neural Net? works)+CTC。目前也有一些算法嘗試在網(wǎng)絡(luò)中加入transformer模塊等。另一類是基于Attention的方法,即識別算法的文字預(yù)測模塊是基于Attention的,常用算法組合是CNN+RNN+Attention。本文研究的Pad? dleOCR平臺充分融合了以上主要算法,是深度學(xué)習(xí)對OCR的賦能,大大提高了OCR結(jié)果的容錯力:一是提高了正確率;二是提高了對字體的容納度。這使得OCR技術(shù)在檔案行業(yè)的應(yīng)用舊貌換新顏,使得戶籍檔案數(shù)字化的大量著錄工作有可能采用自動著錄技術(shù)來高效完成。這是自動著錄技術(shù)應(yīng)用的基礎(chǔ)。

        (二)基于PaddleOCR細(xì)分平臺的自動著錄系統(tǒng)架構(gòu)介紹

        研究發(fā)現(xiàn)自動著錄成為可能后,我們利用Pad? dleOCR細(xì)分平臺自主開發(fā)了應(yīng)用于戶籍檔案數(shù)字化的自動著錄系統(tǒng),圖1就是其系統(tǒng)框架圖。在圖中,核心框架和模型算法被封裝在百度的飛槳平臺中,這是基礎(chǔ)層。本文研發(fā)時直接調(diào)用此內(nèi)容。在模型訓(xùn)練系統(tǒng)中,先采集和選取多種樣本例如中文印刷體、英文印刷體、繁體中文、中文手寫體等樣本,并對大量樣本進(jìn)行標(biāo)注,通過Paddle框架訓(xùn)練成對應(yīng)的訓(xùn)練模型。這里,訓(xùn)練模型的準(zhǔn)確性與樣本的數(shù)量與完整度有很大關(guān)系。在服務(wù)部署過程中,經(jīng)過樣本訓(xùn)練出來的模型通常體積較大,為了提高加載速度與運(yùn)行速度,需要用到Paddle-Slim功能對模型進(jìn)行壓縮。Paddle-Hub提供多種預(yù)訓(xùn)練模型,可以方便快速地完成預(yù)訓(xùn)練模型的預(yù)測。Paddle-Serv? ing用于服務(wù)部署,可將模型作為單獨(dú)的Web服務(wù)進(jìn)行部署,這是中間層。自主開發(fā)部分集中在應(yīng)用接口、版面識別模板庫和業(yè)務(wù)應(yīng)用這幾大部分。利用應(yīng)用接口,在Paddle-Serving的基礎(chǔ)上自主進(jìn)行開發(fā),然后封裝成為完整的Web RESTful API接口,自動著錄系統(tǒng)可以整合這層應(yīng)用,形成Web應(yīng)用、桌面應(yīng)用、移動應(yīng)用等。研發(fā)最核心的部分在于兩部分:一是版面識別模板庫,這也是應(yīng)用特點(diǎn)的體現(xiàn)。在戶籍檔案數(shù)字化應(yīng)用中,紙質(zhì)檔案是按照各種標(biāo)準(zhǔn)整理組卷完成的案卷,并非雜亂無序的數(shù)據(jù)樣本,所以可以根據(jù)在數(shù)字化工作中采集的數(shù)據(jù)樣本進(jìn)行訓(xùn)練和分析,從而形成戶籍檔案行業(yè)的模板庫。例如,我們可以針對同一類別的檔案的版面進(jìn)行版面標(biāo)注,標(biāo)注需要提取的結(jié)構(gòu)化數(shù)據(jù)具體在版面中的位置,形成模板庫,相同版面提供多個不同的標(biāo)注樣本數(shù)據(jù),可以提高版面模版的識別精度。二是業(yè)務(wù)應(yīng)用部分。利用版面識別模板庫和文本識別的Web應(yīng)用接口,可以構(gòu)建對應(yīng)的版面識別應(yīng)用,有效識別各種戶籍檔案數(shù)字化業(yè)務(wù)場景中較為固定的版面文本數(shù)據(jù),從非結(jié)構(gòu)化數(shù)據(jù)中快速提取結(jié)構(gòu)化數(shù)據(jù)。

        (三)自動著錄系統(tǒng)的實(shí)現(xiàn)邏輯

        自動著錄系統(tǒng)的主要實(shí)現(xiàn)邏輯是:進(jìn)入自動著錄界面后分兩種情況,第一種情況是該類戶籍檔案沒有做過自動著錄,故而沒有相應(yīng)的著錄模板,所以需要制作模板。系統(tǒng)利用“OCR模板制作功能”,首先在數(shù)值化副本圖的左邊圖片區(qū)域?qū)D片整體進(jìn)行框選(見圖2),然后右邊將出現(xiàn)相對應(yīng)的電子版表格;其次根據(jù)需要對所有需要著錄的字段一一對應(yīng)到各自的目標(biāo)位置后,再進(jìn)行保存,此時制作模板完成;最后點(diǎn)擊“智能OCR”,那么按照模板將完成該頁面的一鍵自動著錄。

        第二種情況是“不使用模板-定向識別OCR功能”。這是指在系統(tǒng)中已經(jīng)建立了模板,或曾經(jīng)著錄過類似的內(nèi)容,在這種情況下,不需要建立模板,只需要按照第一種情況的簡化步驟直接完成操作即可。

        三、結(jié)語

        本研究不僅推進(jìn)了戶籍檔案著錄數(shù)字化過程中自動化、智能化的研究與應(yīng)用,也為檔案數(shù)據(jù)化管理提出了新的解決思路和技術(shù)工具,使得檔案數(shù)據(jù)化管理更加落地。

        其成果主要體現(xiàn)在以下幾個方面:第一,它充分體現(xiàn)了研發(fā)與實(shí)踐的閉環(huán)過程:研發(fā)、驗(yàn)證、修正、推廣、大規(guī)模使用,并沒有僅僅停留在研究和思考的層面,也沒有僅僅停留在實(shí)驗(yàn)室驗(yàn)證的層面,而是進(jìn)行了大規(guī)模的使用和驗(yàn)證,至今已經(jīng)助力完成了超過兩千萬頁戶籍檔案著錄數(shù)字化的工作。第二,已經(jīng)產(chǎn)生并持續(xù)產(chǎn)生了商業(yè)化價值,為大大小小的戶籍檔案數(shù)字化外包商提供了產(chǎn)品化服務(wù),服務(wù)金額已經(jīng)近千萬元,并持續(xù)提供商業(yè)服務(wù)中。第三,自動著錄系統(tǒng)大大提高了戶籍檔案數(shù)據(jù)內(nèi)容提取和轉(zhuǎn)換的效率及準(zhǔn)確率,將錯誤率從18%降低到3%以下,效率至少提高了300%,縮短了項(xiàng)目實(shí)施周期,大幅降低了數(shù)字化的成本。

        當(dāng)然,本文的研究和實(shí)踐也還有不盡人意之處,該技術(shù)對手寫體的辨識準(zhǔn)確率并沒有達(dá)到90%;同時對著錄內(nèi)容的一致性有一定要求,因?yàn)榻0逍枰ū容^長的時間,也會影響效率。隨著需要數(shù)字化的戶籍檔案數(shù)量增多、數(shù)據(jù)模型的積累,數(shù)據(jù)訓(xùn)練的效果會越來越好,自動化、智能化水平也會相應(yīng)提高,其實(shí)施效率和應(yīng)用層面的效果也會越來越好。

        注釋及參考文獻(xiàn):

        [1]馮建周,余揚(yáng),劉磊.基于飛槳框架的三階遞進(jìn)式機(jī)器學(xué)習(xí)教學(xué)模式探索與實(shí)踐[J].計(jì)算機(jī)教育,2021(10):28-32.

        [2]百度百科.飛槳(百度深度學(xué)習(xí)平臺PaddlePaddle中文名)[EB/OL].[2022-04-12].https://baike.baidu.com/ item/%E9%A3%9E%E6%A1%A8/23472642?fr=aladdin.

        作者單位:中國人民大學(xué)信息資源管理學(xué)院

        猜你喜歡
        人工智能數(shù)字化
        我校新增“人工智能”本科專業(yè)
        數(shù)字化:讓夢想成為未來
        家紡業(yè)亟待數(shù)字化賦能
        論經(jīng)濟(jì)學(xué)數(shù)字化的必要性
        英語文摘(2019年9期)2019-11-26 00:56:32
        高中數(shù)學(xué)“一對一”數(shù)字化學(xué)習(xí)實(shí)踐探索
        高中數(shù)學(xué)“一對一”數(shù)字化學(xué)習(xí)實(shí)踐探索
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        數(shù)字化制勝
        久久久国产精品免费无卡顿| 精品少妇一区二区三区四区| 亚洲免费成年女性毛视频| 美女与黑人巨大进入免费观看| 国产精品免费观看调教网| 无套内射蜜桃小视频| 97se亚洲国产综合自在线图片| AV永久天堂网| 日韩一二三四区免费观看| 国产成人亚洲系列毛片| 久久精品国产亚洲av麻豆色欲| 久久精品国产免费观看| 7878成人国产在线观看| 亚洲va中文字幕欧美不卡 | 亚洲中文字幕视频第一二区| 狠狠摸狠狠澡| 米奇7777狠狠狠狠视频影院| 成年视频国产免费观看| 国产高清丝袜美腿视频在线观看| 一区二区在线观看视频高清| 无码国产精品一区二区免费式直播 | 国产精品嫩草影院av| 自拍 另类 综合 欧美小说| 国产激情在线观看视频网址| 极品少妇xxxx精品少妇偷拍| 国产精品亚洲а∨无码播放不卡 | 午夜婷婷国产麻豆精品| 亚洲欧洲av综合色无码| 国产乱子伦在线观看| 高潮喷水无遮挡毛片视频| 日韩国产精品一区二区三区 | 91精品国产乱码久久中文| 中文在线8资源库| 专区亚洲欧洲日产国码AV| 亚洲每天色在线观看视频| 亚洲国产精品高清在线| 国产在线精品一区在线观看| 久久精品性无码一区二区爱爱| 久久精品人妻中文av| 国产精品国产三级国产aⅴ下载| 亚洲成av人片在线观看无码 |