亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

檔案信息進(jìn)行大數(shù)據(jù)應(yīng)用的初步實(shí)踐

2021-05-07 02:24:26朱夢(mèng)玲

現(xiàn)代信息科技 2021年23期

摘? 要：隨著大數(shù)據(jù)在各行業(yè)應(yīng)用的廣泛深入，取得良好的成果，許多檔案行業(yè)學(xué)者對(duì)檔案信息在大數(shù)據(jù)應(yīng)用方面進(jìn)行了研究和實(shí)踐，通過采用人工智能技術(shù)對(duì)檔案信息進(jìn)行預(yù)處理，如利用OpenCV算法對(duì)文本檔案進(jìn)行OCR識(shí)別，采用ASR技術(shù)對(duì)音視頻檔案進(jìn)行語(yǔ)音識(shí)別，采用人工智能技術(shù)進(jìn)行人臉識(shí)別等。對(duì)獲得的數(shù)字化檔案信息采用隱馬爾科夫模型進(jìn)行結(jié)構(gòu)化，最后形成“一人一檔，一事一檔”等大數(shù)據(jù)應(yīng)用實(shí)踐。

關(guān)鍵詞：OCR;語(yǔ)音識(shí)別;人臉識(shí)別;數(shù)據(jù)結(jié)構(gòu)化;一人一檔;一事一檔

中圖分類號(hào)：TP39? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：2096-4706（2021）23-0142-03

Preliminary Practice of Application of Big Data in Archival Information

ZHU Mengling

（Guangdong Yunxun Information Technology Co.， Ltd.， Huizhou? 516000， China）

Abstract： With the extensive and in-depth application of big data in various industries， good results have been achieved， many scholars in the archives industry have studied and practiced the application of big data in archives information. They preprocess archives information by using artificial intelligence technology， such as OCR recognition of text archives by using OpenCV algorithm， ASR （automatic speech recognition） technology is used for speech recognition of audio and video archives， and artificial intelligence technology is used for face recognition. The obtained digital archives information is structured by hidden Markov model （HMM）， and finally forms big data application practices such as “one file for one person， one file for one thing”.

Keywords： OCR; speech recognition; face recognition; data structure; one file for one person; one file for one thing

0? 引? 言

我們國(guó)家在電子政務(wù)方面自動(dòng)化、標(biāo)準(zhǔn)化、網(wǎng)絡(luò)化漸趨完善，每天都產(chǎn)生大量的反映政務(wù)活動(dòng)的各種格式的電子檔案，結(jié)合國(guó)家對(duì)政府檔案行業(yè)“存量數(shù)字化、增量電子化”的要求，各地綜合檔案館積累了海量的電子檔案文件，為下一步利用這些海量的檔案信息資源進(jìn)行政務(wù)大數(shù)據(jù)的應(yīng)用實(shí)踐打下基礎(chǔ)。

隨著新一代信息技術(shù)的發(fā)展，尤其是人工智能和大數(shù)據(jù)技術(shù)的日漸成熟和廣泛應(yīng)用，大數(shù)據(jù)技術(shù)已體現(xiàn)出有其廣闊的應(yīng)用前景，在交通出行、安防、個(gè)性化信息推送、消費(fèi)等各方面都有成功的應(yīng)用，大數(shù)據(jù)也展示出了其巨大的商業(yè)應(yīng)用價(jià)值，而檔案因其數(shù)據(jù)量龐大，格式多樣，存在跨時(shí)空、跨領(lǐng)域、跨行業(yè)的特點(diǎn)，涵蓋了政務(wù)活動(dòng)、社會(huì)活動(dòng)、經(jīng)濟(jì)活動(dòng)的方方面面，使檔案天然的具有大數(shù)據(jù)屬性，在此背景下，檔案的利用模式將發(fā)生重大變革，從被動(dòng)用檔轉(zhuǎn)變成主動(dòng)用檔。檔案信息資源的大數(shù)據(jù)應(yīng)用場(chǎng)景將集中在歷史場(chǎng)景還原、人物和事件軌跡聚合、政務(wù)輔助決策等方面。

本文將從檔案信息資源在大數(shù)據(jù)應(yīng)用中的“一人一檔”“一事一檔”等方面進(jìn)行政務(wù)大數(shù)據(jù)應(yīng)用實(shí)踐的探討，從技術(shù)準(zhǔn)備和實(shí)踐路徑等方面進(jìn)行概括，提出我們的檔案大數(shù)據(jù)應(yīng)用思路和技術(shù)方案。

1? 技術(shù)準(zhǔn)備

在檔案信息化的基礎(chǔ)上，將大數(shù)據(jù)技術(shù)和人工智能技術(shù)應(yīng)用到檔案數(shù)據(jù)中，融合OCR文本識(shí)別、音視頻文件語(yǔ)音文本識(shí)別、聲像檔案人臉識(shí)別，對(duì)非結(jié)構(gòu)化的電子檔案數(shù)據(jù)完成結(jié)構(gòu)化處理，通過多維度的關(guān)聯(lián)匯聚，將相關(guān)檔案以時(shí)間軸和GIS空間結(jié)合，生動(dòng)形象的展現(xiàn)出人物和事物的發(fā)展軌跡。

1.1? 傳統(tǒng)的數(shù)字化檔案文件經(jīng)過OCR識(shí)別后形成文本數(shù)據(jù)

基于人工智能的OCR技術(shù)通常使用OpenCV算法庫(kù)，通過圖像處理和統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法從圖像中提取文本信息，包括二值化、噪聲濾波、相關(guān)域分析、AdaBoost等。將檔案庫(kù)中的紙質(zhì)檔案，通過掃描、系統(tǒng)掛接、圖像準(zhǔn)備、文本識(shí)別、提取檔案信息、保存識(shí)別到的文本信息。由于OCR識(shí)別存在一定的誤差，系統(tǒng)要能夠允許對(duì)識(shí)別后的OCR文本做修改，以保證深度學(xué)習(xí)的準(zhǔn)確率，同時(shí)為大數(shù)據(jù)分析打好基礎(chǔ)。OCR識(shí)別還可用于全文檢索等檔案模塊，在海量的檔案數(shù)據(jù)中，快速定位想要查找的檔案文件甚至文件段落，對(duì)檔案工作有很好的推動(dòng)作用。

將上傳的PDF、OFD、Word等檔案文件進(jìn)行OCR識(shí)別，形成文本，可查看以及粘貼復(fù)制，同時(shí)也能進(jìn)行大數(shù)據(jù)檢索。OCR識(shí)別界面如圖1所示。

1.2? 音視頻檔案進(jìn)行語(yǔ)言識(shí)別后形成文本數(shù)據(jù)

語(yǔ)音識(shí)別涉及的領(lǐng)域包括：數(shù)字信號(hào)處理、聲學(xué)、語(yǔ)音學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、人工智能等，是一門涵蓋多個(gè)學(xué)科領(lǐng)域的交叉科學(xué)技術(shù)?；谌斯ぶ悄艿囊粢曨l檔案語(yǔ)音識(shí)別就是讓系統(tǒng)對(duì)音視頻檔案進(jìn)行音頻提取，提取后對(duì)原始音頻進(jìn)行部分消除噪聲來增強(qiáng)語(yǔ)音信號(hào)，且按一定時(shí)間進(jìn)行切割并生成音頻文件進(jìn)行語(yǔ)音信號(hào)的特征提取，這一過程能更好地尋找語(yǔ)音的內(nèi)在特征，然后再通過語(yǔ)言模型訓(xùn)練，計(jì)算語(yǔ)言特征提取后的特征矢量與每個(gè)聲學(xué)模型的距離來進(jìn)行模式匹配，最后通過語(yǔ)音模型語(yǔ)法規(guī)則進(jìn)行語(yǔ)音匹配，輸出識(shí)別結(jié)果。

音視頻檔案語(yǔ)音識(shí)別的應(yīng)用可以很好地解決地方口音、方言和少數(shù)民族語(yǔ)言帶來的音視頻檔案識(shí)別問題，且該應(yīng)用識(shí)別音頻輸出的文本信息可用于檔案音視頻檢索，而不再僅限于傳統(tǒng)的著錄信息檢索，相比較傳統(tǒng)的檢索方式，應(yīng)用音視頻文本檢索后，檢索效率可以有很大的提高，提高了檔案人員的工作效率也提高了公眾對(duì)檔案的利用率;通過音視頻關(guān)鍵字和OCR識(shí)別的文本檔案、通過互聯(lián)網(wǎng)收集的檔案信息一起進(jìn)行大數(shù)據(jù)分析，這將會(huì)大大提高聲像檔案的利用率，提升檔案工作人員的工作效率。音頻檔案語(yǔ)音識(shí)別界面圖如圖2所示。

1.3? 聲像檔案提取人臉信息

局部二值模式（local binary pattern，LBP）的人臉識(shí)別方法源于紋理分析領(lǐng)域。它首先計(jì)算圖像中每個(gè)像素與其局部鄰域點(diǎn)在亮度上的序關(guān)系，然后對(duì)二值序關(guān)系進(jìn)行編碼形成局部二值式，最后采用多區(qū)域直方圖作為圖像的特征描述。該方法在FERET人臉圖像數(shù)據(jù)庫(kù)上取得了很好地識(shí)別性能。人臉識(shí)別后將識(shí)別到的人臉保存在數(shù)據(jù)庫(kù)中，作為查詢匹配庫(kù)。采取提取人臉外部矩形框、人臉面部輪廓特征提取、計(jì)算人臉特征、比較人臉特征、判斷是否小于閾值等流程實(shí)現(xiàn)人臉識(shí)別和特征提取以及結(jié)果匹配，最終實(shí)現(xiàn)人臉檢索，其中計(jì)算人臉特征使用Resnet將人臉特征用128維向量標(biāo)識(shí)，比較人臉特征采用計(jì)算歐式距離的方法。

根據(jù)以上人工智能算法提取人臉的特征數(shù)據(jù)、屬性數(shù)據(jù)，將聲像檔案中的人臉數(shù)據(jù)提取后結(jié)構(gòu)化并匯聚整合，建立檔案人臉庫(kù)。檔案管理者也可通過對(duì)比檔案人臉庫(kù)，編輯標(biāo)識(shí)人物姓名、身份、身體特征信息，完成聲像人物標(biāo)注，形成描述統(tǒng)一、內(nèi)容完備的人臉庫(kù)。建立人臉庫(kù)后再歸檔該人物聲像檔案可實(shí)現(xiàn)自動(dòng)識(shí)別歸類，比如還原某位優(yōu)秀共產(chǎn)黨員歷史時(shí)只需搜索該人臉或者姓名、身份等信息，該人物在庫(kù)中的所有相關(guān)聲像檔案立刻展現(xiàn)。與文本檔案OCR識(shí)別相結(jié)合，可形成人物鏈，可將該人物的文本檔案和聲像檔案相結(jié)合匯聚成個(gè)人檔案概覽。聲像人臉提取與檢索界面圖如圖3所示。

1.4? 數(shù)據(jù)要素提取和結(jié)構(gòu)化

OCR識(shí)別完成了對(duì)檔案文本文件和音視頻文件轉(zhuǎn)換成可深入利用的數(shù)據(jù)，但這些數(shù)據(jù)均為原始的非關(guān)系型數(shù)據(jù)，要進(jìn)行大數(shù)據(jù)分析和利用，需首先基于人工智能技術(shù)對(duì)這些非關(guān)系型數(shù)據(jù)進(jìn)行結(jié)構(gòu)化，使非關(guān)系型數(shù)據(jù)轉(zhuǎn)換成關(guān)系型數(shù)據(jù)庫(kù)。在結(jié)構(gòu)化的過程中結(jié)合時(shí)空關(guān)系和人臉特征模型，構(gòu)成更廣泛的人、事、時(shí)空的關(guān)聯(lián)性。

借助世界上最大的多語(yǔ)種語(yǔ)料庫(kù)，進(jìn)行分詞粗分、細(xì)分、強(qiáng)制、合并、校正、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、成分句法分析、語(yǔ)義依存分析、語(yǔ)義角色標(biāo)注、詞干提取、詞法語(yǔ)法特征提取、抽象意義表示等過程，提取人名、地名、事件等信息。使用隱馬爾科夫模型（Hidden Markov Model，HMM）作為語(yǔ)音信號(hào)的統(tǒng)計(jì)模型，采用前向-后向算法、Baum_Welch算法以及Viterbi解碼算法對(duì)檔案文件識(shí)別后的OCR文本進(jìn)行中文分詞，對(duì)數(shù)據(jù)要素進(jìn)行提取，提取后進(jìn)行抽象意義表示，即完成數(shù)據(jù)要素的提取和結(jié)構(gòu)化。數(shù)據(jù)要素提取和機(jī)構(gòu)化相關(guān)圖示如圖4所示。

2? 實(shí)踐路徑

（1）經(jīng)OCR和視頻文本識(shí)別后產(chǎn)生海量的文本數(shù)據(jù)，雖經(jīng)過了檔案邏輯的多維編目、元數(shù)據(jù)的提取和標(biāo)注等操作，但對(duì)事物內(nèi)所包含的有機(jī)信息依然有限，要進(jìn)行大數(shù)據(jù)應(yīng)用，需先按照“人物、事件、時(shí)間、原因、結(jié)果”等主要要素，職務(wù)、單位、行為、場(chǎng)所、等細(xì)分要素進(jìn)行結(jié)構(gòu)化，對(duì)文本中所包含的主要要素、細(xì)分要素進(jìn)行基于人工智能的自動(dòng)識(shí)別和提取、聚合，完成數(shù)據(jù)清洗和預(yù)處理，建立龐大的關(guān)系型主動(dòng)利用檔案大數(shù)據(jù)庫(kù)，提供了檔案大數(shù)據(jù)應(yīng)用的堅(jiān)實(shí)基礎(chǔ)和無限可能性。

（2）對(duì)檔案信息大數(shù)據(jù)最直觀的利用進(jìn)行多維度組合分析，因檔案大數(shù)據(jù)完成了結(jié)構(gòu)化，產(chǎn)生主要要素和細(xì)分要素相結(jié)合的多維度要素，有時(shí)空、事件、人物、單位機(jī)構(gòu)等，可對(duì)各類要素多維度進(jìn)行組合分析，使用諸如回歸、聚類、關(guān)聯(lián)值、異常值等數(shù)據(jù)挖掘方式，也可按照時(shí)空維度的方式，結(jié)合GIS地圖，可直觀立體地表現(xiàn)出事件所產(chǎn)生的時(shí)間和空間信息，涉及到人物時(shí)，可將關(guān)系型檔案大數(shù)據(jù)和人臉特征信息結(jié)合，建立起檔案大數(shù)據(jù)和圖片、音視頻的關(guān)聯(lián)關(guān)系。其中在聲像檔案進(jìn)行拍攝時(shí)，可打開拍攝設(shè)備中記錄時(shí)間和GPS經(jīng)緯度的參數(shù)，則可自動(dòng)獲得產(chǎn)生聲像檔案時(shí)的時(shí)空要素。

（3）在數(shù)字檔案信息要素中，人物和事件是最為核心的要素，也是檔案最為直觀的分析對(duì)象，在結(jié)構(gòu)化后，可使用聚類的方式對(duì)人物要素進(jìn)行聚合，包括人名、職務(wù)、單位、行為等，結(jié)合聲像檔案中的人臉等要素，按時(shí)間軸線為主，GIS空間為表現(xiàn)形式，聚合成時(shí)空環(huán)境中的一人一檔，若要查看某位同志的職業(yè)升遷，則可通過一人一檔形成的時(shí)間軸，直觀地看出職位變動(dòng)以及該人物參加的活動(dòng)等;

也可按照事件進(jìn)行檔案大數(shù)據(jù)利用，如“城市更新”“軌道建設(shè)”“鄉(xiāng)村振興”“疫情防治”等具體事件進(jìn)行多維聚合，以時(shí)空為表現(xiàn)形式，形成一事一檔的利用模式。實(shí)踐路徑如圖5所示。實(shí)踐結(jié)果界面圖如圖6實(shí)踐結(jié)果圖。

3? 結(jié)? 論

信息技術(shù)的大范圍應(yīng)用使得各類生產(chǎn)活動(dòng)中所產(chǎn)生的數(shù)據(jù)量逐漸增多，這必定會(huì)為檔案管理工作帶來較大的難度，對(duì)于檔案事業(yè)來說，信息技術(shù)的普及及應(yīng)用既是機(jī)遇又是挑戰(zhàn)，信息量和數(shù)據(jù)量的大幅度增長(zhǎng)不僅會(huì)增加檔案管理負(fù)擔(dān)，還突出表現(xiàn)了原有檔案管理模式中的不足，在信息化的背景下，要求檔案管理工作根據(jù)當(dāng)前的發(fā)展形勢(shì)進(jìn)行創(chuàng)新與整改，全面提升檔案管理的信息化水平和管理效率，為人們提升更加高效的檔案服務(wù)。而在信息化的基礎(chǔ)上，應(yīng)加大對(duì)檔案海量數(shù)據(jù)的分析力度，做到檔案大數(shù)據(jù)的主動(dòng)用檔。檔案大數(shù)據(jù)的主動(dòng)用檔的利用場(chǎng)景，不僅限于一人一檔及一事一檔，在歷史場(chǎng)景還原、政務(wù)輔助決策、事件和人物的規(guī)律性分析等方面均可發(fā)揮作用，在新一代信息技術(shù)，尤其是隨著人工智能技術(shù)和大數(shù)據(jù)技術(shù)的日漸成熟，對(duì)檔案的價(jià)值挖掘提供了無限的想象空間和可能性，“大數(shù)據(jù)+檔案”是形成主動(dòng)用檔、智能用檔，讓檔案發(fā)揮更大利用價(jià)值的重要途徑。

參考文獻(xiàn)：

[1] 趙甲信.關(guān)于加快推進(jìn)縣域檔案信息化建設(shè)工作步伐的幾點(diǎn)體會(huì) [J].陜西檔案，2008（6）：30.

[2] 趙鵬，李光.檔案工作落實(shí)科學(xué)發(fā)展觀的關(guān)鍵——實(shí)現(xiàn)檔案實(shí)物化管理向信息化管理的轉(zhuǎn)變 [J].山東檔案，2005（5）：7-9.

[3] 陶水龍.大數(shù)據(jù)特征的分析研究 [J].中國(guó)檔案，2017（12）：58-59.

[4] 陳菲.大數(shù)據(jù)視角下的檔案利用問題研究——由提高數(shù)據(jù)加工能力談起 [J].機(jī)電兵船檔案，2017（3）：74-76.

[5] 王玲，張妍妍.大數(shù)據(jù)時(shí)代檔案工作面臨的大機(jī)遇與大挑戰(zhàn) [J].蘭臺(tái)世界，2014（17）：15-16.

作者簡(jiǎn)介：朱夢(mèng)玲（1997—），女，漢族，湖北黃岡人，工科學(xué)士學(xué)位，本科，研究方向：檔案大數(shù)據(jù)。