亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DBnet和眾籌策略的氣象紙質(zhì)表格快速數(shù)字化方法及系統(tǒng)

        2022-04-28 09:06:36韓瑞李強顧春利沈晨笛石明遠(yuǎn)
        氣象科技 2022年2期

        韓瑞 李強 顧春利 沈晨笛 石明遠(yuǎn)

        (1 國家氣象信息中心,北京 100081;2 清華大學(xué)環(huán)境學(xué)院,北京 100084;3 中國移動智慧家庭運營中心,北京 100053;4 北京應(yīng)用氣象研究所,北京 100029;5 中國氣象局公共氣象服務(wù)中心,北京 100081)

        引言

        紙質(zhì)氣象表格資料是一種通過表格形式,記錄規(guī)定時間段內(nèi)各地氣象要素、大氣狀況及變化的數(shù)據(jù)[1],是臺站觀測人員手工記錄的第一手原始?xì)庀笥^測資料?,F(xiàn)存于中國氣象局氣象檔案館最早的紙質(zhì)表格資料始于1796年法國的《氣象觀測公告》,至今已有200多年歷史。由于經(jīng)歷歷史滄桑和保管條件所限,氣象檔案館保存的紙質(zhì)氣象資料已普遍出現(xiàn)紙質(zhì)老化、變脆、破損以及字跡退化等現(xiàn)象。這些資料都是寶貴的歷史遺產(chǎn),具有極其重要的科學(xué)和歷史價值,所以中國氣象局從2007年2月正式啟動了氣象數(shù)字檔案(Digital Archive)項目,致力于紙質(zhì)氣象資料的數(shù)字化工作,至今仍在通過該項目對紙質(zhì)氣象表格資料進(jìn)行拯救、保護(hù)和開發(fā)利用工作[2]。

        數(shù)字檔案這一用語是20世紀(jì)90年代誕生的英譯詞匯[3],日本將其定義為“收集、保存和提供各類數(shù)字信息資源的方法的總體”[4];《圖書館情報學(xué)用語辭典(第五版)》中將其定義為:“以數(shù)字信息的形式記錄有形或無形的文化遺產(chǎn),在進(jìn)行無變質(zhì)地永久保存的同時,提供互聯(lián)網(wǎng)使用。最初以紙質(zhì)資料數(shù)字化的形式生產(chǎn)的文化遺產(chǎn)也屬于數(shù)字檔案的對象?!盵5]在歐美國家,像這樣將文化遺產(chǎn)數(shù)字化的信息資源被稱為“數(shù)字遺產(chǎn)(Digital Heritage)”[6]。2012年,聯(lián)合國教科文組織公開的“數(shù)字遺產(chǎn)”的定義是:“以計算機技術(shù)為基礎(chǔ),具有永恒價值并應(yīng)為下一代保存的資料?!盵7]而紙質(zhì)氣象表格資料的數(shù)字化就是數(shù)字遺產(chǎn)的一部分。

        紙質(zhì)氣象表格是傳統(tǒng)的氣象觀測數(shù)據(jù)記載方式,歷史悠久,且現(xiàn)存待數(shù)字化資料多為手寫,其中還不乏書寫不規(guī)范、筆跡壓線、涂改等情況,而目前OCR(光學(xué)字符識別)技術(shù)手寫識別精度遠(yuǎn)低于印刷體;同時由于歷史原因,許多觀測員在記錄氣象要素信息時,存在不少專有字符和約定記錄方式,OCR無法識別;所以目前氣象數(shù)字檔案工作方式相對原始,采用的主要技術(shù)包括:掃描技術(shù)、錄入技術(shù)、質(zhì)檢技術(shù)[8]。其中,掃描技術(shù)是人工將檔案原件利用掃描儀,以圖像方式存儲在計算機內(nèi)或其他存儲介質(zhì)上;錄入技術(shù)目前主要使用錄入員手工鍵入,將圖像上的數(shù)據(jù)錄入到電子表格或文件中;質(zhì)檢技術(shù)是將掃描后數(shù)字化的集成結(jié)果,通過人工抽取一定比例的樣本,進(jìn)行圖像與錄入結(jié)果的人工肉眼對比檢查,用以判斷檢查錄入的質(zhì)量。簡而言之:紙質(zhì)氣象表格資料的數(shù)字檔案工作是一種采用人工主導(dǎo)掃描、錄入、質(zhì)檢的傳統(tǒng)方法。由于工作效率和數(shù)據(jù)安全等方面的要求,這種工作方式采取開辟封閉場地,掃描、錄入和質(zhì)檢人員聚集于場地內(nèi)同場作業(yè)的模式。

        突如其來的新冠疫情以及嚴(yán)格的防疫措施,讓原有的工作方式難以為繼;以酸雨資料為例,原需要13人的錄入團隊,連續(xù)工作9個月完成約502320頁“一錄(錄入一次)”的工作任務(wù);然根據(jù)復(fù)工后的防控要求,目前錄入團隊人數(shù)驟減至7人,因而完成時間也延遲至22個月?,F(xiàn)實表明,現(xiàn)有工作模式已無法保障原有工作的進(jìn)度安排;同時,復(fù)工后為了追趕進(jìn)度,人工一錄出錯率也由4.4%上升至6.9%,這與數(shù)字檔案0.3%的出錯率要求存在顯著差距。

        結(jié)合后疫情帶來的外在影響和手工錄入本身存在的問題,急需另辟蹊徑,應(yīng)用先進(jìn)的技術(shù)方法改進(jìn)原有工作模式。

        隨著計算機技術(shù)的不斷發(fā)展,雖然在文字識別上還有一定距離,但基于機器學(xué)習(xí)的表格識別、字符定位技術(shù)日漸成熟,可以彌補原有霍夫變換等技術(shù)的不足,尤其是利用大數(shù)據(jù)訓(xùn)練最優(yōu)模塊,有效提高了表格線識別和字符定位的精度;而有向單連通鏈技術(shù)(DSCC)提供了一種能夠分離交疊字線的算法,一定程度上改善了手寫體側(cè)壓表格線時的提取問題[9];這些都為傳統(tǒng)人工數(shù)字檔案工作中的各個環(huán)節(jié)注入了新的技術(shù)。

        本文旨在提出一種快速數(shù)字化方法及系統(tǒng),基于DBnet模型,結(jié)合有向單連通鏈技術(shù),通過字符定位氣象紙質(zhì)表格資料;進(jìn)行碎片處理,以“眾籌”方式完成圖像數(shù)字化和檢驗過程;通過分段式處理的方法,解放原有手工錄入作業(yè),最終完成氣象紙質(zhì)表格類資料的數(shù)字檔案工作。

        1 面臨的問題和解決思路

        1.1 面臨問題

        目前,氣象紙質(zhì)表格資料無法應(yīng)用自動識別錄入技術(shù),主要源于2個問題:①手寫體對OCR技術(shù)的應(yīng)用存在精度限制:根據(jù)2020年《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》[10]要求,手寫體識別精度的合格標(biāo)準(zhǔn)是大于80%,疫情之前的人工錄入數(shù)字檔案最高出錯率為4.4%;而目前基于深度學(xué)習(xí)的手寫體識別精度最高可以達(dá)到93.5%[11],也就是說手寫體自動識別的最低出錯率是6.5%,較人工錄入為低。由于氣象紙質(zhì)表格資料多為手寫體,以酸雨氣象表格資料為例,需錄入共計502320頁。其中有482730頁為手寫體;約占總數(shù)的96.1%;所以這也是之前數(shù)字檔案仍為人工錄入和抽查工作模式,而沒有采用自動化技術(shù)的原因之一。②表格類型眾多分類復(fù)雜:紙質(zhì)表格資料隨著對觀測要素的不斷細(xì)化,記錄條目也不斷增加;再以酸雨資料為例,涉及數(shù)字檔案工作的資料包括酸雨觀測記錄簿(TB0)和酸雨月報表(TB1)2類,資料橫跨1982—2018年,共計存在過的表格種類就有32種;圖1表示各省酸雨月報表應(yīng)用表格類型及轉(zhuǎn)換次數(shù),由圖可得,各省使用不同類型表格種類最多為10種;除了應(yīng)用種類不統(tǒng)一以外,各省不同類型的表格應(yīng)用時段也不統(tǒng)一;由類型轉(zhuǎn)換次數(shù)可知,最多轉(zhuǎn)換51次,這給基于深度學(xué)習(xí)的識別訓(xùn)練工作帶來很大難度。

        圖1 各省酸雨月報表應(yīng)用表格類型及轉(zhuǎn)換次數(shù)

        1.2 解決思路

        基于目前現(xiàn)狀,手寫體識別準(zhǔn)確性是數(shù)字檔案工作無法自動化處理的瓶頸之一,那么是否可以進(jìn)行“分段”處理?本文的解決思路是將人工數(shù)字化工作劃分成“碎片、錄入、自?!?,由“字符定位、字線分離” 等自動化方式實現(xiàn)碎片過程,通過“眾籌”方式完成錄入、自校過程。其中字符定位、字線分離方案,選取了深度學(xué)習(xí)中DBnet模型,結(jié)合DSCC算法[12]完成碎片準(zhǔn)備工作。

        1.2.1 DBnet模型字符定位

        DBnet模型[13-17]字符定位采用了基于語義分割的方法。即將待數(shù)字化的圖像按照不同比例輸入到圖像訓(xùn)練集中,經(jīng)過特征提取和上采樣合并操作后得到圖2中全藍(lán)色的特征圖F,然后使用F預(yù)測出概率圖P;使用F預(yù)測出閾值圖T,最后通過P和T計算出文本框[18-20]。具體步驟:①采集字符定位數(shù)據(jù)集,DBnet模型的訓(xùn)練依賴于大量的數(shù)據(jù),因此制作字符定位數(shù)據(jù)集是至關(guān)重要的一步。隨機選取掃描獲取的表格文檔圖像,并進(jìn)行標(biāo)簽的勾畫,對要識別的字符部分進(jìn)行標(biāo)注,使每一張圖像對應(yīng)一張字符標(biāo)注后標(biāo)簽。②基于深度學(xué)習(xí)算法,構(gòu)建字符提取和定位的DBnet模型。本步驟中,以Tensorflow平臺為開發(fā)環(huán)境,搭建DBnet模型,對字符定位數(shù)據(jù)集進(jìn)行學(xué)習(xí)和訓(xùn)練。③基于所采信的字符定位數(shù)據(jù)集,對DBnet模型進(jìn)行訓(xùn)練。④采用訓(xùn)練獲得的DBnet模型,對所述表格文檔圖像進(jìn)行字符定位。

        圖2 DBnet模型

        1.2.2 DSCC算法字線分離

        有向單連通鏈分為橫向單連通鏈和縱向單連通鏈2種,分別用于檢測橫線和豎線[11],對輸入圖像進(jìn)行有向單連通鏈的提取,得到大量的單連通鏈,通過判斷多個游程項是否組成一個序列,來判斷是否單連通鏈,及判斷表格線,進(jìn)而完成字線分離。具體步驟如圖3所示。

        圖3 DSCC算法步驟

        2 方法和流程

        本文采用深度學(xué)習(xí)DBnet模型,從字符本身出發(fā),自主學(xué)習(xí)和挖掘字符特征,結(jié)合字符多尺度特征,獲取更精準(zhǔn)的字符位置,實現(xiàn)表格字符的高精度定位。同時應(yīng)用DSCC算法進(jìn)行字線分離。按照規(guī)定的圖像命名規(guī)范,對數(shù)字化圖像進(jìn)行分割裁剪并用訓(xùn)練后的模型進(jìn)行識別并存儲,完成碎片化處理流程。采用同一碎片多用戶分組進(jìn)行統(tǒng)計,即通過眾籌式人工輸入對字符進(jìn)行錄入工作,完成數(shù)字化處理流程;根據(jù)批量處理,直至形成最終唯一的統(tǒng)計結(jié)果,完成了氣象紙質(zhì)表格資料的數(shù)字檔案工作。

        圖4是氣象紙質(zhì)表格資料快速數(shù)字化系統(tǒng)的方案流程圖,所述快速數(shù)字化系統(tǒng)涉及如下部分:表格文檔圖像獲取、圖像預(yù)處理、表格線提取、字符定位及提取、圖像切割、眾籌式錄入、校驗及輸出數(shù)字化結(jié)果。快速數(shù)字化系統(tǒng)流程步驟:①表格文檔圖像獲取,獲取所述氣象紙質(zhì)表格文檔的圖像,一般通過掃描獲取表格文檔圖像。②圖像預(yù)處理, 對表格文檔圖像進(jìn)行預(yù)處理,包括對獲取的表格文檔圖像進(jìn)行降噪、傾斜校正等處理。同時,本文采用中值濾波算法對表格文檔圖像降噪,獲得平滑的表格文檔圖像。③字符定位,基于深度學(xué)習(xí)的DBnet模型,實現(xiàn)表格字符的定位。④表格線提取,從完成了上述處理的表格文檔圖像中提取表格線。基于DSCC算法提取字線分離,并對其進(jìn)行優(yōu)化。⑤對完成了上述處理的表格文檔圖像進(jìn)行切割,并基于切割后的子圖像(圖像碎片)發(fā)起眾籌,對每個子圖像進(jìn)行文字錄入。⑥搭建可視化展示框架,基于數(shù)據(jù)中心相關(guān)標(biāo)準(zhǔn)和要求設(shè)置統(tǒng)一訪問接口,通過統(tǒng)一訪問接口為用戶提供數(shù)據(jù)獲取功能,包括表格文檔圖像路徑查詢、特殊符號圖標(biāo)查詢、各省紙質(zhì)表格文檔圖像匯總情況查詢等。⑦當(dāng)某一子圖像的眾籌錄入次數(shù)大于A次,且一致率大于a%時,確定該子圖像眾籌錄入通過檢驗,將錄入結(jié)果存儲于臨時文檔中。若校驗不通過,則返回錄入操作重新錄入。⑧遍歷所有子圖像且全部校驗通過時,將所有錄入結(jié)果發(fā)送給輸出文件,作為當(dāng)前氣象紙質(zhì)表格文檔的數(shù)字化處理結(jié)果。

        圖4 氣象紙質(zhì)表格資料快速數(shù)字化系統(tǒng)的方案流程

        3 系統(tǒng)設(shè)計

        根據(jù)上述的8個步驟進(jìn)行功能分類,最終將其封裝到3個部分中,分別為:碎片處理、登錄系統(tǒng)和分析庫。在應(yīng)用層,利用HTML5和CSS3的優(yōu)勢,同時兼容多類型、多版本瀏覽器訪問,具有跨平臺、易拓展、兼容性好等優(yōu)勢;在服務(wù)層,使用Rest和Web Service相結(jié)合的方式提供統(tǒng)一訪問接口;在數(shù)據(jù)層,基于Oracle數(shù)據(jù)庫存儲,提供數(shù)據(jù)獲取功能,包括圖片信息查詢、數(shù)字化圖像匯總情況查詢等,根據(jù)不同的應(yīng)用模式和開發(fā)運行環(huán)境,提供多種服務(wù)方式,以URI方式在頁面中直接查詢接口,數(shù)據(jù)實現(xiàn)前后臺交互使用,并以統(tǒng)一的JSON、數(shù)組格式封裝返回數(shù)據(jù),保障數(shù)據(jù)的標(biāo)準(zhǔn)化和兼容性。具體封裝和系統(tǒng)架構(gòu)如圖5、6所示。

        圖5 功能封裝

        3.1 碎片處理

        碎片處理涉及圖像預(yù)處理、表格檢測、圖像切割、圖像修正4個部分。其中:圖像預(yù)處理是指在表格文檔掃描成圖像的過程中,或多或少會出現(xiàn)一定角度的傾斜。這個問題會直接給單元格定位、字符定位等造成困難,因此對圖像應(yīng)用霍夫變換方法進(jìn)行圖像的傾斜校正。預(yù)處理部分還應(yīng)用了中值濾波算法對表格圖像降噪,獲得平滑的表格圖像。表格檢測采用DBnet字符定位技術(shù);圖像切割則是根據(jù)定位結(jié)果進(jìn)行圖像碎片化處理;圖像修正就是對于碎片后圖像中有表格線的地方,應(yīng)用DSCC算法進(jìn)行字線分離。技術(shù)路線及部分實現(xiàn)界面如圖7所示。

        圖7 技術(shù)路線及部分實現(xiàn)界面

        3.2 登錄系統(tǒng)及分析庫

        登錄系統(tǒng)及分析庫的流程與實現(xiàn)如圖8所示。從碎片處理的最后一個環(huán)節(jié)“待數(shù)字化圖片庫”開始,步驟如下:①設(shè)置氣象特定標(biāo)識庫,將已知的氣象符號以圖片的形式放入標(biāo)識庫,并將符號意義和圖片建立映射關(guān)系;基于關(guān)系型數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲,提供符號圖標(biāo)查詢獲取功能。②設(shè)計數(shù)據(jù)庫表,將分割的圖片按照圖片id、圖片名、圖片路徑等信息進(jìn)行入庫;同時對數(shù)字化校驗數(shù)據(jù)錄入進(jìn)行庫表設(shè)計。為使檢索效率更加高效,在存儲數(shù)據(jù)時,按照實際業(yè)務(wù)數(shù)據(jù)進(jìn)行分表分類存儲;同時編寫設(shè)計用戶校驗與統(tǒng)計的處理方法。③登陸系統(tǒng),在Linux服務(wù)器上搭建圖片訪問服務(wù)器,統(tǒng)一訪問接口,搭建可視化展示框架。④錄入結(jié)果對比及統(tǒng)計。

        圖8 登錄系統(tǒng)及分析庫的流程與實現(xiàn)界面

        4 試驗與結(jié)果

        快速數(shù)字化系統(tǒng)通過嵌入其他網(wǎng)站,以驗證碼的形式向系統(tǒng)用戶展現(xiàn),通過系統(tǒng)全部用戶的登錄行為實現(xiàn)“眾籌錄入”。本文中網(wǎng)站選取“全國數(shù)據(jù)資源在線匯交平臺”(http://idata.com/datasource/login.html,簡稱:匯交系統(tǒng))作為試驗平臺,對快速數(shù)字檔案系統(tǒng)進(jìn)行測試,并對數(shù)字檔案的正確性進(jìn)行測試,對時效性進(jìn)行預(yù)估判斷。

        4.1 輸出結(jié)果

        圖9是完成上述處理過程后的酸雨月報表,其中,第1個紅框截取原始掃描圖像;中間為數(shù)字檔案的錄入結(jié)果;第2個紅框?qū)υ紙D像碎片處理后的切片圖。通過快速數(shù)字化系統(tǒng),當(dāng)數(shù)據(jù)錄入次數(shù)和一致率達(dá)到設(shè)定閾值后,確認(rèn)錄入結(jié)果,該表快速數(shù)字化處理工作完成。

        圖9 數(shù)字檔案后的酸雨月報表

        4.2 正確性驗證

        由于在實際字符定位與字線分離的技術(shù)中,有可能有碎片不完整的情況產(chǎn)生,所以在登錄系統(tǒng)界面中,設(shè)計了圖片不完整的選項(圖10),以便用戶眾籌錄入中出現(xiàn)上述原因,作為反饋改進(jìn)機制。本測試中有效錄入數(shù)計算如下:

        圖10 圖片不完整的反饋機制

        有效錄入數(shù)=碎片總數(shù)-圖片不完整數(shù)

        (1)

        一錄正確率是指對圖片進(jìn)行錄入1次時的正確性,所以一錄正確率計算如下:

        (2)

        事實上,本系統(tǒng)在設(shè)計錄入次數(shù)的同時,還設(shè)計了多次錄入同一碎片的一致率,對同一碎片的多次錄入,錄入結(jié)果之間是一個驗證的過程,同時也是一個查錯的反饋機制,通過這種方式既可以提高正確率,也可以增加數(shù)字檔案工作的準(zhǔn)確性。

        通過試驗結(jié)果可以看出(表1):測試樣本為2056張碎片,除由于圖片碎片處理不完整導(dǎo)致43張圖片無法識別外,其余共有2013張有效錄入張數(shù);

        表1 測試結(jié)果

        其中,有2007張圖片正確錄入;一錄正確率為99.70%,滿足了數(shù)字化工作小于0.3%的出錯率。對不正確的圖片,再次發(fā)起眾籌錄入及正確性驗證;經(jīng)過多次錄入,正確性可達(dá)到100%。

        4.3 時效性預(yù)估

        表2是人工數(shù)字化工作在疫情前后與快速數(shù)字化系統(tǒng)在完成時效上的對比分析。樣本選自酸雨數(shù)字檔案錄入任務(wù),共計需要完成502320頁的酸雨紙質(zhì)表格圖像資料。

        表2 人工和系統(tǒng)完成數(shù)字檔案工作的對比

        人工數(shù)字化公司需要對掃描后的圖像資料完成手工錄入;于2019年10月啟動工作任務(wù),當(dāng)時預(yù)計9個月工期,但是之后由于疫情原因及防控要求,更改了原定工作任務(wù)安排由“全部錄入”改為“錄入其中30萬頁”,所以該項工作于2021年7月結(jié)束。

        本測試以快速數(shù)字化系統(tǒng)正式運行預(yù)估,快速數(shù)字化系統(tǒng)和人工錄入工作一樣,也是對502320頁完成錄入工作。首先要進(jìn)行碎片處理,處理后約60278400張碎片,將其導(dǎo)入?yún)R交系統(tǒng)眾籌錄入;快速數(shù)字化搭載的匯交系統(tǒng),用戶涵蓋全國31個省,涉及國家級、省級填報人員2464人,其中,基層臺站為7×24 h倒班值班,若按照2423人次測算,令網(wǎng)站登錄時效為10 min,則平均每周預(yù)計錄入碎片為2423人×6次×24 h×7 d+41人×6次×8 h×5 d=2452224條,全部完成耗時為60278400÷2452224≈24.6周≈7個月。時效遠(yuǎn)高于人工數(shù)字化處理工作。

        4.4 安全性

        氣象數(shù)據(jù)安全是氣象網(wǎng)絡(luò)安全的重要組成部分,關(guān)于本方案的安全性問題,也做了相應(yīng)的研究工作,結(jié)論認(rèn)為:方案采用圖像最小碎片化、待錄入圖像混淆和調(diào)用源安全審計3種方法,可以有效保障氣象圖像數(shù)據(jù)資料的安全性。

        雖然本方案將碎片化處理后的圖像數(shù)據(jù)提供給參與眾籌識別的網(wǎng)上公眾,但參與眾籌識別者欲借助圖像碎片拼接合成獲取原始信息,卻存在巨大的困難。

        首先,本方案的圖像最小碎片化方法將待處理圖像數(shù)據(jù)進(jìn)行最小化切分,以本方案中酸雨數(shù)字化為例,約502320頁資料(每頁120個碎片圖像)全部碎片化后形成近60278400張碎片,而還原1張原始表需要的拼接方案數(shù)如下所示:

        (3)

        其中,n為全部碎片后形成的碎片張數(shù),r為每頁資料碎片后的碎片張數(shù)。

        因此,通過圖像碎片拼接還原來得到原始表格中的完整信息,需要巨大的計算處理能力,以目前計算機體系架構(gòu)所形成的計算處理能力而言,這是一個天文數(shù)字,幾乎不可能完成。故圖像最小碎片化方法保障了碎片化后的圖像數(shù)據(jù)已經(jīng)喪失其實際數(shù)據(jù)分析意義和價值。同時,待錄入圖像混淆方法將切分后的多年、多站點碎片化圖像數(shù)據(jù)進(jìn)行隨機編碼和混淆,破壞原有碎片化數(shù)據(jù)間的順序和關(guān)聯(lián)性。這也進(jìn)一步增加了拼接還原的難度。最后,調(diào)用源安全審計方法將判斷調(diào)用方的IP源地址等信息,對可疑的調(diào)用地址進(jìn)行自動封堵和服務(wù)拒絕??蓪π袨椴卉壵哌M(jìn)行主動防御。綜上,本方案的氣象數(shù)據(jù)安全問題是可以保證的。

        5 結(jié)論與討論

        本文基于互聯(lián)網(wǎng)思維模式,使用人工智能技術(shù)手段,提出了一種針對氣象紙質(zhì)表格文檔的快速數(shù)字化方法及系統(tǒng);利用分段式處理的方法,解放原有手工錄入作業(yè),最終完成數(shù)字檔案工作。

        經(jīng)酸雨紙質(zhì)表格圖像資料代入系統(tǒng)驗證表明:①快速數(shù)字化系統(tǒng)實驗樣本的一錄正確性,正確率大于99.7%;達(dá)到數(shù)字化工作容錯率0.3%的標(biāo)準(zhǔn);②快速數(shù)字化系統(tǒng)實驗樣本的時效性,約為目前人工處理時長的1/3;同時比疫情前人工處理時效也提高了22.2%。綜上,該系統(tǒng)在確保了數(shù)據(jù)正確性的同時;有效提高了工作效率,實現(xiàn)了氣象紙質(zhì)表格資料快速形成數(shù)字檔案的目標(biāo);特別在新冠疫情常態(tài)化工作場景下,降低了傳統(tǒng)數(shù)字化的人工聚集風(fēng)險,為數(shù)字檔案工作提供了新的思路。

        本文涉及的方法及系統(tǒng)在正確性和時效性上還有可改進(jìn)的空間。①錄入正確性方面:在測試中,通過對“圖片不完整”情況的分析,認(rèn)為DBnet算法對不規(guī)則表格及字線的提取仍然存在一些問題,還需對剪切圖片不完整的完整數(shù)字化圖像再訓(xùn)練,并對模型參數(shù)進(jìn)行調(diào)整和完善;②錄入時效性方面:本系統(tǒng)時效性的改進(jìn)主要依賴網(wǎng)站的訪問量,本文以“匯交系統(tǒng)”進(jìn)行測算,若以月均訪問量大于1500萬次的中國氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn)為例測算,預(yù)計4.1個月就完成本研究工作;若各網(wǎng)站多平臺并行,時效還可以再提高。

        97人妻熟女成人免费视频| 国产免费人成视频在线观看 | 亚洲精品98中文字幕| 美女不带套日出白浆免费视频| 毛茸茸的中国女bbw| 狠狠久久亚洲欧美专区| 久久亚洲道色宗和久久| 亚洲国产成人精品91久久久| 日韩女同一区二区三区久久| 国产三a级三级日产三级野外| 国产精品久人妻精品老妇| 免费a级毛片18以上观看精品| 亚洲av无码潮喷在线观看| 麻豆av传媒蜜桃天美传媒| 完整在线视频免费黄片| 中文字幕色婷婷在线视频| 女同恋性吃奶舌吻完整版| 久久久久无码国产精品一区| 国产乱沈阳女人高潮乱叫老| 天天插视频| 午夜视频在线观看国产| 中文字幕av伊人av无码av| 一夲道无码人妻精品一区二区| 长腿校花无力呻吟娇喘的视频| 亚洲www视频| 国产精品一区久久综合| 天天躁夜夜躁狠狠躁2021| 国产自精品| 国产盗摄XXXX视频XXXX| 国产精品日本中文在线| 国内永久福利在线视频图片| 亚洲中文字幕无码一区| 国产美女精品AⅤ在线老女人| 亚洲不卡在线免费视频| 性无码免费一区二区三区在线| 无码精品a∨在线观看十八禁| 中文字幕少妇AV| 国内精品少妇久久精品| 亚洲女优中文字幕在线观看| 久久不见久久见免费影院| 少妇无码一区二区三区|