亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖表示和匹配的表單定位與提取

        2019-04-10 08:39:00譚婷呂淑靜呂岳
        智能系統(tǒng)學(xué)報 2019年2期
        關(guān)鍵詞:待處理表單結(jié)點(diǎn)

        譚婷,呂淑靜,呂岳,

        (1. 華東師范大學(xué) 上海多維度信息處理重點(diǎn)實(shí)驗(yàn)室,上海 200062; 2. 中國郵政集團(tuán)公司上海研究院 圖像分析與智能系統(tǒng)聯(lián)合實(shí)驗(yàn)室,上海 200062)

        表單作為重要的信息載體在實(shí)際生活和工作中有著廣泛的運(yùn)用,表單中某些特定字段、圖案、符號等都有可能包含用戶感興趣的重要信息,如訂貨單中的訂單號、發(fā)票的具體項(xiàng)目及金額、快遞運(yùn)單中的收貨地址和手機(jī)號碼等。人工錄入的方式采集數(shù)據(jù),費(fèi)時費(fèi)力,而且容易出錯,因此利用計算機(jī)對表單圖像進(jìn)行自動化信息提取有著強(qiáng)烈的應(yīng)用需求,可以大幅度降低工作量,提升工作效率。

        表單自動化處理的主要過程包括表單圖像采集、表單定位、信息區(qū)域提取、識別等[1]。其中表單定位和提取是表單識別前重要的預(yù)處理過程,預(yù)先獲取表單關(guān)鍵信息區(qū)域有利于更方便、準(zhǔn)確地識別表單填寫的內(nèi)容信息。本文方法主要工作是對物流快遞表單中與用戶信息相關(guān)的文本區(qū)域進(jìn)行定位和提取,如快遞表單上收/寄件人姓名、電話號碼、地址等信息。該處理過程得到文本圖像塊可用于后續(xù)識別工作的輸入數(shù)據(jù),建立字符圖像數(shù)據(jù)庫,圖像特征學(xué)習(xí)的訓(xùn)練樣本,具有廣闊的應(yīng)用前景。

        表單提取過程中常見的方法是檢測表單中的直線,將其作為表單提取的參考位置[2-3]?;谥本€的檢測法所處理的對象更傾向于類似于表格類結(jié)構(gòu)化的表單,但對缺乏框線和非固定形式的非結(jié)構(gòu)化表單的處理存在明顯的不足。

        另一類表單定位與提取的方法是采用對表單的布局或表單元素進(jìn)行描述的方法,如建立搜索分類樹[4]或設(shè)定提取信息的關(guān)聯(lián)指令[5]。這種對表單的布局或表單元素進(jìn)行描述的方法缺乏靈活性。

        表單圖像具有特定的布局方式,因此采用參考模板來提取表單也是一種重要的研究方法,如使用空白表單模板與待匹配表單基準(zhǔn)點(diǎn)對齊[6-7]或使用傅里葉-梅林變換重定向表單[8]的方向。Cesarini[9]提出通過屬性圖結(jié)點(diǎn)的具體數(shù)值和圖的模型特征實(shí)現(xiàn)剛性配準(zhǔn),建立待處理圖和參考圖的對應(yīng)。

        以往的模板匹配方法依賴于對基準(zhǔn)點(diǎn)的嚴(yán)格要求和預(yù)先約定,而基于非層次有向關(guān)系屬性圖[9]方法在尋找對應(yīng)區(qū)域位置時,難以避免預(yù)先識別關(guān)鍵字。本文將模板匹配和圖匹配的方法相結(jié)合,提出一種基于圖表示和匹配的表單定位與提取方法。

        圖匹配方法在計算機(jī)視覺領(lǐng)域有著廣泛的應(yīng)用,如特征點(diǎn)對應(yīng)[10-11]、形狀匹配[12]、目標(biāo)檢測和識別[13-15]、視頻分析[16],圖像的視覺特征在圖匹配過程中考慮兩圖之間最小結(jié)構(gòu)失真以實(shí)現(xiàn)對應(yīng)。

        本文方法在處理多個類別的表單圖像時,需要預(yù)先選取對應(yīng)類別表單圖像中已有的圖案區(qū)域設(shè)計匹配待處理表單的參考表單模板圖,該過程避免了對字符的識別,簡化了分類提取的過程。另外,圖匹配方法適用于混雜場景下目標(biāo)檢測和異常點(diǎn)判別,結(jié)合這一優(yōu)勢,在定位表單時采用圖匹配的方法對定位的正確性進(jìn)行驗(yàn)證。

        1 表單圖表示

        1.1 參考表單的圖表示

        1.1.1 參考表單關(guān)鍵區(qū)域的選取

        本文在建立參考表單圖表示時,由用戶手動選擇能反映表單特征的關(guān)鍵區(qū)域,比如具有可區(qū)分特征的表單公司標(biāo)志、特定圖案、字符塊等。由于表單圖像上字符較多,背景較為復(fù)雜,后續(xù)圖匹配過程需要足夠多的關(guān)鍵區(qū)域?qū)崿F(xiàn)配準(zhǔn),同時匹配計算量適度,建議選取5~8個圖案完整、清晰、大小適中的圖像塊作為關(guān)鍵區(qū)域,圖1給出一個從郵政快遞包裹面單上選取關(guān)鍵區(qū)域的例子。

        圖1 參考表單關(guān)鍵區(qū)域選取樣例Fig.1 An example for key area selection of reference form

        1.1.2 關(guān)鍵區(qū)域的圖表示

        以關(guān)鍵區(qū)域?yàn)閳D結(jié)點(diǎn),建立如圖2(a)所示參考表單的全連接無向圖表示。將該無向圖定義為q=(V,E;o,φ),其中V為圖結(jié)點(diǎn),對應(yīng)表單的關(guān)鍵區(qū)域。E為圖的邊,對應(yīng)結(jié)點(diǎn)間的相互連接關(guān)系。ω表示每個結(jié)點(diǎn)v的結(jié)點(diǎn)屬性,φ表示每個結(jié)點(diǎn)v在圖q中的結(jié)構(gòu)屬性。圖2(b)為圖2(a)中結(jié)點(diǎn)v7的結(jié)構(gòu)屬性表示。

        圖2 參考表單圖樣例Fig.2 An example for graph of reference form

        1)結(jié)點(diǎn)屬性 o。SIFT對圖像局部特征的描述具有良好旋轉(zhuǎn)和尺度不變性,對光照有較強(qiáng)的魯棒性。采用SIFT來描述圖的結(jié)點(diǎn)屬性表示為

        式中:fij為128維的SIFT特征向量,表示vi中第j個特征點(diǎn);M為正整數(shù),表示結(jié)點(diǎn)vi的特征維度。

        2)結(jié)構(gòu)屬性 φ 。 φ表示結(jié)點(diǎn)vi結(jié)構(gòu)屬性,它包括兩個子屬性:結(jié)點(diǎn)權(quán)重屬性 ω 和夾角屬性 θ,結(jié)點(diǎn)vi的結(jié)構(gòu)屬性表示為 φi={ωi,θi}。

        權(quán)重屬性 ωi。該屬性表示以結(jié)點(diǎn)vi為固定端點(diǎn),vi與其所有鄰接點(diǎn)vj連接邊eij的長度的向量集合。該屬性表示如下:

        如v7射線簇屬性為{e71, e72, e73, e74, e75, e76,e78}。

        夾 角 屬 性 θi。 α(eij,eik)表 示 圖 中 以 結(jié) 點(diǎn)vi為頂點(diǎn),eij和eik分別為與鄰接點(diǎn)vj和vk連接邊緣所組成的夾角,結(jié)點(diǎn)vi所具有的夾角屬性表示為以vi為頂點(diǎn)的夾角向量集合 θi,表示如下:

        根據(jù)上述描述, 即為參考表單關(guān)鍵區(qū)域的圖表示。

        q=(V,E;o,φ)

        1.2 待處理表單的圖表示

        1.2.1 待處理表單候選關(guān)鍵區(qū)域的選取

        本文采用選擇性搜索方法[17]將待處理表單分割得到許多圖像小塊,這些圖像塊中包含與參考表單關(guān)鍵區(qū)域?qū)?yīng)的區(qū)域或部分的區(qū)域。如圖3所示,該算法使得灰度相似且位置相近的像素合并,然后根據(jù)圖像塊的大小、灰度梯度實(shí)現(xiàn)圖像塊粗略過濾,選擇圖案、字符相對較集中的區(qū)域作為待處理表單圖像的候選關(guān)鍵區(qū)域。

        圖3 待處理表單候選關(guān)鍵區(qū)域選取樣例Fig.3 An example for candidate key area selection of test form

        1.2.2 候選結(jié)點(diǎn)篩選

        為提高匹配參考表單圖的效率,比較候選關(guān)鍵區(qū)域與關(guān)鍵區(qū)域的結(jié)點(diǎn)屬性ω相似度,篩選出相似度最高的前3個圖像塊作為圖匹配的候選結(jié)點(diǎn),建立關(guān)鍵區(qū)域與候選關(guān)鍵區(qū)域的對應(yīng)關(guān)系,去除大量相似度過小的候選關(guān)鍵區(qū)域,降低匹配復(fù)雜度。

        1.2.3 候選關(guān)鍵區(qū)域圖表示

        對候選結(jié)點(diǎn)參照參考表單圖建立的過程,建立如圖4(b)所示待處理表單的全連接圖G。與參考表單圖全連接不同的是,對應(yīng)同一關(guān)鍵區(qū)域的3個候選關(guān)鍵區(qū)域間不連接。隨后,對圖G中標(biāo)簽互異的候選子圖g進(jìn)行結(jié)點(diǎn)和結(jié)構(gòu)屬性描述。

        圖4 候選同構(gòu)圖Fig.4 Candidate isomorphic graph

        2 表單圖匹配

        由于圖像分割策略局限性,分割的候選關(guān)鍵區(qū)域可能出現(xiàn)欠分割和過分割的問題。另外,對應(yīng)于關(guān)鍵區(qū)域的位置出現(xiàn)局部遮擋,容易得到錯誤的候選關(guān)鍵區(qū)域。為此,通過對參考表單與待處理表單進(jìn)行圖匹配,驗(yàn)證和確認(rèn)關(guān)鍵區(qū)域是否對應(yīng)準(zhǔn)確。

        2.1 候選同構(gòu)圖

        給定 G=(V,E)和 G1=(V1,E1)是兩個圖,假設(shè)存在雙射 ? :V→V1使得對所有x,y∈V均有xy∈E等價于 ? (x)?(y)∈ E1,則稱G和G1是同構(gòu)的。假設(shè)參考表單圖表示為 q =(Vq,Eq;oq,φq),待處理表單圖表示為 G =(VG,EG;oG,φG),圖g與圖q中對應(yīng)的候選結(jié)點(diǎn)賦予與q中相同的標(biāo)簽,如圖4(a)中的{a}對應(yīng)于圖4(b)中的{a1,a2,a3}。圖G中結(jié)點(diǎn)標(biāo)簽互異的圖g與圖q,恰好滿足 ?這一映射關(guān)系,故稱圖g為圖q的同構(gòu)圖。因此,圖像匹配過程為從圖G中尋找一個與圖q最相似的同構(gòu)圖g,或?qū)ふ遗c子圖qs最相似的同構(gòu)子圖gs,是一個圖匹配的問題。通過度量同構(gòu)圖g與圖q的相似性,找到相似差異最小的同構(gòu)圖gm或同構(gòu)子圖gsm,作為與圖q最佳匹配圖。如圖4所示,按照同構(gòu)映射 ? 的定義,在圖4(b)所示圖G中,圖4(a)所示圖q:{a,b,c,d}對應(yīng)的候選同構(gòu)圖有 g1:{a1,b1,c1,d1}, g2:{a1, b1, a, d2},···,g64: {a3,b3,c3,d3}。圖匹配目的即為在圖4(b)所示的圖G中找到最佳匹配的候選同構(gòu)圖gm:{a2,b1,c2,d2}。 ?表示篩選與對應(yīng)關(guān)鍵區(qū)域最相似的前3個候選關(guān)鍵區(qū)域,這些候選區(qū)域中,可能包含了紋理相似,但在表單上位置不同的圖案區(qū)域,從而導(dǎo)致候選圖中對應(yīng)的結(jié)點(diǎn)出現(xiàn)較大幅度的位置偏差,如圖4(b)中b2和d2。因此,需要進(jìn)一步度量圖結(jié)構(gòu)的相似度,尋找圖G中與參考表單圖q最相似的同構(gòu)圖,如gm,或去除誤匹配結(jié)點(diǎn)的最相似的同構(gòu)子圖,如果d2為誤匹配結(jié)點(diǎn),則目標(biāo)匹配為同構(gòu)子圖 gsm:{a2,b1,c2}。

        2.2 距離度量

        將表單進(jìn)行圖表示和屬性定義,然后通過度量G中同構(gòu)圖g和q間的屬性差異,衡量兩圖間的距離,距離越小則表示子圖g和q的結(jié)構(gòu)越相似,根據(jù)屬性的差異,確定最相似的同構(gòu)圖gm或同構(gòu)子圖gsm??梢詮囊韵聨讉€方面度量圖的差異。

        1)結(jié)點(diǎn)相似度

        對g和q中結(jié)點(diǎn) Vg和 V 的SIFT特征點(diǎn)采取最近鄰匹配進(jìn)而得到匹配特征點(diǎn)對的F-Score值F1(oi),則圖結(jié)點(diǎn)間的相似距離定義為

        2)結(jié)構(gòu)相似度

        向量余弦相似度來表示:

        式中 dθ(i)∈ [0,1]。

        式中:EX、DX分別為變量X的均值和方差。則該圖的權(quán)重相似距離為

        式中 dω(i)∈ [0,1]。

        同構(gòu)圖g和圖q對應(yīng)結(jié)點(diǎn)的相似度定義為

        在進(jìn)行參考表單q與g的圖匹配時,考慮到g與q對應(yīng)結(jié)點(diǎn)缺失或選擇錯誤的情況,若g與q對應(yīng)結(jié)點(diǎn)紋理極為相似,但實(shí)際位置并不匹配,較高的紋理相似度會對圖的相似度有一定程度的干擾;同樣的,當(dāng)夾角、射線簇邊緣相似度過高,同樣會影響該結(jié)點(diǎn)的整體相似度的評判。故需對當(dāng)前匹配的g中的結(jié)點(diǎn)剪枝,對結(jié)點(diǎn)vi中 do(i)、dθ(i)、 dω(i)設(shè)置一定的閾值,不符合條件的vi設(shè)值為離群點(diǎn),同時將離群點(diǎn)納入相似度量的整體評價中,即對g和q的子圖進(jìn)行匹配,尋找一個與q最相似的同構(gòu)子圖gsm。該離群點(diǎn)相似度度量如下:

        離群點(diǎn)相似度,用經(jīng)剪枝過后的離群點(diǎn)數(shù)量(outlier Number,ON)表示:

        式中: dNum∈[0,1], Nq表 示圖q中結(jié)點(diǎn) V 的數(shù)量,圖g和圖q的相似距離表示為

        式中:ci∈{0,1},0表示離群點(diǎn),1表示符合閾值要求的結(jié)點(diǎn), d (q,g)值越小則兩圖的相似度越大;故在G中,將與q相似距離最小的gm或gsm作為G與q的最終匹配結(jié)果:

        通過圖相似性度量,得到與參考表單圖最佳匹配的同構(gòu)圖gm或同構(gòu)子圖gsm,圖5給出了一個待處理熱敏表單最佳匹配結(jié)果。

        圖5 熱敏表單圖匹配結(jié)果Fig.5 Graph matching result for free form

        2.3 待處理表單定位

        如圖5所示,參考表單與待處理表單的關(guān)鍵區(qū)域僅實(shí)現(xiàn)了部分對應(yīng),且匹配出的圖像塊不完整或輪廓不吻合,這是由于圖像分割算法對復(fù)雜的字符圖案分割不準(zhǔn)確所致,這將直接導(dǎo)致表單提取的位置不準(zhǔn)確。因此,本文在提取后處理過程中對匹配關(guān)鍵區(qū)域的位置進(jìn)行修正,即迭代建立參考表單與待處理表單的位置映射函數(shù),以此提高表單提取的準(zhǔn)確性。通過映射函數(shù),實(shí)現(xiàn)待處理表單上任意感興趣區(qū)域的定位,從而完成表單信息的提取。

        3 實(shí)驗(yàn)及分析

        3.1 數(shù)據(jù)集

        對快遞包裹分揀機(jī)中采集的兩類快遞表單圖像,建立多聯(lián)表單(table like form,TF)和熱敏表單(free form,F(xiàn)F)兩類實(shí)驗(yàn)數(shù)據(jù)集,TF和FF共計1 477幅灰度快遞表單圖像。這些表單圖像的分辨率偏轉(zhuǎn)角度不同,且未進(jìn)行歸一化處理。其中TF為表格類圖像,該類表單由制表單位統(tǒng)一印刷,表單內(nèi)容依據(jù)表格線布局,包括中國郵政國內(nèi)快遞小包郵件詳情單(C-XB)和EMS國內(nèi)標(biāo)準(zhǔn)快遞(EMS-MULT),這些圖像的字符和圖案較為清晰,其中有部分圖像具有褶皺、模糊、扭曲或缺損、遮擋或字跡重疊等問題。FF數(shù)據(jù)集為非表格類表單圖像,該類表單常見于物流集散點(diǎn)、商家網(wǎng)點(diǎn)自行打印,包括EMS標(biāo)準(zhǔn)快遞(EMS-FLAT)和韻達(dá)快遞表單(YUNDA),除存在上述TF數(shù)據(jù)集中特點(diǎn)以外,該數(shù)據(jù)集中表單印刷墨跡清晰度不一。另外,為驗(yàn)證算法在光照、尺度、旋轉(zhuǎn)變換等情況下具有良好的魯棒性,本實(shí)驗(yàn)將TF、FF數(shù)據(jù)集記為o-i,對o-i進(jìn)行了旋轉(zhuǎn)、縮放、亮度調(diào)節(jié)等擴(kuò)展數(shù)據(jù)集。旋轉(zhuǎn)擴(kuò)展是對o-i分別旋轉(zhuǎn)45°、90°、135°、180°,新增 r-1、r-2、r-3、r-4 擴(kuò)展數(shù)據(jù)集。縮放擴(kuò)展是對o-i縮擴(kuò)放至原表單圖像的75%、50%、125%、150%,新增s-1、s-2、e-1、e-2擴(kuò)展數(shù)據(jù)集。亮度調(diào)節(jié)擴(kuò)展是對o-i的亮度提高至原來的125%、150%和降低至原來的75%、50%,新增b-1、b-2、d-1、d-2擴(kuò)展數(shù)據(jù)集。經(jīng)過數(shù)據(jù)集擴(kuò)充,本文實(shí)驗(yàn)的表單圖像共計19 201幅。

        3.2 評價標(biāo)準(zhǔn)

        本文通過表單圖匹配的置信度和表單相關(guān)信息的提取結(jié)果準(zhǔn)確率來分析算法的性能。

        首先,采用表單圖匹配的置信度來衡量根據(jù)圖匹配所建立的參考表單圖像與待處理圖像的映射是否可靠,該置信度由重疊率(average overlap,AO)和平均準(zhǔn)確率 (mean average precision,MAP)來評定。如果映射的置信度高,那么表單信息提取的準(zhǔn)確性也會提高。重疊率定義為映射過程中關(guān)鍵區(qū)域重合度比例的均值:

        式中:nl為關(guān)鍵區(qū)域的數(shù)量,為參考表單關(guān)鍵區(qū)域的位置,為待處理表單圖像上關(guān)鍵區(qū)域的定位結(jié)果, o verlap(·)表示區(qū)域的重疊率。

        MAP是當(dāng)重疊率AO高于某一閾值T時,則待處理表單的匹配位置為準(zhǔn)確位置,故MAP表示為

        式中:num(AO≥ T)表示閾值為T時準(zhǔn)確定位的圖像數(shù)量,I為測試圖像的數(shù)量。

        此外,采用標(biāo)注工具LableImg標(biāo)記待處理表單中提取區(qū)域真值,計算真值與檢測目標(biāo)交疊率(intersection-over-union,IOU),準(zhǔn)確表示為

        其中,IOU DetectionResult和GroundTruth表示信息提取區(qū)域檢測位置和工具標(biāo)注區(qū)域真值位置。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        通過實(shí)驗(yàn)對TF、FF數(shù)據(jù)集分別計算了閾值T為0.5、0.6、0.7、0.8、0.9時圖像的平均準(zhǔn)確率和圖像的平均重疊率(mean average overlap,MAO)。當(dāng)T=0.8時,表示驗(yàn)證過程中參考表單和待處理表單中關(guān)鍵區(qū)域相互映射的重疊區(qū)域高于80%,實(shí)驗(yàn)表明:此時用于定位的映射關(guān)系相對準(zhǔn)確,能實(shí)現(xiàn)大部分圖像的準(zhǔn)確定位和提取。因此本文實(shí)驗(yàn)將該閾值對應(yīng)的MAP作為算法準(zhǔn)確定位的置信度。

        表1是TF、FF數(shù)據(jù)集的平均準(zhǔn)確率和重疊率的實(shí)驗(yàn)統(tǒng)計情況,其中MAO反映了樣本中通過映射關(guān)鍵區(qū)域的整體重合情況。數(shù)據(jù)顯示:TF、FF中原圖像數(shù)據(jù)集和擴(kuò)展數(shù)據(jù)集的MAO主要分別在90%以上和80%以上,說明根據(jù)圖匹配建立的關(guān)鍵區(qū)域映射關(guān)系,能較好的實(shí)現(xiàn)待處理表單與參考表單上關(guān)鍵區(qū)域的位置對應(yīng),因此可以通過這種映射進(jìn)行表單的提取。TF、FF數(shù)據(jù)集的MAP大部分在87%~98%和75%~86%,這表明本文算法對多聯(lián)表單和熱敏表單具有良好的定位準(zhǔn)確率。圖6中,當(dāng)T=0.9時,F(xiàn)F數(shù)據(jù)集的MAP相對TF數(shù)據(jù)集低約20%~30%,波動幅度較大,原因有以下兩點(diǎn):1)TF數(shù)據(jù)集中,關(guān)鍵區(qū)域均為表單出廠印制圖案和字符,同類表單的差異較小,F(xiàn)F數(shù)據(jù)集表單印制要求不統(tǒng)一,故而差異較大;2)FF數(shù)據(jù)集為非表格類表單,其內(nèi)容的自由度較大,選取關(guān)鍵區(qū)域的難度較大,可參照的關(guān)鍵區(qū)域少,因此建立表單映射時嚴(yán)格匹配的特征點(diǎn)對較少,因此對閾值高的AO的MAP值相對較低。圖6,TF中原圖像數(shù)據(jù)集在進(jìn)行旋轉(zhuǎn)、亮度調(diào)節(jié)變換后,平均準(zhǔn)確率的變化趨于重合, FF數(shù)據(jù)集的平均準(zhǔn)確率僅有小幅度范圍內(nèi)的波動。因此,該表單提取算法對旋轉(zhuǎn)和亮度變化的圖像具有良好的穩(wěn)定性。另外,圖6中圖像縮至75%,T=0.8時,TF、FF數(shù)據(jù)集的分別為79.83%、70.11%,與原圖像數(shù)據(jù)集o-i相比MAP分別下降了48.89%、19.54%, TF數(shù)據(jù)集s-2與原圖數(shù)據(jù)集o-i和其他擴(kuò)展數(shù)據(jù)集偏離幅度較大,F(xiàn)F數(shù)據(jù)集也有明顯的降低。出現(xiàn)這種變化的原因有:圖像縮小比率過大時,表單圖像上關(guān)鍵區(qū)域塊紋理信息損失較多,這將導(dǎo)致圖匹配時可參考的正確位置少,同時過度縮小的圖像使得關(guān)鍵區(qū)域中對應(yīng)的特征點(diǎn)位置出現(xiàn)偏差,建立表單的映射關(guān)系缺乏準(zhǔn)確的參考點(diǎn),則重合度偏差大,準(zhǔn)確率下降,定位不準(zhǔn)確??傮w來說,算法對旋轉(zhuǎn)、亮度調(diào)節(jié)、放大變換、小幅度縮小變換的表單圖像的提取能保持良好的穩(wěn)定性。

        表1 多聯(lián)表單和熱敏表單的平均重疊率和平均準(zhǔn)確率Table1 Mean average overlap (MAO) and mean Average Precision (MAP) of TF and FF datasets

        圖6 多聯(lián)表單和熱敏表單平均準(zhǔn)確率Fig.6 Mean average precision (MAP) of TF and FF

        本文實(shí)驗(yàn)通過計算提取結(jié)果與LableImg工具標(biāo)記真值交疊率來評估定位的準(zhǔn)確性。常見目標(biāo)檢測系統(tǒng)中常將0.8交疊率值作為正確檢測閾值,本文在評估提取區(qū)域的準(zhǔn)確率和平均交疊率時,這兩組值變化趨勢與映射置信度變化大致相似。因此,僅在表2中列出兩類圖像評估結(jié)果的平均情況。對比表1和表2,說明圖匹配結(jié)果越準(zhǔn)確映射變換置信度越高,定位和提取的準(zhǔn)確率越高。當(dāng)IOU閾值為0.8時,多聯(lián)表單和熱敏表單提取準(zhǔn)確率分別為97.41%和83.93%,說明本文算法對這兩類表單具有良好的定位與提取效果。

        通過圖匹配結(jié)果對待處理表單的候選關(guān)鍵位置進(jìn)行修正,使參考表單到待處理表單的位置映射關(guān)系更加準(zhǔn)確。通過對上述圖匹配和映射后置信度的評估,驗(yàn)證了算法能對表單圖像進(jìn)行良好的定位。據(jù)此,圖7~10所示為表單圖像中用戶感興趣關(guān)鍵區(qū)域的定位與提取結(jié)果,其中圖7和圖8為TF類表單圖像,圖9和圖10為FF類表單圖像。圖7~10中(b)圖的提取結(jié)果自上往下分別表示提取的收貨人地址、姓名、手機(jī)號。上述4組表單圖像具有不同分辨率、亮度、方向偏轉(zhuǎn)、面單褶皺和形變的差異,定位結(jié)果說明本文算法能適應(yīng)不同圖像質(zhì)量差異和不同類別的圖像。由于保證了準(zhǔn)確定位的置信度,分割得到的表單區(qū)域的字符較為完整、清晰、準(zhǔn)確。此外,對表單分割得到的圖像塊進(jìn)行簡單的字符連通域合并,得到圖7中4組表單相關(guān)信息的提取結(jié)果。

        表2 多聯(lián)表單和熱敏表單的提取準(zhǔn)確率Table2 Extraction precision of TF and FF datasets

        本文方法與文獻(xiàn)[10, 13-14]中方法類似,均為采用模板匹配的方法解決表單填寫內(nèi)容提取的問題,該方法的關(guān)鍵問題是實(shí)現(xiàn)參考表單和待處理圖像配準(zhǔn)。文獻(xiàn)[10, 13]中采用傅里葉-梅林算法以表單局部區(qū)域或全局圖像為配準(zhǔn)目標(biāo),能實(shí)現(xiàn)不同方向的表單矯正,但該方法難以適應(yīng)參考表單和待處理表單不同尺度的情況,不能準(zhǔn)確找到表單圖案的對應(yīng)位置。此外文獻(xiàn)[13]提取文本字符時的像素投票策略對圖像噪聲較為敏感,處理分揀機(jī)中現(xiàn)實(shí)采集到的污損和局部遮擋難以達(dá)到理想的提取效果。文獻(xiàn)[14]中預(yù)先設(shè)定表單配準(zhǔn)起始和終止參考點(diǎn),作為表單方向校準(zhǔn)的基準(zhǔn)點(diǎn),該方法更適用于具有相同分辨率、亮度和對比度的掃描圖像,另外,當(dāng)基準(zhǔn)點(diǎn)出現(xiàn)異物遮擋或缺損的情況難以靈活處理。本文方法采用表單圖匹配的方法以解決上述處理過程中存在的不足,根據(jù)不同表單已有的圖案選取多個參考關(guān)鍵區(qū)域構(gòu)建圖,采用圖匹配的配準(zhǔn)方式以解決單一參考基準(zhǔn)點(diǎn)魯棒性差的問題。此外圖匹配配準(zhǔn)方式能更好的適應(yīng)不同尺度、方向、分辨率、光照條件的圖像,以及基準(zhǔn)位置局部遮擋的問題。

        圖7 C-XB表單定位和提取結(jié)果Fig.7 Results for C-XB form Location and extraction

        圖8 EMS-MULT表單定位和提取結(jié)果Fig.8 Results for EMS-MULT form Location and extraction

        圖9 YUNDA表單定位和提取結(jié)果Fig.9 Results for YUNDA form Location and extraction

        圖10 EMS-FLAT表單定位和提取結(jié)果Fig.10 Results for EMS-FLAT form Location and extraction

        4 結(jié)束語

        本文提出了一種基于圖表示和匹配的表單定位與提取方法,實(shí)驗(yàn)表明:本文方法適用于局部遮擋和不同類別、分辨率、方向、旋轉(zhuǎn)、光照條件下的表單圖像的處理,是一種通用的表單圖像準(zhǔn)確定位和相關(guān)區(qū)域的提取方法。雖然本文方法實(shí)現(xiàn)了大部分表單圖像相關(guān)信息的準(zhǔn)確定位和提取,但在縮小和單面形變幅度較大的圖像上表現(xiàn)效果不佳,下一步將考慮采用不同方法建立表單關(guān)鍵區(qū)域的映射,以適應(yīng)縮小比例大和較大范圍形變圖像的處理,同時,采用更為準(zhǔn)確的后處理方法,去除無關(guān)的空白區(qū)域,使表單相關(guān)信息的提取精確到完整的字符串。

        猜你喜歡
        待處理表單結(jié)點(diǎn)
        電子表單系統(tǒng)應(yīng)用分析
        華東科技(2021年9期)2021-09-23 02:15:24
        財產(chǎn)清查結(jié)果的賬務(wù)處理
        淺談網(wǎng)頁制作中表單的教學(xué)
        Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個數(shù)估計
        “待處理”事項(xiàng)在科學(xué)事業(yè)單位的核算探討
        會計之友(2018年4期)2018-02-02 22:05:21
        政府會計核算中待處理財產(chǎn)損溢賬戶應(yīng)用探究
        無法收回的房租押金,應(yīng)怎樣進(jìn)行賬務(wù)處理
        基于Raspberry PI為結(jié)點(diǎn)的天氣云測量網(wǎng)絡(luò)實(shí)現(xiàn)
        基于Infopath實(shí)現(xiàn)WEB動態(tài)表單的研究
        電子世界(2012年24期)2012-12-17 10:49:06
        動態(tài)表單技術(shù)在教學(xué)管理中的應(yīng)用*
        国产又爽又粗又猛的视频| 亚洲色成人www永久在线观看| 鲁一鲁一鲁一鲁一曰综合网| 国产精成人品| 狠狠色噜噜狠狠狠狠米奇777| 精品久久人人爽天天玩人人妻| 亚洲AV秘 无码一区二p区三区| 97久久综合区小说区图片专区| 蜜臀av国内精品久久久人妻| 亚洲精品一区二区三区四区| 国产自拍成人免费视频| 强开小婷嫩苞又嫩又紧视频韩国| 国产精品久久久久久久久电影网| …日韩人妻无码精品一专区| 三级在线看中文字幕完整版| 中文人妻无码一区二区三区| 色偷偷av一区二区三区人妖| 久久亚洲精品一区二区三区| 清纯唯美亚洲经典中文字幕| 青青草手机在线免费观看视频| 国产日韩欧美一区二区东京热| 国产成人精品无码一区二区三区| 成年免费a级毛片免费看无码| 久久精品免费一区二区三区| 中文无码精品一区二区三区| 538任你爽精品视频国产| 日本在线免费精品视频| 亚洲av成人一区二区三区色| 亚洲视频在线视频在线视频 | 二区久久国产乱子伦免费精品 | aa视频在线观看播放免费| 亚洲一区二区三区福利久久蜜桃| 国语对白福利在线观看| 巨大巨粗巨长 黑人长吊| 国产无遮挡a片又黄又爽| 官网A级毛片| 97女厕偷拍一区二区三区| 久久综合噜噜激激的五月天 | 性xxxx18免费观看视频| 中文字幕亚洲乱码熟女一区二区 | 邻居美少妇张开腿让我爽了一夜|