亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視覺注意力模型的電表銘牌識(shí)別研究*

        2022-10-20 01:09:38張忠寶張威魯觀娜彭鑫霞
        電子器件 2022年3期
        關(guān)鍵詞:銘牌解碼器編碼器

        劉 影,張忠寶,張威,魯觀娜,彭鑫霞

        (國(guó)網(wǎng)冀北電力有限公司,北京 102208)

        當(dāng)前對(duì)電表等電力設(shè)備的管理已經(jīng)越來越多地引入了各類智能化手段,以促進(jìn)電網(wǎng)管理的數(shù)字化水平。其中,實(shí)現(xiàn)電表銘牌的自動(dòng)化識(shí)別是極為關(guān)鍵的一項(xiàng)技術(shù),對(duì)提升電表設(shè)備在歸檔,維修以及更換等管理各環(huán)節(jié)的效率有重要意義[1-3]。

        針對(duì)這一問題,本文提出一種使用深度學(xué)習(xí)技術(shù)的電表銘牌識(shí)別方法。該方法采用了自然語言處理問題中常用的編碼器-解碼器結(jié)構(gòu),便于引入注意力機(jī)制。相比基于傳統(tǒng)圖像處理的識(shí)別技術(shù),本文方法避免了復(fù)雜的圖像特征工程(feature engineering)過程,引入了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)用于自動(dòng)提取圖像特征;同時(shí),相比一般的純視覺方法,本文將自然語言處理領(lǐng)域常用的注意力模型引入銘牌識(shí)別任務(wù),這一機(jī)制可以引導(dǎo)模型關(guān)注圖像中涉及文字的重點(diǎn)區(qū)域,進(jìn)一步結(jié)合語言模型,提升識(shí)別效果。本文通過在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)驗(yàn)證了該方法的優(yōu)勢(shì)。

        1 相關(guān)研究

        銘牌或標(biāo)牌識(shí)別是一類典型的場(chǎng)景文字識(shí)別(scene text recognition)任務(wù)[4]。所謂場(chǎng)景文字,指的是直接包含在自然場(chǎng)景圖像中的文本,區(qū)別于以規(guī)則樣式印刷的文本。相比印刷文本,場(chǎng)景文本在樣式(顏色,字體等)、清晰度(分辨率)甚至內(nèi)容方面都具有更高的不確定性,因此復(fù)雜程度往往也高于一般意義上的光學(xué)字符識(shí)別(optical character recognition,OCR)問題。

        端到端的場(chǎng)景文字識(shí)別任務(wù)通常分為兩個(gè)主要步驟:文字檢測(cè),在圖像上分割出包含文字的區(qū)域;內(nèi)容識(shí)別,輸出該區(qū)域內(nèi)的具體文本內(nèi)容[5]。前者是一種目標(biāo)檢測(cè)問題,對(duì)于銘牌識(shí)別這類特定的場(chǎng)景文字識(shí)別任務(wù),由于具備了銘牌特征的先驗(yàn)知識(shí),可以通過常用的目標(biāo)檢測(cè)器如單發(fā)檢測(cè)器(singleshot detection,SSD)或區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-CNN,RCNN)來完成[6-7]。本文重點(diǎn)關(guān)注第二個(gè)步驟的問題。

        現(xiàn)有的內(nèi)容識(shí)別技術(shù)通常基于預(yù)先定義的詞典,即通過限制內(nèi)容的范圍來實(shí)現(xiàn)更高精度的識(shí)別。對(duì)于樣式變化較少、內(nèi)容標(biāo)準(zhǔn)化程度較高的一類場(chǎng)景文字,如車牌號(hào)、身份證等,這一方法能達(dá)到極佳的效果[8-9]。顯然,這主要是因?yàn)榇祟悎?chǎng)景文本內(nèi)容多樣化程度低,預(yù)設(shè)詞典提供了可靠的先驗(yàn)知識(shí)。而電表銘牌的內(nèi)容與樣式豐富度無疑要高得多,很難單純通過詞典來限制,因此銘牌識(shí)別更偏向于無約束或半約束的文本內(nèi)容識(shí)別,這也是本文主要研究?jī)?nèi)容。

        2 模型結(jié)構(gòu)

        本文提出的電表銘牌識(shí)別方法主要基于具有編碼器-解碼器(encoder-decoder)框架的視覺注意力模型,具體結(jié)構(gòu)如圖1 所示。這一框架常用于自然語言處理與時(shí)序預(yù)測(cè)等序列到序列學(xué)習(xí)任務(wù),本文將其引入銘牌識(shí)別這一計(jì)算機(jī)視覺問題中[10-12]。編碼器將文字檢測(cè)步驟中分割出的含有文本的局部圖像作為輸入,并通過卷積神經(jīng)網(wǎng)絡(luò)將該圖像編碼為卷積特征序列。視覺注意力模型則基于多層感知器(multi-layer perceptron,MLP)結(jié)構(gòu),被嵌入編碼器與解碼器之間。在解碼器依次識(shí)別出圖像中的文本內(nèi)容時(shí),注意力模型通過調(diào)整注意力權(quán)值,在每一步使解碼器重點(diǎn)處理文字序列的特定部分。隨后,基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的解碼器逐步輸出一系列文字,拼接為最終的識(shí)別結(jié)果。

        圖1 視覺注意力模型的編碼器-解碼器結(jié)構(gòu)

        2.1 編碼器

        編碼器部分使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從圖像中自動(dòng)提取特征。但不同于一般的CNN 分類模型。在卷積層后使用全連接層生成固定長(zhǎng)度的特征向量,這里結(jié)合了注意力機(jī)制的思想,直接使用網(wǎng)絡(luò)中最后一個(gè)卷積層產(chǎn)生的特征,通過這種處理,可以生成一組卷積特征向量,其中每個(gè)特征向量都對(duì)應(yīng)一個(gè)特定的視覺感受域(receptive field),進(jìn)一步則對(duì)應(yīng)圖像空間中的特定區(qū)域。因此,通過注意力模型,后續(xù)的解碼器部分可以基于此空間信息關(guān)注圖像的最相關(guān)部分,這一過程也模擬了人眼對(duì)于圖像的觀察行為[13-14]。

        如圖1,給定含有文字的輸入圖像,編碼器將生成一組特征向量:

        式中:xi代表對(duì)應(yīng)圖像第i個(gè)區(qū)域的特征向量,本質(zhì)上,每個(gè)xi都是由一部分圖像空間信息經(jīng)過卷積層特征映射生成。

        2.2 視覺注意力模型

        自然語言處理中的注意力機(jī)制可分為軟注意力(soft attention)與硬注意力(hard attention)兩類。類比到銘牌識(shí)別領(lǐng)域,硬注意力機(jī)制會(huì)使解碼器根據(jù)注意力值大小只關(guān)注具有最大值的部分,軟注意力機(jī)制則會(huì)取若干個(gè)區(qū)域加權(quán)平均后由解碼器處理[15-16]??紤]到含文字圖像的特性,在區(qū)域劃分細(xì)粒度程度高的情況下,字符跨越多個(gè)空間單元是普遍現(xiàn)象,因此基于軟注意力機(jī)制的處理更為合理,即通過注意力權(quán)值組合對(duì)應(yīng)不同空間區(qū)域的多個(gè)特征向量。

        如圖1,視覺注意力模型在每個(gè)時(shí)間步上都生成向量zt,該值將作為L(zhǎng)STM 解碼器的輸入特征。zt可以表示為式(1)中向量組Ψ的加權(quán)組合,即

        式中:βt,i為權(quán)值,且在每個(gè)時(shí)間步t,有

        因此,向量zt實(shí)際上編碼了圖像各區(qū)域的相對(duì)重要性信息,該信息反映了某個(gè)區(qū)域?qū)τ谖淖肿R(shí)別結(jié)果的貢獻(xiàn)程度。βt,i可以簡(jiǎn)單地通過一個(gè)全連接神經(jīng)網(wǎng)絡(luò)(其輸入-輸出映射記為f)連接softmax 分類器獲得。具體地,首先將編碼器的特征向量xi與前一個(gè)時(shí)間步LSTM 解碼器的隱狀態(tài)向量ht-1輸入全連接網(wǎng)絡(luò)得到

        再經(jīng)過softmax 函數(shù)得到

        容易驗(yàn)證式(5)得到的注意力權(quán)值滿足式(3)規(guī)定的歸一化條件。

        2.3 解碼器

        解碼器部分基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),在每個(gè)時(shí)間步輸出給定字符集L中的一個(gè)字符。實(shí)際上,解碼器的輸出格式是一個(gè)|L|維的向量,每個(gè)維度上的值代表實(shí)際字符是該字符的概率。輸出向量依賴于注意力向量zt,前一時(shí)間步解碼器的隱狀態(tài)ht-1與輸出向量yt-1,其依賴關(guān)系用矩陣形式可以表示為

        式中:T和E都是一個(gè)由網(wǎng)絡(luò)訓(xùn)練得到的權(quán)值矩陣/向量,it,ft,ot與gt則是LSTM 神經(jīng)元中輸入門(input),遺忘門(forget),輸出門(output)與記憶門(memory) 部分的參數(shù)[17]。σ與tanh 分別代表sigmoid 與雙曲正切激活函數(shù)。最終的輸出概率為

        這里的l0,lh以及l(fā)z都是預(yù)先設(shè)置的重要性參數(shù),也可通過網(wǎng)絡(luò)訓(xùn)練得到。

        3 模型推斷

        本文使用集束搜索(beam search)技術(shù)[18-19]從LSTM 解碼器輸出上推斷識(shí)別結(jié)果,并結(jié)合語言模型進(jìn)行優(yōu)化。

        3.1 集束搜索

        模型訓(xùn)練完成后,集束搜索在每個(gè)可能的詞匯w=[c1,…,cn]上最大化如下的目標(biāo)函數(shù)

        式中:ci表示組成詞的各個(gè)字符,特別地,使用cn代表終止符(不代表任何具體字符),當(dāng)推斷過程執(zhí)行到該字符時(shí)立即結(jié)束。

        式(8)的形式與語言模型中由詞匯前向生成文本的形式是相似的,這說明可以引入語言模型的思想對(duì)集束搜索過程進(jìn)行一定改進(jìn)。

        3.2 語言模型的引入

        文本通過語法和語義形成上下文關(guān)系,這意味著對(duì)于銘牌識(shí)別這類任務(wù),文本本身的這一特征對(duì)模型輸出構(gòu)成一定的約束條件,利用這些條件對(duì)于改進(jìn)識(shí)別效果是有益的。盡管LSTM 模型自身可以隱式學(xué)習(xí)連續(xù)字符之間的某些潛在上下文結(jié)構(gòu),但依然可以基于先驗(yàn)知識(shí),顯式添加較長(zhǎng)的依賴關(guān)系。

        本文使用最基本的n-gram 語言模型來反映這類關(guān)系。n-gram 中假設(shè)了任意字符的概率依賴于之前的n個(gè)字符,即

        式中:#(c1c2…cn-1)表示序列c1c2…cn-1出現(xiàn)的頻數(shù)[20]。將這一假設(shè)引入集束搜索,式(8)變?yōu)?/p>

        這里α是一個(gè)控制權(quán)重的參數(shù)。顯然,與式(8)相比,式(10)添加了一個(gè)用n-gram 模型反映當(dāng)前詞上下文依賴的約束項(xiàng)。

        4 實(shí)驗(yàn)與討論

        4.1 實(shí)驗(yàn)環(huán)境設(shè)置

        實(shí)驗(yàn)中使用的數(shù)據(jù)集是包含14 萬張圖片的真實(shí)電表銘牌數(shù)據(jù)集,部分樣本如圖2。圖片在光照、清晰度、傾斜程度等各方面都具有較高的多樣性,便于評(píng)價(jià)識(shí)別模型的魯棒性。實(shí)驗(yàn)中使用SSD 目標(biāo)檢測(cè)模型先分割出銘牌圖像中含文字的大致區(qū)域,再基于本文模型進(jìn)行具體的文字內(nèi)容提取。

        圖2 實(shí)驗(yàn)數(shù)據(jù)集中的部分樣本圖片

        實(shí)驗(yàn)中的卷積網(wǎng)絡(luò)與LSTM 網(wǎng)絡(luò)給基于開源深度學(xué)習(xí)庫(kù)PyTorch[21]搭建,運(yùn)行在一臺(tái)搭載了兩塊NVIDIA GTX 2080Ti 圖形處理器的計(jì)算機(jī)上。圖1中編碼器部分的CNN 模型由四層卷積層與一個(gè)全連接層組成,最后一個(gè)卷積層的輸出作為編碼器輸出特征。CNN 的特征圖(feature map)大小為4×13,LSTM 解碼器的輸入為52×512。式(10)中控制上下文依賴的參數(shù)α 設(shè)置為0.3。實(shí)驗(yàn)中采用的評(píng)價(jià)指標(biāo)為精確度,即正確識(shí)別出的字符數(shù)與總字符數(shù)之比。

        4.2 實(shí)驗(yàn)結(jié)果

        本文實(shí)驗(yàn)首先驗(yàn)證了注意力模型、語言模型與預(yù)設(shè)字典對(duì)識(shí)別效果的提升,結(jié)果見表1。其中Att表示視覺注意力模型,LM 表示語言模型,n-gram 中的n值取3。

        表1 模型優(yōu)化過程

        顯然,視覺注意力模型、語言模型與預(yù)設(shè)詞典的引入對(duì)于模型在銘牌識(shí)別任務(wù)上的提升都具有一定的意義。本質(zhì)上,這些步驟都代表先驗(yàn)知識(shí)的增加。其中,視覺注意力模型對(duì)于模型性能提升的效果最為顯著,而預(yù)設(shè)詞典的增益效果則最不明顯,這也說明本文方法在實(shí)際應(yīng)用中無需預(yù)先建立大規(guī)模詞典。

        表2 將本文方法與其他主流模型進(jìn)行了比較,結(jié)論是一致的:視覺注意力模型與語言模型的引入對(duì)于銘牌識(shí)別模型提升效果十分可觀。表中HMM指隱馬爾可夫模型(Hidden Markov Model,HMM)。

        表2 模型性能比較

        5 結(jié)束語

        針對(duì)電表等電力設(shè)備的銘牌文本內(nèi)容識(shí)別問題,本文提出了一組基于視覺注意力模型的識(shí)別技術(shù)。在這一問題上,本文方法的主要?jiǎng)?chuàng)新點(diǎn)包括:

        (1)相比一般的基于卷積神經(jīng)網(wǎng)絡(luò)的方法,本文將自然語言處理領(lǐng)域中常用的注意力機(jī)制引入銘牌識(shí)別這一視覺問題,通過注意力權(quán)值使模型中的解碼器重點(diǎn)處理與識(shí)別結(jié)果關(guān)系更緊密的圖像區(qū)域,提升識(shí)別準(zhǔn)確度,同時(shí)理論上也能提升模型處理的效率;

        (2)將語言模型引入了銘牌識(shí)別任務(wù)中:通過n-gram 語言模型顯式地將文本上下文依賴關(guān)系作為銘牌識(shí)別的約束條件,實(shí)驗(yàn)結(jié)果證明,這一處理進(jìn)一步提升了模型識(shí)別效果;

        (3)通過實(shí)驗(yàn)驗(yàn)證了本文方法對(duì)于預(yù)設(shè)詞典的依賴性較低,這克服了許多傳統(tǒng)方法的一大局限性,同時(shí)也說明本文方法具有更高的魯棒性與更廣泛的適用場(chǎng)景。

        本文的后期研究包括引入更高階的語言模型,如目前流行的各類預(yù)訓(xùn)練模型和圖網(wǎng)絡(luò),將更復(fù)雜的上下文結(jié)構(gòu)引入銘牌識(shí)別任務(wù)中。

        猜你喜歡
        銘牌解碼器編碼器
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        壓力容器產(chǎn)品銘牌使用耐久性的思考
        電源銘牌要這么看
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        基于霍夫變換的銘牌OCR圖像旋轉(zhuǎn)矯正方法
        亚洲一区二区三区乱码在线中国| 91热久久免费精品99| 久久久诱惑一区二区三区| 国产久色在线拍揄自揄拍| 天天爽夜夜爽夜夜爽精品视频| 欧美成人片一区二区三区| 国产成人啪精品午夜网站| 久久精品中文字幕免费| 免费亚洲老熟熟女熟女熟女| 无码国产福利av私拍| 伊人网综合在线视频| 日韩精品极品免费观看| 精品国产自在现线看久久| 亚洲 卡通 欧美 制服 中文| 精品国产高清a毛片无毒不卡| 亚洲成熟丰满熟妇高潮XXXXX| 精品亚洲一区中文字幕精品| 影视av久久久噜噜噜噜噜三级 | 精品中文字幕日本久久久| 偷拍一区二区盗摄视频| 色欲色欲天天天www亚洲伊| 欧美另类视频在线| 二区三区视频在线观看| 狠狠摸狠狠澡| 欧洲美熟女乱又伦av影片| аⅴ资源天堂资源库在线| 国产精品区一区二区三在线播放| 久久网站在线免费观看| 色欲色香天天天综合网www| 桃花色综合影院| 欧美日韩a级a| 日本人妻97中文字幕| 久久久久99精品成人片直播| 国产成人亚洲精品91专区手机| 日本红怡院东京热加勒比| 国产精选自拍视频网站| 国产亚洲精品久久久久婷婷瑜伽 | 日本爽快片100色毛片| 亚洲最大中文字幕无码网站| 国产一级r片内射免费视频| 有坂深雪中文字幕亚洲中文|