亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然場景中文字定位系統(tǒng)研究綜述

        2018-07-07 03:18:20季昊龍
        山東化工 2018年11期
        關(guān)鍵詞:字符紋理邊緣

        季昊龍

        (中國刑事警察學(xué)院 聲像資料檢驗(yàn)技術(shù)系,遼寧 沈陽 110035)

        1 研究背景和意義

        圖像逐步成為不可或缺的信息載體,這是由于智能手機(jī)等數(shù)碼產(chǎn)品的普及,使得圖像的產(chǎn)生越發(fā)容易。并且互聯(lián)網(wǎng)的普及,網(wǎng)民數(shù)量日益攀升,網(wǎng)絡(luò)成為圖片傳播的重要途徑,使得圖片的數(shù)量爆炸式增長。起初數(shù)字圖像處理重點(diǎn)處理圖像數(shù)據(jù)本身,如圖像的小波變換、壓縮、降噪等目的是提高圖像品質(zhì),降低儲存成本?,F(xiàn)在圖像處理結(jié)合人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯等新理論方法,使圖像處理往更高層面發(fā)展,實(shí)現(xiàn)圖像處理的人工智能。

        圖像含有大量內(nèi)容,如人、建筑物以及文字等等。其中文字作為重要內(nèi)容之一包含大量潛在關(guān)鍵信息。如馬路標(biāo)識、店鋪名稱上面均含有文字,對于自然場景定位識別提供了重要線索。如圖1所示左邊是馬路標(biāo)識,右邊是店鋪名稱。若實(shí)現(xiàn)對文字信息自動定位識別,則接下來可以用于圖片檢索、計(jì)算機(jī)視覺、自動巡航、無人汽車等,為人們生活提供便利。

        圖1 馬路標(biāo)識與店鋪名稱

        2 自然場景文字定位技術(shù)研究現(xiàn)狀

        2.1 自然場景文字定位特點(diǎn)

        認(rèn)知自然場景文字是在對文字所處環(huán)境限制少的情況下,對文字進(jìn)行的定位和識別。先采集圖像,得到圖像后再進(jìn)行定位、分析,達(dá)到識別的目的。自然場景圖像文字與傳統(tǒng)掃描文檔的文字相比,具有表1所示的特點(diǎn)。

        表1 自然場景圖像文字與傳統(tǒng)掃描文檔的文字特點(diǎn)對比

        圖2 背景復(fù)雜條件

        圖3 易受環(huán)境因素影響條件

        圖4 文字樣式不統(tǒng)一

        2.2 文字定位技術(shù)研究現(xiàn)狀

        在文字定位中OCR應(yīng)用較普及,對于字符完整、背景單一的規(guī)則文字識別率高,但對有大量噪聲、形狀雜亂無章的文字識別率低。通過OCR測試,在任意的PDF文檔里選100個(gè)文字塊,識別準(zhǔn)確率為97%。而用OCR識別自然場景圖片的文字,該甚至無法區(qū)別非文字區(qū)域和文字區(qū)域,需要事先優(yōu)化,才能將自然場景的文字轉(zhuǎn)換成可被OCR識別的字符。因此,文字定位系統(tǒng)的性能十分重要,目前定位算法不具普適性,需迫切提高算法性能。正因?yàn)樽匀粓鼍拔淖侄ㄎ痪哂卸ㄎ粌r(jià)值,大量研究機(jī)構(gòu)致力開發(fā)有效的文字定位系統(tǒng),代表性的有國際文檔分析和識別大會(ICDAR)文字比賽[1]。2017年舉行的ICDAR的中文檢測和識別比賽項(xiàng)目(RCTW)比賽包含兩項(xiàng)任務(wù),分為end-to-end文本識別和文本檢測。文本檢測以PR曲線、mAP、ROC曲線、F-score為評價(jià)標(biāo)準(zhǔn)。

        PR曲線:該曲線是以查準(zhǔn)率(P)為縱坐標(biāo),以查全率(R)為橫坐標(biāo)。P關(guān)心的是正、反例子挑選出正例的問題。R關(guān)心的是正例挑選出正例的問題。

        mAP:每種類別均可繪制PR曲線,X軸與曲線下方之間的面積稱為AP,對AP再求mean,就是mAP。

        ROC曲線:曲線的坐標(biāo)分為假正例率(FPR)與真正例率(TPR)。

        F-score:PR曲線中R和P兩個(gè)指標(biāo)。

        競賽前五名如表2所示。

        表 2 競賽前五名信息

        3 自然場景文字定位方法

        自然場景文字定位的方法分為基于紋理特征方法、基于連通域分析方法和基于邊緣特征方法。

        3.1 基于紋理特征的文本定位方法

        對圖像的像素灰度級分布模式的表現(xiàn)被稱為紋理,紋理能反映物品粗糙程度、顆粒程度、光滑程度等質(zhì)地。背景不具備紋理特征,而文字可以看做是具有特殊性的紋理,所以背景區(qū)域和紋理區(qū)域的分離可以利用基于紋理特征的方法。下面是表示圖像紋理的方法。

        3.1.1 頻譜分析法

        頻譜分析法是以傅里葉變換為基礎(chǔ),根據(jù)傅里葉變換的波谷、波峰的分布對圖像進(jìn)行分類。常用的參量有峰值的幅度、數(shù)量、峰值與峰值間的相差角、距離等。

        3.1.2 統(tǒng)計(jì)分析法

        統(tǒng)計(jì)分析法有紋理邊緣、自回歸模型、自相關(guān)函數(shù)、灰度空間共生概率等。

        3.1.3 結(jié)構(gòu)分析法

        結(jié)構(gòu)方法主要研究基元?;且环N單元集合,這種單元集合因具有某種屬性(連通域的灰度、形狀),彼此相鄰?;目臻g關(guān)系包括基元的最近間隔和相鄰性等[2]。

        基于紋理特征的方法對圖像中文字區(qū)域進(jìn)行文字信息提取,首先對圖像的紋理特征進(jìn)行檢測,常用傅里葉變換、小波變換等,然后利用窗口掃描并分析該窗口是否含有文本,當(dāng)窗口內(nèi)含有文本時(shí)得到候選文本區(qū)塊,然后使用金字塔對字符大小不一的情況進(jìn)行分解,最后把候選文本區(qū)還原到原圖像進(jìn)行合并[3]。如使用窗口遍歷圖像,并在窗口圖像中提取紋理特征分別為窗口內(nèi)邊緣點(diǎn)的數(shù)量、提取窗口內(nèi)梯度的均值、提取窗口內(nèi)圖像邊緣點(diǎn)的直方圖以及提取窗口內(nèi)梯度的方差。再從得到的這幾類紋理特征中利用信息熵選取出更有效的特征分類子窗口。Mao等人針對圖像含有混合文本的檢測,提出多尺度紋理分析的方法。先對圖像進(jìn)行小波變換,計(jì)算圖像局部能量差異,非文本區(qū)域局部能量差異小,文本區(qū)域局部能量差異大。對差異圖二值化處理并連通域分析,得到候選文本區(qū)域?qū)⒎俏谋緟^(qū)域排除。

        基于紋理的方法能得到較高的檢測率,對于字符大小的尺寸不敏感。但該方法要先計(jì)算圖像紋理特征,當(dāng)遇到與文字紋理特征相似的圖像時(shí),易受干擾。并且計(jì)算過程中需要卷積運(yùn)算,計(jì)算復(fù)雜,耗時(shí)長。

        3.2 基于連通域分析的文本定位方法

        該方法利用場景圖片中同一區(qū)域文本色彩相似,寬高大小比相似,字符與背景有較高的對比度且邊緣明顯的特性。采用二值化分割或顏色聚類得到連通區(qū)域,把得到的連通區(qū)域當(dāng)做文本候選區(qū)域,利用連通域大小、字符覆蓋率等先驗(yàn)知識為限制條件對上述的連通區(qū)域進(jìn)行篩選。最終將非文本區(qū)域去除從而得到文本區(qū)域。但是自然場景圖像中,顏色相對復(fù)雜,對分割的影響較大,可能會出現(xiàn)一個(gè)字符被分割到不同的連通區(qū)域中,與可能會出現(xiàn)字符和背景被分割到一個(gè)區(qū)域的情況。研究人員對此進(jìn)行相應(yīng)的改進(jìn),例如:在檢測自然場景中任意字符串的時(shí)候。Yi利用顏色均勻性和局部梯度特性首先對自然場景的圖像進(jìn)行分割,然后在分割好的圖像中找到含有文本字符的區(qū)域作為字符的候選區(qū)域[4]。依據(jù)文本字符大小差異、字符對齊以及字符與字符間距等結(jié)構(gòu)特征,在候選區(qū)中合并候選字符。并假設(shè)三個(gè)及三個(gè)以上的字符組成一個(gè)文本字符串,他們提出檢測字符串的兩種算法:一是文本行合并法,文本行合并法通過霍夫變換使文本行在候選區(qū)的中心處,表示出潛在的字符串方向。該算法提高了準(zhǔn)確性和效率,二是相鄰字符合并法。該方法的字符串片段是依靠計(jì)算字符的相鄰候選區(qū)得到,得到字符串片段后再對其進(jìn)行交叉合并從而得到文本字符串。

        對于雜志、新聞圖像上的文本,Soo-chang Pei提出一種新方法來進(jìn)行檢測。首先對需要處理的圖像進(jìn)行彩色量化得到柱狀圖,挑出幾種候選顏色。然后設(shè)置閾值對選出的顏色進(jìn)行二值化,得到二值化圖像。再對二值子圖像進(jìn)行邊緣檢測、連通域分析得到文本區(qū)域,該算法誤報(bào)率低[5]。

        以上兩種基于顏色特征進(jìn)行連通域分析法,在需要處理的圖像有噪聲或圖像中文本尺寸、方向變化的情況下,表現(xiàn)出較好的性能,適合根據(jù)圖像內(nèi)容進(jìn)行檢索的圖像系統(tǒng)。

        3.3 基于邊緣特征的文本定位方法

        因?yàn)樽匀粓鼍皥D片中背景與字符對比度較高,字符的邊緣信息十分豐富,像素灰度值的變化很大,兩者之間邊緣明顯,適用于計(jì)算機(jī)辨別自然場景圖像中的文字。基于邊緣特征的文本定位方法依據(jù)圖像中豐富的字符邊緣信息進(jìn)行檢測。常用的邊緣檢測算子如表3所示。

        表3 常用的邊緣檢測算子

        對于自然場景圖片進(jìn)行基于邊緣特征文本定位時(shí),灰度化處理待處理圖片,得到灰度圖像后通過邊緣檢測定位文字區(qū)域。例如:Hasan提出使用形態(tài)學(xué)技術(shù)的辦法,待處理圖片進(jìn)行灰度化處理并獲得對應(yīng)的邊緣圖,然后利用形態(tài)學(xué)運(yùn)算對邊緣圖進(jìn)行噪聲過濾、連接邊緣,最后根據(jù)顏色相似性進(jìn)行文本檢驗(yàn)。該方法受到傾斜、文字方向、噪聲的干擾小。但如果在自然場景圖像中背景與文本色彩差異很大,圖像灰度化處理后兩者的灰度值差異很小的情況,該方法無法有效處理。Smith提出先對圖像利用差分濾波器進(jìn)行過濾,得到文字垂直邊緣特征,之后對文字的相鄰連接邊緣、小邊緣進(jìn)行過濾,即可定位到文本區(qū)域 Agnihotri提出一種對視頻中的文本進(jìn)行定位方法,該方法流程如下:

        Min Cai提出了一種利用邊緣密度、強(qiáng)度、水平分布等特征不變進(jìn)行檢測的辦法[6]。先提取圖像邊緣并設(shè)定閾值對圖像中非文本邊緣進(jìn)行過濾,設(shè)定閾值對比度低的文本進(jìn)行保持,而復(fù)雜且對比度高的文本進(jìn)行簡化。利用增強(qiáng)算子強(qiáng)調(diào)邊緣密度高、強(qiáng)度高的區(qū)域。最后定位含有文本的區(qū)域。

        上述利用邊緣檢測進(jìn)行文本定位,速度快,時(shí)間復(fù)雜性低。適用于簡單背景且文本有豐富的邊緣信息的定位,但當(dāng)背景復(fù)雜時(shí),會檢測出大量非文本,虛警率比較高。

        4 總結(jié)

        自然場景圖片中文字區(qū)域繁雜多樣,字符特征隨之變化。自然場景文字的定位方法對于不同類型的文本文字需要選擇性。一種文字定位方法對于特定的文本具有良好的定位效果,但對于其他類型的文本無法進(jìn)行有效定位。并且在自然場景中背景復(fù)雜,光照不均勻,文字的大小、樣式、排列方式的不統(tǒng)一使得文本問題具有隨機(jī)性、多樣性以及挑戰(zhàn)性。由此可見僅僅選用某一類處理方法和特征并不能取得良好的效果,現(xiàn)在都是基于多種方法和特征的組合利用進(jìn)行有效定位。

        5 展望

        目前文字識別系統(tǒng)商業(yè)化的發(fā)展受到自然場景中文字定位系統(tǒng)的制約,國內(nèi)外大量的研究機(jī)構(gòu)和人員力求開發(fā)出高識別性、高魯棒性、高準(zhǔn)確性、高召回率的文字識別定位系統(tǒng)。人工智能的利用配合多方法結(jié)合和全方位分析稱為自然場景文字定位系統(tǒng)的發(fā)展潮流。智能手機(jī)的迅速發(fā)展及廣泛應(yīng)用也對文字定位系統(tǒng)的運(yùn)行速度等方面提出了新要求。隨著人們對于技術(shù)探索的不斷深入和人工智能的快速發(fā)展,我們期待在

        未來自然場景中文字定位技術(shù)一定會有巨大的飛躍。

        [1]王 煒.基于角點(diǎn)和顏色的自然場景文字定位技術(shù)研究[D].西安:西安電子科技大學(xué),2011.

        [2]周 易.基于關(guān)聯(lián)規(guī)則挖掘的圖像檢索[J].軟件,2012,33(4):28-30.

        [3]陳 森.自然場景圖像中的文本定位方法及應(yīng)用研究[D].廣州:華南理工大學(xué),2011.

        [4]柏宏飛.場景圖像文字提取方法研究與應(yīng)用[D].上海:復(fù)旦大學(xué),2009.

        [5]歐文武,朱軍民,劉昌平.自然場景文本定位[J].中文信息學(xué)報(bào),2004,18(5):42-47.

        [6]王 毅.基于內(nèi)容的新聞視頻摘要技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2010.

        猜你喜歡
        字符紋理邊緣
        尋找更強(qiáng)的字符映射管理器
        基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
        軟件(2020年3期)2020-04-20 01:45:18
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        使用紋理疊加添加藝術(shù)畫特效
        消失的殖民村莊和神秘字符
        TEXTURE ON TEXTURE質(zhì)地上的紋理
        Coco薇(2017年8期)2017-08-03 15:23:38
        一張圖看懂邊緣計(jì)算
        消除凹凸紋理有妙招!
        Coco薇(2015年5期)2016-03-29 23:22:15
        在邊緣尋找自我
        雕塑(1999年2期)1999-06-28 05:01:42
        欧美日韩综合网在线观看| 亚洲av精二区三区日韩| 高潮抽搐潮喷毛片在线播放| 成人一区二区免费视频| 国产欧美曰韩一区二区三区| 亚洲一区二区三区av无| 黄色av一区二区在线观看| 一品二品三品中文字幕| 免费在线亚洲视频| 午夜精品一区二区久久做老熟女 | 亚洲a级视频在线播放| 久久精品国产亚洲av果冻传媒 | 欧美国产亚洲日韩在线二区| 国内自拍第一区二区三区| 在线国产激情视频观看| 国产午夜福利在线观看红一片| 91spa国产无码| 亚洲一区二区三区在线| 亚洲国产精品一区二区久久恐怖片| 午夜精品久久久久久99热| 少妇AV射精精品蜜桃专区| 亚洲素人av在线观看| 五月激情综合婷婷六月久久| 国产特级毛片aaaaaaa高清| 国产在线无码免费视频2021 | 91偷拍与自偷拍亚洲精品86| 中文字幕人妻中文| 亚洲一区二区在线| 加勒比久草免费在线观看| 精品人妻系列无码人妻漫画| 中文亚洲成a人片在线观看| 精品国产高清a毛片| 国产在线av一区二区| 自愉自愉产区二十四区| 亚洲成人777| 亚洲女同人妻在线播放| 一区二区三区内射美女毛片| 欧美丰满熟妇乱xxxxx图片| 日本丰满少妇高潮呻吟| 色婷婷久久精品一区二区| 黄瓜视频在线观看|