楊鴻 廖浩然 李江 廖潔鋒
摘要:作為文本識(shí)別的重要組成部分,它在現(xiàn)實(shí)生活中的應(yīng)用越來(lái)越廣泛。本文主要研究了圖像文本識(shí)別方法、傳統(tǒng)方法和深度學(xué)習(xí)方法,并利用Matlab進(jìn)行了識(shí)別。因此,我們對(duì)圖像識(shí)別的研究有了更深的認(rèn)識(shí)。字符識(shí)別技術(shù)是利用計(jì)算機(jī)自動(dòng)識(shí)別和處理紙張上的字符,并將它們轉(zhuǎn)換為可識(shí)別信息的技術(shù)。由于它的廣泛應(yīng)用,這項(xiàng)技術(shù)正變得越來(lái)越重要。在現(xiàn)代科學(xué)研究、軍事技術(shù)、工農(nóng)業(yè)生產(chǎn)、醫(yī)學(xué)、氣象天文學(xué)等諸多領(lǐng)域,文本識(shí)別技術(shù)解決了許多實(shí)際問(wèn)題。本文主要考慮和研究了基于Matlab的圖像文本識(shí)別方法,能夠快速準(zhǔn)確地識(shí)別輸入圖像,提取圖像中的高級(jí)語(yǔ)義信息。了解圖像文本識(shí)別的原理以及高級(jí)語(yǔ)義圖像的分類和檢索具有重要的研究?jī)r(jià)值。
關(guān)鍵詞:MATLAB;文字識(shí)別;字符分割
一、設(shè)計(jì)背景
隨著計(jì)算機(jī)科學(xué)的飛速發(fā)展,基于圖像的多媒體信息迅速成為重要的信息媒介。在圖像中,文本信息包含豐富的高級(jí)語(yǔ)義信息。提取這些詞對(duì)于理解、索引和搜索圖像的高級(jí)語(yǔ)義非常有幫助。文本提取可以分為兩類:動(dòng)態(tài)圖像文本提取和靜態(tài)圖像文本提取。其中,靜態(tài)圖像文本提取是動(dòng)態(tài)圖像文本提取的基礎(chǔ),具有廣泛的應(yīng)用范圍和基礎(chǔ)研究。因此,本文主要討論了靜止圖像的文本提取技術(shù)。靜態(tài)圖像中的人物可以分為兩類:一類是圖像中場(chǎng)景中的人物,稱為場(chǎng)景人物;另一種是在影像后期制作中加入文字,稱為人工文字,如圖所示。由于文本的位置、大小、顏色和形狀的隨機(jī)性,通常很難對(duì)文本進(jìn)行檢測(cè)和提取。然而,人工漢字在字體上比較標(biāo)準(zhǔn)化,尺寸有限,容易識(shí)別。它們比前者更容易檢測(cè)和提取,并且因?yàn)樗鼈兡軌蚪忉尯涂偨Y(jié)圖像的內(nèi)容,所以它們適合于在圖像中索引和搜索關(guān)鍵詞。研究圖像中的場(chǎng)景特征比較困難,這方面的研究成果和文獻(xiàn)也不是很豐富。本文主要討論了圖像中人工特征的提取技術(shù)。
人們?cè)谌粘I詈凸ぷ髦行枰幚泶罅康奈谋拘畔?,這是一項(xiàng)勞動(dòng)密集型的工作。然而,通過(guò)探索文本識(shí)別方法,我們可以提高工作效率,降低勞動(dòng)強(qiáng)度。因此,文本識(shí)別技術(shù)發(fā)展迅速。字符采集、信息分析與處理、信息分類與識(shí)別是字符識(shí)別技術(shù)的主要步驟。信息采集是將紙張上的文字信息轉(zhuǎn)化為電流信號(hào),然后自動(dòng)輸入計(jì)算機(jī)。信息的分析和處理主要包括對(duì)電信號(hào)的去噪、偏移、厚度和大小的處理。信息分類識(shí)別是對(duì)處理后的文本信息進(jìn)行分類識(shí)別并輸出識(shí)別結(jié)果。利用Matlab軟件編寫Matlab語(yǔ)言進(jìn)行字符識(shí)別和處理,闡述了字符識(shí)別的原理,用于文獻(xiàn)檢索、郵件和包裹分揀、商品代碼識(shí)別、商品倉(cāng)庫(kù)管理等。
字符識(shí)別。識(shí)別的問(wèn)題是從僅包含單詞的圖像中識(shí)別機(jī)器可讀的字母序列。該問(wèn)題的難點(diǎn)之一是輸出空間是可變長(zhǎng)度序列。在一般的圖像分類中,輸出空間的維數(shù)是固定的。此外,諸如字體、照明、顏色和比例等問(wèn)題也使得識(shí)別變得困難。
字符識(shí)別活躍在生活的各個(gè)角落,如照片翻譯、手機(jī)照片識(shí)別等。,大大方便了我們的日常生活,提高了我們的工作效率。相信隨著人工智能(AI)的進(jìn)一步發(fā)展,圖像-文本識(shí)別技術(shù)將會(huì)有更廣闊的應(yīng)用前景。工業(yè)圖像的字符識(shí)別也已經(jīng)滲透到我們的日常生活中。與騰訊的OCR字符識(shí)別相比,它已經(jīng)應(yīng)用于現(xiàn)實(shí)生活的很多方面,如身份證識(shí)別、名片識(shí)別、快遞號(hào)碼識(shí)別等。
二、總體方案設(shè)計(jì)
1.數(shù)字圖像預(yù)處理
由于采集到的圖像數(shù)據(jù)包含了大量的信息,不需要進(jìn)行計(jì)量檢定。為了提取有用的真實(shí)信息,增強(qiáng)相關(guān)信息的可檢測(cè)性,最大限度地簡(jiǎn)化數(shù)據(jù),需要進(jìn)行預(yù)處理。首先,為了去除大量雜亂的信息,需要去噪和濾波;由于數(shù)字的識(shí)別與顏色無(wú)關(guān),如果是彩色照片,則需要先將其變灰,然后進(jìn)行二值化。此外,它還涉及位置分割和圖片大小歸一化。
2、字符分割
分割圖片時(shí),主要根據(jù)兩種情況進(jìn)行劃分。一個(gè)是灰度是相同的。如果圖片中存在一些平衡的灰度值,并且一些灰度值具有相同的平衡背景,則可以通過(guò)設(shè)置適當(dāng)?shù)拈撝祦?lái)達(dá)到切割目的。另一方面,如果圖像中的物體背景不能通過(guò)灰度值來(lái)區(qū)分,但是通過(guò)一些特征變化可以將屬性值轉(zhuǎn)換成灰度值,那么結(jié)合閾值設(shè)置的方法可以對(duì)圖像進(jìn)行裁剪。
3、特征提取
圖像為二維信號(hào),使用全部圖像數(shù)據(jù)進(jìn)行直接分類是不可取的,因此,一般都通過(guò)某種特征提取算法,將圖像表示為一個(gè)長(zhǎng)度為n的向量{x1,x2,...,xn},對(duì)應(yīng)于n維空間中的一個(gè)點(diǎn),特征提取之前需要將分割得到的不同子圖像規(guī)格化為相同的大小。數(shù)字識(shí)別領(lǐng)域有兩種特征提取算法。基于統(tǒng)計(jì)的特征提取和基于結(jié)構(gòu)的特征提取。前者包括點(diǎn)密度、矩和特征區(qū)域,后者是指與輪廓有關(guān)的信息,如圓、端點(diǎn)、拐點(diǎn)等,反映了數(shù)字的幾何結(jié)構(gòu),但抗干擾能力較弱。
4、選取分類器模型
最小距離分類器:選用筆畫密度總長(zhǎng)度特征來(lái)進(jìn)行第一層的粗分類。在這種方法中, 被識(shí)別模式與所屬模式類別樣本的距離最小。假定c個(gè)類別代表模式的特征向量用R1, …, Rc表示, x是被識(shí)別模式的特征向量, |x-Ri|是x與Ri (i=1, 2, …, c) 之間的距離,如果|x-Ri|最小, 則把x分為第i類。最近分類器:結(jié)合網(wǎng)格特征和方向特征完成第二層的分類和匹配。最近鄰分類器是基于最小距離分類的擴(kuò)展,它以訓(xùn)練集中的每個(gè)樣本為準(zhǔn)則,在訓(xùn)練集中找到與待分類樣本最近的樣本,然后根據(jù)該樣本進(jìn)行分類。
參考文獻(xiàn)
[1]張華萍,黃辰.文字識(shí)別技術(shù)研究[J].物聯(lián)網(wǎng)技術(shù),2018,8(08):17-19.
[2]田瑤琳.基于RGB分割的含數(shù)字水印圖像的文字識(shí)別[J].福建電腦,2019,35(04):62-64.
[3]張國(guó)林.基于漢字識(shí)別的碎紙片拼接復(fù)原模型研究[J].科技廣場(chǎng),2014(01):62-64.
[4]唐玲,劉磊.基于matlab的計(jì)量手寫體數(shù)字自動(dòng)識(shí)別[J].工業(yè)計(jì)量,2020,30(01):43-45.
500783