沈沖
關(guān)鍵詞:人工智能;深度學(xué)習(xí);文字;識(shí)別;神經(jīng)網(wǎng)絡(luò)
隨著信息技術(shù)發(fā)展,以圖像為主的多媒體信息迅速成為了重要的消息傳播手段。而準(zhǔn)確有效地提取圖片中的信息能有助于社會(huì)在工業(yè)自動(dòng)化、機(jī)器人導(dǎo)航、人機(jī)交互、多媒體檢索領(lǐng)域獲得長(zhǎng)遠(yuǎn)發(fā)展。目前文字識(shí)別已經(jīng)成為智能機(jī)器深度學(xué)習(xí)的重要內(nèi)容,具有一定的研究?jī)r(jià)值?;诖?,本文將對(duì)基于人工智能機(jī)器學(xué)習(xí)的文字識(shí)別技術(shù)為論點(diǎn),對(duì)現(xiàn)有的文字識(shí)別技術(shù)進(jìn)行研究,以期能為同行產(chǎn)生幾點(diǎn)借鑒意義。
一、傳統(tǒng)文字識(shí)別技術(shù)與現(xiàn)代文字識(shí)別技術(shù)的特點(diǎn)研究
傳統(tǒng)的文字識(shí)別技術(shù)有筆輸入、專用OCR、手寫體OCR、印刷體OCR四類[1]。現(xiàn)代文字識(shí)別技術(shù)依靠Matlab技術(shù)實(shí)現(xiàn),大致應(yīng)用步驟為調(diào)取原始圖像、處理圖像獲得灰度圖像、圖像二值處理,調(diào)動(dòng)計(jì)算函數(shù),輸出目標(biāo)文字。
二、現(xiàn)有文字識(shí)別技術(shù)仍存在的問(wèn)題
(一)網(wǎng)絡(luò)文字圖片標(biāo)注成本高,訓(xùn)練數(shù)據(jù)集小
人工智能機(jī)器學(xué)習(xí)功能需要在復(fù)雜模型的監(jiān)督訓(xùn)練下開展,因此,需要以海量數(shù)據(jù)集作為學(xué)習(xí)初始支持。針對(duì)網(wǎng)絡(luò)圖片中的文字,進(jìn)行深度學(xué)習(xí)前,要對(duì)圖片中的所有字符串進(jìn)行標(biāo)注,并需要對(duì)某個(gè)區(qū)域內(nèi)是否包含文字進(jìn)行檢測(cè)。相較于一般的物體識(shí)別任務(wù),網(wǎng)絡(luò)圖片文字識(shí)別所花費(fèi)的任務(wù)成本更高。但從當(dāng)前來(lái)看,現(xiàn)開放的有關(guān)文字識(shí)別技術(shù)開放性源代碼數(shù)據(jù)集較少,圖片數(shù)量也較少,故開展深度學(xué)習(xí)的前期支持?jǐn)?shù)據(jù)不足。
(二)序列建模常用的循環(huán)網(wǎng)絡(luò)無(wú)法并行計(jì)算
當(dāng)前文字序列識(shí)別的常用技術(shù)為依靠卷積循環(huán)神經(jīng)網(wǎng)絡(luò),技術(shù)支撐主體為L(zhǎng)STM技術(shù)。雖然該技術(shù)序列建模能力較為優(yōu)秀,但在建模過(guò)長(zhǎng)的文字序列時(shí),信息發(fā)出與收到反饋的用時(shí)較長(zhǎng),有可能增加系統(tǒng)深度學(xué)習(xí)的最終用時(shí),進(jìn)而對(duì)模型的識(shí)別效率造成影響。
(三)復(fù)雜場(chǎng)景圖片文字識(shí)別準(zhǔn)確率不足
現(xiàn)有的文字識(shí)別模型大多依靠普通的單層卷積網(wǎng)絡(luò),針對(duì)背景較為簡(jiǎn)單的文字進(jìn)行識(shí)別時(shí),準(zhǔn)確率較高。但當(dāng)識(shí)別復(fù)雜場(chǎng)景文字時(shí),需要加深提取模塊層數(shù),從而出現(xiàn)梯度發(fā)散問(wèn)題,最終導(dǎo)致機(jī)器學(xué)習(xí)內(nèi)容不足的現(xiàn)象。
三、基于人工智能機(jī)器學(xué)習(xí)的文字識(shí)別技術(shù)分析
(一)分類器識(shí)別
基于深度學(xué)習(xí)的文字識(shí)別工作開展前,首先要對(duì)文字識(shí)別的分類器進(jìn)行識(shí)別。以BP神經(jīng)網(wǎng)絡(luò)分類器為例,其學(xué)習(xí)訓(xùn)練步驟如下:輸入模式順傳播→輸出誤差逆?zhèn)鞑ァh(huán)記憶訓(xùn)練→學(xué)習(xí)結(jié)果判別。在應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類器前,首先需構(gòu)建神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)代表3大不同數(shù)據(jù)的通道。采用net函數(shù)構(gòu)建神經(jīng)網(wǎng)絡(luò),則可將3大數(shù)據(jù)通道用net1、net2及net3、表示,每一通道內(nèi)包含的數(shù)據(jù)數(shù)量分別為64與128、24與48、60與128,每一個(gè)數(shù)量分別代表一個(gè)節(jié)點(diǎn)。滿足上述技術(shù)支持后即可對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化。當(dāng)前最常用的初始化方式為Initnw,每一次運(yùn)行都能將數(shù)據(jù)運(yùn)行時(shí)的權(quán)值及偏移量合理的初始,在后續(xù)進(jìn)行單個(gè)文字的識(shí)別時(shí),數(shù)據(jù)的輸入能更加便捷,同時(shí)也能減少神經(jīng)元網(wǎng)絡(luò)節(jié)點(diǎn)的冗余[2]。
(二)規(guī)則文字識(shí)別相關(guān)技術(shù)
(1)卷積神經(jīng)網(wǎng)絡(luò)法:該結(jié)構(gòu)屬于前饋型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類型,對(duì)規(guī)則文字類型具有較高的文字識(shí)別靈敏度。即使針對(duì)已經(jīng)經(jīng)過(guò)平移或旋轉(zhuǎn)變換后的圖片,也可利用該技術(shù)較為靈敏地識(shí)別出。該技術(shù)文字識(shí)別步驟如下:輸入→預(yù)處理→識(shí)別→識(shí)別后處理四大流程。各流程中所包含的數(shù)據(jù)層級(jí)也有所差別,現(xiàn)將具體內(nèi)容介紹如下:①輸入層。截取需要處理后的單字圖像,并轉(zhuǎn)換為64*64像素的灰度文字圖片,調(diào)整文字為白色,調(diào)整背景為黑色,如此處理以避免無(wú)關(guān)因素對(duì)文字識(shí)別的影響。
②隱藏層。共包含三個(gè)池化層與三個(gè)卷積層,卷積層與乳化層交替構(gòu)成,處理數(shù)據(jù)。a、卷積層1:計(jì)算第一層卷積尺寸,以64*64像素文字處理為例,最終輸出卷積尺寸詳見(jiàn)表1;b、池化層1:對(duì)第一卷積層輸出的圖像進(jìn)行最大池化運(yùn)算處理。并計(jì)算出第一次池化結(jié)果。以60*60像素文字處理為例,最終輸出的池化尺寸詳見(jiàn)表2;c、卷積層2:采用5*5的卷積(共計(jì)128)個(gè),對(duì)池化層1輸出的圖像再次進(jìn)行卷積運(yùn)算:d、池化層2:采用2*2的池化器對(duì)卷積層2輸出的圖像進(jìn)行池化最高值運(yùn)算:e、卷積層3:采用4*4的卷積對(duì)圖像進(jìn)行卷積運(yùn)算;f、池化層3:采用2*2的(256個(gè))池化器對(duì)卷積層圖像進(jìn)行池化最高運(yùn)算[3]。
③全連接層:對(duì)隱藏層所輸出的參數(shù)進(jìn)行處理,并由系統(tǒng)對(duì)神經(jīng)元的興奮度進(jìn)行計(jì)算??砂凑杖缦潞瘮?shù)帶入?yún)?shù),激活函數(shù)公式,最終輸出神經(jīng)元興奮度數(shù)值,神經(jīng)元激活函數(shù)公式為:
④輸出層:神經(jīng)元函數(shù)激活后,最終輸出層得到3755個(gè)節(jié)點(diǎn),每一個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)一個(gè)漢字。根據(jù)步驟三中所計(jì)算出的興奮度值,最終輸出所識(shí)別漢字。
(1)FRAEN技術(shù):該網(wǎng)絡(luò)能夠識(shí)別自然場(chǎng)景下拉伸或縮放的文字。技術(shù)核心架構(gòu)由AEN識(shí)別網(wǎng)絡(luò)與FEN靈活矯正網(wǎng)絡(luò)所構(gòu)成。在識(shí)別不規(guī)則文字時(shí)。FRN對(duì)圖片中的文字進(jìn)行識(shí)別并予以矯正,矯正至文字處于水平狀態(tài);隨后AEN將矯正后的圖像輸入至AEN網(wǎng)絡(luò)中,利用規(guī)則文字識(shí)別相關(guān)技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行文字識(shí)別,隨后輸出預(yù)測(cè)的單詞。其中FRN技術(shù)為本節(jié)內(nèi)容研究的重點(diǎn)。FRN技術(shù)為常用的文字矯正方法,但應(yīng)用時(shí)對(duì)文字變形度的要求較為局限,僅包括平移、縮放、旋轉(zhuǎn)等。因此,當(dāng)前的文字識(shí)別技術(shù)為增強(qiáng)對(duì)變形文字的矯正能力,引入了CNN文字矯正加強(qiáng)網(wǎng)絡(luò),增強(qiáng)文字的矯正效果[4]。傳統(tǒng)的FRN處理技術(shù)易產(chǎn)生圖像解碼過(guò)程中的噪點(diǎn),故可在矯正前,在程序內(nèi)輸入最大池化層減少或避免噪點(diǎn)產(chǎn)生。FRN矯正不規(guī)則文字的結(jié)果詳見(jiàn)圖1。將矯正后的文字圖片輸入至卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)行規(guī)則文字處理流程,即可完成文字的識(shí)別。
漢字屬于詞素音節(jié)類型文字,英文屬于表音文字。漢字的個(gè)數(shù)要遠(yuǎn)遠(yuǎn)多于英文字母的個(gè)數(shù)。對(duì)于中文文字的識(shí)別而言,文字識(shí)別時(shí)需構(gòu)建大量的圖像,這導(dǎo)致了中文文字識(shí)別時(shí)的錯(cuò)誤自檢率要遠(yuǎn)高于英文字母。關(guān)于如何提升中文文字識(shí)別能力,筆者從分類器的選擇上提出了改進(jìn)建議有條件的最好選擇包含所有字符的分類器,同時(shí)在其應(yīng)用時(shí),應(yīng)對(duì)字符不同進(jìn)行合理分類[5]。此過(guò)程中需對(duì)分類器進(jìn)行訓(xùn)練,前期以小組文字選擇的方式,將具有這一特征的文字類型進(jìn)行整合,以便分類器更好的識(shí)別這一特征的字符。經(jīng)過(guò)不斷地深入學(xué)習(xí),在識(shí)別文字時(shí),系統(tǒng)將會(huì)在分類器中選出與所檢測(cè)文字相似特征最多的字符。在對(duì)機(jī)器進(jìn)行日常訓(xùn)練的過(guò)程中,采用文字交叉驗(yàn)證方式,使機(jī)器不斷搜集到有關(guān)文字特征的共性,對(duì)文字識(shí)別準(zhǔn)確度的提升有顯著成效[6]。
結(jié)束語(yǔ):
現(xiàn)如今,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能文字識(shí)別領(lǐng)域的重要組成模塊,為當(dāng)前文字識(shí)別的最常用手段。在未來(lái),文字識(shí)別領(lǐng)域?qū)⑾蛑鴮?duì)場(chǎng)景非拉丁文字的檢測(cè)與識(shí)別、多語(yǔ)言混合的端到端文字識(shí)別、曲線型文字的檢測(cè)與識(shí)別、文字圖像的自動(dòng)生成及提高算法的性能角度發(fā)展。隨著科學(xué)社會(huì)的發(fā)展,文字識(shí)別技術(shù)將被更多的應(yīng)用到虛擬現(xiàn)實(shí)、教育、車牌識(shí)別、無(wú)人駕駛等諸多領(lǐng)域,成為未來(lái)科學(xué)研究的主流。
參考文獻(xiàn):
[1] 馮琬婷. 基于文字識(shí)別視角分析人工智能機(jī)器學(xué)習(xí)中的文字識(shí)別方法[J]. 電子技術(shù)與軟件工程,2019,8(13):253.
[2] 張龍坤,何舟橋,萬(wàn)武南. 基于機(jī)器學(xué)習(xí)的截圖識(shí)別翻譯應(yīng)用研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2020,5(8):54-56.
[3] 劉維維. 人工智能技術(shù)在移動(dòng)終端自動(dòng)化測(cè)試中的應(yīng)用[J]. 軟件導(dǎo)刊,2021,20(2):59-62.
[4] 劉子俊,王廷凰. 基于AR文字識(shí)別技術(shù)實(shí)現(xiàn)二次設(shè)備定值修改[J]. 自動(dòng)化與儀器儀表,2019,6(2):161-164.
[5] 王祥旭,潘偉,張瓊,等. 人工智能輔助惡性腫瘤診斷的應(yīng)用進(jìn)展[J]. 腫瘤防治研究,2020,47(10):788-792.
[6] 高強(qiáng),靳其兵,程勇. 基于卷積神經(jīng)網(wǎng)絡(luò)探討深度學(xué)習(xí)算法與應(yīng)用[J]. 電腦知識(shí)與技術(shù),2020,5(13):169-170.