劉立滿 楊勝衛(wèi) 王若男
摘要:光學符號識別在電子設備上已經(jīng)有廣大的應用。本文對圖像數(shù)據(jù)的分析,選取圖像特征,圖像字符識別進行了討論,最后對模型進行評價和優(yōu)化。
針對問題二,首先利用去掉變化小的特征法,對字符在矩形區(qū)域的水平位置與豎直位置的數(shù)據(jù)做取值預處理,得到字符在矩形區(qū)域的水平位置與豎直位置的選取區(qū)間,從而確定判斷識別字符的位相特征;然后再利用線性回歸與正則化,以字符所在矩形區(qū)域的寬度與高度的數(shù)據(jù),通過矩陣X和Y進行線性回歸,得到壓縮因子的有效自由度。
關鍵詞:去掉變化小的特征;線性回歸與正則化;K-L變化特征提取識別模型;模糊綜合評價模型
一、問題的重述
分析所給圖像數(shù)據(jù)集,為例能夠準確判斷識別每個字符,需要選取哪些恰當?shù)奶卣鳌?/p>
二、模型假設
1.假設樣本的所有數(shù)據(jù)記錄無誤,無特殊因素對樣本數(shù)據(jù)記錄產(chǎn)生影響
2.假設光學機器操作對字符識別不產(chǎn)生影響
3.假設燈光、定位和對象的位置對圖像數(shù)據(jù)沒有影響
4.假設在特定時間類,字符的暗、亮模式與形狀不發(fā)生改變
三、模型的建立與求解
3.1圖像識別特征的選取
特征選擇需要處理兩個問題[6],一是確定選擇識別算法,在一定的時間內(nèi),以最小的時間代價找出最能描述類別的特征組合;二是確立評價標準,權(quán)衡特征組合的效率,獲取特征操作的停止條件。所以,分為兩個步驟獲取字符特征,首先得到特征子集,然后對特征子集進行評估,如果特征達到停止條件,則操作完成,否則重復前面兩步到停止條件滿足為止。
3.1.1去掉取值變化小的特征
圖像數(shù)據(jù)集中,字符在矩形區(qū)域的水平位置的
這里對水平位置的橫向坐標做去掉取值變化小的處理:
即對集合(x1, x2, x3…x20000)做出去掉取值變化小的操作,以區(qū)間,即區(qū)間(2.11,5.93)作為字符在矩形區(qū)域的水平位置的選取區(qū)間。把在選取區(qū)間外的字符去掉。
同樣在圖像數(shù)據(jù)集中,字符在矩形區(qū)域的豎直位置的
這里對豎直位置的縱向坐標做去掉取值變化小的處理:
集合(x1, x2, x3…x20000),以區(qū)間即區(qū)間(3.73,10.33)作為字符在矩形區(qū)域的豎直位置的選取區(qū)間。將在豎直選取區(qū)間外的字符去掉。
綜上,依據(jù)去掉取值變化最小特征的數(shù)據(jù)處理,確定字符在矩形區(qū)域的水平位置與豎直位置,從而確定字符在矩形區(qū)域的位相特征。
3.1.2線性回歸和正則化
正則化是構(gòu)造風險最小化方法,在經(jīng)驗風險的基礎上加上正則化。正則化是一種類似模型復雜度的單調(diào)遞增函數(shù)[7]。
幾何意義:正交投影
故:
字符所在矩形區(qū)域的寬度X=(x1, x2, x3…x20000)T
字符所在矩形區(qū)域的高度Y=(y1, y2, y3…y20000)T
參考文獻:
[1]張世輝.漢字圖像預處理算法的研究及實現(xiàn)[J].微機發(fā)展,2003 (04):53-55+58.
[2]關石菡.數(shù)理統(tǒng)計在數(shù)據(jù)分析中的應用研究[J].林區(qū)教學,2011 (06):87-88.
[3]吳瀚.對于使用Adaptive Lp正則化的線性回歸問題在高維情況下漸近性質(zhì)的討論[D].復旦大學,2014.