亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于UCI數(shù)據(jù)集的OCR光學字符識別

        2022-12-22 06:07:26史素霞常婉秋宋志英
        科技創(chuàng)新與應(yīng)用 2022年35期
        關(guān)鍵詞:模型

        史素霞,常婉秋,宋志英

        (1.河北政法職業(yè)學院 建設(shè)工程與法務(wù)系,石家莊 050061;2.中國農(nóng)業(yè)大學 土地科學與技術(shù)學院,北京 100083;3.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)災(zāi)害遙感重點實驗室,北京 100083)

        OCR字符識別是將影像數(shù)據(jù)提取出相應(yīng)的字符信息,并翻譯成計算機語言的過程[1]。實際上對于OCR文字識別的過程,首先是確定字符所在的矩形區(qū)域,通過記錄矩陣區(qū)域的黑色像素數(shù),對字符內(nèi)容進行記錄,通過記錄矩形區(qū)域內(nèi)黑色像素的平均和值,以及和的平均方差等統(tǒng)計信息,使得字符的識別具有唯一性,有利于更加準確地識別字符。計算機的發(fā)展對OCR光學字符的識別產(chǎn)生深遠的影響。

        1999—2004年,研究學者主要基于傳統(tǒng)的統(tǒng)計方法對光學字符進行識別[2],隱馬爾柯夫模型(Hidden Markov Model,HMM)和支持向量機(Support Vector Machine,SVM)模型出現(xiàn)跳躍式發(fā)展,研究學者將人臉識別技術(shù)和字符識別技術(shù)進行交叉研究[3]。2005—2012年研究學者有了新的突破,將遺傳算法應(yīng)用于文本檢測等字符識別方向[4]。Xiao等[5]將卷積神經(jīng)網(wǎng)絡(luò)(CNN)的運行成本進行優(yōu)化,基于全局監(jiān)督低秩展開方法(GSLRE)和自適應(yīng)下降權(quán)重(ADW)進行字符識別,將計算成本降低了10%。

        1 數(shù)據(jù)來源與預(yù)處理

        1.1 UCI光學字符識別數(shù)據(jù)集

        本次研究選用開源的UCI光學字符數(shù)據(jù)集,從UCI Machine Learning Repository中下載獲得。UCI數(shù)據(jù)集是根據(jù)機器學習相關(guān)數(shù)據(jù)標準建立的測試性數(shù)據(jù)集,由加利福尼亞大學爾灣分校(University of California,Irvine)提出,用于深度學習和機器學習算法測試的一種數(shù)據(jù)庫。本次實驗選用UCI數(shù)據(jù)集,原因在于其數(shù)據(jù)格式的標準性,統(tǒng)一規(guī)范的數(shù)據(jù)格式有利于對數(shù)據(jù)進行處理和分析,數(shù)據(jù)源質(zhì)量的提高有助于識別精度的提升。

        UCI光學字符數(shù)據(jù)集中包含多個字母樣本,每個樣本包括16個變量。其中,將字符所在矩形區(qū)域的水平位置表示為x1、字符所在矩形區(qū)域的豎直位置表示為x2、矩形區(qū)域的寬度表示為x3、矩形區(qū)域的高度表示為x4、矩形區(qū)域的黑色像素數(shù)表示為x5、矩形區(qū)域內(nèi)黑色像素的平均x值表示為x6、矩形區(qū)域內(nèi)黑色像素的平均y值表示為x7、x平均方差表示為x8、y平均方差表示為x9、x和y的平均相關(guān)性表示為x10、x2y均值表示為x11、xy2均值表示為x12、從左到右的邊緣數(shù)目表示為x13、x邊緣與y的相關(guān)性表示為x14、從下到上的邊緣數(shù)目表示為x15及y邊緣與x的相關(guān)性表示為x16。

        1.2 數(shù)據(jù)預(yù)處理

        通過對數(shù)據(jù)的篩選可以發(fā)現(xiàn)UCI數(shù)據(jù)集中存在許多0值點,再結(jié)合對變量含義的理解,將變量x1—x14中的0值視為殘缺值,通過平均值代替。對于變量x15和x16,這2個變量中的0值表示的是一種數(shù)據(jù)統(tǒng)一的理想情況,即這2個變量中可以存在0值,且有意義,因此不將其視為殘缺值,但這2個變量中的最大值表示這組數(shù)據(jù)不穩(wěn)定,通過平均值進行替換。

        2 研究方法

        2.1 主成分分析模型

        主成分分析方法通過降維的思想[6],將多個相關(guān)或不相關(guān)的指標化為垂直不相關(guān)的幾個綜合指標,即為模型的多元主成分。對于本次研究而言,此方法就是用主要的影響因素來分析圖像數(shù)據(jù)集,以達到準確判斷和識別每個字符的目的,具體模型建立過程如圖1所示。

        圖1 主成分分析流程圖

        2.2 逐步回歸模型

        多元回歸的逐步回歸模型根據(jù)自變量x的顯著程度,從大到小依次引入回歸方程中,當之前引入的變量由于后面新引入的變量而變得不顯著時,就要將之前那個剔除?;诒敬蔚难芯繂栴}而言,這個過程要反復(fù)多次進行,直至沒有顯著的變量可以被引入時為止,模型因子的作用如圖2所示。

        圖2 逐步回歸因子圖

        在原始下載的UCI數(shù)據(jù)集中存在很多的混雜因子,不利于進行字符識別模型的建立,以及影響字符識別的精度?;祀s因子對暴露因子會產(chǎn)生一定的影響,并且對最后的部分結(jié)局因子會產(chǎn)生直接或間接的作用,而逐步回歸方程可以有效地剔除部分混雜因子,因此選用逐步回歸的方法,逐層剔除混雜因子。

        2.3 BP神經(jīng)網(wǎng)絡(luò)模型

        BP神經(jīng)網(wǎng)絡(luò)不需要提前描述輸入—輸出之間的映射關(guān)系,而是建立一種基于誤差分析訓練的多層前饋網(wǎng)絡(luò),通過學習計算各節(jié)點之間傳遞的映射關(guān)系,存儲大量的非線性網(wǎng)絡(luò)模型[7]。

        基于誤差反向傳播規(guī)律,將BP神經(jīng)網(wǎng)絡(luò)的特征函數(shù)Sigmoid表示為{f(x)=1/(1+e-bx),b>0},多層前向反饋型神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。

        圖3 BP神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)圖

        本次研究將UCI數(shù)據(jù)集中70%的數(shù)據(jù)用于學習訓練,訓練集從輸入層傳入隱含層進而到達輸出層,神經(jīng)網(wǎng)絡(luò)通過不斷調(diào)整各層之間的函數(shù)關(guān)系,使得訓練結(jié)果最接近真實的輸出值,并記錄這種映射關(guān)系,對剩余30%的字符數(shù)據(jù)集進行識別,從而得到識別的精度。經(jīng)過一系列的處理,使得本次研究的BP神經(jīng)網(wǎng)絡(luò)具有很好的適應(yīng)能力。

        本次研究建立的BP神經(jīng)網(wǎng)絡(luò)的總誤差E如公式(1)所示

        神經(jīng)網(wǎng)絡(luò)每一層權(quán)值的確定都是基于正向的信息傳遞和誤差的反向傳播,誤差信號δk的計算如公式(2)所示

        通過對輸出值Wk的正向傳播與期望值Ek的反向傳播計算,得到隱含層與輸出層之間的權(quán)重wkj如公式(3)所示

        誤差信號δk通過反向傳播至輸入層,從而得到輸入層誤差信號δi,計算過程如公式(4)所示

        基于反向傳播誤差信號δi,重新設(shè)定輸入層和隱含層之間的權(quán)重閾值wji,計算過程如公式(5)所示

        式中:η為控制迭代步長的學習率;α為控制訓練速度的動量項。

        通過對神經(jīng)網(wǎng)絡(luò)進行反復(fù)訓練,使得各層之間的權(quán)重閾值達到最好的效果,從而使整個BP神經(jīng)網(wǎng)絡(luò)的識別精度達到最好。

        3 結(jié)果與分析

        3.1 基于主成分分析的特征提取

        基于UCI數(shù)據(jù)集對數(shù)據(jù)的初步統(tǒng)計,提取每個字符對應(yīng)的所有變量的平均值,并以此作為原始的指標。對原始的指標進行標準化變換,根據(jù)統(tǒng)計學公式得到2個原始變量xi與xj之間的相關(guān)系數(shù)rij,計算過程如公式(6)所示

        式中:因為相關(guān)系數(shù)矩陣是對稱矩陣,所以rij=rji。

        通過主成分分析法計算原始變量的相關(guān)系數(shù)矩陣R,使累計貢獻率達85%以上,計算結(jié)果見1。

        表1 主成分分析總方差解釋

        由此得到7個主成分。

        3.2 基于逐步回歸的字符識別模型

        在進行逐步回歸計算前,引入主成分分析法得出的具有顯著作用的因子作為自變量,確定顯著性下檢驗的水準,作為引入和剔除變量的標準。針對本次的研究,樣本的觀察數(shù)n=26,自變量個數(shù)m=16,則剩余自由度為9,顯著性水平α=0.05,對7個自變量計算偏回歸平方和Ui,計算過程如公式(7)所示

        根據(jù)Ui值的大小作為自變量被引入線性回歸方程后對方差的貢獻。重復(fù)此步驟多次后,回歸方程已無自變量可以剔除,同時也無新變量可以再被引入,此時構(gòu)建出的字符識別模型為

        F=-2.549×10-15+3.54x1-0.42x2+2.87x3+0.89x4+2.97x5-1.61x6+1.61x7+1.96x8-0.54x9-1.84x10+2.03x11+0.48x12+1.88x13+1.61x14+0.84x15+0.94x16。

        3.3 基于神經(jīng)網(wǎng)絡(luò)的優(yōu)化識別模型

        根據(jù)公式(1)至公式(5)建立BP神經(jīng)網(wǎng)絡(luò),對基于主成分分析和逐步回歸算法建立的光學字符識別模型進行優(yōu)化,得到的神經(jīng)網(wǎng)絡(luò)模型為

        F=-2.55×10-15+3.52x1-0.41x2+2.64x3+0.89x4+2.91x5-1.63x6+1.61x7+1.96x8-0.51x9-1.87x10+2.02x11+0.41x12+1.83x13+1.62x14+0.81x15+0.91x16。

        為了直觀地看出通過字符識別模型預(yù)測出的數(shù)據(jù),選取了前7個字符的預(yù)測結(jié)果顯示,如圖4所示。

        圖4 字符識別分布圖

        4 精度評價

        將UCI數(shù)據(jù)集中70%的光學字符信息用于學習,30%的數(shù)據(jù)信息用于驗證,通過離散型方程選取與每個字符均值距離最遠的30%的數(shù)據(jù),計算出每2個字符大致相交處的分界線B,計算過程如公式(8)所示

        通過與字符的真實值進行比較,計算出每個字符的精度值,然后總和求均值Z,得到研究建立的字符識別模型精度Z為87.5%,各部分字符識別精度如圖5所示。

        圖5 字符識別精度分析圖

        5 結(jié)束語

        通過進行上述的實驗研究,對識別精度的提高做出以下猜想:

        本次實驗是將異常數(shù)據(jù)進行替換,將其變成可用數(shù)據(jù)的預(yù)處理方法,是在盡量不更改數(shù)據(jù)集數(shù)量的情況下進行的,如果將異常數(shù)據(jù)直接刪除,數(shù)據(jù)集變小,但精準度可能會提高。

        在建立BP神經(jīng)網(wǎng)絡(luò)的過程中,提高學習的數(shù)據(jù)比例,變更成學習UCI數(shù)據(jù)集的80%或者更多,使得到的訓練關(guān)系系數(shù)變得更加準確,進而提高識別的精度。

        在今后的實驗研究中將設(shè)計實驗,檢驗以上2個猜想,提高光學字符識別的精度。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲日本一区二区一本一道| 隔壁的日本人妻bd高清中字| 蜜臀av毛片一区二区三区| 女人被爽到高潮视频免费国产| 亚洲欧美日韩国产精品专区| 人妻人妻少妇在线系列| 伊人久久亚洲综合av影院| 免费a级毛片又大又粗又黑| 熟女人妇交换俱乐部| 级毛片免费看无码| 一区二区三区av资源网| 久久久久99精品成人片欧美| 亚洲av成人无码网站大全| 国模无码视频专区一区| 一区二区三区视频免费观看在线| 亚洲视频在线一区二区| 成人免费看www网址入口| 国产va免费精品高清在线观看| 亚洲福利网站在线一区不卡| 中文有码亚洲制服av片| 国产成人无码一区二区三区在线| 少妇裸体性生交| 精品久久久久久777米琪桃花| 日韩中文字幕欧美亚洲第一区| 激情综合网缴情五月天| 熟女人妻在线中文字幕| 久久99精品久久久久久9蜜桃| 热99re久久精品这里都是免费| 国产在线精品亚洲视频在线| 国产天堂av在线一二三四| 成年无码av片在线| av无码av在线a∨天堂app| 亚洲一区二区三区精彩视频| 97在线视频人妻无码| 精品国产av 无码一区二区三区| 囯产精品无码一区二区三区AV| 丰满少妇被爽的高潮喷水呻吟| 日韩精品视频一区二区三区 | 青草蜜桃视频在线观看| 高清国产亚洲精品自在久久| 2019最新中文字幕在线观看|