亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策導(dǎo)向非循環(huán)圖支持向量機的脫機手寫體漢字識別

        2016-05-14 21:38:50吳仕蓮楊杰趙冬琴
        關(guān)鍵詞:支持向量機

        吳仕蓮 楊杰 趙冬琴

        摘要:目前脫機手寫體漢字識別在小字符集方面取到了比較好的效果,但在大字符集方面仍存在著識別速度慢、準確率低等問題。不同于傳統(tǒng)的二叉樹方法,本文將決策導(dǎo)向非循環(huán)圖用于漢字識別,并加以改進。仿真實驗表明,該算法能對大字符集的手寫體漢字進行識別,有效減小了誤差,具有較高的識別率。

        關(guān)鍵詞:支持向量機 多分類 脫機手寫體漢字 決策導(dǎo)向非循環(huán)圖

        中圖分類號:TP391.4 文獻標識碼:A 文章編號:1007-9416(2016)07-0041-02

        Abstract:Currently,off-line handwritten Chinese characters recognition in the small category character recognition has obtained good effect. However,recognition in large character set still has the weakness of low efficiency and low accuracy.This paper presented an improved SVM-based algorithm of Decision Direct Acyclic Graph( DDAG). Simulation results demonstrate that the algorithm can recognize large character set of handwritten Chinese character and has high recognition performance.

        Key Words:SVM;multi-classification;Handwritten Chinese Characters;DDAG

        字符識別技術(shù)已經(jīng)發(fā)展了幾十年,對英文來說,識別技術(shù)已經(jīng)足夠成熟了[1]。而中文卻存在漢字字符集字量過大的問題,使得多分類問題愈加困難,對漢字的識別研究也集中于小字符集方面。傳統(tǒng)的識別技術(shù)如神經(jīng)網(wǎng)絡(luò)、決策樹等識別方法也存在識別速度慢、識別率不高等問題[2]。而SVM在識別手寫體漢字上具有識別率高、識別速度快的優(yōu)點[3]。針對SVM中常用的多分類方法存在的識別速度慢、誤差大的問題,文章提出一種將決策導(dǎo)向非循環(huán)圖用于漢字識別并加以改進的算法,并成功應(yīng)用于大字符集的漢字識別方面。

        1 支持向量機

        1.1 SVM分類器

        支持向量機( Support Vector Machine,SVM)這一概念是Vapnik等人在20世紀90年代中期首次提出的。它在泛化能力和有限個訓(xùn)練樣本的學(xué)習(xí)精度間取得了很好的平衡,由此獲得了較好的推廣能力。支持向量機 靈活地根植于凸優(yōu)化理論,因此具有良好的最優(yōu)化性。同時,SVM建立于結(jié)構(gòu)風險最小化準則上,從而使得支持向量機分類器具有較好的推廣能力 ,已得到了廣泛的應(yīng)用。SVM起初對線性可分情況進行分析,而對于漢字識別的非線性分類問題,用核函數(shù)將特征向量從低維空間映射到高維空間,使低維空間的非線性分類問題轉(zhuǎn)換為高維空間的線性分類問題,在高維空間采用線性分類算法對漢字的非線性特征進行分析。在二分類問題中,給定樣本

        ,,則svm的判決函數(shù)就是下式

        (1)

        其中是(2)式約束問題的最優(yōu)解

        (2)

        (3)

        (4)

        其中為拉格朗日乘子,C為懲罰因子,b是分類閾值,b的計算公式如下

        (5)

        K為核函數(shù),定義了一個從低維空間到高維空間的映射,是一種計算映射到高維空間之后內(nèi)積的一種簡便方法。主要有

        (1)線性內(nèi)核:

        (2)徑向基內(nèi)核(RBF):

        (3)多項式內(nèi)核:

        (4)sigmoid核:

        本文采用的應(yīng)用最廣的RBF核函數(shù),在手寫體識別領(lǐng)域也取得了較好的效果。SVM的計算機實現(xiàn)則采用smo的改進算法。

        1.2 多分類問題

        SVM本來是針對二分類問題提出來的,而漢字識別卻是多分類問題,所以要構(gòu)造多類分類器,目前主要是通過多個二分類器組合實現(xiàn)多類分類的功能。常見方法有one-against-one、one-against-rest兩種。

        (1)一對其他法(one-against-rest):即在訓(xùn)練時依次把某個類別的樣本歸為一類,其他剩余的樣本歸為另一類,這樣k個類別的樣本就構(gòu)造出了k個二分類器。分類時比較的值,將最大值對應(yīng)類別賦給待分類樣本。

        (2)一對一法(one-against-one):在任意兩類樣本之間設(shè)計一個二分類器,即k個類別的樣本就需要設(shè)計k(k-1)/2個二分類器。當對一個待識別樣本進行分類時,用所有的二分類器對樣本進行“投票”,該待分類樣本的類別就是最后得票最多的類別。一對一分類方法簡單有效,并且訓(xùn)練時間較短,適合大字符集的漢字識別這樣的大規(guī)模數(shù)據(jù)。因此本文選擇一對一法訓(xùn)練二分類器。

        2 決策導(dǎo)向非循環(huán)圖

        2.1 決策導(dǎo)向非循環(huán)圖基本原理

        決策導(dǎo)向非循環(huán)圖DDAG(Decision Direct Acyclic Graph),對于n類分類問題,DDAG采用一對一(one against one)的方法訓(xùn)練分類器,即得到n(n-1)/2個二分類器。為了解決k類分類問題,首先需要訓(xùn)練k(k-1)/2個分類器,然后DDAG識別需經(jīng)過下列步驟

        (1)生成類別系列,,并且定義i與j,初始化分別指向序列的開頭與結(jié)尾

        (2)對于待識別樣本x,用二類分類器進行分類,其中表示由和類訓(xùn)練樣本訓(xùn)練而成的二分類器。

        (3)如果類,則令;如果,則令。再回到②,直到,此時i指向的類別即為待分類樣本x的類別。

        結(jié)果如圖1所示。

        可以看出,DDAG采用了1-v-1的多類SVM基本結(jié)構(gòu)[8]。對于一個N類問題的分類過程,DDAG為了對某待測樣本進行分類,只需要構(gòu)造n-1個決策點,相對其他方法而言速度更快,并且準確度更高,不存在誤分、拒分。

        2.2 基于改進DDAG的支持向量機

        傳統(tǒng)支持向量機采用一對一或者一對其它方法設(shè)計多分類器時,會存在誤分、拒分區(qū)域。而層次結(jié)構(gòu)固有的弊端就是自上而下的誤差累積,DDAG也不能避免。從圖1中可以看出誤差從根節(jié)點向下逐漸累積,并且越靠近根節(jié)點的分類性能對整個分類模型的影響越大。因此在生成DDAG的過程中,應(yīng)該讓更容易分離的兩類更早分離出來。而傳統(tǒng)DDAG隨機生成類別序列,并沒有刻意早分離容易分離的兩類。為了減少累積誤差,提高識別率,應(yīng)將容易分離的兩類分別放置在類別序列的兩端,即在漢字識別過程中,應(yīng)該將形近字訓(xùn)練成的二分類器放在葉子節(jié)點處,字形差別大的漢字訓(xùn)練成的二分類器放在上層節(jié)點。令p,q分別表示第p類和第q類漢字,在DDAG的第①步產(chǎn)生類別系列時,設(shè),,對于形近字,應(yīng)盡可能使i=j+1;對于字形差別比較大的漢字,則應(yīng)盡可能使i+j=k+1。這樣在識別過程中,從根節(jié)點到葉子節(jié)點的過程中,都是先分類差別大的2類,大大減少了上層節(jié)點的累積誤差。

        但在具體的計算機實現(xiàn)中,形近字的劃分卻很困難。采用聚類的方法無疑會很大程度上增加計算量,并且也不能很好的區(qū)分漢字的字形差異程度。而漢字的UTF-8編碼是按照拼音排列的,即音近字的編碼是相鄰的。一般而言,很多形近字也是音近的,所以很大程度上可以用UTF-8編碼來代表漢字的字形,即認為編碼相鄰的漢字是形近字,編碼差別越大,字形差別越大。這樣在生成類別序列時,只需要按照編碼逐個填入對應(yīng)的漢字類別即可。對于n個漢字的分類,具體算法流程如下:

        Step1:采用一對一的方法來訓(xùn)練分類器,得到n(n-1)/2個二分類器;

        Step2:根據(jù)UTF-8編碼從前往后依次給漢字標注為第1類,第2類...第i類...第n類;

        Step3:生成類別系列時,令;

        Step4:對于待識別樣本x,用二類分類器進行分類,其中表示由和類訓(xùn)練樣本訓(xùn)練而成的二分類器;

        Step5:如果類,則令;如果,則令。再回到②,直到;

        Step6:根據(jù)查找對應(yīng)的UTF-8編碼,并根據(jù)編碼確定并輸出對應(yīng)的漢字。

        3 仿真實驗及分析

        在識別之前對獲取文字圖像進行預(yù)處理,具體流程如下:

        3.1 二值化處理

        即先將24位真彩色圖像轉(zhuǎn)化為8位灰度圖像,然后使用otsu方法進行最佳全局閾值處理得到二值圖像。

        3.2 圖像分割及特征提取

        在分割之前之前獲得的二值圖像采用中值濾波方法做平滑去噪,然后使用投影方法分割出每個字符。有如下幾種常用的特征: (1)灰度或顏色的統(tǒng)計特征;(2)紋理與邊緣特征;(3)圖像的代數(shù)特征;(4)圖像變換系數(shù)特征。而本文采用一種較為便捷的特征提取方法,將文本圖像歸一化為32*16大小的圖像;然后將圖像網(wǎng)格化,劃分成3*3網(wǎng)格,分別統(tǒng)計每個網(wǎng)格中黑色像素點的個數(shù),這組成特征向量的前9維,然后統(tǒng)計兩條橫分割線和兩條縱分割線上黑色像素點的個數(shù),組成整個13維的特征向量。

        實驗根據(jù)UTF-8編碼選取常用的3729個漢字,每個漢字取40個訓(xùn)練樣本,10個測試樣本,核函數(shù)選擇徑向基函數(shù),懲罰因子C為1.2,松弛變量為0.001,識別結(jié)果如表1所示。

        從表1可以看出,DDAG在大字符集手寫體漢字的識別中具有較高的識別率,同時改進后的DDAG也減少了累積誤差,提高了識別率。仿真實驗表明,該算法能對大字符集的手寫體漢字進行識別,很大程度上減少了累積誤差,具有較高的識別率。

        參考文獻

        [1]In-Jung Kim and Xiaohui. Handwritten Hangul recognition using deep convolutional neural networks.Springer Berlin Heidelberg,2015.

        [2]李瓊,陳利,王維虎,基于 SVM 的手寫體數(shù)字快速識別方法研究[J].計算機技術(shù)與發(fā)展,2014,(02).

        [3]張芳,汪成軍.基于支持向量機的手寫體漢字的識別[J].計算機與數(shù)字工程,2006,(01).

        [4]朱程輝,項思俊.手寫體漢字識別的二叉樹 SVM算法研究[J].智能、算法、系統(tǒng)工程,2009,(09).

        [5]Keerithi SS,Shevade SK,Bhattacharyya C, et al. Improvements to Platt' s SMO Algorithm for SVM Classifier Design[ J] .Neural Computation, 2001,13( 3): 637~ 649.

        [6]秦朗.基于二叉樹多層分類SVM的脫機手寫體漢字識別方法研究[D].合肥:合肥工業(yè)大學(xué),2010.

        [7]劉勇,全廷偉.基于 DAG-SVMS 的 SVM 多類分類方法[J].統(tǒng)計與決策,2007,248(20):14-148.

        [8]李昆侖.一種基于有向無環(huán)圖的多類SVM分類器[J].模式識別與人工智能,2003,(02).

        [9]汪政,邵良杉.多類支持向量機分類算法—DDAG[J].研究開發(fā),2010,(07).

        [10]翟俊海,趙文秀,王熙照.圖像特征提取研究[J].河北大學(xué)學(xué)報,2009,(01).

        猜你喜歡
        支持向量機
        基于支持向量回歸機的電能質(zhì)量評估
        基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
        數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟性分析系統(tǒng)中的應(yīng)用Q
        基于改進支持向量機的船舶縱搖預(yù)報模型
        中國水運(2016年11期)2017-01-04 12:26:47
        基于SVM的煙草銷售量預(yù)測
        動態(tài)場景中的視覺目標識別方法分析
        論提高裝備故障預(yù)測準確度的方法途徑
        價值工程(2016年32期)2016-12-20 20:36:43
        基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
        價值工程(2016年29期)2016-11-14 00:13:35
        基于支持向量機的金融數(shù)據(jù)分析研究
        管理類研究生支持向量機預(yù)測決策實驗教學(xué)研究
        考試周刊(2016年53期)2016-07-15 09:08:21
        国产av久久在线观看| 日韩人妻无码精品久久伊人| 国产日韩亚洲中文字幕| 亚洲国产精品激情综合色婷婷| 无码乱肉视频免费大全合集 | 天天综合网天天综合色| 999国产精品视频| 亚洲精品中文字幕乱码人妻| 插入日本少妇一区二区三区| 亚洲第一大av在线综合| 免费a级毛片18禁网站 | 成人丝袜激情一区二区| 人妻少妇邻居少妇好多水在线 | 欧美一区二区三区激情| 精品国产av无码一道| 无码成年性午夜免费网站蜜蜂| 蜜桃国产精品视频网站| 乱人伦中文视频在线| 色欲麻豆国产福利精品| 亚洲成熟丰满熟妇高潮XXXXX| 亚洲国产免费不卡视频| 国内成+人 亚洲+欧美+综合在线| 91精品国产综合成人| 杨幂二区三区免费视频| 伊人久久这里只有精品| 人人爽人人爽人人爽人人片av| 91短视频在线观看免费| 精品中文字幕精品中文字幕| 人妻丰满熟av无码区hd| 人妻熟妇乱又伦精品视频app | 欧美成人午夜免费影院手机在线看 | 人妻中文字幕在线一二区| 国产极品女主播国产区| 欧美精品偷自拍另类在线观看| 亚洲天堂免费av在线观看| 2020国产在视频线自在拍| 婷婷中文字幕综合在线| av一区二区三区亚洲| 亚洲精品一区二区三区在线观| 亚洲成aⅴ人片久青草影院| 宅男噜噜噜|