亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主成分分析法及貝葉斯分類(lèi)器的手寫(xiě)數(shù)字識(shí)別

        2015-11-23 06:34:18尹東霞
        大眾科技 2015年9期

        尹東霞

        (山東科技大學(xué)網(wǎng)絡(luò)與信息中心,山東 青島 266590)

        基于主成分分析法及貝葉斯分類(lèi)器的手寫(xiě)數(shù)字識(shí)別

        尹東霞

        (山東科技大學(xué)網(wǎng)絡(luò)與信息中心,山東 青島 266590)

        針對(duì)目前手寫(xiě)數(shù)字難識(shí)別并且識(shí)別正確率低這一現(xiàn)象,提出了一套基于主成分分析法及貝葉斯分類(lèi)器的手寫(xiě)數(shù)字識(shí)別方法。該方案首先利用主成分分析法減小輸入數(shù)據(jù)的維數(shù),而后把降維的數(shù)據(jù)作為訓(xùn)練過(guò)的貝葉斯分類(lèi)器的輸入,從而得到對(duì)于輸入的手寫(xiě)數(shù)字的識(shí)別。在 MNIST手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集上該方法能夠達(dá)到96.35%的識(shí)別率。該仿真結(jié)果說(shuō)明文章提出的手寫(xiě)數(shù)字識(shí)別策略能夠?qū)崿F(xiàn)對(duì)手寫(xiě)數(shù)字的高效的識(shí)別。

        手寫(xiě)數(shù)字識(shí)別;主成分分析法;貝葉斯分類(lèi)器

        1 引言

        對(duì)于手寫(xiě)數(shù)字的識(shí)別是人們?nèi)粘I钚枰瓿傻娜蝿?wù)之一。在人們?nèi)粘5纳钪?,每個(gè)人每天都需要與數(shù)字打交道。在以往,對(duì)手寫(xiě)數(shù)字的識(shí)別多采用人工的方式。但是在現(xiàn)代化及信息化高度發(fā)達(dá)的時(shí)代,如何實(shí)現(xiàn)用計(jì)算機(jī)或者現(xiàn)代計(jì)算機(jī)器實(shí)現(xiàn)對(duì)于手寫(xiě)數(shù)字的高效快速的識(shí)別是一個(gè)亟需解決的問(wèn)題。隨著社會(huì)的發(fā)展以及經(jīng)濟(jì)的發(fā)展,每天需要處理的數(shù)據(jù)的數(shù)目在急劇增加,在需要處理的數(shù)據(jù)中,手寫(xiě)數(shù)字由于其難識(shí)別性等特點(diǎn),成為阻礙大規(guī)模機(jī)器處理數(shù)據(jù)的難點(diǎn),所以實(shí)現(xiàn)手寫(xiě)數(shù)字的高效快速識(shí)別是一項(xiàng)重要的任務(wù)。但是由于不同的人具有不用的字體,同時(shí)很可能存在書(shū)寫(xiě)不規(guī)范的現(xiàn)象,手寫(xiě)數(shù)字的識(shí)別是一個(gè)極其復(fù)雜的過(guò)程。針對(duì)目前手寫(xiě)數(shù)字難識(shí)別并且分辨正確率低這一現(xiàn)象,提出了一套基于主成分分析法(PCA)及貝葉斯分類(lèi)器的手寫(xiě)數(shù)字識(shí)別方法。該方案首先利用主成分分析法減小輸入數(shù)據(jù)的維數(shù),而后把降維的數(shù)據(jù)作為訓(xùn)練過(guò)的貝葉斯分類(lèi)器的輸入,從而得到對(duì)于輸入的手寫(xiě)數(shù)字的識(shí)別。

        文章的章節(jié)安排如下:第一部分為引言,為第一節(jié);在第二部分中,介紹本文采用的主成分分析法以及貝葉斯分類(lèi)器,為第二節(jié)和第三節(jié);在最后一部分,在MNIST數(shù)據(jù)集上對(duì)本文提出手寫(xiě)數(shù)字識(shí)別方法進(jìn)行驗(yàn)證,為第四節(jié)。

        2 主成分分析法

        PCA(或稱(chēng)主分量分析)作為一種多元統(tǒng)計(jì)技術(shù),是一種建立在統(tǒng)計(jì)特征基礎(chǔ)上的多維正交線性變換,常用來(lái)對(duì)信號(hào)進(jìn)行特征提取和對(duì)數(shù)據(jù)進(jìn)行降維,是由Pearson于1901年首先提出其概念,隨后由Hotelling、J.E.Jackson等學(xué)者對(duì)其進(jìn)行了發(fā)展[1],后來(lái)研究者們用概率論的形式再次描述了主成分分析算法,使得 PCA法得到更進(jìn)一步的理論上的發(fā)展?,F(xiàn)今國(guó)內(nèi)外已有很多學(xué)者對(duì)其進(jìn)行了研究,它廣泛應(yīng)用于化學(xué)、模式識(shí)別、圖像處理等各個(gè)領(lǐng)域[2],不同應(yīng)用領(lǐng)域其被賦予不同名稱(chēng),如KL變換(Karhunen-Loeve Transform)、霍特林變換(Hotelling Transform)、子空間法 (Subspace Approach)和特征結(jié)構(gòu)法(Eigen-structure Approach)等[3,4]。

        PCA作為一種最常用的數(shù)據(jù)降維算法,同時(shí)也可看作是一種掌握事物主要矛盾的多元統(tǒng)計(jì)分析方法,是最為常用的特征提取方法,一直受到人們的關(guān)注和研究。它通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行加工處理,使得問(wèn)題處理的難度和復(fù)雜度大大簡(jiǎn)化,可以提高數(shù)據(jù)的信噪比,以改善原始數(shù)據(jù)的抗千擾能力。主成分分析法(Principal Component Analysis,PCA)的原理是利用一個(gè)特殊的特征向量矩陣U,將一個(gè)具有高維數(shù)的向量投影到一個(gè)低維的向量空間中,在這個(gè)過(guò)程中應(yīng)該保證盡可能少的損失了重要信息,僅損失一些次要信息。該過(guò)程的逆過(guò)程為通過(guò)低維表征的向量和特征向量矩陣,可以重構(gòu)或者大體重構(gòu)出出所對(duì)應(yīng)的原始高維向量。

        本文針對(duì)手寫(xiě)數(shù)字的特點(diǎn),設(shè)計(jì)通過(guò)空間投影的方式減少輸入數(shù)據(jù)的維數(shù),通過(guò)計(jì)算圖像矩陣的協(xié)方差矩陣,選擇出變化比較大同時(shí)區(qū)分度比較明顯的像素點(diǎn),并且形成投影矩陣,通過(guò)投影矩陣把原數(shù)據(jù)投影到投影空間中,該過(guò)程應(yīng)該保證手寫(xiě)數(shù)字圖像損失信息越少越好,即保證原數(shù)據(jù)與投影數(shù)據(jù)之間的空間距離越小越好。

        3 貝葉斯分類(lèi)器

        貝葉斯分類(lèi)器是建立在貝葉斯理論基礎(chǔ)上的分類(lèi)器,主要應(yīng)用某個(gè)對(duì)象或者數(shù)據(jù)的先驗(yàn)概率,而后利用貝葉斯理論計(jì)算出后驗(yàn)概率,然后選擇能夠最大化后驗(yàn)概率的作為對(duì)象或者數(shù)據(jù)的屬性。

        上述的過(guò)程可以簡(jiǎn)化為下面的情況:假設(shè)某個(gè)對(duì)象具有m個(gè)屬性,F(xiàn)1,F2,…,Fm?,F(xiàn)在具有n個(gè)類(lèi),C1,C2,…,Cn?,F(xiàn)在需要確定一個(gè)新的對(duì)象屬于哪一類(lèi),貝葉斯分類(lèi)器工作過(guò)程就是選擇出概率最大的那個(gè)分類(lèi),即最大化公式(1)[5-7]

        其中,P(F1,F2,…,Fm)對(duì)于同一個(gè)體或者對(duì)象而言,都是一樣的。整個(gè)過(guò)程就簡(jiǎn)化為求解P(F1,F2,…,Fm|C)P(C)。

        和其他數(shù)據(jù)挖掘或者模式識(shí)別中采用的分類(lèi)器相同,應(yīng)用貝葉斯分類(lèi)器對(duì)對(duì)象或者數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程可以分成兩步:第一步,對(duì)模型的訓(xùn)練,即從樣本數(shù)據(jù)中進(jìn)行學(xué)習(xí);第二步是用訓(xùn)練出的模型對(duì)數(shù)據(jù)或者對(duì)象進(jìn)行分類(lèi)。在模型的訓(xùn)練過(guò)程以及后續(xù)的識(shí)別過(guò)程中,模型計(jì)算的復(fù)雜度會(huì)影響計(jì)算的效率以及結(jié)果。對(duì)于貝葉斯分類(lèi)器而言,往往需要進(jìn)行簡(jiǎn)化[8],本文采用主成分分析法來(lái)減少貝葉斯分類(lèi)器的輸入屬性數(shù)目,從而減少訓(xùn)練分類(lèi)器所消耗的時(shí)間。

        4 數(shù)據(jù)集仿真及結(jié)果分析

        本文采用MNIST手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集作為本文提出的手寫(xiě)數(shù)字識(shí)別策略的仿真數(shù)據(jù)集,該數(shù)據(jù)集具有60000個(gè)訓(xùn)練數(shù)據(jù),并且具有10000個(gè)測(cè)試數(shù)據(jù)。在MNIST數(shù)據(jù)集中的數(shù)據(jù)均是經(jīng)過(guò)大小統(tǒng)一化以及圖形集中的固定大小的圖像。并且采用MATLAB作為系統(tǒng)仿真軟件進(jìn)行仿真。

        圖1 MNIST數(shù)據(jù)集中的數(shù)據(jù)樣式

        在本次試驗(yàn)中,采用MNIST數(shù)據(jù)集中的10000個(gè)數(shù)據(jù)作為整體數(shù)據(jù)集的代表。MNIST數(shù)據(jù)集中的部分手寫(xiě)數(shù)字如圖所示。并且用其中的8000個(gè)數(shù)據(jù)作為訓(xùn)練樣本明確主成分分析的下降維數(shù)和訓(xùn)練貝葉斯分類(lèi)器,剩下的 2000樣本作為測(cè)試樣本對(duì)于訓(xùn)練出的貝葉斯分類(lèi)器進(jìn)行驗(yàn)證。

        MNIST數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)為一個(gè)28*28像素點(diǎn)的圖像,一共784維數(shù)據(jù)。這對(duì)于后續(xù)的貝葉斯分類(lèi)器意味著其具有784維的輸入數(shù)據(jù),這樣不僅會(huì)增加貝葉斯分類(lèi)器的訓(xùn)練成本,而且會(huì)增加后續(xù)計(jì)算的時(shí)間。所以對(duì)于784維的輸入數(shù)據(jù),首先應(yīng)該對(duì)其進(jìn)行降維處理。本文采用主成分分析法對(duì)輸入的訓(xùn)練以及測(cè)試樣本數(shù)據(jù)降維。對(duì)于主成分分析法而言,應(yīng)該需要明確需要選擇哪幾個(gè)維度進(jìn)行投影,維度應(yīng)該滿足盡可能少的同時(shí)滿足一定準(zhǔn)確性。

        在確定 PCA降低維數(shù)的過(guò)程中,采用相應(yīng)的平方差的方式對(duì)數(shù)據(jù)進(jìn)行衡量。數(shù)據(jù)的降維可以理解為原數(shù)據(jù)向數(shù)據(jù)空間內(nèi)的某個(gè)平面進(jìn)行投影,由于降維的存在,降維后的數(shù)據(jù)相比原數(shù)據(jù)會(huì)損失一部分信息,需要盡可能的減小原數(shù)據(jù)與降維后的數(shù)據(jù)之間的空間距離。

        通過(guò)選取不同的數(shù)量的主成分,能夠發(fā)現(xiàn)如圖2所示的規(guī)律曲線。其中坐標(biāo)的橫軸為選取的主成分的數(shù)目,經(jīng)過(guò)投影矩陣的變換,原數(shù)據(jù)與投影數(shù)據(jù)之間存在誤差,全體數(shù)據(jù)的誤差由縱軸表示。通過(guò)圖像可以發(fā)現(xiàn),當(dāng)主成分?jǐn)?shù)目位于30到50之間時(shí),總體誤差大概為1000左右,平均誤差為0.125。并且通過(guò)計(jì)算原數(shù)據(jù)的協(xié)方差矩陣的特征值,并選取最大特征值的0.05作為選取主成分的閾值,小于閾值的筆者認(rèn)為具有不重要的信息,通過(guò)選擇的特征值能夠得到相應(yīng)的投影矩陣。通過(guò)主成分?jǐn)?shù)目與數(shù)據(jù)誤差之間的妥協(xié),主成分?jǐn)?shù)目應(yīng)該選擇為37。

        圖2 主成分?jǐn)?shù)目與數(shù)據(jù)平均差之間關(guān)系

        MATLAB的仿真結(jié)果表明,對(duì)于2000個(gè)數(shù)據(jù)的測(cè)試集進(jìn)行驗(yàn)證,識(shí)別錯(cuò)誤的數(shù)目為73,正確率達(dá)到96.35%。混淆矩陣如圖3所示。

        圖3 混淆矩陣

        通過(guò)實(shí)驗(yàn)結(jié)果能夠發(fā)現(xiàn),被錯(cuò)誤識(shí)別的數(shù)字分布的比較平均,并且為實(shí)際的書(shū)寫(xiě)中容易被肉眼錯(cuò)誤識(shí)別的數(shù)字。

        綜上所示,書(shū)寫(xiě)數(shù)字識(shí)別的全過(guò)程如圖4所示。

        圖4 書(shū)寫(xiě)數(shù)字識(shí)別全過(guò)程

        5 結(jié)論

        本文提出了一套基于主成分分析法及貝葉斯分類(lèi)器的手寫(xiě)數(shù)字識(shí)別方法。該方法首先利用主成分分析法以及原數(shù)據(jù)協(xié)方差矩陣的特征值減小輸入數(shù)據(jù)的維數(shù),而后把降維的數(shù)據(jù)作為訓(xùn)練過(guò)的貝葉斯分類(lèi)器的輸入,從而得到對(duì)于輸入的手寫(xiě)數(shù)字的識(shí)別。在MNIST手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集上該方法能夠達(dá)到96.35%的識(shí)別率。

        [1] 張媛,張燕平.一種 PCA算法及其應(yīng)用[J].微機(jī)發(fā)展,2005, 15(2):67-69.

        [2] K. Pearson, P. Mag. On lines and planes of closest fit to systems of points in space[J].1901,(2):559-572.

        [3] D.E.Johnson.Applied multivariate methods for data analysis[M]. Beijing:Higher Education Press,2005:93-111.

        [4] 佘映,王斌,張立明.一種面向數(shù)據(jù)學(xué)習(xí)的快速PCA算法[J].模式識(shí)別與人工智能,2009,22(4):568-573.

        [5] 費(fèi)愛(ài)蓉.基于貝葉斯方法的Web服務(wù)分類(lèi)的研究[D].安徽:合肥工業(yè)大學(xué),2004.

        [6] 徐磊.基于貝葉斯網(wǎng)絡(luò)的突發(fā)事件應(yīng)急決策信息分析方法研究[D].黑龍江:哈爾濱工業(yè)大學(xué),2013.

        [7] 邸俊鵬.分位數(shù)回歸的貝葉斯估計(jì)與應(yīng)用研究[D].天津:南開(kāi)大學(xué),2013.

        [8] 任曉明,李章呂.貝葉斯決策理論的發(fā)展概況和研究動(dòng)態(tài)[J].科學(xué)技術(shù)哲學(xué)研究,2013,(2):1-7.

        The identification of Hand-written digits based on Principal Component Analysis and Bayesian classifier

        To deal with the low discrimination and low accuracy of the hand-written digits,this paper proposed a hand-written digits identification method which is based on the Principal Component Analysis (PCA) and the Bayesian classifier.This scheme employs the PCA to reduces the dimension of the input data,then the dimension-reduced data is regarded as the input for the Bayesian classifier,the result of the classifier is the identified digits.This method achieves the accuracy of 96.35% on the MNIST hand-written digits data set.The case study shows that the hand-written digit identification scheme this paper proposed can identify the hand-written digits effectively.

        Hand-written digits identification; Principal Component Analysis(PCA);Bayesian classifier

        TM732

        A

        1008-1151(2015)09-0039-03

        2015-08-15

        尹東霞(1964-),女,山東青島人,山東科技大學(xué)網(wǎng)絡(luò)與信息中心高級(jí)工程師,從事校園網(wǎng)絡(luò)管理與服務(wù)工作。

        日本一区二区视频免费在线看| 亚洲综合久久精品少妇av| 91情侣视频| 欧洲一级无码AV毛片免费| 国产精品丝袜美腿诱惑| 亚洲国产人成综合网站| 国产亚洲精品美女久久久久| 亚洲人成人无码www影院| 白又丰满大屁股bbbbb| 亚洲精品成人专区在线观看| 韩日无码不卡| 伊人狼人影院在线视频| 亚洲免费一区二区三区四区| 国产亚洲精品久久久久久国模美| 无遮挡h肉动漫在线观看| 无码视频一区二区三区在线观看| 精品亚洲少妇一区二区三区 | 免费毛片一区二区三区女同| 白白色视频这里只有精品| 中文字幕一区二区三区视频| 久久精品夜色国产亚洲av| 欧美巨大xxxx做受中文字幕| 国产人澡人澡澡澡人碰视频| 强d乱码中文字幕熟女1000部| 国内精品毛片av在线播放| 亚洲理论电影在线观看| 日本丰满熟妇bbxbbxhd| 无码一区二区三区不卡AV| 日韩精品有码中文字幕| 亚洲写真成人午夜亚洲美女| 成在线人av免费无码高潮喷水| 午夜成人精品福利网站在线观看| 91精品91| 亚洲乱码中文字幕三四区| 国产福利永久在线视频无毒不卡| 国产超碰人人做人人爱ⅴa| 麻豆变态另类视频在线观看| 伊人久久亚洲综合av影院| 我和丰满妇女激情视频| 欧美午夜精品一区二区三区电影| 亚洲国产精品嫩草影院久久|