亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于支持向量機的英文字符識別研究

        2019-01-19 08:26:10鄭宇晨
        計算機技術(shù)與發(fā)展 2019年1期
        關(guān)鍵詞:懲罰分類模型

        鄭宇晨

        (四川師范大學 數(shù)學與軟件科學學院,四川 成都 610068)

        1 概 述

        伴隨著大數(shù)據(jù)時代的來臨,各種社會、生活現(xiàn)象背后的大數(shù)據(jù)“內(nèi)核”逐漸被人們關(guān)注、重視。圖像與語音識別是最為人熟知并受到高度關(guān)注的八個領(lǐng)域之一。文中對圖像識別中較簡單、實用的英文字符識別進行研究。限于PC的運算能力,這里研究樣本容量為20 000,參數(shù)空間為16維(加上1維的響應(yīng)值,是17維)的英文文本數(shù)據(jù)。針對“變體”的26個英文字母,建立模型進行準確識別。事實上,這是個(多)分類問題?!白凅w”包括:多種不同的隨機重塑、扭曲或印刷顏色(黑體或白體)的改變,如圖1示例[1]。

        支持向量機是統(tǒng)計學習理論中最具代表性的模型,也是數(shù)據(jù)挖掘、機器學習領(lǐng)域的重要模型之一。文中選擇文本(圖像)識別中的英文字符識別為研究對象,以國外前沿的科研成果為靈感來源,旨在使國內(nèi)相關(guān)領(lǐng)域的研究再前進“一小步”。

        圖1 英文字母“變體”示例

        2 相關(guān)工作

        無論是支持向量機的建模還是實證研究,國內(nèi)的研究主要集中在部分領(lǐng)域的應(yīng)用實證分析,前人研究文本識別,尤其(英文)字符識別不夠充分。

        國外相關(guān)研究中,Corinna Cortes等(1995)[2]建立支持向量網(wǎng)(support vector networks)用于二分類特征識別,通過引入核函數(shù)做高維映射的方式,提供了處理低維空間線性不可分數(shù)據(jù)的“全新思路”;Hamed Pirsiavash等(2008)[3]提出雙線性支持向量機用于可視化數(shù)據(jù)的識別,取得了較好的分類結(jié)果;M.Nazir等(2012)[4]基于離散余弦變換(discrete cosine transform,DCT)、K-最近鄰分類器建立了分類器,用于圖像的性別識別,取得了99.3%的分類準確率;Luo Luo等(2015)[5]提出支持矩陣機(support matrix machine,SMM)模型,捕捉了輸入矩陣(型數(shù)據(jù))行、列指標間的關(guān)系,使支持向量機理論取得突破,并且模型預(yù)測精度高、穩(wěn)健性好且計算效率大大提高。

        國內(nèi)研究中,吳一全等(2014)[6]構(gòu)造火焰圖像的特征向量,建立基于Krawtchouk支持向量機(SVM)模型,進行火焰熄滅與否的狀態(tài)識別,實現(xiàn)了95.56%的二分類識別率;薛浩然等(2015)[7]運用SVM適用于解決小樣本、非線性特征的特點,建立多分類模型,進行變壓器故障類型判斷,實現(xiàn)了95%的小樣本識別率。在電子故障檢測與診斷領(lǐng)域,萬鵬等(2012)[8],史麗萍等(2014)[9]也進行了一些實證研究。

        3 支持向量機理論

        支持向量機(support vector machine,SVM)[2]是一類由Vapnik等提出的圖像分類算法。其訓(xùn)練算法的思想基于“結(jié)構(gòu)風險最小化”而非“經(jīng)驗風險最小化”原理,并且為訓(xùn)練多項式、神經(jīng)網(wǎng)絡(luò)和徑向基函數(shù)(RBF)分類器提供了新的方法[10]。SVM已被證明對于許多分類任務(wù)是卓有成效的[11-13]。

        f(x)=ωTx+b

        (1)

        其中,ω是一個正交于超平面的向量。

        最優(yōu)分類超平面的計算是一個約束優(yōu)化問題,可以用二次規(guī)劃的技術(shù)解決。SVM的優(yōu)化問題可以用如下方式呈現(xiàn):

        subject toyi(ωTxi+b)≥1-ξi

        (2)

        當有新的樣本點x進入分類器時,將根據(jù)其與決策邊界(decision boundary)的關(guān)系對其進行分類,相應(yīng)的決策函數(shù)為:

        g(x)=sign(ωTx+b)

        (3)

        4 建模及實證分析

        試驗均在Intel Genuine的CPU(型號T2050,1.60 GHz,1.99 GB的RAM)以及32 bit的Windows Server XP系統(tǒng)下完成。通過R3.3.3實現(xiàn)支持向量機。

        假設(shè):(1)文件已分割成矩形區(qū)域;(2)每個區(qū)域包含一個單一字符;(3)文件中只包含英文字母字符。

        4.1 收集數(shù)據(jù)

        使用由W.Frey和D.J.Slate捐贈給UCI機器學習數(shù)據(jù)倉庫(UCI machine learning data repository)(http://archive.ics.uci.edu/ml)的數(shù)據(jù)集。該數(shù)據(jù)集包含了26個大小寫英文字母的20 000個案例,使用多種不同的隨機重塑和扭曲的黑色和白色字體印刷。

        4.2 探索和準備數(shù)據(jù)

        Frey和Slate提供的文件,當圖像字符被掃描到計算機中,它們將被轉(zhuǎn)換成像素,并且擁有16個統(tǒng)計屬性,這就是文中的建模指標。可以預(yù)期,響應(yīng)值letter有26個水平(或者26類),因為英文字母有26個。

        下面進入機器學習的訓(xùn)練和測試階段。通常情況下,需要隨機地將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。然而,F(xiàn)rey和Slate已經(jīng)將數(shù)據(jù)隨機化,并建議使用前16 000條記錄(80%)建立模型,作為訓(xùn)練樣本;使用后4 000條記錄(20%)進行測試,即作為測試樣本。

        4.3 基于數(shù)據(jù)訓(xùn)練模型

        使用R軟件自帶的kernlab添加包中的ksvm()函數(shù)建立模型,其具體語法如下所述。其中核函數(shù)的選擇對于SVM模型的表現(xiàn)至關(guān)重要。相關(guān)研究表明,在機器學習領(lǐng)域的研究中,高斯徑向基核函數(shù)(rbfdot)是首選[14-18]。主要建模結(jié)果如圖2所示。

        圖2 支持向量機建模結(jié)果

        由訓(xùn)練誤差為0.051 688可見,模型對訓(xùn)練樣本擁有較高的分類精度94.83%。但因為數(shù)據(jù)挖掘模型可能出現(xiàn)“過擬合”(overfit)問題,所以還需要檢驗?zāi)P偷姆夯芰Α?/p>

        4.4 評估模型的性能

        根據(jù)測試數(shù)據(jù)集研究模型的性能,將測試數(shù)據(jù)集中的預(yù)測值與真實值進行比較,從而判斷它能否很好地推廣到未知的數(shù)據(jù),即建立的模型能否在現(xiàn)實世界中較好的應(yīng)用。使用R軟件中的Table()函數(shù)來實現(xiàn),結(jié)果如圖3所示。

        圖3 模型分類結(jié)果

        結(jié)果分析:這是一個矩陣,在R軟件中分成兩部分顯示,響應(yīng)值矩陣的維數(shù)較高,有26維。對角線的值144、121、120、156和127表示預(yù)測值與真實值相匹配的總數(shù)。非對角線的值表示預(yù)測出現(xiàn)錯誤。例如:位于行B和列D的值5表示有5種情況將字母D誤認為字母B。

        最終,在4 000個測試樣本點中,分類器正確識別的字母有3 357個。如果以百分比計算,預(yù)測精度為83.925%,接近84%。

        到此為止,支持向量機分類模型建立完畢,有令人滿意的訓(xùn)練誤差(5.168 8%);并且經(jīng)過檢驗,模型的泛化能力較好,對未知的數(shù)據(jù)有較高的預(yù)測精度(83.925%),對實踐的指導(dǎo)大有裨益。

        5 模型提升

        83.925%的預(yù)測精度雖然不低,但仍然有明顯的提升空間,故需進行模型優(yōu)化。這里采用如下方式實現(xiàn):調(diào)整懲罰參數(shù)C的取值。這是一種主流的探索方式。建模和測試過程與第3和第4節(jié)中的方法相同,這里直接展示主要返回結(jié)果,如表1所示。

        表1 懲罰參數(shù)C的探索

        對表1分析如下:

        (1)支持向量的個數(shù)基本隨著C的增大而減小,說明對樣本點的劃分越嚴格(或?qū)﹀e分的“懲罰”越嚴厲),處于“邊界位置”的點就越少。

        (2)訓(xùn)練誤差隨著C的增大而減小,直至為0,說明對樣本點的劃分越嚴格(或?qū)﹀e分的“懲罰”越嚴厲),即制定越嚴格的分類準則,模型對訓(xùn)練數(shù)據(jù)的擬合優(yōu)度越高。這是數(shù)據(jù)挖掘算法的普遍特點。

        (3)測試誤差隨著C的增大而持續(xù)減小,直至達到一個非常低的水平(0.029<0.03);當C=50時,測試誤差為0.030 25,往后基本就穩(wěn)定在0.03左右了。說明對樣本點的劃分越嚴格(或?qū)﹀e分的“懲罰”越嚴厲),模型對測試數(shù)據(jù)的擬合優(yōu)度越高,即對未知樣本的分類準確度越高。體現(xiàn)了支持向量機分類模型的優(yōu)越性,即強大的泛化能力,相比深度學習的核心算法——神經(jīng)網(wǎng)絡(luò),不容易過擬合。

        (4)“前6個樣本的預(yù)測結(jié)果”是特別增加的一個細節(jié)。從預(yù)測結(jié)果來看,C在取默認值為1時,第四個樣本的預(yù)測結(jié)果為X;而C在其他取值的情形下,第四個樣本的預(yù)測結(jié)果為I。結(jié)合(2)、(3)的結(jié)果可知,適當大的懲罰參數(shù)C得到更優(yōu)的模型,所以有理由相信第四個樣本的預(yù)測結(jié)果為I,而非X。僅僅取6個樣本,就已經(jīng)產(chǎn)生了預(yù)測結(jié)果的差異,所以,參數(shù)的調(diào)整對于模型優(yōu)化來說是很有必要的。

        總之,隨著懲罰常數(shù)C的不斷增加,測試樣本的預(yù)測精度始終不下降(事實上,還在不斷上升),最終錯分率小于3%,沒有出現(xiàn)過擬合。表明文中建立的基于支持向量機的英文字符識別模型較為優(yōu)越,不僅分類精度高,而且非常穩(wěn)健。所以,可以為現(xiàn)實應(yīng)用提供有價值的指導(dǎo)。比如:針對不同書寫者的手癖、使用的書寫工具,可以有效地對英文文字加以識別,并為電子方式的呈現(xiàn)提供基礎(chǔ)。

        從理論上而言,隨著懲罰參數(shù)C的增加,模型的穩(wěn)健性在下降,幾何上反映為兩分類超平面間距離縮小。所以實踐中,C的取值不宜過大。就文中建立的模型而言,C可以取20,此時測試誤差為0.031 5。

        6 結(jié)束語

        文中建立了一個多分類SVM模型,操作簡單,容易實現(xiàn),樣本容量充足且指標維數(shù)“適中”。實證結(jié)果表明,對于各種“變體”的手寫英文字符,此模型可以實現(xiàn)很高的預(yù)測精度和令人滿意的穩(wěn)健性。在此基礎(chǔ)上,對懲罰參數(shù)C的選擇做了一定的探索,而關(guān)于SVM選參,學術(shù)界始終沒有形成具有共識的理論。

        相比只有26種分類的英文字母,如何進行更為復(fù)雜的中文字符識別是未來的研究方向。有許多問題需要面對,包括核函數(shù)的選擇、懲罰常數(shù)C的選擇、訓(xùn)練樣本及測試樣本量的選擇、非平衡樣本、非數(shù)值型特征等。此外,對于有污染或字符缺損的文本數(shù)據(jù),文中建立的模型是否依然有良好的表現(xiàn),也有待進一步求證。

        猜你喜歡
        懲罰分類模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        神的懲罰
        小讀者(2020年2期)2020-03-12 10:34:06
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        懲罰
        趣味(語文)(2018年1期)2018-05-25 03:09:58
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        香蕉人妻av久久久久天天| 亚洲男人av天堂久久资源| 蜜臀av在线播放一区二区三区| 久久99热久久99精品| 午夜无码一区二区三区在线| 男女男生精精品视频网站| 国产亚洲成年网址在线观看| 中文字幕av久久激情亚洲精品 | 午夜不卡久久精品无码免费| 欧美人与动人物牲交免费观看| 波多野无码AV中文专区| 日本一区二区不卡在线| 高清精品一区二区三区| av大片在线无码免费| 国产颜射视频在线播放| 伊人青青草综合在线视频免费播放| 女人和拘做受全程看视频| 精品久久人人妻人人做精品| 亚洲精品天堂av免费看| 日韩精品极品在线观看视频| 青青操视频手机在线免费观看| 国产精品久久久久久| 内射精品无码中文字幕| 国产内射XXXXX在线| 久久老熟女乱色一区二区| 中文字幕一区久久精品| 亚洲国产天堂久久综合网| 91麻豆精品激情在线观看最新| 最新日韩人妻中文字幕一区| 国产毛片av最新视频| 日韩人妻无码一区二区三区| 加勒比黑人在线| 日本一区二区三区四区在线视频| 无码人妻丰满熟妇啪啪网站| AV无码最在线播放| 在线一区二区三区免费视频观看 | 成人做爰69片免费看网站野花| 亚洲av无码片一区二区三区| 日本中出熟女一区二区| 亚洲成av人片在线观看| 国产精品久线在线观看|