亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成機(jī)器學(xué)習(xí)的手寫數(shù)字識別技術(shù)研究

        2022-11-17 11:37:34符新偉王舒可
        中阿科技論壇(中英文) 2022年11期
        關(guān)鍵詞:分類模型

        符新偉 王舒可

        (云南財經(jīng)大學(xué)國際工商學(xué)院,云南 昆明 650000)

        近年來,機(jī)器學(xué)習(xí)[1]成為熱門話題,大量學(xué)者對其展開了研究[2],使得機(jī)器學(xué)習(xí)不斷發(fā)展和優(yōu)化。在機(jī)器學(xué)習(xí)領(lǐng)域中,備受關(guān)注的話題是機(jī)器學(xué)習(xí)的分類識別功能,由于機(jī)器學(xué)習(xí)的分類識別高效性和預(yù)測準(zhǔn)確性,使其被廣泛地應(yīng)用于各個領(lǐng)域,例如科學(xué)研究[3-4]、醫(yī)療保健[5-6]、生態(tài)氣候[7-8]以及能源系統(tǒng)[9-10]等。除此之外,機(jī)器學(xué)習(xí)在圖像識別[11]的領(lǐng)域中也表現(xiàn)出了良好的性能。當(dāng)下,由于現(xiàn)實(shí)需求,機(jī)器學(xué)習(xí)被廣泛應(yīng)用于手寫數(shù)字識別技術(shù)中[12],例如運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建識別系統(tǒng)[13],基于改進(jìn)的樸素貝葉斯方法構(gòu)建的手寫數(shù)字識別系統(tǒng)[5],以及使用K近鄰算法對手寫數(shù)據(jù)進(jìn)行識別[14]等。這些融合應(yīng)用,不僅能滿足手寫數(shù)字識別技術(shù)需求,也有利于機(jī)器學(xué)習(xí)的進(jìn)一步發(fā)展。但隨著信息技術(shù)的不斷進(jìn)步,手寫識別技術(shù)所需要識別的數(shù)據(jù)量和特征數(shù)都大幅增加,以往的數(shù)據(jù)處理方法很難有效處理這些海量數(shù)據(jù)以滿足實(shí)際需求。在機(jī)器學(xué)習(xí)方法中,支持向量機(jī)(SVM)[15]、邏輯回歸(LR)[16]和決策樹(DT)[17]是非常經(jīng)典的分類識別模型,被廣泛應(yīng)用于數(shù)據(jù)分類識別技術(shù)中。雖然這些模型在處理小樣本問題中具有不俗表現(xiàn),但在處理多樣本和多特征數(shù)據(jù)時其分類預(yù)測性能往往不能滿足實(shí)際需求。因此,許多學(xué)者運(yùn)用集成概念來對這些模型進(jìn)行改進(jìn),以此來提高模型處理多樣本和多特征指標(biāo)數(shù)據(jù)的性能。例如使用Bagging集合學(xué)習(xí)改進(jìn)SVM分類器[18],使用AdaBoost分類器對決策樹模型進(jìn)行集成[19]以及將隨機(jī)森林方法與SVM進(jìn)行結(jié)合[20]等。在集成方法中,Stacking采用自動化的大型集成策略,這樣能夠有效地對抗過擬合。因此,綜合以上研究,本文將支持向量機(jī)模型、邏輯回歸模型以及決策樹模型與Stacking方法相結(jié)合,構(gòu)建SRD-Stacking模型,以此來提升模型對多樣本和多特征指標(biāo)數(shù)據(jù)的分類預(yù)測性能。

        1 模型構(gòu)建

        雖然SVM、LR和DT模型在處理小樣本識別問題中具有不俗表現(xiàn),但當(dāng)面臨處理多樣本、多特征數(shù)據(jù)識別時,訓(xùn)練模型所需的計算量將會呈指數(shù)增長,并且最終的準(zhǔn)確率不高。因此,針對上述問題,本文引入集成的思想和方法,采用Stacking方法來對SVM、LR和DT模型進(jìn)行集成,進(jìn)而提升模型的分類預(yù)測性能。此外,為了了解集成模型處理高維數(shù)據(jù)的分類性能,本文還將非線性支持向量機(jī)(RBF-SVM)作為集成模型的初級學(xué)習(xí)器。

        1.1 支持向量機(jī)

        支持向量機(jī)模型(SVM)的目的就是尋求一條使間隔最大化的分離超平面,從而實(shí)現(xiàn)對正負(fù)例樣本點(diǎn)的區(qū)分。需要注意的是,當(dāng)樣本點(diǎn)不存在誤分時,則此時SVM間隔示意圖被稱為硬間隔示意圖。根據(jù)SVM分類原理,其二次規(guī)劃問題可寫為如下式(1)。

        其中w為分離超平面的法向量,εi為松弛變量,xi表示樣本點(diǎn),yi為類別標(biāo)簽;C為大于0的常數(shù),表示對誤分類點(diǎn)的懲罰程度,C的值越大,代表對分類錯誤的懲罰力度越大。

        式(1)模型主要是針對線性可分或近似線性可分樣本點(diǎn)而言,并不能對非線性樣本點(diǎn)進(jìn)行區(qū)分。然而在現(xiàn)實(shí)生活中,大部分?jǐn)?shù)據(jù)為線性不可分狀態(tài)。因此,這就需要引入核函數(shù),將低維線性不可分樣本點(diǎn)映射到高維,使其在高維實(shí)現(xiàn)線性可分。此外,為了能夠更為方便地進(jìn)行模型求解和引入核函數(shù),還需要將SVM的原問題轉(zhuǎn)化為對偶問題,因此非線性SVM的對偶問題如式(2)所示。

        支持向量機(jī)的軟間隔示例圖如圖1所示,與之相對應(yīng)的是硬間隔最大化,二者的區(qū)別是硬間隔最大化不存在誤分類點(diǎn)。圖中“+” 表示正例點(diǎn)、“○”表示負(fù)例點(diǎn);L2和L3分別為支持向量所構(gòu)建成的邊界;d表示支持向量之間的間隔,也是分離正負(fù)例點(diǎn)的置信空間,間隔越大意味著分類結(jié)果更可信。因此,支持向量機(jī)的目的就是尋求一條使間隔d最大的,最優(yōu)分離超平面L1,將兩類帶不同標(biāo)簽的樣本點(diǎn)進(jìn)行區(qū)分。

        圖1 SVM軟間隔示例圖

        結(jié)合原問題的對偶問題來看,當(dāng)a≤C且εi=0時,意味著不存在誤分類點(diǎn),支持向量恰好位于間隔邊界上;當(dāng)a=C且0≤εi≤C時,說明存在誤分類點(diǎn),且誤分類點(diǎn)位于間隔邊界與分離超平面之間;當(dāng)a=C且εi=1時則支持向量位于分離超平面上;當(dāng)a=C且εi≥1意味著支持向量處于分離超平面誤分一側(cè)。

        1.2 邏輯回歸模型

        在機(jī)器學(xué)習(xí)中,邏輯回歸模型(LR)由于簡單且便于理解,被廣泛應(yīng)用于數(shù)據(jù)分類。該模型屬于廣義線性模型,是在線性回歸的基礎(chǔ)上加上了Sigmoid函數(shù)。其分類原理是通過將數(shù)據(jù)映射到Sigmoid函數(shù)中,從而實(shí)現(xiàn)對數(shù)據(jù)的分類預(yù)測,其函數(shù)形式如下式(4)。

        其中h(xi)表示Sigmoid函數(shù),xi表示第i個測試集數(shù)據(jù),W為回歸系數(shù)構(gòu)成的列向量。在該模型中,根據(jù)h(xi)的最終值來對數(shù)據(jù)類別進(jìn)行區(qū)分。

        1.3 決策樹

        決策樹模型(DT)是一種基于樹形結(jié)構(gòu)的機(jī)器學(xué)習(xí)模型,主要用于對數(shù)據(jù)進(jìn)行分類預(yù)測。其分類原理是根據(jù)數(shù)據(jù)集特征值來劃分葉子節(jié)點(diǎn),每個葉子節(jié)點(diǎn)代表一個分類。在該模型中,關(guān)鍵在于選擇最優(yōu)劃分屬性,而該屬性的衡量指標(biāo)在大部分的學(xué)者研究中采用“基尼指數(shù)”來進(jìn)行衡量,其表達(dá)式如下式(5)。

        其中Gini(D,a) 表示基尼指數(shù),其值越小代表數(shù)據(jù)集純度越高,a表示屬性,n表示在該屬性下可能會產(chǎn)生的分支節(jié)點(diǎn)個數(shù)。

        1.4 Stacking集成方法

        SVM、LR和DT模型在解決小樣本的分類問題上表現(xiàn)出了良好性能,但當(dāng)樣本量增加到一定程度之后,這些模型的分類精度就存在很大的改進(jìn)空間。針對這一問題,本文采用Stacking方法對不同的基礎(chǔ)模型進(jìn)行集成,進(jìn)而提升模型處理大數(shù)據(jù)的分類預(yù)測性能。Stacking集成策略如圖2所示。

        圖2 Stacking集成策略圖

        Stacking是一種將多個基礎(chǔ)分類學(xué)習(xí)器進(jìn)行結(jié)合的有效策略。在該集成策略中,基礎(chǔ)分類學(xué)習(xí)器被稱為初級學(xué)習(xí)器,而將初級學(xué)習(xí)器進(jìn)行結(jié)合的方法稱為元學(xué)習(xí)器。在本文中其集成策略是先通過折交叉驗(yàn)證法對不同個體的初級學(xué)習(xí)器進(jìn)行訓(xùn)練,再將不同個體的初級學(xué)習(xí)器對原始數(shù)據(jù)集的訓(xùn)練結(jié)果作為次級訓(xùn)練集的樣本特征,其訓(xùn)練目標(biāo)值仍為原始樣本的目標(biāo)值,最后,元學(xué)習(xí)器對次級數(shù)據(jù)集的分類預(yù)測結(jié)果則為模型的最終分類識別結(jié)果。

        2 實(shí)證結(jié)果及分析

        本文使用UCI ML Repository[21-22]手寫數(shù)據(jù)集來驗(yàn)證集成模型的分類性能。在該數(shù)據(jù)集中一共有1 797個數(shù)據(jù)樣本,每個樣本數(shù)據(jù)包括8×8像素的圖像和一個0~9整數(shù)的標(biāo)簽。

        首先將數(shù)據(jù)集以7 : 3的比例劃分為訓(xùn)練集和測試集,再由線性SVM模型、非線性SVM模型、邏輯回歸模型以及決策樹模型對數(shù)據(jù)集進(jìn)行分類預(yù)測,以此來驗(yàn)證各類模型分類預(yù)測的能力。依據(jù)這些模型的測試結(jié)果,進(jìn)而對模型效果進(jìn)行評價分析。

        模型測試結(jié)果如表1所示。表中F1-scor評價指標(biāo)根據(jù)樣本數(shù)據(jù)的類別分別計算,準(zhǔn)確率則為模型總體的準(zhǔn)確率得分。表1結(jié)果顯示,就準(zhǔn)確率而言,SRD-Stacking模型的準(zhǔn)確率最高,達(dá)到了97.59%,其次為LR模型,準(zhǔn)確率為96.48%,而TD模型分類準(zhǔn)確率最低,為84.26%。因此用模型整體的準(zhǔn)確率指標(biāo)來衡量,SRD-Stacking集成模型表現(xiàn)出了更為優(yōu)越的分類性能。此外,從F1-scor角度進(jìn)行分析,SRD-Stacking集成模型對第“0”類圖片的識別結(jié)果略低于LR模型和L-SVM模型,對第“7”類圖片的識別結(jié)果略低于LR模型,對第“2”類圖片的識別結(jié)果與L-SVM模型相當(dāng),而對其余類別圖片的識別效果基本都優(yōu)于其他模型,其中第“1”類和第“4”類的F1-scor值甚至為1。綜上,通過對SRD-Stacking集成模型、L-SVM模型、RBFSVM模型、LR模型和DT模型的分類預(yù)測準(zhǔn)確率和F1-scor進(jìn)行對比分析,可以得出SRD-Stacking集成模型對手寫數(shù)據(jù)識別具有更好的效果和性能。

        表1 各種模型測試結(jié)果

        3 結(jié)語

        本文簡單介紹了機(jī)器學(xué)習(xí)在圖片識別技術(shù)中的應(yīng)用成果,以及相關(guān)模型目前的研究現(xiàn)狀,進(jìn)而提出了SRDStacking集成模型的構(gòu)建思路,并對構(gòu)建該模型所要用到的基本模型和方法進(jìn)行了詳細(xì)闡述。基于此,利用構(gòu)建的SRD-Stacking模型對手寫數(shù)據(jù)集進(jìn)行分類預(yù)測,并將其測試結(jié)果與四個基礎(chǔ)分類預(yù)測模型的測試結(jié)果進(jìn)行對比分析,驗(yàn)證了SRD-Stacking模型對多樣本和多特征指標(biāo)數(shù)據(jù)集的分類預(yù)測性能。本文旨在豐富圖像識別領(lǐng)域的數(shù)據(jù)處理模型,也為SVM、LR和DT模型的改進(jìn)提供借鑒思路。由于本文使用的都是確定性數(shù)據(jù)集,并未涉及主觀信息,而在實(shí)際應(yīng)用中個人的主觀意見往往不可忽略,因此在接下來的研究中,將會把機(jī)器學(xué)習(xí)與模糊領(lǐng)域相結(jié)合,進(jìn)一步對SRD-Stacking模型進(jìn)行拓展和改進(jìn)。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲免费网站观看视频 | 日本啪啪视频一区二区| 精品国产yw在线观看| 国语对白做受xxxxx在线| 欧美自拍区| 国产性感丝袜美女av| 91九色人妻精品一区二区三区| 香港三级日本三级a视频| 国产日韩成人内射视频| 蜜臀av中文人妻系列| 蜜桃传媒网站在线观看| 久久99精品久久久久久9蜜桃| 国产做无码视频在线观看浪潮| 国产成人精品蜜芽视频| 按摩师玩弄少妇到高潮av| 成午夜精品一区二区三区| 亚洲av无码一区二区二三区下载| 亚洲精品高清av在线播放| 亚洲网站一区在线播放| 亚洲中文字幕在线第二页| 精品视频入口| 国产偷拍自拍在线观看| 强开小婷嫩苞又嫩又紧视频韩国| 中文字幕一区二区人妻| 国产精彩刺激对白视频| 国产av丝袜熟女丰满一区二区| 亚洲a∨无码一区二区三区| 亚洲 欧美 唯美 国产 伦 综合| 偷拍女厕尿尿在线免费看| 国产精品高潮呻吟av久久黄| 国产精品午夜爆乳美女视频| 丝袜美女污污免费观看的网站| 白白色发布视频在线播放| 免费无遮挡无码永久视频| 国产一区二区三区美女| 一片内射视频在线观看| 亚洲精品国产av成人精品| 国产suv精品一区二区6| 97色综合| 精品乱色一区二区中文字幕 | 国产黄大片在线观看|