陳茂林 龔正 高榮榮
【摘 要】本文應(yīng)用基于支持向量機(jī)算法,根據(jù)小麥種子的7個(gè)基本特征進(jìn)行小麥品種識別。采用UCI標(biāo)準(zhǔn)數(shù)據(jù)集收集的210條小麥種子特征數(shù)據(jù),對小麥品種進(jìn)行分類驗(yàn)證。經(jīng)檢驗(yàn),基于支持向量機(jī)對小麥品種數(shù)據(jù)的預(yù)測正確率可達(dá)到96%。本實(shí)驗(yàn)結(jié)果表明該方法可以用于識別小麥種子特征并能對小麥品種進(jìn)行正確的識別。
【關(guān)鍵詞】支持向量機(jī);小麥品種識別;UCI數(shù)據(jù)集
一、引言
小麥?zhǔn)切←溝抵参锏慕y(tǒng)稱,是單子葉植物,是一種在世界各地廣泛種植的禾本科植物,小麥的穎果是人類的主食之一,磨成面粉后可制作面包、饅頭、餅干、面條等食物;發(fā)酵后可制成啤酒、酒精、白酒(如伏特加),或生質(zhì)燃料。小麥富含淀粉、蛋白質(zhì)、脂肪、礦物質(zhì)、鈣、鐵、硫胺素、核黃素、煙酸、維生素A及維生素C等。
人工智能的快速發(fā)展帶動了基于數(shù)據(jù)挖掘的人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)智能分類方法。人工神經(jīng)網(wǎng)絡(luò)具有非線性、自學(xué)習(xí)、自適應(yīng),能夠大規(guī)模并行處理等特征,同時(shí)內(nèi)部訓(xùn)練過程是在黑箱中進(jìn)行的,只要直接輸入數(shù)據(jù)即可得出結(jié)果。但缺點(diǎn)也很明顯,神經(jīng)網(wǎng)絡(luò)中參數(shù)無法解釋,同時(shí)訓(xùn)練過程在黑箱中進(jìn)行,具有一定的盲目性,由于它是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,容易出現(xiàn)“過擬合”現(xiàn)象,即有可能出現(xiàn)陷入局部最優(yōu)解而無法得到全局最優(yōu)解的現(xiàn)象。而支持向量機(jī)借助最優(yōu)化方法來解決機(jī)器學(xué)習(xí)問題,依賴結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,針對小樣本得到全局最優(yōu)解,解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題。支持向量機(jī)(SVM)建立在計(jì)算學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則之上,其主要優(yōu)點(diǎn)之一是可以處理線性不可分的情況。支持向量機(jī)用于模式識別的基本思想是將一個(gè)超平面作為決策平面,不但能將分類中的兩類樣本正確分開,而且使分類間隔最大,即將優(yōu)化問題轉(zhuǎn)化為一個(gè)凸型的二次規(guī)劃問題,由標(biāo)準(zhǔn)的拉格朗日乘子法求出的結(jié)果即為全局最優(yōu)解,且具有很高的精度。
二、材料與方法
(一)材料
從UCI數(shù)據(jù)集收集小麥種子數(shù)據(jù)集,其內(nèi)容包括三種不同品種的小麥的籽粒:Kama、Rosa、Canada。選取小麥的7個(gè)特征(面積、周長、致密度、核仁長度、核仁寬度、不對稱系數(shù)、核溝長度),進(jìn)行分類驗(yàn)證。
(二)方法
支持向量機(jī)
支持向量機(jī)分類方法是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原理,針對一個(gè)給定的有限數(shù)量訓(xùn)練集樣本的學(xué)習(xí)任務(wù),通過在原空間或經(jīng)投影后的高維空間中構(gòu)造最佳分類超平面作為決策面。從線性可分模式來看,該決策面不但能夠?qū)⑺杏?xùn)練樣本正確分類,而且使訓(xùn)練樣本中離分類面最近的點(diǎn)到分類面的距離最大。如圖1所示。訓(xùn)練樣本為非線性時(shí),通過非線性函數(shù)φ(x) 將樣本x映射到一個(gè)高維線性特征空間,在這個(gè)維數(shù)可能為無窮大的線形空間中構(gòu)造最優(yōu)分類超平面,并得到分類器的判別函數(shù)。再根據(jù)最大間隔思想,引入懲罰項(xiàng)CΣ§i,建立原始最優(yōu)化問題,通過強(qiáng)對偶定理對原問題進(jìn)行求解,利用核函數(shù)提高樣本的線性可分性,將線性分類學(xué)習(xí)機(jī)算法推廣到非線性的情況。
小麥種子的種類眾多,本文選取了Kama、Rosa、Canada三種有代表性的小麥種子,由于小麥種子類別受自然因素和自身屬性的影響,經(jīng)查閱文獻(xiàn),最終選取7個(gè)較為典型的特征作為輸入,以小麥種子類別作為輸出建立模型。本實(shí)驗(yàn)選取了210條數(shù)據(jù),隨機(jī)分為7組,對其中的6組數(shù)據(jù)進(jìn)行模型訓(xùn)練,對訓(xùn)練集用支持向量機(jī)進(jìn)行處理,應(yīng)用訓(xùn)練之后的模型對預(yù)留的1組測試集進(jìn)行測試。
三、實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)通過對訓(xùn)練集用支持向量機(jī)的分類算法進(jìn)行處理,采取交叉驗(yàn)證的方法,得到最優(yōu)的懲罰參數(shù)C=512和g=0.03125。經(jīng)本實(shí)驗(yàn)驗(yàn)證,小麥品種的分類準(zhǔn)確率達(dá)到96%,可以將三種小麥種子合理的分類,說明該訓(xùn)練模型的預(yù)測效果很好。
四、結(jié)論
本文通過實(shí)例驗(yàn)證可以看出小麥的種類受自然因素和自身屬性的影響,根據(jù)小麥的屬性及種類分別作為輸入、輸出指標(biāo)建立模型,應(yīng)用支持向量機(jī)的方法進(jìn)行研究,得到合適的決策函數(shù),可以對已知相關(guān)特征的小麥種類做出準(zhǔn)確的分類。為預(yù)測小麥種類提供了一種合理有效的方法,同時(shí)也體現(xiàn)了支持向量機(jī)分類算法解決分類問題的優(yōu)越性。
【參考文獻(xiàn)】
[1] 黃發(fā)良,鐘智. 用于分類的支持向量機(jī)[J]. 廣西師范學(xué)院學(xué)報(bào) (自然科學(xué)版 ),2004,(03):75-78.
[2]劉桃花,侯木舟.鮑魚年齡分類中的判別分析和聚類分析[J].邵陽學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,13(01):14-18.
[3]王宏勇,侯惠芳,劉素華.基于遺傳算法和支持向量機(jī)的玉米品種識別[J].計(jì)算機(jī)工程與應(yīng)用,2008(18):221-223.