萬(wàn)路瑤 葉安勝
摘 要:為促進(jìn)農(nóng)業(yè)向精準(zhǔn)農(nóng)業(yè)、智慧農(nóng)業(yè)方向發(fā)展,針對(duì)種業(yè)中衡量種子質(zhì)量的重要指標(biāo)千粒重,為提高其精確度,提出基于非負(fù)矩陣分解與支持向量機(jī)的粘連種子分類(lèi)算法,在利用機(jī)器視覺(jué)與圖像識(shí)別等技術(shù)進(jìn)行種子顆粒計(jì)數(shù)時(shí),解決種子因嚴(yán)重粘連(經(jīng)圖像預(yù)處理、形態(tài)學(xué)操作等仍粘連)使系統(tǒng)出現(xiàn)誤判,導(dǎo)致計(jì)數(shù)結(jié)果誤差較大的問(wèn)題。實(shí)驗(yàn)以玉米種子為研究對(duì)象,研究3種常見(jiàn)粘連類(lèi)型。采用基于NMF的方法實(shí)現(xiàn)種子粘連圖像有效特征的提取,再運(yùn)用SVM構(gòu)建多分類(lèi)器,解決種子粘連類(lèi)型的三分類(lèi)問(wèn)題,最后通過(guò)實(shí)驗(yàn)驗(yàn)證,該方法的分類(lèi)準(zhǔn)確率為98%。
關(guān)鍵詞:非負(fù)矩陣分解;支持向量機(jī);種子粘連;種子分類(lèi)
DOI:10. 11907/rjdk. 191464 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類(lèi)號(hào):TP317.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)002-0153-04
英標(biāo):Classification of Adhesive Seeds Based on NMF and SVM
英作:WAN Lu-yao, YE An-sheng
英單:(School of Information Science & Engineering, Chengdu University, Chengdu 610106, China)
Abstract: In order to respond to the national call to develop agriculture in a precise and smart way, and to measure the importance of seed quality in the seed industry and improve its accuracy, this paper proposes a classification of adhesion seeds based on non-negative matrix factorization and support vector machine. The algorithm solves the problem that the seeds are seriously adhered (image pre-processing, morphological operation, etc. still adheres) when using the techniques of machine vision and image recognition to count the seed particles, so that the error of the counting result caused by the misjudgment of the system is large. The experiment used corn seeds as the research object to study three common types of adhesions. The NMF-based method is used to extract the effective features of seed adhesion images, and then use SVM to construct multi-classifiers to solve the three-class problem of seed adhesion types. The accuracy of the classification was verified to be 98% by experimenting with 90 images.
Key Words: non-negative matrix factorization; support vector machine; seed adhesion; seed classification
0 引言
如今鄉(xiāng)村振興已上升至國(guó)家戰(zhàn)略,隨著信息技術(shù)的發(fā)展,農(nóng)業(yè)信息化也加速推進(jìn),農(nóng)業(yè)開(kāi)始朝著精準(zhǔn)農(nóng)業(yè)與高效農(nóng)業(yè)方向發(fā)展。種業(yè)是農(nóng)業(yè)發(fā)展的決定性因素,育種創(chuàng)新是農(nóng)業(yè)轉(zhuǎn)變發(fā)展方式的前提。種子質(zhì)量的提升與育種技術(shù)的發(fā)展,有利于保障國(guó)家糧食安全,促進(jìn)農(nóng)業(yè)增效、農(nóng)民增收等。種子千粒重與種子質(zhì)量有著直接關(guān)系,在千粒重指標(biāo)獲取與育種工作中,種子的準(zhǔn)確計(jì)數(shù)十分關(guān)鍵[1]。
傳統(tǒng)人工計(jì)數(shù)方法效率與精確度低,之后出現(xiàn)了光電管計(jì)數(shù)方法如宋礽蘇等[2]設(shè)計(jì)的自動(dòng)光電數(shù)粒儀等,但若種子在通過(guò)光電管時(shí)存在部分交疊,很可能產(chǎn)生少計(jì)、漏計(jì)等情況,且成本高、過(guò)程繁瑣。近年來(lái),隨著機(jī)器視覺(jué)、圖像識(shí)別等技術(shù)的迅猛發(fā)展,人們也將其運(yùn)用于種子顆粒計(jì)數(shù)研究中,以提高種子計(jì)數(shù)的效率、精確度與便利性,并降低成本,但對(duì)嚴(yán)重粘連的種子進(jìn)行識(shí)別計(jì)數(shù)時(shí)依然誤差較大。如Van [3]利用分水嶺分割算法對(duì)嚴(yán)重粘連的谷物顆粒進(jìn)行分割并計(jì)數(shù),但分水嶺算法易產(chǎn)生過(guò)分割現(xiàn)象,從而使結(jié)果誤差較大。
為實(shí)現(xiàn)種子嚴(yán)重粘連時(shí)的精確計(jì)數(shù),可將機(jī)器視覺(jué)等技術(shù)與機(jī)器學(xué)習(xí)算法相結(jié)合提取種子的有效特征,實(shí)現(xiàn)對(duì)不同品種種子的識(shí)別分類(lèi)。如李冬[4]利用主成分分析方法PCA(Principal Components Analysis)[5]對(duì)稻花香種子進(jìn)行有效特征提取,并利用支持向量機(jī)SVM(Support Vector Machine)[6-8]對(duì)其進(jìn)行分類(lèi)識(shí)別,實(shí)驗(yàn)結(jié)果較為理想。
種子粘連存在不同類(lèi)型,類(lèi)似于不同品種,因此本文提出利用非負(fù)矩陣分解NMF(Nonnegative Matrix Factor)[9-11]對(duì)種子粘連圖像特征數(shù)據(jù)進(jìn)行降維,實(shí)現(xiàn)基于NMF的有效特征提取,并采用SVM分類(lèi)方法構(gòu)建多分類(lèi)器進(jìn)行種子粘連類(lèi)型分類(lèi),為實(shí)現(xiàn)種子精確計(jì)數(shù)提供技術(shù)支持。本文以玉米種子為例,研究其常見(jiàn)的3類(lèi)粘連類(lèi)型并實(shí)現(xiàn)分類(lèi)。
1 種子粘連模型
種子粘連模型分類(lèi)步驟大致分為3個(gè)階段:樣本獲取、特征提取與模型分類(lèi)。樣本獲取階段即獲得充足的種子粘連模型圖像;特征提取階段則通過(guò)分析圖像,提取各圖像中粘連種子具有的特征,并篩選出對(duì)分類(lèi)有效的主要特征;模型分類(lèi)階段是將待分類(lèi)的種子粘連模型進(jìn)行識(shí)別分類(lèi)。整個(gè)過(guò)程中,特征提取與模型分類(lèi)兩個(gè)階段最為關(guān)鍵,決定著最終分類(lèi)結(jié)果。圖1為玉米種子粘連的3種模型:兩粒種子粘連、三粒種子成線粘連,以及三粒種子成閉區(qū)域粘連。對(duì)不同粘連類(lèi)型的種子特征進(jìn)行分析,可獲得粘連種子圖像凹點(diǎn)數(shù)目、面積、周長(zhǎng)、拓?fù)湫螤睢㈤L(zhǎng)短軸長(zhǎng)等12類(lèi)特征[12]。由于特征多、數(shù)據(jù)量大,進(jìn)行降維操作很關(guān)鍵,以去除與分類(lèi)無(wú)關(guān)聯(lián)及關(guān)聯(lián)小的特征數(shù)據(jù),減小系統(tǒng)運(yùn)算量,實(shí)現(xiàn)快速分類(lèi)。NMF是繼PCA之后提出的一種能解決矩陣分解與降維問(wèn)題的有效方法,已在人臉識(shí)別[13]、語(yǔ)音處理[14]等領(lǐng)域得到廣泛運(yùn)用。
分類(lèi)方法主要分為非監(jiān)督和監(jiān)督分類(lèi)兩種。非監(jiān)督分類(lèi)不用事先知道待分類(lèi)樣本類(lèi)別,分類(lèi)決策規(guī)則是依據(jù)樣本特征參數(shù)的統(tǒng)計(jì)特征建立的,如聚類(lèi)分析[15]、高斯混合模型[16]等;有監(jiān)督分類(lèi)是指首先使用已知類(lèi)別的樣本進(jìn)行訓(xùn)練,使訓(xùn)練好的分類(lèi)器能對(duì)未知類(lèi)別的目標(biāo)進(jìn)行分類(lèi),如神經(jīng)網(wǎng)絡(luò)[17]、SVM等。SVM能用較少的樣本數(shù)量,獲取良好的分類(lèi)結(jié)果,并克服傳統(tǒng)方法中經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的不足。
2 相關(guān)算法
2.1 非負(fù)矩陣分解(NMF)
矩陣分解一般是將一個(gè)大矩陣分解為幾個(gè)較小矩陣,而分解后的矩陣元素可能會(huì)有正負(fù)之分,如主成分分析PCA、獨(dú)立成分分析ICA(Independent Component Correlation Algorithm)[18]等降維分解方法。但在常見(jiàn)的如圖像、文本等形成的矩陣中,負(fù)數(shù)是沒(méi)有意義的,所以處理類(lèi)似對(duì)象時(shí),尋求一種使分解后的矩陣元素均為非負(fù)的方法會(huì)更有現(xiàn)實(shí)意義。Lee&Seung[19]于1999年在《自然》雜志上提出非負(fù)矩陣分解NMF,在NMF中要求原始矩陣V的所有元素均為非負(fù),則矩陣可以分解為兩個(gè)更小非負(fù)矩陣(W,H)的乘積。該矩陣有且僅有一個(gè)此類(lèi)分解,即滿足存在性與唯一性。
其中,V為原始矩陣,W為基矩陣,H為系數(shù)矩陣,n為樣本數(shù),m為特征個(gè)數(shù),通常情況下規(guī)定k NMF矩陣分解優(yōu)化目標(biāo)是最小化W矩陣、H矩陣乘積與原始矩陣之間的差別,利用乘性迭代方法求解W和H。在NMF問(wèn)題目標(biāo)函數(shù)中應(yīng)用最廣泛的是歐幾里得距離與KL散度。本文以歐幾里得距離為例,假設(shè)噪聲矩陣為[E∈Rm×n],則有: 如果噪聲服從不同概率分布,則通過(guò)最大似然函數(shù)會(huì)得到不同類(lèi)型的目標(biāo)函數(shù)。本文以噪聲服從高斯分布進(jìn)行說(shuō)明,得到最大似然函數(shù)為: 要使對(duì)數(shù)似然函數(shù)[L(W,H)]取值最大,則要使目標(biāo)函數(shù)[J(W,H)]最小。 最終,可以任意初始化W和H,通過(guò)以下迭代過(guò)程使誤差減小到穩(wěn)定值。 2.2 支持向量機(jī)(SVM) SVM尋求的是一個(gè)最優(yōu)分界面,以將兩類(lèi)樣本點(diǎn)最大程度地分開(kāi),最大間隔準(zhǔn)則是支持向量機(jī)的最佳準(zhǔn)則。 設(shè)有N個(gè)2類(lèi)線性可分樣本為:(x1,y1),(x2,y2)…(xn,yn),其中[xi∈Rn],[yi∈{+1,-1}],線性判別函數(shù)為:[gx=wTx+b]。由于樣本線性可分,改變權(quán)向量的模,有如下分類(lèi)規(guī)則: 將其歸一化則有: 此時(shí),支持向量樣本點(diǎn)到最優(yōu)分界面的距離[d=1w],分類(lèi)間隔則為[2d]。為使分類(lèi)間隔最大化,可轉(zhuǎn)化成求最小的[w],等同于求解[12w2]最小化問(wèn)題。用條件極值求解最優(yōu)分界面,構(gòu)造拉格朗日函數(shù)。 對(duì)于低維輸入空間中的非線性可分訓(xùn)練樣本,可通過(guò)核函數(shù)[20]將其映射到高維空間中,從而使其線性可分。引入核函數(shù)[K(xi,xj)=φ(xi)?φ(xj)]。 若映射后仍不能保證線性可分,可增加松弛項(xiàng),以減小分界面在訓(xùn)練樣本上的平均誤差。 3 基于NMF與SVM的種子粘連類(lèi)型分類(lèi) SVM分類(lèi)器生成流程見(jiàn)圖2。種子粘連類(lèi)型分類(lèi)流程見(jiàn)圖3。 具體流程如下: (1)粘連種子圖像訓(xùn)練樣本集。通過(guò)相機(jī)拍攝60張如圖1所示的3類(lèi)種子粘連類(lèi)型圖像(每類(lèi)20張),經(jīng)過(guò)圖像預(yù)處理等操作,提取各種粘連圖像特征作為初始高維特征向量。 (2)有效特征提取。通過(guò)NMF對(duì)初始高維特征向量進(jìn)行降維操作,得到四維的系數(shù)矩陣,最終形成一個(gè)四維特征向量。 (3)SVM多分類(lèi)器構(gòu)建[21]。本文需要解決一個(gè)三分類(lèi)問(wèn)題,SVM主要用于二分類(lèi)。利用SVM構(gòu)造多分類(lèi)器,采用“一類(lèi)對(duì)其余”與“一對(duì)一”兩種方法,但前一種方法容易造成數(shù)據(jù)集偏斜,因此本文采用第二種方法。“一對(duì)一”方法即每?jī)深?lèi)之間就要構(gòu)造一個(gè)SVM分類(lèi)器,本文分為三類(lèi)則需要[3×(3-1)2=3]個(gè)SVM分類(lèi)器,若為N分類(lèi),則需要[N(N-1)2]個(gè)SVM分類(lèi)器。最后采用“投票”方式,獲得投票數(shù)最多的類(lèi)別則為最終分類(lèi)結(jié)果。 4 種子粘連類(lèi)型分類(lèi)實(shí)驗(yàn) 本文主要研究如何對(duì)如圖1所示的3種常見(jiàn)種子粘連類(lèi)型進(jìn)行有效分類(lèi),為得到精確的種子顆粒計(jì)數(shù)結(jié)果奠定基礎(chǔ)。將3種粘連類(lèi)型依次重命名為I型、II型、III型粘連。實(shí)驗(yàn)所需圖像均通過(guò)相機(jī)拍攝,樣本數(shù)據(jù)為150。其中,將60張不同的種子粘連圖像作為訓(xùn)練樣本,90張作為測(cè)試樣本(每種粘連類(lèi)型各30張),對(duì)本文提出的分類(lèi)算法進(jìn)行驗(yàn)證,并與常用的基于PCA的SVM等方法進(jìn)行比較。 在本實(shí)驗(yàn)中,分類(lèi)準(zhǔn)確率P是需要獲得的重要參數(shù)。 [P=正確分類(lèi)的樣本數(shù)分類(lèi)的樣本總數(shù)×100%]? ? (12) 實(shí)驗(yàn)運(yùn)行結(jié)果示例見(jiàn)圖4。 本實(shí)驗(yàn)SVM的核函數(shù)選擇徑向基核函數(shù)(RBF),參數(shù)為C=180,γ=0.003,利用NMF對(duì)12類(lèi)粘連種子特征進(jìn)行降維,得到4維系數(shù)矩陣。 根據(jù)表1結(jié)果可以明顯看出,對(duì)于粘連類(lèi)型最簡(jiǎn)單的I型粘連,本文算法有很好的分類(lèi)效果,分類(lèi)準(zhǔn)確率達(dá)到了100%,而對(duì)于II型與III型種子粘連類(lèi)型的分類(lèi)結(jié)果相差不大,在30張圖像樣本中,分類(lèi)錯(cuò)誤的都僅為1張。綜上所述,本文算法在各種種子粘連類(lèi)型分類(lèi)中都取得了不錯(cuò)的分類(lèi)效果,總分類(lèi)準(zhǔn)確率為98%。 基于PCA的SVM分類(lèi)結(jié)果見(jiàn)表2。 由表2可得出基于PCA的SVM分類(lèi)方法對(duì)3種不同粘連類(lèi)型的平均(總)分類(lèi)準(zhǔn)確率為: 本實(shí)驗(yàn)SVM的核函數(shù)選擇徑向基核函數(shù)(RBF),參數(shù)為C=120,γ=0.006,利用PCA對(duì)12類(lèi)粘連種子特征進(jìn)行降維,得到5個(gè)主成分,累積方差貢獻(xiàn)率為90.682%。 根據(jù)表2結(jié)果可以看出,在本次實(shí)驗(yàn)中,基于PCA的SVM分類(lèi)算法對(duì)I型粘連的分類(lèi)準(zhǔn)確率也是最高的,而對(duì)III型粘連的分類(lèi)準(zhǔn)確率最低,可能是該粘連類(lèi)型相對(duì)最為復(fù)雜,導(dǎo)致基于PCA的特征提取效果欠佳。最終,本次實(shí)驗(yàn)總分類(lèi)準(zhǔn)確率為91%。 5 結(jié)語(yǔ) 通過(guò)實(shí)驗(yàn),對(duì)比基于NMF的分類(lèi)算法與傳統(tǒng)基于PCA的分類(lèi)算法,在同等條件下對(duì)3種不同類(lèi)型種子粘連類(lèi)型分類(lèi)的綜合準(zhǔn)確率,前者為98%,后者為91%。顯然,本文提出的基于NMF的SVM算法對(duì)種子粘連類(lèi)型的分類(lèi)效果更好。在兩種分類(lèi)算法下,由于I型粘連情況相對(duì)簡(jiǎn)單,分類(lèi)準(zhǔn)確率都是最高的,在本文算法的分類(lèi)實(shí)驗(yàn)中達(dá)到了100%。對(duì)于III型粘連情況,由于粘連類(lèi)型最為復(fù)雜,分類(lèi)準(zhǔn)確率在3種類(lèi)型中相對(duì)較低。因?yàn)槭褂肗MF時(shí)要求數(shù)據(jù)都為正數(shù),而圖像中包含的數(shù)據(jù)也均為正數(shù),所以當(dāng)NMF算法出現(xiàn)后常被用于圖像數(shù)據(jù)處理中,相比于傳統(tǒng)PCA在使用過(guò)程中會(huì)出現(xiàn)負(fù)數(shù)等情況,NMF更具有實(shí)際意義。在本文實(shí)驗(yàn)中,由于樣本數(shù)量不是很大,可能會(huì)存在一些誤差,但由于實(shí)驗(yàn)條件相同,在對(duì)算法優(yōu)劣比較方面影響不大。 參考文獻(xiàn): [1] 高和平,江鳳瓊. 大豆、玉米種子的千粒重與發(fā)芽成苗關(guān)系的研究[J]. 孝感學(xué)院學(xué)報(bào),2001(3):68-70. [2] 宋礽蘇,藍(lán)景針,夏世峰,等. ZPXG-18型轉(zhuǎn)盤(pán)斜刮式自動(dòng)光電數(shù)粒儀和千粒重儀的設(shè)計(jì)[J]. 浙江農(nóng)業(yè)學(xué)報(bào),2011,23(5):1023-1028. [3] VAN DEN BERG E H, MEESTERS AGCA.Automated separation of touching grains in digital? images of thin sections[J]. Computers&Geosciences,2002,28(2):179-190. [4] 李冬. 基于圖像的稻花香水稻種子鑒別方法的研究[D]. 大慶:黑龍江八一農(nóng)墾大學(xué),2018. [5] 于秀林,任雪松. 多元統(tǒng)計(jì)分析[M]. 北京:中國(guó)統(tǒng)計(jì)出版社, 1999. [6] 林香亮,袁瑞,孫玉秋,等. 支持向量機(jī)的基本理論和研究進(jìn)展[J]. 長(zhǎng)江大學(xué)學(xué)報(bào):自科版,2018,15(17):48-53. [7] 陸波,尉詢楷,畢篤彥. 支持向量機(jī)在分類(lèi)中的應(yīng)用[J]. 中國(guó)圖象圖形學(xué)報(bào),2005(8):94-100. [8] 張策,臧淑英,金竺,等. 基于支持向量機(jī)的扎龍濕地遙感分類(lèi)研究[J]. 濕地科學(xué),2011,9(3):263-269. [9] 劉志揚(yáng). 非負(fù)矩陣分解及其改進(jìn)方法[J]. 華僑大學(xué)學(xué)報(bào):自然科學(xué)版,2016,37(6):782-785. [10] 王科俊,左春婷. 非負(fù)矩陣分解特征提取技術(shù)的研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究,2014,31(4):970-975. [11] 徐泰燕,郝玉龍. 非負(fù)矩陣分解及其應(yīng)用現(xiàn)狀分析[J]. 武漢工業(yè)學(xué)院學(xué)報(bào),2010,29(1):109-114. [12] 史中輝,趙秀艷,于廣洋,等. 基于圖像處理的玉米種子特征參數(shù)提取系統(tǒng)[J]. 農(nóng)機(jī)化研究,2011,33(10):166-170. [13] 周昌軍,張強(qiáng),魏小鵬. 基于NMF圖像重構(gòu)的人臉識(shí)別[J]. 計(jì)算機(jī)工程,2008(3):217-219. [14] 胡永剛,張雄偉,鄒霞,等. 改進(jìn)的非負(fù)矩陣分解語(yǔ)音增強(qiáng)算法[J]. 信號(hào)處理,2015,31(9):1117-1123. [15] 孫吉貴,劉杰,趙連宇. 聚類(lèi)算法研究[J]. 軟件學(xué)報(bào),2008(1):48-61. [16] MARTIS R J,CHAKRABORTY C,RAY A K. A two-stage mechanism for registration and classification of ECG using Gaussian mixture model[J]. Pattern Recognition,2009,42(11):2979-2988. [17] 盧柳葉,張青峰,李光錄. 基于BP神經(jīng)網(wǎng)絡(luò)的遙感影像分類(lèi)研究[J]. 測(cè)繪科學(xué),2012,37(6):140-143. [18] 楊竹青,李勇,胡德文. 獨(dú)立成分分析方法綜述[J]. 自動(dòng)化學(xué)報(bào),2002(5):762-772. [19] DANIEL D L, SEUNG H S. Learning the parts of objects by nonnegative matrix factorization[J]. Nature, 1999, 401: 788-791. [20] AIZERMAN M,BRAVERMAN E,ROZONOER L.Theoretical foundations of the potential function method in pattern recognition learning [J]. Automation and Remote Control,1964,25:821-837. [21] 余輝,趙暉. 支持向量機(jī)多類(lèi)分類(lèi)算法新研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2008(7):185-189,212. (責(zé)任編輯:黃 ?。?/p>