蔣華偉,周同星
基于Fisher判別法則的小麥品質(zhì)多指標(biāo)分級
蔣華偉,周同星
(河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,鄭州 450001)
小麥生理生化指標(biāo)對研究其儲藏品質(zhì)具有重要的作用,但由于各指標(biāo)間關(guān)系的復(fù)雜性,所表達(dá)的信息存在較大差別,這給小麥儲藏品質(zhì)分析帶來很大的不便。針對該問題,該文提出了一種小麥儲藏品質(zhì)多指標(biāo)分析模型,選取降落數(shù)值、發(fā)芽率、過氧化物酶、脂肪酸值、電導(dǎo)率、還原糖值、丙二醛7個生理生化指標(biāo)作為分析的關(guān)鍵因素,通過相似性和主成分法對各指標(biāo)進(jìn)行分析計(jì)算,發(fā)現(xiàn)脂肪酸值最具代表性;基于脂肪酸值數(shù)據(jù)分布變化趨勢,采用聚類分析方法對小麥分類;使用Fisher判別法對小麥數(shù)據(jù)進(jìn)行訓(xùn)練,得到2類判別函數(shù),其中判別函數(shù)1的貢獻(xiàn)率達(dá)到89.7%,在該函數(shù)下,計(jì)算獲得3種類別小麥的中心值為–5.699、1.316和3.945,從而為判斷小麥的品質(zhì)狀況提供計(jì)算依據(jù)。試驗(yàn)計(jì)算結(jié)果表明,在18批儲藏小麥中,該文判別模型對小麥的分類結(jié)果與實(shí)際參考標(biāo)準(zhǔn)分類結(jié)果的一致性達(dá)到88.9%,驗(yàn)證了本模型的合理性,研究結(jié)果可為小麥品質(zhì)評價分類提供參考。
農(nóng)產(chǎn)品;品質(zhì)控制;模型;生理生化指標(biāo);相似性分析;主成分分析;系統(tǒng)聚類;Fisher判別法
生理生化指標(biāo)在評價小麥儲藏品質(zhì)方面有著重要作用。研究發(fā)現(xiàn)儲藏環(huán)境和時間的變化不僅會造成小麥品質(zhì)不同程度的劣變,而且會使小麥生理生化指標(biāo)產(chǎn)生顯著變化[1-4]。同時不同的指標(biāo)在反映小麥品質(zhì)特性方面的作用是各異的,例如小麥脂肪酸值的大小與儲藏溫度和儲藏時間有著明顯的正相關(guān)性[5-6];降落數(shù)值反映了小麥的生化活性[7];過氧化氫酶的產(chǎn)生和存在與小麥細(xì)胞的衰老過程緊密相關(guān)[7-8];發(fā)芽率體現(xiàn)了小麥種活性和時間的變化關(guān)系[9-10];電導(dǎo)率為小麥對水分的吸附能力[11-12]。由于指標(biāo)作用的特異性,研究小麥多指標(biāo)對小麥儲藏品質(zhì)的分類貢獻(xiàn)度有著重要的意義。目前對小麥品質(zhì)狀況的判定一般采取單指標(biāo)分析法[13-14],這樣雖然可以簡化分析計(jì)算過程和提高評判效率,但采用單一指標(biāo)表達(dá)總體品質(zhì)變化會出現(xiàn)一定的誤差。
另外各個指標(biāo)在數(shù)量級、變化幅度上差異較大,且在不同的存儲階段,各指標(biāo)的變化規(guī)律也各具特性[15-16],所以需要采用多指標(biāo)綜合分析小麥品質(zhì)變化規(guī)律。但在使用多指標(biāo)評估小麥品質(zhì)的過程中會出現(xiàn)一些問題:如各指標(biāo)間具有復(fù)雜的相關(guān)性,所反映的信息在一定程度上有所重疊;同時分析過多的指標(biāo)可能造成計(jì)算量和誤差的增大。
對此,采用多因子分析方法能在一定程度上消除多指標(biāo)評判帶來的誤差[17-18];除此之外,在對高維海量數(shù)據(jù)進(jìn)行分析研究[19-21]時,可采用聚類分析獲知樣本的分布情況[22-23],以及利用Fisher準(zhǔn)則(費(fèi)舍爾判別準(zhǔn)則)[24-26]將高維數(shù)據(jù)進(jìn)行降維處理來彌補(bǔ)上述方法的缺陷。這些方法雖然考慮了多因素之間的聯(lián)系,并從整體性進(jìn)行了研究,但沒有從指標(biāo)個體和總體的關(guān)系方面進(jìn)行具體的分析計(jì)算,在綜合分析解決問題上仍存在不足之處。
顯然對于指標(biāo)數(shù)量較多且彼此間存在復(fù)雜內(nèi)在聯(lián)系問題,目前還鮮有對小麥多指標(biāo)進(jìn)行的綜合分析研究。為了選取能合理評判小麥儲藏品質(zhì)的指標(biāo),消除過多指標(biāo)可能帶來的誤差,優(yōu)化分析和計(jì)算的過程,獲得綜合多指標(biāo)對小麥的準(zhǔn)確分類和判別,本文嘗試采用一種新的分析方法,即基于歐式距離對小麥各指標(biāo)進(jìn)行相似性分析,采用主成分分析法(principal components analysis,PCA)獲取關(guān)鍵指標(biāo)數(shù)據(jù),對各指標(biāo)的敏感性進(jìn)行計(jì)算比較,以便更加有效地描述小麥的不同特征,從而對小麥儲藏品質(zhì)進(jìn)行分類預(yù)測,并由Fisher準(zhǔn)則對分類結(jié)果進(jìn)行訓(xùn)練獲得判別函數(shù),由此將計(jì)算結(jié)果和真實(shí)數(shù)據(jù)進(jìn)行比對分析。
試驗(yàn)選取河南省農(nóng)科院培育的高筋麥(鄭麥9023),小麥在試驗(yàn)前儲存在淺圓倉型糧庫中,倉內(nèi)全年溫度維持在22~25 ℃之間,小麥水分保持在11%~12.5%之間。選取若干批入庫時間不同的小麥作為試驗(yàn)材料,依據(jù)小麥和玉米深加工國家工程實(shí)驗(yàn)室的建議要求并參考文獻(xiàn)[27]對小麥進(jìn)行預(yù)處理,具體如下:
先采用體積分?jǐn)?shù)為5%的次氯酸鈉溶液(化學(xué)純)無菌處理5 min,并用無菌水清洗,再將各批小麥分別封裝在1 000 mL玻璃瓶中,平衡5 d。在整個測試期間,調(diào)節(jié)瓶內(nèi)水分使其濕度保持為相對穩(wěn)定的12.5%,儲藏溫度設(shè)置為25 ℃。
氫氧化鉀;無水乙醇;乙酸鈉;溴酚藍(lán);重鉻酸鉀;硫代硫酸鈉;鄰苯二甲酸氫鉀;酚酞;可溶性淀粉等(試劑等級皆為CP,化學(xué)純)。
PQX型多段可編程人工氣候箱;錘式旋風(fēng)磨;恒溫水浴鍋;1010-3型鼓風(fēng)恒溫干燥箱;HY-2調(diào)速多用振蕩器;DDS-11At電導(dǎo)率儀;XK96-B快速混勻器;降落數(shù)值儀;SPX-150生化培養(yǎng)箱等。
上面所述7個生理生化指標(biāo)中脂肪酸值、降落數(shù)值、還原糖、發(fā)芽率、過氧化氫酶5個指標(biāo)分別根據(jù)GB/T 15684-2015、GB/T 10361-2008、GB/T5009.7-2016、GB/ T5520-2011、GB/T5522-2008進(jìn)行測定,小麥電導(dǎo)率參考文獻(xiàn)[5]中的方法測量,小麥丙二醛采用文獻(xiàn)[7]中的方法進(jìn)行測量,對每批小麥數(shù)據(jù)的7個指標(biāo)樣品均做3次平行試驗(yàn),標(biāo)準(zhǔn)誤差均小于±5%,取均值作為試驗(yàn)數(shù)據(jù),具體測試數(shù)據(jù)及標(biāo)準(zhǔn)差如表1所示。
表1 小麥指標(biāo)數(shù)據(jù)
基于已有研究結(jié)果,本文對小麥儲藏品質(zhì)進(jìn)行分析時,選取降落數(shù)值、發(fā)芽率、過氧化物酶、脂肪酸值、電導(dǎo)率、還原糖值、丙二醛等7個與儲藏品質(zhì)相關(guān)程度不同的生理生化指標(biāo)。對于這些指標(biāo)內(nèi)在關(guān)聯(lián)是否復(fù)雜以及能否綜合表達(dá)小麥的整體品質(zhì)等問題,仍要進(jìn)一步研究;所以在對小麥指標(biāo)計(jì)算前,需要對相關(guān)變量進(jìn)行處理分析。
KMO測度(kaiser-meyer-olkin)是一種判斷原始變量是否適合作因子分析的統(tǒng)計(jì)檢驗(yàn)方法,用于檢驗(yàn)變量間的相關(guān)系數(shù)和偏相關(guān)系數(shù)之間的關(guān)系。當(dāng)所有變量的簡單相關(guān)系數(shù)平方和遠(yuǎn)遠(yuǎn)大于偏相關(guān)系數(shù)平方和時,變量間的相關(guān)性越強(qiáng),適合用主成分分析;反之,則不適合主成分分析。在統(tǒng)計(jì)學(xué)上,KMO測度>0.5,即可進(jìn)行因子分析;在0.7以上表明因子分析效果很好。
在對小麥各指標(biāo)進(jìn)行分析計(jì)算時,一般采用皮爾遜積矩相關(guān)系數(shù)來度量指標(biāo)和之間的相互關(guān)系,的取值范圍為[–1,+1],計(jì)算公式為
其中表示皮爾遜積矩相關(guān)系數(shù),X與Y分別表示小麥的不同的指標(biāo),表示小麥的不同批次。
Bartlett’s球型檢驗(yàn)(barlett test of sphericity)以變量的相關(guān)系數(shù)來構(gòu)建矩陣,用于檢驗(yàn)相關(guān)陣是否是單位陣。在多指標(biāo)綜合計(jì)算分析時,若Bartlett’s球型檢驗(yàn)的統(tǒng)計(jì)值較大,對應(yīng)的SIG(significance)值較小,則說明差異檢驗(yàn)效果顯著,可作進(jìn)一步的分析;反之則不宜。
本文對小麥各指標(biāo)的KMO檢驗(yàn)和Bartlett’s球型檢驗(yàn)進(jìn)行計(jì)算,得到7個小麥指標(biāo)的KMO測度值為0.807>0.7,說明所選取的指標(biāo)間有著很強(qiáng)的相關(guān)性。在Bartlett’s球型度檢驗(yàn)計(jì)算結(jié)果中,其SIG值小于0.001,說明相關(guān)系數(shù)矩陣和單位陣有著極其顯著的差異,整體數(shù)據(jù)呈球形分布,各變量間在一定程度上相互獨(dú)立。綜合KMO測度值和 Bartlett’s球度分析結(jié)果,說明所選取的指標(biāo)和測量數(shù)據(jù)適合作因子分析。
KMO檢驗(yàn)和 Bartlett’s球型檢驗(yàn)結(jié)果說明小麥各指標(biāo)間相關(guān)性很強(qiáng),能綜合表達(dá)小麥整體的品質(zhì)狀況,但由于本模型所用小麥指標(biāo)較多,其作用各不相同,且彼此相關(guān)系數(shù)未知,所以本文采用歐式距離對小麥數(shù)據(jù)間的相似性進(jìn)行計(jì)算,從而分析各指標(biāo)間的內(nèi)在關(guān)系。
由于小麥各指標(biāo)間差異性較大,在數(shù)量級上也有巨大差別,所以需要進(jìn)行標(biāo)準(zhǔn)化后才能進(jìn)行分析計(jì)算。考慮到數(shù)據(jù)的均值和標(biāo)準(zhǔn)差獲取方便、分析有效,本文采用Z-score標(biāo)準(zhǔn)化(zero-mean normalization)方法對小麥指標(biāo)數(shù)據(jù)進(jìn)行處理。具體方法如下
1)求每個指標(biāo)數(shù)據(jù)的算數(shù)平均值。
2)計(jì)算各指標(biāo)的標(biāo)準(zhǔn)差。
3)對每個數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
4)將逆指標(biāo)前的正負(fù)號互換(數(shù)值越小越好的指標(biāo)稱為逆指標(biāo),反之為正指標(biāo))。
5)由計(jì)算的z值組成新矩陣Z。
對標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣Z,計(jì)算其歐式相似系數(shù),具體計(jì)算公式如下
其中x為指標(biāo)數(shù)據(jù),共批數(shù)據(jù),s為各指標(biāo)的標(biāo)準(zhǔn)差,每個指標(biāo)有個數(shù)據(jù),z為第個指標(biāo)的第個數(shù)據(jù)的標(biāo)準(zhǔn)化值,z為第個指標(biāo)的第個數(shù)據(jù)的標(biāo)準(zhǔn)化值,第個指標(biāo)與第個指標(biāo)間的歐式相似系數(shù)為R。對表1中的數(shù)據(jù)進(jìn)行指標(biāo)間相似性系數(shù)計(jì)算,結(jié)果見表2。
由歐式距離計(jì)算出各個指標(biāo)間的相關(guān)性,數(shù)值越小則說明2個指標(biāo)越相關(guān)。由表2可知:降落數(shù)值與脂肪酸值、電導(dǎo)率、還原糖值、丙二醛之間的距離較小,說明這5個指標(biāo)在反應(yīng)小麥某品質(zhì)方面的作用是相同的;同時這5個指標(biāo)與發(fā)芽率和過氧化物酶距離都很大,說明它們在表達(dá)小麥該品質(zhì)方面是不同的;另外,發(fā)芽率、過氧化物酶之間距離很近,說明這2個指標(biāo)在一定程度上反映著相同的品質(zhì)情況。綜上分析,考慮選取降落數(shù)值、脂肪酸值、還原糖值、丙二醛、電導(dǎo)率5個相似性較高、能準(zhǔn)確反映小麥品質(zhì)情況的指標(biāo)進(jìn)行分類研究,而發(fā)芽率和過氧化物酶這2個指標(biāo)仍需進(jìn)一步分析。
表2 小麥各指標(biāo)歐式相關(guān)性
注:1、2,,7分別表示指標(biāo)降落數(shù)值、發(fā)芽率、過氧化物酶、脂肪酸值、電導(dǎo)率、還原糖值、丙二醛。
Note:1、2,,7represent the falling number, germination rate, malondialdehyde, fatty acid, conductivity, reducing sugar value and peroxisase, respectively.
盡管通過相關(guān)性計(jì)算可以得到各指標(biāo)間的相似系數(shù),但是相似系數(shù)在反映每個指標(biāo)數(shù)據(jù)與整體的關(guān)系上仍有不足,各指標(biāo)對總體品質(zhì)的貢獻(xiàn)度仍需結(jié)合數(shù)據(jù)的具體情況進(jìn)行分析。PCA方法在高維指標(biāo)數(shù)據(jù)降維處理方面有一定的優(yōu)勢,在本文中以方差作為信息量的測度,構(gòu)造價值函數(shù),提取出可以突出表達(dá)小麥品質(zhì)的因素,對指標(biāo)數(shù)據(jù)進(jìn)行降維處理,從而減少預(yù)測變量的個數(shù)。具體步驟如下
1)用數(shù)據(jù)的標(biāo)準(zhǔn)化結(jié)果建立矩陣Z。
2)根據(jù)矩陣Z計(jì)算相關(guān)系數(shù)矩陣和相應(yīng)的特征值i、特征向量e。其中每一個特征值為對應(yīng)成分的方差,方差越大,其貢獻(xiàn)率越大。
對評價指標(biāo)進(jìn)行主成分分析后,篩選出包含累計(jì)貢獻(xiàn)率大于70%的主要成分及其對應(yīng)的特征根。
4)對主成分荷載ij進(jìn)行計(jì)算。
5)計(jì)算評價指標(biāo)的敏感性。
其中,λ為特征值,e為特征向量,共個主成分,有個特征根;為累計(jì)方差貢獻(xiàn)率,是主成分貢獻(xiàn)率;ij是主成分荷載,e對應(yīng)e特征向量的第個數(shù)值;β為評價指標(biāo)x對評價結(jié)果的影響度,它的大小代表第個評價指標(biāo)的敏感性程度和重要性。β值越大,說明該指標(biāo)重要性越高;反之,該指標(biāo)重要性越低。
具體的計(jì)算結(jié)果見表3和4。
表3 各成分特征值及貢獻(xiàn)率
表4 各指標(biāo)評價敏感性
表3中第一個特征值對應(yīng)的主成分的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到了72.724%,說明該主成分可以反映原始指標(biāo)所能提供的絕大部分信息,可利用它對小麥的品質(zhì)進(jìn)行綜合評價。
由表4的評價敏感性可知:脂肪酸值的敏感性最大(0.186),說明它對評價結(jié)果的影響也最大,故該指標(biāo)可以作為評價小麥品質(zhì)的關(guān)鍵性指標(biāo);過氧化物酶的敏感性(0.160)最小,它對評價結(jié)果的影響最小。
另外由表2中的歐式相似系數(shù)可見:過氧化物酶在指標(biāo)間的相關(guān)性以及對總體貢獻(xiàn)率方面表現(xiàn)也不突出。綜上分析舍去過氧化物酶這一指標(biāo),選取降落數(shù)值、發(fā)芽率、丙二醛、還原糖值、脂肪酸值、電導(dǎo)率這6個指標(biāo)作為分析小麥特性的主要指標(biāo)因子。
由于對小麥數(shù)據(jù)的選取是隨機(jī)的,即事先無法獲知測試小麥的整體品質(zhì)分布狀況,所以本文采用系統(tǒng)聚類分析方法,先對整體數(shù)據(jù)進(jìn)行預(yù)測分類,大致獲知小麥的分布情況后,再采用Fisher判別法對各類小麥數(shù)據(jù)進(jìn)行訓(xùn)練判別。
對不同測試小麥樣品分類時,需要給定類間距,選擇距離最小的1對合并成新的1類,計(jì)算新類與其他類之間的距離,再將距離最近的2類合并,這樣每次減少1類,直至所有的樣品合為1類為止。本模型采取基于最近鄰元素和平方Euclidean距離的系統(tǒng)分類法,選擇包含過氧化酶在內(nèi)的7組指標(biāo)和不包含過氧化物酶的6組指標(biāo)數(shù)據(jù),利用SPSS計(jì)算分析,得到如圖1所示的2種聚類樹型圖,由此可以清楚地看出測試小麥分布情況。
圖1中縱坐標(biāo)為表1中18組測試數(shù)據(jù)批次,橫坐標(biāo)表示各組之間的距離,其距離從小變大的過程中對應(yīng)著不同的分類情況。圖1a為包含過氧化物酶的數(shù)據(jù),圖1b不包含過氧化物酶。
圖1 小麥多指標(biāo)系統(tǒng)聚類結(jié)果
對比圖1中2種聚類結(jié)果發(fā)現(xiàn):左圖包含過氧化物酶指標(biāo),在組內(nèi)距離達(dá)到16時才可以聚為2類;而右圖不包含該指標(biāo),在組內(nèi)距離在4時就可以明顯地分為3類。由此表明:過氧化物酶在小麥品質(zhì)分類的過程中作用不明顯,即該指標(biāo)對總體的貢獻(xiàn)比較小。
由上述的聚類試驗(yàn)圖1可以獲知,本次小麥樣本是由具有明顯分類特征的3類數(shù)據(jù)組成的,但僅通過圖1還不能精確地描述出每個指標(biāo)在反映總體品質(zhì)時的作用,也不能快捷有效地通過多指標(biāo)計(jì)算出對應(yīng)的小麥品質(zhì)。因此,本文進(jìn)一步采用Fisher判別分析方法,對已知的小麥樣本進(jìn)行訓(xùn)練分析,根據(jù)不同分類的指標(biāo)分布情況,建立起相應(yīng)的判別函數(shù),從而實(shí)現(xiàn)對每個指標(biāo)的精確分析以及不同小麥品質(zhì)的識別分類。
小麥指標(biāo)的Fisher 判別函數(shù)是按照類內(nèi)方差盡可能小、類間方差盡可能大的準(zhǔn)則來確定其系數(shù),然后依據(jù)判別函數(shù)來預(yù)測待判樣本的分類。
式中()為轉(zhuǎn)換函數(shù),C為對應(yīng)的轉(zhuǎn)換矩陣,x為維空間中的點(diǎn)。這樣利用公式(12)可對具有項(xiàng)指標(biāo)的未知樣本進(jìn)行計(jì)算,獲得測試樣本與已知類別之間的距離情況,來判定未知樣本的歸屬類別,從而完成判別過程。
Fisher判別模型需要一定數(shù)量的先驗(yàn)分類數(shù)據(jù)作為訓(xùn)練基礎(chǔ),即需要1組初始分類。由上文的相似性計(jì)算和PCA分析可知,脂肪酸值在指標(biāo)相關(guān)性和對總體貢獻(xiàn)率方面較突出,可以在一定程度上反映整體品質(zhì),所以文中以文獻(xiàn)[3,5]對脂肪酸品質(zhì)的定義為標(biāo)準(zhǔn),依據(jù)本文小麥脂肪酸值的分布情況,將小麥整體初步分成3類,作為初始分類結(jié)果供Fisher判別模型進(jìn)行訓(xùn)練。
將表1中的18批數(shù)據(jù)以及分類結(jié)果代入Fisher判別模型進(jìn)行訓(xùn)練,計(jì)算得到2個Fisher典型判別函數(shù)和其對應(yīng)的特征值及方差貢獻(xiàn)率,如表5所示。
表5 判別函數(shù)特征數(shù)據(jù)
典型判別函數(shù)的重要性與其特征值的貢獻(xiàn)率有關(guān),由表5中的2個判別函數(shù)可以看出,第1個函數(shù)的貢獻(xiàn)率已達(dá)到89.7%,而第2個只有10.3%,所以在數(shù)據(jù)分類方面表明函數(shù)1較為合適。另外,運(yùn)用2個Fisher典型判別函數(shù)對樣本進(jìn)行分組,結(jié)果如圖2所示。
注:圖中的符號表示不同品質(zhì)的小麥批次,將小麥的多指標(biāo)數(shù)據(jù)帶入函數(shù)1可得到橫坐標(biāo)值,帶入函數(shù)2可得到縱坐標(biāo)值,由此可構(gòu)成二維平面上的節(jié)點(diǎn)。
在圖2中,能夠從小麥數(shù)據(jù)在函數(shù)1上的投影明顯地辨認(rèn)出3種不同類別,而函數(shù)2只能在品質(zhì)1、2間的分類效果較好,對于品質(zhì)等級3則無法區(qū)分。綜上所述,采取函數(shù)1作為主要判別函數(shù),判別函數(shù)1表達(dá)如下
表示函數(shù)1的判別值,在該判別函數(shù)下,1類小麥中心值(對應(yīng)圖2中的+號,下同)為–5.699;2類小麥中心值為1.316;3類小麥中心值為3.945??梢酝ㄟ^比較未知小麥在函數(shù)下的值與這3類小麥的中心值的距離來識別未知小麥的類別,距某類中心越近,即將此小麥判別為該類別。
由上可知:所建立的Fisher判別函數(shù)說明本文所選取的6個小麥指標(biāo)不僅具有一定的內(nèi)在聯(lián)系,還可以由精確的數(shù)學(xué)模型來共同表達(dá)小麥整體品質(zhì)變化。
為驗(yàn)證文中模型分類結(jié)果與實(shí)際中小麥儲藏品質(zhì)分類情況是否一致、以及本模型解決實(shí)際問題的效果,需要有一個對照的參考評判標(biāo)準(zhǔn)。雖然國標(biāo)對脂肪酸、降落數(shù)值、發(fā)芽率的大小標(biāo)準(zhǔn)都進(jìn)行了大致的劃分,但是由于小麥產(chǎn)地及品種的差異,這些指標(biāo)會在一個較大的范圍內(nèi)浮動,很難用較準(zhǔn)確的值對小麥品質(zhì)進(jìn)行判斷,另外從單指標(biāo)的范圍也很難進(jìn)行品質(zhì)的判定,所以需要統(tǒng)計(jì)多個指標(biāo)對小麥品質(zhì)綜合分析。
查閱相關(guān)文獻(xiàn)[4,6,14]并對實(shí)際儲藏小麥數(shù)據(jù)進(jìn)行分析,獲得小麥在自然存儲條件下不同時期品質(zhì)發(fā)生劣變時(從優(yōu)質(zhì)小麥逐漸劣變成中等小麥)各指標(biāo)的變化趨勢,得到指標(biāo)參考評判結(jié)果。
從文獻(xiàn)中可以發(fā)現(xiàn),優(yōu)質(zhì)小麥的脂肪酸值一般小于20 mg/100 g、發(fā)芽率一般會高于90%、電導(dǎo)率在30s?(cm?g)左右、降落數(shù)值在350 s左右。而在1年的儲藏過程中,這些指標(biāo)會逐漸劣變,劣質(zhì)小麥的脂肪酸值增長到27 mg/100 g左右,發(fā)芽率會低于80%,電導(dǎo)率會逐漸劣變到60S/cm,降落數(shù)值增加到450 s左右。丙二醛、還原糖等指標(biāo)也會發(fā)生小幅度的變化。為方便計(jì)算分析,將每種品質(zhì)所對應(yīng)的指標(biāo)變化情況進(jìn)行歸納整合,得到如表6所示的參考數(shù)值。
表6 不同時期小麥指標(biāo)參考數(shù)值
注:參考判別范圍是由各指標(biāo)的范圍分別帶入判別函計(jì)算得出。
Note: The reference discriminant range is calculated by introducing the range of each index into the discriminant functionrespectively.
通過對表6中參考數(shù)據(jù)的綜合計(jì)算分析后,取小于20 d、100~150d、200~360d小麥分別為優(yōu)良小麥、中等小麥、劣質(zhì)小麥,從而作為小麥品質(zhì)參考評判標(biāo)準(zhǔn)。再將表1中各批小麥的判別數(shù)值與參考判別范圍分別進(jìn)行比對,獲得如表7的結(jié)果。
表7中初始分類是以表1中脂肪酸值分布為基礎(chǔ),結(jié)合文獻(xiàn)[3,5]及相應(yīng)國標(biāo)獲得的分類結(jié)果;Fisher交叉分類是以本文訓(xùn)練出的判別函數(shù)為算法核心,并采用留一交叉驗(yàn)證法[28-29]進(jìn)行的分類。該分類驗(yàn)證法可以降低小數(shù)據(jù)量帶來的誤差,從而獲得更為準(zhǔn)確的分類結(jié)果;參考評判分類是將每批小麥的判別數(shù)值與表6中的評判范圍進(jìn)行比對后所分的類別。
表7 小麥品質(zhì)的不同分類情況
注:*表示誤判。
Note: * Indicates miscarriage of justice.
從表7中發(fā)現(xiàn)每批小麥的Fisher分類情況與參考評判標(biāo)準(zhǔn)所分類的結(jié)果基本相同,說明將小麥所分成的3個類別(1、2、3類)可以分別對應(yīng)為實(shí)際的優(yōu)良、中等、劣質(zhì)3種小麥。
從表7可以發(fā)現(xiàn),對于初始分類結(jié)果,F(xiàn)isher交叉分類與參考評判分類一致性可達(dá)到88.9%,只有批次4、17的分類結(jié)果不同。對表1中相應(yīng)的數(shù)據(jù)進(jìn)行分析后發(fā)現(xiàn),批次4的小麥脂肪酸值較高,而其他指標(biāo)均符合優(yōu)秀小麥的品質(zhì)范疇,這造成了初始分類結(jié)果與Fisher判別分類結(jié)果的偏差。批次17的小麥也出現(xiàn)了類似的問題,其脂肪酸值很高,但是其他指標(biāo)劣變程度并不高,綜合分析后將定義為2類比較合適。
本文還根據(jù)文獻(xiàn)[5-6,30]對小麥脂肪酸值變化趨勢的研究結(jié)果,分析脂肪酸值對小麥品質(zhì)進(jìn)行大致分級,如入庫當(dāng)年小麥脂肪酸值范圍(13.5~19)可對應(yīng)本文分類中的優(yōu)質(zhì)小麥,儲藏滿1年后的小麥(19~31.4)可對應(yīng)本文分類中的的中等及劣質(zhì)小麥。發(fā)現(xiàn)最終批次的分類結(jié)果基本與本模型分類相符,也可在一定程度上驗(yàn)證本文的準(zhǔn)確性。
由上述可知,盡管脂肪酸值在小麥品質(zhì)評判方面具有很高的代表性,可在一定程度上為小麥分類提供參考,但采用單指標(biāo)分析小麥的品質(zhì)時,會因某項(xiàng)指標(biāo)的極端分布而帶來誤差;而文中模型采用的判別函數(shù)以脂肪酸值分類為基礎(chǔ),并結(jié)合多個指標(biāo)分布情況建立Fisher判別模型,經(jīng)降維投影后,通過考慮多個指標(biāo)的大小來確定3種分類的Fisher中心值,從而能夠?qū)ξ粗←湹钠焚|(zhì)進(jìn)行綜合分析,給出更為合理的分類效果。
本試驗(yàn)選取具體品質(zhì)未知的儲藏小麥,以避免先驗(yàn)認(rèn)知對本試驗(yàn)結(jié)果帶來的主觀偏差。由于選取的小麥具有不同的入庫時間,所以能夠大致獲知試驗(yàn)小麥的品質(zhì)間已經(jīng)具有一定的差別,可建立分級模型。
試驗(yàn)在對小麥各指標(biāo)數(shù)值進(jìn)行測試前,對所有批次的小麥進(jìn)行了一定的預(yù)處理,防止小麥在試驗(yàn)過程中出現(xiàn)較大的品質(zhì)劣變,從而保證本文對各指標(biāo)的測試結(jié)果可準(zhǔn)確表達(dá)不同入庫時間的各批小麥品質(zhì)。經(jīng)指標(biāo)測試、模型建立、以及表6參考數(shù)值的選取,可綜合說明,儲藏時間的變化會對小麥的品質(zhì)的帶來一定的影響,這種影響具體表現(xiàn)在各指標(biāo)的數(shù)值變化上,本文通過對小麥多指標(biāo)的綜合計(jì)算,能夠?qū)Υ嫘←湹钠焚|(zhì)進(jìn)行深入的分析。
1)本文采用KMO與Bartlett’s雙檢驗(yàn)方法,對小麥生理生化指標(biāo)進(jìn)行分析處理,發(fā)現(xiàn)小麥多指標(biāo)KMO測度值為0.807>0.7,Bartlett’s球型度檢驗(yàn)SIG值小于0.001,表明小麥各指標(biāo)間存在較強(qiáng)的相關(guān)性,可以進(jìn)行因子分析。
2)通過計(jì)算各指標(biāo)相似性系數(shù)、特征值及貢獻(xiàn)率,發(fā)現(xiàn)脂肪酸值的敏感性最高,為0.186,說明其重要性最大,而過氧化物酶的敏感性最低為0.16,故舍去過氧化物酶。由此,選取降落數(shù)值、發(fā)芽率、脂肪酸值、電導(dǎo)率、還原糖值、丙二醛這6個指標(biāo)進(jìn)行后續(xù)計(jì)算分析。
3)通過對小麥數(shù)據(jù)的Fisher判別訓(xùn)練,得到2類判別函數(shù),其中判別函數(shù)1的貢獻(xiàn)率達(dá)到89.7%,在該函數(shù)下,3種類別在分類圖上區(qū)分明顯,這表明所選取的6個指標(biāo)可以由確切的判別函數(shù)來共同表達(dá)小麥整體品質(zhì)。經(jīng)數(shù)據(jù)檢驗(yàn),該文判別模型對小麥的分類結(jié)果與實(shí)際參考標(biāo)準(zhǔn)分類結(jié)果的一致性達(dá)到88.9%,可說明本模型的判別函數(shù)準(zhǔn)確度較高,可以克服由單指標(biāo)分析所帶來的誤差。
本文用代數(shù)、矩陣、圖形等方法來尋找總體與個體間的差異與相似性,以獲得一種能夠判定小麥品質(zhì)的最優(yōu)法則。最終計(jì)算結(jié)果和實(shí)際情況基本一致,表明本文的計(jì)算分析模型基本正確,可在一定程度上指導(dǎo)其他糧食作物的分析與判別。
[1] 周顯青,張玉榮,王君利,等. 篩下物雜質(zhì)對小麥微生物活動與儲藏品質(zhì)的影響[J]. 農(nóng)業(yè)工程學(xué)報(bào),2009,25(6):274-279. Zhou Xianqing, Zhang Yurong, Wang Junli, et al. Influence of sieve-through impurities on wheat microbe activity and storage quality[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2009, 25(6): 274-279. (in Chinese with English abstract)
[2] 朱德泉,王繼先,朱德文,等. 小麥微波干燥特性及其對品質(zhì)的影響[J]. 農(nóng)業(yè)工程學(xué)報(bào),2006,22(4):182-185. Zhu Dequan, Wang Jixian, Zhu Dewen, et al. Experimental study on wheat grain microwave drying characteristics and its eff ect on the quality of wheat grain[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2006, 22(4): 182-185. (in Chinese with English abstract)
[3] 孫輝,姜薇莉,田曉紅,等. 小麥粉儲藏品質(zhì)變化規(guī)律研究[J]. 中國糧油學(xué)報(bào),2005,20(3):77-82. Sun Hui, Jiang Weili, Tian Xiaohong, et al. Quality changes of wheat flour during storage in controlled condition[J]. Journal of the Chinese Cereals and Oils Association, 2005, 20(3): 77-82. (in Chinese with English abstract)
[4] Deliberali J, Oliveira M, Durigon A, et al. Effects of drying process and storage time on technological quality of wheat[J]. Ciencia E Agrotecnologia, 2010, 34(5): 1285-1292.
[5] 高艷娜. 小麥產(chǎn)后品質(zhì)變化規(guī)律[D]. 鄭州: 河南工業(yè)大學(xué),2010. Gao Yanna. Studie on Variation Law of Quality Changes of the Harvested Wheat[D]. Zhengzhou: Henan University of Technology, 2010. (in Chinese with English abstract)
[6] 宋偉,丁超,胡寰翀,等. 儲藏條件對小麥游離脂肪酸值上升速度的影響[J]. 食品科學(xué),2010,31(10):301-303. Song Wei, Ding Chao, Hu Huanchong, et al. Modeling of the effects of modified atmosphere storage conditions on free fatty acid value increase[J]. Food Science, 2010, 31(10): 301-303. (in Chinese with English abstract)
[7] 夏晨豐. 不同生理活性對小麥品質(zhì)及儲存溫度性的影響研究[D]. 鄭州: 河南工業(yè)大學(xué),2013. Xia Chenfeng. Study on Storage Stability of Different Physiological Activity of Wheat[D]. Zhengzhou: Henan University of Technology, 2013. (in Chinese with English abstract)
[8] Hussain M, Zahir Z, Asghar H, et al. Can catalase and exopolysaccharides producing rhizobia ameliorate drought stress in wheat?[J]. International Journal of Agriculture and Biology. 2014, 16(1): 3-13.
[9] 張鐘,程美林,王麗,等. 發(fā)芽對小麥品質(zhì)的影響[J]. 中國糧油學(xué)報(bào),2014,29(1):11-16. Zhang Zhong, Cheng Meilin, Wang Li, et al. Effect of germination on the quality of wheat[J]. Journal of the Chinese Cereals and Oils Association. 2014, 29(1): 11-16. (in Chinese with English abstract)
[10] Karwasra B L, Gill B S, Kaur M, et al. Influence of germination period on physicochemical, pasting and antioxidant properties of Indian wheat cultivars[J]. Journal of Food Measurement and Characterization, 2018, 12(1): 68-77.
[11] Pettersson C, S?derstr?m M, Eckersten H, et al. Canopy reflectance, thermal stress, and apparent soil electrical conductivity as predictors of within-field variability in grain yield and grain protein of malting barley[J]. Precision Agriculture. 2006, 7(5): 343-359.
[12] 馬曉娣,王麗,汪矛,等. 不同耐熱性小麥品種在熱鍛煉和熱脅迫下葉片相對電導(dǎo)率及超微結(jié)構(gòu)的差異[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào),2003,8(5):4-8. Ma Xiaodi, Wang Li, Wang Mao, et al. Difference in relative conductivity and ultrastructure of leaf between two wheat cultivars with different thermotolerance under heat acclimation and heat stress[J]. Journal of China Agricultural University, 2003, 8(5): 4-8. (in Chinese with English abstract)
[13] Rakcejeva T, Rusa K, Dukalska L. Effect of chitosan and chitooligosaccharide lactate on free lipids and reducing sugars content and on wheat bread firming[J]. European Food Research and Technology, 2011, 232(1): 123-128.
[14] 周顯青,張玉榮. 儲藏稻谷品質(zhì)指標(biāo)的變化及其差異性[J].農(nóng)業(yè)工程學(xué)報(bào),2008,24(12):238-242. Zhou Xianqing, Zhang Yuyong. Changes and differential analysis of the quality indexes of stored paddy[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2008, 24(12): 238-242. (in Chinese with English abstract)
[15] 劉麗杰,李喜宏,李仲群,等. 不同處理對小麥儲藏品質(zhì)影響的研究[J]. 食品科技,2010,35(3):153-156. Liu Lijie, Li Xihong, Li Zhongqun, et al. Study on changes of quality during wheat storage period[J]. Food Science and Technology. 2010, 35(3): 153-156. (in Chinese with English abstract)
[16] Dong C, Shao L, Fu Y, et al. Evaluation of wheat growth, morphological characteristics, biomass yield and quality in Lunar Palace-1, plant factory, green house and field systems[J]. Acta Astronautica. 2015, 111: 102-109.
[17] 王瑩,盧秀和,楊曼. 基于歐式距離法的變壓器故障BBA模型建立與分析[J]. 電測與儀表,2016,53(12):42-45. Wang Ying,Lu Xiuhe,Yang Man. BBA model establishment and analysis of transformer faults based on Euclidean distance[J]. Electrical Measurement & Instrumentation. 2016, 53(12): 42-45. (in Chinese with English abstract)
[18] Li L, Yin F, Lu T, et al. Fingerprint of vinegar processed genkwa flos based on improving euclidean distance[J]. Journal of Chinese Medicinal Materials, 2015, 38(6): 1168-1171.
[19] 魯金濤,李夕兵,宮鳳強(qiáng),等. 基于主成分分析與Fisher判別分析法的礦井突水水源識別方法[J]. 中國安全科學(xué)學(xué)報(bào),2012,22(7):109-115. Lu Jintao, Li Xibing, Gong Fengqiang, et al. Recognizing of mine water inrush sources based on principal components analysis and fisher discrimination analysis method[J]. 2012, 22(7): 109-115. (in Chinese with English abstract)
[20] 齊敏芳,付忠廣,景源,等. 基于信息熵與主成分分析的火電機(jī)組綜合評價方法[J]. 中國電機(jī)工程學(xué)報(bào),2013,33(2): 58-64.Qi Minfang, Fu Zhongguang, Jing Yuan, et al. A comprehensive evaluation method of power plant units based on information entropy and principal component analysis[J]. Proceedings of the CSEE, 2013, 33(2): 58-64. (in Chinese with English abstract)
[21] Martinez A M, Kak A C. PCA versus LDA[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(2): 228-233.
[22] 潘學(xué)軍,張文娥,李琴琴,等. 核桃感官和營養(yǎng)品質(zhì)的主成分及聚類分析[J]. 食品科學(xué),2013,34(8):195-198. Pan Xuejun, Zhang Wene, Li Qinqin, et al. Principal component analysis and cluster analysis of sensory and nutritional quality of walnut[J]. Food Science, 2013, 34(8): 195-198. (in Chinese with English abstract)
[23] 伍育紅. 聚類算法綜述[J]. 計(jì)算機(jī)科學(xué),2015,42(增刊1):491-499,524. Wu Yuhong. General overview on clustering algorithms[J]. Computer Science, 2015, 42(Supp.1): 491-499,524. (in Chinese with English abstract)
[24] 殷勇,郝銀鳳,于慧春. 基于多特征融合的電子鼻鑒別玉米霉變程度[J]. 農(nóng)業(yè)工程學(xué)報(bào),2016,32(12):254-260. Yin Yong, Hao Yinfeng, Yu Huichun. Identification method for different moldy degrees of maize using electronic nose coupled with multi-features fusion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(12): 254-260. (in Chinese with English abstract)
[25] 楊茜. 基于Fisher線性判別分析的情景感知推薦方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2018,39(3):848-853. Yang Qian. Context-aware recommendation method based on Fisher liner discriminant analysis[J]. Computer Engineering and Design, 2018, 39(3): 848-853. (in Chinese with English abstract)
[26] 魯立強(qiáng),金成國,馬玉梁,等. Fisher判別分析在蘋果品質(zhì)鑒別中的應(yīng)用[J]. 食品科學(xué),2007,28(7):356-359. Lu Liqiang, Jin Chengguo, Ma Yuliang, et al. Application of fisher discriminance to discriminate apple qualities[J]. Food Science, 2007, 28(7): 356-359. (in Chinese with English abstract)
[27] 耿旭,黃淑霞,蔡靜平. 儲糧中霉菌活動的生理狀態(tài)與糧堆CO2濃度變化的相關(guān)性[J]. 河南工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010,31(3):12-15. Geng Xu, Huang Shuxia, Cai Jingping. Relativity between physiological state of mould altivity and concentration change of CO2in stored grain [J]. Journal of Henan University of Technology(Natural Science Edition), 2010,31(3):12-15. (in Chinese with English abstract)
[28] 范永東. 模型選擇中的交叉驗(yàn)證方法綜述[D]. 太原: 山西大學(xué),2013. Fan Yongdong. A Summary of Cross-Validation in Model Selection[D]. Taiyuan: Shanxi University, 2013. (in Chinese with English abstract)
[29] 劉學(xué)藝,李平,郜傳厚. 極限學(xué)習(xí)機(jī)的快速留一交叉驗(yàn)證算法[J]. 上海交通大學(xué)學(xué)報(bào),2011,45(8):1140-1145. Liu Xueyi, Li Ping, Gao Chuanhou. Fast leave-one-out cross- validation algorithm for extreme learning machine[J]. Journal of Shanghai Jiaotong University, 2011, 45(8): 1140-1145. (in Chinese with English abstract)
[30] 馬宏,張良軍,劉翠. 談脂肪酸值可作為小麥儲藏品質(zhì)控制的一項(xiàng)指標(biāo)[J]. 糧食加工,2013,38(4):73-74.
Classification of storage wheat grain quality based on multi-index analysis and fisher discriminant criterion
Jiang Huawei, Zhou Tongxing
(450001,)
Physiological and biochemical indices play a significant role in the evaluation of wheat storage quality. The changes in the storage environment and time will not only cause the deterioration of wheat quality but also cause significant changes of wheat physiological and biochemical indices. However, the information expressed is quite different, which brings great inconvenience to the analysis of wheat storage quality. To solve this problem, a multi-index analysis model of wheat storage quality was proposed in this paper. The falling number, germination rate, peroxidase, fatty acid, conductivity, reducing sugar were selected. Seven physiological and biochemical indices of malondialdehyde were selected as the key factors in this paper. First, the KMO (kaiser-meyer-olkin) and Bartlett's sphericity method were used to test the wheat index, and it was found that the KMO measure value was 0.807 > 0.7, SIG value was less than 0.001, which indicated that the selected index and the measured data were suitable for factor analysis. Then the correlation of wheat index was calculated by the European similarity coefficient and PCA(principal components analysis). The results showed that the distance between the falling number and fatty acid, reducing sugar value, malondialdehyde and conductivity was small, which indicated that the effect of these five indices on the quality of wheat was the same. Meanwhile, these five indices are very far away from germination rate and peroxidase, indicating that they are different in expressing the quality of wheat. In addition, the distance between the germination rate and peroxidase is very close. It shows that the two indices reflect the same quality in some degree. The sensitivity of fatty acid is the highest (0.186), which indicates that it has the greatest influence on the evaluation result, so this index can be used as the key index to evaluate wheat quality, and the sensitivity of peroxidase (0.160) is the least, and it has the least influence on the evaluation result. After a comprehensive analysis, the peroxidase was eliminated and the other six indices were retained for further calculation. Then, a systematic classification method based on nearest element and square Euclidean distance is used to cluster the wheat data. The classification results show that the wheat sample is composed of three kinds of data with obvious classification characteristics. The primary classification of wheat was obtained by analyzing the distribution of fatty acid data, and the discriminant function was obtained by using the Fisher discriminant method to train wheat data. According to the discriminant function, the center value of excellent wheat was –5.699. The center value of medium wheat was 1.316 and the center value of poor wheat was 3.945. By comparing the distance between the value of unknown wheat under this function and the center value of these three kinds of wheat, the unknown wheat classification can be identified. If a batch of wheat has the smallest distance to one center value of these three kinds of wheat, then it would be identified as this classification. The final test analysis shows: The result of the classification of wheat storage quality by the discriminant model in this paper is up to 88.9% in accordance with the classification of an actual reference standard. The analysis model in this paper is basically correct, which can not only provide technical support for the construction of quality evaluation system of stored wheat, but also guide the analysis and discrimination of other grain crops to a certain extent.
agricultural products; quality control; models; physiological and biochemical indices; similarity analysis; principal component analysis; system clustering; Fisher discriminant method
10.11975/j.issn.1002-6819.2019.10.037
TS210
A
1002-6819(2019)-10-0291-08
2018-10-26
2019-03-27
國家自然科學(xué)基金(51677055);河南省自然科學(xué)基金(162300410055);河南省高校科技創(chuàng)新團(tuán)隊(duì)計(jì)劃項(xiàng)目(16IRTSTHN026)
蔣華偉,博士,教授,主要從事糧食信息處理研究。Email:lhwcad@126.com
蔣華偉,周同星.基于Fisher判別法則的小麥品質(zhì)多指標(biāo)分級[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(10):291-298. doi:10.11975/j.issn.1002-6819.2019.10.037 http://www.tcsae.org
Jiang Huawei, Zhou Tongxing.Classification of storage wheat grain quality based on multi-index analysis and fisher discriminant criterion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(10): 291-298. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.10.037 http://www.tcsae.org