杜海平
(山西省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)科技信息研究所,山西太原030031)
農(nóng)作物品種最佳聚類(lèi)方法研究
杜海平
(山西省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)科技信息研究所,山西太原030031)
篩選中國(guó)知網(wǎng)上的期刊文獻(xiàn),選擇4篇文章中的4種豆類(lèi)數(shù)據(jù)作為評(píng)判標(biāo)準(zhǔn),對(duì)數(shù)據(jù)變換7種方法、樣品間5種距離公式、類(lèi)間7種距離定義,共組合成的245種分類(lèi)方法,應(yīng)用系統(tǒng)聚類(lèi)分析、方差分析、非參數(shù)檢驗(yàn)和描述性統(tǒng)計(jì)分析等方法進(jìn)行了比較研究。結(jié)果表明,過(guò)去最常使用的類(lèi)間最短距離法和類(lèi)平均距離法都不是最佳的類(lèi)間距離方法,它們的準(zhǔn)確性極顯著地低于最小離差平方和法;原始數(shù)據(jù)Z標(biāo)準(zhǔn)化變換也不是最佳的變換方法,而是“全距從0到1”、“全距從-1到1”、“1的最大量”這3種變換方法;樣品間5種距離分類(lèi)最準(zhǔn)確的是Manhattan距離,其次才是歐氏距離。據(jù)此得出了最佳的聚類(lèi)方法和步驟。
農(nóng)作物品種;聚類(lèi)方法;數(shù)據(jù)變換;類(lèi)間距離;樣品間距離
聚類(lèi)分析是根據(jù)事物的多個(gè)數(shù)值特征來(lái)觀察事物個(gè)體之間或樣品之間的親疏關(guān)系和相似程度的一種多元統(tǒng)計(jì)分析方法,內(nèi)容涉及面廣,分類(lèi)方法多而雜[1-3],其理論上還不是至善至美,但是它比憑感官分類(lèi)效果要好、分類(lèi)結(jié)果明確,借助計(jì)算機(jī)和統(tǒng)計(jì)軟件,分類(lèi)速度很快。
在農(nóng)業(yè)和生物學(xué)研究中,聚類(lèi)分析有著廣泛的應(yīng)用,比如品種分類(lèi)、生產(chǎn)性狀分類(lèi)、表型性狀分類(lèi)、土壤分類(lèi)等。經(jīng)過(guò)分類(lèi),可以發(fā)現(xiàn)每類(lèi)的特征,再通過(guò)特定試驗(yàn),從而可以應(yīng)用方差分析、相關(guān)分析、回歸分析等進(jìn)一步揭示類(lèi)群間的關(guān)系。
聚類(lèi)分析是根據(jù)樣品之間的親疏關(guān)系進(jìn)行分類(lèi),親疏關(guān)系是根據(jù)樣品與樣品之間、類(lèi)與類(lèi)之間的距離遠(yuǎn)近來(lái)衡量的,而距離遠(yuǎn)近又與多種距離公式和聚類(lèi)方法的選擇有關(guān)。
從應(yīng)用的角度,申慧芳等[4-6]使用最短距離法,李莉等[7-9]使用最長(zhǎng)距離法,要燕杰等[10-12]使用類(lèi)間平均法,趙明輝等[13-15]使用離差平方和法,孫敏等[16]使用質(zhì)心聚類(lèi)法。從理論的角度,陳慶富等[17-18]推崇最短距離法,向曉群[19]持相反態(tài)度;張文彤等[20-21]認(rèn)為,類(lèi)平均距離法表現(xiàn)最為優(yōu)異,克勞斯·巴克豪斯等[22]卻認(rèn)為Ward法最好,而蓋鈞鎰[23]認(rèn)為最小組內(nèi)平方和法和組平均法效果都較好。因此,產(chǎn)生了折中辦法,李靜萍等[24-25]建議,盡量多用幾種距離公式和分類(lèi)方法進(jìn)行聚類(lèi)分析,從多種結(jié)果中找出合適的分類(lèi),于是對(duì)同樣一批樣品進(jìn)行分類(lèi),由于多種選擇,就會(huì)得到多種分類(lèi)結(jié)果。這就造成了許多科技人員在使用聚類(lèi)分析方法時(shí)的疑惑和困難,計(jì)算量、工作量大增,而分類(lèi)結(jié)果卻未盡合理。
為了對(duì)多種距離公式、聚類(lèi)方法及數(shù)據(jù)轉(zhuǎn)換方法的不同組合進(jìn)行比較,探索最佳的聚類(lèi)分析方法,本研究?jī)H從農(nóng)業(yè)科研試驗(yàn)數(shù)據(jù)的角度出發(fā),選用4種豆類(lèi)品種作為評(píng)判比較標(biāo)準(zhǔn),經(jīng)過(guò)數(shù)千次的計(jì)算、分析、驗(yàn)證,尋找基于SPSS軟件當(dāng)中系統(tǒng)聚類(lèi)方法下所有組合的最優(yōu)聚類(lèi)搭配,以期給農(nóng)業(yè)科技人員在對(duì)農(nóng)作物品種應(yīng)用聚類(lèi)分析時(shí)提供理論依據(jù)和實(shí)際操作方法。
1.1 數(shù)據(jù)來(lái)源
4組豆類(lèi)數(shù)據(jù),即綠豆、紅小豆、豌豆、大豆,分別來(lái)源于文獻(xiàn)[4-5,7,26]。
1.2 數(shù)據(jù)選取方法
從品種上考慮,第1,2組采用文獻(xiàn)[4-5]中的全部品種;第3組只取用文獻(xiàn)[7]中的10個(gè)品種,剔除5個(gè)極端值品種;第4組取用文獻(xiàn)[26]中的第1個(gè)試驗(yàn)點(diǎn)品種,剔除第2個(gè)點(diǎn)的品種。
從性狀上考慮,選取4組豆類(lèi)共有性狀的數(shù)據(jù),它們是“株高、分枝數(shù)、主莖節(jié)數(shù)、單株莢數(shù)、單莢粒數(shù)、百粒質(zhì)量、生育期、單株產(chǎn)量”。
另外,根據(jù)公式“單株粒數(shù)=單株產(chǎn)量/(百粒質(zhì)量/100),單莢粒數(shù)=單株粒數(shù)/單株莢數(shù)”,計(jì)算補(bǔ)充了第3組中“單莢粒數(shù)”的數(shù)據(jù)缺失。
除8個(gè)生物學(xué)性狀變量外,再增加一個(gè)變量“豆類(lèi)”,相當(dāng)于方差分析中的處理,它有4個(gè)水平,分別是綠豆、紅小豆、豌豆和大豆。這樣,這組數(shù)據(jù)共有9個(gè)變量45個(gè)品種。其中,綠豆12個(gè)品種,紅小豆13個(gè)品種,豌豆10個(gè)品種,大豆10個(gè)品種(表1)。
表1 原始數(shù)據(jù)
續(xù)表1
1.3 研究方法
本研究基于SPSS統(tǒng)計(jì)軟件,采用系統(tǒng)聚類(lèi)方法,對(duì)樣品間5種距離公式、類(lèi)間7種距離公式、數(shù)據(jù)變換7種方法這三者之間245個(gè)組合都進(jìn)行一次聚類(lèi)分析,要求把所選樣品分為四類(lèi),以此聚類(lèi)結(jié)果與標(biāo)準(zhǔn)的四類(lèi)范本進(jìn)行比較,統(tǒng)計(jì)出分錯(cuò)類(lèi)樣品的數(shù)目,再應(yīng)用統(tǒng)計(jì)手段進(jìn)行分析,從而得出不同聚類(lèi)組合之間的優(yōu)劣。本研究中“樣品”等同于品種,只是它適用范圍更廣。
1.4 距離公式定義及數(shù)據(jù)變換方法
假設(shè)有n個(gè)樣品Xi,對(duì)每個(gè)樣品Xi觀測(cè)了m個(gè)指標(biāo)或性狀,即Xi=[xi1xi2… xim],其中xik為第i個(gè)樣品的第k個(gè)指標(biāo)的觀測(cè)值。這樣,得到原始觀測(cè)數(shù)據(jù)陣如下。
設(shè)第i個(gè)樣品Xi與第j個(gè)樣品Xj之間的距離用dij表示,即dij=d(Xi,Xj)。
從以上各公式可以看出,各指標(biāo)或性狀的單位要相同才能進(jìn)行運(yùn)算,才有實(shí)際意義,否則需要先對(duì)各指標(biāo)進(jìn)行標(biāo)準(zhǔn)化變換后才能使用這些公式。
類(lèi)間平均距離(組間聯(lián)接法),即2類(lèi)之間兩兩樣品距離之和的平均值。
類(lèi)內(nèi)平均距離(組內(nèi)聯(lián)接法),即兩類(lèi)合并為一類(lèi)后所有樣品兩兩間距離之和的平均值。
最近鄰元素法,即2類(lèi)之間最近2個(gè)樣品的距離作為2類(lèi)之間的距離。
最遠(yuǎn)鄰元素法(完全連接法),即2類(lèi)間最遠(yuǎn)的2個(gè)樣品的距離作為2類(lèi)之間的距離。
重心聚類(lèi)法(質(zhì)心聚類(lèi)法),即2類(lèi)中各自樣品均值之間的距離作為類(lèi)間距離。
中間距離法(中位數(shù)法或median method):Gk與任一類(lèi)Gr的距離公式如下。
Ward法(離差平方和法),即兩類(lèi)合并后增加的離差平方和作為兩類(lèi)間的距離,選擇使離差平方和增加最小的兩類(lèi)合并,直到所有的樣品歸為一類(lèi)為止。
1.4.3 原始數(shù)據(jù)7種轉(zhuǎn)換方法
1.4.3.1 不轉(zhuǎn)換 不對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
1.4.3.2 Z得分 將原數(shù)標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的數(shù)值。計(jì)算方法為原數(shù)減去其變量均值,再除以標(biāo)準(zhǔn)差;如果標(biāo)準(zhǔn)差為0,轉(zhuǎn)換后的值也為0。
1.4.3.3 全距從-1到1 將原數(shù)標(biāo)準(zhǔn)化為-1~1的數(shù)值。計(jì)算方法為原數(shù)減去均值,再除以極差;若極差為0,則原值不變。該方法適用有負(fù)值情況。
1.4.3.4 全距從0到1 將原數(shù)變換為0~1的值。計(jì)算方法為原數(shù)減去其變量中最小值,再除以極差;若極差為0,則變換后的值設(shè)為0.5。
1.4.3.5 1的最大量 將原數(shù)標(biāo)準(zhǔn)化為最大不超過(guò)1的數(shù)值。計(jì)算方法為原數(shù)除以其變量中最大值;如果最大值為0,則為原數(shù)除以其變量中最小值的絕對(duì)值,再加1。
1.4.3.6 均值為1 將原數(shù)標(biāo)準(zhǔn)化為均值為1的數(shù)值。計(jì)算方法為原數(shù)除以其變量的均值;如果均值為0,則為原數(shù)加1。
1.4.3.7 標(biāo)準(zhǔn)差為1 將原數(shù)標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)差為1的數(shù)值。計(jì)算方法為原數(shù)除以其變量的標(biāo)準(zhǔn)差;如果標(biāo)準(zhǔn)差為0,則原數(shù)值不變。
1.5 系統(tǒng)聚類(lèi)過(guò)程
將n個(gè)樣本或樣品看成n類(lèi),計(jì)算所有樣品兩兩之間的距離;把最短距離的2個(gè)樣品聚成一類(lèi),于是總類(lèi)數(shù)就減少了一類(lèi),變成了n-1類(lèi);繼續(xù)計(jì)算樣品之間、或樣品與類(lèi)之間、或類(lèi)與類(lèi)之間的距離;每次都把距離最短的聚成一類(lèi),這樣每次減少一類(lèi);循環(huán)往復(fù),直到最后所有樣品聚成了一個(gè)大類(lèi)。
2.1 4種豆類(lèi)間差異顯著性分析
從表1中8個(gè)指標(biāo)的平均數(shù)可以看出,它們各自在4種豆類(lèi)之間都有不同程度的差異,但是其差異是否能夠達(dá)到把4種豆類(lèi)區(qū)分清楚的顯著程度,還有必要進(jìn)行方差分析。
經(jīng)過(guò)檢驗(yàn)、數(shù)據(jù)轉(zhuǎn)換、再檢驗(yàn),數(shù)據(jù)符合正態(tài)性和方差同質(zhì)性;顯然,數(shù)據(jù)也符合獨(dú)立性。這樣,數(shù)據(jù)具備了方差分析的3個(gè)必要條件,可以進(jìn)行方差分析。
多變量方差分析顯示,4種豆類(lèi)在8個(gè)指標(biāo)的總體上差異極顯著。8個(gè)指標(biāo)各自的單變量方差分析顯示,除分枝數(shù)不顯著外,其他7個(gè)指標(biāo)各自在4種豆類(lèi)間都差異極顯著。對(duì)極顯著的7個(gè)指標(biāo)分別進(jìn)行4種豆類(lèi)間的多重比較,結(jié)果表明,絕大多數(shù)都顯著,只有紅小豆與綠豆在株高間、單株莢數(shù)間差異不顯著。
綜上所述,4種豆類(lèi)除在分枝數(shù)上差異不顯著、紅小豆與綠豆在株高和單株莢數(shù)上差異不顯著外,其他40個(gè)多重比較間都差異顯著或極顯著,有很好的分類(lèi)基礎(chǔ),與直觀上認(rèn)為它們?nèi)菀妆粎^(qū)分的判斷是一致的。因此,把這4種豆類(lèi)作為評(píng)判眾多聚類(lèi)方法優(yōu)劣的標(biāo)準(zhǔn)是可行的。
2.2 對(duì)原始數(shù)據(jù)進(jìn)行分類(lèi)的結(jié)果與分析
使用樣品間距離與類(lèi)間距離的35種組合方法,分別對(duì)原始數(shù)據(jù)進(jìn)行聚類(lèi)分析。結(jié)果表明,35種方法中,有34種不能準(zhǔn)確把45個(gè)品種分成四類(lèi),只有Ward法對(duì)應(yīng)Manhattan距離這個(gè)組合能夠準(zhǔn)確分成四類(lèi)(圖1),完全正確率小于3%。在圖1中2.6處樣品被分成了4類(lèi),分別是綠豆、紅小豆、大豆和豌豆。
在35次聚類(lèi)中,分錯(cuò)最多的是最近鄰元素法和中間距離法分別對(duì)應(yīng)Chebychev距離這2個(gè)組合,它們把綠豆、紅小豆和大豆都分到同一類(lèi)里,而把豌豆拆分為3類(lèi),分錯(cuò)數(shù)達(dá)27個(gè),分錯(cuò)率達(dá)60%。
由此可見(jiàn),如果直接對(duì)原始數(shù)據(jù)進(jìn)行分類(lèi),其分類(lèi)效果很差,因?yàn)楦髯兞繂挝徊唤y(tǒng)一,數(shù)量級(jí)別差異也大。所以,要想提高分類(lèi)的正確率,必須對(duì)原始數(shù)據(jù)進(jìn)行一定的變換處理。
2.3 7種數(shù)據(jù)變換(包括原始數(shù)據(jù))的分類(lèi)結(jié)果與分析
對(duì)7種數(shù)據(jù)變換、7種類(lèi)間距離、5種樣品間距離,共245種組合方法的聚類(lèi)結(jié)果,匯總其分類(lèi)樣品數(shù),結(jié)果如表2所示。
表2 原始數(shù)據(jù)7種變換下分錯(cuò)樣品數(shù)匯總
續(xù)表2
由表2可知,“原始數(shù)據(jù)”這一列中,只有Ward法對(duì)應(yīng)的D行為0,表示分類(lèi)正確?!癦得分變換”一列中,分類(lèi)效果最好的是Ward法,其次是類(lèi)內(nèi)平均距離法。但能夠準(zhǔn)確分成四類(lèi)的只有類(lèi)間距離Ward法對(duì)應(yīng)的B行和D行,即Ward法對(duì)應(yīng)平方Euclidean距離和Manhattan距離的分類(lèi)效果最好。Ward法對(duì)應(yīng)的另外3行各分錯(cuò)了一個(gè)樣品;類(lèi)內(nèi)平均距離法對(duì)應(yīng)的A行分錯(cuò)了5個(gè),對(duì)應(yīng)的B行分錯(cuò)了3個(gè),對(duì)應(yīng)的C行分錯(cuò)了5個(gè)??梢?jiàn),經(jīng)過(guò)Z標(biāo)準(zhǔn)化變換,分類(lèi)正確率有明顯的提高。
為準(zhǔn)確把握各種方法和距離的優(yōu)劣,本該應(yīng)用方差分析和多重比較進(jìn)一步分析,但是通過(guò)檢驗(yàn),發(fā)現(xiàn)此表數(shù)據(jù)不滿足正態(tài)性和方差同質(zhì)性要求,只能改用非參數(shù)檢驗(yàn)和描述性統(tǒng)計(jì)進(jìn)行分析。
通過(guò)Kruskal Wallis檢驗(yàn),得出類(lèi)間7種距離之間、數(shù)據(jù)變換7種方法之間差異極顯著,而樣品間5種距離之間差異不顯著。
經(jīng)Mann-Whitney檢驗(yàn)顯示,Ward法分錯(cuò)數(shù)極顯著低于其他6種方法;數(shù)據(jù)變換中,“1的最大量”、“均值為1”、“全距從-1到1”、“全距從0到1”都極顯著低于原始數(shù)據(jù)的分錯(cuò)數(shù),但這4個(gè)間差異不顯著,有必要加入新的品種數(shù)據(jù)進(jìn)一步分析。2.4 60個(gè)品種的分類(lèi)結(jié)果與分析
把前面分析時(shí)剔除的15個(gè)品種(1.2中5個(gè)豌豆品種和10個(gè)大豆品種),也參與了分類(lèi)。豌豆品種變成15個(gè),大豆品種變成20個(gè),綠豆和紅小豆分別還是12,13個(gè)品種。對(duì)這60個(gè)品種進(jìn)行245次聚類(lèi)分析,對(duì)分錯(cuò)數(shù)結(jié)果進(jìn)行獨(dú)立樣本的非參數(shù)檢驗(yàn)等分析。其部分分析結(jié)果如圖2~4、表3所示。
由圖2~4可知,類(lèi)間距離、數(shù)據(jù)變換、樣品間距離分錯(cuò)數(shù)最少的分別是Ward法、“全距從-1到1”和“全距從0到1”、Manhattan距離,并且通過(guò)Mann-Whitney檢驗(yàn),顯示它們的分錯(cuò)數(shù)都極顯著低于別的距離或方法的分錯(cuò)數(shù)。
表3 60個(gè)品種Ward法變換下分類(lèi)錯(cuò)誤匯總
本研究以4種豆類(lèi)數(shù)據(jù)為評(píng)判標(biāo)準(zhǔn),進(jìn)行了大量的推演和計(jì)算,最后得出了比較可靠的品種最佳聚類(lèi)方法。首先,選擇數(shù)據(jù)變換方法。這一步是為了消除不同指標(biāo)不同量綱的影響和數(shù)量級(jí)別落差大的影響。在最常用的7種數(shù)據(jù)變換方法中,得出最好的方法是“全距從0到1”、“全距從-1到1”、“1的最大量”(因?yàn)樗鼈?個(gè)在配合使用Ward法和Manhattan距離以及原始數(shù)據(jù)沒(méi)有負(fù)數(shù)時(shí)差異不大)。其次,選擇類(lèi)間距離。類(lèi)間距離顯然應(yīng)該選Ward方法,它的分類(lèi)準(zhǔn)確性遠(yuǎn)高于其他6種方法。第三,選擇樣品間距離。最好的樣品間距離方法是Manhattan距離,其次是Euclidean距離和Minkowski距離3次方。
為了驗(yàn)證上述最優(yōu)組合在某一類(lèi)樣品比較少的情況下準(zhǔn)確性如何,本研究把表1每一類(lèi)只留2個(gè)品種、而其他三類(lèi)品種數(shù)不變,又針對(duì)2.4中60個(gè)品種把每一類(lèi)只留3個(gè)品種,而其他三類(lèi)品種數(shù)不變,共8種情況,進(jìn)行了數(shù)千次計(jì)算分析,得出了和上面一致的結(jié)論。
本研究的缺憾是樣本量仍然不是很大,每類(lèi)樣本數(shù)沒(méi)有超過(guò)20個(gè),有待以后收集更多的數(shù)據(jù)進(jìn)一步檢驗(yàn)這種最優(yōu)組合方法的外延正確率。
[1]Jain A K.Data clustering:50 years beyond k-means[J].Pattern Recognition Letters,2010,31(8):651-666.
[2]孫吉貴,劉杰,趙連宇.聚類(lèi)算法研究 [J].軟件學(xué)報(bào),2008,19(1):48-61.
[3]王駿,王士同,鄧趙紅.聚類(lèi)分析研究中的若干問(wèn)題[J].控制與決策,2012,27(3):321-328.
[4]申慧芳,李國(guó)柱.不同綠豆突變體主要農(nóng)藝性狀的多元遺傳分析[J].激光生物學(xué)報(bào),2010,19(2):194-200.
[5]申慧芳,李國(guó)柱.紅小豆主要數(shù)量性狀的主成分與聚類(lèi)分析[J].山西農(nóng)業(yè)科學(xué),2012,40(4):310-313,385.
[6]張學(xué)余,蘇一軍,李國(guó)輝,等.部分地方雞種蛋品質(zhì)與生態(tài)環(huán)境的聚類(lèi)和主成分分析[J].天津農(nóng)業(yè)科學(xué),2013,19(1):47-50.
[7]李莉,萬(wàn)正煌,焦春海,等.外引豌豆資源的鑒定及主要數(shù)量性狀的主成分分析[J].湖北農(nóng)業(yè)科學(xué),2014,53(23):5643-5648.
[8]王林海,王曉偉,詹克慧,等.黃淮麥區(qū)部分小麥種質(zhì)資源農(nóng)藝性狀的聚類(lèi)分析[J].中國(guó)農(nóng)學(xué)通報(bào),2008,24(4):186-191.
[9]馬蓉麗,焦彥生,成妍,等.基于表型性狀的辣椒資源遺傳多樣性分析[J].山西農(nóng)業(yè)科學(xué),2015,43(12):1577-1581.
[10]要燕杰,高翔,吳丹,等.小麥農(nóng)藝性狀與品質(zhì)特性的多元分析與評(píng)價(jià)[J].植物遺傳資源學(xué)報(bào),2014,15(1):38-47.
[11]王成,閆峰,崔秀輝,等.綠豆農(nóng)藝性狀的遺傳多樣性分析[J].雜糧作物,2010,30(3):182-184.
[12]葉偉慶,王光琴,楊芬霞,等.信宜懷鄉(xiāng)雞體質(zhì)量與體尺性狀的相關(guān)性及聚類(lèi)分析[J].河南農(nóng)業(yè)科學(xué),2015,44(2):132-134.
[13]趙明輝,李會(huì)敏,孟祥海,等.斯洛伐克104份冬小麥種質(zhì)資源農(nóng)藝性狀的分析及評(píng)價(jià) [J].華北農(nóng)學(xué)報(bào),2014,29(增刊):120-124.
[14]史鳳玉,朱英波,龍茹,等.野生大豆抗大豆花葉病毒病評(píng)價(jià)、聚類(lèi)及性狀間相關(guān)分析[J].大豆科學(xué),2010,29(6):976-981.
[15]孫振綱,姜艷麗,陳耕,等.27個(gè)陸地棉新種質(zhì)材料主要性狀研究及聚類(lèi)分析[J].山西農(nóng)業(yè)科學(xué),2015,43(7):773-776.
[16]孫敏,黎娟,周清明,等.湖南濃香型煙葉不同類(lèi)型區(qū)化學(xué)成分比較[J].天津農(nóng)業(yè)科學(xué),2016,22(5):58-62,66.
[17]陳慶富.生物統(tǒng)計(jì)學(xué) [M].北京:高等教育出版社,2011:225,238.
[18]方開(kāi)泰.實(shí)用多元統(tǒng)計(jì)分析[M].上海:華東師范大學(xué)出版社,1992:241.
[19]何曉群.多元統(tǒng)計(jì)分析[M].2版.北京:中國(guó)人民大學(xué)出版社,2009:73.
[20]張文彤,董偉.SPSS統(tǒng)計(jì)分析高級(jí)教程[M].2版.北京:高等教育出版社,2013:298.
[21]李衛(wèi)東.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2008:129.
[22]克勞斯·巴克豪斯,本德·埃里克森,伍爾夫·普林克,等.多元統(tǒng)計(jì)分析方法[M].上海:世紀(jì)出版集團(tuán)格致出版社,上海人民出版社,2009:328.
[23]蓋鈞鎰.試驗(yàn)統(tǒng)計(jì)方法[M].4版.北京:中國(guó)農(nóng)業(yè)出版社,2013:215.
[24]李靜萍.多元統(tǒng)計(jì)分析[M].北京:中國(guó)人民大學(xué)出版社,2015:49,65.
[25]顧志峰,葉乃好,石耀華.實(shí)用生物統(tǒng)計(jì)學(xué)[M].北京:科學(xué)出版社,2012:245.
[26]張玉革,胡緒彬.基于主成分和聚類(lèi)分析的大豆品種生物學(xué)性狀的比較研究[J].大豆科學(xué),2004,23(3):178-183.
Study on the Best Clustering M ethod of Crop Varieties
DU Haiping
(InstituteofAgricultural Information,Shanxi Academy ofAgricultural Sciences,Taiyuan 030031,China)
Screening CNKI journal literature,four kinds of legume data from four articles were used as evaluation criteria.245 clustering methods consisting of 7 methods of data transformation,5 distance formulas between samples,7 distance definitions between classes were compared by cluster analysis,ANOVA,nonparametric test and descriptive statistical analysis.The results showed that, nearest neighbor and between-groups linkage used most commonly in the past were not the best clustering method,because their accuracy was significantly lower than Ward's method.Z standardization was not the best method of data transformation,but it was the "Range from 0 to 1","Range from-1 to 1"and"Maximum Magnitude of 1"3 kinds of transformation methods.Among the 5 distance formulasbetween samples,themostaccurate classification was the Manhattan distance,followed by the Euclidean distance.Accordingly, we got the bestclusteringmethodsand steps.
crop varieties;clusteringmethod;data transformation;between-classdistance;distance between samples
TP399
A
1002-2481(2016)07-0918-07
10.3969/j.issn.1002-2481.2016.07.07
2016-03-21
山西省農(nóng)業(yè)科學(xué)院科技攻關(guān)項(xiàng)目(2012ygg30)
杜海平(1962-),男,山西太原人,助理研究員,主要從事試驗(yàn)統(tǒng)計(jì)分析和大數(shù)據(jù)應(yīng)用研究工作。