張 慧 顧世梁 李 韜
1揚(yáng)州大學(xué)農(nóng)學(xué)院, 江蘇揚(yáng)州225009;2桐廬縣農(nóng)業(yè)技術(shù)推廣中心, 浙江杭州311500
?
一種新的符合度算法及其應(yīng)用
張慧1,2顧世梁1,*李韜1
1揚(yáng)州大學(xué)農(nóng)學(xué)院, 江蘇揚(yáng)州225009;2桐廬縣農(nóng)業(yè)技術(shù)推廣中心, 浙江杭州311500
摘要:在總結(jié)分析了幾種常用綜合評價方法的基礎(chǔ)上, 提出了一種反映觀察值與理論值之間相似性的新算法——符合度。該算法就評價信息個體(觀察值)與標(biāo)準(zhǔn)值(期望值)的馬氏距離, 再由馬氏距離轉(zhuǎn)化為評價對象與標(biāo)準(zhǔn)的接近程度, 即符合度(r)。首先進(jìn)行指標(biāo)數(shù)(p)、相似度(r)與馬氏距離(d)的模擬試驗, 再通過曲面擬合的方法找出它們之間的關(guān)系模型。通過大量抽樣試驗, 驗證符合度的次數(shù)分布與原先設(shè)定的符合度的良好對應(yīng)關(guān)系, 說明模型的可行性與可靠性。以小麥RVA性狀為指標(biāo), 利用該算法分析揚(yáng)麥系統(tǒng)若干品種之間的接近程度, 并評價多變數(shù)復(fù)雜效應(yīng)回歸分析模擬試驗的結(jié)果。符合度算法不需要數(shù)據(jù)標(biāo)準(zhǔn)化處理, 直接利用原始數(shù)據(jù), 減少了計算工作量, 降低了因數(shù)據(jù)標(biāo)準(zhǔn)化處理方法不同而引起的評價結(jié)果差異, 同時由于不需要賦權(quán), 排除了主觀性的影響, 保證了信息的完整性以及評價結(jié)果的可靠性。
關(guān)鍵詞:符合度; 綜合評價; 計算機(jī)模擬; 馬氏距離
本研究由國家農(nóng)業(yè)信息化工程技術(shù)研究中心開放課題“小麥育種材料評價研究”項目資助。
This study was supported by open project of the National Agricultural Information Engineering Center.
第一作者聯(lián)系方式: E-mail: zhanghui881007@126.com, Tel: 18606517137
在農(nóng)學(xué)和生物學(xué)領(lǐng)域中, 常會遇到對研究對象的個體或群體進(jìn)行評價的問題。所謂評價就是參照一定的標(biāo)準(zhǔn),評判與比較研究對象的價值或優(yōu)劣的一種認(rèn)知和決策過程[1], 如育種過程中對目標(biāo)品種(系)與參照品種優(yōu)劣程度的評價、農(nóng)作物產(chǎn)品品質(zhì)分級標(biāo)準(zhǔn)的歸屬或模擬試驗中統(tǒng)計數(shù)與參數(shù)(期望值、標(biāo)準(zhǔn)值)接近程度的評價。依據(jù)個體(或群體)的多個性狀(指標(biāo)), 以有利于從整體的角度客觀、合理、公正地全面評價。所謂多指標(biāo)綜合評價方法, 就是把不同方面的多個指標(biāo)的信息匯集成一個綜合指標(biāo),來反映被評價對象的整體情況。這包括灰色關(guān)聯(lián)度法、TOPSIS法、主成分分析法等[2-6]。多指標(biāo)綜合評價方法一般包括評價指標(biāo)選擇、構(gòu)建指標(biāo)體系、選擇綜合評價模型、
數(shù)據(jù)標(biāo)準(zhǔn)化處理、確定指標(biāo)權(quán)重等過程, 從而綜合分析得出結(jié)論[7-8]。目前可以用作綜合評價方法考慮問題的側(cè)重點(diǎn)不盡相同, 在實際應(yīng)用中仍然存在各種缺陷和不足。其中, 數(shù)據(jù)標(biāo)準(zhǔn)化處理雖然能夠解決不同指標(biāo)(性狀)因量綱和變異度的差異對評價具不同作用的問題, 但也會較大程度削弱不同指標(biāo)所包含信息量的差異, 降低綜合評價的可靠性[9-12]。另外, 在評價過程中, 由于評價體系的各個評價指標(biāo)的重要程度不同, 大多數(shù)采用賦權(quán)的方式來體現(xiàn)。權(quán)重的確定主要應(yīng)用主觀賦權(quán)法和客觀賦權(quán)法[13-14]。前者多根據(jù)專家經(jīng)驗; 后者則根據(jù)性狀之間的相關(guān)關(guān)系或各性狀的變異度(的倒數(shù))或遺傳力等, 而不同的權(quán)重系數(shù),往往會導(dǎo)致很不相同甚至相反的評價結(jié)論, 這樣就大大降低了評價的可靠性[15-20]。
隨著人們對研究的不斷深化, 所面臨的評價對象日趨復(fù)雜, 人們對綜合評價精準(zhǔn)度的要求相應(yīng)提高。符合度(conformity), 又稱吻合度、接近度, 是指多變數(shù)觀察樣本與真值(理論值、期望值、經(jīng)驗值、標(biāo)準(zhǔn)值)之間或兩個或多個多變數(shù)樣本之間接近程度的量化指標(biāo)。本文通過模擬試驗, 產(chǎn)生不同類型的多變數(shù)樣本與期望值(標(biāo)準(zhǔn)值)之間符合度量化關(guān)系的數(shù)據(jù)資料, 利用曲面擬合獲得模擬試驗的樣本數(shù)據(jù)與符合度的關(guān)系模型。在此基礎(chǔ)上, 通過進(jìn)一步抽取一定條件下的大量樣本, 計算符合度的次數(shù)分布。通過符合度分布的平均數(shù)、標(biāo)準(zhǔn)差等特征數(shù)值驗證符合度計算過程的可行性和可靠性。這種新型的符合度關(guān)系能準(zhǔn)確地衡量多變數(shù)樣本與某些標(biāo)準(zhǔn)值之間的接近程度,也可用于評價模擬試驗中統(tǒng)計估計值與設(shè)定參數(shù)之間接近程度, 從而可以量化評價不同統(tǒng)計分析方法的優(yōu)劣。符合度指標(biāo)衡量多變數(shù)樣本個體之間的相似性, 還可用于相互比較評價或聚類分析等。
1.1抽樣試驗
若有多指標(biāo)(多變數(shù))樣本X, 欲求算其中某一個體xi與某一標(biāo)準(zhǔn)值e之間的符合度(接近度、吻合度、恢復(fù)度) r。設(shè)X為具有p個指標(biāo)(變數(shù))和n個觀察值(個體)的矩陣,標(biāo)準(zhǔn)值e是具有p個指標(biāo)的向量。
這里1為n×1全是1的列向量, X的各行與e的各行為對應(yīng)指標(biāo)。xj=X(j)為X矩陣的第j列, 可視為該多變數(shù)樣本的第j個個體。欲求樣本中的個體x與e的接近程度r(x, e), 應(yīng)盡量排除p個指標(biāo)(變數(shù))的量綱和變異度的影響, 同時也應(yīng)考慮變數(shù)間相關(guān)性對符合度的作用, 尋找計算x與e的合適距離, 并由距離轉(zhuǎn)化為符合度關(guān)系, 對這一過程需進(jìn)行模擬和抽樣試驗。
假設(shè)一個標(biāo)準(zhǔn)值為e’ =(e1, e2,…, eP)。若X是一組正態(tài)或均勻分布的隨機(jī)數(shù), 可理解為隨機(jī)向量x與e之間的相似性亦即符合度近乎為0。若x與e完全一樣, 則它們之間的符合度即為1; 而x與e有一定程度的關(guān)聯(lián), 其符合度應(yīng)是介于0和1之間的某個數(shù)值。當(dāng)有50%的關(guān)聯(lián)時,符合度應(yīng)為0.5左右。關(guān)聯(lián)程度越小, 符合度越趨近于0,關(guān)聯(lián)程度越大, 符合度越趨于1。根據(jù)這一思路, 構(gòu)建基于隨機(jī)數(shù)x與e的中間變數(shù)y。
其中λ即為取值0到1間的符合度值。取公差為0.01的等差數(shù)列, 產(chǎn)生隨機(jī)變數(shù)x并由式(1)得到相應(yīng)的中間變數(shù)y。即當(dāng)λ為0.1時, x與y存在0.1的相似性, 當(dāng)λ為0.5時, x與y存在0.5的符合度, 以此類推, 從而通過中間變數(shù)y進(jìn)而研究合適的距離和符合度的關(guān)系。
1.2距離選擇
本研究中符合度的計算是由y和e之間的距離轉(zhuǎn)化而來, 所以距離函數(shù)的選擇對符合度函數(shù)的確定比較重要。常用的距離有歐氏距離、馬氏距離、切氏距離和閔氏距離等。其中歐氏距離應(yīng)用最為廣泛, 但是它有明顯的缺點(diǎn),主要是受量綱與變異度的影響過大, 即變異度大的指標(biāo)(變數(shù))在距離計算中所占的分量比變異度小的指標(biāo)(變數(shù))大。若變數(shù)的變異度與距離計算的重要性不成比例, 則這樣的距離就不能很好地反映它們的客觀真實性。當(dāng)對原數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后, 則各指標(biāo)對距離計算的分量完全相同,這在很多時候也并不恰當(dāng), 因為在很多綜合評價過程中,并非所有指標(biāo)對評價主體的重要性完全一致, 所得距離有時(或多數(shù)情況下)不能滿足實際要求。歐氏距離的另一個缺陷是未能考慮多個變數(shù)間相關(guān)性對距離計算的作用,而相關(guān)程度越大, 歐氏距離與客觀真實距離的偏差越大。最初我們也曾試驗以歐式距離計算符合度的過程, 但在重抽樣過程中(2.3節(jié))出現(xiàn)明顯偏差, 因而被否定。
馬氏距離不受量綱和變異度的影響, 兩點(diǎn)之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān); 由標(biāo)準(zhǔn)化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)算出的兩點(diǎn)間的馬氏距離相同。更重要的是馬氏距離還考慮了變數(shù)間相關(guān)性的作用, 所算距離更能體現(xiàn)個體間的遠(yuǎn)近關(guān)系。馬氏(平方)距離公式如下:
其中, xi和xj分別為第i和j個個體的p個變數(shù)(指標(biāo))所組成的向量, S為樣本方差協(xié)方差矩陣。
其中, I和J分別為n階單位陣和全1陣。該S為p階方陣, 對角線元素為各變數(shù)的方差, 非對角線元素為對應(yīng)變數(shù)的協(xié)方差。它們包含了X變數(shù)在p維空間散布的信息, 因此又稱為信息陣。而在本研究中, y與e之間的馬氏平方距離(下文簡記為馬氏距離)如下:
在不同相似度(符合度)條件下隨機(jī)抽樣得到x并計算y與e之間的馬氏距離, 距離隨符合度有明顯的負(fù)向趨勢但波動較大。隨著抽樣次數(shù)的增加, 平均距離隨符合度的變化趨勢明顯, 波動變小。試驗表明, 30次抽樣的平均距離與符合度的關(guān)系趨于穩(wěn)定。可用于擬合反映兩者關(guān)系的方程式。
1.3指標(biāo)數(shù)設(shè)定
在大量隨機(jī)的試驗中發(fā)現(xiàn), 試驗數(shù)據(jù)X的量綱、變異度對計算馬氏距離沒有影響, 但指標(biāo)數(shù)量(p)對馬氏距離的尺度有較大影響。因而除了上述符合度與距離的抽樣試驗外, 我們還進(jìn)行了指標(biāo)數(shù)在距離計算過程中影響的抽樣試驗。考慮到大部分樣本評價問題在5~25個指標(biāo)之間,模擬試驗的指標(biāo)數(shù)在3~30之間, 本研究的指標(biāo)數(shù)為3、5、10、15、20、25和30共7個水平, 了解指標(biāo)數(shù)在距離和符合度之間關(guān)系的作用。從而根據(jù)抽樣結(jié)果確定符合度依指標(biāo)數(shù)和馬氏距離的函數(shù)關(guān)系。
1.4Monte Carlo模擬研究
符合度依指標(biāo)數(shù)和馬氏距離的函數(shù)關(guān)系能否成立,還應(yīng)在一定條件下重新抽樣, 再根據(jù)函數(shù)關(guān)系式計算符合度數(shù)值, 大量抽樣獲取符合度的次數(shù)分布, 用于檢驗上述計算距離及符合度的過程是否符合實際。在指定符合度條件下隨機(jī)抽取5000個樣本, 代入函數(shù)關(guān)系方程算得符合度次數(shù)分布圖。如果方程合適, 那么在給定符合度r的情況下, 將指標(biāo)數(shù)、距離代入模型中計算所得r應(yīng)該與設(shè)定結(jié)果一致, 從而證實符合度計算過程可行性。
1.5揚(yáng)麥系統(tǒng)小麥品種間RVA值的相似度比較
選取2011年揚(yáng)州大學(xué)農(nóng)學(xué)院大田正季播種的揚(yáng)麥系統(tǒng)小麥品種11個, 測定其面粉淀粉糊化特性, 參數(shù)有峰值黏度、糊化時間、低谷黏度、最終黏度和糊化溫度(剔除2個次級性狀回復(fù)值和崩解值, 消除方差協(xié)方差陣的奇異性, 馬氏距離得以計算), 每品種3個重復(fù)。比較揚(yáng)麥系統(tǒng)的11個品種之間的相似程度并利用其符合度進(jìn)行聚類分析。
1.6統(tǒng)計數(shù)與模擬設(shè)定的符合度比較
在許多模擬試驗中, 要評價模擬結(jié)果的優(yōu)劣, 直觀比較不能客觀反映真實情況。對一個多變數(shù)復(fù)雜效應(yīng)回歸分析模擬試驗中效應(yīng)的回歸估值與期望值之間的接近程度以量化的形式表示出來, 可用于客觀準(zhǔn)確的評價模擬試驗。
2.1符合度與馬氏距離的關(guān)系
根據(jù)設(shè)定的隨機(jī)變量、中間變量和符合度的關(guān)系, 采用隨機(jī)抽樣的方式計算符合度與馬氏距離的關(guān)系, 單次抽樣(每一符合度條件下只抽一個隨機(jī)向量)所得距離與符合度有明顯的負(fù)向趨勢但波動較大。隨著抽樣次數(shù)的增加, 波動變小。在符合度很低時, 距離較大, 隨著符合度的增加, 距離變小, 當(dāng)兩者非常接近時, 距離趨于0。距離隨符合度的增加而單調(diào)降低, 其散點(diǎn)圖成線性排列, 但并非簡單的直線, 在符合度的高端, 曲率明顯。模擬試驗中發(fā)現(xiàn), x和/或e的數(shù)值乘以一定的倍數(shù), 這種關(guān)系并無改變, 即符合度與馬氏距離的關(guān)系不隨量綱與變異度變化而改變, 適合各種類型多變數(shù)樣本的評價。
顯然, 馬氏距離可很好地描述個體與標(biāo)準(zhǔn)值之間的符合程度。但由于馬氏距離會大于1或遠(yuǎn)大于1。而我們更希望得到的符合度數(shù)值介于0~1之間, 0代表沒有相似性, 1代表完全符合。隨著距離的增大, 符合度越來越小,誤差亦有所增加(圖1, 前述散點(diǎn)圖X、Y軸互換)。在實際使用中, 我們不能事先得到符合度, 必須先計算樣本(平均數(shù))與目標(biāo)值之間的距離, 再確定符合度與距離的數(shù)量關(guān)系。
圖1 符合度依馬氏距離關(guān)系圖Fig. 1 Relationship between Mahalanobis distance and similarity
2.2符合度函數(shù)
由于指標(biāo)數(shù)也在很大程度上影響距離與符合度的關(guān)系, 利用曲面擬合方式, 尋找指標(biāo)數(shù)p, 馬氏距離d與符合度r的函數(shù)關(guān)系式, 根據(jù)數(shù)據(jù)點(diǎn)在三維空間中的分布情況和各類變數(shù)方程的特點(diǎn), 經(jīng)大量模型選擇和比較分析,確定如下模型:
本研究選擇C-E算法進(jìn)行曲線、曲面擬合[21-22], 該算法無需提供導(dǎo)數(shù)與偏導(dǎo)數(shù), 無需提供特定初值, 實現(xiàn)最優(yōu)擬合的能力較強(qiáng)。擬合結(jié)果如圖2, 各參數(shù)值及顯著性t測驗值見表2。
2.3Monte Carlo模擬研究
隨機(jī)抽取5000個樣本X(p=20), 按y=(1–λ)x+λe計算馬氏距離d以及由d和p通過式(5)計算獲得5000個符合度r, 繪成次數(shù)分布圖。若符合度計算方程合適, 那么在
給定符合度(λ)情況下, 將指標(biāo)數(shù)值、檢測值代入模型中計算所得r應(yīng)該與設(shè)定結(jié)果一致, 且在中等程度符合度時,其符合度的抽樣分布接近于平均數(shù)為0.5的正態(tài)分布。如表2和圖3所示, 當(dāng)設(shè)定λ=0.5時, 其r分布平均數(shù)為0.502, 標(biāo)準(zhǔn)差為0.0849, 分布接近正態(tài), 準(zhǔn)確度高, 誤差小。除了很小符合度(λ=0.05)時略有偏差外, r的分布與設(shè)定情況充分符合, 證明該方法的可行性。
表1 模型擬合統(tǒng)計數(shù)及測驗Table 1 Simulated conformity function and its statistics
圖2 模型擬合曲面圖Fig. 2 Surface fitting for conformity with variables and distance
表2 Monte Carlo抽樣試驗符合度分布的平均值(r)、方差(s2)和標(biāo)準(zhǔn)差(s)Table 2 Means (s), variance (s2), and standard deviation (s) of conformity distribution in Monte Carlo experiment
圖3 與標(biāo)準(zhǔn)e的符合度為0.5的檢驗圖Fig. 3 Histogram of conformity under similarity of 0.5 e
圖4 與標(biāo)準(zhǔn)e的符合度為0.45 (左)、0.55 (右)的次數(shù)分布圖Fig. 4 Histogram of conformity under similarity conditions 0.45 (left) and 0.55 (right)
由圖4和圖5可見, 各符合度分布均以設(shè)定值為中心,但隨著設(shè)定符合度偏離0.5, 它們的分布呈現(xiàn)左偏或右偏。符合度較高, 甚至接近于1時, 分布相對集中, 誤差較小; 在符合度接近于0時, 由于抽樣數(shù)據(jù)的隨機(jī)性, 符合度形成明顯的偏態(tài)分布, 說明對于評價對象與目標(biāo)之間符合度較低的情形, 符合度的估計具有一定的偏差。
檢驗證明, 按一定符合度給出的隨機(jī)數(shù)據(jù)計算所得的符合度的分布結(jié)果與期望的結(jié)果相吻合, 該符合度關(guān)系式能夠準(zhǔn)確地反映實際符合度關(guān)系。
3.1揚(yáng)麥系統(tǒng)中各品種RVA值的相似度比較
最合理的計算馬氏距離的方差協(xié)方差陣應(yīng)為誤差方差協(xié)方差陣Se, 但誤差偏小, 只能用總方差協(xié)方差陣S。首先利用全部的原始數(shù)據(jù)計算出該樣本的方差協(xié)方差陣,用于計算馬氏距離d。
將選取的揚(yáng)麥系統(tǒng)11個品種的RVA值分別代入馬氏距離計算公式, 得到品種之間的馬氏距離d (表3), 由式(5)計算符合度, 得出RVA值之間的相似程度(表4)。
以RVA特征值計算揚(yáng)麥系統(tǒng)11個材料間的相似性可以較好地反映這些材料間的RVA特征之差異。如揚(yáng)麥5與揚(yáng)麥16的RVA特征值最為接近, 揚(yáng)麥10號與揚(yáng)麥14的RVA特征值也很接近, 其相對接近的還有揚(yáng)麥9號與揚(yáng)麥158。以符合度作為相似度值系統(tǒng)聚類(圖6)。相似系數(shù)在0~1之間, 可較好地避免其他類型的相似系數(shù)出現(xiàn)負(fù)數(shù)的情況, 更好地體現(xiàn)個體間的相似性。同時也可避免用距離等不相似系數(shù)出現(xiàn)大于或遠(yuǎn)大于1的數(shù)值, 對個體間不相似程度的描述有一定程度的扭曲。
3.2符合度在回歸模擬試驗中的應(yīng)用
圖7顯示一個復(fù)雜系統(tǒng)新型回歸分析方法, 即重復(fù)篩選回歸(ISR)模擬。圖中前后對角線左側(cè)為設(shè)定的效應(yīng)真值, 右側(cè)對應(yīng)位置為100次模擬試驗回歸估計的平均值。方柱位置代表效應(yīng)項(對角線位置為主效、非對角線位置為互作項)對應(yīng)的標(biāo)記項, 方柱的高度為效應(yīng)值(以方柱頂上的數(shù)值表示)??梢钥闯? 這些效應(yīng)項的回歸估計值非常接近真值。
效應(yīng)項的回歸估值與真值的接近程度或稱效應(yīng)的恢復(fù)度如何衡量, 客觀的判斷離不開數(shù)量化指標(biāo)的協(xié)助。本試驗設(shè)定的效應(yīng)真值e以及100次篩選逐步回歸的模型試驗的回歸估值平均數(shù)見表5, 建立了方差-協(xié)方差陣S(未列出)。計算得出d=0.2510, r=0.9089, 該數(shù)值較高, 說明重復(fù)篩選回歸分析的效應(yīng)估計能夠較好地符合設(shè)定真值。
表3 揚(yáng)麥系統(tǒng)(YM)各品種RVA值之間的馬氏距離dTable 3 Distance between the varieties based on their RVA characters
表4 揚(yáng)麥系統(tǒng)(YM)各品種間RVA的相似度(符合度)Table 4 Conformities among RVA parameters of YM varieties
圖6 揚(yáng)麥系統(tǒng)11個小麥品種的RVA值據(jù)符合度聚類Fig. 6 Hierarchical clustering dendrogram for the 11 varieties according to conformity
4.1符合度的特點(diǎn)
本研究提出的符合度新算法是一種量化樣本間或者樣本與標(biāo)準(zhǔn)之間接近程度的方法。雖然馬氏距離也可較好地描述個體與標(biāo)準(zhǔn)值之間的符合程度, 但由于馬氏距離會大于或遠(yuǎn)大于1, 更合理的符合度數(shù)值應(yīng)介于0~1之間, 0代表沒有相似性, 1代表完全符合, 這與符合度的概念更加相稱, 量值更加準(zhǔn)確。另外, 基于0~1之間符合度數(shù)值的聚類分析等多變數(shù)分析比用基于距離的分析能更好地體現(xiàn)個體之間的親疏遠(yuǎn)近, 因為聚類等多變數(shù)分析將較大程度地過度強(qiáng)化大數(shù)值的作用而忽略小數(shù)值的作用。
比較現(xiàn)有的綜合評價方法, 該算法的優(yōu)勢在于無需數(shù)據(jù)標(biāo)準(zhǔn)化處理, 以原始數(shù)據(jù)直接計算, 簡化了計算, 也降低了因無量綱化處理方式不同而導(dǎo)致的結(jié)果差異; 另外, 符合度算法綜合考慮各指標(biāo)的信息, 指標(biāo)沒有重要程度之分, 不需要賦予權(quán)重, 保證了原始信息的完整性, 也排除了主觀賦權(quán)的隨意性[14-15]。
4.2缺失值的處理
在實際數(shù)據(jù)的應(yīng)用中往往會出現(xiàn)某個指標(biāo)缺失的情況, 缺值計算的主要困難在于此時的方差協(xié)方差矩陣S會出現(xiàn)異常或偏差, 本研究提出了如下相對簡單的處理缼值數(shù)據(jù)的方差協(xié)方差陣修正公式。
式中, n為數(shù)據(jù)總個數(shù), c是非缺值數(shù)據(jù)個數(shù)。這主要在于降低有缼值指標(biāo)(變數(shù))在多變數(shù)評價中的影響力。
多指標(biāo)系統(tǒng)的樣本觀察值(測定值、樣本值)與標(biāo)準(zhǔn)值(理論值、期望值)之間的吻合程度總體上比較復(fù)雜。我們嘗試用其他多種計算符合度、恢復(fù)度的方法, 但效果不如本文提出的符合度計算方法, 該算法基本實現(xiàn)了客觀合理地描述樣本與理論值或個體相互間符合度的數(shù)量化計算。當(dāng)然, 用單個的數(shù)值衡量其符合度仍有可能失之偏頗。準(zhǔn)確的綜合評價有時仍需輔以另外的一個或多個指標(biāo)。
4.3變數(shù)相關(guān)程度的影響
在本試驗中, 隨機(jī)變數(shù)X服從正態(tài)(或均勻)分布, 得出指標(biāo)數(shù)(p)和馬氏距離(d)計算符合度的函數(shù)關(guān)系, 也得到了重抽樣試驗的驗證。但當(dāng)變數(shù)間有很強(qiáng)的相關(guān)關(guān)系時,符合度與馬氏距離等的關(guān)系式會有一定程度的偏差。
4.4方差協(xié)方差矩陣選擇
馬氏距離的計算取決于觀察樣本的方差協(xié)方差陣S,采用何種方差協(xié)方差也至關(guān)重要。當(dāng)n個多變數(shù)觀察個體沒有重復(fù)觀察值時, 總的樣本方差協(xié)方差陣是唯一的選擇, 但這事實上并不合理。當(dāng)觀察個體有重復(fù)觀察值時,總的方差協(xié)方差陣(S)可分解為組間(B)和組內(nèi)(W)兩部分(S=B+W)。而用于評價個體相似性、符合度計算的合適的馬氏距離應(yīng)選擇W, 這代表觀察樣本去除個體間差異的本質(zhì)的內(nèi)在的信息陣, 可更好地描述個體間的相似程度。
4.5基于表型或基因型的聚類
聚類分析可根據(jù)試驗材料的表型, 也可根據(jù)基因型進(jìn)行。兩種聚類結(jié)果的一致性取決于基因型與表型性狀之
間的一致性。若注重于品種的整體相似性, 應(yīng)以能綜合反映品種特性的基因型數(shù)據(jù)的聚類更為合適; 若就某些農(nóng)藝性狀的表現(xiàn)對品種分類, 則依據(jù)這些農(nóng)藝性狀聚類更為合適, 因為在大多數(shù)情況下, 獲得的基因型數(shù)據(jù)與表型數(shù)據(jù)并不對應(yīng)。本研究并未對與小麥面粉RVA性狀相關(guān)的基因型進(jìn)行測定, 根據(jù)RVA表型計算符合度(相似性)并據(jù)此聚類, 這與品種整體特性的相似性和分類特性不一定等價。
圖7 效應(yīng)真值與估計值的比較Fig. 7 Comparison between true effects and estimations
表5 回歸模擬試驗的效應(yīng)值、真值(e)和回歸估計平均數(shù)()Table 5 Effect estimates and corresponding parameters
表5 回歸模擬試驗的效應(yīng)值、真值(e)和回歸估計平均數(shù)()Table 5 Effect estimates and corresponding parameters
序號No.效應(yīng)項Effect e x 序號No.效應(yīng)項Effect e x 1 a 100.0 99.986 10 X320 –5.0 –5.012 2 X20 1.7 1.689 11 X355 4.2 4.203 3 X35 3.0 3.021 12 X35–X280 2.0 1.995 4 X80 –3.8 –3.813 13 X100–X335 –2.5 –2.490 5 X125 3.5 3.514 14 X130–X180 2.7 2.689 6 X160 –3.8 –3.808 15 X110–X195 –3.2 –3.212 7 X205 –3.7 –3.694 16 X220–X305 –3.5 –3.510 8 X250 –4.3 –4.297 17 X145–X265 2.9 2.882 9 X290 4.5 4.503 18 X250–X355 3.8 3.777
References
[1] 顧基發(fā). 評價方法綜述. 見: 許國志. 科學(xué)決策與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會第六次年會論文集.北京: 中國科學(xué)技術(shù)出版社, 1990. pp 5–7 Gu J F. Evaluation method review. In: Xu G Z ed. Scientific Decision-Making and System Engineering. Proceedings of 6th Conference of the Systems Engineering Society of China. Beijing: China Science and Technology Press, 1990. pp 5–7 (in Chinese)
[2] Chen S J, Hwang C L, Hwang F P. Fuzzy Multiple Attribute Decision Making: Methods and Applications (Lecture Notes in Economics and Mathematical Systems), Springer-Verlag, 1992. pp 163–287
[3] Hwang C L, Masud A S M. Multiple Objective Decision Making—Methods and Applications. New York: Springer-Verlag, Berlin-Heidelberg, 1979. pp 2–325
[4] Peng Y X, Yi S Z. The multi-hierarchy integrated evaluation method of enterprise’s credit grade. In: Proceedings of ISAHP, 1999. pp 125–128
[5] Savoy J. Statistical inference in retrieval effectiveness evaluation. Inf Proc & Manag, 1997, 33: 495–512
[6] Yuan Z, Wang H, Liu L Z, Liang T. Researching the comprehensive use of fuzzy comprehensive evaluation and Markov chain// IT in Medicine & Education, 2009. ITIME’09. IEEE Interna-
tional Symposium on. IEEE, 2009. pp 476–479
[7] 陳凱華, 張孝遠(yuǎn). 模糊綜合評價模型的改進(jìn)及應(yīng)用. 甘肅科學(xué)學(xué)報, 2006, 18(3): 111–115 Chen K H, Zhang X Y. Application of the improved fuzzy comprehensive appraisal model. J Gansu Sci, 2006, 18(3): 111–115 (in Chinese with English abstract)
[8] 程鶴, 耿雙軍. 模糊綜合評價的改進(jìn)模型. 統(tǒng)計與決策, 2007, (13): 136–137 Cheng H, Geng S J. The improved model of fuzzy comprehensive evaluation. Stat & Decision, 2007, (13): 136–137 (in Chinese)
[9] 田欽謨. 模糊綜合評價中的若干問題. 模糊系統(tǒng)與數(shù)學(xué), 1996, 10(2): 62–69 Tian Q M. Several problems in fuzzy comprehensive evaluation. Fuzzy Systand Math, 1996, 10(2): 62–69 (in Chinese with English abstract)
[10] 王宗軍. 綜合評價的方法、問題及其研究趨勢. 管理科學(xué)學(xué)報, 1998, 1(1): 73–79 Wang Z J. On the methods, problems and research trends of comprehensive evaluation. J Manag Sci China, 1998, 1(1): 73–79 (in Chinese with English abstract)
[11] 杜棟, 龐慶華. 現(xiàn)代綜合評價方法與案例精選. 清華大學(xué)出版社有限公司, 2005 Du D, Pang Q H. Modern Comprehensive Evaluation Method and Case Selection. Beijing: Tsinghua University Press Co., Ltd. 2005 (in Chinese)
[12] 馬立平. 現(xiàn)代統(tǒng)計分析方法的學(xué)與用(三): 統(tǒng)計數(shù)據(jù)標(biāo)準(zhǔn)化——無量綱化方法. 北京統(tǒng)計, 2000, (3): 34–35 Ma L P. Learning and using in analysis methods of modern statistical: (3) Statistical data standardization, dimensionless method. J Beijing Stat, 2000, (3): 34–35 (in Chinese)
[13] 葉宗裕. 關(guān)于多指標(biāo)綜合評價中指標(biāo)正向化和無量綱化方法的選擇. 浙江統(tǒng)計, 2003, (4): 24–25 Ye Z Y. The choice of multi-index comprehensive evaluation index in positive and dimensionless. J Zhejiang Stat, 2003, (4): 24–25 (in Chinese)
[14] 易平濤, 張丹寧, 郭亞軍, 高立群. 動態(tài)綜合評價中的無量綱化方法. 東北大學(xué)學(xué)報(自然科學(xué)版), 2009, 30: 889–892 Yi P T, Zhang D N, Guo Y J, Gao L Q. Study on dimensionless methods in dynamic comprehensive evaluation. J Northeastern Univ (Nat Sci), 2009, 30: 889–892 (in Chinese with English abstract)
[15] 張衛(wèi)華, 趙銘軍. 指標(biāo)無量綱化方法對綜合評價結(jié)果可靠性的影響及其實證分析. 統(tǒng)計與信息論壇, 2005, 20(3): 33–36 Zhang W H, Zhao M J. The influence of undimensionalization on the reliability of comprehensive evaluation results and an empirical analysis. Stat & Inf Forum, 2005, 20(3): 33–36 (in Chinese with English abstract)
[16] 孫威武. 評價因素權(quán)重向量的確定方法. 統(tǒng)計與決策, 2002, (7): 17–18 Sun W W. The method to determine the weights of evaluation factors vector. Stat & Decision, 2002, (7): 17–18 (in Chinese)
[17] 王雪標(biāo), 龔兆仁, 鄭曉薇. 線性綜合評價函數(shù)的充要條件及權(quán)系數(shù)的確定. 系統(tǒng)工程理論與實踐, 2000, 20(10): 58–62 Wang X B, Gong Z R, Zheng X W. Linear synthetical evaluation function and the determination of its weighting coefficients. Syst Eng-Theory & Practice, 2000, 20(10): 58–62 (in Chinese with English abstract)
[18] Grabowski M, Wallace W A. An expert system for maritime pilots: Its design and assessment using gaming. Manag Sci, 1993, 39: 1506–1520
[19] Guo Y J, Yao Y, Yi P T. Method and application of dynamic comprehensive evaluation. Syst Eng-Theory & Practice, 2007, 27(10): 154–158 (in Chinese with English abstract)
[20] 王大將, 周慶敏, 常志玲, 孫潔. 一種新的多指標(biāo)綜合評價方法. 統(tǒng)計與決策, 2007, (7): 137–138 Wang D J, Zhou Q M, Chang Z L, Sun J. A new method of multi-index comprehensive evaluation. Stat & Decision, 2007, (7): 137–138 (in Chinese)
[21] 顧世梁, 萬林生, 黃麗娟, 王文平. 曲線和曲面擬合的改進(jìn)縮張算法. 作物學(xué)報, 2007, 33: 583–589 Gu S L, Wan L S, Huang L J, Wang W P. Improved contraction-expansion algorithm for curve and surface fitting. Acta Agron Sin, 2007, 33: 583–589 (in Chinese with English abstract)
[22] 顧世梁, 惠大豐, 莫惠棟. 非線性方程最優(yōu)擬合的縮張算法. 作物學(xué)報, 1998, 24: 513–519 Gu S L, Hui D F, Mo H D. The optimal fitting of nonlinear equation with contraction-expansion algorithm. Acta Agron Sin, 1998, 24: 513–519 (in Chinese with English abstract)
URL: http://www.cnki.net/kcms/detail/11.1809.S.20151013.1508.004.html
A New Algorithm for Conformity and Its Application
ZHANG Hui1,2, GU Shi-Liang1,*, and LI Tao1
1Agricultural College of Yangzhou University, Yangzhou 225009, China;2Agricultural Extension Station of Tonglu County, Hangzhou 311500, China
Abstract:This article proposed a new algorithm of conformity using original data to calculate similarities between the target object and the expected value based on the Mahalanobis distance, providing an objective and reasonable analysis. Firstly, simulation experiments were conducted to obtain Mahalanobis distance (d) related to number (p) of different variables (traits) and similarity (r). Then, a surface fitting method was used to establish the function relationship between conformity (r) and index number (p), as well as Mahalanobis distance (d). Monte Carlo experiment for frequency distribution of conformity verified its good performance of the relationship model. The simulation results fully validated the feasibility and reliability of the model. Conformity algorithm was applied to calculate the similarity of a panel of Yangmai wheat varieties released in recent years referring to RVA parameters. The assessment of simulated multivariate regression for complex effects was also conducted. This study showed that conformity algorithm using raw data directly instead of standardized data reduces the work load and decreases inconsistency in similarity assessment with different data processing methods. In addition, conformity algorithm does not need weight assignment to each trait, thus can eliminate potential subjective impacts on traits or data and guarantee integrity of information and reliability of evaluation results.
Keywords:Conformity algorithm; Comprehensive evaluation; Computer simulation; Mahalanobis distance
收稿日期Received(): 2015-02-05; Accepted(接受日期): 2015-09-06; Published online(網(wǎng)絡(luò)出版日期): 2015-10-13.
通訊作者*(Corresponding author): 顧世梁, E-mail: slgu@yzu.edu.cn, Tel: 0514-87979358
DOI:10.3724/SP.J.1006.2016.00141