張政謙
(河南大學(xué)軟件學(xué)院,河南 開封 475004)
施肥量和施肥比例的變化都會不同程度地影響小麥所含各種糖分的變化,因分析發(fā)現(xiàn)糖分種類之間關(guān)聯(lián)性強(qiáng),用因子分析降維減少復(fù)雜度,再對降維后的數(shù)據(jù)進(jìn)行兩因素(施肥量和施肥比例)、三水平(低氮,中氮,高氮;0∶4,1∶3,2∶2)的方差分析得到因素的顯著性影響,得到小麥含糖量最高時對應(yīng)的施肥量和施肥比例。
糖的種類較多,希望用較少的新變量代替原來較多的變量,同時要求這些新變量盡可能反映原變量的信息,因子分析正是解決這類問題的有效方法,簡化降維,從而使問題更加簡單、直觀。
因子分析是通過對變量之間關(guān)系的研究,找出能綜合原始變量的少數(shù)幾個因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因此,因子分析屬于多元統(tǒng)計中處理降維的一種統(tǒng)計方法,其目的就是減少變量的個數(shù),用少數(shù)因子代表多個原始變量。
原始的p個變量表達(dá)為k個因子的線性組合變量,設(shè)p個原始變量為x1,x2,……,x6,尋找的k個因子(k<p)為f1,f2,……,fk,成分和原始變量之間的關(guān)系表示為:
計算各變量之間的相關(guān)矩陣,觀察各相關(guān)系數(shù),如表1所示。各變量之間相關(guān)系數(shù)的絕對值大都接近于1,故適合因子分析。
表1 各變量的相關(guān)系數(shù)
2.2.1 因子提取。從圖1碎石圖可以得到,纖維素在所有在所有糖成分中特征值占比最大,可作為主成分因子。然后利用主成分分析(抽取了一個成分)提取因子,如表2所示。
2.2.2 因子命名。定義因變量為含糖量,用以表示各種成分,利用SPSS得出系數(shù)矩陣見表3。
降維后得到的含糖量表達(dá)式:
式(2)中,x1,x2,……,x6分別代表纖維素、淀粉、蔗糖、果糖、還原糖和總糖。
2.2.3 方差檢驗(yàn)。方差分析的基本原理是認(rèn)為不同處理組的均數(shù)間的差別基本來源有2個。一是實(shí)驗(yàn)條件,即不同的處理造成的差異,稱為組間差異。用變量在各組的均值與總均值之偏差平方和的總和表示,記作SSB,組間自由度DFB。二是隨機(jī)誤差,如測量誤差造成的差異或個體間的差異,稱為組內(nèi)差異,用變量在各組的均值與該組內(nèi)變量值之偏差平方和的總和表示,記作SSW,組內(nèi)自由度DFW??偲钇椒胶蚐ST=SSB+SSW。
之后構(gòu)建F分布:
將F值與其臨界值進(jìn)行比較,在調(diào)用做方差分析之前,應(yīng)先檢驗(yàn)樣本數(shù)據(jù)是否滿足方差分析的基本假定,即檢驗(yàn)正態(tài)性和方差齊次性。首先,正態(tài)性。調(diào)用jbtest函數(shù)檢驗(yàn)含糖量是否服從正態(tài)分布,原假設(shè)是含糖量服從正態(tài)分布,備擇假設(shè)是不服從正態(tài)分布,由結(jié)果h=0可知服從正態(tài)分布。其次,方差齊次性。由假設(shè)可知:經(jīng)過正態(tài)性檢驗(yàn)和方差齊次性檢驗(yàn)之后,利用析因設(shè)計方差分析去檢驗(yàn)每個因素的水平效應(yīng)均值的統(tǒng)計差異,也能檢驗(yàn)因素間的交互影響。基本原理仍為離差平方和的分解。
圖1 因子碎石圖
表2 各個糖的因子成分
表3 糖的系數(shù)矩陣
表4 方差分析結(jié)果
總變異=施肥量的各個水平間的差異+施肥比例因素各水平間的差異+施肥量與施肥比例的各種不同水平組合之間的差異+觀察數(shù)據(jù)的隨機(jī)誤差及組內(nèi)差異。
建立數(shù)學(xué)模型為:
式(4)中,μ為平均數(shù);ai為Ai的效應(yīng);bj為Bj的效應(yīng);(ab)ij為Ai與Bj的互作效應(yīng),(ab)ij=(μij-μ)-(μi-μ)-(μj-μ)=μij-μi-μj+μ,μi、μj、μij分別為Ai、Bj、AiBj觀測值總體平均數(shù)。
離差平方和與自由度分解:SST=SSA+SSB+SSAB+SSe;dfT=dfA+dfB+dfAB+dfe。其中,SSAB、dfAB為因素A與因素B交互作用平方和與自由度。
總平方和與自由度:
因素水平組合平方和自由度:
A因素平方和與自由度
B因素平方和與自由度
所以,相應(yīng)均方為:MSA=SSA/dfA,因素A的方差;MSB=SSB/dfB,因素B的方差;MSAXB=SSAXB/dfAXB,A、B互作的方;MSe=SSe/dfe,誤差方差。
通過上述表達(dá)式計算得到方差分析表,見表4。當(dāng)P值小于0.05時,接受原假設(shè),反之,拒絕原假設(shè)。
根據(jù)SPSS的數(shù)據(jù)分析可知:①施肥量對小麥含糖量影響顯著;②施肥比例對小麥含糖量有一定影響,但影響不顯著;③施肥量和施肥比例的相互作用對小麥含糖量無顯著影響。
畫出估算邊際均值圖見圖2。從圖2含糖量的估算邊際均值可以看出低氮情況下含糖量最大,影響最為顯著,施肥比例雖有影響,但沒有那么明顯,與所得到的結(jié)果一致,要想得到更多的含糖量,應(yīng)選用低氮0∶4的施肥方式。
圖2 含糖量的估算邊際均值
但對于各種不同的糖分來說,由于淀粉是負(fù)相關(guān)的,低氮情況下,淀粉含量反而越低。這與淀粉自身聚合物屬性也保持一致,淀粉是植物體內(nèi)的儲能物質(zhì),淀粉水解會產(chǎn)生還原性二糖麥芽糖、單糖葡萄糖,進(jìn)而增加植物的糖含量。