傅祎旭
(東南大學(xué)機械工程學(xué)院,南京 211189)
主成分分析(PCA)已成為一種傳統(tǒng)的數(shù)據(jù)分析方法,乳制品(dairy products)以生鮮牛(羊)乳及其制品為主要原料,經(jīng)加工制成的各種食品,也叫奶油制品,含有豐富的營養(yǎng)成分.將主成分分析方法應(yīng)用于乳制品營養(yǎng)成分的分析具有泛化能力強和預(yù)測準(zhǔn)確度高等優(yōu)點.在對乳制品營養(yǎng)成分的研究中,往往需要對反映事物的多個變量進行大量的觀測,收集大量數(shù)據(jù)以便進行分析尋找規(guī)律.多變量、大樣本無疑會為科學(xué)研究提供豐富的信息,但也在一定程度上增加了數(shù)據(jù)采集的工作量,更重要的是在大多數(shù)情況下,許多變量之間可能存在相關(guān)性而增加了問題分析的復(fù)雜性,同時給分析帶來不便.如果分別分析每個指標(biāo),分析又可能是孤立的,而不是綜合的.盲目減少指標(biāo)會損失很多信息,容易產(chǎn)生錯誤的結(jié)論.因此需要找到一個合理的方法,減少分析指標(biāo)的同時,盡量減少原指標(biāo)包含信息的損失,對所收集的資料作全面的分析.由于各變量間存在一定的相關(guān)關(guān)系,因此有可能用較少的綜合指標(biāo)分別綜合存在于各變量中的各類信息.主成分分析與因子分析就是這樣一種降維的方法.
主成份分析法也稱主分量分析或矩陣數(shù)據(jù)分析,是將一些實測變量轉(zhuǎn)換為較少不相關(guān)的綜合指標(biāo)的多元統(tǒng)計分析方法.
若研究對象有兩項指標(biāo)ζ1和ζ2,從總體ζ(ζ1,ζ2)中抽取N個樣品,它們散布在橢圓平面內(nèi)(見圖1),指標(biāo)ζ1與ζ2有相關(guān)性.η1和η2分別是橢圓的長軸和短軸, η1⊥η2,故η1與η2互不相關(guān).其中η1是點ζ(ζ1,ζ2)在長軸上的投影坐標(biāo),η2是該點在短軸上的投影坐標(biāo).從圖1可以看出點的N個觀測值的波動大部分可以歸結(jié)為η1軸上投影點的波動,而η2軸上投影點的波動較小.
若η1作為一個綜臺指標(biāo),則η1可較好地反映出N個觀測值的變化情況,η2的作用次要.綜合指標(biāo)η1稱為主成份,找出主成份的工作稱為主成份分析.
主成份分析要選擇恰當(dāng)?shù)耐队胺较?,將高維空間的點投影到低維空間上, 且使低維空間上的投影盡可能多地保存原空間的信息,使低維空間上投影的方差盡可能地大.
圖1 主成份分析法示意圖
由于綜合指標(biāo)往往是不能直接觀測到的,但它卻更能反映事物的本質(zhì).因為實際的變量間有一定的相關(guān)關(guān)系,所以可以使用較少數(shù)的綜合指標(biāo)分別綜合存在于各變量中的各類信息,而綜合指標(biāo)之間彼此不相關(guān),即各指標(biāo)代表的信息不重疊.
綜合指標(biāo)稱為因子或主成分(提取幾個因子),一般有兩種方法:
特征值>1
累計貢獻率>0.8
x1,x2,...,xP為原變量指標(biāo),新變量指標(biāo)為z1,z2,...,zm(m≤p),則
z1,z2,...,zm分別稱為原變量指標(biāo)x1,x2,...,xP的第1,第2,...,第m主成分,在實際問題的分析中,常挑選前幾個最大的主成分.
主成分析的數(shù)學(xué)特征:
找主成分就是確定原來變量Xj(j=1,2,...,p)在諸主成分zi(i=1,2,...,m)上的載荷lij(i=1,2,...,m;j=1,2,...,p).它們分別是x1,x2,...,xP的相關(guān)矩陣的m個較大的特征值對應(yīng)的特征向量.
z1,z2,...,zm分別稱為原變量指標(biāo)x1,x2,...,xP的第1,第2,...,第m主成分,在實際問題的分析中,常挑選前幾個最大的主成分.
通過對超市乳制品的調(diào)查,數(shù)據(jù)來源于產(chǎn)品包裝上廠家給定的值,價格取多家超市的均值,7個產(chǎn)品營養(yǎng)值的數(shù)據(jù).樣品的常規(guī)組分,即:平均價格,能量,蛋白質(zhì),脂肪,碳水化合物,鈉,鈣以及單一產(chǎn)品的凈含量.
表1為乳制品營養(yǎng)成分統(tǒng)計表,營養(yǎng)成分中的“/+數(shù)字”為該營養(yǎng)成分在該產(chǎn)品中的參考值.
表1 乳制品各項成分統(tǒng)計表
由于不同的產(chǎn)品受產(chǎn)品本身凈含量的限制,無法做出直接的比較,在此我們將各項營養(yǎng)指標(biāo)根據(jù)售價與凈含量的關(guān)系進行單位化,得表2.表2中的“/Y”表示每元所對應(yīng)的營養(yǎng)值
表2 單位化后統(tǒng)計表
對原始數(shù)據(jù)進行標(biāo)準(zhǔn)化處理.計算公因子方差,特征值、方差的%、累積%以及各指標(biāo)的成分矩陣.筆者利用SPSS軟件對標(biāo)準(zhǔn)處理的數(shù)據(jù)進行處理.公因子方差如表4所示,特征值、方差的%、累積%的結(jié)果如表5所示,特征值為圖2.
表3 處理的數(shù)據(jù)
表4 公因子方差
表5 解釋的總方差
圖2 特征值
乳制品的價格顯然是受多方面因素所影響的,但是不同的因素對價格的影響作用是不一樣的,主成分分析法是將所有的影響因子中提取出最有影響力的因子出來的一種統(tǒng)計方法,本文側(cè)重于分析營養(yǎng)成分對乳制品的價格的影響,統(tǒng)計數(shù)據(jù)有不同乳制品的價格和營養(yǎng)成分的含量,通過SPSS統(tǒng)計軟件處理后,最后結(jié)果如表 5 所示,主成分分析的結(jié)果表明,提取前 2 個特征值的主成分,成分1對應(yīng)為能量,方差的百分比為61.615%,成分2對應(yīng)的是鈣,方差的百分比為21.355%,這兩個主成分的累計方差貢獻率達到82.970%可以基本反映全部 7 個指標(biāo)所具有的信息,能在一定程度上代表乳制品的綜合因素.這個結(jié)果意味著乳制品營養(yǎng)成分里面主要由于能量含量和鈣質(zhì)含量的多少而影響到乳制品的售價,市面上乳制品日趨豐富,根據(jù)本文通過統(tǒng)計計算得出的較為科學(xué)的結(jié)論,面對琳瑯滿目的乳制品,消費者在選購時可以從乳制品的鈣含量和能量含量兩個指標(biāo)來考量,更加理性消費.
乳制品的品質(zhì)受多方面因素的影響,但是不同的因素影響作用不同,主成分分析法是將主要的影響因子中提取相關(guān)的影響力因子,本文分析研究后表明,乳制品最主要的營養(yǎng)成分分為兩類:能量和脂肪組成的第一主成分以及鈣和蛋白質(zhì)組成的第二主成分,其中每種主成分中所包含的成分一定程度上是正相關(guān)的,因此對乳制品的品質(zhì)進行初步評定或檢測的時候,完全可以抽取易于檢測且成本較低的成分,以一定程度上代表其他成份,所得出的結(jié)論與全部檢測所有指標(biāo)得出的結(jié)論相近程度較高(可達到82.970%),可以大大降低檢測成本和工作量.其結(jié)論對于乳制品消費者的選擇、政府對乳制品的管理和生產(chǎn)企業(yè)的自檢等都具有一定的指導(dǎo)作用.
[1]汪應(yīng)洛.系統(tǒng)工程[M].北京:機械工業(yè)出版社,2009:54-60.
[2]薛成偉.基于主成分分析的農(nóng)民收入預(yù)測[J].現(xiàn)代經(jīng)濟信息,2011(23).
[3]范通達.基于主成分分析的生活垃圾產(chǎn)生量模型研究[J].環(huán)境衛(wèi)生工程,2009(2):41-43.
[4]林徐達.基于主成份分析法的飲用水特征性指標(biāo)分類[J].科技創(chuàng)新導(dǎo)報,2012(12).
[5]郭宇翔,熊黑鋼,李寶富.新疆奇臺縣糧食生產(chǎn)影響因素與模擬預(yù)測研究[J].新疆農(nóng)業(yè)科學(xué),2010(5):1009-1017.
[6]劉丹丹,馮利華,王寧,石磊.基于BP神經(jīng)網(wǎng)絡(luò)的義烏市水資源需求量預(yù)測[J].水資源與水工程學(xué)報,2010,24(4):(114-117).
[7]方開泰.實用多元統(tǒng)計分析[M].上海:華東師范大出版社,1989:291-302.
[8]王學(xué)仁,王松桂.實用多元統(tǒng)計分析[M].上海:上??萍汲霭嫔?1990:270-272.