霍俊爽,張若東,潘淑霞,邰志艷吉林醫(yī)藥學(xué)院公共衛(wèi)生學(xué)院
基于主成分分析對釀酒葡萄分級的研究
霍俊爽,張若東,潘淑霞,邰志艷吉林醫(yī)藥學(xué)院公共衛(wèi)生學(xué)院
本文主要基于多元統(tǒng)計方法分析和研究了釀酒葡萄分級的問題。最終把某紅釀酒葡萄分為了五個等級。
主成分分析;標準化;聚類分析
釀酒葡萄的合理分級,對葡萄酒的生產(chǎn)和加工具有重要的意義,本文以2012全國大學(xué)生建模競賽題為例,主要基于多元統(tǒng)計分析方法對釀酒葡萄的分級進行研究。
由于釀酒葡萄的理化指標過多,所以需要使用主成分分析對數(shù)據(jù)進行降維處理。由于主成分是從協(xié)方差矩陣出發(fā)的,因此會受到單位的影響。為了防止數(shù)量級較大的數(shù)據(jù)吞沒數(shù)量級較小的數(shù)據(jù),首先對釀酒葡萄的理化指標進行標準化處理。
首先紅葡萄酒的釀酒葡萄為例,利用Excel對釀酒葡萄的理化指標進行標準化處理[1]。其中:Gij=(gij--gi)/sj表示標準化后的第i個葡萄酒樣品的第j項指標,gij第i個葡萄酒樣品的第j項指標,-gi為該項指標的平均值,sj表示該項指標的標準差,結(jié)果如表1所示。
表1 釀酒葡萄各項指標的標準化值
基于SPSS軟件的因子分析的功能對這些理化指標進行主成分分析,得到28個理化指標的方差分解圖和初始因子載荷矩陣如表2和表3所示。
表2 標準化指標的方差分解圖結(jié)果
表3 葡萄酒標準化理化指標的載荷矩陣
由以上數(shù)據(jù)得七個因子的累積貢獻率已經(jīng)達到了80.324%,所以用這七個因子作為主成分進行分析。則可以得出每個因子的值為:Fi=(Ki1G1+Ki2G2+…Ki31G31)/φi其中:Fi為因子編號,Ki1為載荷矩陣中該因子該指標的載荷系數(shù),Gij為每組樣品標準化后每項指標的值[2]。將得到的8個因子的方差貢獻率作為權(quán)重計算釀酒葡萄理化指標的得分。得到如下模型:Mj=Fiδi,期中Mj為第j號葡萄的理化指標得分,F(xiàn)i為因子值,δi為因子的方差的貢獻率如表4。
表4 葡萄的理化指標得分
對于釀酒葡萄的等級劃分,不能單單依靠葡萄理化指標進行分類,這里使用最短距離層次聚類法,將葡萄標準化后的理化指標作為縱坐標,將標準化后的葡萄平均分作為橫坐標,求出其距離矩陣,以歐式平方距離作為聚類分析的統(tǒng)計量。通過SPSS進行聚類分析等計算[3],得釀酒葡萄分為五個等級,其中一級為23、9、3、21、2;二級為11;三級為10、25,四級為1、16、13、12、8、6、15、18、7,五級為10、25、26、27、4、5、19、24、14、22、17、20。
[1]張杰,基于主成分分析的紅葡萄酒評價方法研究[J].東北電力大學(xué)學(xué)報,2013,6∶4146.
[2]黃菲,葡萄酒評價與釀酒葡萄分級的統(tǒng)計研究[J].生物技術(shù)世界,2013,4∶43-44.
[3]朱家明,葡萄酒質(zhì)量評價的定量分析[J].宜春學(xué)院學(xué)報, 2013,35∶8-12.
吉林省教育廳十二五規(guī)劃科學(xué)技術(shù)研究項目(2015393),吉林省科技發(fā)展計劃項目(20120697)。
霍俊爽(1982-),男,碩士,講師,研究方向:應(yīng)用數(shù)學(xué)與統(tǒng)計學(xué)。