◎ 馬東娟
(寧夏工商職業(yè)技術(shù)學(xué)院 人文教育學(xué)院,寧夏 銀川 750021)
寧夏賀蘭山東麓干燥少雨、光照充足、熱量適中、晝夜溫差大,具有得天獨(dú)厚的自然條件,是我國釀酒葡萄的最佳產(chǎn)區(qū)之一,被譽(yù)為中國的“波爾多”。隨著寧夏葡萄酒產(chǎn)業(yè)的發(fā)展,釀酒產(chǎn)區(qū)成型,紅葡萄酒產(chǎn)業(yè)面臨的生產(chǎn)工藝問題亟待解決。紅酒的口感促使紅酒釀造工藝改進(jìn),而紅酒工藝的改進(jìn)又可提升紅酒的口感,二者相輔相成,其中,紅酒釀造工藝與口感之間的聯(lián)系紐帶是品酒師。由于寧夏地區(qū)品酒師少,尤其是紅酒的品酒師稀缺,制約了紅酒產(chǎn)業(yè)的發(fā)展。因此,運(yùn)用數(shù)學(xué)模型和計(jì)算機(jī)軟件對(duì)紅酒的品質(zhì)進(jìn)行鑒定、分類,顯得尤為重要。
多元統(tǒng)計(jì)分析中的判別分析在識(shí)別單個(gè)個(gè)體所屬類別的情況中有著廣泛的應(yīng)用,基于判別分析和葡萄酒的理化指標(biāo),可用SPSS 軟件對(duì)葡萄酒品質(zhì)進(jìn)行分類,既對(duì)葡萄酒的質(zhì)量進(jìn)行預(yù)測研究,又使葡萄酒品質(zhì)鑒定的速度得到大幅提升,同時(shí)有較高的準(zhǔn)確率[1-2]。
回歸模型的基礎(chǔ)在于用它去預(yù)測和解釋度量,但對(duì)于非度量變量,一般的多元回歸不適用于解決此類問題,判別分析適用于被解釋變量是非度量變量的情形。本文將紅酒品質(zhì)作為非度量變量,記為3 ~9,共7 個(gè)級(jí)別。利用判別分析,人們將可預(yù)測和解釋影響紅酒品質(zhì)所屬類別[3-5]。
考慮到數(shù)據(jù)集中3 894 個(gè)樣本及數(shù)據(jù)的量綱不統(tǒng)一,本文首先采用Z 標(biāo)準(zhǔn)化方法,對(duì)原始數(shù)據(jù)進(jìn)行了缺失化處理、標(biāo)準(zhǔn)化處理,即每一變量值與其平均值之差除以該變量的標(biāo)準(zhǔn)差。
Qual:被解釋變量紅酒品質(zhì);紅酒品質(zhì)影響的11個(gè)解釋變量分別為Fixe:非揮發(fā)性酸含量;Vola:揮發(fā)性酸含量;Ppci:檸檬酸;Resi:糖含量;Chlo:氯化物;Free:游離二氧化硫;Tota:總二氧化硫;Dens:密度;Ph:酸堿度;Sulp:表示硫酸鹽;Alco:酒精。
設(shè)有兩個(gè)總體G1和G2,x是一個(gè)p維樣品,若定義樣品到總體G1和G2的距離d(x,G1)和d(x,G2),而d2(x,Gi)=(x-μi)∑i-1(x-μi),μi,∑i。對(duì)此,可用如下規(guī)則進(jìn)行判別:若樣品x到總體G2的距離小于到總體G2的距離,則x屬于總體G1,否則,x屬于總體G2;若x到總體G1和G2的距離相等,則待判。這個(gè)準(zhǔn)則的數(shù)學(xué)模型可作如下描述。
其中,W(x)為判別函數(shù)。
數(shù)據(jù)集將3 894 個(gè)樣本的品質(zhì)指標(biāo)進(jìn)行分類,將11 個(gè)指標(biāo)作為自變量處理,將紅酒品質(zhì)作為非度量變量,紅酒的品質(zhì)分為0 ~10 共11 個(gè)等級(jí),由于數(shù)據(jù)表現(xiàn)和實(shí)際問題0、1、2 和10 少見,故在下面問題的研究中將紅酒的品質(zhì)分為3 ~9 個(gè)等級(jí),記為3 ~9共7 個(gè)級(jí)別?;诖?,本文將紅酒品質(zhì)作為分組變量處理,借助SPSS 的分析-分類-判別模塊對(duì)模型進(jìn)行建立。數(shù)據(jù)模擬見表1 組均值的均等性的檢驗(yàn)。
表1 組均值均等性的檢驗(yàn)表
輸出結(jié)果表1 分析的是各組描述統(tǒng)計(jì)量和對(duì)各組均值是否相等的檢驗(yàn)。由表1 可看出,在0.05 的顯著性水平上,拒絕11 個(gè)變量在7 組的均值相等的假設(shè),即認(rèn)為11 個(gè)變量在7 組的均值是有顯著差異的。
輸出結(jié)果(表2、表3)是對(duì)各組協(xié)方差矩陣是否相等的Box M 檢驗(yàn)。其中,表2 對(duì)數(shù)行列式反映了協(xié)方差矩陣的秩和行列式的對(duì)數(shù)值。
表2 對(duì)數(shù)行列式表
由行列式的值可看出,協(xié)方差矩陣不是病態(tài)矩陣;表3 則是對(duì)各總體協(xié)方差陣是否相等的統(tǒng)計(jì)檢驗(yàn)。由F值及顯著性水平可知,在0.05 的顯著性水平下拒絕原假設(shè)(原假設(shè)為各總體協(xié)方差陣相等)。
表3 檢驗(yàn)結(jié)果表
表4 分類函數(shù)系數(shù)表
輸出結(jié)果表5 是分類矩陣表,分別預(yù)測了所屬組關(guān)系,通過判別函數(shù)預(yù)測紅酒品質(zhì),并對(duì)初始分組案例中的72.7%進(jìn)行了正確分類;對(duì)交叉驗(yàn)證分組案例中的72.1%進(jìn)行了正確分類。因此,分類函數(shù)模擬出各個(gè)紅酒品質(zhì)3 ~9 共7 個(gè)分類的判定。
表5 分類結(jié)果表B,C
綜上所述,基于紅酒品質(zhì)的11 個(gè)理化指標(biāo)(如酒精的濃度、pH 值、糖的含量、非揮發(fā)性酸含量、揮發(fā)性酸含量、檸檬酸含量等),利用多元統(tǒng)計(jì)分析中的判別分析方法,就可對(duì)紅酒的品質(zhì)進(jìn)行預(yù)測分類。故本文運(yùn)用數(shù)學(xué)模型和計(jì)算機(jī)軟件,對(duì)紅酒的品質(zhì)進(jìn)行粗略分類鑒定,將對(duì)改善紅酒工藝、提升紅酒口感有巨大作用,可進(jìn)一步促進(jìn)寧夏地區(qū)紅酒產(chǎn)業(yè)的發(fā)展。