吳海燕
(哈爾濱德強商務(wù)學院)
隨著人們生活水平的日益提高,葡萄酒現(xiàn)今已融入千家萬戶,所以對葡萄酒質(zhì)量的評價顯得尤為重要.而釀酒葡萄的好壞直接影響到葡萄酒的質(zhì)量,如何根據(jù)所釀葡萄酒的質(zhì)量及釀酒葡萄的理化指標對釀酒葡萄進行分級隨之成為大家關(guān)注的問題.利用2012全國數(shù)學建模競賽A題所提供的某一年份一些葡萄酒的評價結(jié)果及該年份這些葡萄酒和釀酒葡萄的成分數(shù)據(jù),采用統(tǒng)計學中的Frank Wilcoxon秩和檢驗和多元統(tǒng)計分析方法對釀酒葡萄進行了分級.
該文第一部分利用Frank Wilcoxon秩和檢驗對兩組評酒員的評價結(jié)果的差異性進行了判別,F(xiàn)rank Wilcoxon秩和檢驗無需驗證樣本所在的總體是否服從正態(tài)分布,檢驗理論簡單,過程計算量小,是統(tǒng)計學中一種有效且方便的假設(shè)檢驗方法.鑒于兩組評酒員的部分評價結(jié)果存在差異性,第二部分對兩組葡萄酒樣品評價結(jié)果的變異系數(shù)進行了比較,變異系數(shù)的確定只需計算各組樣品對應(yīng)的均值及方差,為結(jié)果可信性的驗證帶來了方便,最終得出第二組評價結(jié)果的可信度更高.第三部分考慮到釀酒葡萄的理化指標多達60多項,部分理化指標之間可能存在相關(guān)性,所以首先利用主成分析法從中提取主成分,再將葡萄酒的質(zhì)量作為一級指標,采用聚類分析法,利用SPSS軟件對釀酒葡萄的進行了分級,最后的數(shù)值結(jié)果對比說明了方法的有效性.
Frank Wilcoxon秩和檢驗是統(tǒng)計學中一種有效且方便的檢驗方法,它無需考慮樣本來自的總體是否為正態(tài)總體,所以適用范圍較廣.
步驟1 在顯著性水平α=0.05的條件下,對檢驗假設(shè)H0:μ1= μ2,H1:μ1≠μ2進行檢驗,其中μ1,μ2分別為兩個總體的均值.
步驟2 對兩組樣本數(shù)據(jù)進行編秩.即將兩組評酒員對每個樣品的評價結(jié)果的總分作為兩個總體的樣本,n1,n2分別為第一組和第二組的樣本容量.將兩組樣本值混合后按照從小到大的次序編號排列成如下形式:x1<x2<… <xn,其中 x1的下標 i即為 xi的秩,i=1,2,…,n,n=n1+n2.為了結(jié)果的可靠性,若遇到樣本值相同的情況,對這些樣本的秩的定義為下標的平均值.
步驟3 求樣本值的秩和及其分布.鑒于n1=n2,該文選取求第一組樣本值的秩和,記為R1,R1的觀測值記為r1.由Frank Wilcoxon秩和檢驗的理論可知當H0為真時,R1近似服從正態(tài)分布 N(μR1,),其中
k表示秩相同的組的個數(shù),ti(i=1,2,…,k)表示第i組中具有相同秩的樣本的個數(shù).
例1 以紅葡萄酒的樣品1為例,對兩組的評價結(jié)果是否具有顯著性差異進行判別.
解 首先將兩組樣本值混合,按自小到大的次序排序,得出各樣本值的秩見表1.
表1
由(1)和(2)式得μR1=10×21/2=105,=174.7.當 H0為真時,近似地有 R1~N(105,174.7),拒絕域為1.96.現(xiàn)在R1的觀察值為r1=89,得=1.16<1.96,故接受H0,認為兩組評酒員的評價結(jié)果無顯著性差異.
例1針對紅葡萄酒的樣品1具體給出了評價結(jié)果是否具有顯著性差異的判別結(jié)果.為了說明方法的有效性,利用C語言編程計算出了剩余的紅葡萄酒和白葡萄酒的樣本的評價結(jié)果是否有顯著性差異的判別結(jié)果.結(jié)果顯示:28個白葡萄酒的樣品中,僅有2個樣品的評價結(jié)果有顯著性差異,其余26組均無顯著性差異;27個紅葡萄酒的樣品中,有7個樣品的評價結(jié)果有顯著性差異,其余的20組均無顯著性差異.
鑒于部分結(jié)果存在差異性,下面將對兩組評價結(jié)果的可信性進行分析,以判別用哪組評價結(jié)果作為葡萄酒質(zhì)量的衡量標準.
鑒于所給評價結(jié)果數(shù)據(jù)是兩組評酒員分別對每個樣品的澄清度、色調(diào)、純正度、濃度、質(zhì)量、純正度、濃度、持久性、質(zhì)量和平衡 /整體評價等方面分別打分,再求和得到總分,所以該文通過對反映每個樣品品質(zhì)的參數(shù)求變異系數(shù),再將各參數(shù)的變異系數(shù)求和得到該樣品的變異系數(shù).變異系數(shù)越大,可信度越低;變異系數(shù)越小,可信度越高.下面以紅葡萄酒樣品13為例對其變異系數(shù)做詳細分析:
設(shè) αij(i=1,2,…,20;j=1,2,…,10)表示第i個評酒員對第j個參數(shù)的評分,(i=1,2,…,m為第一組的分數(shù),剩余的為第二組的分數(shù)),則樣品第j個參數(shù)得分的真值為,樣品第j個參數(shù)得分的真方差為DEj)2,樣品第j個參數(shù)的變異系數(shù)為
通過Excell數(shù)據(jù)整合處理,得到了紅葡萄酒樣品13的各參數(shù)的變異系數(shù),見表2.
表2 紅葡萄酒樣品13的各參數(shù)的變異系數(shù)對照表
每個樣品評價結(jié)果的變異系數(shù)為其各參數(shù)變異系數(shù)之和.為了使結(jié)果更有說服力,更直觀的說明兩組評價結(jié)果變異系數(shù)的大小關(guān)系,將兩組紅白葡萄酒樣品的變異系數(shù)值用Excell生成圖的形式表示,見圖1和圖2.
圖1 兩組紅葡萄酒樣品的變異系數(shù)對照圖
圖2 兩組白葡萄酒樣品的變異系數(shù)對照圖
顯然,紅白葡萄酒樣品的評價結(jié)果均為第二組的變異系數(shù)較小,可信度更高,所以下面將以第二組的評價結(jié)果作為葡萄酒質(zhì)量的衡量標準,進一步對釀酒葡萄進行分級.
鑒于本部分要對釀酒葡萄進行分級,而影響到釀酒葡萄質(zhì)量的理化指標變量多達五六十個,所以首先考慮應(yīng)用主成分分析的方法,篩選出理化指標變量中的主成分.再對新得到的主成分變量進行系統(tǒng)聚類分析和均值聚類分析,進而對釀酒葡萄進行分級.下面首先根據(jù)兩種方法的原理,建立該文的相關(guān)數(shù)學模型,隨后利用統(tǒng)計分析軟件SPSS來選出主成分,再利用已經(jīng)標準化的原來指標計算出紅和白釀酒葡萄樣品的主成分的參數(shù)值,進而對其進行聚類分析,得到釀酒葡萄的分級結(jié)果.
3.1.1 主成分分析的原理
主成分分析法的核心思想是在力求數(shù)據(jù)信息丟失最少的前提下,對高維變量空間進行降維處理,即經(jīng)線性變換后,以少數(shù)新的低維綜合變量取代原始高維變量.具體步驟如下:
步驟1 數(shù)據(jù)標準化,將釀酒葡萄的理化指標對應(yīng)的原始數(shù)據(jù)變量 xi,i=1,2,…,63 經(jīng)Excell簡單處理后,再對其進行標準化處理,即zi,其中,Si分別為xi的樣本均值與樣本標準差.
步驟2 求樣本的相關(guān)系數(shù)矩陣R,R應(yīng)為63階的對稱矩陣,且對角線上的元素均為1.
步驟3 求樣本的相關(guān)系數(shù)矩陣R的特征值λi,i=1,2,…,63,其中λ1≥λ2≥…≥λm≥…≥0.
步驟4 求λi對應(yīng)的標準化特征向量li,i=1,2,…,63.
步驟5 選定主成分的累計貢獻率的標準,以大于或等于80%為宜,來定主成分中變量的個數(shù)m.
步驟6 最后得到主成分為yi=,i=1,2,…,m.
3.1.2 相關(guān)數(shù)據(jù)結(jié)果
以主成分的貢獻率85% 為標準,對主成分進行抽取,通過SPSS軟件分析后得到紅葡萄的主成分個數(shù)為12個,白葡萄的主成分個數(shù)為13個.即可以分別用12和13個新的變量來表示原來紅葡萄和白葡萄的63個對應(yīng)的理化指標.在進行分析的過程中,同時得到了樣本的相關(guān)系數(shù)矩陣特征值的碎石圖(如圖3)和主成分累計貢獻率的選取標準(以紅葡萄為例,見表3).
圖3 紅、白葡萄樣品經(jīng)主成分分析后得到的相關(guān)系數(shù)矩陣特征值的碎石圖
表3 紅葡萄的主成分的累計貢獻率與成分個數(shù)選取的對比
續(xù)表
3.2.1 系統(tǒng)聚類分析的原理
系統(tǒng)聚類分析法是較常用的一種聚類方法,其基本思想是:首先將每個樣本各視為一類,定義類與類之間的距離,將距離最短的兩類合并為一個新類;再計算新類與其他類之間的距離,將距離最短的兩類合并為一個新類.如此下去,直到所有樣本全部合并為一個大類為止.最后,再根據(jù)事先給定的分類臨界值,確定分類,具體步驟如下:
步驟1 計算樣本兩兩之間的距離.
步驟2 將每個樣本各作為一類.
步驟3 將距離最近的兩類合并為一個新類.
步驟4 若類的個數(shù)等于1,轉(zhuǎn)為步驟5.否則,計算新類與其他各類之間的距離,轉(zhuǎn)為步驟3.
步驟5 畫聚類圖.
步驟6 根據(jù)給定的分類臨界值,確定最終分類結(jié)果.具體的分類原理結(jié)構(gòu)聚類圖(以白葡萄的聚類分析圖為例,如圖4所示).
圖4 白葡萄聚類分析的聚類圖
3.2.2 釀酒葡萄的分級結(jié)果
根據(jù)主成分分析法得到的主成分數(shù)據(jù),同時將葡萄酒的質(zhì)量的評價結(jié)果作為一級指標利用聚類分析法對釀酒葡萄進行了等級劃分.下面是在臨界值為4(即將釀酒葡萄分為4類)的條件下進行分級得到的結(jié)果:
紅葡萄:{3,5,6,11,17,18,23}、{2,8,14,16,19,20,21,22,27}、{10}、{1,4,7,9,12,13,15,24,25,26}.
白葡萄:{1,8,13,15,16,18,19}、{27}、{3,24,28}、{2,4,5,6,7,9,10,11,12,14,17,20,21,22,23,25,26}
當然,只要事先選定一個臨界值,分級的結(jié)果就會有所調(diào)整,但總的方向是一致的.
該文基于Frank Wilcoxon秩和檢驗,根據(jù)2012全國數(shù)學建模競賽A題所提供的某一年份一些葡萄酒的評價結(jié)果及該年份這些葡萄酒和釀酒葡萄的成分數(shù)據(jù),利用主成分分析及聚類分析對釀酒葡萄進行了分級,相關(guān)數(shù)值結(jié)果得到了專家的認可,獲得了省級一等獎.
[1] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計第4版[M].北京:高等教育出版社,2008.
[2] 吳孟達,成禮智,吳翊,等.數(shù)學建模教程[M].北京:高等教育出版社,2011.
[3] 區(qū)靖祥,邱建德.多元數(shù)據(jù)的統(tǒng)計分析方法[M].北京:中國農(nóng)業(yè)科學技術(shù)出版社,2002.
[4] 賀昌政,張九龍,林嬪.基于數(shù)據(jù)分組處理方法的聚類分析模型[J].系統(tǒng)工程學報,2008,23(2):222-237.
[5] 李云,劉霽.神經(jīng)網(wǎng)絡(luò)與主元分析在采礦工程中的應(yīng)用[J].中南林業(yè)科技大學學報,2010,30(6):139-146.