黃鴻基 錢圳冰 馮帆 周行洲
[摘要]文章研究的是葡萄酒的根據釀酒葡萄的理化指標和葡萄酒的質量,對這些釀酒葡萄進行分級和分析釀酒葡萄及葡萄酒的理化指標對葡萄酒質量的影響。首先研究篩選了一組合理的葡萄酒樣本進行了標準化處理。分別建立了K-means分析模型去進行樣本分析。為了得到明確的評估指標,研究改進了K-means算法,結合主成分分析的原理,得到了PCA-K-means模型。研究把釀酒葡萄分成了四類,而葡萄酒分成了五類。
[關鍵詞]聚類分析;主成分分析;K-means算法
[DOI]1013939/jcnkizgsc201716196
1引言
釀酒葡萄的好壞與所釀葡萄酒的質量有直接的關系,葡萄酒和釀酒葡萄檢測的理化指標會在一定程度上反映葡萄酒和葡萄的質量。研究采用已有數據,根據釀酒葡萄的理化指標和葡萄酒的質量對這些釀酒葡萄進行分級。
2基于K-means算法對釀酒葡萄進行分級
21算法模型分析
研究要通過釀酒葡萄的理化指標和葡萄酒的質量對釀酒的葡萄進行合理的分級。首先使用我們之前采集到的評酒員給出的數據。同時,考慮到葡萄酒的質量和釀酒葡萄理化指標所包括的數據量較大且類型較多,而且這些變量的量綱不同且測量值范圍相差懸殊,研究應該對所有數據進行標準化處理。接著,基于本問題要求對不同種類的大數據進行合理的分類,研究采用聚類分析相關理論建立模型。聚類分析可以很好地描述事物之間的相似程度,適用于解決多變量且有著不同程度的界限的分類問題??紤]到主成分分析能夠很好地通過權重和貢獻率得出比較準確的綜合評判指標,研究對K-means分析模型進行合理的改進,得到PCA-K-means復合模型,從而建立模型并得到準確的分級結果。
22模型的建立
221數據的標準化處理
首先,根據葡萄酒行業(yè)相關的質量標準,我們篩選了氨基酸總量、蛋白質、VC含量、花色苷鮮重、酒石酸、蘋果酸、檸檬酸和多酚氧化酶活力等重要指標進行分析。其次,為了消除它們之間量綱和數據變化范圍不同造成的影響,我們對這些數據進行了標準化處理。
yj=[SX(]xj-xmin[]xmax-xmin[SX)](1)
其中,xj代表第j個數據,xmin、xmax分別代表所有數據的最小值和最大值。yj表示經過標準化處理的數據。
222算法模型建立
我們分別以第二組葡萄酒質量和釀酒葡萄的相關指標標準化處理后的數據為樣本,進行聚類分析。在這里,我們分別基于K-means分析合理地建立了模型。
為了能夠更好地確定各個理化指標之間的權重,從而確定它們的累計貢獻率,我們引入PCA(主成分分析)對K-means聚類分析算法進行優(yōu)化。
PCA-K-means聚類算法的具體流程如下:
(1)我們對于給定的一個8維數據點數據集
X={x1, x2, …, xi, x8}, xi∈[WTHZ]R[WTBZ]
其中xi∈R,代表8種理化指標,以及要生成的數據子集的數目 K,K-Means 聚類算法將數據對象組織為 K 個劃分。在問題二中,K分別為27(紅葡萄酒)、28(白葡萄酒),即每組的樣本總數。C={ck, i=1, 2, …, k},每個劃分代表一個類ck,每個類ck有一個類別中心μi。
(2)考慮到歐氏距離在對坐標軸做正交旋轉時,歐氏距離是不變的,即當我們對原坐標系進行平緩和旋轉變換后,樣本點間的距離和變換前完全相同。因此我們選取歐氏距離作為相似性和距離判斷準則,計算該類內各點到聚類中心μi的距離平方和。
同時,根據最小二乘法和拉格朗日原理可知,聚類中心μi應該取為類別ck 類各數據點的平均值。
(4)選擇兩個主成分,計算綜合評價值,并計算綜合得分。
結合上述K-means聚類算法流程,我們建立的聚類模型如下:
①分別計算紅葡萄酒和白葡萄酒的所有樣本點n兩兩之間的距離d(xi, xj),記為矩陣D=[d(xi, xj)]n×n。
②首先構造n個類,每一類只包含一個樣本點,每一個平臺的高度均為0。
③合并距離最佳的兩類為新類,并且以這兩類間的距離值作為聚類圖的平臺高度。
④計算新類與當前各類的距離,若類的個數已經為1,轉入步驟E,否則返回步驟C。
⑤畫聚類圖。
⑥確定類的個數和類,根據評分結果對紅、白葡萄酒分別進行分級。
23算法模型的求解
根據上述的K-means聚類分析方法,借助計算機模擬,我們分別得到了紅葡萄酒和白葡萄酒聚類分析的結果。
根據葡萄酒的質量,我們對葡萄酒進行了分類,分類結果如圖1和圖2所示。
我們對類間距離的計算采用了類平均法,并得到了聚類分析樹形圖,如圖2所示。從圖1的K-means聚類評分結果和圖2的標準距離我們可以看出,葡萄酒質量大體上可以分為五個等級。結合下表我們可以發(fā)現,第五個等級的葡萄酒只有樣本12,即第12個樣本。同時,處于等級較低的葡萄酒樣本數較多。
同時由下表可以看出,紅葡萄酒中的27個樣本可以分為五個等級。同時,質量處于第二類的紅葡萄酒樣品數最多。若定義第一類代表第五等級,第二類代表第四等級,依次類推,結合圖2,我們得到不同等級的紅葡萄酒樣品所占比重的分布情況:第四等級>第五等級>第二等級>第三等級>第一等級。同時,我們可得,這27個樣品的紅葡萄酒的質量大部分處于相對較低的水平,且等級最高的紅葡萄酒只有樣品12一個樣品。
基于我們建立的PCA-K-means分析模型,根據篩選出來的相關理化指標,通過MATLAB數值運算,我們分別對紅葡萄酒、白葡萄酒的釀酒葡萄的質量進行了分類。
3結論
基于PCA-K-means分析模型,根據篩選出來的相關理化指標,可以對不同種類的葡萄酒的釀酒葡萄之類的質量進行了分類。
參考文獻:
[1]杜強,賈麗艷,嚴先鋒SPSS統(tǒng)計分析從入門到精通[M].北京:人民郵電出版社,2016
[2]孫庚,馮艷紅,郭顯久,等K-means聚類算法研究[J].長春師范大學學報,2011,30(2):1-4
[3]周世兵聚類分析中的最佳聚類數確定方法研究及應用[D].江蘇:江南大學,2011
[4]李運,李記明,姜忠軍統(tǒng)計分析在葡萄酒質量評價中的應用[J].釀酒科技,2009(4):79-82