楊 洋,姚婭川,鄭 婷
(1.四川輕化工大學(xué)人工智能四川省重點(diǎn)實(shí)驗(yàn)室,四川宜賓 644000;2.四川輕化工大學(xué)自動(dòng)化與信息工程學(xué)院,四川宜賓 644000)
葡萄酒行業(yè)處在飛速發(fā)展的階段,人們對(duì)葡萄酒的品質(zhì)越來(lái)越重視[1]。不同類(lèi)型的葡萄酒中的大多數(shù)化學(xué)物質(zhì)是一致的,但是不同類(lèi)型的葡萄酒中化學(xué)物質(zhì)的含量卻有不一樣的濃度。隨著葡萄酒相關(guān)檢測(cè)技術(shù)的不斷改善,對(duì)不同的葡萄酒進(jìn)行分類(lèi)以確保其質(zhì)量就顯得尤為重要。
人們使用了不同的機(jī)器學(xué)習(xí)方法和特征選擇技術(shù)對(duì)葡萄酒數(shù)據(jù)集進(jìn)行處理。Er和Atasoy[2]提出了使用支持向量機(jī)(SVM)、隨機(jī)森林(Random forest)和k-近鄰(KNN)3種不同分類(lèi)器對(duì)葡萄酒質(zhì)量進(jìn)行分類(lèi)。其中隨機(jī)森林算法對(duì)葡萄酒的分類(lèi)得到了很好的效果。Chen 等[3]提出了利用人的品評(píng)來(lái)預(yù)測(cè)葡萄酒級(jí)別的方法。他們使用關(guān)聯(lián)規(guī)則算法來(lái)處理評(píng)論和預(yù)測(cè)葡萄酒等級(jí),發(fā)現(xiàn)在預(yù)測(cè)等級(jí)時(shí),準(zhǔn)確率為85.25%。Appalasamy等[4]提出了理化測(cè)試數(shù)據(jù)預(yù)測(cè)葡萄酒質(zhì)量的方法。指出在生產(chǎn)過(guò)程中,分類(lèi)方法有助于提高葡萄酒的質(zhì)量。Beltran等[5]提出了香氣色譜對(duì)葡萄酒進(jìn)行分類(lèi)的方法,利用PCA 降維,再用小波變換特征提取和分類(lèi)器特征提取,如神經(jīng)網(wǎng)絡(luò),線性判別分析和SVM,發(fā)現(xiàn)SVM和小波變換執(zhí)行比其他分類(lèi)器的效果要好。Thakkar 等[6]應(yīng)用層次分析法(AHP)先對(duì)屬性進(jìn)行排序,再用支持向量機(jī)分類(lèi)器和隨機(jī)森林這兩種分類(lèi)器,發(fā)現(xiàn)應(yīng)用隨機(jī)森林的準(zhǔn)確率為70.33 %,應(yīng)用支持向量機(jī)的準(zhǔn)確率為66.54%。Reddy 和Govindarajulu[7]應(yīng)用了以用戶為中心的集群方法來(lái)推薦該產(chǎn)品。他們將紅葡萄酒數(shù)據(jù)集進(jìn)行調(diào)查,在理論的基礎(chǔ)上對(duì)屬性進(jìn)行了基礎(chǔ)的分類(lèi),然后利用高斯分布的方法對(duì)屬性進(jìn)行權(quán)重分配,根據(jù)用戶的偏好來(lái)判斷質(zhì)量的好壞。以上研究促使我們嘗試不同的特征選擇算法和不同的分類(lèi)器來(lái)比較性能指標(biāo)。還提出了遺傳算法和SA 的特征選擇方法,并利用Part、Bagging、C5.0、Random-forest、支持向量機(jī)、LDA、Naive Bayes 等不同的分類(lèi)器對(duì)紅葡萄酒質(zhì)量進(jìn)行預(yù)測(cè)。
圖1 方法流程圖
本文運(yùn)用遺傳算法(GA)的特征集進(jìn)行特征選擇。其中葡萄酒數(shù)據(jù)集在UCI 的數(shù)據(jù)庫(kù)中是公開(kāi)化的。這個(gè)數(shù)據(jù)集包括物理化學(xué)變量和感覺(jué)變量,總共有12 個(gè)屬性[8]。Pledsoe 首先提出了一種被稱為遺傳算法的自適應(yīng)優(yōu)化算法,隨之,Holland 從達(dá)爾文的進(jìn)化論中得到靈感,從數(shù)學(xué)上提出了遺傳算法。初始化是利用染色體的種群隨機(jī)進(jìn)行的。染色體的質(zhì)量是根據(jù)一個(gè)預(yù)處理的適應(yīng)度函數(shù)來(lái)決定的,適應(yīng)度越高的染色體就會(huì)被用來(lái)產(chǎn)生后代。遺傳操作如變異和交叉操作就會(huì)產(chǎn)生后代。在這個(gè)過(guò)程中,染色體互相競(jìng)爭(zhēng),最適者最終存活下來(lái)。經(jīng)過(guò)一系列的迭代計(jì)算,得到了最優(yōu)解[9-10]。同時(shí)也使用模擬退火的特征集進(jìn)行特征選擇。模擬退火是廣泛應(yīng)用的組合優(yōu)化方法,也是最流行的搜索算法之一。該方法利用概率技術(shù)尋找局部最優(yōu)解,最終找到更好的解[11]。模擬退火仿真算法步驟:它根據(jù)類(lèi)的數(shù)量運(yùn)行,如果類(lèi)的數(shù)量為n,則運(yùn)行n 次。在每一次運(yùn)行中,找到第j 個(gè)類(lèi)的特征子集。在計(jì)算當(dāng)前字符串時(shí),所有第j 個(gè)類(lèi)模式都會(huì)被納入一個(gè)類(lèi),其他模式屬于另一個(gè)類(lèi)。這個(gè)過(guò)程有助于給出將模式劃分為屬于類(lèi)j 或不屬于類(lèi)j 的特征[12]。利用模擬退火算法和遺傳算法對(duì)特征進(jìn)行選擇之后,再將數(shù)據(jù)集導(dǎo)入到不同的分類(lèi)器,然后對(duì)分類(lèi)器的性能參數(shù)進(jìn)行比較。
用于比較分類(lèi)器性能和驗(yàn)證的標(biāo)準(zhǔn)有:敏感性、陽(yáng)性預(yù)測(cè)值(PPV)、精確度、特異性、陰性預(yù)測(cè)值(NPV)。靈敏性是指真陽(yáng)性與真陽(yáng)性和假陰性總和的比值。特異性是指真陰性與假陽(yáng)性和真陰性和的比值。在本文中,使用了PPV 和NPV 兩種指標(biāo)來(lái)檢驗(yàn)?zāi)骋环N葡萄酒是否存在。其中PPV 表示在測(cè)試結(jié)果為陽(yáng)性的情況下某一種葡萄酒出現(xiàn)的概率,NPV則表示在測(cè)試結(jié)果為陰性的情況下某一種葡萄酒不出現(xiàn)的概率[13]。準(zhǔn)確度的含義就是正確預(yù)測(cè)的次數(shù)與總預(yù)測(cè)次數(shù)的比值。
采用訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩組數(shù)據(jù)。先在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上對(duì)分類(lèi)器進(jìn)行訓(xùn)練,然后對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)器的能力預(yù)測(cè)。因此,每個(gè)分類(lèi)器都能夠顯示基于測(cè)試數(shù)據(jù)的所有性能指標(biāo),如PPV、敏感性、特異性、精確度和NPV。我們將已有的一些分類(lèi)技術(shù)分別應(yīng)用在遺傳算法的特征集和SA 的特征集,從而得到每個(gè)分類(lèi)器的性能數(shù)據(jù)。再根據(jù)GA和SA集分離每個(gè)性能數(shù)據(jù),并繪制柱圖。最后分離的性能數(shù)據(jù)的結(jié)果如圖2、圖3、圖4、圖5 和圖6所示。
圖2 紅葡萄酒數(shù)據(jù)的精確度比較
從圖2 可以看出,在所有的分類(lèi)器中,SVM 分類(lèi)器的準(zhǔn)確率為最高的。使用SA 的特征集的效果好于SA 的特征集。SA 特征集的SVM 分類(lèi)器的準(zhǔn)確率為95.4%。
圖3 紅葡萄酒數(shù)據(jù)的敏感性比較
從圖3 可以看出,SVM 分類(lèi)器的靈敏性最高,使用SA 特征集的效果優(yōu)于GA 特征集,SA 的特征集的SVM分類(lèi)器靈敏性為96.3%。
從圖4 可以看出,SVM 分類(lèi)器的特異性相比其他分類(lèi)器的特異性要大。使用SA 的特征集性能更好。SA 特征集SVM 分類(lèi)器的特異性準(zhǔn)確率為98.5%。
從圖5 可以看出,所有分類(lèi)器中SVM 分類(lèi)器的PPV 最高,使用SA 的特征集效果更優(yōu),SA 特征集SVM分類(lèi)器的PPV為98.9%。
圖4 紅葡萄酒數(shù)據(jù)的特異性比較
圖5 紅葡萄酒數(shù)據(jù)PPV的比較
圖6 紅葡萄酒的NPV比較
由圖6 可以看出,SVM 分類(lèi)器的NPV 最大。SA 的特征集性能更好。SA 特征集的SVM 分類(lèi)器的NPV為0.9812。
通過(guò)上面的5 個(gè)顯基于兩個(gè)不同特征集的指標(biāo)參數(shù)對(duì)紅葡萄酒的性能的比較圖分析得知,SVM 分類(lèi)器對(duì)這兩種不同算法的數(shù)據(jù)集都有較好的分類(lèi)效果。特別是在SA 的特征集中的總體性能更好。雖然從結(jié)果中很容易看出SA 算法的特征選擇效果更好,但事實(shí)上可能還有其他的不同的數(shù)據(jù)集,這是以后需要作進(jìn)一步研究的內(nèi)容。不過(guò),根據(jù)現(xiàn)有研究可以得出,支持向量機(jī)分類(lèi)器的分類(lèi)效果是要優(yōu)于其他分類(lèi)器。
本文主要研究了模擬退火(SA)算法和遺傳(GA)算法這兩種算法在特征選擇中的效果,以及基于新特征集的分類(lèi)器準(zhǔn)確預(yù)測(cè)的效果,同時(shí)還比較了線性、非線性和概率分類(lèi)器的性能。結(jié)果表明,SA的特征集性能優(yōu)于GA特征集的總體性能,支持向量機(jī)分類(lèi)器優(yōu)于其他分類(lèi)器,不同特征集的準(zhǔn)確率在95.4%~98.9%之內(nèi)。不過(guò),還可以嘗試其他性能指標(biāo)和其他機(jī)器學(xué)習(xí)技術(shù)進(jìn)行更好的比較,以更好地對(duì)葡萄酒品質(zhì)進(jìn)行預(yù)測(cè)。