劉 臻,周綺鳳,丁健超
(廈門大學航空航天學院,福建廈門361005)
?
基于數據挖掘的茶葉價格鑒定
劉臻,周綺鳳*,丁健超
(廈門大學航空航天學院,福建廈門361005)
摘要:針對茶葉價格鑒定中傳統感官評審方法遇到的問題與挑戰(zhàn),利用數據挖掘技術,研究茶葉價格自動評定模型與方法.在已有研究的基礎上,對茶葉價格鑒定中的多個屬性進行重要性分析、關聯分析等,并建立一個基于隨機森林的茶葉價格評定模型.該模型基于已有歷史數據的分析和學習,對新茶葉的價格鑒定可以給出較為客觀的評定,從而降低人工評定的代價和人為生理因素的影響.在實際收集的鐵觀音茶葉數據集上的實驗結果表明,所提出的方法與模型具有客觀、準確的評價結果,可以作為茶葉價格評定的輔助評價模型.
關鍵詞:數據挖掘;茶葉價格;鑒定;隨機森林
茶是我國的傳統飲料,居世界三大飲料(茶葉、可可、咖啡)之冠.中國茶文化具有悠久的歷史,茶葉品質鑒定是其中的一個重要內容,感官評審和理化檢測是最常用的2種評定方法.其中,感官評審主要依靠品茶師的經驗,通過對茶葉的觀察和品嘗,在幾秒鐘內,對茶葉的外觀和內質做出評定.但是,這種依賴于專業(yè)品茶師的主觀評定方法經常會受到環(huán)境條件以及品茶師個人的生理條件和工作經驗等因素的影響.對同一個茶樣,不同的品茶師可能得到不同結果,即使是同一個品茶師,在不同的環(huán)境和生理條件下,也會得出不同的評價結果.此外,評茶過程中所使用的標準樣的制作會受到各種條件的限制,很難保持一致,這也影響到評茶的結果[1].
隨著計算機技術逐步應用到食品檢測等問題中,茶葉生產企業(yè)逐步積累了大量檢測數據.如何從眾多的數據中自動挖掘出有用的知識,成為理論和應用研究的一個共同研究熱點.目前數據挖掘技術正在許多領域得到廣泛應用[2-4],部分研究者嘗試將數據挖掘方法應用到茶葉鑒定中.張超等[5]對數據挖掘在茶葉鑒定中的應用做了簡單概述.章文軍等[6]利用自組織映射神經網絡對國內的茶葉品種進行分類.唐和平等[7]利用人工神經網絡(ANN)進行茶葉品質的分析.潘玉成[8]將神經網絡應用于茶葉評審中,參照鐵觀音標準樣的5級和茶葉的外形及內質共40條評語(屬性值),并隨機從市場銷售的茶樣中抽取了10個樣本,建立了一個3層神經網絡模型,其評級結果與感官評審結果基本一致.
上述研究是采用數據挖掘技術在茶葉價格鑒定中的初步嘗試性工作,這些研究所用的方法單一且實驗數據較少,實驗結果缺乏統計意義.此外,Dutta等[9]結合主成分分析、模糊C均值聚類、神經網絡等方法對茶葉數據進行預處理,并采用氧化錫電子鼻方法對茶葉質量進行預測.Hung等[10]提出一種基于指數距離函數的模糊聚類方法,并將該方法應用于臺灣地區(qū)茶葉的4個屬性多種類型的評估中.迄今為止,基于數據挖掘方法的茶葉價格鑒定研究還較少.由于茶葉種類繁多、價格差異較大,針對大量的茶葉鑒定資料、茶葉種植數據,如何運用數據挖掘技術進行更為深入的分析和研究,建立自動、客觀的茶葉價格評價體系和模型,具有實際意義和應用價值.
1茶葉價格鑒定概述
茶葉價格鑒定是茶葉鑒別的主要內容之一,也是影響茶葉銷售和茶葉生產企業(yè)效益的重要因素.從評價方法上來說,目前茶葉鑒定主要采用理化檢測和感官評審2種方法.
理化檢測使用儀器儀表、分析化驗等物理和化學方法鑒定茶葉所含的各種成分.由于理化檢測對檢驗環(huán)境的要求比較高,而且檢驗時間比較長,一般的茶葉銷售企業(yè)和地方檢測機構都難以配置.茶葉產品的感官審評主要根據國家標準中對各類茶葉品質特征的描述和要求,以及實物標準樣和貿易樣等,對擬檢茶葉產品進行評審.與理化檢測相比,評茶師評定的方法較為簡單,但如上所述,這種方法太依賴個人的主觀情況,因此,評價結果也缺乏準確性.
圖1 茶葉感官評審過程Fig.1Tea sensor-based evaluation process
茶葉評審內容通常包括外觀和內質兩個方面.其中外觀評審主要通過對茶葉外觀的大小、松緊、色澤、嫩度、平滑程度等的觀察,來判斷茶葉產品是否符合其茶類的品質要求并判定其在該茶類中所處的級別.內質評審則主要依據品嘗茶葉的香氣類型、滋味鮮爽度、濃度,觀察茶湯顏色與明亮程度,以及茶底的顏色和勻整度等特征來判斷.茶葉感官評審過程如圖1所示,這些過程通常由經驗豐富的品茶師及相關輔助人員共同完成.
2基于數據挖掘的茶葉價格鑒定模型
茶葉感官評審通過多年的品質鑒定已積累了大量的審評數據,如何利用這些數據構建一種客觀、準確、便捷,能適應生產、加工、檢驗各環(huán)節(jié)使用的評定方法,克服鑒定師的主觀鑒定缺陷,是茶葉加工企業(yè)亟待解決的一個問題.數據挖掘作為一種決策支持過程,能自動地對大量數據進行分析,挖掘隱含在海量數據中的潛在知識,從而幫助決策者做出正確的決策.本文中通過對茶葉數據的整理和分析,利用數據挖掘的回歸、分類、特征選擇等算法建立一個高效準確的茶葉價格鑒定模型,該模型如圖2所示,主要包括數據預處理、重要屬性分析和預測模型幾個模塊.
圖2 基于數據挖掘的茶葉價格鑒定系統Fig.2Evaluation system of tea price based on data mining
2.1數據預處理
由于茶葉品種眾多,品質差異較大,且在收集過程中存在誤差等問題,在進行茶葉價格自動鑒定之前需要對眾多的茶葉數據進行分類和過濾,對不同系列的茶葉產品需要分別進行價格評審[11-12].
2.2重要屬性分析
本模型采用基于隨機森林(random forests, RF)的變量重要性排序,找到影響茶葉價格的重要屬性,從而為最終的定價提供參考[13-15].
基于RF的變量重要性[16]: RF的性質之一是在學習過程中可以很自然地提供變量重要性(即特征排序),其過程如下:
2) 從Dn中有放回的隨機抽取n1個樣本,得到訓練集Xi,每個決策樹在訓練過程中沒有采用的樣本稱為OOB(out of bag)樣本.
5) 第i個特征的重要性得分根據下面式子計算:
6) 對這些得分按從大到小進行排序得到{sd1,sd2, …,sdn},那么{d1,d2,…,dn}就是所求的特征排序.
2.3預測模型
回歸分析:傳統的感官評審采用對各個特征分別打分,再通過浮動參考價格,進行人工微調,累計得到最終的價格.利用回歸分析,可以確定茶葉品質特征(屬性)與最終定價之間的定量關系,并得到一個自動評分模型.
分類預測:茶葉的價格是決定茶葉等級的最主要因素.本研究根據茶葉價格對數據進行分類處理,建立基于RF的分類預測模型,該模型可以根據茶葉的品質特征自動預測茶葉所屬的等級.
基于RF的茶葉分類預測模型:
1) 設N為訓練樣本個數,M為變量重要性分析后選取的評估特征數目.
2) 輸入特征數目mtry,用于確定決策樹上一個節(jié)點的決策結果,其中mtry應遠小于M.
3) 從N個訓練樣本中采用bootstrap方法采樣,形成一個訓練集,并用未抽到的樣本(OOB樣本)作預測,評估其誤差.
4) 對于每一個節(jié)點,隨機選擇mtry個特征,根據這mtry個特征,計算最佳的分裂方式.
5) 每棵樹都不用剪枝(pruning),任其生長,最終生成ntree棵樹.
6) 采用多數投票法對新樣本進行分類.
3實驗及分析
以實際收集到的福建省某企業(yè)鐵觀音茶葉數據為例,對所提出模型進行驗證.該數據集包括1 604個樣本,外觀特征:條形、色澤;內質特征:香氣、湯色、滋味、葉底、質量、總分,樣本點的分布如圖3所示.
圖3 鐵觀音茶葉數據分布圖Fig.3Distribution of Tieguanyin tea data
根據樣本點的分布及茶葉定價體系,把數據分為4個等級,如表1所示.
表1 樣本等級Tab.1 Sample grades
3.1異常值檢測
采用凝聚層次聚類(agglomerative hierarchical clustering )對樣本數據進行聚類.實驗中采用單鏈法(single linkage method)計算鄰近度矩陣,聚類評價指標采用KL(Krzanowski-Lai)指標,記為PKL計算每個類緊密度的平均值,KL值越大越好.
(1)
其中,
R(i)=
(2)
是緊密度.這里R(i)的緊密度定義是Pearson相關系數的平方和,這個系數用來衡量兩個數據集合的線性相關關系.
利用上述方法,剔除茶葉數據中的異常值,部分異常值如圖4所示.
3.2回歸分析
利用回歸分析可以自動地確定茶葉屬性和最終定價之間的依賴關系.圖5所示為各個特征和定價的散點圖.
在實際應用中,關注的一個問題是總分與茶葉的定價之間是否有顯著的相關性,即傳統的打分法得到的總分是否可以客觀地反應茶葉的定價.利用回歸分析,對原始數據與定價做了相關分析,結果如表2所示.
由散點圖和相關分析的結果可以看出,總分與定價之間具有較大的相關性.在此基礎上,進一步通過回歸分析建立回歸模型.由實驗數據得到的線性擬合結果如圖6(a)所示,該模型誤差較大;由實驗數據得到的二次擬合結果如圖6(b)所示,該模型與數據分布擬合效果較好,其曲線為:y=213.488-5.381 2x+0.051 2x2.
圖4 異常值檢測Fig.4Outlier detection
圖5 鐵觀音茶葉數據屬性與定價散點圖Fig.5Scatterplot between attributes and price
相關系數r條形色澤香氣湯色滋味葉底質量總分0.360.300.450.250.450.30-0.0830.50
圖6 總分與定價之間的擬合結果Fig.6Results of regression analysis between total score and price
3.3分類預測及變量重要性分析
采用RF對預處理后的數據進行建模,用十折交叉驗證的方法檢驗數據的預測準確率,其中選擇決策樹的個數為ntree=1 500, 葉節(jié)點上隨機分裂屬性個數為mtry=3.根據茶葉的外形和內質6個特征,我們得到變量重要性從大到小的排序,依次為:香氣、滋味、葉底、條形、色澤、湯色,該結果與回歸分析結果相一致.同時利用各特征建立的分類預測模型(RF)及和常用的ANN方法的性能比較如表3所示.
由表3可知,基于RF的茶葉價格預測模型能夠給出較為準確的預測結果.與傳統的ANN方法相比,RF在準確率和穩(wěn)定性方面都有更好的表現,這也體現出RF作為一種組合分類器方法的優(yōu)勢.此外,由表3可知,在所有的屬性中,內質的4個特征,即:香氣、湯色、滋味、葉底對定價預測準確率的提高效果最明顯,這也是茶葉消費者最注重的特征,符合茶葉市場的定價規(guī)律.因此,本文提出的基于數據挖掘方法的茶葉價格鑒定系統具有較好的預測準確率和實用價值.
表3 基于RF的分類模型預測結果Tab.3 The predicting results of classification model based on RF
注:表中數據為平均值±標準差.
4結論
基于數據挖掘的茶葉價格自動鑒定是填補目前人工鑒定方法中存在的不足的一種有效途徑.本文中利用茶葉的屬性數據,提出一種基于數據挖掘的茶葉價格自動鑒定系統,并通過回歸分析、特征選擇、分類預測等數據挖掘方法,建立了一個茶葉價格鑒定模型.該模型基于已有歷史數據的分析和學習,對新茶價格的評估可以給出較為客觀的評定,從而降低人工鑒定的代價和人為生理因素的影響.由于茶葉價格的最終確定還需要考慮茶葉的生產時間、天氣、產地等因素,未來的研究將在外觀和內質的基礎上考慮上述因素,提出更全面的評價模型.
參考文獻:
[1]霍紅.模糊數學在食品感官評價質量控制方法中的應用[J].食品科學,2004,25(6):185-188.
[2]李濤,唐良,李磊,等.數據挖掘的應用與實踐:大數據時代的案例分析[M].廈門:廈門大學出版社,2013:10.
[3]ZHOU Q,ZHOU H,ZHU Y,et al.Data-driven solutions for building environmental impact assessment[C]∥ IEEE International Conference on Semantic Computing(ICSC).Anaheim:IEEE,2015:316-319.
[4]李濤,曾春秋,周武柏,等.大數據時代的數據挖掘:從應用的角度看大數據挖掘[J].大數據,2015,1(4):2015041.
[5]張超,張婭玲,楊如艷.數據挖掘在茶葉鑒定中的應用[J].安徽農業(yè)科學,2012,40(2):1219-1220.
[6]章文軍,許祿.自組織特征映射神經網絡——用于茶葉分類[J].計算機與應用化學,2000,17(1):85-87.
[7]唐和平,黎星輝.神經網絡技術及其在茶葉中的應用[J].茶葉通訊,1999,3:29-31.
[8]潘玉成.人工神經網絡及其在茶葉審評中的應用[J].茶葉科學技術,2007(3):34-37.
[9]DUTTA R,HINES E L,GARDNER J W,et al.Tea quality prediction using a tin oxide-based electronic nose:an artificial intelligence approach[J].Sensors and Actuators B:Chemical,2003,94(2):228-237.
[10]HUNG W L,YANG M S.Fuzzy clustering on LR-type fuzzy numbers with an application in Taiwanese tea evaluation[J].Fuzzy Sets and Systems,2005,150(3):561-577.
[11]ZHENG L,LI T.Semi-supervised hierarchical clustering[C]∥11th International Conference on Data Mining(ICDM).Vancouver:IEEE,2011:982-991.
[12]TAN P N,STEINBACH M,KUMAR V.Introduction to data mining[J].Silicates Industriels,2006,50(4):209-210.
[13]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[14]BREIMAN L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.
[15]HO T K.The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844.
[16]周綺鳳,洪文財,楊帆,等.基于隨機森林相似度矩陣差異性的特征選擇[J].華中科技大學學報(自然科學版),2010,38(4):58-61.
doi:10.6043/j.issn.0438-0479.201507001
收稿日期:2015-07-01錄用日期:2016-04-27
基金項目:國家自然科學基金(61503313);江蘇省社會安全圖像與視頻理解重點實驗室創(chuàng)新基金(30920140122007)
*通信作者:zhouqf@xmu.edu.cn
中圖分類號:TP 18
文獻標志碼:A
文章編號:0438-0479(2016)04-0586-06
Data Mining Based Solutions for Tea Price Evaluation
LIU Zhen,ZHOU Qifeng*,DING Jianchao
(School of Aerospace Engineering,Xiamen University,Xiamen 361005,China)
Abstract:Traditional tea price evaluation mainly depends on the experience of tea experts and evaluating results are usually unstable and imprecise.To solve this problem and obtain some more objective evaluation results,we propose a data-driven tea price evaluation framework.This framework incorporates the outlier detection,feature-importance analysis,regression,and classification forecast models.Experimental evaluation on the real Tieguanyin tea data demonstrates the effectiveness of our proposed framework.
Key words:data mining;tea price;evaluation;random forest
引文格式:劉臻,周綺鳳,丁健超.基于數據挖掘的茶葉價格鑒定[J].廈門大學學報(自然科學版),2016,55(4):586-591.
Citation:LIU Z,ZHOU Q F,DING J C.Data mining based solutions for tea price evaluation[J].Journal of Xiamen University(Natural Science),2016,55(4):586-591.(in Chinese)