朱寶,陳忠圣,余樂(lè)安(北京化工大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 0009;北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 0009)
?
一種新穎的小樣本整體趨勢(shì)擴(kuò)散技術(shù)
朱寶1,陳忠圣2,余樂(lè)安1
(1北京化工大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100029;2北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100029)
摘要:基于數(shù)據(jù)驅(qū)動(dòng)的生產(chǎn)過(guò)程建模、優(yōu)化與控制是當(dāng)今學(xué)術(shù)界與企業(yè)界的研究與應(yīng)用熱點(diǎn)。大數(shù)據(jù)時(shí)代小樣本問(wèn)題不可忽視。針對(duì)諸如人工神經(jīng)網(wǎng)絡(luò)(ANNs)、極限學(xué)習(xí)機(jī)(ELMs)等傳統(tǒng)建模方法在小樣本條件下難以獲得較高的學(xué)習(xí)精度,提出了一種新穎的多分布整體趨勢(shì)擴(kuò)散技術(shù)(multi-distribution mega-trend-diffusion, MD-MTD)用于提升小樣本學(xué)習(xí)精度。通過(guò)整體擴(kuò)散技術(shù)推估小樣本屬性可接受范圍,在整體趨勢(shì)擴(kuò)散的基礎(chǔ)上,增加了均勻分布和三角分布描述小樣本數(shù)據(jù)特性,生成虛擬樣本,填補(bǔ)小樣本數(shù)據(jù)點(diǎn)間的信息間隔。利用標(biāo)準(zhǔn)函數(shù)產(chǎn)生標(biāo)準(zhǔn)樣本,在正交實(shí)驗(yàn)和不均勻樣本實(shí)驗(yàn)下論證了MD-MTD的合理性和有效性,用MLCC和PTA兩個(gè)實(shí)際的工業(yè)數(shù)據(jù)集進(jìn)一步驗(yàn)證了MD-MTD的實(shí)用性。實(shí)驗(yàn)結(jié)果表明,MD-MTD能提高小樣本學(xué)習(xí)精度8%以上。
關(guān)鍵詞:小樣本集;整體趨勢(shì)擴(kuò)散技術(shù);虛擬樣本;正交實(shí)驗(yàn)
2015-12-17收到初稿,2016-01-06收到修改稿。
聯(lián)系人:余樂(lè)安。第一作者:朱寶(1987—),男,博士研究生。
現(xiàn)代石化生產(chǎn)過(guò)程系統(tǒng)應(yīng)用了先進(jìn)的控制系統(tǒng)和生產(chǎn)經(jīng)營(yíng)管理系統(tǒng)(DCS、FCS、MES、ERP、CRM、LIMS等),積累了大量有關(guān)生產(chǎn)過(guò)程的歷史和當(dāng)前生產(chǎn)的實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)及企業(yè)經(jīng)營(yíng)管理等海量數(shù)據(jù),但用于建模、優(yōu)化與控制的數(shù)據(jù)需要覆蓋整個(gè)過(guò)程系統(tǒng)運(yùn)行的全范圍,表征過(guò)程系統(tǒng)的整體特性,這就需要數(shù)據(jù)具有良好的分布性和一致性。正常運(yùn)行狀態(tài)下的數(shù)據(jù)相對(duì)平穩(wěn),不同原油的生產(chǎn)操作數(shù)據(jù)、開(kāi)停車數(shù)據(jù)、歷史故障數(shù)據(jù)等相對(duì)較少,常規(guī)的數(shù)據(jù)挖掘技術(shù)難于從稀少而彌貴的數(shù)據(jù)中挖掘出有效信息。人工神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)和貝葉斯網(wǎng)絡(luò)等傳統(tǒng)學(xué)習(xí)工具廣泛用于學(xué)習(xí)潛在知識(shí),但當(dāng)數(shù)據(jù)不充分時(shí),這些學(xué)習(xí)工具性能差、泛化能力不足、魯棒性不強(qiáng),可能誤導(dǎo)生產(chǎn)管理者的決策、管理與控制。機(jī)器學(xué)習(xí)的精度很大程度上取決于樣本量的大小[1],如何根據(jù)有限的、稀疏的、不充分的原始數(shù)據(jù)合理科學(xué)地?cái)U(kuò)大樣本空間,強(qiáng)化學(xué)習(xí)工具的工作性能,成為人們解決小樣本問(wèn)題的切入點(diǎn)。
小樣本學(xué)習(xí)問(wèn)題不僅局限于統(tǒng)計(jì)學(xué)中樣本數(shù)N少于50(工程上N取30)的樣本學(xué)習(xí)問(wèn)題,也包括數(shù)據(jù)挖掘中數(shù)據(jù)結(jié)構(gòu)的不完整和不平衡問(wèn)題[2-3]。由于小樣本集在分布上呈現(xiàn)離散和松散的特點(diǎn),數(shù)據(jù)間的信息間隔惡化了利用有限稀疏樣本對(duì)總體特性的表征。小樣本提供的信息是稀疏、離散的,由于信息間隔的存在,無(wú)法觀測(cè)到觀測(cè)點(diǎn)間隔間的信息。此外,小樣本是總體的子集(如圖1所示),直接通過(guò)小樣本對(duì)總體特性進(jìn)行推斷是片面的和有偏的,不足為信。因此,擷取觀測(cè)點(diǎn)間隔內(nèi)的潛在信息對(duì)描述總體特征具有重要作用。
圖1 總體、小樣本、虛擬樣本三者的關(guān)系Fig.1 Relationship among population, small-sample-sets and virtual datasets
目前,解決小樣本集學(xué)習(xí)問(wèn)題主要有兩種思想。一種是基于灰色理論直接對(duì)原始的樣本集進(jìn)行建模[4-5]。另一種思想是生成虛擬樣本,擴(kuò)大樣本的數(shù)量,富化小樣本集的貧信息。虛擬樣本的概念由Poggio等[6]首先提出,他們針對(duì)某個(gè)對(duì)象給定的三維視角,通過(guò)數(shù)學(xué)變換的方法,從其他任意角度生成新的圖像,即虛擬樣本,提高模式識(shí)別能力。虛擬樣本的概念提出后,在加工制造業(yè)[5,7-10]、醫(yī)療[11-12]、圖像處理[3,13]等領(lǐng)域得到廣泛的應(yīng)用。
為提高小樣本學(xué)習(xí)精度,研究人員提出了功能虛擬總體FVP算法[7]、基于自適應(yīng)網(wǎng)絡(luò)的模糊推理系統(tǒng)ANFIS方法[8]、基于高斯分布的虛擬樣本生成VSG方法[2]分別為小樣本問(wèn)題和不平衡數(shù)據(jù)問(wèn)題開(kāi)發(fā)的VSGGDS和VSGGDI算法、基于Bootstrap的虛擬樣本生成方法[12,14]等。但FVP是對(duì)實(shí)際樣本總體的有偏估計(jì),特別是當(dāng)系統(tǒng)的性能指標(biāo)發(fā)生變化時(shí),F(xiàn)VP可能會(huì)嚴(yán)重偏離實(shí)際樣本總體且FVP沒(méi)有被嚴(yán)格地理論證明;結(jié)合ANFIS的模糊化方法中采用對(duì)稱性的擴(kuò)散方式,沒(méi)有考慮實(shí)際樣本可能的非對(duì)稱特性;基于高斯分布的VSG方法也沒(méi)有提供有效確定均值與方差的方法;基于Bootstrap的虛擬樣本生成方法執(zhí)行有放回的重復(fù)抽樣過(guò)程,僅對(duì)小樣本集不同屬性值進(jìn)行組合,Bootstrap樣本與原始樣本特征完全相同,因而其學(xué)習(xí)性能實(shí)質(zhì)上也只是對(duì)原始樣本的重復(fù)訓(xùn)練而獲得,并未擷取原始樣本點(diǎn)信息間隔內(nèi)所蘊(yùn)含的信息。
模糊理論盛行后,模糊理論對(duì)填補(bǔ)信息間隔開(kāi)辟了一個(gè)新的可行方向。Huang[15]基于模糊理論提出了信息擴(kuò)散準(zhǔn)則,導(dǎo)出了正態(tài)擴(kuò)散函數(shù),通過(guò)離散化的區(qū)間計(jì)算虛擬值填補(bǔ)信息間隔。Huang等[16]提出了擴(kuò)散神經(jīng)網(wǎng)絡(luò)DNN,將信息擴(kuò)散與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)合,用于函數(shù)學(xué)習(xí)。在給定某一發(fā)生的可能性下,DNN將數(shù)據(jù)點(diǎn)視為某一區(qū)間上模糊正態(tài)分布的數(shù)據(jù)中心,用對(duì)稱的擴(kuò)散函數(shù)對(duì)這些數(shù)據(jù)點(diǎn)進(jìn)行左、右對(duì)稱擴(kuò)散。因此每個(gè)樣本點(diǎn)可通過(guò)擴(kuò)散得到兩個(gè)虛擬樣本點(diǎn),利用虛擬樣本增加的額外信息來(lái)獲得更高的學(xué)習(xí)精度。DNN在一定程度上能填補(bǔ)由數(shù)據(jù)不完整性造成的信息空白,但沒(méi)有指出如何確定擴(kuò)散函數(shù)和擴(kuò)散系數(shù),與結(jié)合ANFIS的模糊化方法類似,DNN采用具有對(duì)稱性的正態(tài)擴(kuò)散函數(shù)并未考慮實(shí)際樣本不對(duì)稱的情況。此外,DNN要求變量間的相關(guān)性大于0.9,實(shí)際數(shù)據(jù)集很難滿足這樣苛刻的要求,大大限制了DNN的應(yīng)用范圍。
在Huang和Moraga的研究基礎(chǔ)上,考慮到數(shù)據(jù)的整體性,Li等[9-10]提出了大趨勢(shì)擴(kuò)散技術(shù)MTD,將單點(diǎn)擴(kuò)散推廣到整體擴(kuò)散,利用數(shù)據(jù)的趨勢(shì)信息產(chǎn)生虛擬樣本。但是,MTD及改進(jìn)的MTD (TTD[1]和TBTD[10])并未給出嚴(yán)格的理論證明。雖然MTD不需要原始數(shù)據(jù)的分布信息,克服樣本對(duì)稱擴(kuò)大問(wèn)題,但增加人工屬性后,數(shù)據(jù)屬性的個(gè)數(shù)是原始屬性個(gè)數(shù)的2倍,由此擴(kuò)大了BPNN網(wǎng)絡(luò)規(guī)模,帶來(lái)了高昂的計(jì)算開(kāi)銷和時(shí)間花費(fèi)。同時(shí),MTD采用三角分布來(lái)描述總體分布,形式過(guò)為簡(jiǎn)單,難以描述數(shù)據(jù)的特性。
針對(duì)基本MTD的上述缺陷,本文提出了一種新穎的多分布整體趨勢(shì)擴(kuò)散技術(shù)MD-MTD,通過(guò)多種方式驗(yàn)證了所提方法的有效性。
在不同的研究領(lǐng)域,虛擬樣本又稱為合成樣本[17]、人工樣本[9-11,17]、模擬樣本,但尚未形成虛擬樣本的權(quán)威定義。下面給出虛擬樣本定義。
定義1 令e=(x,f(x))表示隨機(jī)訓(xùn)練集,其中x∈Rn。通過(guò)應(yīng)用先驗(yàn)知識(shí)K,定義一種轉(zhuǎn)換關(guān)系(T,yT),生成原始樣本集e的新樣本(Tx,yTf(x))。yT到T的關(guān)系可能十分復(fù)雜,這取決于所研究問(wèn)題的先驗(yàn)知識(shí)。這些新樣本被稱為虛擬樣本。因此,給定訓(xùn)練集D={(x1,y1),…,(xn,yn)},可通過(guò)合適的轉(zhuǎn)換關(guān)系T產(chǎn)生虛擬樣本集D′={(x′1,y′1),…,(x′n,y′n)},其中x′i=Txi, y′i=yT(yi)Txi。
Niyogi等[13]從數(shù)學(xué)上證明了通過(guò)領(lǐng)域先驗(yàn)知識(shí)構(gòu)造的虛擬樣本能夠像真實(shí)樣本一樣提供信息有效擴(kuò)展訓(xùn)練集。
事實(shí)上多元線性回歸(MLR)、神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)、極限學(xué)習(xí)機(jī)(ELM)等監(jiān)督式學(xué)習(xí)方法建立的預(yù)測(cè)模式(超平面)已經(jīng)包含了樣本屬性間的關(guān)系,因此,可通過(guò)合適的監(jiān)督式學(xué)習(xí)方法建立起總體(通常為存在但未知的)超平面和小樣本集推估超平面,分別通過(guò)式(1)和式(2)決定。
為了克服小樣本下機(jī)器學(xué)習(xí)算法難以獲得魯棒的預(yù)測(cè)結(jié)果和優(yōu)良的預(yù)測(cè)精度,MTD被用于估計(jì)小數(shù)據(jù)集屬性可接受范圍,填補(bǔ)信息間隔,計(jì)算虛擬樣本值和隸屬函數(shù)值(該樣本值發(fā)生的可能性)。本文在基本的MTD基礎(chǔ)上,提出了多分布整體趨勢(shì)擴(kuò)散技術(shù)(MD-MTD),如圖2所示。
圖2 多分布整體趨勢(shì)擴(kuò)散示意圖Fig.2 Diagram of MD-MTD
2.1 多分布整體趨勢(shì)擴(kuò)散技術(shù)(MD-MTD)
給定樣本集X={x1,x2,…,xn},用基本的MTD估計(jì)X可接受邊界,由式(3)、式(4)給出X的可接受范圍下界L和上界U。
其中,
式中,n表示小樣本集大小,CL表示數(shù)據(jù)中心,NL(NU)表示樣本值小于(大于)CL的個(gè)數(shù),表示小樣本集方差,SkewL(SkewU)表示描述數(shù)據(jù)非對(duì)稱擴(kuò)散特征的左(右)偏度。
均值對(duì)離群點(diǎn)很敏感,為了更好地估計(jì)數(shù)據(jù)趨勢(shì)中心且克服離群值對(duì)數(shù)據(jù)中心影響,將數(shù)據(jù)中心CL修正為
式中,x[·]表示順序統(tǒng)計(jì)量。
由于離群點(diǎn)的存在,會(huì)使NL(NU)值偏大,因而造成對(duì)左(右)偏度SkewL(SkewU)的過(guò)高估計(jì),致使過(guò)度增大數(shù)據(jù)推展域。因此在式(5)的SkewL、SkewU的計(jì)算式中,分母增加修正量因子m,防止出現(xiàn)數(shù)據(jù)推展域過(guò)度增大。將數(shù)據(jù)左偏度SkewL和右偏度SkewU修正為
本研究中m=1。
樣本集X的推展區(qū)域?yàn)閇L,min]和[max,U],直接觀測(cè)區(qū)域?yàn)閇min,max]。在推展區(qū)域[L,min]和[max,U]內(nèi),由于數(shù)據(jù)分布情況未知,因此用均勻分布產(chǎn)生虛擬樣本點(diǎn),在圖2中用三角形空心點(diǎn)表示。在直接觀測(cè)區(qū)域[min,max],用三角分布描述數(shù)據(jù)分布情況,越靠近數(shù)據(jù)中心CL,數(shù)據(jù)發(fā)生的可能性越大,數(shù)據(jù)在分布上越集中;越遠(yuǎn)離數(shù)據(jù)中心CL,數(shù)據(jù)發(fā)生的可能性越小,數(shù)據(jù)在分布上越分散。在推展區(qū)域的虛擬樣本點(diǎn)增加了額外信息,直接觀測(cè)區(qū)域虛擬樣本點(diǎn)填補(bǔ)了原始離散觀測(cè)點(diǎn)的信息間隔。
通過(guò)MD-MTD過(guò)程,在信息上,擴(kuò)展了原始樣本集X的信息量;從訓(xùn)練上,有效增加了樣本容量。在后面部分中將討論MD-MTD提升小樣本集的學(xué)習(xí)精度問(wèn)題。
2.2 虛擬樣本生成
對(duì)于給定的小樣本集Ds=(x,y),樣本容量為Nreal,對(duì)任意輸入屬性xi,通過(guò)MD-MTD過(guò)程擴(kuò)大輸入樣本容量。前面提到,監(jiān)督式學(xué)習(xí)方法建立的預(yù)測(cè)模式(超平面)已經(jīng)包含了樣本屬性間的關(guān)系。顯然,采用生成與Ds的輸入屬性x相對(duì)應(yīng)的y是合理的。文獻(xiàn)[3]指出,當(dāng)?shù)钠骄^對(duì)百分比誤差MAPE不超過(guò)10%時(shí),可用于生成與輸入屬性x相應(yīng)的y。對(duì)于一般的學(xué)習(xí)工具,通過(guò)調(diào)整模型參數(shù),容易保證MAPE≤10%。對(duì)于給定的Ds,虛擬樣本生成可歸納為以下3個(gè)步驟:
① 采用MLR、ANN、SVM、ELM等監(jiān)督式學(xué)習(xí)方法建立預(yù)測(cè)模式(超平面);
② 對(duì)Ds的任意輸入屬性xi,通過(guò)MD-MTD過(guò)程產(chǎn)生所需數(shù)量Nvir的虛擬樣本輸入空間xvir;
由式(9)獲得虛擬樣本集Dvir=(xvir,yvir),綜合原始的小樣本集Ds=(x,y),最終得到樣本容量為Nsyn=Nreal+Nvir的合成樣本集Dsyn。
2.3 虛擬樣本容量Nvir的確定
Nvir對(duì)最終預(yù)測(cè)模型的精度有直接的影響。就機(jī)器學(xué)習(xí)中的樣本大小,計(jì)算學(xué)習(xí)理論努力尋找一個(gè)成功學(xué)習(xí)所需的訓(xùn)練樣本數(shù)和計(jì)算量[12],確定Nvir大小是小樣本學(xué)習(xí)理論尚未解決的問(wèn)題??傮w來(lái)說(shuō),隨著Nvir增大,生成的合理虛擬樣本數(shù)就可能越多,最終獲得的預(yù)測(cè)模型性能越好。但Nvir不合理增大也可能增加生成大量不合理虛擬樣本數(shù)的可能,進(jìn)而惡化最終獲得的預(yù)測(cè)模型性能。本文通過(guò)采取多次改變Nvir大小來(lái)確定最合理的Nvir。
2.4 標(biāo)準(zhǔn)函數(shù)驗(yàn)證MD-MTD合理性和有效性
為了驗(yàn)證MD-MTD的合理性和有效性,定義一個(gè)3輸入1輸出的標(biāo)準(zhǔn)函數(shù)構(gòu)造標(biāo)準(zhǔn)樣本集,分別在正交和不均勻樣本試驗(yàn)下,構(gòu)造25個(gè)標(biāo)準(zhǔn)樣本作為小樣本集Ds,250個(gè)標(biāo)準(zhǔn)樣本作為測(cè)試集Dtest。在本研究中,神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為sigmoid函數(shù),學(xué)習(xí)速率lr=0.01,動(dòng)量因子mc=0.95,最大迭代次數(shù)epochs=5000,最大允許誤差goal=1×10?8。
(1)正交實(shí)驗(yàn)
定義一個(gè)3輸入1輸出的標(biāo)準(zhǔn)函數(shù)
輸入空間
選用4位級(jí)或5位級(jí)的正交表進(jìn)行樣本選擇,可滿足足夠的精度需求[18]??紤]到被引入的標(biāo)準(zhǔn)函數(shù)具有3個(gè)輸入,因此選擇3因素5位級(jí)的正交表L25(53)設(shè)計(jì)實(shí)驗(yàn),進(jìn)行均勻樣本選擇,得到25個(gè)正交樣本作為小樣本集Ds。3個(gè)輸入變量(因素)5位級(jí)的線性離散取值
在定義的樣本空間內(nèi),隨機(jī)生成5000組樣本,再?gòu)闹须S機(jī)選擇250組作為Dtest,用3層BPNN和ELM進(jìn)行建模驗(yàn)證。工作流程如下:
① 用BPNN/ELM對(duì)25個(gè)正交樣本Ds建立小樣本集推估平面,通過(guò)選擇合適的節(jié)點(diǎn)數(shù)Nh(通常采用試誤法來(lái)確定),確保MAPE≤10%。
② 設(shè)置Nvir=100,對(duì)任意輸入x進(jìn)行MD-MTD數(shù)據(jù)擴(kuò)大過(guò)程,用計(jì)算相應(yīng)的輸出y=( x ),獲得100組虛擬樣本集Dvir,綜合25組正交樣本和100組虛擬樣本獲得125組合成樣本集Dsyn作為最終的訓(xùn)練集。
③ 對(duì)Dsyn,用BPNN/ELM進(jìn)行學(xué)習(xí),用Dtest測(cè)試建立的BPNN/ELM預(yù)測(cè)模型,計(jì)算模型精度
④ 重復(fù)步驟②、③3次,計(jì)算MAPE的平均值
⑤ 重復(fù)步驟①~③5次,計(jì)算平均誤差描述預(yù)測(cè)模型精度
進(jìn)行MD-MTD數(shù)據(jù)擴(kuò)大前后,用BPNN和ELM學(xué)習(xí)測(cè)試結(jié)果如表1所示。用標(biāo)準(zhǔn)輸出與預(yù)測(cè)輸出的MAPE描述虛擬樣本偏離標(biāo)準(zhǔn)樣本的程度,虛擬樣本偏離標(biāo)準(zhǔn)樣本的程度取決于超平面的性能,與H越貼近,偏離(MAPE)越小,生成的虛擬樣本越能反映總體的全貌。
表1 25組正交樣本在數(shù)據(jù)擴(kuò)大前后精度變化Table 1 Accuracy variation before and after data extend with 25 orthogonal samples
由表1,進(jìn)行MD-MTD數(shù)據(jù)擴(kuò)大后,用BPNN 和ELM對(duì)Ds的學(xué)習(xí)精度對(duì)比數(shù)據(jù)擴(kuò)大前都有明顯的增加,BPNN的精度增量為5.7532%,ELM的精度增量高于BPNN的精度增量,達(dá)11.7461%,ELM的隱含層節(jié)點(diǎn)數(shù)6少于BPNN的隱含層節(jié)點(diǎn)數(shù)8,計(jì)算開(kāi)銷更小。5次獨(dú)立運(yùn)行后,BPNN的平均精度增量標(biāo)準(zhǔn)差為2.1430,ELM的平均精度增量標(biāo)準(zhǔn)差為5.8017,因而,BPNN的精度增量波動(dòng)沒(méi)有ELM的精度增量波動(dòng)劇烈,>比更貼近H,故的工作性能比的工作性能更加出色。因此,ELM的精度增量更高,但BPNN的標(biāo)準(zhǔn)差更小,即模型性能更穩(wěn)定。
(2)不均勻樣本實(shí)驗(yàn)
上述正交實(shí)驗(yàn)中,展示了MD-MTD能有效提高均勻分布的小樣本集的學(xué)習(xí)精度。在實(shí)際生產(chǎn)實(shí)踐中,獲得實(shí)際樣本往往在分布上難以呈現(xiàn)均勻性,通過(guò)不均勻樣本實(shí)驗(yàn)驗(yàn)證MD-MTD的合理性和有效性更具實(shí)用意義。
為得到分布不均勻的小樣本集,將3個(gè)輸入屬性在空間上均勻分成5個(gè)連續(xù)間隔,將標(biāo)準(zhǔn)函數(shù)的輸入空間劃分成5個(gè)區(qū)域。在區(qū)域1中,隨機(jī)選取20組樣本,在剩余區(qū)域中隨機(jī)生成5組樣本,構(gòu)成一個(gè)樣本容量為25的不均勻小樣本集Ds,采用與正交實(shí)驗(yàn)中相同的測(cè)試集Dtest。
通過(guò)與正交實(shí)驗(yàn)類似的MD-MTD工作流程,用BPNN和ELM學(xué)習(xí)測(cè)試結(jié)果如表2所示。
表2 25組不均勻樣本在數(shù)據(jù)擴(kuò)大前后精度變化Table 2 Accuracy variation before and after data extend with 25 inhomogeneous samples
通過(guò)表2可知,得到與正交實(shí)驗(yàn)一致的結(jié)論。在進(jìn)行MD-MTD數(shù)據(jù)擴(kuò)大后,用BPNN和ELM對(duì)Ds的學(xué)習(xí)精度對(duì)比數(shù)據(jù)擴(kuò)大前都有明顯的增加。ELM的精度增量高于BPNN的精度增量(分別為8.5891%、14.2948%),的工作性能比的工作性能更加出色,ELM的精度增量更高,但BPNN的標(biāo)準(zhǔn)差更小,即模型性能更穩(wěn)定,ELM的節(jié)點(diǎn)數(shù)6少于BPNN的節(jié)點(diǎn)數(shù)8,計(jì)算開(kāi)銷更小。
為進(jìn)一步驗(yàn)證MD-MTD的實(shí)用性,下面對(duì)2個(gè)實(shí)際的工業(yè)數(shù)據(jù)集應(yīng)用MD-MTD,結(jié)果顯示,MD-MTD能提高小樣本的學(xué)習(xí)精度在8%以上。
3.1 MLCC數(shù)據(jù)集應(yīng)用
多層陶瓷電容器(multi-layer ceramic capacitors, MLCC)是陶瓷介電材料、相關(guān)輔助材料等精密化工材料和精細(xì)制備工藝相結(jié)合的高技術(shù)產(chǎn)品。MLCC數(shù)據(jù)集[3,10,12,14]包括比表面積(SA)、粒徑大小分布90%分位點(diǎn)(PSD-90)、粒徑大小分布50%分位點(diǎn)(PSD-50)等12個(gè)輸入因數(shù)和1個(gè)輸出(電解常數(shù)RK),共44組樣本,隨機(jī)選擇30組樣本作為小樣本集Ds,剩余14組作為測(cè)試集Dtest。指定Nvir=100,按前述步驟用BPNN和ELM學(xué)習(xí)測(cè)試結(jié)果如表3所示。
表3 30組MLCC在樣本數(shù)據(jù)擴(kuò)大前后精度變化Table 3 Accuracy variation before and after data extend with 30 samples of MLCC
由表3可知,直接用BPNN或ELM對(duì)MLCC建立預(yù)測(cè)模型,模型的MAPE≥9%。經(jīng)過(guò)MD-MTD,添加虛擬樣本后,學(xué)習(xí)精度都得到改善,BPNN的MAPE在8.5%左右,其MAPE對(duì)比添加虛擬樣本前提高了8.7%左右;ELM的MAPE在8.2%左右,其MAPE對(duì)比添加虛擬樣本前提高11.5%左右。BPNN的MAPE增量幅度略低于ELM 的MAPE增量幅度,BPNN的MAPE增量波動(dòng)比ELM的MAPE增量波動(dòng)更平穩(wěn)。ELM的節(jié)點(diǎn)數(shù)(Nh=18)少于BPNN的節(jié)點(diǎn)數(shù)(Nh=20),計(jì)算開(kāi)銷更小。
3.2 PTA數(shù)據(jù)集應(yīng)用
精對(duì)苯二甲酸(purified terephthalic acid, PTA)是一種生產(chǎn)聚酯的重要化工原料。PTA數(shù)據(jù)集[19]共260組樣本,包括進(jìn)料量FC1501、溫度TI1504、回流量FC1502等17個(gè)輸入變量和一個(gè)輸出(塔頂電導(dǎo)率),隨機(jī)選擇30組樣本作為小樣本集Ds,剩余14組作為測(cè)試集Dtest。指定Nvir=100,按前述步驟用BPNN和ELM學(xué)習(xí)測(cè)試結(jié)果如表4所示。
表4 30組PTA在樣本數(shù)據(jù)擴(kuò)大前后精度變化Table 4 Accuracy variation before and after data extend with 30 samples of PTA
表4顯示了進(jìn)行MD-MTD數(shù)據(jù)擴(kuò)大前后,BPNN和ELM的MAPE變化情況。在進(jìn)行MD-MTD前,BPNN和ELM的MAPE分別在0.84%、1.15%左右,在進(jìn)行MD-MTD后,BPNN和ELM的MAPE分別在0.73%、1.03%左右,分別提高了12.31%、10.37%左右。BPNN的MAPE增量幅度略高于ELM 的MAPE增量幅度,BPNN的MAPE增量波動(dòng)比ELM的MAPE增量波動(dòng)更平穩(wěn)。ELM的節(jié)點(diǎn)數(shù)(Nh=105)少于BPNN的節(jié)點(diǎn)數(shù)(Nh=120),計(jì)算開(kāi)銷更小。
小樣本下機(jī)器學(xué)習(xí)算法難以獲得魯棒的預(yù)測(cè)結(jié)果和優(yōu)良的預(yù)測(cè)精度。首先,本文通過(guò)提出的MD-MTD,結(jié)合MD-MTD與常規(guī)建模工具,形成了虛擬樣本產(chǎn)生機(jī)制。其次,利用3輸入1輸出非線性標(biāo)準(zhǔn)函數(shù)產(chǎn)生的標(biāo)準(zhǔn)樣本,在正交實(shí)驗(yàn)和不均勻樣本實(shí)驗(yàn)下論證了MD-MTD的合理性和有效性。最后,通過(guò)MLCC和PTA實(shí)際工業(yè)數(shù)據(jù)集,驗(yàn)證MD-MTD的實(shí)用性和可靠性,結(jié)果表明,MD-MTD能提高小樣本的學(xué)習(xí)精度在8%以上,在一定程度上改善了小樣本學(xué)習(xí)精度。
References
[1] LIN Y S, LI D C. The generalized-trend-diffusion modeling algorithm for small data sets in the early stages of manufacturing systems [J]. European Journal of Operational Research, 2010, 207: 121-130.
[2] YANG J, YU X, XIE Z Q, et al. A novel virtual sample generation method based on Gaussian distribution [J]. Knowledge-Based Systems, 2011, 24: 740-748.
[3] LI D C, WEN I H. A genetic algorithm-based virtual sample generation technique to improve small data set learning [J]. Neurocomputing, 2014, 143: 222-230.
[4] LI D C, CHANG C J, CHEN C C, et al. A grey-based fitting coefficient to build a hybrid forecasting model for small data sets [J]. Applied Mathematical Modelling, 2012, 36: 5101-5108.
[5] CHANG C J, LI D C, HUANG Y H, et al. A novel gray forecasting model based on the box plot for small manufacturing data sets [J]. Applied Mathematics and Computation, 2015, 265: 400-408.
[6] POGGIO T, VETTER T. Recognition and structure from one 2D model view: observations on prototypes, object classes and symmetries [J]. Laboratory Massachusetts Institute of Technology, 1992, 1347: 1-25.
[7] LI D C, CHEN L S, LIN Y S. Using functional virtual population as assistance to learn scheduling knowledge in dynamic manufacturing environments [J]. International Journal of Production Research, 2003, 41: 4011-4024.
[8] LI D C, WU C S, TSAI T I, et al. Using mega-fuzzification and data trend estimation in small data set learning for early FMS scheduling knowledge [J]. Computers & Operations Research, 2006, 33(6): 1857-1869.
[9] LI D C, WU C S, TSAI T I, et al. Using mega-trend-diffusion and artificial samples in small data set learning for early flexible manufacturing system scheduling knowledge [J]. Computers & Operations Research, 2007, 34: 966-982.
[10] LI D C, CHEN C C, CHANG C J, et al. A tree-based-trend-diffusion prediction procedure for small sample sets in the early stages of manufacturing systems [J]. Expert Systems with Applications, 2012, 39: 1575-1581.
[11] LI D C, HSU H C, TSAI T I, et al. A new method to help diagnose cancers for small sample size [J]. Expert Systems with Applications, 2007, 33: 420-424.
[12] CHAO G Y, TSAI T I, LU T J, et al. A new approach to prediction of radiotherapy of bladder cancer cells in small dataset analysis [J]. Expert Systems with Applications, 2011, 38: 7963-7969.
[13] NIYOGI P, GIROSI F, POGGIO T. Incorporating prior information in machine learning by creating virtual examples [J]. Proc. IEEE, 1998, 86: 2196-2209.
[14] TSAI T I, LI D C. Utilize bootstrap in small data set learning for pilot run modeling of manufacturing systems [J]. Expert Systems with Applications, 2008, 35: 1293-1300.
[15] HUANG C F. Principle of information diffusion [J]. Fuzzy Sets and Systems, 1997, 91: 69-90.
[16] HUANG C F, MORAGA C. A diffusion-neural-network for learning from small samples [J]. International Journal of Approximate Reasoning, 2004, 35: 137-161.
[17] LI D C, LIN L S, PENG L J. Improving learning accuracy by using synthetic samples for small datasets with non-linear attribute dependency [J]. Decision Support Systems, 2014, 59: 286-295.
[18] 周毅, 徐柏齡. 神經(jīng)網(wǎng)絡(luò)中的正交設(shè)計(jì)法研究 [J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版, 2001, 37(1): 72-78.
ZHOU Y, XU B L. Orthogonal method for training neural networks [J]. Journal of Nanjing Forestry University: Natural Sciences Edition, 2001, 37(1): 72-78.
[19] 賀彥林, 王曉, 朱群雄. 基于主成分分析-改進(jìn)的極限學(xué)習(xí)機(jī)方法的精對(duì)苯二甲酸醋酸含量軟測(cè)量 [J]. 控制理論與應(yīng)用, 2015, 32(1): 80-85. DOI: 10.7641/CTA.2015.40398.
HE Y L, WANG X, ZHU Q X. Modeling of acetic acid content in purified terephthalic acid solvent column using principal component analysis based improved extreme learning machine [J]. Control Theory & Applications, 2015, 32(1): 80-85. DOI: 10.7641/CTA. 2015. 40398.
研究論文
Received date: 2015-12-17.
Foundation item: supported by the National Natural Science Foundation of China(71433001).
A novel mega-trend-diffusion for small sample
ZHU Bao1, CHEN Zhongsheng2, YU Le’an1
(1School of Economics and Management Science, Beijing University of Chemical Technology, Beijing 100029, China;2College of Information Science & Technology, Beijing University of Chemical Technology, Beijing 100029, China)
Abstract:Process modeling, optimization and control methods based on data-driven attract attention to both academic community and business circles in terms of its research domains and applications. Even in Big Data era, small sample problems cannot be ignored. In view of the difficulty of obtaining high learning accuracy with small-sample-set using traditional modeling methods, such as artificial neural networks (ANNs), extreme learning machine (ELMs), etc., a novel technology of multi-distribution mega-trend-diffusion (MD-MTD) is proposed to improve the learning accuracy of small-sample-set. The mega-trend-diffusion (MTD) is employed to estimate the acceptable range of the attribution of small sample. The uniform distribution and triangular distribution are added based on MTD to describe data characteristics, which are used to generate virtual samples and fill information gaps among observations in small sample. A benchmarking function is utilized to generate benchmarking samples under the orthogonal test and inhomogeneous sample test in order to verify the reasonability and effectiveness of the MD-MTD, and two industrial real-world datasets include MLCC and PTA are used to further confirm the practicability of the MD-MTD. The results of the validation tests manifest that the proposed MD-MTD can improve the learning accuracy of more than 8% for small sample.
Key words:small-sample-set; mega-trend-diffusion; virtual sample; orthogonal test
DOI:10.11949/j.issn.0438-1157.20151921
中圖分類號(hào):TP 181
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):0438—1157(2016)03—0820—07
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(71433001)。
Corresponding author:Prof. YU Le’an, yulean@mail.buct.edu.cn