周博文,熊偉麗,2
(1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122;2.江南大學(xué) 輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無(wú)錫 214122)
在傳統(tǒng)機(jī)器學(xué)習(xí)建模方法中,由于環(huán)境條件的限制,采集到的樣本中通常無(wú)標(biāo)簽樣本占比大,有標(biāo)簽樣本占比少。為充分利用這些樣本信息,半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)算法相繼提出并應(yīng)用于圖像分類(lèi)[1-2]、故障檢測(cè)[3-4]、工業(yè)過(guò)程建模[5-6]等領(lǐng)域。
傳統(tǒng)的半監(jiān)督學(xué)習(xí)算法通過(guò)對(duì)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記以擴(kuò)大有標(biāo)簽樣本集,以此達(dá)到提升模型精度的目的[7-10]。區(qū)別于半監(jiān)督學(xué)習(xí)算法僅利用無(wú)標(biāo)簽樣本來(lái)提升模型性能,主動(dòng)學(xué)習(xí)借助專(zhuān)家知識(shí),對(duì)優(yōu)選出的無(wú)標(biāo)簽樣本進(jìn)行人工標(biāo)記[11-12],獲取其真實(shí)標(biāo)簽,并將標(biāo)記后的樣本加入有標(biāo)簽樣本集中重新訓(xùn)練模型。因此,主動(dòng)學(xué)習(xí)算法的關(guān)鍵在于如何實(shí)現(xiàn)以最小的標(biāo)記代價(jià)最大程度地提升模型的預(yù)測(cè)性能。
主動(dòng)學(xué)習(xí)可劃分為基于流和基于池[13-15]兩類(lèi)?;诹鞯闹鲃?dòng)學(xué)習(xí)通常需根據(jù)不同情況設(shè)置不同閾值實(shí)行較為困難。基于池的主動(dòng)學(xué)習(xí)根據(jù)信息度量指標(biāo)對(duì)無(wú)標(biāo)簽樣本進(jìn)行排序,挑選最具信息量的樣本進(jìn)行標(biāo)記。通過(guò)設(shè)置合適的評(píng)價(jià)指標(biāo)可有效完成對(duì)整個(gè)無(wú)標(biāo)簽樣本集的篩選。因此,許多學(xué)者圍繞基于池的主動(dòng)學(xué)習(xí)進(jìn)行研究,并提出多種行之有效的評(píng)價(jià)指標(biāo)。如Ge 等[16]提出將主動(dòng)學(xué)習(xí)與高斯過(guò)程回歸相結(jié)合,根據(jù)高斯過(guò)程回歸的預(yù)測(cè)方差衡量樣本的不確定性。Tang等[17]則利用核主成分分析進(jìn)行特征提取并根據(jù)不同學(xué)習(xí)器的預(yù)測(cè)輸出挑選無(wú)標(biāo)簽樣本,但該類(lèi)算法通常未能兼顧到其余無(wú)標(biāo)簽樣本的分布信息。Douak 等[18]則根據(jù)歐氏距離定義無(wú)標(biāo)簽樣本與有標(biāo)簽樣本集的差異,但該算法僅從無(wú)標(biāo)簽樣本與有標(biāo)簽樣本差異性角度進(jìn)行選取,容易選出離群樣本。離群無(wú)標(biāo)簽樣本雖與有標(biāo)簽樣本差異性較大但標(biāo)記后甚至?xí)档湍P托阅?。為避免選出離群無(wú)標(biāo)簽樣本,Rodrigue 等[19]將整個(gè)樣本集劃分為多個(gè)簇,選取聚類(lèi)簇的中心樣本作為待標(biāo)記樣本,Demir 等[20]則將支持向量回歸機(jī)與核k均值聚類(lèi)相結(jié)合進(jìn)行無(wú)標(biāo)樣本的挑選,但聚類(lèi)算法選出的無(wú)標(biāo)簽樣本可能存在冗余且缺乏信息量。
此外,根據(jù)評(píng)價(jià)指標(biāo)進(jìn)行無(wú)標(biāo)簽樣本的挑選,經(jīng)常存在一小塊區(qū)域內(nèi)多個(gè)樣本被同時(shí)選中的問(wèn)題,而相似樣本一般會(huì)提供相同的信息,進(jìn)行標(biāo)記后造成人力物力的浪費(fèi)。因此,需降低所選無(wú)標(biāo)簽樣本間的冗余。綜上所述,本文提出一種帶雙層優(yōu)選策略的主動(dòng)學(xué)習(xí)算法,一方面根據(jù)不同模型對(duì)無(wú)標(biāo)簽樣本預(yù)測(cè)輸出的差值衡量樣本的不確定性,同時(shí)引入樣本的分布信息,設(shè)計(jì)出一種新的評(píng)價(jià)指標(biāo)用于無(wú)標(biāo)簽樣本的挑選。另一方面,對(duì)于優(yōu)選出的無(wú)標(biāo)簽樣本進(jìn)一步衡量樣本間的差異性并去除冗余信息?;诿摱⊥樗I(yè)過(guò)程數(shù)據(jù)仿真,驗(yàn)證了所提算法選取的樣本具有更高的信息量,可以有效地降低人工標(biāo)記代價(jià)。
基于主動(dòng)學(xué)習(xí)算法的機(jī)器學(xué)習(xí)建模主要包括兩個(gè)步驟:無(wú)標(biāo)簽樣本的質(zhì)量評(píng)估和對(duì)優(yōu)選出的高質(zhì)量樣本進(jìn)行人工標(biāo)記后建立預(yù)測(cè)模型。因此,無(wú)標(biāo)簽樣本的選擇策略和有標(biāo)簽樣本的建模方法是提升模型預(yù)測(cè)性能的關(guān)鍵。
無(wú)標(biāo)簽樣本選擇策略大致分為基于不確定性、差異性和代表性3 種[21-23]。不同策略的選取結(jié)果如圖1 所示,紅色樣本點(diǎn)為有標(biāo)簽樣本,灰色為無(wú)標(biāo)簽樣本,綠色樣本點(diǎn)為選中無(wú)標(biāo)簽樣本。
圖1 主動(dòng)學(xué)習(xí)樣本選擇策略Fig.1 Active learning sample selection strategy
基于不確定性的選擇策略側(cè)重于選取易被機(jī)器誤判的樣本交由人工標(biāo)記;基于差異性的選取策略則側(cè)重于選取與有標(biāo)簽樣本差異較大的無(wú)標(biāo)簽樣本來(lái)擴(kuò)大模型的預(yù)測(cè)空間;而基于代表性的選取策略核心思想為與該樣本相似的樣本越多,則該樣本的代表性越強(qiáng),一般選取聚類(lèi)簇中心或分布稠密處的樣本作為待標(biāo)記樣本?;诓淮_定性和差異性的選擇策略選出的樣本都側(cè)重于擴(kuò)大模型的預(yù)測(cè)空間,但容易選出離群樣本。而基于代表性的選擇策略考慮到樣本間的相似性,但選出的樣本經(jīng)常彼此間存在冗余。為了克服上述問(wèn)題,本文構(gòu)建了一種新的評(píng)價(jià)指標(biāo),該項(xiàng)指標(biāo)在確保樣本自身具有較高信息量的同時(shí),還考慮到其余樣本間的分布信息,避免挑選出離群樣本。
高斯過(guò)程回歸[24-25](Gaussian process regression,GPR)算法適用于非線性數(shù)據(jù)的建模,且模型涉及的參數(shù)少優(yōu)化更加便捷。在GPR 建模中,通過(guò)選取合適的高斯核函數(shù)構(gòu)建協(xié)方差矩陣,完成對(duì)樣本的預(yù)測(cè)。本文均采用平方指數(shù)函數(shù)來(lái)構(gòu)建協(xié)方差函數(shù):
式中:δf為信號(hào)標(biāo)準(zhǔn)差;l為尺度參數(shù);當(dāng)i=j時(shí),δij=1,否則等于0;δn為 噪聲標(biāo)準(zhǔn)差。設(shè)為模型的超參數(shù),利用極大似然估計(jì)求得超參數(shù)最優(yōu)值。
式中K為協(xié)方差矩陣,其元素Kij=k(xi,xj)。在獲得最優(yōu)超參數(shù)后,對(duì)于1 個(gè)新的測(cè)試樣本xq,可根據(jù)式(3)求其預(yù)測(cè)值,根據(jù)式(4)求取方差。
式中:yq為預(yù)測(cè)值,δ2為方差,kq=[k(xq,x1)k(xq,x2)···k(xq,xq)]T為xq與標(biāo)記樣本的協(xié)方差矩陣,式(4)中k(xq,xq)為待預(yù)測(cè)樣本構(gòu)建的協(xié)方差矩陣。
本文所提的基于雙層優(yōu)選的主動(dòng)學(xué)習(xí)算法,第1 層通過(guò)衡量無(wú)標(biāo)簽樣本的不確定性、差異性和代表性進(jìn)行優(yōu)選;第2 層對(duì)優(yōu)選出的無(wú)標(biāo)簽樣本去除冗余信息,從而達(dá)到以較小的標(biāo)記代價(jià)最大程度提升模型性能的目的。算法基本原理如圖2 所示。
圖2 雙層優(yōu)選的主動(dòng)學(xué)習(xí)算法Fig.2 Active learning algorithm with double-layer optimization
在首先將有標(biāo)簽樣本集均分后分別建立GPR模型 θ=abs(y1?y2) 和 θ=abs(y1?y2),并利用這兩個(gè)模型完成對(duì)無(wú)標(biāo)簽樣本的預(yù)測(cè),分別得到預(yù)測(cè)值θ=abs(y1?y2)和 θ=abs(y1?y2)。根據(jù)差值衡量不確定性的公式為
式中:abs 為對(duì)預(yù)測(cè)值的差值取絕對(duì)值,θ為樣本不確定性度量值。θ值越大,說(shuō)明不同模型對(duì)該無(wú)標(biāo)簽樣本的預(yù)測(cè)分歧越大,挑選該類(lèi)樣本進(jìn)行標(biāo)記,可有效降低預(yù)測(cè)誤差較大的樣本數(shù)目。但僅根據(jù) θ值進(jìn)行樣本的選取,未能有效利用其余無(wú)標(biāo)簽樣本的信息,造成資源的浪費(fèi)。
在根據(jù)不確定性進(jìn)行優(yōu)選的基礎(chǔ)上,進(jìn)一步利用樣本的分布信息,判斷目標(biāo)樣本與有標(biāo)簽樣本的差異性和自身是否具有代表性。通常無(wú)標(biāo)簽樣本的差異性和代表性會(huì)有一定的沖突,如圖3所示。紅色樣本點(diǎn)表示有標(biāo)簽樣本,灰色樣本點(diǎn)表示無(wú)標(biāo)簽樣本,現(xiàn)需選出1 個(gè)樣本進(jìn)行標(biāo)記后加入有標(biāo)簽樣本集。顯然樣本C與有標(biāo)簽樣本的差異性大于樣本A和B,但樣本點(diǎn)C嚴(yán)重偏離其他無(wú)標(biāo)簽樣本,若選中C進(jìn)行標(biāo)記,甚至?xí)档湍P皖A(yù)測(cè)精度。樣本A與樣本B則較為相似,對(duì)兩者信息量進(jìn)行衡量,選取對(duì)模型提升最為有利的樣本。
圖3 樣本的代表性與差異性Fig.3 Sample representativeness and differences
從差異性角度出發(fā),首先根據(jù)有標(biāo)簽樣本建立模型并獲取無(wú)標(biāo)簽樣本預(yù)測(cè)值yp;其次計(jì)算yp與有標(biāo)簽樣本真值yL的差值并取絕對(duì)值,得到Nu個(gè)無(wú)標(biāo)簽樣本預(yù)測(cè)值與yL的最小差值dn;最后挑選數(shù)值較大的dn所對(duì)應(yīng)的樣本,如式(6)和式(7)所示:
式中:NL和Nu分別為有標(biāo)簽樣本和無(wú)標(biāo)簽樣本數(shù)目。在上述迭代過(guò)程中,通過(guò)選取與yL差值較大的無(wú)標(biāo)簽樣本來(lái)擴(kuò)大模型的預(yù)測(cè)空間,但通常會(huì)出現(xiàn)部分所選樣本在分布上嚴(yán)重偏離其余無(wú)標(biāo)簽樣本,進(jìn)行標(biāo)記后將降低模型的預(yù)測(cè)性能。為避免選出離群樣本,求取每個(gè)無(wú)標(biāo)簽樣本到其余無(wú)標(biāo)簽樣本的平均歐氏距離,如式(8) 和式(9)所示:
式中 δ為樣本差異性與代表性度量值。若某樣本與其余無(wú)標(biāo)簽樣本的歐氏距離過(guò)大則的數(shù)值增大,即使該樣本與有標(biāo)簽樣本差異顯著,也將不被選入待標(biāo)記樣本。綜上分析,利用有標(biāo)簽樣本的建模信息,同時(shí)將樣本的分布信息考慮其中得到第一層優(yōu)選的評(píng)價(jià)指標(biāo),如公式(10)所示:
式中 α為評(píng)價(jià)指標(biāo)度量值。由于 θ 與 δ兩者數(shù)量級(jí)不同,因此采用乘積形式。第一層優(yōu)選過(guò)程中,在根據(jù)樣本不確定性選取的基礎(chǔ)上,進(jìn)一步度量樣本的分布信息,判斷其對(duì)模型性能的提升是否有利。若某樣本因誤判導(dǎo)致預(yù)測(cè)分歧較大,而根據(jù) δ值進(jìn)行判別后發(fā)現(xiàn)在分布信息上不利于提升模型的預(yù)測(cè)精度,也將無(wú)法通過(guò)第一輪優(yōu)選。因此,根據(jù) α值衡量每個(gè)無(wú)標(biāo)簽樣本信息量,對(duì)其進(jìn)行排序后挑選出固定數(shù)目的信息量最高的樣本作為候選樣本。
在主動(dòng)學(xué)習(xí)迭代過(guò)程中,通常無(wú)標(biāo)簽樣本數(shù)量大,彼此間存在信息重復(fù),即使按照 α值挑選出信息量豐富的無(wú)標(biāo)簽樣本彼此間仍會(huì)存在信息冗余,而標(biāo)記相似樣本將造成人力的浪費(fèi)。為此從信息冗余角度對(duì)第1 層優(yōu)選出的固定數(shù)目的候選樣本進(jìn)行第2 層優(yōu)選。
在第1 層優(yōu)選中,若設(shè)置候選樣本數(shù)過(guò)多,經(jīng)過(guò)第2 層優(yōu)選后雖然樣本間冗余性較低,但樣本所含信息量也隨之減少。通過(guò)設(shè)置合適的候選樣本數(shù),使樣本整體具備較高的信息量的同時(shí),有效擴(kuò)大模型的預(yù)測(cè)空間,在去冗余后對(duì)模型性能的提升更為有利。經(jīng)過(guò)多次實(shí)驗(yàn),最終確定候選樣本數(shù)為每次迭代過(guò)程中人工標(biāo)記樣本數(shù)的兩倍。如圖4 所示為候選無(wú)標(biāo)簽樣本分布圖,假設(shè)黃色點(diǎn)為通過(guò)評(píng)價(jià)指標(biāo)挑選的無(wú)標(biāo)簽樣本集,紅色點(diǎn)為有標(biāo)簽樣本,綠色虛線區(qū)域則表示無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記后所拓展的模型空間。
由圖4 可以看出,選出的樣本點(diǎn)雖然擴(kuò)大了模型空間,但部分無(wú)標(biāo)簽樣本如D1、D2、D3之間相似程度較高,考慮到標(biāo)記代價(jià)昂貴,若標(biāo)記相似的無(wú)標(biāo)簽樣本,則會(huì)造成人力物力的浪費(fèi)。為避免樣本的冗余添加,使用最遠(yuǎn)優(yōu)先遍歷算法[26]進(jìn)行第2 層優(yōu)選,該算法的核心思想為:對(duì)于2 個(gè)樣本,它們之間距離越大則冗余性越低。算法定義如式(11)和式(12)所示:
圖4 候選樣本分布圖Fig.4 Candidate sample distribution map
式中:S1表 示從集合S2中挑選出的待標(biāo)記樣本集,S2表示候選樣本集S中剩余樣本組成的集合。該算法首先從候選樣本集S中,選擇綜合評(píng)價(jià)指標(biāo)α值最大的無(wú)標(biāo)簽樣本x加入待標(biāo)記樣本集S1。根據(jù)式(11)和式(12)挑選下一個(gè)樣本xi加入S1,候選樣本集S則除去xi。經(jīng)過(guò)二層優(yōu)選得到的待標(biāo)記樣本在具備信息量的同時(shí),彼此之間差異性較大,標(biāo)記后對(duì)模型的提升更為有利。
本文提出具有雙層優(yōu)選策略的主動(dòng)學(xué)習(xí)算法,從不確定性、差異性、代表性3 個(gè)角度出發(fā)進(jìn)行無(wú)標(biāo)簽樣本的優(yōu)選,并考慮樣本間的冗余信息,以全面地提升主動(dòng)學(xué)習(xí)算法性能。算法流程如圖5 所示,具體建模步驟如下。
圖5 主動(dòng)學(xué)習(xí)算法流程Fig.5 Active learning algorithm
1) 采集的數(shù)據(jù)集中,根據(jù)有標(biāo)簽樣本建立GPR 模型,并對(duì)無(wú)標(biāo)簽樣本進(jìn)行預(yù)測(cè);
2) 將有標(biāo)簽樣本集均分并建立不同的GPR模型,分別對(duì)樣本進(jìn)行預(yù)測(cè),通過(guò)不同模型預(yù)測(cè)值間的差值 衡量不確定性;
3) 通過(guò)式(9)得到無(wú)標(biāo)簽樣本差異性與代表性度量值,并與不確定性度量值 相乘得到評(píng)價(jià)指標(biāo)。通過(guò)指標(biāo)完成對(duì)無(wú)標(biāo)簽樣本的第1 次優(yōu)選,符合條件的樣本加入候選樣本集 ;
4) 通過(guò)最遠(yuǎn)優(yōu)先遍歷算法完成第2 次優(yōu)選,選出的無(wú)標(biāo)簽樣本進(jìn)行人工標(biāo)記后加入有標(biāo)簽樣本集;
5) 更新GPR 模型,檢驗(yàn)?zāi)P途?,若未達(dá)到迭代次數(shù)則返回2),達(dá)到則停止。
為驗(yàn)證本文所提算法的性能,與傳統(tǒng)的基于歐式距離的主動(dòng)學(xué)習(xí)算法進(jìn)行對(duì)比。為分析兩種選擇策略對(duì)于無(wú)標(biāo)簽樣本選取上的區(qū)別,對(duì)函數(shù)Z=sin3X+cos3Y做回歸分析,其中X、Y均服從正態(tài)分布。數(shù)據(jù)集劃分4 組有標(biāo)簽樣本集,56 組無(wú)標(biāo)簽樣本集,10 組測(cè)試集。每次迭代分別選取5 個(gè)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記。為了更好地展現(xiàn)2 種算法所選樣本差異,選取的無(wú)標(biāo)簽樣本及樣本標(biāo)記后預(yù)測(cè)誤差分布如圖6 所示。
圖6 無(wú)標(biāo)簽樣本選取散點(diǎn)及預(yù)測(cè)誤差分布圖Fig.6 Unlabeled sample selection scatter points and prediction error distribution map
圖6 中,基于歐氏距離的主動(dòng)學(xué)習(xí)(distance active learning,DAL)[18]算法所選出的樣本僅考慮與有標(biāo)簽樣本的差異性,選擇了部分離群點(diǎn)并且樣本之間存在冗余。本文算法選取的樣本則分散在模型空間中且彼此間冗余性低。進(jìn)一步分析選中的無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記后,對(duì)模型預(yù)測(cè)效果的提升明顯。無(wú)標(biāo)簽樣本預(yù)測(cè)誤差分布如圖(c),(d)所示,其中紅色實(shí)心點(diǎn)為已標(biāo)記樣本點(diǎn),綠色和紫色實(shí)心點(diǎn)分別為根據(jù)DAL 算法和本文所提算法選擇出的樣本。黃色實(shí)心點(diǎn)則為無(wú)標(biāo)簽樣本,色標(biāo)值表示樣本的預(yù)測(cè)誤差??梢钥闯鲈谝褬?biāo)記樣本點(diǎn)周?chē)臒o(wú)標(biāo)簽樣本的預(yù)測(cè)誤差都較低,而無(wú)標(biāo)簽樣本附近缺少已標(biāo)記樣本點(diǎn)則誤差會(huì)相對(duì)較高。圖(c)中在根據(jù)DAL 算法挑選部分無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記后,其余大部分無(wú)標(biāo)簽樣本的預(yù)測(cè)誤差都在1 到2 之間,圖(d)中根據(jù)本文算法挑選無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記后,樣本預(yù)測(cè)誤差則在0.5~1.5。以均方根誤差[27](root mean squared error,RMSE)衡量模型預(yù)測(cè)精度,計(jì)算公式為
式中:n為樣本 數(shù),yi為真值,為預(yù)測(cè)值。進(jìn) 行10 次迭代,每次選取5 個(gè)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記,模型性能隨迭代次數(shù)的變化如圖7 所示。
圖7 算法性能對(duì)比Fig.7 Algorithm performance contrast
從圖7 中可以看出,DAL 算法由于僅考慮樣本間的差異性,在前期迭代過(guò)程中容易選出離群樣本,而根據(jù)本文所提算法選取的無(wú)標(biāo)簽樣本在擴(kuò)大模型預(yù)測(cè)空間的同時(shí)自身仍具備代表性并且在經(jīng)過(guò)第2 層優(yōu)選后去除了樣本間的冗余信息,使所選樣本較為均勻地分散在模型空間,有效地提升了模型預(yù)測(cè)精度。
以脫丁烷塔工業(yè)過(guò)程數(shù)據(jù)為對(duì)象進(jìn)一步驗(yàn)證算法性能。脫丁烷塔裝置如圖8 所示,脫丁烷塔在分離石油過(guò)程中是不可或缺的裝置[28]。丁烷濃度是檢測(cè)石油分離程度的一項(xiàng)重要指標(biāo),然而塔底的丁烷濃度難以檢測(cè),需根據(jù)其他可監(jiān)測(cè)變量建立預(yù)測(cè)模型,塔中可監(jiān)測(cè)變量如表1 所示。
表1 脫丁烷塔過(guò)程變量Table 1 Process variables of the debutanizer
圖8 脫丁烷塔工藝流程Fig.8 Debutanizer process
實(shí)時(shí)采樣獲得2 000 組脫丁烷塔過(guò)程數(shù)據(jù)。隨機(jī)選出30 個(gè)有標(biāo)簽樣本,1 800 個(gè)無(wú)標(biāo)簽樣本。每次挑選50 個(gè)無(wú)標(biāo)簽樣本標(biāo)記后加入有標(biāo)簽樣本集,另選出200 組樣本作為測(cè)試樣本。
首先,分析不同學(xué)習(xí)步長(zhǎng)對(duì)模型性能的影響。從圖9 中可以看出較小的學(xué)習(xí)步長(zhǎng)前期取得較好的效果,但隨著標(biāo)記數(shù)目的增加,差別便不再顯著。學(xué)習(xí)步長(zhǎng)減小意味著標(biāo)記相同數(shù)目,人工標(biāo)記次數(shù)增加,因此需結(jié)合實(shí)際情況進(jìn)行考慮。本文重點(diǎn)考慮減少人工標(biāo)記次數(shù),經(jīng)多次仿真實(shí)驗(yàn),最終每次選取50 個(gè)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記。
圖9 不同學(xué)習(xí)步長(zhǎng)下模型性能變化Fig.9 Model performance changes under different learning steps
此外,對(duì)迭代過(guò)程中的評(píng)價(jià)指標(biāo)變化情況進(jìn)行分析。根據(jù)評(píng)價(jià)指標(biāo)優(yōu)選得到的無(wú)標(biāo)簽樣本作為候選樣本。本文所選取的候選樣本數(shù)目為目標(biāo)選取的樣本數(shù)的2 倍即選取100 個(gè)候選樣本,對(duì)候選樣本的評(píng)價(jià)指標(biāo)度量值進(jìn)行加和取平均,則每次迭代過(guò)程中,候選樣本的評(píng)價(jià)指標(biāo)均值如圖10 所示。
圖10 迭代過(guò)程中的評(píng)價(jià)指標(biāo)Fig.10 Evaluation index in iterative process
由圖10 可以看出,隨著迭代過(guò)程的進(jìn)行,候選無(wú)標(biāo)簽樣本的評(píng)價(jià)指標(biāo)度量值越來(lái)越小,這主要是因?yàn)榍捌谶x擇的都為信息量較為豐富的無(wú)標(biāo)簽樣本使剩余樣本所含的額外信息越來(lái)越少,后期因剩余無(wú)標(biāo)簽樣本信息量過(guò)少,使得評(píng)價(jià)指標(biāo)均值趨于停滯。這也驗(yàn)證了根據(jù)評(píng)價(jià)指標(biāo)進(jìn)行無(wú)標(biāo)簽樣本選取的可行性。
其次,分析第一層優(yōu)選中各模塊對(duì)模型性能的影響,分別對(duì)不確定性指標(biāo) θ和利用樣本分布信息所獲得的差異性與代表性度量值 δ以及第一層優(yōu)選中的評(píng)價(jià)指標(biāo) α進(jìn)行分析。不同指標(biāo)對(duì)模型的提升效果如圖11 所示。相比于指標(biāo) θ 和δ,根據(jù)評(píng)價(jià)指標(biāo) α選取的無(wú)標(biāo)簽樣本,在具備較高不確定的同時(shí),擴(kuò)大了模型的預(yù)測(cè)空間,同時(shí)避免了單一角度選取的所帶來(lái)的誤判和離群點(diǎn)問(wèn)題,因此所含信息量更為豐富。
圖11 不同指標(biāo)對(duì)模型性能影響Fig.11 Impact of different indicators on model performance
最后,對(duì)候選樣本去冗余后對(duì)模型性能的提升效果進(jìn)行研究。通過(guò)計(jì)算樣本彼此間歐氏距離,加和后求取平均值和取其最小值相加這2 種方法來(lái)衡量經(jīng)過(guò)第二層優(yōu)選后樣本間的差異性。第一層優(yōu)選得到100 個(gè)候選無(wú)標(biāo)簽樣本雖然信息量較高,但部分樣本間存在冗余。若根據(jù)綜合評(píng)價(jià)指標(biāo)選取度量值最大的前50 個(gè)樣本作為待標(biāo)記樣本而不考慮彼此間的冗余,則每次迭代過(guò)程中,最小歐式距離之和如圖12(a)中藍(lán)色柱形所示,經(jīng)過(guò)第二層優(yōu)選后的最小歐式距離之和如圖12(a)中紅色柱形圖所示。而經(jīng)過(guò)第一層優(yōu)選后樣本間的平均歐氏距離如圖12(b)中藍(lán)色柱形所示,經(jīng)過(guò)第二層優(yōu)選后的樣本間平均歐式距離則如圖12(b)中紅色柱形圖所示。單層與雙層優(yōu)選后模型性能對(duì)比如圖13 所示。
圖12 單層與雙層優(yōu)選策略下樣本間差異性對(duì)比Fig.12 Comparison of differences between samples under single-layer and double-layer optimization strategies
圖13 單層與雙層優(yōu)選策略對(duì)比Fig.13 Contrast of single-layer and double-layer optimization strategies
從圖12 和圖13 中可以看出,第1 層優(yōu)選僅根據(jù)樣本的信息量進(jìn)行選取容易造成候選樣本集內(nèi)部存在冗余信息,不利于模型性能提升。第2 層的優(yōu)選在保證樣本具備高信息量的同時(shí),排除少部分具有相似信息的高質(zhì)量樣本,有效地降低了樣本間的冗余,在模型迭代初期,進(jìn)行人工標(biāo)記后對(duì)模型效果的提升更為有利。為驗(yàn)證本文所提算法有效性,與基于歐氏距離、預(yù)測(cè)值(prediction active learning,PAL)和期望變更(excepted change active learning,ECAL)3 種主動(dòng)學(xué)習(xí)算法進(jìn)行對(duì)比。
1) DAL[18]:以無(wú)標(biāo)簽樣本與有標(biāo)簽樣本間的歐氏距離作為評(píng)價(jià)指標(biāo)來(lái)挑選樣本。
2) PAL[29]:有標(biāo)簽樣本建模后獲取無(wú)標(biāo)簽樣本預(yù)測(cè)值,預(yù)測(cè)值與有標(biāo)簽樣本真值作差并以差值作為評(píng)價(jià)指標(biāo)來(lái)挑選信息量較大的無(wú)標(biāo)簽樣本。
3) ECAL[30]:有標(biāo)簽樣本建立模型并獲取無(wú)標(biāo)簽樣本的預(yù)測(cè)值,在設(shè)計(jì)損失函數(shù)后將無(wú)標(biāo)簽樣本依次加入有標(biāo)簽樣本集,根據(jù)損失的梯度估計(jì)樣本的不確定性。
4) 本文所提算法:每次選取50 個(gè)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記,標(biāo)記后加入有標(biāo)簽樣本集,達(dá)到設(shè)置的迭代次數(shù)則停止迭代。隨機(jī)選擇初始有標(biāo)簽樣本,均方根誤差如圖14(a)所示。圖14(b)則展示了隨機(jī)選擇第6 次迭代即標(biāo)記250 個(gè)無(wú)標(biāo)簽樣本后,4 種選擇策略的預(yù)測(cè)誤差。
圖14 4 種主動(dòng)學(xué)習(xí)算法對(duì)比Fig.14 Contrast of four active learning algorithms
從圖14(a)中可以看出,在迭代初期根據(jù)本文所提算法挑選的無(wú)標(biāo)簽樣本質(zhì)量要優(yōu)于其他3 種算法。在后期4 種算法的下降趨勢(shì)都趨于停滯,出現(xiàn)這樣的現(xiàn)象的原因是,在前期4 種算法選擇的都為質(zhì)量較高的無(wú)標(biāo)簽樣本,使得后續(xù)迭代過(guò)程中剩余無(wú)標(biāo)簽樣本所包含的信息量減少,對(duì)模型的提升效果不再顯著。同時(shí)本文所提算法在第11 次迭代后,再繼續(xù)添加無(wú)標(biāo)簽樣本,對(duì)模型的提升效果較為有限。而要達(dá)到同樣的效果,DAL,PAL,ECAL 則要進(jìn)行更多次的迭代。因此,在相同標(biāo)記代價(jià)下,本文所提算法對(duì)模型提升效果更為有利。4 種主動(dòng)學(xué)習(xí)算法預(yù)測(cè)丁烷濃度的指標(biāo)如表2 所示,其中,ARE 為平均相對(duì)誤差,定義為
式中:n為樣本數(shù),為預(yù)測(cè)值,yi為真值。從 表2可以看出,本文所提算法的2 個(gè)誤差評(píng)價(jià)指標(biāo)都要低于其他3 種方法,表明所建立的模型具有更好的預(yù)測(cè)性能與泛化能力。
表2 4 種主動(dòng)學(xué)習(xí)方法性能指標(biāo)Table 2 Performance indicators of four active learning methods
本文提出了一種雙層優(yōu)選的主動(dòng)學(xué)習(xí)建模算法。該算法的第一層利用不同模型對(duì)無(wú)標(biāo)簽樣本的信息量進(jìn)行初步評(píng)估,并引入樣本的分布信息,構(gòu)建評(píng)價(jià)指標(biāo)后完成對(duì)無(wú)標(biāo)簽樣本的第一次優(yōu)選。在第二層對(duì)優(yōu)選后的樣本去冗余,得到彼此差異性較大的無(wú)標(biāo)簽樣本作為待標(biāo)記樣本。通過(guò)數(shù)值仿真分析和脫丁烷塔過(guò)程的應(yīng)用仿真,驗(yàn)證了該選擇策略的有效性。并與現(xiàn)有的幾種選擇策略進(jìn)行對(duì)比,實(shí)驗(yàn)證明本文選擇策略更具備優(yōu)越性,即在相同的人工標(biāo)記消耗下獲得更高質(zhì)量的無(wú)標(biāo)簽樣本。