陳 娟,朱福喜,2
CHEN Juan1,ZHU Fuxi1,2
1.武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072
2.漢口學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430212
1.Computer School,Wuhan University,Wuhan 430072,China
2.School of Computer Science and Technology,Hankou University,Wuhan 430212,China
時(shí)間序列是一系列按時(shí)間點(diǎn)取得的觀測值,產(chǎn)生于許多自然或經(jīng)濟(jì)生產(chǎn)過程,如股票市場、醫(yī)學(xué)、科學(xué)和自然觀測[1-2],一般可表示為序列T=t[1],…,t[j],…,t[n]。其中n表示其長度,t[j]表示時(shí)刻 j得到的觀測值,T表示按時(shí)間順序得到的觀測值序列。
近年來,時(shí)間序列分類引起了國內(nèi)外學(xué)者的研究興趣。時(shí)間序列分類是指,基于已經(jīng)標(biāo)注的時(shí)間序列數(shù)據(jù)樣本,構(gòu)建數(shù)學(xué)模型,用于預(yù)測未知類別時(shí)間序列的類別,如在醫(yī)學(xué)診斷中,通過患者與正常人的心率變化觀測值(時(shí)間序列數(shù)據(jù))作為訓(xùn)練集,構(gòu)建數(shù)學(xué)模型,針對檢查者的時(shí)間序列數(shù)據(jù)樣本,通過數(shù)學(xué)模型判斷其是否為患者。
一般分類模型總是通過足夠的目標(biāo)類(P)標(biāo)注數(shù)據(jù)以及非目標(biāo)類(N)標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí)并構(gòu)建分類器[1-2],然而由于很多領(lǐng)域(比如醫(yī)療、工業(yè)應(yīng)用中)對數(shù)據(jù)的標(biāo)注代價(jià)過大,數(shù)據(jù)量的驟增進(jìn)一步加大了標(biāo)注數(shù)據(jù)的難度[3]。因此,出現(xiàn)了基于PU問題的分類,即通過少量標(biāo)注的目標(biāo)類(P)數(shù)據(jù)以及大量未標(biāo)注(U)的數(shù)據(jù),進(jìn)行訓(xùn)練,從而得到一個(gè)分類模型。這種方法大大降低了人工標(biāo)注數(shù)據(jù)量,從而有效減少了獲取完整標(biāo)注訓(xùn)練集的代價(jià)[4]。
在PU問題的分類中,由于訓(xùn)練集中僅包含目標(biāo)類(P)的標(biāo)注數(shù)據(jù),不存在非目標(biāo)類(N)的標(biāo)注數(shù)據(jù),導(dǎo)致通過有監(jiān)督學(xué)習(xí)構(gòu)建分類器的方式難以適用于其中。因此,有學(xué)者提出先采用半監(jiān)督學(xué)習(xí),獲取足夠的標(biāo)注數(shù)據(jù)作為分類器的訓(xùn)練數(shù)據(jù),再進(jìn)行分類器的構(gòu)建。其過程為:首先,以半監(jiān)督學(xué)習(xí)對未標(biāo)注數(shù)據(jù)集U中的數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注;然后,以自動(dòng)標(biāo)注得到的數(shù)據(jù)集作為訓(xùn)練集,構(gòu)建分類器[4-7]。然而,半監(jiān)督學(xué)習(xí)對于分類平面附近的數(shù)據(jù)難以準(zhǔn)確地自動(dòng)標(biāo)注,而恰恰這些數(shù)據(jù)對于分類平面的確立又至關(guān)重要。
針對上述問題,本文擬采用主動(dòng)學(xué)習(xí)對PU問題中未標(biāo)注數(shù)據(jù)集進(jìn)行數(shù)據(jù)選擇,選出邊界數(shù)據(jù)樣本并人工標(biāo)注,以得到準(zhǔn)確的標(biāo)注訓(xùn)練集,從而以標(biāo)注數(shù)據(jù)集進(jìn)行分類器構(gòu)建。本文的主要工作如下:
(1)將主動(dòng)學(xué)習(xí)技術(shù)應(yīng)用于基于PU問題的時(shí)間序列分類中,選擇少量邊界數(shù)據(jù),通過人工標(biāo)注,得到可靠標(biāo)注訓(xùn)練集,繼而構(gòu)建分類器,實(shí)現(xiàn)精準(zhǔn)分類。
(2)提出一種基于QBC(Query By Committee)度量數(shù)據(jù)樣本不確定性的方法,作為主動(dòng)學(xué)習(xí)的數(shù)據(jù)選擇策略。
(3)提出一種結(jié)合主動(dòng)學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的方法SAL,以獲取足夠多的標(biāo)注訓(xùn)練數(shù)據(jù)。
(4)以主動(dòng)學(xué)習(xí)選擇得到的人工標(biāo)注數(shù)據(jù)以及半監(jiān)督學(xué)習(xí)得到的自動(dòng)標(biāo)注數(shù)據(jù)作為標(biāo)注訓(xùn)練集,構(gòu)建基于PU數(shù)據(jù)集的分類器,用于對未知類別數(shù)據(jù)進(jìn)行類別的預(yù)測。
Li Wei等[5]提出一種半監(jiān)督學(xué)習(xí)框架用于對PU數(shù)據(jù)集構(gòu)建分類器,從未標(biāo)注數(shù)據(jù)集DU中選擇與P類數(shù)據(jù)集最近鄰的未標(biāo)注數(shù)據(jù)樣本u,標(biāo)注為P類,迭代標(biāo)注直至達(dá)到停止條件,其中停止條件根據(jù)P類數(shù)據(jù)集中最近鄰數(shù)據(jù)對的相似性距離的變化趨勢確定。
Ratanamahatana C A等[6]在Li Wei的文獻(xiàn)[5]的基礎(chǔ)上,進(jìn)一步對停止條件進(jìn)行研究,其停止條件通過后驗(yàn)式的方法進(jìn)行確定。首先,將未標(biāo)注數(shù)據(jù)集U中所有數(shù)據(jù)樣本,根據(jù)與P類標(biāo)注數(shù)據(jù)集中數(shù)據(jù)樣本的相似性距離,依次加入P類標(biāo)注數(shù)據(jù)集,并計(jì)算每個(gè)數(shù)據(jù)樣本加入后的停止標(biāo)準(zhǔn)置信度,最后基于此置信度確定上述迭代過程的停止條件。
Nguyen M N等在文獻(xiàn)[7-8]中,提出了LCLC(Learning from Common Local Clusters)的方法,即基于共同局部簇學(xué)習(xí)的方法,將未標(biāo)注數(shù)據(jù)集劃分為LP(Likely Positive)、LN(Likely Negative)、RN(Reliable Negative),與P一起作為訓(xùn)練集構(gòu)建1NN分類器;文獻(xiàn)[8]是在LCLC方法[7]上進(jìn)行深入研究,針對LCLC方法中假設(shè)每個(gè)簇中數(shù)據(jù)樣本的類別一致的問題進(jìn)行了改進(jìn),提出了通過多次采用LCLC對未標(biāo)注數(shù)據(jù)進(jìn)行類別置信度計(jì)算,根據(jù)置信度將類別傾向不明確的數(shù)據(jù)樣本從未標(biāo)注數(shù)據(jù)集U中刪除,最后以剩余的數(shù)據(jù)樣本作為訓(xùn)練數(shù)據(jù)集,構(gòu)建KNN分類器。
針對時(shí)間序列數(shù)據(jù)的PU學(xué)習(xí)問題,有學(xué)者利用Markov性質(zhì)和“完全隨機(jī)假設(shè)”設(shè)計(jì)出了正例未標(biāo)Markov(Positive Unlabeled Markov,PU Markov)時(shí)間序列分類器。實(shí)驗(yàn)證明其算法能提高滿足Markov性質(zhì)的時(shí)間序列分類的效率。但該算法適用范圍有限,且對最優(yōu)分類方法的選擇方式難以確定[9]。
張影提出利用已經(jīng)標(biāo)記的正類點(diǎn)、負(fù)類點(diǎn)以及基于所有點(diǎn)構(gòu)造的Universum數(shù)據(jù)集,采用U-SVM進(jìn)行訓(xùn)練。采用訓(xùn)練得到的模型,來標(biāo)記可靠的正類點(diǎn)以及可靠的負(fù)類點(diǎn),以生成新的訓(xùn)練集。通過迭代的方法來重復(fù)上述過程,直到滿足某種迭代終止條件[10]。
主動(dòng)學(xué)習(xí)關(guān)鍵在于數(shù)據(jù)的選擇策略[3]?;跀?shù)據(jù)樣本的不確定性,選擇根據(jù)當(dāng)前訓(xùn)練集最難以確定其類別的數(shù)據(jù)樣本用于人工標(biāo)注;基于數(shù)據(jù)樣本對訓(xùn)練集構(gòu)建分類模型的期望值,選擇標(biāo)注之后能夠?qū)Ξ?dāng)前訓(xùn)練集所構(gòu)建的分類模型產(chǎn)生最大改變的數(shù)據(jù)樣本,用于人工標(biāo)注;基于數(shù)據(jù)樣本對訓(xùn)練集構(gòu)建分類模型的期望錯(cuò)誤率,選擇標(biāo)注后能夠?qū)Ξ?dāng)前訓(xùn)練集所構(gòu)建的分類模型產(chǎn)生最小期望錯(cuò)誤率的數(shù)據(jù)樣本;基于投票委員會QBC,根據(jù)訓(xùn)練集數(shù)據(jù)構(gòu)建多個(gè)不同的分類模型,作為委員會(Committee),并對未標(biāo)注數(shù)據(jù)集U中數(shù)據(jù)樣本進(jìn)行投票,以投票結(jié)果不一致性作為數(shù)據(jù)選擇策略。
趙建華等在文獻(xiàn)[11]中,提出了一種結(jié)合主動(dòng)學(xué)習(xí)到半監(jiān)督學(xué)習(xí)中的方法,通過主動(dòng)學(xué)習(xí)選擇信息量高的數(shù)據(jù)樣本進(jìn)行自動(dòng)標(biāo)注,主要是對問題規(guī)模進(jìn)行了縮減,從其實(shí)驗(yàn)結(jié)果中可以得出,其準(zhǔn)確率相對于該文中選擇的半監(jiān)督方法幾乎沒有提升,因?yàn)槲闹胁]有通過人工標(biāo)注信息量高的數(shù)據(jù)樣本來保證正確性。
鑒于半監(jiān)督學(xué)習(xí)方法在PU問題的應(yīng)用過程中,自動(dòng)標(biāo)注難以確保對訓(xùn)練集中數(shù)據(jù)樣本標(biāo)注的正確性,從而影響所構(gòu)建分類器的準(zhǔn)確率,主動(dòng)學(xué)習(xí)通過人工標(biāo)注訓(xùn)練集中部分高信息量的邊界數(shù)據(jù)樣本[12],能夠更加精準(zhǔn)地確立分類平面,從而提高分類器準(zhǔn)確率,藉此本文對如何應(yīng)用主動(dòng)學(xué)習(xí)于PU問題進(jìn)行研究,并提出了一種結(jié)合主動(dòng)學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)[13]的方法。
基于PU問題的分類方法關(guān)鍵在于如何正確標(biāo)注未標(biāo)注數(shù)據(jù)集DU中的P類、N類數(shù)據(jù)樣本,而分類邊界附近數(shù)據(jù)樣本的正確標(biāo)注則更具挑戰(zhàn)性。半監(jiān)督學(xué)習(xí),作為一種常用于PU問題中標(biāo)注數(shù)據(jù)樣本的方法,在一定程度上能夠?qū)崿F(xiàn)對未標(biāo)注數(shù)據(jù)樣本的自動(dòng)標(biāo)注,但是其對分類邊界附近的數(shù)據(jù)樣本仍難以準(zhǔn)確標(biāo)注。因此,本文提出一種方法OAL(Only Active Learning),在時(shí)間序列的PU問題分類中,采用主動(dòng)學(xué)習(xí)對未標(biāo)注數(shù)據(jù)集中數(shù)據(jù)樣本進(jìn)行有選擇性的標(biāo)注,即選擇分類邊界附近的數(shù)據(jù)樣本,進(jìn)行人工標(biāo)注,以解決數(shù)據(jù)樣本標(biāo)注不準(zhǔn)確的問題。
在基于PU問題的時(shí)間序列分類中,初始訓(xùn)練集僅含有少量標(biāo)注的P類數(shù)據(jù)集DP,以及大量未標(biāo)注的數(shù)據(jù)集DU,其中并沒有N類的標(biāo)注數(shù)據(jù),因此本文主動(dòng)學(xué)習(xí)選擇數(shù)據(jù)過程分為兩個(gè)步驟,即初始N類數(shù)據(jù)樣本的獲取與邊界數(shù)據(jù)樣本的獲取。
本文算法模型如算法1所示。其主要步驟是:第一,獲取準(zhǔn)確標(biāo)注的初始N類數(shù)據(jù)集DN,采用與文獻(xiàn)[5]中找P類數(shù)據(jù)相類似的方法,即將未標(biāo)注集DU中與P類數(shù)據(jù)最不相似的數(shù)據(jù)樣本u選出,迭代進(jìn)行人工標(biāo)注,直至u的類別為N ,則DN={u};第二,以DP、DN的并集L作為訓(xùn)練集,構(gòu)建數(shù)據(jù)選擇模型M;第三,根據(jù)M從未標(biāo)注數(shù)據(jù)集DU中選擇數(shù)據(jù)樣本u,判斷是否滿足主動(dòng)學(xué)習(xí)停止準(zhǔn)則,若是,則停止主動(dòng)學(xué)習(xí)過程;若不是,則人工標(biāo)注u,加入L。迭代上述第二、三步,直到滿足主動(dòng)學(xué)習(xí)停止準(zhǔn)則;第四,根據(jù)主動(dòng)學(xué)習(xí)過程得到的標(biāo)注訓(xùn)練集,構(gòu)建分類器。
算法1
輸入:輸入初始DP、DU
輸出:分類器
1.獲取N類數(shù)據(jù)DN,得L=DP∪DN
2.基于L,構(gòu)建數(shù)據(jù)選擇模型M
3.根據(jù)M,選擇數(shù)據(jù)樣本u
4.while未達(dá)到停止準(zhǔn)則
5. 人工標(biāo)注u,加入L
6. 基于L,構(gòu)建數(shù)據(jù)選擇模型M
7. 根據(jù)M,選擇數(shù)據(jù)樣本u
8.end while
9. 根據(jù)L,構(gòu)建分類器
針對基于投票委員會(QBC)方法[14],根據(jù)時(shí)間序列的特點(diǎn),構(gòu)建多個(gè)不同的分類器C1,C2,…,CK,作為數(shù)據(jù)選擇模型M,分別對未標(biāo)注數(shù)據(jù)集U中數(shù)據(jù)樣本進(jìn)行類別概率預(yù)測,以不同分類器的預(yù)測結(jié)果計(jì)算數(shù)據(jù)樣本的不一致性,結(jié)合數(shù)據(jù)樣本的區(qū)域密度,作為主動(dòng)學(xué)習(xí)的數(shù)據(jù)選擇策略。本文方法與傳統(tǒng)QBC方法有所區(qū)別的是,并沒有直接根據(jù)多個(gè)不同分類器的投票結(jié)果進(jìn)行計(jì)數(shù)從而分類,而是采用QBC的思想結(jié)合多個(gè)不同分類器對未標(biāo)注數(shù)據(jù)樣本的類別進(jìn)行預(yù)測,并以此為據(jù)計(jì)算未標(biāo)注數(shù)據(jù)樣本屬于每個(gè)不同類別的概率。
3.2.1 時(shí)間序列多分類器構(gòu)建
針對時(shí)間序列是由一組隨著時(shí)間變化的序列值,由于數(shù)據(jù)本身的誤差,或者數(shù)據(jù)獲取過程中的誤差,將會導(dǎo)致每個(gè)時(shí)間點(diǎn)的數(shù)據(jù)采樣會有誤差波動(dòng)。本文通過均值化,將原始時(shí)間序列作2-均值、3-均值等多均值轉(zhuǎn)換,構(gòu)建多個(gè)訓(xùn)練數(shù)據(jù)集,其中原始訓(xùn)練集中時(shí)間序列看作為1-均值轉(zhuǎn)換,本文中均值指算術(shù)平均數(shù)。K-均值是指對時(shí)間序列的每個(gè)點(diǎn),以當(dāng)前點(diǎn)開始的K個(gè)時(shí)間序列采樣點(diǎn)的算術(shù)平均數(shù)作為當(dāng)前時(shí)間點(diǎn)的值。如K取2,原始時(shí)間序列 Torigin=[1.2,2.2,3.2,4.2],則2-均值時(shí)間序列:
時(shí)間序如圖1~3所示,分別表示數(shù)據(jù)集ECG[5]某個(gè)數(shù)據(jù)樣本的1-均值、2-均值、3均值序列示意圖,(a)圖所示為兩個(gè)P類數(shù)據(jù)樣本,(b)圖所示為一個(gè)P類數(shù)據(jù)樣本、一個(gè)N 類數(shù)據(jù)樣本,從圖1~3中的(a)圖可發(fā)現(xiàn),隨著均值的增加兩個(gè)P類數(shù)據(jù)樣本之間的距離在減小,尤其是波動(dòng)較明顯部分,如序列的最后幾個(gè)數(shù)據(jù)采樣;從圖1~3中的(b)圖可知,數(shù)據(jù)樣本作多均值轉(zhuǎn)換,并不會降低異類數(shù)據(jù)樣本之間的距離,圖中有差異的區(qū)域部分在圖1~3均值序列下都保持著類似的距離差。
圖1 ECG數(shù)據(jù)1-均值示例圖
圖2 ECG數(shù)據(jù)2-均值示例圖
圖3 ECG數(shù)據(jù)3-均值示例圖
綜上所述,時(shí)間序列的K-均值變換能夠使得同類數(shù)據(jù)樣本相似性距離更加小,同時(shí)不同類別數(shù)據(jù)樣本之間相似性距離基本不變,其中相似性距離采用歐式距離度量[15]。因此,本文對原訓(xùn)練集進(jìn)行1-均值、2-均值、…、K-均值變換,則可得到K個(gè)訓(xùn)練數(shù)據(jù)集,分別構(gòu)建分類器得到K個(gè)分類器C1、C2、…、CK。
3.2.2 數(shù)據(jù)樣本的不一致性Diff
對于i-均值變換得到的訓(xùn)練集Li,其中i的取值范圍為[1,K],對U中數(shù)據(jù)樣本u作i-均值變換得ui,計(jì)算ui到Li中P類、N類的相似性距離:
其中
ui與某類別的相似性距離越小,則ui是此類別的可能性越大。因此,定義ui屬于P類、N類概率如下:
其中,
根據(jù)K個(gè)訓(xùn)練集的計(jì)算結(jié)果,采用QBC方法思路,通過多個(gè)分類器計(jì)算u屬于不同類別的概率,定義數(shù)據(jù)樣本u屬于P類、N類的概率Pr(u,P)、Pr(u,N)如下:
根據(jù)公式(4)、(5)定義數(shù)據(jù)樣本u的不一致性,有:
由式(3)可知 Pr(u,P)+Pr(u,N)=1,則 Diff(u)的取值范圍為[0,1],Diff(u)越大,u的一致性越差,則數(shù)據(jù)樣本越應(yīng)該被選擇用于人工標(biāo)注。
3.2.3 數(shù)據(jù)樣本的區(qū)域密度Den
為了避免選擇離異點(diǎn)數(shù)據(jù),本文在考慮數(shù)據(jù)樣本的類別不一致前提下,分析數(shù)據(jù)樣本的密度,選擇區(qū)域密度大的數(shù)據(jù)樣本用于人工標(biāo)注。本文僅在原始訓(xùn)練集中計(jì)算未標(biāo)注數(shù)據(jù)樣本的區(qū)域密度。數(shù)據(jù)樣本u的區(qū)域密度通過其與近鄰數(shù)據(jù)的相似性距離均值進(jìn)行計(jì)算,定義如下:
其中,NNi表示數(shù)據(jù)樣本u的第i個(gè)近鄰數(shù)據(jù)樣本,M表示取數(shù)據(jù)樣本u的M個(gè)近鄰數(shù)據(jù)樣本進(jìn)行區(qū)域密度的計(jì)算,本文中M 取值5。Den(u)越小說明其近鄰數(shù)據(jù)樣本與u越緊湊,從而表示u附近數(shù)據(jù)樣本分布密度越高,標(biāo)注數(shù)據(jù)樣本u之后能夠提供更多的有效信息。
3.2.4 數(shù)據(jù)選擇參數(shù)Info
本文綜合考慮上述兩個(gè)因素,作為未標(biāo)注數(shù)據(jù)樣本的選擇策略,定義如下:
Info(u)值越大,表現(xiàn)為數(shù)據(jù)樣本u的分類結(jié)果一致性差,且所在區(qū)域分布密度高。因此,本文在主動(dòng)學(xué)習(xí)過程中,選擇Info值最大的數(shù)據(jù)樣本用于人工標(biāo)注。
在完成上述3.2節(jié)的數(shù)據(jù)選擇過程之后,計(jì)算被選擇用于人工標(biāo)注的數(shù)據(jù)樣本u,是否能夠提供有效的信息量。通過以u和標(biāo)注數(shù)據(jù)集作為訓(xùn)練集,對訓(xùn)練集中剩余未標(biāo)注數(shù)據(jù)樣本進(jìn)行最近鄰分類,如果沒有以u為最近鄰的未標(biāo)注數(shù)據(jù)樣本,則停止主動(dòng)學(xué)習(xí),因?yàn)榧词箻?biāo)注了u也不能對分類器的下一步構(gòu)建提供有效信息量。
由于樣本的選擇是通過未標(biāo)注數(shù)據(jù)樣本不一致性和區(qū)域密度進(jìn)行計(jì)算的,因此選擇的未標(biāo)注數(shù)據(jù)樣本會逐漸趨向于P、N類的分類邊界,在最壞的情況下,分類邊界處的數(shù)據(jù)樣本全部標(biāo)注之后,上述停止準(zhǔn)則也能滿足。本文實(shí)驗(yàn)也證明了,在人工標(biāo)注數(shù)據(jù)量占數(shù)據(jù)集比例25%以下停止準(zhǔn)則就已經(jīng)達(dá)到。
PU問題存在大量的未標(biāo)注數(shù)據(jù)樣本,僅通過主動(dòng)學(xué)習(xí)選擇數(shù)據(jù)樣本用于人工標(biāo)注,將會導(dǎo)致人工標(biāo)注數(shù)據(jù)量過多,而且通過學(xué)習(xí)得到的標(biāo)注數(shù)據(jù)量并不充足,因此,本文提出一種將主動(dòng)學(xué)習(xí)與半監(jiān)督學(xué)習(xí)相結(jié)合的SAL(Semi-supervised Active Learning)算法,進(jìn)行數(shù)據(jù)標(biāo)注。在主動(dòng)學(xué)習(xí)過程中,結(jié)合半監(jiān)督學(xué)習(xí)對部分?jǐn)?shù)據(jù)樣本進(jìn)行自動(dòng)標(biāo)注,有效降低主動(dòng)學(xué)習(xí)人工標(biāo)注數(shù)據(jù)量的同時(shí),增加最終訓(xùn)練分類器的標(biāo)注數(shù)據(jù)量。
具體實(shí)現(xiàn)為,根據(jù)3.2.2節(jié)計(jì)算得到未標(biāo)注數(shù)據(jù)集DU中所有數(shù)據(jù)樣本的Diff值,選取最小的NUM個(gè)數(shù)據(jù)樣本u1,…,ui,…,uNUM,根據(jù)Pr(ui,P)、Pr(ui,N)進(jìn)行自動(dòng)標(biāo)注,前者大(Pr(ui,P)>Pr(ui,N))則標(biāo)注ui為P類,否則標(biāo)注ui為N類,NUM為實(shí)驗(yàn)參數(shù),具體由實(shí)驗(yàn)確定。
基于PU問題的分類,其最終目的在于構(gòu)建一個(gè)高準(zhǔn)確率的分類器。通過本文提出的OAL或者SAL方法,或者半監(jiān)督學(xué)習(xí)方法從未標(biāo)注數(shù)據(jù)集U中獲取足夠多的標(biāo)注數(shù)據(jù),以獲取的標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí),構(gòu)建分類器,用于對未知類別數(shù)據(jù)樣本進(jìn)行類別預(yù)測。
對于通過學(xué)習(xí)得到的標(biāo)注訓(xùn)練集,其中包括目標(biāo)類(P)以及非目標(biāo)類(N)的標(biāo)注數(shù)據(jù),本文構(gòu)建分類器采用1NN方法,用于對未知數(shù)據(jù)樣本進(jìn)行類別預(yù)測,以測試本文方法的有效性。1NN分類方法作為一種經(jīng)典的分類方法,被證明是高效的、易于實(shí)現(xiàn)的。很多研究表明,時(shí)間序列分類的最好分類結(jié)果來源于簡單的最近鄰分類(1NN)方法[15]。
實(shí)驗(yàn)數(shù)據(jù)分別采用 ECG、Word Spotting、Wafer、Yoga數(shù)據(jù)集[5]。實(shí)驗(yàn)數(shù)據(jù)如表1所示,其中,Training Set、Testing Set分別表示訓(xùn)練集、測試集;P、N 分別表示目標(biāo)類、非目標(biāo)類;如ECG數(shù)據(jù)訓(xùn)練集中含目標(biāo)類數(shù)據(jù)樣本208個(gè),非目標(biāo)類數(shù)據(jù)樣本602個(gè)。
表1 實(shí)驗(yàn)數(shù)據(jù)集說明
本文在實(shí)驗(yàn)中模擬人工標(biāo)注過程,即將訓(xùn)練集分為標(biāo)注集和未標(biāo)注集,通過主動(dòng)學(xué)習(xí)選擇的數(shù)據(jù)樣本,則加入標(biāo)注集,并使用真實(shí)標(biāo)注信息,而U中數(shù)據(jù)樣本視為沒有標(biāo)注。通過主動(dòng)學(xué)習(xí)得到標(biāo)注數(shù)據(jù)集,再構(gòu)建分類器,以分類器對測試集的分類效果檢測本文方法的有效性。具體實(shí)現(xiàn)過程如下。
首先,訓(xùn)練集(Training Set)包括標(biāo)注的正類數(shù)據(jù)集DP、未標(biāo)注數(shù)據(jù)集U、負(fù)類數(shù)據(jù)集DN為空;其次,通過主動(dòng)學(xué)習(xí)(OAL、SAL),將U 中部分?jǐn)?shù)據(jù)進(jìn)行標(biāo)注,并根據(jù)標(biāo)注的類別加入DP或DN。然后,以學(xué)習(xí)得到的DP以及DN,作為訓(xùn)練集,構(gòu)建1NN分類器。最后,在對未知類別數(shù)據(jù)樣本u進(jìn)行預(yù)測類別時(shí),計(jì)算u到{DPU DN}中所有數(shù)據(jù)樣本的距離,以u最近鄰數(shù)據(jù)樣本的類別作為u的預(yù)測類別。
最終,分類效果則通過分類器對測試集(Testing Set)中數(shù)據(jù)樣本進(jìn)行類別預(yù)測,即以單個(gè)數(shù)據(jù)樣本是否能夠被正確分類為依據(jù),進(jìn)而根據(jù)測試集中所有樣本是否被正確分類進(jìn)行統(tǒng)計(jì),以計(jì)算通過本文算法得到的標(biāo)注訓(xùn)練數(shù)據(jù)集所構(gòu)建的1NN分類器的分類效果F-measure。
4.4.1 對比實(shí)驗(yàn)
首先,通過將本文方法OAL、SAL與2006、2008、2011、2012、2015年五篇針對時(shí)間序列PU問題進(jìn)行研究的國際學(xué)術(shù)論文結(jié)果作對比,分析本文方法有效性,效果圖如圖4所示。其次,由于本文方法中需要人工參考標(biāo)注過程,因此需要對人工標(biāo)注量進(jìn)行分析,OAL、SAL的人工標(biāo)注比例如表2所示。
圖4 不同方法的分類效果對比
表2 人工標(biāo)注量分析%
從圖4中可知,OAL、SAL相對于上述五篇國際學(xué)術(shù)論文中提出的半監(jiān)督學(xué)習(xí)方法,在數(shù)據(jù)集ECG、Wafer、Word的表現(xiàn)上,優(yōu)勢非常明顯,且差異顯著。在數(shù)據(jù)集Yoga上,相對于2006、2008、2015年的方法優(yōu)勢同樣非常明顯,而相比于2011、2012年基于聚類的半監(jiān)督方法,分類效果也好。說明,本文方法OAL、SAL,由于人工標(biāo)注了通過主動(dòng)學(xué)習(xí)選擇的邊界數(shù)據(jù)樣本,因此能夠更加準(zhǔn)確標(biāo)注未標(biāo)注數(shù)據(jù)集U中的數(shù)據(jù)樣本,從而構(gòu)建分類效果更好的分類器。
從圖4可知,SAL方法在分類效果F-measure上與OAL不相上下,再從表2中所需人工標(biāo)注量分析,本文SAL算法能夠有效降低人工標(biāo)注數(shù)據(jù)樣本量。顯然,由于SAL自動(dòng)標(biāo)注的數(shù)據(jù)樣本不斷加入,訓(xùn)練集中標(biāo)注數(shù)據(jù)量更加充足,所能提供的信息量更多,從而需要的人工標(biāo)注量減少,而邊界附近的數(shù)據(jù)樣本同樣是以人工進(jìn)行標(biāo)注,因此也能保證未標(biāo)注數(shù)據(jù)樣本的標(biāo)注正確性。從表2也可得出,本文方法SAL在提高分類效果的同時(shí),能夠?qū)⑷斯?biāo)注量有效控制在10%以內(nèi)。
4.4.2 SAL方法參數(shù)實(shí)驗(yàn)
在SAL方法中,每次迭代都自動(dòng)標(biāo)注部分不一致性最小的數(shù)據(jù)樣本,由于自動(dòng)標(biāo)注難以保證百分之百的準(zhǔn)確性,過多地自動(dòng)標(biāo)注可能導(dǎo)致錯(cuò)誤標(biāo)注的出現(xiàn),但是過少的自動(dòng)標(biāo)注又顯得毫無意義。因此本文通過實(shí)驗(yàn)分析每次主動(dòng)學(xué)習(xí)迭代過程中自動(dòng)標(biāo)注的樣本數(shù)量。實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 SAL參數(shù)分析
從圖5(a)中可知,隨著自動(dòng)標(biāo)注量的增多,ECG、Wafer數(shù)據(jù)集的F-measure值基本保持不變。Yoga數(shù)據(jù)集呈現(xiàn)出略微的波動(dòng),但是整體上來說,并沒有大的變化。而Word數(shù)據(jù)集隨著自動(dòng)標(biāo)注量的增加F-measure有下降的趨勢,自動(dòng)標(biāo)注量取值為5、6、7之后,F(xiàn)-measure呈下降明顯。綜上所述,說明不同數(shù)據(jù)集的數(shù)據(jù)分布不一樣,從而使得自動(dòng)標(biāo)注的數(shù)據(jù)準(zhǔn)確率不相同,即指ECG、Wafer與Yoga數(shù)據(jù)集不同類別數(shù)據(jù)樣本分布區(qū)域離分類平面較遠(yuǎn),因此自動(dòng)標(biāo)注數(shù)據(jù)樣本的準(zhǔn)確率高,從而即使增多自動(dòng)標(biāo)注數(shù)據(jù)樣本也不會導(dǎo)致最終F-measure的下降,而Word數(shù)據(jù)集不同類別數(shù)據(jù)樣本分布區(qū)域較分類平面近,從而自動(dòng)標(biāo)注過程更加容易出現(xiàn)誤標(biāo)注,隨著自動(dòng)標(biāo)注量的增加而導(dǎo)致F-measure值下降。
從圖5(b)可知,自動(dòng)標(biāo)注量的增加,人工標(biāo)注量在減少。顯然,自動(dòng)標(biāo)注的增加使得標(biāo)注數(shù)據(jù)集的信息量加大,從而更早停止主動(dòng)學(xué)習(xí)過程。自動(dòng)標(biāo)注量取值為5、6、7時(shí),人工標(biāo)注量開始趨于穩(wěn)定。
綜上所述,SAL方法中自動(dòng)標(biāo)注量參數(shù)取值為6,能夠在降低人工標(biāo)注量的同時(shí),保持標(biāo)注訓(xùn)練集的分類效果。
本文針對時(shí)間序列的PU問題分類,提出了基于主動(dòng)學(xué)習(xí)的方法,通過少量的人工標(biāo)注,得到正確標(biāo)注的邊界數(shù)據(jù),從而訓(xùn)練出更加精準(zhǔn)有效的分類器。由于人工標(biāo)注的數(shù)據(jù)量有限,本文結(jié)合半監(jiān)督學(xué)習(xí)與主動(dòng)學(xué)習(xí)的方法,在進(jìn)行人工標(biāo)注的同時(shí)對數(shù)據(jù)樣本自動(dòng)標(biāo)注,有效降低了在主動(dòng)學(xué)習(xí)過程中人工標(biāo)注量,并增加了標(biāo)注訓(xùn)練數(shù)據(jù)量。
本文采用最近鄰算法作為分類器的構(gòu)建方法,應(yīng)用主動(dòng)學(xué)習(xí)于PU問題中相比半監(jiān)督學(xué)習(xí)能夠得到更好的分類效果,將繼續(xù)研究如何將本文方法有效結(jié)合于某些復(fù)雜模型構(gòu)建分類器如SVM,以使得分類效果更加突出。
參考文獻(xiàn):
[1]Xing Zhengzheng,Pei Jian,Yu Philip S,et al.Extracting interpretable features for early classification on time series[J].Knowledge&Information Systems,2012,31(1):105-127.
[2]Arathi M,Govardhan A.Accurate time series classification using shapelets[J].International Journal of Data Mining&Knowledge Management,2014:39-47.
[3]Settles B.Active learning literature survey[R].University of Wisconsin-Madison,2010:127-131.
[4]劉露,彭濤,左萬利,等.一種基于聚類的PU主動(dòng)文本分類方法[J].軟件學(xué)報(bào),2013,24(11):2571-2583.
[5]Li Wei,Eamonn K.Semi-supervised time series classification[C]//ACM Sigkdd International Conference on Knowledge Discovery&Data Mining,2006:748-753.
[6]Ratanamahatana C A,Wanichsan D.Stopping criterion selection for efficient semi-supervised time series classification[M]//Software Engineering,Artificial Intelligence,Networking&Parallel/Distributed Computing.Berlin Heidelberg:Springer-Verlag,2008:1-14.
[7]Nguyen M N,Li X L,Ng S K.Positive unlabeled learning for time series classification[C]//International Joint Conference on Artificial Intelligence,2011:1421-1426.
[8]Nguyen M N,Li X L,Ng S K.Ensemble based positive unlabeled learning for time series classification[C]//Database Systems for Advanced Applications,2012:243-257.
[9]張道坤.針對文本和時(shí)間序列數(shù)據(jù)的正例未標(biāo)注學(xué)習(xí)算法研究[D].陜西咸陽:西北農(nóng)林科技大學(xué),2015.
[10]張影.基于SVM的PU問題與半監(jiān)督問題研究[D].北京:中國科學(xué)院大學(xué),2015.
[11]趙建華,劉寧.結(jié)合主動(dòng)學(xué)習(xí)策略的半監(jiān)督分類算法[J].計(jì)算機(jī)應(yīng)用與研究,2015,32(8):2295-2298.
[12]劉康,錢旭,王自強(qiáng),等.主動(dòng)學(xué)習(xí)算法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(34):1-4.
[13]陳榮,曹永鋒,孫洪.基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的多類圖像分類[J].自動(dòng)化學(xué)報(bào),2011,37(8):954-962.
[14]陳念,唐振民.QBC主動(dòng)采樣學(xué)習(xí)在垃圾郵件在線過濾中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(22):170-174.
[15]Serrà J,Arcos J L.An empirical evaluation of similarity measures for time series classification[J].Knowledge-Based Systems,2014,67(3):305-314.