劉靜博,王 蓓,顧吉峰
(華東理工大學(xué) 信息科學(xué)與工程學(xué)院 化工過(guò)程先進(jìn)控制和優(yōu)化技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,上海 200237)
迄今為止,睡眠分期[1]的主要研究在模式識(shí)別算法上,其中主要集中在有監(jiān)督學(xué)習(xí)算法,使用較多有神經(jīng)網(wǎng)絡(luò)[2-4]、隨機(jī)森林[5,6]、隱馬爾可夫模型[7]、支持向量機(jī)等,少量涉及無(wú)監(jiān)督學(xué)習(xí)算法如K均值聚類[8,9]等。由于睡眠數(shù)據(jù)自身類不平衡的特點(diǎn),導(dǎo)致睡眠分期的分類效果欠佳,因此如何有效地生成睡眠數(shù)據(jù)顯得尤為重要。
目前,針對(duì)睡眠數(shù)據(jù)的生成算法研究主要集中在數(shù)據(jù)的過(guò)采樣。然而,由于睡眠數(shù)據(jù)屬于生物電信號(hào),具有非線性和隨機(jī)性,傳統(tǒng)的過(guò)采樣會(huì)引起數(shù)據(jù)重合以及數(shù)據(jù)偏移的問(wèn)題。針對(duì)上述問(wèn)題,本文提出一種基于改進(jìn)的iBorder-SMOTE的數(shù)據(jù)生成算法對(duì)少數(shù)類樣本進(jìn)行擴(kuò)充,避免由于類不平衡導(dǎo)致模型訓(xùn)練不充分的現(xiàn)象,并選用了孿生支持向量機(jī)作為分類方法,實(shí)現(xiàn)睡眠分期的自動(dòng)判別。
整夜睡眠是一個(gè)復(fù)雜且變化的生理過(guò)程,期間常常伴隨著眼動(dòng)、肌肉活動(dòng)、磨牙甚至夢(mèng)游等生理活動(dòng)。醫(yī)學(xué)領(lǐng)域的專家通過(guò)多導(dǎo)睡眠圖記錄得到的多通道生物電信號(hào),包括腦電信號(hào)、肌電信號(hào)、眼電信號(hào)、脈搏血氧飽和度測(cè)定和呼吸等記錄來(lái)判讀睡眠的階段。1968年,Rechtschaffen A和Kales A制定了R&K睡眠分期準(zhǔn)則[10]。R&K準(zhǔn)則將睡眠分為3個(gè)基本階段,清醒期(Wake, W)、快速眼動(dòng)期(rapid eye movement,REM)和非快速眼動(dòng)期(non-rapid eye movement,NREM),其中非快速眼動(dòng)期又被細(xì)分為4個(gè)時(shí)期,包括睡眠I期(S1)、睡眠II期(S2)、睡眠III期(S3)和睡眠IV期(S4)。2007年,美國(guó)醫(yī)學(xué)學(xué)會(huì)將S3和S4期合并為一個(gè)慢波睡眠期(slow-wave sleep,SS)。
自動(dòng)睡眠分期的研究主要是基于睡眠腦電信號(hào),研究過(guò)程是通過(guò)對(duì)睡眠腦電信號(hào)的預(yù)處理,提取與睡眠相關(guān)的特征,最后將這些特征送入到分類器中進(jìn)行分類。然而,由于不同睡眠分期的樣本數(shù)量不平衡,會(huì)引起模型訓(xùn)練不足,進(jìn)而影響少數(shù)類樣本的分類準(zhǔn)確率。文獻(xiàn)[11]采用經(jīng)驗(yàn)?zāi)J椒纸鈱?duì)原始信號(hào)進(jìn)行分解,提取非線性信號(hào)的均值、方差、偏度和峰度作為特征向量,采用決策樹作為Adaboost算法的弱分類器進(jìn)行分類,平均準(zhǔn)確率為90%,但少數(shù)類S1的分類準(zhǔn)確度僅為39%。文獻(xiàn)[12]提出了一種基于邏輯平穩(wěn)過(guò)渡自回歸模型的睡眠分期方法,采用邏輯平穩(wěn)自回歸模型提取腦電信號(hào)特征,并用支持向量機(jī)進(jìn)行分類,平均準(zhǔn)確率為94%,其中少數(shù)類S1的分類準(zhǔn)確率僅為23%。此外,少數(shù)研究工作者進(jìn)行了數(shù)據(jù)生成方面的研究,文獻(xiàn)[13]采用改進(jìn)的合成少數(shù)過(guò)采樣算法對(duì)原始腦電數(shù)據(jù)進(jìn)行重構(gòu)并用于預(yù)訓(xùn)練。文獻(xiàn)[14]通過(guò)生成對(duì)抗網(wǎng)絡(luò)對(duì)原始腦電信號(hào)進(jìn)行生成,來(lái)達(dá)到平衡數(shù)據(jù)的目的。
如何避免數(shù)據(jù)不平衡對(duì)分類器的影響是自動(dòng)睡眠分期中有待深入研究的問(wèn)題。結(jié)合不同睡眠分期的特征樣本的分布特點(diǎn),本文提出了一種基于改進(jìn)的iBorder-SMOTE的數(shù)據(jù)生成算法。該算法通過(guò)多簇最短距離來(lái)選取最優(yōu)的數(shù)據(jù)生成空間,同時(shí)引入中心異變擾動(dòng)方法消除數(shù)據(jù)偏移帶來(lái)的影響,來(lái)確保數(shù)據(jù)生成對(duì)提高睡眠分期分類精度的有效性。
邊界合成少數(shù)類過(guò)采樣技術(shù)(Border-SMOTE)[15]是在SMOTE[16]基礎(chǔ)上發(fā)展起來(lái)的一種過(guò)采樣方法,其基本思想如圖1所示。與SMOTE不同點(diǎn)在于,Border-SMOTE只對(duì)少數(shù)類的邊界樣本進(jìn)行過(guò)采樣,依據(jù)每個(gè)少數(shù)類樣本周圍數(shù)據(jù)的分類情況計(jì)算其k近鄰,將原始數(shù)據(jù)分為Danger樣本、Safe樣本和Noise樣本,其中少數(shù)類樣本的k近鄰全部或大部分為少數(shù)類樣本時(shí),該點(diǎn)稱為Safe樣本點(diǎn),當(dāng)少數(shù)類樣本的k近鄰多數(shù)類別個(gè)數(shù)與少數(shù)類別樣本大于或者相當(dāng)時(shí),該樣本為Danger樣本,也稱為邊界樣本,其余稱為Noise樣本。針對(duì)Danger樣本周圍多數(shù)類與少數(shù)類比較接近,Border-SMOTE算法對(duì)此區(qū)域進(jìn)行樣本生成,生成算法同SMOTE算法,通過(guò)在少數(shù)樣本A和Abour之間進(jìn)行線性插值生成新的樣本Anew。
圖1 Border-SMOTE算法
Border-SMOTE算法針對(duì)少數(shù)類樣本k近鄰的類別所占比例對(duì)樣本區(qū)域進(jìn)行劃分,將數(shù)據(jù)樣本分為不同類別,針對(duì)危險(xiǎn)樣本進(jìn)行數(shù)據(jù)生成,從而解決了基礎(chǔ)SMOTE算法生成數(shù)據(jù)時(shí),合成數(shù)據(jù)與多數(shù)類數(shù)據(jù)部分重疊的問(wèn)題。
從數(shù)據(jù)生成的方式上來(lái)看,Border-SMOTE仍存在與SMOTE相同的問(wèn)題:忽略了樣本全局分布情況和數(shù)據(jù)生成迭代隨機(jī)。為了解決上述兩個(gè)問(wèn)題,本文對(duì)Border-SMOTE算法提出了相應(yīng)的改進(jìn),并分別在2.2.1節(jié)和2.2.2節(jié)中進(jìn)行具體描述。
2.2.1 中心多簇最短路徑
密度峰值聚類算法[17]是一種簡(jiǎn)單有效的聚類算法。它將任意維度空間的數(shù)據(jù)映射在二維空間中,在二維空間中構(gòu)建數(shù)據(jù)之間的層次關(guān)系,從而可以非常容易地從中挑選出那些密度高、且與其它密度更高區(qū)域相隔較遠(yuǎn)的數(shù)據(jù)點(diǎn),這些點(diǎn)被稱為密度峰值點(diǎn),用來(lái)作為聚類中心,然后將那些密度值較低的點(diǎn)歸類于聚類中心進(jìn)而完成聚類[18]。
首先,利用密度峰值聚類算法確定i個(gè)聚類中心,記作ωi。由此,原始樣本被劃分為了i個(gè)聚類區(qū)域,進(jìn)而對(duì)每個(gè)區(qū)域計(jì)算當(dāng)前樣本的不平衡度。區(qū)域平衡度半徑定義為當(dāng)前聚類類別區(qū)域的聚類中心到該聚類類別中距離最遠(yuǎn)的點(diǎn)。不平衡度imb的定義如式(1)
(1)
其中,Nm為當(dāng)前聚類類別區(qū)域平衡度半徑內(nèi)劃分的總體多數(shù)類樣本個(gè)數(shù),Nl為當(dāng)前聚類類別區(qū)域平衡度半徑內(nèi)少數(shù)類樣本個(gè)數(shù),β是比例系數(shù),用來(lái)限定區(qū)域不平衡的容忍程度。當(dāng)β較大時(shí),原本的噪聲點(diǎn)可能會(huì)被劃分危險(xiǎn)區(qū)域。首先計(jì)算整體樣本的不平衡度imb作為分區(qū)的基準(zhǔn),然后對(duì)于每個(gè)聚類中心ωi首先計(jì)算區(qū)域不平衡半徑,并對(duì)每個(gè)領(lǐng)域分別計(jì)算每個(gè)領(lǐng)域的imbi,最終確定k個(gè)聚類中心,即該k個(gè)聚類中心所代表的聚類類別區(qū)域?yàn)槲kU(xiǎn)區(qū),具有較高的不平衡度,需要進(jìn)行數(shù)據(jù)生成任務(wù)。同時(shí),生成m個(gè)噪聲點(diǎn)區(qū)域,噪聲點(diǎn)區(qū)域內(nèi)可能僅有個(gè)別稀疏點(diǎn),因此直接剔除即可,剩余的為安全點(diǎn)區(qū)域。安全點(diǎn)和噪聲點(diǎn)滿足式(2)
(2)
假設(shè)所有少數(shù)類樣本點(diǎn)總數(shù)為n,維度為m維,對(duì)于這n個(gè)樣本點(diǎn)si和k個(gè)危險(xiǎn)區(qū)聚類中心點(diǎn)sj,分別計(jì)算其幾何中心σsn和聚類分布中心σsk,即把所有點(diǎn)相加取均值。其中σsn如式(3)所示
(3)
對(duì)于一個(gè)聚類中心ωi,分別計(jì)算ωi與σsn、σsk的直線表達(dá)式lni和lki。其中l(wèi)ni如式(4)所示
(4)
其中,wi為第i維變量的參數(shù),αi為聚類中心ωi與σsn直線系數(shù)。
對(duì)于ωi領(lǐng)域內(nèi)的樣本點(diǎn)P,P的多簇中心最短距離為dpσ,根據(jù)dpσ選取距離較近的點(diǎn)為pbest,dpσ公式如下
(5)
其中,μ為區(qū)間[0,1]的隨機(jī)數(shù),也可人為設(shè)定固定值。當(dāng)μ取0時(shí),表示聚類中心ωi領(lǐng)域內(nèi)點(diǎn)pbest到聚類中心ωi與聚類分布中心σsk連線的最短路徑;當(dāng)μ取1時(shí),表示表示聚類中心ωi領(lǐng)域內(nèi)點(diǎn)pbest到聚類中心ωi與樣本幾何中心σsn連線的最短路徑。dpσ結(jié)合了少數(shù)類總體樣本的幾何分布情況與待生成樣本聚類中心的空間分布情況。
在實(shí)際計(jì)算過(guò)程中,多簇中心最短路徑式(5)過(guò)于繁瑣,因此利用空間投影法計(jì)算點(diǎn)到直線的距離。假設(shè)當(dāng)前聚類類別聚類中心點(diǎn)為ω,該聚類類別中某一點(diǎn)為p,樣本幾何中心為σsn,聚類分布中心σsk,維度均為m維,多簇中心最短路徑式(5)可轉(zhuǎn)變?yōu)槿缦率?/p>
(6)
圖2為二維數(shù)據(jù)多簇最短路徑的示意圖,圖中的黑色點(diǎn)表示某一聚類中心的數(shù)據(jù)分布,黑色粗直線表示聚類中心與幾何中心連線,灰色細(xì)直線表示聚類中心與聚類分布中心的連線。根據(jù)密度聚類的特性,聚類中心附近的數(shù)據(jù)點(diǎn)更密集,以黑色粗直線為例,兩條黑色粗虛線圍成的直線區(qū)域即表示到該直線距離最短的點(diǎn)。通過(guò)該領(lǐng)域,可以將大部分的密集點(diǎn)與靠近黑色粗直線的點(diǎn)選中,結(jié)合黑色粗虛線對(duì)與灰色細(xì)虛線對(duì)的劃分區(qū)域,形成一個(gè)最優(yōu)樣本區(qū)域。該區(qū)域的數(shù)據(jù)點(diǎn)最能代表該聚類的分布。假設(shè)μ取0.5,則該區(qū)域變成了菱形或四邊形。該區(qū)域考慮到了聚類中心分布情況與樣本總體的分布情況,并且根據(jù)樣本分布情況,區(qū)域能夠進(jìn)行自適應(yīng)調(diào)整。
圖2 多簇最短路徑
為了解決SMOTE算法生產(chǎn)數(shù)據(jù)的盲從性,根據(jù)多簇中心最短距離,從小到大選取多個(gè)pbest值構(gòu)成集合A{pbest1,pbest2,pbest3,…}, 對(duì)集合內(nèi)的每個(gè)pbesti運(yùn)用SMOTE算法,如式(7)
pnewi=pbesti+random(0,1)(pbest(i+1)-pbesti)
(7)
2.2.2 中心異變擾動(dòng)
由中心多簇最短路徑確定的樣本點(diǎn),結(jié)合了當(dāng)前少數(shù)類聚簇樣本的幾何信息與空間分布信息,避免了在數(shù)據(jù)生成時(shí)的盲從性,但對(duì)于特殊類聚簇樣本,聚類中心在迭代過(guò)程中靠近幾何中心,導(dǎo)致總體數(shù)據(jù)樣本偏移。圖3為二維數(shù)據(jù)樣本偏移示意圖位。從圖3中可以看到,原始樣本在數(shù)據(jù)生成時(shí),整體數(shù)據(jù)樣本密度在往右下方偏移,從而導(dǎo)致左上方樣本點(diǎn)數(shù)量與新樣本的偏差增大。
圖3 二維數(shù)據(jù)樣本偏移
為了解決這個(gè)問(wèn)題,為算法引入了中心異變擾動(dòng)。具體操作如下:
(1)生成新樣本后,峰值密度算法計(jì)算所有樣本距離聚類中心的密度值;
(2)定義參數(shù)η,將密度值小于η的領(lǐng)域,確定為稀疏領(lǐng)域,將稀疏領(lǐng)域內(nèi)的點(diǎn)記作集合B{b1,b2,…},B集合樣本點(diǎn)總數(shù)為n;
(3)根據(jù)聚類中心ω計(jì)算中心異變擾動(dòng)點(diǎn),公式如下
(8)
由式(8)可以看到,當(dāng)稀疏領(lǐng)域的樣本點(diǎn)達(dá)到設(shè)定的臨界值時(shí),以聚類中心ω為中心,向稀疏區(qū)域樣本點(diǎn)進(jìn)行隨機(jī)樣本生成,當(dāng)集合B中僅有一個(gè)元素時(shí),該式即表示由聚類中心向離散點(diǎn)進(jìn)行一次SMOTE算法的運(yùn)算。
基于上述分析,將改進(jìn)的iBorder-SMOTE算法用于處理不平衡數(shù)據(jù),可以結(jié)合樣本的聚簇情況、空間分布與幾何分布,彌補(bǔ)SMOTE算法在數(shù)據(jù)生成過(guò)程中的盲從性。
針對(duì)少數(shù)類樣本,iBorder-SMOTE算法的具體實(shí)施步驟如下:
Input:不平衡數(shù)據(jù)集S,其中S+為多數(shù)類樣本,S-為少數(shù)類樣本;
Output:平衡數(shù)據(jù)集Snew,其中S+為多數(shù)類樣Snew-為少數(shù)類樣本與生成樣本總數(shù);
(1)設(shè)置迭代終止條件,例如樣本數(shù)量、迭代次數(shù)等;
(2)利用密度峰值聚類算法找到i個(gè)聚簇類別的聚類中心ωi;
(3)計(jì)算每個(gè)簇的樣本不平衡度imbi,劃分為安全區(qū)、危險(xiǎn)區(qū)、噪聲,剔出噪聲,其中危險(xiǎn)區(qū)的個(gè)數(shù)為k;
(4)計(jì)算幾何中心點(diǎn)σsn與聚簇分布中心點(diǎn)σsk;
(5)計(jì)算每個(gè)區(qū)域聚類中心ωi到σsn和σsk的直線lsi和lki;
(6)計(jì)算每個(gè)危險(xiǎn)區(qū)域Mdanger_k內(nèi)每個(gè)點(diǎn)的多簇中心最短距離dpσ,并確定每個(gè)區(qū)域Mdanger_k的最優(yōu)點(diǎn)集合Ai{pbest1,pbest2,pbest3,…}, 并生成新的數(shù)據(jù)樣本;
(7)針對(duì)每個(gè)危險(xiǎn)區(qū)Mdanger_k,首先計(jì)算密度系數(shù)程度ρi,并判斷生成數(shù)據(jù)是否產(chǎn)生偏移,對(duì)于產(chǎn)生數(shù)據(jù)偏移的危險(xiǎn)區(qū),確定每個(gè)區(qū)域Mdanger_i的稀疏區(qū)域B{b1,b2,…}, 生成每個(gè)危險(xiǎn)區(qū)域Mdanger_i的中心異變擾動(dòng)點(diǎn);
(8)是否滿足終止條件,否則進(jìn)行下一輪迭代。
實(shí)驗(yàn)環(huán)境:Intel(R) Core(TM) i7-7750HQ CPU@2.80 GHz,16 G內(nèi)存,64位Windows10系統(tǒng),算法的實(shí)現(xiàn)采用64位Spyder,程序語(yǔ)言python3.6。
本文采用PhysioBank實(shí)驗(yàn)室公開的Sleep-EDF睡眠數(shù)據(jù)集,選取數(shù)據(jù)集中10名成年健康志愿者的多導(dǎo)睡眠圖,在整個(gè)實(shí)驗(yàn)過(guò)程中實(shí)驗(yàn)者均沒(méi)有食用任何藥物。腦電信號(hào)的采樣頻率為100 Hz,并按照30 s(3000個(gè)采樣點(diǎn))為一段,由睡眠專家根據(jù)美國(guó)睡眠學(xué)會(huì)標(biāo)準(zhǔn)分期標(biāo)準(zhǔn)進(jìn)行人工標(biāo)定,分為W、REM、S1、S2和SS這5個(gè)睡眠分期類別。
本文選用單通道(Fpz-Cz)的腦電數(shù)據(jù),對(duì)每30 s一段的腦電信號(hào)進(jìn)行傅里葉變換,提取了6個(gè)頻域特征,構(gòu)成特征樣本 {Rδ,Rθ,Rα,Rσ,Rβ,Rγ}, 分別表示腦電信號(hào)中的δ波(0 Hz ~4 Hz),θ波(4 Hz~8 Hz),α波(8 Hz~12 Hz),σ波(12 Hz~15 Hz),β波(15 Hz~30 Hz)和γ波(30 Hz~49.5 Hz)的能量占比[13]。
孿生支持向量機(jī)(twin support vector machine,TSVM)以廣義特征值向量機(jī)為基礎(chǔ)通過(guò)構(gòu)造正負(fù)兩個(gè)超平面,要求一類樣本點(diǎn)盡量接近,另一類樣本盡量遠(yuǎn)離?;谶@個(gè)特性,TWSVM對(duì)不平衡數(shù)據(jù)集也有著較好的分類性能。因此,本文選用了非線性孿生支持向量機(jī)作為睡眠分期用的分類器,選取RBF作為支持向量機(jī)的核函數(shù),以解決沒(méi)有先驗(yàn)知識(shí)的非線性樣本函數(shù)。
為全面評(píng)估模型的性能,采用精度(Precision,Pre)、召回率(Recall,Re)和F1值(F1-score,F(xiàn)1)對(duì)分類性能進(jìn)行評(píng)估,各標(biāo)準(zhǔn)的計(jì)算公式如下
(9)
(10)
F1=2PR×RE/(PR+RE)
(11)
其中,TP被模型預(yù)測(cè)為正的正樣本,TN被模型預(yù)測(cè)為負(fù)的負(fù)樣本,F(xiàn)P被模型預(yù)測(cè)為正的負(fù)樣本,F(xiàn)N被模型預(yù)測(cè)為負(fù)的正樣本。
從睡眠腦電數(shù)據(jù)集中,可以看出不同睡眠分期的樣本數(shù)量分布不平衡。非快速眼動(dòng)期II期(S2)樣本量最多,而非快速眼動(dòng)期(S1)期最少,兩者相差顯著。在整晚睡眠過(guò)程中,S1期和S2期同為淺睡眠狀態(tài),通常從W經(jīng)過(guò)S1過(guò)渡到S2。
這里將樣本數(shù)據(jù)量差異顯著又較易相互混淆的S1與S2實(shí)施分類任務(wù),分別采用SMOTE算法和改進(jìn)的iBorder-SMOTE算法,對(duì)1504條少數(shù)類S1的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)生成,生成后S1的數(shù)據(jù)量為2783條,將生成的樣本全部用于訓(xùn)練,其余的所有樣本進(jìn)行10折交叉驗(yàn)證。
表1是未進(jìn)行數(shù)據(jù)生成的分類結(jié)果,表2是采用SMOTE算法進(jìn)行數(shù)據(jù)生成后的分類結(jié)果,表3是采用改進(jìn)的iBorder-SMOTE算法進(jìn)行數(shù)據(jù)生成后的分類結(jié)果。
表1 S1和S2的分類結(jié)果(TWSVM)
表2 S1和S2的分類結(jié)果(SMOTE-TWSVM)
表3 S1和S2的分類結(jié)果(iBorder-SMOTE-TWSVM)
表1是未進(jìn)行數(shù)據(jù)生成的分類結(jié)果,從中可以看到S1與S2的分類效果均不夠理想,有大量的S1樣本被錯(cuò)分為S2樣本。表2和表3給出了分別采用兩種數(shù)據(jù)生成算法對(duì)S1進(jìn)行數(shù)據(jù)增強(qiáng)后的分類結(jié)果。相比表1,利用數(shù)據(jù)生成算法能夠提高少數(shù)類S1的分類準(zhǔn)確率,并且相比表2的SMOTE算法,表3的iBorder-SMOTE算法得到的分類性能指標(biāo)Pre、Re和F1均有提升。同時(shí),對(duì)多數(shù)類S2來(lái)說(shuō),表示分類綜合性能的F1指標(biāo)也有提升,減少了S1和S2相互之間的混淆。
以睡眠腦電數(shù)據(jù)集中的所有樣本作為分析對(duì)象,分別采用SMOTE算法和iBorder-SMOTE算法對(duì)少數(shù)類S1的樣本數(shù)據(jù)進(jìn)行擴(kuò)充,同樣將生成的樣本全部用于訓(xùn)練,其余的所有樣本進(jìn)行10折交叉驗(yàn)證。
表4是未進(jìn)行數(shù)據(jù)生成的分類結(jié)果。從中可以看到,SW、REM、S2和SS的分類準(zhǔn)確率均為80%左右,而少數(shù)類S1的分類準(zhǔn)確率僅為42%,有大量S1樣本被錯(cuò)分為S2。表5和表6給出了分別采用兩種數(shù)據(jù)生成算法對(duì)S1進(jìn)行數(shù)據(jù)增強(qiáng)后,不同睡眠分期的分類結(jié)果。不同睡眠分期的分類準(zhǔn)確率均有所提升。相對(duì)來(lái)說(shuō),iBorder-SMOTE的效果更顯著,少數(shù)類S1的精度Pre由41.95提升至了52.73,召回率Re由21.48提升至了32.78,F(xiàn)1值有28.41提升至40.43,同時(shí)其余睡眠分期的F1值也有所提升,驗(yàn)證了算法的有效性。
表4 睡眠分期的分類結(jié)果(TWSVM)
表5 睡眠分期的分類結(jié)果(SMOTE-TWSVM)
表6 睡眠分期的分類結(jié)果(iBorder-SMOTE-TWSVM)
根據(jù)數(shù)據(jù)生成算法實(shí)施流程可知,采用本文所給出的改進(jìn)型iBorder-SMOTE算法,利用了多簇中心最短路徑,在數(shù)據(jù)生成上不再具有盲從性,而是在需要生成數(shù)據(jù)的聚類類別領(lǐng)域內(nèi),依據(jù)數(shù)據(jù)的分布情況和密度情況,自動(dòng)劃分選擇需要生成的數(shù)據(jù)點(diǎn),從而使得該區(qū)域內(nèi)的點(diǎn)具備較高的區(qū)域特性,對(duì)后續(xù)的樣本分類任務(wù)提供了有效的支持。同時(shí),在睡眠分期判別的多分類任務(wù)中,將改進(jìn)的iBorder-SMOTE算法與孿生支持向量機(jī)相結(jié)合,有效提高了少數(shù)類樣本S1的識(shí)別精度,并且其在睡眠分期判別上的性能也優(yōu)于SMOTE算法,避免了模型訓(xùn)練不足的問(wèn)題。由于S1和S2是相鄰的兩個(gè)睡眠分期,頻域特征難免存在耦合現(xiàn)象,較易混淆,后續(xù)的研究工作可在此基礎(chǔ)上,進(jìn)一步研究并提高S1和S2的分類性能。
本文針對(duì)睡眠分期判別中少數(shù)類樣本識(shí)別較低的問(wèn)題,提出了一種改進(jìn)的iBorder-SMOTE數(shù)據(jù)生成算法。在Border-SMOTE算法的基礎(chǔ)上,提出了兩點(diǎn)改進(jìn),即多簇中心最短距離與中心異變擾動(dòng),避免了原算法在生成數(shù)據(jù)上的盲從性。結(jié)合孿生支持向量機(jī)作為分類器,與未進(jìn)行數(shù)據(jù)生成,以及SMOTE數(shù)據(jù)生成算法進(jìn)行了比較。結(jié)果表明,改進(jìn)的iBorder-SMOTE算法能夠有效提高睡眠分期中的少數(shù)類樣本的分類準(zhǔn)確率,同時(shí)也提升了睡眠分的整體判別效果。由于本文僅考慮睡眠腦電信號(hào)中的頻域特征,在一定程度上會(huì)因相鄰睡眠分期間的特征耦合而影響分類精度。本文的主要研究工作,能夠?yàn)榻鉀Q分類器在少數(shù)類上訓(xùn)練不足的問(wèn)題提供一種有效可行的數(shù)據(jù)生成算法。在此基礎(chǔ)上,后續(xù)可深入針對(duì)特征耦合問(wèn)題開展研究來(lái)進(jìn)一步提高分類精度。