李 慶 薄 華
(上海海事大學信息工程學院,上海 201306)
當人眼感知不同的色彩時,其腦電信號(Electroencephalography, EEG)在波形、幅度等特性上存在著一定的差異。早期在通過腦電信號對色彩感知的研究中,主要是采用目測腦電圖來尋找不同腦電信號之間的差異。然而隨著電子計算機技術的飛速發(fā)展,腦電信號分析進入了計算機分析的時代,通過計算機分析不同的腦活動所反應出的不同腦電特性,來對色彩感知加以分類識別。Muhammad Masud Rana[1]等將時域統(tǒng)計特性和頻域特性有效的結(jié)合,提取時域統(tǒng)計特性的均值、最大值和頻域特性的功率譜密度,對綠色、藍色、紅色和黃色四種顏色進行識別分類,識別正確率較單個域的特性有所提高。Suchada Tantisatirapong[2]等采用幅度平方相干分析(Magnitude-squared Coherence, MSC)算法來研究腦電信號的穩(wěn)態(tài)視覺誘發(fā)信號,發(fā)現(xiàn)紅色和綠色分別在theta和alpha頻帶上有最大的MSC系數(shù),以此系數(shù)作為特征向量來對這兩種顏色進行分類,結(jié)果表明MSC系數(shù)能夠有效的將紅色和綠色區(qū)分。
EEG信號是非平穩(wěn)、非線性的隨機信號[3],小波能量能夠反應EEG信號在各個頻率的能量情況。Bony Thomas[4]等采用小波變換(Wavelet Transform, WT)的方法,提取腦電信號的小波能量和熵進行色彩觀測識別,取得了較好的識別正確率。劉沖[5]等利用小波變換提取腦電信號各頻段的能量作為特征向量,使用K-近鄰法進行腦電信號分類,最大正確率達到85.7%。
研究表明,在分析腦電信號上采用小波變換技術,利用小波變換發(fā)掘各小波的特性作為分類器的輸入,能夠有效的將腦電數(shù)據(jù)分類。但就如何充分的挖掘腦電信號的時域特性,并將其與小波能量融合,有效的將基于不同色彩感知中的腦電信號分類,目前相關的研究還不多見。本文將采用16導腦電數(shù)據(jù),對感知紅、綠、藍三種顏色的腦電進行分析,結(jié)合時域統(tǒng)計特性偏度(Skewness)、峰度(Kurtosis)與小波能量作為特征向量,采用基于隨機森林(Random Forests, RF)的特征提取算法,篩選出最佳的特征組合方式,實現(xiàn)基于色彩感知中的腦電信號識別。
實驗所用的數(shù)據(jù)采集設備為16導的Neuroscan腦電放大器,采樣頻率為1000 Hz,16個電極在頭皮的分布如圖1所示。本文所用作分析的數(shù)據(jù)已經(jīng)進行了一些預處理,比如去除眼電(EOG)和濾除大于50 Hz的工頻干擾[6],并將最終的腦電信號存儲為matlab能夠識別的格式。
實驗志愿者為4名年齡在22到25歲的研究生,2男2女,要求每個志愿者身心健康、無任何精神類疾病病史。采集環(huán)境處于安靜的實驗場所;志愿者在采集數(shù)據(jù)前要求將頭皮洗凈,采集過程中保持頭腦清醒。采集前用酒精對腦電采集儀的電極進行清潔。
圖1 電極位置示意圖Fig.1 Position of electrodes
采集過程中,首先讓志愿者處于閉眼靜心的狀態(tài)下測一組10 s數(shù)據(jù)作為參考組,然后通過屏幕對紅、綠、藍三種顏色進行播放,每種顏色停留30 s,三種顏色之間穿插10 s黑屏狀態(tài),三種顏色每循環(huán)一次有120 s的過渡時間讓志愿者放松平靜,并讓志愿者寫下每次測試的狀態(tài)評估表。按照上述采集步驟,分別采集4個志愿者的腦電信號,以1 s長度的信號為一組樣本,最終采集到有效樣本591組,紅色樣本196組,綠色樣本196組,藍色樣本199組。
時域統(tǒng)計分析通常作為處理大量數(shù)據(jù)的一種方法,能夠客觀地描述一組數(shù)據(jù)與歷史數(shù)據(jù)間的關聯(lián)。腦電信號作為一種典型的非線性、非高斯的隨機信號,一般的時域統(tǒng)計特征:最大值、最小值、均值、協(xié)方差等并不能很好描述腦電信號的這些特性,而偏度、散度作為衡量信號的不對稱性與陡峭性的統(tǒng)計量(二則均是與正態(tài)分布進行比較),能夠很好的描述腦電信號的非線性與非高斯性這些特性,因此本文將采用偏度、峰度作為腦電信號的時域統(tǒng)計特征。
偏度是描述數(shù)據(jù)集概率分布不對稱性的一種度量,其不對稱性的衡量是與正態(tài)分布進行比較。公式(1)用于計算數(shù)據(jù)集的偏度。當偏度為0時,表示數(shù)據(jù)集的分布與正態(tài)分布的偏斜度相同;偏度大于0時,表示數(shù)據(jù)集的分布與正態(tài)分布相比是正偏或右偏;偏度小于0時,表示數(shù)據(jù)集的分布與正態(tài)分布相比是負偏或左偏[7]。偏度的絕對值越大表示偏斜度越大。
(1)
峰度是用于描述數(shù)據(jù)分布的陡緩程度,其陡緩程度的衡量也是與正態(tài)分布進行比較??梢杂霉?2)來計算數(shù)據(jù)集的峰度。當峰度為0時,表示數(shù)據(jù)集的分布與正態(tài)分布的陡緩程度相同;峰度大于0時,表示數(shù)據(jù)集的分布與正態(tài)分布相比更為陡峭,稱其為尖頂峰;峰度小于0時,表示數(shù)據(jù)集的分布與正態(tài)分布相比更為平緩,稱其為平頂峰[7]。峰度的絕對值越大表示數(shù)據(jù)集分布形態(tài)的陡緩程度與正態(tài)分布的差異越大。
(2)
圖2給出了591組腦電信號樣本每一導數(shù)據(jù)上的平均偏度值分布情況??芍贑4導聯(lián)上感知三種不同顏色的腦電信號在偏度值上有明顯的區(qū)別,且在感知綠色時腦電信號的偏度最大,感知紅色時腦電信號的偏度最小。圖3為峰度值的平均分布情況,該特征出現(xiàn)與偏度值類似的現(xiàn)象,同樣是在C4導聯(lián)上有明顯的區(qū)別,但在該導聯(lián)上,峰度值最大的為感知藍色的腦電信號,最小的仍然為感知紅色的腦電信號。
圖2 16導腦電信號的偏度統(tǒng)計量Fig.2 The statistical measures of skewness for sixteen channels’EEG signals
圖3 16導腦電信號的峰度統(tǒng)計量Fig.3 The statistical measures of kurtosis for sixteen channels’EEG signals
人的眼睛在看某種顏色時,大腦對應的視覺聯(lián)絡區(qū)的腦電δ節(jié)律(1~4 Hz)、 θ節(jié)律(4~7 Hz)、α節(jié)律(8~13 Hz)、 β節(jié)律(14~30 Hz)會出現(xiàn)相應的變化[8]。根據(jù)這一特征,可以提取腦電信號這四個節(jié)律的能量值來分析感知到不同色彩的腦電信號的區(qū)別。而小波變換具有多分辨率特性,可以按實際要求調(diào)整時間窗和頻率窗,來獲取不同頻帶的信號分量[9],因此可以使用小波變換對腦電信號進行分析。
連續(xù)小波變換(Continuous Wavelet Transform, CWT)定義為:
(3)
不同于傅里葉變換,小波變換有兩個變量:尺度變量a(scale)和平移變量τ(translation),尺度變量和平移變量分別能夠調(diào)節(jié)小波基函數(shù)的伸縮和平移[10]。
而在實際應用中,為了便于計算機的處理,需要將連續(xù)小波進行離散化。設實驗采集的離散腦電信號為x(n),離散小波變換可以用公式(4)表示:
(4)
其中,ψ(n)為小波基函數(shù),j,k分別為小波的頻域分辨率和時域平移量。采用Mallat算法對信號進行分解,用公式表示為:
(5)
L為信號的分解層數(shù),AL為第L次分解后低頻逼近系數(shù),Dj為不同尺度變換下的細節(jié)系數(shù)。
(6)
圖4~7是所采集到的591組16導腦電信號的小波能量均值的分布情況。由此可知,delta節(jié)律上的能量在Fp1和F3導聯(lián)上有明顯的區(qū)別,thelta節(jié)律上的能量在P4和O1導聯(lián)上有明顯的區(qū)別,alpha節(jié)律上的能量在O2導聯(lián)上有明顯區(qū)別,beta節(jié)律上的能量則在Fp1導聯(lián)上有明顯區(qū)別。
圖4 16導腦電信號的delta節(jié)律能量Fig.4 Delta band energy for sixteen channels’EEG signals
圖5 16導腦電信號的thelta節(jié)律能量Fig.5 Thelta band energy for sixteen channels’EEG signals
圖6 16導腦電信號的alpha節(jié)律能量Fig.6 Alpha band energy for sixteen channels’EEG signals
圖7 16導腦電信號的beta節(jié)律能量Fig.7 Beta band energy for sixteen channels’EEG signals
通過上述的時域統(tǒng)計特征提取方法,可以提取到2×16=32維的特征;頻域特征提取方法,可以提取4×16=64維特征,特征維數(shù)總和為96維,而由圖1~6可知并不是所有的特征都對分類有幫助,特征之間往往存在冗余的特征和異常的特征,這些特征通常都會降低分類器的識別率,基于此本文提出采用基于隨機森林(Random Forest,RF)算法的特征選擇方法。該方法是以特征向量子集的熵值為依據(jù),評價每個特征對最終分類效果的貢獻度,從而選出最優(yōu)的特征向量子集。在研究過程中將使用CART決策樹來構(gòu)建隨機森林,即使用Gini系數(shù)來劃分特征。Gini系數(shù)反映的是數(shù)據(jù)集的不純度,Gini系數(shù)越小,則數(shù)據(jù)集的不純度越低,選取的特征對數(shù)據(jù)的分類效果越好[11]。原始數(shù)據(jù)集D的Gini系數(shù)計算如公式(7)所示:
(7)
其中k(k=1,2…,|y|)為數(shù)據(jù)類別,pk表示數(shù)據(jù)集D中第k類樣本所占的比例。
而對于給定的腦電信號樣本集D,假設有K個類別,第k個類的樣本個數(shù)為Ck,則樣本D的Gini系數(shù)表達式如(8)所示:
(8)
假設樣本集D中的特征A能夠把樣本分成D1和D2兩部分,則在基于特征A的條件下,樣本集D的Gini系數(shù)的表達式可以進一步表示為:
(9)
隨機森林的每一棵決策樹,都是對特征向量進行采樣,然后計算當前的Gini系數(shù),每一棵樹的非葉子節(jié)點都有一個Gini系數(shù),通過Gini系數(shù)作為特征重要性排序的依據(jù),每當一顆決策樹生長完成后都可以得到各個節(jié)點的重要性排序。建立多棵決策樹構(gòu)成森林,生成多個特征重要性排名,通過“投票”機制選取前m個特征構(gòu)成特征向量集。
實驗所采集的腦電數(shù)據(jù)包含了大腦感知不同色彩狀態(tài)下連續(xù)變化的腦電信息[12],且這些數(shù)據(jù)屬于數(shù)值型數(shù)據(jù),因此可以采用自適應增強算法(Adaptive Boosting, AdaBoost)來對腦電信號進行分類。AdaBoost算法屬于一種提升(boosting)學習算法[13],其提供的是一種算法框架,可以使用在機器學習中所了解的各種弱分類算法來構(gòu)建子分類器,通過將多個弱分類器進行加權融合形成一個具有很高精度的分類器,該算法同時具有結(jié)構(gòu)簡單、易于理解,泛化能力強等優(yōu)點,因此本文采用該算法對腦電信號進行分類。AdaBoost算法的具體流程如下:
步驟1 初始化訓練數(shù)據(jù)的權值D1。每個訓練樣本的初始權值為1/N。
D1=(ω11,ω12,…,ω1i,…,ω1N),
(10)
步驟2 使用具有權值的訓練樣本Dm進行學習,產(chǎn)生弱分類器,并計算該弱分類器分類誤差率。
a)弱分類器:Gm(x):χ→{-1,+1};
(Gm(xi)≠yi)。
步驟3 更新訓練樣本的權值。提高錯分樣本的權值,降低正確分類樣本的權值,將更新后的訓練集執(zhí)行步驟2。
Dm+1=(ωm+1,1,…,ωm+1,i,…,ωm+1,N)
(11)
步驟4n次迭代更新,產(chǎn)生n個弱分類器,計算各個弱分類器的權重。
(12)
步驟5 對這n個弱分類器進行加權融合,產(chǎn)生最后的結(jié)果分類器。
(13)
本文將采用logistic回歸算法構(gòu)造弱分類器,并對訓練樣本的權值進行50次迭代更新。
在訓練分類器時采用10折交叉驗證,即將樣本數(shù)據(jù)集隨機分成10等份,每次拿出9份作為訓練樣本,1份用作測試樣本。圖8為使用隨機森林特征選擇算法提取出不同維數(shù)的特征向量子集對腦電信號的識別率分布圖,可知最優(yōu)的特征向量子集的維數(shù)為6維。
圖8 不同維數(shù)的特征向量子集的識別率Fig.8 The recognition rate of feature vector subsets with different dimensions
表1為不同特征向量集下對不同色彩感知的腦電信號識別的平均正確率。
表1 不同特征向量集下分類的平均正確率
在表1中,單獨采用時域統(tǒng)計量偏度和峰度作為特征向量來識別不同色彩感知中的腦電信號時,使用AdaBoost分類器平均分類正確率可達到55.3%。單獨采用小波能量作為特征向量時,平均分類正確率達到67.5%。可以發(fā)現(xiàn)小波能量作為特征要比偏度、峰度作為特征識別率上要提高10%左右,這是由于小波能量所蘊含的腦電信號的信息量上要比偏度和峰度要多。當二者進行結(jié)合時,平均分類正確率達到75.2%,分類效果要優(yōu)于使用單一類型的特征量。而采用本文所提出的隨機森林特征選擇算法,提取最優(yōu)的特征組合:C4導的偏度和峰度、FP1導delta節(jié)律能量、P4導thelta節(jié)律能量、O2導alpha節(jié)律能量和Fp1導beta節(jié)律能量,識別率提高10%左右,這說明該方法能夠提取出不同色彩感知的腦電信號間的最大差異性信息,從而達到提升分類效果作用。
本文的實驗方法與其他文獻的方法進行比較,如表2所示。實驗比較過程中,實驗的數(shù)據(jù)均為所采集到的591組腦電數(shù)據(jù),實驗所用到的分類器均為使用logistic回歸算法經(jīng)過50次迭代更新得到的AdaBoost分類器。
表2 不同文獻所使用的特征分類結(jié)果對比
表2中,采用文獻[1-2,14-16]所使用的特征進行分類,分類效果最好的為文獻[16]所使用的小波熵和自回歸模型搭配的特征組合方案,平均分類正確率可達到78.8%;分類效果最差的為文獻[14]所使用的方案,該方案使用自回歸模型作為特征,平均分類正確率僅僅達到70.8%;而使用本文的方法來進行分類,平均分類正確率皆高于其他文獻,可以更好的識別感知不同色彩的腦電信號。
本文針對基于色彩感知中的腦電信號分類的問題,提出將偏度、峰度統(tǒng)計量與小波能量特征進行結(jié)合,采用基于隨機森林算法的特征選擇方法提取最優(yōu)的特征向量子集,輸入到AdaBoost分類器中進行學習,并與單一類型的特征量進行比較。結(jié)果表明:1)偏度、峰度統(tǒng)計量與小波能量組成的特征向量能夠有效的將色彩感知中的腦電信號進行分類,平均分類正確率達到85.07%,識別效果要優(yōu)于單一類型的特征量;2)本文提出采用基于隨機森林特征選擇算法提取最優(yōu)的特征向量子集,達到提升分類器分類效果,通過實驗對比證明該算法是有效的;3)本文雖以三種色彩感知為研究對象,但其使用的特征提取與選擇算法仍適用于四種或者更多種色彩感知的研究中,所以下一步的工作將圍繞更多種色彩感知中的腦電信號識別進行展開。從腦-機接口的實時性來說,在采用本文所提出的特征選擇算法提取最優(yōu)的特征向量子集的同時,應盡可能在保證分類的正確率方面通過空間變換將特征向量子集映射到低維空間中進一步降低特征向量集的維度,縮短分類模型的訓練時間,因此后期也將圍繞這方面的工作進行研究,以便能夠?qū)崿F(xiàn)對色彩感知中的腦電信號的在線識別,這也是作者對后期研究工作的展望。