黃旭彬,梁樹杰
(廣東茂名幼兒師范專科學(xué)校教育信息技術(shù)中心,廣東 茂名 525200)
腦-機接口技術(shù)(Brain Computer Interface, BCI)是Vidal于1973年首次提出,其出發(fā)點是幫助運動障礙患者修復(fù)與外界的信息交互能力[1],作為一種特殊的人機交互方式,BCI不再依賴常規(guī)腦外周神經(jīng)、肌肉系統(tǒng)等輸出通路,而是直接利用計算機等外圍輔助設(shè)備對腦電信號(Electro Encephalogram Gram, EEG)進(jìn)行采集和分析,提取其中包含的動作意圖信息從而達(dá)到與外界進(jìn)行信息交互的目的[2-6]。
EEG信號產(chǎn)生機理較為復(fù)雜,是一種典型的非線性,非平穩(wěn)時變信號,因此如何對其進(jìn)行有效的分類識別成為了當(dāng)前研究的熱點與難點[7-10]。文獻(xiàn)[11-13]利用快速傅里葉變換(Fast Fourier Transform, FFT)、短時傅里葉變換(Short Time Fourier Transform, STFT)、功率譜等時頻變換方法對EEG信號進(jìn)行分析,在變換域(頻域,時頻域或功率譜域)提取特征,并利用線性分類器進(jìn)行分類,在測試數(shù)據(jù)集上取得了接近88.5%的分類性能,但是FFT和功率譜變換都是全局變換,變換域信息的獲取是以丟失時域信息為代價的,信息的丟失限制了該類方法的分類性能,STFT方法雖然具備時域-頻域聯(lián)合的局部信息處理能力,但是其時間分辨率和頻率分辨率相互制約,在實際使用時具有一定的局限性。小波變換作為一種經(jīng)典的非平穩(wěn)、非線性信號多尺度分析方法,在EEG信號分析中具有獨特的優(yōu)勢,被廣泛應(yīng)用于運動腦電信號分類[14]。但是小波方法在使用中,其“基函數(shù)”的選取和分解層數(shù)的設(shè)置對分類性能影響較大,目前采用的經(jīng)驗試錯法存在運算量大和主觀性強的問題。經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition, EMD)是另一種常用的非平穩(wěn)信號自適應(yīng)分解方法[15],通過一系列“篩選”過程,信號被分解為本征模函數(shù)(Intrinsic Mode Function, IMF)和的形式,由于IMF是直接從原始信號中獲取的,因此不存在信息丟失,但是EMD方法在信號邊緣處的分解存在“邊緣效應(yīng)”,導(dǎo)致其分類性能下降。隨著深度學(xué)習(xí)、人工智能技術(shù)的發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)的腦電信號分類方法獲得了廣泛的關(guān)注[16-17],文獻(xiàn)[18]采用DEAP數(shù)據(jù)集對集成決策樹、SVM、貝葉斯線性判決等淺層機器學(xué)習(xí)模型和卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型進(jìn)行了研究,結(jié)果表明深度學(xué)習(xí)模型相對于淺層判決模型在性能上提升了約4%,但是深度學(xué)習(xí)模型需要大量的訓(xùn)練樣本進(jìn)行模型學(xué)習(xí),并且需要的運算資源較大。
上述信號分類方法充分考慮了EEG信號的非線性和非平穩(wěn)性,然而腦電信號的電壓通常處于μV量級,微弱性是其另外一個明顯特征,微弱性特征的存在表明EEG信號容易受到噪聲污染,因此要求分類算法在低信噪比條件下具有較強的魯棒性。針對該問題,本文提出一種融合主成分分析(Principal Component Analysis, PCA)和粒子群優(yōu)化-支撐向量機(Particle Swarm Optimization-Support Vector Machine, PSO-SVM)的運動想象腦電信號分類方法。該方法首先利用PCA對高維EEG信號進(jìn)行分析并提取特征,提升算法的運算效率和噪聲穩(wěn)健性,然后針對SVM模型參數(shù)選擇問題,將PSO算法引入SVM,利用PSO的全局搜索能力對SVM進(jìn)行優(yōu)化,獲取最優(yōu)的分類模型,基于Graz數(shù)據(jù)開展驗證實驗,結(jié)果表明所提方法可以獲得95.3%的分類性能,比傳統(tǒng)SVM方法性能提升5個百分點以上,并且在低信噪比條件下優(yōu)勢更加明顯,具有較好的應(yīng)用前景。
PCA作為數(shù)據(jù)處理領(lǐng)域一種經(jīng)典的數(shù)據(jù)降維和信息提取方法,能夠?qū)⒏呔S數(shù)據(jù)分解為主分量和次分量,其中主分量幾乎包含高維數(shù)據(jù)中的全部信息,而次分量主要為噪聲分量,因此通過對數(shù)據(jù)進(jìn)行PCA分解并剔除次分量可以實現(xiàn)數(shù)據(jù)降維和噪聲抑制[19-22]。
給定D維觀測數(shù)據(jù)X=[x1,x2,…,xD]T,對其進(jìn)行PCA分解的步驟為:
Step1設(shè)定窗長為W,W的選擇要大于信號中主分量的個數(shù),以避免出現(xiàn)信息丟失,同時W要小于D/2,從而保證后續(xù)處理得到的協(xié)方差矩陣是滿秩的。對X進(jìn)行滑窗處理,將D維向量轉(zhuǎn)換為D-W+1個較短的列向量,并構(gòu)成觀測數(shù)據(jù)矩陣x=[x1,x2,xD-W+1]W×(D-W+1),其中xi=[xi,xi+1,…,xi+W+1]T,i=1,…,N-W+1。
Step2計算觀測數(shù)據(jù)的協(xié)方差矩陣B:
B=E((x-U)(x-U)T)
(1)
其中E(·)表示求期望運算,U為x的均值。
(2)
其中,λ1≥λ2≥…≥σ2=…=σ2,σ2為噪聲方差。從式(2)可以看出,協(xié)方差矩陣由2個部分構(gòu)成,前K個大特征值及對應(yīng)的特征向量構(gòu)成了信號子空間,包含了絕大部分信號中有用信息,剩余W-K個小特征值及對應(yīng)特征向量構(gòu)成噪聲子空間,主要為信號中的噪聲分量。
Step4設(shè)置主分量個數(shù)K為累計貢獻(xiàn)率超過90%的大特征值個數(shù),即:
(3)
Step5利用K個大特征值對應(yīng)的特征向量重構(gòu)信號實現(xiàn)數(shù)據(jù)降維和噪聲抑制:
(4)
觀測數(shù)據(jù)經(jīng)PCA降維處理并實現(xiàn)噪聲抑制后,對其提取如下三維特征以充分描述不同類別EEG信號的差異性:
1)Feature1為式(3)計算所得大特征值的個數(shù)K:
Feature1=K
(5)
2)Feature2為腦電信號波形熵:
(6)
3)Feature3為腦電信號波形方差:
(7)
SVM被認(rèn)為是當(dāng)前應(yīng)用最廣的一種機器學(xué)習(xí)方法,以統(tǒng)計學(xué)習(xí)理論中的最大邊界決策和Vapnik-Chervonenkis dimension(VC維)理論為基礎(chǔ),其核心思想是利用核函數(shù)實現(xiàn)低維空間向高維空間的非線性映射,將低維空間中不可分的問題轉(zhuǎn)換為高維空間中的線性可分問題,在高維空間中構(gòu)建最優(yōu)超平面實現(xiàn)目標(biāo)分類。在解決小樣本,非線性模式分類問題時相對于線性分類器,貝葉斯分類器等淺層機器學(xué)習(xí)模型具有明顯優(yōu)勢。
對于2類線性可分問題的輸入樣本集(uk,lk),k=1,…,N,uk為第k個輸入樣本,lk∈{+1,-1}為對應(yīng)的類別標(biāo)號,若存在超平面D(u)=wTu+γ能夠?qū)颖具M(jìn)行有效的區(qū)分,則根據(jù)SVM思想,最佳分類面應(yīng)使不同類別之間的距離最大,即最大化2/‖w‖,同時要求所有樣本能夠被正確分類,即lk(wTuk+γ)-1≥0,k=1,…,K,此時最優(yōu)分類問題可以轉(zhuǎn)化為如下的優(yōu)化問題:
(8)
利用Lagrange方法對上式求解可得最優(yōu)分類面函數(shù)為:
(9)
對于非線性問題,利用對偶原理可將式(8)轉(zhuǎn)化為:
(10)
其中,ηk為懲罰項,C為懲罰因子。
從式(9)可以看出,最優(yōu)分類面的計算只跟內(nèi)積運算(uk·u)有關(guān),因此通過引入滿足Mercer條件的函數(shù)R(uk,u)可以得到非線性分類問題的最優(yōu)分類面,可以表示為:
(11)
使用不同的核函數(shù)可以得到不同的支持向量算法,表1給出了3種常用的核函數(shù),其中σ為核參數(shù)。
表1 SVM常用核函數(shù)
SVM具有較強的適應(yīng)性和泛化推廣能力,面對非線性、小樣本分類問題時具有明顯優(yōu)勢。但是其分類性能與核參數(shù)σ和懲罰因子C密切相關(guān),目前常用的參數(shù)設(shè)置手段是交叉驗證和經(jīng)驗試錯,主觀性強且增加了算法的運算負(fù)擔(dān)。針對該問題,本文將PSO算法引入SVM分類器,利用PSO的全局搜索和收斂速度快的優(yōu)勢對SVM參數(shù)進(jìn)行迭代尋優(yōu),從而獲取全局最優(yōu)的分類性能。
PSO算法是由鳥群捕食行為抽象而來,群體中每個個體被當(dāng)做具有位置和速度信息的運動粒子,多個粒子構(gòu)成一個群體,群體中的粒子能夠進(jìn)行信息共享,每個粒子當(dāng)前狀態(tài)都是追隨目前的最優(yōu)粒子,從而保證整個群體的運動在解空間中逐漸從無序向有序轉(zhuǎn)化,并最終獲得最優(yōu)解[23-28]。
運算過程中,PSO根據(jù)如下模型對每個粒子的速度和位置向量進(jìn)行更新:
(12)
利用PSO算法對SVM模型參數(shù){C,σ}進(jìn)行優(yōu)化的PSO-SVM算法流程如圖1所示,算法步驟歸納為如下5步:
圖1 PSO-SVM算法流程圖
Step1PSO初始化,包括粒子個數(shù)、初始位置和速度、慣性因子、終止條件等。
Setp2計算當(dāng)前狀態(tài)下的每個粒子的適應(yīng)度函數(shù)值,確定當(dāng)前pg和pi。
Step3根據(jù)式(12)對粒子位置和速度進(jìn)行更新,計算更新后的適應(yīng)度函數(shù)。
Step4對比Step2和Step3中獲得的適應(yīng)度值,選擇更小的作為當(dāng)前值。
Step5判斷是否滿足迭代終止條件,若滿足,迭代終止,輸出當(dāng)前參數(shù)作為SVM核參數(shù)。否則轉(zhuǎn)至Step3繼續(xù)迭代。
算法終止條件通常設(shè)置為達(dá)到最大迭代次數(shù),或者連續(xù)2次迭代得到的適應(yīng)度值之差小于預(yù)設(shè)門限。
為了驗證所提方法的分類性能,采用BCI2003國際競賽公開的標(biāo)準(zhǔn)數(shù)據(jù)集。實驗數(shù)據(jù)的采集對象為25歲左右的青年,被試對象根據(jù)屏幕提示想象左手運動或者右手運動,同時搭載EEG放大器的計算機輔助設(shè)備對被試對象的腦電信號進(jìn)行采集,一次實驗的有效時間為9 s,流程如圖2所示,采集步驟如下:
圖2 1次有效實驗流程
Step10 s≤T<2 s,被試者被要求放松,前方顯示屏不開機,處于黑屏狀態(tài)。
Step2T=2 s,打開被試者前方顯示屏,顯示屏出現(xiàn)十字光標(biāo),提示被試者馬上進(jìn)入實驗。
Step33 s≤T<9 s,顯示屏隨機出現(xiàn)“←”或“→”箭頭,被試者根據(jù)光標(biāo)提示想象左手或者右手在運動。
試驗數(shù)據(jù)集中包含280組測試數(shù)據(jù),其中想象左手運動數(shù)據(jù)為140組,想象右手運動數(shù)據(jù)為140組。每組數(shù)據(jù)的有效時間為第3 s~第9 s,數(shù)據(jù)的采樣頻率為128 Hz,對應(yīng)6 s有效時間的采樣信號長度為768。
圖3給出了對數(shù)據(jù)集中所有數(shù)據(jù)提取本文第1章所述三維特征的二維歸一化特征分布圖,其中“o”表示想象左手運動特征,“+”表示想象右手運動特征,從圖3可以看出在特征域中2種運動具有較好的可分性。為了評估所提特征在低信噪比條件下的可分性,利用MATLAB自帶的AWGN()函數(shù)對數(shù)據(jù)集中數(shù)據(jù)疊加高斯白噪聲,構(gòu)造SNR=5 dB的試驗條件,再次對數(shù)據(jù)提取上述三維特征得到的二維特征分布如圖4所示,可以看出當(dāng)SNR=5 dB時,2種運動想象特征在特征域的分布混疊在一起,無法進(jìn)行有效的區(qū)分。
(a)Feature1和Feature2歸一化二維特征分布
利用本文第1章所示PCA方法對SNR=5 dB的腦電信號進(jìn)行分析得到的特征值譜,根據(jù)式(4)實現(xiàn)對低信噪比數(shù)據(jù)的噪聲抑制。圖5給出了噪聲抑制后信號的歸一化二維特征分布,對比圖5、圖4和圖3可以看出,經(jīng)過PCA分析和處理后,特征的可分性明顯提升,有利于提高分類方法的噪聲穩(wěn)健性。
(a)Feature1和Feature2歸一化二維特征分布
(a)Feature1和Feature2歸一化二維特征分布
在分類識別試驗中,首先將280組實測數(shù)據(jù)隨機劃分為訓(xùn)練數(shù)據(jù)(140組,70組想象左手運動和70組想象右手運動)和測試數(shù)據(jù)(140組,70組想象左手運動和70組想象右手運動)。在訓(xùn)練階段,對140組訓(xùn)練樣本提取前述三維特征構(gòu)成特征向量,利用該特征向量作為PSO-SVM的輸入進(jìn)行訓(xùn)練,其中SVM采用徑向基核函數(shù),PSO的初始化種群為100,加速因子設(shè)置為c1=c2=1.5,最大迭代次數(shù)設(shè)置為200。圖6給出了SVM模型參數(shù)隨迭代過程的變化曲線,從圖6可以看出當(dāng)?shù)螖?shù)達(dá)到10次時,參數(shù)已經(jīng)收斂,最終可以得到最優(yōu)參數(shù)C=1.3,σ=0.9。
(a)參數(shù)C迭代過程
利用最優(yōu)參數(shù)訓(xùn)練好的PSO-SVM分類器對140組測試數(shù)據(jù)進(jìn)行分類得到分類結(jié)果如圖7所示。圖7給出了所提PCA-PSO-SVM方法、PSO-SVM方法和SVM方法的分類性能隨信噪比的變化曲線,其中PSO-SVM方法與PCA-PSO-SVM方法的區(qū)別在于PSO-SVM方法直接對運動腦電信號進(jìn)行特征提取,不利用PCA進(jìn)行數(shù)據(jù)處理,SVM方法采用傳統(tǒng)交叉驗證的方式進(jìn)行模型參數(shù)選擇。從圖7可以看出,當(dāng)信噪比較高時(大于35 dB),所提PCA-PSO-SVM方法和PSO-SVM方法可以獲得95.3%的分類性能,而SVM方法的分類性能為89.7%,表明SVM方法交叉驗證得到的核參數(shù)C=2、σ=1.1并非最優(yōu)。當(dāng)信噪比小于30 dB時,PSO-SVM方法和SVM方法的分類性能隨著信噪比的降低迅速下降,而所提PCA-PSO-SVM方法的分類性能受信噪比影響較小,當(dāng)信噪比下降到5 dB時,PCA-PSO-SVM方法依然可以獲得優(yōu)于80%的分類性能,表明該方法具有更強的噪聲穩(wěn)健性。
圖7 分類結(jié)果隨信噪比變化曲線
表2給出了分別利用PSO算法、隨機產(chǎn)生和貪心算法對SVM核參數(shù)進(jìn)行尋優(yōu),算法收斂時得到的最優(yōu)核參數(shù),以及以該核參數(shù)進(jìn)行SVM分類時得到的結(jié)果,其中核參數(shù)C的取值范圍為0.1~5,核參數(shù)σ的取值范圍為0.1~3,對于隨機產(chǎn)生方法,每次試驗從參數(shù)取值范圍內(nèi)隨機選取一組作為SVM最優(yōu)核參數(shù)進(jìn)行分類,表2給出的結(jié)果是對100次蒙特卡洛試驗求平均后的分類結(jié)果。從表2可以看出,PSO方法收斂時得到的核參數(shù)能夠獲得最優(yōu)的分類性能。
表2 不同方法收斂時得到的最優(yōu)參數(shù)
BCI技術(shù)的發(fā)展為運動障礙患者帶來了福音,EEG信號的分類識別算法是BCI技術(shù)的核心。本文針對EEG信號非線性、非平穩(wěn)和微弱性特征,提出了一種PCA融合PSO-SVM的運動想象腦電信號分類方法,首先利用PCA對低信噪比EEG信號進(jìn)行分析,提升后續(xù)特征提取的噪聲穩(wěn)健性,然后利用PSO算法對SVM和模型參數(shù)進(jìn)行優(yōu)化,獲取最優(yōu)分類模型?;趯崪y數(shù)據(jù)的試驗結(jié)果表明,所提PCA-PSO-SVM方法能夠獲得95.3%的正確分類結(jié)果,相對于傳統(tǒng)方法提升了5個百分點,并且在低信噪比條件下優(yōu)勢更加明顯,具有較好的應(yīng)用前景。