伍茂賢,尹念,陳儀琳
腦機接口技術(shù)(brain-computer interface, BCI)的研究是人工智能技術(shù)的前沿領(lǐng)域,能夠直接通過腦電信號(electroencephalography, EEG)實現(xiàn)人與外界的信息交互[1-2]。BCI的原理是當人受到外界刺激或自身有某種意識活動時,大腦會產(chǎn)生微弱的神經(jīng)電信號,從而傳到大腦皮層形成一定的規(guī)律性特征。因此,可通過對EEG的收集,然后對其進行特征識別,將EEG特征與人的意識活動相聯(lián)系,最后通過計算機將意識活動進行編碼,產(chǎn)生控制指令,從而實現(xiàn)對外部設(shè)備的控制。
目前,為了實現(xiàn)用戶與設(shè)備之間的交互,已開發(fā)出了許多方式,最廣泛使用的是穩(wěn)態(tài)視覺誘發(fā)電位(steady-state visual evoked potentials, SSVP)[3]及運動想象(motor imagery)[4]。盡管這些方式已在基于EEG的腦機系統(tǒng)中取得了很大的進展,但在一些場景下,它們依然無法實現(xiàn)對設(shè)備的有效控制。這是由于其信息處理太慢,或需要大量的用戶支持,使得其在現(xiàn)實生活中的長期應(yīng)用存在一定的限制。
目前,利用BCI解碼語音已有較多研究,有研究者針對孤立的音素或單音節(jié)誘發(fā)的EEG進行了解碼,證明了語音誘發(fā)的EEG可分性[5-7]。Kaongoen等[8]的研究讓受試者重復(fù)閱讀4個語音命令,對在試驗刺激下的EEG進行了分類識別,平均分類準確率為38.2%。Kumar等[9]研究了23位參與者對30個單詞進行閱讀任務(wù)時的EEG并進行了分類識別,識別準確率約為67.03%。雖然以往的研究證明了從EEG解碼語音的可行性,但解碼的準確率和質(zhì)量較低。因此,為了獲得更高的準確性,本研究將機器翻譯方法與傳統(tǒng)EEG識別方法相結(jié)合,也以此提供一種更自然的方式用于探索使用者的內(nèi)在需求。從概念上講EEG解碼語音任務(wù)和機器翻譯任務(wù)的概念相似性,這兩種情況下的目標都是在同一底層分析單元的兩個不同表示之間構(gòu)建一個映射[10]。雖然這兩個任務(wù)的輸入存在不同的EEG和文本,但是現(xiàn)代機器翻譯體系可直接利用神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學習特征,這表明機器學習算法可以有效地在EEG識別場景下應(yīng)用。為了驗證這種方法的有效性,本研究設(shè)計了漢字語音的EEG采集任務(wù),將語音信息與EEG特征形成映射,分別利用共空間模式(common spatial pattern, CSP)聯(lián)合支持向量機(support vector machines, SVM)和基于映射數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來分別實現(xiàn)EEG到某種形式的語音輸出,通過對識別準確率的統(tǒng)計分析,驗證基于漢字語音映射的EEG識別方法能否為實現(xiàn)更舒適的人機交互提供依據(jù)。
本試驗研究對象為10名身心健康的在校大學生,其中男生5名、女生5名,均為右利手,平均年齡(23±1.4)歲。試驗前24 h試驗對象均未飲酒和飲用其他刺激性飲料。所有研究對象坐在距離顯示屏1 m的椅子上進行試驗,整個試驗過程完全放松,身體未進行其他動作。所有研究對象在試驗前均簽署了《知情同意書》。
本試驗設(shè)計“吃”“喝”“穿”“拿”“看”“戴”共6個漢字作為試驗數(shù)據(jù)集,這幾個漢字在日常生活中十分常見,屬于基礎(chǔ)生活所需的功能動作。試驗過程中,每個字都會簡短地出現(xiàn)在電腦屏幕上,信號采集試驗流程圖見圖1,單次試驗時序見圖2。試驗開始時,屏幕持續(xù)顯示2 s黃色,表示空閑時間;接著持續(xù)顯示1 s的紅色,提示受試者做好準備;然后持續(xù)顯示4 s的漢字,受試者在漢字顯示的時間內(nèi)大聲地朗讀;接著屏幕持續(xù)顯示2s白色,受試者休息;單次試驗結(jié)束。每個漢字在一組試驗中隨機出現(xiàn)15次,每位受試者共需完成5組試驗,并在每組試驗結(jié)束后休息5 min。因此每個漢字提示可獲得75組試驗數(shù)據(jù)。
圖1 EEG采集試驗流程圖
圖2 單次試驗時序圖
試驗所用的腦電采集設(shè)備為美國Neuroscan公司的SynAmaps系統(tǒng),試驗采用64導(dǎo)電極,遵循國際10-20系統(tǒng)安裝電極,電極安裝位置見圖3,所有電極的阻抗維持在5 kΩ以下。接地電極置于前額以去除50 Hz的人工頻干擾,信號采樣率為250 Hz,分別保存(4 Hz~7 Hz)、(8 Hz~15 Hz)、(16 Hz~31 Hz)的相關(guān)信息,EEG經(jīng)過4 Hz~45 Hz的帶通濾波器濾波后存入計算機以供分析。受試者的語音音頻信號以約24 kHz的專用麥克風通道同時記錄,并與EEG進行時間對齊。
圖3 EEG采集的電極位置圖
1.3.1 CSP特征提取
CSP是一種主要用于提取兩類模式特征值的空間濾波算法[11]。它是基于將原始的多通道信號再分解為空間模式,這些空間模式從兩類EEG的數(shù)據(jù)中提取,以最大化它們的差異。目前CSP已成功應(yīng)用于EEG特征的提取。CSP的計算過程如下:
假設(shè)兩類漢字朗讀時采集的第i次任務(wù)EEG分別為D1(i)和D2(i)矩陣,數(shù)據(jù)為N×T維,其中N為采集EEG時的電極通道數(shù),T為每個通道所采集到的樣本數(shù)。
(1)
其中trace(D)為矩陣D在對角線上的所有元素的求和。將多次試驗的D1(i)和D2(i)分別疊加平均得到各自的平均協(xié)方差矩陣C1和C2,再將C1和C2進行相加得到混合協(xié)方差矩陣E。由于E為對稱矩陣,對E作主分量分解:
E=GATT
(2)
其中G為E的特征向量矩陣,A為E的特征值矩陣。對特征值進行降序排列可得到白化變換矩陣P,對C1和C2進行變化變換和分解:
P=A-1/2GT
(3)
(4)
λ1+λ2=I
(5)
由公式(5)可推導(dǎo)出,當矩陣H1的特征值越大,H2的特征值就會越小,反之亦然。所得到的投影矩陣為W,并對信號D利用分解矩陣Z進行分解:
W=BTP
(6)
Z=BTP
(7)
EEG 經(jīng)濾波器濾波后得到分解矩陣Zj(j=1,2,…,2m;2m (8) CSP的一個關(guān)鍵限制是只能用于兩類范式,然而本研究涉及多類信號的特征提取[12]。為了解決這個問題,許多研究人員提出了將CSP由二分類擴展到多分類的算法,目前主要包括一對一CSP和一對多CSP[13-14]。其中一對一CSP算法計算量并未明顯增加,并且分類性能較優(yōu)。因此,本文采用一對一CSP算法,將6個漢字兩兩成組來轉(zhuǎn)化成二分類模型進行處理。假設(shè)將“吃”“喝”“穿”“拿”“看”“戴”的多類EEG數(shù)據(jù)分別標記為A、B、C、D、E、F類,兩兩分別配對通過CSP算法得到15個空間濾波器。然后用這些濾波器對某次試驗中的EEG分別提取相應(yīng)的特征值,特征值經(jīng)過各自分類器進行識別。具體流程見圖4。 圖4 一對一的CSP多類算法流程圖 1.3.2 SVM分類識別 SVM是一種監(jiān)督式學習算法,當樣本量存在限制時,SVM能夠有效平衡模型的學習性能與繁雜性之間的矛盾。SVM的目的是尋找兩類樣本之間的最優(yōu)超平面,該平面能夠有效地區(qū)分樣本,并且最大化樣本間的間隔。 假設(shè)存在一個樣本集(xi,yi)(i=1,2,…,n),其中xi為空間模型中的EEG特征樣本,yi為樣本類別目標值,n為樣本總數(shù)。經(jīng)學習得到的最優(yōu)分類函數(shù)為f(x): (9) K(x,xi)=exp(-g‖x-xi‖2) (10) wTx+b=0 (11) (12) 1.4.1 語音轉(zhuǎn)錄 Mel倒頻譜系數(shù)(mel-frequency cepstral coefficients, MFCC)通常是從語音音頻中提取的特征,目的是使得音頻內(nèi)容更加清晰[15]。MFCC的提取流程見圖5。 圖5 MFCC的提取流程圖 預(yù)加重處理。采用高通濾波器對音頻信號s(n)進行處理,濾波器傳遞函數(shù): H(z)=1-az-1 (13) 其中a常系數(shù)值,取值為0.97。 加窗處理。將信號劃分為每一幀來進行處理,每幀上有N個采樣點。設(shè)第m幀的音頻信號為s(n,m),加窗后的信號: (14) 其中0≤n≤N-1。 信號經(jīng)快速傅里葉變換(fast fourier transform, FFT)[16]處理后: (15) 取頻譜的模平方應(yīng)得到功率譜,對功率譜進行濾波,得到一組能量系數(shù)ei(i=1,2,…)。對能量系數(shù)進行離散余弦變換(discrete cosine transform, DCT),得到MFCC參數(shù)Mi(i=1,2,…,k),k為階數(shù)。 (16) 其中p為濾波器的個數(shù)。 1.4.2 循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN) 圖6 RNN架構(gòu)圖 ht=Wf(ht-1)+Whxxt (17) (18) 在本研究中,RNN的輸入為記錄EEG向量的序列,輸出為預(yù)測的MFCC序列。在模型訓練階段,為了使得模型輸入/出的值盡可能接近目標的MFCC值,即為每個漢字分配盡可能高的概率值,本研究使用交叉熵函數(shù)作為預(yù)測值與實際觀測值之間的偏差度函數(shù)[19]。在訓練過程中,隨機選擇的一個數(shù)據(jù)子集計算交叉熵,將神經(jīng)網(wǎng)絡(luò)的參數(shù)往著減少此類偏差的方向改變。 交叉熵損失函數(shù)[20]: (19) 其中,x為樣本,a為預(yù)測值,y為實際觀測值,n為樣本總量。 每位受試者朗讀6個漢字各75次,并對這幾個漢字語音提示的6類EEG進行分類識別。10位受試者的分類準確率見圖7。在基于語音映射的RNN識別方式下,識別準確率相對CSP+SVM方式有明顯提升。10名受試者在CSP+SVM方式下平均分類準確率為(36.53±3.17)%,在語音映射RNN方式下的平均分類準確率為(69.93±3.07)%。 圖7 平均分類準確率示意圖 利用訓練數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)重復(fù)訓練時,RNN的分類準確率會有一定的提升,當重復(fù)訓練15次以上時,分類準確率可以達到75%以上,這是屬于可接受的語音轉(zhuǎn)錄的邊界,重復(fù)訓練次數(shù)與分類準確率的函數(shù)關(guān)系見圖8。 圖8 重復(fù)訓練次數(shù)對RNN分類準確率的影響示意圖 本研究基于6類基本漢字數(shù)據(jù)集,比較CSP+SVM方式與基于漢字語音映射的EEG直譯方式對漢字語音刺激下的EEG的識別性能。本研究結(jié)果發(fā)現(xiàn),CSP+SVM方式下平均分類準確率為(36.53±3.17)%,使用語音映射RNN方式的的平均分類準確率為(69.93±3.07)%,識別準確率明顯優(yōu)于CSP+SVM方式,并在重復(fù)訓練后準確率可達到75%以上,表明相對于傳統(tǒng)方法的單詞識別準確率大多在40%以下的表現(xiàn)[21],本研究基于漢字語音映射的EEG直譯方式下的分類識別準確率有較為明顯的提升。 本研究中采用基于漢字語音映射的RNN識別方式能夠較為明顯地提升識別準確率,主要歸因于3個因素。第一,已知RNN可以從復(fù)雜序列中提供優(yōu)異的信息提取[22-23],特別是已經(jīng)被證明此方法適用于機器翻譯,而本研究也是一個類似于語音解碼的任務(wù)。但也還存在幾個附加條件,在本研究中,將數(shù)據(jù)限制在6類漢字中,人為地消除了數(shù)據(jù)量覆蓋率低會出現(xiàn)的一些問題。因此,需要更多的數(shù)據(jù)找到神經(jīng)網(wǎng)絡(luò)學習語音與EEG特征之間的規(guī)律,使其能夠更好地執(zhí)行和推廣到更一般的語言形式。第二,本文最基本的標記元素為單個字的漢語語音,而不是之前方法中的音素[5-6]。本研究針對覆蓋范圍和可區(qū)分性之間做了平衡,即需要覆蓋所有語音空間所需的音素比單個詞匯少得多,但單個音素的比單詞短,因此彼此之間的區(qū)別更小。并且,在漢字發(fā)音過程中,任何特定音素的產(chǎn)生都會受到它們之間或共發(fā)聲音素的強烈影響,這也會降低其可區(qū)分性。第三,通過改變EEG傳統(tǒng)的解碼方式,將EEG與語音的MFCC特征進行映射,建立了一個全新的特征空間,強調(diào)了RNN從數(shù)據(jù)中學習特征的實際價值,也提出了一種全新的特征映射類型。 綜上所述,當本研究中EEG識別方法接近于實地應(yīng)用時,即當長期植入應(yīng)用于一個受試者時,可用的訓練數(shù)據(jù)量將比本研究中單詞量大一個數(shù)量級,這表明漢語的詞匯量和靈活性是需要擴展的。另一方面MFCC語音特征可能無法使用,即受試者可能失去了說話的能力,這可能會降低識別性能。本研究所提出的方法對漢字語音范式腦機接口的設(shè)計具有一定的參考意義,旨為下一代的人機交互系統(tǒng)和未來的人機通信提供依據(jù)。1.4 基于漢字語音映射的腦電波直譯方法
2 結(jié)果
2.1 分類識別結(jié)果
2.2 訓練數(shù)據(jù)量對RNN識別性能的影響
3 討論