沙文青,郭濱,王宏旭,白雪梅,張晨潔
(長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022)
近年來,隨著社會(huì)的發(fā)展,人們的生活節(jié)奏越來越快,許多人都會(huì)產(chǎn)生負(fù)面情緒,焦慮就是較典型的負(fù)面狀態(tài)之一,長(zhǎng)期處于焦慮狀態(tài)會(huì)對(duì)自身的健康產(chǎn)生嚴(yán)重的影響。音樂療法作為緩解負(fù)面情緒的有效工具,被人們廣泛接受。但是傳統(tǒng)的音樂療法存在以下幾個(gè)問題:一是對(duì)患者的情緒定位不明確;二是不同的人對(duì)同一首音樂會(huì)有不同的感受,音樂治療師很難準(zhǔn)確把握每一個(gè)人的情感反饋;三是由于樂曲多而雜,在有限的時(shí)間里,治療師很難簡(jiǎn)化樂曲的同時(shí)提高改善效果。研究人員嘗試使用生物反饋技術(shù),如腦電圖(EEG)來衡量音樂治療的效果,因?yàn)樗苊舾械?、客觀地反映人們的情緒。
Vangu Kitoko等人發(fā)現(xiàn)高壓受試者的β水平活動(dòng)增加[6];Leiden University等人發(fā)現(xiàn)SW/FW(慢波/快波)與焦慮呈負(fù)相關(guān)[8];Bos利用傅里葉變換得到腦電信號(hào)在不同頻段的能量比可以作為表征情緒的特征[10]。盧英俊、戴麗麗等人發(fā)現(xiàn)通過分析α頻段的腦電功率和重心功率表明在中國(guó)古典音樂、中國(guó)搖滾音樂、中國(guó)流行音樂和班得瑞音樂的音樂干預(yù)下,中國(guó)古典音樂最能緩解悲傷情緒,中國(guó)搖滾樂緩解效果最差[1];付丹等人選擇了120名患有輕度焦慮癥的大一新生為研究對(duì)象,隨機(jī)分為音樂治療組合和音樂治療結(jié)合生物反饋組,八周治療后發(fā)現(xiàn)音樂治療結(jié)合生物反饋組更能緩解焦慮情緒[2];Syed Syahril等人研究發(fā)現(xiàn)可以使用α峰值頻率來量化個(gè)體所經(jīng)歷的快樂程度[4]。
本研究設(shè)計(jì)實(shí)驗(yàn)獲得焦慮情緒的腦電信號(hào),通過分析beta與alpha的單位時(shí)間內(nèi)的功率比的波動(dòng)變化來量化焦慮情緒,探究實(shí)時(shí)區(qū)分焦慮狀態(tài)和平靜狀態(tài)的條件進(jìn)行焦慮情緒的識(shí)別。
EEG信號(hào)是一種隨機(jī)性很強(qiáng)的非平穩(wěn)微弱信號(hào),極易受到各種噪聲的干擾,比如工頻干擾、眼電等,為了讓提取的特征更加準(zhǔn)確,在特征提取之前要對(duì)腦電信號(hào)進(jìn)行預(yù)處理,即去噪。希爾伯特-黃變換(HHT)中的經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)方法可以根據(jù)信號(hào)的實(shí)際情況,自適應(yīng)地分解信號(hào)。Fast ICA能夠較快的收斂于最佳分解狀態(tài),所以可以將兩種方法相結(jié)合,引入到腦電信號(hào)的去偽跡的研究中。數(shù)據(jù)預(yù)處理之后,可以得到比較純凈的腦電信號(hào)。
根據(jù)頻率范圍,腦電波被分為如下:β波(13~35Hz)、α波(8~13Hz)、θ波(4~8Hz)和δ波(0.16~4Hz),腦電信號(hào)在不同頻帶上表現(xiàn)出的不同特征可以用來判斷一個(gè)人的精神狀態(tài)特征。α波與人們的放松有關(guān),高阿爾法活動(dòng)與低腦活動(dòng)有關(guān)。β波是一種高頻腦波,主要與心理警戒狀態(tài)相關(guān),即測(cè)量β/α波可以反映人們的情緒,當(dāng)比值降低時(shí),人們處于消極負(fù)面的情緒狀態(tài),當(dāng)比值升高時(shí),人們處于較活躍的狀態(tài)。
設(shè)計(jì)切比雪夫?yàn)V波器提取腦電信號(hào)的四種節(jié)律,即利用kaiserord函數(shù)獲取濾波器參數(shù),然后在N+1階kaiser窗口下使用fir帶通濾波器進(jìn)行濾波,得到腦電信號(hào)的四種節(jié)律。
本文采取情景設(shè)計(jì)誘導(dǎo)情緒的實(shí)驗(yàn)方法,具體是選擇10名被試者,年齡均為19-24周歲,其中5名為男性,5名女性。被試者身體健康,視力正常,無神經(jīng)性疾病歷史,并在實(shí)驗(yàn)前一周未服用過任何藥物。設(shè)計(jì)一個(gè)英語(yǔ)課堂,被試者需佩戴便攜式3IT_EHV1腦電帽坐在一間教室里,老師在上課期間會(huì)對(duì)被試者提出不同的問題。由被試者回答,并且老師根據(jù)回答內(nèi)容給出評(píng)分,被試者通常會(huì)因此出現(xiàn)焦慮的情緒,最終分?jǐn)?shù)最低的人需要表演一個(gè)節(jié)目,這是為了增強(qiáng)被試者回答問題前的焦慮感。課堂結(jié)束之后,會(huì)對(duì)十位被試人員詢問上課過程中情緒的變化,尤其是在老師提出問題之后,被試者心理狀態(tài)的變化。腦電信號(hào)由便攜式腦電帽來采集,該設(shè)備是由8通道OpenBCI_V3腦電板以及配套的GUI數(shù)據(jù)分析軟件組成。如圖1所示,深色點(diǎn)和灰色點(diǎn)都為腦電采集點(diǎn),深色為本設(shè)備選擇的采集點(diǎn)。
圖1 OpenBCI 8通道(①、②、③、④、⑤、⑥、⑦、⑧通道分別為Fp1、Fp2、C3、C4、P7、P8、O1、O2)
有關(guān)研究表明大腦右額葉腦區(qū)與情緒狀態(tài)之間的相互作用比較明顯,因此選擇Fp2通道的腦電信號(hào)進(jìn)行去躁和腦電節(jié)律提取,濾波結(jié)果示例如圖2所示。提取節(jié)律之后,根據(jù)公式計(jì)算alpha波和beta波單位時(shí)間內(nèi)的功率,并計(jì)算兩者之間的功率比,觀察功率比的波動(dòng)變化。
圖2 其中四位被試者的alpha波和beta波功率比
對(duì)腦電信號(hào)進(jìn)行分析之后,發(fā)現(xiàn)被試人員在老師提出問題之后的alpha波與beta波的功率比均出現(xiàn)不同程度的降低,如圖3所示(橢圓部分比值降低),從對(duì)被試者后續(xù)調(diào)查可知,被試者表示在老師提出問題之后均出現(xiàn)了不同程度的焦慮情緒,由此看出,焦慮情緒會(huì)使alpha波與beta波的功率比降低,即alpha波與beta波的單位時(shí)間功率比的變化可以作為實(shí)時(shí)判決焦慮狀態(tài)的依據(jù)。分析被試者腦電的alpha和beta功率比,探究識(shí)別焦慮情緒的閾值范圍如表1所示。
表1 平靜狀態(tài)和焦慮狀態(tài)alpha和beta功率之比
根據(jù)表1中所示每個(gè)狀態(tài)獲得的歸一化平均值確定分辨平靜和焦慮狀態(tài)功率比的閾值范圍。如表2所示。
表2 閾值范圍
上一章節(jié)得出識(shí)別焦慮狀態(tài)和平靜狀態(tài)下的alpha波和beta波功率比的閾值范圍。本章節(jié)設(shè)計(jì)實(shí)驗(yàn)對(duì)焦慮情緒進(jìn)行改善,然后基于腦電波變化反饋提取對(duì)被試者有效的音樂片段,然后根據(jù)音樂作曲的基本理論知識(shí)和相關(guān)算法對(duì)音樂片段進(jìn)行重新組合,創(chuàng)作新的音樂。
2.1.1 音樂特征提取
雖然音樂信號(hào)是一種長(zhǎng)時(shí)非平穩(wěn)時(shí)變信號(hào),但在很短的時(shí)間內(nèi)可以看作是平穩(wěn)的、時(shí)不變的信號(hào),所以在音樂信號(hào)進(jìn)行處理前必須進(jìn)行分幀[13],即對(duì)音樂信號(hào)進(jìn)行加窗處理。由于要對(duì)音樂片段進(jìn)行實(shí)時(shí)分類,所以分類算法的計(jì)算不能很復(fù)雜,特征向量不能過多,所以選用相對(duì)容易的時(shí)域特征進(jìn)行特征向量的選擇。幀能量譜排列的緊密程度可以區(qū)分出音樂的節(jié)奏快慢,幀能量譜可以區(qū)分出音樂節(jié)奏的強(qiáng)弱[12]。所以本文采用幀能量(FE)和幀能量比(FER)兩個(gè)特征向量來進(jìn)行實(shí)時(shí)的音樂分類。
(1)幀能量
幀能量特征反應(yīng)了音樂信號(hào)所含能量隨時(shí)間變化的進(jìn)程,而音樂信號(hào)的能量隨時(shí)間的變化程度比較明顯。離散后的音樂信號(hào)x(n)的第i幀能量FE(i)定義為:
式中,winlen是一幀的長(zhǎng)度
(2)幀能量比
幀能量比表示相鄰兩幀之間的幀能量的比值,同時(shí)也是重要的短時(shí)時(shí)域特征,它能夠反映音樂信號(hào)能量的起伏變化。FER(i)的計(jì)算公式為:
其中,F(xiàn)Ei和FEi+1均不能為零。
2.1.2 音樂分類
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是典型的多層網(wǎng)絡(luò),由神經(jīng)元構(gòu)成。它分為輸入層、隱藏層和輸出層。由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練要求數(shù)量精煉,所以使用幀能量和幀能量比為實(shí)驗(yàn)特征進(jìn)行訓(xùn)練。訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)時(shí)則使用MATLAB自帶神經(jīng)網(wǎng)絡(luò)工具箱中的BP網(wǎng)絡(luò)的構(gòu)建函數(shù)newff、訓(xùn)練算法則使用了學(xué)習(xí)率可變的動(dòng)量BP算法(traingdx)、學(xué)習(xí)函數(shù)使用learngdm。
算法作曲(Algorithmic Composition)或稱自動(dòng)作曲(Automated Composition)是為了按照一定的規(guī)則將多個(gè)音樂片段組成一個(gè)有機(jī)整體的一系列的規(guī)則集合[23]。算法作曲并不一定需要利用計(jì)算機(jī)來創(chuàng)作,有關(guān)研究發(fā)現(xiàn),莫扎特曾經(jīng)運(yùn)用過隨機(jī)組合的方式來進(jìn)行音樂模塊創(chuàng)作“Musical Dice Game”,并取得了比較好的效果。因此本文首先對(duì)所保存的音樂片段按照風(fēng)格進(jìn)行分類,其次在每個(gè)類別中,利用馬爾可夫鏈學(xué)習(xí)音樂片段,構(gòu)建以音符為狀態(tài)空間的馬爾可夫模型,來組合音樂片段,創(chuàng)造新的音樂。
馬爾可夫鏈?zhǔn)且粋€(gè)非確定性狀態(tài)機(jī),系統(tǒng)處于某種特定狀態(tài)的概率僅取決于其以前的狀態(tài)以及這些狀態(tài)之間轉(zhuǎn)換的概率。
音樂在時(shí)間上的變化通過音符體現(xiàn),這主要表現(xiàn)在音符的音高和時(shí)值的變化,可以把這種變化看作是旋律隨時(shí)間的運(yùn)動(dòng),從一個(gè)音符狀態(tài)運(yùn)動(dòng)到另一個(gè)音符狀態(tài),即可以通過狀態(tài)轉(zhuǎn)換表來描述。實(shí)驗(yàn)表明,通過計(jì)算和利用音符轉(zhuǎn)換的概率,可以創(chuàng)建聽起來像給定樣式的音樂片段。更確切地說,給定一組音樂素材(通常是樂譜或MIDI文件)可以計(jì)算連續(xù)音符之間的轉(zhuǎn)換概率。通過使用這些概率分布生成音符,產(chǎn)生新的音樂。本文通過學(xué)習(xí)音樂片段,生成狀態(tài)轉(zhuǎn)換表,得出組合音樂片段的最佳順序。
音符具有兩種基本屬性:音高和時(shí)值,音符狀態(tài)的變化包括音符音高狀態(tài)的變化和音符時(shí)值狀態(tài)的變化。在五線譜中,音符是一個(gè)黑色橢圓形的記號(hào),它寫在哪一條線(或間)上,就表示應(yīng)該發(fā)出那一條線(或間)的音高。為了表示音符發(fā)音時(shí)間的長(zhǎng)短即時(shí)值,音符有幾種不同的形狀,常見的有五種:全音符、二分音符、四分音符、八分音符、十六分音符。
隱馬爾可夫模型是一種時(shí)域上的統(tǒng)計(jì)模型,在HMM中,每一個(gè)狀態(tài)代表一個(gè)可觀察的事件,觀察到的事件是狀態(tài)的隨機(jī)函數(shù),因此該模型是一雙重隨機(jī)過程,其中狀態(tài)轉(zhuǎn)移過程是不可觀測(cè)(隱蔽)的(馬爾可夫鏈)。一個(gè)隱馬爾可夫模型(HMM)是由五元組來描述的,即λ=(N,M,A,B,π),其中:
X={x1,…xN}:隱含狀態(tài),N為模型狀態(tài)個(gè)數(shù)。
Y={y1,…yN}:觀察符號(hào)集合,M為每個(gè)狀態(tài)對(duì)應(yīng)的可能觀測(cè)符號(hào)數(shù)。
A={aij},aij=P(qt=Sj|qt-1=Si):狀態(tài)轉(zhuǎn)移概率矩陣。
B={bj(k)},bj(k)=P(Ot=vk|qt=Sj),1≤j≤N,1≤k≤M:給定狀態(tài)下,觀察值概率分布矩陣。
π={πi},πi=P(q1=Si),πi≥0:初始狀態(tài)概率分布。
在一個(gè)HMM模型里,可以描述一個(gè)未知的隱含狀態(tài)在已知的觀察狀態(tài)下的狀態(tài)轉(zhuǎn)移過程。也就是在模型的各參數(shù)已知的情況下,給定觀察序列O=o1,o2,…,ot,計(jì)算與序列O相對(duì)應(yīng)的最佳狀態(tài)序列Q=q1,q2,…qt,也就是HMM中的解碼問題。所求的Q應(yīng)當(dāng)在某個(gè)準(zhǔn)則下是“最優(yōu)”的,因此也稱Q為最優(yōu)路徑,解碼問題即是確定最優(yōu)路徑的問題。
維特比算法(Viterbi algorithm)是一種動(dòng)態(tài)規(guī)劃算法,經(jīng)常被應(yīng)用于隱馬爾科夫模型的解碼問題中,它可以簡(jiǎn)單地描述為一種通過網(wǎng)格找到最可能路徑的算法,在本文中指給定一個(gè)觀察序列和HMM模型參數(shù),有效選擇“最優(yōu)”狀態(tài)序列,以“最好地解釋”觀察序列。
設(shè)狀態(tài)空間為X,初始狀態(tài)xi的概率為πi,狀態(tài)轉(zhuǎn)移概率矩陣為A,觀察值概率分布矩陣為B,觀察得到的輸出為o1,o2,…,ot,則產(chǎn)生觀察結(jié)果的最有可能的狀態(tài)序列q1,q2,…,qt可由公式(3)和公式(4)遞推得到:
式中,前t個(gè)最終狀態(tài)為xi的觀測(cè)結(jié)果最有可能對(duì)應(yīng)的狀態(tài)序列的概率。通過保存向后指針記下在公式(4)中的狀態(tài)可以獲得維特比路徑。另外設(shè)計(jì)一個(gè)函數(shù)Ptr(xi,t),進(jìn)行路徑回溯。由此可得到式(5):
根據(jù)Viterbi算法,可以利用系統(tǒng)已知的觀察狀態(tài),推斷出最有可能的隱含狀態(tài),即下一個(gè)最可能的音符狀態(tài)。
綜上所述,已經(jīng)可以確定HMM的隱含狀態(tài)包含待學(xué)習(xí)音樂中的單個(gè)音符。根據(jù)本文定義,定義音符為隱含狀態(tài),音符發(fā)音時(shí)間的長(zhǎng)短(時(shí)值)為觀察狀態(tài)。那么觀察值概率分布矩陣就是統(tǒng)計(jì)一個(gè)音符在待學(xué)習(xí)音樂中所有可能的時(shí)值,以及它們出現(xiàn)的頻率。
分別需要確定狀態(tài)轉(zhuǎn)移概率矩陣、觀察值概率分布矩陣以及初始概率矩陣這3個(gè)參數(shù)。在確定了模型的隱含狀態(tài)之后,可以統(tǒng)計(jì)出所有音符狀態(tài)在待學(xué)習(xí)音樂片段中出現(xiàn)的次數(shù)。統(tǒng)計(jì)一個(gè)狀態(tài)(音符)后所有的可能狀態(tài)以及這些狀態(tài)出現(xiàn)的頻率作為狀態(tài)之間的轉(zhuǎn)移概率矩陣。如式(6):
其中,1≤j≤n,n為當(dāng)前狀態(tài)Si所有可能的下一個(gè)狀態(tài)的個(gè)數(shù),N(Sk|Si)是當(dāng)前狀態(tài)Si的下一個(gè)狀態(tài)Sk出現(xiàn)的次數(shù),若某些狀態(tài)后面沒有出現(xiàn)過另一個(gè)狀態(tài)則視作兩者之間轉(zhuǎn)移概率為零。例如圖3,在“CDEDCDEFG”中,狀態(tài)“C”并不會(huì)跳轉(zhuǎn)到狀態(tài)“E”。那么由狀態(tài)“C”到狀態(tài)“E”的轉(zhuǎn)移概率記為零。
圖3 CDEDCDEFG的音符轉(zhuǎn)移概率。
觀察值概率分布矩陣,是從某個(gè)隱含狀態(tài)到某個(gè)觀察狀態(tài)的概率。定義音符為隱含狀態(tài),音符所對(duì)應(yīng)的時(shí)值為觀察狀態(tài)。那么觀察值概率分布矩陣就是統(tǒng)計(jì)一個(gè)音符在待學(xué)習(xí)的音樂片段中所有可能的時(shí)值,以及它們出現(xiàn)的頻率。計(jì)算公式與狀態(tài)轉(zhuǎn)移概率矩陣相似,如式(7):
其中,1≤k≤n,n為當(dāng)前狀態(tài)qi所有可能對(duì)應(yīng)時(shí)值的個(gè)數(shù),N(oi|qi)是當(dāng)前狀態(tài)qi對(duì)應(yīng)時(shí)值為oi出現(xiàn)的次數(shù)。
初始狀態(tài)矩陣分布決定模型的初始狀態(tài)。本文分別統(tǒng)計(jì)每個(gè)待學(xué)習(xí)音樂片段中所有音符出現(xiàn)的次數(shù)。則某一音符的初始概率為式(8):
其中,1≤i≤n,n為模型狀態(tài)空間大小,N(qi)為狀態(tài)qi在學(xué)習(xí)樣本中出現(xiàn)的次數(shù)。某一狀態(tài)的初始概率與其在樣本集中出現(xiàn)的頻率成正比,反映出這一狀態(tài)在此樣本集中的表現(xiàn)規(guī)律。
應(yīng)用隱馬爾科夫鏈學(xué)習(xí)每種音樂類別下的音樂片段,根據(jù)音樂片段中相鄰音符的聯(lián)系,確定初始概率矩陣、狀態(tài)轉(zhuǎn)移矩陣和觀察值概率分布矩陣。
本文樂曲編碼采用MIDI實(shí)數(shù)編碼,編碼范圍為0-127,編碼與音符一一對(duì)應(yīng),在程序中,采用midilinfo函數(shù)計(jì)算單個(gè)音符的開始時(shí)間和結(jié)束時(shí)間,并將兩者之差記為該音符的時(shí)值,通過實(shí)驗(yàn)結(jié)果可知,古典音樂的音符編碼范圍在30到90之間,如圖4譜例所示,譜例為一個(gè)音樂片段里的音符構(gòu)成情況。一段音樂最終會(huì)被編碼成一個(gè)矩陣。例如式(9)
其中,矩陣第一行為音高,第二行為時(shí)值。
圖4 “Tear”片段的音符編碼圖4 音樂片段的音符編碼
實(shí)驗(yàn)選擇30名面臨畢業(yè)考試的大學(xué)生,其情緒因?yàn)榭荚噳毫Χ幱诤芙箲]的狀態(tài),因?yàn)椴荒艽_定哪種音樂對(duì)被試者影響比較大,所以選擇了一些古典音樂、搖滾音樂、R&B音樂三種不同風(fēng)格的純音樂來影響受試者的情緒,分析腦電信號(hào)的變化。
首先讓受試者聆聽不同的音樂,同時(shí)記錄受試者的EEG信號(hào),利用Fast Ica和HHT算法開始去除眼電等偽跡的工作,并且進(jìn)行特征提取,對(duì)情緒狀態(tài)進(jìn)行識(shí)別。如果某個(gè)時(shí)間段的情緒狀態(tài)變好表明與此時(shí)對(duì)應(yīng)的音樂片段起作用了,建立三個(gè)音樂子庫(kù),隨之將此音樂片段截取下來進(jìn)行分類,保存到各自對(duì)應(yīng)的音樂子庫(kù)。
腦電處理結(jié)果示例:某位受試者聆聽《D小調(diào)幻想曲》alpha與beta波單位時(shí)間功率比變化如圖5所示。
圖5 聆聽《D小調(diào)幻想曲》的腦電變化
從上圖可以看出,橢圓部分功率比變大,即alpha波功率增大,beta波功率減小,表示受試者情緒逐漸放松,則將與此時(shí)間段相對(duì)應(yīng)的音樂片段截取并保存下來,N個(gè)由此而來的音樂片段組成了一個(gè)音樂庫(kù)。
實(shí)驗(yàn)訓(xùn)練過程選擇60首音樂進(jìn)行訓(xùn)練,訓(xùn)練過程如圖6所示。
圖6 BP訓(xùn)練過程
然后每種風(fēng)格各選200首音樂(共600首)進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表3所示。
表3 BP神經(jīng)網(wǎng)絡(luò)分類準(zhǔn)確率
從表3可以看出,三種風(fēng)格的正確率均在80%以上。
圖7給出了基于HMM,將古典音樂庫(kù)中的一些音樂片段連接起來的一個(gè)實(shí)例,共有439秒。由于音樂的五線譜占用篇幅較多,本文則用midi編碼的方式呈現(xiàn)組合的音樂。
圖7 音樂重組
針對(duì)傳統(tǒng)音樂治療方法存在的問題,本文通過設(shè)計(jì)實(shí)驗(yàn)獲得能夠?qū)崟r(shí)識(shí)別焦慮情緒的特征向量的閾值范圍,實(shí)現(xiàn)對(duì)焦慮情緒的精準(zhǔn)識(shí)別,精準(zhǔn)把握每位人員的情緒變化,接著在對(duì)焦慮人員進(jìn)行音樂治療的過程中,基于腦電的實(shí)時(shí)反饋,獲得對(duì)被試者有用的音樂片段,分析音樂特征,對(duì)所保存的音樂片段進(jìn)行分類,在每個(gè)獨(dú)立音樂類(古典音樂、搖滾、R&B)中,通過計(jì)算音樂片段里的各音符之間的轉(zhuǎn)換概率,找到連接音樂片段的最佳順序,組合成新的音樂?;诮箲]腦電反饋的音樂重組,不僅增加了音樂治療的曲目,而且和原始音樂相比,重組的音樂對(duì)患者來說更有針對(duì)性,有利于對(duì)焦慮患者情緒的改善,可以達(dá)更好的效果,為音樂治療領(lǐng)域的發(fā)展提供了新的途徑。