劉 璐
(天津財經(jīng)大學(xué) 天津 300000)
收集并分析含有多種類型的聲音記錄的語言數(shù)據(jù)集
劉 璐
(天津財經(jīng)大學(xué) 天津 300000)
人們對于構(gòu)建應(yīng)用于分析帕金森癥患者的語言方式的遠(yuǎn)程診斷以及遠(yuǎn)程監(jiān)控的預(yù)測模型越來越有興趣。為了這個目的,我們收集了各種各樣的聲音樣本,其中包含連續(xù)的元音、單詞和句子,這些樣本都是從一套帕金森癥患者的口語練習(xí)中得來的。語言數(shù)據(jù)集是由每個人的多種話語記錄構(gòu)成的,在這篇論文里,我們使用了著名的機(jī)器學(xué)習(xí)工具來研究帕金森數(shù)據(jù)集并建立有效的預(yù)測模型。
集中趨勢和離散度度量;交叉驗證;多樣本類型;語言障礙;帕金森癥的遠(yuǎn)程診斷
聲音疾病可以簡單地使用聲音工具中的非周期振動來測量,聲音中的復(fù)雜的非線性的不定性以及混亂、空氣聲學(xué)、非高斯的隨機(jī)性可以用來增加聲音疾病診斷系統(tǒng)的臨床有用性。這篇研究的目的是設(shè)計一個計算機(jī)輔助的數(shù)據(jù)收集、儲存和分析系統(tǒng)來簡化帕金森癥的診斷和治療過程,這是在這個地方的神經(jīng)病學(xué)部進(jìn)行的。首先,每個病人的語言記錄、人口統(tǒng)計信息、健康背景和帕金森癥狀的處理情況都被收集和儲存。然后,解析收集到的語言記錄并從聲音樣本中挑選出一系列特征值。在帕金森癥診斷領(lǐng)域以及這篇研究中用到的語言數(shù)據(jù)集一般是由每個人的多種語言記錄組成的。這篇研究中收集到的數(shù)據(jù)集包含每個人的多種聲音樣本,其中有連續(xù)的元音、數(shù)字、單詞和短句等。在這篇文章中,我們也比較了其他能夠用于分析這種數(shù)據(jù)集的交叉驗證方法的成功性,這些交叉驗證方法是用于構(gòu)建診斷帕金森癥的算法中的。我們使用了k-最近鄰和支持向量機(jī)的分類算法,并根據(jù)模型的精度、特異性、靈敏度和馬修斯相關(guān)系數(shù)得分來估計模型在從帕金森癥患者中區(qū)分健康人時的成功性。
這項研究中收集到的數(shù)據(jù)來源于20個帕金森癥患者(6個女性,14個男性)和20個身體健康的人(10個女性,10個男性)。實驗組由經(jīng)歷0-6年帕金森癥的患者組成。實驗組每個人的年齡在43到77之間(均值是64.86,標(biāo)準(zhǔn)差是8.97),對照組的年齡分布則是在45到83之間(均值是62.55,標(biāo)準(zhǔn)差是10.79)。從所有人中得到的26個聲音樣本被記錄下來,這些樣本包括連續(xù)元音、數(shù)字、單詞和短句等。這些樣本由一群神經(jīng)學(xué)家從一組旨在得到更有效的帕金森癥患者聲音的語言練習(xí)中挑選出來。這些聲音是由一個頻段在50到13000赫茲的MC-1500麥克風(fēng)記錄的,麥克風(fēng)被設(shè)定在96000赫茲,30分貝,并被放置在距離測試者10厘米的地方,然后測試者按要求讀或重復(fù)指定的文本內(nèi)容。
在收集到上述的多種類型聲音記錄的數(shù)據(jù)集并進(jìn)行我們的實驗后,我們繼續(xù)通過在相同條件下同一種醫(yī)生檢查過程來收集一個獨立的帕金森癥患者測試集。在收集這個數(shù)據(jù)集的過程中,28個帕金森癥患者僅被要求各說3次連續(xù)的元音字母“a”和“o”,這就得到了168個聲音記錄。實驗組中的病人經(jīng)歷帕金森癥的時間是0到13年,年齡分布在39到79之間(均值是62.67,標(biāo)準(zhǔn)差是10.96)。我們使用這個數(shù)據(jù)集作為一個獨立的測試集來證實我們從多種聲音記錄數(shù)據(jù)集中已經(jīng)得到的結(jié)果。
(一)使用留一法分類。和我們的研究一樣,之前的研究中收集到的為構(gòu)建無創(chuàng)性帕金森診斷系統(tǒng)的語言數(shù)據(jù)集也包含每個受試者的多種語言記錄。使用傳統(tǒng)的逐步回歸法或留一驗證法,會因為通過抽出一些個體的訓(xùn)練集樣本和測試集樣本而在訓(xùn)練集和測試集上造成一個人為的重疊,從而得到一個有偏的預(yù)測模型。然而,在現(xiàn)存研究中提出的分類模型一般使用的都是留一交叉驗證法(LOSO),它將一個人的全部聲音樣本舍去做驗證,好想他是看不到的,剩下的樣本全部用來訓(xùn)練。根據(jù)留一交叉驗證法,如果一個測試個體的聲音樣本中的大多數(shù)被歸類為帕金森癥患者,那么這個個體被歸類為陽性帕金森病,否則被歸為陰性。
(二)用概括性留一法分類。根據(jù)概括性留一法,每個受試者的26個聲音樣本的特征值通過集中趨勢和離散度度量得到總結(jié),這些度量包括了均值、中位數(shù)、剔除平均值(去掉10%和25%)、標(biāo)準(zhǔn)差、四分位距、平均絕對偏差(平均絕對誤差是所有單個觀測值與算術(shù)平均值的偏差的絕對值的平均),同時產(chǎn)生了一種由N個樣本組成的新的數(shù)據(jù)集,其中N是受試者的數(shù)量。由于一個個體的多個樣本降為一個樣本,我們使用留一法將這個數(shù)據(jù)集的樣本輸入到2個或6個度量一組的分類器中。6個度量為一組的包含之前提到的所有度量,會根據(jù)規(guī)則有些許的不同,而兩個度量一組的則是集中趨勢和離散度度量的二元結(jié)合。通過這種方法,數(shù)據(jù)在樣本維度上會縮減而在特征維度上會增加。
在經(jīng)過歸一化處理使得每一個特征值的均值為0、標(biāo)準(zhǔn)差為1后,將特征值輸入支持向量機(jī)和k近鄰分類器中來進(jìn)行帕金森癥診斷。對于k近鄰分類器,使用歐氏距離度量,對于支持向量機(jī),使用LIBSVM包和線性、徑向基核函數(shù),其中耗散值參數(shù)c是10,核寬度g是0.005。我們比較了通過對原始數(shù)據(jù)集使用不同值的k近鄰法和支持向量機(jī)法而得來的各種子集所得到的實驗結(jié)果,從結(jié)果來看,對參數(shù)k取任意值,使用傳統(tǒng)的留一交叉驗證法,幾乎可以得到一個隨機(jī)的預(yù)測結(jié)果(看馬修斯相關(guān)系數(shù))。而通過以均值作為集中趨勢、標(biāo)準(zhǔn)差作為離散度度量(k=1)的總結(jié)數(shù)據(jù)的概括留一法得到的最高M(jìn)CC系數(shù)是0.3062,整體精度是65.00%。由于早期發(fā)現(xiàn)疾病可以增加治愈的機(jī)會并幫助阻止癥狀惡化,靈敏度在生物醫(yī)學(xué)領(lǐng)域是另一個重要的評估指標(biāo)。總結(jié)數(shù)據(jù)可以發(fā)現(xiàn),使用剔除均值(去掉25%)和四分位距且k=5時,靈敏度最高,為70%。
觀察數(shù)據(jù)可見,在使用以均值作為集中趨勢、標(biāo)準(zhǔn)差作為離散度度量相結(jié)合的概括留一法時可以得到最高的精度(77.50%),這與k近鄰分類的結(jié)果一樣。這個模型的馬修斯相關(guān)系數(shù)、靈敏度和特型性也是最高的。使用線性核函數(shù)、留一法的支持向量機(jī)分類器也幾乎產(chǎn)生了一個隨機(jī)的預(yù)測結(jié)果(MCC=0.0006),而徑向基核函數(shù)則產(chǎn)生了一個較好的預(yù)測模型(MCC=0.1005)。我們可以看到,所有的概括留一法模型要比留一法模型在從健康人群中識別帕金森病人的能力上更成功。結(jié)果同樣顯示了支持向量機(jī)相較于k近鄰分類器得到的結(jié)果更穩(wěn)定。使用均值-標(biāo)準(zhǔn)差的概括留一法與傳統(tǒng)留一法的線性支持向量機(jī)之間精度差異的顯著性結(jié)果由McNemai檢驗得到(表五)。McNemai檢驗結(jié)果顯示出在顯著性水平0.05下,均值-標(biāo)準(zhǔn)差的概括留一法比傳統(tǒng)留一法的精度要高。
由于人們近期對于構(gòu)建應(yīng)用于分析帕金森癥患者的語言方式的遠(yuǎn)程診斷以及遠(yuǎn)程監(jiān)控的預(yù)測模型越來越有興趣。我們收集了各種各樣的聲音樣本和各種聲音類型,其中包括連續(xù)性元音、單詞和一組用于帕金森癥患者對話練習(xí)的語句?;趯?shù)據(jù)庫的分析,結(jié)果顯示,連續(xù)性元音與獨立詞匯和短句相比,具有更多辨別帕金森癥的特征信息。為了評估一個受試者的中心趨勢和離散度量(包括平均值,中值,截尾均值,標(biāo)準(zhǔn)差,四分間距和平均絕對離差)中哪些指標(biāo)可以作為他所有記錄中的優(yōu)質(zhì)代表并表現(xiàn)如何,我們嘗試了這些指標(biāo)的不同組合,發(fā)現(xiàn)具有代表性的經(jīng)典的均值和標(biāo)準(zhǔn)差的主體樣本改善了預(yù)測模型的廣泛性。這種代表類型作為一個獨立的數(shù)據(jù)樣本,表現(xiàn)出比使用每個受試者的每個聲音記錄更有效。使用聲音特征值的均值和標(biāo)準(zhǔn)差作為每個受試者的多種聲音記錄的一個總結(jié)性的代表,對于建立這種預(yù)測模型來說是一種有效的策略。
[1]鄭書琴.大數(shù)據(jù)時代的品牌精準(zhǔn)營銷范式[J].視聽,2017,(03):175-176.
[2]徐謝云.基于子空間分析法的腦中風(fēng)微波檢測研究[D].東華大學(xué),2017.
[3]趙宇飛.數(shù)據(jù)挖掘技術(shù)在信息化管理中的應(yīng)用探討[J].中國管理信息化,2017,(04):157.
劉璐(1991-),女,漢族,甘肅蘭州人,研究生在讀,天津財經(jīng)大學(xué),研究方向:財政。