房春英
(黑龍江科技大學(xué)計算機與信息工程學(xué)院,哈爾濱 150001)
?
基于聲診的煤礦工人健康狀態(tài)分析的關(guān)鍵技術(shù)研究
房春英
(黑龍江科技大學(xué)計算機與信息工程學(xué)院,哈爾濱 150001)
本文通過病理語音代表煤工塵肺等疾病狀態(tài)下的語音進行聲學(xué)參數(shù)分析,提出梅爾S變換系數(shù)特征來描述變異語音信號的非平穩(wěn)特性。針對聲帶形狀變異造成的語音變異,提出非線性特征來描述,同時針對高維特征的冗余問題,提出利用聽覺加工模型對特征集進行融合。
聲診;NCSC;特征融合;語音分析;健康狀態(tài);關(guān)鍵技術(shù)
本研究運用語音信號分析和處理的技術(shù)來研究適合煤工塵肺聲音分析的關(guān)鍵技術(shù),最終目的是采用信號處理方法對語音進行聲學(xué)分析,幫助疾病診斷。用來分析病理語音的特征,有的從聲帶角度分析,有的從聲門角度分析,但這些特征難以描述變異信號瞬間變化的頻譜特征,提出梅爾S變換系數(shù)特征和針對聲帶病變的非線性特征并借鑒聽覺認(rèn)知模型,提出特征融合算法,研究框架如圖1所示。
圖1 語音變異程度分析框架Fig.1 Speech variation analysis framework
1.1 多角度語料庫構(gòu)建
1.1.1 荷蘭頸部腫瘤放化療語音語料庫
NCSC(NKI CCRT speech corpus,NCSC)語料庫,由荷蘭頭頸腫瘤手術(shù)癌癥研究所錄制。語料包括55個(10名男性,45名女性)不可動手術(shù)的頭頸癌患者在經(jīng)歷化療的3個階段(治療前和治療后10周和治療后12個月)的說話錄音。錄音方式為念讀德語中性文本。13名畢業(yè)或即將畢業(yè)的語言病理學(xué)家(平均年齡23.7歲)對這些錄音進行可懂度感知評價,評價指標(biāo)打分從1~7。通過對每個語句進行評價,得到13名評價者對每個語句評價的統(tǒng)計值。INTERSPEECH 2012 話者特性病理比賽中按照統(tǒng)計值將數(shù)據(jù)分成兩類:清晰(I)和不清晰(NI),其中I的加權(quán)統(tǒng)計值從5.77~6.71,NI的從1.99~5.72。語料采樣率為16 kHZ,量化為16 bit。語料庫中用來訓(xùn)練和測試(開發(fā)集)的數(shù)據(jù)以4∶3的比例按年齡、性別、本土化分層隨機分配,語料分布數(shù)量如表1所示。
表1 NCSC語料庫分布Tab.1 The distribution of NCSC corpus
1.1.2 幼兒病理變異音語料庫
為了全面描述變異情況,考慮幼兒發(fā)音器官病變產(chǎn)生的音頻變異情況,設(shè)計一個病理相關(guān)的幼兒變異音語料庫采集計劃,以病理原因為出發(fā)點,錄音地點設(shè)立在醫(yī)院,對幼兒病理變異音數(shù)據(jù)進行采集,音頻在黑龍江中醫(yī)藥大學(xué)附屬第一醫(yī)院兒科門診和住院處采集。按照醫(yī)學(xué)科室分類,分別從內(nèi)科、外科、五官科等科室進行錄音,主要包括呼吸聲、哭聲、咳嗽聲共7種病理音頻。語料錄制時間總計10多個小時,各種變異音大約100條語音。所有樣本采樣率為16 kHZ,量化為16 bit。本語料庫面向?qū)ο鬄橛變?,而且采集的相關(guān)病癥較多,缺點是因為幼兒采集困難及時間關(guān)系,每種病癥的語料目前數(shù)量不足百條,未來還需要進一步擴充。
1.2 基于聽覺加工模型的病理語音特征融合方法
高維特征集中,某些參數(shù)之間也可能存在冗余。針對這個問題,本節(jié)引入聽覺變化檢測模型,設(shè)計特征融合過程。聽覺變化檢測模型是由Naatanenn在1999年提出,將聽覺加工模型分為3個階段: 第1個階段是感覺分析(特征提取),第2個階段是感覺記憶(感知階段),第3個階段是執(zhí)行過程(認(rèn)知階段)。模型假定大腦系統(tǒng)執(zhí)行聲音的初始分析也就是第一階段,對應(yīng)語音的特征提取部分構(gòu)建初始特征集。隨后注意控制下加工最重要或最相關(guān)的部分信息,對應(yīng)第2階段,對特征集進行第一次融合,達到第一次優(yōu)選特征的目的。當(dāng)注意關(guān)注環(huán)境中的某些事件時,進入第3個階段認(rèn)知階段執(zhí)行過程,對特征再次融合優(yōu)選放入有限容量系統(tǒng),準(zhǔn)備深入加工。本研究采用特征融合的方法如圖2所示,方法首先對高維數(shù)據(jù)特征集通過特征排序、分層處理、特征降維,完成第一次特征優(yōu)選。并以此結(jié)果作為第三階段輸入,利用同樣方法執(zhí)行第三階段過程,得到最終特征集,輸入有限容量系統(tǒng),進行深入加工。
圖2 特征融合過程Fig.2 Feature fusion process
在本節(jié)的實驗驗證中所采用的分類器是支持向量機,并在每次實驗中都對其進行參數(shù)優(yōu)化,因此,首先介紹支持向量機的參數(shù)優(yōu)化過程。SVM的關(guān)鍵在于核函數(shù)及其參數(shù)。一個RBF SVM模型通常有兩種可調(diào)參數(shù)g(γ高斯函數(shù))和C(懲罰參數(shù))。g和C的范圍是從[2 -10]到[2 10], 5交叉驗證進行參數(shù)選擇。圖3顯示了參數(shù)選擇結(jié)果的三維視圖。在較小的范圍內(nèi)觀察參數(shù)g和C變化具有較高的識別準(zhǔn)確率,可以縮小網(wǎng)格搜索范圍和搜索步長。如果g和C對應(yīng)相同的識別準(zhǔn)確率,則選擇C小的。因為C值高,會導(dǎo)致過度擬合的研究。可以看到,隨著搜索范圍的減小,訓(xùn)練集的檢索步驟和識別準(zhǔn)確率在提高。
圖3 g和C參數(shù)選擇網(wǎng)格結(jié)果Fig.3 The grid results of g and C parameter selection
表2顯示了使用四個不同的核函數(shù)變異語音的識別率,對其他核函數(shù)選擇優(yōu)化參數(shù)的方法和RBF相通??梢钥闯?,RBF核函數(shù)在測試集的識別精度性能最佳。所以采用C為4,g為0.0625的徑向基函數(shù)作為最后語音變異程度分析的SVM模型。
表2 不同核函數(shù)識別結(jié)果Tab.2 Recognition results of different kernel function
利用本文提出的基于認(rèn)知規(guī)律的特征融合方法對特征集(526維)進行降維,降維后的特征集為Re_fea(96維),并用特征融合后的特征訓(xùn)練以支持向量機(SVM)為分類器,通過以上的參數(shù)優(yōu)化方法選擇參數(shù),因為體現(xiàn)方法的普適性,本文在主流NCSC語料庫中進行實驗,用測試集進行分類測試。實驗結(jié)果如表3所示。
表3 NCSC上MSCC+BAFS+Nonlinear和VIS-Features的實驗結(jié)果Tab.3 Results of MSCC+BAFS+Nonlinear and VIS-Features on NCSC
從結(jié)果可以看出,本文提出的方法對語音變異進行分析時有一定的效果,在NCSC語料庫上與基線進行對比,本文方法的UA為75.07%比基線UA 61.6%高出很多,證明本文提出方法是有效的,如圖4所示。
圖4 在NCSC語料庫中與基線結(jié)果對比圖Fig.4 Comparison of the results with the baseline in the NCSC corpus
由于發(fā)聲系統(tǒng)的復(fù)雜性,病理語音分析離臨床成規(guī)模應(yīng)用還有段距離,本文提出的方法為語音分析與診斷在臨床上應(yīng)用提供了技術(shù)支持。本研究運用語音信號分析和處理技術(shù)來研究聲音,研究適合煤工塵肺聲音分析的關(guān)鍵技術(shù),通過診察患者聲音的變異來診斷疾病。希望本文提出的技術(shù)能夠?qū)崿F(xiàn)對煤礦工人的健康狀況進行分析,達到預(yù)防煤礦工人身體疾病的目的。
[1] Tsanas,A. Novel Speech Signal Processing Algorithms for High-Accuracy Classification of Parkinson′s Disease[J]. IEEE transactions on bio-medical engineering,2012,59(05): 1264-1271.
[2] Middag,C. Automated Intelligibility Assessment of Pathological Speech Using Phonological Features[J]. EURASIP Journal on Advances in Signal Processing,2008, (01):1-9.
[3] Maier,A. Automatic Speech Recognition Systems for the Evaluation of Voice and Speech Disorders in Head and Neck Cancer[J]. EURASIP Journal on Audio,Speech and Music Processing,2009, (01):1.
Study on the key technology of coal mine workers′ health status analysis based on acoustic diagnosis
FANG Chun-ying
(School of Computer and Information Engineering, Heilongjiang University of Science and Technology, Harbin 150001, China)
In this paper, acoustic parameters are analyzed by phonological phonetic representation of coal worker′s pneumoconiosis, and the characteristics of Mel S transform coefficients are used to describe the non-stationary characteristics of mutated speech signals. In this paper, we propose a nonlinear feature to describe the speech variation caused by the variation of vocal cords. At the same time, aiming at the redundancy problem of high dimensional feature, the feature set is proposed to be fused with auditory processing model.
Voice diagnosis; NCSC; Feature fusion; Speech analysis; Health status; Key technology
2016-12-05
項目來源:黑龍江教育廳科學(xué)技術(shù)研究項目,項目名稱:基于聲診的煤礦工人健康狀態(tài)分析的關(guān)鍵技術(shù)研究(12533051)
房春英(1978-),女,碩士,副教授。
TP274
A
1674-8646(2017)04-0023-03