亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于氣息音的嗓音分類研究

        2022-02-12 01:49:20劉陽李進(jìn)讓
        關(guān)鍵詞:分類特征

        劉陽 李進(jìn)讓

        1 引言

        嗓音客觀聲學(xué)評(píng)估是嗓音醫(yī)學(xué)中重要的評(píng)估手段,具有經(jīng)濟(jì)、高效、無侵入的特點(diǎn),患者舒適度高,在臨床中被廣泛使用。通過嗓音聲學(xué)評(píng)估分析,可發(fā)掘出人耳主觀辨識(shí)難以覺察的特性,彌補(bǔ)主觀聽感覺評(píng)估的不足。在嚴(yán)格控制測(cè)試流程時(shí),聲學(xué)評(píng)估可降低人為因素的影響,對(duì)發(fā)音人的發(fā)音狀況進(jìn)行客觀評(píng)估,測(cè)試結(jié)果更加穩(wěn)定可靠。因此,不論是治療前全面了解患者嗓音狀況,還是治療前后療效對(duì)比,客觀聲學(xué)評(píng)估都有顯著的臨床意義。盡管客觀嗓音聲學(xué)評(píng)估已使用多年,但目前的參數(shù)特征在區(qū)分各類嗓音疾病時(shí)仍存在一定困難。常規(guī)使用的嗓音參數(shù)特征難以與人耳主觀聽感覺評(píng)估結(jié)果建立直接的對(duì)應(yīng)關(guān)系。如何使客觀聲學(xué)評(píng)估結(jié)果與主觀聽感覺評(píng)估結(jié)果相一致,甚至直接依靠客觀聲學(xué)評(píng)估結(jié)果對(duì)嗓音疾病類型進(jìn)行診斷是學(xué)者研究探索的重點(diǎn)之一[1~3]。氣息音(breathiness)是發(fā)聲時(shí)氣流通過聲門時(shí)產(chǎn)生的聲音,可以反映聲門的閉合狀況。在部分語言中,一定程度的氣息音具有區(qū)分語義的作用。但當(dāng)聲門閉合受嗓音疾病影響時(shí),發(fā)聲氣化程度明顯過大,從而影響嗓音音質(zhì),因此,氣息聲是嗓音音質(zhì)評(píng)估中的一個(gè)重要特征。在嗓音的主客觀研究中,均十分重視對(duì)氣息音的評(píng)估。常用的主觀聽感覺評(píng)估法,不論是GRBAS評(píng)估法(the overall dysphonia grade, roughness, breathiness, asthenia and strain,GRBAS scale)[4]還是聽覺一致性感知評(píng)估(嗓音)法(the consensus auditory perceptual evaluation-voice,CAPE-V scale)[5],氣息音均是其中重要的一項(xiàng)。通過客觀方式識(shí)別量化氣息音的研究亦開展多年,第一諧波和第二諧波的振幅差(H1-H2)、第一諧波和第一共振峰的振幅差(H1-A1)、第一諧波和第三共振峰的振幅差(H1-A3)、倒譜峰突出(cepstral peak prominence,CPP)可用于反映嗓音中的氣息音成分[6,7]。本文以氣息音為特征,對(duì)嗓音疾病進(jìn)行分類預(yù)測(cè)。

        2 對(duì)象和方法

        2.1 研究對(duì)象

        從我院嗓音聲學(xué)評(píng)估受試者中隨機(jī)抽取4組進(jìn)行本研究,分別為聲帶麻痹患者、器質(zhì)性嗓音疾病患者(以聲帶息肉患者為主)、功能性嗓音疾病患者(以聲嘶、肌緊張性發(fā)聲障礙為主)及正常受試者各30人。所有受試者均經(jīng)過喉鏡檢測(cè),由專業(yè)醫(yī)師進(jìn)行診斷。

        2.2 研究方法

        2.2.1 錄音 所有錄音、測(cè)試過程均在安靜室內(nèi)完成。采用DiVAS嗓音分析系統(tǒng)進(jìn)行語音信號(hào)錄制。測(cè)試時(shí)受試者維持坐姿,采用發(fā)卡式標(biāo)準(zhǔn)化麥克風(fēng)采集音頻信號(hào),為降低近講效應(yīng)影響,換能器置于口唇約30 cm處。軟件默認(rèn)采樣率為20 kHz。所有受試者均需按引導(dǎo)指令持續(xù)發(fā)元音/a/3~5秒。

        2.2.2 數(shù)據(jù)處理 從每位受試者的持續(xù)元音/a/錄音中,去除頭尾各0.25秒,以100毫秒為一幀,隨機(jī)抽取20幀,每幀保存為一個(gè)語音片段,并標(biāo)記為原始錄音對(duì)應(yīng)的疾病類型。使用voice sauce語音分析軟件對(duì)抽取后的所有語音片段進(jìn)行分析。提取H1-H2、H1-A1、H1-A3、CPP數(shù)值。對(duì)抽取出的數(shù)據(jù)進(jìn)行人工復(fù)核,剔除異常數(shù)據(jù)。清洗后的所有數(shù)據(jù)包括功能性嗓音疾病組689個(gè),器質(zhì)性疾病組496個(gè),聲帶麻痹組602個(gè),正常組521個(gè),各組整體規(guī)模相近。對(duì)每段語音片段的特征值序列求取均值。將所有數(shù)據(jù)合并為一個(gè)數(shù)據(jù)集。

        2.3 統(tǒng)計(jì)分析方法

        采用scikit-learn軟件機(jī)器學(xué)習(xí)庫中的隨機(jī)森林分類法對(duì)數(shù)據(jù)進(jìn)行處理,建立分類器模型。對(duì)集中的有效數(shù)據(jù)進(jìn)行隨機(jī)分割,70%用于建立訓(xùn)練模型,30%用于驗(yàn)證模型的準(zhǔn)確率。分類器模型中的決策樹規(guī)模分別為100棵和200棵,分別采用單一特征和組合特征建立模型并檢驗(yàn)?zāi)P偷臏?zhǔn)確性。

        3 結(jié)果

        在不同決策樹規(guī)模下,分別使用單一特征(H1-H2,H1-A1,H1-A3,CPP)和組合特征(H1-H2 & H1-A1 & H1-A3 & CPP)建立分類器模型,如表1所示。

        表1 單一特征和組合特征vs 不同決策樹規(guī)模的正確率(%)

        決策樹規(guī)模為100棵時(shí),隨機(jī)森林分類模型對(duì)4類不同類型嗓音音質(zhì)的分類預(yù)測(cè)整體準(zhǔn)確率為70.99%,200棵時(shí)分類預(yù)測(cè)整體準(zhǔn)確率為71.14%,提升決策樹數(shù)量時(shí),整體效益相近。不論何種決策樹規(guī)模,模型的分類效果均較好。如圖1混淆矩陣圖所示,正常嗓音組預(yù)測(cè)結(jié)果準(zhǔn)確率高達(dá)87%,對(duì)不同類型疾病組的分類預(yù)測(cè)準(zhǔn)確率亦接近70%。

        圖1 以氣息音為特征的4種嗓音分類混淆矩陣

        組合特征H1-H2、H1-A1、H1-A3、CPP在分類過程中的重要性如表2所示。

        表2 特征重要性

        4 討論

        在聲帶振動(dòng)周期中,由于聲門間存在縫隙,從而導(dǎo)致氣息音的產(chǎn)生。造成氣息音的因素包括:(1)聲帶前段內(nèi)收不完全;(2)聲門后端功能不全時(shí),在正常聲門閉合周期后會(huì)繼發(fā)聲門關(guān)閉不全,從而產(chǎn)生氣息音,如外展型痙攣性發(fā)聲障礙/肌緊張性發(fā)聲障礙、聲帶麻痹等;(3)當(dāng)存在組織結(jié)構(gòu)缺失、機(jī)械張力或肌張力不足時(shí),可導(dǎo)致聲帶溝或弓形聲帶,在最大聲門關(guān)閉期,聲帶間形成棱型縫隙,從而產(chǎn)生氣息音;(4)聲帶存在損傷時(shí),可能會(huì)出現(xiàn)各種情況的聲門裂隙;(5)兩側(cè)聲帶振動(dòng)相位不一致時(shí)[8]。

        在對(duì)嗓音特征的研究中,氣息音是非常重要的特征,多項(xiàng)研究顯示,H1-H2、H1-A1、H1-A2、H1-A3、CPP可用于量化反映嗓音中的氣息音成分[6,7,9]。H1-H2是第一諧波和第二諧波的振幅差,是由Bickley1982年首先引入語音學(xué)研究中[6],其反映了開放商的大小,H1-H2越大,開放商越大[7,10],可感知的氣息音也越大[11]。當(dāng)H1-H2>12.5 dB時(shí),氣息音十分明顯;H1-H2介于8.3~12.5 dB時(shí),嗓音表現(xiàn)為中度氣息音;H1-H2介于6.7~8.3 dB時(shí),表現(xiàn)為輕度氣息音;H1-H2介于0~6.7 dB時(shí),沒有氣息音[6]。 通常情況下,嗓音信號(hào)的氣化程度越高,頻譜向上傾斜的程度就越高,即H1>H2;當(dāng)H1<H2時(shí),頻譜向下傾斜程度較高,嗓音呈現(xiàn)為嘎裂音;正常嗓音的頻譜傾斜程度在兩者之間。第一諧波的振幅相對(duì)頻譜中其它部分的變化可以很容易被感知。H1-H2的辨別差很小,僅需要3.18 dB就可以顯現(xiàn)出被識(shí)別的差異[12]。 Samlan等[9]通過計(jì)算機(jī)模擬分析認(rèn)為,聲帶突間距在1.0~1.5 mm時(shí),H1-H2與之正相關(guān),大于1.5 mm時(shí)則呈負(fù)相關(guān)[8]。通過H1-H2可以大致判斷氣息音的嚴(yán)重程度[6]。 Smith等[13]使用聲帶雙質(zhì)量模型模擬喉上神經(jīng)和喉返神經(jīng)麻痹的實(shí)驗(yàn)中,聲帶麻痹組的H1-H2高于健康組,說明H1-H2可以用于區(qū)分聲帶麻痹和健康嗓音。

        H1-A1反映了聲帶后部的開合情況[14]。H1-A3可以更好地區(qū)分氣息音和正常發(fā)聲[15]。嗓音信號(hào)中諧波成分被掩蔽的程度越多,氣息音越明顯。氣息音明顯的嗓音信號(hào),其高頻諧波被掩蔽的較多,這與H1-A3越高,氣息音越明顯相一致。

        倒譜峰突出(CPP)是一種用于評(píng)估諧波峰值規(guī)律性的技術(shù),規(guī)律的高振幅諧波比不規(guī)則的低振幅諧波產(chǎn)生更高的CPP。不完全閉合的聲門處產(chǎn)生湍流,從而產(chǎn)生2~3 kHz噪聲,改變嗓音的頻譜分布。因此,當(dāng)嗓音障礙導(dǎo)致諧波能量發(fā)生變化時(shí),CPP可以很好地捕捉嗓音中諧波能量的相對(duì)振幅。通常情況下,CPP會(huì)隨聲帶突距離的增加而降低[8]。

        通過臨床觀察發(fā)現(xiàn),本研究采用嗓音類型分類方法,氣息音程度存在一定差異,但尚未有理論研究證實(shí)。因此,如果本研究可以獲得較高的分類準(zhǔn)確性,則證明氣息音可以作為此種分類方法的分類特征。本研究結(jié)果顯示,通過H1-H2、H1-A1、H1-A3、CPP可以獲得較高的分類準(zhǔn)確率,證明通過氣息音可以對(duì)功能性嗓音疾病、器質(zhì)性嗓音疾病、聲帶麻痹和正常嗓音進(jìn)行區(qū)分。

        隨機(jī)森林是一種常用的機(jī)器學(xué)習(xí)算法,其本質(zhì)是隨機(jī)構(gòu)建立無關(guān)聯(lián)的決策樹。訓(xùn)練過程中,每棵決策樹根據(jù)基尼系數(shù)最小原則,彼此獨(dú)立地對(duì)樣本進(jìn)行建模。當(dāng)新的樣本進(jìn)入隨機(jī)森林后,其結(jié)果由所有決策樹投票產(chǎn)生。與傳統(tǒng)統(tǒng)計(jì)學(xué)分析方法相比,隨機(jī)森林更關(guān)注分類的結(jié)果,而不是分類的過程。在隨機(jī)森林建模過程中,決策樹的規(guī)模對(duì)模型的準(zhǔn)確率有較大影響。通常在合理范圍內(nèi),決策樹數(shù)量越多,模型準(zhǔn)確率越高,當(dāng)決策樹數(shù)量達(dá)到飽和時(shí),決策樹數(shù)量變化對(duì)結(jié)果的影響變小。本研究決策樹數(shù)量由100上升到200時(shí),組合特征組的準(zhǔn)確率微小升高,單一特征組無變化,說明模型中的決策樹數(shù)量已經(jīng)飽和,決策樹的數(shù)量對(duì)結(jié)果影響不大,影響結(jié)果的因素是特征類型。

        本研究采用的4個(gè)特征在辨別氣息音時(shí)哪個(gè)特征更有效一直存在爭(zhēng)論。H1-A3對(duì)氣息音的辨別更有效[15];在識(shí)別嗓音障礙時(shí),倒譜峰突出比其他聲學(xué)測(cè)量更敏感,特異性更高[16]。本研究中,當(dāng)決策樹數(shù)量處于飽和狀態(tài)時(shí),分類器的表現(xiàn)如表1所示,使用單一特征時(shí),CPP的分類效果最佳,約為38%;使用多特征組合時(shí),CPP的特征重要性系數(shù)為28.06%,為4個(gè)特征中的第一位,這與Heman-Ackah的觀點(diǎn)[16]似乎更一致。 整體上說,不論是采用單一特征還是多特征組合形式,H1-H2、H1-A1、H1-A3、CPP在分類過程中的表現(xiàn)差異并不明顯。

        常規(guī)的嗓音聲學(xué)分析中,常用方法是對(duì)持續(xù)元音中的穩(wěn)定段進(jìn)行分析,手動(dòng)選取穩(wěn)定段中時(shí)程約1秒的嗓音音頻文件,對(duì)其進(jìn)行時(shí)閾、頻域、擾動(dòng)等特征測(cè)量。該方法對(duì)算力要求低,易操作,測(cè)量結(jié)果為時(shí)程約1秒嗓音信號(hào)的平均值。通常情況下,成年男性基頻大于100 Hz,女性和兒童更高,常規(guī)方法獲得的平均值代表了至少100個(gè)嗓音周期。病理嗓音狀態(tài)下,嗓音信號(hào)特征的變異度增大,采用常規(guī)方式獲得的特征值細(xì)節(jié)信息丟失較多,只能描述該特征的大體輪廓,不能很好的體現(xiàn)其變異狀況。 故本文借鑒圖像信息處理中的常用技巧對(duì)語音段落進(jìn)行細(xì)致分割,使每個(gè)語音片段的時(shí)程遠(yuǎn)小于1秒,但又遠(yuǎn)大于一個(gè)嗓音周期,從而獲得相對(duì)精細(xì)且可靠的特征信息。

        本文限于嗓音疾病病理學(xué)的進(jìn)展,僅選取了4種不同類型的嗓音音質(zhì)類型進(jìn)行分析。待有更多的理論基礎(chǔ)支持時(shí),應(yīng)進(jìn)行更細(xì)致的嗓音疾病分類研究。

        5 結(jié)論

        通過客觀聲學(xué)測(cè)量獲得的氣息音特征參數(shù)H1-H2、H1-A1、H1-A3、CPP可以作為區(qū)分功能性嗓音疾病、器質(zhì)性嗓音疾病、聲帶麻痹和正常嗓音的分類特征,且可以獲得較好的分類效果。

        猜你喜歡
        分類特征
        抓住特征巧觀察
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        亚洲av久久久噜噜噜噜| 亚洲综合极品美女av| 亚洲最大中文字幕熟女| 久久久精品久久久久久96| 玩弄人妻少妇精品视频| 免费无码又黄又爽又刺激| 国产女人高潮视频在线观看| 台湾佬综合网| 日韩欧美亚洲综合久久影院d3| 激情五月天伊人久久| 久久伊人色av天堂九九| 丁香五月缴情综合网| 中年人妻丰满AV无码久久不卡| 综合图区亚洲另类偷窥| 日本免费一区精品推荐| 国产在线观看一区二区三区av| 亚洲一区二区三区99| 狠狠色丁香婷婷综合潮喷| 免费网站看v片在线18禁无码| 久久久精品人妻一区二区三区| 久久AⅤ无码精品为人妻系列 | 99精品国产在热久久无码| 亚洲在AV极品无码天堂手机版 | 蜜臀久久99精品久久久久久小说| 69精品免费视频| 亚洲色www无码| 一本久久伊人热热精品中文| 亚洲av熟女少妇一区二区三区 | 精品一区二区三区女同免费 | 白白视频在线免费观看| 风流少妇一区二区三区91| 日韩一级黄色片一区二区三区 | 国产福利姬喷水福利在线观看| 久久九九有精品国产尤物 | 91久久国产自产拍夜夜嗨| 老熟妇高潮av一区二区三区啪啪| 国产一区二区三区小向美奈子| 亚洲一区av在线观看| 色狠狠色狠狠综合一区| 肉丝高跟国产精品啪啪| 阴唇两边有点白是怎么回事|