姚圣森 武曉靜
(1.深圳大學(xué)醫(yī)學(xué)部,廣東 深圳 518055; 2.深圳大學(xué)總醫(yī)院心血管內(nèi)科,廣東 深圳 518055)
隨著現(xiàn)代社會進(jìn)入數(shù)字化時代,語音技術(shù)作為一種新的信息識別和資料收集工具,不僅滲透到日常生活,也作為一種新型的疾病監(jiān)測、診療工具和研究方法開始在臨床上出現(xiàn)。由于發(fā)音受聲帶/喉和大腦語言中樞調(diào)節(jié),與咽喉部及中樞神經(jīng)系統(tǒng)相關(guān)的疾病可能直接影響到語音,因此,語音與咽喉及神經(jīng)系統(tǒng)疾病之間關(guān)系的研究起步較早,目前不僅是嗓音相關(guān)疾病診斷的主要方法,也已成功用于帕金森綜合征、阿爾茨海默病、孤獨癥等疾病的識別與監(jiān)測[1-2]。雖然在20世紀(jì)80年代,人們就認(rèn)識到心臟跳動可影響言語的基頻[3],但通常并不認(rèn)為語音和心臟相關(guān),語音與心血管疾病間的關(guān)系長期未受到關(guān)注。隨著人工智能(artificial intelligence,AI)在各領(lǐng)域的迅猛發(fā)展,人們通過各種語音軟件和設(shè)備記錄患者說話聲音后,通過相關(guān)的語音分析工具,如HearO語音應(yīng)用程序,應(yīng)用機器學(xué)習(xí)或各種以AI為基礎(chǔ)的算法與臨床數(shù)據(jù)相結(jié)合,發(fā)現(xiàn)語音特征變化與冠心病(coronary heart disease,CHD)、心衰、肺動脈高壓(pulmonary hypertension,PH)等常見心血管疾病間的確存在聯(lián)系和規(guī)律。語音具有個體化、易采集、費用低等優(yōu)點,可能成為一種新的輔助方法用于未來心血管疾病的管理和監(jiān)測?,F(xiàn)主要就近年語音在常見心血管疾病診療和評估中的研究進(jìn)展做一綜述。
由于生活方式、人口老齡化等因素,動脈粥樣硬化性心血管疾病(atherosclerotic cardiovascular disease,ASCVD)在很長一段時間里累積發(fā)病率和死亡率均處于高位,嚴(yán)重影響人類健康和生活質(zhì)量。CHD是ASCVD的主要表現(xiàn)形式,20世紀(jì)70年代后,介入心臟病學(xué)的快速發(fā)展使CHD診療水平顯著提高并快速普及,然而如何早期識別促動脈粥樣硬化危險因素,早期發(fā)現(xiàn)CHD,一直是ASCVD防控領(lǐng)域研究和探索的重要話題[4]。始于20世紀(jì)50年代的Framingham心臟研究使人們認(rèn)識到促動脈粥樣硬化危險因素在心血管疾病發(fā)病中的重要性,對血脂、血壓、血糖、體重等危險因素的認(rèn)識和控制,使美國在20世紀(jì)70年代迎來了心血管疾病死亡率下降的拐點。中國學(xué)者[5]利用來自中國ASCVD風(fēng)險預(yù)測研究中的大樣本數(shù)據(jù),建立了用于心血管疾病10年風(fēng)險和終生風(fēng)險評估的China-PAR模型,其目的也是探索適合中國人群特點的危險因素分層和控制方法,從而降低中國ASCVD的發(fā)生率和死亡率。
目前已認(rèn)識到的與動脈粥樣硬化和CHD相關(guān)的傳統(tǒng)危險因素,主要包括年齡、性別、體重指數(shù)、血壓、吸煙、血脂異常、糖尿病、高同型半胱氨酸等。隨著人們生活進(jìn)入AI時代,研究者們還發(fā)現(xiàn)了與CHD相關(guān)的新型預(yù)測因素。Lin等[6]通過計算機深度學(xué)習(xí)算法分析面部照片,發(fā)現(xiàn)有些面部特征能輔助預(yù)測CHD風(fēng)險。語音作為一種個體化特征,在CHD風(fēng)險預(yù)測方面的作用也開始嶄露頭角。最初,Levanon等[7]對健康受試者和心臟病患者的語音樣本進(jìn)行初步分析,發(fā)現(xiàn)心臟病患者可能有異于健康人的語音特征,提示語音能輔助判斷心血管疾病,并申請了專利。Maor等[8]納入了101例計劃行冠狀動脈造影的受試者,根據(jù)冠狀動脈造影結(jié)果將受試者分為CHD組(n=71)和非CHD組(n=30),同時招募了37例對照組受試者,指導(dǎo)所有納入對象分別用中性、積極、消極3種情感說話,并將個人語音記錄到智能手機后,分析其基于倒譜的聲學(xué)特征參數(shù),通過單因素logistic回歸分析發(fā)現(xiàn)5個與CHD相關(guān)的語音特征,分別為 Feature15、43、49、71和78,他們同時將這些語音特征與ASCVD危險因素進(jìn)行多因素logistic回歸分析,發(fā)現(xiàn)用消極情緒說話時,Feature43為CHD的獨立預(yù)測因素(OR=4.01,95%CI1.25~12.84,P=0.02);用積極情緒說話時,Feature71為CHD的獨立預(yù)測因素(OR=0.37,95%CI0.18~0.79,P=0.009)。在另一項研究中,Pareek等[9]納入了80例CHD患者和80例年齡匹配的健康對照受試者,指導(dǎo)受試者發(fā)出元音/a/并持續(xù)4 s,通過多維語音程序處理語音信號,結(jié)果發(fā)現(xiàn)與健康對照組相比,CHD患者語音特征中的聲譜圖、長期平均譜、頻率微擾、振幅微擾、振幅擾動商等存在差異,提示多維語音程序可用于識別CHD的患病風(fēng)險。目前,語音在CHD評估中的研究剛剛起步,多為小樣本臨床觀察,CHD患者出現(xiàn)語音變異的規(guī)律尚需大規(guī)模臨床研究驗證。然而,語音作為一種新型輔助評估方法,在未來預(yù)測和評估動脈粥樣硬化和CHD風(fēng)險中的潛在價值已初步呈現(xiàn)。
心衰是多數(shù)常見心血管疾病的終末階段,由于潛在患病人數(shù)多,心衰的死亡率及再住院率在未來相當(dāng)一段時間仍呈逐年攀升趨勢,已成為嚴(yán)重危害人類健康的重大慢性疾病。隨著心衰規(guī)范化診療進(jìn)展及各地心衰中心的建設(shè),對心衰防治的重視使其長期預(yù)后得到改善。然而,心衰病程長,常在代償與失代償間轉(zhuǎn)換,再住院率高是目前存在的主要問題。如何早期識別心衰風(fēng)險,預(yù)警和識別心衰失代償是心衰慢病管理的重要內(nèi)容。
臨床上監(jiān)測心衰常用的客觀方法包括測體重,通過體格檢查發(fā)現(xiàn)凹陷性水腫以及在醫(yī)院內(nèi)通過檢測血清生物標(biāo)志物如腦利尿鈉肽、N末端腦鈉肽前體(N-terminal pro-brain natriuretic peptide,NT-proBNP)等方法,這些方法往往用于已出現(xiàn)了失代償性心衰的患者,評估其病情嚴(yán)重程度。新近興起的通過植入裝置進(jìn)行血流動力學(xué)或肺水含量監(jiān)測,如CardioMEMS、MultiSENSE、ReDS等傳感器裝置[10-12],以及通過HeartLogic多傳感器指數(shù)和警報算法評估[13],可實現(xiàn)患者心衰失代償事件的提前預(yù)警。然而以上方法使用的設(shè)備昂貴且為侵入式,需植入傳感器或已安裝過起搏器,僅適合小部分重癥心衰患者。仍有絕大多數(shù)心衰患者缺乏客觀、便捷、非侵入式的監(jiān)測和預(yù)警方法。
近年來,語音在心衰危險分層及失代償早期預(yù)警方面的研究進(jìn)展迅速。以色列Sheba醫(yī)學(xué)中心Maor等[14]在一項注冊研究中收集了10 583例慢性病患者的語音,其中慢性心衰患者2 267例,通過Vocalis Health程序進(jìn)行語音處理,從每例患者20 s語音記錄中共提取了223個聲學(xué)特征,根據(jù)四分位法基于聲學(xué)特征,從低到高將患者分為Q1~Q4四組,隨訪20個月時824例(36%)患者死亡,Kaplan-Meier生存分析發(fā)現(xiàn),與Q1組相比,Q2、Q3、Q4組的死亡風(fēng)險分別增加30%、70%和170%,住院風(fēng)險分別增加18%、35%和69%。他們的研究提示基于心衰患者語音特征的分析能輔助進(jìn)行心衰患者的危險分層,幫助識別高風(fēng)險患者。Murton等[15]在一項pilot研究中觀察了10例接受利尿劑治療的急性失代償性心衰患者,采集治療期間每日患者的語音,發(fā)現(xiàn)患者經(jīng)過利尿劑治療后,說話速度較前變快,呼吸頻率降低,在語音特征上表現(xiàn)為嘎裂聲百分比升高,基頻增加,倒譜峰值突出度降低。他們的研究提示對于心衰患者,語音變化較水腫出現(xiàn)更早,失代償性心衰患者的語音特征能在傳統(tǒng)的癥狀和體征出現(xiàn)前探測到心衰失代償。Reddy等[16]分別建立了25例健康者和20例心衰患者的語音資料庫,分別提取語音片段并分析梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)及聲門特征,通過支持向量機(support vector machine,SVM)、極限樹、AdaBoost和前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural network,FFNN)四種機器學(xué)習(xí)算法進(jìn)行了個體特征及其組合的訓(xùn)練,FFNN分類器性能最優(yōu),準(zhǔn)確率為81.51%,表明通過對MFCC和聲門特征的機器學(xué)習(xí)訓(xùn)練,可用于自動識別心衰患者與健康者。Amir等[17]在一項單中心觀察性研究中對5例進(jìn)行規(guī)律透析的心衰患者進(jìn)行研究,患者每周進(jìn)行3次血液透析,分別記錄透析當(dāng)天中午/傍晚以及第二天早上和晚上的語音,獲得不同時間點的語音測量值(speech measures,SM),然后通過智能手機應(yīng)用程序算法對語音進(jìn)行分析,發(fā)現(xiàn)透析前的中位基線SM為0.87±0.17,在透析療程結(jié)束后的中午上升至1.07±0.15(P=0.035 5),并在第二天早上前保持在類似的水平(P=0.007),直到透析后的第二天晚上,SM恢復(fù)到基線水平(0.88±0.19),且透析后即刻體重的變化與SM呈正相關(guān)。隨后Amir等[18]繼續(xù)開展了一項單臂觀察性研究,通過HearO語音應(yīng)用程序,獲取了40例成年急性失代償性心衰患者入院及治療后出院的語音數(shù)據(jù),并分析了5個不同的語音測量值(SM1~SM5),結(jié)果表明,與基線相比,SM的變化率分別為:SM1平均為91%(中位68%),SM2為165%(中位108%),SM3為218%(中位158%),SM4為200%(中位143%),SM5為49%(中位34%)。他們的研究提示心衰患者的語音SM能反映容量負(fù)荷變化和液體潴留情況。語音與手機結(jié)合預(yù)測心衰的研究為心衰的院前居家監(jiān)測提供了便捷、可行的方法。Sch?bi等[19]對68例急性心衰患者和36例穩(wěn)定性心衰患者的語音停頓率(pause ratio,PR)特征進(jìn)行了評估,通過自動提取語音停頓特征,并將其與臨床指標(biāo),包括紐約心功能分級、外周水腫的嚴(yán)重程度、肺聽診異常和NT-proBNP水平等進(jìn)行相關(guān)性分析,結(jié)果發(fā)現(xiàn)與穩(wěn)定期患者相比,急性心衰患者的PR為14.9%,PR與NT-proBNP水平呈正相關(guān);該研究表明PR可用于識別急性心衰患者,尤其在NT-proBNP尚未出現(xiàn)改變時,可作出早期預(yù)測。
水鈉潴留是失代償性心衰患者最重要的臨床表現(xiàn)之一,心衰患者發(fā)生語音變化可能與聲帶水腫有關(guān),其機制尚待進(jìn)一步研究。然而,語音輔助心衰患者危險分層的研究及語音特征變化能較體重和水腫更敏感地預(yù)警心衰失代償發(fā)生的現(xiàn)象,提示語音在心衰監(jiān)測中的潛在價值。尤其語音具有無創(chuàng)、實時、低成本、適合居家監(jiān)測等優(yōu)點,語音監(jiān)測在心衰慢病管理和遠(yuǎn)程隨訪中的臨床應(yīng)用前景值得期待。
PH是指由多種病因和不同發(fā)病機制所致肺血管結(jié)構(gòu)或功能改變,引起肺血管阻力和肺動脈壓力升高的臨床和病理生理綜合征。根據(jù)患者臨床特征、病因和肺血流動力學(xué)特點,國際上公認(rèn)把PH分為五大類,其中由左心疾病引起的左心疾病相關(guān)性肺動脈高壓(pulmonary hypertension due to left heart disease,PH-LHD)屬于第二大類PH,是PH中常見的類型。PH-LHD發(fā)生于心衰基礎(chǔ)上,與心衰的臨床表現(xiàn)相似,主要表現(xiàn)為氣短、乏力、運動耐量下降等癥狀。因此,很難僅從臨床表現(xiàn)判斷心衰患者是否并發(fā)了PH。血流動力學(xué)檢查是PH診斷的金標(biāo)準(zhǔn)。然而,目前臨床上右心導(dǎo)管檢查尚不是左心疾病和心衰患者的常規(guī)檢查,同時由于其有創(chuàng)性,也不適合作為心衰患者的早期篩查和隨訪方法。心臟超聲由于能準(zhǔn)確評估心臟結(jié)構(gòu)改變、估測肺動脈收縮壓及無創(chuàng)等優(yōu)勢廣泛用于臨床,但其對早期和輕度肺動脈壓升高的患者存在敏感性低和穩(wěn)定性差的局限性,部分PH,尤其早期輕癥患者可能會漏診,限制了其對PH-LHD的早期識別。目前用于輔助判斷PH嚴(yán)重程度和預(yù)后的腦利尿鈉肽等血清標(biāo)志物診斷PH的特異性不強。如何早期發(fā)現(xiàn)PH一直是困擾臨床醫(yī)生的問題。
在PH患者語音特征分析研究中,Sara和Maor等[20]采用雙盲法對83例具有臨床指征行有創(chuàng)心導(dǎo)管檢查的患者進(jìn)行研究,這些受試者的肺動脈壓力在語音采集過程中是未知的,對每例受試者通過智能手機記錄三段不同情感體驗的語音,對每個單獨記錄測定語音生物標(biāo)志物值,該生物標(biāo)志物是Maor等[14]研究者在以色列Sheba醫(yī)學(xué)中心注冊的一組慢性病患者(n=10 583)中開發(fā)的,它是由每個患者20 s的語音中提取的223個聲學(xué)特征的線性組合而成的標(biāo)量,在本研究中,每個受試者的語音記錄與該語音生物標(biāo)志物值之間的組內(nèi)相關(guān)系數(shù)為0.829(95%CI0.740~0.889);根據(jù)患者心導(dǎo)管檢查結(jié)果,將患者分為高肺動脈壓力組(≥35 mm Hg,n=27)(1 mm Hg=0.133 3 kPa)和低肺動脈壓力組(<35 mm Hg,n=56),發(fā)現(xiàn)高肺動脈壓力組患者的平均語音生物標(biāo)志物值顯著高于低肺動脈壓力組患者;在調(diào)整年齡、性別、高血壓、糖尿病和紐約心功能分級后,多因素logistic回歸分析發(fā)現(xiàn)該平均語音生物標(biāo)志物值是PH的獨立危險因素(OR=2.31,95%CI1.05~5.07)。他們的研究表明語音特征改變可能與PH嚴(yán)重程度相關(guān),語音分析可能有助于PH早期篩查。然而,目前關(guān)于PH與語音關(guān)聯(lián)性分析的研究較少,PH患者出現(xiàn)語音變化的機制不清,可能與肺動脈增寬或心房增大致左喉返神經(jīng)部分受壓有關(guān),類似于心臟-聲帶綜合征(亦稱Ortner’s syndrome)。PH患者語音改變的特點、機制及在臨床診療中的價值和意義尚待進(jìn)一步研究。
高血壓是一個嚴(yán)重的全球問題,流行病學(xué)數(shù)據(jù)表明,由于人口老齡化,高血壓的患病率亦逐年增加。高血壓是多種心血管疾病發(fā)展的危險因素,也是導(dǎo)致死亡的主要原因之一。新近研究發(fā)現(xiàn)血壓水平與語音也存在關(guān)聯(lián)。Ankhan[21]在相同的環(huán)境條件下從86個受試者錄制了230種音頻數(shù)據(jù),同時使用袖帶血壓計測量血壓值,根據(jù)血壓水平進(jìn)行不同的分組,采用卷積神經(jīng)網(wǎng)絡(luò)-回歸(convolutional neural network-regression,CNN-R)、支持向量機-回歸(support vector machine-regression,SVM-R)和多元線性回歸(multiple linear regression,MLR)等模型對語音和血壓值進(jìn)行算法關(guān)聯(lián)及預(yù)測。結(jié)果發(fā)現(xiàn)不同血壓水平條件下語音特征不同,當(dāng)分組為較高血壓水平組(121~160/81~110 mm Hg)和較低血壓水平組(90~120/60~80 mm Hg),使用ReliefF算法時,不同模型對收縮壓值預(yù)測率分別如下:MLR為89.43%,SVM-R為92.15%,CNN-R為93.65%;而對舒張壓值的預(yù)測率分別如下:MLR為80.06%,SVM-R為82.89%,CNN-R為84.87%。他們的研究提示血壓水平不同患者的語音特征不同,語音特征能反映不同的血壓水平。目前,語音與高血壓的研究較少,機制尚不清楚,語音特征在高血壓的早期識別、監(jiān)測及研究中的指導(dǎo)價值尚待進(jìn)一步研究。
語音解碼和分析技術(shù)作為一種新興的非侵入性監(jiān)測方法,在動脈粥樣硬化和CHD風(fēng)險預(yù)測、心衰危險分層和失代償預(yù)警、PH識別和嚴(yán)重程度判斷及高血壓輔助監(jiān)測等方面,已初步顯示潛在的應(yīng)用前景和價值。目前研究多集中在現(xiàn)象觀察,樣本量少。心血管疾病為何會產(chǎn)生語音變異,其機制尚缺乏深入研究。同時,不同心血管疾病語音變異規(guī)律及特點尚待系統(tǒng)研究。然而,語音具有獨特的個體化、易采集、低成本、適合遠(yuǎn)程和居家監(jiān)測等優(yōu)點,尤其隨著5G網(wǎng)絡(luò)和AI這兩個重大技術(shù)的突破和發(fā)展,再加上配備有語音助手或家庭設(shè)備的智能手機、平板等通信聯(lián)絡(luò)工具的普及,將語音解碼和分析技術(shù)集成到虛擬醫(yī)生和智慧醫(yī)療中,用于心血管疾病的居家或遠(yuǎn)程監(jiān)測和評估成為可能。
然而,語音應(yīng)用于真實世界監(jiān)測和診療還存在一些問題尚待解決。一方面,由于大多數(shù)心血管疾病患者年齡相對較大,且中國是多民族國家,使用語音技術(shù)還需考慮到地域和方言等問題,需了解不同年齡、性別、地域、文化等因素對語音相關(guān)特征的影響;另一方面,語音數(shù)據(jù)可能同時包含敏感的個人信息,因為其可能代表一個人的身份、種族等信息,或在云端所保存的個人健康信息,需采取一定的措施來保護(hù)其安全性。然而,語音作為一種新的疾病監(jiān)測和信息收集方式,已顯示其獨特的優(yōu)越性和潛在價值,語音指導(dǎo)的心血管疾病監(jiān)測可能成為未來心血管疾病慢病管理和研究的輔助方法。