郭哲韜 石文麗 楊 濤
(南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院 南京 210023)
在信息技術(shù)飛速發(fā)展背景下國(guó)家提出中醫(yī)藥信息化發(fā)展戰(zhàn)略。中醫(yī)藥傳承與發(fā)展離不開(kāi)新技術(shù)支撐。其中中醫(yī)智能輔助診療系統(tǒng)是中醫(yī)藥信息化建設(shè)的重要引擎和技術(shù)支撐[1]。語(yǔ)音識(shí)別技術(shù)是將語(yǔ)音作為一種輸入內(nèi)容讓計(jì)算機(jī)自動(dòng)進(jìn)行識(shí)別和分析,涉及模式識(shí)別、信號(hào)處理和計(jì)算機(jī)接口等[2],是一門(mén)包括聲學(xué)、概率論、信息論和計(jì)算機(jī)科學(xué)的交叉學(xué)科[3]。隨著醫(yī)院信息化發(fā)展,中醫(yī)電子病歷應(yīng)用越來(lái)越廣泛。然而傳統(tǒng)采用計(jì)算機(jī)錄入病歷的方法效率不高,特別是名老中醫(yī)由于不熟悉電腦操作,在患者較多的情況下為提高診療效率其醫(yī)案記錄往往較為簡(jiǎn)單,患者臨床信息記錄不全,為后續(xù)中醫(yī)經(jīng)驗(yàn)總結(jié)和傳承帶來(lái)不便。提高中醫(yī)醫(yī)案數(shù)據(jù)采集與整理效率是推動(dòng)中醫(yī)傳承和研究尤其是名老中醫(yī)臨床經(jīng)驗(yàn)傳承的關(guān)鍵問(wèn)題之一。利用智能語(yǔ)音識(shí)別技術(shù)可以提供有效的解決方案,將診療原始語(yǔ)音進(jìn)行準(zhǔn)確錄制存檔,同時(shí)利用訓(xùn)練好的中醫(yī)診療語(yǔ)音識(shí)別模型進(jìn)行準(zhǔn)確識(shí)別并顯示和存檔文本,將傳統(tǒng)診療中冗余繁雜的診療過(guò)程進(jìn)行優(yōu)化,記錄形式上變“寫(xiě)病歷”為“說(shuō)病歷”,可以大幅提高診療服務(wù)效率。
國(guó)外智能語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已較為成熟。Nuance公司的臨床語(yǔ)音識(shí)別終端為全球超過(guò)50萬(wàn)名醫(yī)生及1萬(wàn)多個(gè)醫(yī)療機(jī)構(gòu)等提供技術(shù)支持。數(shù)據(jù)顯示,在美國(guó)使用Nuance產(chǎn)品Ambient Clinical Intelligence的醫(yī)生平均效率可提高30%[4]。Amazon公司研發(fā)的語(yǔ)音助手能夠高效采集電子病歷信息,為醫(yī)生的快速準(zhǔn)確診療提供方便[5]。谷歌公司的相關(guān)模型借助深度學(xué)習(xí)技術(shù)可對(duì)電子病歷進(jìn)行語(yǔ)音轉(zhuǎn)寫(xiě),使患者及家屬對(duì)于自身病情有更加精確的了解[6]。MediaInterface公司為歐洲多國(guó)醫(yī)療機(jī)構(gòu)提供語(yǔ)音技術(shù)解決方案,其核心產(chǎn)品SpeaKing作為一種利用人工智能(Artificial Intelligence,AI)技術(shù)支持醫(yī)療文檔語(yǔ)音識(shí)別的高效工具被600多家醫(yī)院、700多家醫(yī)療機(jī)構(gòu)、75 000多名用戶使用[7]。
國(guó)內(nèi)醫(yī)療智能語(yǔ)音識(shí)別技術(shù)雖然起步較晚,但發(fā)展迅速。中科匯能科技有限公司將大量醫(yī)療文本用于模型訓(xùn)練,致力于語(yǔ)言電子病歷的研究開(kāi)發(fā),其開(kāi)發(fā)的產(chǎn)品“醫(yī)語(yǔ)通”識(shí)別準(zhǔn)確率可達(dá)97%。以語(yǔ)音轉(zhuǎn)錄及人工智能技術(shù)為核心的科大訊飛公司采用軟硬件結(jié)合的方法實(shí)時(shí)記錄診療信息并即時(shí)生成結(jié)構(gòu)化電子病歷[8]。從2017年開(kāi)始科大訊飛口腔科語(yǔ)音電子病歷系統(tǒng)在北京協(xié)和醫(yī)院投入使用。云知聲智慧醫(yī)療語(yǔ)音錄入系統(tǒng)可以為臨床診療語(yǔ)音錄入提供便捷的軟硬件一體化解決方案,在醫(yī)療人工智能技術(shù)和大數(shù)據(jù)分析技術(shù)的支持下,智能語(yǔ)音交互和病歷查閱、健康風(fēng)險(xiǎn)預(yù)測(cè)和對(duì)患者分群分析得以實(shí)現(xiàn)。百度、東軟和阿里健康等公司也在智慧醫(yī)療語(yǔ)音識(shí)別領(lǐng)域進(jìn)行研究和實(shí)踐。目前還沒(méi)有專(zhuān)門(mén)針對(duì)中醫(yī)藥領(lǐng)域的語(yǔ)音助理或語(yǔ)音電子病歷。中醫(yī)和西醫(yī)的診療是兩個(gè)不同的理論系統(tǒng),中醫(yī)講究“望聞問(wèn)切”四診合參,具有獨(dú)特的術(shù)語(yǔ)體系,因而中醫(yī)診療語(yǔ)音模型無(wú)法采用傳統(tǒng)診療語(yǔ)料進(jìn)行訓(xùn)練,需要采集大量專(zhuān)門(mén)的中醫(yī)臨床語(yǔ)料進(jìn)行訓(xùn)練,同時(shí)結(jié)合中醫(yī)知識(shí)庫(kù)構(gòu)建適用于中醫(yī)領(lǐng)域的專(zhuān)用語(yǔ)音助理。
3.1.1 概述 中醫(yī)臨床智能語(yǔ)音助理核心是語(yǔ)音識(shí)別模型。通過(guò)采集中醫(yī)臨床語(yǔ)音數(shù)據(jù)訓(xùn)練適用于中醫(yī)臨床的語(yǔ)音識(shí)別模型,從中醫(yī)領(lǐng)域特定的句子分割、詞性標(biāo)注、實(shí)體識(shí)別等方面解決中醫(yī)術(shù)語(yǔ)識(shí)別問(wèn)題。通過(guò)設(shè)計(jì)軟硬件集成平臺(tái)實(shí)現(xiàn)語(yǔ)音采集、分析和識(shí)別,最終構(gòu)建中醫(yī)智能語(yǔ)音助理系統(tǒng)(以下簡(jiǎn)稱系統(tǒng))。
3.1.2 中醫(yī)語(yǔ)言識(shí)別過(guò)程 包括語(yǔ)音信息預(yù)處理、特征提取、模式匹配等核心步驟。首先對(duì)獲取的中醫(yī)診療語(yǔ)音進(jìn)行診療音頻信號(hào)處理、語(yǔ)言識(shí)別與智能降噪,再利用梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)特征提取算法得到關(guān)鍵信息并將其與語(yǔ)料庫(kù)中中醫(yī)診療語(yǔ)音識(shí)別模型進(jìn)行匹配,通過(guò)修正語(yǔ)言信息獲取不全、多音字等問(wèn)題,最后得到語(yǔ)言識(shí)別結(jié)果,見(jiàn)圖1。
圖1 語(yǔ)言識(shí)別模型構(gòu)建過(guò)程
3.1.3 系統(tǒng)構(gòu)成 包括前端和后端兩個(gè)基本模塊。前端模塊主要功能是端點(diǎn)檢測(cè)、降噪、特征提取等;后端模塊主要功能是利用訓(xùn)練好的聲學(xué)模型或者語(yǔ)言模型對(duì)診療語(yǔ)音特征向量進(jìn)行統(tǒng)計(jì)模式識(shí)別(又稱解碼),得到其包含的文字信息。此外后端模塊中還存在一個(gè)自適應(yīng)反饋模塊,可以對(duì)用戶臨床診療語(yǔ)音進(jìn)行自學(xué)習(xí),從而對(duì)聲學(xué)模型和語(yǔ)音模型進(jìn)行矯正完善,進(jìn)一步提升語(yǔ)音識(shí)別準(zhǔn)確率。
3.2.1 系統(tǒng)主要功能 包括中醫(yī)診療的語(yǔ)音讀取、語(yǔ)音處理、語(yǔ)音識(shí)別、語(yǔ)音分析、病歷生成、病歷存檔功能。語(yǔ)音讀取功能可以錄制中醫(yī)診療對(duì)話音頻;語(yǔ)音處理功能可以對(duì)診療語(yǔ)音進(jìn)行初步降噪處理;語(yǔ)音識(shí)別功能可以實(shí)現(xiàn)中醫(yī)臨床診療語(yǔ)音文件轉(zhuǎn)寫(xiě)以及中醫(yī)診療實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě);語(yǔ)音分析功能可以對(duì)語(yǔ)音識(shí)別結(jié)果進(jìn)行基于中醫(yī)臨床診療模型的評(píng)估;病歷生成功能可以提取出原始診療音頻中的關(guān)鍵信息;病歷存檔功能可以將提取出的關(guān)鍵信息保存至數(shù)據(jù)庫(kù)。此外還有用戶注冊(cè)、使用說(shuō)明、客服反饋、記錄信息等基本功能,見(jiàn)圖2。
圖2 軟件功能架構(gòu)
3.2.2 結(jié)構(gòu)化醫(yī)案及其他功能 通過(guò)語(yǔ)音識(shí)別和自然語(yǔ)言處理技術(shù)將非結(jié)構(gòu)化醫(yī)療文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),有利于診療信息存儲(chǔ)、學(xué)習(xí)與分享。結(jié)構(gòu)化醫(yī)案供醫(yī)師及科研人員追蹤改善診療方案和學(xué)習(xí)借鑒,從而提高中醫(yī)傳承效率。此外平臺(tái)支持人工在線客服線上咨詢功能以及常見(jiàn)使用問(wèn)題指導(dǎo)方案,患者可以進(jìn)行初步問(wèn)診和問(wèn)題反映。對(duì)中醫(yī)臨床診治信息進(jìn)行智能語(yǔ)音識(shí)別可以將病歷信息進(jìn)行完整存儲(chǔ)與場(chǎng)景再現(xiàn)。
采集大量原始診療語(yǔ)音數(shù)據(jù)并進(jìn)行預(yù)處理,提取長(zhǎng)度適當(dāng)?shù)脑\療語(yǔ)音制作診療模型訓(xùn)練集。通過(guò)集成標(biāo)準(zhǔn)的訊飛語(yǔ)音識(shí)別控件,結(jié)合Sphinx-4語(yǔ)音識(shí)別引擎部署中醫(yī)語(yǔ)音識(shí)別平臺(tái)。在經(jīng)過(guò)初始化配置信息、特殊發(fā)音識(shí)別、語(yǔ)音模型配置等前期準(zhǔn)備后進(jìn)行聲學(xué)模型訓(xùn)練,使用充足、同規(guī)格中醫(yī)診療語(yǔ)音數(shù)據(jù)中的中醫(yī)術(shù)語(yǔ)語(yǔ)音與語(yǔ)音詞典進(jìn)行映射,形成術(shù)語(yǔ)語(yǔ)音到文字的對(duì)應(yīng)表,完善Sphinx-4模型對(duì)應(yīng)表,最終得到中醫(yī)診療語(yǔ)音識(shí)別模型,見(jiàn)圖3。
圖3 模型構(gòu)建流程
3.4.1 總體架構(gòu) 采用客戶機(jī)/服務(wù)器(Client/Server,C/S)架構(gòu)設(shè)計(jì)中醫(yī)臨床診療智能語(yǔ)言助理,利用Python作為前后端處理語(yǔ)言,借助豐富的語(yǔ)音處理框架和較為成熟的中醫(yī)語(yǔ)音識(shí)別模型進(jìn)行音頻數(shù)據(jù)處理。采用可視化網(wǎng)頁(yè)編程技術(shù),設(shè)計(jì)相應(yīng)前端使用界面和框架,用于音頻數(shù)據(jù)采集、歸檔、識(shí)別等。采集的音頻進(jìn)行壓縮編碼后傳遞到服務(wù)端進(jìn)行語(yǔ)音識(shí)別解析;識(shí)別完成得到較為準(zhǔn)確的結(jié)果后通過(guò)網(wǎng)絡(luò)傳遞到后端,后端再將識(shí)別文本傳遞到前端顯示。系統(tǒng)在使用時(shí)部分功能需協(xié)同作用,因此在界面設(shè)計(jì)過(guò)程中將語(yǔ)音讀取功能與語(yǔ)音處理功能、語(yǔ)音識(shí)別功能與語(yǔ)音分析功能、病歷生成功能與病歷存檔功能進(jìn)行合并,形成3個(gè)核心模塊。
3.4.2 中醫(yī)診療語(yǔ)音讀取與處理模塊 該模塊將診療語(yǔ)音進(jìn)行錄制與存檔,錄制過(guò)程會(huì)進(jìn)行語(yǔ)音預(yù)處理以提升信噪比,減少噪聲對(duì)實(shí)驗(yàn)數(shù)據(jù)的影響,錄制完成后自動(dòng)本地存檔。
3.4.3 中醫(yī)診療語(yǔ)音識(shí)別與分析模塊 該模塊將中醫(yī)臨床診療語(yǔ)音進(jìn)行文件轉(zhuǎn)寫(xiě)或?qū)崟r(shí)轉(zhuǎn)寫(xiě),經(jīng)過(guò)中醫(yī)診療語(yǔ)音模型轉(zhuǎn)寫(xiě)后中醫(yī)術(shù)語(yǔ)識(shí)別準(zhǔn)確率可達(dá)90%以上,準(zhǔn)確率將隨模型完善進(jìn)一步提升,轉(zhuǎn)寫(xiě)完成后可供醫(yī)生和患者進(jìn)行后續(xù)分析。
3.4.4 中醫(yī)診療病歷生成與存檔模塊 該模塊可以在語(yǔ)音識(shí)別完成后提取識(shí)別結(jié)果中的關(guān)鍵詞并進(jìn)行存檔,便于醫(yī)生與患者快速獲取診療關(guān)鍵信息,并可優(yōu)化二次診療的數(shù)據(jù)。
本研究將語(yǔ)音識(shí)別技術(shù)應(yīng)用到中醫(yī)臨床診療領(lǐng)域,實(shí)現(xiàn)高效便捷的臨床診療信息錄入,為醫(yī)生帶來(lái)便利。由于在實(shí)際診療過(guò)程中外部環(huán)境較為嘈雜,語(yǔ)音識(shí)別干擾項(xiàng)較多,包括方言和口音問(wèn)題等,可能導(dǎo)致語(yǔ)音識(shí)別速度較慢和語(yǔ)音識(shí)別無(wú)效等,對(duì)中醫(yī)臨床診療帶來(lái)不便,利用特征提取的方法可以有效去除聲音樣本中無(wú)效的冗余信息。目前在語(yǔ)音識(shí)別領(lǐng)域梅爾倒譜系數(shù)是較為廣泛應(yīng)用的特征參數(shù)之一[9],該參數(shù)基于人耳感知的特性,在抗噪聲能力和魯棒性方面表現(xiàn)優(yōu)異[10]。此外研究適用于平穩(wěn)和非平穩(wěn)兩類(lèi)噪聲環(huán)境的語(yǔ)音端點(diǎn)檢測(cè)技術(shù),通過(guò)排除噪聲干擾可以有效提升語(yǔ)音識(shí)別速度。同時(shí)在語(yǔ)音識(shí)別的預(yù)處理階段采用語(yǔ)音增強(qiáng)算法,進(jìn)一步增強(qiáng)語(yǔ)音可理解程度和信噪比。對(duì)于實(shí)際診療中出現(xiàn)的名老中醫(yī)方言識(shí)別問(wèn)題等,將利用深度學(xué)習(xí)算法進(jìn)行優(yōu)化,對(duì)不同方言進(jìn)行語(yǔ)言識(shí)別訓(xùn)練和設(shè)置容錯(cuò)機(jī)制。本研究還將對(duì)算法抗干擾能力進(jìn)行優(yōu)化以應(yīng)對(duì)診療環(huán)境嘈雜和中醫(yī)醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)語(yǔ)音輸入難等核心問(wèn)題,高效輔助醫(yī)師診療。
目前中醫(yī)語(yǔ)音識(shí)別平臺(tái)可以實(shí)現(xiàn)語(yǔ)音的有效識(shí)別,靈活設(shè)置停頓符號(hào)和換行。但未實(shí)現(xiàn)與中醫(yī)院內(nèi)醫(yī)生開(kāi)方管理系統(tǒng)、舌苔檢查圖片管理系統(tǒng)、藥房藥庫(kù)管理系統(tǒng)等信息系統(tǒng)的對(duì)接融合,導(dǎo)致信息分散。為了實(shí)現(xiàn)真正智能化,將中醫(yī)語(yǔ)音識(shí)別平臺(tái)與信息化系統(tǒng)進(jìn)行對(duì)接融合,實(shí)現(xiàn)信息共享,建立模板[11],通過(guò)語(yǔ)音識(shí)別與分析進(jìn)行智能填寫(xiě)和模板導(dǎo)入導(dǎo)出,為醫(yī)生帶來(lái)便利。中醫(yī)臨床各學(xué)科差異較大,門(mén)類(lèi)多且專(zhuān)業(yè)性強(qiáng),中藥、方劑等術(shù)語(yǔ)較多,中醫(yī)藥特殊劑量、特殊診法、中藥材炮制方法等不盡相同,還需持續(xù)深入研究探索,對(duì)中醫(yī)臨床診療語(yǔ)料庫(kù)不斷進(jìn)行更新、擴(kuò)充[12],并與醫(yī)學(xué)知識(shí)庫(kù)進(jìn)行深度融合。
通過(guò)自然語(yǔ)言處理技術(shù)對(duì)中醫(yī)診療過(guò)程中的相關(guān)信息進(jìn)行詳細(xì)記錄,實(shí)現(xiàn)高效、便捷的診療,提高中醫(yī)臨床診療效率,為患者提供詳細(xì)的臨床信息記錄,不僅具備即時(shí)性、準(zhǔn)確性和可存儲(chǔ)性,而且可實(shí)現(xiàn)對(duì)醫(yī)患雙方的有效保護(hù)。未來(lái)中醫(yī)語(yǔ)音識(shí)別技術(shù)和平臺(tái)將越來(lái)越成熟,更好地為中醫(yī)臨床提供支撐。