■文/王 浩
隨著相關(guān)技術(shù)的成熟與發(fā)展,語音技術(shù)將會贏來如智能手機(jī)般的突破式發(fā)展機(jī)遇,其與各個產(chǎn)業(yè)的結(jié)合在深度和廣度上也會不斷強(qiáng)化。
在神經(jīng)網(wǎng)絡(luò)算法等的推動下,語音識別準(zhǔn)確率超過了人類的平均水準(zhǔn),語音技術(shù)開始融入具體的應(yīng)用場景。如美國亞馬遜公司Echo這樣的應(yīng)用開始涌現(xiàn);地圖應(yīng)用時習(xí)慣用語音輸入目的地的用戶越來越多;高德地圖合成的林志玲聲音和真人也無二致;上海街頭開始通過聲吶結(jié)合視頻識別來捕捉在中心區(qū)域鳴笛的汽車……
語音識別與醫(yī)療碰撞在一起又會閃現(xiàn)出什么樣的火花?
語音識別是將一段包括自然語言發(fā)音的聲學(xué)信號投影到對應(yīng)說話人的詞序列上。傳統(tǒng)做法以20毫秒為一幀來分割信號組成輸入向量,許多語音識別系統(tǒng)還會通過特殊的手工設(shè)計(jì)方法預(yù)處理輸入信號,從而提取特征,某些深度學(xué)習(xí)系統(tǒng)則直接從原始輸入中學(xué)習(xí)特征。
自2013年深度學(xué)習(xí)算法大規(guī)模在語音識別中運(yùn)用后,語音識別準(zhǔn)確度飛速提升,從2013年的約77%到現(xiàn)在已經(jīng)超過95%,人類的平均語音識別準(zhǔn)確度就約為95%。
說到語音識別公司就不得不提Nuance,蘋果手機(jī)Siri使用的就是Nuance技術(shù)。Nuance公司2016財(cái)年收入19億美元,其中約10億美元來自醫(yī)療產(chǎn)業(yè),也就是說超過50%的收入來自醫(yī)療產(chǎn)業(yè)的應(yīng)用。而中國的語音識別技術(shù)公司在醫(yī)療產(chǎn)業(yè)的應(yīng)用推廣才剛開始。了解Nuance公司在醫(yī)療產(chǎn)業(yè)的布局能幫助我們建立對語音識別技術(shù)與醫(yī)療結(jié)合的基本理解。
Nuance公司在醫(yī)療領(lǐng)域的應(yīng)用幾乎都圍繞各類臨床文檔展開,包括醫(yī)囑、病歷、診療記錄等。Nuance公司所從事的具體工作簡單來說就是借助語音識別等技術(shù)手段幫助醫(yī)院和醫(yī)生記錄、編輯、清理、整理各類醫(yī)學(xué)文檔。Nuance公司將這個業(yè)務(wù)做到了極致:從技術(shù)角度來看,Nuance公司不僅有專業(yè)的語音識別技術(shù),還在印度有超過6 800人的編輯團(tuán)隊(duì)對語音識別過后的內(nèi)容進(jìn)行校驗(yàn)和優(yōu)化(據(jù)了解還有更多的校驗(yàn)工作通過眾包來完成);另一方面,Nuance公司的語音識別技術(shù)和既有醫(yī)療信息化系統(tǒng)深度融合,其支持美國所有主流的醫(yī)療信息化系統(tǒng)廠商如Epic公司、Cerner公司、eClinicalWorks公司和athenahealth公司等,醫(yī)生的語音輸入能夠流暢地和醫(yī)院信息化系統(tǒng)打通,嵌入到醫(yī)院的既有工作流中。
Nuance的醫(yī)療業(yè)務(wù)分為4塊。
1.轉(zhuǎn)錄服務(wù):所謂轉(zhuǎn)錄服務(wù)就是幫助醫(yī)生將各類院內(nèi)醫(yī)療記錄數(shù)據(jù)錄入以及整理。Nuance系統(tǒng)將醫(yī)生的語音通過自動識別做第一道處理,再通過印度團(tuán)隊(duì)來做進(jìn)一步處理以提高準(zhǔn)確度。這個服務(wù)也同樣提供給保險(xiǎn)公司等對醫(yī)療數(shù)據(jù)完整性、高質(zhì)量有要求的醫(yī)療健康組織。
2.龍醫(yī)療(Dragon Medical):龍醫(yī)療是聽讀軟件系統(tǒng),是Nuance服務(wù)的核心。它能夠幫助醫(yī)生將口述內(nèi)容轉(zhuǎn)換成文字并錄入到電子健康記錄(EHR)等系統(tǒng)里。這套系統(tǒng)融合了各類模板來簡化并引導(dǎo)醫(yī)生的輸入,現(xiàn)在還能基于智能技術(shù)實(shí)時幫助醫(yī)生解決護(hù)理患者時遇到的問題。
3.臨床文檔改進(jìn)和編碼解決方案:這個方案可以確保醫(yī)療信息被正確編碼、評估并妥當(dāng)?shù)乇4嫦聛?。這個服務(wù)可以幫助醫(yī)療機(jī)構(gòu)遵從合規(guī)要求,并提高編碼效率以及時地獲得保險(xiǎn)理賠(保險(xiǎn)公司對理賠時提供的數(shù)據(jù)準(zhǔn)確性等有較高要求)。
4.診斷解決方案:這個方案可以幫助放射科醫(yī)生方便地保存、分享醫(yī)學(xué)影像以相互協(xié)作,進(jìn)而改進(jìn)醫(yī)療質(zhì)量。
根據(jù)Nuance公司公開的數(shù)據(jù),龍醫(yī)療平臺的語音病歷錄入準(zhǔn)確率已經(jīng)高達(dá)99%,能夠幫助臨床醫(yī)生將文檔事務(wù)的處理效率提升45%?;贜uance公司的臨床語音識別技術(shù),醫(yī)生平均每年能夠記錄超過1億患者的數(shù)據(jù)。目前,Nuance公司的醫(yī)療語音解決方案在美國醫(yī)療機(jī)構(gòu)中的覆蓋率高達(dá)72%,其客戶分布在全球30余個國家和地區(qū),已經(jīng)有50萬名臨床醫(yī)師和1萬臺醫(yī)療設(shè)備采用其醫(yī)療語音解決方案。
Nuance公司的這些創(chuàng)始性工作具有啟迪意義。在了解Nuance公司之前,很少有人意識到一家以人工智能聞名的公司需要配備如此多的人員來從事人工校驗(yàn)工作。作為服務(wù)提供商來說,最重要的是質(zhì)量和效率,在人工智能真正取代人工之前,為保障服務(wù)的質(zhì)量與效率,“人工智能”+“人工結(jié)合”的解決方案是更為務(wù)實(shí)的選擇。我們同樣也沒有意識到僅僅提供醫(yī)療文檔的輔助性服務(wù),Nuance公司就能每年獲得10億美元的收入。聯(lián)想到目前國內(nèi)醫(yī)療數(shù)據(jù)的孤島以及大量臟數(shù)據(jù)存在的問題,也許這里面同樣存在著大量未被釋放的商機(jī)等待著創(chuàng)新企業(yè)家們?nèi)ネ诰颉?/p>
與Nuance公司對標(biāo)的中國公司是語音識別先驅(qū)公司科大訊飛??拼笥嶏w成立于1999年,專業(yè)從事智能語音以及語言技術(shù)研究、軟件及芯片產(chǎn)品的開發(fā)等。公司目前主要的產(chǎn)品化應(yīng)用是在教育行業(yè),隨著產(chǎn)業(yè)的發(fā)展,近來開始發(fā)力智慧醫(yī)療市場??拼笥嶏w在醫(yī)療領(lǐng)域的產(chǎn)品分6大塊,和Nuance公司的類似之處是其核心均在于將語音識別技術(shù)融入醫(yī)生的日常工作流。
1.醫(yī)療聽寫SDK:該功能可以精準(zhǔn)識別醫(yī)療詞匯,實(shí)現(xiàn)語音文字間轉(zhuǎn)化,這部分功能開放給其他醫(yī)療信息化服務(wù)廠商,并通過軟件授權(quán)等來獲取費(fèi)用。
2.硬件麥克風(fēng):此功能專門提供給醫(yī)生使用的麥克風(fēng),針對醫(yī)療工作場景設(shè)計(jì)的高信噪比、環(huán)境適應(yīng)能力強(qiáng)的麥克風(fēng)可以配套訊飛的軟件使用,公司則從硬件銷售或軟硬一體化銷售中獲取費(fèi)用。
3.口腔電子病歷:這是結(jié)合口腔科的使用場景開發(fā)的支持語音輸入的電子病歷系統(tǒng),公司通過軟件銷售等來獲得費(fèi)用。2016年9月,科大訊飛與北京大學(xué)口腔醫(yī)院口腔數(shù)字化醫(yī)療技術(shù)和材料國家工程實(shí)驗(yàn)室共建的“基于語音的門診病歷采集系統(tǒng)”投入試點(diǎn)。截至2016年底,訊飛智能語音系統(tǒng)已經(jīng)在北京301醫(yī)院、上海瑞金醫(yī)院、北京大學(xué)口腔醫(yī)院、安徽省立醫(yī)院等20多家醫(yī)院應(yīng)用。
4.超聲助理:與口腔電子病歷類似,超聲助理是專門提供給超聲科醫(yī)生使用的語音錄入系統(tǒng)。
5.云醫(yī)生:這個功能可以輔助醫(yī)生查房、記錄、檢查等,核心應(yīng)用是在醫(yī)生查房時通過醫(yī)生口述來識別并記錄數(shù)據(jù)。
6.醫(yī)療服務(wù)機(jī)器人:科大訊飛可以說是較早進(jìn)入醫(yī)療服務(wù)機(jī)器人領(lǐng)域的企業(yè),其在合肥市第一人民醫(yī)院和北京301醫(yī)院先后投入了“曉曼”醫(yī)療輔助機(jī)器人,“曉曼”能通過語音識別提供向?qū)А⒆稍?、分流等服?wù)。據(jù)報(bào)道,“曉曼”可以提供醫(yī)院位置咨詢、219個常見病和癥狀咨詢、51個常見知識問詢,還能夠通過自適應(yīng)學(xué)習(xí)提升在方言上的理解能力。
總體來說,硬件麥克風(fēng)和語音電子病歷構(gòu)成了科大訊飛醫(yī)療智能語音產(chǎn)品的核心。這個體系通常由3部分組成:夾在醫(yī)生領(lǐng)口的醫(yī)學(xué)麥克風(fēng)、裝在醫(yī)生口袋的發(fā)射器及插在工作電腦上的接收器。診斷過程中,醫(yī)生以口述的方式說出患者的病歷,系統(tǒng)通過自然語言處理技術(shù)將其轉(zhuǎn)換成結(jié)構(gòu)化的信息,形成包括患者檢查史、病史、檢查結(jié)果、身體指標(biāo)等信息的結(jié)構(gòu)化電子病歷,并在工作電腦上生成記錄。相比龍醫(yī)療平臺近10年的應(yīng)用和50萬名醫(yī)師的覆蓋,科大訊飛的語音病歷系統(tǒng)仍處于商用的初級階段,產(chǎn)品的推廣和技術(shù)升級仍有待時日。對于科大訊飛公司來說,好消息是龍醫(yī)療產(chǎn)品并未進(jìn)入中國市場,同為語音龍頭的科大訊飛具備廣闊的發(fā)展空間和趕超的時間窗口。
與科大訊飛公司一樣,基于語音技術(shù)耕織醫(yī)療市場的還有另外一家國內(nèi)早期落地的語音識別技術(shù)公司云知聲。云知聲專注物聯(lián)網(wǎng)人工智能,構(gòu)建了“芯片+UI+服務(wù)”體系。這家公司成立于2012年,主要利用機(jī)器學(xué)習(xí)平臺在語音技術(shù)、語言技術(shù)、知識計(jì)算、大數(shù)據(jù)分析等領(lǐng)域進(jìn)行技術(shù)投入,并通過應(yīng)用層面的AI芯片、AIUI、AI Service三大解決方案支撐技術(shù)落地。
在醫(yī)療領(lǐng)域,云知聲公司與飛利浦公司合作搭建了語音病歷系統(tǒng)。飛利浦面向醫(yī)療的專業(yè)手持錄入設(shè)備在國外醫(yī)療市場占有率超過70%,2014年云知聲與其建立合作,是其在中國唯一的總代理。云知聲提供的語音病歷系統(tǒng)以面向醫(yī)療領(lǐng)域的高性能識別引擎為基礎(chǔ),以飛利浦的手持外設(shè)錄入設(shè)備為輔,能夠與醫(yī)院信息化系統(tǒng)對接,將醫(yī)生的語音轉(zhuǎn)錄成文字內(nèi)容并顯示在醫(yī)院信息系統(tǒng)(HIS)、影像歸檔和通信系統(tǒng)系統(tǒng)(PACS)中。
這家公司的病歷語音系統(tǒng)包含了4種主要技術(shù)。
1.醫(yī)療領(lǐng)域語言模型:該模型匯總超過30 GB的醫(yī)療文本資料,覆蓋各科室常用的病癥、藥品名稱、操作步驟等信息,針對3 000余個醫(yī)療特殊符號進(jìn)行優(yōu)化,整體識別準(zhǔn)確率超過95%。此外,系統(tǒng)通過深度定制的方式,為40多個臨床和醫(yī)技科室提供分場景支持,在神經(jīng)科、免疫內(nèi)科、血液科、普通內(nèi)科等疑難雜癥患者較多的科室應(yīng)用效果良好,個別科室的識別率超過98%。
2.云端語義矯正:云端語義矯正技術(shù)可以修正本地識別中不準(zhǔn)確的詞語。
3.個性化語言模型:語音錄入系統(tǒng)可以與用戶賬號綁定,醫(yī)生登陸HIS系統(tǒng)時將自動加載所在科室的語言模型,醫(yī)生也可以根據(jù)自己的使用習(xí)慣添加常用詞匯。
4.自學(xué)優(yōu)化系統(tǒng):云知聲應(yīng)用了無監(jiān)督的自適應(yīng)技術(shù)來解決醫(yī)生的口音問題,在醫(yī)生的正常使用過程中,識別準(zhǔn)確率會逐漸提升。
云知聲以三甲醫(yī)院為主要客戶初步推廣,目前已覆蓋60多家醫(yī)院。公司產(chǎn)品已經(jīng)在全國20多家有代表性的大型綜合三甲醫(yī)院正式上線。此外,云知聲與平安好醫(yī)生、春雨醫(yī)生建立合作,希望在此基礎(chǔ)上切入移動醫(yī)療領(lǐng)域。目前,該系統(tǒng)可以節(jié)省醫(yī)生超過38%的病歷錄入時間,同時避免了繁重工作下的復(fù)制、粘貼操作,提升病歷輸入的規(guī)范性和安全性。
云知聲與科大訊飛在產(chǎn)品化的方向上并沒有本質(zhì)的區(qū)別,只是在具體的商業(yè)拓展上有所不同:在對語音識別很關(guān)鍵的智能麥克風(fēng)上,云知聲選擇了與既有廠商合作,科大訊飛選擇了自己制造硬件;在合作科室的選擇上,科大訊飛聚焦口腔和超聲,云知聲支持40多個科室。筆者認(rèn)為,智能技術(shù)與醫(yī)療場景需要深度的融合,從有限科室開始試點(diǎn)逐步拓展至更多科室更加務(wù)實(shí)。
施樂公司PARC研究所發(fā)明的圖形界面電腦改變了人類與電腦的交互方式,喬布斯發(fā)明的智能手機(jī)創(chuàng)造了人機(jī)交互的新方式,每一次人機(jī)交互新技術(shù)的發(fā)現(xiàn)都給人類社會帶來了翻天覆地的變化。作為人機(jī)交互技術(shù)的下一步,通過語音、手勢乃至腦電波等更有效率的方式來與機(jī)器交互是人機(jī)交互發(fā)展必然經(jīng)歷的過程。
今天,語音識別技術(shù)的準(zhǔn)確度已經(jīng)超過人類的平均水平,不過在對語義的理解以及對語義上下文的理解上還有所欠缺,理解了語義后如何做出正確響應(yīng)的后臺知識庫儲備還有不足。隨著這些相關(guān)技術(shù)的成熟與發(fā)展,語音技術(shù)將會贏來如智能手機(jī)般的突破式發(fā)展機(jī)遇,其與各個產(chǎn)業(yè)的結(jié)合在深度和廣度上也會不斷強(qiáng)化。
作為產(chǎn)業(yè)從業(yè)者應(yīng)把握此次機(jī)遇。巨頭公司如百度、科大訊飛等應(yīng)致力于探索底層技術(shù)的突破,解決前面所提到的挑戰(zhàn);醫(yī)療應(yīng)用公司應(yīng)致力于探索語音識別技術(shù)與醫(yī)療場景可以結(jié)合的地方,尋找可落地、可商業(yè)化的應(yīng)用;醫(yī)療機(jī)構(gòu)也應(yīng)積極擁抱變化,敢于嘗試新技術(shù)、新方法來提高效率,改善醫(yī)療質(zhì)量……
過去,每次新技術(shù)來臨時我們都表現(xiàn)出了猶豫不決,但經(jīng)歷過多次新技術(shù)升級的人類社會已經(jīng)逐漸適應(yīng)了快速變化的環(huán)境,與其反復(fù)討論不如快速試錯,在實(shí)踐中學(xué)習(xí)總結(jié)并不斷迭代才是擁抱人工智能來臨的正確姿勢。