劉永俊 ,劉 亞 ,茆壽允
(1. 常熟理工學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 常熟 215500;2. 東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110819)
目前醫(yī)院的臨床信息系統(tǒng)已經(jīng)相對(duì)較多,但近幾年在醫(yī)院信息化建設(shè)過(guò)程中,“數(shù)據(jù)孤島、服務(wù)割裂”的現(xiàn)象越來(lái)越明顯,各系統(tǒng)的數(shù)據(jù)不能得到很好的采集和整合[1-3]. 同時(shí)醫(yī)院同一科室在用設(shè)備種類(lèi)繁多,有些比較陳舊,甚至不支持?jǐn)?shù)據(jù)對(duì)外輸出. 隨著醫(yī)院信息化建設(shè)的發(fā)展,臨床和管理信息系統(tǒng)積累了大量數(shù)據(jù),但由于信息系統(tǒng)的復(fù)雜性和多樣性,導(dǎo)致各系統(tǒng)間數(shù)據(jù)分散,標(biāo)準(zhǔn)不一致,難以實(shí)現(xiàn)交換和共享. 通過(guò)建立統(tǒng)一規(guī)范的數(shù)據(jù)采集平臺(tái),可以解決醫(yī)院存在的這些問(wèn)題. 為推進(jìn)信息標(biāo)準(zhǔn)化工作,促進(jìn)標(biāo)準(zhǔn)的規(guī)范和使用,實(shí)現(xiàn)分散數(shù)據(jù)資源的集成和利用,建立一體化的信息集成平臺(tái)成為迫切需要解決的問(wèn)題.
統(tǒng)一的平臺(tái)符合國(guó)家衛(wèi)計(jì)委提出的各大信息系統(tǒng)互聯(lián)互通的原則,遵循HL7、DICOM等通信標(biāo)準(zhǔn),進(jìn)行數(shù)據(jù)采集存儲(chǔ)[1]. 對(duì)于不支持對(duì)外輸出的設(shè)備,通過(guò)人工智能技術(shù),軟硬結(jié)合的方式,運(yùn)用智能攝像頭,抓取設(shè)備數(shù)據(jù),進(jìn)行數(shù)據(jù)識(shí)別存儲(chǔ)[4-11]. 該技術(shù)能解決業(yè)界信息化廠商無(wú)法獲取眾多設(shè)備數(shù)據(jù)的難題.
基于OCR(Optical Character Recognition)技術(shù)的醫(yī)療圖像數(shù)據(jù)采集平臺(tái),采用OCR技術(shù)[4-8],直接從屏幕界面上抓取直觀數(shù)據(jù),不需要花費(fèi)時(shí)間和成本集成設(shè)備、解析數(shù)據(jù). 可以統(tǒng)一解決醫(yī)療設(shè)備新舊不一、數(shù)據(jù)接口不一致等造成的數(shù)據(jù)提取難題. 通過(guò)統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)采集平臺(tái)采集醫(yī)院各大系統(tǒng)的患者臨床數(shù)據(jù),經(jīng)加工整理、歸檔及分析,再通過(guò)互聯(lián)網(wǎng)無(wú)縫對(duì)接數(shù)據(jù)分析應(yīng)用平臺(tái),為科研、精準(zhǔn)醫(yī)療、藥廠制藥等提供有效的數(shù)據(jù)應(yīng)用.
在進(jìn)行臨床急診時(shí),醫(yī)護(hù)人員往往需要手寫(xiě)醫(yī)囑、記錄病情并輸入醫(yī)院的信息系統(tǒng)中. 不僅浪費(fèi)搶救時(shí)間,還可能會(huì)出現(xiàn)人為失誤. 而嵌入式語(yǔ)音識(shí)別系統(tǒng)可借助固定或便攜可穿戴設(shè)備進(jìn)行語(yǔ)音識(shí)別,通過(guò)芯片中的語(yǔ)音處理及識(shí)別算法,將語(yǔ)音轉(zhuǎn)換為文字或指令進(jìn)行記錄,并自動(dòng)進(jìn)行說(shuō)話人識(shí)別(Speaker Identification)和說(shuō)話人確認(rèn)(Speaker Verification)[12-16],而后進(jìn)行語(yǔ)音電子簽名. 語(yǔ)音信息可被轉(zhuǎn)錄成文字并顯示在HIS系統(tǒng)、PACS系統(tǒng)、CIS系統(tǒng)等希望輸入文字的位置. 基于樹(shù)莓派的嵌入式語(yǔ)音識(shí)別系統(tǒng),可以解決由人工錄入而導(dǎo)致的醫(yī)囑信息錯(cuò)誤,記錄耗時(shí)等問(wèn)題. 本系統(tǒng)能夠減少人力資源的消耗,提高醫(yī)護(hù)人員的工作效率,產(chǎn)品成本可控,可移植性較強(qiáng).
本系統(tǒng)分為3個(gè)模塊,圖像識(shí)別模塊、語(yǔ)音識(shí)別模塊、綜合數(shù)據(jù)集成模塊. 圖像識(shí)別模塊負(fù)責(zé)收集醫(yī)療設(shè)備的圖像數(shù)據(jù),而后對(duì)數(shù)據(jù)進(jìn)行識(shí)別處理,再將識(shí)別的結(jié)果通過(guò)Http請(qǐng)求傳輸?shù)缴衔粰C(jī)中并顯示. 語(yǔ)音識(shí)別模塊則負(fù)責(zé)收集醫(yī)生護(hù)士的語(yǔ)音信息,進(jìn)行語(yǔ)音識(shí)別和說(shuō)話人身份確認(rèn),最后將講話的內(nèi)容轉(zhuǎn)錄成文字并顯示在HIS系統(tǒng)、PACS系統(tǒng)、CIS系統(tǒng)等希望輸入文字的位置.
視頻采集模塊負(fù)責(zé)對(duì)醫(yī)療設(shè)備圖像數(shù)據(jù)的采集,采用的是樹(shù)莓派自帶的 Pi Camera. 攝像頭插入到樹(shù)莓派的CSI Camera Port接口中,若安裝正確,在樹(shù)莓派系統(tǒng)的/dev目錄下便會(huì)出現(xiàn)video0節(jié)點(diǎn),此時(shí)只要在樹(shù)莓派上打開(kāi)攝像頭模塊,就可以使用攝像頭進(jìn)行圖像的采集.
圖1 圖像識(shí)別流程圖
如圖1所示,技術(shù)方案依次包括以下步驟.
S1:由攝像頭采集醫(yī)療數(shù)據(jù)圖像,對(duì)采集的醫(yī)療數(shù)據(jù)圖像進(jìn)行預(yù)處理;
S2:字符切割:將預(yù)處理的醫(yī)療數(shù)據(jù)圖像的前景與背景分割開(kāi),再將前景中待識(shí)別的字符串切割成一個(gè)個(gè)的待識(shí)別字符;
S3:將待識(shí)別字符的HOG描述子作為訓(xùn)練后的判別模型的輸入?yún)?shù)進(jìn)行字符識(shí)別;
S4:將字符識(shí)別數(shù)據(jù)發(fā)送至上位機(jī);
訓(xùn)練后的判別模型通過(guò)以下步驟進(jìn)行訓(xùn)練.
S101:對(duì)采集的醫(yī)療數(shù)據(jù)圖像進(jìn)行預(yù)處理;
S102:字符切割:按閾值i將預(yù)處理的醫(yī)療數(shù)據(jù)圖像前景與背景分割開(kāi),再將前景中待識(shí)別的字符串切割成一個(gè)個(gè)的樣本字符,所述樣本字符為0~9共10個(gè)字符,i取不同的值m次,共獲得10*m個(gè)樣本字符;
S103:對(duì)樣本字符以一度為步長(zhǎng)分別進(jìn)行左右各n次轉(zhuǎn)動(dòng),得到20*m*n個(gè)樣本;
S104:提取每個(gè)樣本的HOG描述子,將最終得到一個(gè)描述子集作為訓(xùn)練樣本來(lái)求SVM的判別模型.
上述待識(shí)別字符的HOG描述子以及樣本的HOG描述子通過(guò)以下方法得到:對(duì)圖像進(jìn)行網(wǎng)格化,在每個(gè)單元格內(nèi)利用梯度方向直方圖統(tǒng)計(jì)梯度信息,每4個(gè)單元格為一塊,在塊內(nèi)4個(gè)單元格內(nèi)像素點(diǎn)進(jìn)行加權(quán)投影得到4*9共36維的特征矢量,最終圖像內(nèi)所有塊內(nèi)特征矢量集合即為HOG描述子.
上述S1和S101的對(duì)采集的醫(yī)療數(shù)據(jù)圖像進(jìn)行預(yù)處理是對(duì)醫(yī)療數(shù)據(jù)圖像進(jìn)行傾斜校正,傾斜校正包括以下步驟.
S301:應(yīng)用canny算子進(jìn)行邊緣檢測(cè);
S302:計(jì)算傾斜角,通過(guò)霍夫變換公式將圖像空間中像素點(diǎn)變換到檢測(cè)參數(shù)空間中,參數(shù)空間中一個(gè)點(diǎn)還原到圖像空間中即為一條直線,圖像空間中每個(gè)像素點(diǎn),經(jīng)過(guò)變換公式得到一條在參數(shù)空間中的曲線,同一條直線上的點(diǎn)在參數(shù)空間中的變換曲線相交于一點(diǎn),在參數(shù)空間里統(tǒng)計(jì)每個(gè)位置上曲線相交次數(shù),相交次數(shù)最多的位置在還原后的圖中也就是最長(zhǎng)的一條直線,由該直線的斜率獲得傾斜角;
S303:檢測(cè)出傾斜角后進(jìn)行空間坐標(biāo)變換和插值運(yùn)算,對(duì)圖像進(jìn)行旋轉(zhuǎn)完成傾斜校正.
字符切割包括以下步驟.
S401:二值化,首先將圖片灰度化,灰度圖可以分為包含待識(shí)別字符串的前景和不包含待識(shí)別字符串的背景,根據(jù)類(lèi)間最大方差準(zhǔn)則確定二值化閾值;
S402:形態(tài)學(xué)處理,通過(guò)腐蝕運(yùn)算消除邊界點(diǎn),使邊界向內(nèi)收縮;
S403:垂直投影,對(duì)經(jīng)過(guò)形態(tài)學(xué)處理的二值圖進(jìn)行水平方向上的投影,據(jù)投影圖特征將字符串分割成一個(gè)個(gè)字符.
一般情況n不小于20.
本模塊采用獨(dú)立成分分析(Independent Component Analysis, ICA)[13-14]實(shí)現(xiàn)盲信號(hào)分離,結(jié)合PCA[15]做預(yù)處理. 并采用基于梅爾頻率倒譜系數(shù)(MFCC)+高斯混合模型(Gaussian Mixture Model,GMM)[16]的說(shuō)話人識(shí)別算法,實(shí)現(xiàn)說(shuō)話人識(shí)別及語(yǔ)音簽名. 如圖2所示,語(yǔ)音盲分離與說(shuō)話人識(shí)別的處理流程如下.
圖2 語(yǔ)音信號(hào)分離與識(shí)別流程圖
S2:對(duì)采集到的觀測(cè)信號(hào)x(t)進(jìn)行盲源分離;
S4:對(duì)分離后得到的S(t)進(jìn)行說(shuō)話人識(shí)別;
S5:最終得到目標(biāo)語(yǔ)音.
步驟2進(jìn)行盲源分離的步驟如下.
S201:假設(shè)源信號(hào)彼此間獨(dú)立且是非高斯分布的,采用線性混合模型x(t)=As(t),其中A是未知的M*N混合矩陣. 分離源信號(hào)S=A?1x,為了方便書(shū)寫(xiě),用表示A的逆矩陣(或廣義逆矩陣),于是上式變成S=Wx.
S202:當(dāng)獨(dú)立成分的個(gè)數(shù)小于混合信號(hào)個(gè)數(shù)時(shí),混合矩陣A不可逆使用主成分分析(Principal Component Analysis,PCA)降維,實(shí)際上就是降噪使得混合矩陣A可逆.
S203:白化,本質(zhì)上是去相關(guān)加上縮放,它要求信號(hào)經(jīng)過(guò)變換后具有單位方差,同時(shí)彼此之間不相關(guān).因此,以 PCA 形式展開(kāi)可以得到
其中,E是以協(xié)方差矩陣Dy的單位范數(shù)特征向量為列的矩陣,D是以Dy的特征值為對(duì)角元素的對(duì)角矩陣.
對(duì)測(cè)試語(yǔ)音同樣進(jìn)行特征提取,與系統(tǒng)訓(xùn)練時(shí)產(chǎn)生的模型進(jìn)行比較,相似度最大的即判定為說(shuō)話人.
采用獨(dú)立信息系統(tǒng)集成網(wǎng)關(guān),以存儲(chǔ)過(guò)程、視圖、Web Service及其他數(shù)據(jù)同步機(jī)制,按 需 訪 問(wèn)HIS、PACS、RIS、LIS、EMR等服務(wù)器,選擇性同步患者住院信息、醫(yī)囑信息、檢查信息、檢驗(yàn)信息、病歷等數(shù)據(jù)到數(shù)據(jù)庫(kù)服務(wù)器. 搭建綜合數(shù)據(jù)集成平臺(tái)(CDR),通過(guò)智能型數(shù)據(jù)采集平臺(tái)和OCR系統(tǒng)的配合,可以有效采集各科室信息系統(tǒng)數(shù)據(jù),并匯總到臨床數(shù)據(jù)中心,進(jìn)行數(shù)據(jù)統(tǒng)一管理. 通過(guò)對(duì)數(shù)據(jù)的整理分析,可將有效數(shù)據(jù)進(jìn)行輸出,返回供醫(yī)院醫(yī)生參考使用. 結(jié)構(gòu)圖如圖3所示.
圖3 基于綜合智能信息的醫(yī)療數(shù)據(jù)采集平臺(tái)整體結(jié)構(gòu)圖
利用從醫(yī)療設(shè)備顯示屏圖像中采集的數(shù)字字符集進(jìn)行分類(lèi)器的訓(xùn)練,調(diào)整Pi-camera角度使得字符傾斜角不超過(guò)20°,再利用訓(xùn)練好的分類(lèi)器進(jìn)行字符識(shí)別并傳輸至raspberry處于同一局域網(wǎng)內(nèi)的上位機(jī),在上位機(jī)中查看當(dāng)前幀及其處理結(jié)果. 測(cè)試設(shè)備包括:樹(shù)莓派三代B+;800萬(wàn)像素 Pi Camera;顯示器;華為雙頻無(wú)線路由器等.
如圖4所示,利用在醫(yī)院拍攝的一段視頻作為測(cè)試視頻. 以下表格的測(cè)試數(shù)據(jù)是從視頻中截取出來(lái)的一部分?jǐn)?shù)字圖像. 我們?cè)谕辉O(shè)備上,將不同傾斜角度的字符的數(shù)據(jù)作為測(cè)試數(shù)據(jù). 以5°作為一個(gè)步長(zhǎng),以0°為基準(zhǔn),左右±20°,15°,10°,5°作為測(cè)試數(shù)據(jù). 圖5是以0°,-20°為例的測(cè)試情況.
圖4 圖像識(shí)別模塊工作圖
針對(duì)測(cè)試的視頻,從測(cè)試結(jié)果統(tǒng)計(jì)字符識(shí)別系統(tǒng)并未出現(xiàn)誤差. 但在攝像頭采集視頻有抖動(dòng)時(shí),“0.26”被錯(cuò)誤識(shí)別為“2..2.6..”,“395”被錯(cuò)誤識(shí)別成“.39.5”,“712”被錯(cuò)誤識(shí)別為“712…”,這是由于在首幀進(jìn)行鼠標(biāo)選區(qū)后,系統(tǒng)會(huì)對(duì)區(qū)塊內(nèi)各體征參數(shù)值進(jìn)行定位,為提高OCR運(yùn)行效率,后續(xù)幀直接根據(jù)首幀的定位進(jìn)行字符的識(shí)別,而根據(jù)觀察發(fā)現(xiàn),由于攝像頭不穩(wěn)定導(dǎo)致的視頻抖動(dòng)會(huì)使得對(duì)后續(xù)幀中體征參數(shù)的定位是錯(cuò)的,最終造成上述錯(cuò)誤的識(shí)別結(jié)果. 該系統(tǒng)需對(duì)攝像頭進(jìn)行固定.
采集混合語(yǔ)音,3位說(shuō)話人同時(shí)發(fā)聲,錄制的混合信號(hào)長(zhǎng)度為3 s,選定其中一位為目標(biāo)說(shuō)話人,首先進(jìn)行盲源分離,得到單獨(dú)的恢復(fù)語(yǔ)音,然后做特征參數(shù)提取操作,分別與目標(biāo)說(shuō)話人的參數(shù)模型進(jìn)行匹配,最為相近的視為同一個(gè)人,并將對(duì)應(yīng)的恢復(fù)語(yǔ)音放大輸出. 這一部分的系統(tǒng)平均運(yùn)行時(shí)間如表1所示.
從表1中可以看出,語(yǔ)音分離和識(shí)別部分總用時(shí)略小于語(yǔ)音信號(hào)本身的長(zhǎng)度,基本滿足醫(yī)療信息化實(shí)時(shí)性需求.
表1 系統(tǒng)平均運(yùn)行時(shí)間
圖5 0°和20°的測(cè)試
本系統(tǒng)方法不需要根據(jù)設(shè)備廠商協(xié)議去解析和集成數(shù)據(jù),可以自動(dòng)采集集成數(shù)據(jù). 并且基于OCR技術(shù)的圖像數(shù)據(jù)在智慧醫(yī)療中的應(yīng)用通過(guò)圖像識(shí)別技術(shù)對(duì)數(shù)據(jù)進(jìn)行智能化存儲(chǔ)識(shí)別,對(duì)傳輸?shù)絎eb端的數(shù)據(jù)有效集成,解決醫(yī)院信息化建設(shè)過(guò)程中,“數(shù)據(jù)孤島、服務(wù)割裂”的問(wèn)題. 語(yǔ)音信息的識(shí)別存儲(chǔ)可以識(shí)別到具體的人,醫(yī)生可以進(jìn)行語(yǔ)音簽名,口頭下達(dá)醫(yī)囑,并將之轉(zhuǎn)化成文字存儲(chǔ). 避免了設(shè)備陳舊不支持對(duì)外輸出,醫(yī)護(hù)人員需要手動(dòng)抄寫(xiě)數(shù)據(jù)等弊端. 提高了醫(yī)護(hù)人員工作效率.
參考文獻(xiàn):
[1]雷赫. 8500億牽動(dòng)醫(yī)療信息化[J]. 中國(guó)計(jì)算機(jī)用戶, 2009,11(10):55-57.
[2]侯曉林,曹梅紅. 面向病人全生命周期醫(yī)療信息系統(tǒng)構(gòu)架和關(guān)鍵技術(shù)的研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2005,16(1):126-130.
[3]陳曉勐. 醫(yī)療信息系統(tǒng)中的網(wǎng)絡(luò)安全問(wèn)題[J]. 紅外,2002,12(8):78-82.
[4]ABADPOUR A, KASAEI S. A new parametric linear adaptive color space and its implementation[C]. Rome∶ IEEE Computer Society, 2004.
[5]ANTANI S, CRANDALL D, KASTURI R. Robust extraction of text in video[C]. Barcelona∶ IEEE computer Society, 2000.
[6]ANANG HUDAYA M A. Recognising Patterns in Large Data Sets: A Distributed Approach[D]. Clayton∶ Clayton School of Information Technology, 2011.
[7]AI C, HOU H, LI Y,et al. Authentic delay bounded event detection in heterogeneous wireless sensor networks[J]. Ad Hoc Net,2009,7(3): 599-613.
[8]LAGANIERE R. Opencv 2 Computer Vision Application Programming Cookbook [M]. Birmingham: Packt Publishing Ltd,2011:5.
[9]白俊江,洪春勇. 基于Sobel的邊緣檢測(cè)方法[J].電腦知識(shí)與技術(shù),2009,5(21):5847-5849.
[10]邊肇祺,張學(xué)工.模式識(shí)別[M]. 北京:清華大學(xué)出版社,2000:16-30.
[11]朱偉,趙春光,歐樂(lè)慶,等. OpenCv圖像處理編程實(shí)例[M]. 北京: 電子工業(yè)出版社,2016:5.
[12]REYNOLDS D A. Speaker identification and verification using Gaussian mixture speaker models[J]. Speech communication, 1995, 17(1): 91-108.
[13]檀蕊蓮,劉建平,李哲,等.說(shuō)話人識(shí)別技術(shù)及其應(yīng)用[J].信息技術(shù),2007(12):23-25,29. DOI:10.3969/j.issn.1009-2552.2007.12.008.
[14]HYV?RINEN A, OJA E. Independent component analysis: algorithms and applications[J]. Neural networks, 2000, 13(4): 411-430.
[15]梁勝杰,張志華,崔立林,等. 基于主成分分析與獨(dú)立成分分析的降維方法[J]. 系統(tǒng)工程與電子技術(shù),2011,9(8):2144-2148.
[16]REYNOLDS D A, ROSE R C. Robust text-independent speaker identification using Gaussian mixture speaker models[J].Speech and Audio Processing, IEEE Transactions on, 1995, 3(1): 72-83.