黃 辰, 潘永才, 李可維, 黃本雄, 皮健夫, 付勇前
(1.湖北大學(xué) 計算機與信息工程學(xué)院,湖北 武漢 430062;2.武漢第二船舶設(shè)計研究所,湖北 武漢 430064;3.華中科技大學(xué) 電子與信息工程系,湖北 武漢 430074)
基于傳感器聚類數(shù)據(jù)挖掘的物聯(lián)網(wǎng)智慧醫(yī)療模型設(shè)計*
黃 辰1, 潘永才1, 李可維2, 黃本雄3, 皮健夫1, 付勇前1
(1.湖北大學(xué) 計算機與信息工程學(xué)院,湖北 武漢 430062;2.武漢第二船舶設(shè)計研究所,湖北 武漢 430064;3.華中科技大學(xué) 電子與信息工程系,湖北 武漢 430074)
現(xiàn)代智慧醫(yī)療需要操作簡潔、反應(yīng)迅速,能夠提供智慧診斷的信息化平臺,提出基于物聯(lián)網(wǎng)無線傳感器技術(shù)的智慧醫(yī)療模型。系統(tǒng)利用附著在患者身上的各類傳感器采集到的生理信息數(shù)據(jù),采用基于密度的帶有噪聲的空間聚類(DBSCAN)算法的數(shù)據(jù)分析方法,用非線性映射把患者的生理信息數(shù)據(jù)轉(zhuǎn)換到高緯度的特征空間,對變換后的矢量數(shù)據(jù)進行聚類分析,從而提升聚類結(jié)果并有效輔助醫(yī)務(wù)人員進行診斷。
物聯(lián)網(wǎng);智慧醫(yī)療;基于密度的帶有噪聲的空間聚類算法
當(dāng)今醫(yī)療機構(gòu)為了提供針對性的治療,劃分了種類繁多的??瓶剖???剖覄澐衷郊?xì),醫(yī)院的機構(gòu)組成就越龐大,用于記錄各類醫(yī)療信息的文檔資料也成倍增加,導(dǎo)致管理醫(yī)院的難度和成本大幅度提升,因此,對醫(yī)院進行信息化管理是必然趨勢。
物聯(lián)網(wǎng)(IoT)通過無線傳感器感知物理世界的信息,利用安裝在物體上的通信設(shè)備,在無線傳感器的支持下,讓感知到的信息進入互聯(lián)網(wǎng)實現(xiàn)任意物體的互聯(lián)互通[1]。作為物聯(lián)網(wǎng)的重要應(yīng)用領(lǐng)域,智慧醫(yī)療需要實現(xiàn)患者、醫(yī)務(wù)人員、醫(yī)療機構(gòu)、醫(yī)療設(shè)備之間的多向信息流交互,并將傳統(tǒng)醫(yī)療區(qū)域的范圍從醫(yī)院擴展到患者家里。醫(yī)療物聯(lián)網(wǎng)中的高性能服務(wù)器和數(shù)據(jù)庫,通過優(yōu)化數(shù)據(jù)處理算法對海量數(shù)據(jù)流進行智慧化分析,提升醫(yī)療服務(wù)的效率[2]。
針對上述智慧醫(yī)療系統(tǒng)的需求,本文提出了一個基于密度聚類數(shù)據(jù)分析方法的智慧醫(yī)療系統(tǒng),患者通過便捷的高速寬帶無線接入網(wǎng)絡(luò)[3],利用智能無線傳感器將病情信息上傳。作為系統(tǒng)的核心功能,數(shù)據(jù)輔助分析是利用采集到的海量數(shù)據(jù),為患者進行智慧診斷。本文引入基于密度的帶有噪聲的空間聚類(density-based spatial clustering of application with noise,DBSCAN)算法的數(shù)據(jù)分析方法,用非線性映射把患者的病情數(shù)據(jù)輸入空間變換到一個高緯度的特征空間,在該特征空間擴展DBSCAN算法,提升聚類結(jié)果。
本系統(tǒng)從功能上來說分為三大部分,包括患者數(shù)據(jù)收集、多平臺登錄交互和服務(wù)器數(shù)據(jù)處理。
在患者數(shù)據(jù)收集部分,系統(tǒng)能夠利用安裝在患者身上的無線傳感器,實現(xiàn)無處不在的患者生理信息采集[4],提供血壓、體溫、脈搏等多項人體生理指標(biāo)的檢測功能,并且能夠方便接入醫(yī)用物聯(lián)網(wǎng)[5]。
在多平臺登錄交互部分,采用了B/S(browser/server)架構(gòu)(瀏覽器/服務(wù)器),適合于多平臺,通過有瀏覽器可以在任何時候任何地方登陸系統(tǒng)。
在服務(wù)器數(shù)據(jù)處理部分,由于實際測量中的環(huán)境影響,不可避免地會產(chǎn)生異常數(shù)據(jù),需要采用符合醫(yī)療實際,可以剔除異常數(shù)據(jù)的數(shù)據(jù)分析算法。根據(jù)上述系統(tǒng)功能,可以設(shè)計出系統(tǒng)的網(wǎng)絡(luò)架構(gòu),如圖1所示是系統(tǒng)架構(gòu)圖。
圖1 智慧醫(yī)療系統(tǒng)架構(gòu)Fig 1 Intelligent medical system architecture
2.1 層次化智慧醫(yī)療體系架構(gòu)
智慧醫(yī)療是無線傳感器網(wǎng)絡(luò)的重要應(yīng)用領(lǐng)域,具備聯(lián)網(wǎng)能力的無線傳感器網(wǎng)絡(luò)能夠使大量醫(yī)療監(jiān)護工作無線化、遠(yuǎn)程化和自助化,緩解資源短缺、資源分配不均的窘境,降低公眾的醫(yī)療成本[6]。完整的智慧醫(yī)療體系分為7個層次[7]:業(yè)務(wù)管理系統(tǒng)、電子病歷系統(tǒng)、臨床應(yīng)用系統(tǒng)、慢性疾病管理系統(tǒng)、區(qū)域醫(yī)療信息交換系統(tǒng)、臨床支持決策系統(tǒng)、公共健康衛(wèi)生系統(tǒng)。
2.2 B/S和SSH框架
面向多平臺的B/S架構(gòu)指的是瀏覽器/服務(wù)器架構(gòu),主要的事務(wù)邏輯是在服務(wù)器端實現(xiàn)的[8]。SSH框架是指Struts 2+Spring+Hibernate的組合框架,是目前最成熟的Web應(yīng)用輕量級框架。本系統(tǒng)使用JSP技術(shù)來開發(fā)前端,為創(chuàng)建顯示動態(tài)內(nèi)容的Web頁面提供的解決方案,具有低成本、適用平臺廣、組件可重用等特點[9]。
2.3 DBSCAN算法
進入服務(wù)器的海量數(shù)據(jù)中存在的異常點需要通過數(shù)據(jù)挖掘的方法進行查找,在統(tǒng)計學(xué)研究領(lǐng)域?qū)Ξ惓|c的定義是:基于某種度量而言,該數(shù)據(jù)點與數(shù)據(jù)集中的其他數(shù)據(jù)有著顯著的不同[10]。
在智慧醫(yī)療中,附著在患者身上的無線傳感器節(jié)點,可以感知到多維屬性的測量值,這些多維屬性的傳感測量值構(gòu)成的向量代表患者當(dāng)前生理狀況的特征點。聚類算法可以有效查找特征點的異常點,分析得到相似數(shù)據(jù)組,并和其他數(shù)據(jù)組相區(qū)別。
典型聚類算法有BIRCH算法、DBSCAN算法和CURE算法[11]。DBSCAN算法是基于密度的聚類算法,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類[12]。該算法通過保證單個異常點不產(chǎn)生一個簇來發(fā)現(xiàn)異常點。有2個參數(shù)來控制簇的產(chǎn)生:MinPts為簇中節(jié)點的最小數(shù)目;e為簇的半徑。對于在簇中的每個點,必須存在簇中另外一點,它們之間的距離小于一定閾值。DBSCAN算法對數(shù)據(jù)進行操作時不會進行任何預(yù)處理,其時間復(fù)雜度為O(nlgn)。
3.1 系統(tǒng)用戶身份設(shè)計
系統(tǒng)用戶主要是醫(yī)務(wù)人員,包括醫(yī)生、護士以及醫(yī)療單位的設(shè)備管理人員等,任何一類醫(yī)務(wù)人員都可以在多個平臺上,通過瀏覽器登陸管理系統(tǒng)。根據(jù)身份的不同,相應(yīng)人員能完成的操作也不同。
3.2 系統(tǒng)框架設(shè)計
3.2.1 數(shù)據(jù)庫的設(shè)計
在系統(tǒng)的開發(fā)階段,使用MySQL數(shù)據(jù)庫作為系統(tǒng)數(shù)據(jù)庫。作為關(guān)系型數(shù)據(jù)庫,MySQL具有的的體積小、速度快、開源、使用成本低的特點,可以很好地支持企業(yè)級系統(tǒng)的開發(fā)[13]。針對物聯(lián)網(wǎng)病房信息管理系統(tǒng)的特點,每個實體類對應(yīng)一張表,各表有關(guān)聯(lián)關(guān)系。圖2給出了主要表的數(shù)據(jù)關(guān)系模型圖。
圖2 數(shù)據(jù)關(guān)系圖Fig 2 Data relationship map
本系統(tǒng)使用了DBSCAN算法的數(shù)據(jù)分析方法,根據(jù)該算法的特性,除了一般屬性外,還需要加入數(shù)據(jù)獲取時間和坐標(biāo)信息以便定位。引入坐標(biāo)信息的目的是方便單個數(shù)據(jù)值在空間中轉(zhuǎn)化成數(shù)據(jù)點,其值設(shè)定為與獲得的身體數(shù)據(jù)信息等值。
3.2.2 前臺頁面的設(shè)計
根據(jù)職務(wù)權(quán)限的不同,前臺頁面有患者頁面、醫(yī)生頁面、護士頁面和管理員頁面之分。各頁面有完成相應(yīng)的職務(wù)的功能模塊。不同的職務(wù)顯示不同的界面,當(dāng)對應(yīng)的普通職務(wù)進行更高權(quán)限的操作時,系統(tǒng)轉(zhuǎn)到失敗頁面并提示權(quán)限不夠。
3.2.3 后臺服務(wù)器的設(shè)計
對于后臺服務(wù)器部分,使用Tomcat作為Web服務(wù)器。Tomcat是一個開源的Web應(yīng)用服務(wù)器,其運行時占用的系統(tǒng)資源小,擴展性好,支持負(fù)載平衡與郵件服務(wù)等開發(fā)應(yīng)用系統(tǒng)常用的功能[14]。
3.3 DBSCAN算法的數(shù)據(jù)分析
系統(tǒng)的另一個核心部分是數(shù)據(jù)分析研究。其設(shè)計思路是利用DBSCAN算法對數(shù)據(jù)進行處理,得到不同的數(shù)據(jù)簇,再將簇與標(biāo)準(zhǔn)數(shù)據(jù)進行對比做出判斷。在系統(tǒng)中,數(shù)據(jù)通過傳感器和智慧醫(yī)療設(shè)備收集,然后上傳到數(shù)據(jù)庫服務(wù)器。通過算法智慧剔除異常數(shù)據(jù),然后將有用數(shù)據(jù)進行分析,得出結(jié)果。整個流程如圖3。
圖3 數(shù)據(jù)處理流程Fig 3 Data processing process
對患者的血壓、體溫等數(shù)據(jù)分析需要先剔除異常點,然后對其進行分析。使用DBSCAN算法來對患者血壓、體溫等數(shù)據(jù)進行處理,將數(shù)據(jù)以類劃分,那些孤立的少數(shù)點將視為異常點剔除掉,余下的數(shù)據(jù)簇作為有用數(shù)據(jù),根據(jù)其特征和時間信息來判斷患者在某個時段的身體狀況。DBSCAN算法有3個重要定義,它們分別解釋了密度可達、密度相連和簇的概念[15]:
定義1.對于對象p的ε相鄰對象表示為Nε(p),且Nε(p)={q∈D|dist(p,q)≤ε},對于給定的值MinPts,對象q如果是對象p的ε相鄰對象,則稱點p從q直接密度可達。
定義2.對于給定的ε和MinPts,如果對象集合D中存在一個對象o,使得對象p和q是從o關(guān)于ε和MinPts密度可達的,那么就稱對象p和q關(guān)于ε和MinPts密度連接。
定義3.對于對象集合D,簇C是滿足如下條件的集合D的一個非空子集:
1) ?p,q,如果p∈C,并且p和q是密度可達的,則q∈C;
2) ?p,q∈C,p和q密度相連的。
DBSCAN算法需要2個重要參數(shù),一是點p領(lǐng)域ε半徑;二是領(lǐng)域內(nèi)包含點的最小數(shù)目MinPts。整個監(jiān)測的流程如下:首先指定某個患者的身體數(shù)據(jù)信息集合,從中選擇任意對象p,掃描所有對象找出p關(guān)于ε和MinPts密度可達的集合;如果p是核心對象,則集合p的所有可達對象形成簇;否則,p不是核心對象,即是異常點,應(yīng)該剔除掉。
系統(tǒng)測量患者在一定時間段的脈搏、血壓和體溫信息,設(shè)脈搏、血壓和體溫為特征向量,用(S,F(xiàn),T)表示。在三維數(shù)軸中這些點將展開為點集[16]。設(shè)點集為G,使用歐氏距離計算空間中各點的距離
i=1,2,…,n;l=1,2,…,n;j=1,2,3.
其中,Pij為第i個特征點的j維坐標(biāo)值,Zlk為第l個聚類點的j維坐標(biāo)值,Z由系統(tǒng)指定。
為了將這些點聚類,首先需要指定參數(shù)ε和MinPts的值。參數(shù)值是受到時間段內(nèi)測量數(shù)據(jù)點的次數(shù)影響的,且它們之間存在的是正比關(guān)系。根據(jù)患者的病情確定測量次數(shù),進而確定參數(shù)值。
該系統(tǒng)中DBSCAN算法的執(zhí)行過程如下:
1)任意選取點集G中的不屬于任何數(shù)據(jù)簇的點對象P,將其創(chuàng)建為一個新的數(shù)據(jù)簇;
2)點P作為新創(chuàng)建的數(shù)據(jù)簇的核心點,與其它數(shù)據(jù)點比較,將密度可達點加入該數(shù)據(jù)簇中;
3)循環(huán)步驟(2)直到?jīng)]有點可以加入簇為止,然后再執(zhí)行步驟(1);
4)當(dāng)點集中所有點都屬于某個數(shù)據(jù)簇,則結(jié)束。
在經(jīng)過算法處理后,數(shù)據(jù)將成簇存在。需要將簇中點的數(shù)目a和MinPts比較,確定簇的有效性:
a.當(dāng)a b.當(dāng)a≥MinPts時,該簇為有效數(shù)據(jù)組成的簇,被系統(tǒng)保留。 被系統(tǒng)保留的數(shù)據(jù)簇就是患者生理數(shù)據(jù)的真實體現(xiàn)。這些數(shù)據(jù)用于和標(biāo)準(zhǔn)健康數(shù)據(jù)進行比較,根據(jù)各項生理數(shù)據(jù)偏差值的大小便可以完成病因判斷,也就是完成了系統(tǒng)的智慧診斷。 此數(shù)據(jù)分析法有較強的靈活性,根據(jù)患者的病情癥狀,可以對算法的參數(shù)進行更改:對病情較重的患者,增加測量次數(shù),提高MinPts的大小,降低ε的值,可以更加準(zhǔn)確地得到患者的當(dāng)前生理數(shù)據(jù);對于某種慢性病患者,延長時間段選取的時長,并增加時間段的選取個數(shù),多次運用算法,可以得到患者在較長時間的生理狀況,并作出智慧診斷。 本文采用Matlab編寫功能程序,選擇從湖北省武漢市某三甲綜合醫(yī)院獲得的實際數(shù)據(jù)進行驗證,將該醫(yī)院某科室半年內(nèi)采用與本系統(tǒng)類似的生理信息檢測設(shè)備得到的檢測數(shù)據(jù)統(tǒng)計在一起,形成一個獨立數(shù)據(jù)庫,然后采用DBSCAN算法進行處理分析。將做出診斷之前的生理信息特征提取數(shù)據(jù),和診斷之后的確診結(jié)論進行綁定處理,以提高預(yù)測能力的準(zhǔn)確度。 表1所示的是綜合生理特征值的實際數(shù)據(jù)和預(yù)測數(shù)據(jù)的比較,可以得到預(yù)測數(shù)據(jù)與實際數(shù)據(jù)之間的誤差為5.5 %,表明預(yù)測模型的結(jié)果是接近實際的。 表1 綜合生理特征值Tab 1 Integrated physiological characteristics value 智慧醫(yī)療信息化系統(tǒng)是目前醫(yī)療發(fā)展的一個重要內(nèi)容。本文基于物聯(lián)網(wǎng)無線傳感器技術(shù)采集患者生理信息數(shù)據(jù),提出了DBSCAN算法的數(shù)據(jù)分析方法,能夠剔除異常數(shù)據(jù)并將有效數(shù)據(jù)聚類為簇,成簇的數(shù)據(jù)和健康數(shù)據(jù)做比較便能做出病因判斷。據(jù)此得出智慧診斷結(jié)果能夠有效為醫(yī)護人員提供治療參考。 [1] Atzori L,Iera A,Morabito G.The Internet of tings:A survery[J].Computer Networks,2010,54(15):2787-2805. [2] Kwon P,Kim H,Kim U.A study on the web-based intelligent self-diagnosis medical system[J].Advances in Engineering Software,2009,40(6):402-406. [3] 林 曉.見證時代發(fā)展,從有線網(wǎng)絡(luò)到無限網(wǎng)絡(luò)[J].網(wǎng)絡(luò)與信息,2011(6):3-5. [4] 張 琰,忻展紅.Wi-Fi與電信業(yè)的發(fā)展[J].北京郵電大學(xué)學(xué)報,2004,6(4):39-41. [5] 李建功,唐雄燕.智慧醫(yī)療應(yīng)用技術(shù)特點及發(fā)展趨[J].中興通訊技術(shù),2012,18(2):13-22. [6] Trace D,Naeymi-Rad F,Haines D,et al.Intelligent medical record-entry[J].Journal of Medical Systems,2003,17:139-141. [7] 任菁菁,何前鋒,金 甌,等.感知健康、智慧醫(yī)療—物聯(lián)在醫(yī)療健康領(lǐng)域的應(yīng)用[J].中國信息界(e醫(yī)療),2011(3):46-47. [8] 蔡 雋.基于B/S架構(gòu)開發(fā)的醫(yī)療設(shè)備管理系統(tǒng)[J].電腦與電信,2011(2):60. [9] 錢 敬.B/S架構(gòu)中的數(shù)據(jù)推送設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2013(10):2356-2359. [10] Barnett V,Lewis T.Outliers in statistical data[M].New York:John Wiley & Sons,1994:4-24. [11] Osinski S,Stefanowski J,Weiss D.Lingo:Search results clustering algorithm based on singular value decomposition[J].Intelligent Information Processing and Web Mining Advances in soft Computing Volume,2004,25:359-368. [12] Tan P,Steinbach M,Kumar V.Introduction to data mining[M].范 明,譯.北京:人民郵電出版社,2011:32-41. [13] Schwartz B,Zaitsev P,Tkachenko V.High performance My-SQL[M].王曉東,譯.北京:電子工業(yè)出版社,2010:16-30. [14] Brittain J,Darwin I.Tomcat:The definitive guide[M].吳 豪,譯.北京:中國電力出版社,2009:8-20. [15] Han J,Kamber M,Pei J.Data mining:Concepts and technique-s[M].Urbana:Morgan kaufmann,2011:12-34. [16] 劉雙喜,王 盼,張春慶,等.基于優(yōu)化DBSCAN算法的玉米種子純度識別[J].農(nóng)業(yè)機械學(xué)報,2012,43(4):190-191. Design of intelligent medical model based on sensor clustering data mining in IoT* HUANG Chen1, PAN Yong-cai1, LI Ke-wei2, HUANG Ben-xiong3, PI Jian-fu1, FU Yong-qian1 (1.School of Computer and Information Engineering,Hubei University,Wuhan 430062,China;2.Wuhan Second Ship Design and Research Institute,Wuhan 430064,China;3.Department of Electronic and Information Engineering,Huazhong University of Science and Technology,Wuhan 430074,China) Modern intelligent medical care needs an information platform which can provide easy operation,fast response,and intellective diagnose,so propose intelligent medical model based on Internet of things(IoT) wireless sensor technology.This system collects physiological datas by intelligent sensors attached to patients,and adopts data analysis method based on density clustering density-based spatial clustering of applications with noise (DBSCAN) algorithm using space transformation,which converts physiological information to a high dimension feature space using nonlinear mapping,and carry out clustering analysis on transformed vector data,to promote clustering efficiency and assist medical staffs to diagnose. Internet of things(IoT); intelligent medical;density-based spatial clustering of applications with noise(DBSCAN) algorithm 2014—01—29 國家自然科學(xué)基金資助項目(61201254);湖北省軟科學(xué)物聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展專項項目(2011DHA014);教育部大學(xué)生創(chuàng)新創(chuàng)業(yè)計劃資助項目(201210512004) TP 393 A 1000—9787(2014)04—0076—04 黃 辰(1983-),男,福建龍巖人,博士,講師,主要研究領(lǐng)域為無線傳感器網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計算、智慧城市。4 實驗結(jié)果
5 結(jié)束語