陳逸杰 唐加山
摘要:隨著人們日常生活水平的提高,全國心血管疾病患病人數已接近21%,心血管疾病對生命的威脅愈加嚴重,已成為我國居民的主要死亡原因之一。因此,對心血管疾病數據進行統(tǒng)計分析,提前預警顯得尤為重要。為了得到更貼合實際的各指標正常區(qū)間,在收集指標時新增“用戶自我感覺”指標作為用戶身體狀況自評數據,并結合各指標已有數據劃分健康人群,得到新的正常區(qū)間,體檢人員一旦有相關指標出現(xiàn)異常便計入高發(fā)人群數。以冠心病為例作出高發(fā)人群數趨勢圖,并設計體檢信息管理系統(tǒng),可對上傳的體檢數據及用戶身體狀況自評數據進行大數據分析得到疾病預警結論,井告知體檢人員身體健康狀況。
關鍵詞:心血管疾病;用戶身體狀況自評;數據分析;健康預警DOI:10.11907/rjdk.191209開放科學(資源服務)標識碼(OSID):
中圖分類號.TP319文獻標識碼:A 文章編號:1672-7800(2019)010-0117-04
1研究背景及現(xiàn)狀
1.1研究背景
隨著科學技術與社會經濟的發(fā)展以及人類文明的進步,人們對自身健康情況越來越關注。同時,伴隨著人們日常生活水平的提高,心血管疾病對人類的危害也愈加嚴重。本文研究主要來源于實際需要,同時也是南京郵電大學鹽城大數據研究院關于老年人口健康大數據預演課題的一部分。
1.2研究意義
本文旨在對心血管疾病大數據進行統(tǒng)計分析,設計并構建一個應用管理系統(tǒng),對于醫(yī)學異常數據能夠實時給出應急處理指令,以實現(xiàn)健康預警智能化,并對疾病高發(fā)人群數趨勢進行分析,提出健康建議,從而提高人民健康水平與幸福感。
當前,心血管疾病被公認為全球致死率最高的疾病之一。國家心血管病中心于2017年發(fā)布的《中國心血管病報告2016》顯示,中國心血管病患病率正持續(xù)上升。心血管疾病現(xiàn)患病人數2.9億,其中冠心病1100萬,肺原性心臟病500萬,心力衰竭450萬,風濕性心臟病250萬,先天性心臟病200萬,高血壓2.7億。該報告還指出,心血管疾病是導致我國居民死亡的首要原因,每年約有350萬人死于各類心血管疾病。對心血管疾病患者(尤其是心肌梗死患者)而言,時間就是生命,患者就診時間越早,治療效果越好。
然而,雖然中國的基礎數據量十分龐大,中國心血管疾病醫(yī)生的臨床診療水平也在迅速提高,但就臨床科研成果與臨床數據應用而言,與世界先進水平還有一定差距。迄今為止,尚沒有足夠證據表明利用大數據分析技術能夠改善心血管診療效果。心血管診療相關大數據應用主要集中在風險預測模型、精準醫(yī)學與臨床決策支持、診療差異性分析及公共衛(wèi)生等領域。
1.3研究現(xiàn)狀
在我國目前的就醫(yī)模式下,患者就診數據包括患者基本信息、就診信息、檢驗及影像檢查報告、醫(yī)學影像圖像文件、住院病歷等臨床數據。以上海市為例,醫(yī)聯(lián)數據中心總數據規(guī)模已超過1507B。據初步統(tǒng)計,平均每日門診就診人次為180927,其中心血管患者占5.06%;平均每日新人院患者為4586,其中心血管患者占1.96%。但目前不管是區(qū)域衛(wèi)生信息平臺還是醫(yī)院平臺,都未曾對這些臨床大數據進行有效挖掘與分析利用,因此醫(yī)療衛(wèi)生領域的信息化建設迫在眉睫。
劉利明在Spark平臺上運用數據挖掘技術對醫(yī)療數據進行預處理,并使用3種不同模型建立風險預警模型,雖然預測效果更好,但耗時較長;張福榮通過調查研究篩選出導致疾病的危險因素,從而制定預警方案;吳丹對健康信息學在急性心血管疾病早期預警方向上的3項重大機遇和挑戰(zhàn)進行總結,包括無擾式傳感器開發(fā)、成像理論方法與多模信息融合技術;孫嘩根據脈搏分析檢測理論設計了心血管疾病預警系統(tǒng),結合前端嵌入式系統(tǒng)與后端服務器提出相應解決方案。
在國外,Luyster提出通過檢查失眠與睡眠呼吸暫停兩種非傳統(tǒng)的心血管風險因素,研究多種心血管危險因素組合對人群的影響,發(fā)現(xiàn)存在多種非傳統(tǒng)心血管風險因素的人群發(fā)病率明顯高于單獨失眠組與無失眠及睡眠呼吸暫停癥狀的人群;Berry建立風險評分模型,并對年輕男性冠心病發(fā)病及死亡率作出預測。
依據國家大數據戰(zhàn)略總體發(fā)展目標,國務院關于《促進大數據發(fā)展行動綱要》精神及國家生物數據匯集管理與共享利用的重大需求,組織開展生物大數據開發(fā)與應用關鍵技術研究工作,建設國家生物大數據平臺。心血管疾病大數據處理分析與應用研究委托首都醫(yī)科大學附屬北京安貞醫(yī)院等多家單位完成,計劃建立國家心血管疾病大數據平臺,并開發(fā)心血管疾病預警、預后相關模型及臨床決策支持系統(tǒng),為提高心血管疾病診治水平提供大數據支撐。
本文基于對體檢數據的分析,增加新的指標,使用更貼合實際的指標區(qū)間對多種導致疾病的危險因素進行判斷,以確定該疾病高發(fā)人群,而不是直接判斷患病人群,從而對高發(fā)人群進行預警。
2數據分析
2.1數據指標
本文一共收集了214種不同指標,分別隸屬于體格檢查、器械檢查及實驗室檢查3大類。其中,體格檢查有8類,器械檢查有9類,實驗室檢查有16類,共計33個小類。每個小類下皆由多個指標組成,并按照小類進行編號,如表1所示。
2.2正常區(qū)間與異常數據
在設計本功能時,預先在體檢時增加一個“用戶自我感覺”指標作為用戶自身狀況自評數據。用戶對體檢當天身體狀況進行自評,1-5分別為不舒適到舒適,然后將得分為l和2的判定為不健康人群,得分為3、4、5的判定為健康人群,如表2所示。
以健康人群數據為基礎,對各個指標建立95%置信區(qū)間,得到的區(qū)間即為對應指標的正常區(qū)間。指標值在區(qū)間內即為正常,否則記為異常,并作出對應柱狀圖。
2.3心血管疾病高發(fā)人群趨勢分析
以冠心病為例,冠心病危險因素包括可改變的危險因素與不可改變的危險因素,了解并對危險因素進行干預有助于冠心病預防??筛淖兊奈kU因素有:高血壓、血脂異常(總膽固醇過高或低密度脂蛋白膽固醇過高、甘油三酯過高、高密度脂蛋白膽固醇過低)、超重/肥胖、高血糖/糖尿病,以及不良生活方式包括吸煙、不合理膳食(高脂肪、高膽固醇、高熱量等)、缺少體力活動、過量飲酒等及社會心理因素;不可改變的危險因素有:性別、年齡、家族史。此外,該疾病也可能與感染有關,如巨細胞病毒、肺炎衣原體、幽門螺桿菌等。冠心病發(fā)作通常與季節(jié)變化、情緒波動、體力活動過量、飽食、大量吸煙及飲酒等有一定關聯(lián)。
本文收集的與冠心病密切相關的指標包括:血壓(收縮壓、舒張壓)、體重指數、總膽固醇、低密度脂蛋白膽固醇、高密度脂蛋白膽固醇、甘油三酯及空腹血糖。對體檢結果中與冠心病關系緊密的8項指標中的異常數據進行標記,只要有一項指標出現(xiàn)異常即記為冠心病高發(fā)人群,作出高發(fā)人群趨勢圖如圖2所示。
在圖2中,橫軸為月份,縱軸為指標異常人群數,3條線分別代表3年的數據。從圖中可以發(fā)現(xiàn),3年數據總體在一條線上,僅略有起伏,這是由于3年數據都是基于同一分布仿真生成的。若輸入實際數據,則會出現(xiàn)不同情況,可針對實際數據的趨勢圖變化進行分析。
就冠心病而言,由于冠心病對人們健康的威脅居高不下,因此從高發(fā)人群趨勢圖中發(fā)現(xiàn)特征,對體檢用戶進行健康預警則顯得十分必要,以提醒人們從上述提到的可改變的危險因素著手,改善生活質量,拒絕不良生活方式。
3系統(tǒng)實現(xiàn)
3.1體檢數據展示
在系統(tǒng)設計中,加入了大量可視化展示,如圖3所示。以脈搏數據為例,選取其中ID為1-102的數據進行放大操作,同時以橫虛線標注出數據均值,以氣球形式標注出該數據中的最大及最小值。
3.2正常區(qū)間及異常數據
經過上文的算法處理,體檢數據正常區(qū)間柱狀圖如圖4所示,舒張壓的最小值與最大值分別為59和88.4,通過柱狀圖可以清晰地觀察到正常區(qū)間的上下限。
異常數據統(tǒng)計柱狀圖如圖5所示,其中右側代表總數據量,左側代表異常值數量。
3.3高發(fā)人群趨勢分析及健康預警
高發(fā)人群趨勢分析已在2.3節(jié)中展示,在發(fā)現(xiàn)體檢人員體檢結果異常后,需要對該人員進行健康預警,并為其發(fā)送郵件,如圖6所示。
首先點擊頁面上的一鍵發(fā)送警告郵件,在這里由于是對該功能進行測試,因此發(fā)送一封給測試郵箱。若發(fā)送成功,頁面會彈出對話框提示。最后測試郵箱成功收到預警郵件,告知體檢用戶體檢結果出現(xiàn)異常,請及時到醫(yī)院作進一步檢查。
4結語
隨著人們日常生活水平的提高,心血管疾病對生命的威脅愈加嚴重。為了更好地關注人們身體健康狀況,本文通過預先增加“用戶自我感覺”指標劃分健康人群并建立置信區(qū)間,獲得更加貼合實際情況的指標正常區(qū)間,一旦出現(xiàn)異常即計人高發(fā)人群數,并作出每一年不同月份下的冠心病高發(fā)人群數趨勢圖,以便提出針對性建議。同時設計一個體檢信息管理系統(tǒng),通過郵件方式對體檢結果出現(xiàn)異常的人員進行預警,以通知其提早作進一步檢查,避免病情加重。本文采用的思想在其它疾病預警上也同樣適用,并可結合除體檢數據外的其它傳統(tǒng)或非傳統(tǒng)影響因素共同分析是否需要對人們進行預警。