饒啟聰 許丹 蔣海洪
摘要:健康大數(shù)據(jù)智能采集與挖掘系統(tǒng)平臺即能滿足醫(yī)學(xué)院校實訓(xùn)室建設(shè)需求,又能滿足未來的社會化需求,為學(xué)生提供一個創(chuàng)新創(chuàng)業(yè)平臺?文中從平臺功能需求出發(fā),利用先進(jìn)的大數(shù)據(jù)云計算技術(shù),采用合理的層次理論將平臺分割成多層,本文主要介紹了該平臺架構(gòu)層次。
關(guān)鍵詞:大數(shù)據(jù);云計算;分析挖掘;創(chuàng)新創(chuàng)業(yè);實訓(xùn)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.l003-6970.2017.08.040
引言
指導(dǎo)我國未來大數(shù)據(jù)發(fā)展方向的綱領(lǐng)性文件《國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動綱要的通知》(國發(fā)〔2015〕50號)的發(fā)布,在全社會引起廣泛影響。文件重點體現(xiàn)了在全球范圍內(nèi),運用大數(shù)據(jù)推動經(jīng)濟(jì)發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢的核心思想。國務(wù)院辦公廳《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》(國辦發(fā)〔2016〕47號)則將健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展納入國家大數(shù)據(jù)戰(zhàn)略布局,并從夯實應(yīng)用基礎(chǔ)、全面深化應(yīng)用、規(guī)范和推動“互聯(lián)網(wǎng)+健康醫(yī)療”服務(wù)、加強保障體系建設(shè)等四個方面部署了14項重點任務(wù)和重大工程。
基于此,上海健康醫(yī)學(xué)院從2016年開始籌建健康大數(shù)據(jù)智能采集與挖掘系統(tǒng)平臺(以下簡稱平臺),以滿足健康數(shù)據(jù)采集、清洗、存儲、數(shù)據(jù)挖掘、數(shù)據(jù)展示的需要,并結(jié)合健康管理課程實驗的要求,滿足應(yīng)用場景實驗實訓(xùn)的目標(biāo),以讓學(xué)生在實訓(xùn)室可以體驗健康管理的完整流程、操作方式等,并進(jìn)行科學(xué)實驗,同時結(jié)合我校健康管理課程教學(xué)和科研需要,充分利用前沿的大數(shù)據(jù)、云計算技術(shù),滿足各種教學(xué)、科研場景的技術(shù)支撐需求。長遠(yuǎn)來看,平臺還可以實現(xiàn)社會化,與市場各種健康管理系統(tǒng)實現(xiàn)很好的對接,并可以把平臺系統(tǒng)功能應(yīng)用走出圍墻,走向社會,結(jié)合“互聯(lián)網(wǎng)+”技術(shù),把平臺的功能和作用發(fā)揮到更大的空間和領(lǐng)域,更多的應(yīng)用場景,能給健康管理概率的普及及應(yīng)用提供支撐,為學(xué)生的未來就業(yè)和創(chuàng)業(yè)提供創(chuàng)新創(chuàng)業(yè)平臺。
1 整體架構(gòu)
平臺由基礎(chǔ)存儲、能力服務(wù)、創(chuàng)新應(yīng)用四大層組成,分別實現(xiàn)平臺的數(shù)據(jù)采集、清洗、存儲、挖掘與展示以及功能擴展,如下圖1所示:
2 基礎(chǔ)設(shè)施
2.1 健康大數(shù)據(jù)基礎(chǔ)設(shè)施云計算平臺
云計算平臺基于互聯(lián)網(wǎng)的計算方式,通過這種方式,共享的軟硬件資源和信息按照需求提供給計算機和其他設(shè)備。像使用“水”、“電”、“煤氣”一樣,將資源集中起來,按需供給,從而降低成本,提高利用率。云計算一般被定義為在網(wǎng)絡(luò)環(huán)境下計算資源的交付和使用方式,用戶通過網(wǎng)絡(luò)按需、易擴展的方式獲得所需服務(wù)。它的目的是實現(xiàn)計算資源能夠像自來水和電一樣按需供應(yīng),從這個意義上,云計算也可以稱為“自來計算”。云計算以新的計算資源交付和使用方式作為出發(fā)點,將從根本上顛覆傳統(tǒng)信息技術(shù)。
云計算的核心思想是將大量用網(wǎng)絡(luò)連接的IT資源統(tǒng)一管理和調(diào)度,構(gòu)成一個資源池向用戶按需服務(wù)。而實現(xiàn)將資源池化的核心技術(shù),也就是虛擬化。
大家對云計算的特殊的需求和其本身的技術(shù)手段決定了云計算具有可自動部署、透明、安全,可面向服務(wù)、可混合交付,按需角度,彈性擴展等特點。健康大數(shù)據(jù)專有云建設(shè),理由難過有限的硬件資源可提供至少100臺虛擬服務(wù)器,根據(jù)數(shù)據(jù)采集、清洗、存儲及挖掘分析、可視化展示以及擴展等需要提供動態(tài)分配和調(diào)用,初步形成“基礎(chǔ)設(shè)施即服務(wù)”的云服務(wù)模式。目前已將相關(guān)應(yīng)用遷移到健康大數(shù)據(jù)云平臺,提升了設(shè)備資源利用率,增強了系統(tǒng)的穩(wěn)定性和安全性,同時大大節(jié)約物理服務(wù)器和存儲服務(wù)器。
2.2 安全體系
大數(shù)據(jù)以淺顯易懂的概念、廣泛潛在的應(yīng)用需求和可展望的巨大經(jīng)濟(jì)效益,成為繼移動互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)之后信息技術(shù)領(lǐng)域的又一熱點。但是,隨之而來的數(shù)據(jù)安全和隱私保護(hù)問題給大數(shù)據(jù)發(fā)展帶來相應(yīng)的挑。
平臺通過梳理健康領(lǐng)域大數(shù)據(jù)安全需求,分析健康大數(shù)據(jù)環(huán)境下的安全特性,建成了雙活數(shù)據(jù)中心,統(tǒng)一配置了鏈路負(fù)載均衡、數(shù)據(jù)庫安全審計和下一臺防火墻、安全認(rèn)證網(wǎng)關(guān)等安全設(shè)備。
2.3 通訊基礎(chǔ)設(shè)施
通訊基礎(chǔ)設(shè)施包括骨干容量達(dá)百G的光纖有線網(wǎng)絡(luò),以及覆蓋面廣的移動4G網(wǎng)絡(luò),用于健康據(jù)的快速有效傳輸。
3 數(shù)據(jù)處理及存儲
數(shù)據(jù)的采集、清洗融合和存儲是數(shù)據(jù)處理及存儲層要實現(xiàn)的主要功能目標(biāo)。
3.1 數(shù)據(jù)交換平臺
健康大數(shù)據(jù)共享交換平臺,可以打通校內(nèi)以及校內(nèi)與校外各健康數(shù)據(jù)來源系統(tǒng)之間的數(shù)據(jù)鏈路,打破行業(yè)組織間的數(shù)據(jù)壁壘,通過對數(shù)據(jù)的授權(quán)使用,從而實現(xiàn)數(shù)據(jù)之間的共享和交換,取代之前的紙張打印、光盤、U盤、硬盤拷貝等傳統(tǒng)的獲取數(shù)據(jù)的方式,可以顯著提升各系統(tǒng)間的信息化工作效率。健康大數(shù)據(jù)智能采集與挖掘系統(tǒng)平臺目前已建設(shè)完成的健康信息交換平臺和健康信息資源目錄體系,可以作為健康醫(yī)療大數(shù)據(jù)的一部分,融入到更大級別的健康醫(yī)療大數(shù)據(jù)共享交換能力建設(shè)中數(shù)據(jù)共享交換平臺可以按照項目實際建設(shè)需求,通過接口的適配,采集到各來源系統(tǒng)不同種類、不同格式的數(shù)據(jù)。采集后的數(shù)據(jù)保存在數(shù)據(jù)共享交換中心,通過集中的數(shù)據(jù)清洗整合,建成健康大數(shù)據(jù)基礎(chǔ)庫。通過一定的數(shù)據(jù)授權(quán),各數(shù)據(jù)需求方可通過數(shù)據(jù)共享交換平臺訪問健康大數(shù)據(jù)基礎(chǔ)庫內(nèi)容。同時,各系統(tǒng)之間,也可以獨立地對自身數(shù)據(jù)進(jìn)行授權(quán),實現(xiàn)系統(tǒng)之間的數(shù)據(jù)共享傳輸。
3.2 數(shù)據(jù)清洗融合平臺
各個數(shù)據(jù)來源系統(tǒng)通過數(shù)據(jù)共享交換平臺共享出來的數(shù)據(jù),是一些支離破碎的某一個支域的數(shù)據(jù),互相沒有關(guān)聯(lián)起來,并且可能互相矛盾,還無法形成基礎(chǔ)數(shù)據(jù)庫和數(shù)據(jù)資產(chǎn)。數(shù)據(jù)清洗融合平臺承接數(shù)據(jù)共享交換平臺共享出來的數(shù)據(jù),識別出這些數(shù)據(jù)所對應(yīng)的基礎(chǔ)實體,將關(guān)于同一個實體的數(shù)據(jù)關(guān)聯(lián)起來,并對同一實體的數(shù)據(jù)屬性進(jìn)行值比對和邏輯關(guān)系的比對,發(fā)現(xiàn)不同來源數(shù)據(jù)中互相印證(好數(shù)據(jù))和互相矛盾(壞數(shù)據(jù))的部分,通過數(shù)據(jù)管控流程將不一致的數(shù)據(jù)發(fā)給數(shù)據(jù)源單位修復(fù),從而將同一個實體的不同來源互相重疊的可能不一致的數(shù)據(jù)屬性融合起來。建立基礎(chǔ)數(shù)據(jù)庫的模型,將融合后的數(shù)據(jù)裝入基礎(chǔ)數(shù)據(jù)庫。這個關(guān)聯(lián)、比對、清洗、融合、建模、裝人的過程是由數(shù)據(jù)清洗融合平臺完成的。其核心是數(shù)據(jù)的清洗和數(shù)據(jù)模型的重構(gòu),將數(shù)據(jù)由面向業(yè)務(wù)的應(yīng)用數(shù)據(jù)模型重構(gòu)為面向數(shù)據(jù)資產(chǎn)的基礎(chǔ)數(shù)據(jù)模型。
4 能力服務(wù)
本層主要實現(xiàn)數(shù)據(jù)的價值,通過數(shù)據(jù)挖掘分析體現(xiàn)數(shù)據(jù)基本價值,并通過能力中間件平臺,給其它方應(yīng)用提供接口,更大程度釋放數(shù)據(jù)價值。
4.1 數(shù)據(jù)挖掘分析平臺
建設(shè)健康數(shù)據(jù)挖掘分析平臺,可以對平臺運行過程中產(chǎn)生、積累的各類數(shù)據(jù)(基礎(chǔ)數(shù)據(jù)、行業(yè)數(shù)據(jù)、主題數(shù)據(jù)等)通過各種挖掘算法、分析工具來發(fā)現(xiàn)數(shù)據(jù)背后的價值,提供更加豐富和精確的統(tǒng)計分析結(jié)果,更好地服務(wù)健康管理和實訓(xùn)教學(xué)。
數(shù)據(jù)挖掘分析平臺可提供OLAP分析、分布式圖挖掘、多媒體智能分析、報表、搜索引擎等各種數(shù)據(jù)挖掘和分析工具,支持復(fù)雜多樣的應(yīng)用需求和靈活動態(tài)的擴展能力,為各種上層應(yīng)用提供完善的支撐。
4.2 能力中間件平臺
能力中間件平臺,可以將健康大數(shù)據(jù)平臺中的各種數(shù)據(jù)和能力,以服務(wù)的方式進(jìn)行封裝,在確保安全的前提下,給其它各種應(yīng)用開放接口,使這些應(yīng)用能夠高效地獲取到健康大數(shù)據(jù)統(tǒng)一平臺的多種數(shù)據(jù)和能力,從而豐富和增強了各類應(yīng)用的功能,實現(xiàn)了能力互補。通過能力中間件平臺的建設(shè),可以將健康大數(shù)據(jù)統(tǒng)一平臺和各種應(yīng)用打造成一個擴展性強、可持續(xù)生長的健康大數(shù)據(jù)生態(tài)圈系統(tǒng)。
能力中間件平臺包含業(yè)務(wù)協(xié)同和能力開放。業(yè)務(wù)協(xié)同既可實現(xiàn)各種跨系統(tǒng)、跨機構(gòu)的復(fù)雜政務(wù)流程的無縫對接,又可實現(xiàn)各類政務(wù)應(yīng)用系統(tǒng)的快速實施和部署;能力開放將數(shù)據(jù)交換、分析挖掘等各類能力進(jìn)行封裝開放,為第三方應(yīng)用提供基礎(chǔ)能力支撐。
5 創(chuàng)新應(yīng)用
平臺的適用范圍不只局限于當(dāng)前實訓(xùn)室建設(shè)的需要,最終目標(biāo)是可以實現(xiàn)社會化,結(jié)合市場各種健康管理的系統(tǒng)應(yīng)用,可以很好的與之對接,并可以把系統(tǒng)功能應(yīng)用走出圍墻,走向社區(qū),走向社會,結(jié)合“互聯(lián)網(wǎng)+”技術(shù),把平臺的功能和作用發(fā)揮到更大的空間和領(lǐng)域,更多的應(yīng)用場景,能給健康管理概率的普及及應(yīng)用提供支撐,為學(xué)生的未來就業(yè)和創(chuàng)業(yè)提供創(chuàng)新創(chuàng)業(yè)平臺。
6 結(jié)束語
通過基于大數(shù)據(jù)云計算技術(shù)搭建一個性能卓越、技術(shù)先進(jìn)、安全可靠、易于擴展,并具備創(chuàng)新應(yīng)用的健康大數(shù)據(jù)智能采集與挖掘系統(tǒng)平臺,即能滿足醫(yī)學(xué)院校實訓(xùn)室建設(shè)需求,服務(wù)于參與健康管理教學(xué)過程的教師、學(xué)生及醫(yī)務(wù)工作者,又能滿足未來的社會化需求,結(jié)合市場各種健康管理的系統(tǒng)應(yīng)用,并實現(xiàn)相互之間的完美對接,讓平臺系統(tǒng)功能應(yīng)用走出圍墻,走向社區(qū)、邁向社會,結(jié)合“互聯(lián)網(wǎng)+”技術(shù),把平臺功能發(fā)揮到更大的空間和領(lǐng)域,給醫(yī)學(xué)院校甚至其它行業(yè)的學(xué)生提供一個創(chuàng)新創(chuàng)業(yè)平臺。
平臺的架構(gòu)實現(xiàn)借鑒了不少網(wǎng)上公開的方案和開源技術(shù),由于時間有限、以及項目參與人員的學(xué)識局限性,不足之處在所難免,期待在實訓(xùn)教學(xué)過程中不斷完善與提局。