潘媛媛 ,黃道斌,盧小杰,葉明全
(1.皖南醫(yī)學(xué)院 醫(yī)學(xué)信息學(xué)院,安徽 蕪湖 241002;2.皖南醫(yī)學(xué)院 健康大數(shù)據(jù)挖掘與應(yīng)用研究中心,安徽 蕪湖 241002)
2016 年國(guó)務(wù)院印發(fā)《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見(jiàn)》,健康醫(yī)療大數(shù)據(jù)成為國(guó)家重要的基礎(chǔ)性戰(zhàn)略資源之一,逐漸成為社會(huì)關(guān)注的焦點(diǎn)[1-2]。作為有效挖掘醫(yī)療大數(shù)據(jù)潛在價(jià)值的關(guān)鍵手段[3],健康醫(yī)療大數(shù)據(jù)分析與挖掘技術(shù)越來(lái)越被醫(yī)藥企事業(yè)重視,相關(guān)技術(shù)人才的需求增長(zhǎng)也越來(lái)越迅速,然而具有一定健康醫(yī)療知識(shí)背景的大數(shù)據(jù)分析和挖掘人才依舊稀缺。在此背景下,醫(yī)學(xué)院校為相關(guān)專(zhuān)業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程具有重要意義。通過(guò)數(shù)據(jù)挖掘課程的學(xué)習(xí),學(xué)生可以掌握數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類(lèi)、聚類(lèi)、可視化等挖掘技術(shù),并應(yīng)用到生物、健康及醫(yī)藥衛(wèi)生領(lǐng)域。同時(shí),大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析與挖掘需要學(xué)生具有優(yōu)秀的數(shù)據(jù)挖掘建模能力,而能力培養(yǎng)離不開(kāi)實(shí)踐教學(xué)[4]。數(shù)據(jù)挖掘是一門(mén)數(shù)學(xué)理論要求高、實(shí)踐性強(qiáng)的課程,對(duì)醫(yī)學(xué)院校的本科生來(lái)講實(shí)踐教學(xué)具有一定的難度[5]。
數(shù)據(jù)挖掘這門(mén)課程早期是面向綜合院校計(jì)算機(jī)專(zhuān)業(yè)開(kāi)設(shè)的課程,但隨著數(shù)據(jù)挖掘技術(shù)在健康醫(yī)療行業(yè)中的廣泛應(yīng)用,已成為醫(yī)學(xué)院校相關(guān)專(zhuān)業(yè)本科生的專(zhuān)業(yè)課,如信管專(zhuān)業(yè)、醫(yī)學(xué)信息工程專(zhuān)業(yè)等。目前,醫(yī)學(xué)院校數(shù)據(jù)挖掘課程在實(shí)踐教學(xué)中存在諸多不足。
(1)實(shí)踐教學(xué)未能結(jié)合健康醫(yī)療行業(yè)特點(diǎn)。健康醫(yī)療大數(shù)據(jù)除了具備通用的大數(shù)據(jù)性,還具備高度專(zhuān)業(yè)性、多態(tài)性、隱私性、時(shí)序性、不完整性等醫(yī)療特性[6]。醫(yī)學(xué)院校數(shù)據(jù)挖掘技術(shù)的人才培養(yǎng)應(yīng)該進(jìn)一步結(jié)合健康醫(yī)療行業(yè)特征,不僅要求學(xué)生有扎實(shí)的挖掘技術(shù),還要熟悉健康醫(yī)療行業(yè)和相關(guān)業(yè)務(wù)需求,這也是醫(yī)學(xué)院校開(kāi)設(shè)醫(yī)學(xué)數(shù)據(jù)挖掘課程的培養(yǎng)目標(biāo)。然而,鑒于醫(yī)學(xué)院校醫(yī)學(xué)特點(diǎn),數(shù)據(jù)挖掘課程開(kāi)設(shè)較晚,在很大程度上“照搬”計(jì)算機(jī)專(zhuān)業(yè),缺乏與健康醫(yī)療行業(yè)的結(jié)合。課程實(shí)驗(yàn)資源一般來(lái)自不同行業(yè)領(lǐng)域,與健康醫(yī)療相關(guān)的實(shí)踐教學(xué)資源匱乏,不能讓學(xué)生掌握醫(yī)療大數(shù)據(jù)的醫(yī)療特性,從而無(wú)法滿(mǎn)足醫(yī)療大數(shù)據(jù)背景下對(duì)數(shù)據(jù)分析、數(shù)據(jù)處理的人才培養(yǎng)要求。
(2)實(shí)踐教學(xué)無(wú)法滿(mǎn)足不同層次學(xué)生的實(shí)踐需求。在教學(xué)活動(dòng)中,學(xué)生占學(xué)習(xí)活動(dòng)的主體地位,每個(gè)學(xué)生都有自身不同的學(xué)習(xí)需求[7],調(diào)動(dòng)學(xué)生學(xué)習(xí)熱情,實(shí)踐教學(xué)就必須圍繞學(xué)生的主體地位展開(kāi)。相較于綜合院校計(jì)算機(jī)專(zhuān)業(yè),醫(yī)學(xué)院校學(xué)生計(jì)算機(jī)理論基礎(chǔ)薄弱,實(shí)踐教學(xué)沒(méi)有考慮不同層次的學(xué)生理解能力以及實(shí)踐能力的差異性,將實(shí)驗(yàn)內(nèi)容和數(shù)據(jù)統(tǒng)一打包布置給學(xué)生,對(duì)于同一個(gè)實(shí)驗(yàn)內(nèi)容,部分學(xué)生認(rèn)為簡(jiǎn)單而重復(fù)性操作,部分學(xué)生則認(rèn)為較難無(wú)法完成實(shí)驗(yàn),忽視不同層次學(xué)生的學(xué)習(xí)需求,從而不能激發(fā)學(xué)生的學(xué)習(xí)積極性。
(3)實(shí)踐教學(xué)資源不能體現(xiàn)完整的挖掘過(guò)程。完整的數(shù)據(jù)挖掘過(guò)程是包含數(shù)據(jù)采集、預(yù)處理、挖掘算法、結(jié)果評(píng)估、模型解釋的完整過(guò)程[8]。以往的實(shí)驗(yàn)項(xiàng)目側(cè)重于決策樹(shù)、貝葉斯、支持向量機(jī)等具體模型的構(gòu)建,忽視輔助模型構(gòu)建的前期數(shù)據(jù)處理以及后期數(shù)據(jù)可視化等工作,不能讓學(xué)生體會(huì)完整的醫(yī)學(xué)數(shù)據(jù)挖掘過(guò)程,造成學(xué)生一拿到數(shù)據(jù)就開(kāi)始套用模型卻不知道選擇模型的理由。
1)結(jié)合健康醫(yī)療特征。
有別于綜合院校開(kāi)設(shè)數(shù)據(jù)挖掘課程,醫(yī)學(xué)院校開(kāi)設(shè)數(shù)據(jù)挖掘旨在讓學(xué)生掌握數(shù)據(jù)挖掘理論以及如何用數(shù)據(jù)挖掘技術(shù)解決實(shí)際健康醫(yī)療問(wèn)題,這就要求課程培養(yǎng)必須緊密結(jié)合醫(yī)療健康業(yè)務(wù)特征。所以,實(shí)踐教學(xué)資源庫(kù)的建設(shè)應(yīng)圍繞培養(yǎng)健康數(shù)據(jù)分析人才而設(shè)計(jì),其中實(shí)驗(yàn)案例和實(shí)驗(yàn)數(shù)據(jù)應(yīng)以醫(yī)學(xué)健康數(shù)據(jù)資源為主。例如,在自主研發(fā)實(shí)驗(yàn)案例時(shí),將具體的數(shù)據(jù)挖掘理論(決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯、聚類(lèi)、支持向量機(jī))融入到臨床診斷、生物檢測(cè)、醫(yī)院管理、健康管理等應(yīng)用場(chǎng)景中,合理設(shè)計(jì)與醫(yī)學(xué)背景知識(shí)相關(guān)的實(shí)驗(yàn)案例;在編寫(xiě)試卷時(shí),應(yīng)重點(diǎn)考查學(xué)生應(yīng)用數(shù)據(jù)挖掘技術(shù)解決健康醫(yī)療數(shù)據(jù)的綜合能力。
2)考慮不同層次需求。
實(shí)踐教學(xué)必須圍繞學(xué)生的主體地位展開(kāi),因此資源庫(kù)建設(shè)須考慮不同層次學(xué)生的實(shí)踐需求,具體表現(xiàn)為能讓學(xué)生考慮自身包括興趣、能力等在內(nèi)的因素進(jìn)行自主選擇適合自己的實(shí)驗(yàn)項(xiàng)目。例如,針對(duì)決策樹(shù)這一章內(nèi)容,其資源庫(kù)的建設(shè)過(guò)程中便可以同時(shí)包括以下實(shí)驗(yàn)項(xiàng)目:①給定一個(gè)糖尿病數(shù)據(jù)集,試計(jì)算年齡、高血壓、吸煙史3 個(gè)屬性的信息熵;②給定一個(gè)完整的糖尿病數(shù)據(jù)集,實(shí)現(xiàn)基于信息熵進(jìn)行劃分選擇的決策樹(shù)算法,并為數(shù)據(jù)集生成一棵決策樹(shù);③給定一個(gè)具有連續(xù)屬性值的含有缺失值的糖尿病數(shù)據(jù)集,能否用決策樹(shù)算法實(shí)現(xiàn)分類(lèi)?若能則產(chǎn)生基于信息熵的決策樹(shù),若不能則說(shuō)明理由。
以上3 道實(shí)驗(yàn)項(xiàng)目難度逐層遞進(jìn),通過(guò)第1道實(shí)驗(yàn)項(xiàng)目的實(shí)踐,學(xué)生能夠及時(shí)復(fù)習(xí)鞏固課堂理論知識(shí),適合基礎(chǔ)稍弱的學(xué)生完成;通過(guò)第2道實(shí)驗(yàn)項(xiàng)目的實(shí)踐,學(xué)生能夠掌握決策樹(shù)分類(lèi)的基本過(guò)程,能讓學(xué)生意識(shí)到用所學(xué)知識(shí)完成實(shí)際問(wèn)題的成就感,激發(fā)學(xué)習(xí)熱情,比較適合基礎(chǔ)較扎實(shí)的學(xué)生完成;第3 道實(shí)驗(yàn)項(xiàng)目具有創(chuàng)新性,需要學(xué)生大膽推測(cè)、積極摸索與實(shí)踐。資源庫(kù)的層次性原則保證了不同層次學(xué)生都能找到適合自身的實(shí)驗(yàn)內(nèi)容,激發(fā)學(xué)習(xí)的熱情和積極性。
3)遵循開(kāi)放性。
開(kāi)放性原則包括兩方面含義:一方面,對(duì)于教師而言,資源庫(kù)建設(shè)應(yīng)該匯聚醫(yī)學(xué)數(shù)據(jù)挖掘課程組全體教師的集體力量和智慧,給予教師上傳、修改和完善資源庫(kù)的權(quán)限,同時(shí)資源庫(kù)共享給老師作為課堂教學(xué)的案例來(lái)源;另一方面,對(duì)于學(xué)生而言,既要保證資源庫(kù)形式的開(kāi)放性,有自主選擇的驗(yàn)證性實(shí)驗(yàn)、綜合性實(shí)驗(yàn)、設(shè)計(jì)性實(shí)驗(yàn)等,又要保證資源庫(kù)實(shí)驗(yàn)案例的構(gòu)成應(yīng)具備開(kāi)放性,設(shè)置必做實(shí)驗(yàn)(教師要求必須要做的實(shí)驗(yàn)),設(shè)置“自助實(shí)驗(yàn)套餐”(學(xué)生選擇自己想要做的實(shí)驗(yàn)),設(shè)置“實(shí)驗(yàn)套餐”(教師要求的部分必做實(shí)驗(yàn)和學(xué)生可做的部分可選實(shí)驗(yàn)),不同的學(xué)生根據(jù)自己的實(shí)際需求選擇適合自己的實(shí)驗(yàn)項(xiàng)目或套餐進(jìn)行操作,也保障學(xué)校實(shí)驗(yàn)課的安排和老師對(duì)學(xué)生實(shí)驗(yàn)效果的評(píng)價(jià)過(guò)程。
根據(jù)資源庫(kù)建設(shè)應(yīng)遵循的原則以及對(duì)數(shù)據(jù)挖掘?qū)嵺`教學(xué)不足分析,采用“三級(jí)四層”設(shè)計(jì)方法對(duì)實(shí)踐教學(xué)資源庫(kù)進(jìn)行建設(shè)。按照素材級(jí)資源、案例級(jí)資源和試卷級(jí)資源對(duì)資源庫(kù)資源進(jìn)行三級(jí)劃分建設(shè),考慮資源整合程度、學(xué)生實(shí)踐需求以及醫(yī)學(xué)院校人才培養(yǎng)特點(diǎn)按照基礎(chǔ)層、初級(jí)層、應(yīng)用層、提高層對(duì)資源庫(kù)進(jìn)行層次建設(shè)。“三級(jí)四層”設(shè)計(jì)框架如圖1 所示。
圖1 資源庫(kù)建設(shè)框架
1)素材級(jí)資源。
素材級(jí)資源是指通過(guò)網(wǎng)絡(luò)收集、醫(yī)院信息系統(tǒng)采集、自主編寫(xiě)以及科研課題產(chǎn)生等各種形式獲得的原始數(shù)據(jù)資源。主要包括實(shí)驗(yàn)數(shù)據(jù)集、文本、圖片、視頻、動(dòng)畫(huà)以及仿真軟件等,如公開(kāi)地剔除病人隱私的醫(yī)學(xué)病例文檔和圖像、數(shù)據(jù)說(shuō)明詞典、實(shí)驗(yàn)操作視頻、實(shí)踐指導(dǎo)文檔等。素材級(jí)資源是沒(méi)有經(jīng)過(guò)處理的第一手資源,保留實(shí)驗(yàn)資源的原始特征和規(guī)模,教師可根據(jù)實(shí)驗(yàn)教學(xué)的實(shí)際需要進(jìn)行自主處理,提高實(shí)驗(yàn)案例設(shè)計(jì)和編寫(xiě)的靈活性。
2)案例級(jí)資源。
案例級(jí)資源是指在素材級(jí)資源的基礎(chǔ)上按照數(shù)據(jù)挖掘課程的教學(xué)重難點(diǎn)對(duì)資源進(jìn)行整理、加工形成的實(shí)驗(yàn)教學(xué)案例資源,既是學(xué)生掌握課程知識(shí)點(diǎn)和提升實(shí)踐能力的重點(diǎn)資源,也是老師理論、實(shí)驗(yàn)教學(xué)的主要案例來(lái)源。實(shí)驗(yàn)案例資源可通過(guò)專(zhuān)業(yè)老師和學(xué)生共同完成設(shè)計(jì)、編寫(xiě)和修正。
3)試卷級(jí)資源。
試卷級(jí)資源指從素材級(jí)資源、案例級(jí)資源的基礎(chǔ)上隨機(jī)產(chǎn)生的評(píng)價(jià)學(xué)生學(xué)習(xí)效果的各種測(cè)試卷。主要包括課堂測(cè)試卷、課程期中試卷、課程結(jié)束考試卷以及學(xué)生平時(shí)練習(xí)卷等,從而充分發(fā)揮考察學(xué)生學(xué)習(xí)效果的功能。
“四層”框架結(jié)構(gòu)是實(shí)踐教學(xué)資源庫(kù)對(duì)“三級(jí)”資源進(jìn)行具體的整合和設(shè)計(jì),主要分為基礎(chǔ)層、初級(jí)層、應(yīng)用層和提高層。
1)基礎(chǔ)層設(shè)計(jì)。
資源庫(kù)基礎(chǔ)層是對(duì)“三級(jí)”資源的初級(jí)整合,主要是對(duì)各級(jí)資源通過(guò)整理、加工、分類(lèi)、維護(hù)、排序、檢索和傳輸?shù)葦?shù)據(jù)處理過(guò)程形成的各種素材庫(kù)、案例庫(kù)和試卷庫(kù)。其中素材庫(kù)按照資源類(lèi)型形成數(shù)據(jù)集子庫(kù)、文檔子庫(kù)、圖片圖像子庫(kù)和仿真軟件子庫(kù)等;案例庫(kù)按照課程知識(shí)點(diǎn)形成決策樹(shù)案例子庫(kù)、聚類(lèi)案例子庫(kù)、貝葉斯分類(lèi)子庫(kù)和支持向量機(jī)案例子庫(kù)等?;A(chǔ)層的設(shè)計(jì)目標(biāo)主要是便于師生對(duì)教學(xué)相關(guān)素材的查詢(xún)和獲取。
2)初級(jí)層設(shè)計(jì)。
初級(jí)層是對(duì)“三級(jí)”資源的深入整合,主要是設(shè)計(jì)幫助學(xué)生理解數(shù)據(jù)挖掘算法,復(fù)習(xí)基礎(chǔ)知識(shí)點(diǎn),明確基礎(chǔ)方法的驗(yàn)證性實(shí)驗(yàn)庫(kù)。驗(yàn)證性實(shí)驗(yàn)庫(kù)包含一系列具有明確目的、詳細(xì)步驟的與知識(shí)單元一一對(duì)應(yīng)的驗(yàn)證性資源。例如,給定一個(gè)小型的乳腺癌數(shù)據(jù)集,讓學(xué)生按照實(shí)驗(yàn)指導(dǎo)上的實(shí)驗(yàn)步驟一步步完成數(shù)據(jù)規(guī)范化的處理。驗(yàn)證性實(shí)驗(yàn)庫(kù)比較適用于學(xué)習(xí)基礎(chǔ)稍弱、理解能力稍差的學(xué)生按照實(shí)驗(yàn)要求完成相應(yīng)實(shí)驗(yàn)步驟。
3)應(yīng)用層設(shè)計(jì)。
應(yīng)用層是對(duì)“三級(jí)”資源的更加深入的整合,主要是設(shè)計(jì)具有課程教學(xué)邏輯的綜合性實(shí)驗(yàn)庫(kù),綜合性實(shí)驗(yàn)庫(kù)包含一系列能夠覆蓋若干知識(shí)點(diǎn)和方法的考查學(xué)生綜合運(yùn)用能力的綜合性資源。主要是按照數(shù)據(jù)挖掘技術(shù)方法對(duì)資源進(jìn)行的任務(wù)化設(shè)計(jì),例如,給定門(mén)診患者體檢指標(biāo)數(shù)據(jù)集,讓學(xué)生先結(jié)合分類(lèi)模型對(duì)數(shù)據(jù)集進(jìn)行特征選擇,再在篩選所得數(shù)據(jù)集上根據(jù)k-均值聚類(lèi)算法(采用歐式距離)計(jì)算前五次迭代后的三個(gè)聚類(lèi)中心和聚類(lèi)結(jié)果(設(shè)k=3,初始聚類(lèi)中心為6、16 和26)。綜合性實(shí)驗(yàn)庫(kù)比較適用于基礎(chǔ)較好、學(xué)習(xí)能力強(qiáng)的學(xué)生,指導(dǎo)學(xué)生應(yīng)用一個(gè)或多個(gè)數(shù)據(jù)挖掘方法分析復(fù)雜的健康醫(yī)療數(shù)據(jù)。
4)提高層設(shè)計(jì)。
提高層是對(duì)“三級(jí)”資源的最深入的整合,主要是以項(xiàng)目的形式構(gòu)建設(shè)計(jì)型實(shí)驗(yàn)庫(kù),又稱(chēng)為創(chuàng)新型實(shí)驗(yàn)庫(kù),比如設(shè)計(jì)臨床決策支持系統(tǒng)、糖尿病預(yù)警系統(tǒng)等。此類(lèi)實(shí)驗(yàn)針對(duì)完整的數(shù)據(jù)挖掘過(guò)程,即包含數(shù)據(jù)采集、預(yù)處理、算法應(yīng)用、結(jié)果分析、結(jié)果解釋和呈現(xiàn)等。主要目的在于使學(xué)生了解實(shí)際數(shù)據(jù)挖掘的完整流程,使學(xué)生在主動(dòng)參與設(shè)計(jì)課題的過(guò)程中逐步構(gòu)建起對(duì)數(shù)據(jù)挖掘應(yīng)用的認(rèn)識(shí)。實(shí)驗(yàn)項(xiàng)目可以分解為多個(gè)子任務(wù)來(lái)分步實(shí)施,且一般由實(shí)驗(yàn)小組合作完成。設(shè)計(jì)性實(shí)驗(yàn)庫(kù)比較適用于創(chuàng)新意識(shí)較強(qiáng)的學(xué)生,培養(yǎng)學(xué)生既熟悉醫(yī)院信息系統(tǒng)業(yè)務(wù)邏輯,也能真正解決健康醫(yī)療領(lǐng)域中實(shí)際問(wèn)題的創(chuàng)新能力。創(chuàng)新性實(shí)驗(yàn)庫(kù)可成為輔助學(xué)生參加校內(nèi)外各種數(shù)據(jù)分析比賽的訓(xùn)練場(chǎng)。
在健康醫(yī)療大數(shù)據(jù)背景下,醫(yī)學(xué)院校為相關(guān)專(zhuān)業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程具有重要意義。實(shí)踐教學(xué)資源庫(kù)的建立對(duì)培養(yǎng)具有一定健康醫(yī)療知識(shí)背景的大數(shù)據(jù)分析和挖掘人才有重要的促進(jìn)作用?;趯?shí)踐教學(xué)資源庫(kù)建設(shè)原則提出的“三級(jí)四層”資源庫(kù)建設(shè)框架,培養(yǎng)了學(xué)生的實(shí)踐和創(chuàng)新能力,適應(yīng)健康醫(yī)療大數(shù)據(jù)的人才需要。另外,為了使實(shí)踐教學(xué)資源庫(kù)更好地服務(wù)于教師和學(xué)生,在今后的研究中應(yīng)進(jìn)一步構(gòu)思數(shù)字化實(shí)踐教學(xué)平臺(tái)的建設(shè)。