郭 欣,陳 瑛,章鳴嬛,張 璇,潘曙明,湯璐佳
(1.上海杉達學(xué)院信息科學(xué)與技術(shù)學(xué)院大數(shù)據(jù)分析與處理研究中心,上海 201209;2.上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院,上海 200092)
根據(jù)世界災(zāi)難流行病學(xué)研究中心數(shù)據(jù),自1995年來,全世界災(zāi)難發(fā)生頻率增加了一倍,危害程度也在不斷升高[1-2]。2019年底新型冠狀病毒(2019-nCoV)肺炎疫情再次侵襲華夏大地,中國在公共衛(wèi)生領(lǐng)域投入了大量人力、財力與物力,取得了一定的成效,疫情使人們認識到必須建立健全應(yīng)急體系,形成應(yīng)急儲備能力,才能夠確保及時、高效地應(yīng)對各類突發(fā)事件,將事件影響降到最低。2015年美國災(zāi)難生命支持(National Disaster Life Support, NDLS)課程引進中國。經(jīng)過2015—2017年的在地化改革后,NDLS課程在中國落地,截止2019年底共進行了68期培訓(xùn),參訓(xùn)人數(shù)累計1740余人,但該課程是否符合中國應(yīng)急培訓(xùn)的實際情況,是否得到中國學(xué)員的認可,如何提高培訓(xùn)質(zhì)量仍有待探討。
機器學(xué)習(xí)是一種重要的數(shù)據(jù)挖掘方法,在許多領(lǐng)域得到廣泛應(yīng)用,可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。2種學(xué)習(xí)的主要差別在于用于建立模型的數(shù)據(jù)除帶有特征(feature)外是否還帶有標簽(label)或者說是否有確定的結(jié)果[3],監(jiān)督學(xué)習(xí)有確定的結(jié)果,非監(jiān)督學(xué)習(xí)則無。近年來,國內(nèi)外越來越多的研究者嘗試將機器學(xué)習(xí)方法應(yīng)用于預(yù)測分析研究。Zhang等[4]采用梯度提升分類器對大學(xué)生主觀幸福感進行預(yù)測。徐鋮斌等[5]采用隨機森林法,針對杜克大學(xué)外部感染控制監(jiān)測網(wǎng)登記的結(jié)直腸手術(shù)病例歷史數(shù)據(jù)集,進行結(jié)直腸手術(shù)部位感染預(yù)測分析。章鳴嬛等[6]使用Logistic回歸和決策樹2種機器學(xué)習(xí)分類算法進行建模分析影響乳腺癌5年預(yù)后的因素。高英博[7]基于SVR、LSTM和XGBOOST算法建立建筑能耗預(yù)測模型,對建筑能耗預(yù)測方法進行研究??梢姡脵C器學(xué)習(xí)方法構(gòu)建模型是進行預(yù)測分析的常用方法。
在眾多機器學(xué)習(xí)方法中,Apriori關(guān)聯(lián)規(guī)則分析和決策樹頗受國內(nèi)外研究者們的重視[8-13]。其中,Jhang等[8]利用Apriori算法對不同類型癡呆患者的護理需求進行分類研究。Salas等[11]應(yīng)用決策樹構(gòu)建了一種新的資本流動突發(fā)事件預(yù)測模型,該模型能夠準確估計全球未來的資本流動異常。Surucu-Balci等[13]運用決策樹方法找出了社會化媒體的貼文特性,從而提高了利益相關(guān)者在集裝箱航運市場上的參與度。本文通過將Apriori關(guān)聯(lián)規(guī)則分析和決策樹相結(jié)合的方法實現(xiàn)NDLS培訓(xùn)效果預(yù)測。運用Apriori關(guān)聯(lián)規(guī)則算法先根據(jù)樣本數(shù)據(jù)建立頻繁項集,再依據(jù)頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則,從而找到影響學(xué)員培訓(xùn)效果的關(guān)鍵因素。由于關(guān)聯(lián)規(guī)則不能直接用于預(yù)測,后續(xù)使用決策樹模型對培訓(xùn)效果進行預(yù)測分析,并根據(jù)決策樹提取的規(guī)則驗證Apriori關(guān)聯(lián)規(guī)則的結(jié)論是否正確。最后將這2種建模方法的結(jié)果與利用分類回歸樹(Classification and Regression Tree, CRT)算法建模的結(jié)果進行對比,找出對NDLS培訓(xùn)效果影響最大的若干因素,為改善NDLS課程培訓(xùn)方法、提高培訓(xùn)質(zhì)量提供參考。
選取2018年6月—2019年12月期間參加NDLS培訓(xùn)的650名學(xué)員的基本信息、學(xué)習(xí)情況以及滿意度調(diào)查信息作為數(shù)據(jù)來源。這些信息均源于課題組自主開發(fā)的“NDLS培訓(xùn)信息采集系統(tǒng)”,在該系統(tǒng)中設(shè)計了問卷調(diào)查和測試功能,學(xué)員在參加培訓(xùn)前和培訓(xùn)后均需參加問卷調(diào)查和測試。通過采集最終得到的學(xué)員培訓(xùn)數(shù)據(jù)如圖1所示。
圖1 學(xué)員培訓(xùn)數(shù)據(jù)
本文數(shù)據(jù)預(yù)處理的流程如圖2所示,為后續(xù)分析預(yù)測做準備。
圖2 數(shù)據(jù)預(yù)處理流程
1)數(shù)據(jù)整合。將采集到的學(xué)員基本信息、學(xué)習(xí)情況以及調(diào)查信息等多個數(shù)據(jù)文件,利用數(shù)據(jù)庫技術(shù),根據(jù)學(xué)員編號的唯一性,將多個表格的數(shù)據(jù)合并到一個表中。
2)數(shù)據(jù)清洗。前期采集的原始數(shù)據(jù)有些缺少數(shù)值,對于空缺嚴重的記錄采用忽略的方法,如2018年參加培訓(xùn)的學(xué)員中有相當一部分沒有填寫培訓(xùn)后的調(diào)查問卷,考慮到數(shù)據(jù)完整性和準確率,將這些學(xué)員記錄直接刪除。對于其他個別空缺,采用人工填充空缺值的方法,填充所在屬性的均值、中位數(shù)或眾數(shù)。另外,將一些有明顯錯誤和重復(fù)的數(shù)據(jù)進行糾錯及去重。最終數(shù)據(jù)清洗后得到406條有效記錄。
3)數(shù)據(jù)消減。為了縮小挖掘數(shù)據(jù)的規(guī)模,在基本不影響最終挖掘結(jié)果的前提下消減部分字段。本文原始數(shù)據(jù)共有16個字段,對這些字段進行單因素分析,發(fā)現(xiàn)“職業(yè)”與“專業(yè)背景”重復(fù)度較高,“課程推廣意愿”與輸出變量關(guān)系不大,將這2個字段刪除,保留其余14個字段如表1和表2所示。
表1 選取的字段(數(shù)值型)
表2 選取的字段(分類型)
4)數(shù)據(jù)轉(zhuǎn)換。本文使用的Apriori關(guān)聯(lián)分析和決策樹方法均要求變量為分類型字段,故此處的數(shù)據(jù)轉(zhuǎn)換主要是對數(shù)據(jù)進行離散化操作。在劃分前/后測成績的等級時采用K-means聚類算法,將前/后測成績分為優(yōu)、中、差3個等級。年齡字段通過計算平均值進行劃分,高于均值為年長,相反為年輕。學(xué)歷、經(jīng)濟地區(qū)、專業(yè)背景3個字段的原始分類過于精細,故適當?shù)剡M行合并。
本文主要使用Apriori關(guān)聯(lián)規(guī)則分析和決策樹2種機器學(xué)習(xí)方法,建模流程如圖3所示。
關(guān)聯(lián)規(guī)則分析屬于非監(jiān)督式的機器學(xué)習(xí)方法,能夠有效揭示數(shù)據(jù)中隱含的關(guān)聯(lián)特征。Apriori[14]是影響較大的關(guān)聯(lián)規(guī)則算法,利用迭代形式,循環(huán)處理:1)產(chǎn)生候選集;2)基于候選集計算支持度并確定頻繁項集,直到生成最終的頻繁K項集;3)從頻繁K項集中產(chǎn)生所有簡單關(guān)聯(lián)規(guī)則,選擇置信度大于用戶指定最小置信度閾值的關(guān)聯(lián)規(guī)則,組成有效規(guī)則集合,供用戶決策分析[15]。
圖3 建模流程
支持度用來測度簡單關(guān)聯(lián)規(guī)則的普遍性,表示項目X和項目Y同時出現(xiàn)的概率[16],數(shù)學(xué)表示為:
(1)
置信度是對簡單關(guān)聯(lián)規(guī)則準確度的測量,描述了包含項目X的事務(wù)中同時包含Y的概率,反映X出現(xiàn)的條件下Y出現(xiàn)的可能性[17],數(shù)學(xué)表示為:
(2)
決策樹屬于監(jiān)督式的機器學(xué)習(xí)方法,其目標是建立分類模型或回歸模型[15],樹的生長和修剪是方法的核心[18]。決策樹生長算法用來確定決策樹的分支準則[19],本文采用C5.0算法,以信息增益率為標準確定最佳分組變量和分隔點。即選取信息增益率最大的變量作為根節(jié)點,并按其值劃分樣本數(shù)據(jù)集合,直到該變量只有一個值時停止劃分,訓(xùn)練集中的其他子集則繼續(xù)遞歸分割構(gòu)造樹的分支,當所有子集中的元組屬于同一個類別時結(jié)束算法。信息增益率的數(shù)學(xué)定義為:
GainsR(U,V)=Gains(U,V)/Ent(V)
(3)
決策樹修剪是為了解決“過擬合”問題,C5.0算法采用后修剪方法從葉節(jié)點向上逐層修剪[20]。
本文運用Apriori算法找出使學(xué)員培訓(xùn)效果為“優(yōu)”的影響因素。建模工具采用SPSS Modeler,設(shè)最小支持度為10%,最小置信度為80%,后項變量為后測成績,其他變量為前項變量,為了避免關(guān)聯(lián)規(guī)則過于復(fù)雜,設(shè)置規(guī)則的最大前項數(shù)為5,挖掘分析后得到10條規(guī)則,提升度均大于1,均為有效規(guī)則。進一步提高準確率,將置信度的最小值調(diào)大為82%,對規(guī)則進行精簡,最后得到有代表性的4條規(guī)則,見表3。
表3 精簡后的關(guān)聯(lián)規(guī)則表
分析表3中的規(guī)則可知,當學(xué)歷為研究生,前測成績?yōu)橹袝r,學(xué)員培訓(xùn)后的成績?yōu)椤皟?yōu)”,這說明有高學(xué)歷和學(xué)習(xí)基礎(chǔ)較好的學(xué)員的培訓(xùn)效果更好。除了學(xué)歷和前測成績對培訓(xùn)效果有影響以外,學(xué)員對課程的滿意度也很重要,只有課程的內(nèi)容和設(shè)計滿足學(xué)員的需求才能達到較好的培訓(xùn)效果。另外,來自經(jīng)濟較發(fā)達、綜合實力較強的一線城市的學(xué)員更容易取得好的培訓(xùn)效果。最后還可以看出有醫(yī)學(xué)相關(guān)背景的學(xué)員,以及對導(dǎo)師授課滿意的學(xué)員學(xué)習(xí)效果較好。因此,在眾多影響培訓(xùn)效果的因素中,學(xué)歷、經(jīng)濟地區(qū)、專業(yè)背景、前測成績、課程滿意度、導(dǎo)師滿意度這6個因素決定性最強。
關(guān)聯(lián)規(guī)則是對樣本隱含規(guī)律的一種歸納和總結(jié),并沒有關(guān)于預(yù)測誤差的評價指標,因此通常不直接用于預(yù)測。本文在關(guān)聯(lián)分析之后,使用決策樹模型對培訓(xùn)效果進行預(yù)測分析,同時利用決策樹分析的結(jié)果驗證關(guān)聯(lián)分析的結(jié)論。
2.3.1 決策樹構(gòu)建
構(gòu)建決策樹的目標是利用學(xué)員的基本信息、學(xué)習(xí)情況以及滿意度調(diào)查信息對學(xué)員的培訓(xùn)學(xué)習(xí)行為進行建模,對學(xué)員的學(xué)習(xí)效果做出預(yù)測。學(xué)員接受培訓(xùn)后的測試成績是評價培訓(xùn)效果的重要指標,本文將后測成績作為標識屬性,其他屬性為決策屬性。基于樣本數(shù)據(jù)集,本文使用C5.0算法建立學(xué)員培訓(xùn)效果預(yù)測樹,通過在該數(shù)據(jù)集上訓(xùn)練模型找到一個從特征屬性到標識屬性的映射關(guān)系,建立一個樹形模型,并且應(yīng)用該模型對新的類別未知的實體進行分類。決策樹的最大深度設(shè)置為6,當葉節(jié)點樣本數(shù)小于5時,停止樹生長[21]。并應(yīng)用Boosting策略對多個預(yù)測模型進行投票,從而提高預(yù)測準確度,以獲得最佳的樹形結(jié)構(gòu),結(jié)果如圖4所示。
圖4 NDLS培訓(xùn)效果預(yù)測樹
2.3.2 規(guī)則提取
根據(jù)圖4所示的預(yù)測樹,可使用IF-THEN的分類規(guī)則從根節(jié)點、分支到葉子節(jié)點進行路徑描述,提取出11條預(yù)測規(guī)則,使之更易被理解[22]。限于篇幅,此處僅列出5條后測成績?yōu)椤皟?yōu)”的預(yù)測規(guī)則:
1)IF經(jīng)濟地區(qū)=“一線城市”AND導(dǎo)師滿意度=“一般”AND學(xué)歷=“本科生”THEN后測成績=“優(yōu)”
2)IF經(jīng)濟地區(qū)=“一線城市”AND導(dǎo)師滿意度=“一般”AND學(xué)歷=“研究生”AND課程滿意度=“高”THEN后測成績=“優(yōu)”
3)IF經(jīng)濟地區(qū)=“一線城市”AND導(dǎo)師滿意度=“滿意”THEN后測成績=“優(yōu)”
4)IF經(jīng)濟地區(qū)=“二線城市及以下”AND學(xué)歷=“本科or研究生”AND課程滿意度=“高”THEN后測成績=“優(yōu)”
5)IF經(jīng)濟地區(qū)=“二線城市及以下”AND學(xué)歷=“本科or研究生”AND課程滿意度=“中or低”AND基地滿意度=“滿意”AND學(xué)歷=“研究生”THEN后測成績=“優(yōu)”
由上面5條規(guī)則可知,來自一線城市的學(xué)員更容易取得優(yōu)秀的后測成績,這可能因為一線城市競爭激烈、學(xué)員壓力大,促使其更加努力學(xué)習(xí),另外他們獲取新知識的渠道更多。排除地區(qū)因素,可以看出,對培訓(xùn)導(dǎo)師滿意度高的學(xué)員其培訓(xùn)效果為優(yōu),而對導(dǎo)師滿意度一般的學(xué)員其培訓(xùn)效果還要再看其他因素,可見導(dǎo)師的培訓(xùn)是否到位對培訓(xùn)效果有著很大的影響。排除地區(qū)和導(dǎo)師滿意度因素,由規(guī)則可知學(xué)歷越高培訓(xùn)效果越好,由此可以判斷出培訓(xùn)效果與個人的先驗知識及學(xué)習(xí)能力也有關(guān)。另外,在其他因素相同的情況下,課程滿意度和基地滿意度越高,學(xué)員培訓(xùn)效果越好,可見課程內(nèi)容的好壞以及各個培訓(xùn)基地是否做好了組織和服務(wù)工作同樣會影響培訓(xùn)的效果。
利用Apriori算法繪制所有因素的關(guān)聯(lián)性網(wǎng)狀圖,見圖5。各色節(jié)點代表了不同的屬性,任意2點之間的連線越粗表明屬性間的關(guān)系越強。圖中被圓形圈出的節(jié)點代表后測成績屬性,被矩形圈出的是關(guān)聯(lián)規(guī)則分析出的6個影響因素:學(xué)歷、經(jīng)濟地區(qū)、專業(yè)背景、前測成績、課程滿意度、導(dǎo)師滿意度,從圖中可以看出后測成績與這6個因素之間基本上都有明顯的連線,說明其對培訓(xùn)效果有影響作用。
圖5 所有因素之間的關(guān)聯(lián)網(wǎng)
在決策樹模型中,13個影響NDLS培訓(xùn)效果的因素的重要性對比見圖6。所有影響因素中經(jīng)濟地區(qū)是信息熵增益最強的屬性,其次是課程滿意度、導(dǎo)師滿意度、基地滿意度、前測成績和學(xué)歷,決策樹根據(jù)這6個屬性的值形成分支。因此,這6個因素對于預(yù)測目標的貢獻度較大,其他因素的影響不明顯。與Apriori關(guān)聯(lián)規(guī)則分析的結(jié)果對比,可以發(fā)現(xiàn)此處少了專業(yè)背景因素,多了基地滿意度因素,兩者的結(jié)論基本吻合。
最終,將2種方法的結(jié)論進行整合,在決策樹篩選出的6個因素上增加專業(yè)背景,共同作為影響NDLS培訓(xùn)效果的主要因素。
利用Apriori算法對樣本數(shù)據(jù)建模后得到10條關(guān)聯(lián)規(guī)則,滿足這10條規(guī)則的樣本實例為401個,占總樣本量的98.8%。為了提高建模準確率,將規(guī)則精簡為4條,精簡后4條規(guī)則的前、后項與精簡前10條規(guī)則的前、后項均吻合,因此可以認為這4條規(guī)則的結(jié)論具有代表性和說服力。4條規(guī)則的置信度均在82%以上,說明規(guī)則的準確性較高;支持度均在10%以上,說明規(guī)則具有普遍性;提升度均為1.5,大于1,說明規(guī)則具有指導(dǎo)意義。可見,利用Apriori算法得到的結(jié)論可以反映出影響學(xué)員培訓(xùn)效果的因素。
采用十折交叉驗證[23]對決策樹預(yù)測模型進行評估,該方法首先將數(shù)據(jù)集隨機劃分成不相交的10組,然后選擇9組作為訓(xùn)練樣本集用于建立預(yù)測模型,剩余1組為測試樣本集用于計算模型誤差。反復(fù)進行組的輪換,直至每一組樣本都做過學(xué)習(xí)樣本和測試樣本為止。最終將10次試驗所得的預(yù)測值的平均值作為算法精度的估計。本文交叉驗證的結(jié)果顯示決策樹模型預(yù)測的準確率為76.8%,模型中各條規(guī)則的置信度也都在70%以上,模型的預(yù)測能力良好,可用來對學(xué)員的培訓(xùn)效果進行預(yù)測。
此外,本文還利用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)和支持向量機(Support Vector Machine, SVM)進行預(yù)測結(jié)果對比,但這2種方法要求輸入為數(shù)值型變量,而本文所涉及的數(shù)據(jù)大部分為分類變量(見表1、表2),對于多分類變量,需轉(zhuǎn)換成啞變量形式;對于二分類變量,則需轉(zhuǎn)換成0或1的數(shù)值型變量。建模的結(jié)果顯示,ANN和SVM的準確率均低于25%,不適合用于本研究。于是,本文改用分類回歸樹(CRT)算法進行建模對比,結(jié)果篩選出對培訓(xùn)效果影響最大的因素依次為學(xué)歷、基地滿意度、課程滿意度、經(jīng)濟地區(qū)、前測成績和導(dǎo)師滿意度,除了排序的位次有差異外,內(nèi)容與前文的結(jié)論一致。但CRT的準確率為64.9%,低于C5.0算法的76.8%,仍然優(yōu)選前文的結(jié)果。
我國目前尚無關(guān)于災(zāi)難醫(yī)學(xué)、公共衛(wèi)生應(yīng)急響應(yīng)方面的標準化培訓(xùn)課程,現(xiàn)有的非標準化課程大多僅注重理論,內(nèi)容枯燥不易理解,NDLS課程源自美國,其教學(xué)方式方法本身與中國有本質(zhì)上的區(qū)別,這一形式是否能夠得到中國學(xué)員的認可與接受尚未可知。本研究通過剖析學(xué)員的培訓(xùn)前后理論知識接受程度、學(xué)員對課程的反饋,在美方課程的基礎(chǔ)上進行優(yōu)化,使其適合中國本土學(xué)員的基礎(chǔ)認知水平,借鑒了國外應(yīng)急培訓(xùn)內(nèi)容,采用了桌面推演、案例分析、模擬實訓(xùn)等方法,增加了課堂的互動性,已經(jīng)形成了標準化、進階式的應(yīng)急培訓(xùn)課程體系。
由于NDLS課程是從國外引進的新課程,缺乏本地化研究,且沒有培訓(xùn)質(zhì)量監(jiān)控方面的研究,本文利用非監(jiān)督和監(jiān)督2種機器學(xué)習(xí)方法相結(jié)合的方式對NDLS的培訓(xùn)效果進行分析預(yù)測,找出影響培訓(xùn)效果的主要因素?;贏priori算法得到的關(guān)聯(lián)規(guī)則的置信度均在82%以上,支持度均在10%以上,提升度均為1.5,說明其結(jié)果準確、通用、有效。采用十折交叉驗證對C5.0決策樹預(yù)測模型進行評估,顯示準確性為76.8%,模型性能良好。本研究可以引起業(yè)內(nèi)人士對災(zāi)難應(yīng)急響應(yīng)培訓(xùn)體系優(yōu)化的重視,進而轉(zhuǎn)變?nèi)藗儗ε嘤?xùn)工作的固有觀念,災(zāi)難應(yīng)急響應(yīng)培訓(xùn)以往多流于形式,得不到重視,培訓(xùn)體系得不到優(yōu)化,這無疑阻礙了培訓(xùn)工作的高效開展,降低了培訓(xùn)效果,影響了培訓(xùn)效果的有效轉(zhuǎn)化。
今后在培訓(xùn)過程中可以借鑒本研究的結(jié)論,提前干預(yù)影響培訓(xùn)效果的因素,提高培訓(xùn)質(zhì)量。但是,由于NDLS課程在我國落地不久,前期數(shù)據(jù)沒有及時收集或不夠規(guī)范,目前采集到的數(shù)據(jù)有限,因此,結(jié)果可能會存在一定的局限性。另外,其他的機器學(xué)習(xí)方法也可以嘗試應(yīng)用于災(zāi)難應(yīng)急培訓(xùn)質(zhì)量監(jiān)控研究,后續(xù)將進一步探索。本研究的結(jié)果將促進導(dǎo)師觀念的轉(zhuǎn)變,同時對優(yōu)化策略進行跟蹤檢驗,具有實踐反思性,這種反思為日后優(yōu)化培訓(xùn)體系后的總結(jié)與改進提供了思路與方法。