,, ,,,
患者投訴是在醫(yī)療活動過程中,醫(yī)務人員及機構(gòu)未能滿足患者的預期而導致患者產(chǎn)生的抱怨[1]。醫(yī)院收到的患者投訴過多將會影響醫(yī)院的形象,及時處理患者投訴一方面可以發(fā)現(xiàn)容易導致醫(yī)患糾紛或醫(yī)院暴力事件的原因,從而對可能發(fā)生的醫(yī)療糾紛事件進行早期預警;另一方面醫(yī)療機構(gòu)可以根據(jù)患者投訴有針對性地改進醫(yī)療服務質(zhì)量,提高患者滿意度。因此對患者投訴進行分析和解讀十分必要[2-3]。
患者安全是評估醫(yī)療服務質(zhì)量的重要指標,旨在將與醫(yī)療保健相關的不必要傷害風險降低到可接受的最低水平。患者安全事件是可能導致或已經(jīng)導致對患者不必要傷害的事件或情況[4]?;颊咄对V中涉及安全事件的投訴表明患者及其家屬認為患者經(jīng)歷了不該遭受的痛苦?;颊甙踩录菀讓е箩t(yī)患矛盾進一步惡化,甚至引起醫(yī)療糾紛事件或醫(yī)療暴力事件[5-6]。
醫(yī)療機構(gòu)每天都會收到大量的患者投訴,涵蓋醫(yī)院各個方面。人工分析這些投訴文本并將其分類,不僅成本高且效率低。其中大量投訴涉及醫(yī)患溝通、醫(yī)務人員服務態(tài)度和醫(yī)院環(huán)境等問題[7]。患者安全的投訴在所有患者投訴中占比較少,不均衡的文本會導致分類器性能下降。因此,如何在患者投訴類別分布不均衡的情況下,提高文本分類的性能是一個亟待解決的問題。
本文擬采用混合采樣方法改善患者投訴語料分布不均衡的狀況,對某醫(yī)院的患者投訴進行文本分類,以有效識別患者投訴中的安全問題。
研究者利用自然語言處理的方法分析患者投訴。Gillespie[8]根據(jù)患者投訴的主題將患者投訴分成臨床、管理、關系3個大類,細分為質(zhì)量、安全、環(huán)境、管理制度、傾聽、溝通和尊重患者權利7個子類,并在此基礎上形成了分類框架體系(Healthcare Complaints Analysis Tool,HCAT);Elmessiry[9]搜集了來自范德比爾特大學及相關機構(gòu)的患者投訴,使用6個分類器對投訴進行分類,用以判斷投訴內(nèi)容是否與醫(yī)生相關,找出需要醫(yī)生改進的患者投訴意見;Harrison R[10]通過對患者投訴進行主題分析,發(fā)現(xiàn)投訴主要存在臨床、管理和關系3個領域(表1)。
患者投訴的不均衡分類主要有算法改進和數(shù)據(jù)處理兩種解決方案。數(shù)據(jù)處理易實現(xiàn),是處理不均衡數(shù)據(jù)的主流方法。數(shù)據(jù)處理是對數(shù)據(jù)集進行重新采樣,使不均衡比達到期望比例,以提高分類器的性能,處理方法有欠采樣、過采樣和混合采樣。欠采樣是對多類樣本進行有選擇的刪減操作未降低數(shù)據(jù)的不平衡程度,方法有Ramdom Under Sampling,Tomek Links Removal以及Edited Nearest Neighbor等。欠采樣使得訓練集規(guī)模變小,訓練時間更短,但舍棄樣本易導致模型無法捕捉數(shù)據(jù)特征造成欠擬合。過采樣是人工合成少數(shù)類樣本平衡數(shù)據(jù)集,過采樣生成新樣本后訓練時間變長,容易造成過擬合。Chawla提出了用SMOTE算法[11]合成樣本,后來的學者對SMOTE算法容易造成過擬合的缺點進行了改進。如Han[12]提出了Borderline-SMOTE1和Borderline-SMOTE2算法,對邊界樣本進行處理。
混合采樣是同時運用過采樣和欠采樣方法,解決單獨使用欠采樣和過采樣的不足,常用方法有SMOTE結(jié)合Tomek Links Removal與SMOTE結(jié)合Edited Nearest Neighbor。
表1 患者投訴分類體系
本文選用了來自醫(yī)院隨訪系統(tǒng)及微信應用程序搜集到的某醫(yī)院2012-2017年的患者投訴文本,去除內(nèi)容重復、投訴無明確意義、投訴文本不完整等語料后,得到實驗語料7 009條。
根據(jù)患者安全事件的定義及Heather Sherman等的分類標準[4],結(jié)合實際使用的投訴語料,本文將涉及以下4類主題的患者投訴視為患者安全事件投訴(表2)。
表2 患者安全事件投訴納入標準
根據(jù)患者安全事件投訴納入標準進行人工標注,得到“患者安全”類的投訴文本660條,其他投訴6349條,二者不均衡比為1∶9.62。其中將“患者安全”投訴列為小類,“非患者安全”投訴為大類。
本文的實驗過程如圖1所示。
標注團隊由兩名醫(yī)學生與1名自然語言處理專家組成。先由醫(yī)學生對投訴文本內(nèi)容進行標注,然后由專家對標注結(jié)果進行審核,對不一致的標注結(jié)果則由專家給出最終意見。經(jīng)過反復核對與修正,使最終標注結(jié)果的一致性達到100%。
采用Python平臺的jieba分詞工具,對文本進行了分詞和詞性標注。由于文本中包含了一些醫(yī)學術語,因此加入自定義詞表以強化分詞效果(自定義詞表包括ICD-10疾病名稱與中文MeSH主題詞),最后將分詞的結(jié)果利用Word2vec映射到向量空間中。
圖1 實驗研究過程
考慮不同的不均衡比例會影響分類器的分類結(jié)果[13],本文設置1∶1、1∶2、1∶3、1∶4等4種不均衡比例,利用支持向量機(Support Vector Machine,SVM)、隨機森林(Random forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)和AdaBoost 4種分類器,對利用某一采樣方法平衡后的數(shù)據(jù)集進行分類。對分類結(jié)果采用十折交叉驗證的方法進行評價,即將數(shù)據(jù)集分為10份,輪流將其中9份作為培訓集,1份作為測試集進行試驗,取10次試驗結(jié)果的平均值作為最終的性能測試結(jié)果。
通過對比以下幾種方法,找到最佳分類配置:方法1,對原始數(shù)據(jù)集不做任何數(shù)據(jù)的平衡處理;方法2,對數(shù)據(jù)集采用無放回的隨機欠采樣(Random Under Sampling)的處理,使少數(shù)類與多數(shù)類不均衡比分別達到1∶1,1∶2,1∶3,1∶4;方法3,使用過采樣方法對數(shù)據(jù)集采用Borderline-SMOTE 2合成少數(shù)類樣本,使少數(shù)類與多數(shù)類不均衡比分別達到1∶1,1∶2,1∶3,1∶4;方法4,使用混合采樣方法采用SMOTE-ENN[14]算法,使少數(shù)類與多數(shù)類不均衡比分別達到1∶1,1∶2,1∶3,1∶4。
本文使用精確度(Precision)、召回率(Recall)、F值(F-measure)對分類器的性能進行評價。精確度代表被正確分類的小類占所有預測為小類樣本的比例、召回率代表被正確分類的小類樣本占實際小類樣本的比例,F(xiàn)值則是上面兩個值的加權平均和評價分類器的常用評估指標。
考慮到不均衡問題,不能只從準確率即所有被正確分類的樣本占總樣本的比例來考察分類器對少數(shù)類的分類能力,因為當類別極不均衡時,分類器會傾向識別多數(shù)類。此時準確率雖然很高,但是少數(shù)類識別的準確率較低。為此引入G均值(G-mean)、受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)、曲線下面積(Area Under Curve,AUC)以及PR曲線下面積(Area Under the PR Curve,AUC-PR)[15]綜合考量分類器對于少數(shù)類識別的準確性。G均值是小類和大類精確度乘積的平方根,ROC曲線下面積值用來綜合考慮大類和小類的分類結(jié)果和評估分類器的整體性能,PR曲線下面積值則更多的關注小類分類結(jié)果。
6個指標值的范圍都在0-1之間,分類結(jié)果高于0.8,說明分類模型性能良好,越接近1,說明分類模型性能越好。
無處理的數(shù)據(jù)分類結(jié)果見表3。4個分類器中,RF的總體表現(xiàn)優(yōu)于其他分類器,召回率均低于50%,4個分類器的分類性能均不理想。
表3無處理的數(shù)據(jù)分類結(jié)果/%
分類器精確度召回率F值G均值AUCAUC-PRRF83.2845.3058.4866.7292.5970.52SVM100.004.097.7919.6465.8551.59AdaBoost61.5929.3839.5852.9375.5742.80GBDT77.7326.4439.0750.0981.3349.82
欠采樣數(shù)據(jù)分類結(jié)果見表4。欠采樣方法中的召回率均低于70%,分類性能一般,說明隨機欠采樣方法不適用于本文數(shù)據(jù)。與其他不均衡比例相比,不均衡比例為1∶1時,分類結(jié)果最優(yōu)。
表4欠采樣處理后數(shù)據(jù)分類結(jié)果/%
不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF75.2767.3870.7072.2482.5584.85SVM100.005.7610.7723.2467.5279.58AdaBoost70.5067.6368.8569.7276.1478.77GBDT74.3967.1870.3571.5880.7583.051∶2RF91.4841.4256.7763.5681.3975.78SVM100.006.6012.2224.9468.8272.28AdaBoost66.3154.5559.4968.3078.7572.30GBDT82.4047.1059.7966.7582.5876.131∶3RF95.6238.4454.3861.5582.3071.42SVM100.006.2411.6724.5868.3465.87AdaBoost66.6747.6655.1966.0880.2867.62GBDT89.0740.7555.6963.1882.5170.921∶4RF95.8236.4052.6060.1082.3267.66SVM100.006.1711.5224.1868.8263.95AdaBoost68.1043.6453.0764.2278.8061.51GBDT89.9938.0053.3161.1884.0569.02
過采樣數(shù)據(jù)分類結(jié)果見表5,處理后的數(shù)據(jù)樣本不均衡比例為1∶1時,RF的G均值為97.93%、AUC為99.07%,AUC-PR為99.34%,相較于其他分類器都達到了較好的水平。同時與欠采樣數(shù)據(jù)同樣印證了在不均衡比例為1∶1時,分類結(jié)果最好。
表5過采樣處理后數(shù)據(jù)分類結(jié)果/%
不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF99.5396.3597.9197.9399.0799.34SVM99.9877.1787.1087.8398.7199.21AdaBoost91.5393.4192.4592.3697.4097.85GBDT97.3195.7096.5096.5298.6799.061∶2RF99.2991.8895.4395.6998.0597.76SVM99.9451.3967.8571.6797.2797.57AdaBoost86.7685.1385.9089.1795.3493.57GBDT97.2787.8692.3193.1597.4296.901∶3RF99.0184.3091.0691.6897.0295.60SVM99.8735.7652.5559.7195.7495.49AdaBoost83.0975.6179.1184.6792.7486.90GBDT96.7776.3785.3387.0095.7493.341∶4RF98.0472.1383.0884.7695.5091.81SVM100.0024.8239.6949.7493.4392.37AdaBoost80.7968.7674.2481.1991.5782.37GBDT96.6966.0178.4080.9994.0489.04
混合采樣數(shù)據(jù)分類結(jié)果見表6。不均衡比例為1∶1時,RF的精確度和PR曲線下面積相較于其他分類器基本持平,召回率96.27%、F值97.91%、G均值97.97%、受試者工作特征曲線下面積99.82%,相較于其他分類器結(jié)果最好。
表6混合采樣處理后數(shù)據(jù)分類結(jié)果/%
不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF99.6296.2797.9197.9799.8299.81SVM100.0054.0470.1273.4999.7899.84AdaBoost91.9391.7491.8192.5697.9997.88GBDT97.1493.3395.1895.5199.2099.141∶2RF99.7790.5294.9095.0999.7199.55SVM100.0040.1657.2663.3499.0899.11AdaBoost91.2688.5589.8692.2197.8496.47GBDT97.9787.6192.4993.1999.2198.701∶3RF99.8081.3489.5690.1399.3198.47SVM100.0031.9948.4056.5098.0797.80AdaBoost92.2486.1489.0291.8198.0795.89GBDT98.3883.8190.4791.3499.1097.891∶4RF99.6778.4887.7188.5199.2398.19SVM100.0028.2243.8452.9798.0697.63AdaBoost93.7185.0089.1191.5598.1295.73GBDT99.5480.4988.9889.6699.2497.89
實驗結(jié)果說明,患者投訴不均衡比越大,分類結(jié)果越差。使用不同的采樣方法與同一種分類器結(jié)合,其性能從高到低依次是混合采樣、過采樣、欠采樣。
對于患者投訴數(shù)據(jù)集而言,過采樣方法總體表現(xiàn)優(yōu)于欠采樣方法,可能是因為欠采樣刪除部分多類樣本后,丟失了部分關鍵的數(shù)據(jù)特征。過采樣與混合采樣相比性能較差,可能是因為過采樣依據(jù)現(xiàn)有少量樣本合成少類數(shù)據(jù),產(chǎn)生了過擬合問題。而混合采樣同時對多類數(shù)據(jù)和少類數(shù)據(jù)進行處理,使得數(shù)據(jù)趨于均衡,避免了數(shù)據(jù)特征丟失和過擬合問題,從而能夠獲得較好的少數(shù)類分類效果。本文使用文本分類和混合采樣的方法處理患者投訴,相對于未采用不均衡數(shù)據(jù)處理的數(shù)據(jù),分類性能獲得極大提升,召回率由45.30%提升為96.27%,F(xiàn)值由58.48%提升為97.91%,G均值由66.72%提升為97.97%,PR曲線下面積由70.52%提升為99.81%。
從機器學習方法的角度看,綜合對比3種采樣方法4種比例的12種不同組合,根據(jù)每個組合中分類器取得最高指標的次數(shù)確定最優(yōu)結(jié)果,統(tǒng)計得出RF分類器、GBDT分類器和AdaBoost分類器分別取得最優(yōu)結(jié)果為9次、2次、1次。其中RF分類器取得最優(yōu)結(jié)果次數(shù)最多,并在3種采樣方法下均有最優(yōu)結(jié)果。
使用混合采樣方法在比例為1∶1時,性能達到最優(yōu),顯著優(yōu)于其他分類器,證明RF相較于其他分類器更適合不均衡下患者投訴分類。原因在于,與其他分類器相比,RF分類器更擅長處理高維數(shù)據(jù)、泛化能力更強,適合分類由高維、稠密的詞向量映射成的句向量[16]。
本文利用了混合采樣的算法在數(shù)據(jù)層面進行了處理,這樣減少了因單一采樣方法而導致的過擬合問題;使用了領域語料映射詞向量,映射成的向量包含更加豐富的語義信息;采用了適合患者投訴分類的機器學習方法隨機森林,從而達到了更好的分類性能。
患者投訴中涉及安全投訴的文本少,會出現(xiàn)樣本不均衡問題,導致分類器性能降低,無法有效識別“患者安全”類投訴。本文提出了一種基于混合采樣的數(shù)據(jù)處理方法平衡原始數(shù)據(jù)集,利用多種分類器對“患者安全”類別數(shù)據(jù)進行分類的結(jié)果表明,混合采樣方法可以有效提升不均衡數(shù)據(jù)的分類性能,使用混合采樣法不均衡比為1∶1時,RF的分類效果可以滿足實際應用的需要。
本文所使用的方法具有復雜程度低、容易實現(xiàn)、便于醫(yī)療機構(gòu)使用等優(yōu)點,可以有效識別涉及患者安全的投訴文本,提高處理患者投訴的效率。準確識別患者安全事件相關的患者投訴,便于醫(yī)療機構(gòu)管理者及時干預,先于醫(yī)療糾紛或暴力事件發(fā)生前對不良因素進行防范、改正,避免醫(yī)療糾紛的發(fā)生。