亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于長短期記憶模型的患者投訴自動(dòng)分類研究

        2018-03-22 02:40:00,,,,,
        關(guān)鍵詞:語料類別分類器

        ,, , ,,

        患者投訴是指患者參與醫(yī)療活動(dòng)時(shí),由于醫(yī)務(wù)人員醫(yī)療機(jī)構(gòu)未能滿足他們的預(yù)期而產(chǎn)生的抱怨[1]。患者投訴中包含了大量與醫(yī)療服務(wù)質(zhì)量和醫(yī)院管理水平相關(guān)的信息,如果利用得當(dāng),能夠改善醫(yī)療服務(wù)質(zhì)量,提升醫(yī)院管理水平,有效避免醫(yī)患糾紛[2-5]。日常工作中,醫(yī)療機(jī)構(gòu)會(huì)收到大量患者投訴,這些投訴會(huì)針對(duì)不同的問題[4]。處理患者投訴的第一步就是進(jìn)行患者投訴分類,以便將不同的問題分發(fā)給不同的科室進(jìn)行處理。然而人工處理這些患者投訴會(huì)消耗大量的人力與時(shí)間成本。另外處理人員由于主觀觀念的差異,對(duì)于同一個(gè)問題有不同看法,導(dǎo)致對(duì)患者投訴內(nèi)容的理解存在偏差,進(jìn)一步影響處理效率。在實(shí)際工作中,一條患者投訴可能會(huì)描述多個(gè)問題,即有多個(gè)分類標(biāo)簽,如果仍然局限于從一個(gè)角度理解的患者投訴分類,必然導(dǎo)致患者投訴內(nèi)容無法被充分理解,進(jìn)而導(dǎo)致處理患者投訴問題時(shí)出現(xiàn)錯(cuò)誤。

        針對(duì)以上問題,本文引進(jìn)了一套科學(xué)的患者投訴分類標(biāo)準(zhǔn),并根據(jù)實(shí)際數(shù)據(jù)調(diào)整了該分類標(biāo)準(zhǔn)。參照該標(biāo)準(zhǔn)對(duì)收集到的患者投訴語料進(jìn)行人工標(biāo)注,解決人員主觀性對(duì)分類的影響。利用深度學(xué)習(xí)的方法,構(gòu)建基于長短期記憶模型(Long Short Term Memory,LSTM)的多個(gè)二元分類器,旨在實(shí)現(xiàn)高效的患者投訴自動(dòng)分類,并探究分類器在醫(yī)院實(shí)際應(yīng)用的情況,為更好地理解患者投訴打下堅(jiān)實(shí)基礎(chǔ)。

        1 患者投訴相關(guān)研究

        國內(nèi)外對(duì)患者投訴進(jìn)行了大量研究。患者投訴對(duì)某一個(gè)領(lǐng)域的醫(yī)生與醫(yī)療質(zhì)量的影響是該領(lǐng)域研究的一個(gè)重要方向。Catron TF等[6]研究了患者投訴與外科手術(shù)事件的關(guān)系,得出了患者投訴與外科手術(shù)不良事件發(fā)生率成正相關(guān)的結(jié)果;Hiivala N等[7-8]分別使用牙科病人的投訴進(jìn)行了牙科病人安全事件的預(yù)防干預(yù)與有安全隱患的牙醫(yī)診所的檢測(cè)。患者投訴管理系統(tǒng)也是該領(lǐng)域研究的重要部分。Levin CM等[9]展示了斯坦福醫(yī)療保健相關(guān)部門設(shè)計(jì)的一套病人投訴數(shù)據(jù)管理系統(tǒng),通過這套系統(tǒng)可以簡(jiǎn)化患者的投訴收集和解決流程,進(jìn)而提高醫(yī)療質(zhì)量;Mirzoev T等[10]收集并分析了相關(guān)文獻(xiàn),得出了有效干預(yù)是提高患者投訴管理系統(tǒng)的重要舉措。更多的研究者則著眼于患者投訴的分類標(biāo)準(zhǔn)研究。Montini T等[11]開發(fā)了一個(gè)由22個(gè)病人投訴代碼和5個(gè)提供者代碼組成的患者投訴分類標(biāo)準(zhǔn);Reader TW等[4]匯總了來自59項(xiàng)研究的投訴編碼分類方法,從中選取729個(gè)經(jīng)過特殊處理的代碼,并將這些代碼細(xì)化后概念化為一份含有3個(gè)大類及7個(gè)小類的患者投訴分類標(biāo)準(zhǔn);Harrison R等[12]證明了Reader T W等設(shè)計(jì)的患者投訴分類同樣適用于嚴(yán)重投訴案件的分類。

        國內(nèi)對(duì)于患者投訴的研究主要集中于收集患者投訴并進(jìn)行人工分類與分析。如收集兒科門急診患者投訴并進(jìn)行分析,通過對(duì)患者投訴內(nèi)容有針對(duì)性地改進(jìn),滿足了患兒與家長的需求[13];對(duì)174例門診采血患者投訴的分析[14];分析278例住院患者的醫(yī)療投訴[15]等。國內(nèi)針對(duì)患者投訴自動(dòng)分類的研究更加稀少。

        2 數(shù)據(jù)與方法

        2.1 數(shù)據(jù)來源

        選取某大型三甲醫(yī)院2012年到2017年的8 000條患者投訴,經(jīng)過去重合并,去除無意義條目后最終得到實(shí)驗(yàn)語料7 872條。

        2.2 方法

        本文的技術(shù)路線如圖1所示。

        圖1 本文技術(shù)路線圖

        2.2.1 人工標(biāo)注

        本研究根據(jù)經(jīng)過調(diào)整的Reader TW等[4]人的患者投訴分類標(biāo)準(zhǔn),由兩組經(jīng)過嚴(yán)格培訓(xùn)的專業(yè)人員對(duì)樣本數(shù)據(jù)進(jìn)行人工標(biāo)注之后,對(duì)標(biāo)記結(jié)果進(jìn)行一致性檢驗(yàn),并對(duì)不一致的標(biāo)記進(jìn)行審核校正。本文選用Kappa系數(shù)[16]檢驗(yàn)兩組專業(yè)人員標(biāo)注的一致性。kappa系數(shù)的計(jì)算結(jié)果最小值是0,最大值是1,通常用5個(gè)區(qū)間來代表一致性的不同級(jí)別,分別是最低的一致性系數(shù)區(qū)間為0到0.2、一般的一致性系數(shù)區(qū)間為0.21到0.4、中等水平的一致性系數(shù)區(qū)間為0.41到0.6、較高的一致性系數(shù)區(qū)間為0.61到0.8以及最高的一致性系數(shù)區(qū)間為0.81到1。

        2.2.2 數(shù)據(jù)預(yù)處理

        本研究采用了python平臺(tái)的jieba分詞包,并引入自定義詞表進(jìn)行中文分詞、去除停用詞,通過抓取醫(yī)學(xué)文獻(xiàn)摘要、百科語料、醫(yī)學(xué)專業(yè)書籍等形成1.95億的詞匯語料庫,使用word2vec進(jìn)行訓(xùn)練,最后得到200維高質(zhì)量的詞向量。將分詞的結(jié)果與詞向量進(jìn)行映射,得到患者投訴文本的分布式表示,作為LSTM神經(jīng)網(wǎng)絡(luò)的矩陣輸入。

        2.2.3 分類方法

        患者投訴分類是文本分類的子問題,其應(yīng)用的方法與使用的理論基礎(chǔ)與文本分類基本相同。由于不需要人工提取特征且解決了循環(huán)神經(jīng)網(wǎng)絡(luò)長程依賴導(dǎo)致的信息遺忘問題[17],基于深度學(xué)習(xí)[18]的LSTM模型在文本分類任務(wù)中具有更好的性能[19-21],研究者逐漸把這種高效的方法應(yīng)用在文本分類領(lǐng)域。

        Shih,CH等[22]使用一種基于連體LSTM方法對(duì)IMDB和20-Newsgroups中的文本進(jìn)行了分類實(shí)驗(yàn);Jiang,MY等[23]則提出了一種基于深信念網(wǎng)絡(luò)和softmax回歸的混合文本分類模型。趙明等[24]使用LSTM模型對(duì)飲食健康文本進(jìn)行了分類,鄧三鴻等[25]研究了LSTM模型在中文圖書的標(biāo)簽分類中的應(yīng)用,兩者均取得了相較于傳統(tǒng)機(jī)器學(xué)習(xí)更好的結(jié)果。可見LSTM模型在文本分類領(lǐng)域有著廣泛的應(yīng)用和更好的效果。

        故而本研究選擇LSTM作為分類模型,并根據(jù)LSTM模型構(gòu)建相應(yīng)的分類器來對(duì)患者投訴語料進(jìn)行自動(dòng)分類。本研究采用基于Java語言的Deeplearning4j平臺(tái)進(jìn)行所有基于LSTM模型的分類器的構(gòu)建與訓(xùn)練。

        具體分類方法如下:首先基于LSTM模型構(gòu)建患者投訴分類器(以下簡(jiǎn)稱分類器),再將患者投訴分為訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集輸入構(gòu)建好的基于LSTM模型的分類器中進(jìn)行訓(xùn)練,通過測(cè)試數(shù)據(jù)集反映分類器的性能。經(jīng)過多輪訓(xùn)練,分類器性能趨于穩(wěn)定并達(dá)到一個(gè)較高的水平時(shí),就可以使用該分類器進(jìn)行患者投訴自動(dòng)分類。

        2.2.4 分類結(jié)果評(píng)估指標(biāo)

        本研究通過準(zhǔn)確率(Precision,P)、召回率(Recall,R) 以及F值(F-measure)3類指標(biāo)對(duì)實(shí)驗(yàn)測(cè)試結(jié)果進(jìn)行評(píng)價(jià)。三個(gè)指標(biāo)值均在0-1之間,結(jié)果越接近1,說明分類模型性能越好。

        3 患者投訴分類標(biāo)準(zhǔn)與人工標(biāo)注

        3.1 患者投訴分類標(biāo)準(zhǔn)

        為保證分類標(biāo)準(zhǔn)的科學(xué)性,采用Reader TW等人基于59項(xiàng)研究的投訴編碼分類方法構(gòu)建的具有3個(gè)大類(臨床問題、管理問題、關(guān)系問題)及7個(gè)小類(質(zhì)量、安全、環(huán)境、管理制度、溝通、尊重和患者權(quán)利、傾聽)的患者投訴分類標(biāo)準(zhǔn)[4]。由于使用的患者投訴語料實(shí)際情況不同,對(duì)該患者投訴分類標(biāo)準(zhǔn)進(jìn)行了微調(diào)。根據(jù)人工標(biāo)注結(jié)果,本研究使用的患者投訴語料中分到原分類標(biāo)準(zhǔn)中“關(guān)系”大類下“傾聽(listening)”小類的投訴只有96例,并且這些語料表達(dá)的內(nèi)容與“尊重和患者權(quán)利”基本一致,故將“傾聽”小類合并到“尊重和患者權(quán)利”小類中。具體分類標(biāo)準(zhǔn)如表1所示。

        表1 患者投訴分類標(biāo)準(zhǔn)

        本研究根據(jù)分類標(biāo)準(zhǔn)中的6個(gè)投訴小類(以下簡(jiǎn)稱類別)對(duì)收集到的患者投訴進(jìn)行自動(dòng)分類。

        3.2 人工標(biāo)注結(jié)果與分析

        通過計(jì)算兩組標(biāo)注人員的kappa系數(shù)比較標(biāo)注的一致性。經(jīng)計(jì)算,本研究標(biāo)注的kappa系數(shù)如表2所示。

        表2 標(biāo)注人員標(biāo)注的kappa系數(shù)

        除臨床大類下的“質(zhì)量”類別以外,其他類別標(biāo)注的kappa系數(shù)都達(dá)到較高的一致性,總體標(biāo)注的一致性也達(dá)到較高水平,說明標(biāo)注結(jié)果達(dá)到了相當(dāng)滿意的標(biāo)注一致性。對(duì)標(biāo)注不一致的語料進(jìn)行審核校正,使所有語料都有確定的唯一的標(biāo)注結(jié)果?;颊咄对V語料標(biāo)注的結(jié)果如表3所示。

        表3 患者投訴語料標(biāo)注結(jié)果

        從表3可以看出,患者投訴語料總計(jì)7 872條,被分到了42個(gè)分類之中。其中單標(biāo)簽患者投訴7 013條,占89.09%;多標(biāo)簽語料859條,占10.91%;具有兩個(gè)標(biāo)簽的患者投訴794條,占10.09%;具有三個(gè)標(biāo)簽的患者投訴60條,占0.76%;具有四個(gè)標(biāo)簽的患者投訴5條,占0.06%。

        4 實(shí)驗(yàn)結(jié)果與分析

        標(biāo)注結(jié)果中有些語料被標(biāo)注為多個(gè)標(biāo)簽,即一條語料并非只被標(biāo)記為一個(gè)標(biāo)簽,這是由于一條患者投訴提到了分類標(biāo)準(zhǔn)中的多個(gè)問題。實(shí)驗(yàn)語料中多標(biāo)簽患者投訴只占總體實(shí)驗(yàn)數(shù)據(jù)的10.91%,多標(biāo)簽患者投訴在42個(gè)分類中的分布是不均勻的,且每個(gè)類的分布數(shù)量都非常少,有的類別甚至只有一條語料。若將全部類別考慮進(jìn)去,模型很難學(xué)習(xí)到有用的信息,因此構(gòu)建一個(gè)多元分類器來進(jìn)行多標(biāo)簽患者投訴的分類不可行。故本研究針對(duì)每個(gè)類別的數(shù)據(jù)都構(gòu)建了一個(gè)單獨(dú)的基于LSTM模型的二元分類器來判斷語料是否屬于該類,即構(gòu)建了6個(gè)二元分類器來對(duì)每條語料進(jìn)行單獨(dú)判斷。由于各個(gè)類別樣本數(shù)量不均衡,會(huì)影響學(xué)習(xí)結(jié)果,所以在構(gòu)建分類器時(shí)使用了欠采樣[26]的方法進(jìn)行語料的采集,即降低負(fù)類的數(shù)量。具體方法是將所有屬于該類別的單標(biāo)簽語料作為正向語料,并從剩下5個(gè)類別的單標(biāo)簽語料中按比例抽取總數(shù)與正類相當(dāng)?shù)恼Z料作為負(fù)向語料,進(jìn)行訓(xùn)練與測(cè)試。

        首先,本研究使用7013條單標(biāo)簽患者投訴語料作為實(shí)驗(yàn)語料,每個(gè)分類器使用各自類別的欠采樣語料數(shù)據(jù)進(jìn)行訓(xùn)練。表4展示了6個(gè)分類器在各自測(cè)試集上的測(cè)試結(jié)果,測(cè)試結(jié)果使用精確度,召回率和F值作為評(píng)價(jià)指標(biāo)。

        表4 各類別的分類器性能測(cè)試情況

        從表4中可以看出,除“質(zhì)量”和“安全”外,其他4個(gè)分類器的F值均超過了90%,各種評(píng)價(jià)指標(biāo)基本也均在90%以上,說明本研究構(gòu)建的分類器具有應(yīng)用價(jià)值與現(xiàn)實(shí)意義。

        然后使用本研究構(gòu)建的6個(gè)二元分類器,對(duì)859條多標(biāo)簽語料進(jìn)行分類預(yù)測(cè)。預(yù)測(cè)結(jié)果如表5所示。

        表5 多標(biāo)簽語料預(yù)測(cè)結(jié)果

        對(duì)于多標(biāo)簽語料,有97.20%的語料至少有一個(gè)類別被預(yù)測(cè)了出來,有60.30%的語料所有的類別都被預(yù)測(cè)了出來。其中32.13%的語料預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果完全一致,只有2.80%的語料沒有類別預(yù)測(cè)出來。

        但在實(shí)際應(yīng)用的環(huán)境中,單標(biāo)簽與多標(biāo)簽往往混合出現(xiàn),而且根據(jù)標(biāo)注結(jié)果,單標(biāo)簽患者投訴會(huì)遠(yuǎn)多于多標(biāo)簽患者投訴。針對(duì)這種情況,我們進(jìn)行了模擬實(shí)驗(yàn),即從全部數(shù)據(jù)集中隨機(jī)抽取20%,總計(jì)1 575條的語料作為測(cè)試集用以測(cè)試分類器在實(shí)際情況下的應(yīng)用情況。測(cè)試集數(shù)據(jù)分布如表6所示。

        表6 模擬實(shí)驗(yàn)測(cè)試集語料分布

        使用訓(xùn)練好的分類器對(duì)1 575條模擬實(shí)驗(yàn)語料進(jìn)行分類預(yù)測(cè)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表7所示。

        表7 模擬實(shí)驗(yàn)預(yù)測(cè)結(jié)果

        對(duì)于多分類語料,有97.65%的語料至少有一個(gè)類被預(yù)測(cè)了出來,有92.13%的語料所有的類別都被預(yù)測(cè)了出來。其中57.78%的語料預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果完全一致,只有2.54%的語料沒有類別預(yù)測(cè)出來,說明分類器有一定的實(shí)際應(yīng)用價(jià)值。

        但在實(shí)際實(shí)驗(yàn)當(dāng)中,我們發(fā)現(xiàn)“質(zhì)量”類別的分類器的效果較差,極大地影響了整體分類器的性能與實(shí)驗(yàn)的結(jié)果,故我們將“質(zhì)量”類別的語料與分類器排除在外,進(jìn)行了第二次實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表8所示。

        表8 去除“質(zhì)量”類別后的預(yù)測(cè)結(jié)果

        在去掉“質(zhì)量”類別之后,分類器的整體性能得到了極大提升,各個(gè)指標(biāo)在各自的水平上均有很大提高,尤其是“完全預(yù)測(cè)正確”提升了16%,去掉將“質(zhì)量”類別可以明顯提高分類器性能與實(shí)驗(yàn)結(jié)果。

        在實(shí)驗(yàn)過程的各個(gè)環(huán)節(jié)中,“質(zhì)量”類別的表現(xiàn)都不理想。其原因可能為分到“質(zhì)量”類別的語料相對(duì)于其他類別特征不夠明顯,語料數(shù)量也最少。其他類別均有比較明顯的特征,例如“安全”類別的語料很可能提到“失誤”“出錯(cuò)”等詞語,“環(huán)境”類別的語料則會(huì)提到“吵鬧”“臟”等詞語,提到“態(tài)度差”很有可能是“尊重”類別的語料。而“質(zhì)量”類別涵蓋范圍比較廣泛,涉及面較多,分類效果自然不及其他類別。

        5 總結(jié)與討論

        本研究引入一種科學(xué)的患者投訴分類標(biāo)準(zhǔn),并根據(jù)實(shí)際情況對(duì)分類標(biāo)準(zhǔn)進(jìn)行了細(xì)微調(diào)整。針對(duì)患者投訴多標(biāo)簽、單標(biāo)簽混合存在的問題,本文設(shè)計(jì)了基于長短期記憶模型的多個(gè)二元分類器結(jié)合的方法,實(shí)現(xiàn)了高效的患者投訴自動(dòng)分類,為更好地理解患者投訴打下堅(jiān)實(shí)基礎(chǔ)。

        本研究不足之處在于首先是語料樣本量不夠充足,特別是訓(xùn)練效果較差的“質(zhì)量”類別的語料;其次是患者投訴格式內(nèi)容千差萬別,沒有定式;最后隨著患者投訴量的不斷增加,現(xiàn)有患者投訴分類標(biāo)準(zhǔn)未必適合更大樣本量的患者投訴語料。

        未來研究中會(huì)進(jìn)一步擴(kuò)大語料樣本量,尤其是“質(zhì)量”類別的語料,提升分類器性能;并設(shè)計(jì)一套結(jié)構(gòu)化患者投訴收集系統(tǒng),使得收集到的患者投訴更加規(guī)范,易于分析。后續(xù)將在現(xiàn)有患者投訴分類標(biāo)準(zhǔn)的基礎(chǔ)上根據(jù)收集到的更多語料樣本繼續(xù)調(diào)整,使其適合更大樣本的患者投訴語料。

        猜你喜歡
        語料類別分類器
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        亚洲日韩久久综合中文字幕| 国产精品区一区第一页| 国产99re在线观看只有精品| 中文字幕无码人妻丝袜| 亚洲av粉嫩性色av| 国产一区二区不卡av| 邻居少妇张开腿让我爽了一夜| 国产97色在线 | 日韩| 亚洲最大在线精品| 一个人看的在线播放视频| 日本高清一级二级三级 | 成人免费视频自偷自拍| 久久综合久久综合久久| 99久久婷婷国产亚洲终合精品| 亚洲国产av无码专区亚洲av| 自慰无码一区二区三区| 巨臀中文字幕一区二区| 精品女同一区二区三区不卡 | 亚洲国产成a人v在线观看| av毛片亚洲高清一区二区| 丰满少妇被粗大猛烈进人高清| 国产山东熟女48嗷嗷叫| 中文字幕有码高清| 中文乱码字幕人妻熟女人妻| 久久天天躁狠狠躁夜夜av浪潮 | 午夜影视啪啪免费体验区入口| 日本免费一区二区精品| 国色天香中文字幕在线视频| 久久久久亚洲av无码a片软件| 国产在线观看免费一级| 国产精品综合一区久久| 成人美女黄网站色大免费的| 亚洲AV无码精品色欲av| 亚洲av毛片在线播放| 四虎影视久久久免费观看| 红杏亚洲影院一区二区三区| 中文字幕人成乱码中文乱码| 国产中文色婷婷久久久精品 | 丁香花在线影院观看在线播放| 日韩在线精品在线观看| 三级黄片一区二区三区|