亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人工智能的藥品投訴類案例信息識別及分類效能評估

        2023-10-14 07:27:50雷霜馮變玲任碧琦林書智劉煒朱小瑩戴盛宇遲易泓黃瀚博謝華劉曉陽
        醫(yī)藥導報 2023年10期
        關鍵詞:精確度一致性藥品

        雷霜,馮變玲,任碧琦,林書智,劉煒,朱小瑩,戴盛宇,遲易泓,黃瀚博,謝華,劉曉陽

        (1.西安交通大學藥學院臨床藥學與藥事管理學系,藥物安全與監(jiān)控研究所,西安 710061;2.強生集團供應鏈數(shù)字化與數(shù)據(jù)科學部,美國華盛頓州貝爾維尤 98007;3.強生集團信息部,北京 100025;4.西安楊森制藥有限公司商業(yè)質量部,西安 710000;5.西安楊森制藥有限公司藥品安全部,西安 710000;6.強生集團技術質量部,西安 710000)

        2020年7月,國家藥品監(jiān)督管理局發(fā)布《關于進一步加強藥品不良反應監(jiān)測評價體系和能力建設的意見》[1]中提到要積極探索應用大數(shù)據(jù)、人工智能(artificial intelligence,AI)等技術和方法實現(xiàn)數(shù)據(jù)共享與反饋、風險預警與識別等智能化功能,運用多渠道來源數(shù)據(jù)為監(jiān)管提供技術支撐。近年來隨著信息技術的高速發(fā)展,社交媒體、電子病歷等真實世界數(shù)據(jù)已成為藥品上市后安全信號識別的重要來源[2]。越來越多的研究探索使用自然語言技術從各種醫(yī)療文本來源識別和提取相關信息,如從患者記錄中檢測藥品不良事件[3-4]。但由于投訴類案例,包括不良事件(adverse events,AE)、產品質量投訴(product quality complaint,PQC)、特殊情況(special situation,SS)等,處理的高度復雜性及不確定性,目前還沒有供應商提供全面的處理方案[5]。藥品上市許可持有人(marketing authorization holder,MAH)作為藥品不良反應報告的主體應主動從相關投訴報告、社交媒體等多種來源關注并識別AE、PQC、SS等相關信息。目前,針對大量不同數(shù)據(jù)來源的非結構化信息,企業(yè)依舊主要通過傳統(tǒng)人工逐條篩選等低效的方式來識別相關信息。為了提高案例處理效率和有效性,更好地履行主動收集不良事件和質量投訴的責任與義務,本研究通過構建神經網絡(neural networks,NN)模型學習醫(yī)療衛(wèi)生專業(yè)人員、患者/消費者等不同渠道來源的不良事件、質量投訴等上報內容,運用于真實世界數(shù)據(jù)分析。通過比較AI與人工審核投訴類案例的分類效能,探究AI輔助人工審查分類的可行性。同時,快速識別與分類此類信息可以幫助藥物警戒系統(tǒng)及時發(fā)現(xiàn)和預測藥物的安全問題,并采取必要的措施來保護患者的健康和安全,是藥物警戒評估和監(jiān)測藥品安全性體系過程中的重要環(huán)節(jié)。

        1 資料與方法

        1.1神經網絡模型的構建 將2019年1月—2021年12月X公司在線上平臺收到23 378條來源于經銷商、醫(yī)療機構及患者等不同渠道的藥品不良反應報告、產品質量問題及其他相關反饋信息進行數(shù)據(jù)預處理,并與專家合作討論,理解數(shù)據(jù)定義、判斷規(guī)則和整體流程,對原始數(shù)據(jù)執(zhí)行基本的文本處理和數(shù)據(jù)清洗處理(例如清理測試集數(shù)據(jù)、刪除重復報告、手動添加說明書、患者信息以及刪除不相關信息等)。

        解決方案采用Python語言和云計算服務進行部署。將預處理完成的數(shù)據(jù)集隨機拆分為訓練集(60%)、測試集(20%)與驗證集(20%),通過提升版BERT(bidirectional encoder representations from transformers)語言系列模型,將文本語料轉化成多維向量,與下一步分類模型進行微調和訓練。同時依據(jù)投訴類案例的特點,使用神經網絡的門控循環(huán)單元(gate recurrent unit,GRU)模型對文本進行識別分類。在驗證集上,通過語言模型繼續(xù)訓練、微調策略、模型架構、超參數(shù)調整、不平衡數(shù)據(jù)處理等方法進行模型優(yōu)化,并且從靈敏度,F1值和精確度方面評估模型性能,模型在測試集的結果展現(xiàn)良好的性能狀態(tài)。

        1.2實證數(shù)據(jù)來源與分組方法的設立 將構建的神經網絡模型應用于真實世界數(shù)據(jù)中進一步進行驗證,數(shù)據(jù)來源于2022年8—10月X公司在其線上平臺收到的共3090條藥品反饋記錄,將線上平臺上信息主要分為投訴類和非投訴類,其中確定的AE包括可識別的患者、可識別的報告者、懷疑藥品和藥品不良事件等4個基本要素[6]。

        本研究將分為真實值組、人工組和AI組,以真實值組作為參考值,比較人工組與AI組分類效能的一致性。其中,真實值組為選取該企業(yè)內部從事多年藥物警戒工作的資深人員3名,其從事藥品安全相關工作均>3年,其中一名人員工作經驗高達11年,在案例接收初期,由他們分別判定案例性質,對于判定不一致的案例再統(tǒng)一討論出一致結果,最終以一致認定的結果為參考標準。人工組為該企業(yè)的15位識別人員,具有藥學、護理學等學科背景,其中本科及以上學歷13人,按照該企業(yè)的標準流程對案例進行識別的結果。AI組為將構建的神經網絡模型應用于真實世界后所得的識別結果。

        1.3評估指標選取 選取F1值、靈敏度、特異度、AUC等為主要指標,精確度、平衡準確度、kappa分數(shù)為輔助參考指標對人工分類與AI分類的有效性進行比較[7]。精確度是正確預測的正值與總體預測正值的比值,體現(xiàn)的是預測正例的準確性,高精確度意味著假陽性率低(即將非投訴類判斷為投訴類案例的比率低)[8];靈敏度是正確預測的正值/實際正值的比率,表示的是樣本中的正例有多少被正確預測,衡量分類器對正例的識別能力。高靈敏度預示著可能會有更多的誤檢,但會盡可能地找到每一個投訴類案例[2]。特異度表示所有負例中被分對的比例,衡量分類器對負例的識別能力。以上指標的判定標準均為:當值為1時,表示其與真實值結果一致。

        F1值在統(tǒng)計學上被用來作為衡量二分類模型精度的指標,是精確度和靈敏度的調和平均值,其同時考慮精確度與靈敏度這兩矛盾的指標。一般認為F1>0.5時模型比較可信,越接近1表示模型效果越好。

        準確度指標直接反映模型的性能,平衡準確度對模型在不平衡數(shù)據(jù)集上的性能評估更為準確,在二分類情況下,平衡準確度等于靈敏度和特異度的算術平均值,分數(shù)范圍為從0到1,最佳值為1,最差值為0。

        Kappa分數(shù)是衡量模型可靠性的評估指標,用于評估模型在類別識別中的一致性。ROC曲線下面積(area under ROC curve,AUC)為ROC曲線下方面積之和,在AUC>0.5的情況下其越接近1,表示模型分類正確的可能性越大。一般AUC的值大于0.9時表示其具有較高的準確性[9]。在實際運用中,也應著重關注假陰性率(即漏檢率:將投訴類案例誤判為非投訴類案例),假陰性率越高代表漏掉的投訴類案例越多。

        1.4統(tǒng)計學方法 采用SPSS 26.0版統(tǒng)計學軟件,采用McNemar檢驗對人工分類與AI模型下分類結果的靈敏度、特異度進行比較。通過Delong檢驗比較兩種分類方式的AUC,以P<0.05為差異有統(tǒng)計學意義。用Kappa統(tǒng)計量檢驗人工智能分類效果與真實值的一致性(between method agreement),可分為5組以表示不同級別的一致性:0.00~0.20極低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60中等的一致性(moderate)、0.61~0.80高度的一致性(substantial)和0.81~1.00幾乎完全一致(almost perfect)。

        2 結果

        2.1數(shù)據(jù)基本特征 在線上平臺全部的非結構化案例中,投訴類案例共42例,全部為AE案例,其中AI正確識別38例,人工正確識別41例。非投訴類案例3 048例,占98.64%,數(shù)據(jù)具有不平衡性,其中AI正確識別4例,人工正確識別21例。

        2.2人工分類投訴類案例效果評估 在42個投訴類案例中,人工正確識別41例,即靈敏度為97.62%;在3 048個非投訴類案例中,人工正確識別3 027例,特異度為99.31%;同時AUC值為0.985,具有較高的準確性。在不同維度下討論人工分類的效果,按工作時長劃分可以得知隨著工作年限的增長其分類的準確性總體呈上升趨勢,其中工作年限<3年的人員分類靈敏度為75%,AUC值為0.875,與其他層次(工作年限>3年)存在一定的差異。同時,由不同學歷水平方面的分類結果可知本科水平下的人員分類靈敏度為83.33%,存在一定的陽性漏檢率。見表1。

        表1 人工分類投訴類案例效果評估

        2.3AI與人工分類效能比較

        2.3.1AI與人工分類質量評價 模型分類效果的質量需要F1值、精確度、靈敏度和平衡準確度等指標來衡量,將人工分類與AI的預測分別與真實值組進行比較,AI的F1值為90.48%,比人工檢測高出11.63個百分點,具有較好的分類精度。AI和人工檢測的精確度分別為90.48% 和66.13%,相差24.35個百分點,兩者差異明顯。同時,AI和人工檢測的假陰性率分別為9.52% 和2.38%,說明人工檢測相較于AI對于投訴類案例的正確識別高出7.14個百分點,見表2。

        表2 AI 與人工分類質量評價

        2.3.2一致性評價 Kappa系數(shù)是一致性檢驗指標,亦可用于衡量分類的效果。對于分類問題其一致性表示模型預測結果和實際分類結果是否一致[10]。AI與真實值的Kappa值為0.903,說明其與真實值的分類結果幾乎完全一致。

        2.3.3AI與人工分類效率評價 據(jù)統(tǒng)計結果可知,在3 090條案例中,AI對每條案例的平均處理時間為(包括案例的識別與分類)292 ms,所有案例處理總時長為15 min。而人工處理案例平均處理時長為2~3 min,總計6 180~9 270 min??梢钥闯鯝I相對于人工大大提高案例處理的效率。

        2.3.4AI與人工分類效能比較 對構建的神經網絡模型與人工分類總體效能進行比較,AI和人工檢測的靈敏度分別為90.48% 和97.62%,人工識別投訴類案例高出AI組7.14個百分點,差異無統(tǒng)計學意義(χ2=1.33,P=0.25)。AI和人工檢測特異度分別為99.87% 和99.31%,差異有統(tǒng)計學意義(χ2=10.24,P<0.001),說明AI相對于人工對于非投訴類案例的檢出效果更好。整體上AI和人工的AUC值均>0.9,具有較好的分類效果,見表3,圖1。

        圖1 人工智能與人工分類ROC曲線對比

        表3 AI與人工分類效能比較

        3 討論

        本研究不同來源的非結構化案例中,投訴類案例有42例,非投訴類有3 048例,數(shù)據(jù)具有不平衡性。發(fā)現(xiàn)人工對于投訴類案例的識別在不同工作年限、學歷水平下存在差異,因此需要探索人工智能的方式快速準確地篩選案例并對其效能進行探究。如SCHMIDER等[5]利用F1值、靈敏度和精確度等指標區(qū)分不同供應商人工智能技術自動化處理多渠道來源的藥品安全案例,結果證實了利用人工智能技術支持不良事件源文件提取和案例效果評估的可行性。

        在總體分類效能上,發(fā)現(xiàn)AI的F1值為90.48%,AUC值為95.2%,與其他研究相比,本研究有較好的分類效能[11-15],LETINIER等[16]利用自然語言處理的方式識別非結構化患者報告中不良反應的信息,該模型外部驗證顯示AUC為0.91,F-measure為0.58。COMFORT等[12]開發(fā)基于規(guī)則和機器學習(machine learning,ML)的模型,用于從社交媒體中分類自發(fā)報告,并將其性能與人類藥物警戒專家的性能進行比較,發(fā)現(xiàn)其準確率為83%。與人工檢測比較,F1值高出11.63個百分點,這是由于F1值是精確度和靈敏度的調和平均值,在實際案例中人工檢測的精度只有66.13%,說明對于非投訴類案例人工更傾向于將其判斷為投訴類案例以確保盡可能地不漏掉投訴類案例,但易造成較大地誤差。F1值的主要局限性在于精確度和靈敏度具有同等的權重時在某些情況下可能不符合所評估工具的臨床需求[17],因此仍需結合其他指標共同衡量,特別是在處理如健康數(shù)據(jù)等不平衡數(shù)據(jù)時更需要強調多種指標共同測量地重要性。

        AI和人工檢測的AUC值均>0.9,分類結果具有較好的準確性。但在數(shù)據(jù)不平衡的情況下,若非投訴類案例的模態(tài)在數(shù)據(jù)集中占主導地位,即便在低靈敏度的情況下,高特異度仍會造成AUC值偏高[18]。因此需要進一步探究在某一特定類別下地分類效能,如靈敏度與特異度。敏感度高的檢測方法適用于一旦漏診則會導致嚴重后果的情形,投訴類案例的識別也需要盡可能地全面。本文結果可知,AI和人工檢測靈敏度分別為90.48%和97.62%,表明人工對于投訴類案例的識別更全面,這可能是因為人工對于投訴類案例的定義具有更廣泛的理解,包括潛在的投訴類案例人工更傾向于將其納入投訴類案例中,因此其具有更高的靈敏度,但也造成誤差較大的局限性,這與前文研究結果一致。同時,AI與人工識別相比靈敏度雖差異無統(tǒng)計學意義,但由于數(shù)據(jù)不平衡的局限性,在條件允許的情況下,仍需進一步驗證。值得注意的一點是,本研究識別投訴類案例為首次測試與應用,在今后使用時企業(yè)應制定相關流程進行持續(xù)的優(yōu)化、監(jiān)測與驗證,以保證AI能夠對陽性案例有更深的理解從而降低陽性漏檢率。AI對比人工分類的特異度具有顯著性(P<

        0.01),說明AI對于非投訴類的案例判斷相較于人工有明顯的提升,提高一定的精確度。目前在藥品不良反應實體識別人工智能方面應用較廣泛的神經網絡模型包括長短期記憶神經網絡(long short-term memory,LSTM)、雙向長短期記憶神經網絡(bidirectional long short-term memory,BiLSTM)等,門控循環(huán)單元(gated recurrent unit,GRU)模型是LSTM模型的創(chuàng)新模型之一,其特點在于同時具備LSTM的遺忘、更新機制,且簡化LSTM模型架構,提高運行速度,降低梯度彌散的風險[19]。本研究使用NN的GRU模型對文本進行識別,能夠處理序列變化的數(shù)據(jù)有效解決上下文直接的銜接關系及長期關系[20]。對不同渠道來源信息文本進行實體識別和關系抽取研究,取得較好效果。同時由統(tǒng)計結果可知,AI的案例處理效率遠遠高于人工處理,其快速的診斷速度和長時穩(wěn)定精確工作的優(yōu)勢,可以極大提高MAH處理相關信息的效率,應用國際通用的指標評估并統(tǒng)計分析人工與AI的差異性,結果具有一定的參考價值。

        4 結束語

        構建的神經網絡模型F1值為90.48%,AUC值為95.2%,具有較高的質量。與人工相比,AI對于投訴類案例的快速識別表現(xiàn)出較高的靈敏性與特異性,因此該模型具有良好的診斷價值,可以為真實世界中投訴類案例的快速識別分類提供參考。

        猜你喜歡
        精確度一致性藥品
        是不是只有假冒偽劣藥品才會有不良反應?
        關注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        注重教、學、評一致性 提高一輪復習效率
        IOl-master 700和Pentacam測量Kappa角一致性分析
        研究核心素養(yǎng)呈現(xiàn)特征提高復習教學精確度
        “硬核”定位系統(tǒng)入駐兗礦集團,精確度以厘米計算
        藥品采購 在探索中前行
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        藥品集中帶量采購:誰贏誰輸?
        藥品集中采購將走向寬松
        麻豆国产成人AV网| 91视频香蕉| 大伊香蕉精品视频一区| 国产一区二区不卡av| 亚洲av无码专区国产不卡顿| 欧美国产一区二区三区激情无套| 91精品国产免费久久久久久青草 | 国产精品亚洲在线播放| 中国孕妇变态孕交xxxx| 三级在线看中文字幕完整版| 国产精品国产三级国产专播| 国产亚洲日本精品二区| 国产高清在线观看av片| 亚洲有码转帖| 九月色婷婷免费| 国产精品自产拍在线18禁| 亚洲欧美乱日韩乱国产| 精品三级久久久久久久电影| 精品午夜一区二区三区| 一区二区亚洲精品在线| 久久精品成人无码观看不卡| 亚洲AV毛片无码成人区httP| 麻豆成人久久精品二区三区91| 狠狠色欧美亚洲狠狠色www| 日韩精品无码免费专区网站 | 亚洲中文字幕日产喷水| 国产精品亚洲精品一区二区| 国产白嫩护士被弄高潮| 久久亚洲国产中v天仙www| 亚洲精品国产第一区三区| 丰满少妇被猛烈进入高清播放| 丰满人妻被中出中文字幕| 精品免费久久久久国产一区| 美丽小蜜桃1一3在线观看| 又大又粗又爽18禁免费看| AV永久天堂网| 偷拍视频十八岁一区二区三区 | 91国在线啪精品一区| 日本在线免费不卡一区二区三区| 欧美综合天天夜夜久久| 四虎永久免费一级毛片|