姜英玉 鐘源 李前慧
摘要:目的? 評估國內(nèi)App中常見的智能預診系統(tǒng)結果準確性。方法? 截止2018年1月1日,在Apple App Store中篩選包含智能預診功能的、免費的、面向公眾的、針對人群的、針對全病種的7個App,在標準化病人案例中篩選內(nèi)科病例7例,外科病例4例,婦科病例2例,兒科病例2例。按照病例所述病情逐一輸入所篩選出的智能預診系統(tǒng)中,記錄系統(tǒng)出示的預診結果,統(tǒng)計正確的診斷是否列在第一項、正確的診斷是否列在前三項、是否列出正確診斷。結果? ①所有APP中僅App A詢問用戶的身高、體重,App C并未詢問用戶的身高、體重、性別、年齡就開始問診,有3個系統(tǒng)允許用戶在查找癥狀時同時輸入多個癥狀;②預診結果準確率為64.76%,正確診斷列在第一項占26.67%,正確診斷列在前三項的占39.05%。結論? 當前現(xiàn)有的預診系統(tǒng)結果準確性仍較低,用戶應理性看待智能預診系統(tǒng)的預診結果,不能盲目依賴。
關鍵詞:智能預診系統(tǒng);預診結果;準確性
中圖分類號:TN929.53;TN911.7? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:B? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.3969/j.issn.1006-1959.2019.15.007
文章編號:1006-1959(2019)15-0019-04
Abstract:Objective? To assess the accuracy of the results of intelligent pre-diagnosis systems commonly found in domestic App.Methods? As of January 1, 2018, the Apple App Store was selected to include free, public-facing, population-oriented, 7-case-wide App with intelligent pre-diagnosis capabilities, and to screen medical cases in standardized patient cases. There were 7 cases, 4 cases of surgical cases, 2 cases of gynecology, and 2 cases of pediatrics. According to the condition of the case, input the selected intelligent pre-diagnosis system, record the pre-diagnosis results presented by the system, and check whether the correct diagnosis is listed in the first item, whether the correct diagnosis is listed in the first three items, and whether it is listed correctly diagnosis.Results? ① In App, only App A asks the user's height and weight.App C does not ask the user's height, weight, gender, and age to start the consultation. There are 3 systems that allow the user to input multiple symptoms at the same time when searching for symptoms;② The accuracy rate of pre-diagnosis results was 64.76%, the correct diagnosis was listed in the first item accounting for 26.67%, and the correct diagnosis was listed in the first three items accounting for 39.05%.Conclusion? The accuracy of the current pre-diagnosis system results is still low. Users should rationally look at the pre-diagnosis results of the intelligent pre-diagnosis system and cannot rely on blindly.
Key words:Intelligent pre-diagnosis system;Pre-diagnosis results;Accuracy
智能預診系統(tǒng)是指利用互聯(lián)網(wǎng)技術將傳統(tǒng)的分診過程開發(fā)成可供用戶直接使用的方法,根據(jù)用戶自身的癥狀,詢問用戶相應問題,應用分支邏輯、貝葉斯推理或其他方法完成對用戶病癥的早期判斷。預診結果可為用戶提供病情的初步診斷,該結果通常是將符合用戶描述癥狀的全部疾病按可能性進行排序。隨著互聯(lián)網(wǎng)醫(yī)療的飛速發(fā)展,國內(nèi)外的相關企業(yè)、醫(yī)療機構、政府部門等也投入到智能預診系統(tǒng)的開發(fā)上,智能預診系統(tǒng)的準確性決定了其使用價值。國外學者對此展開較多的質(zhì)量評價,但是國內(nèi)學者尚未針對智能預診系統(tǒng)的準確性開展研究,因此本研究選擇國內(nèi)常見的7種智能預診系統(tǒng),開展準確性評價研究,現(xiàn)報告如下。
1對象與方法
1.1智能預診系統(tǒng)的選取? 于2017年10月~2018年10月在Apple App Store 中,以“智能預診”“智能自診”“智能導診”“癥狀自查”作為檢索詞,篩選出于2018年1月1日服務器在運營中的213個App,逐一下載,納入標準為App中的智能預診系統(tǒng)是免費的、面向公眾的、針對人群的、針對全病種的系統(tǒng),共計納入7個App,用字母A~G表示。
1.2標準化病人選取? 從中國“標準化病人”實踐教學指導委員會主持編寫的《標準化病人培訓實用教程》以及委員會官方網(wǎng)站(http://www.chinesesp.com)的SP腳本中選取本研究所需病例,共選15例,其中內(nèi)科7例,外科4例,婦科2例,兒科2例。
1.3預診結果的評估方法? 將標準化病人病例輸入到每個App中,記錄預診結果。系統(tǒng)出示的預診結果最多提到了10項可能的疾病,但有很多用戶只關注列出的重要診斷,因此本研究在判斷預診結果準確性時,分三種情況進行統(tǒng)計:①正確的診斷列在第一項;②正確的診斷列在前三項;③列出正確診斷。
2結果與分析
2.1智能預診系統(tǒng)基本情況? 納入研究的7個智能預診App均提供明確的疾病診斷。所有App中僅App A詢問用戶的身高、體重,App C并未詢問用戶的身高、體重、性別、年齡就開始問診,有3個系統(tǒng)允許用戶在查找癥狀時同時輸入多個癥狀,各預診系統(tǒng)基本情況見表1。
2.2預診系統(tǒng)診斷結果的準確性? 除App F外,其他智能預診系統(tǒng)一般會將用戶可能存在的疾病,按照可能性的大小依次列出??傮w來說,研究納入7個智能預診系統(tǒng)的預診結果準確率為64.76%,其中正確診斷列在第一項的占26.67%,正確診斷列在前三項的占39.05%。按標準化病人所屬科目來分,內(nèi)科類疾病預診結果準確率為69.39%,正確診斷列在第一項的占34.70%,正確診斷列在前三項的占46.94%;外科類疾病預診結果準確率為50.00%,正確診斷列在第一項的占10.71%,正確診斷列在前三項的占14.29%;婦科疾病預診結果準確率為85.71%,正確診斷列在第一項的占14.29%,正確診斷列在前三項的占57.14%;兒科疾病預診結果準確率為57.14%,正確診斷列在第一項的占50.00%,正確診斷列在前三項的占50.00%,見表2。
3討論
3.1與現(xiàn)有研究的對比? 近幾年,國外學者傾向于針對某一個智能預診系統(tǒng)進行實證研究,考察智能預診系統(tǒng)的準確性。Bisson LJ等[1]在患有膝關節(jié)疼痛的患者中進行了一項隊列研究,328例患者使用某智能預診系統(tǒng)進行自我診斷,系統(tǒng)根據(jù)患者癥狀生成一個潛在疾病的診斷列表,患者在其中選擇貼切的診斷,再接受臨床醫(yī)師的檢查,二者一對比,發(fā)現(xiàn)有58%的患者在智能預診系統(tǒng)的幫助下可以正確了解引起其膝關節(jié)疼痛的原因,該研究肯定了該智能預診系統(tǒng)對患者的幫助,但仍應繼續(xù)著眼于提高診斷精確度。Semigran HL等[2]使用45個標準化病人病例對23個智能預診系統(tǒng)的準確性進行研究,將標準化病人病例中的癥狀輸入所檢驗的系統(tǒng),在系統(tǒng)根據(jù)癥狀生成的診斷列表中尋找正確的疾病診斷,結果顯示僅有51%的智能預診系統(tǒng)在其列出的前三個可能出現(xiàn)的疾病中給出了正確的診斷結果,認為智能預診系統(tǒng)的診斷結果的準確性還需要進一步提高。Powley L等[3]使用WebMD智能預診系統(tǒng)、英國國家醫(yī)療服務體系(NHS)對34例關節(jié)炎的患者進行預診。WebMD智能預診系統(tǒng)會按可能性大小提供5個鑒別診斷,病癥名稱及出現(xiàn)次數(shù)分別為:痛風(n=28)、類風濕關節(jié)炎(n=24)、銀屑病關節(jié)炎(n=22)、骨關節(jié)炎(n=18)和手指脫臼(n=10)。其中,在21例類風濕性關節(jié)炎患者中,只有4例的第一個診斷為正確診斷。雖然第一個診斷的準確性很差,但診斷列表通常包含正確的診斷。該研究認為NHS診斷結果有風險規(guī)避傾向,僅有56%的患者得到符合疾病狀態(tài)的分診建議。因此,Powley L認為網(wǎng)上的診斷往往是不恰當?shù)?,會導致醫(yī)療服務使用不合理。
一項關于將互聯(lián)網(wǎng)數(shù)據(jù)應用于國家綜合檢測系統(tǒng)的研究提取了2012年8月1日~2013年7月1日英國國家醫(yī)療服務體系(NHS)在線智能預診系統(tǒng)的預診數(shù)據(jù),對用戶預診的癥狀類別進行了時間序列分析,結果顯示智能預診系統(tǒng)相對于電話分診可以提供額外的疾病早期預警信息[4]。Poote AE等[5]評估了一個大學生健康中心的自我評估分類系統(tǒng),154例患者分別接受自我評估系統(tǒng)和全科醫(yī)生的診斷,兩種診斷結果一致率為39%。與全科醫(yī)生評估相比,自我評估系統(tǒng)傾向于規(guī)避風險,建議56%的患者需要緊急就醫(yī),但是也存在評估系統(tǒng)正確鑒別出患者需要緊急護理,而全科醫(yī)生卻未診出的案例。
Luger TM等[6]采用有聲思維方法(Think-Aloud)將關注重點投向評估老年人使用智能預診系統(tǒng)的過程及如何找到準確診斷的過程。研究給予79例50歲以上的老年人一段關于病情癥狀的描述,讓其使用互聯(lián)網(wǎng)預診(Google、WebMD)思考該癥狀的疾病,并大聲說出思考過程。研究者記錄這些思考過程,找尋老年人判斷疾病的策略。結果顯示41%的參與者找到了正確診斷,在判斷過程中參與者傾向于從預診系統(tǒng)給出的癥狀中使用假設-演繹法推斷正確診斷,并輔之以現(xiàn)有的醫(yī)學知識和疾病經(jīng)驗。
Marcoruiz L[7]等對挪威一款Erdusyk智能預診系統(tǒng)開展質(zhì)量評價測試。第一階段由大樣本用戶(n=53)填寫基于技術接受模型設計的調(diào)查問卷,采用主成分分析法分析用戶界面對技術接受的貢獻。第二階段采用有聲思維方法使測試者(n=15)使用Erdusyk,并結合測試過程的思考進行訪談。結果發(fā)現(xiàn)Erdusyk的主要使用障礙是記錄強度的量表級別的選擇,導航方式的接受度、一些癥狀屬性的量化以及癥狀的特征選擇。其研究結果顯示大多數(shù)用戶認為智能預診系統(tǒng)會幫助自己避免受到網(wǎng)頁(谷歌)上免費搜索到的低質(zhì)量信息的干擾。
North F等[8]研究了可查詢癥狀的網(wǎng)站是否提供足夠的信息,以滿足用戶的緊急護理、就診需求。該研究在120個網(wǎng)站中搜索胸痛、呼吸急促等潛在的危險癥狀,33%的網(wǎng)站沒有嚴重癥狀指標,在確定關鍵癥狀指標的病例中,42%沒有提出進一步護理建議。該研究指出依靠互聯(lián)網(wǎng)搜索來確定癥狀的緊急程度是存在一定風險的。由此可見,在用戶預診需求激增的當下,有必要完善智能預診系統(tǒng),給用戶提供可靠的、科學的智能預診工具。
North F[9]等的另一項研究評估了互聯(lián)網(wǎng)預診和電話預診的差異,其結果表明互聯(lián)網(wǎng)用戶尋求成人癥狀的頻率是兒童癥狀的13倍,而電話預診中僅為2.1倍;兩種方式詢問的癥狀具有相似頻率;互聯(lián)網(wǎng)用戶對慢性病的評估更感興趣,電話詢問者更多關心急性癥狀。
將本研究得出的智能預診系統(tǒng)預診結果準確性與現(xiàn)有文獻進行對比,發(fā)現(xiàn)本研究的所有系統(tǒng)預診結果平均準確性較高,為64.76%。但不可否認正確診斷列在第一位的比例僅為26.67%,這與系統(tǒng)運行背后需要的醫(yī)學大數(shù)據(jù)和智能算法相關。國外智能預診系統(tǒng)發(fā)展較早且成熟,醫(yī)學數(shù)據(jù)庫較完備,而我國醫(yī)療數(shù)據(jù)較分散,會影響預診結果準確性。
3.2建議? 智能預診系統(tǒng)是以醫(yī)學數(shù)據(jù)庫為依托,以智能算法為技術支撐的醫(yī)療服務系統(tǒng),因此想要爆發(fā)真正的生命力,需要不斷擴充醫(yī)學數(shù)據(jù)庫,以開發(fā)完備的智能算法,進一步提高系統(tǒng)準確性。
醫(yī)學是在不斷發(fā)展中的學科,ICD-10收錄了26000多種疾病,不斷有疾病被治愈甚至消滅,但隨著環(huán)境的變化,又會有新的疾病被發(fā)現(xiàn),因此醫(yī)學數(shù)據(jù)庫不僅數(shù)據(jù)量龐大而且在不斷更新,群體層面的疾病預防及診療體系的評價[10]、特定疾病的機制闡釋[11]以及個體患者的疾病診療決策支持[12]都將依靠醫(yī)療大數(shù)據(jù)不斷發(fā)展。美國規(guī)模最大的健康險公司W(wǎng)ellpoint早已將醫(yī)療大數(shù)據(jù)運用在商業(yè)活動中,其啟用IBM超級計算機“Watson”輔助醫(yī)生的醫(yī)療診斷。若要不斷提高智能預診系統(tǒng)的準確性,就要最大程度的獲取和積累醫(yī)學數(shù)據(jù),尤其是中國醫(yī)學數(shù)據(jù),更符合中國人的身體狀況。
醫(yī)學數(shù)據(jù)不僅數(shù)量龐大,而且相互關聯(lián),錯綜復雜,要最大化地利用好醫(yī)學大數(shù)據(jù)庫,還需要進行數(shù)據(jù)挖掘和智能算法的開發(fā)。數(shù)據(jù)本身會受到樣本量、環(huán)境、抽樣、偏倚等因素的影響,醫(yī)療大數(shù)據(jù)是宏觀的,以宏觀評價微觀難免會出現(xiàn)問題,因此使用醫(yī)療大數(shù)據(jù)評價個體時出現(xiàn)誤診的可能無法避免。例如哮喘的臨床表現(xiàn)[13]就存在顯著的異質(zhì)性,在發(fā)病年齡、性別、肥胖、氣道高反應性的嚴重程度等方面都有個體性差異。如何將多個維度的數(shù)據(jù)進行整合,為患者提供精細化、個體化的診療指導,還需要在數(shù)據(jù)挖掘上下功夫,并研究可行的智能算法。隨著計算機硬件性能的提升,數(shù)據(jù)庫技術的發(fā)展,醫(yī)學數(shù)據(jù)會呈幾何式增長,數(shù)據(jù)挖掘可用的數(shù)據(jù)條目會越來越多。數(shù)據(jù)挖掘工具也將不斷更新,數(shù)據(jù)挖掘算法也會越來越智能化,使自動選擇算法、自動調(diào)優(yōu)參數(shù)等成為可能,將數(shù)據(jù)的潛力充分開發(fā)出來[14]??傊?,提高智能預診系統(tǒng)準確性的關鍵在于擴充醫(yī)療大數(shù)據(jù)庫,通過大量的疾病數(shù)據(jù)挖掘其中診斷規(guī)律、特點等,建立預測模型,提高預診結果準確性,幫助用戶完成預診行為,輔助臨床醫(yī)學診斷。
4總結
智能預診系統(tǒng)作為預診工具,其診斷結果的準確性雖然無需也無法達到醫(yī)療診斷的精確度,但是仍要以不斷提高預診結果準確性為發(fā)展目標,才能滿足用戶預診需求,提高用戶滿意度,實現(xiàn)系統(tǒng)使用價值。而用戶在使用智能預診系統(tǒng)時,還是要理性看待,智能預診系統(tǒng)的結果只能作為醫(yī)學輔助信息,不可作為醫(yī)療診斷結果,若有需要仍建議尋求專業(yè)醫(yī)師的幫助。
參考文獻:
[1]Bisson LJ,Komm JT,Bernas GA,et al.How Accurate Are Patients at Diagnosing the Cause of Their Knee Pain With the Help of a Web-based Symptom Checker[J].Orthopaedic Journal of Sports Medicine,2016,4(2):2325967116630286.
[2]Semigran HL,Linder JA,Gidengil C,et al.Evaluation of symptom checkers for self diagnosis and triage:audit study[J].BMJ,2015(351):h3480.
[3]Powley L,Mcilroy G,Simons G,et al.Are online symptoms checkers useful for patients with inflammatory arthritis[J].BMCMusculoskeletal Disorders,2016,17(1):362.
[4]Elliot AJ,Kara EO,Loveridge P,et al.Internet-based remote health self-checker symptom data as an adjuvant to a national syndromic surveillance system[J].Epidemiology & Infection,2015,143(16):3416.
[5]Poote AE,F(xiàn)rench DP,Dale J,et al.A study of automated self-assessment in a primary care student health centresetting[J].Journal of Telemedicine & Telecare,2014,20(3):123-127.
[6]Luger TM,Houston TK,Suls J.Older adult experience of online diagnosis:results from a scenario-based think-aloud protocol[J].Journal of Medical Internet Research,2014,16(1):e16.