姚其超,熊科宇,李 睿
(重慶市巴蜀中學(xué)校,重慶 400013)
重癥肌無力是一種神經(jīng)-肌肉接頭傳遞障礙的自身免疫性疾病。病理為受累骨骼肌纖維間小靜脈周圍有淋巴細(xì)胞浸潤。急性期患者與晚期患者分別有特殊病變。75%至85%的重癥肌無力患者同時伴隨胸腺異常,60%至70%為胸腺增生,10%為胸腺瘤。
同時重癥肌無力的發(fā)病與臨床類型與年齡與性別呈統(tǒng)計相關(guān)。女性患病率略高于男性,且胸腺異常的具體發(fā)展概率分布也有區(qū)別。在臨床上,重癥肌無力也因為患病者年齡分為:成人重癥肌無力、兒童重癥肌無力與新生兒重癥肌無力。不同年齡患者在癥狀和病情發(fā)展上也有明顯不同。[1]基于重癥肌無力的基本病理可知,重癥肌無力的具體受累肌肉部分與病情發(fā)展有著本質(zhì)性的聯(lián)系,胸腺異常和患者性別與重癥肌無力存在一定的聯(lián)系,且重癥肌無力的發(fā)病年齡與病情發(fā)展有著直接或間接的聯(lián)系。
重癥肌無力危象,是指由于疾病的發(fā)展,藥物應(yīng)用不當(dāng)、感染、分娩、手術(shù)等諸多因素所致的呼吸肌無力而不能維持正常通氣功能的危急狀態(tài)。[1]也就是說,重癥肌無力的危象,嚴(yán)重關(guān)系者患者的生命體征。而重癥肌無力發(fā)展到危象的時間,嚴(yán)重影響著患者的康復(fù)、存活過程。且重癥肌無力治療,仍然受患者病情發(fā)展因素的制約。
同時,重癥肌無力作為一種罕見病,在地方缺乏專業(yè)有效的診斷,且重癥肌無力的病情發(fā)展多由經(jīng)驗與統(tǒng)計得出。關(guān)于重癥肌無力的治療方法的統(tǒng)計學(xué)意義與重癥肌無力危象預(yù)測模型的構(gòu)建上,吉林大學(xué)的田升軍醫(yī)生和廣州中醫(yī)藥大學(xué)的劉琴醫(yī)生做了極有意義的研究和創(chuàng)新探索,他們證明了重癥肌無力的若干因素與肌無力危象的發(fā)生具有統(tǒng)計學(xué)關(guān)系。[2][3]但是重癥肌無力雖然是目前病理理解最為清楚的自身免疫病之一,仍然缺乏實用的病情預(yù)測機制和更好的治療策略。此時,在關(guān)聯(lián)患者病情癥狀與病情發(fā)展之間,作為新興技術(shù)的大數(shù)據(jù)分析,便是一個重要的解決思路。
目前,在中央政府的大力倡導(dǎo)下,中國開始發(fā)展多個醫(yī)療大數(shù)據(jù)數(shù)據(jù)庫,其中本文使用國家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺的重癥肌無力診療數(shù)據(jù)庫。[4]截止本文寫作,數(shù)據(jù)庫更新數(shù)據(jù)96條,大多有效。導(dǎo)出數(shù)據(jù)進(jìn)行分析制表,可發(fā)現(xiàn)發(fā)病自危象時間與發(fā)病年齡的點狀圖分布呈三角形分布,即中間高,左右低。因至危象受各種隨機因素的影響,故使用假說演繹法,大膽預(yù)測至危象時間與發(fā)病年齡呈正態(tài)分布的加權(quán)關(guān)系,并以此建模,驗證此假說是否具有合理性。同時,提取數(shù)據(jù)庫有效數(shù)據(jù),病癥大多為是或否,其余病癥出現(xiàn)太過分散,無法驗證其統(tǒng)計學(xué)意義。本探索作為重癥肌無力危象時間預(yù)測的可行性研究,將病癥的出現(xiàn)與至危象時間假設(shè)為簡單線形關(guān)系進(jìn)行研究。
首先,模型架構(gòu)如下:
其中設(shè)定患者有關(guān)變量為性別、發(fā)病年齡(age)、是否受累眼肌、是否受累頸肌、是否受累肢肌、是否受累呼吸肌。各變量各設(shè)置權(quán)重值pi(i=1,2,3…),又以發(fā)病年齡的正態(tài)分布的期望值為l,為方便計算使用發(fā)病年齡的加權(quán)期望值的減半周期為r來近似計算l。
設(shè)權(quán)重計算函數(shù):f(r,l)
該函數(shù)自動就加權(quán)數(shù)計算結(jié)果
(該病人pi為出現(xiàn)病癥的對應(yīng)權(quán)重)對比真實至危象時長,對于權(quán)重值進(jìn)行修正。自優(yōu)化函數(shù)自動調(diào)整(r,l)參數(shù)重復(fù)觸發(fā)權(quán)重計算函數(shù),并分別記錄下允許一年誤差的正確率、允許半年誤差的正確率、允許兩月誤差的正確率與其權(quán)重與參數(shù)變化情況。最末為精度最高時的參數(shù)。將其代入
(該病人pi為出現(xiàn)病癥的對應(yīng)權(quán)重),即為重癥肌無力的簡單預(yù)測模型。
最終經(jīng)過約75000組有效的訓(xùn)練與優(yōu)化,選出測試組綜合正確率最高的一組模型,最終得到的重癥肌無力據(jù)最終病情癥狀進(jìn)行發(fā)病至危象的時間預(yù)測計算模型如下:
(p1=0.931,p2=9.96,p3=0.469,p4=-6.317,p5=8.801,p6=2.616)(該病人pi為出現(xiàn)病癥的對應(yīng)權(quán)重)
同時本模型訓(xùn)練組和測試組相互獨立互不重合。進(jìn)行交叉檢驗很能說明所構(gòu)建模型的普適性。由測試組得出的正確率相較訓(xùn)練組的正確率雖然有一定的下滑,但是測試組六月正確率仍然為50.0%。說明大數(shù)據(jù)數(shù)據(jù)挖掘在肌無力危象預(yù)測中具有研究價值和實用意義。初步探索了數(shù)據(jù)挖掘在重癥肌無力甚至是罕見病診斷治療中的巨大實用價值。
同時,對具體數(shù)據(jù)進(jìn)行分析,我們發(fā)現(xiàn)重癥肌無力至危象時間多為0至48月之間。模型所有正確數(shù)據(jù)均取于此中。也就是說,如果將排除超過48月的為異常樣本,本模型的正確率將提高更多,這樣的排除在如安排手術(shù)治療等實踐中仍然有應(yīng)用價值。
經(jīng)過統(tǒng)計,我們發(fā)現(xiàn)無論是在測試組還是訓(xùn)練組,誤差六月內(nèi)正確樣本與誤差二月內(nèi)正確樣本大多集中于18個月內(nèi)出現(xiàn)重癥肌無力危象的樣本。訓(xùn)練組中24月內(nèi)危象樣本的一年正確率為100%,六月正確率為75.6%。且在測試組中24月內(nèi)危象樣本的預(yù)測六月正確率也高于平均水平,為66.7%。同時,樣本病情至危象時間一旦超過24月,預(yù)測正確率就急劇降低。
根據(jù)危象時間超過24月的樣本修正參數(shù)與權(quán)重之后,在超過24月危象樣本的預(yù)測正確率將提高,超過100月發(fā)生危象的樣本雖然少有一年正確者,但預(yù)測值誤差相比其發(fā)生危象時間減少很多。但是值得注意的是這樣的修正明顯降低了24月內(nèi)危象樣本的正確率。
以上的實際問題有一個重要的解決思路:引入新變量。
本文使用患者數(shù)據(jù)因為數(shù)據(jù)處理與數(shù)據(jù)庫局限原因,種類較少,樣本數(shù)量較少。如果借助引入新變量,如:胸腺異常情況、激素水平等,有希望能統(tǒng)一各種時長危象樣本的預(yù)測模型。
本模型以各變量間存在線形關(guān)系或正態(tài)分布作為假設(shè),目的是為此領(lǐng)域提供可行性探索。在實際使用方面,應(yīng)當(dāng)使用更加精密的算法以進(jìn)一步增強模型的普適性和準(zhǔn)確性。
值得注意的是,目前公開可靠的臨床數(shù)據(jù)較少,不利于進(jìn)行大數(shù)據(jù)研究。本次使用的數(shù)據(jù)雖然得到了數(shù)據(jù)主管單位,北京協(xié)和醫(yī)院數(shù)據(jù)中心的大力支持,但是數(shù)據(jù)中仍有不少缺失數(shù)據(jù)與無效數(shù)據(jù)。要盡快發(fā)展大數(shù)據(jù)醫(yī)療,就應(yīng)當(dāng)注意數(shù)據(jù)的收集與保存。對于罕見病的病情應(yīng)當(dāng)分階段,分別進(jìn)行具體的統(tǒng)計,才能使中國盡快擁有大量珍貴的罕見病數(shù)據(jù)進(jìn)行科學(xué)研究。
建模得到的相關(guān)數(shù)據(jù)和算法在大量樣本驗證的情況下會存在其內(nèi)部的科學(xué)聯(lián)系,并且這樣的具體聯(lián)系在模型中會有提示。如該癥狀加重或是減輕了病情或其他癥狀。重癥肌無力乃至罕見病作為科研難關(guān)的攻克,不僅需要大數(shù)據(jù)支撐,焚膏繼晷的科研攻關(guān),同時也需要一些諸如數(shù)據(jù)挖掘模型帶來的提示。利用這樣的提示進(jìn)行科學(xué)的假設(shè),將會較之漫無目的的統(tǒng)計與猜測更加接近真理。
本文在選取研究對象時著重注意了研究數(shù)據(jù)在病理學(xué)上是否有明顯的相關(guān)性,并在此基礎(chǔ)上進(jìn)行了大膽的數(shù)學(xué)假設(shè)。這應(yīng)當(dāng)為后來研究者所注意:大數(shù)據(jù)在研究相關(guān)數(shù)據(jù)時往往更能發(fā)現(xiàn)其中規(guī)律,也能使大數(shù)據(jù)結(jié)論除了統(tǒng)計學(xué)依據(jù)以外增加更多的可解釋、可研究的科學(xué)的內(nèi)在聯(lián)系。
大數(shù)據(jù)醫(yī)療,往往需要跨學(xué)科的醫(yī)療合作。往往醫(yī)療、生物科研從業(yè)者無法擁有專業(yè)大數(shù)據(jù)從業(yè)人員的數(shù)學(xué)、大數(shù)據(jù)技術(shù)水平。同樣,大數(shù)據(jù)工程師也往往無法在生物科研與醫(yī)療領(lǐng)域做到精通。要充分發(fā)揮社會科研資源,使大數(shù)據(jù)醫(yī)療科研項目能夠保證準(zhǔn)確性的同時又保證專業(yè)性,就需要更多制度性的保障來促進(jìn)科研信息的充分交流,充分利用。