李立奇 張 瑗 周 躍△ 何仁穎 王開發(fā)
K最近鄰(k-nearest neighbor,KNN)分類算法是一種基于實例的分類算法〔1〕,在解決二類分類的實例問題中表現(xiàn)出良好的分類性能,故現(xiàn)已被廣泛應(yīng)用于各個領(lǐng)域。在醫(yī)藥學(xué)領(lǐng)域中,如疾病診斷〔2〕、醫(yī)學(xué)影像〔3〕、臨床用藥〔4〕等方面也有相關(guān)報道。但是基于KNN算法的類風(fēng)濕關(guān)節(jié)炎(RA)診斷模型尚未有人提出。本文建立了KNN模型用于RA的診斷,說明其在本病診斷中的運用效果。
1.標(biāo)本來源 RA患者100例,非RA風(fēng)濕性疾病患者50例,病例取自2009年6月至2010年5月在本院就診的住院患者。所有RA病例均符合1987年美國風(fēng)濕病協(xié)會(ARA)診斷標(biāo)準(zhǔn)〔5〕。非RA風(fēng)濕性疾病也均符合相應(yīng)診斷標(biāo)準(zhǔn)。分別檢測150名患者血清中的anti-CCP和RF兩項指標(biāo)。
2.KNN 的原理
KNN的基本思想是將各類別中的全部訓(xùn)練樣本點都作為代表點〔6〕。對于一個測試樣本點x,需要計算它與訓(xùn)練樣本集中每個樣本點的相似度,依據(jù)樣本點相似度找出k個最相似的訓(xùn)練樣本點;再根據(jù)這k個樣本點所屬類別判斷樣本點 x的所屬類別,在x的k個最近鄰點中依次計算每類的權(quán)重;最后將樣本點x判定給權(quán)重最大的類別。
3.KNN的算法步驟
(1)將本資料中150例研究對象分為訓(xùn)練樣本集和測試樣本集。
(2)分別輸入訓(xùn)練集和測試集中每名患者的anti-CCP和RF值及其所屬類別。
(3)用KNN方法對測試集中每名患者的所屬類別進行判別。
(4)輸出判別結(jié)果。
本文采用兩種常用的標(biāo)準(zhǔn)檢驗方法對RA診斷的KNN模型進行檢驗。
(1)5維交叉驗證法:將150例患者隨機分為5組,每組包含20例RA患者和10例其他風(fēng)濕性疾病患者。每次從5組中輪流抽取1組作為測試樣本集,其余4組作為訓(xùn)練樣本集。共作5次KNN算法仿真診斷。由于KNN算法中的參數(shù)k取值不同,利用5維交叉驗證法檢驗得到的平均診斷準(zhǔn)確率也不同。初步測試發(fā)現(xiàn)當(dāng)k=4時,平均診斷準(zhǔn)確率最高(見圖1)。圖1中符號X表示利用5維交叉驗證法檢驗得到的平均診斷準(zhǔn)確率。圖2列出了k=4時的5組患者仿真診斷準(zhǔn)確數(shù)。
圖1 兩種檢驗方法15次診斷結(jié)果
圖2 KNN法5維交叉驗證結(jié)果
(2)Jackknife檢驗法:每次從150例患者中輪流抽取1例作為測試樣本,其余149例作為訓(xùn)練樣本集。共作150次KNN算法仿真診斷。同樣地當(dāng)參數(shù)k取不同值時,利用Jackknife檢驗法檢驗得到的診斷準(zhǔn)確率也不同。初步測試發(fā)現(xiàn)當(dāng)k=7時,診斷準(zhǔn)確率最高(見圖1)。圖1中符號O表示利用Jackknife檢驗法檢驗得到的診斷準(zhǔn)確率。
本研究分別檢測了100例RA患者和50例非RA風(fēng)濕性疾病患者血清中的anti-CCP和RF兩項指標(biāo)。結(jié)果發(fā)現(xiàn),anti-CCP和RF對RA診斷的敏感性分別為64%和76%,特異性分別為94%和82%。其結(jié)果與Schellekens等〔7〕報道的 anti-CCP的敏感性和特異性(68%和98%)以及人民衛(wèi)生出版社出版的《內(nèi)科學(xué)》第7版教材中有關(guān)RF的敏感性(70% ~80%)的描述接近。雖然RF是RA診斷的唯一的血清標(biāo)準(zhǔn),且敏感性較高,但在少數(shù)健康老年人、某些慢性感染者和自身免疫性疾病患者中也可呈陽性。故RF對RA診斷的特異性不高,診斷價值有限。而采用ELISA方法檢測的anti-CCP對RA診斷有較高的特異性,尤其對早期RA具有很高的診斷價值。因此聯(lián)合檢測anti-CCP和RF這兩項指標(biāo)有利于提高RA診斷的準(zhǔn)確率。
本文基于KNN算法的最優(yōu)二分類方法,建立了RA診斷的KNN模型。對100例RA患者和50例其他風(fēng)濕性疾病患者的anti-CCP和RF兩項指標(biāo)進行訓(xùn)練和模擬診斷。結(jié)果發(fā)現(xiàn):利用5維交叉驗證法和Jackknife檢驗法檢測樣本的診斷準(zhǔn)確率分別為92%和91.3%,高于單獨檢測anti-CCP或RF對RA的診斷準(zhǔn)確率(74%和78%)。
綜上所述,anti-CCP和RF這兩項指標(biāo)的檢測在RA的早期診斷過程中都有一定的臨床意義。對于新近發(fā)生的診斷不明的關(guān)節(jié)炎,二者聯(lián)合應(yīng)用能更好地幫助臨床醫(yī)生實現(xiàn)對RA的早期檢出,提高早期診斷準(zhǔn)確率。
1.Nasibov E,Kandemir-Cavas C.Efficiency analysis of KNN and minimum distance-based classifiers in enzyme family prediction.Comput Biol Chem,2009,33(6):461-464.
2.Xiao Y,Griffin MP,Lake DE,et al.Nearest-neighbor and logistic regression analyses of clinical and heart rate characteristics in the early diagnosis of neonatal sepsis.Med Decis Making,2009,30(2):258-266.
3.Mayerhoefer ME,Szomolanyi P,Jirak D,et al.Effects of MRI acquisition parameter variations and protocol heterogeneity on the results of texture analysis and pattern discrimination:an application-oriented study.Med Phys,2009,36(4):1236-1243.
4.Ivanisevic I,Bates S,Chen P.Novel methods for the assessment of miscibility of amorphous drug-polymer dispersions.J Pharm Sci,2009,98(9):3373-3386.
5.Arnett FC,Edworthy SM,Bloch DA,et al.The American Rheumatism Association 1987 revised criteria for the classification of rheumatoid arthritis.Arthritis Rheum,1988,31(3):315-324.
6.Sohn S,Kim W,Comeau DC,et al.Optimal training sets for Bayesian prediction of MeSH assignment.J Am Med Inform Assoc,2008,15(4):546-553.
7.Schellekens GA,Visser H,de Jong BA,et al.The diagnostic properties of rheumatoid arthritis antibodies recognizing a cyclic citrullinated peptide.Arthritis Rheum,2000,43(1):155-163.