許艷華
摘要:針對急性白血病、小圓藍色細胞腫瘤難以用傳統(tǒng)診斷方法做出快速判斷的問題,提出基于Logistic并使用ReliefF作為特征提取算法的腫瘤識別方法。對急性白血病數(shù)據(jù)集,提取出排序前2的特征并用Logistic分類器進行分類,得到97.06%的預測準確率。對小圓藍色細胞腫瘤數(shù)據(jù)集,提取出排序前17的特征再用分類器進行分類,得到了100%的預測準確率。
關鍵詞:Logistic;ReliefF;AML-ALL;SRBCT
1概述
在我國,惡性腫瘤的世標發(fā)病率、死亡率、死亡發(fā)病比均高于世界平均水平,已成為嚴重威脅中國居民健康和社會發(fā)展的重要公共衛(wèi)生問題。根據(jù)近幾十年分子生物學的研究結果表明,腫瘤的發(fā)生發(fā)展是多基因、多步驟、多階段的復雜過程。目前普遍采用的傳統(tǒng)病理學的診斷方法采用細胞形態(tài)學對腫瘤進行診斷,過程簡便易行,卻帶有很大程度上的主觀性,個人誤差難以排除。而后基因芯片等高通量技術的發(fā)展彌補了這一嚴重的局限性。
利用基因芯片技術,可以一次性同時檢測成千上萬個基因的表達值,生成包含成千上萬個基因表達值的基因表達譜,應用于對腫瘤的分類、基因的功能研究、觀察藥物對腫瘤細胞基因表達譜的影響等各方面,在癌癥的診斷和治療中起著重要作用。但基因表達數(shù)據(jù)通常具有數(shù)據(jù)量大、維數(shù)高、樣本小、非線性的特點,給后期的數(shù)據(jù)處理帶來巨大挑戰(zhàn),每個樣本均包含了所有的基因表達值,卻只有少數(shù)基因與腫瘤分類相關。因此,在數(shù)據(jù)處理過程中,需要有效的挑選出少量的特征基因,消除噪聲及冗余基因,以此來降低樣本維數(shù),提高分類器性能。
本文使用經典的過濾式評估算法ReliefF對數(shù)據(jù)進行特征選擇,結合Logistic分類器對Golub等收集的急性白血病基因表達普和Khan等收集的SRBCT基因表達譜進行相關實驗研究,以較少的特征維數(shù)獲得較好的分類結果。
2材料與方法
2.1數(shù)據(jù)集
2.1.1ALL-AML數(shù)據(jù)集
Leukemia白血病是造血系統(tǒng)的一種惡性腫瘤,表現(xiàn)為骨髓、淋巴結等造血系統(tǒng)中一種或多種血細胞成分發(fā)生惡性腫瘤,并浸入體內各臟器組織,導致正常造血細胞受抑制,產生各種癥狀。在臨床上,根據(jù)白血病細胞的形態(tài)及組織化學染色表現(xiàn),可將此病分為急性淋巴細胞性白血?。ˋcute Lvmphoblastie Leukemia,ALLl以及急性髓細胞性白血病(Acute Myeloid Leukemia,AML)兩大類。
本文采用的第一組數(shù)據(jù)集來自Golub等收集的急性白血病ALL-AML數(shù)據(jù)集。該數(shù)據(jù)集包含72個樣本,每個樣本包含7129條探針或基因的表達值,共由兩種不同種類的白血病樣本組成:47個急性淋巴白血病ALL樣本和28個急性骨髓白血病AML樣本。數(shù)據(jù)詳情見表1。
2.1.2SRBCT數(shù)據(jù)集
小圓藍細胞瘤(SRBCT)是一種惡性腫瘤,多發(fā)于兒童,具有四種亞型,分別是:尤因肉瘤fEwing%sarcoma,EWS),伯基特淋巴瘤(Burkitt%lymphoma,BL),成神經細胞瘤(Neuroblastoma,NB)和橫紋肌肉瘤(Rhabdomyosarcoma,RMS)。這四種亞型在顯微鏡下這些腫瘤細胞模樣非常相似,治療方案各不相同,目前尚未找到能精確區(qū)分這四種亞型的單一生物學或化學診斷方法。