鄭鳳霞,古傳運(yùn)
(四川文理學(xué)院 數(shù)學(xué)與財(cái)經(jīng)學(xué)院,四川 達(dá)州 635000)
艾滋病是當(dāng)前人類社會(huì)最嚴(yán)重的疾病之一.艾滋病治療的目的,是盡量減少人體內(nèi)HIV的數(shù)量,同時(shí)產(chǎn)生更多的CD4,以提高人體的免疫能力.目前,AIDS療法有多種,每種療法對不同的病人產(chǎn)生不同的效果,因此,選擇合適的療法顯得非常重要.不少學(xué)者曾對艾滋病治療問題進(jìn)行了研究,其中郭亞君等在文獻(xiàn)[1]中對數(shù)據(jù)ACTG320,依據(jù)病人的初始CD4濃度,將實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類,再對每類數(shù)據(jù)進(jìn)行三次樣條插值,確定各類病人的最佳治療終止時(shí)間.然后對另一組數(shù)據(jù)193A,依據(jù)病人的年齡,將實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類,再對每類數(shù)據(jù)不同療法進(jìn)行三次樣條插值,比較得到各類病人的最佳治療方案.本文對數(shù)據(jù)ACTG320,同時(shí)考慮初始CD4和HIV濃度;對數(shù)據(jù)193A,同時(shí)考慮初始CD4濃度和年齡大小,采用聚類分析法將數(shù)據(jù)進(jìn)行分類,然后對每類數(shù)據(jù)采用平滑技術(shù)進(jìn)行趨勢分析,使問題的解決更貼近實(shí)際.
聚類分析是將研究對象分為相對同質(zhì)的群組的統(tǒng)計(jì)分析技術(shù).[2]從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析能夠減少研究對象的數(shù)目,是簡化數(shù)據(jù)的一種方法.聚類分析的目標(biāo)是將性質(zhì)相近的事物歸入一類.同一個(gè)類中的對象有很大的相似性,而不同類間的對象有很大的相異性.本文采用聚類分析諸方法中最常用的一種方法——系統(tǒng)聚類法——進(jìn)行分類.
系統(tǒng)聚類法的基本思想是:開始將各個(gè)樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離,重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類.[3]當(dāng)各變量的單位不同或測量值范圍相差很大時(shí),應(yīng)先對各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理.本文采用系統(tǒng)聚類方法中的最長距離法進(jìn)行聚類,采用曼氏距離作為其相似性度量.
平滑法是進(jìn)行趨勢分析的一種常用方法.它是利用修勻技術(shù),使序列平滑化,從而顯示出變化的規(guī)律.常用的數(shù)據(jù)平滑技術(shù)是移動(dòng)平均法,它的基本思想是用一定時(shí)間間隔的平均值作為某一期的估計(jì)值.[4]但使用移動(dòng)平均法進(jìn)行平滑后的序列會(huì)變短.本文所使用的是一種保持原序列長度且方便快捷的平滑處理方法——二項(xiàng)式系數(shù)移動(dòng)平滑法.[5]
二項(xiàng)式系數(shù)移動(dòng)平滑序列由二項(xiàng)式系數(shù)組成,如三點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑序列的二項(xiàng)式系數(shù)如下:
n+1點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑序列由如下的二項(xiàng)式系數(shù)組成:
設(shè)含有n個(gè)數(shù)據(jù)的序列{xk},其三點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑序列為{yk},具體步驟如下:
上述操作無法對首尾數(shù)據(jù)進(jìn)行平滑,為解決該問題,令y1=x1,yn=xn來進(jìn)行數(shù)據(jù)缺失處理.
二項(xiàng)式系數(shù)移動(dòng)平滑法中當(dāng)前項(xiàng)的權(quán)系數(shù)最大對保存自身項(xiàng)及附近項(xiàng)特征具有良好的效果,且保持了峰高的位置不發(fā)生平移.[6]另外,此法計(jì)算快捷,含有n個(gè)數(shù)據(jù)的序列進(jìn)行三點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑,只需要做2n-3次加法和2n-3次除法.如果進(jìn)行2np+1點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑,則只需進(jìn)行(2n-3)np次加法和(2n-3)np次除法即可.
3.1.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)來源于美國艾滋病醫(yī)療試驗(yàn)機(jī)構(gòu)ACTG公布的數(shù)據(jù) ACTG320,ACTG320是同時(shí)服用zidovudine,lamivudine,indinavir這三種藥物的300多名病人每隔幾周測試的CD4和HIV的濃度.此數(shù)據(jù)共有356組數(shù)據(jù),依據(jù)病人的初始CD4和HIV濃度,采用聚類分析法將實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類.首先去除20組缺失第一次測驗(yàn)的數(shù)據(jù),然后對剩下的336組數(shù)據(jù)歸一化后做聚類分析,聚類后再次去除2組異常數(shù)據(jù),有效數(shù)據(jù)是334組.聚類結(jié)果有五類,每類人數(shù)如表1.
表1 ACTG320聚類后每類人數(shù)
對每一類中的數(shù)據(jù)不考慮個(gè)體差異,只考慮平均水平.第一類病人每隔幾周的CD4和HIV均值濃度如表2.
表2 ACTG320第一類病人每隔幾周的CD4和HIV均值濃度
3.1.2 模型建立
采用五點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑,即設(shè)含有n個(gè)數(shù)據(jù)的序列{xk},其五點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑序列為{yk},則
3.1.3 結(jié)果分析
將篩選和分類后的ACTG320第一類病人數(shù)據(jù),以周數(shù)為橫軸,分別以CD4均值和HIV均值為縱軸做出散點(diǎn)圖,然后用五點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑技術(shù)進(jìn)行平滑,結(jié)果如圖1和圖2.
圖1 ACTG320第一類病人CD4含量隨時(shí)間變化曲線
圖2 ACTG320第一類病人HIV含量隨時(shí)間變化曲線
對ACTG320第一類病人,圖1顯示CD4含量隨時(shí)間先上升后下降.圖2顯示HIV含量隨時(shí)間先下降后上升,CD4含量和HIV含量隨時(shí)間成互補(bǔ)趨勢變化.特別的,在第25周左右,CD4含量達(dá)到最高,HIV含量達(dá)到最低,表明ACTG320第一類病人最佳停藥時(shí)間大概是在第25周左右.類似可得ACTG320第二類、第三類、第四類、第五類病人的最佳停藥時(shí)間.
3.2.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)來源于美國艾滋病醫(yī)療試驗(yàn)機(jī)構(gòu)ACTG公布的另一組數(shù)據(jù)193A,193A是將1300多名病人隨機(jī)地分為4組,每組按下述4種療法中的一種服藥,大約每隔8周測試的CD4濃度,其中日用藥600mg zidovudine或400mg didanosine,這兩種藥按月輪換使用為第一種療法;日用藥600mg zidovudine加2.25mg zalcitabine為第二種療法;日用藥600mg zidovudine加400 mg didanosine為第三種療法;日用藥600mg zidovudine加400 mg didanosine,再加400mg nevirapine為第四種療法.另外,此數(shù)據(jù)信息還包含每個(gè)病人的年齡.
此數(shù)據(jù)共有1313組數(shù)據(jù),依據(jù)病人的初始CD4和HIV濃度,亦采用聚類分析法將實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類.首先去除14組缺失第一次測驗(yàn)的數(shù)據(jù),然后對剩下的1299組數(shù)據(jù)中的時(shí)間和年齡四舍五入取整,再歸一化后做聚類分析,聚類結(jié)果有五類,每類人數(shù)如表3.
表3 193A聚類后每類人數(shù)
對每一類中的數(shù)據(jù)不考慮個(gè)體差異,只考慮平均水平.僅以CD4為標(biāo)準(zhǔn),第一類病人第1和第2種療法每隔幾周的CD4均值濃度如表4(限于篇幅,第一類病人第3和第4種療法每隔幾周的CD4均值濃度略).
表4 193A第一類病人第1和第2種療法每隔幾周的CD4均值濃度
3.2.2 模型建立
采用七點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑,即設(shè)含有n個(gè)數(shù)據(jù)的序列{xk},其七點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑序列為{yk},則
3.2.3 結(jié)果分析
將篩選和分類后的193A第一類病人數(shù)據(jù),以周數(shù)為橫軸,以CD4均值為縱軸,用七點(diǎn)二項(xiàng)式系數(shù)移動(dòng)平滑技術(shù)對193A第一類病人數(shù)據(jù)的每一種療法進(jìn)行平滑,結(jié)果如圖3.
圖3 193A第一類病人四種療法CD4含量隨時(shí)間變化曲線
對193A第一類病人的四種療法,圖3顯示第一種療法CD4含量隨時(shí)間變化比較平穩(wěn),第二種和第三種療法CD4含量隨時(shí)間變化波動(dòng)比較明顯,第四類療法CD4含量在開始一段時(shí)間有波動(dòng)性,但之后時(shí)間段CD4含量高于其他療法.因此,對193A第一類病人,第四種療法效果比較好.類似可得193A第二類、第三類、第四類、第五類病人的最佳治療方案.
[1]郭亞君,王金然,丁 靖,等.基于三次樣條插值的艾滋病治療模型[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2010(9):93-98.
[2]吳秋芳,唐 亞.上市公司股票成交額時(shí)間序列的模糊聚類分析[J].內(nèi)江師范學(xué)院學(xué)報(bào),2011(10):11-14.
[3]方開泰,潘恩沛.聚類分析[M].北京:地質(zhì)出版社,1982:44.
[4]王 燕.應(yīng)用時(shí)間序列分析[M].北京:中國人民大學(xué)出版社,2005:114.
[5]Marchand P,Marmet L.Binomial Smoothing Filter:A Way to Avoid Some pitfalls of Least-squares Polynomial Sdmoothing[J].Review of Scientific Instruments,1983(8):1034-1041.
[6]賈小龍,王謙謙,周寧芳.近50a東北地區(qū)降水異常的氣候特征分析[J].南京氣象學(xué)院學(xué)報(bào),2003(2):164-171.