王媛,溫陽(yáng)俊,王艷萍,劉漢欽,馬若洵,吳清太,張瑾
(南京農(nóng)業(yè)大學(xué)理學(xué)院,江蘇 南京 210095)
缺失數(shù)據(jù)是影響數(shù)據(jù)分析準(zhǔn)確性的重要原因之一,完整表型和基因型數(shù)據(jù)的分析對(duì)防治疾病、遺傳育種等研究具有重要意義。目前,在全基因組關(guān)聯(lián)研究(genome-wide association study,GWAS)中基因型數(shù)據(jù)的缺失已經(jīng)有了相對(duì)成熟的處理方法[1-5],而表型數(shù)據(jù)的缺失直接減少樣本量,削弱GWAS的統(tǒng)計(jì)推斷能力。表型的缺失值主要有3種處理方法:直接刪除法、重測(cè)量法和插補(bǔ)法。直接刪除法將數(shù)據(jù)中含有缺失值的樣本點(diǎn)全部刪除,從而得到一個(gè)不含缺失值的“完整”數(shù)據(jù)集。由于被刪除的樣本中可能包含重要信息,直接刪除會(huì)造成原始信息的損失,減少樣本量,降低后續(xù)統(tǒng)計(jì)推斷的功效。重測(cè)量法,即進(jìn)行重復(fù)試驗(yàn),采集相同條件下的數(shù)據(jù),對(duì)原有缺失值進(jìn)行插補(bǔ)。雖然重測(cè)量法能夠插補(bǔ)缺失的數(shù)據(jù),但耗費(fèi)大量的人力和物力。數(shù)據(jù)插補(bǔ)法利用現(xiàn)有觀測(cè)數(shù)據(jù)信息,借助統(tǒng)計(jì)學(xué)方法預(yù)測(cè)缺失值以產(chǎn)生完整數(shù)據(jù)[6],插補(bǔ)表型缺失避免了原始信息的損失、增大了樣本量,具有省時(shí)高效的優(yōu)點(diǎn)。
精確的缺失表型預(yù)測(cè)可以提高后續(xù)統(tǒng)計(jì)分析的準(zhǔn)確性,常用的方法有:均值插補(bǔ)法(mean)[7],利用觀測(cè)數(shù)據(jù)的均值插補(bǔ)缺失值,簡(jiǎn)單易行,但是扭曲了樣本的分布,降低了數(shù)據(jù)的變異程度;回歸插補(bǔ)法[8],利用完整的觀測(cè)數(shù)據(jù)建立回歸模型,依據(jù)此模型預(yù)測(cè)表型缺失值;多重插補(bǔ)法[9],對(duì)缺失數(shù)據(jù)進(jìn)行多次插補(bǔ)得到多組完整數(shù)據(jù)集,通過(guò)統(tǒng)計(jì)方法和綜合分析推斷出一組最佳完整數(shù)據(jù)集;EM算法[10],根據(jù)觀測(cè)數(shù)據(jù)的邊緣分布,利用EM算法進(jìn)行極大似然估計(jì),對(duì)含有缺失數(shù)據(jù)的不完整數(shù)據(jù)進(jìn)行預(yù)測(cè),但數(shù)據(jù)量大時(shí)收斂速度慢、計(jì)算繁瑣,效果不佳。
近年來(lái),機(jī)器學(xué)習(xí)算法在缺失數(shù)據(jù)預(yù)測(cè)插補(bǔ)中也得到了應(yīng)用[11]。K近鄰(K-nearest neighbor,KNN)插補(bǔ)法[12],將最鄰近的k個(gè)樣本觀測(cè)值的加權(quán)平均值作為缺失數(shù)據(jù)的估計(jì)值,其插補(bǔ)效果易受異常值的影響,產(chǎn)生誤差較大;支持向量機(jī)[13]將完整數(shù)據(jù)集作為訓(xùn)練集,獲得預(yù)測(cè)模型后插補(bǔ)缺失數(shù)據(jù),大樣本情況下的插補(bǔ)精確度高;隨機(jī)森林[14]利用bootstrap抽取k個(gè)樣本集,組成k個(gè)決策樹(shù),利用全部決策樹(shù)構(gòu)建的隨機(jī)森林插補(bǔ)缺失值;神經(jīng)網(wǎng)絡(luò)[15]將誤差反向傳播來(lái)訓(xùn)練多層網(wǎng)絡(luò),通過(guò)優(yōu)化網(wǎng)絡(luò)輸出不斷減小誤差,在隨機(jī)缺失數(shù)據(jù)插補(bǔ)中應(yīng)用廣泛。機(jī)器學(xué)習(xí)算法在處理數(shù)據(jù)缺失問(wèn)題時(shí)速度快、泛化能力強(qiáng),但由于訓(xùn)練數(shù)據(jù)對(duì)參數(shù)影響較大,插補(bǔ)能力還有待提高。此外,基于混合線(xiàn)性模型的缺失值插補(bǔ)方法[16-19]進(jìn)一步提高了表型缺失值插補(bǔ)能力。
與單性狀插補(bǔ)方法相比,多性狀聯(lián)合插補(bǔ)分析可以利用性狀之間的遺傳結(jié)構(gòu)[20],并對(duì)多個(gè)性狀缺失值同時(shí)進(jìn)行插補(bǔ),省時(shí)高效。多重插補(bǔ)法(multiple imputation by chained equations,MICE)[9],利用觀測(cè)數(shù)據(jù)進(jìn)行多變量回歸,以回歸的估計(jì)值插補(bǔ)缺失值,由于每個(gè)插補(bǔ)值都要進(jìn)行多重插補(bǔ)計(jì)算,插補(bǔ)時(shí)間較長(zhǎng);PHENIX(phenotype imputation expediated)插補(bǔ)法[21]建立在貝葉斯多表型混合模型上,在親緣關(guān)系已知的情況下利用變分貝葉斯方法進(jìn)行擬合;softImpute插補(bǔ)法[22]是一種利用核范數(shù)(或奇異值)正則化來(lái)插補(bǔ)矩陣缺失值的交替迭代算法,利用核范數(shù)定義損失函數(shù)并利用奇異值分解求解核范數(shù)使損失函數(shù)最小,精度高、速度快;多表型混合模型(multi-phenotype mixed models,MPMM)[16]是一種基于多個(gè)相關(guān)性狀的混合模型方法,利用其條件期望或最優(yōu)線(xiàn)性無(wú)偏預(yù)測(cè)對(duì)缺失的數(shù)據(jù)進(jìn)行插補(bǔ),具有精確度高的特點(diǎn)。多性狀基因組模型(multiple-trait genomic model,MTGM)[23]在單性狀模型的基礎(chǔ)上進(jìn)行拓展,可應(yīng)用于估計(jì)育種值的預(yù)測(cè)問(wèn)題。多性狀聯(lián)合插補(bǔ)方法是在利用變量之間關(guān)系的前提條件下對(duì)缺失值進(jìn)行預(yù)測(cè),結(jié)果往往比較準(zhǔn)確,通常會(huì)明顯優(yōu)于單變量插補(bǔ)方法[24]。多表型插補(bǔ)技術(shù)已經(jīng)成功應(yīng)用于人類(lèi)[20]、酵母、鼠、雞、小麥和大豆[25]等多個(gè)物種的缺失數(shù)據(jù)集上,有效提高了缺失數(shù)據(jù)的預(yù)測(cè)精度,進(jìn)而提升全基因組關(guān)聯(lián)分析的計(jì)算效率和準(zhǔn)確性。
表型缺失數(shù)據(jù)插補(bǔ)的準(zhǔn)確性受到缺失率、樣本量等因素的影響,上述方法尚未針對(duì)這些因素對(duì)插補(bǔ)效果進(jìn)行評(píng)判。本研究利用mean、KNN、決策樹(shù)(decision tree,DT)[26]、MICE、PHENIX和softImpute插補(bǔ)方法對(duì)多表型模擬缺失數(shù)據(jù)進(jìn)行預(yù)測(cè),以均方誤差(mean squared error,MSE)、皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,r)和計(jì)算時(shí)間為指標(biāo),比較在不同表型缺失率(phenotypic missing rate)、性狀數(shù)(D)、樣本量(n)和性狀相關(guān)性(cor)下的插補(bǔ)效果。使用6種方法對(duì)擬南芥實(shí)際數(shù)據(jù)的長(zhǎng)日照花期(days to flowering under long day)、短日照花期(days to flowering under short day)、春化長(zhǎng)日照花期(days to flowering under long day with vernalization)和春化短日照花期(days to flowering under short day with vernalization)的表型缺失值進(jìn)行多性狀聯(lián)合插補(bǔ),并對(duì)插補(bǔ)后的完整數(shù)據(jù)進(jìn)行全基因組關(guān)聯(lián)分析,通過(guò)基因功能驗(yàn)證插補(bǔ)數(shù)據(jù)的可靠性,查找出與目標(biāo)性狀關(guān)聯(lián)的已驗(yàn)證基因。
基于線(xiàn)性模型,生成等位基因頻率為[0.1,0.5]的10 000個(gè)單核苷酸多態(tài)性(single nucleotide polymorphism,SNP),隨機(jī)設(shè)置10個(gè)數(shù)量性狀核苷酸(quantitative trait nucleotide,QTN),其總遺傳率是60%,正態(tài)誤差方差設(shè)置為1.0。在此基礎(chǔ)上,設(shè)計(jì)了模擬試驗(yàn)(表1)。
表1 4個(gè)模擬研究設(shè)計(jì)
利用表型數(shù)據(jù)插補(bǔ)方法對(duì)上述缺失數(shù)據(jù)進(jìn)行預(yù)測(cè),使用MSE、r和計(jì)算時(shí)間等指標(biāo)對(duì)插補(bǔ)數(shù)據(jù)的準(zhǔn)確性進(jìn)行評(píng)判。
真實(shí)數(shù)據(jù)集[27]來(lái)自擬南芥自然群體的199個(gè)個(gè)體,216 130個(gè)SNP(http://www.arabidopsis.usc.edu/),考慮長(zhǎng)日照花期、短日照花期、春化長(zhǎng)日照花期和春化短日照花期4個(gè)花期相關(guān)性狀(https://www.arabidopsis.org/portals/genAnnotation/index.jsp),其表型缺失率分別為16.0%、18.6%、15.6%和 20.1%。利用mean、KNN、DT、MICE、PHENIX和softImpute插補(bǔ)方法對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè),并對(duì)插補(bǔ)后的完整數(shù)據(jù)集進(jìn)行全基因組關(guān)聯(lián)分析得到顯著SNP,利用TAIR基因庫(kù)(https://www.arabidopsis.org)驗(yàn)證位于顯著SNP附近20 kb的關(guān)聯(lián)基因,挖掘出與花期相關(guān)的已驗(yàn)證基因。
1)mean插補(bǔ)法[7]:用當(dāng)前變量的所有觀測(cè)值平均值代替其所有缺失值的方法。2)KNN插補(bǔ)法[12]:首先選出與缺失值距離最近的k個(gè)樣本觀測(cè)數(shù)據(jù),根據(jù)其距離加權(quán)計(jì)算出缺失數(shù)據(jù)的估計(jì)值,用該值來(lái)插補(bǔ)對(duì)應(yīng)的缺失值。KNN插補(bǔ)法基于R軟件程序包DMwR2實(shí)現(xiàn),k默認(rèn)設(shè)為10。3)DT[26]插補(bǔ)法:利用觀測(cè)數(shù)據(jù)集構(gòu)建基于回歸樹(shù)的DT模型,然后將含有缺失值的數(shù)據(jù)代入DT模型進(jìn)行插補(bǔ)。DT插補(bǔ)法基于R軟件程序包rpart實(shí)現(xiàn)。4)MICE插補(bǔ)法[9]:是一種重復(fù)計(jì)算缺失值的處理方法。它首先多次計(jì)算缺失值,并產(chǎn)生m個(gè)完整數(shù)據(jù)集;然后對(duì)這m個(gè)插補(bǔ)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,得到m個(gè)分析結(jié)果;最后綜合m個(gè)分析結(jié)果做出統(tǒng)計(jì)推斷,最終得到缺失值的最優(yōu)估計(jì)值。綜合起來(lái),其主要步驟可總結(jié)為:插補(bǔ)、分析、綜合。MICE插補(bǔ)法基于R軟件程序包mice實(shí)現(xiàn)。5)PHENIX插補(bǔ)法[21]:充分利用表型之間的相關(guān)性和親緣關(guān)系矩陣,基于貝葉斯多表型混合線(xiàn)性模型,利用變分貝葉斯方法對(duì)模型進(jìn)行擬合,根據(jù)觀測(cè)數(shù)據(jù)的后驗(yàn)多變量正態(tài)分布得到缺失數(shù)據(jù)的近似估計(jì)值。PHENIX插補(bǔ)法基于R軟件程序包phenix實(shí)現(xiàn)。6)softImpute 插補(bǔ)法[22]:將矩陣完備化問(wèn)題轉(zhuǎn)化為核范數(shù)最小二乘問(wèn)題,利用軟閾值奇異值估算矩陣的缺失值。該算法的計(jì)算原理類(lèi)似于EM算法,每一次迭代,首先通過(guò)對(duì)估計(jì)矩陣的核范數(shù)(或奇異值)的懲罰來(lái)估計(jì)低秩表型矩陣的近似矩陣,并利用估計(jì)值對(duì)缺失矩陣進(jìn)行插補(bǔ),然后利用軟閾值奇異值分解法,向目標(biāo)函數(shù)的最小值逼近,得到近似最優(yōu)解的集合,不斷迭代以對(duì)完整矩陣進(jìn)行不斷優(yōu)化。softImpute插補(bǔ)法基于R軟件程序包softImpute實(shí)現(xiàn)。
采用均方誤差MSE和皮爾遜相關(guān)系數(shù)r來(lái)衡量基于不同表型缺失率、性狀數(shù)、樣本量和性狀相關(guān)性的插補(bǔ)準(zhǔn)確性。MSE計(jì)算公式為:
(1)
(2)
利用mean、KNN、DT、MICE、PHENIX和softImpute插補(bǔ)方法對(duì)模擬缺失數(shù)據(jù)進(jìn)行預(yù)測(cè)。針對(duì)不同表型缺失率、性狀數(shù)、樣本量和性狀相關(guān)性,比較各個(gè)方法插補(bǔ)效果的影響。
模擬研究1(表1)考察缺失率分別為5%、10%和20%時(shí)缺失數(shù)據(jù)的插補(bǔ)效果。結(jié)果表明,隨著表型缺失率的增大,6種方法的MSE(圖1-A)不斷增大,r不斷減小(圖1-B),這意味著缺失值插補(bǔ)的準(zhǔn)確性隨著表型缺失率的增大而降低,這與事實(shí)相符。其中,PHENIX插補(bǔ)法準(zhǔn)確性最優(yōu),隨著缺失率的增大,該方法在插補(bǔ)準(zhǔn)確性上的優(yōu)勢(shì)變得越來(lái)越明顯,說(shuō)明PHENIX插補(bǔ)法更適用于高缺失率的情形。KNN和DT插補(bǔ)法的準(zhǔn)確性比PHENIX略微遜色,其次是softImpute和mean插補(bǔ)法,而MICE準(zhǔn)確性受表型缺失率的影響最明顯,尤其在高缺失率的情況下表現(xiàn)不佳。
圖1 不同表型缺失率下mean、KNN、決策樹(shù)(DT)、MICE、PHENIX和softImpute插補(bǔ)值與觀測(cè)值的均方誤差(A)和皮爾遜相關(guān)系數(shù)(B)(重復(fù)100次)
模擬研究2(表1)考察性狀數(shù)(D)為2、3、5和10時(shí)缺失數(shù)據(jù)的插補(bǔ)效果。mean插補(bǔ)法的效果不受性狀數(shù)的影響,其他5種方法隨性狀數(shù)的增大,MSE(圖2-A)不斷減小,r不斷增大(圖2-B),說(shuō)明上述多表型缺失數(shù)據(jù)插補(bǔ)方法均能夠利用多性狀之間的相關(guān)性和潛在信息,性狀數(shù)不斷增加,插補(bǔ)的準(zhǔn)確性不斷提高。其中,PHENIX的插補(bǔ)效果最優(yōu),其次是DT和KNN,softImpute的插補(bǔ)效果隨性狀數(shù)的增加逐漸優(yōu)化,這4種插補(bǔ)方法的效果均優(yōu)于mean和MICE插補(bǔ)法。
圖2 不同性狀數(shù)下mean、KNN、DT、MICE、PHENIX和softImpute插補(bǔ)值與觀測(cè)值的均方誤差(A)和皮爾遜相關(guān)系數(shù)(B)(重復(fù)100次)
模擬研究3(表1)考察樣本量(n)為500、1 000和2 000時(shí)缺失數(shù)據(jù)的插補(bǔ)效果。在相同表型缺失率(10%)下,樣本量的增大對(duì)于插補(bǔ)精確度沒(méi)有顯著影響,但是MSE和r的箱線(xiàn)圖方差變小(圖3),說(shuō)明樣本量越大,結(jié)果越穩(wěn)定。趨勢(shì)與上述模擬試驗(yàn)相似,依然是PHENIX插補(bǔ)法的效果最好,其次是KNN和DT插補(bǔ)法,這3種插補(bǔ)方法的效果均優(yōu)于softImpute、mean和MICE插補(bǔ)法。
圖3 不同樣本量下mean、KNN、DT、MICE、PHENIX和softImpute插補(bǔ)值與觀測(cè)值的均方誤差(A)和皮爾遜相關(guān)系數(shù)(B)(重復(fù)100次)
模擬試驗(yàn)4(表1)考察性狀相關(guān)性(cor)為0.1、0.3、0.5和0.8時(shí)缺失數(shù)據(jù)的插補(bǔ)效果。結(jié)果表明mean插補(bǔ)法的效果不受性狀之間相關(guān)性強(qiáng)弱的影響,而其他5種方法隨著性狀之間相關(guān)性的增加,MSE(圖4-A)不斷減小,r不斷增大(圖4-B)。這意味著性狀之間的相關(guān)性越強(qiáng),KNN、DT、MICE、PHENIX和softImpute方法越能夠利用相似的遺傳結(jié)構(gòu),插補(bǔ)效果越好。在弱相關(guān)的情況下,softImpute方法和KNN、DT、PHENIX插補(bǔ)法的效果相似,具有較高的準(zhǔn)確性,隨著性狀相關(guān)性的增大,softImpute插補(bǔ)準(zhǔn)確性與它們差距變大,上述方法的準(zhǔn)確性均優(yōu)于mean和MICE插補(bǔ)法。
圖4 不同性狀相關(guān)性下mean、KNN、DT、MICE、PHENIX和softImpute插補(bǔ)值與觀測(cè)值的均方誤差(A)和皮爾遜相關(guān)系數(shù)(B)(重復(fù)100次)
從模擬試驗(yàn)的計(jì)算時(shí)間(表2)可見(jiàn):mean和softImpute的計(jì)算速度最快,均小于2 s,隨后是KNN和DT插補(bǔ)法,計(jì)算時(shí)間為3~40 s,而MICE和PHENIX插補(bǔ)時(shí)間相對(duì)比較長(zhǎng)。由表2也可以看出:數(shù)據(jù)的表型缺失率和性狀相關(guān)性對(duì)所有方法的運(yùn)算時(shí)間影響均不顯著,而隨性狀數(shù)和樣本量的增大,運(yùn)算時(shí)間呈現(xiàn)顯著增加的趨勢(shì)。MICE插補(bǔ)法對(duì)于性狀數(shù)較為敏感,隨性狀數(shù)增加,MICE的計(jì)算時(shí)間呈現(xiàn)出指數(shù)級(jí)的增長(zhǎng);而PHENIX插補(bǔ)法對(duì)于樣本量較為敏感,計(jì)算時(shí)間與樣本量呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的關(guān)系。
表2 4種模擬研究100次模擬數(shù)據(jù)集的mean、KNN、DT、MICE、PHENIX和softImpute的計(jì)算時(shí)間
真實(shí)擬南芥數(shù)據(jù)包括199個(gè)個(gè)體、216 130個(gè)SNP,4個(gè)與花期相關(guān)的性狀(LD、SD、LDV和SDV),其表型缺失率分別為16.0%、18.6%、15.6%和20.1%,4個(gè)性狀之間具有較強(qiáng)的相關(guān)性,相關(guān)系數(shù)為0.65~0.85。
采用mean、KNN、DT、MICE、PHENIX和softImpute插補(bǔ)方法對(duì)真實(shí)數(shù)據(jù)進(jìn)行聯(lián)合插補(bǔ),并對(duì)插補(bǔ)后的數(shù)據(jù)進(jìn)行全基因組關(guān)聯(lián)分析。利用TAIR基因庫(kù)驗(yàn)證位于顯著SNP位點(diǎn)(Bonferroni校正)附近20 kb的關(guān)聯(lián)基因,挖掘出與花期相關(guān)的已驗(yàn)證基因。由圖5可以看出:PHENIX、DT和KNN檢測(cè)的已驗(yàn)證基因數(shù)最多,分別為22、18和18,并且共同檢測(cè)到超過(guò)17個(gè)已驗(yàn)證基因,說(shuō)明3種方法能夠利用擬南芥真實(shí)數(shù)據(jù)的復(fù)雜遺傳結(jié)構(gòu),得到更接近真實(shí)情況的插補(bǔ)值。mean檢測(cè)的已驗(yàn)證基因數(shù)為14,并且與其他方法共同檢測(cè)的基因較多,softImpute和MICE檢測(cè)的已驗(yàn)證基因數(shù)較少,分別為7和2。
圖5 利用mean、KNN、DT、MICE、PHENIX和softImpute插補(bǔ)數(shù)據(jù)和觀測(cè)數(shù)據(jù)檢測(cè)以及共同檢測(cè)的已驗(yàn)證基因數(shù)
6種插補(bǔ)方法中,mean、KNN、DT和softImpute插補(bǔ)法的計(jì)算時(shí)間在同一個(gè)數(shù)量級(jí)上,均小于0.1 s,PHENIX插補(bǔ)法計(jì)算時(shí)間略長(zhǎng),約0.4 s,而MICE插補(bǔ)法長(zhǎng)于其他5種方法,為3.6 s,這與模擬數(shù)據(jù)的計(jì)算時(shí)間一致。由分析結(jié)果、檢測(cè)準(zhǔn)確性和運(yùn)算時(shí)間等指標(biāo)可以看出,PHENIX、DT和KNN多性狀聯(lián)合分析插補(bǔ)法可以充分利用性狀之間的相關(guān)性,插補(bǔ)效果優(yōu)于其余方法,并適宜在真實(shí)數(shù)據(jù)分析中進(jìn)行表型缺失的插補(bǔ)。
表型數(shù)據(jù)插補(bǔ)能夠利用現(xiàn)有觀測(cè)數(shù)據(jù)信息,預(yù)測(cè)缺失值以產(chǎn)生完整數(shù)據(jù),避免直接刪除數(shù)據(jù)帶來(lái)的信息損失,增大樣本量,提高后續(xù)研究的準(zhǔn)確性。因此,本研究對(duì)擬南芥實(shí)際數(shù)據(jù)中表型數(shù)據(jù)插補(bǔ)前、后的結(jié)果進(jìn)行比較,利用關(guān)聯(lián)分析檢測(cè)到的顯著SNP進(jìn)行已驗(yàn)證基因篩選,原始觀測(cè)數(shù)據(jù)篩選的已驗(yàn)證基因數(shù)為15,少于PHENIX、KNN和DT方法,比mean、softImpute和MICE方法檢測(cè)到的已驗(yàn)證基因數(shù)多(圖5)。這進(jìn)一步說(shuō)明了PHENIX、DT和KNN插補(bǔ)方法得到的缺失數(shù)據(jù)估計(jì)值更加準(zhǔn)確、更接近真實(shí)值,因此,其關(guān)聯(lián)分析結(jié)果功效更高、檢測(cè)的已驗(yàn)證基因數(shù)更多,而mean、softImpute和MICE方法的結(jié)果不能令人滿(mǎn)意。
數(shù)據(jù)缺失是進(jìn)行全基因組關(guān)聯(lián)分析時(shí)普遍存在且難以避免的問(wèn)題,不但增大了統(tǒng)計(jì)分析難度,而且還會(huì)造成分析結(jié)果的偏倚,使結(jié)果無(wú)法準(zhǔn)確反映總體的真實(shí)特征,甚至得出錯(cuò)誤的分析結(jié)果。對(duì)于不同類(lèi)型的缺失數(shù)據(jù),選擇合適的預(yù)測(cè)方法能夠?yàn)楹罄m(xù)分析結(jié)果的準(zhǔn)確性和可靠性奠定基礎(chǔ)。因此,比較不同插補(bǔ)方法處理不同缺失樣本的效果具有重要意義。
本研究針對(duì)不同研究目的生成4組模擬數(shù)據(jù)集,采用mean、KNN、DT、MICE、PHENIX和softImpute插補(bǔ)方法,分析多性狀的表型缺失率、性狀數(shù)、樣本量和性狀相關(guān)性對(duì)表型插補(bǔ)準(zhǔn)確性的影響。模擬研究結(jié)果顯示,在不同的試驗(yàn)中PHENIX、KNN和DT的插補(bǔ)效果較好,具有較小的MSE和較高的r;其次是softImpute插補(bǔ)方法;而mean插補(bǔ)法僅僅利用了表型的平均值,降低了表型的變異程度,表現(xiàn)不佳;MICE插補(bǔ)法的MSE最大、r最小,其結(jié)果不能令人滿(mǎn)意。同時(shí),利用6種插補(bǔ)方法對(duì)實(shí)際缺失數(shù)據(jù)進(jìn)行多性狀聯(lián)合插補(bǔ),并通過(guò)全基因組關(guān)聯(lián)分析方法驗(yàn)證了插補(bǔ)方法的可靠性。結(jié)果顯示多性狀聯(lián)合插補(bǔ)方法PHENIX、KNN和DT可以利用性狀之間的遺傳結(jié)構(gòu),檢測(cè)到的已驗(yàn)證基因數(shù)最多,并且它們共同檢測(cè)到的基因較多。
從計(jì)算時(shí)間的角度來(lái)看,mean、KNN、DT和softImpute插補(bǔ)法在模擬分析和實(shí)際數(shù)據(jù)分析時(shí)均比較快,MICE和PHENIX插補(bǔ)法的計(jì)算時(shí)間相對(duì)較長(zhǎng),MICE插補(bǔ)法的計(jì)算時(shí)間受性狀數(shù)的影響比較大,而PHENIX插補(bǔ)法受樣本量的影響比較大。
不同的缺失數(shù)據(jù)處理方法有不同的特點(diǎn),進(jìn)行插補(bǔ)方法選擇時(shí),應(yīng)盡量全面了解數(shù)據(jù)的背景和特征,盡可能利用各種輔助信息來(lái)進(jìn)行缺失值的預(yù)測(cè)插補(bǔ),如性狀之間的相關(guān)性等,有利于提高缺失數(shù)據(jù)的插補(bǔ)準(zhǔn)確性。