宋志芳,解佑志,蘆春蓮,李 賽,曹洪戰(zhàn)*
(1.河北農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院,河北 保定 071000;2. 河北正農(nóng)牧業(yè)有限公司,河北 辛集 052360)
主成分分析在動(dòng)物科學(xué)的應(yīng)用研究進(jìn)展
宋志芳1,解佑志1,蘆春蓮1,李 賽2,曹洪戰(zhàn)1*
(1.河北農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院,河北 保定 071000;2. 河北正農(nóng)牧業(yè)有限公司,河北 辛集 052360)
主成分分析(PCA)采取降維思想,同時(shí)保持?jǐn)?shù)據(jù)對(duì)方差貢獻(xiàn)最大的特征,在畜牧生產(chǎn)上用于研究影響性狀的變量,既簡(jiǎn)化變量個(gè)數(shù),又獲取足量信息,降低課題研究的復(fù)雜性.在全基因組關(guān)聯(lián)分析(GWAS)中,PCA可用于校正群體分層,降低群體分層對(duì)關(guān)聯(lián)結(jié)果的假陽(yáng)性,通過(guò)PCA圖可以看出研究群體是否有分層現(xiàn)象.本文主要對(duì)PCA的原理、分析軟件以及在畜牧生產(chǎn)和GWAS中的應(yīng)用加以綜述.
主成分分析;群體分層;降維;假陽(yáng)性;GWAS
繁殖性狀、體型性狀、生長(zhǎng)性狀和屠宰性狀等是畜禽生產(chǎn)中較重要的經(jīng)濟(jì)性狀,也是品種選育的目標(biāo)性狀.每個(gè)性狀都有很多衡量變量,分析變量數(shù)量多會(huì)增加分析難度.如果采用主成分分析(PCA)法,可得到主成分1~10的特征值、貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,挑選累計(jì)貢獻(xiàn)率達(dá)到85%以上的主成分,最后找出特征向量最大的性狀變量[1].PCA是基于多元統(tǒng)計(jì)分析原理的一種統(tǒng)計(jì)方法,對(duì)某性狀的多個(gè)變量進(jìn)行研究,根據(jù)性狀間的相關(guān)性,找出能反映主要信息的少數(shù)幾個(gè)互相獨(dú)立的綜合性狀[2-4].PCA在畜牧業(yè)中廣泛應(yīng)用,已經(jīng)成為研究畜禽品種的分類、起源和進(jìn)化、選育以及進(jìn)行各種生產(chǎn)性能變量分類的重要手段[5-7].通過(guò)找出某性狀具有代表性的變量,納入綜合選擇指數(shù),為性狀改良和品種選育提供參考,提高育種效率.在全基因組關(guān)聯(lián)分析(GWAS)研究中,如果群體存在分層現(xiàn)象,就會(huì)降低關(guān)聯(lián)分析的假陽(yáng)性,影響關(guān)聯(lián)分析效果.因此,需要對(duì)群體分層進(jìn)行校正.采用PCA法并將其作為協(xié)變量納入線性模型中進(jìn)行群體分層校正,在GWAS中得到應(yīng)用.總之,PCA在畜禽育種和關(guān)聯(lián)分析過(guò)程中具有一定的作用和研究意義.
PCA又稱主成分回歸分析或主分量分析,在統(tǒng)計(jì)學(xué)中采用降維思想,將多變量轉(zhuǎn)化為少數(shù)幾個(gè)綜合變量,能夠簡(jiǎn)化數(shù)據(jù)集,在多元統(tǒng)計(jì)分析中是一種重要的統(tǒng)計(jì)方法,選出主成分以有效利用大量數(shù)據(jù)并降低工作量.所謂主成分就是通過(guò)原始變量的線性組合形成的數(shù)個(gè)綜合指標(biāo).
在研究某一問(wèn)題時(shí),為了獲取更全面和更詳細(xì)的信息,通常會(huì)選取多個(gè)變量進(jìn)行說(shuō)明[8],但如果選取變量過(guò)多加之變量之間的信息重疊,會(huì)增加研究工作的復(fù)雜度和工作量.因此,通過(guò)原始變量之間的線性關(guān)系,少數(shù)幾個(gè)線性組合代替原始變量,且能解釋大部分變量信息.PCA的結(jié)果依靠分析數(shù)據(jù)的準(zhǔn)確性,因此要求原始數(shù)據(jù)精準(zhǔn).主成分與原始變量的基本關(guān)系:①利用PCA得到的主成分都是原始變量的線性組合;②主成分?jǐn)?shù)量較原始變量數(shù)量大大減少;③各主成分之間互不相關(guān);④主成分能夠保留原始變量的絕大部分信息.
PCA可廣泛用于自然科學(xué)、醫(yī)學(xué)、社會(huì)經(jīng)濟(jì)和管理等多個(gè)領(lǐng)域.PCA的分析步驟:①根據(jù)研究問(wèn)題選取初始分析變量,應(yīng)充分考慮所選原始變量是否合適;②根據(jù)初始變量的特性選擇求主成分的方法(協(xié)方差陣或相關(guān)陣);③求出矩陣的特征根和相應(yīng)的特征向量;④判斷是否存在多重共線性,如果存在,返回第①步;⑤確定主成分的個(gè)數(shù),選取主成分;⑥結(jié)合主成分對(duì)研究問(wèn)題進(jìn)行深入分析和討論[9].基于PCA的分析原理和步驟,研發(fā)了相關(guān)的分析軟件.
2.1.1 SPSS軟件 SPSS軟件提供了進(jìn)行PCA的功能模塊-Factor,導(dǎo)入相關(guān)數(shù)據(jù)后進(jìn)行因子分析,分析結(jié)果會(huì)顯示各主成分解釋原始變量總方差的情況,且SPSS會(huì)默認(rèn)保留特征根大于1的主成分,且默認(rèn)利用相關(guān)陣求解主成分.事實(shí)上,可認(rèn)為選擇主成分的個(gè)數(shù)并改變特征根值.選取主成分后,還要確定主成分是否能對(duì)分析問(wèn)題有一個(gè)的合理解釋.還可繪制主成分分析圖,直觀展示分析結(jié)果.
2.1.2 R軟件 選取初始分析變量后,可以用R語(yǔ)言進(jìn)行PCA分析,分別用cor、eigen和plot函數(shù)求出相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值和特征向量以及各主成分的方差變化折線圖(碎石圖),然后繪制基于第一主成分和第二主成分的觀測(cè)樣本散點(diǎn)圖,分析2個(gè)主成分間的線性關(guān)系.此外,R語(yǔ)言還包括分析PCA的princomp函數(shù),一般書(shū)寫(xiě)格式為princomp(x=數(shù)據(jù)框或矩陣名稱,cor=TRUE).導(dǎo)入數(shù)據(jù)并運(yùn)行該函數(shù)后,會(huì)得到主成分系數(shù)矩陣和各觀測(cè)樣本在各主成分的得分等.除此之外,運(yùn)用R語(yǔ)言環(huán)境下的SNP Relate和gdsfmt軟件包也能進(jìn)行SNP芯片數(shù)據(jù)的主成分分析,進(jìn)行PCA聚類和繪圖.
2.1.3 全基因組復(fù)雜性狀分析軟件 全基因組復(fù)雜形狀分析(GCTA)軟件具有多種分析功能,如估計(jì)全基因組SNP數(shù)據(jù)的親緣關(guān)系、近交系數(shù)和估計(jì)各染色體所解釋的方差等.利用GCTA軟件可以進(jìn)行基于SNP芯片數(shù)據(jù)的PCA.首先將SNP原始數(shù)據(jù)轉(zhuǎn)化為plink的二進(jìn)制格式文件,利用GCTA編程進(jìn)行主成分分析,可以設(shè)置主成分個(gè)數(shù),最后得到.eigenval和.eigenvec文件.在后者的首行加上相應(yīng)的表頭,生成R作圖用的矩陣文件,將其導(dǎo)入R中,進(jìn)行繪圖.分別把主成分1和主成分2當(dāng)做x軸和y軸,繪制PCA圖.如研究樣本有不同的群體或家系,可用不同顏色加以區(qū)分.
2.2 SAS軟件 SAS是1966年開(kāi)發(fā)的一款統(tǒng)計(jì)分析軟件,具有數(shù)據(jù)儲(chǔ)存和管理、數(shù)據(jù)分析和圖形處理等多個(gè)功能模塊,其中也能進(jìn)行主成分分析.首先用data命令導(dǎo)入數(shù)據(jù),用input name$選擇分析的變量,接著運(yùn)行proc princomp變量列表、var 變量列表、run、proc print data 變量列表、var 輸出變量、run,就可得到相關(guān)陣的特征值和特征向量.根據(jù)輸出特征值,能看出前幾個(gè)主成分的貢獻(xiàn)率,然后可進(jìn)行聚類分析,得到譜系聚類圖.SAS的功能強(qiáng)大、操作簡(jiǎn)單且靈活、能隨時(shí)獲得幫助信息,得到簡(jiǎn)明的操作指導(dǎo).
2.3 EXCEL軟件 EXCEL是另一款進(jìn)行PCA和繪制PCA圖的可選軟件.將SNP數(shù)據(jù)用GCTA軟件進(jìn)行PCA的計(jì)算,可在EXCEL軟件中進(jìn)行PCA圖的繪制.首先用EXCEL打開(kāi)主成分文件,文件表頭分別是樣品名、PC1、PC2、PC3.繪制前先對(duì)數(shù)據(jù)進(jìn)行整理,排序樣品名稱(使同一個(gè)群體的樣本在一起).分群體分步選擇數(shù)據(jù)后,繪制PCA圖.按步驟繪制PCA圖后,也可對(duì)圖形進(jìn)行坐標(biāo)軸和顏色的調(diào)整.
3.1 PCA在畜禽生產(chǎn)上的研究 雖然研究人員往往對(duì)通過(guò)多個(gè)性狀來(lái)研究進(jìn)化模式和過(guò)程很感興趣,但是目前的數(shù)量模型方法都是針對(duì)單變量的.常用PCA來(lái)減少多維數(shù)據(jù)的維數(shù),使單變量性狀模型可以適用于單個(gè)主成分[10].已經(jīng)有很多關(guān)于PCA在動(dòng)植物性狀方面的應(yīng)用,為動(dòng)植物的選育提供參考.我國(guó)擁有豐富的地方畜禽品種資源,且性狀優(yōu)良.與某性狀相關(guān)的指標(biāo)很多,如果收集性狀指標(biāo)信息,進(jìn)行PCA,找到與性狀相關(guān)的且具代表性的指標(biāo),可為品種的選育提供參考和依據(jù).張力等[11]運(yùn)用PCA方法分析了長(zhǎng)白母豬的11個(gè)繁殖性狀,確定了斷奶窩重、初生個(gè)體重、育成率和乳頭數(shù)4個(gè)能反映長(zhǎng)白母豬繁殖性狀主要信息的選育目標(biāo).楊慧等[12]進(jìn)行了金定鴨胸寬、胸深等體型性狀的PCA,將10個(gè)性狀指標(biāo)簡(jiǎn)化成了3個(gè)主成分并選取體重、胸深、骨盆寬、脛圍和頸長(zhǎng)作為代表性的指標(biāo),明確了金定鴨的體型特征.程郁昕等[13]對(duì)120頭AA肉雞活重、屠宰重和胸肌重等7個(gè)屠宰性狀進(jìn)行PCA分析,提取了3個(gè)主成分(分別為屠宰因子、胸肌因子和瘦肉因子),很好地解釋了屠宰性狀的指標(biāo)信息.綜上所述,PCA在畜禽生產(chǎn)中能夠大大降低性狀分析的變量,提取少數(shù)幾個(gè)能反映性狀信息的變量,為畜禽育種工作提供依據(jù),也減少了今后選育性狀的測(cè)量指標(biāo).但目前還沒(méi)發(fā)現(xiàn)PCA在實(shí)際生產(chǎn)應(yīng)用中的效果,還需進(jìn)一步研究、探討和驗(yàn)證PCA在實(shí)際畜禽生產(chǎn)中的作用.
3.2 PCA 在GWAS上的應(yīng)用研究 SNP基因芯片的發(fā)展使得廣泛利用GWAS方法分析性狀與SNP信息的關(guān)聯(lián)成為可能,加之基因測(cè)序和重測(cè)序成本的降低,也使得群體分析應(yīng)用廣泛.在GWAS分析中,PCA的結(jié)果能作為協(xié)變量用于校正群體分層給關(guān)聯(lián)分析帶來(lái)的假陽(yáng)性.可以將PCA結(jié)果的主成分1和主成分2作為x軸和y軸繪制PCA散點(diǎn)圖,每個(gè)點(diǎn)代表1個(gè)樣本.通過(guò)散點(diǎn)圖能夠看出樣本的遺傳背景,如果2個(gè)樣本遺傳背景相似,就會(huì)聚集在一起,將整體樣本分成幾個(gè)亞群[14].如果分析的樣本全部來(lái)自同一品種,PCA能夠檢測(cè)離群樣本,在GWAS分析時(shí)將個(gè)別離群樣本剔除.如果大量樣本混淆(群體分層),則需要將PCA結(jié)果作為關(guān)聯(lián)分析的協(xié)變量,提高關(guān)聯(lián)分析結(jié)果的準(zhǔn)確性,即先鑒定代表基于個(gè)體之間遺傳關(guān)聯(lián)的群體結(jié)構(gòu),再將主成分當(dāng)做協(xié)變量用到線性模型中.除了檢測(cè)離群樣本外,還能夠推斷各亞群間的進(jìn)化關(guān)系.大量文獻(xiàn)顯示,群體校正后,用Q-Q Plot圖來(lái)展示校正前后GWAS結(jié)果的分布,確定群體分層校正對(duì)關(guān)聯(lián)分析結(jié)果的有效性.除了應(yīng)用動(dòng)植物性狀外,GWAS在復(fù)雜疾病基因定位和基因組研究方面也有廣泛應(yīng)用[15],且群體分層現(xiàn)象易被忽視.實(shí)際上,PCA可以應(yīng)用于成千上萬(wàn)個(gè)位點(diǎn),從基因數(shù)據(jù)中提取前幾個(gè)主成分,用于群體的校正,對(duì)GWAS分析中的群體結(jié)構(gòu)檢測(cè)和群體分層校正具有很大的作用,成為生物科學(xué)和醫(yī)學(xué)的重要分析工具[16].Price等[17]將PCA應(yīng)用于GWAS,利用PCA分析基因型數(shù)據(jù)的特征值和特征向量,最后關(guān)聯(lián)分析校正后的基因型和表型.奚玉蓮[18]在利用77k基因芯片對(duì)秦川牛的多脊椎性狀進(jìn)行GWAS中,進(jìn)行了PCA和祖先估計(jì),以揭示秦川牛的遺傳變異;郭家中[19]在進(jìn)行奶牛重要經(jīng)濟(jì)性狀的GWAS中采用PCA和簡(jiǎn)單線性回歸模型分析樣本群體混雜因素,以降低對(duì)關(guān)聯(lián)分析結(jié)果的干擾;阿地力江.卡德?tīng)朳20]在研究德保矮馬矮小性狀相關(guān)候選基因中,利用PCA和遺傳結(jié)構(gòu)分析進(jìn)行品種系統(tǒng)關(guān)系發(fā)生和遺傳結(jié)構(gòu).除了PCA,基因組控制法(GC)、多維標(biāo)度分析(MDS)、混合線性模型和分層分析法也能檢測(cè)分析樣本的群體結(jié)構(gòu)并校正群體分層.
3.3 PCA在生物信息學(xué)上的應(yīng)用 計(jì)算機(jī)技術(shù)的快速發(fā)展帶來(lái)了多維數(shù)據(jù)信息,使得人們很難獲取相關(guān)信息,采用化學(xué)模式識(shí)別方法能夠根據(jù)樣品的某種性質(zhì)進(jìn)行分類和特征選取,在生物信息學(xué)中得到了廣泛應(yīng)用.PCA是化學(xué)模式識(shí)別方法之一,用于分類和聚類.Chapman等[21]在植物病理實(shí)驗(yàn)中應(yīng)用了PCA的雙投影圖,表明PCA結(jié)合實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn)基因和比較陣列數(shù)據(jù)的分子序列譜.張瑞杰等[22]研究了在基因表達(dá)譜數(shù)據(jù)分析中,利用PCA結(jié)合層次聚類法和K-均值聚類法對(duì)組織樣品的分類效果,表明PCA能提高聚類質(zhì)量.在基因表達(dá)譜研究中,涉及多個(gè)基因且基因間存在相關(guān)性,為了便于研究,通常使用PCA簡(jiǎn)化變量.比如最終可用數(shù)個(gè)基因解釋原來(lái)成千個(gè)基因所解釋的90%的信息,然后解釋數(shù)個(gè)基因的生物學(xué)意義.對(duì)于基因芯片數(shù)據(jù),可用PCA對(duì)多變量數(shù)據(jù)矩陣進(jìn)行簡(jiǎn)化,有助于簡(jiǎn)化分析和多維數(shù)據(jù)的可視化,但可能會(huì)丟失一部分有用信息.在實(shí)際生物信息學(xué)分析中,要根據(jù)實(shí)際情況考慮是否使用PCA.總之,PCA能從基因芯片中篩選有效數(shù)據(jù),是生物信息學(xué)分析中常用的統(tǒng)計(jì)分析方法.
3.4 PCA最新分析方法的研究進(jìn)展 傳統(tǒng)的PCA分析方法是通過(guò)對(duì)原始數(shù)據(jù)的協(xié)方差矩陣進(jìn)行奇異值分解來(lái)分析問(wèn)題,使得分析結(jié)果受原始數(shù)據(jù)的方法影響較大,過(guò)于突出方差較大的信息.馬士國(guó)等[23]提出了一種新的PCA分析思路--從相關(guān)函數(shù)矩陣入手,能彌補(bǔ)傳統(tǒng)分析方法的不足.在不同的應(yīng)用領(lǐng)域,對(duì)PCA進(jìn)行改進(jìn).如姜健[24]針對(duì)飛行實(shí)驗(yàn)對(duì)高效異常診斷手段的迫切需求,采用分段線性思想改進(jìn)PCA,進(jìn)而改善了診斷模型參數(shù)估計(jì)的精度.PCA還可應(yīng)用于工業(yè)生產(chǎn)過(guò)程監(jiān)測(cè),但無(wú)法衡量變量間非線性依賴程度,王中偉等[25]提出了一種基于對(duì)數(shù)變換和最大信息系數(shù)PCA的的過(guò)程檢測(cè)方法,且該方法有效可行.為更好地分析某一特定問(wèn)題,可對(duì)PCA進(jìn)行改進(jìn)或與其他分析方法相結(jié)合,提高分析結(jié)果的有效性.
PCA在畜禽生產(chǎn)和GWAS研究中都得到了廣泛應(yīng)用,隨著基因測(cè)序技術(shù)和SNP基因分型技術(shù)的發(fā)展和畜禽選育工作的需要,PCA還會(huì)得到大量應(yīng)用.因?yàn)檠芯空哧P(guān)注疾病或性狀與SNP位點(diǎn)的關(guān)聯(lián),而群體分層又是影響關(guān)聯(lián)效果的一個(gè)因素.PCA法在應(yīng)用時(shí)也存在一定的局限性,如一般只提取前2個(gè)主成分,而忽略了其他主成分對(duì)群體分層的效果以及高維數(shù)據(jù)中低頻變異關(guān)聯(lián)研究中的人群分層問(wèn)題還沒(méi)有定論.因此必須繼續(xù)研究和探索PCA,尤其是在GWAS分析中能夠有效檢測(cè)和控制群體結(jié)構(gòu).
[1] 趙燕, 何俊, 金俊杰, 等. 馬站紅雞生長(zhǎng)與繁殖性狀的主成分分析[J]. 江蘇農(nóng)業(yè)科學(xué), 2017, 45(5): 153‐156.
[2] 斐鑫德. 多元統(tǒng)計(jì)分析及其應(yīng)用[M ]. 北京: 北京農(nóng)業(yè)大學(xué)出版社, 1991: 196‐212.
[3] 周以飛, 黃華康. 作物品種試驗(yàn)與統(tǒng)計(jì)分析[M ]. 福州: 福建科學(xué)技術(shù)出版社, 2003: 305‐312.
[4] 魯生霞. 聚類分析及其在家畜遺傳育種中的應(yīng)用[J]. 畜禽業(yè) , 2003, (10):6‐8.
[5] 張學(xué)余, 陳國(guó)宏, 程金花. 部分地方雞品種體量及生態(tài)特征的多元統(tǒng)計(jì)分析[J]. 云南農(nóng)業(yè)大學(xué)學(xué)報(bào), 2005, 20(4):486‐490.
[6] 張毅, 向釗, 楊飛云, 等. 聚類分析確定榮昌豬繁殖性狀選育變量[J]. 中國(guó)獸醫(yī)學(xué)報(bào), 2004, 24(4): 405‐406.
[7] 陳國(guó)順. 運(yùn)用聚類分析和主成分分析篩選豬的血清變量[J].甘肅農(nóng)業(yè)大學(xué)學(xué)報(bào), 2005, 40(6): 723‐727.
[8] 許淑娜, 李長(zhǎng)坡. 對(duì)主成分分析法三個(gè)問(wèn)題的剖析[J]. 數(shù)學(xué)理論與應(yīng)用, 2011, (4):116‐121.
[9] 何曉群. 多元統(tǒng)計(jì)分析(第四版)[M]. 北京: 中國(guó)人民大學(xué)出版社, 2015.
[10] Josef C U, Daniel S C, Matthew W P. Comparative analysis of principal components can be misleading[J]. Syst Biol,2015, 64(4): 677‐689.
[11] 張力, 肖天放. 運(yùn)用主成分分析與聚類分析確定豬繁殖性狀的選育指標(biāo)[J]. 中國(guó)農(nóng)學(xué)通報(bào), 2008, (8): 28‐31.
[12] 楊慧, 張力, 黃青雅, 等. 金定鴨體型性狀的主成分分析研究[J]. 中國(guó)農(nóng)學(xué)通報(bào), 2012, (17): 12‐16.
[13] 程郁昕, 王燕. AA肉雞屠宰性狀的主成分分析[J]. 畜牧與獸醫(yī) , 2013, (12): 61‐63.
[14] Zhao S C, Zheng P P, Dong S S, et al. Whole‐genome sequencing of giant pandas provides insights into demographichistory and local adaptation[J]. Nat Genet,2012, 45(1): 67‐71.
[15] Spencer C C, Su Z, Donnelly P, et al. Designing genome‐wide association studies: sample size, power, imputation,and the choice of genotyping chip[J]. PLoS Genet, 2009,(5): e1000477.
[16] Price A L, Zaitlen N A, Reich D, et al. New approaches to population stratification in genome‐wide association studies[J]. Nat Rev Genet, 2010, 11(7): 459‐463.
[17] Price A L, Patterson N J, Plenge R M, et al. Principal components analysis corrects for strafication in genome‐wide association studies[J]. Nat Genet, 2006, 38(8): 904‐909.
[18] 奚玉蓮. 秦川?;蚪M遺傳變異及其與脊椎數(shù)的關(guān)系研究[D]. 楊凌: 西北農(nóng)林科技大學(xué), 2016.
[19] 郭家中. 奶牛重要經(jīng)濟(jì)性狀的全基因組關(guān)聯(lián)分析[D]. 楊凌: 西北農(nóng)林科技大學(xué), 2013.
[20] 阿地力江.卡德?tīng)? 全基因組掃描篩選德保矮馬矮小性狀相關(guān)候選基因研究[D]. 北京: 中國(guó)農(nóng)業(yè)科學(xué)院, 2015.
[21] Chapman S, Schenk P, Kazan K, et al. Using biplots interpret gene expression pattern in plants[J].Bioinformatics, 2001, 18: 202‐204.
[22] 張瑞杰, 許杰, 王增權(quán), 等. 利用基因表達(dá)譜對(duì)組織樣品分類的方法的研究[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì), 2003, (20):2‐5.
[23] 馬士國(guó), 余桐奎, 王志偉. 改進(jìn)的主成分分析方法[J]. 艦船科學(xué)技術(shù), 2012, (10): 21‐23+80.
[24] 姜健. 基于改進(jìn)PCA算法的航空發(fā)動(dòng)機(jī)狀態(tài)診斷模型[J].燃?xì)鉁u輪試驗(yàn)與研究, 2017, (2): 32‐36.
[25] 王中偉, 宋宏, 李帥, 等. 基于對(duì)數(shù)變換和最大信息系數(shù)PCA的過(guò)程監(jiān)測(cè)[J]. 科學(xué)技術(shù)與工程, 2017, (16): 259‐265.
Research Progress on Principal Component Analysis in Animal Science
SONG Zhi‐fang1, XIE You‐zhi1, LU Chun‐lian1, LI Sai2, CAO Hong‐zhan1*
(1.College of Animal Science and Technology, Agricultural University of Hebei, Hebei Baoding 071000, China;2. Hebei Zhengnong Anima Husbandry Limited Company, Hebei Xinji 052360, China)
Principal component analysis (PCA) takes the idea of dimensionality reduction and also maintains the characteristics of the largest contribution data to the difference. In livestock production, PCA is used to study variables of traits and expected to simplify the number of variables as well as obtain sufficient information to reduce the complexity of research. In genome‐wide association analysis (GWAS), PCA can be used to correct population stratification and reduce the false positive results of population stratification for association results. The PCA diagram can be shown whether the study population is stratified. In this paper, the principle of PCA, analysis software and its application in livestock production and GWAS are reviewed.
Principal component analysis; Population stratification; Dimensionality reduction; False positive; GWAS
S81
A
10.19556/j.0258-7033.2017-11-021
2017-05-22;
2017-08-24
河北省科技計(jì)劃項(xiàng)目(15226301D)
宋志芳(1992-),女,山東菏澤人,碩士研究生,研究方向?yàn)閯?dòng)物遺傳育種,E-mail:18730285576@163.com
*通訊作者:曹洪戰(zhàn)(1970-),男,博士,教授,碩士、博士研究生導(dǎo)師,研究方向?yàn)轲B(yǎng)豬生產(chǎn)與動(dòng)物遺傳育種與繁殖,E-mail:chz516@126.com