千人基因組計劃(the 1000 Genomes Project)旨在建立可以幫助人們理解遺傳變異在疾病發(fā)生過程中作用的綜合資源,這些資料包含了人類遺傳變異的地域性和功能性的特征。該計劃收集了來自歐洲、東亞、撒哈拉以南非洲地區(qū)和美洲共14 個民族的1 092 名個體的基因組資料,構(gòu)成一個低覆蓋度全基因組和外顯子組測序的整合數(shù)據(jù)庫。通過開發(fā)新的方法對幾種算法和不同數(shù)據(jù)源的進行整合,成功地繪制出了有效的單倍型圖譜,其中包括3 800 萬個單核苷酸多態(tài)性(single nucleotide polymorphisms)位點、140 萬個短插入/短缺失(short insertions and deletions)以及超過1.4 萬個大片段缺失(larger deletions)。這些來自不同種族的個體擁有不同的罕見和常見變異體(rare and common variants),而且低頻率變異體(low-frequency variants)存在實質(zhì)上的地域差異,如對數(shù)據(jù)進行優(yōu)化篩選,這種傾向明顯增強。進化的保守性和編碼結(jié)果是優(yōu)化篩選強度的關(guān)鍵性決定因素。在相互聯(lián)系的多個生物通路中,罕見變異體的負(fù)荷確實發(fā)生著實質(zhì)性的改變,而且每一個體在保守位點上都含有數(shù)百個罕見的非編碼變異體(rare non-coding variants),例如在轉(zhuǎn)錄因子結(jié)合位點(transcription-factor-binding sites)上的基序斷裂改變(motif-disrupting changes)。以上這些整合性資源收集了相關(guān)民族98%以上、發(fā)生頻率為1%左右的單核苷酸多態(tài)性,可用于分析來自不同種族甚至混血個體的常見和低頻率的遺傳變異。