南-北方漢族人、韓國(guó)人和日本人遺傳劃分機(jī)器學(xué)習(xí)模型優(yōu)化方案

2022-11-29 09:20:14孔永強(qiáng)劉金凱顧佳琪徐景怡鄭雨諾魏以梁伍少遠(yuǎn)

遺傳 2022年11期

關(guān)鍵詞：模型

孔永強(qiáng)，劉金凱，顧佳琪，徐景怡，鄭雨諾，魏以梁，伍少遠(yuǎn),

研究報(bào)告

南-北方漢族人、韓國(guó)人和日本人遺傳劃分機(jī)器學(xué)習(xí)模型優(yōu)化方案

孔永強(qiáng)1，劉金凱1，顧佳琪2，徐景怡1，鄭雨諾2，魏以梁2，伍少遠(yuǎn)1,2

1. 天津醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院生物化學(xué)與分子生物學(xué)系，天津市表觀遺傳學(xué)重點(diǎn)實(shí)驗(yàn)室，天津 300070 2. 江蘇師范大學(xué)，江蘇省系統(tǒng)發(fā)育與比較基因組學(xué)重點(diǎn)實(shí)驗(yàn)室，徐州 221116

中國(guó)漢族人、韓國(guó)人和日本人作為東亞主體人群，其中中國(guó)漢族人呈現(xiàn)由北向南的梯度混合，在遺傳結(jié)構(gòu)上存在不同程度的差異。為實(shí)現(xiàn)對(duì)中國(guó)南-北方漢族人、韓國(guó)人和日本人的高分辨率遺傳劃分，本研究收集和分析了文獻(xiàn)報(bào)道和實(shí)驗(yàn)室前期數(shù)據(jù)篩選出的1185個(gè)東亞人群祖先信息性SNPs (ancestry informative SNPs, AISNPs)，應(yīng)用softmax與隨機(jī)森林兩種機(jī)器學(xué)習(xí)算法構(gòu)建族群遺傳劃分模型，然后利用系統(tǒng)發(fā)育樹、STRUCTURE和主成分分析方法進(jìn)一步評(píng)估不同模型AISNPs位點(diǎn)組合的族群分類效果，最終篩選出234-AISNP的最優(yōu)組合，softmax模型準(zhǔn)確率為92%，實(shí)現(xiàn)了南方漢族人、北方漢族人、韓國(guó)人和日本人的高精度區(qū)分。本研究測(cè)試的兩種機(jī)器學(xué)習(xí)算法模型為近距離人群的高分辨率劃分提供了重要參考，可作為法醫(yī)DNA族群推斷體系位點(diǎn)開發(fā)的重要工具。

法醫(yī)遺傳學(xué)；祖先信息位點(diǎn)；機(jī)器學(xué)習(xí)；東亞人群；南北方漢族

在法醫(yī)學(xué)案件偵破過(guò)程中，利用不同人群之間等位基因頻率分布差異較大的遺傳標(biāo)記，即祖先信息標(biāo)記(ancestry informative markers, AIMs)，進(jìn)行種族地域分析，可以縮小嫌疑人的偵查范圍[1]。由于單核苷酸多態(tài)性(single nucleotide polymorphism, SNP)在人類基因組中含量豐富，常用于計(jì)算和篩選AIMs，被稱為祖先信息性SNPs (ancestry informative SNPs, AISNPs)[2]。使用AISNP進(jìn)行的群體遺傳結(jié)構(gòu)差異分析在醫(yī)學(xué)全基因組關(guān)聯(lián)研究和法醫(yī)生物地理推斷中發(fā)揮著重要作用[3]。在過(guò)去10年中，國(guó)內(nèi)外已建立了多套常染色體AISNP檢測(cè)分析系統(tǒng)，用于區(qū)分洲際或洲內(nèi)的族群差異[4～7]。

目前基于DNA的種族地域推斷研究已經(jīng)從非、歐、東亞等洲際大人群的劃分發(fā)展到對(duì)各自局部地區(qū)亞人群的精細(xì)劃分[8,9]。中國(guó)漢族人、韓國(guó)人和日本人作為東亞主體人群，外形特征和語(yǔ)言文化極為相似，基因組研究表明這3個(gè)群體間的遺傳成分存在細(xì)微差異[9,10]。中國(guó)漢族作為世界上最大的族群，其早期人類社會(huì)活動(dòng)受到長(zhǎng)江地理分隔作用的影響，人群遺傳結(jié)構(gòu)呈現(xiàn)由北向南的梯度混合模式[11]。本研究基于國(guó)內(nèi)外對(duì)中國(guó)漢族、韓國(guó)和日本人群遺傳結(jié)構(gòu)研究的相關(guān)成果，集合了1185個(gè)AISNP[8～10,12～20]，采用機(jī)器學(xué)習(xí)算法篩選SNP組合和建立高精度人群劃分模型，以區(qū)分南-北方漢族人、韓國(guó)人和日本人。

1 材料與方法

1.1 樣本收集

參考及測(cè)試樣本數(shù)據(jù)為全基因組和芯片檢測(cè)數(shù)據(jù)。參考數(shù)據(jù)集403份樣本包括：來(lái)自千人基因組計(jì)劃[21]的105份中國(guó)南方漢族樣本、103份中國(guó)北京漢族樣本、104份日本樣本和來(lái)自韓國(guó)個(gè)人基因組計(jì)劃[22]的91份韓國(guó)人樣本(表1)。測(cè)試數(shù)據(jù)集199份樣本包括：來(lái)自千人基因組新增[23]的58份中國(guó)南方漢族樣本，來(lái)自人類基因組多樣性計(jì)劃[24]的10份中國(guó)北方漢族和27份日本樣本，來(lái)自西蒙斯基因組多樣性計(jì)劃[25]的2份日本樣本和2份韓國(guó)樣本，以及來(lái)自亞洲多樣性計(jì)劃[26](分型基于Affymetrix genome-wide human SNP array 6.0芯片)的100份韓國(guó)樣本(表2)。

表1 參考集樣本信息

表2 測(cè)試集樣本信息

1.2 SNP來(lái)源

前期研究和文獻(xiàn)調(diào)研，從12篇文獻(xiàn)[8～10,12～20]及實(shí)驗(yàn)室前期篩選數(shù)據(jù)[27,28]中收集到1185個(gè)AISNP (附表1)。文獻(xiàn)研究的人群、數(shù)目及來(lái)源見表3。

1.3 質(zhì)量控制

1.3.1 數(shù)據(jù)類型與處理

通過(guò)IBM Aspera v3.0.0[29]從IGSR數(shù)據(jù)庫(kù)[30](https://www.internationalgenome.org/data-portal/sample)和韓國(guó)個(gè)人基因組計(jì)劃[22](ftp://biodisk.org/Release/ KPGP/)下載了502份樣本的全基因組數(shù)據(jù)，并且從中國(guó)科學(xué)院上海生命科學(xué)研究院徐書華課題組[26]獲得了100份樣本的芯片位點(diǎn)數(shù)據(jù)。所有樣本的數(shù)據(jù)類型可分為fastq、cram與vcf格式。其中，參考和測(cè)試集中vcf格式數(shù)據(jù)是研究者分別通過(guò)GATK流程[22,30,31]和Birdsuite1.5.3[32]分析獲得的。而測(cè)試集樣本的fastq和cram格式數(shù)據(jù)是本課題組基于GATK4.1.9.0[33]流程進(jìn)行質(zhì)控、預(yù)處理和變異檢測(cè)，從而獲得不同數(shù)據(jù)庫(kù)不同人群的vcf格式數(shù)據(jù)。

1.3.2 數(shù)據(jù)的質(zhì)量控制

分別從參考及測(cè)試集樣本的若干個(gè)vcf中提取1185個(gè)AISNP的基因分型數(shù)據(jù)，先去除樣本基因分型缺失率大于10%的SNP，再去除SNP基因分型缺失率大于10%的樣本，最終參考集、測(cè)試集數(shù)據(jù)含1128個(gè)AISNP，602份樣本。

1.3.3 眾數(shù)填充

測(cè)序過(guò)程的失誤或其他原因會(huì)造成某些樣本的某些SNP的基因分型是缺失即NN的狀態(tài)，在共線性診斷及平均降準(zhǔn)(mean decrease accuracy, MDA)交叉驗(yàn)證之前需對(duì)這些缺失的基因分型用R v4.0.2的imputeMissings v0.03包[34]進(jìn)行眾數(shù)填充，即用單人群中該SNP出現(xiàn)頻率最多的基因分型填補(bǔ)。

1.4 基因分型及人群編碼

由于SPSS共線性診斷及R v4.0.2中的softmaxreg v1.2[35]和randomForest v4.6-14[36]兩個(gè)包要求變量為數(shù)值型形式，在眾數(shù)填充后需要對(duì)基因分型的純合和雜合按照0、1、2進(jìn)行編碼，人群則按照1-南方漢族、2-北方漢族、3-日本、4-韓國(guó)進(jìn)行編碼。

表3 AISNP收集與來(lái)源

1.5 系統(tǒng)發(fā)育樹構(gòu)建

利用R4.0.2中g(shù)gtree2.4.2包[37]以參考集、測(cè)試集樣本基因分型數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育樹。

1.6 Hardy-Weinberg平衡及連鎖不平衡分析

在進(jìn)行SPSS共線性診斷及MDA交叉驗(yàn)證挑選SNP和模型評(píng)估之前，先進(jìn)行Hardy-Weinberg平衡檢驗(yàn)(Hardy-Weinberg equilibrium, HWE)[38]和連鎖不平衡分析(linkage disequilibrium, LD)[39]，通過(guò)設(shè)置不同的HWE和LDr閾值篩選AISNP組合。借助haploview v4.2[40]進(jìn)行HWE和LD分析，其中HWE按照值(0～1)進(jìn)行排序挑點(diǎn)，分別以0.05、0.01和這兩個(gè)值的Bonferroni[41]校正值(0.05/1185、0.01/ 1185)為閾值；而LD按照r(0～1)，r為1說(shuō)明完全連鎖，分別以0.8、0.5、0.2、0.1為閾值。

1.7 AISNP篩選

不同人群之間產(chǎn)生的遺傳差異在很大程度上受到遺傳漂變的影響，這就使得群體間差異位點(diǎn)即AISNP的選擇顯得尤為重要。通常研究者基于頻率差異分析技術(shù)進(jìn)行AISNP的篩選，如Wright’sF值[42]和I值[43](informativeness for assignment, Rosenberg’sIdivergence)。Wright’sF值(0～1)和I值(0～1)都是群體遺傳學(xué)中衡量群體間分化程度的一個(gè)重要指標(biāo)，其大小反應(yīng)了每個(gè)AISNP的等位基因頻率在不同人群間的差異程度：

H為總?cè)后w的雜合度(total heterozygosity)；H為亞群體的平均雜合度(subpopulations heterozygo-sity)。

為人群，取值=1–；為等位基因，取值= 1–。SNP為雙等位基因，故=1–2。

此外，變量之間的高度相關(guān)性，即多重共線性，會(huì)嚴(yán)重干擾機(jī)器學(xué)習(xí)模型訓(xùn)練的精準(zhǔn)度，導(dǎo)致系數(shù)估計(jì)的標(biāo)準(zhǔn)誤急劇增加[44,45]。因此，使用SPSS v26共線性診斷[46]篩選SNP組合，可以改進(jìn)多元變量共線性問(wèn)題。

與此同時(shí)，MDA交叉驗(yàn)證是隨機(jī)森林[47]模型篩選SNP的方案，計(jì)算每個(gè)SNP的MDA值，并從大到小排序，將SNP逐一納入模型，通過(guò)參考集十折交叉驗(yàn)證計(jì)算模型誤差變化曲線，選擇誤差值最低點(diǎn)(±5)的SNP組合[27](圖1)。

1.8 模型的選擇

機(jī)器學(xué)習(xí)算法應(yīng)用于解決目標(biāo)對(duì)象的預(yù)測(cè)和分類問(wèn)題[48,49]，通常分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)等。目前常用的監(jiān)督學(xué)習(xí)類型[50]主要包括線性回歸[51]、邏輯回歸[52]、支持向量機(jī)(support vector machine, SVM)[53]、決策樹[54]、隨機(jī)森林[47]和Adaboost[55]算法等。線性回歸是用來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)方法，如最小二乘法[56]。邏輯回歸是一種廣義的線性回歸分析模型，借助Sigmoid函數(shù)將輸入的變量映射到(0～1)的區(qū)間，解決二分類問(wèn)題。而softmax函數(shù)[46]是Sigmoid函數(shù)在多分類問(wèn)題上的推廣，將多維的輸入變量映射成多維向量，而每個(gè)向量元素都在(0～1)之間。函數(shù)softmax是非常常用的邏輯回歸模型，建模速度較快，尤其是解決多分類問(wèn)題，易實(shí)現(xiàn)且計(jì)算量小、速度快。SVM主要用于解決小樣本的二分類和回歸問(wèn)題，其基本模型定義為特征空間上的間隔最大的線性分類器，尋找一個(gè)滿足分類要求的最優(yōu)分類超平面，使得該超平面在保證分類精度的同時(shí)，能夠使超平面兩側(cè)的空白區(qū)域最大化。但SVM算法也存在一些問(wèn)題，包括訓(xùn)練算法速度慢、算法復(fù)雜而難以實(shí)現(xiàn)、測(cè)試階段運(yùn)算量大、抗擊噪聲及孤立點(diǎn)能力差等。

圖1 AISNP的交叉驗(yàn)證錯(cuò)誤率

決策樹算法是一大類典型的分類方法，通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類，但容易忽略變量間的相互關(guān)聯(lián)并發(fā)生過(guò)擬合。而基于決策樹衍生出包括隨機(jī)森林、Adaboost、gradient boosting算法等。隨機(jī)森林是由很多無(wú)關(guān)聯(lián)的決策樹構(gòu)成的，能反饋高維度數(shù)據(jù)中的重要特征值，以及可以平衡誤差和糾正決策樹的過(guò)度擬合問(wèn)題。算法Adaboost是通過(guò)訓(xùn)練同一個(gè)訓(xùn)練集不同的分類器(弱分類器)，然后把這些弱分類器集合起來(lái)，構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。雖然Adaboost算法具有很高的精度，但是弱分類器數(shù)目不太好設(shè)定并且訓(xùn)練比較耗時(shí)，從而導(dǎo)致分類精度下降。Gradient boosting (如GBTD、XGboost)是一類基于梯度boosting的集成學(xué)習(xí)算法，其原理是通過(guò)弱分類器的迭代計(jì)算實(shí)現(xiàn)準(zhǔn)確的分類效果，多棵決策樹的所有結(jié)論累加起來(lái)作為最終的預(yù)測(cè)結(jié)果，可快速運(yùn)行大規(guī)模數(shù)據(jù)，而計(jì)算相對(duì)耗時(shí)。

最后，考慮到本研究是構(gòu)建人群多分類模型，樣本量與數(shù)據(jù)規(guī)模較小，因此在上述機(jī)器學(xué)習(xí)算法中分別選擇了最常用且適合小規(guī)模數(shù)據(jù)收斂的softmax回歸算法和決策樹方案的隨機(jī)森林算法。

1.9 模型構(gòu)建與評(píng)估

為了確保模型的穩(wěn)定性，在構(gòu)建模型時(shí)設(shè)置了隨機(jī)數(shù)(set.seed)[57]，并使用五次十折交叉驗(yàn)證方法[58](reateDataPartition函數(shù))。通過(guò)將數(shù)據(jù)集樣本分成10份，輪流將其中9份作為訓(xùn)練數(shù)據(jù)，1份作為測(cè)試數(shù)據(jù)，進(jìn)行試驗(yàn)，從而提升模型的準(zhǔn)確性。

softmax模型：利用R v4.0.2中的softmaxreg1.2的createDataPartition函數(shù)將參考集樣本按9:1分為訓(xùn)練集和測(cè)試集，根據(jù)trainModel函數(shù)并通過(guò)設(shè)置隱藏節(jié)點(diǎn)(hidden)和選擇適合的算法(algorithm)等構(gòu)建預(yù)測(cè)模型。最后根據(jù)預(yù)測(cè)結(jié)果中的準(zhǔn)確性和kappa系數(shù)選擇合適的AISNP組合。其中，SNP輸入數(shù)量為，隱藏層為+1，最大迭代次數(shù)Maxit為50。

隨機(jī)森林模型：是先根據(jù)R4.0.2中ran-domForest4.6-14的randomForest函數(shù)計(jì)算每個(gè)SNP的MDA (平均精度)，按MDA值從大到小排序從而確定SNP的顯著性。然后根據(jù)MDA值和十折交叉驗(yàn)證方法(createDataPartition函數(shù)和replicate函數(shù))得到SNP數(shù)與交叉驗(yàn)證錯(cuò)誤率之間的曲線圖(ggplot2包)。最后使用交叉錯(cuò)誤率最低的SNPs構(gòu)建預(yù)測(cè)模型(randomForest函數(shù))，同樣根據(jù)預(yù)測(cè)結(jié)果中的準(zhǔn)確性和kappa系數(shù)選擇合適的AISNP組合。

最終，將所有挑選出的若干AISNP組合依次用softmax和隨機(jī)森林模型進(jìn)行評(píng)估，通過(guò)比較準(zhǔn)確性、kappa系數(shù)、靈敏度和特異性等選擇目標(biāo)人群區(qū)分效果最佳的AISNP組合與機(jī)器學(xué)習(xí)模型。同時(shí)，使用DAA軟件[59]進(jìn)行主成分分析(principal component analysis, PCA)[60]和STRUCTURE[61]分析，基于SNP組合對(duì)目標(biāo)人群的聚類和祖先成分進(jìn)行比較評(píng)估。

2 結(jié)果與分析

2.1 234-AISNP組合的篩選與模型評(píng)估

通過(guò)頻率差異分析技術(shù)、共線性診斷和MDA交叉驗(yàn)證方法并以不同閾值的和r進(jìn)行AISNP的過(guò)濾和篩選，本研究得到了18組AISNPs組合。首先將這些AISNPs進(jìn)行合并去重，然后按0至1128的數(shù)目進(jìn)行梯度劃分，即通過(guò)R4.0.2的sample函數(shù)以100個(gè)位點(diǎn)間隔分別在0～100、101～200、…、1001～1128這11個(gè)梯度中隨機(jī)選擇。最后，使用這11個(gè)AISNPs組合在參考集中的基因分型數(shù)據(jù)來(lái)構(gòu)建softmax和隨機(jī)森林模型，并利用對(duì)應(yīng)AISNPs的測(cè)試集基因分型數(shù)據(jù)進(jìn)行南-北方漢族人、韓國(guó)人和日本人的分類預(yù)測(cè)。兩個(gè)模型的準(zhǔn)確率及其95%的置信區(qū)間、kappa系數(shù)等評(píng)價(jià)指數(shù)見表4。

通過(guò)觀察分析發(fā)現(xiàn)，兩個(gè)模型的準(zhǔn)確率隨著AISNP的增加呈非線性變化，但隨機(jī)森林模型的準(zhǔn)確率變化較為平穩(wěn)。其中，234-AISNP組合在softmax模型中表現(xiàn)最優(yōu)、準(zhǔn)確率為91.96%，735-AISNP組合在隨機(jī)森林模型中表現(xiàn)最優(yōu)、準(zhǔn)確率為94.47%。

同時(shí)，為了評(píng)估這11個(gè)AISNP組合在目標(biāo)人群中的區(qū)分效果，利用 DAA軟件進(jìn)行STRUCTURE和PCA分析(圖2，圖3)。結(jié)果發(fā)現(xiàn)，STRUCTURE結(jié)果K=4時(shí)，南-北方漢族人、韓國(guó)人和日本人的區(qū)分效果隨著SNP數(shù)的增加呈現(xiàn)清晰、模糊、清晰、模糊的變化。PCA結(jié)果顯示，隨著SNP數(shù)減少，4個(gè)人群的區(qū)分效果表現(xiàn)出混亂、分散、聚集的趨勢(shì)。234-AISNP組合和735-AISNP組合在這兩個(gè)方案中均達(dá)到了目標(biāo)人群高度區(qū)分的效果。

表4 在softmax和隨機(jī)森林模型中參考集與測(cè)試集的表現(xiàn)評(píng)估

紅色字體為兩組最優(yōu)位點(diǎn)組合。

圖2 11種AISNP組合的祖先成分分析結(jié)果

圖3 11種AISNP組合的PCA分析圖

最后，綜合比較234-AISNP組合和735-AISNP組合在兩種機(jī)器學(xué)習(xí)模型(softmax和隨機(jī)森林)、STRUCTURE和PCA分析中南-北方漢族人、韓國(guó)人和日本人的區(qū)分效果。結(jié)果表明，735-AISNP組合在隨機(jī)森林模型、STRUCTURE和PCA分析中均實(shí)現(xiàn)了4個(gè)人群的遺傳劃分，但是在softmax模型中沒(méi)有達(dá)到預(yù)期區(qū)分效果。盡管234-AISNP組合在隨機(jī)森林模型中的準(zhǔn)確率低于735-AISNP組合的準(zhǔn)確率，但234-AISNP組合在softmax模型中的準(zhǔn)確率是最高的，并且該組合在STRUCTURE和PCA分析中也實(shí)現(xiàn)了目標(biāo)人群的遺傳劃分，故234-AISNP組合的區(qū)分效果最好(表5)。

表5 234-AISNP組合的信息

續(xù)表

2.2 234-AISNP組合的人群聚類效果提升

為了進(jìn)一步評(píng)估234-AISNP組合在區(qū)分南-北方漢族人、韓國(guó)人和日本人的效果，基于1128和234個(gè)AISNP的基因分型，分別對(duì)403份參考集和199份測(cè)試集樣本進(jìn)行系統(tǒng)發(fā)育樹構(gòu)建(圖4，A和B)，結(jié)果顯示4個(gè)人群呈現(xiàn)一定區(qū)分度。

1128-AISNP組合的參考集結(jié)果表明(圖4A)，南北方漢族人存在部分個(gè)體混合，韓國(guó)人呈兩簇分布，與日本人和漢族人相鄰。測(cè)試集結(jié)果顯示，北方漢族人與南方漢族人、日本人交叉混合，少部分韓國(guó)人和日本人聚類。

234-AISNP組合的參考集結(jié)果表明(圖4B)，南-北方漢族人混合的個(gè)體數(shù)明顯減少，僅少數(shù)的韓國(guó)人與北方漢族人聚類，且日本人與韓國(guó)人聚類，無(wú)個(gè)體的混合。測(cè)試集結(jié)果顯示，北方漢族人的聚類效果得到提升，與少部分南方漢族人和日本人混合，雖然部分韓國(guó)人與日本人聚為一簇，但無(wú)混合。從整體來(lái)看，相比1128-AISNP組合，234-AISNP組合的聚類分析結(jié)果更優(yōu)。

3 討論

法醫(yī)DNA鑒定技術(shù)作為打擊犯罪的核心技術(shù)手段之一，為維護(hù)社會(huì)的治安穩(wěn)定發(fā)揮著關(guān)鍵性作用[62]。SNP族群推斷技術(shù)[63]作為對(duì)現(xiàn)有DNA比對(duì)技術(shù)的有力補(bǔ)充，通過(guò)更深層次解讀生物物證的遺傳信息，對(duì)DNA來(lái)源人的種族地域來(lái)源和外形體貌特征進(jìn)行遺傳推斷和刻畫，從而最大程度的發(fā)揮“生物證人”的作用，為案件偵破提供全新的線索，對(duì)判斷嫌疑人的種族來(lái)源、定義案件的性質(zhì)起到了至關(guān)重要的作用[63]。

本研究通過(guò)頻率差異分析技術(shù)、共線性診斷和MDA交叉驗(yàn)證方法，并結(jié)合HWE、LD篩選出了不同SNP組合，以測(cè)試兩種機(jī)器學(xué)習(xí)模型(邏輯回歸算法softmax模型和決策樹算法隨機(jī)森林模型)、STRUCTURE (貝葉斯聚類)、PCA (協(xié)方差)和系統(tǒng)發(fā)育樹(皮爾遜相關(guān)系數(shù))方法對(duì)南-北漢族、韓國(guó)和日本人群的分類效果。這些SNP組合在這些方案中都將4個(gè)人群不同程度的區(qū)分開，并且這4種方法對(duì)人群的區(qū)分或聚類效果是不同的。例如SNP數(shù)為234～534時(shí)，softmax模型準(zhǔn)確率均大于90%，但STRUCTURE和PCA分析的結(jié)果除234-AISNP組合外，其他SNP組合未將4個(gè)人群精確區(qū)分開。另外，735和829 AISNPs在隨機(jī)森林模型中準(zhǔn)確率達(dá)到90%，并且STRUCTURE和PCA分析結(jié)果實(shí)現(xiàn)了目標(biāo)人群的遺傳劃分，但是這兩組SNP在softmax模型中的準(zhǔn)確率僅為14.57%和44.22%。因此，只有選擇恰當(dāng)?shù)腟NP組合與判別方法才能達(dá)到最佳的人群區(qū)分效果。本研究最終挑選的234-AISNP組合在4個(gè)方案中都達(dá)到了南-北方漢族人、韓國(guó)人和日本人精確區(qū)分的目的，且SNP數(shù)較少，適合法醫(yī)學(xué)應(yīng)用。由于本研究中僅使用了千人基因組數(shù)據(jù)庫(kù)中的漢族樣本作為機(jī)器學(xué)習(xí)的參考數(shù)據(jù)集，有限的樣本量限制或掩蓋了某些AISNP真正的識(shí)別能力，后續(xù)將繼續(xù)增加樣本量與數(shù)據(jù)來(lái)源，進(jìn)一步驗(yàn)證和優(yōu)化234個(gè)AISNP組合。

在模型評(píng)估分析中，本研究發(fā)現(xiàn)softmax模型的準(zhǔn)確率隨著SNP數(shù)目增加，呈現(xiàn)出上升、到達(dá)最高峰(91.96%)后穩(wěn)定、再下降(14.57%)、最后上升(48.24%)的趨勢(shì)(表4)，而隨機(jī)森林模型的準(zhǔn)確率變化較穩(wěn)定(平均83.46%)。未經(jīng)篩選的AISNP位點(diǎn)中存在一定比例的共線性問(wèn)題即自變量間存在較強(qiáng)的相關(guān)性，而其中部分位點(diǎn)的低差異性干擾了差異信息的提煉，因此表現(xiàn)出高度的群體相似性。本研究中，過(guò)多AISNP的輸入嚴(yán)重干擾機(jī)器學(xué)習(xí)模型訓(xùn)練和測(cè)試的精準(zhǔn)度，并出現(xiàn)模型出現(xiàn)過(guò)擬合[64]以適應(yīng)訓(xùn)練數(shù)據(jù)，從而在測(cè)試數(shù)據(jù)上效果很差。使用共線性診斷和MDA交叉驗(yàn)證對(duì)AISNP進(jìn)行過(guò)濾，以提升模型的準(zhǔn)確率。同時(shí)，過(guò)少AISNP的輸入會(huì)導(dǎo)致模型出現(xiàn)欠擬合現(xiàn)象[65]，使得模型在訓(xùn)練和測(cè)試數(shù)據(jù)集上的效果都很差。綜上所述，在眾多特征中需要將無(wú)關(guān)和冗余特征去除，使合適的特征納入模型，才能夠進(jìn)一步提升模型的穩(wěn)定性和準(zhǔn)確率。同時(shí)本研究也觀察到，構(gòu)建的兩個(gè)模型在目標(biāo)人群區(qū)分時(shí)，更集中于韓國(guó)人和中國(guó)南方漢族人的區(qū)分，忽略了中國(guó)北方漢族人的區(qū)分，最終導(dǎo)致模型測(cè)試準(zhǔn)確率較低并且相應(yīng)的評(píng)價(jià)參數(shù)值也較低。這些可能是由于參考集樣本少導(dǎo)致機(jī)器學(xué)習(xí)模型不穩(wěn)定，或者是測(cè)試集樣本數(shù)目的不均衡導(dǎo)致模型出現(xiàn)欠擬合以及模型對(duì)目標(biāo)人群的不平衡區(qū)分，從而使得模型測(cè)試結(jié)果不佳。為了解決這些問(wèn)題，本研究在構(gòu)建目標(biāo)人群的預(yù)測(cè)和測(cè)試模型時(shí)，不僅設(shè)置了隨機(jī)數(shù)和調(diào)試最大迭代次數(shù)，還使用了五次十折交叉驗(yàn)證方法，從而達(dá)到提升模型準(zhǔn)確率的目的，最終實(shí)現(xiàn)目標(biāo)人群的精確區(qū)分。另外，還觀察到SNP數(shù)增加對(duì)softmax模型系統(tǒng)性能的影響更加明顯，并且當(dāng)SNP數(shù)目增加到某個(gè)閾值時(shí)，兩個(gè)模型均達(dá)到飽和即準(zhǔn)確率不存在過(guò)大波動(dòng)。

圖4 基于1128-AISNP組合與234-AISNP組合的基因分型繪制的目標(biāo)人群的系統(tǒng)發(fā)育樹

A：1128-AISNP組合的參考及測(cè)試集中目標(biāo)人群的系統(tǒng)發(fā)育樹結(jié)果；B：234-AISNP組合的參考及測(cè)試集中目標(biāo)人群的系統(tǒng)發(fā)育樹結(jié)果。

總之，本研究先利用頻率差異分析技術(shù)(F、I、HWE和LD)及兩種機(jī)器學(xué)習(xí)算法(softmax和隨機(jī)森林)，篩選AISNP、建立目標(biāo)人群遺傳推斷模型并測(cè)試，再結(jié)合經(jīng)典族群推斷算法(STRUCTURE和PCA)[59]對(duì)AISNP組合進(jìn)行評(píng)估，最終234-AISNP組合在這些方法中均實(shí)現(xiàn)了南-北方漢族人、韓國(guó)人和日本人的精確區(qū)分。其次，本研究發(fā)現(xiàn)softmax模型和MDA交叉驗(yàn)證運(yùn)行速度過(guò)慢，需要收集更加高效快速的篩選AISNP方法和更精準(zhǔn)構(gòu)建人群遺傳劃分模型的機(jī)器學(xué)習(xí)方法。最后，在參考集和測(cè)試集樣本收集的時(shí)候，需要考慮其來(lái)源是否多樣、數(shù)目是否龐大、以及檢測(cè)方法是否相同等問(wèn)題。綜上所述，在進(jìn)行AISNP篩選和近距離目標(biāo)群體區(qū)分時(shí)，盡可能增加參考集和測(cè)試集樣本量并運(yùn)用不同方法多方面綜合評(píng)估，從而選出高效能高質(zhì)量的AISNP組合，為法醫(yī)學(xué)基礎(chǔ)數(shù)據(jù)庫(kù)進(jìn)行擴(kuò)充。

感謝中國(guó)科學(xué)院上海生命科學(xué)研究院計(jì)算生物學(xué)研究所的徐書華老師在文章數(shù)據(jù)方面給予的幫助。

附加材料見文章電子版www.chinagene.cn。

[1] Phillips C. Forensic genetic analysis of bio-geographical ancestry., 2015, 18: 49–65.

[2] Tishkoff SA, Kidd KK. Implications of biogeography of human populations for 'race' and medicine., 2004, 36(11 Suppl): S21–S27.

[3] Marchini J, Cardon LR, Phillips MS, Donnelly P. The effects of human population structure on large genetic association studies., 2004, 36(5): 512–517.

[4] Paschou P, Lewis J, Javed A, Drineas P. Ancestry informative markers for fine-scale individual assignment to worldwide populations., 2010, 47(12): 835–847.

[5] Phillips C, Salas A, Sánchez JJ, Fondevila M, Gómez-Tato A, Alvarez-Dios J, Calaza M, de Cal MC, Ballard D, Lareu MV, Carracedo A. Inferring ancestral origin using a single multiplex assay of ancestry-informative marker SNPs., 2007, 1(3–4): 273–280.

[6] Kidd KK, Speed WC, Pakstis AJ, Furtado MR, Fang RX, Madbouly A, Maiers M, Middha M, Friedlaender FR, Kidd JR. Progress toward an efficient panel of SNPs for ancestry inference., 2014, 10: 23–32.

[7] Jiang L, Sun QF, Ma Q, Zhao WT, Liu J, Zhao L, Ji AQ, Li CX. Optimization and validation of analysis method based on 27-plex SNP panel for ancestry inference., 2017, 39(2): 166–173.

江麗, 孫啟凡, 馬泉, 趙雯婷, 劉京, 趙蕾, 季安全, 李彩霞. 27-plex SNP 種族推斷方法的優(yōu)化及驗(yàn)證. 遺傳, 2017, 39(2): 166–173.

[8] Qin PF, Li ZQ, Jin WF, Lu DS, Lou HY, Shen JW, Jin L, Shi YY, Xu SH. A panel of ancestry informative markers to estimate and correct potential effects of population stratification in Han Chinese., 2014, 22(2): 248–253.

[9] Wang YC, Lu DS, Chung YJ, Xu SH. Genetic structure, divergence and admixture of Han Chinese, Japanese and Korean populations., 2018, 155: 19.

[10] Shi CM, Liu Q, Zhao SL, Chen H. Ancestry informative SNP panels for discriminating the major East Asian populations: Han Chinese, Japanese and Korean., 2019, 83(5): 348–354.

[11] Wang CC, Yeh HY, Popov AN, Zhang HQ, Matsumura H, Sirak K, Cheronet O, Kovalev A, Rohland N, Kim AM, Mallick S, Bernardos R, Tumen D, Zhao J, Liu YC, Liu JY, Mah M, Wang K, Zhang Z, Adamski N, Broomand-khoshbacht N, Callan K, Candilio F, Carlson KSD, Culleton BJ, Eccles L, Freilich S, Keating D, Lawson AM, Mandl K, Michel M, Oppenheimer J, ?zdo?an KT, Stewardson K, Wen SQ, Yan S, Zalzala F, Chuang R, Huang CJ, Looh H, Shiung CC, Nikitin YG, Tabarev AV, Tishkin AA, Lin S, Sun ZY, Wu XM, Yang TL, Hu X, Chen L, Du H, Bayarsaikhan J, Mijiddorj E, Erdenebaatar D, Iderkhangai TO, Myagmar E, Kanzawa-Kiriyama H, Nishino M, Shinoda KI, Shubina OA, Guo J, Cai WW, Deng QY, Kang LL, Li D, Li DW, Lin RM, Nini, Shrestha R, Wang LX, Wei LW, Xie GM, Yao HB, Zhang MF, He GL, Yang XM, Hu R, Robbeets M, Schiffels S, Kennett DJ, Jin L, Li H, Krause J, Pinhasi R, Reich D. Genomic insights into the formation of human populations in East Asia., 2021, 591(7850): 413–419.

[12] Jung JY, Kang PW, Kim E, Chacon D, Beck D, McNevin D. Ancestry informative markers (AIMs) for Korean and other East Asian and South East Asian populations., 2019, 133(6): 1711–1719.

[13] Okada Y, Momozawa Y, Sakaue S, Kanai M, Ishigaki K, Akiyama M, Kishikawa T, Arai Y, Sasaki T, Kosaki K, Suematsu M, Matsuda K, Yamamoto K, Kubo M, Hirose N, Kamatani Y. Deep whole-genome sequencing reveals recent selection signatures linked to evolution and disease risk of Japanese., 2018, 9(1): 1631.

[14] Akiyama M, Okada Y, Kanai M, Takahashi A, Momozawa Y, Ikeda M, Iwata N, Ikegawa S, Hirata M, Matsuda K, Iwasaki M, Yamaji T, Sawada N, Hachiya T, Tanno K, Shimizu A, Hozawa A, Minegishi N, Tsugane S, Yamamoto M, Kubo M, Kamatani Y. Genome-wide association study identifies 112 new loci for body mass index in the Japanese population., 2017, 49(10): 1458–1467.

[15] Liu SY, Huang SJ, Chen F, Zhao LJ, Yuan YY, Francis SS, Fang L, Li ZL, Lin L, Liu R, Zhang Y, Xu HX, Li SK, Zhou YW, Davies RW, Liu Q, Walters RG, Lin K, Ju J, Korneliussen T, Yang MA, Fu QM, Wang J, Zhou LJ, Krogh A, Zhang HY, Wang W, Chen ZM, Cai ZM, Yin Y, Yang HM, Mao M, Shendure J, Wang J, Albrechtsen A, Jin X, Nielsen R, Xu X. Genomic analyses from non-invasive prenatal testing reveal genetic associations, patterns of viral infections, and Chinese population history., 2018, 175(2): 347–359.

[16] Xu SH, Yin XY, Li SL, Jin WF, Lou HY, Yang L, Gong XH, Wang HY, Shen YP, Pan XD, He YG, Yang YJ, Wang Y, Fu WQ, An Y, Wang JC, Tan JZ, Qian J, Chen XL, Zhang X, Sun YF, Zhang XJ, Wu BL, Jin L. Genomic dissection of population substructure of Han Chinese and its implication in association studies., 2009, 85(6): 762–774.

[17] Jeon S, Bhak Y, Choi Y, Jeon Y, Kim S, Jang J, Jang J, Blazyte A, Kim C, Kim Y, Shim J, Kim N, Kim YJ, Park SG, Kim J, Cho YS, Park Y, Kim HM, Kim BC, Park NH, Shin ES, Kim BC, Bolser D, Manica A, Edwards JS, Church G, Lee S, Bhak J. Korean genome project: 1094 Korean personal genomes with clinical information., 2020, 6(22): eaaz7835.

[18] Cao YN, Li L, Xu M, Feng ZM, Sun XH, Lu JL, Xu Y, Du PN, Wang TG, Hu RY, Ye Z, Shi LX, Tang XL, Yan L, Gao ZN, Chen G, Zhang YF, Chen LL, Ning G, Bi YF, Wang WQ, Consortium C. The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals., 2020, 30(9): 717–731.

[19] Jinam TA, Kanzawa-Kiriyama H, Inoue I, Tokunaga K, Omoto K, Saitou N. Unique characteristics of the Ainu population in Northern Japan., 2015, 60(10): 565–571.

[20] Kim JJ, Verdu P, Pakstis AJ, Speed WC, Kidd JR, Kidd KK. Use of autosomal loci for clustering individuals and populations of East Asian origin., 2005, 117(6): 511–519.

[21] Clarke L, Fairley S, Zheng-Bradley X, Streeter I, Perry E, Lowy E, Tassé A-M, and Flicek P. The international genome sample resource (IGSR): a worldwide collection of genome variation incorporating the 1000 genomes project data., 2016, 45(1): 854–859.

[22] Zhang WQ, Meehan J, Su ZQ, Ng HW, Shu M, Luo H, Ge WG, Perkins R, Tong WD, Hong HX. Whole genome sequencing of 35 individuals provides insights into the genetic architecture of Korean population., 2014, 15(11): 6–18.

[23] Byrska-Bishop M, Evani US, Zhao XF, Basile AO, Abel HJ, Regier AA, Corvelo A, Clarke WE, Musunuri R, Nagulapalli K, Fairley S, Runnels A, Winterkorn L, Lowy E, Flicek P, Germer S, Brand H, Hall IM, Talkowski ME, Narzisi G, Zody MC, The Human Genome Structural Variation Consortium. High coverage whole genome sequencing of the expanded 1000 Genomes Project cohort including 602 trios., 2021, doi: 10.1101/2021. 02.06.430068.

[24] Bergstr?m A, McCarthy SA, Hui RY, Almarri MA, Ayub Q, Danecek P, Chen Y, Felkel S, Hallast P, Kamm J, Blanché H, Deleuze JF, Cann H, Mallick S, Reich D, Sandhu MS, Skoglund P, Scally A, Xue YL, Durbin R, Tyler-Smith C. Insights into human genetic variation and population history from 929 diverse genomes., 2020, 367(6484): eaay5012.

[25] Mallick S, Li H, Lipson M, Mathieson I, Gymrek M, Racimo F, Zhao MY, Chennagiri N, Nordenfelt S, Tandon A, Skoglund P, Lazaridis I, Sankararaman S, Fu QM, Rohland N, Renaud G, Erlich Y, Willems T, Gallo C, Spence JP, Song YS, Poletti G, Balloux F, van Driem G, de Knijff P, Romero IG, Jha AR, Behar DM, Bravi CM, Capelli C, Hervig T, Moreno-Estrada A, Posukh OL, Balanovska E, Balanovsky O, Karachanak-Yankova S, Sahakyan H, Toncheva D, Yepiskoposyan L, Tyler-Smith C, Xue YL, Abdullah MS, Ruiz-Linares A, Beall CM, Di Rienzo A, Jeong C, Starikovskaya EB, Metspalu E, Parik J, Villems R, Henn BM, Hodoglugil U, Mahley R, Sajantila A, Stamatoyannopoulos G, Wee JTS, Khusainova R, Khusnutdinova E, Litvinov S, Ayodo G, Comas D, Hammer MF, Kivisild T, Klitz W, Winkler CA, Labuda D, Bamshad M, Jorde LB, Tishkoff SA, Watkins WS, Metspalu M, Dryomov S, Sukernik R, Singh L, Thangaraj K, P??bo S, Kelso J, Patterson N, Reich D. The Simons genome diversity project: 300 genomes from 142 diverse populations., 2016, 538(7624): 201–206.

[26] Liu XY, Lu DS, Saw WY, Shaw PJ, Wangkumhang P, Ngamphiw C, Fucharoen S, Lert-Itthiporn W, Chin- Inmanu K, Chau TNB, Anders K, Kasturiratne A, de Silva HJ, Katsuya T, Kimura R, Nabika T, Ohkubo T, Tabara Y, Takeuchi F, Yamamoto K, Yokota M, Mamatyusupu D, Yang WJ, Chung YJ, Jin L, Hoh BP, Wickremasinghe AR, Ong RH, Khor CC, Dunstan SJ, Simmons C, Tongsima S, Suriyaphol P, Kato N, Xu SH, Teo YY. Characterising private and shared signatures of positive selection in 37 Asian populations., 2017, 25(4): 499–508.

[27] Wen H, Wei YL, Guo XY, Sun CC, Xue SY, Liu J, Fan H, Jiang L. High-resolution SNP ancestry inference model and efficiency evaluation in three East Asian populations., 2021, 48(8): 973–981.

文豪, 魏以梁, 郭曉媛, 孫昌春, 薛思瑤, 劉京, 范虹, 江麗. 東亞三族群SNP高分辨推斷模型構(gòu)建與效能評(píng)估. 生物化學(xué)與生物物理進(jìn)展, 2021, 48(8): 973–981.

[28] Guo XY, Sun CC, Xue SY, Zhao H, Jiang L, Li CX. 49AISNP: a study on the ancestry inference of the three ethnic groups in the north of East Asia., 2021, 43(9): 880–889.

郭曉媛, 孫昌春, 薛思瑤, 趙慧, 江麗, 李彩霞. 49AISNP：東亞北方三個(gè)族群遺傳來(lái)源推斷. 遺傳, 2021, 43(9): 880–889.

[29] Kim T, Seo HD, Hennighausen L, Lee D, Kang K. Octopus-toolkit: a workflow to automate mining of public epigenomic and transcriptomic next-generation sequencing data., 2018, 46(9): 53–58.

[30] 1000 Genomes Project Consortium, Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, Marchini JL, McCarthy S, McVean GA, Abecasis GR. A global reference for human genetic variation., 2015, 526(7571): 68–74.

[31] Sudmant PH, Rausch T, Gardner EJ, Handsaker RE, Abyzov A, Huddleston J, Zhang Y, Ye K, Jun G, Fritz MHY, Konkel MK, Malhotra A, Stütz AM, Shi XH, Casale FP, Chen JM, Hormozdiari F, Dayama G, Chen K, Malig M, Chaisson MJP, Walter K, Meiers S, Kashin S, Garrison E, Auton A, Lam HYK, Mu XJ, Alkan C, Antaki D, Bae T, Cerveira E, Chines P, Chong ZC, Clarke L, Dal E, Ding L, Emery S, Fan X, Gujral M, Kahveci F, Kidd JM, Kong Y, Lameijer EW, McCarthy S, Flicek P, Gibbs RA, Marth G, Mason CE, Menelaou A, Muzny DM, Nelson BJ, Noor A, Parrish NF, Pendleton M, Quitadamo A, Raeder B, Schadt EE, Romanovitch M, Schlattl A, Sebra R, Shabalin AA, Untergasser A, Walker JA, Wang M, Yu FL, Zhang C, Zhang J, Zheng-Bradley XQ, Zhou WD, Zichner T, Sebat J, Batzer MA, McCarroll SA, 1000 Genomes Project Consortium, Mills RE, Gerstein MB, Bashir A, Stegle O, Devine SE, Lee C, Eichler EE, Korbel JO. An integrated map of structural variation in 2,504 human genomes., 2015, 526(7571): 75–81.

[32] Korn JM, Kuruvilla FG, McCarroll SA, Wysoker A, Nemesh J, Cawley S, Hubbell E, Veitch J, Collins PJ, Darvishi K, Lee C, Nizzari MM, Gabriel SB, Purcell S, Daly MJ, Altshuler D. Integrated genotype calling and association analysis of SNPs, common copy number polymorphisms and rare CNVs., 2008, 40(10): 1253–1260.

[33] Van der Auwera GA, O'Connor BD. Genomics in the Cloud: Using Docker, GATK, and WDL in Terra. 2020: O'Reilly Media, Incorporated.

[34] Meire M, Ballings M, Van den Poel D. imputeMissings: impute missing values in a predictive context. 2016.

[35] Rustowicz R. Crop classification with multi-temporal satellite imagery. 2017.

[36] Breiman L, Cutler A, Liaw A, Wiener M. Package ‘randomForest’. 2018.

[37] Yu GC, Smith DK, Zhu HC, Guan Y, Lam TTY. ggtree: an R package for visualization and annotation of phylogenetic trees with their covariates and other associated data., 2017, 8(1): 28–36.

[38] Hao W, Storey JD. Extending tests of Hardy-Weinberg equilibrium to structured populations., 2019, 213(3): 759–770.

[39] Pritchard JK, Przeworski M. Linkage disequilibrium in humans: models and data., 2001, 69(1): 1–14.

[40] Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis and visualization of LD and haplotype maps., 2005, 21(2): 263–265.

[41] Armstrong RA. When to use the Bonferroni correction., 2014, 34(5): 502–508.

[42] Boca SM, Rosenberg NA. Mathematical properties of Fst between admixed populations and their parental source populations., 2011, 80(3): 208–216.

[43] Rosenberg NA, Li LM, Ward R, Pritchard JK. Informativeness of genetic markers for inference of ancestry., 2003, 73(6): 1402–1422.

[44] Hui SB, Wang WJ. Improvement of multi-variable's redundant attributes in classification algorithm of support vector machines., 2006, 27(8): 1385–138.

惠守博, 王文杰. 支持向量機(jī)分類算法中多元變量共線性問(wèn)題的改進(jìn). 計(jì)算機(jī)工程與設(shè)計(jì), 2006, 27(8): 1385– 1388.

[45] Zhao YD, Liu R, Liu YL, Xiao F, Zhang Y. Multivariate logistic regression collinearity diagnosis analysis., 2000, (5): 3–5.

趙宇東, 劉嶸, 劉延齡, 肖峰, 張揚(yáng). 多元logistic回歸的共線性分析. 中國(guó)衛(wèi)生統(tǒng)計(jì), 2000, (5): 3–5.

[46] Wang L, Tong X, Sheng MW, Qin HD, Tang QS. Review of image classification based on softmax classifier in deep learning., 2019, 18(6): 1-9+47.

萬(wàn)磊, 佟鑫, 盛明偉, 秦洪德, 唐松奇. Softmax分類器深度學(xué)習(xí)圖像分類方法應(yīng)用綜述. 導(dǎo)航與控制, 2019, 18(6): 1-9+47.

[47] Rigatti SJ. Random Forest., 2017, 47(1): 31–39.

[48] Heo J, Yoon JG, Park H, Kim YD, Nam HS, Heo JH. Machine learning-based model for prediction of outcomes in acute stroke., 2019, 50(5): 1263–1265.

[49] Che DS, Liu Q, Rasheed K, Tao XP. Decision tree and ensemble learning algorithms with their applications in bioinformatics., 2011, 696: 191–199.

[50] Connor CW. Artificial intelligence and machine learning in anesthesiology., 2019, 131(6): 1346– 1359.

[51] Pandis N. Linear regression., 2016, 149(3): 431–434.

[52] LaValley MP. Logistic regression., 2008, 117(18): 2395–2399.

[53] Huang SJ, Cai NG, Pacheco PP, Narrandes S, Wang Y, Xu W. Applications of support vector machine (SVM) learning in cancer genomics., 2018, 15(1): 41–51.

[54] Karalis G. Decision trees and applications., 2020, 1194: 239–242.

[55] Hatwell J, Gaber MM, Atif Azad RM. Ada-WHIPS: explaining AdaBoost classification with applications in the health sciences., 2020, 20(1): 250.

[56] Wen J, Xu Y, Li ZY, Ma ZL, Xu YR. Inter-class sparsity based discriminative least square regression., 2018, 102: 36–47.

[57] Kloumann IM, Ugander J, Kleinberg J. Block models and personalized PageRank., 2017, 114(1): 33–38.

[58] Jung Y, Hu JH. A k-fold averaging cross-validation procedure., 2015, 27(2): 167–179.

[59] Liu J, Li S, Jiang L, Zhao L, Zhao WT, Feng L, Liu HB, Ji AQ, Li CX. DNA ancestry analyzer: an automatic program for ancestry inference of unknown individuals., 2018, 22(1): 3-7+41.

劉京, 李盛, 江麗, 趙蕾, 趙雯婷, 豐蕾, 劉海渤, 季安全, 李彩霞. 對(duì)于未知來(lái)源個(gè)體進(jìn)行族群推斷的自動(dòng)分析系統(tǒng). 生命科學(xué)研究, 2018, 22(1): 3-7+41.

[60] Ringnér M. What is principal component analysis?, 2008, 26(3): 303–304.

[61] Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data., 2000, 155(2): 945–959.

[62] Cai LJ. The technical means of forensic material evidence identification in criminal investigation cases-DNA identification technology., 2018, (34): 177.

蔡立君. 刑偵案件中法醫(yī)物證鑒定的技術(shù)手段——DNA鑒定技術(shù). 法制博覽, 2018, (34): 177.

[63] Jiang L, Zhao L, Liu J, Zhao WT, Ma Q, Zhao H, Ji AQ, Li CX. DNA ancestry inference assisting to have a case solved., 2019, 44(4): 371–373.

江麗, 趙蕾, 劉京, 趙雯婷, 馬泉, 趙慧, 季安全, 李彩霞. DNA供者族群推斷技術(shù)在案件中的應(yīng)用. 刑事技術(shù), 2019, 44(4): 371–373.

[64] Charilaou P, Battat R. Machine learning models and over-fitting considerations., 2022, 28(5): 605–607.

[65] Dizaji KG, Chen W, Huang H. Deep large-scale multitask learning network for gene expression inference., 2021, 28(5): 485–500.

Optimization scheme of machine learning model for genetic division between northern Han, southern Han, Korean and Japanese

Yongqiang Kong1, Jinkai Liu1, Jiaqi Gu2, Jingyi Xu1, Yunuo Zheng2, Yiliang Wei2, Shaoyuan Wu1,2

Han Chinese, Korean and Japanese are the main populations of East Asia, and Han Chinese presents a gradient admixture from north to south. There are differences among the East Asian populations in genetic structure. To achieve fine-scale genetic classification of southern (S-) and northern (N-) Han Chinese, Korean and Japanese individuals in this study, we collected and analyzed 1185 ancestry informative SNPs (AISNPs) from previous literature reports and our laboratory findings. First, two machine learning algorithms, softmax and randomForest, were used to build genetic classification models. Then, phylogenetic tree, STRUCTURE and principal component analysis were used to evaluate the performance of classification for different AISNP panels. The 234-AISNP panel achieved a fine-scale differentiation among the target populations in four classification schemes. The accuracy of the softmax model was 92%, which realized the accurate classification of the S-Han, N-Han, Korean and Japanese individuals. The two machine learning models tested in this study provided important references for the high-resolution discrimination of close-range populations and will be useful tools to optimize marker panels for developing forensic DNA ancestry inference systems.

forensic genetics; ancestry informative SNPs; machine learning; East Asia; S-Han and N-Han

2022-05-03;

2022-07-13;

2022-08-11

法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室開放課題(編號(hào)：2020FGKFKT01)，江蘇省研究生科研與實(shí)踐創(chuàng)新計(jì)劃項(xiàng)目任務(wù)書(編號(hào)：KYCX20_2286，KYCX21_2597)資助[Supported by the Key Laboratory of Forensic Genetics of China (No. 2020FGKFKT01), the Graduate Research and Practice Innovation Program of Jiangsu Normal University (Nos. KYCX20_2286，KYCX21_2597)]

孔永強(qiáng)，在讀碩士研究生，專業(yè)方向：生物學(xué)。E-mail: kongyongqiang@tmu.edu.cn

魏以梁，博士，副教授，研究方向：法醫(yī)遺傳學(xué)。E-mail: weiyiliang.2013@tsinghua.org.cn

伍少遠(yuǎn)，博士，教授，研究方向：系統(tǒng)發(fā)育與比較基因組學(xué)。E-mail: shaoyuan5@gmail.com

10.16288/j.yczz.22-073

(責(zé)任編委: 朱波峰)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

南-北方漢族人、韓國(guó)人和日本人遺傳劃分機(jī)器學(xué)習(xí)模型優(yōu)化方案

1 材料與方法

1.1 樣本收集

1.2 SNP來(lái)源

1.3 質(zhì)量控制

1.4 基因分型及人群編碼

1.5 系統(tǒng)發(fā)育樹構(gòu)建

1.6 Hardy-Weinberg平衡及連鎖不平衡分析

1.7 AISNP篩選

1.8 模型的選擇

1.9 模型構(gòu)建與評(píng)估

2 結(jié)果與分析

2.1 234-AISNP組合的篩選與模型評(píng)估

2.2 234-AISNP組合的人群聚類效果提升

3 討論