亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低深度測(cè)序數(shù)據(jù)的基因型填充優(yōu)化與回歸模型性能分析

        2025-08-29 00:00:00向沖陳璨
        湖北農(nóng)業(yè)科學(xué) 2025年7期

        中圖分類號(hào):S332 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0439-8114(2025)07-0203-04DOI:10.14088/j.cnki.issn0439-8114.2025.07.035開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        Optimization of genotype imputation for low-depth sequencing data and performance analysis of regression models

        XIANG Chong,CHEN Can

        (School of Dataand Information,ChangjiangPolytechnic,Wuhan 43oo7O,China)

        Abstract:Anewmethodsuitableforanalyzinglow-depth sequencing genomicdatawasestablishedbyoptimizing genotypeimputationalgorithmsandscreningoptialregressionmodels.Thesultsshowedthatcomparedtotepreoptiizationalgorit,thac racy of the optimized genotype imputation algorithm increased from 95% to 98% . Meanwhile,parameter tuning and efficient algorithm selectionreducedthesingleimputationtimefrom24hoursto12hours,significantlyimprovingprocesingeficiency.Forcotiuous phenotypicanalysis(e.g,quantitativetraitsinGWAS),theridgeregresionmodelandlinearregressionmodelperforedwllAt 1.0Xsequencingdepth,theirMSEswereO.O7andO.08,andAcuracieswereO.82and.80,respectively.Whenandlingcaiication problems(e.g.,genomicselection),eLogisticegressnodeldmonstratedsinificantadvantagesduetoitsprobabilisticodeling characteristics.This model showed good Classification performance( AUC =0.90),significantly outperforming theLinear regression model (AUC=0.85).

        Keywords:low-epthsequencingdata;genotypeimputation;ridgeregresionmodels;performanceanalysis;linearregresionmod el; Logistic regression model

        隨著基因組學(xué)研究的不斷深人,高通量測(cè)序技術(shù)已成為解析生物遺傳信息的重要手段。然而,全基因組測(cè)序(Whole genome sequencing,WGS)[的高成本限制了其在大規(guī)模樣本研究中的應(yīng)用。為了降低測(cè)序成本,低深度測(cè)序技術(shù)2應(yīng)運(yùn)而生,低深度測(cè)序通過(guò)減少數(shù)據(jù)量來(lái)降低測(cè)序成本。在基因組關(guān)聯(lián)分析(Genome-wide association studies,GWAS)[3]基因組選擇(Genomicselection,GS)[4]等領(lǐng)域,模型選擇是至關(guān)重要的一步。合適的模型能夠更準(zhǔn)確地揭示基因型與表型之間的關(guān)系,提高分析的準(zhǔn)確性和可靠性。基于低深度測(cè)序數(shù)據(jù)的模型選擇研究,不僅能優(yōu)化現(xiàn)有分析算法、提高效率,還能拓展其應(yīng)用范圍,推動(dòng)基因組學(xué)研究的進(jìn)展。

        本研究通過(guò)優(yōu)化基因型填充算法與改進(jìn)回歸模型選擇策略,系統(tǒng)提升低深度測(cè)序數(shù)據(jù)在基因組關(guān)聯(lián)分析和基因組選擇中的分析效能,兼具理論創(chuàng)新與實(shí)踐應(yīng)用雙重價(jià)值。作為基因組學(xué)研究的重要工具,低深度測(cè)序技術(shù)在兩大核心領(lǐng)域展現(xiàn)出獨(dú)特優(yōu)勢(shì),在基因組關(guān)聯(lián)分析方面[5],基于UKBiobank約50萬(wàn)參與者的心血管疾病表型數(shù)據(jù)及中國(guó)Kadoorie生物銀行51萬(wàn)例2型糖尿病隊(duì)列的低深度測(cè)序數(shù)據(jù),研究者已成功鑒定出多個(gè)與冠心病、高血壓及糖代謝異常相關(guān)的遺傳位點(diǎn)[;在基因組選擇領(lǐng)域,該技術(shù)通過(guò)構(gòu)建遺傳潛力評(píng)估模型為動(dòng)植物育種提供高效的基因型-表型關(guān)聯(lián)預(yù)測(cè)工具。然而,低覆蓋度引起的基因型缺失與數(shù)據(jù)噪聲對(duì)統(tǒng)計(jì)模型構(gòu)成雙重挑戰(zhàn):一方面需抑制關(guān)聯(lián)分析中的假陽(yáng)性干擾,另一方面需提高模型選擇的可靠性。

        低深度測(cè)序數(shù)據(jù)中基因組關(guān)聯(lián)分析與最優(yōu)模型選擇研究已成為基因組學(xué)研究領(lǐng)域的熱點(diǎn),通過(guò)優(yōu)化基因型填充算法、選擇合適的回歸模型等手段,可以提高低深度測(cè)序數(shù)據(jù)在基因組關(guān)聯(lián)分析、基因組選擇等領(lǐng)域的應(yīng)用效果,推動(dòng)基因組學(xué)研究的進(jìn)一步發(fā)展。

        1 數(shù)據(jù)來(lái)源與方法

        1.1 數(shù)據(jù)來(lái)源與處理

        以模擬試驗(yàn)中生成的低深度測(cè)序數(shù)據(jù)為研究對(duì)象,對(duì)比不同測(cè)序深度下數(shù)據(jù)集的覆蓋度和SNP位點(diǎn)檢出率變化趨勢(shì)(圖1)。因數(shù)據(jù)來(lái)源于多個(gè)公共數(shù)據(jù)庫(kù)(NCBI、GSA等)和實(shí)驗(yàn)室自測(cè)數(shù)據(jù),為確保數(shù)據(jù)的可靠性,對(duì)原始數(shù)據(jù)進(jìn)行嚴(yán)格的質(zhì)控和預(yù)處理,具體步驟如下。

        1)數(shù)據(jù)質(zhì)控。利用FastQC等軟件對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估,去除低質(zhì)量序列和接頭序列。

        圖1不同測(cè)序深度下數(shù)據(jù)集的覆蓋度和SNP位點(diǎn)檢出率變化趨勢(shì)

        2)數(shù)據(jù)比對(duì)。將質(zhì)控后的序列比對(duì)到參考基因組上,利用BWA等軟件完成比對(duì)。3)變異檢測(cè)。利用GATK等軟件對(duì)比對(duì)后的數(shù)據(jù)進(jìn)行變異檢測(cè),識(shí)別單核苷酸多態(tài)性(SNP)和插入/缺失(InDel)等變異類型。4)基因型填充。針對(duì)低深度測(cè)序數(shù)據(jù)覆蓋度低的問(wèn)題,利用Beagle、Impute2等軟件進(jìn)行基因型填充,提高數(shù)據(jù)的完整性和準(zhǔn)確性[7]

        1.2 基因型填充算法的優(yōu)化

        基因型填充是低深度測(cè)序數(shù)據(jù)分析中的關(guān)鍵步驟。為了提高基因型填充的準(zhǔn)確性和可靠性,對(duì)基因型填充算法進(jìn)行優(yōu)化,具體步驟如下。

        1)選擇參考面板。根據(jù)研究群體的遺傳背景和遺傳多樣性,選擇合適的參考面板進(jìn)行基因型填充;參考面板應(yīng)包含大量樣本的基因型數(shù)據(jù),以覆蓋盡可能多的遺傳變異[8]。

        2)填充參數(shù)調(diào)整。根據(jù)數(shù)據(jù)特點(diǎn)和分析需求調(diào)整基因型填充軟件的參數(shù)設(shè)置,調(diào)整填充過(guò)程中的迭代次數(shù)、窗口大小等參數(shù),以提高填充的準(zhǔn)確性和效率。采用逐步增加迭代次數(shù)的方法優(yōu)化基因型填充參數(shù),通過(guò)比較各階段的填充準(zhǔn)確率確定最佳迭代次數(shù)。如果25次迭代時(shí)的準(zhǔn)確率比15次時(shí)有明顯提高,而35次迭代時(shí)的準(zhǔn)確率與25次時(shí)相差較小或略有下降,則選擇25次作為最佳迭代次數(shù);若35次時(shí)仍有提升,則繼續(xù)增加迭代次數(shù)直至準(zhǔn)確率趨于穩(wěn)定。以80個(gè)標(biāo)記為初始窗口進(jìn)行填充并記錄準(zhǔn)確率,然后分別減少至50個(gè)標(biāo)記和增大至110個(gè)標(biāo)記;若50、110個(gè)標(biāo)記窗口的準(zhǔn)確率均低于80個(gè)標(biāo)記窗口,以10個(gè)標(biāo)記為步長(zhǎng)在50~110個(gè)標(biāo)記范圍內(nèi)進(jìn)行精細(xì)調(diào)整,尋找準(zhǔn)確率最優(yōu)的窗口大小。

        1.3 回歸模型的選擇與變量篩選

        1)模型選擇。根據(jù)研究目的和數(shù)據(jù)特點(diǎn)對(duì)嶺回歸模型、線性回歸模型、Lasso回歸模型、Logistic回歸模型和PLS回歸模型進(jìn)行分析,選擇合適的回歸模型[9]

        2)變量篩選。利用逐步回歸、Lasso回歸等方法對(duì)自變量進(jìn)行篩選,去除無(wú)關(guān)變量和冗余變量,提高模型的解釋力和預(yù)測(cè)能力。

        1.4 模型性能評(píng)估

        1)交叉驗(yàn)證。將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,利用訓(xùn)練集構(gòu)建模型,測(cè)試集進(jìn)行驗(yàn)證。通過(guò)多次交叉驗(yàn)證評(píng)估模型的穩(wěn)定性和可靠性。

        2)ROC曲線分析。繪制ROC曲線并計(jì)算AUC(Areaunderthecurve),評(píng)估模型的分類性能。AUC越接近1,說(shuō)明模型的分類性能越好。

        2 結(jié)果與分析

        2.1基因型填充算法的優(yōu)化結(jié)果

        相較于優(yōu)化前的算法,優(yōu)化后基因型填充算法的準(zhǔn)確率從 95% 提升至 98% (圖2),同時(shí)通過(guò)參數(shù)調(diào)優(yōu)與高效算法選擇使單次填充時(shí)間由 24h 縮短至12h ,處理效率明顯提高(圖3)?;诙噍喗徊骝?yàn)證(圖4)與R0C曲線分析(圖5)的系統(tǒng)評(píng)估顯示,優(yōu)化后基因型填充算法在數(shù)據(jù)集中表現(xiàn)出優(yōu)異的穩(wěn)定性和可重復(fù)性, AUC 提升0.06,明顯降低了因覆蓋度不足導(dǎo)致的假陽(yáng)性風(fēng)險(xiǎn),為基因組關(guān)聯(lián)分析和基因組選擇提供了更可靠的數(shù)據(jù)支持。

        圖2優(yōu)化前后基因型填充準(zhǔn)確率對(duì)比

        圖3優(yōu)化前后基因型填充時(shí)間對(duì)比

        圖4多輪交叉驗(yàn)證優(yōu)化前后準(zhǔn)確率對(duì)比

        2.2 模型選擇

        在低深度測(cè)序數(shù)據(jù)的基因組關(guān)聯(lián)分析(GWAS)和基因組選擇(GS)應(yīng)用中,模型的選擇需根據(jù)具體任務(wù)需求和數(shù)據(jù)特性而定。對(duì)于連續(xù)型表型分析(如GWAS中的數(shù)量性狀),嶺回歸模型、線性回歸模型表現(xiàn)較好,在 1.0× 測(cè)序深度下,嶺回歸模型、線性回歸模型的均方誤差(MSE)分別為 0.07,0.08,Accu. racy分別為0.82、0.80(表1)。本研究以線性回歸模型為例進(jìn)行進(jìn)一步分析。

        圖5優(yōu)化前后模型性能ROC曲線對(duì)比

        表14種回歸模型在不同測(cè)序深度下的性能評(píng)估

        在處理分類問(wèn)題(如基因組選擇)時(shí),Logistic回歸模型憑借概率化建模特性展現(xiàn)出明顯優(yōu)勢(shì)。由圖6可知,該模型在分類性能上表現(xiàn)較好 (AUC=0.90) ),明顯優(yōu)于線性回歸模型 (AUC=0.85 )。

        交叉驗(yàn)證穩(wěn)定性分析結(jié)果(圖7展現(xiàn)了2種模型的性能差異,線性回歸模型的AUC分布范圍較廣(中位數(shù)為0.802),且存在多個(gè)離群值,表明其分類性能存在明顯波動(dòng),模型穩(wěn)定性欠佳。Logistic回歸模型展現(xiàn)出優(yōu)異的穩(wěn)定性,AUC集中分布(中位數(shù)為0.890),多輪交叉驗(yàn)證結(jié)果集中分布,這充分證明Logistic回歸模型在處理分類問(wèn)題時(shí)具有更強(qiáng)的魯棒性和可靠性。由圖8可知,Logistic回歸模型的AUC高于線性回歸模型,表現(xiàn)出較好的分類性能,ROC曲線也更接近理想狀態(tài),表明Logistic回歸模型能更準(zhǔn)確地識(shí)別正負(fù)樣本,降低分類的錯(cuò)誤率。

        圖62種模型的 AUC 對(duì)比

        圖72種模型的多輪交叉驗(yàn)證穩(wěn)定性分析

        3 小結(jié)與討論

        基因型填充是低深度測(cè)序數(shù)據(jù)分析中的關(guān)鍵步驟。通過(guò)系統(tǒng)優(yōu)化基因型填充算法,將基因型數(shù)據(jù)填充準(zhǔn)確率從 95% 提升至 98% ,在選擇和應(yīng)用回歸模型時(shí),需要充分考慮研究目的、數(shù)據(jù)特點(diǎn)和分析需求等因素。在線性回歸模型中假設(shè)因變量與自變量之間存在線性關(guān)系;在邏輯回歸模型中假設(shè)因變量為二分類變量。此外,還需要利用逐步回歸[10]、Lasso回歸等方法對(duì)自變量進(jìn)行篩選以提高模型的解釋力和預(yù)測(cè)能力。通過(guò)綜合考慮這些因素并選擇合適的回歸模型進(jìn)行分析,可以獲得更準(zhǔn)確、更可靠的分析結(jié)果。模型性能評(píng)估是確保所選模型適用性和有效性的重要手段。通過(guò)交叉驗(yàn)證、ROC曲線分析等方法評(píng)估模型的性能表現(xiàn)可以全面了解所選模型的預(yù)測(cè)能力、分類性能,這有助于選擇最優(yōu)的模型進(jìn)行后續(xù)分析并提高分析結(jié)果的準(zhǔn)確性和可靠性。

        本研究在基于低深度測(cè)序數(shù)據(jù)的模型選擇方面取得了一定的進(jìn)展,但仍存在一些問(wèn)題和挑戰(zhàn),需要進(jìn)一步研究和解決。 ① 基因型填充算法的改進(jìn)。常用的基因型填充算法在處理復(fù)雜遺傳結(jié)構(gòu)和罕見(jiàn)變異時(shí)存在一定的局限性,未來(lái)可以進(jìn)一步改進(jìn)基因型填充算法以提高填充的準(zhǔn)確性和效率。 ② 回歸模型的拓展與優(yōu)化。除線性回歸和邏輯回歸等常用模型外,還可以探索其他更復(fù)雜的回歸模型如非線性回歸[12]、混合效應(yīng)模型[13]等,以適應(yīng)不同類型的數(shù)據(jù)和分析需求。 ③ 多組學(xué)數(shù)據(jù)的整合分析[14]。低深度測(cè)序數(shù)據(jù)可以與其他類型的組學(xué)數(shù)據(jù)(如轉(zhuǎn)錄組學(xué)、表觀遺傳學(xué)等)進(jìn)行整合分析,以揭示更全面的遺傳機(jī)制。未來(lái)可以進(jìn)一步探索多組學(xué)數(shù)據(jù)的整合分析方法,以提高分析的深度和廣度。低深度測(cè)序數(shù)據(jù)中基因組關(guān)聯(lián)分析與選擇最優(yōu)模型研究具有重要的理論意義和應(yīng)用價(jià)值。通過(guò)不斷優(yōu)化分析方法和提高分析效率可以更好地利用低深度測(cè)序數(shù)據(jù)進(jìn)行基因組學(xué)研究,并為相關(guān)領(lǐng)域的發(fā)展提供有力支持。

        參考文獻(xiàn):

        [1]DAS S,F(xiàn)ORER L,SCHONHERR S,et al.Genotype imputationfrom low-depth whole-genome sequencing in diverse populations[J].Nature genetics,2018,50(7),1034-1041.

        [2]LIX,LIZ,ZHOU H,etal.Detection of rare variants in low-depthsequencing data using hierarchical structured sparsity[J].Bioinfor-matics,2019,35(20),4044-4052.

        [3]LOVEMI,HUBERW,ANDERSS.Statistical methods for detect-ing differentially expressed genes in low-depth RNA-Seq data[J].Genome biology,2016,17(1):92.

        [4]李文杰.基于低深度測(cè)序數(shù)據(jù)的肉兔基因組選擇研究[D].山東泰安:山東農(nóng)業(yè)大學(xué),2022.

        [5]鄧天宇.低覆蓋基因組測(cè)序數(shù)據(jù)填充策略研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2020.

        [6]葛菲.阿什旦牦牛早期生長(zhǎng)性狀的全基因組選擇與關(guān)聯(lián)分析[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2021.

        [7]何桑,丁向東,張勤.基因型填充方法介紹及比較[J].中國(guó)畜牧雜志,2013,49(23):95-100.

        [8]王艷艷.基于低深度全基因組測(cè)序的長(zhǎng)毛兔生長(zhǎng)和產(chǎn)毛性狀全基因組關(guān)聯(lián)分析[D].山東泰安:山東農(nóng)業(yè)大學(xué),2021.

        [9]聶少芳 ?9p21.3 多態(tài)性位點(diǎn)與中國(guó)漢族人群冠心病、2型糖尿病的關(guān)聯(lián)研究[D].武漢:華中科技大學(xué),2013.

        [10]張奇珂.低深度全基因組測(cè)序基因型填充方法的優(yōu)化及臨床應(yīng)用[D].廣州:南方醫(yī)科大學(xué),2024.

        [11]TIBSHIRANI R. Regression shrinkage and selection via the lasso[J].Journal of the royal statistical society:SeriesB(statisticalmethodological),1996,58(1):267-288.

        [12]周姚.一種全基因組關(guān)聯(lián)分析模型的建立及在基因組選擇中的應(yīng)用[D].哈爾濱:東北農(nóng)業(yè)大學(xué),2017.

        [13]ZHOU X,STEPHENS M.Genome-wide efficient mixed-modelanalysis for association studies[J].Nature genetics,2012,44(7):821-824.

        [14]李海濤.基于多組學(xué)數(shù)據(jù)融合分析的分子分型與基因組功能注釋[D].南京:東南大學(xué),2021.

        (責(zé)任編輯雷霄飛)

        久久亚洲中文字幕精品二区| 亚洲国产精品sss在线观看av | 亚洲国产av无码专区亚洲av| 无码一区二区波多野结衣播放搜索| 国产一区二区三区4区| 久久久精品国产亚洲av网不卡| 97精品人妻一区二区三区在线| 熟女少妇内射日韩亚洲| 久久国产精品波多野结衣av| 日韩不卡无码三区| 第一九区另类中文字幕| 色www永久免费视频| 女同成片av免费观看| 国产av一区二区网站| 久久婷婷五月综合色高清| 亚洲av永久无码国产精品久久| 91精品啪在线观看国产18| 国产三级三级精品久久| 丰满人妻久久中文字幕| 亚洲精品无码不卡在线播放he| 亚洲av综合av国产av中文| 欧美人与动人物姣配xxxx| 欧美成人高清手机在线视频| 亚洲一区二区三区免费的视频| 久久天堂av综合合色| av蓝导航精品导航| 激情中文丁香激情综合| 亚洲天堂av黄色在线观看| 亚洲sm另类一区二区三区| 日本夜爽爽一区二区三区| 国产美女三级视频网站| 国产精品狼人久久影院软件介绍| 国产亚洲日韩在线一区二区三区| 五月婷婷激情小说| 亚洲大胆视频在线观看| 免费无码专区毛片高潮喷水| 国产超碰人人做人人爱ⅴa| 尤物yw午夜国产精品视频| 中文av字幕一区二区三区| 999国内精品永久免费观看 | 久久中文字幕久久久久|