亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LASSO回歸和多層感知的癌組織RNA-Seq數(shù)據(jù)分類算法研究

        2022-08-31 23:35:23顏瀅李文敬李松釗
        電腦知識與技術(shù) 2022年19期
        關(guān)鍵詞:基因表達特征提取

        顏瀅 李文敬 李松釗

        摘要:目的:為了解決癌癥基因RNA-Seq(RNA-Sequencing,轉(zhuǎn)錄組測序技術(shù))技術(shù)每次測序過程產(chǎn)生海量高分辨率、高維、高冗余的數(shù)據(jù),給基因表達數(shù)據(jù)分類帶來困難的問題。方法:提出了一種基于LASSO(Least Absolute Shrinkage and Selection Operator,LASSO)回歸和多層感知的癌組織RNA-Seq數(shù)據(jù)分類算法。首先,從TCGA數(shù)據(jù)庫獲取十個疾病的基因數(shù)據(jù)集并對原始RNA-Seq的基因表達譜基因數(shù)據(jù)進行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理,去除重復(fù)的基因,選取表達量最大的基因并將數(shù)據(jù)做標(biāo)準(zhǔn)化處理。其次,采用LASSO回歸的方法對處理后的數(shù)據(jù)進行降維和特征提取,獲得與疾病標(biāo)簽最相關(guān)的特征基因集。最后,運用多層感知器神經(jīng)網(wǎng)絡(luò)(Multilayer Perceptron,MLP)模型對特征基因進行學(xué)習(xí)和訓(xùn)練,實現(xiàn)有效地識別和分類。實驗結(jié)果:實驗表明,該算法在10種癌細(xì)胞基因測試數(shù)據(jù)集中分類總準(zhǔn)確率達到99.8%,高于LASSO-CNN分類模型的總準(zhǔn)確率98.9%和LASSO-BP神經(jīng)網(wǎng)絡(luò)分類模型的總準(zhǔn)確率99.4%。結(jié)論:該算法克服了轉(zhuǎn)錄組測序數(shù)據(jù)量大、特征多、數(shù)據(jù)差異大的缺陷,是一種有效的癌癥基因表達測序分類新算法。

        關(guān)鍵詞:RNA-Seq;LASSO回歸;特征提取;多層感知器神經(jīng)網(wǎng)絡(luò);基因表達;TCGA數(shù)據(jù)庫

        中圖分類號:TP3? ? ? ? 文獻標(biāo)識碼:A

        文章編號:1009-3044(2022)19-0091-03

        轉(zhuǎn)錄組測序技術(shù)(RNA Sequencing,轉(zhuǎn)錄組測序技術(shù))能夠?qū)ι锏霓D(zhuǎn)錄本進行檢測,確定哪些變異在癌癥樣本中有表達,通過分析基因表達差異識別出變異基因或癌癥基因,在腫瘤疾病的診斷和治療起著重要作用,具有重要的科學(xué)意義與應(yīng)用價值。但是,轉(zhuǎn)錄組測序技術(shù)可以在一次實驗中獲取大規(guī)模的基因表達譜數(shù)據(jù)[1],若要在海量的信息中識別疾病相關(guān)基因,使RNA-Seq技術(shù)在腫瘤疾病的診斷和治療中發(fā)揮重要作用,則要引用特征選取和機器學(xué)習(xí)的方法。為研究高效率、高準(zhǔn)確率的基因分類算法,本文提出一種基于LASSO回歸和多層感知的癌組織RNA-Seq數(shù)據(jù)分類算法,在一次對癌癥樣本RNA-Seq測序后,可直接將結(jié)果進行識別、預(yù)測、分類。

        為了解決高維基因數(shù)據(jù)的特征篩選和分類問題,1996年Robert Tibshirani[2]提出的LASSO回歸算法為基因特征數(shù)據(jù)的提取提供了技術(shù)支持,并逐漸應(yīng)用到生物信息學(xué)領(lǐng)域。對于基因數(shù)據(jù)的特征篩選和分類問題,張靖等人[3]提出一種基于迭代Lasso的信息基因選擇方法,采用改進的Lasso方法進行冗余基因的剔除以獲得基因數(shù)量少且分類能力較強的信息基因子集,并使用支持向量機(SVM)、K近鄰(KNN)、決策樹C4. 5和隨機森林Random Forest4種分類器進行分類。張靖、張玉紅等人[4]提出K-split Lasso特征選擇方法,其基本思想是將數(shù)據(jù)集平均劃分為K份,分別使用Lasso方法對每份進行特征選擇,而后將選擇出來的每份特征子集合并,重新進行特征選擇,得到最終的特征基因,最后采用支持向量機進行分類。Ma[5]等人結(jié)合K-means和Lasso方法對基因表達譜數(shù)據(jù)進行特征選擇和預(yù)測模型構(gòu)建,取得了較好的效果。

        1本文算法原理

        1.1 LASSO回歸原理

        在樣本基因數(shù)據(jù)中引入的特征太多,主成分分析法選擇將一些原始數(shù)據(jù)丟失[6],而這些數(shù)據(jù)可能含有對樣本差異的重要信息,這就會對區(qū)分樣本類別的結(jié)果產(chǎn)生影響。采用LASSO回歸(Least Absolute Shrinkage And Selection Operator)更適用于處理一次RNA-Seq技術(shù)測序所產(chǎn)生的數(shù)據(jù),LASSO回歸通過參數(shù)縮減擬合廣義線性模型的同時進行變量篩選,從而達到降維和選取特征基因的目的[7]。這個方法能夠保留原有的基因特征屬性,選取關(guān)鍵特征,可直接用于特征建模分析。

        以提取多種癌癥組織樣本特征為例:給定[n]個疾病樣本[{(X1,Y1),…,(Xn,Yn)}],自變量[X=(x1,x2,…,xn)T∈Rm*n]為基因數(shù)據(jù)矩陣,[xn∈Rm]為m維數(shù)據(jù)樣本,包含m個特征,響應(yīng)變量[Y=(y1,y2,…,yn)T∈Rn],[Y]為疾病標(biāo)簽,自變量[X]對響應(yīng)變量[Y]進行線性回歸,約束[λ=(λ1,λ2,…λt)]不超過閾值[e]。

        設(shè)本實驗?zāi)繕?biāo)函數(shù)為:

        LASSO回歸優(yōu)化目標(biāo)是令代價函數(shù)(cost function,或稱為損失函數(shù),lost function)最小,

        [min L(λ)=12nj=1n(yj-λTxj)2+μj=1t|λj|subjecttoj=1t|λj|≤e](1)

        n為樣本個數(shù),[μ]為正則化參數(shù),[t]為參數(shù)個數(shù)。隨著[μ]的增大,各變量的系數(shù)逐漸趨于零。

        1.2 多層感知器

        多層感知器(Muti-Layer Perception,MLP)是一種前饋式人工神經(jīng)網(wǎng)絡(luò),是目前最成熟的人工神經(jīng)網(wǎng)絡(luò)之一。它由三層結(jié)構(gòu)組成,分別是:輸入層、隱藏層和輸出層。MLP神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)和存儲大量輸入-輸出模式的映射關(guān)系,被廣泛應(yīng)用于圖像,自然語言處理,生物信息領(lǐng)域識別、預(yù)測、分類[8]。

        2 多層感知的癌組織RNA-Seq數(shù)據(jù)分類算法的構(gòu)建

        2.1 獲取數(shù)據(jù)集與基于R語言的數(shù)據(jù)處理

        2.1.1 數(shù)據(jù)集的獲取與數(shù)據(jù)預(yù)處理

        本次實驗樣本基因數(shù)據(jù)來源于TCGA數(shù)據(jù)庫,TCGA是關(guān)于癌癥方面的最大的公共數(shù)據(jù)集[9],為研究腫瘤學(xué)的人們提供了便捷的數(shù)據(jù)獲取平臺。本實驗使用3782個樣本進行建模,每個疾病樣本包含25190個基因,原始數(shù)據(jù)無法直接用于模型訓(xùn)練,因此要進一步對數(shù)據(jù)進行處理。

        從數(shù)據(jù)庫獲取到的基因數(shù)據(jù)集為COUNT矩陣,將COUNT矩陣導(dǎo)入R,把基因ID轉(zhuǎn)換為Gene symbol,去除重復(fù)的基因,選取表達量最大的基因,這些基因?qū)⒂糜谧鰯?shù)據(jù)標(biāo)準(zhǔn)化。

        2.1.2 數(shù)據(jù)編碼:One-Hot

        本實驗序列的標(biāo)簽將采用One-Hot的方法進行編碼。用LIHC、STAD、BRCA、DLBC、ESCA、GBM、OV、PAAD、LUAD、UCEC這10種癌癥基因數(shù)據(jù)進行分類,并將患病樣本所對應(yīng)的疾病作標(biāo)簽。

        2.1.3 數(shù)據(jù)標(biāo)準(zhǔn)化

        數(shù)據(jù)標(biāo)準(zhǔn)化的目的主要是消除測序數(shù)據(jù)的技術(shù)偏差[10],各個樣本基因數(shù)據(jù)間的測序深度和基因長度處于相同的水平,從而使我們得到具有生物學(xué)意義的基因表達量變化。本實驗則采用了文獻[11]的方法,使用基于R語言的voom函數(shù)對RNA-Seq基因數(shù)據(jù)標(biāo)準(zhǔn)化處理。

        2.2 基于LASSO回歸的降維及特征提取的實現(xiàn)

        LASSO回歸的核心思想是將不相關(guān)的特征系數(shù)變?yōu)榱?,從而篩選出含有特征基因變量。具體實現(xiàn)如下:

        (1)構(gòu)造一個從200的-5次方到200的2次方的等比數(shù)列,這個等比數(shù)列的長度是200個元素,[λ]即這200個元素中不同的值。

        (2)給定一個變量alphas,用于進行交叉驗證的正則化參數(shù)。令alpha=[λ],采用十折交叉驗證的方法找出最佳的alpha值,迭代1000次。

        (3)調(diào)用最佳正則化參數(shù)下建立的模型系數(shù),輸出相關(guān)系數(shù)不為零的特征。

        (4)記錄相關(guān)系數(shù)不為零的特征,用于構(gòu)造新的數(shù)據(jù)集。

        (5)劃分?jǐn)?shù)據(jù)集,設(shè)定一個隨機種子,在任意帶有隨機性的類或函數(shù)里作為參數(shù)來控制隨機模式,得到新的數(shù)據(jù)集按7:3的比例劃分,得到比例為7:3的訓(xùn)練集與測試集。

        本實驗從25190個基因中提取到與標(biāo)簽最相關(guān)的1414個特征基因及其表達量這些數(shù)據(jù)將用于模型訓(xùn)練。

        2.3 模型訓(xùn)練

        參數(shù)設(shè)置:實驗中MLP神經(jīng)網(wǎng)絡(luò)的激活函數(shù)設(shè)置為relu函數(shù),隱藏層設(shè)為3層,每一層隱藏層的神經(jīng)元設(shè)置為500,第一層隱藏層的學(xué)習(xí)率設(shè)置為0.1,第二、第三層的隱藏層學(xué)習(xí)率設(shè)置為0.2。

        實驗環(huán)境:Intel CPU 3.20 GHz處理器,8 GB內(nèi)存的PC機,Windows 10操作系統(tǒng),PyCharm 2020.3.3開發(fā)環(huán)境。

        ①信息前向傳播

        設(shè)[ol]=[(ol1,ol2,....,oln)T]為第[l]層的輸出,[l]=(1,2,3,4,5),n=(1,2,...,500)

        當(dāng)[l]=1時,

        [oli]=[xi]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

        當(dāng)[l]≥2時,

        [ol=Wl*ol-1+bl]? ? ? ? ? ? ? ? ? ? ? ?(3)

        當(dāng)[l]=5時,此時為輸出層:使用多分類函數(shù)softmax計算得到輸出層的輸出:

        [y=exp(o4)n=1500exp(o4n)]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? [(4)]

        隱藏層間的激活函數(shù)relu:

        relu[(x)=max(0,x)]? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)

        ②信息反向傳播

        設(shè)代價函數(shù)(cost function)為[E],N為訓(xùn)練樣本個數(shù):

        [Etotal=12Ni=11||yi-xi||2]? ? ? ? ? ? ? ? ? ? ?[(6)]

        優(yōu)化目標(biāo)為確定W(權(quán)值)和b(偏置)使得損失函數(shù)[E]最小,采用梯度下降法更新參數(shù)的公式為:

        [Wl=Wl-δNi=1N?EiWl]? ? ? ? ? ? ? ? ? ? ? ? ?[(7)]

        [bl=bl-δNi=1N?Eibl]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? [(8)]

        式中:[δ]為學(xué)習(xí)速率,取值范圍(0,1]。

        3 實驗結(jié)果與分析

        本文采用BP網(wǎng)絡(luò)、CNN網(wǎng)絡(luò)做對比實驗用于驗證本文算法的優(yōu)勢。

        3.1 實驗結(jié)果

        3.2 實驗結(jié)果分析

        分別構(gòu)建基于MLP、BP和CNN的分類模型,得到RNA-Seq基因樣本在3種模型下的識別準(zhǔn)確率如表1所示。根據(jù)表1得知,在MLP模型中,準(zhǔn)確率為99.8%,分類效果較為理想;在BP模型中,準(zhǔn)確率為99.4%;在CNN模型中,準(zhǔn)確率為98.8%,分類效果相對較差。根據(jù)上述的分類結(jié)果可知,MLP模型能夠使用多類別基因數(shù)據(jù)識別方式對RNA-Seq數(shù)據(jù)樣本進行有效區(qū)分,且效果最佳。

        4 結(jié)束語

        本文提出了一種基于LASSO回歸和MLP模型構(gòu)建對多種癌組織樣本RNA-Seq基因序列的分類算法,本算法增加了訓(xùn)練樣本數(shù)量,與其他神經(jīng)網(wǎng)絡(luò)的分類方法相比具有較好的分類效果,且優(yōu)于文獻[9]的分類算法準(zhǔn)確99.3%。在LASSO回歸算法的基礎(chǔ)下,提取出樣本特征,為多層感知器提供了輸入數(shù)據(jù),增加了模型分類的準(zhǔn)確率和進一步提高了泛化能力?;贚ASSO回歸的多層感知器模型的識別的準(zhǔn)確率為99.8%,符合多種癌癥RNA-Seq基因序列的分類需求,同時也為其他基因數(shù)據(jù)分類方法提供借鑒。

        參考文獻:

        [1] DERISI JL, IYER VR, BROWN PO. Exploring the metabolic and genetic control of gene expression on a genomic scale[J]. Science, 1997, 278(5338): 680-686.

        [2] Tibshirani R. Regression shrinkage and selection via the lasso [J]. J Royal StatSocSer B Methodol, 1996, 58(1): 267-288.

        [3] 張靖, 胡學(xué)鋼, 李培培, 等. 基于迭代Lasso的腫瘤分類信息基因選擇方法研究 [J]. 模式識別與人工智能, 2014,27(1): 49-59.

        [4] 張靖, 胡學(xué)鋼, 張玉紅, 等. K-split Lasso: 有效的腫瘤特征基因選擇方法 [J]. 計算機科學(xué)與探索, 2012, 6(12): 1136-1143.

        [5] MA SG, SONG X, HUANG J. Supervised group Lasso with applications to microarray data analysis [J].BMC Bioinform, 2007, 8: 60.

        [6] 紀(jì)榮芳. 主成分分析法中數(shù)據(jù)處理方法的改進[J].山東科技大學(xué)學(xué)報(自然科學(xué)版), 2007,26(5): 95-98.

        [7] 王福友,白冰,徐平峰.基于SIS的基因表達數(shù)據(jù)分析[J].長春工業(yè)大學(xué)學(xué)報, 2017, 38(5): 417-420.

        [8] 張馳,郭媛,黎明.人工神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用綜述[J].計算機工程與應(yīng)用,2021,57(11):57-69.

        [9] 蔣文妍.基于RNA-Seq數(shù)據(jù)的癌癥標(biāo)志物研究[D].天津:天津工業(yè)大學(xué),2020.

        [10] Conesa A,Madrigal P,Tarazona S,et al.Erratumto:a survey of best practices for RNA-Seq data analysis[J].Genome Biology,2016,17(1):181.

        [11] YANG YH, DUDOIT S, LUU P, et al. Normalization for cDNAmicroarray data: a robust composite method addressing single and multiple slide systematic variation [J].Nucleic Acids Res,2002, 30(4): 15.

        收稿日期:2022-03-20

        基金項目:國家自然科學(xué)基金(61866006)

        作者簡介:顏瀅(1997—),女,廣西靈山人,碩士,主要研究方向為生物信息計算、智能計算;李文敬(1964—),男,廣西南寧人,教授,主要研究方向為并行計算、智能計算;李松釗(1994—),男,廣西靈山人,碩士,主要研究方向為智能計算。

        猜你喜歡
        基因表達特征提取
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        抗菌肽對細(xì)菌作用機制的研究
        基因芯片在胃癌及腫瘤球細(xì)胞差異表達基因篩選中的應(yīng)用
        美洲大蠊提取液對大鼠難愈合創(chuàng)面VEGF表達影響的研究
        二甲基砷酸毒理學(xué)的研究進展
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        Walsh變換在滾動軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        久久精品无码一区二区三区不 | 无码专区亚洲综合另类| 国产黄在线观看免费观看不卡| 亚洲AV无码精品呻吟| 国产在线拍91揄自揄视精品91| 一本久道竹内纱里奈中文字幕| 人与动牲交av免费| 四虎永久免费一级毛片| 午夜人妻中文字幕福利| 久久久麻豆精亚洲av麻花| 中国老熟女重囗味hdxx| 国产一区二区波多野结衣| 看全色黄大色大片免费久久久| 国产精品国产三级久久| 伊人久久大香线蕉综合影院首页| 在线免费观看国产精品| 亚洲一区二区三区在线| 国产精品女主播福利在线| 一区二区三区在线 | 欧| 亚洲AV无码乱码1区久久| 中文乱码字幕人妻熟女人妻| 人妻丝袜中文无码av影音先锋专区| 亚洲国产另类久久久精品黑人| 白色橄榄树在线免费观看| 日本av不卡一区二区三区| 国产老熟女网站| 91久久青青草原线免费| 色综久久综合桃花网国产精品| 亚洲国产av自拍一区| 国产成人免费一区二区三区| 久久青青草原国产精品最新片| 白嫩少妇高潮喷水av| 日本大骚b视频在线| 正在播放国产多p交换视频| 一区二区免费国产a在亚洲| 丰满少妇被猛烈进入高清播放| 色婷婷久久一区二区三区麻豆| 欧美日韩国产乱了伦| 风韵犹存丰满熟妇大屁股啪啪| 特级无码毛片免费视频尤物| 日韩精品国产自在欧美|