亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        單細(xì)胞RNA-seq數(shù)據(jù)缺失元素補(bǔ)全算法

        2020-09-27 12:56:58劉桂鋒
        關(guān)鍵詞:單細(xì)胞白血病分型

        崔 璐, 劉桂鋒

        (1. 吉林大學(xué) 中日聯(lián)誼醫(yī)院醫(yī)療保險管理部, 長春 130033; 2. 吉林大學(xué) 中日聯(lián)誼醫(yī)院放射線科, 長春 130033)

        單細(xì)胞DNA和RNA測序技術(shù)能幫助人們理解細(xì)胞功能和細(xì)胞異質(zhì)性, 是生物學(xué)和醫(yī)學(xué)領(lǐng)域的前沿技術(shù)[1]. 隨著單細(xì)胞測序數(shù)據(jù)的迅速增長, 數(shù)據(jù)分析與計算方法面臨新的挑戰(zhàn)[2]. 由于生物實(shí)驗(yàn)捕獲率較低, 導(dǎo)致單細(xì)胞(RNA-seq)數(shù)據(jù)存在較高比例的缺失值問題. 文獻(xiàn)[3]研究表明, 在小鼠胚胎單細(xì)胞測序數(shù)據(jù)中缺失元素比例達(dá)30%. 如果直接刪除高比例的缺失值, 則將導(dǎo)致重要信息的缺失.

        為了解決上述問題并更好地實(shí)現(xiàn)細(xì)胞分型和功能分析, 文獻(xiàn)[2]提出了一種兩階段機(jī)器學(xué)習(xí)識別估計方法, 該方法能有效識別出缺失值的位置并估計缺失值大小, 但該方法計算復(fù)雜度較高. 文獻(xiàn)[4]將缺失值定義為假陰性誤差, 并提出了一種基于Bayes方法的單細(xì)胞差異表達(dá)數(shù)據(jù)分析方法, 該方法需先假設(shè)缺失值滿足的分布, 但找到缺失值的準(zhǔn)確分布是一個難題[5]. 因此, 本文提出一種基于非負(fù)矩陣分解的單細(xì)胞RNA-seq數(shù)據(jù)缺失值補(bǔ)全算法. 該方法通過迭代求解法尋找最佳重構(gòu)基因表達(dá)矩陣.

        1 單細(xì)胞RNA-seq數(shù)據(jù)缺失模型

        給定一個單細(xì)胞RNA-seq基因表達(dá)矩陣E∈n×m, 其中包含n個基因和m個細(xì)胞樣本. 設(shè)該表達(dá)矩陣中缺失值集合為L, 0≤i

        (i,j)=F(li,j,E),ei,j=0,

        (1)

        E′(i,j)=Q(L(i,j),E),

        (2)

        其中: (i,j)表示E中的任一缺失值;F(·)表示缺失值識別函數(shù);Q(·) 表示缺失值補(bǔ)全函數(shù);E′為補(bǔ)全后的單細(xì)胞RNA-seq基因表達(dá)矩陣. 上述模型與傳統(tǒng)數(shù)據(jù)補(bǔ)全模型的不同: 單細(xì)胞RNA-seq基因表達(dá)矩陣中的缺失值位置和數(shù)量均未知, 因此, 對該矩陣進(jìn)行補(bǔ)全, 傳統(tǒng)缺失值補(bǔ)全方法已不再適用. 單細(xì)胞RNA-seq數(shù)據(jù)缺失模型需同時解決3個問題, 即矩陣中缺失值元素的位置、 數(shù)量和補(bǔ)全值.

        2 迭代重構(gòu)基因表達(dá)矩陣算法

        為解決單細(xì)胞RNA-seq數(shù)據(jù)中的缺失值問題, 文獻(xiàn)[2]利用式(1)和式(2)先后調(diào)用不同的機(jī)器學(xué)習(xí)模型求解, 較好地解決了缺失值問題, 但上述方法求解過程繁瑣且計算復(fù)雜度較高. 本文將非負(fù)矩陣分解算法引入到單細(xì)胞RNA-seq數(shù)據(jù)補(bǔ)全問題中求解. 對給定的單細(xì)胞RNA-seq基因表達(dá)矩陣E, 求解非負(fù)矩陣W∈n×t和H∈t×m為min{En×m-Wn×t×Ht×m}. 因此, 該求解過程是一個迭代求解W和H的過程. 其中W和H在非負(fù)矩陣分解求解過程中的更新規(guī)則[6]為

        (3)

        求出W和H后, 二者的矩陣點(diǎn)積為非負(fù)矩陣分解算法得到的結(jié)果矩陣. 結(jié)果矩陣中會估計出原始基因表達(dá)矩陣中缺失元素的表達(dá)值.

        經(jīng)過非負(fù)矩陣分解算法補(bǔ)全后的重構(gòu)基因表達(dá)矩陣計算方法如下:

        (4)

        其中, 缺失值由非負(fù)矩陣分解結(jié)果矩陣補(bǔ)全, 而非缺失值位置的基因表達(dá)值E(u,v)保留原始表達(dá)值.

        經(jīng)典非負(fù)矩陣分解求解前需結(jié)合人工經(jīng)驗(yàn)輸入rank值, 該值大小會直接影響結(jié)果矩陣的誤差. 通過前期實(shí)驗(yàn)表明, 即使rank值發(fā)生很小的變化, 都會對結(jié)果產(chǎn)生較大影響. 針對該問題, 本文提出一種迭代重構(gòu)基因表達(dá)矩陣算法, 算法步驟如下.

        1) 算法輸入: 輸入單細(xì)胞RNA-seq基因表達(dá)矩陣E和初始誤差閾值ε0;

        2) 初始化參數(shù): 根據(jù)數(shù)據(jù)設(shè)定rank值搜索范圍(2~θ)(50≤θ≤m)及當(dāng)前誤差ε=ε0;

        3) 迭代求解非負(fù)矩陣: 根據(jù)式(3)和當(dāng)前rankt值, 迭代求解W和H;

        4) 計算誤差εt+1, 若εt+1<εt則轉(zhuǎn)步驟3), 否則執(zhí)行步驟5);

        5) 輸出結(jié)果矩陣: 根據(jù)式(4)計算E′和缺失值元素集合L;

        6) 用t-SNE(t-distributed stochastic neighbor embedding)方法繪制細(xì)胞分型圖譜.

        3 實(shí)驗(yàn)和分析

        為檢驗(yàn)算法的有效性, 本文收集并整理了慢性粒細(xì)胞白血病單細(xì)胞測序數(shù)據(jù). 該數(shù)據(jù)來源于美國國家生物信息中心(NCBI)的基因表達(dá)數(shù)據(jù)庫, 數(shù)據(jù)檢索號為GSE76312[7]. 該原始數(shù)據(jù)共包含2 287個干細(xì)胞和23 384個基因, 本文選擇其中1 102個不含絡(luò)氨酸激酶抑制劑的細(xì)胞, 并利用偽發(fā)現(xiàn)率和差異倍數(shù)選取前234個差異表達(dá)基因. 將該數(shù)據(jù)分為5類: 急變期慢性粒細(xì)胞白血病細(xì)胞(BC-CML)、 慢性期慢性髓性白血病細(xì)胞(CP-CML)、 人紅白血病細(xì)胞系(k562)、 正常造血干細(xì)胞(normal)和前急變期慢性粒細(xì)胞白血病細(xì)胞(preBC).

        圖1為慢性粒細(xì)胞白血病單細(xì)胞測序原始數(shù)據(jù)分型與迭代重構(gòu)基因表達(dá)矩陣數(shù)據(jù)細(xì)胞分析比較結(jié)果. 用t-SNE方法進(jìn)行分型數(shù)據(jù)的可視化, 該方法是一種非線性降維和可視化方法[8], 目前已被廣泛應(yīng)用于腫瘤亞型分析[9]、 雷達(dá)目標(biāo)識別[10]及人物動作識別[11]等領(lǐng)域, 并取得了較好的可視化效果. 由圖1(A)可見, 該數(shù)據(jù)經(jīng)過細(xì)胞和差異表達(dá)基因的過濾篩選, 呈現(xiàn)了數(shù)據(jù)的可分性, 但5種類型的細(xì)胞簇被劃分的較分散, 且正常造血干細(xì)胞簇被分割開, 圖1(A)中左下側(cè)藍(lán)色橢圓簇類中包含了4種不同類別的細(xì)胞. 該分類結(jié)果表明, 慢性期慢性髓性白血病細(xì)胞、 前急變期慢性粒細(xì)胞白血病細(xì)胞和正常造血干細(xì)胞被混淆在一起. 由圖1(B)可見, 大部分正常造血干細(xì)胞聚集在右上角的藍(lán)色橢圓簇類中, 且該簇類中的前急變期慢性粒細(xì)胞白血病細(xì)胞和慢性期慢性髓性白血病細(xì)胞都明顯少于圖1(A). 因此, 迭代重構(gòu)基因表達(dá)矩陣數(shù)據(jù)細(xì)胞分型的結(jié)果更準(zhǔn)確.

        圖1 原始數(shù)據(jù)與迭代重構(gòu)基因表達(dá)矩陣數(shù)據(jù)細(xì)胞分型結(jié)果比較Fig.1 Comparison of cell typing results between original data and iterative reconstruction matrix of gene expression data

        綜上所述, 針對單細(xì)胞RNA-seq數(shù)據(jù)中存在缺失值的問題, 本文提出了一種單細(xì)胞RNA-seq數(shù)據(jù)缺失元素補(bǔ)全算法. 首先定義了單細(xì)胞RNA-seq基因表達(dá)矩陣數(shù)據(jù)缺失模型, 然后提出了迭代重構(gòu)基因表達(dá)矩陣算法, 并將該算法應(yīng)用到慢性粒細(xì)胞白血病單細(xì)胞測序原始數(shù)據(jù)中, 取得了更準(zhǔn)確的細(xì)胞分型結(jié)果.

        猜你喜歡
        單細(xì)胞白血病分型
        白血病男孩終于摘到了星星
        軍事文摘(2024年2期)2024-01-10 01:59:00
        人工智能助力微生物單細(xì)胞鑒定
        科學(xué)(2020年4期)2020-11-26 08:27:16
        失眠可調(diào)養(yǎng),食補(bǔ)需分型
        便秘有多種 治療須分型
        一例蛋雞白血病繼發(fā)細(xì)菌感染的診治
        白血病外周血體外診斷技術(shù)及產(chǎn)品
        基于分型線驅(qū)動的分型面設(shè)計研究
        聯(lián)合SNaPshot和單倍型分析技術(shù)建立G6PD缺乏癥單細(xì)胞基因診斷體系
        單細(xì)胞測序技術(shù)研究進(jìn)展
        頸椎病中醫(yī)辨證分型與影像探討
        麻豆国产VA免费精品高清在线| 国模冰莲自慰肥美胞极品人体图 | 国产精品免费无遮挡无码永久视频| 中文在线8资源库| 亚洲碰碰人人av熟女天堂| 久久久国产精品ⅤA麻豆百度| 青青草视频在线免费视频| 国产精品精品国产色婷婷| 成年站免费网站看v片在线| 国产呦系列呦交| 亚洲av成人一区二区三区网址| 黄片午夜免费观看视频国产| 亚洲免费女女在线视频网站| 国产99视频精品免视看7 | 国产成人精品久久一区二区三区| 欧美丰满大乳高跟鞋| 久久久久人妻精品一区5555| 亚洲精品一区二区三区麻豆| 蜜桃传媒免费在线播放| 日韩精品内射视频免费观看| 国产av国片精品| 日韩午夜在线视频观看| 国产一区二区av在线免费观看| 婷婷成人丁香五月综合激情| av香港经典三级级 在线| 五月天无码| 女同亚洲一区二区三区精品久久 | 亚洲乱码中文字幕久久孕妇黑人| 男受被做哭激烈娇喘gv视频| 国产一线视频在线观看高清| 日本在线无乱码中文字幕| 日韩 亚洲 制服 欧美 综合| 国产肥熟女视频一区二区三区 | 亚洲国产精品久久性色av| 一本色综合网久久| 日韩吃奶摸下aa片免费观看| 国产在线观看黄| 国产精品日本一区二区三区在线 | 欧洲国产精品无码专区影院| 色婷婷久久综合中文久久一本| 国产精品婷婷久久爽一下|