亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自主學(xué)習(xí)與SCAD-Net正則化的回歸模型①

        2022-01-05 10:06:30陳浩杰
        關(guān)鍵詞:正則懲罰樣本

        劉 杰, 陳浩杰

        1(中國科學(xué)技術(shù)大學(xué) 管理學(xué)院, 合肥 230026)

        2(中國科學(xué)技術(shù)大學(xué) 國際金融研究院, 合肥 230026)

        基因組學(xué)研究的一個(gè)關(guān)鍵問題是如何確定與疾病相關(guān)的基因及其生物途徑, 常見的做法是通過將高維基因組數(shù)據(jù)(如微陣列基因表達(dá)數(shù)據(jù))與各種臨床結(jié)果聯(lián)系起來構(gòu)建疾病診斷預(yù)測模型. 然而, 迄今為止, 雖然許多基因生物標(biāo)志物研究[1,2]已經(jīng)完成, 但目前提出的眾多相關(guān)方法在臨床應(yīng)用中均難以得到令人滿意的結(jié)果. 其原因主要在于研究樣本量太小[3,4], 從而導(dǎo)致統(tǒng)計(jì)效能降低, 進(jìn)而得到可信度較低甚至錯(cuò)誤的結(jié)論. 因此, 充足的樣本是產(chǎn)生有效統(tǒng)計(jì)分析和結(jié)論的必要條件. 另一方面, 數(shù)據(jù)收集技術(shù)的進(jìn)步促使現(xiàn)行可用生物數(shù)據(jù)日益增多, 于是有學(xué)者提出了數(shù)據(jù)融合的思想, 即綜合多個(gè)數(shù)據(jù)集或有關(guān)結(jié)果. 然而, 盡管一些基因表達(dá)研究有著相同的目標(biāo), 但所用數(shù)據(jù)集通常是來自不同的處理設(shè)備、不同的數(shù)據(jù)平臺, 甚至彼此之間具有不同的數(shù)值尺度, 從而導(dǎo)致批量效應(yīng)的存在. 因此, 直接整合不同的基因表達(dá)數(shù)據(jù)將會給統(tǒng)計(jì)分析帶來巨大挑戰(zhàn).

        為解決上述問題, 研究者們做了大量的工作, 主要分為以下兩類: 元分析和融合分析[5]方法. 元分析即利用統(tǒng)計(jì)的概念與方法去收集、整理以及分析之前學(xué)者針對某個(gè)主題所做的眾多實(shí)證研究. 然而, 元分析對一些必要條件較為敏感, 稍加違反就可能造成錯(cuò)誤性結(jié)論[6]. 融合分析是對不同的數(shù)據(jù)集進(jìn)行整合并以此作為研究數(shù)據(jù)集. 相比元分析, 融合分析具有更多的樣本從而更具統(tǒng)計(jì)效用. 近年來, 基于融合分析的方法層出不窮, 如Benito等[7]提出的距離加權(quán)判別法(DWD),Johnson等[8]提出的經(jīng)驗(yàn)貝葉斯方法(EB), Shabalin等[9]提出的跨平臺標(biāo)準(zhǔn)化方法(XPN), Deshwar等[10]提出的PLIDA方法以及Deng等[11]提出的WaveICA方法. 然而, 由于批量效應(yīng)的存在, 且其來源復(fù)雜無法消除, 導(dǎo)致以上方法均可能給融合數(shù)據(jù)集帶來新的系統(tǒng)誤差, 使其變得更加復(fù)雜. 因此, 直接分析融合后的數(shù)據(jù)可能會引起一些問題[12,13], 需要提出一種新的方法來解決數(shù)據(jù)融合問題.

        Kumar等[14]提出的自主學(xué)習(xí)(Self-Paced Learning,SPL)方法可以根據(jù)模型已經(jīng)學(xué)習(xí)的內(nèi)容自適應(yīng)地識別簡單和困難樣本, 并且隨著模型訓(xùn)練的不斷進(jìn)行, 越來越多的困難樣本進(jìn)入模型. SPL方法可以在很大程度上克服批量效應(yīng), 并且其應(yīng)用較為廣泛, 目前已成功應(yīng)用于各種機(jī)器學(xué)習(xí)問題[15]. 此外, Ma等[16]還對SPL方法的收斂性質(zhì)進(jìn)行了補(bǔ)充和討論, 使其在理論上更加豐富.

        除樣本規(guī)模問題之外, 樣本維度是另一研究熱點(diǎn).許多研究中的樣本維數(shù)通常遠(yuǎn)遠(yuǎn)大于樣本數(shù)量, 即常見的高維度低樣本問題. 這在生物統(tǒng)計(jì)中尤為常見, 如基因表達(dá)數(shù)據(jù). 為解決該問題, 研究者們提出了許多正則化方法, 用于在回歸框架中識別與臨床表型相關(guān)的基因, 如Lasso[17]、SCAD[18]、Elastic-Net[19]、Fused Lasso[20]、Lars[21]、adaptive Lasso[22]、Group Lasso[23]以及L1/2+2混合正則化方法[24-26]. 然而, 以上正則化方法都存在共同的局限性, 即這些方法僅是從計(jì)算或算法的角度出發(fā), 沒有利用任何先驗(yàn)知識或信息.但對于許多復(fù)雜的疾病尤其是癌癥, 許多生物學(xué)途徑信息對于了解治療疾病具有較大的效用, 并且該信息可以從多年的生物醫(yī)學(xué)研究中獲得, 故將此種先驗(yàn)信息納入模型考慮應(yīng)該會有更好的預(yù)測效果.

        本文將基于SPL方法構(gòu)建一個(gè)更精確的基因表達(dá)預(yù)測模型. 首先我們將不同的基因表達(dá)數(shù)據(jù)集融合到一個(gè)統(tǒng)一的數(shù)據(jù)集中, 緊接著在線性回歸的背景下將SPL方法與SCAD網(wǎng)絡(luò)懲罰相結(jié)合得到最終的回歸預(yù)測模型. 具體來說, 該模型由3部分組成: (1) SCAD罰函數(shù). 利用SCAD懲罰來增強(qiáng)模型的稀疏性, 該懲罰不僅為大系數(shù)提供了無偏估計(jì), 并且具有較高的理論價(jià)值, 例如Oracle性質(zhì)[18]; (2)基于網(wǎng)絡(luò)的懲罰, 利用網(wǎng)絡(luò)懲罰來實(shí)現(xiàn)基因調(diào)控網(wǎng)絡(luò)上相鄰節(jié)點(diǎn)系數(shù)之間的平滑; (3) SPL方法, 促使模型自適應(yīng)地從簡單樣本(高置信度樣本)向復(fù)雜樣本(低置信度樣本)上過渡. SPL方法對于分析融合數(shù)據(jù)是至關(guān)重要的, 因?yàn)槿诤蠑?shù)據(jù)往往存在較大的噪聲以及異常值點(diǎn).

        本文接下來內(nèi)容安排如下: 第1節(jié)提出了一個(gè)基于SCAD網(wǎng)絡(luò)懲罰的線性回歸模型, 緊接著介紹了自主學(xué)習(xí)(SPL)方法并將其與SCAD網(wǎng)絡(luò)懲罰相結(jié)合從而得到最終的預(yù)測模型; 第2節(jié)首先對SCAD網(wǎng)絡(luò)懲罰函數(shù)的理論性質(zhì)進(jìn)行簡單分析, 包括群組效應(yīng)以及漸近性質(zhì); 然后給出一種求解本文所提出模型的有效算法; 在第3節(jié)中, 通過不同情形下的模擬數(shù)據(jù)以及在乳腺癌細(xì)胞系數(shù)據(jù)集上的分析結(jié)果來評估本文所提出模型的預(yù)測效果. 第4節(jié)是結(jié)論與展望.

        1 SCAD網(wǎng)絡(luò)正則化與自主學(xué)習(xí)方法

        1.1 SCAD網(wǎng)絡(luò)正則化

        假設(shè)數(shù)據(jù)集D={(x1,y1),(x2,y2),···,(xn,yn)}, 其中xi=(xi1,xi2,···,xip)T表 示第i個(gè) 樣本,yi為對應(yīng)的響應(yīng)變量, 記X=(x1,x2,···,xp),Y=(y1,y2,···,yn)T. 進(jìn)一步, 假設(shè)各個(gè)預(yù)測因子xi(i=1,2,···,p)經(jīng)過標(biāo)準(zhǔn)化處理, 響應(yīng)變量y經(jīng)過去中心化處理, 從而有:

        本文考慮最簡單的線性回歸模型:

        式中, β=(β1,β2,···,βp)T為要估計(jì)的參數(shù), εi表示均值為0, 方差為σ2的誤差項(xiàng). 上述模型的平方損失函數(shù)可以表示為:

        在許多研究當(dāng)中, 樣本維度通常遠(yuǎn)遠(yuǎn)大于樣本數(shù)量,即高維度低樣本問題. 在這種情形下, 線性回歸并不能夠直接用來估計(jì)回歸參數(shù). 由此, 引入了正則化方法, 即:

        其中,P(β)表示正則化項(xiàng). 高維變量選擇中常用的正則化方法為L1約束, 即Lasso方法, 具體可以表示為這里λ 表示任意非負(fù)數(shù), 一般可使用k折交叉驗(yàn)證方法確定. 由于L1罰函數(shù)具有奇異性,故基于L1懲罰的線性回歸模型可以將一些系數(shù)較小的參數(shù)壓縮為0從而達(dá)到變量選擇的效果. 但當(dāng) λ過大時(shí), β估計(jì)量中系數(shù)較大的參數(shù)會存在較大偏差, 而當(dāng)λ 過小時(shí), β估計(jì)量則不夠稀疏. 為克服這一問題,Fan等[18]提出了SCAD懲罰函數(shù), 其具體形式為:

        其中,a為一個(gè)大于2的超參數(shù), 根據(jù)文獻(xiàn)[18], 可將其設(shè)為3.7, 當(dāng)然也可以通過交叉驗(yàn)證的方法加以確定. 從表達(dá)式(1)可以發(fā)現(xiàn), 當(dāng)| β|較小時(shí), 懲罰函數(shù)為線性函數(shù);當(dāng)| β|較 大時(shí), 懲罰函數(shù)為二次懲罰; 當(dāng)| β|很大時(shí), 懲罰項(xiàng)為常數(shù). SCAD懲罰函數(shù)關(guān)于 β的一階導(dǎo)函數(shù)為:

        在非0處, 對任意 βj≈zj, 由二階泰勒展開可得:

        此外, 對于協(xié)變量之間存在高相關(guān)性的問題, Zou等[19]提出了Elastic-Net懲罰函數(shù), 其具體表達(dá)為Zeng等[27]提出了SCAD-L2懲 罰, 該懲罰同時(shí)結(jié)合SCAD和L2懲罰. 以上幾種方法都可以實(shí)現(xiàn)群組效應(yīng), 即具有強(qiáng)相關(guān)性的預(yù)測因子要么同時(shí)被選中, 要么同時(shí)被剔除. 然而, 上述幾種方法都是從計(jì)算的角度出發(fā), 都沒有考慮先驗(yàn)信息, 如網(wǎng)絡(luò)拓?fù)湫畔?

        我們知道, 生物統(tǒng)計(jì)中的基因交互信息對于識別基因組模式具有重要價(jià)值. 該先驗(yàn)信息可以用一個(gè)加權(quán)圖G=(N,E,W) 來表示, 其中N是網(wǎng)絡(luò)節(jié)點(diǎn)集, 表示p個(gè)預(yù)測因子,E={u~v}是圖中邊的集合, 表示節(jié)點(diǎn)u和v之間有邊相連,W={w(u,v)}則表示邊上的權(quán)重. 近年來, 網(wǎng)絡(luò)懲罰出現(xiàn)在大量現(xiàn)實(shí)應(yīng)用中, 例如, Li等[28],Chen等[29]以及Wang等[30]利用基于網(wǎng)絡(luò)的L1懲罰對基因組數(shù)據(jù)進(jìn)行回歸分析并進(jìn)行變量選擇. 在這些研究當(dāng)中, 網(wǎng)絡(luò)懲罰函數(shù)被定義為拉普拉斯矩陣的二次型. 然而, 在某些情況下,L1懲罰存在偏差并且可能導(dǎo)致結(jié)果不夠稀疏, 而SCAD懲罰可以避免過度懲罰并且具有良好的統(tǒng)計(jì)性質(zhì). 因此, 本文給出基于網(wǎng)絡(luò)的SCAD-Net懲罰函數(shù)(SCAD Network-based penalized fuction, SCAD-Net):

        其中,L表示拉普拉斯矩陣, 根據(jù)文獻(xiàn)[31], 可將其定義為:

        其中, 參數(shù) λ1與 λ2分別控制參數(shù)估計(jì)的稀疏度與光滑度. 進(jìn)一步, 在線性回歸背景下, 可以得到基于SCADNet懲罰的線性回歸模型(SCAD-Net penalized Linear regression, SNL):

        其中, 第1項(xiàng)表示線性回歸的損失函數(shù); 第2項(xiàng)表示SCAD懲罰函數(shù), 保證參數(shù)估計(jì)的稀疏性, 并且強(qiáng)化結(jié)果的可解釋性; 最后一項(xiàng)表示基于網(wǎng)絡(luò)的懲罰函數(shù), 保證參數(shù)估計(jì)的光滑性, 并且將網(wǎng)絡(luò)結(jié)構(gòu)信息與基因表達(dá)數(shù)據(jù)相融合.

        1.2 自主學(xué)習(xí)策略

        盡管正則化方法在基因數(shù)據(jù)分析, 變量選擇等方面扮演非常重要的角色, 但最終得到的結(jié)論卻鮮少在臨床中得到應(yīng)用. 這是因?yàn)樯鲜鼋Y(jié)論都是基于小樣本數(shù)據(jù), 導(dǎo)致結(jié)果的可信度較低. 為解決這一問題, 有人提出通過整合不同的數(shù)據(jù)集來生成人工大樣本數(shù)據(jù).然而, 這些數(shù)據(jù)整合的方法并不能消除內(nèi)部偏差, 甚至可能會增加新的誤差.

        受人類學(xué)習(xí)機(jī)制的啟發(fā), Kumar等[14]提出了自主學(xué)習(xí)(SPL)方法, 該方法首先通過低噪聲樣本學(xué)習(xí)一個(gè)基礎(chǔ)模型, 然后通過高噪聲樣本學(xué)習(xí)使模型變得更加穩(wěn)健, 該方法可以顯著提高融合數(shù)據(jù)集的統(tǒng)計(jì)分析效用. 并且Kumar表示, 通過引入一個(gè)懲罰項(xiàng), 可以將自主學(xué)習(xí)方法視為優(yōu)化模型, 具體可以表示為:

        為了加強(qiáng)對融合數(shù)據(jù)分析的準(zhǔn)確性與魯棒性, 本文將SPL方法與SCAD-Net正則化在線性回歸的背景下相結(jié)合, 從而得到最終的回歸模型(Self-paced learning and SCAD-Net penalized Linear regression, SSNL):

        其中, 第1項(xiàng)表示加權(quán)的線性回歸模型, 最后兩項(xiàng)表示SCAD-Net懲罰函數(shù).

        2 理論性質(zhì)及求解方法

        2.1 理論性質(zhì)

        本小節(jié)我們給出與SCAD-Net正則化方法相關(guān)的性質(zhì), 包括群組效應(yīng)以及在p固 定且n→∞ 情形下的漸近性質(zhì).

        2.1.1 群組效應(yīng)

        Huang等[32]證明了SCAD-Net懲罰函數(shù)具有群組效應(yīng), 如引理1與引理2所示, 其具體證明過程見文獻(xiàn)[32].

        引理1可看作Zou等[19]中引理2的進(jìn)一步結(jié)果, 其保證在兩個(gè)預(yù)測變量相等時(shí), 估計(jì)參數(shù)具有群組效應(yīng).

        則有:

        引理2給出SCAD-Net懲罰函數(shù)群組效應(yīng)的量化描述, 即在滿足以上條件的前提下, 兩個(gè)參數(shù)的差異具有上界約束. 進(jìn)一步, 若樣本相關(guān)系數(shù) ρ趨于1, 則兩個(gè)估計(jì)參數(shù)幾乎相同.

        2.1.2 漸近性

        SCAD-Net懲罰線性回歸的目標(biāo)函數(shù)為:

        證明: 定義

        進(jìn)一步, 根據(jù)式(2)和式(3)可知:

        對任意 βj≈zj, 有:

        同樣地, 關(guān)于第三項(xiàng)有:

        因此, 在有限維收斂的情況下有:

        又Vn為凸函數(shù)且V有最小值, 可得:

        證畢.

        2.2 求解方法

        本節(jié)給出模型SSNL的求解算法, 具體如下:

        (1) 固定v更新 β時(shí), 相當(dāng)于解決SCAD-Net正則化回歸問題, 即SNL. 本文利用坐標(biāo)下降法進(jìn)行求解,具體來說, 式(8)關(guān)于 βj(j=1,2,···,p)求導(dǎo), 可得:

        令其等于0, 有:

        具體更新算法如算法1所示.

        算法1. SNL t=0,βj(t)=βj0 β0 1. 令 , 其中 為OLS估計(jì)量, 各調(diào)優(yōu)參數(shù)可利用交叉驗(yàn)證方法得到;βj(t),j=1,2,···,p 2. 通過式(9)依次更新 ;t←t+1 3. 令 , 重復(fù)步驟2直至:p∑j=1|βj(t)-βj(t-1)|<10-6

        (2) 固定 β更新v時(shí), 式(8)關(guān)于vi求導(dǎo), 可得:

        進(jìn)而有:

        對于樣本i, 若其損失小于超參數(shù) τ, 則可將其視為高質(zhì)量樣本, 相對應(yīng)的vi設(shè)為1, 否則設(shè)為0. 顯然, 對于樣本損失小于 τ的樣本會被納入模型中. 一旦得到v,我們進(jìn)一步增大 τ的值, 這樣具有更大損失的樣本將會進(jìn)入模型當(dāng)中, 重復(fù)上述步驟直至收斂, 完整算法如算法2所示.

        3 數(shù)值結(jié)果

        3.1 模擬數(shù)據(jù)分析

        為檢驗(yàn)本文所提出SSNL模型的預(yù)測表現(xiàn), 我們首先按照以下方式模擬出一個(gè)簡單的基因調(diào)控網(wǎng)絡(luò):假設(shè)有200個(gè)轉(zhuǎn)錄因子(TFs), 每個(gè)轉(zhuǎn)錄因子調(diào)控10個(gè)基因,由此產(chǎn)生由2200個(gè)基因(節(jié)點(diǎn))組成的生物基因調(diào)控網(wǎng)絡(luò), 轉(zhuǎn)錄因子之間以及與其調(diào)控的基因之間形成網(wǎng)絡(luò)的邊. 為了簡單起見, 我們進(jìn)一步假設(shè)模型中只有4個(gè)轉(zhuǎn)錄因子以及其調(diào)控的基因與響應(yīng)變量y有關(guān). 對于第一個(gè)模型, 我們按照以下方式來生成相關(guān)數(shù)據(jù):

        (3) ε為誤差項(xiàng), 且εi~5×N(0,1).

        (4) 200個(gè)轉(zhuǎn)錄因子服從標(biāo)準(zhǔn)正態(tài)分布, 即xTFj~N(0,1),j=1,2,···,200.

        (5) 每個(gè)TF與其調(diào)控的單個(gè)基因均服從二元正態(tài)分布, 且相關(guān)系數(shù)為 ρ.

        對于模型2, 我們假設(shè)

        其他設(shè)置與模型1完全一致. 該模型假設(shè)同一轉(zhuǎn)錄因子所調(diào)控的基因既可以對響應(yīng)變量y產(chǎn)生正影響,也可以對其產(chǎn)生負(fù)影響.

        我們將模擬數(shù)據(jù)分為訓(xùn)練集和測試集, 其中訓(xùn)練集所占比例為70%. 在實(shí)際應(yīng)用中, 人們通常使用k(k=3,5或10)折交叉驗(yàn)證的方法來選擇調(diào)優(yōu)參數(shù), 然而, 不同的k折交叉驗(yàn)證的方法很可能產(chǎn)生非常相似的預(yù)測結(jié)果[33,34]. 此外, 研究結(jié)果表明將交叉驗(yàn)證的折數(shù)從10減少到3, 可以使算法的計(jì)算時(shí)間減少一半以上. 鑒于本文所提出的模型存在多個(gè)調(diào)優(yōu)參數(shù), 因此, 最終我們采用3折交叉驗(yàn)證的方法來選擇最佳調(diào)優(yōu)參數(shù).

        將基因相關(guān)系數(shù) ρ分別設(shè)為0.2、0.5以及0.7. 每種情況都獨(dú)立重復(fù)模擬50次, 并計(jì)算得到相應(yīng)的均方誤差(PMSE). 我們還進(jìn)一步給出表征模型特征選擇效果的兩個(gè)指標(biāo), 分別是P和TP. 其中P表示模型中非零系數(shù)的個(gè)數(shù), TP表示實(shí)際模型中非零系數(shù)的個(gè)數(shù).表1給出了各模型在不同情形下的模擬結(jié)果, 其中Lasso-Net表示Lasso和網(wǎng)絡(luò)正則化; SCAD-Net表示不使用自主學(xué)習(xí)方法的SCAD和網(wǎng)絡(luò)正則化.

        如表1所示, 在不同模型不同相關(guān)系數(shù)下, 本文提出的SSNL方法相比于Lasso-Net和SCAD-Net方法均給出最小的PMSE. 此外, 在識別真正相關(guān)基因時(shí),SSNL相比于其他兩種方法具有最高的準(zhǔn)確性(TP). 例如, 在 ρ=0.7 的情形下, 利用SSNL模型計(jì)算得到的TP值均超過40, 幾乎達(dá)到模型的真實(shí)值44. 上述結(jié)果表明SSNL方法在處理高維度低樣本、高噪聲、高相關(guān)性的復(fù)雜數(shù)據(jù)集時(shí)具有良好的表現(xiàn).

        表1 各模型在不同情形下的模擬結(jié)果

        3.2 實(shí)際數(shù)據(jù)分析

        為進(jìn)一步論證SSNL模型的預(yù)測效果, 我們收集得到了乳腺癌細(xì)胞系數(shù)據(jù)集. 該數(shù)據(jù)集共有56個(gè)樣本,其中每個(gè)樣本都隸屬于一個(gè)確定的細(xì)胞亞型, 通過對其進(jìn)行編碼可以得到一個(gè)數(shù)值型響應(yīng)變量. 此外, 每個(gè)乳腺細(xì)胞樣本包含39 653個(gè)基因, 并且這些基因之間存在交互關(guān)系. 通過加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析, 我們可以得到相應(yīng)的加權(quán)網(wǎng)絡(luò). 然后將基因表達(dá)數(shù)據(jù)與該調(diào)控網(wǎng)絡(luò)相結(jié)合, 得到最終的研究數(shù)據(jù)集. 我們旨在探索基因網(wǎng)絡(luò)與關(guān)注的表型之間的關(guān)聯(lián)關(guān)系以及網(wǎng)絡(luò)中的核心基因.

        我們將數(shù)據(jù)集隨機(jī)打亂, 使約70%的樣本成為訓(xùn)練樣本, 剩余30%的樣本作為測試樣本. 類似于上文模擬中的情形, 我們采用3折交叉驗(yàn)證來估計(jì)得到最佳的調(diào)優(yōu)參數(shù). λ1與 λ2的候選值均來自于{0.01: 0.1:5}(起始值: 步長: 終值), μ來自于{1.1: 0.1: 3}以及 τ來自于{0.1: 0.05: 0.5}. 獨(dú)立重復(fù)10次, 計(jì)算得到相應(yīng)的均方誤差(PMSE)以及模型中非零系數(shù)的個(gè)數(shù)P, 具體結(jié)果如表2所示.

        表2 各模型在乳腺癌細(xì)胞系數(shù)據(jù)集上的結(jié)果

        從表2可以看出, 本文提出的SSNL方法給出了最小的PMSE, 其表現(xiàn)顯著優(yōu)于Lasso-Net方法, 且優(yōu)于不使用自主學(xué)習(xí)的SCAD-Net方法. 此外, 在特征選擇方面, 盡管3種方法的數(shù)值表現(xiàn)效果相當(dāng), 但SSNL方法仍優(yōu)于其他兩種對比方法. 上述結(jié)果再次說明本文所提出的SSNL模型在處理高維復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)集時(shí)具有良好的表現(xiàn).

        4 結(jié)論與展望

        融合分析為基因組研究提供了一種有效的分析角度. 傳統(tǒng)的融合分析方法是將多個(gè)數(shù)據(jù)集組合成一個(gè)集成的數(shù)據(jù)集, 然后直接對數(shù)據(jù)進(jìn)行分析. 然而, 這種集成方法非但不能消除內(nèi)部偏差, 甚至可能給融合數(shù)據(jù)集增加新的隨機(jī)噪聲和估計(jì)誤差, 從而降低融合分析的統(tǒng)計(jì)功效. 本文提出了一種新的融合分析模型SSNL, 該模型融合了自主學(xué)習(xí)(SPL)和SCAD-Net正則化方法. 一方面, SPL方法能夠先從低噪聲樣本中學(xué)習(xí)出一個(gè)基本模型, 然后通過高噪聲樣本學(xué)習(xí)使得模型更加穩(wěn)健. 另一方面, 特征選擇是SSNL模型的重要組成部分. SCAD罰函數(shù)是一種常見的特征選擇方法,但SCAD罰函數(shù)僅是從計(jì)算的角度出發(fā), 沒有利用任何先驗(yàn)信息. 故在已有研究的基礎(chǔ)上, 本文給出了結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)信息的SCAD-Net懲罰, 并對這一問題進(jìn)行了一些理論探究, 包括群組效應(yīng)和漸近性質(zhì). 不同情形下的模擬分析結(jié)果以及在乳腺癌細(xì)胞系數(shù)據(jù)集上的分析結(jié)果均表明, SSNL方法在處理高維復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)集時(shí)具有良好的預(yù)測表現(xiàn).

        本文使用3折交叉驗(yàn)證(CV)方法來選擇SSNL模型中出現(xiàn)的懲罰參數(shù). 然而, 當(dāng)遇到多個(gè)超參數(shù)時(shí),使用CV方法進(jìn)行網(wǎng)格搜索需要消耗大量的時(shí)間與內(nèi)存. 最近, 一種進(jìn)化計(jì)算(EC)方法被用來調(diào)整懲罰參數(shù), 并且表現(xiàn)良好[35]. 針對本文情形, EC方法可能是一個(gè)更好的選擇. 此外, 我們還考慮將SPL+SCADNet方法拓展到其他回歸模型中, 如廣義線性回歸等.

        猜你喜歡
        正則懲罰樣本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        神的懲罰
        小讀者(2020年2期)2020-03-12 10:34:06
        Jokes笑話
        剩余有限Minimax可解群的4階正則自同構(gòu)
        類似于VNL環(huán)的環(huán)
        推動醫(yī)改的“直銷樣本”
        懲罰
        趣味(語文)(2018年1期)2018-05-25 03:09:58
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        村企共贏的樣本
        真正的懲罰等
        国产精品一区二区三密桃| 免费a级毛片无码a∨免费软件| 欧韩视频一区二区无码| 无码 免费 国产在线观看91| 久久久亚洲av午夜精品| 色综合久久无码五十路人妻 | 亚洲免费女女在线视频网站| 国产精品毛片一区二区三区| 国产精品久久久久久人妻精品| 国产亚洲精品综合在线网址| 99伊人久久精品亚洲午夜| 国产国语亲子伦亲子| 国产免费又色又爽又黄软件| 丰满人妻AV无码一区二区三区 | 九九99久久精品国产| 国产女人91精品嗷嗷嗷嗷| 国产一区二区三区白浆肉丝| 婷婷伊人久久大香线蕉av| 亲子乱aⅴ一区二区三区下载| 亚洲国产成人Av毛片大全| 国产精品亚洲综合久久| 国产公开免费人成视频| 精品久久久久久中文字幕大豆网| 最新国产美女一区二区三区 | 无码乱肉视频免费大全合集| 日韩精品无码av中文无码版| 色窝窝手在线视频| 国产精品国产三级国产专区不| 国产又色又爽又高潮免费视频麻豆 | 色综合久久无码五十路人妻 | 999久久66久6只有精品| 亚洲a级视频在线播放| 艳z门照片无码av| 91精选视频在线观看| 精品亚洲视频免费观看网站 | 香港台湾经典三级a视频| 天天狠狠综合精品视频一二三区| 少妇性l交大片免费快色| 精品无码人妻夜人多侵犯18| 午夜福利视频合集1000| 亚洲国产综合精品久久av|