亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Jackknife互信息的高維非線性回歸模型研究

        2022-01-28 09:24:34張治飛劉乃嘉
        關(guān)鍵詞:方法模型

        張治飛, 段 謙, 劉乃嘉, 黃 磊*

        (1.西南交通大學數(shù)學學院, 四川成都611756; 2.西南財經(jīng)大學統(tǒng)計學院, 四川成都611137)

        互信息(mutual information, MI)主要在計算機、信息技術(shù)和機器學習等領(lǐng)域具有應(yīng)用廣泛。例如,基于親密度和吸引力的二分網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法中MI作為劃分的評價指標,即劃分過程中MI越大,說明劃分結(jié)果越好[1];在圖像處理研究中,MI作為圖像配準的相似性測度函數(shù),實現(xiàn)對遙感圖像的配準,如基于改進型MI的遙感圖像配準方法[2]。但目前MI在統(tǒng)計學變量選擇領(lǐng)域的應(yīng)用相對較少,所以本文將研究MI是否可作為變量選擇的一種有效工具。

        作為一種隨機變量之間獨立性的度量,MI具有嚴格的單調(diào)轉(zhuǎn)換不變性。此外,MI在測量線性隨機變量間以及非線性隨機變量之間的相關(guān)性能力具有一致性。因此,MI可以作為隨機變量之間相關(guān)性的一種重要度量。目前大部分對MI的估計,特別是對于連續(xù)數(shù)據(jù),在很大程度上依賴于所涉及調(diào)優(yōu)參數(shù)的選擇,例如連續(xù)數(shù)據(jù)離散化過程中bins的數(shù)量、核密度估計(kernel density estimator,KDE)中的帶寬以及k-近鄰(k-nearest neighbor,kNN)估計器中的鄰居數(shù)量等,因而,相應(yīng)的估計量可能非常不穩(wěn)定或有嚴重偏差,所以使用MI進行相應(yīng)的研究時,研究效果也會受到MI估計量好壞的影響。為了估計量不受帶寬選擇的約束,Zeng等[3]提出基于刀切(Jackknife)方法的MI估計(JMI)。JMI完全由數(shù)據(jù)驅(qū)動,不會產(chǎn)生預先確定的調(diào)優(yōu)參數(shù),具有良好的統(tǒng)計特性。因此,基于其優(yōu)良統(tǒng)計性質(zhì)及簡單易行的算法,本文將使用JMI對高維非線性模型的重要變量進行選擇。

        對于線性回歸模型的變量選擇問題,根據(jù)文獻[4],相應(yīng)算法主要包括3類:第1種基于統(tǒng)計檢驗,如通過檢驗?zāi)P偷臍埐钇椒胶鸵约皩ψ兞窟M行t檢驗等選擇變量,主要代表就是逐步回歸和自動計量學(Autometrics);第2種基于懲罰的最小二乘估計,即直接在一般線性回歸模型的損失函數(shù)內(nèi)部對參數(shù)施加約束來提高它們之間的稀疏性,例如嶺回歸和LASSO(最小絕對值收縮和選擇算子)等;第3種就是篩選算法,此類算法并不是為了進行本質(zhì)上的選擇,而是根據(jù)重要性對變量進行排序,它的主要優(yōu)點是,當變量數(shù)p遠遠大于樣本量n,即p?n的情況下,篩選方法更容易應(yīng)用于此類問題,其中最具代表性的是Fan等[5]研究的確定獨立篩選(SIS)。SIS是一種簡單有效的方法,但由于SIS可能會遇到選擇出弱相關(guān)變量(弱信噪比)的問題,因此Fan 等[5]對SIS進行改進,得到了迭代SIS,即ISIS。

        目前已經(jīng)有學者采用SIS進行變量選擇的研究,如對癌癥病人進行生存預測[6],以及利用GSIS方法對心肌病數(shù)據(jù)進行變量選擇,進而研究基因?qū)τ贕蛋白耦聯(lián)受體Ro1的影響[7]等。然而(I)SIS在最初提出時就僅對線性回歸模型中的變量具備良好的選擇能力,雖然(I)SIS已經(jīng)擴展到廣義線性回歸模型中,并且也具有良好的變量選擇效果,但同線性和廣義線性回歸模型相比,非線性回歸模型和廣義非線性回歸模型存在參數(shù)估計、統(tǒng)計推斷等問題,特別是非線性回歸模型中的變量選擇領(lǐng)域的統(tǒng)計研究仍然存在許多未解決的問題。

        為了處理非線性回歸模型中的變量選擇問題,研究人員提出了一些有效可行的方法。Hall等[8]從經(jīng)驗似然觀點出發(fā),考慮不同邊際效用后提出一種廣義相關(guān)系數(shù),它可以作為非線性相關(guān)的度量。Antoniadis 等[9]以及Yuan等[10]研究了選擇分組變量的方法。Lin等[11]在變量數(shù)目固定的平滑樣條方差分析中提出模型選擇的成分選擇與平滑算子(COSSO)方法。Ravikumar等[12]相繼在高維非參數(shù)可加性模型中考慮變量選擇,其中可加性成分的數(shù)量大于樣本容量。Zhu等[13]開發(fā)了基于距離相關(guān)(DC-SIS)的SIS,此方法也可以對變量的邊際重要性進行排序,利用DC-SIS來選擇高維回歸分析中的變量能較好地控制異常觀測后的不良影響,且優(yōu)于同類方法。Cui等[14]提出一種基于經(jīng)驗條件分布函數(shù)的邊緣變量篩選方法的非參數(shù)加性模型。Mai等[15]采用融合的Kolmogorov濾波器來處理可變篩選問題。Wu等[16]將非負garotte和SIS相結(jié)合進行高維稀疏非線性回歸模型的變量選擇。

        SIS方法即通過將皮爾遜相關(guān)系數(shù)作為線性相關(guān)的一種度量,利用計算所得的相關(guān)系數(shù),以此對線性回歸模型的變量進行排序篩選。但由于相關(guān)系數(shù)無法檢測變量間的非線性關(guān)系,所以SIS并不能解決超高維稀疏非線性回歸模型的變量篩選問題。本文運用SIS思想,將MI作為變量之間非線性關(guān)系的一種度量,即MI代替皮爾遜相關(guān)系數(shù),并對變量的邊際重要性進行排序,然后對非線性回歸模型的變量進行選擇。此研究思想簡明直接,僅將原有對相關(guān)性的度量方式進行替換,研究超高維稀疏非線性回歸模型的重要變量選擇問題。又因MI的刀切估計量JMI具有良好的統(tǒng)計特性,本文將給出JMI與SIS相結(jié)合的算法,并通過模擬試驗和實例分析,進一步展示所提方法的相合性,通過實例分析說明本文所提方法在解決超高維稀疏非線性回歸模型中變量選擇問題的可行性和實用性。

        本文安排如下:第1章對JMI、(I)SIS進行簡單敘述,并介紹SIS+JMI算法、ISIS(LASSO)+JMI算法;第2章通過模擬試驗,對第1章所得算法的相合性進行驗證;第3章展示ISIS(LASSO)+JMI算法在實例數(shù)據(jù)分析中的應(yīng)用;第4章是結(jié)論。

        1 互信息的估計以及重要變量選擇方法

        1.1 互信息的刀切估計

        1.1.1 互信息定義

        隨機變量X=(X1,X2,…,XP)T與Y=(Y1,Y2,…,YQ)T,記fX、fY、fXY分別為隨機變量X與Y的邊緣概率密度函數(shù)以及聯(lián)合概率密度函數(shù)。X與Y的互信息數(shù)學定義為

        (1)

        式(1)中的X與Y可以容易地擴展到其他類型的隨機變量,它們可能沒有密度函數(shù),如離散型隨機變量等。從定義可知MI總是非負的, 即MI(X,Y)≥0,當且僅當2個隨機變量獨立時等式成立。當2個隨機變量之間的依賴性越弱時,MI越接近于0。為了能夠?qū)碗s依賴關(guān)系進行刻畫,將MI作為描述隨機變量間非線性關(guān)聯(lián)的一種度量,可以對隨機變量間的非線性相關(guān)性等問題進行研究。

        1.1.2 互信息的刀切估計(JMI)

        JMI是對以往MI的核密度估計方法的進一步改進,與 KDE方法的區(qū)別在于對其中4個帶寬矩陣的設(shè)置。文獻[3]通過基于獨立測試的經(jīng)驗結(jié)論和理論推斷,證明了最后4個帶寬矩陣應(yīng)該設(shè)置為相等的結(jié)論。所以Zeng等[3]在KDE的基礎(chǔ)上將帶寬矩陣設(shè)置相等后,利用刀切思想得到了MI的刀切估計量JMI。

        隨機變量X=(X1,X2,…,XP)T與Y=(Y1,Y2,…,YQ)T相互獨立,對角帶寬矩陣HX、HY、BX、BY分別為:

        在對角矩陣A上,考慮核函數(shù)

        KP是一個P維對稱密度函數(shù),

        隨機變量X、Y的觀察值分別為xip,i=1,2,…,n,p=1,2,…,P、yiq,i=1,2,…,n,q=1,2,…,Q,則X、Y、X,Y的概率密度函數(shù)的KDE為:

        MI的KDE估計為

        (2)

        在式(2)的基礎(chǔ)上對MI采用刀切法以及引用copula函數(shù),得到JMI。

        利用MI在嚴格單調(diào)轉(zhuǎn)換下不變的性質(zhì)以及概率分布函數(shù)服從0到1的均勻分布的特點,得:

        V=(V1,V2,…,VQ)T=(FY1Y1,FY2Y2,…,FYQ(YQ))T。

        式中FXp(x)(p=1,2,…,P),F(xiàn)Yq(y)(q=1,2,…,Q)分別為Xp、Yq的概率分布函數(shù),所以U、V的各分量服從(0,1)的均勻分布,且滿足MIU,V=MI(X,Y)。

        記cU(u)、cV(v)、cUV(u,v)分別為U、V、(U,V)的copula密度函數(shù)。U、V的觀察值記為

        同時利用概率分布函數(shù)對其表示為

        式中FXp,n(p=1,2,…,P)、FYq,n(q=1,2,…,Q)分別為X、Y各分量的經(jīng)驗分布函數(shù)。

        對U、V的邊緣以及聯(lián)合copula密度函數(shù)進行核估計,得到copula密度函數(shù)在刀切法下的核函數(shù)估計為:

        根據(jù)文獻[3],將上述4個帶寬矩陣設(shè)置為HX=HY=BX=BY=diag(h2,h2,…,h2)。得到JMI的數(shù)學定義為:

        (3)

        (4)

        JMI具有3個特點:第一,完全是由數(shù)據(jù)驅(qū)動的,不會產(chǎn)生預先確定的其他調(diào)優(yōu)參數(shù)。第二,具有良好的統(tǒng)計特性,如自動糾偏和獨立性檢驗的較高的局部檢驗功效。關(guān)于局部檢驗功效的詳細介紹,請參看文獻[17]。第三,通過采用唯一的最大值,可使JMI(X,Y)在數(shù)值上保持穩(wěn)定。

        接下來對SIS、ISIS進行簡單概述,并論述這2種算法的實現(xiàn)過程。

        1.2 變量選擇方法

        1.2.1 確定獨立篩選SIS定義

        解釋變量X=(X1,X2,…,Xp),響應(yīng)變量Y,X的觀察值x=(x1,x2,…,xp)n×p,Y的觀察值為y=(y1,y2,…,yn)T,參數(shù)向量為β=(β1,β2,…,βm)T。此時y=(y1,y2,…,yn)T為x中某m個變量的線性組合,

        (5)

        式中ε=(1,2,…,n)T為隨機誤差項。當p?n時,根據(jù)文獻[5]中SIS的定義,計算所有xi(i=1,2,…,p)與y之間的相關(guān)系數(shù)

        ρi=cory,xi,i=1,2,…,p,

        并將ρ1,ρ2,…,ρp按照絕對值從大到小的順序進行排序后記為ρp,ρ(p-1),…,ρ(1),最后在給定的γ∈(0,1)下,篩選出個數(shù)少于n的前d=γn個解釋變量,組成篩選變量集Mγ={Xi|1≤i≤p:|ρi|≥|ρ(d)|},將包含m個真實變量的變量集記為M0。

        (6)

        根據(jù)文獻[5],有如下正則條件:

        條件1在p>n前提下,lnp=Onξ,ξ∈(0,1-2κ),其中κ由條件3給定。

        條件2Z具有球面對稱分布以及集中屬性,同時,ε~N(0,σ2)。

        條件3varY=O(1),存在κ≥0,c2,c3>0,有

        條件4 存在τ≥0,c4>0,有λmaxΣ≤c4nτ。

        在上述正則條件下,若2κ+τ<1,存在θ<1-2κ-τ,當存在常數(shù)c>0,γ~cn-θ時,存在常數(shù)C>0,SIS具有如下的確定篩選性(sure screening property)性質(zhì),

        1.2.2 基于LASSO下的ISIS

        由于SIS僅利用xi(i=1,2,…,p)與y之間的邊緣相關(guān)系數(shù),所以SIS具有3個潛在的問題:第一,一些與重要解釋變量xi高度相關(guān)的不重要解釋變量xj,比其他與響應(yīng)變量y相關(guān)性相對較弱的重要解釋變量xl更容易被SIS選擇;第二,SIS不能選擇與響應(yīng)變量y聯(lián)合相關(guān)但邊緣不相關(guān)的重要解釋變量xi,因此xi不能進入估計模型;第三,解釋變量xi與xj(i≠j)之間的共線性問題給變量選擇增加了難度[5]。

        為了解決上述SIS的3個問題,F(xiàn)an 等[5]相繼提出迭代SIS,即ISIS算法。對于一個超高維稀疏線性回歸模型,ISIS(LASSO)利用SIS對全變量集A進行篩選后得到變量集A1,再對A1通過LASSO回歸進行變量選擇得到新的變量集B1并得到這些變量的相應(yīng)殘差,然后在A/B1的變量集上,以B1中所得的殘差作為新的響應(yīng)變量,重復進行上述的SIS與LASSO步驟進行變量選擇,最后將每一步經(jīng)LASSO篩選得到的不相交變量集Bi進行合并,直到最后達到確定的變量個數(shù)為止。

        ISIS(LASSO)能夠很好地解決SIS僅利用邊緣的相關(guān)信息所帶來的問題,效果比SIS有了很大的提升。SIS與ISIS(LASSO)已被推廣到高維空間中稀疏廣義線性模型中的變量篩選,然而僅利用皮爾遜相關(guān)系數(shù)不能夠解決在高維稀疏非線性回歸模型的變量篩選問題。

        利用SIS、ISIS(LASSO)方法的思想,以及MI可作為變量間非線性關(guān)聯(lián)度量的特點,本文將原有的皮爾遜相關(guān)系數(shù)替換為計算效率更高且穩(wěn)定的JMI,簡記為SIS+JMI與ISIS(LASSO)+JMI算法。接下來將詳細介紹SIS+JMI與ISIS(LASSO)+JMI算法。

        1.3 基于JMI與(I)SIS的變量選擇算法

        1)SIS+JMI算法:

        Step1對樣本X=(x1,x2,…,xp)n×p和樣本y=(y1,y2,…,yn)T,分別計算出JMI(y,xi)(i=1,2,…,p)。

        Step2對Step1計算出的JMI(y,xi)(i=1,2,…,p)結(jié)果進行降序排列。

        Step3對Step2排序后的JMI值,將前n-1個JMI所對應(yīng)的解釋變量進行輸出作為最后的篩選變量集。

        2)ISIS(LASSO)+JMI算法:

        Step1樣本X=(x1,x2,…,xp)n×p和樣本y=(y1,y2,…,yn)T,利用SIS+JMI篩選得到包含變量個數(shù)為n-1的變量集A1。

        Step2對A1進行LASSO回歸得到變量集B1以及B1中的殘差e1=(e11,e12,…,e1n)T。

        Step3將Step2中的殘差e1作為新的響應(yīng)變量,然后在X/B1變量集上利用SIS+JMI算法得到變量集A2,重復Step2得到與B1不相交的變量集B2以及殘差e2。

        下一章將利用SIS、ISIS(LASSO)、SIS+JMI與ISIS(LASSO)+JMI算法,對高維空間中響應(yīng)變量為二元變量型的數(shù)據(jù)類型進行模擬試驗,以及解釋變量與響應(yīng)變量呈線性關(guān)系、非線性關(guān)系的數(shù)據(jù)類型分別進行模擬試驗,最后得到個數(shù)為n-1的解釋變量集。通過與經(jīng)典SIS以及ISIS(LASSO)的篩選結(jié)果進行比較,驗證SIS+JMI、ISIS(LASSO)+JMI具有確定篩選性。

        2 統(tǒng)計模擬試驗

        本章通過R語言,使用第1章提出的JMI+(I)SIS算法,進行模擬試驗一與模擬試驗二,以此說明所提算法的確定篩選性。

        2.1 統(tǒng)計模擬試驗一

        在本試驗中,回歸系數(shù)分別為θ1=(5,5,5)T(Model.1)和θ2=(2,4,6)T(Model.2)的2個Logistic回歸模型:

        式中1≤i≤n。響應(yīng)變量y=(y1,…,yn)T由如下示性函數(shù)確定:

        式中ρ~U(0,1)。在模擬過程中,設(shè)置p-3個與y無關(guān)的解釋變量樣本為X′=(x4,x5,…,xp)n×(p-3),得到設(shè)計矩陣X~Np(0,I)。

        在試驗過程中發(fā)現(xiàn),針對響應(yīng)變量為0-1型的情型下,僅采用JMI對原ISIS(LASSO)進行改進后的效果提升較小,因此同時考慮線性與非線性下的相關(guān)度量,我們對解釋變量xi(i=1,2,…,p)與響應(yīng)變量y的JMI(xi,y)和corxi,y進行計算。為綜合利用JMI(xi,y)對非線性相關(guān)性度量以及corxi,y對線性相關(guān)性度量的優(yōu)勢,同時將所得的JMIxi,y與cor(xi,y)結(jié)果進行求和取平均,對所得結(jié)果進行降序排列,最后將前n-1個對應(yīng)的解釋變量作為最終識別得到的重要變量,將此簡記為SIS+JMI(N)算法。同理,對于本文提出的ISIS(LASSO)+JMI也利用SIS+JMI(N)算法改進,簡記為ISIS(LASSO)+JMI(N)算法。

        本文取樣本量為n=20,50,70,設(shè)置模型變量個數(shù)p=100,1 000,并進行200次蒙特卡羅模擬。本文記錄了模擬過程中Model.1和Model.2的解釋變量x1、x2、x3包含于被選變量集合的頻率。其中,LASSO中的懲罰參數(shù)λ通過3折交叉驗證選出。模擬結(jié)果如表1、表2所示。

        表1 p=100, n=20, 50下Model.1和Model.2的變量選擇結(jié)果

        表2 p=1 000, n=20, 50, 70下Model.1和Model.2的變量選擇結(jié)果

        從上述結(jié)果發(fā)現(xiàn),在不同的n、p下對于參數(shù)θ1、θ2,發(fā)現(xiàn)6種方法在相同p下,隨著n的變大,最后的被識別頻率都會趨于1,即隨著n變大,所有真實變量包含于被選變量集合是依概率收斂到1的。此外,JMI與SIS的簡單結(jié)合算法與經(jīng)典SIS相比效果不好,而將所提方法進行改進后,即SIS+JMI(N)、ISIS(LASSO)+JMI(N)可對經(jīng)典SIS進行改進,其中ISIS(LASSO)+JMI(N)試驗效果在6種方法中最好。對于x1、x2、x3具有不同貢獻度,即在參數(shù)θ2的結(jié)果中發(fā)現(xiàn),此時貢獻度的設(shè)置對最終的結(jié)果產(chǎn)生影響,即具有越大的貢獻度的解釋變量被選中的頻率越大,如在Model.2中具有最大貢獻度的x3被選擇的頻率比具有最小貢獻度的x1大,且差距明顯。

        2.2 統(tǒng)計模擬試驗二

        采用模擬試驗一中的解釋變量X,并設(shè)置4種真實模型:

        Model.3yi=5x1i+5x2i+5x3i+εi,

        Model.4yi=3cosx1i+5x2i+5x3i+εi,

        其中隨機誤差項ε~N(0,1)。取樣本量為n=20,50,70,設(shè)置模型變量個數(shù)p=100,1 000,進行200次蒙特卡羅模擬。同時記錄了模擬過程中Model.3至Model.6中解釋變量x1、x2、x3包含于被選擇變量集合的頻率。其中,LASSO中的懲罰參數(shù)λ仍然通過3折交叉驗證選出。模擬結(jié)果如表3、表4所示。

        從表3、表4的結(jié)果發(fā)現(xiàn),本文所提的將JMI與SIS相結(jié)合的算法,在非線性回歸模型中保持了對線性變量的篩選能力,同時也具備了對重要非線性變量的篩選能力且效果理想。其中4種模型的x1、x2、x3篩選效果都在ISIS(LASSO)+JMI下最好。在相同的p下,對于采用的4種變量選擇方法,都使x1、x2、x3被選中的頻率隨著n的增大而增大,即都隨著n變大,識別所有真實變量的概率能依概率收斂到1。

        表3 p=100, n=20, 50 下Model.3至Model.6的變量選擇結(jié)果

        表4 p=1 000, n=20, 50, 70下Model.3至Model.6的變量選擇結(jié)果

        3 實例分析

        在第2章中通過模擬試驗一、二的結(jié)果分析可知,對于數(shù)據(jù)類型為二元變量型的響應(yīng)變量,ISIS(LASSO)+JMI(N)算法對此類數(shù)據(jù)的變量選擇效果最好。同樣,對于解釋變量與響應(yīng)變量間存在非線性關(guān)系的數(shù)據(jù)類型,ISIS(LASSO)+JMI算法的篩選效果最好。所以本章將采用此2種算法分別進行相應(yīng)的實例分析,以說明所提方法的實用性。

        3.1 實例分析一(leukemia數(shù)據(jù))

        數(shù)據(jù)來源于Golub等[18]得到的白血病數(shù)據(jù)集,其中響應(yīng)變量y為0-1型變量,y=0表示未患白血病,y=1表示患白血病。此數(shù)據(jù)集包含樣本量n=72,解釋變量數(shù)p=7 129,n?p屬于超高維空間。根據(jù)y的數(shù)據(jù)類型,使用ISIS(LASSO)+JMI(N)方法篩選得到71個解釋變量,然后采用樸素貝葉斯分類器分別計算出解釋變量數(shù)從1至71累積增加時分類結(jié)果的AUC值和錯誤率,以此作為將變量數(shù)進一步縮減的標準。對這71個解釋變量中的前5個解釋變量做描述性統(tǒng)計,結(jié)果如表5所示。

        從表5的最小值與最大值可以發(fā)現(xiàn),數(shù)據(jù)的波動范圍很大,且中位數(shù)、均值與3/4分位數(shù)都與最大值之間具有較大的差距。同理,均值與中位數(shù)之間的差距也很大。

        表5 Leukemia數(shù)據(jù)變量選擇后前5個解釋變量的描述性統(tǒng)計

        對leukemia數(shù)據(jù)隨機選取70%作為訓練集,30%作為測試集,在重復隨機選取10次后,得到10組不同的訓練集以及測試集。在每組訓練集中采用ISIS(LASSO)+JMI(N)選擇出的71個解釋變量,分別計算出變量數(shù)從1至71之間的AUC值以及分類錯誤率,最后,由10個隨機分組后所得的AUC值以及錯誤率的平均值,畫出平均AUC值與平均錯誤率如圖1所示。

        圖1 AUC值與錯誤率隨變量數(shù)變化關(guān)系

        從圖1發(fā)現(xiàn)所得的AUC值很高,錯誤率也挺低。發(fā)現(xiàn)只有第1個被篩選出的解釋變量時,通過計算AUC值為0.989 583 3,錯誤率為0.1,說明篩選出來的第1個解釋變量已經(jīng)完全可以進行分類,所以考慮當AUC值首先達到0.99時的變量即作為最后篩選出來的變量集,接下來在驗證集中進行分類。

        在上述隨機10次分組所得的測試集中,采用所篩選出來的前2個解釋變量在樸素貝葉斯分類器下進行分類,并計算此時的AUC平均值以及分類錯誤率平均值,結(jié)果如表6所示。

        表6 Leukemia數(shù)據(jù)經(jīng)變量選擇后的分類結(jié)果

        從表6可知,由ISIS(LASSO)+JMI(N)方法選擇得到71個變量中,采用前2個解釋變量進行分析時,訓練集中分類錯誤率為0.02,測試集中錯誤率為0.059 090 91,其AUC值也是達到了0.99以上,所以在此實例分析中,能說明所提方法在此類數(shù)據(jù)類型下具有良好的識別效果。

        3.2 實例分析二(mRNA數(shù)據(jù))

        數(shù)據(jù)來源于Rabani等[19]實驗得到的mRNA數(shù)據(jù)集,該數(shù)據(jù)利用4-硫脲嘧啶(4sU)對RNA進行短時間的代謝標記,從整體RNA中區(qū)分出最新轉(zhuǎn)錄的RNA,從而獲得RNA轉(zhuǎn)錄率的直接測量結(jié)果。他們檢測了254個代表性特征基因在小鼠樹突狀細胞對脂多糖(LPS)反應(yīng)過程中的RNA-total和RNA-4sU的表達。每個基因有13個測量值,在LPS刺激后的前3 h內(nèi)每隔15 min測量1次。由文獻[19]可知有44個基因被鑒定出具有不同的降解率。根據(jù)文獻[16],將響應(yīng)變量設(shè)定為來自這44個基因的其中一個基因的RNA-4sU表達,解釋變量則是所有254個基因的RNA-total表達。為了避免量綱對計算結(jié)果的影響,首先將整個數(shù)據(jù)集進行標準化處理,使均值為0,方差為1。

        利用ISIS(LASSO)、ISIS(LASSO)+JMI方法分別對此數(shù)據(jù)集進行變量篩選后,結(jié)合Yang等[20]提出的期望分位數(shù)回歸方法,即在軟件R中為KERE程序包,此期望分位數(shù)回歸的數(shù)學定義為:

        (7)

        (8)

        (9)

        從具有不同降解率的44個基因中隨機選擇出2個基因Fgl2、Usp25,然后分別利用ISIS(LASSO)、ISIS(LASSO)+JMI方法對數(shù)據(jù)進行變量篩選,分別選擇出12個基因。

        首先以Fgl2基因為例,對ISIS(LASSO)+JMI方法篩選出來的前5個基因在進行標準化前的RNA-total以及Fgl2基因的RNA-4sU數(shù)據(jù)進行描述性統(tǒng)計,結(jié)果如表7所示。從表7發(fā)現(xiàn),數(shù)據(jù)中最小值與最大值差值都很大,即表明數(shù)據(jù)波動范圍大。

        表7 Fgl2基因變量選擇出的前5個基因的描述性統(tǒng)計

        利用各基因下篩選出的12個基因的RNA-total表達作為上述2個基因的解釋變量,仍以上述2個基因的RNA-4sU表達作為響應(yīng)變量,在KERE算法下分別對2種方法篩選出來的數(shù)據(jù)集進行模型擬合,并計算出經(jīng)擬合后的殘差標準差,得到ISIS(LASSO)篩選下模型擬合結(jié)果(圖2)和ISIS(LASSO)+JMI篩選下模型擬合結(jié)果(圖3),分別對應(yīng)表8中的殘差標準差結(jié)果。

        圖2 ISIS(LASSO)下的模型擬合

        圖3 ISIS(LASSO)+JMI下模型擬合

        表8 擬合殘差標準差

        圖2、圖3中散點表示基因原有的RNA-4sU表達,曲線則表示在KERE算法下的擬合曲線。從圖2和圖3可以看出ISIS(LASSO)+JMI的篩選非線性變量的效果比原ISIS(LASSO)的效果好。從表8可知,與圖1直觀反映出的效果一致,表格中更客觀地顯示了擬合效果好的特點。所以利用ISIS(LASSO)+JMI選擇出對預測響應(yīng)變量有效的解釋變量后,能在KERE法下進行較好效果的模型擬合。

        4 結(jié)語

        本文利用JMI與經(jīng)典SIS的思想方法,研究將它們進行結(jié)合后,是否可對高維稀疏非線性回歸模型中重要變量進行選擇,并通過模擬試驗以及相應(yīng)的實例分析得到如下結(jié)論:第一,對于響應(yīng)變量呈二分類變量類型的數(shù)據(jù),采用本文所提出的ISIS(LASSO)+JMI(N)方法可以對經(jīng)典的SIS方法進行改進,且效果較好;第二,對于解釋變量與響應(yīng)變量具有非線性關(guān)系的數(shù)據(jù)類型,采用本文提出的ISIS(LASSO)+JMI方法可以選擇出非線性回歸模型中的重要解釋變量,解決了SIS不能處理非線性回歸模型變量選擇問題的弊端,對SIS有了很大的改進;第三,通過模擬試驗二的結(jié)果分析,為提升不同復雜度下的高維稀疏非線性回歸模型中變量選擇的效果,本文所提方法還可以進一步研究。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        學習方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        久久精品国产亚洲av久五月天| 蜜臀久久久精品国产亚洲av| 在线免费毛片| 麻豆国产乱人伦精品一区二区 | 欧美日韩国产成人高清视频| 国产成人综合久久精品免费| 大陆一级毛片免费播放| 精品欧洲AV无码一区二区免费| 少妇激情一区二区三区久久大香香| 99久久国产免费观看精品| 香蕉视频在线观看亚洲| 久久久久久久综合综合狠狠| 300部国产真实乱| 久久狠狠第一麻豆婷婷天天| 国产精品女丝袜白丝袜| 亚洲伊人伊成久久人综合| 精品人妻久久一日二个| 亚洲中文字幕无码av永久 | 色一乱一伦一图一区二区精品 | 探花国产精品三级在线播放| 亚洲一区二区三区熟妇| 美女露出自己的性感大胸一尤内衣| 国产精品美女久久久久av超清| 无码任你躁久久久久久| 国产午夜福利精品| 91色婷婷成人精品亚洲| 中文字幕人乱码中文字幕乱码在线 | 日韩精品一二三区乱码| 亚洲av无码成人网站在线观看| 午夜丰满少妇性开放视频| 熟妇无码AV| 日本看片一区二区三区| 人妻精品人妻一区二区三区四区| 亚洲精品成人片在线观看精品字幕| 国产成人精品电影在线观看18 | 美女扒开内裤让男生桶| 99精品久久久中文字幕| 久久久99精品国产片| 免费观看a级毛片| 东京无码熟妇人妻av在线网址| 99久久精品自在自看国产|