亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        原始對(duì)偶有效集方法在統(tǒng)計(jì)學(xué)習(xí)教學(xué)中的應(yīng)用

        2019-04-23 10:13:56石躍勇鄧世容焦雨領(lǐng)徐德義
        大學(xué)教育 2019年5期
        關(guān)鍵詞:實(shí)證分析

        石躍勇 鄧世容 焦雨領(lǐng) 徐德義

        [摘 要]以統(tǒng)計(jì)學(xué)習(xí)(statistical learning)課程中基于高維線性模型的LASSO正則化為例,項(xiàng)目組給出了其基于原始對(duì)偶有效集(primal dual active set)方法的求解過程,并進(jìn)行了相應(yīng)的實(shí)證分析,期望培養(yǎng)學(xué)生對(duì)統(tǒng)計(jì)學(xué)習(xí)課程的學(xué)習(xí)興趣和應(yīng)用新近文獻(xiàn)方法進(jìn)行高維數(shù)據(jù)分析的實(shí)踐經(jīng)驗(yàn)。

        [關(guān)鍵詞]原始對(duì)偶有效集方法; 高維稀疏; LASSO正則化;實(shí)證分析

        [中圖分類號(hào)] G642 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2019)05-0101-03

        一、引言

        大數(shù)據(jù)的興起和普遍,引起了學(xué)界和業(yè)界日益廣泛的重視[1-2]。在大數(shù)據(jù)時(shí)代,如在氣候研究、網(wǎng)絡(luò)交易、圖像處理等諸多領(lǐng)域,人們可以輕松獲得PB級(jí)、EB級(jí)、ZB級(jí)甚至更大量級(jí)的海量數(shù)據(jù)。直觀上看,大數(shù)據(jù)具有樣本量大或維度高等顯著特點(diǎn)。如何對(duì)大數(shù)據(jù)進(jìn)行建模和分析,提取蘊(yùn)藏其中的有用信息,進(jìn)而指導(dǎo)實(shí)際生產(chǎn)生活有著重要的現(xiàn)實(shí)意義。然而,大數(shù)據(jù)由于存在Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)等特性[2],給相應(yīng)的存儲(chǔ)、分析和應(yīng)用帶來了巨大的挑戰(zhàn)。特別地,有一類特殊的大數(shù)據(jù),其具有很高的維度(可以達(dá)到數(shù)萬、數(shù)十萬甚至更高),而樣本量往往只有數(shù)十至數(shù)百,通常還具有復(fù)雜的結(jié)構(gòu),我們稱之為高維數(shù)據(jù)。數(shù)據(jù)的高維度一方面可以反映研究對(duì)象更多的特征和屬性,可能使得相關(guān)的數(shù)據(jù)分析更能接近事物的本原,但另一方面也會(huì)產(chǎn)生“維數(shù)災(zāi)難”( the curse of dimensionality)[3],可能會(huì)帶來較為嚴(yán)重的過擬合(over-fitting)或不適定性(ill-posed)等諸多問題。所幸的是,在實(shí)際問題中,高維數(shù)據(jù)通常具有所謂的稀疏性結(jié)構(gòu),即影響某種結(jié)果的因素有很多,但關(guān)鍵影響因素卻較少。基于稀疏性假設(shè),人們可以借助于統(tǒng)計(jì)學(xué)習(xí)(機(jī)器學(xué)習(xí))中的正則化方法[3]對(duì)高維數(shù)據(jù)進(jìn)行建模、分析和應(yīng)用。

        正則化方法是處理高維數(shù)據(jù)的利器,也是統(tǒng)計(jì)學(xué)習(xí)(機(jī)器學(xué)習(xí))等學(xué)科的重要內(nèi)容,其模型、理論和計(jì)算等方面的研究是人們關(guān)注的焦點(diǎn)[1,3]。由于實(shí)際問題中高維數(shù)據(jù)不斷地、大量地涌現(xiàn),當(dāng)下一個(gè)重要的發(fā)展趨勢是:人們?cè)谶M(jìn)行數(shù)據(jù)分析和統(tǒng)計(jì)計(jì)算時(shí),越來越注重快速算法的導(dǎo)向,即兼顧統(tǒng)計(jì)性質(zhì)(如無偏性、相合性等[4])和數(shù)學(xué)收斂的同時(shí),在保證精度(估計(jì)誤差、預(yù)測誤差等)相當(dāng)?shù)那疤嵯?,希望設(shè)計(jì)高效的算法使得計(jì)算速度越快越好。這一趨勢在大數(shù)據(jù)高速發(fā)展的大背景下日益顯著和越發(fā)重要,可在此基礎(chǔ)上進(jìn)一步研究適用于分布式環(huán)境下的稀疏化學(xué)習(xí)理論和算法。

        統(tǒng)計(jì)學(xué)習(xí)是一套以理解數(shù)據(jù)為目的的龐大工具集[5],其研究對(duì)象和內(nèi)容與模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等學(xué)科有大量的交叉和重疊,是數(shù)據(jù)科學(xué)的重要組成部分,廣泛應(yīng)用于社會(huì)生活的各個(gè)方面。在當(dāng)前大數(shù)據(jù)研究蓬勃發(fā)展的大背景下,統(tǒng)計(jì)學(xué)習(xí)的課堂教學(xué)和學(xué)科發(fā)展的研究顯得尤為重要。鑒于統(tǒng)計(jì)學(xué)習(xí)學(xué)科具有日新月異、發(fā)展迅速等特點(diǎn),在統(tǒng)計(jì)學(xué)習(xí)的教學(xué)過程中,一個(gè)重要的趨勢是,除了講授經(jīng)典的理論和方法,還應(yīng)當(dāng)引導(dǎo)學(xué)生閱讀新近的文獻(xiàn),鼓勵(lì)學(xué)生運(yùn)用文獻(xiàn)中新的建模和計(jì)算方法開展數(shù)據(jù)分析與應(yīng)用,并結(jié)合Julia、Matlab、Python或R等軟件進(jìn)行相應(yīng)的數(shù)值模擬和實(shí)證分析。特別地,R (https://www.r-project.org/)作為一款自由的編程軟件,提供大量最新的開源的方法和算法程序包,社區(qū)成熟,參與者眾多,在Linux、Mac、Windows平臺(tái)下均可方便地進(jìn)行安裝和使用,深受學(xué)界歡迎。學(xué)生在統(tǒng)計(jì)學(xué)習(xí)課程中學(xué)習(xí)使用 R 軟件,熟練掌握R技能,并將所學(xué)方法用R編程實(shí)現(xiàn),有助于其更為深刻地聯(lián)系理論和理解問題,且能夠更為有效地拓展實(shí)際應(yīng)用,提高學(xué)習(xí)的興趣和實(shí)戰(zhàn)的能力[6]。

        線性模型是研究其他統(tǒng)計(jì)模型的基礎(chǔ),線性模型正則化[3,5]的理論和計(jì)算是統(tǒng)計(jì)學(xué)習(xí)的基本內(nèi)容和研究熱點(diǎn),其中又以LASSO正則化(即[?1]正則化)模型尤為重要,因?yàn)長ASSO正則化模型的求解屬于凸優(yōu)化問題,凸性可以保證模型的解具有良好的理論分析性質(zhì)和數(shù)值收斂結(jié)果。LASSO正則化在壓縮感知(信號(hào)、圖像處理)和變量選擇(高維特征降維)的建模和計(jì)算中均得到了廣泛的應(yīng)用。本文使用文獻(xiàn)[7]中發(fā)展的原始對(duì)偶有效集方法,對(duì)高維線性模型的LASSO正則化問題進(jìn)行了應(yīng)用,對(duì)一組高維基因微陣列數(shù)據(jù)進(jìn)行了變量選擇實(shí)證分析,并將計(jì)算結(jié)果與著名的R統(tǒng)計(jì)軟件包glmnet進(jìn)行比較,在開闊學(xué)生視野、拓寬研究思路、豐富學(xué)習(xí)內(nèi)容的同時(shí),期望加深學(xué)生對(duì)正則化模型及其計(jì)算的理解。

        二、模型與方法

        其中[y∈Rn]是響應(yīng)變量,[X∈Rn×p]是設(shè)計(jì)矩陣,[β∈Rp]是待估系數(shù)向量,[ò∈Rn]是噪聲向量。不失一般性,我們考慮噪聲滿足正態(tài)(高斯)分布[ò~N(0, σ2In)],這里[In]表示[n×n]單位矩陣。進(jìn)一步地,我們?cè)O(shè)定數(shù)據(jù)滿足高維情形[p>n],并假設(shè)向量[β]的非零分量個(gè)數(shù)是稀疏的。由于[p>n],傳統(tǒng)的統(tǒng)計(jì)方法(如最小二乘)對(duì)求解模型(1)的參數(shù)估計(jì)已不再適用,因?yàn)榈玫降慕獠皇俏ㄒ坏??;谙∈栊约僭O(shè),我們考慮高維線性模型的LASSO正則化如下:

        其中[?]和[‖?‖1]分別表示歐式范數(shù)([?2]范數(shù))和[?1]范數(shù),[λ>0]為調(diào)節(jié)參數(shù)(正則化參數(shù))。問題的求解可以直接調(diào)用R軟件中廣受歡迎的glmnet軟件包[3],該包基于坐標(biāo)下降(coordinate descent)算法,可以求解線性模型和logistic模型的[?1]正則化問題,具體使用方法可以查閱軟件包的參考手冊(cè)或教材[5]第6章第6.6節(jié)實(shí)驗(yàn)2的內(nèi)容。

        文獻(xiàn)[7]發(fā)展了一種原始對(duì)偶有效集方法并結(jié)合一種連續(xù)化策略求解問題(2),方法英文簡記為PDASC。該方法在壓縮感知(一維信號(hào)和二維磁共振圖像)中進(jìn)行了有效的應(yīng)用,其主要步驟概括為:

        1.基于問題中目標(biāo)泛函[Qβ]的坐標(biāo)極小值[β*](原始變量)給出對(duì)偶變量[d*=XT(y-Xβ*)],且對(duì)LASSO模型給出關(guān)系表達(dá)式[β*=Sλ(β*+d*)],其中[Sλ(t)=max(|t|-λ,0)sgn(t)]為軟閾值算子;

        2.對(duì)LASSO模型有[|β*j+d*j|>T*?β*j≠0]成立,其中[T*=λ],從而可以構(gòu)造有效集[A*=j:|β*j+d*j|> T*]和非有效集[I*=(A*)c];

        3.設(shè)[βk]和[dk]分別逼近[β*]和[d*],基于[βk]和[dk]得到[Ak+1=j:|βkj+dkj|> T*]和[Ik+1=(Ak+1)c],根據(jù)構(gòu)造知[Ak+1]和[Ik+1]分別逼近[A*]和[I*],再基于[Ak+1]和[Ik+1]求解一個(gè)低維最小二乘問題得到[βk+1]和[dk+1],對(duì)[k]作循環(huán),設(shè)置停機(jī)準(zhǔn)則([Ak=Ak+1]或[k≥K],[K]為某個(gè)正整數(shù)),得到一個(gè)給定[λ]的估計(jì)[β(λ)=βk+1];

        4.考慮一串[λ]格子點(diǎn)序列[λss],其中[λs=λ0ρs],[λ0=||XTy||∞],[0<ρ<1],對(duì)于每個(gè)[λs]用步驟3得到估計(jì)[β(λs)],再結(jié)合連續(xù)化策略(continuation strategy)得到整個(gè)解的路徑[{β(λs)}s],最后根據(jù)BIC或HBIC等調(diào)節(jié)參數(shù)選擇準(zhǔn)則選擇最優(yōu)的[λ]和最優(yōu)的解[β(λ)]。

        可以看出,PDASC方法操作簡便、實(shí)施簡單,關(guān)鍵之處是同時(shí)利用原始變量和對(duì)偶變量的信息確定一個(gè)有效集(相比之下,經(jīng)典的LARS方法僅僅使用了對(duì)偶變量的信息),然后在有效集上求解一個(gè)低維問題。PDAS算法具有局部超線性的收斂速度,而連續(xù)化策略可以使得問題的求解具有良好的初值(因?yàn)镻DAS方法屬于Newton型算法,其收斂性依賴于初值的選?。?,再配合PDAS算法的局部超線性收斂性,可以使得整體的PDASC步驟計(jì)算速度非???。特別地,在理論上,文獻(xiàn)[7]在LASSO正則化下證明了PDAS的局部一步收斂性(推廣了現(xiàn)有的局部超線性收斂結(jié)果),并且在壓縮感知框架下證明了PDASC對(duì)于LASSO模型的全局收斂性。更多關(guān)于PDASC方法的理論細(xì)節(jié)和實(shí)施步驟(算法偽代碼、調(diào)節(jié)參數(shù)選擇準(zhǔn)則等)參見文獻(xiàn)[7]。在高通量生物醫(yī)學(xué)研究中,例如基因關(guān)聯(lián)研究和基因表達(dá)研究,基于正則化的變量選擇方法被大量應(yīng)用,而設(shè)計(jì)具有較高精度的快速算法求解相應(yīng)正則化問題是應(yīng)用的關(guān)鍵。在下一節(jié),我們運(yùn)用PDASC方法對(duì)DNA微陣列基因表達(dá)數(shù)據(jù)在高維LASSO模型框架下展開計(jì)算和分析,以期望獲得較為合理的具有一定生物學(xué)意義的結(jié)果。

        三、實(shí)證分析

        根據(jù)文獻(xiàn)[8],我們對(duì)ISLR軟件包[5]中的NCI60微陣列數(shù)據(jù)進(jìn)行實(shí)證分析,主要目標(biāo)是在高維LASSO模型框架下比較glmnet和PDASC兩種方法的計(jì)算速度和精度。NCI60數(shù)據(jù)包含了來自64個(gè)癌細(xì)胞系的6830個(gè)基因的表達(dá)水平,關(guān)于該數(shù)據(jù)的更多信息可在網(wǎng)站http://genome-www.stanford.edu/nci60/ 上獲取。我們的研究目的是考察第1個(gè)基因和余下所有基因的關(guān)系。在線性模型(1)下,該數(shù)據(jù)的響應(yīng)變量[y]是長度為64的數(shù)值向量,其給出了第1個(gè)基因的表達(dá)水平;設(shè)計(jì)矩陣[X]是維度為[ 64 × 6829]的矩陣,其表示了剩余的6829個(gè)基因的表達(dá)水平。故該數(shù)據(jù)有[n=64],[p=6829],滿足[p>n],從而是一個(gè)高維數(shù)據(jù),于是我們?cè)谡齽t化模型(2)下求解問題。對(duì)于glmnet和PDASC兩種計(jì)算方法,我們均采用文獻(xiàn)[9]中的voting準(zhǔn)則選擇調(diào)節(jié)參數(shù)[λ]。對(duì)于兩種方法(Method),我們采用的比較指標(biāo)包括計(jì)算時(shí)間(Time,單位:秒)、模型大?。∕S,即非零元素個(gè)數(shù))、預(yù)測誤差(PE)和選擇的基因(Gene,即設(shè)計(jì)矩陣[X]對(duì)應(yīng)的列),其中Time為速度指標(biāo),其余為精度指標(biāo),結(jié)果如表1所示。由表1可知,PDASC的PE比glmnet大,但計(jì)算速度比glmnet快,且選擇的基因個(gè)數(shù)比glmnet少。由表1還可知,PDASC選擇的基因集合是glmnet選擇基因集的真子集,這說明了PDASC基因集具有一定的顯著性和代表性。我們?cè)诒?中列出了兩種方法相同基因的估計(jì)系數(shù),發(fā)現(xiàn)雖然兩種方法給出的估計(jì)系數(shù)絕對(duì)值不同,但符號(hào)相同,說明二者表達(dá)的生物學(xué)意義是一樣的。特別地,表2中PDASC給出的Gene估計(jì)系數(shù)絕對(duì)值要比glmnet給出的大,注意到PDASC基因集比glmnet基因集小,從而在一定意義上說明PDASC方法可以更為集中而精確地選擇到顯著的自變量集。 值得注意的是,為了使結(jié)果更具有說服力,還應(yīng)該使用兩種方法對(duì)NCI60數(shù)據(jù)分析作交叉驗(yàn)證(cross validation),以獲得更為穩(wěn)健的速度和精度結(jié)果,可參考教材[5]第6章第6.6節(jié)實(shí)驗(yàn)2的相關(guān)內(nèi)容。

        四、結(jié)語

        本文對(duì)統(tǒng)計(jì)學(xué)習(xí)課程中基于高維線性模型的LASSO正則化的計(jì)算問題進(jìn)行了拓展訓(xùn)練,結(jié)合統(tǒng)計(jì)學(xué)習(xí)學(xué)科發(fā)展迅速的特點(diǎn),通過引入文獻(xiàn)中一種新的原始對(duì)偶有效集方法對(duì)高維基因微陣列數(shù)據(jù)作實(shí)證分析,并與著名的glmnet包的計(jì)算結(jié)果進(jìn)行了比較。

        通過本文內(nèi)容的介紹和實(shí)證,我們希望拋磚引玉,引導(dǎo)同學(xué)們?cè)趯W(xué)習(xí)教材內(nèi)容的同時(shí),更加注重將課本知識(shí)與最新的科研方法相結(jié)合,多檢索、多思考、多動(dòng)手,為以后在學(xué)界從事科研教學(xué)或在業(yè)界進(jìn)行數(shù)據(jù)挖掘工作打下良好的基礎(chǔ)。

        與此同時(shí),除了學(xué)生們的“學(xué)”,我們認(rèn)為大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)習(xí)學(xué)科的快速發(fā)展也對(duì)老師們的“教”提出了新的更高的要求。廣大教師必須要更加切實(shí)地轉(zhuǎn)變教學(xué)思想,目標(biāo)和眼界要聚焦于領(lǐng)袖學(xué)校和行業(yè)巨頭的發(fā)展動(dòng)態(tài),不斷適應(yīng)社會(huì)發(fā)展,及時(shí)更新統(tǒng)計(jì)學(xué)習(xí)教材,運(yùn)用多種教學(xué)方法和軟件手段來培養(yǎng)學(xué)生的學(xué)習(xí)興趣和操作經(jīng)驗(yàn),鼓勵(lì)學(xué)生更加注重案例分析和社會(huì)實(shí)踐,鞏固學(xué)生掌握傳統(tǒng)經(jīng)典知識(shí)的同時(shí),把握好“課堂所學(xué)”與“社會(huì)所需”之間的緊密聯(lián)系,激發(fā)學(xué)生大膽探索適應(yīng)大數(shù)據(jù)時(shí)代發(fā)展的新思想、新理論、新方法和新應(yīng)用。

        [ 參 考 文 獻(xiàn) ]

        [1] 焦雨領(lǐng).稀疏約束下反問題理論與算法的研究[D].武漢:武漢大學(xué)博士學(xué)位論文,2014.

        [2] 徐德義,林志恒.對(duì)大數(shù)據(jù)時(shí)代大學(xué)統(tǒng)計(jì)教學(xué)的認(rèn)識(shí)與思考[J].大學(xué)教育,2015(11):183-184.

        [3] Hastie, T, Tibshirani, R, Friedman, J. Elements of statistical learning: data mining, inference, and prediction (second edition)[M]. Springer, 2009.

        [4] 鄭明,陳子毅,汪嘉岡.數(shù)理統(tǒng)計(jì)講義[M].上海:復(fù)旦大學(xué)出版社,2006.

        [5] [美]詹姆斯(James, G.)等著,王星等譯. 統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論——基于R應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2015.

        [6] 鄧世容,石躍勇.蒙特卡洛方法在概率論與數(shù)理統(tǒng)計(jì)教學(xué)中的應(yīng)用[J].科教導(dǎo)刊(上旬刊),2018(1):111-112.

        [7] Fan Q, Jiao Y, Lu X. A primal dual active set algorithm with continuation for compressed sensing[J]. IEEE Transactions on Signal Processing, 2014, 62(23):6276-6285.

        [8] Shi Y, Cao Y, Yu J, Jiao Y. High-dimensional variable selection with the generalized SELO penalty [J].Jounal of Mathematics, 2018, 38(6), 900-998.

        [9] Huang J, Jiao Y, Lu X, Zhu L. Robust decoding from 1-bit compressive sampling with ordinary and regularized least squares [J]. SIAM Journal on Scientific Computing, 2018, 40(4):A2062-A2086.

        [責(zé)任編輯:林志恒]

        猜你喜歡
        實(shí)證分析
        P2P網(wǎng)絡(luò)借貸犯罪實(shí)證分析
        我國電力產(chǎn)出對(duì)經(jīng)濟(jì)增長拉動(dòng)作用的實(shí)證分析
        國外綠色投資經(jīng)驗(yàn)及啟示
        商(2016年32期)2016-11-24 17:25:21
        合伙企業(yè)法律風(fēng)險(xiǎn)實(shí)證分析
        新常態(tài)下民眾政治信任差異實(shí)證分析與對(duì)策設(shè)想
        人間(2016年24期)2016-11-23 15:11:29
        安徽省勞動(dòng)就業(yè)與經(jīng)濟(jì)增長的實(shí)證分析
        電子服務(wù)質(zhì)量與顧客忠誠的關(guān)系研究
        中國市場(2016年38期)2016-11-15 23:37:20
        本土?xí)?jì)師事務(wù)所與國際四大會(huì)計(jì)師事務(wù)所的比較分析
        以公有制經(jīng)濟(jì)為主體,國有經(jīng)濟(jì)為主導(dǎo)的實(shí)證分析
        基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
        中國市場(2016年33期)2016-10-18 12:16:58
        国产精品毛片va一区二区三区 | 91色综合久久熟女系列| 狠狠色丁香婷婷综合潮喷| 无码人妻一区二区三区在线视频| 精品久久久久一区二区国产| 久久亚洲精品国产精品婷婷| 亚洲写真成人午夜亚洲美女| 色狠狠色噜噜av天堂一区| 欧美亚洲国产精品久久高清| 国产码欧美日韩高清综合一区| 激情五月开心五月啪啪| 18禁黄污吃奶免费看网站| 日韩精品一区二区三区在线观看| 无码国产一区二区色欲| 偷拍综合在线视频二区日韩| 国产成人无码18禁午夜福利p| japanese无码中文字幕| 在线免费观看亚洲天堂av| 人妻少妇中文字幕久久| 国产如狼似虎富婆找强壮黑人| 国产女高清在线看免费观看| 青青草好吊色在线视频| 国产自国产自愉自愉免费24区| 精品亚洲国产成人av| 国产v精品成人免费视频400条| 狼人精品剧情av在线观看| 色偷偷av一区二区三区| 国产成人无码aⅴ片在线观看| 亚洲一区日本一区二区| 国产精品亚洲av三区亚洲| 一本一道久久综合狠狠老| 国产自产av一区二区三区性色| 一个人午夜观看在线中文字幕| 国产丝袜美女一区二区三区| 久久精品国产99国产精2020丨 | 国产av无码专区亚洲av男同| 国产超碰人人模人人爽人人喊| 西西人体大胆视频无码| 国产亚洲成人精品久久久| 在熟睡夫面前侵犯我在线播放| 99热门精品一区二区三区无码|