亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高維缺失數(shù)據(jù)的統(tǒng)計(jì)推斷理論和方法研究

        2022-09-14 13:18:06云南大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院
        云南科技管理 2022年4期
        關(guān)鍵詞:特征方法模型

        云南大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院

        1 創(chuàng)新點(diǎn)

        為突破大數(shù)據(jù)分析瓶頸,項(xiàng)目圍繞大數(shù)據(jù)中的高維缺失數(shù)據(jù)分析的關(guān)鍵科學(xué)問題,開展統(tǒng)計(jì)推斷理論和方法研究,提出篩選特征和插補(bǔ)缺失數(shù)據(jù)的新方法,取得一系列突破性研究成果,其主要?jiǎng)?chuàng)新點(diǎn)如下:

        一是針對(duì)大數(shù)據(jù)的超高維問題,提出篩選特征的新方法。對(duì)大數(shù)據(jù)中的超高維異質(zhì)屬性數(shù)據(jù),通過定義與屬性水平相關(guān)的啞變量,提出不依賴于模型假設(shè)篩選特征的分類自適應(yīng)法,可直接用于屬性響應(yīng)變量有偏抽樣數(shù)據(jù)的特征篩選,克服現(xiàn)有特征篩選法沒有考慮數(shù)據(jù)異質(zhì)性和數(shù)據(jù)有偏抽樣的缺陷;對(duì)超高維連續(xù)型數(shù)據(jù),通過引入切片技術(shù)和數(shù)據(jù)融合思想,提出不依賴于模型假設(shè)篩選特征的切片融合均值方差濾波法,解決現(xiàn)有超高維特征篩選法僅適用于某一特定數(shù)據(jù)類型的缺陷;建立特征篩選方法的Sure Screening 性質(zhì)和秩相合性等漸近理論。

        二是針對(duì)過度識(shí)別的矩模型,提出解決模型參數(shù)推斷中的不適定性問題的新方法。對(duì)不完全正確的發(fā)散維過度識(shí)別矩模型,提出同時(shí)估計(jì)模型參數(shù)和挑選變量的懲罰指數(shù)傾斜似然法,建立參數(shù)估計(jì)量和檢驗(yàn)統(tǒng)計(jì)量的漸近理論,解決矩模型不完全正確時(shí)參數(shù)推斷中的不適定性問題,彌補(bǔ)現(xiàn)有矩模型參數(shù)估計(jì)理論僅限于矩模型正確之不足;針對(duì)復(fù)雜抽樣調(diào)查數(shù)據(jù),通過融合抽樣設(shè)計(jì)效應(yīng),構(gòu)建過度識(shí)別的光滑/非可微矩模型,基于獨(dú)立樣本先驗(yàn)和相依壓縮先驗(yàn)發(fā)展了估計(jì)模型參數(shù)和選模型的貝葉斯經(jīng)驗(yàn)似然法,建立貝葉斯參數(shù)估計(jì)的相合性和貝葉斯置信區(qū)間的基于設(shè)計(jì)的頻率性質(zhì)等漸近理論,克服現(xiàn)有方法沒有融合設(shè)計(jì)效應(yīng)和相依壓縮先驗(yàn)信息的缺陷,為復(fù)雜抽樣調(diào)查數(shù)據(jù)的統(tǒng)計(jì)建模提供新理論、新方法。

        三是針對(duì)數(shù)據(jù)缺失問題,提出插補(bǔ)缺失數(shù)據(jù)的新方法,建立缺失數(shù)據(jù)模型參數(shù)估計(jì)的漸近理論。對(duì)不可忽略缺失數(shù)據(jù),基于指數(shù)傾斜模型提出不依賴于傾向得分模型的估計(jì)方程整體插補(bǔ)方法,克服基于傾向得分模型的傳統(tǒng)插補(bǔ)法依賴于Logistic 回歸模型的缺陷,開啟不可忽略缺失數(shù)據(jù)模型參數(shù)估計(jì)研究的新方向;對(duì)可忽略缺失數(shù)據(jù),提出基于缺失數(shù)據(jù)的條件分位數(shù)的插補(bǔ)新方法;基于提出的插補(bǔ)方法,對(duì)缺失數(shù)據(jù)線性模型、分位數(shù)回歸模型、非光滑估計(jì)方程和非線性動(dòng)態(tài)因子分析模型等發(fā)展模型參數(shù)的穩(wěn)健估計(jì)和評(píng)價(jià)缺失數(shù)據(jù)機(jī)制模型合理性的貝葉斯局部影響分析,克服現(xiàn)有參數(shù)估計(jì)方法對(duì)異常點(diǎn)或重尾誤差不穩(wěn)健的問題,解決缺失數(shù)據(jù)機(jī)制模型“不可檢驗(yàn)”問題;對(duì)不可忽略缺失數(shù)據(jù)估計(jì)方程,通過調(diào)整技術(shù)構(gòu)建新的估計(jì)方程,建立著名的Wilks 定理,揭示了含討厭參數(shù)的估計(jì)方程Wilks 定理不成立的原因。

        圖1 手寫數(shù)據(jù)圖

        2 成果應(yīng)用

        一是對(duì)前瞻性樣本屬性(或分類)變量數(shù)據(jù),代表作[2]對(duì)屬性響應(yīng)變量每一水平定義一個(gè)與之相關(guān)的啞變量,根據(jù)啞變量與特征之間的相關(guān)系數(shù)定義邊際篩選統(tǒng)計(jì)量,在屬性響應(yīng)變量與特征獨(dú)立的情況下證明得到:所定義的邊際篩選統(tǒng)計(jì)量為零,這是建立分類自適應(yīng)特征篩選法的一個(gè)非常重要的結(jié)論;基于邊際篩選統(tǒng)計(jì)量的樣本估計(jì)值,提出了篩選重要特征的分類自適應(yīng)法;在一定的正則條件下證明了所提出的特征篩選方法不僅具有統(tǒng)計(jì)學(xué)上的Sure Screening 性質(zhì)和秩相合性,而且能有效地克服現(xiàn)有超高維數(shù)據(jù)特征篩選法“不考慮數(shù)據(jù)異質(zhì)性”所引起的不可靠、不穩(wěn)定等不適定性問題,突破了現(xiàn)有超高維數(shù)據(jù)特征篩選大都僅適用于變量之間具有線性相關(guān)關(guān)系的特征篩選這一限制,解決了超高維異質(zhì)性的特征篩選問題,是一種不依賴于模型假設(shè)的自適應(yīng)方法。該方法應(yīng)用到手寫數(shù)據(jù),其結(jié)果(見圖1-2)表明,說明本項(xiàng)目提出的方法是切實(shí)可行的。

        二是針對(duì)復(fù)雜抽樣調(diào)查數(shù)據(jù),代表作[1]通過融合抽樣設(shè)計(jì)效應(yīng)構(gòu)造過度識(shí)別的非可微矩模型,基于獨(dú)立樣本先驗(yàn)和相依壓縮先驗(yàn)提出了估計(jì)模型有限總體參數(shù)向量和計(jì)算參數(shù)向量置信區(qū)間的半?yún)?shù)貝葉斯經(jīng)驗(yàn)似然法和挑選變量的半?yún)?shù)貝葉斯經(jīng)驗(yàn)似然準(zhǔn)則,發(fā)展了計(jì)算高效且快捷的馬爾科夫鏈蒙特卡羅算法,證明了基于設(shè)計(jì)的貝葉斯經(jīng)驗(yàn)似然后驗(yàn)分布滿足“Bernstein-von Mises定理”、基于一般抽樣設(shè)計(jì)的貝葉斯經(jīng)驗(yàn)似然估計(jì)量具有相合性、基于半?yún)?shù)貝葉斯似然的模型選擇準(zhǔn)則在候選模型包含正確模型下具有模型選擇的相合性(即依概率1選擇正確模型)、基于不等概率抽樣設(shè)計(jì)的貝葉斯置信區(qū)間能達(dá)到預(yù)先指定的覆蓋概率,基于設(shè)計(jì)的貝葉斯經(jīng)驗(yàn)似然方法克服了在模型框架下非抽樣調(diào)查數(shù)據(jù)分析需要數(shù)據(jù)獨(dú)立同分布假設(shè)、沒有考慮融合設(shè)計(jì)效應(yīng)和相依壓縮先驗(yàn)信息的缺陷,基于設(shè)計(jì)的馬爾科夫鏈蒙特卡羅近似算法解決了計(jì)算邊際似然函數(shù)涉及多重積分的問題,基于樣本經(jīng)驗(yàn)似然函數(shù)的貝葉斯方法克服了經(jīng)典方法對(duì)復(fù)雜抽樣設(shè)計(jì)問題普適性較弱的缺陷,為估計(jì)復(fù)雜抽樣調(diào)查數(shù)據(jù)中的非可微參數(shù)(如總體分位數(shù))提供了新理論和新方法。數(shù)值模擬結(jié)果(見表1)表明,本項(xiàng)目提出的方法是切實(shí)可行的。

        三是針對(duì)不可忽略缺失數(shù)據(jù)的半?yún)?shù)估計(jì)方程,在沒有指定傾向得分的參數(shù)模型形式的情況下,提出了不依賴于傾向得分模型的估計(jì)方程整體插補(bǔ)方法,克服了傳統(tǒng)基于傾向得分模型的缺失數(shù)據(jù)插補(bǔ)法依賴于Logistic回歸模型假設(shè)的局限性,拓展和發(fā)展了傳統(tǒng)缺失數(shù)據(jù)插補(bǔ)技術(shù),開啟了不可忽略缺失數(shù)據(jù)模型參數(shù)估計(jì)研究的新方向?;诖瞬逖a(bǔ)技術(shù),提出了估計(jì)PS的基于驗(yàn)證樣本和半?yún)?shù)經(jīng)驗(yàn)似然法,將輔助信息融于Calibration條件極大地提高了傾向得分估計(jì)的效率;通過構(gòu)造逆概率加權(quán)估計(jì)方程、增廣逆概率加權(quán)估計(jì)方程提出了估計(jì)模型參數(shù)的廣義矩估計(jì)法、廣義經(jīng)驗(yàn)似然估計(jì)法。數(shù)值模擬結(jié)果和實(shí)例數(shù)據(jù)結(jié)果發(fā)現(xiàn):即使錯(cuò)誤指定傾向得分參數(shù)模型的函數(shù)形式,參數(shù)的廣義矩估計(jì)量仍具有相合性,且基于傾向得分參數(shù)模型的廣義矩估計(jì)法能極大地改進(jìn)現(xiàn)有參數(shù)估計(jì)效果;將廣義經(jīng)驗(yàn)似然法和廣義矩估計(jì)法結(jié)合對(duì)過度識(shí)別半?yún)?shù)估計(jì)方程建立了新的參數(shù)估計(jì)理論,避免了現(xiàn)有單一參數(shù)估計(jì)方法的有偏性或效率低等問題。

        表1 模擬結(jié)果

        表2 模擬結(jié)果

        圖2 模擬結(jié)果

        四是針對(duì)含不可忽略缺失數(shù)據(jù)的非線性動(dòng)態(tài)因子分析模型,通過用Dirichlet Process先驗(yàn)近似時(shí)間序列參數(shù)的分布,發(fā)展了估計(jì)模型參數(shù)和動(dòng)態(tài)因子的貝葉斯方法,綜合Gibbs抽樣技術(shù)和Metropolis-Hastings算法提出了計(jì)算模型參數(shù)和動(dòng)態(tài)因子的貝葉斯估計(jì)的混合算法;通過視擾動(dòng)模型為微分幾何中的流形,借助微分幾何的理論給出了度量模型擾動(dòng)大小的度量張量(Metric Tensor)的定義,發(fā)展了評(píng)價(jià)模型微小擾動(dòng)的貝葉斯局部影響分析方法。模擬驗(yàn)證(見圖3):這一方法不僅能識(shí)別數(shù)據(jù)集中的強(qiáng)影響點(diǎn),更重要的是可用來判斷先驗(yàn)分布假設(shè)和缺失數(shù)據(jù)機(jī)制模型的合理性,解決了缺失數(shù)據(jù)機(jī)制模型“不可用數(shù)據(jù)檢驗(yàn)”這一難題。

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        99999久久久久久亚洲| 黄色三级视频中文字幕| 三个黑人插一个女的视频| 国产内射爽爽大片| 无码日韩精品一区二区三区免费| 亚洲视频天堂| 国产精品久久国产精品久久| 亚洲国产精品一区二区成人av| 国产农村妇女精品一二区 | 国产专区一线二线三线码 | 国产黄片一区二区三区| 中文字幕av中文字无码亚| 久久亚洲私人国产精品| 久久亚洲第一视频黄色| 国产丝袜美腿一区二区三区| 久久精品国产99国产精偷| 亚洲日本人妻少妇中文字幕| av中文字幕潮喷人妻系列| 猫咪www免费人成网最新网站 | 天天影视色香欲综合久久| 久久洲Av无码西西人体| 中美日韩在线一区黄色大片| 性xxxx18免费观看视频| 亚洲成人免费网址| 国产一区二区毛片视频| 日韩精品综合一本久道在线视频| 日本做受高潮好舒服视频| 中文字幕久久精品波多野结百度 | 人妻精品一区二区免费| 女人天堂av人禽交在线观看| 亚洲人成人网站在线观看| 无码日日模日日碰夜夜爽| 少妇我被躁爽到高潮在线影片| 夜夜爽日日澡人人添| а中文在线天堂| 国产精品丝袜一区二区三区在线| 精品一区二区三区芒果| 日韩a无v码在线播放| av无码电影一区二区三区| 中国老熟女露脸老女人| 精产国品一二三产品蜜桃|