亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于單元間距離估計的不等概率抽樣算法及應(yīng)用

        2023-06-23 17:28:37周楷賀李莉莉

        周楷賀 李莉莉

        摘要:現(xiàn)有大數(shù)據(jù)的不等概率抽樣方法大多基于數(shù)據(jù)分布,泛化能力較差。為此,利用多層感知機、XGBoost和Kriging模型估計總體單元間的相對距離,提出針對海量數(shù)據(jù)的不等概率抽樣算法。此類算法既不需要考慮總體的分布,又能夠保證樣本的代表性。實證分析結(jié)果表明,基于此算法抽取樣本構(gòu)建的模型與簡單隨機抽樣方法相比,模型參數(shù)估計的均方誤差更低,效果更穩(wěn)定。

        關(guān)鍵詞:不等概率抽樣;代理模型;樣本代表性

        中圖分類號:O212.2

        文獻標志碼:A

        文章編號:1006-1037(2023)02-0005-06

        doi:10.3969/j.issn.1006-1037.2023.02.02

        基金項目:

        國家社會科學(xué)基金(批準號:2019BTJ028)資助;山東省金融應(yīng)用重點研究項目(批準號:2020-JRZZ-03)資助。

        通信作者:

        李莉莉,女,博士,教授,主要研究方向為金融統(tǒng)計、統(tǒng)計調(diào)查與預(yù)測。

        大數(shù)據(jù)抽樣分為概率抽樣和非概率抽樣,前者包括等概率抽樣和不等概率抽樣。不等概率抽樣最早以漢森—赫維茨估計量為基礎(chǔ)[1],最新研究通過奇異值分解(Singular Value Decomposition, SVD) [2]獲取信息矩陣中杠桿分數(shù)作為總體單元的入樣概率,利用估計量的均方誤差衡量估計量的精度。兩步子抽樣算法[3]基于SVD分解、試驗設(shè)計中A-最優(yōu)和L-最優(yōu)提出的大數(shù)據(jù)子抽樣算法,理論證明基于兩步子抽樣算法的模型參數(shù)估計具有無偏性和一致性;模擬和實證分析結(jié)果表明兩步子抽樣相比于簡單隨機抽樣在模型參數(shù)估計的均方誤差上有顯著優(yōu)勢。兩步子抽樣算法可由二分類Logistic回歸擴展至多分類SoftMax模型[4]、線性回歸模型[5]、廣義線性模型[6]。替代模型中Kriging模型、XGBoost、多層感知機(Multi-Layer Perceptron, MLP)可用于處理確定性函數(shù)。Kriging模型及其最佳線性無偏預(yù)測(Best Linear Unbiased Prediction, BLUP)的性質(zhì)經(jīng)系統(tǒng)論證后[7],大量模擬表明該模型仍可精確預(yù)測復(fù)雜曲面。XGBoost旨在實現(xiàn)高效,靈活和便攜的數(shù)據(jù)分析和預(yù)測,同時梯度增強框架下實現(xiàn)并行樹提升,能快速準確地解決諸多數(shù)據(jù)科學(xué)問題[8],廣泛應(yīng)用于金融[9]、基建工程[10]領(lǐng)域。多層感知機[11]基于梯度下降和反向傳播算法學(xué)習(xí)大量未知參數(shù),具有強大的擬合能力。本文利用上述三種模型,提出基于單元間距離估計的不等概率抽樣算法,針對不同樣本構(gòu)建模型,根據(jù)計算結(jié)果研究分析樣本的代表性。

        1 模型及算法闡述

        本文所提不等概率抽樣算法步驟:首先抽取樣本,構(gòu)建定義單元的入樣概率模型。通過隨機簡單抽樣獲取隨機子樣本,模型的響應(yīng)值為該單元至最近的nc個樣本單元之間平均歐式距離的倒數(shù),非線性變換旨在解決樣本過分集中導(dǎo)致樣本粘連和樣本代表性下降。針對不同的子樣本和對應(yīng)的響應(yīng)值,分別構(gòu)建基于Kriging模型、XGBoost模型、MLP的不等概率抽樣算法。最后通過已構(gòu)建模型定義各單元的入樣概率,實施不等概率抽樣。該算法可計算每個單元的入樣概率,并依入樣概率抽取不等概率抽樣樣本。

        基于XGBoost(XGB)模型和基于MLP模型的不等概率抽樣算法具體步驟除(3)以外均相同。

        2 實證分析

        2.1 數(shù)據(jù)預(yù)處理

        通過2021年秋季Raifhack房地產(chǎn)數(shù)據(jù),研究基于概率密度的抽樣算法在一般線性回歸中參數(shù)估計的性質(zhì)。數(shù)據(jù)來源于Kaggle數(shù)據(jù)庫中Raifhack房產(chǎn)價格預(yù)測項目[12]。原始數(shù)據(jù)集中自變量77個,目標變量為房產(chǎn)價格,觀測值共計279 792條。經(jīng)自變量篩選和剔除缺失觀測值30 211條后,保留的20個自變量需標準化處理以消除不同自變量之間量綱影響[13]。經(jīng)全樣本構(gòu)建線性模型驗證,自變量模型參數(shù)均在P=0.05上顯著(表1)。

        2.2 距離估計算法構(gòu)建線性回歸模型的均方誤差分析

        設(shè)定基于單元間距離估計的不等概率抽樣算法的一階樣本量為700。為驗證該算法在一般線性回歸中的有效性,通過三種基于單元間距離估計的不等概率抽樣算法獲得249 851個觀測值的入樣概率。基于三種提出的不等概率抽樣算法獲得的樣本和使用簡單隨機抽樣獲得相同數(shù)量的樣本構(gòu)建回歸模型,為便于比較,構(gòu)建mseKrin=MSEKrinMSErandomn、mseXGBn=MSEXGBnMSErandomn和mseMLPn=MSEMLPnMSErandomn。MSEKrin、MSEXGBn和MSEMLPn分別表示基于Kriging模型、XGBoost模型、MLP模型的不等概率抽樣抽取的n個樣本構(gòu)建模型參數(shù)1 000次均方誤差的均值;MSErandomn代表利用簡單隨機抽樣抽取的n個樣本構(gòu)建模型參數(shù)1 000次均方誤差的均值。根據(jù)不同樣本n=100,300,500時mseKrin、mseXGBn和mseMLPn可知,相比基于XGBoost和MLP模型的不等概率抽樣,基于Kriging模型的不等概率抽樣構(gòu)建模型的參數(shù)均方誤差較大,但仍整體上小于簡單隨機抽樣構(gòu)建模型的模型參數(shù)均方誤差(表2),這表明所提出的三種不等概率抽樣算法相較于簡單隨機抽樣具有不同程度的樣本代表性優(yōu)勢。

        2.3 距離估計算法對總體特征估計分析

        樣本代表性亦可通過樣本對總體矩的估計精度表示。三種不等概率抽樣的樣本矩和簡單隨機抽樣的樣本矩分別與總體矩之間的曼哈頓距離比值作為指標,其中分子為不等概率抽樣獲得的樣本矩與總體矩之間距離的1 000次試驗均值,分母為簡單隨機抽樣獲得的樣本矩與總體矩之間距離的1 000次試驗均值?;诓煌瑯颖玖縩=100,200,300,400,500三種不等概率抽樣算法在一階矩和二階矩的估計結(jié)果如圖1~3所示。

        可知,基于Kriging模型的不等概率抽樣相較于簡單隨機抽樣對總體矩的估計精度差異較小。基于XGB模型和基于MLP模型的不等概率抽樣隨著樣本量增加,對總體一階矩和二階矩的估計精度不斷提高,證明基于XGB模型和基于MLP模型的不等概率抽樣樣本相較于基于Kriging模型的不等概率抽樣樣本和簡單隨機樣本對總體具有更好的代表性。為分析上述方法穩(wěn)定性,需計算基于三種不等概率抽樣樣本對總體矩估計的標準差與簡單隨機抽樣的標準差比值(表3)。與簡單隨機抽樣相比,三種不等概率抽樣算法均提高總體的一階矩和二階矩估計量的穩(wěn)定性,三種不等概率樣本對總體一階矩的估計精度更穩(wěn)定。樣本量相同的條件下基于MLP和XGB的抽樣方法相較于Kriging模型的抽樣方法能更加精確的估計總體一階矩和二階矩。

        3 結(jié)論

        本文從估計單元間距離出發(fā),結(jié)合Kriging模型、XGBoost模型和MLP模型提出了三種不等概率抽樣算法。相較于簡單隨機抽樣,文中所提三種不等概率抽樣算法獲取的樣本在估計一般線性回歸模型時,模型參數(shù)的均方誤差更小?;谌N不等概率抽樣所得樣本能夠更加精確和穩(wěn)定地估計總體一階矩和二階矩,說明通過所構(gòu)建不等概率模型抽取的樣本更能反映真實情況。今后構(gòu)建MLP和XGB模型時應(yīng)充分考慮數(shù)據(jù)特異性,確定適合模型的超參數(shù)以提升模型性能。

        參考文獻

        [1]馮士雍,倪加勛,鄒國華. 抽樣調(diào)查理論與方法:第2版[M]. 北京:高等教育出版社,2012: 139-156.

        [2]MA P, MAHONEY M W, YU B. A statistical perspective on algorithmic leveraging[J]. The Journal of Machine Learning Research, 2015, 16(1):861-911.

        [3]WANG H Y, ZHU R, MA P. Optimal subsampling for large sample logistic regression[J]. Journal of the American Statistical Association, 2018, 113(522):829-844.

        [4]YAO Y Q, WANG H Y. Optimal subsampling for SoftMax regression[J]. Statistical Papers, 2018, 60:585-599.

        [5]CHEN Q S, WANG H Y, YANG M. Information-based optimal subdata selection for big data logistic regression[J]. Journal of Statistical Planning and Inference, 2020, 209:112-122.

        [6]AI M Y, YU J, ZHANG H M, et al. Optimal subsampling algorithms for big data regressions[J]. Statist Sinica, 2021, 31(2):749-772.

        [7]SANTNER T J, WILLIAMS B J, NOTZ W I. The design and analysis of computer experiments[M]. New York: Springer, 2003, 46-86.

        [8]CHEN T Q, GUESTRIN C. XGBoost: A Scalable Tree Boosting System [C]// Association for Computing Machinery 2016. San Francisco, 2016:785-794.

        [9]陳秋華,楊慧榮,崔恒建.變量篩選后的個人信貸評分模型與統(tǒng)計學(xué)習(xí)[J]. 數(shù)理統(tǒng)計與管理, 2020, 39(2):368-380.

        [10] 劉鑫蕊,常鵬,孫秋野.基于XGBoost和無跡卡爾曼濾波自適應(yīng)混合預(yù)測的電網(wǎng)虛假數(shù)據(jù)注入攻擊檢測[J].中國電機工程學(xué)報, 2021, 41(16):5462-5476.

        [11] PARK H. MLP modeling for search advertising price prediction[J]. Journal of Ambient Intelligence and Humanized Computing, 2019, 11:411-417.

        [12] VLADISLAV K. Raifhack-DS-2021-Fall[DB/OL].[2022-03-22]. https://www.kaggle.com/lildatascientist/raifhackds2021fall.

        [13] 宋錦波, 徐海芹, 宮曉慧, 等. 基于雙簇頭及數(shù)據(jù)融合的改進LEACH算法的網(wǎng)絡(luò)拓撲控制研究[J]. 青島大學(xué)學(xué)報(自然科學(xué)版), 2021, 34(3):22-27.

        精品免费看国产一区二区| 激情五月开心五月啪啪| 精品人妻码一区二区三区剧情| 亚洲七久久之综合七久久| 成人三级在线| 视频网站在线观看不卡| 无码不卡一区二区三区在线观看| 国产乱老熟视频乱老熟女1| 国产成人亚洲一区二区| 午夜精品久久久久久毛片| 国产成人亚洲不卡在线观看| 中文字幕人妻中文| 国产一区二区三区特黄| 亚洲成人精品久久久国产精品| 国产午夜在线视频观看| 国产精品538一区二区在线| 男女肉粗暴进来120秒动态图| 99re国产电影精品| 精品亚洲一区二区三区在线播放| 欧美日韩在线视频一区| 色老汉免费网站免费视频| 中文字幕日韩精品美一区二区三区| 国产精品老熟女乱一区二区| 国产婷婷色一区二区三区在线| 九九99久久精品国产 | 亚洲av乱码专区国产乱码| 国产亚洲亚洲精品视频| 国产主播一区二区三区蜜桃| 风流老太婆大bbwbbwhd视频| 台湾佬综合网| 日韩人妻无码精品二专区| 亚洲精品视频一区二区三区四区 | 日韩av一区二区无卡| 少妇性l交大片7724com| 日日噜噜噜夜夜爽爽狠狠| 综合图区亚洲另类偷窥| 偷拍视频网址一区二区| 中国美女a级毛片| 亚洲男人av香蕉爽爽爽爽| 禁止免费无码网站| 亚洲视频在线观看第一页|