亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)方法研究

        2022-10-14 06:10:28吳斌鑫周正南莫常春
        機(jī)械與電子 2022年9期
        關(guān)鍵詞:模型

        吳斌鑫,劉 美,周正南,,莫常春,4,吳 猛,張 斐

        (1.廣東石油化工學(xué)院,廣東 茂名 525000;2.吉林化工學(xué)院,吉林 吉林 132022;3.東莞理工學(xué)院,廣東 東莞 523419;4.大連交通大學(xué),遼寧 大連 116028)

        0 引言

        在多傳感網(wǎng)絡(luò)監(jiān)測(cè)的過(guò)程中,由于工作環(huán)境的復(fù)雜性、傳感設(shè)備失效等因素,監(jiān)測(cè)數(shù)據(jù)有可能存在缺失。插補(bǔ)法是利用現(xiàn)有數(shù)據(jù),通過(guò)統(tǒng)計(jì)學(xué)習(xí)方法挖掘數(shù)據(jù)信息并預(yù)測(cè)缺失值,避免了原始信息的丟失、保持樣本容量,具有高效的優(yōu)點(diǎn)[1-2]。其中,K近鄰(K-nearest neighbor,KNN)插補(bǔ)法,尋找數(shù)據(jù)集中識(shí)別空間相似或相近的K個(gè)樣本,并使用這K個(gè)樣本估計(jì)缺失數(shù)據(jù)點(diǎn)的值,簡(jiǎn)單易行[3-4];單一線性回歸插補(bǔ)法,利用完整數(shù)據(jù)建立模型,依據(jù)此模型預(yù)測(cè)插補(bǔ)缺失值[5];神經(jīng)網(wǎng)絡(luò)依據(jù)網(wǎng)絡(luò)深度及反向傳播,優(yōu)化網(wǎng)絡(luò)輸出減小誤差,最終做出預(yù)測(cè)[6]。機(jī)器學(xué)習(xí)算法在處理缺失值時(shí)速度快、特征表征能力強(qiáng),因此應(yīng)用廣泛。

        然而,KNN插補(bǔ)法的插補(bǔ)效果因受數(shù)據(jù)集部分異常值影響,導(dǎo)致預(yù)測(cè)效果浮動(dòng)較大[7];單一線性回歸插補(bǔ)法因信息表征能力有限而存在精確度不高的問(wèn)題[8];神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)插補(bǔ)法隨著網(wǎng)絡(luò)層數(shù)增加時(shí)間復(fù)雜度較高[9]。因而,本文提出了一種基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)方法。

        1 相關(guān)理論分析

        Lasso回歸、皮爾遜相關(guān)性分析及嶺回歸是本文方法的重要組成部分,對(duì)本文方法起支撐作用。

        1.1 Lasso回歸

        對(duì)于多元線性回歸模型[10],其模型表達(dá)式為

        (1)

        yi為第i個(gè)預(yù)測(cè)值;βk為第k個(gè)自變量對(duì)應(yīng)的回歸系數(shù);xi,k為第i行第k個(gè)自變量;ε為偏移量;n為自變量個(gè)數(shù)。

        為保證回歸系數(shù)βk可求,在多元線性回歸目標(biāo)函數(shù)加上L1范數(shù)懲罰項(xiàng),則Lasso回歸目標(biāo)函數(shù)[11]為

        J(β)=∑(y-Xβ)2+∑λ|β|

        (2)

        y為觀測(cè)集;X為由x1,x2,…,xn構(gòu)成的集合;β為由β1,β2,…,βn構(gòu)成的回歸系數(shù)集;λ為正則化系數(shù),且值非負(fù)。

        由Lasso回歸目標(biāo)函數(shù)可知,其引入L1范數(shù)懲罰項(xiàng),正則化系數(shù)λ的選取十分重要。因此,本文采用K折交叉驗(yàn)證的方式對(duì)參數(shù)λ進(jìn)行求取。

        1.2 皮爾遜相關(guān)性分析

        為彌補(bǔ)單層回歸存在的誤差,將挖掘數(shù)據(jù)之間存在的相關(guān)性,反映各變量與目標(biāo)值之間的相關(guān)信息,并在此基礎(chǔ)上作為L(zhǎng)asso回歸的特征。此處采用皮爾遜相關(guān)系數(shù)尋找相關(guān)系數(shù)[12],2個(gè)變量之間的皮爾遜相關(guān)系數(shù)計(jì)算公式為

        (3)

        ρX,Y為2個(gè)變量之間的皮爾遜相關(guān)系數(shù);σX、σY分別為變量X、Y的標(biāo)準(zhǔn)差;μX、μY分別為變量X、Y的均值。

        對(duì)獲得的相關(guān)系數(shù)重新進(jìn)行計(jì)算(權(quán)重分配),計(jì)算公式為

        (4)

        γi為新獲得的系數(shù);ρXi,Y為原始系數(shù)。

        1.3 嶺回歸

        在多元線性回歸目標(biāo)函數(shù)加上L2范數(shù)懲罰項(xiàng),則嶺回歸目標(biāo)函數(shù)[13]為

        J(β)=∑(y-Xβ)2+∑λβ2

        (5)

        y為觀測(cè)集;X為由x1,x2,…,xn構(gòu)成的集合;β為由β1,β2,…,βn構(gòu)成的回歸系數(shù)集;λ為正則化系數(shù),且值非負(fù)。

        與Lasso回歸相同的是,嶺回歸對(duì)于參數(shù)λ值的求取也非常重要,因此同樣采用K折交叉驗(yàn)證的方式求取參數(shù)λ。

        1.4 KNN插補(bǔ)法

        K近鄰(KNN)插補(bǔ)法,通過(guò)距離測(cè)量來(lái)尋找數(shù)據(jù)集中識(shí)別空間相似或相近的K個(gè)樣本,并使用這K個(gè)樣本估計(jì)缺失數(shù)據(jù)點(diǎn)的值,或者可以直接使用相鄰觀測(cè)值的完整值來(lái)估計(jì)缺失值,簡(jiǎn)單易行。其識(shí)別空間相似或相近使用歐氏距離度量,公式為

        (6)

        2 整體模型構(gòu)建

        整體模型以Lasso回歸模型為基礎(chǔ),結(jié)合皮爾遜相關(guān)系數(shù)與嶺回歸模型并將兩者輸出作為L(zhǎng)asso回歸模型的輸入(特征),最終構(gòu)建雙重回歸模型,提高整體預(yù)測(cè)插補(bǔ)的精度。

        對(duì)于任意m×n結(jié)構(gòu)的數(shù)據(jù)集,通過(guò)式(1)、式(3)和式(4)可得嶺回歸模型結(jié)構(gòu)及權(quán)重分配后的皮爾遜相關(guān)系數(shù)。假設(shè)求得嶺回歸(第1層回歸)系數(shù)β1,β2,…,βn、嶺回歸偏移量ε及權(quán)重分配后的相關(guān)系數(shù)γ1,γ2,…,γn。那么對(duì)于導(dǎo)入的數(shù)據(jù),將會(huì)生成集成嶺回歸及相關(guān)性的數(shù)據(jù)集,公式為:

        (7)

        (8)

        將生成的集成嶺回歸及相關(guān)性的數(shù)據(jù)集導(dǎo)入Lasso回歸模型,最終確定回歸系數(shù)及偏移量,即可確定整體模型表達(dá)式,即

        (9)

        ε′為L(zhǎng)asso回歸的偏移量;α1、α2為L(zhǎng)asso回歸系數(shù)。

        3 算法設(shè)計(jì)及評(píng)估

        3.1 算法步驟

        a.對(duì)原始數(shù)據(jù)進(jìn)行滑動(dòng)窗口處理以制作數(shù)據(jù)集,并針對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)剔除以模擬缺失值。將整個(gè)數(shù)據(jù)集分為完整數(shù)據(jù)集和殘缺數(shù)據(jù)集。因2層回歸的數(shù)據(jù)需要,因此再將完整數(shù)據(jù)集分為2組,即訓(xùn)練集1、測(cè)試集1、訓(xùn)練集2、測(cè)試集2。過(guò)程如圖1所示。

        圖1 數(shù)據(jù)預(yù)處理

        b.劃分后的數(shù)據(jù)集使用訓(xùn)練集1放入嶺回歸模型進(jìn)行訓(xùn)練,并采用交叉驗(yàn)證對(duì)嶺回歸重要參數(shù)調(diào)優(yōu)。進(jìn)一步,使用測(cè)試集1對(duì)嶺回歸評(píng)估,與此同時(shí),對(duì)訓(xùn)練集1進(jìn)行皮爾遜相關(guān)性分析獲得應(yīng)變量與自變量之間的初步聯(lián)系。最終得到嶺回歸模型及皮爾遜相關(guān)性模型。過(guò)程如圖2所示。

        圖2 嶺回歸與皮爾遜相關(guān)分析

        c.對(duì)已獲得的嶺回歸系數(shù)、偏移量及相關(guān)系數(shù)結(jié)合訓(xùn)練集2進(jìn)行計(jì)算,生成集成嶺回歸及相關(guān)性的訓(xùn)練集(雙列),并將此作為L(zhǎng)asso回歸的輸入用以訓(xùn)練模型,后續(xù)通過(guò)K折交叉對(duì)Lasso模型參數(shù)調(diào)優(yōu)。同理,測(cè)試集2通過(guò)嶺回歸模型及皮爾遜相關(guān)性模型生成集成嶺回歸及相關(guān)性的測(cè)試集,并對(duì)Lasso回歸模型評(píng)估。最終初步確定整體模型。過(guò)程如圖3所示。

        圖3 初步整體模型確定

        d.將殘缺數(shù)據(jù)集導(dǎo)入全局初步模型模擬插補(bǔ),并根據(jù)計(jì)算而得的評(píng)估指標(biāo)校正分塊模型的參數(shù),最終完成建模,為后續(xù)缺失值插補(bǔ)提供支撐。

        3.2 評(píng)估指標(biāo)

        采用均方根誤差ERMS、模型訓(xùn)練時(shí)間及決定系數(shù)R2來(lái)評(píng)估各方法在各缺失率下的插補(bǔ)效果。均方根誤差的計(jì)算公式為

        (10)

        計(jì)算時(shí)間,即時(shí)間花費(fèi),該指標(biāo)關(guān)注模型的時(shí)間復(fù)雜度,公式為模型訓(xùn)練結(jié)束時(shí)間減去模型訓(xùn)練開(kāi)始時(shí)間,即te-ts。

        決定系數(shù)反映了模型對(duì)數(shù)據(jù)的擬合能力。決定系數(shù)計(jì)算公式為

        (11)

        u為殘差平方和,v為總體平方差,計(jì)算公式分別為:

        (12)

        (13)

        由上述可知,R2的取值范圍一般介于[0,1]。R2的值越高,說(shuō)明自變量(特征)對(duì)因變量解釋程度越高,觀測(cè)點(diǎn)在回歸線附近越密集。

        4 試驗(yàn)及結(jié)果分析

        本文采用西儲(chǔ)大學(xué)軸承數(shù)據(jù)中正常狀態(tài)下驅(qū)動(dòng)端加速度數(shù)據(jù)。選擇其中前5 010個(gè)采樣點(diǎn)并使用滑動(dòng)窗口法對(duì)數(shù)據(jù)進(jìn)行處理,窗口長(zhǎng)度為11,步長(zhǎng)為1,即生成1個(gè)5 000×11的數(shù)據(jù)集。使用隨機(jī)剔除方法對(duì)數(shù)據(jù)集處理,并劃分為殘缺數(shù)據(jù)集和完整數(shù)據(jù)集。在此基礎(chǔ)上,將完整數(shù)據(jù)集分別按照0.35、0.15、0.35、0.15的比例隨機(jī)地劃分訓(xùn)練集1、測(cè)試集1、訓(xùn)練集2、測(cè)試集2。

        經(jīng)過(guò)數(shù)據(jù)集劃分后,將數(shù)據(jù)集1導(dǎo)入嶺回歸、皮爾遜相關(guān)性分析訓(xùn)練模型并采用10折交叉驗(yàn)證求得最優(yōu)嶺回歸參數(shù)λ。經(jīng)求得,最優(yōu)嶺回歸參數(shù)λ=1×10-6。獲得嶺回歸系數(shù)、偏移量及皮爾遜相關(guān)系數(shù)如表1所示。

        表1 嶺回歸系數(shù)及皮爾遜相關(guān)系數(shù)

        表1(續(xù))

        將測(cè)試集1載入已訓(xùn)練模型,得到嶺回歸測(cè)試集分?jǐn)?shù)(決定系數(shù)R2)為0.961,嶺回歸測(cè)試集均方根誤差為0.01。數(shù)據(jù)表明,測(cè)試集1在嶺回歸模型中擬合較好,證明了第1層回歸的可靠性。

        隨后,對(duì)得到的各自變量對(duì)應(yīng)的皮爾遜相關(guān)系數(shù)進(jìn)行權(quán)重分配,權(quán)重分配為式(4)。進(jìn)一步,將訓(xùn)練集2導(dǎo)入已訓(xùn)練的嶺回歸模型和已權(quán)重分配的皮爾遜相關(guān)模型,對(duì)此將得到集成嶺回歸及相關(guān)性的訓(xùn)練集,如圖4所示。其表示第1層回歸(嶺回歸)的輸出,將相關(guān)系數(shù)預(yù)測(cè)值作為輔助預(yù)測(cè)特征(列),同時(shí)也是第2層回歸(Lasso回歸)的輸入。

        圖4 集成嶺回歸與相關(guān)性的數(shù)據(jù)集

        為確切地?cái)M合真實(shí)值,將集成嶺回歸及相關(guān)性的訓(xùn)練集導(dǎo)入Lasso回歸模型并使用10折交叉驗(yàn)證得到最優(yōu)Lasso回歸參數(shù)λ=1×10-5。在此基礎(chǔ)上,將測(cè)試集2導(dǎo)入已訓(xùn)練的嶺回歸模型和已權(quán)重分配的皮爾遜相關(guān)系數(shù)生成集成嶺回歸及相關(guān)性的測(cè)試集,后將其載入Lasso回歸模型,以評(píng)估Lasso回歸模型。經(jīng)過(guò)上述步驟,得到的Lasso回歸系數(shù)為[1.002 3,5.8×10-4],偏移量為0.000 41。Lasso回歸測(cè)試集分?jǐn)?shù)、均方根誤差分別為0.972、0.01。數(shù)據(jù)表明,測(cè)試集2在Lasso回歸中擬合較好,證明了第2層回歸的可靠性。

        建立可靠的模型后,為驗(yàn)證整體模型預(yù)測(cè)插補(bǔ)效果,使用殘缺數(shù)據(jù)集用以比較不同缺失率、不同插補(bǔ)方法下各評(píng)估指標(biāo)情況。

        利用KNN插補(bǔ)法、Lasso回歸插補(bǔ)法及基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)方法(以下簡(jiǎn)稱為雙重回歸插補(bǔ)法),對(duì)模擬缺失數(shù)據(jù)(殘缺數(shù)據(jù)集)進(jìn)行預(yù)測(cè),并針對(duì)不同缺失率(4%、10%和20%)比較各方法在評(píng)估指標(biāo)下的插補(bǔ)效果,如表2所示。表2中的數(shù)據(jù)皆為經(jīng)過(guò)多次驗(yàn)證后的平均數(shù),且各模型參數(shù)已由K折交叉驗(yàn)證取得最優(yōu)參數(shù),其中Lasso回歸插補(bǔ)法參數(shù)λ=1×10-5,KNN插補(bǔ)法參數(shù)neighbors=5。

        表2 各缺失率下研究方法及評(píng)估指標(biāo)情況

        由表2可知,雙重回歸插補(bǔ)法與單一Lasso回歸插補(bǔ)法在各評(píng)價(jià)指標(biāo)中相對(duì)于KNN插補(bǔ)法均有著不錯(cuò)的效果,可能由于數(shù)據(jù)的無(wú)規(guī)律性及空間距離的復(fù)雜性導(dǎo)致了KNN插補(bǔ)法效果較差。單一Lasso回歸插補(bǔ)法憑借其模型簡(jiǎn)單,在時(shí)間復(fù)雜度上優(yōu)于雙重回歸插補(bǔ)法,但也由此存在著相比于雙重回歸插補(bǔ)法更大的均方根誤差、更小的決定系數(shù)。

        以4%缺失率為例,3種方法預(yù)測(cè)插補(bǔ)如圖5~圖7所示。

        由圖5~圖7可以知道,以4%缺失率為例,雙重回歸插補(bǔ)法略優(yōu)于Lasso回歸插補(bǔ)法,更勝于KNN插補(bǔ)法,但是依舊出現(xiàn)部分點(diǎn)略有偏離的情況。

        圖5 4%缺失率下殘缺數(shù)據(jù)集雙重回歸預(yù)測(cè)插補(bǔ)圖

        圖6 4%缺失率下殘缺數(shù)據(jù)集Lasso回歸預(yù)測(cè)插補(bǔ)圖

        圖7 4%缺失率下殘缺數(shù)據(jù)集KNN插補(bǔ)圖

        雙重回歸插補(bǔ)法可以更好地?cái)M合真實(shí)值,其建立的模型泛化能力較強(qiáng),預(yù)測(cè)插補(bǔ)值與真實(shí)值相等或者接近,能夠?yàn)楹罄m(xù)的處理提供可靠保障。

        5 結(jié)束語(yǔ)

        本文提出了一種基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)方法,并使用KNN插補(bǔ)法、Lasso插補(bǔ)法以均方根誤差、決定系數(shù)、計(jì)算時(shí)間為評(píng)估指標(biāo)進(jìn)行橫向、縱向?qū)Ρ?。結(jié)果表明:基于Lasso回歸及模型修正的雙重回歸缺失值插補(bǔ)法略優(yōu)于Lasso回歸插補(bǔ)法,更勝于KNN插補(bǔ)法;在測(cè)試集、殘缺數(shù)據(jù)集方面,雙重回歸插補(bǔ)法有更好的表現(xiàn),但是依然存在部分預(yù)測(cè)插補(bǔ)值偏離正確值的情況,若需要完善,可能需要對(duì)數(shù)據(jù)及算法做更深層次的處理。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        精品高清免费国产在线| 中文字幕一区二区中出后入| 亚洲欧洲国产码专区在线观看 | 精品亚洲成a人7777在线观看| 国产精品久久码一区二区| 手机看片1024精品国产| 在线观看中文字幕一区二区三区 | 男女野外做爰电影免费| 亚洲无码视频一区:| 亚洲av少妇一区二区在线观看| 国产老熟妇精品观看| 最近中文字幕在线mv视频在线| 久久精品国产72国产精福利| 美国黄色av一区二区| 少妇爆乳无码专区| 欧美亚洲日韩国产人成在线播放 | 97人妻精品一区二区三区免费 | 午夜爽毛片| 长腿校花无力呻吟娇喘的视频| 亚洲av最新在线网址| 欧洲综合色| 冲田杏梨av天堂一区二区三区| 国产精品一区二区三区免费视频| 午夜内射中出视频| 国产AV无码专区亚洲AV桃花庵| 亚洲一区二区三区av天堂| av无码国产精品色午夜| 国产午夜亚洲精品午夜鲁丝片| 亚洲精品天堂av免费看| 国产爽快片一区二区三区| 中文人妻熟女乱又乱精品| 伊人影院成人在线观看| 国产成人精品日本亚洲专区6| 天美传媒一区二区| 亚洲一区二区高清在线| 国内少妇自拍区免费视频| 丰满少妇高潮惨叫久久久一| 美丽的小蜜桃在线观看| 99精品国产av一区二区| 日本免费播放一区二区| а√中文在线资源库|