亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的交叉覆蓋信息捕獲算法研究

        2021-11-17 12:36:52孟曉靜
        計(jì)算機(jī)仿真 2021年9期
        關(guān)鍵詞:特征信息

        劉 昆, 孟曉靜

        (1.中國礦業(yè)大學(xué)徐海學(xué)院,江蘇 徐州 221008;2.徐州醫(yī)科大學(xué)醫(yī)學(xué)信息與工程學(xué)院,江蘇 徐州 221000)

        1 引言

        數(shù)據(jù)信息對(duì)于現(xiàn)代生產(chǎn)生活至關(guān)重要,通過分析挖掘可以從中獲得所需的價(jià)值信息。隨著數(shù)據(jù)信息的海量膨脹,給采樣收集過程帶來了巨大挑戰(zhàn)。受系統(tǒng)中復(fù)雜因素影響,采樣收集階段經(jīng)常會(huì)產(chǎn)生信息的交叉覆蓋[1]。交叉覆蓋信息一般具有非相關(guān)特征或者混雜特征[2],對(duì)數(shù)據(jù)分析形成干擾,導(dǎo)致信息理解偏差。因此,為了提高交叉覆蓋信息的利用價(jià)值和挖掘精度,改善交叉覆蓋信息的捕獲性能是關(guān)鍵[3]。一些學(xué)者針對(duì)特定場(chǎng)景下的交叉覆蓋信息捕獲提出了相應(yīng)的解決方法。文獻(xiàn)[4]設(shè)計(jì)了一種MKELM算法,并通過極限學(xué)習(xí)實(shí)現(xiàn)CSP特征分類。此方法缺乏對(duì)數(shù)據(jù)分布的考慮,很容易出現(xiàn)過采樣或者欠采樣。文獻(xiàn)[5]設(shè)計(jì)了一種ARIRF算法,通過混合采樣達(dá)到樣本訓(xùn)練目的。此方法能夠有效解決采樣問題,但是對(duì)數(shù)據(jù)非線性處理效果不夠理想。文獻(xiàn)[6]設(shè)計(jì)了一種EEGNets算法,通過不同的卷積策略實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)。此算法雖然在一定程度上表現(xiàn)出較好的泛化性和準(zhǔn)確性,但是算法初衷存在局限,導(dǎo)致在穩(wěn)定性和魯棒性方面表現(xiàn)不佳。

        本文針對(duì)交叉覆蓋信息提出一種基于機(jī)器學(xué)習(xí)的捕獲算法。先對(duì)交叉覆蓋信息采取預(yù)處理,篩除其中的非關(guān)聯(lián)屬性。再利用互信息良好的非線性處理,提取信息主成分特征。最后設(shè)計(jì)了基于SLFN的機(jī)器學(xué)習(xí),根據(jù)網(wǎng)絡(luò)輸出加權(quán)完成信息分類。通過Acc、F-Measure和G-Mean三個(gè)指標(biāo)進(jìn)行綜合檢驗(yàn),充分證明了算法的有效性。

        2 非關(guān)聯(lián)屬性篩除

        交叉覆蓋信息存在很多噪聲和缺陷,不利于直接進(jìn)行數(shù)據(jù)分析,于是,先將交叉覆蓋信息采取預(yù)處理,去掉其中的異常特征。對(duì)于任意的交叉覆蓋信息,可以描述成集合C={c1,c2,…cn},其中ci代表第i個(gè)樣本。假定ci包含的特征屬性數(shù)量是m,則ci可以描述成ci={ci1,ci2,…cim},其中cim是對(duì)ci的第m個(gè)特征屬性描述。ci與cj為交叉覆蓋信息集合內(nèi)的數(shù)據(jù),它們和某屬性t的映射關(guān)系可以描述如下

        (1)

        (2)

        (3)

        其中,ave(ci)是c所在類的局部均值集;wi是對(duì)應(yīng)的加權(quán)系數(shù)。基于上述分析,特征屬性t對(duì)應(yīng)的加權(quán)描述如下

        (4)

        (5)

        μ代表集合因子。C′保存了交叉覆蓋信息的重要屬性,同時(shí)篩除了其中的異常屬性,更有利于后續(xù)分析處理。

        3 特征提取

        經(jīng)過預(yù)處理階段的非關(guān)聯(lián)屬性篩除后,交叉覆蓋信息存在大量的冗余數(shù)據(jù),此時(shí)直接進(jìn)行分類處理,不僅會(huì)增加很多無益消耗,也會(huì)降低信息獲取的性能。由于信息熵擅長描述未知信息量,因此這里利用信息熵對(duì)預(yù)處理后的數(shù)據(jù)做去冗余操作。非關(guān)聯(lián)屬性篩除得到的數(shù)據(jù)集標(biāo)記為D,特征分布空間為Ra×b。假定D內(nèi)任意數(shù)據(jù)Di=(di1,di2,…dib),dij是描述數(shù)據(jù)i對(duì)應(yīng)的第j個(gè)特征量,引入信息熵可得

        (6)

        R(Di,Dj)=H(Di)+H(Dj)-H(Di,Dj)

        (7)

        其中,H(Di,Dj)利用di與dj的聯(lián)合概率得到。R(Di,Dj)是通過對(duì)熵的量化確定特征屬性,所以它可以應(yīng)用于非線性關(guān)系場(chǎng)合。對(duì)所有數(shù)據(jù)特征求解互信息,得到矩陣如下

        (8)

        矩陣R內(nèi),R11,R12,…,Rbb為自信息,其余的均為互信息。如果變量間沒有關(guān)聯(lián),則相應(yīng)的互信息等于零,否則互信息一定大于零。并且,互信息滿足交換性,即Rtj=Rji,由此可得R為對(duì)稱矩陣。假定互信息R的特征值正序集合是r1,r2,…,rb,對(duì)應(yīng)的特征向量是a1,a2,…,ab,則依據(jù)R特征值對(duì)互信息分解可得:R=A′∧A。Λ代表由r1,r1,…,rb構(gòu)造的對(duì)角矩陣;A代表由(a1,a2,…,ab)構(gòu)造的矩陣。根據(jù)R特征值計(jì)算主成分維度,公式如下

        (9)

        四種施工方式支護(hù)結(jié)構(gòu)受力統(tǒng)計(jì)見表3,臺(tái)階法初支應(yīng)力明顯較大,其他方法在施加臨時(shí)仰拱和中隔壁后等型鋼后,減小了初支因彎矩產(chǎn)生的應(yīng)力,型鋼受力(見圖13)在47.0 MPa~60.1 MPa。臺(tái)階法和臨時(shí)仰拱臺(tái)階法,將鎖腳錨管焊接于鋼支撐上協(xié)調(diào)受力,能充分利用錨管鎖腳作用,而CD法和CRD法的中隔壁分擔(dān)了上部初支承受荷載,鎖腳作用變?nèi)酢?/p>

        4 基于機(jī)器學(xué)習(xí)信息捕獲

        (10)

        (11)

        G是隱層輸出;O是理想輸出。為了限定網(wǎng)絡(luò)的復(fù)雜性,對(duì)(11)引入正則化處理,如下

        (12)

        (13)

        (14)

        如果網(wǎng)絡(luò)中學(xué)習(xí)數(shù)據(jù)量超過N時(shí),則U代表N×N階矩陣;否則,U代表M×M階矩陣。

        5 算法評(píng)價(jià)指標(biāo)

        交叉覆蓋信息具有非平衡性,為防止捕獲算法向多數(shù)類偏向,以及其它因素導(dǎo)致評(píng)價(jià)偏差,選取Acc、F-Measure和G-Mean三個(gè)指標(biāo)來綜合檢驗(yàn)交叉覆蓋信息捕獲算法的性能。定義混淆矩陣如表1所示。其中Positive和Negative依次表示待預(yù)測(cè)的正負(fù)類;Positive′和Negative′依次表示預(yù)測(cè)結(jié)果的正負(fù)類。

        表1 混淆矩陣

        Acc用于描述捕獲準(zhǔn)確率,一般在計(jì)算準(zhǔn)確率指標(biāo)時(shí),很多文獻(xiàn)只考慮了給定Positive被正確分類至Positive′的概率,忽略了Negative被正確分類至Negative′的情況。所以本文采用Acc,公式定義如下

        (15)

        根據(jù)式(15),信息捕獲的準(zhǔn)確率同時(shí)受正負(fù)類的結(jié)果影響,該評(píng)價(jià)方式更加合理有效。

        F-Measure用于描述捕獲精度與召回率的綜合性能。該指標(biāo)不受時(shí)間序列影響,其值越大,說明分類效果越好。F-Measure公式定義為

        (16)

        其中,P=TP/(TP+FP)表示Positive的分類精度;R=TP/(TP+TN)表示召回率;ρ表示加權(quán)調(diào)和系數(shù)。

        G-Mean用于描述正負(fù)類召回率的綜合指標(biāo)。該指標(biāo)具有良好的魯棒性,僅當(dāng)正負(fù)類的R指標(biāo)均升高時(shí),G-Mean結(jié)果才升高,有效防止非均衡數(shù)據(jù)等因素對(duì)Positive單方面的影響。G-Mean公式定義為

        (17)

        6 實(shí)驗(yàn)與結(jié)果分析

        為有效驗(yàn)證交叉覆蓋信息捕獲算法的真實(shí)性能,采用表2所示的8個(gè)數(shù)據(jù)集,通過對(duì)折生成交叉覆蓋信息。特征維度最低18,最高1024,涵蓋低維和高維情況。為了保證檢驗(yàn)的充分性,實(shí)驗(yàn)除了采用多數(shù)據(jù)集,還引入MKELM[4]、ARIRF[5]和EEGNets[6]算法進(jìn)行比較。

        表2 數(shù)據(jù)集描述

        通過仿真得到不同數(shù)據(jù)下算法的Acc指標(biāo)結(jié)果,如表3所示??梢钥闯?,由于不同數(shù)據(jù)集的特征維度與類別等參數(shù)的差異,給交叉覆蓋信息捕獲帶來的難度也不同,從而給捕獲的Acc指標(biāo)帶來一定影響。madelon與GOIL20數(shù)據(jù)集復(fù)雜度相對(duì)較高,各方法在這兩個(gè)數(shù)據(jù)集下的Acc指標(biāo)較小。本文算法的最小Acc為0.613,較MKELM、ARIRF和EEGNets分別高出0.142、0.069、0.055。最大Acc為0.982,較MKELM、ARIRF和EEGNets分別高出0.019、0.014、0.016。

        表3 Acc指標(biāo)結(jié)果

        通過仿真得到不同數(shù)據(jù)下算法的F-Measure指標(biāo)結(jié)果,如表4所示。可以看出,數(shù)據(jù)集特征維度與類別等參數(shù)的差異同樣會(huì)給捕獲的F-Measure指標(biāo)帶來影響。在madelon與GOIL20數(shù)據(jù)集下各方法的F-Measure指標(biāo)明顯較低。但是本文算法的最小F-Measure為0.571,仍然較MKELM、ARIRF和EEGNets分別高出0.125、0.046、0.020。最大F-Measure為0.991,較MKELM、ARIRF和EEGNets分別高出0.046、0.019、0.018。結(jié)合Acc與F-Measure結(jié)果,表明在各實(shí)驗(yàn)數(shù)據(jù)集下,本文算法的捕獲準(zhǔn)確率和召回率較其它算法都更具優(yōu)勢(shì),受數(shù)據(jù)集參數(shù)影響相對(duì)更小。

        表4 F-Measure指標(biāo)結(jié)果

        不同數(shù)據(jù)集下的G-Mean指標(biāo)結(jié)果如表5所示??梢钥闯?,MKELM的G-Mean值波動(dòng)范圍是0.799~0.968;ARIRF的G-Mean值波動(dòng)范圍是0.855~0.941;EEGNets的G-Mean值波動(dòng)范圍是0.880~0.972。本文算法的G-Mean值較MKELM、ARIRF與EEGNets波動(dòng)范圍更小,更加穩(wěn)定,且大部分情況下優(yōu)于其它方法,魯棒性更好。

        表5 G-Mean指標(biāo)結(jié)果

        基于實(shí)驗(yàn)結(jié)果,本文算法在spambase數(shù)據(jù)集具有最好的綜合捕獲性能,于是基于spambase數(shù)據(jù)集,向其中添加噪聲數(shù)據(jù),得到不同信噪比時(shí)的捕獲準(zhǔn)確率Acc指標(biāo),結(jié)果如圖1所示??梢钥闯?,各算法的Acc曲線走勢(shì)基本一致。本文算法在信噪比為30dB之前,捕獲準(zhǔn)確率受噪聲影響嚴(yán)重,過了30dB,捕獲準(zhǔn)確率快速上升,當(dāng)信噪比為37.5dB時(shí)準(zhǔn)確率達(dá)到最高。而其它Acc曲線上升時(shí)機(jī)都遲滯于本文算法,表明本文算法的抗噪性能更好。

        圖1 Acc與信噪比關(guān)系曲線

        7 結(jié)束語

        為提高交叉覆蓋信息的捕獲效果,本文提出了一種基于機(jī)器學(xué)習(xí)的捕獲算法。首先對(duì)交叉覆蓋信息采取預(yù)處理,去掉其中的異常特征。然后根據(jù)信息熵對(duì)預(yù)處理后的數(shù)據(jù)做去冗余操作,并利用互信息矩陣提取主成分特征。最后設(shè)計(jì)了機(jī)器學(xué)習(xí)網(wǎng)絡(luò)模型,通過求解網(wǎng)絡(luò)輸出加權(quán)確定數(shù)據(jù)分類,實(shí)現(xiàn)信息捕獲?;诓煌瑪?shù)據(jù)集的仿真,得到本文方法的平均Acc為0.895,平均F-Measure為0.897,平均G-Mean為0.939,各項(xiàng)指標(biāo)均優(yōu)于對(duì)比方法。表明本文算法具有更好的準(zhǔn)確率和召回率,魯棒性和抗噪性得到顯著提升。

        猜你喜歡
        特征信息
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        午夜福利视频合集1000| 乱人伦中文字幕在线不卡网站| 国产日b视频| 亚洲Va中文字幕久久无码一区| 国产一区二区三区免费主播| 日本在线观看不卡一区二区| 四川丰满妇女毛片四川话| 国产麻无矿码直接观看| 国产成人无码A区在线观| 丝袜美腿久久亚洲一区| 日本男人精品一区二区| 狠狠色丁香婷婷久久综合| 内射无码专区久久亚洲| 韩国精品一区二区三区| 国产精品区二区东京在线| 国产精品沙发午睡系列| 午夜精品一区二区三区的区别| 无码不卡免费一级毛片视频| 日韩av一区二区在线观看| 国产精品一区二区久久国产| 精品国产免费一区二区三区 | 亚洲欧美v国产蜜芽tv| 国产精品老熟女乱一区二区| 狠狠精品久久久无码中文字幕 | 国产亚洲精品日韩香蕉网| 国产精品一区二区三区在线观看 | 日本一区二区在线免费看| 伊人情人色综合网站| 婷婷五月综合丁香在线| 91青草久久久久久清纯| av网站不卡的av在线| 国产无套粉嫩白浆在线观看| 国产精品亚洲五月天高清| 丁香婷婷色| 日本视频一区二区三区| 国产美女爽到喷出水来视频| 精品推荐国产精品店| 久久精品国产亚洲一级二级| 麻豆精品国产专区在线观看| 少妇厨房愉情理伦bd在线观看 | 精品高清一区二区三区人妖|