亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的ReliefF-BPNN分類模型

        2023-06-15 17:00:48李雨沛王新利
        計算機時代 2023年6期
        關(guān)鍵詞:分類

        李雨沛 王新利

        摘? 要: 提出了一種改進的ReliefF-BPNN分類模型。該模型使用ReliefF算法和交互增益權(quán)重,來最大程度地保留相關(guān)特征與交互特征;同時在BP神經(jīng)網(wǎng)絡(luò)模型的誤差函數(shù)中加入正則化項防止過擬合。實驗表明,改進的ReliefF-BPNN在大多數(shù)數(shù)據(jù)集上的分類準確率高于90%,其精度相對于其他傳統(tǒng)模型更高。

        關(guān)鍵詞: 特征選擇; ReliefF算法; 交互增益; BP神經(jīng)網(wǎng)絡(luò);分類

        中圖分類號:TP181? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)06-20-05

        Improved ReliefF-BPNN classification model

        Li Yupei, Wang Xinli

        (College of Science, University of Shanghai for Science and Technology, Shanghai 200093, China)

        Abstract: In this paper, an improved ReliefF-BPNN classification model is proposed. It uses the ReliefF algorithm and interaction gain weights to maximize the retention of correlation and interaction features. Meanwhile, a regularization term is added to the error function of BP neural network model to prevent overfitting. Experiments show that the classification accuracy of the improved ReliefF-BPNN is higher than 90% on most data sets, and its accuracy is higher than that of other traditional models.

        Key words: feature selection; ReliefF algorithm; interaction gain; BP neural network; classification

        0 引言

        近年來,各種數(shù)據(jù)的爆發(fā)式增長,影響了數(shù)據(jù)的準確分類。面對高維的數(shù)據(jù),特征選擇是一個行之有效的方法。

        特征選擇有三種常用的方法,分別是包裹法、嵌入法、過濾法[1]。其中,過濾法評價準則簡單、運算效率高,應(yīng)用范圍廣[2]。ReliefF算法作為過濾法的一種,具有權(quán)重計算更簡單且運行效率更高的優(yōu)點,被廣泛應(yīng)用于特征選擇[3]。另一方面,BP神經(jīng)網(wǎng)絡(luò)模型有諸多優(yōu)點,如強自適應(yīng)性,魯棒性、非線性映射等,是一種使用面很廣的分類模型,但是當模型的訓(xùn)練數(shù)據(jù)過少或數(shù)據(jù)存在噪聲時會使分類模型產(chǎn)生過擬合現(xiàn)象[4]。許多研究者對BP神經(jīng)網(wǎng)絡(luò)的參數(shù)做出優(yōu)化來避免這一現(xiàn)象[5],例如將模擬退火算法和元啟發(fā)式算法混合調(diào)整參數(shù)[6]、將自適應(yīng)遺傳算法應(yīng)用于優(yōu)化參數(shù)[7]等,但是應(yīng)用不同的算法對BP神經(jīng)網(wǎng)絡(luò)進行優(yōu)化往往計算復(fù)雜度高,實驗難度大。

        盡管ReliefF算法計算特征權(quán)重是根據(jù)特征在同類中的差異和特征在不同類中的差異來選擇特征,合理考慮了特征與不同類別的相關(guān)性,但特征之間與類別還有一個不可忽視的關(guān)系,即特征的交互。一般來說,交互特征單獨與類別無關(guān),一旦將它們組合在一起,卻又與類別很相關(guān)。保留交互特征是有利于分類的,而ReliefF算法忽視特征之間的交互,極大地影響特征選擇的效果,進而影響分類。利用信息度量標準的互信息方法能夠有效地度量特征之間的交互,許多特征選擇算法是使用基于互信息的方法來度量特征的交互,最大程度地保留交互特征來優(yōu)化特征選擇的效果,進而提高分類準確率[8]。

        本文在上述研究的基礎(chǔ)上,提出了一種改進的ReliefF-BP神經(jīng)網(wǎng)絡(luò)分類模型。用ReliefF算法進行選擇,選擇出與類別相關(guān)大的特征,再使用標準化的交互增益權(quán)重,盡可能保留交互特征;然后采用加入[L1]正則化項的BP神經(jīng)網(wǎng)絡(luò)模型。與其他改進相比,該模型不僅結(jié)構(gòu)簡單,還能有效防止過擬合,提高分類的精度。與其他6種算法進行對比試驗,結(jié)果表明,該模型的性能明顯優(yōu)于其他算法。

        1 預(yù)備知識

        1.1 ReliefF算法

        ReliefF算法[9]的主要思想是,根據(jù)計算樣本點的最近鄰分布,計算特征權(quán)重值,選擇出權(quán)重值較大的特征。從訓(xùn)練集[M]中隨機選擇樣本[A],再從和樣本[A]同類的樣本集中找到[k]個近鄰樣本,同時在每個與[A]不同類別的樣本集中尋找[k]個近鄰樣本,然后根據(jù)以下規(guī)則更新權(quán)重:

        [ωX=ωX-j=1kdiffX,Ai,Hjnk]

        [+C≠ClassAPC1-PClassAi×j=1kdiffX,Ai,Mjnk] ⑴

        其中,[ωX]表示特征[X]的權(quán)重,其初始值為0,[n]表示迭代次數(shù);[Ai]表示第[i]次迭代隨機選擇樣本;[k]表示選取的近鄰個數(shù);[Hj]表示樣本[Ai]同類中的最近鄰樣本;[Mj]表示樣本[Ai]不同類中的最近鄰樣本;[ClassAi]表示樣本[Ai]所在的類別;[PC]表示第[C]類的先驗概率;[diff(X,A1,A2)]表示樣本[A1]和樣本[A2]在特征X上的差別。

        1.2 特征的交互

        交互信息利用互信息來度量特征之間的交互,交互信息又稱為交互增益(Interaction Gain, IG),指的是三方或者多方的交互作用,三方交互增益[10]的定義如下:

        [IGfi;fj;C=Ifi,fj;C-Ifi;C-Ifj;C]? ⑵

        其中,[Ifi,fj;C]表示特征[fi]和[fj]與類別C的聯(lián)合互信息。當[IGfi;fj;C<0]或者[IGfi;fj;C=0]時,說明特征[fi]和[fj]提供了相似信息或者與類別無關(guān);當[IGfi;fj;C>0]時,表示特征[fi]和[fj]組合提供的信息量大于特征[fi]和[fj]分別提供的信息量之和,說明特征[fi]與[fj]具有交互性。

        1.3 BP神經(jīng)網(wǎng)絡(luò)模型

        BP神經(jīng)網(wǎng)絡(luò)模型[11]的拓撲結(jié)構(gòu)有三個層次,分別是輸入層、隱藏層和輸出層。輸入層的節(jié)點由輸入樣本的特征個數(shù)決定,輸出層的節(jié)點由分類結(jié)果決定。隱藏層的層數(shù)和節(jié)點一般由人工決定。BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。

        圖1? BP神經(jīng)網(wǎng)絡(luò)拓撲圖

        其中,[x1,x2,…,xn]表示輸入層神經(jīng)元節(jié)點,即樣本的特征;[y1,y2,…,ym]表示輸出層神經(jīng)元節(jié)點,即輸出的標簽;[b11,b12,…,b1k]表示第一層隱藏層的節(jié)點;[bn1,bn2,…,bnk]表示第n層隱藏層的節(jié)點;[γ]表示輸入層節(jié)點到隱藏層節(jié)點的權(quán)值;[ω]表示隱藏層節(jié)點到輸出層節(jié)點的權(quán)值。

        2 改進的ReliefF-BPNN分類模型

        2.1 基于特征交互的ReliefF算法

        在⑵式的基礎(chǔ)上引入標準化的交互增益來度量特征的交互。標準化的交互增益(Standardized Interaction Gain, SIG)定義如下:

        [SIGfi;fj;C=IGfi;fj;CHfi+Hfj,SIGfi;fj;C∈0,1]? ⑶

        在式⑴基礎(chǔ)上,加入標準化后的交互增益權(quán)重,即為特征[Xi]的總權(quán)重公式為:

        [ωXi=1Nj=1NSIGXi;Xj;C+ωXi]? ⑷

        將式⑷作為權(quán)重更新的算法稱為基于特征交互的ReliefF算法,即I-ReliefF算法,其步驟如算法1所示:

        [算法1 I-ReliefF算法 輸入:特征集[F=f1,f2,…,fn],類別集[C=C1,C2,…Cm],閾值[k]

        輸出:特征子集S

        1. 初始化特征子集[S=?];

        2. Fori=0 to |F|

        3. 根據(jù)公式⑶計算在所有F中特征之間的標準化交互增益權(quán)重

        4. 根據(jù)公式⑴計算在所有F中特征的權(quán)重值

        5. Endfor

        6. For i=0 to |F|

        7. 根據(jù)公式⑷計算保留特征的總權(quán)重值

        8. Endfor

        9. 對特征集S中保留的特征的總權(quán)重值進行降序排列,選擇出系數(shù)值大的特征組成新的樣本數(shù)據(jù)集 ]

        2.2 加入正則化項的BP神經(jīng)網(wǎng)絡(luò)模型

        在BP神經(jīng)網(wǎng)絡(luò)的誤差函數(shù)計算公式中加入正則化項,改進后的誤差函數(shù)為:

        [E=1Ni=1NYi∧-Yi2+αω1]? ⑸

        N表示訓(xùn)練樣本的個數(shù);[Yi∧]表示第i個樣本的預(yù)測輸出值;[Yi]表示第i個樣本的實際輸出值;[α]表示正則化系數(shù);[ω]表示所有層向下層神經(jīng)元傳遞時的權(quán)值組成的矩陣。

        2.3 I-ReliefF-BPNN模型的建立

        基于改進ReliefF-BP神經(jīng)網(wǎng)絡(luò)模型將簡化后的數(shù)據(jù)分為70%訓(xùn)練樣本和30%測試樣本,訓(xùn)練樣本應(yīng)用于訓(xùn)練該模型,測試樣本用于檢驗?zāi)P偷姆诸惥?。算?描述了I-ReliefF-BPNN模型的基本步驟:

        [算法2 I-ReliefF-BPNN模型算法 輸入:數(shù)據(jù)集D,學(xué)習率[η]

        輸出:類別C,誤差e

        1.采用均值替代法對存在缺失值的數(shù)據(jù)集進行填補,接著做歸一化處理。再對數(shù)據(jù)集使用I-ReliefF算法進行特征選擇,將選擇出的特征組成新的樣本數(shù)據(jù)集。

        2.創(chuàng)建網(wǎng)絡(luò)

        3.訓(xùn)練網(wǎng)絡(luò)

        Repeat for D

        正向傳播

        反向傳播

        Until for 達到結(jié)束條件

        4.使用網(wǎng)絡(luò)

        5.預(yù)測數(shù)據(jù)歸一化 ]

        3 實驗

        3.1 數(shù)據(jù)集與數(shù)據(jù)集的處理

        實驗數(shù)據(jù)集:美國加州大學(xué)歐文分校提供的UCI數(shù)據(jù)庫分別是[D1](WDBC數(shù)據(jù)集)、[D2](LungCancer數(shù)據(jù)集)、[D3](HeartDisease數(shù)據(jù)集)、[D4](Cervicalcancer數(shù)據(jù)集)、[D5](Lymphography數(shù)據(jù)集)、[D6](DivorcePredictors數(shù)據(jù)集)、[D7](Sonar數(shù)據(jù)集)、[D8](Arrhythmia 數(shù)據(jù)集)、[D9](Bonemarrowtransplant:children數(shù)據(jù)集)、[D10](Dermatology數(shù)據(jù)集)、[D11](Hepatitis數(shù)據(jù)集)、[D12](HorseColic數(shù)據(jù)集)、[D13](PrimaryTumor數(shù)據(jù)集)、[D14](RiskFactorprediction of Chronic Kidney Disease數(shù)據(jù)集)、[D15](Hill-valley數(shù)據(jù)集)、[D16] (Madelon數(shù)據(jù)集)。表1介紹了16個數(shù)據(jù)集的樣本個數(shù)、特征數(shù)和類別個數(shù)。

        本文采用均值替代法對存在特征值缺失的數(shù)據(jù)集進行填補并做歸一化處理;對于連續(xù)數(shù)據(jù)集,將連續(xù)數(shù)據(jù)集離散化。本文使用K-means算法進行聚類,k值根據(jù)類別個數(shù)確定,根據(jù)聚類的結(jié)果,將同一簇的記錄并合并成一組中。

        3.2 實驗結(jié)果與分析

        為了驗證本文提出的模型的有效性,選取RF、SVM、BPNN、I-ReliefF-SVM、mRMR-BPNN、ReliefF-BPNN這6個分類模型與本文提出的I-ReliefF-BPNN模型進行對比。本實驗中BP神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)設(shè)置為1000,學(xué)習率設(shè)置為0.02,權(quán)值的初始化范圍為-0.5到0.5之間。表2和表3表示16個數(shù)據(jù)集的分類準確率、[F1]指數(shù)。分類準確率和[F1]指數(shù)越高,分類效果越好。

        如表2所示,本文提出的I-ReliefF-BPNN模型相較于6種分類模型的平均分類準確率在16組數(shù)據(jù)集上有明顯提高。注意到BPNN的分類準確率相較于SVM和RF分別平均高6.25%、4.24%,表明BPNN相較于傳統(tǒng)分類器分類精度更高;I-ReliefF-BPNN與mRMR-BPNN、ReliefF-BPNN相比,準確率分別平均高5.83%和3.48%,表明本文提出的I-ReliefF算法相比于其他特征選擇算法,更有利于BP神經(jīng)網(wǎng)絡(luò)的分類。

        如表3所示,本文提出的I-ReliefF-BPNN模型在16組數(shù)據(jù)集上[F1]指數(shù)較BPNN平均高0.0544,較ReliefF-BPNN平均高0.0673,較mRMR-BPNN平均高0.0911,較I-ReliefF-SVM平均高0.1078,較SVM平均高0.1206,較RF平均高0.1128,說明本文提出的模型在分類上更具優(yōu)勢。

        4 結(jié)論與展望

        本文提出了一種改進的ReliefF-BP神經(jīng)網(wǎng)絡(luò)模型,即I-ReliefF-BPNN模型??紤]到醫(yī)療診斷數(shù)據(jù)集中,許多診斷指標之間存在交互,選取關(guān)于醫(yī)療診斷方面的數(shù)據(jù)集進行實驗驗證。從16組數(shù)據(jù)集的實驗結(jié)果來看,該模型中的I-ReliefF算法與傳統(tǒng)的特征選擇方法相比,從后續(xù)的分類中可看出此算法有效提高了分類的準確率;模型中改進的BP神經(jīng)網(wǎng)絡(luò)分類模型與其他同類型的分類方法相比,分類精度明顯提高,兩者結(jié)合其分類能力相比于其他分類模型在分類準確率,[F1]指數(shù)更高。

        但是,I-ReliefF-BPNN模型存在一些不足之處,主要有以下兩點:①I-ReliefF-BPNN模型運行時間相較于BP神經(jīng)網(wǎng)絡(luò)模型更長;②本文提出的模型在某些不平衡數(shù)據(jù)集上[F1]指數(shù)不高,分類效果并不理想。因此,未來仍需進一步優(yōu)化搜索算法,縮短整個算法的運行時間;針對不平衡數(shù)據(jù)集,考慮將不平衡數(shù)據(jù)處理方法加入本模型中,提高不平衡數(shù)據(jù)集上的分類效果。

        參考文獻(References):

        [1] Dia S, Guilermo, Cortes L, et al. A review of algorithms to

        computing irreducible testors applied to feature selection[J]. Artificial Intelligence Review,2022

        [2] 李郅琴,杜建強,聶斌,等.特征選擇方法綜述[J].計算機工程

        與應(yīng)用,2019,55(24):10-19

        [3] Song Y ,Si W Y, Dai F F , et al .Weighted reliefF with

        threshold constraints of feature selection forimbalanced data classification[J]. Concurrency and computation: practice and experience,2020,32(14)

        [4] 沈波,謝兆勛,林少輝,等.醫(yī)藥衛(wèi)生領(lǐng)域人工神經(jīng)網(wǎng)絡(luò)研究中

        文文獻可視化分析[J].海峽預(yù)防醫(yī)學(xué)雜志,2021,27(5):73-76

        [5] Sofian K, MOHAMAD A, AZMI A , et al. Backpropagation

        neural network optimization and software defect estimation modelling using a hybrid Salp Swarm optimizer-based Simulated Annealing Algorithm[J]. Knowledge-Based Systems,2022,244

        [6] Zhang J X,Qu S R. Optimization of backpropagation

        neural network under the adaptive genetic algorithm[J]. COMPLEXITY,2021

        [7] Yan C R, Chen Y Z,Wan Y Q, et al. Modeling low- and

        high-order feature interactions with FM and self-attention network[J]. Applied Intelligence,2020,51

        [8] Chen T,Yin H Z,Zhang X L, et al.Meng. Quaternion

        factorization machines: alightweight solution to intricate feature interaction modeling[J]. IEEE transactions on neural networks and learning systems,2021

        [9] Fan H Y, Xue? L Y, Song Y, et al.A repetitive feature

        selection method based on improved ReliefF for missing data[J]. Applied Intelligence,2022,52(14)

        [10] Wang L X, Jiang S Y.A feature selection method via

        analysis of relevance, redundancy,and interaction,Expert systems with applications,volume 183,2021,115365

        [11] 王麗,陳基漓,謝曉蘭,等.基于混沌天牛群算法優(yōu)化的神經(jīng)

        網(wǎng)絡(luò)分類模型[J].科學(xué)技術(shù)與工程,2022,22(12):4854-4863

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準備好了嗎
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        男女性爽大片视频| av天堂吧手机版在线观看| 亚洲一区二区视频免费看| 精品一区二区av天堂色偷偷| 男ji大巴进入女人的视频小说| 美女胸又www又黄的网站| 玖玖资源站无码专区| 国产天堂av在线播放资源| 亚洲高清乱码午夜电影网| 欧美日韩中文国产一区| 国产aⅴ丝袜旗袍无码麻豆 | 蜜桃精品国产一区二区三区 | 一级二级三一片内射视频| 国产18禁黄网站免费观看| 国产在线一区二区三区av| 亚洲欧美日韩高清中文在线| 国产剧情亚洲一区二区三区| 成熟了的熟妇毛茸茸| 久久精品无码免费不卡| 亚洲欧洲日韩另类自拍| 亚洲国产av一区二区不卡| 看全色黄大色黄大片 视频| 国内精品久久久久久无码不卡| 亚洲嫩模一区二区三区视频| 久久96日本精品久久久| 亚洲精品无amm毛片| 久久人妻AV无码一区二区| 美女把内衣内裤脱了给男人舔| 亚洲午夜精品一区二区| 99re热这里只有精品最新| 一区视频在线观看免费播放.| 亚洲自拍偷拍色图综合| 护士人妻hd中文字幕| 亚洲午夜精品久久久久久抢| 狠狠综合久久av一区二区三区| 精品国产乱码久久久久久郑州公司 | 亚洲天堂av中文字幕在线观看| 亚洲日韩av无码| 免费看一级a女人自慰免费| 色男色女午夜福利影院| 中文字幕无码av波多野吉衣|