亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于最大最小距離的多中心數據綜合增強方法

        2022-06-16 05:24:42曹瑞陽郭佑民牛滿宇
        計算機工程 2022年6期
        關鍵詞:方法

        曹瑞陽,郭佑民,牛滿宇

        (蘭州交通大學 機電技術研究所,蘭州 730070)

        0 概述

        隨著大數據技術的快速發(fā)展,以大數據為基礎的數據分析方法進入了一個全新階段[1]。在大數據環(huán)境下構建并訓練的深度學習模型具有較優(yōu)的性能。然而,數據量的缺乏[2-3]使得深度學習模型訓練不充分,導致模型的泛化性能降低[4]。對于這種過擬合現象的發(fā)生[5],正則化方法或簡單收集更多的標記數據[6]能夠增加數據量。此外,數據增強技術[7-8]通過特定的方法生成合成數據,通過對圖像進行翻轉[9-11]、旋轉[12]、鏡像[13]、高斯白噪聲等技巧,實現數據增強,廣泛應用于圖像領域[14-15]。

        在其他領域中也有相應的數據增強方法[16-17]。文獻[18]采用隨機設置部分信息缺失和增加噪聲的方式對原有數據集進行擴充,在信息缺失和含噪聲的情況下提高模型的魯棒性,但是填充的數據量不好控制。如果填充的數據太少,則幾乎不會改變原有數據集的分布,如果被擴充得太多,模型在該增強數據集下的檢測效果呈現降低的趨勢。文獻[19]采用合成少數類過采樣技術(Synthetic Minority Oversampling Technique,SMOTE)對少數類樣本進行過采樣操作,通過ENN(Edited Nearest Neighbor)算法剔除不符合要求的噪聲數據。該方法能夠有效解決數據不平衡所帶來的問題。因SMOTE 算法存在一定的不足,多數類樣本和少數類樣本的邊界出現模糊現象,使得檢測的難度加大,甚至存在數據生成越界的問題。文獻[20]通過時域重采樣、能量變化、隨機零填充這3 個步驟模擬數據,以提高模型的精確率,但是因對截止頻率和重采樣率有所限制,導致所產生模擬信號的多樣性也受到了一定的限制。

        現有的數據增強方法在時間序列分類方面的數據增強有限。文獻[21]提出時間序列數據增強技術,能夠有效解決數據增強在深度學習模型分類中存在的問題。在數據增強過程中,將所有訓練集作為中心數據,延長模型的計算時間,同時由于某些中心數據選取不合適造成生成的新數據樣本類別存在偏差,或者生成數據中心靠近邊界,易受離散點的影響,導致生成數據越界現象的發(fā)生。在整個過程中固定近鄰數k及權重函數,即生成數據所用樣本的權重不變,在生成樣本數據的多樣性方面存在一定不足。

        本文提出一種基于最大最小距離的多中心數據增強方法。通過加權密度減少離群點對最終結果的影響,將抽樣方法與最大最小距離算法相結合得到多生成中心,避免了生成結果出現樣本類別越界的情況。在此基礎上,根據樣本的相似性構建權重函數,計算加權平均得到新的樣本,拓展樣本數據的多樣性。

        1 基本概念

        1.1 最大最小距離準則

        最大最小距離準則[22]是基于歐氏距離,在最大程度上選取盡可能遠的樣本點作為生成中心,從而避免產生初始中心過于近鄰的情況。數據生成類別越界示意圖如圖1 所示。

        圖1 數據生成類別越界示意圖Fig.1 Schematic diagram of data generation categories transgression

        最大最小距離算法的基本原理是首先從樣本中選擇1個任意樣本點v1,并將其作為數據生成中心,選擇距離v1最遠的樣本點v2作為另一個生成中心,然后再選擇剩余l(xiāng)(l>2)時的中心點,分別計算剩余樣本點到之前中心點的歐氏距離,將距離最小值依次放入集合中,同時下一個中心點為集合中最大值所對應的樣本點,以此重復計算剩余所需要的中心點,過程如式(1)所示:

        其中:disti1和disti2分別為樣本i到v1和v2的歐氏距離。

        1.2 最大最小距離算法改進

        最大最小距離算法可以有效地解決數據生成中心處于邊界的問題,從而避免出現生成樣本越界的情況。傳統SMOTE 算法對少數類樣本進行分析和模擬后,在其近鄰進行隨機線性插值。如果該少數類樣本位于邊界處,那么隨機生成的新樣本就有可能出現越界的情況,而引入最大最小距離準則會重新選擇生成中心。在第1 次計算過程中選取了最大的距離,在之后的計算過程中生成中心會向更小的距離接近,使得最遠少數類樣本點成為生成中心范圍的邊界,從而將最遠邊界控制在最遠的少數類樣本點之內,使得生成中心始終不會出現越界的情況,同時也帶來了最大最小距離算法自身的缺點。最大最小距離算法在運行過程中要遍歷兩遍數據庫,如果數據庫很大,那么需要的計算時間將會延長。針對上述問題,本文考慮將抽樣方法與最大最小距離算法相結合,通過簡單隨機抽樣方法[23]提取原始數據庫的主要特征,采用最大最小距離算法從抽樣后的數據集中選取數據生成中心G1,重復該步驟得到生成中心G1,G2,…,Gn,經過多次抽樣后得到多中心的數據生成中心集合G。原始數據集采樣過程示意圖如圖2 所示。

        圖2 原始數據集采樣過程Fig.2 Sampling process of original dataset

        設數據庫的規(guī)模個數為105,直接采用最大最小距離算法對數據庫進行計算,所需計算次數為2k×105。假設樣本集的大小為103,采用最大最小距離算法對單個樣本集進行計算,計算次數為2k×103。如果進行10次抽樣,則共需的計算次數為2k×104,計算次數僅為前者的1/10。

        簡單隨機抽樣使得每個對象在總體中被抽到的概率相等,且每個樣本集的數據生成中心點集都不同,極大豐富了數據的隨機性和多樣性。如果隨機性過高會導致抽樣樣本分布不均勻。為保證一定的抽樣精度,簡單隨機抽樣必須進行多次抽樣。

        1.3 DTW 算法

        動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法是一個典型的優(yōu)化問題,可以衡量2 個不同長度的時間序列相似度。

        DTW 對序列A和B定義為A=(a1,a2,…,am)和B=(b1,b2,…,bn)。動態(tài)規(guī)整路徑W=(w1,w2,…,wk),max(m,n)≤K≤m+n-1。其中:wk對應同步點(x,y)k,k=1,2,…,k;x表示序列A元素的索引;y表示序列B元素的索引。動態(tài)規(guī)整路徑需滿足A和B序列上所有元素的索引與規(guī)整路徑相一致,且w1=(1,1),wk=(m,n)。假如某路徑已經處于同步點(x,y)之后,那么該路徑下一步只能通過點(x+1,y)、(x,y+1)、(x+1,y+1),滿足條件的路徑個數為指數。動態(tài)時間規(guī)整的目的是用最少的代價找出與目標最相近的路徑,其表達式如式(2)所示:

        最小代價路徑可以通過累計距離來計算得到,累積距離如式(3)所示:

        其中:d(x,y)為ax與by之間的距離。在該約束條件下最短的規(guī)整路徑所對應的累計距離,便是所求2 個序列之間的DTW 距離。

        2 本文方法

        本文提出一種基于最大最小距離的數據增強方法MCA,基本原理是首先計算所有樣本的加權密度,以排除離群點的影響,通過改進的最大最小距離算法得到中心點集G,盡可能保留有效特征;其次在每個備選中心點集中找出中心數據的k個近鄰對近鄰樣本和非近鄰樣本進行賦權;最后利用加權算法計算選取樣本的加權,以得到新的合成數據。

        2.1 樣本密度的計算

        本文需要對各樣本點的密度進行從大到小的排序,以減少MCA 方法的時間復雜度。樣本xi的密度計算如式(4)和式(5)所示:

        其中:dij為樣本xi與樣本xj之間的距離;dc為設置的閾值;ρi為落入以xi為圓心和以dc為半徑的圓內樣本數量。

        2.2 所有樣本點的平均距離

        加權的歐氏距離如式(6)所示:

        其中:distw(xi,xj)為樣本xi和xj在m維空間下的加權歐氏距離;xil和xjl分別為在空間l維下的樣本xi和xj;m、l為空間維數。

        所有樣本點的平均歐氏距離如式(7)所示:

        2.3 樣本容量選擇

        本文從總體樣本中抽取具有代表性的樣本[24],使得統計推斷更加可靠。表1 是樣本容量選取的參數。

        表1 樣本容量選取的參數Table 1 Parameters of sample size selection

        在估算樣本容量時需要給定抽樣精度,一般用(α,ε)精度來表示,即在置信概率1-α下總體平均數的置信區(qū)間長度不超過2ε。在總體平均數的置信區(qū)間中,當n無限大時,近似服從正態(tài)分布,如式(8)和式(9)所示:

        因此,當0<α<1 時,置信概率如式(10)所示:

        uα定義為:

        其中:φ為標準正態(tài)分布N(0,1)的分布函數。

        由式(11)可知,(α,ε)精度等價于:

        由式(13)和式(14)可得:

        因此,樣本容量n的取值如式(16)所示:

        在相同的總體容量中,用戶可根據需求設定不同的置信區(qū)間和抽樣誤差。抽樣誤差和置信區(qū)間設置越小,所需的樣本容量就越大。當總體容量增加超過一定閾值時,總體對樣本容量的影響基本可以忽略不計。

        2.4 權重選擇

        本文對權重進行賦值,選定時間序列T*和其最近鄰,如果時間序列數據相對遠離T*及其最近鄰,則權重相對較低。本文隨機選擇一個中心時間序列T*,構建近鄰相似權重,如式(17)所示:

        雖然式(17)描述了連接Ti與T*的權重,但是未考慮Ti與T*的相關性,因此,相關權重的計算如式(18)所示:

        其中:ne(T*)為Ti的k近鄰。剩余樣本權重的計算如式(19)所示:

        其中:d*NN為T*與其近鄰之間的最小距離。

        2.5 MCA 方法流程

        MCA 方法將樣本集X 作為輸入,數據增強后的數據集作為輸出。MCA 方法流程如圖3 所示,通過計算所有點的密度,剔除離群點,利用簡單隨機抽樣獲得小樣本數據集,同時對小樣本集運用最大最小距離算法得到生成中心,根據樣本相似性構建權重函數,得到新的生成樣本。

        圖3 MCA 方法流程Fig.3 Procedure of MCA method

        2.6 深度殘差網絡

        深度神經網絡層數的加深不僅會導致出現過量的參數,還會引起網絡退化。然而殘差模塊的引入就是為了解決網絡退化的問題。深度殘差網絡[25]包括卷積層、池化層和全連接層等,其結構與深度神經網絡結構類似。卷積層由含有若干可學習參數的卷積核構成,主要對局部信息進行計算,因此降低了計算量。池化層對主要信息進行降維處理,使原本高維計算變?yōu)榈途S數據的計算,有效地降低了計算量,在一定程度上避免了過擬合現象的發(fā)生。全連接層經過分類計算后,全連接層會對結果進行分類處理。

        殘差網絡通過添加快捷連接作為恒等映射,使得網絡性能不會退化。殘差單元的示意圖如圖4所示。

        圖4 殘差單元示意圖Fig.4 Schematic diagram of residual unit

        圖4 中殘差單元的輸入為x,殘差單元中各層的參數為W。殘差單元主要由2 個卷積層組成,這2 個卷積層的輸出F()表示需要學習的殘差函數??鐚涌旖葸B接和殘差函數則共同構成殘差單元的輸出y,如式(20)和式(21)所示:

        其中:σ()為激活函數,選用線性整流單元(Rectified Linear Unit,ReLU)作為激活函數。激活函數使輸入的線性組合變?yōu)榉蔷€性組合,從而解決模型梯度消失的問題,如式(22)所示:

        ReLU 的輸入為r,對應上一層網絡的輸出,ReLU 輸出結果為r與0 的相對最大值。本文構建的深度殘差網絡用于檢測生成數據的分類結果,其結構如圖5 所示。

        圖5 深度殘差網絡結構Fig.5 Structure of deep residual network

        從圖5 可以看出,深度殘差網絡由卷積層、池化層和全連接層構成,激活函數為ReLU 函數,在一定程度上避免出現梯度消失的現象,且使得特征在層間傳遞時取值范圍不變。深度殘差網絡采用Adma算法優(yōu)化目標損失函數,其中基礎學習率設置為0.1,衰減率為0.9,損失函數如式(23)所示:

        其中:p為softmax 函數的輸出概率值;y為樣本的真實標簽。在本文中,少數類樣本標簽為1,多數類樣本標簽為0。在實測數據集中軸箱振動異常樣本的真實標簽為1,無異常狀態(tài)樣本的真實標簽為0。

        3 實驗結果與分析

        3.1 數據集

        為檢測MCA 方法的性能,本文選取UCR 數據庫中的SwedishLeaf 數據集和某高鐵軸箱振動實測數據集進行實驗。實測數據集為安裝在高鐵軸箱上振動傳感器采集的數據,用于分析檢測軌道平整度,同時選取領域內常用的過采樣合成數據方法(SMOTE)、下采樣的代表方法(Easy Ensemble)、隨機簡單復制樣本(RR)、保結構過采樣(INOS)、模型空間學習過采樣(MK)及DTW 數據增強方法進行對比。數據集描述如表2 所示。

        表2 數據集描述Table 2 Dataset description

        3.2 實驗環(huán)境

        本文實驗采用的軟件配置為64 位window10 的操作系統,開發(fā)工具采用PyCharm 運行所提出的算法,運行環(huán)境為Intel?CoreTMi5-7200U CPU,2.50 GHz,8.00 GB。

        3.3 樣本容量的計算

        樣本容量是決定數據信息正確和計算效率的重要因素之一。樣本容量越大,正確率越高,但效率會降低;樣本容量越小,正確率越低,但效率會提高。本文對2.3節(jié)提出的公式進行定量分析,從SwedishLeaf 數據集中任選1 000 條數據,設置抽樣誤差為0.1,計算總體方差為0.368 2,利用式(16)計算在不同總體個數N發(fā)生變化時所對應的樣本容量n的變化情況。樣本容量計算結果如表3 所示。

        表3 樣本容量計算結果Table 3 Calculation results of sample size

        從表3 可以看出,在確定方差和抽樣精度后,總體個數N越大,所需的樣本容量n所占總體的比例越小。在置信度設置為90%的情況下,當N為100 時,n所占的比例約為51%;當N為600時,n所占的比例約為15%;當N為10 000 時,n所占的比例約為1%。在置信度設為95 的情況下,當N為100 時,n所占的比例約為60%;當N為600時,n所占的比例約為20%;當N為10 000時,n所占的比例約為1.5%。當置信度設置更高時,需要更多的樣本容量來支持,抽樣精度也需要相應的提高。當N達到一定閾值時,再增加N的量,n的增長呈現緩慢趨勢。因此,超過一定閾值的總體個數對樣本容量的影響趨向于0。

        3.4 采樣結果可視化

        本文對不同的數據增強方法進行可視化分析,直觀地展示采樣后樣本的分布情況。由于本文所采用的數據集維度較高,難以直接可視化,因此采取主成分分析(Principal Component Analysis,PCA)方法進行降維處理,選取貢獻率排前2 的主成分,并在平面空間上進行結果可視化。在SwedishLeaf 數據集上時序采樣可視化結果如圖6 所示。實心點表示多數類樣本,空心點表示少數類樣本。

        圖6 時序采樣可視化結果Fig.6 Visualization results of timing sampling

        從圖6 可以看出,SwedishLeaf 訓練集由1 個少數類樣本和14 個多數類樣本組成,按照少數類和多數類1∶14 的關系隨機選取30 條樣本數據,并采用不同方法均生成15 個樣本。不同方法的采樣結果分析如下:

        1)RR 方法僅通過隨機復制少數類樣本來平衡數據集,導致新生成的少數類樣本與原少數類樣本幾乎完全重合。該方法對數據集信息量的擴充沒有作用。

        2)SMOTE 方法在原少數類樣本周邊均勻生成新的樣本,生成的樣本容易靠近邊界,且在近鄰選擇時多數類樣本和少數類樣本的區(qū)別較模糊。

        3)Easy Ensemble 方法剔除了信息量較少的數據,盡可能保留更多的有效信息,由于未考慮一些偏遠點對結果的影響,生成的樣本較原數據集中,缺少隨機性。

        4)本文提出的MCA 方法首先計算樣本密度,排除噪聲點的干擾,同時將最大最小距離算法與抽樣方法相結合確定多生成中心,使得生成中心也遠離邊界,不會造成生成樣本邊緣化的問題,同時通過多次抽樣提高樣本的隨機性,采用樣本加權隨機分配權重,使得生成樣本序列多樣性更豐富。

        3.5 實驗結果

        在SwedishLeaf 數據集的少數類樣本和多數類樣本不平衡率(IR)下,不同方法的分類精度、召回率對比如圖7 和圖8 所示。

        圖7 在SwedishLeaf 數據集上不同方法的精確率對比Fig.7 Precision comparison among different methods on SwedishLeaf dataset

        圖8 在SwedishLeaf 數據集上不同方法的召回率對比Fig.8 Recall comparison among different methods on SwedishLeaf dataset

        從圖7 和圖8 可以看出,在SwedishLeaf 數據集上,MCA 方法的精確率相較于其他6 種數據增強方法提高了7%~18%,召回率提高了4%~15%。MCA 數據增強方法較未進行增強前相比,精確度和召回率分別提高18%和15%,說明數據增強可以有效地提高數據集的分類準確度。相比SMOTE 方法,MCA 方法的精確率和召回率分別提高約6.7%和6%。SMOTE 方法只是在少數類樣本周邊生成新樣本,未考慮整體樣本的信息,在少數類樣本的周圍增加無用的噪聲點,且可能出現樣本越界的情況,從而影響分類結果。與Easy Ensemble方法相比,MCA 方法的精確率和召回率分別提高了約8.9%和8%。Easy Ensemble 方法采用降采樣選取有效的樣本子集,減少了整體數據量,導致模型訓練量不夠充分且整體數據量越小,降低了分類效果。相比RR、INOS、MK 方法,MCA 方法的精確率和召回率分別提高了5.9%和7%。RR 方法通過簡單復制樣本,生成的數據多樣性較差,因此分類精度提升幅度較小。相比DTW 方法,MCA 方法精確率和召回率分別提高了約1.17%和2%。

        為進一步驗證MCA方法的有效性,在SwedishLeaf數據集上不同增強方法的F1 值對比如圖9 所示。在相同的不平衡率下,MCA 方法的F1 值最高。在不平衡率較高的情況下,MCA 方法與其他方法相比提高了2%左右。

        圖9 在SwedishLeaf 數據集上不同方法的F1 值對比Fig.9 F1 values comparison among different methods on SwedishLeaf dataset

        在實測數據集上MCA 方法與其他6 種方法的精確率和召回率對比如圖10 和圖11 所示。從圖10和圖11 可以看出,在實測數據集上MCA 方法與6 種數據增強方法相比,精確率、召回率均有大幅提升。相比Easy Ensemble、SMOTE 和RR 方法,MCA 方法的精確率提高5%左右,由于MCA 方法解決了生成數據樣本類別越界的問題,提高了模型的訓練準確率。MCA 方法與其他方法相比分類效果有很大提升,尤其是召回率提高了2%~6%。

        圖10 在實測數據集上不同方法的精確率對比Fig.10 Precision comparison among different methods on measured dataset

        圖11 在實測數據集上不同方法的召回率對比Fig.11 Recall comparison among different methods on measured dataset

        在實測數據集上不同方法F1 值對比如圖12 所示。從圖12 可以看出,MCA 方法與其他方法相比F1 值提高了2%~5%,當不平衡率較大時,F1 值的提升速度最快,說明MCA 方法在不平衡率較大的數據集上仍具有較優(yōu)的分類結果,適應不平衡數據的分類。

        圖12 在實測數據集上不同方法的F1 值對比Fig.12 F1 values comparison among different methods on measured dataset

        4 結束語

        本文提出一種基于最大最小距離的數據增強方法,通過考慮加權密度對排除離群點的影響,將抽樣方法與最大最小距離算法相結合選取多中心,優(yōu)化生成數據的中心,同時結合樣本加權對多中心樣本重新賦權,有效地增加生成數據的隨機性。在UCR數據集和實測數據集上的實驗結果表明,相比SMOTE、Easy Ensemble、RR 等方法,本文方法具有較高的精確率,并且在不平衡率較高的情況下具有較優(yōu)的分類效果。下一步將通過對抽樣方法和原始數據信息提取的問題進行研究,提高增強后數據集的分類精確度。

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數學教學改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學反應多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學習方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲一区二区三区免费av在线| 99久久综合精品五月天| ā片在线观看| 美女裸体无遮挡免费视频国产| 丰满少妇av一区二区三区| 亚洲va久久久噜噜噜久久天堂 | 亚洲av无码av吞精久久| 国产亚洲欧美在线播放网站| 激情五月开心五月av| 国产精品亚洲片在线观看不卡| 国产免费av片在线观看播放| 乱人伦中文字幕在线不卡网站 | 日本女优中文字幕亚洲| 国产又大又硬又粗| 亚洲乱码日产精品bd在线观看 | 在线视频亚洲一区二区三区| 亚洲一区二区三区中文字幕网| 久久精品国产亚洲av高清热| 97成人精品| 一道本中文字幕在线播放| 日本边添边摸边做边爱| 风韵饥渴少妇在线观看| 日韩美女高潮流白浆视频在线观看| 国产视频一区二区三区久久亚洲| 中文字幕人妻在线中字| 永久免费无码av在线网站| 白白视频在线免费观看| 午夜国产精品视频在线观看| 男女后进式猛烈xx00动态图片| 国产免费一级在线观看| 色噜噜色哟哟一区二区三区| 999精品无码a片在线1级| 成人国产精品免费视频| 亚洲一区二区三区免费av在线| 中文字幕人妻少妇伦伦| 亚洲日韩精品无码专区网站| 一区二区免费电影| 久草中文在线这里只有精品| 四川丰满妇女毛片四川话| 久久伊人影院| 一区二区在线观看视频亚洲|