亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高斯混合生成模型檢測健康數(shù)據(jù)異常

        2022-05-17 06:02:00朱壯壯周治平
        計算機(jī)與生活 2022年5期
        關(guān)鍵詞:檢測模型

        朱壯壯,周治平

        江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫214122

        近年來,人們對健康的生活方式越發(fā)重視,越來越多的人通過運(yùn)動手環(huán)來監(jiān)測自己的健康。運(yùn)動手環(huán)可以監(jiān)測人們的運(yùn)動狀況和一些行為方式,如睡眠時長、心率和運(yùn)動步數(shù)等。Lim 等人發(fā)現(xiàn)患有疾病的手環(huán)佩戴者和健康佩戴者的手環(huán)數(shù)據(jù)存在顯著的差異,且特定指標(biāo)與特定疾病的關(guān)聯(lián)較大,如運(yùn)動步數(shù)和靜息心率這兩個指標(biāo)都與心血管疾病和代謝紊亂有關(guān)。對于手環(huán)佩帶者而言,在對數(shù)據(jù)缺乏有效分析的情況下,僅僅依靠手環(huán)顯示的信息并不能準(zhǔn)確地了解其身體的健康狀況。對于手環(huán)收集到的數(shù)據(jù),異常值是指與某些疾病相關(guān)聯(lián)的指標(biāo)偏離個體基準(zhǔn)的數(shù)據(jù)。因此有必要找出手環(huán)數(shù)據(jù)中的異常值,提前判斷出用戶身體是否存在隱患,以便提前做出相應(yīng)治療,這對改善用戶身體健康有重大的作用。

        基于距離的異常值檢測方法,包括近鄰(nearest neighbor,NN)和平均近鄰,主要是基于對全維空間中距離的評估,該方法假定異常點與正常點之間的距離較遠(yuǎn),因此計算每個樣本點之間的距離(或者平均距離),并與距離閾值比較,若大于閾值則視為異常點。然而,當(dāng)處理高維數(shù)據(jù)時,相關(guān)距離和近鄰的概念變得沒有意義,異常檢測的效果也變差。在這個大數(shù)據(jù)時代,數(shù)據(jù)呈現(xiàn)高維度特征,使得在進(jìn)行異常檢測時,容易出現(xiàn)“維度災(zāi)難”問題。為了解決該問題,許多研究都集中在基于降維的異常值檢測方法上。傳統(tǒng)的技術(shù)采用兩步法,即先降維,再進(jìn)行異常檢測,這兩個步驟分別訓(xùn)練,在沒有異常檢測指導(dǎo)的情況下進(jìn)行降維訓(xùn)練,容易丟失異常檢測的關(guān)鍵信息。Zhou 等人將深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)降維和均值(-means)聚類方法結(jié)合起來,便于同時優(yōu)化這兩個任務(wù),減少解耦學(xué)習(xí)的影響,提升檢測效果。

        深度學(xué)習(xí)領(lǐng)域的學(xué)者們已經(jīng)提出了多種異常檢測技術(shù)用以改進(jìn)檢測性能。Zong等人提出了DAGMM方法,該方法首先利用深度自編碼器將原始數(shù)據(jù)進(jìn)行潛在空間表示,并將低維特征表示和重構(gòu)誤差特征輸入GMM(Gaussian mixture model)中進(jìn)行密度估計,通過選擇合適的密度閾值,將密度高于該值的數(shù)據(jù)記為異常值。然而,該方法假設(shè)異常是不可壓縮的,因此不能從低維潛在空間中有效重建輸入數(shù)據(jù)。相較于VAE 使用重建概率重構(gòu)原始數(shù)據(jù),重構(gòu)誤差缺乏客觀性,導(dǎo)致DAGMM 方法檢測性能不佳。與GMGM(Gaussian mixture generative model)類 似,Nalisnick 等人提出了將VAE(variational autoencoder)與GMM 結(jié)合在一起的DL-GMM 方法,它采用混合高斯分布近似VAE 的后驗,從而提高了原始VAE 的容量。但是,它不適用于無監(jiān)督的異常值檢測。Liu等人提出了一種基于多視圖主題模型的異常檢測方法,該方法利用多視圖主題模型對原始數(shù)據(jù)中的特征進(jìn)行建模得到對應(yīng)的關(guān)系,能夠大大降低檢測的誤報率,但是該方法檢測準(zhǔn)確性偏低。

        鑒于此,本文利用GMGM,用以進(jìn)行人體活動數(shù)據(jù)的異常檢測。在該模型中,使用生成模型中的VAE生成數(shù)據(jù)潛在分布和重構(gòu)誤差來訓(xùn)練DBN(deep brief network),以預(yù)測樣本的混合成員隸屬度。高斯混合模型通過樣本的混合成員隸屬度預(yù)測得到每個數(shù)據(jù)的樣本密度,將密度高于訓(xùn)練階段閾值樣本視為異常。GMGM 共同優(yōu)化了VAE、DBN 和GMM,從而避免了模型解耦的影響。

        本文有三個主要的貢獻(xiàn):

        (1)為了盡可能保留原始數(shù)據(jù)的特征,生成網(wǎng)絡(luò)利用VAE為原始樣本生成潛在分布和重構(gòu)誤差特征。

        (2)為了避免在計算樣本密度過程中,由于矩陣的奇點問題導(dǎo)致協(xié)方差矩陣無法求解,GMGM 利用樣本的混合概率、均值和協(xié)方差來構(gòu)造協(xié)方差矩陣的Cholesky 分解,以計算樣本密度。

        (3)由于傳統(tǒng)的兩步法技術(shù)在進(jìn)行異常檢測時會丟失關(guān)鍵信息,GMGM 以一種端到端的方式共同優(yōu)化VAE、DBN 和GMM,以保留數(shù)據(jù)的原始特征。

        基于該方法,文本實現(xiàn)了健康數(shù)據(jù)的異常檢測,并在真實數(shù)據(jù)集上進(jìn)行了實驗,結(jié)果表明,所應(yīng)用算法可以有效地檢測健康數(shù)據(jù)中的異常。

        1 相關(guān)工作

        1.1 變分自編碼器

        變分自編碼器的提出,旨在解決傳統(tǒng)的算法處理復(fù)雜場景中推斷和訓(xùn)練困難且耗費(fèi)大的問題,它能夠生成輸入數(shù)據(jù)潛在變量的低維表示。變分自編碼器可以看作一個特征器,根據(jù)原始樣本分布,構(gòu)建出其概率分布以重構(gòu)數(shù)據(jù)。相比深度自編碼器采用重構(gòu)誤差進(jìn)行重構(gòu)數(shù)據(jù),重構(gòu)概率是一種概率測量,它考慮了變量分布的可變性,比重構(gòu)誤差更具原則性和客觀性。因此,本文選取VAE 進(jìn)行特征提取,解決“維度災(zāi)難”問題,同時保留原始數(shù)據(jù)的多模態(tài)特征。近年來,變分自編碼器逐漸與深層神經(jīng)網(wǎng)絡(luò)結(jié)合,通過隱含層的堆疊以一種無監(jiān)督的方式進(jìn)行參數(shù)優(yōu)化。假設(shè)∈R表示一個維度為的向量,∈R表示對應(yīng)的維度為′的潛在表示,(·)表示概率分布函數(shù),則概率分布的生成過程可以表示為:

        1.2 高斯混合模型

        GMM 模型訓(xùn)練階段,使用EM 算法以最大化似然函數(shù)的方式求解模型最佳參數(shù),即混合概率φ、均值μ和協(xié)方差σ,直至模型收斂。

        2 本文算法

        針對GMM 對高維數(shù)據(jù)進(jìn)行密度估計時,會出現(xiàn)時間復(fù)雜度較高的問題,本文利用GMGM 對健康數(shù)據(jù)進(jìn)行異常檢測。如圖1 所示,該模型主要由兩部分組成:生成模型和高斯混合模型。GMGM 的工作原理如下:首先,生成模型通過VAE 對輸入樣本進(jìn)行降維處理,以便生成樣本點的潛在空間表示和基于重構(gòu)的特征提供給DBN;接著,DBN 采用饋送,預(yù)測得到樣本點的混合成員隸屬度;最后,利用混合成員隸屬度,GMM 預(yù)測每個數(shù)據(jù)的樣本密度,將樣本密度高于訓(xùn)練階段的閾值的數(shù)據(jù)視為異常。

        圖1 高斯混合生成模型結(jié)構(gòu)示意圖Fig.1 Structure diagram of Gaussian mixture generative model

        2.1 本文算法

        在高維空間中,會出現(xiàn)一種“維度災(zāi)難”的現(xiàn)象,即隨著數(shù)據(jù)維度的增加,密度預(yù)測的時間復(fù)雜度會急劇增加,性能下降。為了解決此問題,生成模型通過VAE 對數(shù)量為,維度為的輸入數(shù)據(jù)=[,,…,x]∈R進(jìn)行重構(gòu)處理,提取樣本點的潛在空間表示和重構(gòu)特征,以保留樣本的固有多模態(tài)信息,并將其作為DBN 的輸入。

        傳統(tǒng)的兩步法技術(shù)在進(jìn)行異常檢測時會丟失關(guān)鍵信息,因此需要將降維過程與密度估計過程聯(lián)合訓(xùn)練,相互優(yōu)化。GMM 在利用EM 算法進(jìn)行模型訓(xùn)練時,首先根據(jù)當(dāng)前參數(shù)計算每個數(shù)據(jù)的混合成員隸屬度,接著利用得到的混合成員隸屬度計算模型參數(shù),直至收斂。因此,本文中GMGM 將期望最大化算法的E 步驟中的樣本屬于各子分布的概率替換為端到端結(jié)構(gòu)中生成模型的輸出,以一種端到端的方式共同訓(xùn)練了生成模型與GMM;接著,利用EM 算法中M 步對GMM 中的均值、協(xié)方差等做參數(shù)估計,然后極大化似然函數(shù),相對于傳統(tǒng)的訓(xùn)練方式,更易達(dá)到理想的檢測效果。

        在測試階段,GMGM 可以根據(jù)式(13)預(yù)測樣本的密度,將樣本密度高于訓(xùn)練階段閾值的數(shù)據(jù)視為異常。

        2.2 目標(biāo)函數(shù)

        由于解耦學(xué)習(xí)性能不佳,在GMGM 中,將VAE、DBN 和GMM 統(tǒng)一起來,共同進(jìn)行模型訓(xùn)練。給定個數(shù)據(jù)點的樣本集,目標(biāo)函數(shù)如下:

        式(15)表示后驗分布(,|)和最大似然分布(,|)的KL散度。通過最小化后驗分布與最大似然分布的KL散度,以最大程度地提高多維輸入的似然。

        ()模擬可以觀察輸入樣本的概率。通過最小化樣本密度,以最大化觀察到輸入樣本的可能性,以便得到VAE、DBN 和GMM 參數(shù)的最佳組合。

        和是用于規(guī)范目標(biāo)函數(shù)的超參數(shù),實驗中,=0.1,=0.001 通??梢缘玫捷^好的結(jié)果。最小化J(f,g,b)可為生成模型和GMM 提供最佳的參數(shù)組合。

        2.3 算法復(fù)雜度分析

        假設(shè)∈R表示數(shù)量為,維度為的原始輸入數(shù)據(jù),GMGM 方法需要對原始數(shù)據(jù)進(jìn)行重構(gòu)處理,設(shè)定隱含層層數(shù)為3,即三層編碼器、三層譯碼層,′為設(shè)置的各隱藏層節(jié)點數(shù)(即每層輸出維度)中的最大值,該部分的時間復(fù)雜度為(′);DBN分別預(yù)測各樣本屬于個組件的概率,該部分包括反向傳播過程和Softmax 過程,該部分的時間復(fù)雜度為(′);利用GMM 進(jìn)行密度估計,該步驟的時間復(fù)雜度為((+1)),因此GMGM 的時間復(fù)雜度為((+1)+(+1)′)。隨機(jī)異常選擇(stochastic outlier selection,SOS)算法采用相異度矩陣以親和力的概念量化兩點之間的關(guān)系,其時間復(fù)雜度為(),遠(yuǎn)高于本文算法;經(jīng)典的異常檢測算法如VAE,其時間復(fù)雜度為(′),DAGMM 時間復(fù)雜度為((+1)+(+2)′)。

        3 實驗評估

        實驗平臺配置為Windows10 操作系統(tǒng)、Intel Core i7-7700HQ CPU 處理器、2.80 GHz、20 GB 內(nèi)存,所有算法由Python 實現(xiàn)。

        本文選取了5 個數(shù)據(jù)集,皆來自O(shè)DDS 數(shù)據(jù)庫,這些數(shù)據(jù)集包含異常類,并根據(jù)樣本標(biāo)簽區(qū)分。標(biāo)簽為0 的數(shù)據(jù)為正常類,標(biāo)簽為1 的數(shù)據(jù)為異常類,數(shù)據(jù)集的數(shù)據(jù)特征見表1。

        表1 數(shù)據(jù)集信息Table 1 Dataset information

        為驗證算法性能,將本文算法與SOS、基于變分編碼器的異常檢測算法、深度自編碼器高斯混合模型(deep autoencoding Gaussian mixture model,DAGMM)進(jìn)行了比較。選取的原因是:SOS 算法使用關(guān)聯(lián)的概念來計算每個數(shù)據(jù)點的異常值概率,這與本文預(yù)測每個樣本點密度的方式類似;本文算法是基于變分自編碼器的異常檢測算法的改進(jìn),因此選取其作對比;DAGMM 采用深層自編碼器提取原始數(shù)據(jù)的特征,通過多層感知機(jī)估計樣本的混合成員隸屬度,最后通過GMM 計算每個樣本點能量進(jìn)行異常檢測,其檢測效果較好,并且結(jié)構(gòu)與本文算法相似,因此選取其作為對比算法。

        本文所用的評估異常檢測算法的性能指標(biāo)是:召回率(Recall)、1分?jǐn)?shù)(1-Score)、正確率(ACC)和受試者工作曲線(area under curve,AUC)。較好的異常檢測算法應(yīng)該有較高的Recall、1-Score、ACC、AUC。

        3.1 實驗對比結(jié)果與分析

        對于各樣本集,GMGM 的參數(shù)設(shè)置如下:數(shù)據(jù)集Ionosphere、Arrhythmia、Musk、Speech 和Shuttle 的潛在空間表示維度分別為3、4、4、4、2;為了確定GMM最優(yōu)組件的個數(shù),需要使用一些分析標(biāo)準(zhǔn)來評估模型的可能性。本文參考了文獻(xiàn)[6]與文獻(xiàn)[7],發(fā)現(xiàn)其主要是采用了貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)的評價方法來確定組件個數(shù),模型的BIC 值越低,GMM 預(yù)測樣本數(shù)據(jù)樣本密度的性能越好。對于本文中所有的數(shù)據(jù)集,GMM 組件個數(shù)取3時,模型BIC 值最小,因此對于所有的數(shù)據(jù)集,GMM組件個數(shù)設(shè)置為3。

        為了驗證GMGM 針對高維數(shù)據(jù)檢測性能的優(yōu)勢,選取了維度較大的Speech 數(shù)據(jù)集,采用定性的方式,與SOS、VAE 和DAGMM 算法進(jìn)行ROC 曲線的對比,對比結(jié)果如圖2所示。從圖中可以看出,相較于SOS、VAE和DAGMM算法ROC曲線下面積AUC值,GMGM異常檢測方法的面積最大,即AUC值最高。其中,VAE 算法的檢測效果最差,可能是因為VAE 在對數(shù)據(jù)進(jìn)行潛在空間表示的時候,把原始樣本跟異常有關(guān)的關(guān)鍵信息錯誤地進(jìn)行了刪除,導(dǎo)致檢測AUC值較低;而GMGM 采取的是端到端的聯(lián)合訓(xùn)練,可以同時訓(xùn)練VAE、DBN 和GMM,使三者模型參數(shù)達(dá)到最優(yōu),檢測效果較為理想。

        圖2 各算法檢測Speech 數(shù)據(jù)集的ROC 曲線Fig.2 ROC curves of each algorithm for Speech

        從圖3 中可以看出,對于不同的數(shù)據(jù)集,本文算法在取得最好的檢測效果時,所對應(yīng)的VAE 編碼器層數(shù)都不同。當(dāng)值增大時,各數(shù)據(jù)集對應(yīng)的AUC值總是先增大后減小。這是因為先增大值可以使得編碼器很好地進(jìn)行數(shù)據(jù)重構(gòu),較好地學(xué)習(xí)到原始樣本的特征,因此AUC 值增大;但是之后隨著繼續(xù)增大,導(dǎo)致訓(xùn)練過擬合,使得算法AUC 值減小。經(jīng)過綜合考量,對圖3 中5 個數(shù)據(jù)集的值選擇分別是4(33-16-8-3)、5(274-136-64-16-5)、5(166-84-42-12-5)、5(400-200-100-50-5)、2(9-2)。

        圖3 各數(shù)據(jù)集在GMGM 上的不同o 對應(yīng)AUC 值Fig.3 AUC curves with different o for different datasets on GMGM

        為了驗證GMGM 在時間復(fù)雜性上的優(yōu)勢,將其與SOS 算法、VAE 算法和DAGMM 算法的平均檢測時間進(jìn)行對比,對比結(jié)果如表2 所示。

        表2 各算法平均檢測時間對比Table 2 Comparison of average detection time of each algorithm

        從表2 可以看出,雖然本文算法的平均檢測時間不是最低,但是比平均檢測時間最低的VAE 算法僅相差了0.12 s;并且其平均檢測時間比性能較好的DAGMM 算法提升了37%,體現(xiàn)了本文算法在檢測時間方面的優(yōu)勢。

        為了驗證本文端到端結(jié)構(gòu)的有效性,將本文算法與獨立訓(xùn)練的模型進(jìn)行對比,實驗結(jié)果如表3 所示。從表中可以看出,采用端到端訓(xùn)練的GMGM 的各個指標(biāo)均高于獨立訓(xùn)練的模型。

        表3 不同模型結(jié)構(gòu)實驗結(jié)果對比Table 3 Comparison of experimental results of different model structures

        為了驗證本文算法性能的優(yōu)勢,將本文算法與VAE 算法、SOS 算法和DAGMM 算法進(jìn)行對比,計算各異常檢測算法性能指標(biāo)ACC、Recall、1-Score 和AUC值,列入表4中。其中VAE算法的隱含層層數(shù)和各層節(jié)點數(shù)與生成網(wǎng)絡(luò)中的VAE 相同;DAGMM 與文獻(xiàn)[6]具有相同的參數(shù)設(shè)置。

        表4 不同算法實驗結(jié)果對比Table 4 Comparison of experimental results of different algorithms

        從表4 的對比實驗結(jié)果可以看出,GMGM 的準(zhǔn)確率僅在大數(shù)據(jù)集Shuttle 上稍低于DAGMM 算法;其AUC 值也僅在Speech 數(shù)據(jù)集上稍低于DAGMM算法;在大數(shù)據(jù)集Shuttle 上的Recall 值雖然不是最高,但與最高值相差不多;在高維數(shù)據(jù)集Musk 上準(zhǔn)確率達(dá)到了0.995,遠(yuǎn)高于SOS 算法的0.677,在維數(shù)較高且數(shù)據(jù)量較大的Arrhythmia 數(shù)據(jù)集上也表現(xiàn)出較為理想的檢測效果;在Shuttle數(shù)據(jù)集上,雖然本文算法的ACC 和Recall 稍有降低,但是1-Score 與AUC值分別提高了7 個百分點與1.4 個百分點。這種情況發(fā)生的原因可能是,算法中的潛在空間表示能夠較好地捕捉到數(shù)據(jù)的整體特性,提高了數(shù)據(jù)的局部結(jié)構(gòu)能力,降低了算法的時間復(fù)雜度;但同時,VAE 在對大數(shù)據(jù)集Shuttle 進(jìn)行潛在空間表示的時候,由于數(shù)據(jù)量比較大不可避免地會出現(xiàn)過擬合現(xiàn)象,這也是本文算法需要改進(jìn)的地方。

        3.2 健康數(shù)據(jù)異常檢測結(jié)果

        算法的性能得到了驗證之后,利用該算法在收集到的健康數(shù)據(jù)上進(jìn)行實驗,對異常值進(jìn)行檢測。圖4是采用本文算法進(jìn)行異常檢測可視化的結(jié)果。其中黑色點表示正常數(shù)據(jù),紅色點表示異常數(shù)據(jù)。

        圖4 GMGM 算法在健康數(shù)據(jù)上異常檢測結(jié)果Fig.4 Detection results by GMGM on health data

        為了突出該算法的優(yōu)勢,又采用了檢測效果同樣好的DAGMM 算法在同一實驗環(huán)境下對同樣的健康數(shù)據(jù)進(jìn)行了實驗,結(jié)果如圖5。

        圖5 DAGMM 算法在健康數(shù)據(jù)上異常檢測結(jié)果Fig.5 Detection results by DAGMM on health data

        對比圖4 和圖5 可以看出,兩種檢測方法對于比較明顯的異常樣本點都可以檢測出來,但是DAGMM算法在數(shù)據(jù)邊緣存在誤判和漏判現(xiàn)象。標(biāo)號為1、3的樣本點為漏判,標(biāo)號為2 的樣本點為誤判。而本文算法在檢測邊緣異常點時,僅3 樣本點進(jìn)行了漏判,整體性能較好。

        4 結(jié)論

        針對運(yùn)動手環(huán)采集的活動數(shù)據(jù)存在未知異常數(shù)據(jù)的問題,利用GMGM 用以進(jìn)行異常檢測。在該模型中,使用生成模型中的樣本潛在分布和重構(gòu)特征來訓(xùn)練DBN,以估計各樣本的混合成員隸屬度;接著,利用GMM 預(yù)測各樣本的密度進(jìn)行異常值的檢測。生成網(wǎng)絡(luò)與GMM 共同優(yōu)化,避免了模型解耦的影響。在實驗部分,采用具有代表性的異常檢測數(shù)據(jù)集進(jìn)行實驗,結(jié)果表明,該方法具有理想的檢測效果。最后,利用該方法在真實數(shù)據(jù)集上可視化異常檢測結(jié)果,結(jié)果表明漏報率和誤報率均低于DAGMM算法。

        猜你喜歡
        檢測模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        “幾何圖形”檢測題
        “角”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測中的應(yīng)用
        日本中文字幕一区二区在线观看 | 99视频一区| 日日噜噜夜夜狠狠久久av| 久久精品亚洲国产av网站| 国产98色在线 | 国产| 国产在线观看免费观看| 欧美日韩高清一本大道免费| 亚洲中文字幕精品久久久 | 香港三级精品三级在线专区| 欧美第五页| 亚洲一本之道高清在线观看| 国产让女高潮的av毛片| 亚洲精品美女久久久久久久| 亚洲第一看片| 91精品国产综合久久久蜜臀九色| 国产成人91久久麻豆视频| 久久露脸国产精品| 国产精品无码久久久久免费AV | 777精品出轨人妻国产| 无码熟熟妇丰满人妻啪啪| 91精品在线免费| 亚洲国产综合精品中久| 北条麻妃国产九九九精品视频| 国产高清无码在线| 国产一级黄片久久免费看| 亚洲av无码乱码国产麻豆 | 手机在线亚洲精品网站| 少妇人妻偷人精品免费视频| 亚洲免费视频网站在线| 男人天堂亚洲一区二区| 色欲aⅴ亚洲情无码av| 亚洲色欲在线播放一区| 一本大道综合久久丝袜精品 | 精品国产看高清国产毛片| 亚洲最黄视频一区二区| 一本色道无码不卡在线观看| 国产中老年妇女精品 | 国产三级视频在线观看国产| 国产情侣真实露脸在线| 四虎影视一区二区精品| 久久久精品波多野结衣|