亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信息熵度量的局部線性嵌入算法

        2022-01-21 13:06:36宮子棟
        關(guān)鍵詞:實(shí)驗(yàn)

        劉 均, 宮子棟, 吳 力

        (1. 東北石油大學(xué) 電氣信息工程學(xué)院, 黑龍江 大慶 163318; 2. 大慶油田有限責(zé)任公司 天然氣分公司培訓(xùn)中心, 黑龍江 大慶 163453)

        在現(xiàn)代工業(yè)環(huán)境中, 隨著數(shù)據(jù)采集設(shè)備不斷地進(jìn)行更新迭代, 采集的數(shù)據(jù)通常具有高維特征, 致使機(jī)器學(xué)習(xí)算法出現(xiàn)兩個(gè)問(wèn)題: 1) 隨著維數(shù)的增加, 計(jì)算量會(huì)呈指數(shù)倍增長(zhǎng), 降低了算法的計(jì)算效率[1]; 2) 維數(shù)災(zāi)難增加了評(píng)估數(shù)據(jù)間相似性的難度, 影響算法性能. 通過(guò)將數(shù)據(jù)采用維數(shù)約簡(jiǎn)算法進(jìn)行處理, 減少數(shù)據(jù)的維度冗余[2], 是解決上述問(wèn)題的有效方法, 已廣泛應(yīng)用于圖像識(shí)別[3]和高維數(shù)據(jù)可視化[4]等領(lǐng)域.

        維數(shù)約簡(jiǎn)方法一般可分為線性降維算法[5-6]與非線性降維算法[7]. 線性降維算法基于線性映射進(jìn)行降維, 僅可處理線性數(shù)據(jù)集. 例如, 目前廣泛使用的主成分分析(PCA)方法[8], 目的是找到最優(yōu)投影方向, 使數(shù)據(jù)在投影方向上的方差最大且相互正交. 非線性降維算法通過(guò)非線性映射或局部線性變換處理復(fù)雜流形, 常見(jiàn)的算法有核化線性降維(KPCA)[9]、 等距特征映射(Isomap)[10]和局部線性嵌入(local linear embedding, LLE)[11-12]等, 其中LLE算法利用局部線性重構(gòu)權(quán)重系數(shù)表示局部結(jié)構(gòu), 能保留數(shù)據(jù)的本質(zhì)特征, 且算法參數(shù)選擇較少, 計(jì)算復(fù)雜度相對(duì)較小、 易實(shí)現(xiàn), 因此被廣泛應(yīng)用[13-16].

        在LLE算法中, 構(gòu)建最優(yōu)鄰域進(jìn)行低維重構(gòu)是保持?jǐn)?shù)據(jù)拓?fù)浣Y(jié)構(gòu)不變的關(guān)鍵, 而鄰域的結(jié)構(gòu)挖掘取決于空間距離度量方法[17]. Daza-Santacoloma等[18]提出了一種相關(guān)誘導(dǎo)度量, 使用類(lèi)標(biāo)簽作為額外信息估計(jì)近鄰點(diǎn), 以減輕距離差異給近鄰點(diǎn)選擇帶來(lái)的影響; Liu等[19]提出了一種快速識(shí)別k近鄰的方法, 通過(guò)求取相對(duì)方差和均值差形成表征相鄰點(diǎn)數(shù)據(jù)分布的空間相關(guān)指數(shù), 得到最佳k值選擇鄰域; 文獻(xiàn)[20]提出了一種cam加權(quán)距離, 具有方向和尺度自適應(yīng)性, 能充分利用原型間關(guān)系的相關(guān)信息. 上述算法在對(duì)空間度量方式的改進(jìn)方面都取得了顯著成效, 但目前在實(shí)際工程應(yīng)用中, 由于采集到的大多數(shù)是非對(duì)齊數(shù)據(jù), 當(dāng)采用歐氏距離[21]度量非對(duì)齊數(shù)據(jù)時(shí), 過(guò)于關(guān)注特征數(shù)據(jù)間的對(duì)應(yīng)關(guān)系, 故受數(shù)據(jù)位置差影響較大, 難以構(gòu)造最優(yōu)鄰域結(jié)構(gòu), 從而影響了算法的計(jì)算精度.

        為解決上述問(wèn)題, 本文利用信息熵度量[22]統(tǒng)計(jì)每個(gè)樣本點(diǎn)的概率分布[23], 得到數(shù)據(jù)的混亂程度, 排列后進(jìn)行近鄰點(diǎn)選擇, 構(gòu)造最優(yōu)鄰域. 實(shí)驗(yàn)結(jié)果表明, 基于信息熵度量的局部線性嵌入(ILLE)降維效果更好, 分類(lèi)更精確, 聚類(lèi)效果更緊湊.

        1 局部線性嵌入

        局部線性嵌入是將高維數(shù)據(jù)通過(guò)局部的線性關(guān)系表示, 即將高維數(shù)據(jù)樣本點(diǎn)X映射到低維空間中進(jìn)行重構(gòu), 如圖1所示.實(shí)驗(yàn)結(jié)果表明, 局部線性嵌入在圖像或其他不封閉流形上降維效果均較好.

        圖1 局部線性嵌入示意圖Fig.1 Schematic diagram of local linear embedding

        首先需要確定近鄰點(diǎn)樣本個(gè)數(shù)以線性表示中心樣本點(diǎn), 假設(shè)該值為k, 通過(guò)歐氏距離度量選擇某個(gè)樣本的k個(gè)最近鄰.在尋找某個(gè)樣本xi的k個(gè)最近鄰后, 再求出xi與這k個(gè)最近鄰之間的線性關(guān)系, 即找到線性關(guān)系的權(quán)重系數(shù), 從而變?yōu)橐粋€(gè)回歸問(wèn)題.假設(shè)有m個(gè)n維樣本(x1,x2,…,xm)用均方差作為回歸問(wèn)題的損失函數(shù), 即

        (1)

        其中Q(i)表示i的k個(gè)最近鄰樣本集合.對(duì)權(quán)重系數(shù)wij做歸一化的限制, 即權(quán)重系數(shù)需滿足:

        (2)

        將式(2)代入式(1)中矩陣化為

        (3)

        其中zi=(xi-xj)T(xi-xj),wi=(wi1,wi2,…,wik)T.然后利用Lagrange乘子法, 對(duì)式(1)求解如下:

        (4)

        其中1k表示k維全1向量.利用wij重構(gòu)向量y, 使得最小化二次型J(y)為

        (5)

        引入約束條件:

        令M=(I-w)T(I-w), 則式(5)可轉(zhuǎn)換為

        J(Y)=tr(YMYT).

        (6)

        計(jì)算M的(m+1)個(gè)特征向量, 構(gòu)成LLE的新低維嵌入坐標(biāo).

        2 信息熵度量

        信息熵解決了信息的度量化問(wèn)題. 信息熵越大表明樣本數(shù)據(jù)分布越分散(分布均衡), 信息熵越小則表明樣本數(shù)據(jù)分布越集中(分布不均衡). 針對(duì)LLE在特征提取中使用歐氏距離選擇近鄰點(diǎn)時(shí)存在受非對(duì)齊樣本位置差影響過(guò)大的問(wèn)題, 本文提出一種基于信息熵度量的局部線性嵌入算法. 給定一個(gè)高維數(shù)據(jù)集X=(x1,x2,…,xN)∈D×N, 其中xi(i=1,2,…,N)表示任意樣本點(diǎn), 具有D個(gè)特征,xi=(xi1,xi2,…,xiD)∈D×1, 其中D表示特征數(shù)目.為選擇樣本xi的鄰域, 首先需求出xi中每個(gè)特征xij出現(xiàn)的概率P(xij)(j=1,2,…,D), 然后計(jì)算出特征集xi的信息熵值E(xi):

        (7)

        Ixij=log2Pxij,

        (8)

        由于信息用二進(jìn)位編碼, 故log對(duì)數(shù)函數(shù)底數(shù)取2. 根據(jù)式(7),(8)計(jì)算出的原始數(shù)據(jù)集X中所有的樣本點(diǎn)的信息熵值表征每個(gè)樣本點(diǎn)的特征混亂程度.將樣本xi的熵值與數(shù)據(jù)集X中其他樣本點(diǎn)的熵值做差, 表示為

        θ=E(xi)-E(xl),l=1,2,…,N.

        (9)

        按式(9)計(jì)算結(jié)果, 選擇前k個(gè)最小差值對(duì)應(yīng)的樣本點(diǎn)構(gòu)造局部鄰域.根據(jù)xi的k個(gè)近鄰點(diǎn), 計(jì)算重構(gòu)權(quán)重系數(shù):

        (10)

        ILLE算法描述如下.

        輸入: 高維樣本集X=(x1,x2,…,xN)∈D×N, 低維維數(shù)d, 近鄰點(diǎn)個(gè)數(shù)k;

        輸出: 樣本集X對(duì)應(yīng)的低維嵌入結(jié)果Y;

        步驟1) 利用式(7),(8)計(jì)算xi(i=1,2,…,N)的信息熵值;

        步驟2) 根據(jù)式(9)計(jì)算熵差, 從小到大排列后選出前k個(gè)差值所對(duì)應(yīng)的樣本點(diǎn)構(gòu)造xi的鄰域;

        步驟3) 根據(jù)式(10)計(jì)算樣本數(shù)據(jù)的局部重構(gòu)權(quán)重;

        步驟4) 通過(guò)在低維空間中保持權(quán)重系數(shù)不變, 利用式(5)計(jì)算出原始數(shù)據(jù)集X對(duì)應(yīng)的低維嵌入結(jié)果Y.

        ILLE算法參數(shù)選擇方法如下:d為低維維數(shù), 從低維到高維逐漸增加;k為近鄰點(diǎn)數(shù)目, 值越大計(jì)算量越大.ILLE算法流程如圖2所示.

        圖2 ILLE算法流程Fig.2 Flow chart of ILLE algorithm

        3 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證本文方法的有效性, 在標(biāo)準(zhǔn)軸承故障數(shù)據(jù)集和從實(shí)際操作臺(tái)上采集的軸承數(shù)據(jù)集上進(jìn)行可視化結(jié)果分析、 量化聚類(lèi)分析、 不同度量方法的對(duì)比實(shí)驗(yàn)及精度對(duì)比實(shí)驗(yàn), 并分析各項(xiàng)實(shí)驗(yàn)結(jié)果.

        3.1 數(shù)據(jù)集

        實(shí)驗(yàn)采用的數(shù)據(jù)集1為國(guó)美凱斯西儲(chǔ)大學(xué)(CWRU)軸承數(shù)據(jù)中心網(wǎng)站上的應(yīng)用于故障診斷基準(zhǔn)數(shù)據(jù)的數(shù)據(jù)集, 該軸承數(shù)據(jù)集包括正常狀態(tài)、 滾珠狀態(tài)、 內(nèi)圈故障和外圈故障4種類(lèi)型的數(shù)據(jù), 其中每種數(shù)據(jù)包含100個(gè)樣本. 故障軸承直徑為0.017 78 cm, 采樣頻率為12 kHz, 電機(jī)轉(zhuǎn)速為1 720 r/min, 截取1 024個(gè)特征作為樣本數(shù)據(jù), 即維數(shù)為1 024.

        數(shù)據(jù)集2(DATA2)為東北石油大學(xué)智能儀器研發(fā)中心實(shí)驗(yàn)室自采數(shù)據(jù)集, 振動(dòng)信號(hào)由加速度計(jì)和模擬量采集模塊采集, 如圖3所示. 采樣頻率為1 kHz, 電機(jī)速度為1 400 r/min, 數(shù)據(jù)維數(shù)為1 024.

        圖3 數(shù)據(jù)采集平臺(tái)Fig.3 Data acquisition platform

        3.2 可視化結(jié)果

        第一組實(shí)驗(yàn)將ILLE算法與局部切空間排列算法(LTSA)、 LLE算法和主成分分析算法(PCA)3種降維算法在CWRU數(shù)據(jù)集中進(jìn)行可視化比較, 實(shí)驗(yàn)結(jié)果如圖4所示, 其中紅點(diǎn)表示正常數(shù)據(jù), 綠點(diǎn)表示內(nèi)圈故障數(shù)據(jù), 藍(lán)點(diǎn)表示滾珠故障數(shù)據(jù), 黑點(diǎn)表示外圈故障數(shù)據(jù).

        圖4 不同降維方法的可視化結(jié)果Fig.4 Visualization results of different dimensionality reduction methods

        由圖4可見(jiàn), LLE和LTSA算法在特征選擇上有較大重疊, 而PCA算法雖然分類(lèi)效果顯著, 但是類(lèi)內(nèi)距離較大, 聚類(lèi)效果較差. ILLE算法綜合結(jié)果優(yōu)于其他3種算法, 在聚類(lèi)和分類(lèi)效果上都有更好的表現(xiàn).

        3.3 量化聚類(lèi)評(píng)價(jià)

        本文使用Fisher準(zhǔn)則[24]對(duì)所提方法進(jìn)行定量分析. Fisher判據(jù)是一種比較兩個(gè)變分級(jí)數(shù)方差的靜態(tài)方法, 其定義如下:

        其中Sb和Sw分別表示類(lèi)間和類(lèi)內(nèi)的距離.F值越大, 對(duì)應(yīng)算法的性能越好.

        本組實(shí)驗(yàn)選取LLE算法、 LE(Laplacian Eignmaps)算法、 線性判別分析(LDA)算法和PCA算法與ILLE算法作為對(duì)比算法, 分別在CWRU數(shù)據(jù)集和DATA2數(shù)據(jù)集上進(jìn)行性能比較, 實(shí)驗(yàn)結(jié)果列于表1, 其中F1表示通過(guò)CWRU數(shù)據(jù)集評(píng)測(cè)的結(jié)果,F2表示通過(guò)DATA2數(shù)據(jù)集測(cè)評(píng)的結(jié)果. 由表1可見(jiàn), ILLE算法的F1值在CWRU數(shù)據(jù)集上遠(yuǎn)大于其他4種對(duì)比算法, 具有良好的聚類(lèi)效果. 在數(shù)據(jù)集DATA2中, PCA算法F2值大于LLE,LE和LDA算法, 但略低于ILLE算法. ILLE算法在兩個(gè)數(shù)據(jù)集上都具有良好的聚類(lèi)效果, 證明了本文方法的有效性.

        表1 定量聚類(lèi)評(píng)價(jià)結(jié)果

        3.4 不同度量方法對(duì)比實(shí)驗(yàn)

        實(shí)驗(yàn)對(duì)比LLE算法在使用各距離度量方法上的差異, 并與信息熵度量進(jìn)行比較, 實(shí)驗(yàn)結(jié)果如圖5所示. 由圖5可見(jiàn): 在使用Manhattan距離和Chebyshev距離度量時(shí), 數(shù)據(jù)的聚類(lèi)和分類(lèi)效果均較差, 數(shù)據(jù)分散且混亂; 在采用歐氏距離時(shí), 雖然聚類(lèi)性有所提高, 但分類(lèi)情況也不是很好, 有較多的重疊情況; 而使用信息熵作為度量, 分類(lèi)性和聚類(lèi)性均優(yōu)于其他算法, 適合特征提取, 證明了本文算法的有效性.

        圖5 不同度量方法的實(shí)驗(yàn)結(jié)果對(duì)比Fig.5 Comparison of experimental results of different measurement methods

        3.5 精度對(duì)比實(shí)驗(yàn)

        在本組實(shí)驗(yàn)中, 分別在CWRU和DATA2兩個(gè)數(shù)據(jù)集上進(jìn)行算法性能對(duì)比. 先將數(shù)據(jù)集通過(guò)預(yù)處理后得到的29維特征作為原始輸入, 然后引入ILLE算法中實(shí)現(xiàn)特征的降維, 最后利用SVM構(gòu)建故障診斷模型, 實(shí)驗(yàn)結(jié)果如圖6所示. 由圖6可見(jiàn), 在CWRU數(shù)據(jù)集上通過(guò)與PCA和LLE算法相比較, 發(fā)現(xiàn)在任何特征數(shù)目下, ILLE算法都是識(shí)別精度最高的; 而在DATA2數(shù)據(jù)集上, 雖然ILLE和PCA算法在特征數(shù)目為26~29時(shí), 識(shí)別精度非常接近, 但整體上ILLE算法的識(shí)別精度非常穩(wěn)定并較好, 表明經(jīng)過(guò)ILLE方法降維后的特征可較好地表現(xiàn)原始高維輸入.

        圖6 不同維數(shù)約簡(jiǎn)算法在CWRU數(shù)據(jù)集(A)和DATA2數(shù)據(jù)集(B)上的識(shí)別精度對(duì)比結(jié)果Fig.6 Comparison results of recognition accuracy of different dimension reduction algorithms on CWRU dataset (A) and DATA2 dataset (B)

        綜上所述, 本文提出了一種基于信息熵度量的局部線性嵌入方法, 通過(guò)統(tǒng)計(jì)每個(gè)樣本的類(lèi)混亂程度構(gòu)建樣本鄰域結(jié)構(gòu), 該方法避免了非對(duì)齊數(shù)據(jù)給鄰域選擇帶來(lái)的影響. 將本文算法應(yīng)用到CWRU數(shù)據(jù)集和東北石油大學(xué)的自采數(shù)據(jù)集中, 得到的結(jié)果與其他降維算法進(jìn)行比較, 具有更直觀的可視化結(jié)果和更高的類(lèi)間類(lèi)內(nèi)比, 證明了本文算法的有效性.

        猜你喜歡
        實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        記住“三個(gè)字”,寫(xiě)好小實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        夜夜高潮夜夜爽国产伦精品| 亚洲一区二区视频蜜桃| 国产一区二区熟女精品免费| 久久亚洲av无码精品色午夜| 精品无码一区在线观看 | 久久国产影视免费精品| 日韩伦理av一区二区三区| 水蜜桃在线观看一区二区| 精精国产xxxx视频在线播放| 青春草国产视频| 日本岛国视频在线观看一区二区| 综合国产婷婷精品久久99之一| 无码不卡av东京热毛片| 国产aⅴ夜夜欢一区二区三区| 一区二区免费中文字幕| 精品高朝久久久久9999| 男人添女人下部高潮全视频| 香蕉视频免费在线| 永久免费看黄网站性色| 日韩午夜福利无码专区a| 日日碰狠狠丁香久燥| 国产美女被遭强高潮露开双腿 | 亚洲精品国产电影| 熟妇人妻无乱码中文字幕 | 精品无码久久久九九九AV| 风间由美中文字幕在线| 精品+无码+在线观看| 久久久久亚洲精品天堂| 亚洲色欲色欲欲www在线| 国产亚洲午夜精品久久久| 美女把尿囗扒开让男人添| 国产真人无遮挡免费视频| 国产三级一区二区三区在线观看 | 免费AV一区二区三区无码| 在线免费午夜视频一区二区| 久久久精品国产免大香伊| 久久发布国产伦子伦精品| 无码中文字幕专区一二三| 中文字幕精品亚洲字幕| 国产精品欧美一区二区三区| 久久频精品99香蕉国产|