亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)學建模中的高維數(shù)據(jù)挖掘技術(shù)優(yōu)化研究

        2017-12-14 07:29:29
        計算機測量與控制 2017年9期
        關(guān)鍵詞:相空間高維信息流

        (晉中職業(yè)技術(shù)學院,山西 晉中 030600)

        數(shù)學建模中的高維數(shù)據(jù)挖掘技術(shù)優(yōu)化研究

        閆婷婷

        (晉中職業(yè)技術(shù)學院,山西晉中030600)

        高維數(shù)據(jù)挖掘由于特征空間占用開銷較大,挖掘的復雜度較高,挖掘精度不高,為了提高對高維數(shù)據(jù)挖掘的準確性能,提出一種基于相空間重構(gòu)和K-L變換特征壓縮的高維數(shù)據(jù)挖掘數(shù)學建模方法;采用集成學習技術(shù),對高維數(shù)據(jù)信息流進行相空間重構(gòu)處理,考慮類間的數(shù)據(jù)不平衡性,求得高維數(shù)據(jù)的關(guān)聯(lián)維特征參量,根據(jù)數(shù)據(jù)的鏈距離進行稀疏性融合,計算高維數(shù)據(jù)流模型的最大Lyapunove指數(shù)譜,根據(jù)譜分析方法實現(xiàn)數(shù)據(jù)聚類,對聚類后的數(shù)據(jù)采用K-L特征壓縮方法進行降維處理,降低數(shù)據(jù)挖掘的內(nèi)存及計算開銷;仿真結(jié)果表明,采用該方法進行高維數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的準確概率較高,占用內(nèi)存消耗較少,計算開銷較小。

        數(shù)學建模;高維數(shù)據(jù);挖掘;特征壓縮;數(shù)據(jù)聚類

        0 引言

        大數(shù)據(jù)信息處理是網(wǎng)絡(luò)技術(shù)發(fā)展需要面對的關(guān)鍵性問題,數(shù)據(jù)信息處理包括數(shù)據(jù)挖掘、數(shù)據(jù)聚類、數(shù)據(jù)融合和數(shù)據(jù)存儲,其中,數(shù)據(jù)挖掘是實現(xiàn)數(shù)據(jù)庫訪問和網(wǎng)絡(luò)信息傳輸?shù)幕A(chǔ),通過數(shù)據(jù)挖掘,提取數(shù)據(jù)信息流的有用特征,滿足用戶在數(shù)據(jù)檢索中的個性化需求。在網(wǎng)絡(luò)的云存儲空間中,為了降低存儲開銷,數(shù)據(jù)多以高維狀態(tài)形式存儲,對高維數(shù)據(jù)的有效挖掘,為了網(wǎng)絡(luò)技術(shù)發(fā)展和信息傳輸提供高效、個性化、高增值率的應用服務,研究高維數(shù)據(jù)挖掘方法在計算機信息處理領(lǐng)域具有基礎(chǔ)性的應用價值[1]。

        數(shù)據(jù)挖掘在于從海量數(shù)據(jù)中挖掘出有效的信息特征參量,因此數(shù)據(jù)挖掘的過程也是對大數(shù)據(jù)信息流的特征提取過程,傳統(tǒng)方法中,對數(shù)據(jù)挖掘方法的研究主要歸為以下幾類:基于統(tǒng)計信息處理方法[2]、基于信息融合聚類分析方法、基于信息檢索挖掘方法、基于數(shù)據(jù)集的分布規(guī)律差異性分析方法、基于網(wǎng)格分布式計算方法等[3]。上述方法通過提取數(shù)據(jù)集符合某種統(tǒng)計規(guī)律的特征信息,結(jié)合相關(guān)的數(shù)據(jù)檢索和幾何學分析方法,利用數(shù)據(jù)對特征空間分布維度的敏感性,實現(xiàn)數(shù)據(jù)挖掘,從而針對性地研究數(shù)據(jù)的分布規(guī)律,提高挖掘的精度和效率,取得了一定的研究成果。其中,文獻[4]中提出一種基于Kullback-Leiber距離遷移仿射聚類的云高維數(shù)據(jù)并行計算方法,對數(shù)據(jù)信息流進行互信息特征提取,基于數(shù)據(jù)并行調(diào)度的塊匹配方法實現(xiàn)數(shù)據(jù)挖掘,具有較好的挖掘準確度,但是該方法在處理高維數(shù)據(jù)挖掘時沒有進行降維處理,導致計算復雜度較高,實時性不好;文獻[5]中提出一種基于聚類劃分的高效用模式并行挖掘算法,對高維數(shù)據(jù)信息流進行互信息特征提取,通過融合異構(gòu)特征的子空間遷移學習算法進行聚類分析,實現(xiàn)高維數(shù)據(jù)的并行挖掘,提高了計算速度,該方法存在的問題是抗干擾能力不強,在面對批量數(shù)據(jù)處理時容易出現(xiàn)測量誤差。針對上述問題,本文提出一種基于相空間重構(gòu)和K-L變換特征壓縮的高維數(shù)據(jù)挖掘數(shù)學建模方法。首先采用集成學習技術(shù)對高維數(shù)據(jù)信息流進行相空間重構(gòu)處理,然后提取高維數(shù)據(jù)的關(guān)聯(lián)維特征參量,根據(jù)數(shù)據(jù)的鏈距離進行稀疏性融合,計算高維數(shù)據(jù)流模型的最大Lyapunove指數(shù)譜,對聚類后的數(shù)據(jù)采用K-L特征壓縮方法進行降維處理,最后通過仿真實驗進行了性能測試分析,得出有效性結(jié)論。

        1 高維數(shù)據(jù)信息流相空間重構(gòu)及特征提取

        1.1 數(shù)據(jù)信息流的相空間重構(gòu)

        為了實現(xiàn)對高維數(shù)據(jù)挖掘的數(shù)學建模,針對高維數(shù)據(jù)的特征維度高的特性,需要采用非線性時間序列分析方法進行高維特征空重構(gòu),首先采用集成學習技術(shù)對高維數(shù)據(jù)信息流進行相空間重構(gòu)處理,在高維空間構(gòu)成系統(tǒng)的相空間,相空間的一個點代表數(shù)據(jù)分布的一組特征向量,一個子集A稱為吸引子,存在A的一個鄰域在數(shù)據(jù)的分布初始條件存在微小差別下,使高維相空間中的數(shù)據(jù)聚類中心軌道收縮成吸引子,一旦出現(xiàn)數(shù)據(jù)異常,數(shù)據(jù)之間的高度隨機性將會出現(xiàn)局部收斂,這成為高維數(shù)據(jù)特征分布的偽隨機特性和分形性,高維數(shù)據(jù)在相空間中具有分形特性,體現(xiàn)在如下幾個方面[6]:

        1)高維數(shù)據(jù)的分形結(jié)構(gòu)之間本身具有確定性和獨立性,點的分布式零落散亂,數(shù)據(jù)特征的分形集存在任意小比例的細節(jié),會導致數(shù)據(jù)的特征分布具有很強的不規(guī)則性,出現(xiàn)類間不平衡;

        2)數(shù)據(jù)在最優(yōu)類分布模式下,以總體分類精度為學習目標進行信息融合和數(shù)據(jù)聚類,最優(yōu)類代表樣例存在特征差異性,導致在采用傳統(tǒng)的線性時間序列分析方法出現(xiàn)額外的學習代價;

        3)從算法處理效率和數(shù)據(jù)處理精度方面考慮,根據(jù)數(shù)據(jù)的分形特性,將高維數(shù)據(jù)映射到高維相空間中進行非線性處理,能降低計算開銷,在高維相空間中,可以通過分形維數(shù)去測量數(shù)據(jù)特征分布的不平滑、不規(guī)則性,結(jié)合關(guān)聯(lián)維分析和Lyapunove指數(shù)譜提取,實現(xiàn)數(shù)據(jù)挖掘。

        由此可見,通過對高維數(shù)據(jù)信息流相空間重構(gòu),構(gòu)造一個輔助的相空間,從時間序列出發(fā)創(chuàng)建一個多維狀態(tài)空間,結(jié)合統(tǒng)計特征分析方法求得數(shù)據(jù)屬性狀態(tài)及幾何不變量,這些幾何不變量包括不動點的特征值等,以此為信息素進行數(shù)據(jù)挖掘和聚類處理,根據(jù)上述分析原理,進行高維數(shù)據(jù)挖掘數(shù)學建模的第一步就是進行相空間重構(gòu),根據(jù)Takens. F和R. Mane的延遲嵌入定理[7-8],進行高維數(shù)據(jù)相空間重構(gòu)建模,首先給出高維數(shù)據(jù)的信息流模型為:

        (1)

        式中,wnk是吸引子的分維數(shù),v(t)為加性高斯白噪聲,由非線性差分方程描述高維數(shù)據(jù)挖掘數(shù)學模型在時刻n或t的狀態(tài)向量,數(shù)據(jù)的幾何特征分布表示為相空間S里的一個點。構(gòu)建多元數(shù)量值函數(shù),在時滯約束向量下得到相空間愛特征分布半正定最小特征解滿足:

        (2)

        (3)

        0≤[yT(t)∑TT∑y(t)-fT(y(t))Tf(y(t))]+

        [-yT(t)U∑1y(t)+2yT(t)U∑2f(y(t))-fT(y(t))Uf(y(t))]+

        [-yT(t-σ)V∑1y(t-σ)+2yT(t-σt)V∑2f(y(t-σ))-

        -fT(y(t-σ))Vf(y(t-σ))]

        (4)

        (5)

        根據(jù)上述對高維數(shù)據(jù)的非線性時間序列分析和相空間重構(gòu)結(jié)果,進行特征提取和數(shù)據(jù)挖掘數(shù)學建模。

        1.2 數(shù)據(jù)屬性特征提取

        在上述進行了高維數(shù)據(jù)相空間重構(gòu)的基礎(chǔ)上,考慮類間的數(shù)據(jù)不平衡性,求得反映高維數(shù)據(jù)屬性類別的關(guān)聯(lián)維特征參量[9],根據(jù)對數(shù)據(jù)傳輸可靠性的要求,利用簡單的狀態(tài)空間模型進行數(shù)據(jù)特征分布的相互關(guān)聯(lián)或相似程度建模,得到數(shù)據(jù)采樣點特征量J1(Wi)可以寫為:

        tr(WiTH1Wi)

        (6)

        式中,

        (7)

        其中:H1表示高維數(shù)據(jù)分布隨機過程的相互關(guān)聯(lián),tr(.)表示數(shù)據(jù)特征分布子帶信息分布軌跡,Airp為數(shù)據(jù)采樣的時間跨度。根據(jù)連續(xù)均勻遍歷,考慮類間的數(shù)據(jù)不平衡性[10],求得高維數(shù)據(jù)的關(guān)聯(lián)維特征參量為:

        tr(WiTH2Wi)

        (8)

        式中,

        (9)

        其中:xir表示主成分特征分量,xirq為模糊核,Birq為稀疏性分布狀態(tài)值,W為數(shù)據(jù)的鏈距離,根據(jù)數(shù)據(jù)的鏈距離進行稀疏性融合處理,結(jié)合特征壓縮方法降低數(shù)據(jù)挖掘的負載。

        2 數(shù)據(jù)挖掘優(yōu)化數(shù)學建模

        2.1 最大Lyapunove指數(shù)譜計算

        在對高維數(shù)據(jù)信息流相空間重構(gòu)及特征提取的基礎(chǔ)上,進行數(shù)據(jù)挖掘數(shù)學模型優(yōu)化設(shè)計,本文提出一種基于相空間重構(gòu)和K-L變換特征壓縮的高維數(shù)據(jù)挖掘數(shù)學建模方法。根據(jù)數(shù)據(jù)的鏈距離進行稀疏性融合,考慮數(shù)據(jù)的離群因子,得到數(shù)據(jù)的稀疏性表達式為:

        (10)

        其中,ux和uy為數(shù)據(jù)對象的二維幾何矩,C1表示輸出數(shù)據(jù)序列的不變矩。采用Radon尺度變換在高維相空間中計算最大Lyapunove指數(shù)為:

        (11)

        式中,r1表示數(shù)據(jù)序列尺度信息分解維數(shù),r2表示先驗點簇,σ1表示邊緣相關(guān)性約束向量,N1為仿射不變矩。

        利用數(shù)據(jù)集的相似k距離鄰居序列的尺度不變性,根據(jù)譜分析方法實現(xiàn)數(shù)據(jù)聚類,得到聚類目標函數(shù)為:

        (12)

        其中:J(w,e)為數(shù)據(jù)對象的分塊約束向量,ai為相空間所有對象的一個排列,φ(xi)為噪聲敏感系數(shù)。

        2.2 數(shù)據(jù)挖掘的K-L特征壓縮

        采用最大Lyapunove指數(shù)譜特征矩陣的奇異值分解方法,設(shè)A∈Rn×m,得到挖掘的數(shù)據(jù)信息特征的K-L變換式為:

        (13)

        其中:誤差項e滿足相似k距離鄰居分布,對高維數(shù)據(jù)的最大Lyapunove指數(shù)平進行奇異值分解[11],通過特征壓縮,將K-L變換式改寫矩陣形式為:

        Y=Xβ+e

        (14)

        (15)

        最后采用自適應學習方法進行誤差修正,實現(xiàn)數(shù)據(jù)優(yōu)化挖掘的并行處理[12-13],進行高維數(shù)據(jù)挖掘的并行計算。

        2.3 數(shù)據(jù)挖掘?qū)崿F(xiàn)步驟

        綜上分析,得到高維數(shù)據(jù)挖掘的優(yōu)化實現(xiàn)步驟描述為:

        1)設(shè)置挖掘的初始迭代次數(shù)為I=0,參數(shù)初始化;

        2)對全部物理機路徑上的數(shù)據(jù)點進行初始化,進行相空間重構(gòu);

        3)分配虛擬機,利用集成學習方法進行測試樣本訓練;

        4)完成所有虛擬機的分配后,遍歷每個數(shù)據(jù)點,利用公式(13)計算數(shù)據(jù)點的鏈距離,執(zhí)行局部信息更新;

        5)利用公式(15)進行K-L特征壓縮和數(shù)據(jù)降維處理,在最優(yōu)分配方案下進行數(shù)據(jù)聚類,執(zhí)行全局信息素的更新。

        6)假設(shè)當前挖掘次數(shù)Ilt;Imax,則I=I+1,并跳轉(zhuǎn)到過程(2),反之跳轉(zhuǎn)到步驟(7);

        7)結(jié)束挖掘,輸出最優(yōu)分配方案,得到最優(yōu)挖掘結(jié)果。

        3 仿真實驗分析

        為了測試本文方法在實現(xiàn)高維數(shù)據(jù)挖掘中的表現(xiàn)性能,進行仿真實驗和性能分析,實驗硬件配置環(huán)境為:操作系統(tǒng)Windows7,Intel(R) Core(TM)2 Duo CPU E7400 2.80 GHz,4 GB RAM,硬盤:500 G,軟件為Matlab 7。實驗所用的高維數(shù)據(jù)樣本為兩個大數(shù)據(jù)集,其中,CSLOGS數(shù)據(jù)集表示測試數(shù)據(jù)集,數(shù)據(jù)規(guī)模為2 000 GB, TEST set 數(shù)據(jù)集為訓練數(shù)據(jù)集,數(shù)據(jù)規(guī)模為1 000 Mbit,子塊分區(qū)大小為5.24 Mbit,相空間重構(gòu)的嵌入維數(shù)m=4,時間延遲τ=11,數(shù)據(jù)采樣的頻率為12 KHz,采樣間隔為1.25 s,數(shù)據(jù)的干擾信噪比-10~0 dB,根據(jù)上述仿真環(huán)境和參量設(shè)定,進行數(shù)據(jù)挖掘仿真分析,首先進行原始數(shù)據(jù)采樣,得到采樣結(jié)果如圖1所示。

        圖1 高維數(shù)據(jù)信息流時域波形

        以圖1所給出的高維數(shù)據(jù)采樣樣本為測試對象,提取最大Lyapunove指數(shù)譜,進行數(shù)據(jù)聚類和特征壓縮處理,得到譜特征提取結(jié)果如圖2所示。

        圖2 最大Lyapunove指數(shù)譜特征提取結(jié)果

        分析圖2結(jié)果得知,采用本文方法進行高維數(shù)據(jù)挖掘,能從受到較大污染的數(shù)據(jù)序列樣本中挖掘到有用的信息特征,挖掘的抗干擾能力較強。圖3和圖4給出了采用本文方法和傳統(tǒng)方法進行數(shù)據(jù)挖掘的準確性和運行開銷對比結(jié)果,分析得知,采用本文方法進行高維數(shù)據(jù)挖掘的準確度較高,因為進行了特征壓縮,所以運行開銷較小,綜合表現(xiàn)性能較優(yōu)。

        4 結(jié)束語

        本文研究的高維數(shù)據(jù)的優(yōu)化挖掘問題,提出一種基于相空

        圖3 挖掘準確性對比

        圖4 運行時間對比

        間重構(gòu)和K-L變換特征壓縮的高維數(shù)據(jù)挖掘數(shù)學建模方法,首先采用非線性時間序列分析方法進行高維特征空重構(gòu),求得反映高維數(shù)據(jù)屬性類別的關(guān)聯(lián)維特征參量,然后利用簡單的狀態(tài)空間模型進行數(shù)據(jù)特征分布的相互關(guān)聯(lián)或相似程度建模,求得最大Lyapunove指數(shù)譜特征,通過K-L特征壓縮器進行高維數(shù)據(jù)壓縮,采用自適應學習方法進行誤差修正,實現(xiàn)數(shù)據(jù)優(yōu)化挖掘的并行處理。研究得知,本文方法進行數(shù)據(jù)挖掘的精度較高,抗干擾性較強,運行時間較短,總體性能占優(yōu)。

        [1] Mernik M, Liu S H, Karaboga M D, et al. On clarifying misconceptions when comparing variants of the Artificial Bee Colony Algorithm by offering a new implementation[J]. Information Sciences, 2015, 29 (10): 115-127.

        [2] Hsieh T J. A bacterial gene recombination algorithm for solving constrained optimization problems[J]. Applied Mathematics and Computation, 2014, 23 (15): 187-204.

        [3] Long M, Wang J, Ding G, et al. Adaptation regularization: A general framework for transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(5): 1076-1089.

        [4] 畢安琪,王士同. 基于Kullback-Leiber距離的遷移仿射聚類算法[J]. 電子與信息學報, 2016, 38(8): 2076-2084.

        [5] 邢淑凝, 劉方愛, 趙曉暉. 基于聚類劃分的高效用模式并行挖掘算法[J]. 計算機應用, 2016, 36(8): 2202-2206.

        [6] 鄧志剛, 曾國蓀, 譚云蘭, 等. 云存儲內(nèi)容分發(fā)網(wǎng)絡(luò)中的能耗優(yōu)化方法[J]. 計算機應用, 2016, 36(6): 1515-1519.

        [7] 陸興華,李國恒,余文權(quán). 基于模糊C均值聚類的科研管理數(shù)據(jù)庫調(diào)度算法[J]. 計算機與數(shù)字工程, 2016,44(6): 1011-1015.

        [8] 畢安琪, 董愛美, 王士同. 基于概率和代表點的數(shù)據(jù)流動態(tài)聚類算法[J]. 計算機研究與發(fā)展, 2016, 13(5): 1029-1042.

        [9] 趙國榮,韓 旭,杜聞捷,等. 具有傳感器增益退化的不確定系統(tǒng)融合估計器[J]. 控制與決策, 2016, 31(8): 1413-1418.

        [10] 張 濤,唐振民,呂建勇. 一種基于低秩表示的子空間聚類改進算法[J]. 電子與信息學報, 2016, 38(11): 2811-2818.

        [11] Patel V M, Nguyen H V, Vidal R. Latent space sparse and low-rank subspace clustering[J]. IEEE Journal of Selected Topics in Signal Processing, 2015, 9(4): 691-701.

        [12] 唐 杰,徐 波,宮中樑,等.一種基于CUDA的三維點云快速光順算法[J].系統(tǒng)仿真學報,2012,24(8):1633-1638.

        [13] 周 煜,張萬冰,杜發(fā)榮,等.散亂點云數(shù)據(jù)的曲率精簡算法[J].北京理工大學學報,2010,30(7):785-790.

        ResearchonOptimizationofHighDimensionalDataMininginMathematicalModeling

        Yan Tingting

        (Jinzhong Vocationalamp;Technical College,Jinzhong 030600,China)

        High dimensional data mining due to the characteristics of the space occupied large overhead mining, high complexity, mining precision is not good, in order to improve the accuracy of performance on high dimensional data mining, this paper brings forward a mining method of mathematical modeling of phase space reconstruction and K-L transform features of high dimensional data based on compression. The ensemble learning technique to reconstruct the phase space of high dimensional data flow, considering the inter class data imbalance, the correlation dimension of the characteristic parameters of high dimensional data, according to the chain distance data sparsity fusion, maximum Lyapunove computation of high dimensional data stream model refers to the number of spectra, the spectral analysis method of data after clustering, clustering of data using K-L feature dimension compression method, reduce the memory and computation overhead of data mining. The simulation results show that the method has high accuracy, less memory consumption and less computation cost.

        mathematical modeling; high dimensional data; mining; feature compression; data clustering

        2017-03-06;

        2017-03-24。

        閆婷婷(1983-),女,山西晉中人,研究生,講師,主要從事數(shù)學與應用數(shù)學方向的研究。

        1671-4598(2017)09-0158-03

        10.16526/j.cnki.11-4762/tp.2017.09.041

        TP391

        A

        猜你喜歡
        相空間高維信息流
        束團相空間分布重建技術(shù)在西安200 MeV質(zhì)子應用裝置的應用
        基于信息流的作戰(zhàn)體系網(wǎng)絡(luò)效能仿真與優(yōu)化
        基于信息流的RBC系統(tǒng)外部通信網(wǎng)絡(luò)故障分析
        一種改進的GP-CLIQUE自適應高維子空間聚類算法
        戰(zhàn)區(qū)聯(lián)合作戰(zhàn)指揮信息流評價模型
        基于加權(quán)自學習散列的高維數(shù)據(jù)最近鄰查詢算法
        電信科學(2017年6期)2017-07-01 15:44:37
        非對易空間中的三維諧振子Wigner函數(shù)
        一般非齊次非線性擴散方程的等價變換和高維不變子空間
        基于任務空間的體系作戰(zhàn)信息流圖構(gòu)建方法
        基于相空間重構(gòu)的電磁繼電器電性能參數(shù)預測研究
        亚洲精品无码av人在线观看| 日韩av中文字幕一卡二卡| 国产av一区二区三区天美| 综合图区亚洲另类偷窥| 疯狂撞击丝袜人妻| 国产亚洲欧美日韩综合一区在线观看| 亚洲综合一区无码精品| 亚洲性69影视| 国产av区亚洲av毛片| 亚洲av高清天堂网站在线观看 | 欧美色欧美亚洲另类二区| 人人妻人人澡av天堂香蕉| 亚洲成av人无码免费观看| 一区二区三区视频在线免费观看| 91国产精品自拍视频| 欧美顶级少妇作爱| 国产乱人伦在线播放| 99JK无码免费| 国产丝袜长腿在线看片网站| 我要看免费久久99片黄色| 国产精品自在拍在线拍| 福利在线国产| 亚洲AV秘 无套一区二区三区| 人妻少妇偷人精品一区二区三区| 亚洲精品中文幕一区二区| 亚洲经典三级| 色窝窝手在线视频| 成人性生交大全免费看| 体验区试看120秒啪啪免费| 夜夜高潮夜夜爽夜夜爱爱| 亚洲av在线播放观看| 91亚洲免费在线观看视频| 日产精品久久久一区二区| 精品乱码久久久久久中文字幕| 厕所极品偷拍一区二区三区视频| 少妇被猛烈进入中文字幕| 亚州性无码不卡免费视频| 午夜精品一区二区三区的区别| 国产一级黄色录像| 国产黄色一级大片一区二区 | 精品黑人一区二区三区久久hd|