亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)反向傳播的稀疏數(shù)據(jù)特征提取

2022-06-14 09:49:52秦利娟馮乃勤

計(jì)算機(jī)仿真 2022年5期

秦利娟，馮乃勤

(1. 鄭州工業(yè)應(yīng)用技術(shù)學(xué)院信息工程學(xué)院，河南鄭州451150；2. 河南師范大學(xué)，河南新鄉(xiāng)453007)

1 引言

伴隨互聯(lián)網(wǎng)發(fā)展，人們可以通過數(shù)據(jù)提取技術(shù)來獲取更多有價(jià)值的信息。數(shù)據(jù)提取是指從數(shù)據(jù)集中抽取數(shù)據(jù)對(duì)其進(jìn)行分析，找出數(shù)據(jù)集中潛在的信息，以及完成抽取數(shù)據(jù)的其它過程。當(dāng)前數(shù)據(jù)大多以文本形式存在，怎樣對(duì)文本數(shù)據(jù)進(jìn)行有效地利用與管理，從中獲取有價(jià)值的數(shù)據(jù)信息，是現(xiàn)階段研究的熱點(diǎn)話題之一。

近幾年，越來越多的科研人員投入到數(shù)據(jù)分析工作中。文獻(xiàn)[1]分別通過相空間重構(gòu)方法和非線性統(tǒng)計(jì)序列分析方法對(duì)數(shù)據(jù)的特征進(jìn)行重構(gòu)與重組，采用特征提取技術(shù)對(duì)特征向量高維稀疏數(shù)據(jù)的平均信息進(jìn)行抽取，利用深度學(xué)習(xí)方法對(duì)數(shù)據(jù)尋優(yōu)，實(shí)現(xiàn)高維稀疏數(shù)據(jù)的提取。該算法對(duì)數(shù)據(jù)的識(shí)別性較好，但在數(shù)據(jù)的分級(jí)推薦方面需要做進(jìn)一步研究。文獻(xiàn)[2]對(duì)多維度的粗糙數(shù)據(jù)進(jìn)行降維處理，為了消除數(shù)據(jù)的未知性，對(duì)數(shù)據(jù)的動(dòng)態(tài)進(jìn)行調(diào)整，采用將數(shù)據(jù)轉(zhuǎn)入精確幾何空間集的方法。該算法數(shù)據(jù)提取的精度很高，但數(shù)據(jù)提取的延時(shí)較長(zhǎng)。文獻(xiàn)[3]為了解決數(shù)據(jù)結(jié)構(gòu)的局限性，在保留原有數(shù)據(jù)訓(xùn)練參數(shù)的情況下，對(duì)向量空間進(jìn)行擴(kuò)展，并根據(jù)新數(shù)據(jù)調(diào)整參數(shù)，完成對(duì)新數(shù)據(jù)的學(xué)習(xí)，該算法具有較好的實(shí)用性，但存在明顯的局限性。

由于數(shù)據(jù)本身具有稀疏和高維度等特點(diǎn)，采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行提取，會(huì)造成高維稀疏數(shù)據(jù)中存在噪聲，因此傳統(tǒng)方法不能很好的解決數(shù)據(jù)提取問題[4]。本文針對(duì)稀疏數(shù)據(jù)，引入深度學(xué)習(xí)反向傳播的方法對(duì)數(shù)據(jù)特征進(jìn)行提取。該方法中通過深度學(xué)習(xí)算法對(duì)稀疏數(shù)據(jù)進(jìn)行處理，并且通過Softmax實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類，最后結(jié)合反向傳播方法對(duì)數(shù)據(jù)結(jié)果進(jìn)行微調(diào)。

2 稀疏數(shù)據(jù)體系結(jié)構(gòu)與提取

2.1 稀疏數(shù)據(jù)體系結(jié)構(gòu)

為了實(shí)現(xiàn)對(duì)稀疏數(shù)據(jù)的提取，結(jié)合稀疏數(shù)據(jù)分布式結(jié)構(gòu)，將稀疏數(shù)據(jù)體系分別建立在Web和分散式社會(huì)網(wǎng)絡(luò)的基礎(chǔ)上[5]。稀疏數(shù)據(jù)的模型圖用二元有向圖A=(B，C)表示，B表示數(shù)據(jù)模型圖頂點(diǎn)集合，C表示稀疏數(shù)據(jù)在有限區(qū)間內(nèi)所有邊界的集合。稀疏數(shù)據(jù)的Sink節(jié)點(diǎn)和傳輸節(jié)點(diǎn)的相軌跡間距分別用歐式距離表示，在初始鏈路模型下可以得出稀疏數(shù)據(jù)的拓?fù)淠Ｐ?。如圖1所示。

圖1 稀疏數(shù)據(jù)拓?fù)淠Ｐ?/p>

在稀疏數(shù)據(jù)的存儲(chǔ)網(wǎng)絡(luò)中，模型有向圖向量加權(quán)系數(shù)用E={u，e1，e2，…，ek}表示，假設(shè)在稀疏數(shù)據(jù)覆蓋區(qū)域內(nèi)有M個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的傳輸層數(shù)據(jù)分別為x(k-1)，x(k-2)，…，x(k-M)，那么數(shù)據(jù)諧波分布節(jié)點(diǎn)的初始位置估計(jì)值用公式可表示為：

(1)

采用優(yōu)先級(jí)劃分方法，稀疏數(shù)據(jù)傳輸節(jié)點(diǎn)的模型可表示為

(2)

其中，α(t)表示虛擬節(jié)點(diǎn)的維數(shù)；ds＿s表示稀疏數(shù)據(jù)Source與Sink間的距離。采用相空間重構(gòu)結(jié)合非線性統(tǒng)計(jì)序列分析方法[6-7]對(duì)稀疏數(shù)據(jù)進(jìn)行重構(gòu)，重構(gòu)的結(jié)構(gòu)模型可表示為

(3)

其中，K表示稀疏數(shù)據(jù)特征空間維數(shù)；δ表示延時(shí)；n表示虛擬節(jié)點(diǎn)個(gè)數(shù)。通過對(duì)相空間的重構(gòu)，有利于提高稀疏數(shù)據(jù)特征提取性能。

2.2 稀疏數(shù)據(jù)特征提取

假設(shè)稀疏數(shù)據(jù)流的統(tǒng)計(jì)分布序列用{xorg＿1，xorg＿2，…，xorg＿M(jìn)}表示，x(m)表示為回歸分析的特征向量，對(duì)n維重構(gòu)相空間中的稀疏數(shù)據(jù)進(jìn)行云映射處理，得出稀疏數(shù)據(jù)的分布重組結(jié)構(gòu)式為

X(m)={x(m)，x(m+δ)，…，x(m+(n-1)δ)}

(4)

進(jìn)一步建立數(shù)據(jù)的狀態(tài)轉(zhuǎn)移模型，稀疏數(shù)據(jù)特征的評(píng)價(jià)概念集合用公式可表示為

(5)

結(jié)合云稀疏散亂點(diǎn)處理方法，可以求出稀疏數(shù)據(jù)的第i個(gè)散亂點(diǎn)集為Ji=(ji1，ji2，…，jiK)，采用數(shù)據(jù)的時(shí)隙分配模式，對(duì)稀疏數(shù)據(jù)的屬性混合值進(jìn)行迭代處理，公式可表示為

(6)

其中，xi(n)表示xi的范數(shù)。

3 深度學(xué)習(xí)提取模型

當(dāng)處理數(shù)量較多且相對(duì)復(fù)雜的聲音及文本等數(shù)據(jù)信息時(shí)，早期的神經(jīng)網(wǎng)絡(luò)所具有的特征局限性就顯得尤為明顯?？紤]到深層結(jié)構(gòu)的模型具有自適應(yīng)非線性等特征，非常適合對(duì)大規(guī)模數(shù)據(jù)的提取與建立，于是針對(duì)稀疏數(shù)據(jù)的提取問題，提出一種深度學(xué)習(xí)、Softmax和反向傳播算法相結(jié)合的方法。該方法中，深度學(xué)習(xí)完成稀疏數(shù)據(jù)中每?jī)蓚€(gè)相鄰神經(jīng)網(wǎng)絡(luò)層的配對(duì)工作，通過輸入層訓(xùn)練兩層間的權(quán)值參數(shù)，并構(gòu)建出輸出層。Softmax分類器完成稀疏數(shù)據(jù)的分類工作，反向傳播算法完成稀疏數(shù)據(jù)的調(diào)整和收斂工作。

圖2 Softmax分類器模型

在深度學(xué)習(xí)和Softmax算法中使用了無標(biāo)簽與部分?jǐn)?shù)據(jù)有標(biāo)簽相結(jié)合的訓(xùn)練模型，分別通過無標(biāo)簽和有標(biāo)簽數(shù)據(jù)完成對(duì)深度學(xué)習(xí)和Softmax回歸模型的訓(xùn)練。在模型中，輸入的樣本數(shù)據(jù)層為cin，深度學(xué)習(xí)對(duì)稀疏數(shù)據(jù)的降維結(jié)果輸出lout，通過訓(xùn)練Softmax模型可以得出初始的權(quán)值，有利于提高稀疏數(shù)據(jù)的收斂速度。若僅僅考慮Softmax模型的訓(xùn)練，若為k分類問題，且函數(shù)的輸出也是k維向量，函數(shù)參數(shù)為?par，那么Softmax模型的輸出形式可表示為

(7)

其中，?par包含Softmax模型的權(quán)值?par＿q＿ij和輸出偏置?par＿p＿j。Softmax模型通過訓(xùn)練可以提高稀疏數(shù)據(jù)分類的準(zhǔn)確率，在訓(xùn)練中采用最小化代價(jià)函數(shù)對(duì)模型的參數(shù)進(jìn)行修正，代價(jià)函數(shù)表示為

(8)

采用深度學(xué)習(xí)算法提取稀疏數(shù)據(jù)的特征量，從起始時(shí)間t0開始對(duì)特征量進(jìn)行統(tǒng)計(jì)，求出稀疏數(shù)據(jù)中時(shí)隙分配的信任值，公式表示為

(9)

其中：?∈(0，1]。綜上所述，通過深度學(xué)習(xí)算法可實(shí)現(xiàn)對(duì)稀疏數(shù)據(jù)的初步識(shí)別與提取。

4 反向傳播算法

反向傳播可以將學(xué)習(xí)網(wǎng)絡(luò)中的殘差傳輸?shù)捷斎雽又?，根?jù)誤差減小最快的方向?qū)訖?quán)系數(shù)進(jìn)行調(diào)整，直到獲取最佳的加權(quán)系數(shù)。調(diào)整的過程就是使系統(tǒng)模型的代價(jià)函數(shù)取值最小，調(diào)整過程中系統(tǒng)模型的代價(jià)函數(shù)類似于Softmax模型代價(jià)函數(shù)，用公式可表示為

(10)

理想的多類稀疏數(shù)據(jù)標(biāo)簽對(duì)應(yīng)信息為1，其余稀疏數(shù)據(jù)對(duì)應(yīng)信息為0，其標(biāo)簽形式可表示為z={0，…，0，1，0，…，0}T，為了對(duì)輸出的向量q與標(biāo)準(zhǔn)稀疏數(shù)據(jù)向量標(biāo)簽z之間的距離進(jìn)行度量，需定義置信度距離，公式表示為

(11)

其中，max(·)和max*(·)分別表示返回最大元素值與第二個(gè)最大值元素值；test(·)表示返回稀疏數(shù)據(jù)測(cè)試樣本對(duì)應(yīng)編號(hào)的元素值。樣本權(quán)重更新公式表示為

(12)

其中，Qt(i)表示第i個(gè)稀疏數(shù)據(jù)樣本在第t次迭代時(shí)的權(quán)重值；Wt表示歸一化因子；ξt表示第t個(gè)弱分類器對(duì)應(yīng)的權(quán)重值；為了避免難以分類的稀疏數(shù)據(jù)樣本權(quán)重值增長(zhǎng)較快，參數(shù)cons(·)取值范圍限制在[-1，1]之間。

從整個(gè)稀疏數(shù)據(jù)的訓(xùn)練集中選擇一些數(shù)據(jù)作為弱分類器的訓(xùn)練集，為了方便抽取樣本個(gè)數(shù)，先驗(yàn)概率質(zhì)量函數(shù)用稀疏數(shù)據(jù)的當(dāng)前樣本權(quán)重值表示，這樣不僅可以降低訓(xùn)練過程的復(fù)雜性，還可以保證各個(gè)弱分類器之間的相互獨(dú)立性。

5 仿真與結(jié)果分析

為了驗(yàn)證深度學(xué)習(xí)反向傳播算法對(duì)稀疏數(shù)據(jù)特征提取的有效性，本文選取文本集和新聞組語料庫(kù)這兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，在測(cè)試集的文檔中選擇詞頻最多的前1000個(gè)單詞，因此一篇文檔中具有1000維的向量中會(huì)包含了每個(gè)單詞出現(xiàn)的次數(shù)頻率。然后計(jì)算每個(gè)單詞在文章中出現(xiàn)的權(quán)重，并將該結(jié)果作為模型的輸入。通過從數(shù)據(jù)集中選取不同個(gè)數(shù)的文檔，驗(yàn)證本文算法對(duì)不同規(guī)模數(shù)據(jù)訓(xùn)練的效果，并分別在小規(guī)模數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集以及新聞組數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，利用誤差率與均方差反映所提算法的精確度。

5.1 小規(guī)模數(shù)據(jù)集實(shí)驗(yàn)

在小規(guī)模數(shù)據(jù)集實(shí)驗(yàn)中，文本為300篇，訓(xùn)練集文本為220篇，測(cè)試集文本為80篇，類別數(shù)量為5，從訓(xùn)練集中選擇具有類別標(biāo)簽的20篇文本。在文本訓(xùn)練過程中，每個(gè)單元迭代50次，并采用不同的模型進(jìn)行測(cè)試實(shí)驗(yàn)，測(cè)試結(jié)果的準(zhǔn)確率如表1所示。

表1 測(cè)試結(jié)果準(zhǔn)確率

從實(shí)驗(yàn)結(jié)果可以看出，采用梯度下降算法的模型進(jìn)行微調(diào)后，準(zhǔn)確率達(dá)到62.21%，比KNN模型準(zhǔn)確率提高了6.87%；采用本文算法進(jìn)行微調(diào)后準(zhǔn)確率可達(dá)到91.59%，比KNN模型的準(zhǔn)確率提高了36.25%。同時(shí)在微調(diào)過程中，對(duì)分類誤差進(jìn)行比較，圖3為不同算法的誤差率曲線。

圖3 誤差率曲線

根據(jù)誤差率曲線，在迭代增加的過程中，梯度下降法誤差率表現(xiàn)出持續(xù)震蕩的現(xiàn)象，在前60次迭代過程中，誤差率沒有明顯的下降趨勢(shì)；而采用本文提出的算法在前9次的迭代過程中，誤差率明顯發(fā)生下降的趨勢(shì)，從第10次開始誤差率維持在一個(gè)穩(wěn)定的狀態(tài)，且誤差率較低為9.85%左右。

5.2 大規(guī)模數(shù)據(jù)集實(shí)驗(yàn)

實(shí)驗(yàn)中選擇3000篇文本，訓(xùn)練集文本選擇2200篇(從中選擇200篇具有類別標(biāo)簽的文本)，測(cè)試文本選擇800篇，在對(duì)數(shù)據(jù)訓(xùn)練與測(cè)試過程中，迭代次數(shù)為50次。準(zhǔn)確率測(cè)試結(jié)果如表2所示。

表2 準(zhǔn)確率測(cè)試結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出，采用本文算法相對(duì)于梯度下降算法能夠更好的優(yōu)化系統(tǒng)模型參數(shù)，大大提高數(shù)據(jù)分類提取的準(zhǔn)確率。與小規(guī)模數(shù)據(jù)集的試驗(yàn)相比，采用三種算法模型的準(zhǔn)確率均有提高，說明數(shù)據(jù)量越大，數(shù)據(jù)分類的準(zhǔn)確率越高。與小規(guī)模數(shù)據(jù)集試驗(yàn)類似也進(jìn)行了分類誤差率的對(duì)比，實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 誤差率曲線

從圖中可以看出，采用梯度下降算法模型從第一次迭代開始誤差率一直沒有發(fā)生變化，說明該算法對(duì)大規(guī)模數(shù)據(jù)集起不到微調(diào)的作用；而采用本文算法在前25次迭代過程中，誤差率具有明顯下降的趨勢(shì)，并隨著迭代次數(shù)的增加誤差率基本維持在最低的狀態(tài)，但誤差率并不是最小值。

5.3 新聞組數(shù)據(jù)集實(shí)驗(yàn)

在新聞組語料庫(kù)數(shù)據(jù)集實(shí)驗(yàn)中，類別數(shù)量為20，選擇不同規(guī)模的測(cè)試數(shù)據(jù)，并針對(duì)不同模型算法的分類情況與本文算法進(jìn)行對(duì)比，準(zhǔn)確率測(cè)試結(jié)果如表3所示。

表3 準(zhǔn)確率測(cè)試結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出，隨著新聞組數(shù)據(jù)集數(shù)量的增加，采用KNN算法對(duì)數(shù)據(jù)分類的準(zhǔn)確率相對(duì)較低，其次是采用梯度下降算法，采用本文算法的數(shù)據(jù)分類準(zhǔn)確率最高；在微調(diào)過程中，梯度下降算法的模型對(duì)數(shù)據(jù)分類的結(jié)果影響力較小，通過新聞組數(shù)據(jù)集的試驗(yàn)表明，在微調(diào)過程中采用本文提出的模型，對(duì)不同規(guī)模的數(shù)據(jù)集都可以較好地完成數(shù)據(jù)分類。

6 結(jié)束語

對(duì)于稀疏數(shù)據(jù)的分類提取問題，本文提出一種深度學(xué)習(xí)、Softmax和反向傳播算法相結(jié)合的混合模型。其中深度學(xué)習(xí)完成稀疏數(shù)據(jù)中每?jī)蓚€(gè)相鄰神經(jīng)網(wǎng)絡(luò)層的配對(duì)工作，Softmax分類器完成稀疏數(shù)據(jù)的分類工作，反向傳播算法完成稀疏數(shù)據(jù)的調(diào)整和收斂工作。在數(shù)據(jù)微調(diào)過程中將深度學(xué)習(xí)和Softmax作為一個(gè)整體，并結(jié)合數(shù)據(jù)分類的準(zhǔn)確率和誤差率，采用反向傳播方法完成對(duì)系統(tǒng)模型權(quán)值的優(yōu)化。為了驗(yàn)證本文算法的有效性，選取文本集和新聞組語料庫(kù)這兩個(gè)數(shù)據(jù)集，分別進(jìn)行小規(guī)模數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集和新聞組數(shù)據(jù)集實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，采用本文算法對(duì)數(shù)據(jù)特征進(jìn)行分類提取準(zhǔn)確率較高，并且誤差率較低，在數(shù)據(jù)的提取上具有令人滿意的效果。