亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)反向傳播的稀疏數(shù)據(jù)特征提取

        2022-06-14 09:49:52秦利娟馮乃勤
        計(jì)算機(jī)仿真 2022年5期
        關(guān)鍵詞:誤差率準(zhǔn)確率分類

        秦利娟,馮乃勤

        (1. 鄭州工業(yè)應(yīng)用技術(shù)學(xué)院信息工程學(xué)院,河南 鄭州451150;2. 河南師范大學(xué),河南 新鄉(xiāng)453007)

        1 引言

        伴隨互聯(lián)網(wǎng)發(fā)展,人們可以通過數(shù)據(jù)提取技術(shù)來獲取更多有價(jià)值的信息。數(shù)據(jù)提取是指從數(shù)據(jù)集中抽取數(shù)據(jù)對(duì)其進(jìn)行分析,找出數(shù)據(jù)集中潛在的信息,以及完成抽取數(shù)據(jù)的其它過程。當(dāng)前數(shù)據(jù)大多以文本形式存在,怎樣對(duì)文本數(shù)據(jù)進(jìn)行有效地利用與管理,從中獲取有價(jià)值的數(shù)據(jù)信息,是現(xiàn)階段研究的熱點(diǎn)話題之一。

        近幾年,越來越多的科研人員投入到數(shù)據(jù)分析工作中。文獻(xiàn)[1]分別通過相空間重構(gòu)方法和非線性統(tǒng)計(jì)序列分析方法對(duì)數(shù)據(jù)的特征進(jìn)行重構(gòu)與重組,采用特征提取技術(shù)對(duì)特征向量高維稀疏數(shù)據(jù)的平均信息進(jìn)行抽取,利用深度學(xué)習(xí)方法對(duì)數(shù)據(jù)尋優(yōu),實(shí)現(xiàn)高維稀疏數(shù)據(jù)的提取。該算法對(duì)數(shù)據(jù)的識(shí)別性較好,但在數(shù)據(jù)的分級(jí)推薦方面需要做進(jìn)一步研究。文獻(xiàn)[2]對(duì)多維度的粗糙數(shù)據(jù)進(jìn)行降維處理,為了消除數(shù)據(jù)的未知性,對(duì)數(shù)據(jù)的動(dòng)態(tài)進(jìn)行調(diào)整,采用將數(shù)據(jù)轉(zhuǎn)入精確幾何空間集的方法。該算法數(shù)據(jù)提取的精度很高,但數(shù)據(jù)提取的延時(shí)較長(zhǎng)。文獻(xiàn)[3]為了解決數(shù)據(jù)結(jié)構(gòu)的局限性,在保留原有數(shù)據(jù)訓(xùn)練參數(shù)的情況下,對(duì)向量空間進(jìn)行擴(kuò)展,并根據(jù)新數(shù)據(jù)調(diào)整參數(shù),完成對(duì)新數(shù)據(jù)的學(xué)習(xí),該算法具有較好的實(shí)用性,但存在明顯的局限性。

        由于數(shù)據(jù)本身具有稀疏和高維度等特點(diǎn),采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行提取,會(huì)造成高維稀疏數(shù)據(jù)中存在噪聲,因此傳統(tǒng)方法不能很好的解決數(shù)據(jù)提取問題[4]。本文針對(duì)稀疏數(shù)據(jù),引入深度學(xué)習(xí)反向傳播的方法對(duì)數(shù)據(jù)特征進(jìn)行提取。該方法中通過深度學(xué)習(xí)算法對(duì)稀疏數(shù)據(jù)進(jìn)行處理,并且通過Softmax實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類,最后結(jié)合反向傳播方法對(duì)數(shù)據(jù)結(jié)果進(jìn)行微調(diào)。

        2 稀疏數(shù)據(jù)體系結(jié)構(gòu)與提取

        2.1 稀疏數(shù)據(jù)體系結(jié)構(gòu)

        為了實(shí)現(xiàn)對(duì)稀疏數(shù)據(jù)的提取,結(jié)合稀疏數(shù)據(jù)分布式結(jié)構(gòu),將稀疏數(shù)據(jù)體系分別建立在Web和分散式社會(huì)網(wǎng)絡(luò)的基礎(chǔ)上[5]。稀疏數(shù)據(jù)的模型圖用二元有向圖A=(B,C)表示,B表示數(shù)據(jù)模型圖頂點(diǎn)集合,C表示稀疏數(shù)據(jù)在有限區(qū)間內(nèi)所有邊界的集合。稀疏數(shù)據(jù)的Sink節(jié)點(diǎn)和傳輸節(jié)點(diǎn)的相軌跡間距分別用歐式距離表示,在初始鏈路模型下可以得出稀疏數(shù)據(jù)的拓?fù)淠P?。如圖1所示。

        圖1 稀疏數(shù)據(jù)拓?fù)淠P?/p>

        在稀疏數(shù)據(jù)的存儲(chǔ)網(wǎng)絡(luò)中,模型有向圖向量加權(quán)系數(shù)用E={u,e1,e2,…,ek}表示,假設(shè)在稀疏數(shù)據(jù)覆蓋區(qū)域內(nèi)有M個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的傳輸層數(shù)據(jù)分別為x(k-1),x(k-2),…,x(k-M),那么數(shù)據(jù)諧波分布節(jié)點(diǎn)的初始位置估計(jì)值用公式可表示為:

        (1)

        采用優(yōu)先級(jí)劃分方法,稀疏數(shù)據(jù)傳輸節(jié)點(diǎn)的模型可表示為

        (2)

        其中,α(t)表示虛擬節(jié)點(diǎn)的維數(shù);ds_s表示稀疏數(shù)據(jù)Source與Sink間的距離。采用相空間重構(gòu)結(jié)合非線性統(tǒng)計(jì)序列分析方法[6-7]對(duì)稀疏數(shù)據(jù)進(jìn)行重構(gòu),重構(gòu)的結(jié)構(gòu)模型可表示為

        (3)

        其中,K表示稀疏數(shù)據(jù)特征空間維數(shù);δ表示延時(shí);n表示虛擬節(jié)點(diǎn)個(gè)數(shù)。通過對(duì)相空間的重構(gòu),有利于提高稀疏數(shù)據(jù)特征提取性能。

        2.2 稀疏數(shù)據(jù)特征提取

        假設(shè)稀疏數(shù)據(jù)流的統(tǒng)計(jì)分布序列用{xorg_1,xorg_2,…,xorg_M(jìn)}表示,x(m)表示為回歸分析的特征向量,對(duì)n維重構(gòu)相空間中的稀疏數(shù)據(jù)進(jìn)行云映射處理,得出稀疏數(shù)據(jù)的分布重組結(jié)構(gòu)式為

        X(m)={x(m),x(m+δ),…,x(m+(n-1)δ)}

        (4)

        進(jìn)一步建立數(shù)據(jù)的狀態(tài)轉(zhuǎn)移模型,稀疏數(shù)據(jù)特征的評(píng)價(jià)概念集合用公式可表示為

        (5)

        結(jié)合云稀疏散亂點(diǎn)處理方法,可以求出稀疏數(shù)據(jù)的第i個(gè)散亂點(diǎn)集為Ji=(ji1,ji2,…,jiK),采用數(shù)據(jù)的時(shí)隙分配模式,對(duì)稀疏數(shù)據(jù)的屬性混合值進(jìn)行迭代處理,公式可表示為

        (6)

        其中,xi(n)表示xi的范數(shù)。

        3 深度學(xué)習(xí)提取模型

        當(dāng)處理數(shù)量較多且相對(duì)復(fù)雜的聲音及文本等數(shù)據(jù)信息時(shí),早期的神經(jīng)網(wǎng)絡(luò)所具有的特征局限性就顯得尤為明顯??紤]到深層結(jié)構(gòu)的模型具有自適應(yīng)非線性等特征,非常適合對(duì)大規(guī)模數(shù)據(jù)的提取與建立,于是針對(duì)稀疏數(shù)據(jù)的提取問題,提出一種深度學(xué)習(xí)、Softmax和反向傳播算法相結(jié)合的方法。該方法中,深度學(xué)習(xí)完成稀疏數(shù)據(jù)中每?jī)蓚€(gè)相鄰神經(jīng)網(wǎng)絡(luò)層的配對(duì)工作,通過輸入層訓(xùn)練兩層間的權(quán)值參數(shù),并構(gòu)建出輸出層。Softmax分類器完成稀疏數(shù)據(jù)的分類工作,反向傳播算法完成稀疏數(shù)據(jù)的調(diào)整和收斂工作。

        圖2 Softmax分類器模型

        在深度學(xué)習(xí)和Softmax算法中使用了無標(biāo)簽與部分?jǐn)?shù)據(jù)有標(biāo)簽相結(jié)合的訓(xùn)練模型,分別通過無標(biāo)簽和有標(biāo)簽數(shù)據(jù)完成對(duì)深度學(xué)習(xí)和Softmax回歸模型的訓(xùn)練。在模型中,輸入的樣本數(shù)據(jù)層為cin,深度學(xué)習(xí)對(duì)稀疏數(shù)據(jù)的降維結(jié)果輸出lout,通過訓(xùn)練Softmax模型可以得出初始的權(quán)值,有利于提高稀疏數(shù)據(jù)的收斂速度。若僅僅考慮Softmax模型的訓(xùn)練,若為k分類問題,且函數(shù)的輸出也是k維向量,函數(shù)參數(shù)為?par,那么Softmax模型的輸出形式可表示為

        (7)

        其中,?par包含Softmax模型的權(quán)值?par_q_ij和輸出偏置?par_p_j。Softmax模型通過訓(xùn)練可以提高稀疏數(shù)據(jù)分類的準(zhǔn)確率,在訓(xùn)練中采用最小化代價(jià)函數(shù)對(duì)模型的參數(shù)進(jìn)行修正,代價(jià)函數(shù)表示為

        (8)

        采用深度學(xué)習(xí)算法提取稀疏數(shù)據(jù)的特征量,從起始時(shí)間t0開始對(duì)特征量進(jìn)行統(tǒng)計(jì),求出稀疏數(shù)據(jù)中時(shí)隙分配的信任值,公式表示為

        (9)

        其中:?∈(0,1]。綜上所述,通過深度學(xué)習(xí)算法可實(shí)現(xiàn)對(duì)稀疏數(shù)據(jù)的初步識(shí)別與提取。

        4 反向傳播算法

        反向傳播可以將學(xué)習(xí)網(wǎng)絡(luò)中的殘差傳輸?shù)捷斎雽又?,根?jù)誤差減小最快的方向?qū)訖?quán)系數(shù)進(jìn)行調(diào)整,直到獲取最佳的加權(quán)系數(shù)。調(diào)整的過程就是使系統(tǒng)模型的代價(jià)函數(shù)取值最小,調(diào)整過程中系統(tǒng)模型的代價(jià)函數(shù)類似于Softmax模型代價(jià)函數(shù),用公式可表示為

        (10)

        理想的多類稀疏數(shù)據(jù)標(biāo)簽對(duì)應(yīng)信息為1,其余稀疏數(shù)據(jù)對(duì)應(yīng)信息為0,其標(biāo)簽形式可表示為z={0,…,0,1,0,…,0}T,為了對(duì)輸出的向量q與標(biāo)準(zhǔn)稀疏數(shù)據(jù)向量標(biāo)簽z之間的距離進(jìn)行度量,需定義置信度距離,公式表示為

        (11)

        其中,max(·)和max*(·)分別表示返回最大元素值與第二個(gè)最大值元素值;test(·)表示返回稀疏數(shù)據(jù)測(cè)試樣本對(duì)應(yīng)編號(hào)的元素值。樣本權(quán)重更新公式表示為

        (12)

        其中,Qt(i)表示第i個(gè)稀疏數(shù)據(jù)樣本在第t次迭代時(shí)的權(quán)重值;Wt表示歸一化因子;ξt表示第t個(gè)弱分類器對(duì)應(yīng)的權(quán)重值;為了避免難以分類的稀疏數(shù)據(jù)樣本權(quán)重值增長(zhǎng)較快,參數(shù)cons(·)取值范圍限制在[-1,1]之間。

        從整個(gè)稀疏數(shù)據(jù)的訓(xùn)練集中選擇一些數(shù)據(jù)作為弱分類器的訓(xùn)練集,為了方便抽取樣本個(gè)數(shù),先驗(yàn)概率質(zhì)量函數(shù)用稀疏數(shù)據(jù)的當(dāng)前樣本權(quán)重值表示,這樣不僅可以降低訓(xùn)練過程的復(fù)雜性,還可以保證各個(gè)弱分類器之間的相互獨(dú)立性。

        5 仿真與結(jié)果分析

        為了驗(yàn)證深度學(xué)習(xí)反向傳播算法對(duì)稀疏數(shù)據(jù)特征提取的有效性,本文選取文本集和新聞組語料庫(kù)這兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),在測(cè)試集的文檔中選擇詞頻最多的前1000個(gè)單詞,因此一篇文檔中具有1000維的向量中會(huì)包含了每個(gè)單詞出現(xiàn)的次數(shù)頻率。然后計(jì)算每個(gè)單詞在文章中出現(xiàn)的權(quán)重,并將該結(jié)果作為模型的輸入。通過從數(shù)據(jù)集中選取不同個(gè)數(shù)的文檔,驗(yàn)證本文算法對(duì)不同規(guī)模數(shù)據(jù)訓(xùn)練的效果,并分別在小規(guī)模數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集以及新聞組數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),利用誤差率與均方差反映所提算法的精確度。

        5.1 小規(guī)模數(shù)據(jù)集實(shí)驗(yàn)

        在小規(guī)模數(shù)據(jù)集實(shí)驗(yàn)中,文本為300篇,訓(xùn)練集文本為220篇,測(cè)試集文本為80篇,類別數(shù)量為5,從訓(xùn)練集中選擇具有類別標(biāo)簽的20篇文本。在文本訓(xùn)練過程中,每個(gè)單元迭代50次,并采用不同的模型進(jìn)行測(cè)試實(shí)驗(yàn),測(cè)試結(jié)果的準(zhǔn)確率如表1所示。

        表1 測(cè)試結(jié)果準(zhǔn)確率

        從實(shí)驗(yàn)結(jié)果可以看出,采用梯度下降算法的模型進(jìn)行微調(diào)后,準(zhǔn)確率達(dá)到62.21%,比KNN模型準(zhǔn)確率提高了6.87%;采用本文算法進(jìn)行微調(diào)后準(zhǔn)確率可達(dá)到91.59%,比KNN模型的準(zhǔn)確率提高了36.25%。同時(shí)在微調(diào)過程中,對(duì)分類誤差進(jìn)行比較,圖3為不同算法的誤差率曲線。

        圖3 誤差率曲線

        根據(jù)誤差率曲線,在迭代增加的過程中,梯度下降法誤差率表現(xiàn)出持續(xù)震蕩的現(xiàn)象,在前60次迭代過程中,誤差率沒有明顯的下降趨勢(shì);而采用本文提出的算法在前9次的迭代過程中,誤差率明顯發(fā)生下降的趨勢(shì),從第10次開始誤差率維持在一個(gè)穩(wěn)定的狀態(tài),且誤差率較低為9.85%左右。

        5.2 大規(guī)模數(shù)據(jù)集實(shí)驗(yàn)

        實(shí)驗(yàn)中選擇3000篇文本,訓(xùn)練集文本選擇2200篇(從中選擇200篇具有類別標(biāo)簽的文本),測(cè)試文本選擇800篇,在對(duì)數(shù)據(jù)訓(xùn)練與測(cè)試過程中,迭代次數(shù)為50次。準(zhǔn)確率測(cè)試結(jié)果如表2所示。

        表2 準(zhǔn)確率測(cè)試結(jié)果

        從實(shí)驗(yàn)結(jié)果可以看出,采用本文算法相對(duì)于梯度下降算法能夠更好的優(yōu)化系統(tǒng)模型參數(shù),大大提高數(shù)據(jù)分類提取的準(zhǔn)確率。與小規(guī)模數(shù)據(jù)集的試驗(yàn)相比,采用三種算法模型的準(zhǔn)確率均有提高,說明數(shù)據(jù)量越大,數(shù)據(jù)分類的準(zhǔn)確率越高。與小規(guī)模數(shù)據(jù)集試驗(yàn)類似也進(jìn)行了分類誤差率的對(duì)比,實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 誤差率曲線

        從圖中可以看出,采用梯度下降算法模型從第一次迭代開始誤差率一直沒有發(fā)生變化,說明該算法對(duì)大規(guī)模數(shù)據(jù)集起不到微調(diào)的作用;而采用本文算法在前25次迭代過程中,誤差率具有明顯下降的趨勢(shì),并隨著迭代次數(shù)的增加誤差率基本維持在最低的狀態(tài),但誤差率并不是最小值。

        5.3 新聞組數(shù)據(jù)集實(shí)驗(yàn)

        在新聞組語料庫(kù)數(shù)據(jù)集實(shí)驗(yàn)中,類別數(shù)量為20,選擇不同規(guī)模的測(cè)試數(shù)據(jù),并針對(duì)不同模型算法的分類情況與本文算法進(jìn)行對(duì)比,準(zhǔn)確率測(cè)試結(jié)果如表3所示。

        表3 準(zhǔn)確率測(cè)試結(jié)果

        從實(shí)驗(yàn)結(jié)果可以看出,隨著新聞組數(shù)據(jù)集數(shù)量的增加,采用KNN算法對(duì)數(shù)據(jù)分類的準(zhǔn)確率相對(duì)較低,其次是采用梯度下降算法,采用本文算法的數(shù)據(jù)分類準(zhǔn)確率最高;在微調(diào)過程中,梯度下降算法的模型對(duì)數(shù)據(jù)分類的結(jié)果影響力較小,通過新聞組數(shù)據(jù)集的試驗(yàn)表明,在微調(diào)過程中采用本文提出的模型,對(duì)不同規(guī)模的數(shù)據(jù)集都可以較好地完成數(shù)據(jù)分類。

        6 結(jié)束語

        對(duì)于稀疏數(shù)據(jù)的分類提取問題,本文提出一種深度學(xué)習(xí)、Softmax和反向傳播算法相結(jié)合的混合模型。其中深度學(xué)習(xí)完成稀疏數(shù)據(jù)中每?jī)蓚€(gè)相鄰神經(jīng)網(wǎng)絡(luò)層的配對(duì)工作,Softmax分類器完成稀疏數(shù)據(jù)的分類工作,反向傳播算法完成稀疏數(shù)據(jù)的調(diào)整和收斂工作。在數(shù)據(jù)微調(diào)過程中將深度學(xué)習(xí)和Softmax作為一個(gè)整體,并結(jié)合數(shù)據(jù)分類的準(zhǔn)確率和誤差率,采用反向傳播方法完成對(duì)系統(tǒng)模型權(quán)值的優(yōu)化。為了驗(yàn)證本文算法的有效性,選取文本集和新聞組語料庫(kù)這兩個(gè)數(shù)據(jù)集,分別進(jìn)行小規(guī)模數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集和新聞組數(shù)據(jù)集實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,采用本文算法對(duì)數(shù)據(jù)特征進(jìn)行分類提取準(zhǔn)確率較高,并且誤差率較低,在數(shù)據(jù)的提取上具有令人滿意的效果。

        猜你喜歡
        誤差率準(zhǔn)確率分類
        分類算一算
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        生化檢驗(yàn)全程中質(zhì)量控制管理方式及應(yīng)用意義
        健康大視野(2020年1期)2020-03-02 11:33:53
        降低評(píng)吸人員單料煙感官評(píng)分誤差率探討
        分類討論求坐標(biāo)
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        成片免费观看视频大全| 你懂的视频网站亚洲视频| 好大好爽我要高潮在线观看| 三年片大全在线观看免费观看大全| 久久精品一区二区免费播放| 无码成年性午夜免费网站蜜蜂| 亚洲乱码av一区二区蜜桃av| 乱中年女人伦| 狠狠色噜噜狠狠狠狠888奇禾| 精品欧洲AV无码一区二区免费| av资源在线免费观看| 日日噜噜夜夜狠狠va视频v| 国产精品成人免费视频网站京东| 国产未成女年一区二区| 九一精品少妇一区二区三区| 奶头又大又白喷奶水av| 精品国产v无码大片在线观看| 中文国产成人精品久久一区| 一区二区三区av在线| 国产肉体xxxx裸体784大胆| 国产成人午夜精品免费视频| 亚洲精品二区三区在线观看| 日韩av在线播放人妻| 四虎影视免费观看高清视频| 国产在线视频国产永久视频| 在线观看高清视频一区二区三区| 在厨房被c到高潮a毛片奶水| 亚洲中文字幕无码专区| 91精品国产综合久久青草| 中文字幕免费人成在线网站 | 不卡无毒免费毛片视频观看| 你懂的视频网站亚洲视频| 日韩精品久久久久久免费| 波多野结衣视频网址| 日本人妻系列一区二区| 最美女人体内射精一区二区 | 好爽…又高潮了毛片免费看| 亚洲一区二区三区成人在线| 高级会所技师自拍视频在线| 国产99久久久久久免费看| 亚洲国产字幕|