秦利娟,馮乃勤
(1. 鄭州工業(yè)應(yīng)用技術(shù)學(xué)院信息工程學(xué)院,河南 鄭州451150;2. 河南師范大學(xué),河南 新鄉(xiāng)453007)
伴隨互聯(lián)網(wǎng)發(fā)展,人們可以通過數(shù)據(jù)提取技術(shù)來獲取更多有價(jià)值的信息。數(shù)據(jù)提取是指從數(shù)據(jù)集中抽取數(shù)據(jù)對(duì)其進(jìn)行分析,找出數(shù)據(jù)集中潛在的信息,以及完成抽取數(shù)據(jù)的其它過程。當(dāng)前數(shù)據(jù)大多以文本形式存在,怎樣對(duì)文本數(shù)據(jù)進(jìn)行有效地利用與管理,從中獲取有價(jià)值的數(shù)據(jù)信息,是現(xiàn)階段研究的熱點(diǎn)話題之一。
近幾年,越來越多的科研人員投入到數(shù)據(jù)分析工作中。文獻(xiàn)[1]分別通過相空間重構(gòu)方法和非線性統(tǒng)計(jì)序列分析方法對(duì)數(shù)據(jù)的特征進(jìn)行重構(gòu)與重組,采用特征提取技術(shù)對(duì)特征向量高維稀疏數(shù)據(jù)的平均信息進(jìn)行抽取,利用深度學(xué)習(xí)方法對(duì)數(shù)據(jù)尋優(yōu),實(shí)現(xiàn)高維稀疏數(shù)據(jù)的提取。該算法對(duì)數(shù)據(jù)的識(shí)別性較好,但在數(shù)據(jù)的分級(jí)推薦方面需要做進(jìn)一步研究。文獻(xiàn)[2]對(duì)多維度的粗糙數(shù)據(jù)進(jìn)行降維處理,為了消除數(shù)據(jù)的未知性,對(duì)數(shù)據(jù)的動(dòng)態(tài)進(jìn)行調(diào)整,采用將數(shù)據(jù)轉(zhuǎn)入精確幾何空間集的方法。該算法數(shù)據(jù)提取的精度很高,但數(shù)據(jù)提取的延時(shí)較長(zhǎng)。文獻(xiàn)[3]為了解決數(shù)據(jù)結(jié)構(gòu)的局限性,在保留原有數(shù)據(jù)訓(xùn)練參數(shù)的情況下,對(duì)向量空間進(jìn)行擴(kuò)展,并根據(jù)新數(shù)據(jù)調(diào)整參數(shù),完成對(duì)新數(shù)據(jù)的學(xué)習(xí),該算法具有較好的實(shí)用性,但存在明顯的局限性。
由于數(shù)據(jù)本身具有稀疏和高維度等特點(diǎn),采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行提取,會(huì)造成高維稀疏數(shù)據(jù)中存在噪聲,因此傳統(tǒng)方法不能很好的解決數(shù)據(jù)提取問題[4]。本文針對(duì)稀疏數(shù)據(jù),引入深度學(xué)習(xí)反向傳播的方法對(duì)數(shù)據(jù)特征進(jìn)行提取。該方法中通過深度學(xué)習(xí)算法對(duì)稀疏數(shù)據(jù)進(jìn)行處理,并且通過Softmax實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類,最后結(jié)合反向傳播方法對(duì)數(shù)據(jù)結(jié)果進(jìn)行微調(diào)。
為了實(shí)現(xiàn)對(duì)稀疏數(shù)據(jù)的提取,結(jié)合稀疏數(shù)據(jù)分布式結(jié)構(gòu),將稀疏數(shù)據(jù)體系分別建立在Web和分散式社會(huì)網(wǎng)絡(luò)的基礎(chǔ)上[5]。稀疏數(shù)據(jù)的模型圖用二元有向圖A=(B,C)表示,B表示數(shù)據(jù)模型圖頂點(diǎn)集合,C表示稀疏數(shù)據(jù)在有限區(qū)間內(nèi)所有邊界的集合。稀疏數(shù)據(jù)的Sink節(jié)點(diǎn)和傳輸節(jié)點(diǎn)的相軌跡間距分別用歐式距離表示,在初始鏈路模型下可以得出稀疏數(shù)據(jù)的拓?fù)淠P?。如圖1所示。
圖1 稀疏數(shù)據(jù)拓?fù)淠P?/p>
在稀疏數(shù)據(jù)的存儲(chǔ)網(wǎng)絡(luò)中,模型有向圖向量加權(quán)系數(shù)用E={u,e1,e2,…,ek}表示,假設(shè)在稀疏數(shù)據(jù)覆蓋區(qū)域內(nèi)有M個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的傳輸層數(shù)據(jù)分別為x(k-1),x(k-2),…,x(k-M),那么數(shù)據(jù)諧波分布節(jié)點(diǎn)的初始位置估計(jì)值用公式可表示為:
(1)
采用優(yōu)先級(jí)劃分方法,稀疏數(shù)據(jù)傳輸節(jié)點(diǎn)的模型可表示為
(2)
其中,α(t)表示虛擬節(jié)點(diǎn)的維數(shù);ds_s表示稀疏數(shù)據(jù)Source與Sink間的距離。采用相空間重構(gòu)結(jié)合非線性統(tǒng)計(jì)序列分析方法[6-7]對(duì)稀疏數(shù)據(jù)進(jìn)行重構(gòu),重構(gòu)的結(jié)構(gòu)模型可表示為
(3)
其中,K表示稀疏數(shù)據(jù)特征空間維數(shù);δ表示延時(shí);n表示虛擬節(jié)點(diǎn)個(gè)數(shù)。通過對(duì)相空間的重構(gòu),有利于提高稀疏數(shù)據(jù)特征提取性能。
假設(shè)稀疏數(shù)據(jù)流的統(tǒng)計(jì)分布序列用{xorg_1,xorg_2,…,xorg_M(jìn)}表示,x(m)表示為回歸分析的特征向量,對(duì)n維重構(gòu)相空間中的稀疏數(shù)據(jù)進(jìn)行云映射處理,得出稀疏數(shù)據(jù)的分布重組結(jié)構(gòu)式為
X(m)={x(m),x(m+δ),…,x(m+(n-1)δ)}
(4)
進(jìn)一步建立數(shù)據(jù)的狀態(tài)轉(zhuǎn)移模型,稀疏數(shù)據(jù)特征的評(píng)價(jià)概念集合用公式可表示為
(5)
結(jié)合云稀疏散亂點(diǎn)處理方法,可以求出稀疏數(shù)據(jù)的第i個(gè)散亂點(diǎn)集為Ji=(ji1,ji2,…,jiK),采用數(shù)據(jù)的時(shí)隙分配模式,對(duì)稀疏數(shù)據(jù)的屬性混合值進(jìn)行迭代處理,公式可表示為
(6)
其中,xi(n)表示xi的范數(shù)。
當(dāng)處理數(shù)量較多且相對(duì)復(fù)雜的聲音及文本等數(shù)據(jù)信息時(shí),早期的神經(jīng)網(wǎng)絡(luò)所具有的特征局限性就顯得尤為明顯??紤]到深層結(jié)構(gòu)的模型具有自適應(yīng)非線性等特征,非常適合對(duì)大規(guī)模數(shù)據(jù)的提取與建立,于是針對(duì)稀疏數(shù)據(jù)的提取問題,提出一種深度學(xué)習(xí)、Softmax和反向傳播算法相結(jié)合的方法。該方法中,深度學(xué)習(xí)完成稀疏數(shù)據(jù)中每?jī)蓚€(gè)相鄰神經(jīng)網(wǎng)絡(luò)層的配對(duì)工作,通過輸入層訓(xùn)練兩層間的權(quán)值參數(shù),并構(gòu)建出輸出層。Softmax分類器完成稀疏數(shù)據(jù)的分類工作,反向傳播算法完成稀疏數(shù)據(jù)的調(diào)整和收斂工作。
圖2 Softmax分類器模型
在深度學(xué)習(xí)和Softmax算法中使用了無標(biāo)簽與部分?jǐn)?shù)據(jù)有標(biāo)簽相結(jié)合的訓(xùn)練模型,分別通過無標(biāo)簽和有標(biāo)簽數(shù)據(jù)完成對(duì)深度學(xué)習(xí)和Softmax回歸模型的訓(xùn)練。在模型中,輸入的樣本數(shù)據(jù)層為cin,深度學(xué)習(xí)對(duì)稀疏數(shù)據(jù)的降維結(jié)果輸出lout,通過訓(xùn)練Softmax模型可以得出初始的權(quán)值,有利于提高稀疏數(shù)據(jù)的收斂速度。若僅僅考慮Softmax模型的訓(xùn)練,若為k分類問題,且函數(shù)的輸出也是k維向量,函數(shù)參數(shù)為?par,那么Softmax模型的輸出形式可表示為
(7)
其中,?par包含Softmax模型的權(quán)值?par_q_ij和輸出偏置?par_p_j。Softmax模型通過訓(xùn)練可以提高稀疏數(shù)據(jù)分類的準(zhǔn)確率,在訓(xùn)練中采用最小化代價(jià)函數(shù)對(duì)模型的參數(shù)進(jìn)行修正,代價(jià)函數(shù)表示為
(8)
采用深度學(xué)習(xí)算法提取稀疏數(shù)據(jù)的特征量,從起始時(shí)間t0開始對(duì)特征量進(jìn)行統(tǒng)計(jì),求出稀疏數(shù)據(jù)中時(shí)隙分配的信任值,公式表示為
(9)
其中:?∈(0,1]。綜上所述,通過深度學(xué)習(xí)算法可實(shí)現(xiàn)對(duì)稀疏數(shù)據(jù)的初步識(shí)別與提取。
反向傳播可以將學(xué)習(xí)網(wǎng)絡(luò)中的殘差傳輸?shù)捷斎雽又?,根?jù)誤差減小最快的方向?qū)訖?quán)系數(shù)進(jìn)行調(diào)整,直到獲取最佳的加權(quán)系數(shù)。調(diào)整的過程就是使系統(tǒng)模型的代價(jià)函數(shù)取值最小,調(diào)整過程中系統(tǒng)模型的代價(jià)函數(shù)類似于Softmax模型代價(jià)函數(shù),用公式可表示為
(10)
理想的多類稀疏數(shù)據(jù)標(biāo)簽對(duì)應(yīng)信息為1,其余稀疏數(shù)據(jù)對(duì)應(yīng)信息為0,其標(biāo)簽形式可表示為z={0,…,0,1,0,…,0}T,為了對(duì)輸出的向量q與標(biāo)準(zhǔn)稀疏數(shù)據(jù)向量標(biāo)簽z之間的距離進(jìn)行度量,需定義置信度距離,公式表示為
(11)
其中,max(·)和max*(·)分別表示返回最大元素值與第二個(gè)最大值元素值;test(·)表示返回稀疏數(shù)據(jù)測(cè)試樣本對(duì)應(yīng)編號(hào)的元素值。樣本權(quán)重更新公式表示為
(12)
其中,Qt(i)表示第i個(gè)稀疏數(shù)據(jù)樣本在第t次迭代時(shí)的權(quán)重值;Wt表示歸一化因子;ξt表示第t個(gè)弱分類器對(duì)應(yīng)的權(quán)重值;為了避免難以分類的稀疏數(shù)據(jù)樣本權(quán)重值增長(zhǎng)較快,參數(shù)cons(·)取值范圍限制在[-1,1]之間。
從整個(gè)稀疏數(shù)據(jù)的訓(xùn)練集中選擇一些數(shù)據(jù)作為弱分類器的訓(xùn)練集,為了方便抽取樣本個(gè)數(shù),先驗(yàn)概率質(zhì)量函數(shù)用稀疏數(shù)據(jù)的當(dāng)前樣本權(quán)重值表示,這樣不僅可以降低訓(xùn)練過程的復(fù)雜性,還可以保證各個(gè)弱分類器之間的相互獨(dú)立性。
為了驗(yàn)證深度學(xué)習(xí)反向傳播算法對(duì)稀疏數(shù)據(jù)特征提取的有效性,本文選取文本集和新聞組語料庫(kù)這兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),在測(cè)試集的文檔中選擇詞頻最多的前1000個(gè)單詞,因此一篇文檔中具有1000維的向量中會(huì)包含了每個(gè)單詞出現(xiàn)的次數(shù)頻率。然后計(jì)算每個(gè)單詞在文章中出現(xiàn)的權(quán)重,并將該結(jié)果作為模型的輸入。通過從數(shù)據(jù)集中選取不同個(gè)數(shù)的文檔,驗(yàn)證本文算法對(duì)不同規(guī)模數(shù)據(jù)訓(xùn)練的效果,并分別在小規(guī)模數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集以及新聞組數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),利用誤差率與均方差反映所提算法的精確度。
在小規(guī)模數(shù)據(jù)集實(shí)驗(yàn)中,文本為300篇,訓(xùn)練集文本為220篇,測(cè)試集文本為80篇,類別數(shù)量為5,從訓(xùn)練集中選擇具有類別標(biāo)簽的20篇文本。在文本訓(xùn)練過程中,每個(gè)單元迭代50次,并采用不同的模型進(jìn)行測(cè)試實(shí)驗(yàn),測(cè)試結(jié)果的準(zhǔn)確率如表1所示。
表1 測(cè)試結(jié)果準(zhǔn)確率
從實(shí)驗(yàn)結(jié)果可以看出,采用梯度下降算法的模型進(jìn)行微調(diào)后,準(zhǔn)確率達(dá)到62.21%,比KNN模型準(zhǔn)確率提高了6.87%;采用本文算法進(jìn)行微調(diào)后準(zhǔn)確率可達(dá)到91.59%,比KNN模型的準(zhǔn)確率提高了36.25%。同時(shí)在微調(diào)過程中,對(duì)分類誤差進(jìn)行比較,圖3為不同算法的誤差率曲線。
圖3 誤差率曲線
根據(jù)誤差率曲線,在迭代增加的過程中,梯度下降法誤差率表現(xiàn)出持續(xù)震蕩的現(xiàn)象,在前60次迭代過程中,誤差率沒有明顯的下降趨勢(shì);而采用本文提出的算法在前9次的迭代過程中,誤差率明顯發(fā)生下降的趨勢(shì),從第10次開始誤差率維持在一個(gè)穩(wěn)定的狀態(tài),且誤差率較低為9.85%左右。
實(shí)驗(yàn)中選擇3000篇文本,訓(xùn)練集文本選擇2200篇(從中選擇200篇具有類別標(biāo)簽的文本),測(cè)試文本選擇800篇,在對(duì)數(shù)據(jù)訓(xùn)練與測(cè)試過程中,迭代次數(shù)為50次。準(zhǔn)確率測(cè)試結(jié)果如表2所示。
表2 準(zhǔn)確率測(cè)試結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,采用本文算法相對(duì)于梯度下降算法能夠更好的優(yōu)化系統(tǒng)模型參數(shù),大大提高數(shù)據(jù)分類提取的準(zhǔn)確率。與小規(guī)模數(shù)據(jù)集的試驗(yàn)相比,采用三種算法模型的準(zhǔn)確率均有提高,說明數(shù)據(jù)量越大,數(shù)據(jù)分類的準(zhǔn)確率越高。與小規(guī)模數(shù)據(jù)集試驗(yàn)類似也進(jìn)行了分類誤差率的對(duì)比,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 誤差率曲線
從圖中可以看出,采用梯度下降算法模型從第一次迭代開始誤差率一直沒有發(fā)生變化,說明該算法對(duì)大規(guī)模數(shù)據(jù)集起不到微調(diào)的作用;而采用本文算法在前25次迭代過程中,誤差率具有明顯下降的趨勢(shì),并隨著迭代次數(shù)的增加誤差率基本維持在最低的狀態(tài),但誤差率并不是最小值。
在新聞組語料庫(kù)數(shù)據(jù)集實(shí)驗(yàn)中,類別數(shù)量為20,選擇不同規(guī)模的測(cè)試數(shù)據(jù),并針對(duì)不同模型算法的分類情況與本文算法進(jìn)行對(duì)比,準(zhǔn)確率測(cè)試結(jié)果如表3所示。
表3 準(zhǔn)確率測(cè)試結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,隨著新聞組數(shù)據(jù)集數(shù)量的增加,采用KNN算法對(duì)數(shù)據(jù)分類的準(zhǔn)確率相對(duì)較低,其次是采用梯度下降算法,采用本文算法的數(shù)據(jù)分類準(zhǔn)確率最高;在微調(diào)過程中,梯度下降算法的模型對(duì)數(shù)據(jù)分類的結(jié)果影響力較小,通過新聞組數(shù)據(jù)集的試驗(yàn)表明,在微調(diào)過程中采用本文提出的模型,對(duì)不同規(guī)模的數(shù)據(jù)集都可以較好地完成數(shù)據(jù)分類。
對(duì)于稀疏數(shù)據(jù)的分類提取問題,本文提出一種深度學(xué)習(xí)、Softmax和反向傳播算法相結(jié)合的混合模型。其中深度學(xué)習(xí)完成稀疏數(shù)據(jù)中每?jī)蓚€(gè)相鄰神經(jīng)網(wǎng)絡(luò)層的配對(duì)工作,Softmax分類器完成稀疏數(shù)據(jù)的分類工作,反向傳播算法完成稀疏數(shù)據(jù)的調(diào)整和收斂工作。在數(shù)據(jù)微調(diào)過程中將深度學(xué)習(xí)和Softmax作為一個(gè)整體,并結(jié)合數(shù)據(jù)分類的準(zhǔn)確率和誤差率,采用反向傳播方法完成對(duì)系統(tǒng)模型權(quán)值的優(yōu)化。為了驗(yàn)證本文算法的有效性,選取文本集和新聞組語料庫(kù)這兩個(gè)數(shù)據(jù)集,分別進(jìn)行小規(guī)模數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集和新聞組數(shù)據(jù)集實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,采用本文算法對(duì)數(shù)據(jù)特征進(jìn)行分類提取準(zhǔn)確率較高,并且誤差率較低,在數(shù)據(jù)的提取上具有令人滿意的效果。