徐一鳴,潘偉民
(新疆師范大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,新疆烏魯木齊830001)
隨著信息技術(shù)的快速發(fā)展與信息系統(tǒng)的廣泛使用,越來越多的人以更加開放的格式文檔轉(zhuǎn)向數(shù)字化存檔,便于文檔的上傳與讀取[1-2]。文檔結(jié)構(gòu)正向多語言、圖片文字混合排版,手寫、純印刷和手寫印刷混排等多重文檔模式的發(fā)展,增加了文檔結(jié)構(gòu)識別的難度[3-4]。
為進(jìn)一步提高多重文檔結(jié)構(gòu)識別的精準(zhǔn)度及效率,文中提出了一種基于深度學(xué)習(xí)的多重文檔結(jié)構(gòu)識別方法。通過自編碼器來構(gòu)建多層文檔學(xué)習(xí)網(wǎng)絡(luò),使用多層神經(jīng)網(wǎng)絡(luò)提取多重文檔特征、特征學(xué)習(xí)與次抽樣。通過多重文檔的特征屬性,將上述特征轉(zhuǎn)至文檔空間庫內(nèi),明確該文檔結(jié)構(gòu)的構(gòu)成內(nèi)容,繼而完成對多重文檔結(jié)構(gòu)識別。
憑借布拉格公式拆分文檔結(jié)構(gòu),文檔框架范圍λB可表示為:
式(1)中,ndff代表范圍文字邊界超出率,Λ 代表辨識周期。在文檔框架外出現(xiàn)頁碼、頁眉和頁腳標(biāo)識時[5],文檔框架的ndff與Λ 對應(yīng)進(jìn)行調(diào)整轉(zhuǎn)變,進(jìn)而引發(fā)文檔框架判定的偏移誤差[3]。文檔框架范圍和頁碼與頁眉頁腳的關(guān)聯(lián)如式(2)所示。
式(2)中,λB代表框架內(nèi)文檔框架界定偏移,ε代表頁碼轉(zhuǎn)變率,Δθ代表頁眉頁腳位置偏差,a與ξ分別代表文檔框架范圍的膨脹系數(shù)與縮減系數(shù)[6-7],Pe代表文檔框架范圍的有效判定系數(shù),,其中,P11與P12代表彈性判定系數(shù),v代表選取范圍長寬配置比。當(dāng)彈性范圍小于紙張慣性范圍時[8-10],文檔框架的形變公式能夠簡化為:
式(3)中,ω與Xs分別代表添加在彈性范圍中的劃分頻次與彈性劃分幅度,t表示調(diào)制幅度,ωn代表自由度范圍內(nèi)的固有劃分頻次,As代表輸入彈性系數(shù)后的劃分幅度,β代表范圍劃分偏移相位。經(jīng)過對光柵周界震動傳感器反射的波長偏移量進(jìn)行測量,就能夠完成對外界震動頻率的感知。
自編碼器是一種典型的無監(jiān)督特征學(xué)習(xí)方法,其結(jié)構(gòu)包括輸入層、編碼層與輸出層[11-12]。擬定輸入值與輸出值為不同狀態(tài),編碼器出現(xiàn)的結(jié)果可表達(dá)為:
式(4)中,f(x)代表非線性文檔特征激活函數(shù),通常叫做邏輯函數(shù),W為網(wǎng)絡(luò)的初始化權(quán)重,bh代表隱藏層偏權(quán)值。邏輯函數(shù)f(x)如式(5)所示。
式(5)中,z表示修正收斂速度。利用解碼器函數(shù)g(h)重組隱藏層數(shù)據(jù),其表示式如式(6)所示。
式(6)中,Sg代表單元特征激活函數(shù),通常為線性函數(shù)或sigmoid 函數(shù),θ表示超參數(shù),bv表示可見層的偏置。自動編碼的訓(xùn)練過程就是探索擬定數(shù)據(jù)集里超參數(shù)θ的最小化重組誤差。重組誤差能夠通過式(7)表示:
式(7)中,L代表文檔結(jié)構(gòu)判定誤差函數(shù),δ代表隱藏層變量,ε表示循環(huán)誤差值。一般可以利用平方誤差函數(shù)表示誤差重組后輸出值的文檔特征,通過式(8)能夠表示為:
式(8)中,h(xi)代表預(yù)測的第i個特征值,yi代表實際的第i個特征值。在現(xiàn)實使用的流程內(nèi),憑借堆疊多層的自動編碼器,可以讓文檔結(jié)構(gòu)特征出現(xiàn)一種多層的表示,進(jìn)而得到最符合期望的特征表達(dá)。
人工神經(jīng)網(wǎng)絡(luò)即卷積神經(jīng)網(wǎng)絡(luò),主要用于識別文檔的二維結(jié)構(gòu)[13]。經(jīng)過以上敘述得知,該網(wǎng)絡(luò)的所有層均是由多種二維文檔平面構(gòu)成的,所有層都存在較多的獨立神經(jīng)元,這種神經(jīng)元分別被稱之為復(fù)雜元與簡單元。即通過S元所聚集的面就是S面,S面聚集的層則是S層,C元、C面、C層同樣與此關(guān)聯(lián)。其S層即指特征提取層,網(wǎng)絡(luò)的計算層都是利用多種特征所反射而成,每一種特征所反射的平面,其神經(jīng)元權(quán)值都是一樣的。模型C層即憑借卷積層的神經(jīng)元所構(gòu)建的網(wǎng)絡(luò)層,S層即憑借次抽樣層的神經(jīng)元所構(gòu)建的網(wǎng)絡(luò)層。在卷積層內(nèi),可以利用上一層的文檔結(jié)構(gòu)特征和學(xué)習(xí)的卷積核,但卷積架構(gòu)通過激活函數(shù)后輸出構(gòu)建該層特征。每一種輸出的特征都可以和上一層的特征進(jìn)行卷積構(gòu)建。通常來說,卷積層如式(9)所示。
式(9)中,l為文檔結(jié)構(gòu)層的總量,k為卷積核,j為輸入選擇文檔特征值,b為每一種輸出偏置值[14-15]。憑借次抽樣層對輸入的文檔進(jìn)行抽樣操作處理,假設(shè)輸入特征為n種,那么通過次抽樣層后特征的數(shù)量即為n。次抽樣層的表達(dá)式為:
式(10)中,down(·) 代表次抽樣函數(shù),β為特征修正參數(shù),xlj-1為抽樣層參數(shù)。主要是利用對輸入特征的n×n尺寸進(jìn)行求和,所以輸出長度是輸入長度的1n。
基于上述文檔特征的計算,關(guān)于文檔的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程具有兩個步驟。
因多重文檔中包含多種變量,因此針對存在n種變量的多元函數(shù)Q=Q(x1,x2,…,xn),擬定Q在整體定義域內(nèi)連續(xù)且可導(dǎo)[16],使Q0=Q(x10,x20,…,xn0),那么把Q=Q(x1,x2,…,xn)在Q0的同一領(lǐng)域里擴(kuò)展同時剔除高階項,可得:
式(11)中,v代表識別輸出層的權(quán)值,wij代表識別輸入層的權(quán)值,bj代表中間層的輸出值。值得考慮的是,Q0取[ ]0,1 中的隨機(jī)常數(shù),Q0只能挑選存在代表性的多重文檔結(jié)構(gòu)樣本,這樣才可以確保模型的精準(zhǔn)性與可信度。
針對具體問題,xi、Δxi、Q0、v與w都是已知的,所以可以推算出文本特征:
代入化簡得:
如果S=0,那么Q=Q0。
如果S≠0,那么就存在如式(14)與式(15)的兩種狀況:
在F(Q)=SQ2+(1-S)Q-Q0時,討論F(Q)=0 時解的存在狀況。
在現(xiàn)實使用中,Q0能夠取[0,1] 內(nèi)的隨機(jī)常數(shù),所以:
F(Q)滿足:
通過式(16)與式(17)能夠看出,F(xiàn)(Q)=0 在[0,1]中一定存在實數(shù)解,F(xiàn)(Q)=0 曲線的對稱軸是,分區(qū)間討論:1)S<-1 時,0 <Q1<1,此時唯一的解是式(17);2)-1 <S<0 時,Q1>1 此時唯一的解是式(16);3)S>1 時,0 <Q1<1,此時唯一的解是式(18);4)0 <S<1 時,只考慮[0,1] 區(qū)間內(nèi)的情況,所以唯一解為式(14)。通過上述可知,式(14)存在多重文檔特征識別實數(shù)解表達(dá)式:
實驗環(huán)境為Intel(R)Core(TM)2Quad2.66 GHz CPU,3.50 GB 內(nèi)存的PC 機(jī)。該文實驗通過Matlab(2019a)仿真平臺來驗證所提方法的有效性。為確保實驗的真實有效性,需要定義多重文檔結(jié)構(gòu),并歸一化處理實驗樣本,獲得準(zhǔn)確的結(jié)構(gòu)向量。
完成算法訓(xùn)練后,再向仿真系統(tǒng)內(nèi)輸入包括圖片、手寫字、電腦鍵入字,以及包含英語、中文的400篇碩士學(xué)位論文。對比標(biāo)準(zhǔn)的識別結(jié)構(gòu)特征與利用該文方法識別的結(jié)果,并在仿真平臺輸出識別結(jié)果[17]。由于多重文檔結(jié)構(gòu)特征項較多,所以選取具有代表性8 項作為識別項目,包括圖片、手寫字體、計算機(jī)鍵入字體、中文、英文、正文、關(guān)鍵詞、標(biāo)題對應(yīng)的特征與正文相同。上述標(biāo)準(zhǔn)文檔框架范圍權(quán)重與文檔范圍提取閾值如表1所示。
表1 標(biāo)準(zhǔn)數(shù)值設(shè)定
該文方法識別實驗結(jié)果如表2所示。
由表2實驗數(shù)據(jù)可知,對上述8 項的識別率均高于94%,準(zhǔn)確識別文檔數(shù)量多于360 篇,對文檔框架范圍權(quán)重的設(shè)定相同,對文檔范圍提取閾值均不超過標(biāo)準(zhǔn)值的0.05,說明該文方法在多重文檔識別中具有較高的準(zhǔn)確性與效率。
表2 多重文檔結(jié)構(gòu)識別結(jié)果
針對多重文檔結(jié)構(gòu)識別時出現(xiàn)的識別效率慢與識別精準(zhǔn)度低的問題,提出了一種基于深度學(xué)習(xí)的多重文檔結(jié)構(gòu)識別方法。利用自編碼器來構(gòu)建多層網(wǎng)絡(luò),并調(diào)整訓(xùn)練參數(shù),使用多層神經(jīng)網(wǎng)絡(luò)對多重文檔進(jìn)行特征提取、特征學(xué)習(xí)與次抽樣[18],估算現(xiàn)實輸出和對應(yīng)的期望輸出的差值,利用多元函數(shù)識別文檔結(jié)構(gòu)。實驗證明,該文方法在多重文檔結(jié)構(gòu)識別上具有識別效率較快和識別精準(zhǔn)度較高的優(yōu)點。