國(guó)網(wǎng)福建省電力有限公司信息通信分公司 陳嚴(yán)紓 林彧茜 蔡宇翔 方略斌
福建億榕信息技術(shù)有限公司 盧偉龍 蔡映紅
生活中有很多文檔數(shù)據(jù)都是以圖像的方式儲(chǔ)存在網(wǎng)絡(luò)系統(tǒng)中,而如何將這些非結(jié)構(gòu)化的圖像數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化內(nèi)容是實(shí)際發(fā)展的重難點(diǎn)。本文研究選用了改進(jìn)后的區(qū)域卷積神經(jīng)網(wǎng)絡(luò),也就是Faster- CNN結(jié)構(gòu)的深度學(xué)習(xí)網(wǎng)絡(luò)模型,并利用投影計(jì)算算法對(duì)數(shù)字研發(fā)系統(tǒng)中非結(jié)構(gòu)化的文檔圖像實(shí)施版面內(nèi)容進(jìn)行自動(dòng)分類(lèi)和定位,并針對(duì)識(shí)別、獲取轉(zhuǎn)換非結(jié)構(gòu)化文檔圖像當(dāng)中的表格,最終得到非結(jié)構(gòu)化數(shù)據(jù)的融合方法。
對(duì)非結(jié)構(gòu)化的文檔圖像而言,其是由前景因素與背景因素兩部分構(gòu)成,而二值化的根本目的在于利用計(jì)算圖像當(dāng)中包含的像素值,將一副圖像轉(zhuǎn)變?yōu)橹淮嬖诤诎變煞N像素點(diǎn)的圖像,以此提取圖像當(dāng)中的前景因素。此時(shí),所對(duì)應(yīng)二值化的變化函數(shù)公式為:
其中,T代表閾值,同樣也是計(jì)算二值化最重要的一步。除此之外,也有其他方法進(jìn)行處理,例如全局閾值法、局域閾值法以及自適應(yīng)閾值法等。本文研究所選閾值法,設(shè)非結(jié)構(gòu)化文檔圖片是I(x,y),圖像大小是W×H,分割前景圖像和背景圖像之間的閾值為T(mén),前景像素點(diǎn)數(shù)量和整體圖像的像素點(diǎn)數(shù)量之間的比例為η0,而背景像素點(diǎn)數(shù)量和整體圖像的像素點(diǎn)數(shù)量之間的比例是η1,且圖像的總體灰度數(shù)值為λ,前景背景的灰度數(shù)值為λ0,背景像素的灰度數(shù)值為λ1。對(duì)比圖像當(dāng)中的灰度值和閾值可知,低于獲取閾值的像素點(diǎn)數(shù)量是a,超過(guò)閾值的像素點(diǎn)數(shù)量是a,方差可以記作ω。
而在降噪中,一般會(huì)利用不同類(lèi)型的低通濾波器清除圖像當(dāng)中的高頻,促使圖像在一定意義上變得更加模糊,最終達(dá)成降噪的目標(biāo)。在實(shí)際操作中,最常見(jiàn)的降噪方法有很多種,例如中值濾波、均值濾波等。本文研究以均值濾波為例,在實(shí)際操作過(guò)程中就是利用一個(gè)具備歸一化特點(diǎn)的卷積框在模版窗口覆蓋范圍內(nèi)所有像素之間獲取的平均數(shù)值取代原有圖像中的像素點(diǎn)灰度值。假設(shè)處理圖像I(x,y),圖像當(dāng)中某點(diǎn)噪聲坐標(biāo)為(x0,y0),灰度數(shù)值是g(xn,yn)。運(yùn)用大小是a×a的卷積框?qū)嵤┙翟?,其中灰度值的?jì)算公式為:
將表格圖像按照豎直方向劃分成五分高度相等的矩形,可以用Ri來(lái)表示,其中i=0,1,2,3,4,且高度都是Htable/ 5,寬度是Wtable。根據(jù)投影計(jì)算得到的數(shù)值,將其放在水平投影數(shù)組中,且N=5,那么其中所包含的所有元素sp[i]的數(shù)值就是Ri,且i=0,1,2,3,4,這也代表全部前景像素的總數(shù)。
Faster R- CNN作為定位非結(jié)構(gòu)化文檔中各類(lèi)結(jié)構(gòu)的有效手段,在目標(biāo)檢測(cè)算法操作中,F(xiàn)aster R- CNN是相對(duì)運(yùn)算速度更快和精度更高的一種應(yīng)用算法。從實(shí)際角度來(lái)看,F(xiàn)aster R- CNN有效整合了Region Proposal Network(RPN)網(wǎng)絡(luò)和Faster R- CNN網(wǎng)絡(luò),并由此構(gòu)建了網(wǎng)絡(luò)結(jié)構(gòu),相對(duì)應(yīng)的損失函數(shù)公式為:
其中,Ncls運(yùn)用ni-batch size對(duì)256對(duì)分類(lèi)損失函數(shù)Lcls實(shí)施標(biāo)準(zhǔn)化處理,具體可以表示為:
且Nreg利用錨點(diǎn)數(shù)量為2400個(gè)對(duì)回歸損失函數(shù)Lreg實(shí)施標(biāo)準(zhǔn)化處理,具體公式為:
其中,R函數(shù)是指:
為了確保表格可以被快速轉(zhuǎn)換為Excel格式的文檔,從而對(duì)其中包含的內(nèi)容實(shí)施可編輯操作,而后對(duì)識(shí)別表格進(jìn)行分類(lèi)操作,且利用更為精準(zhǔn)的圖像算法進(jìn)行輔助操作,再對(duì)不同類(lèi)型表格在圖像處理層面進(jìn)行科學(xué)處理,進(jìn)而降低轉(zhuǎn)換的錯(cuò)誤率。在對(duì)表格識(shí)別分類(lèi)時(shí),最重要的是明確表格的明顯特征,并利用加工處理達(dá)成實(shí)驗(yàn)?zāi)繕?biāo)。在本文研究中,按照現(xiàn)階段大部分表格的表現(xiàn)形式,并按照表格的基本線(xiàn)性特點(diǎn)分離處理表格,例如,全線(xiàn)表格、純橫線(xiàn)表格、色彩相間的表格、無(wú)限表格等。通過(guò)利用HSV通道,正確區(qū)分相同色系下不同類(lèi)顏色,并根據(jù)通道的明度數(shù)值進(jìn)行研究。
針對(duì)非結(jié)構(gòu)文檔版面的豎直和水平兩種方向,有效結(jié)合投影計(jì)算和深度學(xué)習(xí)網(wǎng)絡(luò)Faster R- CNN的操作方式,幫助整體系統(tǒng)利用最少的計(jì)算方式,對(duì)圖片、表格以及文字的位置進(jìn)行準(zhǔn)確定位和分類(lèi)。一方面為了便于后續(xù)計(jì)算分析,需要先對(duì)非結(jié)構(gòu)文檔實(shí)施預(yù)處理,從而促使其可以轉(zhuǎn)化成可操作的圖片,運(yùn)用Python代碼當(dāng)中的Java接口轉(zhuǎn)換文檔,這種方法在應(yīng)用期間并不會(huì)出現(xiàn)多余的文件占據(jù)系統(tǒng)內(nèi)存;另一方面可以減少轉(zhuǎn)換和計(jì)算時(shí)間,能充分處理容量龐大的文檔系統(tǒng)。
結(jié)合Faster R- CNN識(shí)別得到的結(jié)果分析,真實(shí)數(shù)值和預(yù)測(cè)數(shù)值之間的關(guān)系如圖1所示。
圖1 關(guān)系圖
通過(guò)觀察圖1可以發(fā)現(xiàn),在loU數(shù)值接近1的情況下,本文研究數(shù)字研發(fā)系統(tǒng)的預(yù)測(cè)結(jié)果更接近于真實(shí)數(shù)值。在Faster R- CNN網(wǎng)絡(luò)訓(xùn)練,利用自主構(gòu)建的數(shù)據(jù),在標(biāo)記中完成訓(xùn)練。以3000張圖片為例,按照6:1的概率隨機(jī)分配到訓(xùn)練集和測(cè)試集中,并統(tǒng)計(jì)分析圖片當(dāng)中包含的文本、表格等數(shù)據(jù)量,而后完成訓(xùn)練驗(yàn)證。
在研究分析中,如果預(yù)測(cè)數(shù)據(jù)和真實(shí)數(shù)據(jù)的交并比閾值是0.7,在完成30000次迭代訓(xùn)練之后,m AP的指數(shù)是71.3,且損失函數(shù)非常接近于0.01。
觀察圖1發(fā)現(xiàn),在完成訓(xùn)練之后的非結(jié)構(gòu)化文檔圖片的識(shí)別結(jié)果,綠色邊框代表文字內(nèi)容,黃色邊框代表表格內(nèi)容,再對(duì)比實(shí)驗(yàn)數(shù)據(jù)內(nèi)容后發(fā)現(xiàn),實(shí)際識(shí)別結(jié)果非常有效,且沒(méi)有出現(xiàn)過(guò)于嚴(yán)重的錯(cuò)誤情況,和其他算法相比,分類(lèi)的準(zhǔn)確性雖然不高,但整體結(jié)果的滿(mǎn)意度非常高。
在本文概述實(shí)驗(yàn)中,準(zhǔn)確識(shí)別并轉(zhuǎn)換出的文檔形式圖片的表格樣本數(shù)量是100張,實(shí)際轉(zhuǎn)換率可以達(dá)到92%,相比同類(lèi)文獻(xiàn)識(shí)別概率分析可知,其他所選方法的準(zhǔn)確識(shí)別率只有86.97%。由此可知,針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的文字、圖片以及表格等進(jìn)行全面分類(lèi)和定位,并統(tǒng)一分析其中的識(shí)別數(shù)值和轉(zhuǎn)換概率,不僅能發(fā)現(xiàn)其中存在的問(wèn)題,而且可以為后續(xù)實(shí)驗(yàn)分析和探索提供更多依據(jù)。
結(jié)語(yǔ):綜上所述,在分析數(shù)字研發(fā)系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)融合方法時(shí),利用Faster R- CNN和圖像算法有效結(jié)合餓的方式對(duì)其進(jìn)行全面分析,能在準(zhǔn)確定位和識(shí)別的基礎(chǔ)上,完成版面分析工作。需要注意的是,因?yàn)镕aster R- CNN算法對(duì)數(shù)據(jù)集的要求過(guò)低,且不需要利用過(guò)于繁瑣的圖像算法進(jìn)行操作,所以可以能充分保障文檔圖片當(dāng)中定位分類(lèi)的有效性和精確性。同時(shí),根據(jù)識(shí)別分類(lèi)所獲取的信息,對(duì)橫縱線(xiàn)不完善的表格進(jìn)行優(yōu)化,以此完成所有單元格的切分儲(chǔ)存,并按照Excel格式進(jìn)行內(nèi)容重新構(gòu)建。另外,本文利用圖像算法和Faster R- CNN進(jìn)行表格識(shí)別,可以提升實(shí)際識(shí)別效率,并對(duì)表格分類(lèi)進(jìn)行逐一細(xì)化,而后優(yōu)化不同類(lèi)型表格的算法識(shí)別處理工作。