亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)電子檔案分類法研究

        2018-09-10 03:08:34
        山西檔案 2018年5期
        關(guān)鍵詞:分類器卷積向量

        隨著大數(shù)據(jù)﹑云計(jì)算等現(xiàn)代信息技術(shù)的發(fā)展,傳統(tǒng)的紙質(zhì)檔案快速向電子化﹑數(shù)字化檔案進(jìn)行轉(zhuǎn)變,檔案管理模式出現(xiàn)了深刻的變化。檔案管理的分類﹑檢索等基本方法也隨之產(chǎn)生了變化。本文參考Kim提出的神經(jīng)網(wǎng)絡(luò)模型,自動提取檔案文本的特征集合,使用Word2vec進(jìn)行詞向量訓(xùn)練,旨在進(jìn)一步提高電子檔案的分類準(zhǔn)確率。

        一、CNN卷積神經(jīng)網(wǎng)絡(luò)

        (一)神經(jīng)網(wǎng)絡(luò)

        神經(jīng)網(wǎng)絡(luò)是一些具有適應(yīng)性的神經(jīng)元組成的集合。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的最小組成單位,是一種二元線性分類器感知機(jī)制。

        輸入x1和x2分別和各自的權(quán)重w1和w2相乘﹑求和,所以函數(shù)f=x1*w1+x2*w2+b=f(∑2i=1Wi+b)(偏置項(xiàng),可以選擇性地添加)。函數(shù)f 可以是任意的運(yùn)算,但是對于感知機(jī)而言通常是求和。函數(shù)f 隨后會通過一個(gè)激活函數(shù)來進(jìn)行評估,該激活函數(shù)能夠?qū)崿F(xiàn)期望分類。

        把多個(gè)神經(jīng)單元堆疊在一起,并組成分層結(jié)構(gòu)。前面一層的神經(jīng)單元(隱藏層)通過f函數(shù)的輸出結(jié)果作為下一層的輸入,再通過f函數(shù)和激活函數(shù)得到最終的分類,這就形成全連接的神經(jīng)網(wǎng)絡(luò)。

        (二)詞向量

        詞向量也叫詞嵌入,是通過神經(jīng)網(wǎng)絡(luò)來訓(xùn)練語言模型,在訓(xùn)練過程中生成一組向量,這組向量將每個(gè)詞表示為n維向量,可理解為文本的數(shù)學(xué)化表示。一種最簡單的詞向量方式是One-Hot Representation,就是用與詞典等長的向量來表示一個(gè)詞,該詞所在詞典的索引對應(yīng)分量1,其余分量全為0,例如“工程師”表示為[0 0 0 1 0 0 0 ...]。One-Hot方式非常簡潔,僅需為每個(gè)詞分配一個(gè)數(shù)字編號即可,但該方式容易出現(xiàn)維度災(zāi)難,不能較好地刻畫各詞語之間的相似性。另一種是Hinton在1986年提出的Distributed Representation 向量方式,很好地克服了One-Hot方式的缺點(diǎn)。該方式通過語言模型的訓(xùn)練,用固定長度的短向量來表示詞語;將所有的詞向量放在一起,形成向量空間。在該空間上不同詞語之間的距離,就是該詞語法﹑語義之間的相似性。而Word2vecs是谷歌Tomas-Mikolvd團(tuán)隊(duì)研發(fā)的一款開源的詞向量產(chǎn)生工具,本文即利用Word2vecs來訓(xùn)練職員電子檔案的語言模型,獲取相應(yīng)的詞向量集合。

        (三)卷積神經(jīng)網(wǎng)絡(luò)

        CNN卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)技術(shù)中極具代表的網(wǎng)絡(luò)結(jié)構(gòu)之一,在圖像處理領(lǐng)域取得了很大的成功。在國際標(biāo)準(zhǔn)的ImageNet數(shù)據(jù)集上,許多成功的模型都是基于CNN的。近年來,該技術(shù)在自然語言處理﹑語音識別等方面均有突破性應(yīng)用。下文基于CNN卷積神經(jīng)對職員檔案進(jìn)行分類搜索,即是基于CNN在自然語言處理中的應(yīng)用。

        不同于普通網(wǎng)絡(luò)神經(jīng)算法,CNN卷積神經(jīng)網(wǎng)絡(luò)的特征抽取器由卷積層和子采樣層構(gòu)成。卷積層中存在著若干個(gè)特征平面,每個(gè)平面由一些矩形排列的神經(jīng)元組成(神經(jīng)元只與部分鄰層神經(jīng)元相連接),這些神經(jīng)元共享權(quán)值,稱為卷積核。先用隨機(jī)小數(shù)矩陣的形式對卷積核進(jìn)行初始化操作,再通過語料訓(xùn)練過程得到合理的權(quán)值。卷積核的應(yīng)用減少了神經(jīng)網(wǎng)絡(luò)各層之間的連接,降低了擬合風(fēng)險(xiǎn)。子采樣也稱為池化層,具有最大值子采樣和均值子采樣兩種形式。子采樣的過程就是一種特殊的共享權(quán)值的過程。卷積和子采樣的引入精簡了神經(jīng)模型的參數(shù),簡化了它的復(fù)雜程度。

        二、模型結(jié)構(gòu)

        Kim對基于自然語言文本處理的CNN卷積神經(jīng)網(wǎng)絡(luò)作了詳細(xì)的闡述。其結(jié)構(gòu)包含輸入層﹑卷積層﹑池化層﹑全連接及SOFTMAX層[1]。根據(jù)CNN卷積神經(jīng)網(wǎng)絡(luò)的定義和模型結(jié)構(gòu),具體建模流程如下:

        (一)數(shù)據(jù)預(yù)處理

        以企業(yè)人才簡歷檔案分類為例,抽取人才檔案庫中名稱為軟件工程師的檔案10000份,其中8000份作為訓(xùn)練集,2000份作為驗(yàn)證集,并計(jì)算各檔案的特征矩陣。具體步驟如下:

        1.首先用分詞工具對訓(xùn)練集中的每個(gè)檔案T進(jìn)行分詞處理,并進(jìn)行去重﹑剔除無用詞語﹑刪除標(biāo)點(diǎn)符號﹑刪除空格等處理得到檔案T的詞典TD。用Word-2Vecotr對TD進(jìn)行向量初始化,并將初始化的結(jié)果合并到詞向量空間R中;

        2.然后將每條檔案T進(jìn)行分詞處理,得到詞序列wi(i)。將wi帶入向量空間R中,得到對應(yīng)的詞向量vi(i);

        3.再將T的詞向量序列vi作鏈接操作,得到檔案T的特征矩陣。

        4.最后將詞向量序列vi按照先后順序,從上到下排列。公式(1)的結(jié)果檔案T的特征矩陣則轉(zhuǎn)換為詞向量空間Rd:n的特征矩陣

        接下來,將特征矩陣T作為輸入?yún)?shù),通過卷積﹑池化操作獲得檔案的句子向量。

        (二)卷積操作

        卷積操作的本質(zhì)是對檔案序列進(jìn)行特征抽取的過程。具體流程如下:

        1.設(shè)定卷積核WRdn,則卷積核W所圍的單詞個(gè)數(shù)即卷積核的尺寸,稱為hn(h為W的行數(shù))。在檔案的文本中,單詞語義只存在豎向相關(guān)性,故卷積核只作步長為1的豎向卷積操作;

        2.將檔案矩陣T的子矩陣Xi,XiRd:n,i分別與卷積核序列W進(jìn)行如下運(yùn)算:

        bRn是對矩陣T進(jìn)行調(diào)整的偏差值,f是雙曲正切激勵(lì)函數(shù)。將卷積核與Xi進(jìn)行d-h+1次卷積運(yùn)算,得到卷積矩陣C。

        為了更全面﹑準(zhǔn)確地獲取每個(gè)職員檔案的特征值,提高數(shù)據(jù)平滑性,本文分析中通過在卷積層中設(shè)置m個(gè)卷積核,將X與m個(gè)卷積核進(jìn)行卷積運(yùn)算,得到m個(gè)卷積矩陣Cm,并投入到池化層中進(jìn)行降維處理。

        (三)池化操作

        檔案T的句子經(jīng)過m個(gè)卷積核進(jìn)行卷積運(yùn)算以后,生成m個(gè)R(d-h+1)x1空間的句子向量C,將C做池化運(yùn)算:

        將m個(gè)卷積矩陣C進(jìn)行以上運(yùn)算,得到一個(gè)Rmx1空間的句子特征向量P:

        然后再將向量P作為分類的輸入?yún)?shù),最終得到分類結(jié)果。

        三、分類器

        經(jīng)過前述操作步驟,已將建立檔案T轉(zhuǎn)換為T所包含全部詞向量的特征矩陣,并通過卷積﹑池化操作得到T的特征向量P。接下來,將通過全鏈接方式鏈接Softmax多分類的分類器。

        分類器的作用,是對特征向量P進(jìn)行計(jì)算,分別得出各個(gè)分類的概率,取概率最大的分類作為該檔案T的分類。

        分類器處理過程如下:

        1.整理出數(shù)據(jù)集D = {x(i),y(i)},i∈[1,n]。其中y(i)是y(i)[1,k]的整數(shù),表示該樣本所屬的分類,SoftMax函數(shù)為:

        這里的x(i)仍然是增廣向量形式:[1,x1,x,…,xk]。對于樣本x(i)使用上述公式計(jì)算,得出該樣本屬于j類的概率δj

        (i)。計(jì)算樣本屬于各個(gè)分類的k個(gè)概率,并選取概率最大的類作為樣本的最終分類。

        2.令I(lǐng)×為指示函數(shù),即I{值為真}=1,I{值為假}=0。再令 qj

        j=I{y(i)=j},利用對數(shù)最大化似然估計(jì)得到損失函數(shù):

        3.利用梯度下降法最小化誤差函數(shù)J(w),對其求w的偏導(dǎo)數(shù),得到結(jié)果:

        迭代公式為:

        四、模型試驗(yàn)

        為更直觀地分析CNN神經(jīng)網(wǎng)絡(luò)與其它分類算法在電子檔案分類識別上準(zhǔn)確率和效率的差異,本文用TensorFlow 編程實(shí)現(xiàn)了上述模型處理過程,進(jìn)行對比試驗(yàn)。

        (一)數(shù)據(jù)集

        從檔案庫中抽取10000份名稱為工程師的電子檔案數(shù)據(jù),隨機(jī)抽樣取 8000份檔案作為訓(xùn)練樣本,其余的作為驗(yàn)證測試數(shù)據(jù)。

        (二)實(shí)驗(yàn)效果

        通過對比試驗(yàn),發(fā)現(xiàn)使用機(jī)器學(xué)習(xí)的幾種算法都能實(shí)現(xiàn)對測試電子檔案的有效識別和準(zhǔn)確分類,從而大大降了用于人工搜索與閱讀判斷其所屬分類的時(shí)間成本。

        對比以上結(jié)果,由Facebook開發(fā)的快速文本分類器FastText提供了簡單﹑高效的文本分類和表征方法,但在電子檔案區(qū)分度不大的情況下,分類準(zhǔn)確率有待進(jìn)一步提高。TextGrocery則是一個(gè)基于SVM算法的短文本分類工具,內(nèi)置結(jié)巴分詞,但是從時(shí)間和準(zhǔn)確率來看,綜合效果并不十分突出。而基于卷積神經(jīng)網(wǎng)絡(luò)CNN的檔案分類算法,特征學(xué)習(xí)力能力優(yōu)異,特征對數(shù)據(jù)本質(zhì)的刻畫最為準(zhǔn)確﹑深刻,更有利于檔案的分類和區(qū)分;雖然耗時(shí)達(dá)1360秒,但與人工區(qū)分篩選耗時(shí)相比,該運(yùn)行時(shí)間完全可以接受。

        五、總結(jié)

        本文提出基于卷積神經(jīng)網(wǎng)絡(luò)CNN的電子檔案分類模型。該模型充分考慮了中文檔案文本特征稀疏﹑含有大量專業(yè)詞匯等特點(diǎn)。試驗(yàn)表明,CNN卷積神經(jīng)網(wǎng)絡(luò)分類模型相比TextGrocery﹑FastText等經(jīng)典分類器準(zhǔn)確率大大提高。Word2vec訓(xùn)練模型的引入,極大地提高了在充分考慮語義特征情況下的中文單詞訓(xùn)練和向量詞典初始化的效率。在試驗(yàn)過程中,還發(fā)現(xiàn)不同的卷積核數(shù)量和初始化方法對分類的結(jié)果具有一定的影響。未來的研究重點(diǎn)是如何優(yōu)化選取卷積核數(shù)量和分類的方法,更好地提高檔案分類的準(zhǔn)確率。

        猜你喜歡
        分類器卷積向量
        向量的分解
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        聚焦“向量與三角”創(chuàng)新題
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        亚洲国产精品无码久久电影| 丝袜美腿高清在线观看| 中文字幕av久久亚洲精品| 亚洲欧美中文字幕5发布| 牲欲强的熟妇农村老妇女| 一本大道久久a久久综合| 国产天堂av手机在线| 东京热加勒比视频一区| 欧美男生射精高潮视频网站| 一本一道波多野结衣av中文| 无码国产精品一区二区免费97| 亚洲精品美女久久久久99| 日韩精品一区二区亚洲专区| 亚洲综合极品美女av| 97久久草草超级碰碰碰| 欧美人与动zozo| 中文字幕av久久激情亚洲精品| 一区二区三区四区黄色av网站| 国产精品久久国产精麻豆99网站| 少妇饥渴偷公乱a级无码| 日本手机在线| 亚洲国产线茬精品成av| 在线观看国产成人av天堂野外| 99久久精品免费观看国产| 亚洲精品无码久久久久sm| 国产西西裸体一级黄色大片| 男女视频一区二区三区在线观看 | 国产啪亚洲国产精品无码| 亚洲狠狠婷婷综合久久| 天堂网av在线| 男女激情视频网站免费在线| 久久理论片午夜琪琪电影网| 天堂8中文在线最新版在线| 日韩精品永久免费播放平台| 日本一区二区偷拍视频| 激情综合婷婷色五月蜜桃| 欧美极品色午夜在线视频| 白丝美女被狂躁免费视频网站| 97久久综合精品国产丝袜长腿| 亚洲最新无码中文字幕久久| 亚洲第一av导航av尤物|