亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)與注意力機制的中文文本校對方法①

        2019-10-18 06:41:16郝亞男喬鋼柱
        計算機系統(tǒng)應用 2019年10期
        關(guān)鍵詞:隱層時刻注意力

        郝亞男,喬鋼柱,譚 瑛

        (太原科技大學 計算機科學與技術(shù)學院,太原 030024)

        自然語言O(shè)CR識別后文本錯誤自動校對,已經(jīng)引起越來越多的關(guān)注.近年來,我國法治建設(shè)的快速發(fā)展,類型多樣的法律案件數(shù)量增多.由于實際情況所限制,我國司法機關(guān)處理的案件卷宗以紙質(zhì)卷宗為主,想要在較短的時間內(nèi)獲取有效的信息,較為困難.隨著信息技術(shù)的廣泛普及,我國已逐漸將電子卷宗應用輔助辦案系統(tǒng)中.為加快紙質(zhì)卷宗電子化,電子化過程中采取OCR識別技術(shù).但是由于紙質(zhì)卷宗的打印質(zhì)量低或掃描不當?shù)仍?導致紙質(zhì)卷宗OCR識別效果不好.因此,在電子卷宗應用于后續(xù)任務(wù)前,需要有效的校對器來幫助紙質(zhì)卷宗OCR識別后的文本自動校對.

        由于中文文本與英文文本特點不同,中文文本校對是在錯誤文本的字詞、語法或語義等來進行校對的.目前,針對字詞級的OCR識別后的中文文本校對研究相對比較充分,但在OCR識別后的中文文本還存在許多其他類型錯誤,這些錯誤從字詞級的角度來看,可能不存在問題,但是不符合當前文本中的上下文語義搭配,例如:“透過中間人向另一方表示無欠債關(guān)系.”.其中,“透過”就是不符合文本語義搭配,此處應表示為“通過”.因此,本文主要是研究如何結(jié)合語義校對中文文本中的錯誤.

        1 相關(guān)工作

        在20世紀60年代起,國外就開始對英文文本拼寫自動校對進行研究.在研究初期主要是建立語言模型與字典來進行字詞級[1-4]的校對.近年來,字詞級校對的研究已經(jīng)較充分,但在真詞錯誤校對時,若不限制給定語境,那文本校對的可靠性就難以保證.因此,學者們在基于語義對文本校對展開進一步研究.

        Hirst[5]等在文本校對的計算中加入語義信息,采用WordNet來計算詞與詞間的語義距離,若詞間語義距離較遠,則判斷這個詞是錯誤的,反之,若發(fā)現(xiàn)與上下文距離語義較近的詞就可能被作為正確的詞.Kissos等[6]是基于OCR識別后的阿拉伯語校對,其采取的方式是通過與混淆矩陣相結(jié)合的語料庫形成候選數(shù)據(jù)集;然后對每個單詞所提取的特征對單詞分類,將候選集中排名最高的單詞作為校對建議.Sikl[7]等將校對問題看作翻譯問題來解決,把錯誤文本作為被原語言,糾正文本作為目標語言進行文本拼寫糾錯.張仰森等[8]提出了一種基于語義搭配知識庫和證據(jù)理論的語義錯誤偵測模型,構(gòu)建三層語義搭配知識庫以及介紹了基于該知識庫和證據(jù)理論的語義偵測算法,有效地進行語義級錯誤偵測.Konstantin等人[9]提出基于邊際分布和貝葉斯網(wǎng)絡(luò)計算的方法,在一定程度上提高了低質(zhì)量圖像的文檔字段OCR識別后校對準確率.陶永才等[10]基于構(gòu)建詞語搭配知識庫,綜合使用互信息和聚合度評價詞語關(guān)聯(lián)強度,進行詞語搭配關(guān)系校對.Liu等人[11]提出基于注意機制的神經(jīng)語法檢錯模型,將解碼端視為二進制分類器進行語法檢錯.劉亮亮等人[12]面向非多字詞錯誤提出基于模糊分詞的自動校對方法.姜贏等人[13]提出基于描述邏輯本體推理的語義級中文校對方法,通過描述邏輯推理機來判斷提取的語義內(nèi)容的邏輯一致性,并將檢測出的邏輯一致性錯誤映射為中文語義錯誤.Xie等人[14]通過具有注意機制的編碼器和解碼器的遞歸神經(jīng)網(wǎng)絡(luò)來進行字級別的英文文本校對.Yu等人[15]通過語言模型、拼音及字形完成校對工作.

        分析以上文獻發(fā)現(xiàn),在以往中文文本自動校對的方法中均進行了大量知識的準備工作,知識庫的完善程度對校對結(jié)果有很大影響.為了減少知識庫等相關(guān)知識對校對效果的影響,采用深度學習模型的思路完成文本自動校對任務(wù).通過模型的自學習獲取詞間相關(guān)性,來完成文本校對任務(wù),在一定程度上減少了人為干預.模型采用端到端序列模型,在解碼端與編碼端構(gòu)成成分的選擇上,主要是從時間方面考慮選取了門控循環(huán)網(wǎng)絡(luò)與注意力機制層結(jié)合構(gòu)成,最后通過Dense層和Softmax層完成文本自動校對任務(wù).

        2 基于神經(jīng)網(wǎng)絡(luò)與注意力機制的校對模型

        2.1 門控循環(huán)神經(jīng)網(wǎng)絡(luò)

        長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)在自然語言處理任務(wù)中有著廣發(fā)的應用,但LSTM在訓練耗時長、參數(shù)多等問題.研究人員在2014年對LSTM進行優(yōu)化調(diào)整,提出了門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unity,GRU).

        GRU保持LSTM優(yōu)點的同時又使得內(nèi)部結(jié)構(gòu)更加簡單.GRU由更新門和重置門兩個門組成,更新門用于控制前一時刻的隱層輸出對當前時刻的影響程度,更新門的值越大說明前一時刻的隱藏狀態(tài)對當前時刻隱層的影響越大;重置門用于控制前一時刻隱層狀態(tài)被忽略的程度,重置門值越小說明被忽略的越多.

        GRU的結(jié)構(gòu)如圖1所示.

        圖1 GRU神經(jīng)元結(jié)構(gòu)圖

        GRU的更新方式如式(1)至式(5)所示:

        其中,rt和zt分布表示為t時刻的重置門和更新門,、分別表示t時刻的候選激活狀態(tài)、激活狀態(tài).ht-1為(t-1)時刻的隱層狀態(tài).

        2.2 雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)

        BiGRU能夠同時將當前時刻的輸出同前一個時刻的狀態(tài)與后一時刻的狀態(tài)產(chǎn)生聯(lián)系.BiGRU是由單向、方向相反、當前時刻的輸出由方向相反的兩個GRU輸出共同決定的神經(jīng)網(wǎng)絡(luò)模型.BiGRU的結(jié)構(gòu)模型如圖2所示.

        圖2 BiGRU結(jié)構(gòu)模型圖

        在t時刻BiGRU的隱層狀態(tài)計算公式如式(6)至式(8)所示:

        其中,GRU()表示對輸入詞向量的非線性變換,將詞向量編碼為GRU隱層狀態(tài).wt為t時刻前向隱層狀態(tài)對應的權(quán)重,vt為t時刻反向隱層狀態(tài)對應的權(quán)重,bt為t時刻隱層狀態(tài)對應的偏置.

        2.3 注意力機制

        注意力機制就是通過對關(guān)鍵部分加強關(guān)注、突然局部重要信息,簡單來說就是計算不同時刻數(shù)據(jù)的概率權(quán)重,突出重點詞語.多頭注意力機制[16]將序列分為key,values和query.多頭注意力機制通過尺度化的點積方式并行多次計算,每個注意力輸出是簡單拼接、線性轉(zhuǎn)換到指定的維度空間而生成的.多頭注意力機制結(jié)構(gòu)如圖3所示.

        圖3 多頭注意力機制結(jié)構(gòu)圖

        多頭注意力機制層可以視為一個序列編碼層,從初始隱層狀態(tài)到新隱層狀態(tài)z的計算公式如式(9)所示.

        其中,權(quán)重系數(shù)aij的計算公式如式(10)所示.

        其中,eij的計算公式如式(11)所示.

        選擇了可擴展的點積來實現(xiàn)兼容性功能,從而實現(xiàn)高效的計算.輸入的線性變換增加了足夠的表達能力.是參數(shù)矩陣,.

        2.4 基于神經(jīng)網(wǎng)絡(luò)與注意力機制的校對模型

        對于文本采用生成的方式進行校對,首先句子是由字、詞和標點組成的有序的序列,若對句中某個字詞進行糾正,則需要通過上下文信息進行推斷和生成.在中文文本校對的研究中,僅使用神經(jīng)網(wǎng)絡(luò)抓取的上下文特征信息作為語義校對是不夠的.上下文信息對當前字詞的校對影響力不同,不能作為同一標準對當前字詞的校對產(chǎn)生作用.因此,本文構(gòu)建了一個基于注意力機制的序列到序列的中文文本校對模型.模型引入基于注意力的神經(jīng)網(wǎng)絡(luò),以增強獲取詞與詞間的依賴性的能力.

        整體模型架構(gòu)如圖4所示.2.4.1 文本向量化

        模型進行文本校對時,首先要將文本向量化.通過一個特定維度的向量代表詞,詞向量可以刻畫詞與詞在語義上的相關(guān)性,并將詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入.

        圖4 模型架構(gòu)

        將訓練語料、測試語料集以及開始標志等所有字詞建立一個大小為N的詞字典矩陣,N表示字典的大小.建立一個詞到詞字典的映射關(guān)系查找表,將輸入的詞轉(zhuǎn)換為序號,之后將序號轉(zhuǎn)換為詞嵌入向量.

        2.4.2 序列到序列端

        模型的編碼端由BiGRU層構(gòu)成,文本向量化后的詞向量作為BiGRU層的輸入.BiGRU層主要目的是對輸入的待校對文本進行特征提取.正向GRU通過從左向右的方式讀取{輸入的待校對}句子X,從而得到正向的隱層狀態(tài)序列.反向GRU是從右往左的方式讀取輸{入的待校對句}子X,同樣可以得到反向隱層狀態(tài)序列.將正向和方向隱層狀態(tài)序列進行連接得到編碼端的隱層狀態(tài)序列h,其中:

        模型的解碼端是采用單向GRU,每一時刻的隱層狀態(tài)wi均由前一時刻的隱層狀態(tài)wi-1和上一時刻的輸出yi-1.

        注意力機 制層通過計 算輸入序列x1,x2,x3,· · ·,xn每個字詞對于i時刻輸出值yi的影響權(quán)重加權(quán)求和所得.在生成校對結(jié)果時,解碼信息融合了輸入序列對輸出序列每個時刻的概率分布.

        2.4.3 基于集束搜索的校對算法

        采用集束搜索(beam search)求解校對位置的最優(yōu)結(jié)果.基于集束搜索的校對算法如算法1所示.

        算法1.基于集束搜索的校對算法#xi為待校對句子#proba用來記錄候選詞yi以及得分score,#beam的值設(shè)置為N# max_target_len為目標句子的最大長度for i in rang(max_target_len)#predict 根據(jù)xi預測所有可能的字詞及其得分proba=predict(xi)#生成對所有候選集排序for j in len(x):for yi,score in proba:if score>new_score:new_top=yi new_score=score else:t=[yi, score]new_beam.append(t)#取new_beam中最好的beam個候選集c c=get_max(new_beam)

        3 實驗結(jié)果與分析

        校對方法由兩個階段組成:訓練和校對.如圖5所示.

        圖5 基本框架

        3.1 實驗數(shù)據(jù)

        實驗采用在網(wǎng)站中抓取的公開法律文書文本整理后的句子作為訓練集,樣本數(shù)據(jù)總量為10.7 MB,隨機抽取404句作為測試集.例如,“透過中間人向另一方表示無欠債關(guān)系.”應為“通過中間人向另一方表示無欠債關(guān)系.”.

        3.2 建模過程及參數(shù)

        使用基于Keras的深度學習框架進行模型實現(xiàn).基于雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力模型的方法已在第2節(jié)中介紹.首先,將輸入句子向量化,作為模型的輸入;其次,添加BiGRU和GRU層,并在GRU層后添加注意力機制層;然后,添加雙層Dense層,在Dense層采用ReLU激活函數(shù).同Sigmoid激活函數(shù)相比,ReLU激活函數(shù)能實現(xiàn)單側(cè)抑制[17],能夠有效防止過擬合.因此,在實驗中選取ReLU激活函數(shù);最后,構(gòu)建Softmax層對文本進行校對,作用是將輸出轉(zhuǎn)變成概率,通過輸出的概率向量結(jié)合詞典反向映射獲得當前時刻的輸出詞.

        在解碼時,“GO”表示一個句子的開始標志,“END”表示一個句子的結(jié)束標志,“PAD”為補充長度的符號.“GO”和“END”在解碼器端作為開始解碼和結(jié)束解碼的標志,并一次生成一個字詞直到遇到結(jié)束標志符號.

        訓練模型使用Adam優(yōu)化[18],詞向量維度為128,每層神經(jīng)元個數(shù)設(shè)置為128,loss函數(shù)采用categorical_crossentropy.

        3.3 實驗評價標準

        本文采用準確率(P),召回率(R)以及F0.5值作為實驗的評價標準.準確率反應校對結(jié)果的準確程度,召回率表示校對結(jié)果的全面性,F0.5值為準確率和召回率的綜合評價的指標.

        3.4 實驗結(jié)果分析

        采用未加注意力機制的序列到序列模型做為基線模型(baseline),實驗將本文提出的模型(BiGRU-AGRU)與基線模型以及其他模型進行對比,在同一數(shù)據(jù)集上進行訓練和測試,得到的中文文本校對的實驗結(jié)果如表1所示.

        表1 基于不同校對方法的結(jié)果

        從表1中可以得到,本文提出的模型在語義方面的中文文本校對的完成情況好于基線方法,其準確率、召回率、F0.5值均有一定的提高.這些文本校對效果的提升主要由于BiGRU-A-GRU模型增強了對詞間語義關(guān)系的捕捉能力,同時該模型減少了因錯誤偵測產(chǎn)生的影響.

        測試集對應最高準確率時的迭代時間為模型的迭代時間,如表2所示.

        表2 模型迭代時間對比

        BiGRU-A-GRU模型與BiLSTM-A-LSTM模型相比較,均采用了Attention層,區(qū)別是一個采用了BiGRU層一個采用了BiLSTM層,表2可以看出在模型迭代時,BiLSTM-A-LSTM模型迭代用時更長.

        總之,通過表1,表2及圖6可以得知:在本數(shù)據(jù)集上,BiGRU-A-GRU模型優(yōu)于BiLSTM-A-LSTM模型,因為BiGRU相比BiLSTM收斂速度快,參數(shù)更少,在一定程度上降低了模型的訓練時間,Attention層在校對過程中能對句子中關(guān)鍵部分加強關(guān)注,突出相關(guān)聯(lián)的詞語完成校對任務(wù).

        圖6 模型訓練損失率變化曲線

        4 結(jié)束語

        本文提出一種基于神經(jīng)網(wǎng)絡(luò)與注意力機制的中文文本校對方法.將注意力機制引入文本校對任務(wù)中,捕捉詞間語義邏輯關(guān)系,提升了文本校對的準確性.實驗證明,深度學習模型中引入注意力機制能夠提高中文文本自動校對的準確性.

        中文文本詞語含義的多樣性,對語義錯誤的文本校對的發(fā)展有一定的阻礙性.在未來工作中,將尋找能夠提高模型學習詞間語義關(guān)系的途徑,進而更好地完成文本自動校對任務(wù),并且采用對系統(tǒng)的計算和開銷等影響較小的方法.

        猜你喜歡
        隱層時刻注意力
        讓注意力“飛”回來
        冬“傲”時刻
        捕獵時刻
        基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預測模型及應用
        人民珠江(2019年4期)2019-04-20 02:32:00
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        街拍的歡樂時刻到來了
        基于近似結(jié)構(gòu)風險的ELM隱層節(jié)點數(shù)優(yōu)化
        計算機工程(2014年9期)2014-06-06 10:46:47
        一天的時刻
        最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動軸承故障診斷
        国产亚洲午夜精品| av网站免费线看| av免费不卡国产观看| 国产在线 | 中文| 美丽的熟妇中文字幕| 黄色毛片在线看| 亚洲国产一区二区三区在线视频| 久草视频华人在线观看| 日本91一区二区不卡| 亚洲国产色婷婷久久精品| 神马影院午夜dy888| 久久青青草原亚洲av无码麻豆| 99久久综合狠狠综合久久| 久久久精品2019免费观看| 风流少妇一区二区三区91| 熟女肥臀白浆一区二区| 国产精品中文久久久久久久| 精品亚洲欧美无人区乱码| 欧美亚洲综合激情在线| 久国产精品久久精品国产四虎| 国产一区二区三区高清视频| 三级日本理论在线观看| 免费a级毛片无码免费视频首页| 国产产区一二三产区区别在线| 狠狠色婷婷久久一区二区| 日本最新一区二区三区免费看| 久久精品国产黄片一区| 日本精品一区二区三区福利视频| 亚洲a∨无码一区二区三区| 亚洲成色www久久网站夜月| 中年人妻丰满AV无码久久不卡| 亚洲日本精品一区久久精品| 中文字幕色偷偷人妻久久一区| 国产精品视频一区二区三区不卡| 婷婷亚洲久悠悠色悠在线播放| 少妇精品无码一区二区三区| 国产韩国精品一区二区三区| 国产av麻豆精品第一页| 东北女人啪啪对白| 影音先锋每日av色资源站| 亚洲熟妇网|