亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合多神經(jīng)網(wǎng)絡(luò)模型的藏文字校對(duì)方法*

        2021-05-10 03:10:10安見才讓
        微處理機(jī) 2021年2期
        關(guān)鍵詞:模型

        安見才讓

        (青海民族大學(xué)計(jì)算機(jī)學(xué)院,西寧810007)

        1 引 言

        信息社會(huì)的發(fā)展,使電子書、網(wǎng)上圖書館以及網(wǎng)頁(yè)等種類繁多的信息平臺(tái)不斷出現(xiàn),供人們使用。這些平臺(tái)上的信息主要是通過鍵盤錄入、圖像掃描等方式輸入到計(jì)算機(jī)的。在輸入過程中,任何一種方式都無法保證存入的信息準(zhǔn)確無誤,校對(duì)技術(shù),作為確保準(zhǔn)確輸入信息的一種專業(yè)性技術(shù),便顯示出其重要性來。

        國(guó)外研究在英文文本校對(duì)方面取得了一定成果,部分成果實(shí)現(xiàn)了商品化。英文校對(duì)一般分為兩部分[1],一是針對(duì)英語單詞內(nèi)部出現(xiàn)的拼寫錯(cuò)誤,主要采用最小編輯距離技術(shù)、相似鍵技術(shù)等六種方法來實(shí)現(xiàn)[2];二是對(duì)句子中出現(xiàn)的單詞正確但用法錯(cuò)誤的情況進(jìn)行校正,主要采用自然語言處理和統(tǒng)計(jì)語言模型技術(shù)(SLM)解決。由于漢語與英語在語言本身及文本輸入方式上均存在較大差異, 因而漢語的文本校對(duì)系統(tǒng)所采用的策略及技術(shù),與英文校對(duì)系統(tǒng)有一定的差異?,F(xiàn)今普遍采用的技術(shù)有:詞切分技術(shù)[3]、近似集模糊匹配技術(shù)[4-5]、語法分析及語義分析技術(shù)等[6]。國(guó)內(nèi)對(duì)文本校對(duì)方面的研究始于上世紀(jì)90 年代初期,但發(fā)展速度較快,其中藏文字的主要校對(duì)方法采用字典匹配法進(jìn)行。文獻(xiàn)[7]詳細(xì)描述了藏文的文法并根據(jù)藏文文法提出了基于分段的藏文校對(duì)方法。隨著深度學(xué)習(xí)方法的發(fā)展,一些神經(jīng)網(wǎng)絡(luò)模型也被成功應(yīng)用于藏文字的校對(duì)任務(wù)。

        2 藏文字校對(duì)神經(jīng)網(wǎng)絡(luò)模型架構(gòu)

        2.1 藏文字母向量化

        利用神經(jīng)網(wǎng)絡(luò)模型處理藏文字校對(duì)問題,首先需要將字母向量化表示??墒褂靡粋€(gè)特定維度的特征向量代表藏文字母。字母向量可以刻畫字母與字母在語義和語法上的相關(guān)性,并作為藏文字母特征成為神經(jīng)網(wǎng)絡(luò)的輸入。使用訓(xùn)練語料集中的所有字母建立一個(gè)大小為d×N 的藏文字字典矩陣,d 是字向量的維度,N 是字典的大小,以此構(gòu)造一個(gè)字母到字母嵌入的查找表,將輸入的藏文字母轉(zhuǎn)換為字母嵌入向量,作為模型的輸入。研究表明,使用大規(guī)模無監(jiān)督學(xué)習(xí)得到的字母向量作為輸入矩陣的初始值比隨機(jī)初始化有著更優(yōu)的效果。此處使用word2vec[8]在藏文語料庫(kù)預(yù)訓(xùn)練獲得字母向量,取值d=300,N=152。

        2.2 藏文字校對(duì)模型構(gòu)建

        在此創(chuàng)建名為BiGtCFCMTC(BiGRU three CNN FC Modle of Tibetan Checking,雙向GRU 三卷積全連接網(wǎng)絡(luò))的模型。

        藏文字校對(duì)任務(wù)通??梢哉J(rèn)為是判斷基于藏文字母序列組合的合法性的任務(wù)。藏文字中一般最多有7 個(gè)藏文字母,7 個(gè)字母之間有嚴(yán)格文法規(guī)定,它們之間的組合關(guān)系非常緊密,前面的字母會(huì)影響到后面字母的選擇,同時(shí),后面字母的出現(xiàn)也影響著前面字母的選擇。所以,為抽取其相互關(guān)系的語義在此采用雙向GRU。

        藏文字經(jīng)過循環(huán)網(wǎng)絡(luò)GRU 語義抽取后,對(duì)其輸出部分分別進(jìn)行拼接,形成新的語義矩陣M7×300。然后,用三個(gè)大小分別為 2×300、3×300、4×300 卷積核作卷積和池化運(yùn)算,所得結(jié)果作連接成向量,作全連接并用Softmax 函數(shù)進(jìn)行歸一化處理。藏文字校對(duì)模型框架如圖1 所示。

        2.3 雙向雙層GRU 神經(jīng)網(wǎng)絡(luò)模型

        雙向GRU 的目的是解決單向GRU 無法處理后文信息的問題。單向的GRU 只能在一個(gè)方向上處理數(shù)據(jù),雙向GRU 的基本思想則是提出每一個(gè)訓(xùn)練序列向前和向后分別是兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),且這兩個(gè)網(wǎng)絡(luò)都連接著一個(gè)輸出層。圖2 展示的即是一個(gè)沿著時(shí)間展開的改進(jìn)雙向雙層GRU 神經(jīng)網(wǎng)絡(luò)模型(Bi-GRU),可用來獲得字母序列的標(biāo)注信息。Bi-GRU 轉(zhuǎn)化函數(shù)如下:

        圖1 藏文字校對(duì)模型框架

        圖2 雙向雙層GRU 神經(jīng)網(wǎng)絡(luò)模型

        向后推算(backwardpass):

        需要注意的是,一個(gè)現(xiàn)代藏文字最多7 個(gè)字母,向后推算部分是從最后一個(gè)字母開始,即t 從6遍歷至0。

        向前推算(forwardpass):

        向前推算與后向推算部分類似,向量上的箭頭方向相反,而且它是從句子的第一個(gè)詞掃描至最后一個(gè)字母,在7 字母的情況下,則t 從0 遍歷至6。公式如下:

        在向前推算中輸入向量由兩個(gè)向量組合而成:向前推算第t 個(gè)字母的向量xt和后向推算第6 個(gè)字母到第t 個(gè)字母積累的歷史信息的串聯(lián)拼接。

        在藏文字校對(duì)中,這個(gè)模塊的輸入為藏文字的第一個(gè)字母到最后一個(gè)字母,最多有7 個(gè)字母,達(dá)不到7 個(gè)字母用-1 補(bǔ)齊。經(jīng)雙向GRU 處理后,輸出為 hi(hi∈R1×d, d =300, 0≤i≤6),把 hi全部拼接后得到矩陣 M7×300:

        2.4 卷積神經(jīng)網(wǎng)絡(luò)模型

        對(duì)藏文字局部特征的提取可利用CNN 來完成。CNN 是一種前饋神經(jīng)網(wǎng)絡(luò),其模型結(jié)構(gòu)主要包括輸入層、卷積層、池化層、全連接層和輸出層幾部分。

        在輸入層操作中,雙向雙層GRU 神經(jīng)網(wǎng)絡(luò)的輸出 hi拼接成矩陣 M7×300(hi∈R1×300,其中,1 表示一個(gè)字母,300 是字母向量維度)作為輸入,特征向量為hi包含了第i 字母前后的全部語義特征。

        卷積操作主要完成特征提取的工作。藏文字中一般前2 個(gè)、3 個(gè)和4 個(gè)字母之間需要嚴(yán)格遵守文法的規(guī)定,元音和后兩個(gè)字母相對(duì)比較簡(jiǎn)單不易出錯(cuò)。所以,通過設(shè)置大小為 2×300、3×300 和 4×300的濾波器 ω0、ω1、ω2來完成對(duì)輸入藏文字特征的提取,如下式:

        其中,ωi(0≤i≤2)是卷積核,Mj:j+i+1是 j 到 j+i+1 個(gè)字母組成的向量,b 是偏置項(xiàng),通過卷積層后,得到特征矩陣 Ji(0≤i≤2),具體為 Ji=[ci0,ci1,ci2,ci3,ci4,ci5,ci6]。

        通過卷積層之后得到的字向量特征矩陣Ji比較小,所以沒有池化層。在此把卷積后特征進(jìn)行水平拼接:

        此處,J 包含 3 次卷積×7 個(gè)元素/卷積=21 個(gè)元素。

        再將3 次卷積后所得的特征J 作為輸入,作全連接運(yùn)算,并作Softmax 運(yùn)算:

        其中,w為全連接權(quán)重,n 為偏移項(xiàng),p 只有兩個(gè)值。

        2.5 損失函數(shù)

        采用反向傳播機(jī)制,使用自適應(yīng)學(xué)習(xí)率的隨機(jī)梯度下降算法來訓(xùn)練模型中的權(quán)重矩陣和偏置項(xiàng),通過最小化交叉熵來優(yōu)化模型。交叉熵代價(jià)函數(shù)為:

        其中,r 為訓(xùn)練數(shù)據(jù)集大?。籧 為類別數(shù),此處值為2;y 為預(yù)測(cè)類別為實(shí)際類別;λ2||θ||2為 L2正則項(xiàng)。

        設(shè)置損失閾值T,當(dāng)損失函數(shù)Lloss小于T 時(shí),視為模型收斂。在此收斂狀態(tài)下的參數(shù)優(yōu)化情況得到BiGtCFCMTC 模型的最優(yōu)權(quán)值,使用測(cè)試文本集來對(duì)此時(shí)的最優(yōu)化模型進(jìn)行驗(yàn)證,再通過對(duì)比分類器精度和泛化能力來評(píng)估改進(jìn)算法的性能。

        3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)使用的藏語語料由青海民族大學(xué)藏文信息處理與軟件研究所提供。此語料是中國(guó)西北五省區(qū)藏區(qū)初中藏語文教材中的課文, 測(cè)試語料包含了73155 個(gè)藏文字,其中,正樣本占55.1%,負(fù)樣本占44.9%。

        首先,用人工方式對(duì)訓(xùn)練語料采用前文所述方法進(jìn)行預(yù)處理。實(shí)驗(yàn)采用TensorFlow2.0 框架,構(gòu)建上述神經(jīng)網(wǎng)絡(luò)模型,并使用語料訓(xùn)練網(wǎng)絡(luò)的權(quán)值,不斷迭代,直到算法收斂。實(shí)驗(yàn)在內(nèi)存為16GB、GPU內(nèi)存為8 GB 的Windows 系統(tǒng)上進(jìn)行。程序采用Python 語言進(jìn)行編程模型中的超參數(shù):上下文窗口長(zhǎng)度 k =3,藏文字母向量長(zhǎng)度 d =300,隱藏層單元數(shù) h = 128,初始學(xué)習(xí)率 α = 0.1,Dropount 比率 p =0.5,Batchsize 值為 128。

        使用上述方法在語料中進(jìn)行實(shí)驗(yàn),對(duì)藏文的字母標(biāo)注結(jié)果用標(biāo)準(zhǔn)bake-off 打分程序來計(jì)算準(zhǔn)確率P,召回率R。準(zhǔn)確率和召回率的調(diào)和平均值F。經(jīng)實(shí)驗(yàn),所提出的新模型BiGTCFCMTC 的藏文字校對(duì)準(zhǔn)確率為93.95%,召回率為94.17%,F(xiàn) 值為94.06%。

        4 結(jié) 束 語

        新提出的藏文字檢錯(cuò)雙向GRU 三卷積全連接網(wǎng)絡(luò)模型在73155 個(gè)藏文字語料上進(jìn)行實(shí)驗(yàn),獲得較為理想的結(jié)果。實(shí)際工作中,模型憑借GPU 的運(yùn)算能力可大大縮短深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,該網(wǎng)絡(luò)模型的方法也更容易推廣應(yīng)用到其他NLP中序列標(biāo)注的任務(wù),具有一定的通用性和實(shí)用價(jià)值。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        色拍自拍亚洲综合图区| 国产一区二区av在线观看| 日本按摩偷拍在线观看| 97人人模人人爽人人喊网| 中文字幕一区二区三区精彩视频 | 国产日产综合| 91视频香蕉| 国产青青草自拍视频在线播放| 97超碰精品成人国产| 白丝兔女郎m开腿sm调教室| 成人国产精品999视频| 在线观看视频日本一区二区三区| 在线播放国产自拍av| 日本一本之道高清不卡免费| 亚洲另类国产综合第一| 国产在线观看精品一区二区三区| 日本一级二级三级不卡| 国产乱码一区二区三区爽爽爽| 精品人妻少妇一区二区不卡 | 日韩国产自拍成人在线| 亚洲女人毛茸茸粉红大阴户传播| 老熟妇仑乱视频一区二区| 国产91色在线|亚洲| 亚洲一区二区三区精彩视频| 精品卡一卡二卡3卡高清乱码| 亚洲av无码国产剧情| 亚洲欧美日本人成在线观看| 亚洲成人精品在线一区二区| 国语对白做受xxxxx在| 日韩久久一级毛片| 成人全视频在线观看免费播放| 国产乱人伦av在线麻豆a| 伊人狠狠色丁香婷婷综合| 蜜桃一区二区三区在线看| 亚洲国产av综合一区| 国产色xx群视频射精| 日本高清不卡二区| 亚洲天堂av在线一区| 欧美日韩在线视频一区| 国内揄拍国内精品| 黄色三级一区二区三区|