亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的壯語詞性標(biāo)注

        2020-04-20 05:03:12唐素勤孫亞茹李志欣張燦龍
        計(jì)算機(jī)工程 2020年4期
        關(guān)鍵詞:壯語語料方法

        唐素勤,孫亞茹,李志欣,張燦龍

        (廣西師范大學(xué) a.廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室; b.教育學(xué)部 教育技術(shù)系,廣西 桂林 541004)

        0 概述

        詞性標(biāo)注是自然信息處理的一項(xiàng)基礎(chǔ)性工作。詞性標(biāo)注結(jié)果的性能直接制約著自然語言處理技術(shù)的發(fā)展,對(duì)詞法分析、句法分析、語義分析、信息提取等研究領(lǐng)域有很大的影響。據(jù)維基百科統(tǒng)計(jì),壯語是中國境內(nèi)使用人口數(shù)位居第二和世界使用人口數(shù)排名第65的語言。壯文信息處理開始于19世紀(jì)80年代,時(shí)至今日,壯語的智能信息處理與其他少數(shù)民族語言相比仍發(fā)展緩慢。詞處理技術(shù)的不成熟和語料的嚴(yán)重匱乏是制約壯語信息處理技術(shù)發(fā)展的主要原因。

        壯族文字包含古壯字和現(xiàn)代壯字兩種,因古壯字缺乏規(guī)范,未能成為壯族統(tǒng)一的文字,現(xiàn)代壯字也稱拼音壯文,是中華人民共和國成立后,中央人民政府幫助創(chuàng)制并批準(zhǔn)推行使用的第一種少數(shù)民族新文字。拼音壯文的誕生,為壯族人民的學(xué)習(xí)和交流帶來便利,也為壯族文化的發(fā)展提供了有力的工具[1]。目前,現(xiàn)代壯字在諸多場合得到應(yīng)用。例如,廣西省內(nèi)的招牌、公章、路牌、站牌、公共標(biāo)志,廣西省發(fā)放的身份證,大型會(huì)議(全國黨代會(huì)、人大會(huì)、政協(xié)會(huì)議)文件,人民幣上的第5種文字(其他4種語言分別是漢、蒙、藏、維),《廣西民族報(bào)》《三月三》等文藝雜志,農(nóng)村掃盲、山歌培訓(xùn)、種養(yǎng)科技培訓(xùn),壯族中小學(xué)課本。廣西民族出版社設(shè)有壯文編譯室,中央民族語文翻譯局設(shè)有壯文翻譯室。自1987年起,壯文翻譯室已經(jīng)為每年的“兩會(huì)”、黨的十三大到十七大翻譯文件1 000多萬字,翻譯出版了《毛澤東選集》等諸多著作。

        本文提出一種基于強(qiáng)化學(xué)習(xí)的壯語詞性標(biāo)注方法。根據(jù)壯語的文法特點(diǎn)構(gòu)建標(biāo)注集,利用基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的序列標(biāo)注模型,依據(jù)上下文的文本特征信息進(jìn)行詞性選擇,改善模型的訓(xùn)練結(jié)果。在此基礎(chǔ)上,將目標(biāo)詞性作為環(huán)境反饋,通過特征學(xué)習(xí)不斷逼近目標(biāo)真實(shí)值,得到精標(biāo)注文本。

        1 相關(guān)工作

        針對(duì)壯語文字的信息處理,目前已有編輯工具、英漢壯釋義詞典及輔助翻譯軟件等[2-4]。為推動(dòng)壯語的教育、出版、交流與資產(chǎn)保護(hù),中央民族語文翻譯局于2018年11月在南寧召開了壯語智能語音翻譯軟件發(fā)布會(huì),以前沿科技推動(dòng)壯語信息處理技術(shù)的發(fā)展。在自然語言處理領(lǐng)域,詞性標(biāo)注技術(shù)是文本處理的基礎(chǔ),目前英語、中文、藏文的詞性標(biāo)注精確率分別為97.96%[5]、90.95%[6]和87.76%[7],使得上述語言在語義分析、信息提取、機(jī)器翻譯等方面取得了杰出的成果。壯語由于缺乏詞性標(biāo)注領(lǐng)域的工作,目前還沒有標(biāo)注語料庫,因此需從構(gòu)建標(biāo)注語料出發(fā),結(jié)合人工智能技術(shù)實(shí)現(xiàn)壯語自動(dòng)化詞性標(biāo)注。

        隨著人工智能的迅速發(fā)展,神經(jīng)網(wǎng)絡(luò)模型被引入自然語言處理任務(wù)中,在序列標(biāo)注領(lǐng)域取得了一系列的成果。例如,基于卷積神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注模型,其詞性標(biāo)注的準(zhǔn)確率可達(dá)89.59%[8]。歷史經(jīng)驗(yàn)?zāi)軌驅(qū)ξ磥淼墓ぷ饔幸欢ǖ妮o助作用,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[9]的誕生,使得模型能夠有效利用記憶來輔助下一步?jīng)Q策,其在序列標(biāo)注工作上的精確率達(dá)97.96%。但是,隨著句子長度的增加,誤差的遞增或減少會(huì)導(dǎo)致梯度消失或梯度爆炸。LSTM模型[10]能夠不受句子長度的限制,利用細(xì)胞單元控制和保留有效信息,避免了梯度消失或爆炸的產(chǎn)生。監(jiān)督學(xué)習(xí)模型在進(jìn)行訓(xùn)練時(shí),現(xiàn)實(shí)值與估計(jì)值的誤差傳遞由BP算法[11]完成,前向傳播訓(xùn)練值并后向傳播誤差,從而調(diào)整各層參數(shù),以達(dá)到期望效果。監(jiān)督學(xué)習(xí)在很大程度上依賴于手工標(biāo)注的特征和知識(shí),在遇到信息不完善或缺少標(biāo)簽的情況時(shí),這一問題尤為突出,這時(shí)可采用概率的方法進(jìn)行決策,在獎(jiǎng)勵(lì)策略的推動(dòng)下,生成最優(yōu)決策路徑,并引入強(qiáng)化學(xué)習(xí)的機(jī)制[12-14]。本文嘗試將強(qiáng)化學(xué)習(xí)運(yùn)用在詞性標(biāo)注領(lǐng)域中,把RNN作為策略網(wǎng)絡(luò),并將相關(guān)信息放在記憶網(wǎng)絡(luò)中作為決策的依據(jù),提高決策效率。

        2 本文詞性標(biāo)注方法

        本文詞性標(biāo)注過程大致可以分為以下4個(gè)步驟:

        1)對(duì)預(yù)標(biāo)注文本進(jìn)行詞向量表示。

        2)神經(jīng)網(wǎng)絡(luò)隱藏層對(duì)輸入詞向量進(jìn)行特征提取,同時(shí),將句子的語義信息作為語義特征,與特征向量進(jìn)行融合。

        3)輸出層依據(jù)融合后的隱藏特征做出詞性判斷。在判斷的過程中,將目標(biāo)詞性作為環(huán)境反饋,反向傳播調(diào)整參數(shù),優(yōu)化策略模型。

        在上述過程中,標(biāo)注語料庫和標(biāo)注方法是必不可少的。標(biāo)注語料庫是對(duì)詞的詞性進(jìn)行定義,在對(duì)預(yù)標(biāo)注文本進(jìn)行粗標(biāo)注后,利用標(biāo)注方法進(jìn)行精標(biāo)注。

        2.1 標(biāo)注語料庫

        壯語的詞匯按照詞義、結(jié)構(gòu)、組合等特點(diǎn)可劃分為13類,即名詞、量詞、代詞、動(dòng)詞、形容詞、指示詞、數(shù)詞、副詞、感嘆詞、介詞、連詞、助詞和語氣詞。前面5類統(tǒng)稱為實(shí)詞,其特點(diǎn)是能做多種詞組成分,除量詞外都能單獨(dú)用來回答問題。最后4類統(tǒng)稱為虛詞,其特點(diǎn)是不能做詞組成分,且不能單獨(dú)用來回答問題。中間4類為半實(shí)詞,其特點(diǎn)是介于前后兩種詞類之間,一般只能做某一種詞組成分,或只能做獨(dú)詞句,不單獨(dú)用來回答問題。在實(shí)詞中,名詞、量詞、代詞稱為體詞,經(jīng)常做主語和賓語,動(dòng)詞和形容詞稱為謂詞,經(jīng)常做謂語。虛詞中的介詞、連詞、助詞稱為關(guān)系性虛詞,語氣詞則是功能性虛詞。

        詞類是根據(jù)語法上的意義和特征對(duì)詞進(jìn)行分類。壯語的詞類與漢語的詞類基本相同,具有共性[15]。圖1給出一個(gè)簡單的壯漢句法分析示例。

        圖1 壯漢句法分析示例Fig.1 Example of syntactic analysis of Zhuang andChinese language

        目前,壯語無詞性標(biāo)注庫,因此,本文參考中英文詞類劃分的粒度和標(biāo)記符號(hào),以及前人對(duì)壯語詞類的研究,將壯文詞語分為一級(jí)、二級(jí)和三級(jí)3個(gè)不同類別,共包括3個(gè)一級(jí)類別、13個(gè)二級(jí)類別和59個(gè)三級(jí)類別。本文從《壯漢詞匯》[16]《布洛陀》[17]等壯語文本中獲取語料,根據(jù)壯語的文法特點(diǎn)和賓州樹庫符號(hào)構(gòu)建標(biāo)注集,標(biāo)注規(guī)范及各類別詞數(shù)統(tǒng)計(jì)結(jié)果如表1所示。

        表1 詞性標(biāo)注規(guī)范及詞數(shù)統(tǒng)計(jì)Table 1 Tagging specifications of part of speech and statistics of words

        2.2 標(biāo)注模型

        監(jiān)督學(xué)習(xí)的模型需要利用有標(biāo)簽的語料進(jìn)行訓(xùn)練,對(duì)于不完備的信息,監(jiān)督學(xué)習(xí)可能無法使用。在這種情況下,可以采用策略梯度法等概率的方法來學(xué)習(xí)。如果盲目采取策略,可能會(huì)使效率下降,通過記憶網(wǎng)絡(luò)可以把不同時(shí)間點(diǎn)的信息湊成一個(gè)整體,利用循環(huán)記憶來完善部分觀測(cè)信息,推理出完整的狀態(tài)信息。本文采用LSTM作為策略網(wǎng)絡(luò),并將其結(jié)果作為決策的依據(jù)。

        2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

        本文以簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)為例進(jìn)行介紹,具體結(jié)構(gòu)如圖2所示,其包含輸入層、隱藏層和輸出層。

        圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)模型Fig.2 Recurrent neural network model

        模型訓(xùn)練之前需要進(jìn)行預(yù)處理,一般使用word2vec[18]將輸入的文本表示成詞向量,以便于相似性計(jì)算。循環(huán)神經(jīng)網(wǎng)絡(luò)模型是關(guān)于時(shí)間序列的模型,其將具有n個(gè)詞的待標(biāo)注序列X={x1,x2,…,xt,…,xn}映射到隱藏層并進(jìn)行特征提取,輸出目標(biāo)詞性序列Y={y1,y2,…,yt,…,yn}。輸入層的維度與輸入文本詞特征表示的維度相同,輸出層與標(biāo)簽的維度相同。在隱藏層中,當(dāng)前的隱藏狀態(tài)與先前的隱藏狀態(tài)連接,以存儲(chǔ)歷史信息。

        當(dāng)前隱藏層是關(guān)于先前隱層特征ht-1與當(dāng)前輸入詞特征xt的函數(shù)。隱藏層狀態(tài)在t時(shí)刻進(jìn)行更新,公式如下:

        ht=f(ht-1,xt)=f(Wht-1+Uxt)

        (1)

        其中,W是隱藏層連接的權(quán)重參數(shù),U是輸入層與隱藏層間的權(quán)重參數(shù),f是一個(gè)sigmoid函數(shù),計(jì)算公式如下:

        (2)

        輸出層狀態(tài)表示在t時(shí)刻標(biāo)簽上的概率分布,是關(guān)于隱藏特征ht的函數(shù),具體公式如下:

        yt=g(Vht)

        (3)

        其中,V是隱藏層與輸出層間的權(quán)重參數(shù),g是一個(gè)softmax函數(shù):

        (4)

        2.2.2 語義特征

        文獻(xiàn)[19]將潛在的詞信息整合到基于字符的模型框架中,實(shí)現(xiàn)了潛在相關(guān)命名實(shí)體的消歧。文獻(xiàn)[6]將字符信息整合到詞表征中,在中文序列標(biāo)注任務(wù)中取到了較優(yōu)性能。本文假設(shè)句子的語義特征對(duì)目標(biāo)詞性的選擇是有幫助的,并依據(jù)賓州樹庫構(gòu)建語義特征向量。以“De dwg bouxcuengh.(我是壯族人)”為例構(gòu)建的依存樹結(jié)構(gòu)如圖3所示。其中,SBV表示主謂關(guān)系,POB表示動(dòng)賓關(guān)系。

        圖3 依存樹結(jié)構(gòu)示例Fig.3 Example of dependency tree structure

        本文采用從下向上遍歷依存樹的方法構(gòu)建語義特征向量c。對(duì)輸入的句子X={x1,x2,…,xt,…,xn}有如下公式:

        cDe=tanh(MrxDe+b)

        (5)

        cBouxcuengh=tanh(MrxBouxcuengh+b)

        (6)

        其中,Mr表示關(guān)系矩陣,b是偏差向量。

        在葉節(jié)點(diǎn)詞向量構(gòu)建完成后,依次構(gòu)建上層節(jié)點(diǎn)向量,具體如下:

        cdwg= tanh(MSBV·cDe+Mrxdwg+MPOB·cBouxcuengh+b)

        (7)

        通過式(7)使c包含整個(gè)句子的語義信息,并將語義特征向量整理成如下形式:

        (8)

        其中,Kn表示節(jié)點(diǎn)n與其他子節(jié)點(diǎn)k之間的關(guān)系矩陣。

        循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層狀態(tài)在t時(shí)刻的公式更新如下:

        ht=f(ht-1,xt-1,c)

        (9)

        輸出層的條件概率公式為:

        yt=softmax(Vht+b,c)

        (10)

        2.2.3 策略模型

        本文將詞性標(biāo)注問題看作由狀態(tài)、行為、獎(jiǎng)勵(lì)和策略4個(gè)要素組成。其中,將詞性看作狀態(tài),對(duì)目標(biāo)詞進(jìn)行詞性標(biāo)注是行為,然后依據(jù)標(biāo)注的詞性在任務(wù)中的正確概率打一個(gè)分?jǐn)?shù),即獎(jiǎng)勵(lì),在給定一個(gè)狀態(tài)s的情況下采取任何可能行為的概率即為策略,它是一個(gè)概率密度函數(shù)。上述操作的目的是調(diào)整參數(shù),優(yōu)化策略函數(shù),從而得到一個(gè)最優(yōu)的策略。詞性標(biāo)注模型如圖4所示。

        圖4 詞性標(biāo)注模型Fig.4 Model of part of speech tagging

        輸入一個(gè)句子序列X1:T={x1,x2,…,xt,…,xT},通過模型訓(xùn)練后,輸出詞性標(biāo)注序列Y1:T={y1,y2,…,yt,…,yT},yt∈Υ,Υ是候選詞性標(biāo)注集合。在t時(shí)刻,狀態(tài)s是目前產(chǎn)生的序列{y1,y2,…,yt-1},行為a就是將要選擇的下一個(gè)yt。因此,策略值Q(s,a|θ)是隨機(jī)地,參數(shù)θ通過環(huán)境中的信息特征進(jìn)行學(xué)習(xí),不斷逼近真實(shí)的Q(s,a)函數(shù)。Q在選擇行為后才得以確定,保證從起始狀態(tài)s0開始,即可生成預(yù)期獎(jiǎng)勵(lì)最大的序列。

        目標(biāo)狀態(tài)確定算法的具體步驟如算法1所示。

        算法1目標(biāo)狀態(tài)確定算法

        輸出目標(biāo)狀態(tài)s

        1.令當(dāng)前狀態(tài)s=s0;

        3.令當(dāng)前狀態(tài)s=s′;

        4.重復(fù)執(zhí)行步驟2和步驟3,直到確定目標(biāo)狀態(tài)。

        強(qiáng)化學(xué)習(xí)的目的是找出能夠獲得最多獎(jiǎng)勵(lì)的最優(yōu)策略,根據(jù)文獻(xiàn)[20],目標(biāo)函數(shù)可寫為如下形式:

        (11)

        目標(biāo)值的迭代更新源自Bellman方程[21],具體如下:

        (12)

        其中,r是獎(jiǎng)勵(lì)值,γ是未來獎(jiǎng)勵(lì)值的懲罰因子(0≤γ≤1),s′和a′表示下一個(gè)狀態(tài)和行為,那么損失函數(shù)可表達(dá)為目標(biāo)值與預(yù)期值的誤差,具體如下:

        (13)

        對(duì)目標(biāo)函數(shù)求參,具體如下:

        (14)

        通過式(15)對(duì)參數(shù)進(jìn)行更新:

        θ←θ+αhθJ(θ)

        (15)

        詞性標(biāo)注算法的具體步驟如算法2所示。

        算法2詞性標(biāo)注算法

        1.用隨機(jī)參數(shù)θ初始化Qθ

        2.預(yù)訓(xùn)練Qθ

        3.更新參數(shù)β←θ

        4.repeat

        5.for each epoch do

        6.for each batch do

        7.LSTM前向傳遞

        8.強(qiáng)化學(xué)習(xí)環(huán)境反饋:

        9.Y1:T={y1,…,yt,…,yT}~Qθ

        10.LSTM后向傳遞:

        11.更新參數(shù)

        12.end for

        13.end for

        14.更新參數(shù) β←θ

        15.模型收斂

        3 實(shí)驗(yàn)結(jié)果與分析

        本文所選取的壯文語料來自壯族人民網(wǎng)2015年、2016年和2017年的新聞文本內(nèi)容。對(duì)其預(yù)處理后進(jìn)行訓(xùn)練和分析,實(shí)驗(yàn)詳細(xì)展示了模型在不同因素影響下的結(jié)果。

        3.1 實(shí)驗(yàn)設(shè)置

        在訓(xùn)練之前首先對(duì)該語料進(jìn)行特殊標(biāo)點(diǎn)符號(hào)處理,并將通過word2vec訓(xùn)練得到的詞向量作為特征。本文以人工標(biāo)注的900句壯文作為測(cè)試語料,采用標(biāo)注庫和模型相結(jié)合進(jìn)行詞性標(biāo)注。使用0.1的學(xué)習(xí)率,將隱藏層的圖層大小設(shè)置為300。在模型迭代過程中給出F1值評(píng)測(cè)指標(biāo),并將標(biāo)注結(jié)果看作一項(xiàng)機(jī)器翻譯的工作,采用BLEU[22]評(píng)測(cè)方法對(duì)訓(xùn)練結(jié)果進(jìn)行評(píng)估。

        3.2 結(jié)果分析

        本文在對(duì)壯語進(jìn)行詞性標(biāo)注的同時(shí),結(jié)合英文詞性標(biāo)注對(duì)模型進(jìn)行橫向分析。英文語料來自CoNLL2000和CoNLL2003的WSJ(華爾街日?qǐng)?bào)語料庫)數(shù)據(jù)集。實(shí)驗(yàn)分為3個(gè)部分進(jìn)行測(cè)評(píng),并對(duì)壯、英在不同迭代次數(shù)、不同句子長度下的詞性標(biāo)注結(jié)果進(jìn)行詳細(xì)分析,同時(shí),將標(biāo)注結(jié)果看成是一項(xiàng)翻譯工作,劃分不同元組,對(duì)BLEU數(shù)值進(jìn)行分析。

        在固定句子長度后,通過調(diào)整迭代次數(shù)完成詞性標(biāo)注。迭代次數(shù)分別設(shè)為5、10、15、20和25,詞性標(biāo)注結(jié)果如圖5所示??梢钥闯?隨著迭代次數(shù)的增加,壯語和英語的F1值均呈現(xiàn)出先增加后減小的趨勢(shì)。在迭代次數(shù)為10時(shí),英語的標(biāo)注結(jié)果達(dá)到最優(yōu);在迭代次數(shù)為15時(shí),壯語的標(biāo)注結(jié)果達(dá)到最優(yōu)。因受標(biāo)注庫的影響,英語的F1值起點(diǎn)比壯語高,并可以迅速達(dá)到最好的效果。壯語的訓(xùn)練相對(duì)緩慢,但最終可以達(dá)到預(yù)期效果。

        圖5 不同迭代次數(shù)下的詞性標(biāo)注結(jié)果Fig.5 Tagging results of parts of speech varying with thenumber of iterations

        將迭代次數(shù)固定為10和15,通過調(diào)整壯語和英語句子的長度(詞數(shù))來完成詞性標(biāo)注,詞數(shù)分別設(shè)為1、5、10和15,詞性標(biāo)注的結(jié)果如圖6所示。從圖6可以看出,隨著句子長度的增加,F1值有下降的趨勢(shì),并且壯語和英語均在詞數(shù)為1時(shí)取得最佳效果。句子長度大于10時(shí),F1值下降趨勢(shì)明顯。

        圖6 不同句子長度下的詞性標(biāo)注結(jié)果Fig.6 Tagging results of parts of speech varying with thelength of sentences

        為測(cè)試本文模型的序列標(biāo)注性能,選取簡單的序列標(biāo)注模型CRF、RNN和LSTM在相同的數(shù)據(jù)集上進(jìn)行對(duì)比訓(xùn)練。由于訓(xùn)練模型采用相同的初始化單詞嵌入方法且數(shù)據(jù)集相同,因此不同的結(jié)果歸因于不同的網(wǎng)絡(luò)模型。4種模型的詞性標(biāo)注性能如表2所示,其中,最優(yōu)結(jié)果加粗標(biāo)示??梢钥闯?LSTM模型相比其他模型較健壯,引入RL后在CoNLL2000和CoNLL2003數(shù)據(jù)集上的性能明顯提升,在語料庫不完善的壯語數(shù)據(jù)集上優(yōu)勢(shì)顯著。

        表2 4種模型的詞性標(biāo)注性能比較Table 2 Comparison of part-of-speech tagging performance of four models %

        本文選取4種不同方法與本文方法進(jìn)行對(duì)比,結(jié)果如表3所示。其中,Florian方法[23]組合了多種機(jī)器學(xué)習(xí)分類器,在CoNLL2003挑戰(zhàn)賽上取得了88.76%的F1值。Chieu方法[24]在外部詞典的幫助下,其F1值達(dá)到88.31%。Passos方法[25]采用一種新的形式學(xué)習(xí)單詞嵌入,使其可以利用相關(guān)詞典的信息來改進(jìn)詞表示,F1值達(dá)到90.90%。Yasunaga方法[26]通過對(duì)抗訓(xùn)練實(shí)現(xiàn)多語言詞性標(biāo)注,其F1值達(dá)到97.59%。從表3可以看出,在英語數(shù)據(jù)集上,Yasunaga方法通過對(duì)抗訓(xùn)練實(shí)現(xiàn)多語言詞性標(biāo)注,該方法的F1值最高,但是,該方法目前未針對(duì)壯語進(jìn)行標(biāo)注。本文方法在英語數(shù)據(jù)集上排名第三,在語料不完善的壯語數(shù)據(jù)集上取得了一定的成果。

        表3 5種方法的F1值對(duì)比Table 3 Comparison of F1 values of five methods %

        本文使用BLEU分?jǐn)?shù)作為評(píng)估度量來衡量生成的文本與人類創(chuàng)建的文本之間的相似度。BLEU是對(duì)待評(píng)價(jià)譯文和參考譯文的n元組進(jìn)行比較,計(jì)算出匹配片段的個(gè)數(shù),匹配片段數(shù)越多,待評(píng)價(jià)譯文質(zhì)量越好。BLEU最初用于自動(dòng)判斷機(jī)器翻譯的質(zhì)量,其關(guān)鍵點(diǎn)是機(jī)器創(chuàng)建的結(jié)果與人類提供的參考文獻(xiàn)之間的相似性。對(duì)狀語和英語數(shù)據(jù)集各選取若干樣本分別進(jìn)行測(cè)試分析,同時(shí)以人工標(biāo)注的結(jié)果作為參考對(duì)比。訓(xùn)練集、驗(yàn)證集和測(cè)試集的句子、標(biāo)記和標(biāo)簽的具體信息如表4所示。

        表4 訓(xùn)練集、驗(yàn)證集和測(cè)試集的句子、標(biāo)記和標(biāo)簽個(gè)數(shù)Table 4 Number of sentences,tags and labels for training sets,validation sets and test sets

        對(duì)于英文的評(píng)價(jià),將n-gram設(shè)定為4,英語數(shù)據(jù)集中句子的平均長度(詞數(shù))為23.462,評(píng)估結(jié)果如表5所示,而壯語數(shù)據(jù)集中的句子長度為6.153,因此使用BLEU-3、BLEU-4來評(píng)估壯語的表現(xiàn),評(píng)估結(jié)果如表6所示。p-value是系統(tǒng)性能值與基線的風(fēng)險(xiǎn)判斷,p-value越小說明系統(tǒng)樣本觀測(cè)值越有價(jià)值。

        表5 英語詞性標(biāo)注結(jié)果評(píng)估Table 5 Evaluation of part of speech tagging results of English

        表6 壯語詞性標(biāo)注結(jié)果評(píng)估Table 6 Evaluation of part of speech tagging results of the Zhuang language

        從機(jī)器翻譯的角度評(píng)測(cè)模型輸出的結(jié)果,可以評(píng)估文本的質(zhì)量和模型的實(shí)用性。從表5結(jié)果可以看出,英語的人工標(biāo)注結(jié)果和系統(tǒng)標(biāo)注結(jié)果的p-value都小于0.01,說明測(cè)試結(jié)果成立,且本文方法的標(biāo)注結(jié)果與真實(shí)人類的數(shù)據(jù)相當(dāng)。從表6可以看出,壯語的p-value介于0.1與0.5之間,表示本文方法的樣本觀測(cè)值具有一定價(jià)值,說明測(cè)試結(jié)果可靠。

        4 結(jié)束語

        本文在研究現(xiàn)有壯語詞性標(biāo)注方法的基礎(chǔ)上,提出一種基于強(qiáng)化學(xué)習(xí)的詞性標(biāo)注方法。該方法構(gòu)建壯語標(biāo)注詞典,以序列標(biāo)注模型LSTM為策略網(wǎng)絡(luò),利用記憶網(wǎng)絡(luò)完善部分觀測(cè)信息,并引入強(qiáng)化學(xué)習(xí)框架,將目標(biāo)值作為環(huán)境的反饋,通過特征學(xué)習(xí)實(shí)現(xiàn)調(diào)參迭代,得到精標(biāo)注文本。實(shí)驗(yàn)結(jié)果表明,該方法不僅可在壯語數(shù)據(jù)集上進(jìn)行詞性標(biāo)注,在英語數(shù)據(jù)集上也取得了較好的效果。下一步將提高詞向量的訓(xùn)練質(zhì)量、測(cè)試語料句質(zhì)量(如句子長度、詞長度、未登錄詞等)和標(biāo)注庫的質(zhì)量,以改善本文方法的詞性標(biāo)注性能。

        猜你喜歡
        壯語語料方法
        壯語電視新聞制作創(chuàng)新探析
        新聞潮(2021年11期)2021-12-21 14:00:11
        壯語故事會(huì)引人入勝
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        可能是方法不對(duì)
        云南河口壯語地名的語言文化解讀
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        《苗防備覽》中的湘西語料
        日本一区二区三区激视频| 男人扒开女人双腿猛进女人机机里| 91情侣视频| 日韩人妻免费一区二区三区 | 免費一级欧美精品| 少妇精品久久久一区二区三区| 五月天综合社区| 国产午夜视频高清在线观看| 日韩av无码社区一区二区三区 | 媚药丝袜美女高清一二区| 国产肉体xxxx裸体784大胆| 久久婷婷色综合一区二区 | 人妻被公上司喝醉在线中文字幕| 嫩草伊人久久精品少妇av| 白又丰满大屁股bbbbb| 国产亚洲美女精品久久| 日韩亚洲一区二区三区在线| 国产一区二区精品久久岳| 亚洲欧美日韩综合久久久| 久久精品国产72国产精福利| 少妇人妻无一区二区三区 | 少妇精品偷拍高潮少妇在线观看| 加勒比一本heyzo高清视频| 色噜噜狠狠色综合成人网| 久久6国产| 亚洲视频精品一区二区三区| 日本一区二区视频免费在线看| 熟女少妇在线视频播放| 五月婷网站| 97人妻精品一区二区三区免费 | 久久久久久中文字幕有精品| 在线观看国产自拍视频| 久久久亚洲欧洲日产国码aⅴ| 曰本女人与公拘交酡免费视频| 国产一区二区三区杨幂| 大香蕉av一区二区三区| 无码免费一区二区三区| 亚洲无码夜夜操| 青青草手机视频免费在线播放| 巨人精品福利官方导航| XXXXBBBB欧美|