亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隱馬爾科夫模型的古漢語詞性標(biāo)注

        2020-06-29 07:16:23楊新生胡立生
        微型電腦應(yīng)用 2020年5期
        關(guān)鍵詞:古漢語

        楊新生 胡立生

        摘 要:古漢語在語法和形態(tài)上與現(xiàn)代漢語有著本質(zhì)的區(qū)別。從統(tǒng)計(jì)的角度出發(fā),首先為古漢語設(shè)計(jì)一個(gè)標(biāo)記集,將隱馬爾可夫模型(HMM)與維特比算法相結(jié)合,以此對(duì)古漢語進(jìn)行詞性標(biāo)注。通過對(duì)傳統(tǒng)方法的改進(jìn),最終bigram模型和trigram模型的標(biāo)注準(zhǔn)確率分別提高到94.9%和96.5%,同時(shí)未登錄詞的標(biāo)注精度也有顯著提高。該方法應(yīng)用于古漢語詞性標(biāo)注中,能根據(jù)古漢語的特點(diǎn)有效提高標(biāo)注精度,并且在古漢語機(jī)器翻譯等領(lǐng)域有廣泛應(yīng)用。

        關(guān)鍵詞:詞性標(biāo)注;古漢語;隱馬爾科夫模型

        Abstract:Classical Chinese is essentially different from modern Chinese in grammar and form. From a statistical point of view, a tag set is designed for classical Chinese firstly, then Hidden Markovian Model (HMM) and Viterbi algorithm are used to tag part-of-speech in classical Chinese. The accuracies of bigram model and trigram model are improved to 94.9% and 96.5% respectively compared to traditional method, and the accuracy of unknown words is also improved significantly. This method can effectively improve the accuracy of part-of-speech tagging according to the characteristics of classical Chinese, and has wide applications in the field of machine translation of classical Chinese.

        Key words:part-of-speech tagging;classical Chinese;Hidden Markovian model

        0 引言

        詞性標(biāo)注是自然語言處理的基礎(chǔ)。它為句子中的單詞選擇最恰當(dāng)?shù)木浞悇e序列(詞性),并將其輸出傳遞到下一級(jí)處理中,通常是語法分析器。在過去的20年里,詞性標(biāo)注的準(zhǔn)確率在Penn Treebank[1]等著名英語語料庫中得到顯著提高。同時(shí)中文詞性標(biāo)注的準(zhǔn)確率也在顯著提高[2]。有許多用于詞性標(biāo)注的機(jī)器學(xué)習(xí)方法,其中最成功的是基于規(guī)則和基于統(tǒng)計(jì)的方法。

        典型的基于規(guī)則的標(biāo)注器使用上下文信息為有歧義的單詞分配詞性標(biāo)簽[3]。一般基于規(guī)則的標(biāo)注器錯(cuò)誤率要高于基于統(tǒng)計(jì)的標(biāo)注器,該方法通過一組確定性的規(guī)則而不是一個(gè)大型統(tǒng)計(jì)表進(jìn)行標(biāo)注[1]。在基于規(guī)則的標(biāo)注器中可以通過上下文規(guī)則作為約束來提高標(biāo)注準(zhǔn)確率。

        基于統(tǒng)計(jì)方法的標(biāo)注器無需對(duì)輸入進(jìn)行任何句法分析就能夠獲得很高的精確度[2]?;诮y(tǒng)計(jì)的方法有很多,著名的有隱馬爾科夫模型和最大熵模型。隱馬爾科夫模型在詞性標(biāo)注中應(yīng)用最廣泛,它起源于維特比算法[4]。在該模型中,通常利用人工標(biāo)注的語料庫進(jìn)行訓(xùn)練,以此獲得單詞-標(biāo)記的概率[5]。最大熵模型可以更好地利用上下文信息,這種方法比隱馬爾科夫模型具有更高的精確度[6]。

        隱馬爾科夫模型最大的局限性是未登錄詞的預(yù)測(cè)問題,以往研究表明對(duì)未登錄詞標(biāo)注的準(zhǔn)確率明顯低于已知單詞。在英文的詞性標(biāo)注中,可以根據(jù)單詞后綴進(jìn)行預(yù)測(cè)[1],但此方法對(duì)中文不適用。

        現(xiàn)代漢語是沒有分隔詞的,例如以下短語“研究生命起源”,可以分隔為“研究生/命/起源”,還可以被分隔為“研究/生命/起源”。顯然,第一種分詞結(jié)果是錯(cuò)誤的。正確的分詞是詞性標(biāo)注的第一步,這使中文的詞性標(biāo)注比其他語言更難。一般來看,古漢語是比現(xiàn)代漢語更難理解的,因?yàn)閮烧咚玫恼Z法不同。但從詞性標(biāo)注的角度來看,古漢語要更簡(jiǎn)單,因?yàn)榇蠖鄶?shù)詞都是單字形式,不需要分詞。

        關(guān)于標(biāo)點(diǎn)符號(hào),古漢語是沒有標(biāo)點(diǎn)符號(hào)的,本文所有輸入都通過人工的方式進(jìn)行處理。國(guó)內(nèi)大多數(shù)古漢語文獻(xiàn)都已經(jīng)被手工加過標(biāo)點(diǎn),因此本文的方法仍然適用。

        在未登錄詞預(yù)測(cè)方面,歐洲語言中的詞性標(biāo)注大多數(shù)利用后綴或未登錄詞的上下文信息進(jìn)行預(yù)測(cè),但中文沒有后綴也沒有大小寫區(qū)分,特別是在古漢語中,一個(gè)字就是一個(gè)詞,所以無法繼續(xù)拆分。

        與印歐語系相比,現(xiàn)代漢語和古漢語的處理過程,如圖1所示。

        在計(jì)算機(jī)中,中文由GB/BIG5編碼表示,無法從編碼中獲取任何包含結(jié)構(gòu)或意義的信息。本文將結(jié)合隱馬爾科夫模型提出簡(jiǎn)單有效的方法來解決未登錄詞的標(biāo)注問題。

        1 古漢語的語料庫和標(biāo)記集

        標(biāo)記集的設(shè)計(jì)對(duì)標(biāo)注算法的準(zhǔn)確性和效率至關(guān)重要,而大部分使用那些著名語料庫和配套標(biāo)記集作為標(biāo)準(zhǔn)測(cè)試平臺(tái)的研究人員都忽視了這一點(diǎn)。此外,古漢語中的歧義要比印歐語系更多,因此本節(jié)將著重介紹語料庫的構(gòu)建和標(biāo)簽集的設(shè)計(jì)。

        1.1 語料庫

        為了評(píng)估文中的標(biāo)注算法和標(biāo)記集,這里利用一些經(jīng)典名著,如《論語》、《道德經(jīng)》等建立了一個(gè)小型語料庫。

        該語料庫選擇文本的標(biāo)準(zhǔn)是:省略專有名詞,省略非常生僻的詞,省略特殊語法。由于這三個(gè)標(biāo)準(zhǔn)對(duì)大多數(shù)古漢語著作都成立,所以本文的語料庫確實(shí)反映了典型的古漢語特征。最后得到了大約1 000個(gè)詞的語料庫作為訓(xùn)練集。對(duì)于測(cè)試集,這三個(gè)標(biāo)準(zhǔn)仍然成立。本文從《荀子》中選擇一段相對(duì)簡(jiǎn)單的文本作為測(cè)試集,長(zhǎng)度大約是200個(gè)詞。

        1.2 標(biāo)記集

        標(biāo)記集的設(shè)計(jì)存在一個(gè)權(quán)衡的過程,大小通常為20到400不等。一方面,為了獲得較高的自動(dòng)標(biāo)注精度,將動(dòng)詞、形容詞等基本詞匯類別劃分為謂語、定語等子類別。這些區(qū)分很重要,但它會(huì)產(chǎn)生數(shù)據(jù)稀疏的問題??紤]到本文語料庫比較小,這里沒有使用過于精確的標(biāo)記集。

        漢語語法側(cè)重于詞語序列而不是詞形信息,因此它比印歐語系等缺乏靈活性的語言更加容易引起歧義。換句話說,對(duì)詞性標(biāo)注來說上下文信息比詞匯信息更有價(jià)值??紤]到這一點(diǎn),本文設(shè)計(jì)了一個(gè)標(biāo)記集,它不僅包含詞匯類別,而且包含一個(gè)詞可能所屬的句子成分。例如,將形容詞分為4個(gè)子類別,如形容詞作定語等,這種區(qū)分是影響標(biāo)注準(zhǔn)確率的一個(gè)重要因素,如表1所示。

        同時(shí)注意,此標(biāo)記集中將標(biāo)點(diǎn)分為兩類,分別為終止性標(biāo)點(diǎn)和停頓性標(biāo)點(diǎn)。

        2 標(biāo)注算法

        本文的標(biāo)注算法基于隱馬爾科夫模型實(shí)現(xiàn)。

        2.1 隱馬爾科夫模型

        為避免數(shù)據(jù)稀疏的問題,詞性標(biāo)注器中n-grams通常n<4,本文使用了unigrams,bigrams和trigrams。

        與傳統(tǒng)HMM不同的是,這里將詞頻表示為單詞-標(biāo)記的概率,而不是標(biāo)記-單詞的概率。

        2.2 動(dòng)態(tài)規(guī)劃算法

        本文的標(biāo)注算法基于Viterbi算法,本質(zhì)上是動(dòng)態(tài)規(guī)劃。為了編程的簡(jiǎn)單性和標(biāo)注的準(zhǔn)確性,這里在每個(gè)句子前添加終止符標(biāo)點(diǎn),并假設(shè)每個(gè)句子都以句號(hào)結(jié)束。

        2.3 未登錄詞處理

        由于中文沒有后綴,歐洲語言使用的基于單詞后綴對(duì)未登錄詞標(biāo)注的方法不適用于現(xiàn)代漢語或古漢語。本文提出對(duì)于訓(xùn)練集中沒有出現(xiàn)過的詞,將其單詞-標(biāo)記概率表示為每個(gè)標(biāo)記的unigrams概率。例如,對(duì)于一個(gè)未登錄詞w,如式(10)所示。

        3 結(jié)果分析

        3.1 準(zhǔn)確率

        本文從《荀子》中選擇了一段相對(duì)簡(jiǎn)單的文本作為測(cè)試集,長(zhǎng)度大約為200個(gè)詞。首先測(cè)試了標(biāo)記集和算法的學(xué)習(xí)曲線。隨著訓(xùn)練集的增大,結(jié)果顯示如圖2所示。

        同時(shí)還測(cè)試了整體的標(biāo)注準(zhǔn)確率,以及針對(duì)已知詞和未登錄詞的標(biāo)注準(zhǔn)確率。

        圖2是標(biāo)注器的學(xué)習(xí)曲線,可以看出標(biāo)注準(zhǔn)確率取決于訓(xùn)練數(shù)據(jù)的數(shù)量。語料庫大小就是訓(xùn)練集的長(zhǎng)度。隨著語料庫的擴(kuò)大,bigrams的準(zhǔn)確率從74.0%上升到94.9%,trigrams的準(zhǔn)確率從69.1%上升到96.5%。當(dāng)語料庫較小時(shí),trigrams的準(zhǔn)確率低于bigrams,主要是由于數(shù)據(jù)稀疏問題。最后,當(dāng)上下文信息更加豐富時(shí),trigrams準(zhǔn)確率則高于bigrams,如圖3所示。

        從圖3的學(xué)習(xí)曲線可以看出對(duì)已知詞的標(biāo)注,bigrams和trigrams的初始準(zhǔn)確率分別為79.1%和74.7%。結(jié)果表明,相比大多數(shù)英文詞性標(biāo)注的結(jié)果,對(duì)于古漢語的標(biāo)注,已知詞的初始標(biāo)注準(zhǔn)確率較低。這主要是因?yàn)榇蠖鄶?shù)英語語料庫中出現(xiàn)的單詞中有一半以上是沒有歧義的,但古漢語中歧義較多,因此當(dāng)古漢語語料庫較小時(shí)會(huì)導(dǎo)致其標(biāo)注準(zhǔn)確率較低。

        還可從圖3看出,對(duì)未登錄詞的標(biāo)注,bigrams和trigrams的初始準(zhǔn)確率分別為65.0%和60.8%。隨著語料庫的擴(kuò)大,最終的準(zhǔn)確率分別為85.1%和93.2%。trigram模型中對(duì)未登錄詞標(biāo)注的高準(zhǔn)確率表明,當(dāng)上下文信息在特定位置具有很強(qiáng)的確定性時(shí),能顯著提高未登錄詞的標(biāo)注精度。

        4 總結(jié)

        本文提出并分析了一種簡(jiǎn)單的基于語料庫和統(tǒng)計(jì)的古漢語詞性標(biāo)注方法。首先為古漢語標(biāo)注設(shè)計(jì)了一套標(biāo)記集,然后將隱馬爾可夫模型(HMM)和維特比算法相結(jié)合來進(jìn)行詞性標(biāo)注,同時(shí)還提出一種針對(duì)漢語中未登錄詞的預(yù)測(cè)方法。最后本文構(gòu)建了一個(gè)小型的古漢語語料庫,選取了一個(gè)典型而簡(jiǎn)單的文本作為測(cè)試集。結(jié)果顯示,隨著訓(xùn)練集的增大,bigrams的準(zhǔn)確率提高到94.9%,trigrams的準(zhǔn)確率提高到96.5%。

        在應(yīng)用方面,本文工作主要在兩個(gè)方面發(fā)揮作用:古漢語現(xiàn)代機(jī)器翻譯和古漢語信息檢索。對(duì)于今后的工作,首先需要解決古漢語的概率上下文無關(guān)文法(PCFG)。另外本文中程序使用的語料庫較小且不包含注釋,為了進(jìn)一步研究可以先人工搭建一個(gè)中型語料庫或者使用其他機(jī)構(gòu)提供的語料庫。

        參考文獻(xiàn)

        [1] Brill E. A simple rule-based part-of-speech tagger[C]// Proceeding of the 3rd Conference on Applied Natural Language Processing(ACL). 地點(diǎn),時(shí)間 1992:152-155.

        [2] 錢智勇,周建忠,童國(guó)平, 等.基于HMM的楚辭自動(dòng)分詞標(biāo)注研究[J].圖書情報(bào)工作,2014,58(4):105-110.

        [3] Hindle D. Acquiring disambiguation rules from text[C]// Proceedings of 27th Annual Meeting of the Association for Computational Linguistics, 地點(diǎn),時(shí)間1989:頁碼.

        [4] Viterbi A. Error bounds for convolution codes and an asymptotically optimal decoding algorithm[J]. IEEE Trans. on Information Theory, 1967(13):260-269.

        [5] 韓霞,黃德根.基于半監(jiān)督隱馬爾科夫模型的漢語詞性標(biāo)注研究[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(12):2813-2816.

        [6] 余昕聰, 李紅蓮, 呂學(xué)強(qiáng). 最大熵和HMM在中文詞性標(biāo)注中的應(yīng)用[J]. 無線互聯(lián)科技, 2014(11):頁碼?.

        (收稿日期:2019.08.21)

        猜你喜歡
        古漢語
        古漢語疑問句末“為”字補(bǔ)證
        “正反同辭”理論在古漢語教學(xué)中創(chuàng)新研究——以“罷極”訓(xùn)釋為例
        如何學(xué)習(xí)掌握古代漢語詞義*——何九盈先生《古漢語詞義叢談》評(píng)介
        上古漢語*kl-、*kr-類聲母的舌齒音演變
        上古漢語方所介詞“在”的對(duì)比研究*——以《今文尚書》、甲骨文和金文為例
        上古漢語“施”字音義考
        見于《說文解字》的晉江、石獅閩南方言上古漢語詞匯
        論古漢語篇章中的連接成分“是時(shí)”
        談?wù)劰艥h語的翻譯
        語言與翻譯(2014年1期)2014-07-10 13:06:11
        活用成語梳理古漢語知識(shí)
        国产成人av三级在线观看韩国| 国产高潮刺激叫喊视频| 国产免费一区二区三区最新不卡| 久久久亚洲精品一区二区| 一区二区中文字幕在线观看污污| 亚洲欧洲成人精品香蕉网| 中文字幕第一页在线无码一区二区| 人妻丰满熟妇一二三区| 亚洲国产中文字幕视频| 中文无码日韩欧| 99热在线精品播放| av一区二区不卡久久| 亚洲天堂av中文字幕在线观看| 色噜噜久久综合伊人一本| 国产成人精品午夜福利| 40分钟永久免费又黄又粗| 最新在线观看免费的a站国产| 亚洲av一二三四区四色婷婷| 韩国三级中文字幕hd久久精品| 激情综合五月天开心久久| 国产精品成人久久a级片| 午夜免费观看日韩一级视频| 40岁大乳的熟妇在线观看 | 欧美性受xxxx黑人xyx性爽| 久草国产视频| 国产精品国产午夜免费福利看| 美女被躁到高潮嗷嗷免费观看| 亚洲va久久久噜噜噜久久天堂| a级毛片在线观看| 在线观看亚洲你懂得| 粉嫩极品国产在线观看| 国产精品久久久看三级| 欧美牲交a欧美牲交aⅴ免费下载| 久久久久久免费毛片精品| 国产精品原创永久在线观看| 青青久在线视频免费视频| 好吊妞无缓冲视频观看| 青草福利在线| 色老板在线免费观看视频日麻批| 无码精品一区二区三区在线| 国产成人av 综合 亚洲|