亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于條件隨機(jī)場的古漢語分詞研究

        2017-10-26 11:15:20楊世超紀(jì)月趙立鵬
        電腦知識與技術(shù) 2017年22期
        關(guān)鍵詞:古漢語分詞語料庫

        楊世超 紀(jì)月 趙立鵬

        摘要:雖然古漢語數(shù)字化程度已經(jīng)較高,但是自動化信息處理仍進(jìn)展緩慢,針對這一問題,采用條件隨機(jī)場模型制定特征模板進(jìn)行古漢語分詞研究并構(gòu)建古漢語訓(xùn)練語料庫。實驗分析表明,制定具有語言特征的特征模板可以獲得較高的分詞性能。

        關(guān)鍵詞:古漢語;分詞;條件隨機(jī)場;特征模板;語料庫

        中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)22-0183-02

        1概述

        古漢語典籍記載了中華民族的精華,存世古籍總計10萬種以上,如果計入碑刻、家譜等約15萬種,這些存世古籍負(fù)載著厚重的中華文明,凝聚著民族智慧。目前香港中文大學(xué)已經(jīng)做了中文分詞的數(shù)字化工作,然而針對古漢語的研究僅僅停留在數(shù)字化層面,近年來隨著計算機(jī)技術(shù)的快速發(fā)展,人們在解決計算機(jī)視覺、機(jī)器翻譯等方面逐漸成熟,但是在古漢語自然語言處理方面仍進(jìn)展緩慢,要想實現(xiàn)古漢語的篇章理解、文本分析,首先需要將古漢語進(jìn)行準(zhǔn)確率、召回率以及F值都較高的分詞,才能保障后續(xù)工作的正確性。

        2古漢語分詞面臨的問題

        目前公開的分詞系統(tǒng)都是針對現(xiàn)代漢語的分詞工具,該分詞結(jié)果顯然不能滿足古漢語自高性能古漢語分詞系統(tǒng)不僅需要好的古漢語分詞模型,而且需要有充足的古漢語訓(xùn)練語料。但是仍沒有公開的古漢語分詞語料庫。

        3語料庫的構(gòu)建

        考慮到人工標(biāo)記語料工作量大、成本高,且標(biāo)記規(guī)范不一致等問題,首先參照《用于信息處理的現(xiàn)代漢語分詞規(guī)范》制定統(tǒng)一的分詞規(guī)范,然后使用人工制定的語料訓(xùn)練模型,之后采用該模型進(jìn)行分詞,將輸出的分詞結(jié)果進(jìn)行人工校訂放人標(biāo)準(zhǔn)語料庫。最終獲得的語料庫如下表2《孟子》語料所示。

        4條件隨機(jī)場

        2001年J.Lafferty等人提出的條件隨機(jī)場是一種無向圖模型,給定輸入可以根據(jù)一定的條件概率對輸出進(jìn)行預(yù)測的統(tǒng)計模型。該模型可以用于解決序分詞、命名實體識別等序列標(biāo)注任務(wù)。CRF改進(jìn)了隱馬爾科夫模型和最大熵馬爾科夫模型,可以更好地解決標(biāo)注偏置問題以得到更佳的判別值。它的特征模板允許加入更多復(fù)雜特征,可以將古漢語復(fù)雜特征設(shè)計到特征模。

        4.1制定特征模板

        古漢語有不同于現(xiàn)代漢語的詞法、語法特點(diǎn),為了獲得較高效的古漢語分詞系統(tǒng),制定帶有古漢語特征的CRF特征模板是非常必要的,例如,“者在”古漢語里經(jīng)常作為詞綴使用,這一用法通常跟在一個形容詞后,如“老”者表示“上年紀(jì)的老人”。因此,本文設(shè)計的特征模板的復(fù)雜特征加入了詞綴特征。

        4.2條件隨機(jī)場實現(xiàn)古漢語分詞

        4.2.1語料及標(biāo)記方案

        選取《論語》《孟子》《大學(xué)》《中庸》作為實驗的數(shù)據(jù)來源。實驗中采用4詞位標(biāo)記進(jìn)行古漢語的字標(biāo)注,分別用B表示首字符、E表示尾字符以、M表示中間字符及S表示單字詞。

        4.2.2數(shù)據(jù)預(yù)處理

        本文所采用的條件隨機(jī)場方法基于開源的CRF++實現(xiàn),根據(jù)上述4詞位集表示方法將訓(xùn)練語料表示成輸入數(shù)據(jù)所需格式:天B;時E;不B;如E;地B;利E。

        將數(shù)據(jù)均分為10等份,按照9:1進(jìn)行劃分訓(xùn)練集和測試集。

        4.2.3模型訓(xùn)練

        采用上述預(yù)處理后格式的文件,作為CRF++的輸入,進(jìn)行古漢語分詞模型的訓(xùn)練。

        4.2.4模型測試

        采用訓(xùn)練好的模型對古漢語字符序列進(jìn)行分詞,并和測試集進(jìn)行比較,得出模型的準(zhǔn)確率、召回率以及F值。

        5實驗結(jié)果及結(jié)論

        通過10-折交叉驗證,每次用平均劃分的份語料中的9份作為訓(xùn)練語料,剩余一份作為測試語料,計算十次實驗的平局測評數(shù)據(jù)來對模型進(jìn)行測評,實驗結(jié)果如下表3所示:

        本文采用條件隨機(jī)場模型實現(xiàn)了古漢語分詞任務(wù),實驗發(fā)現(xiàn)可以通過人工制定符合古漢語語言特征的特征模板來獲得較好的分詞效果。

        猜你喜歡
        古漢語分詞語料庫
        古漢語疑問句末“為”字補(bǔ)證
        《語料庫翻譯文體學(xué)》評介
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        上古漢語“施”字音義考
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        值得重視的分詞的特殊用法
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        談?wù)劰艥h語的翻譯
        語言與翻譯(2014年1期)2014-07-10 13:06:11
        古漢語中表反問的一組能愿動詞
        語文知識(2014年3期)2014-02-28 21:59:31
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        精品国产日韩无 影视| 亚洲高清乱码午夜电影网| 色一情一乱一伦| 欧洲熟妇色xxxx欧美老妇多毛网站| 国产成人免费一区二区三区| 国产一区二区在线观看视频免费 | 亚洲最大av免费观看| 青青草绿色华人播放在线视频| 中文字幕有码人妻在线| 免费欧洲毛片a级视频老妇女| 国产精品久久久久久久久免费 | 日本一区二区啪啪视频| 亚洲一区二区三区99| 国产亚洲成av人片在线观黄桃| 97夜夜澡人人爽人人喊中国片 | 蜜桃av噜噜一区二区三区9| 97在线视频免费人妻| 亚洲男人的天堂在线播放| 久久道精品一区二区三区| 国产自拍精品视频免费观看| 国产高清成人午夜视频| 夜夜春亚洲嫩草影院| 波多野结衣一区二区三区高清| 久久久国产不卡一区二区| 最全精品自拍视频在线| 日韩中文字幕有码午夜美女| 日产学生妹在线观看| 欧美丰满大爆乳波霸奶水多| 天堂av在线一区二区| 国产白色视频在线观看| 欧美大片aaaaa免费观看| 亚洲色大网站www永久网站| 国模少妇无码一区二区三区 | 国产又大又硬又粗| 爱情岛永久地址www成人| 日韩中文字幕网站| 久久国产精品免费专区| 色欲人妻aaaaaaa无码| 人人添人人澡人人澡人人人人| 日韩Va亚洲va欧美Ⅴa久久| 久久久精品国产亚洲av网麻豆|