亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于形態(tài)分析的現(xiàn)代維吾爾語名詞詞干識別研究

        2015-04-14 08:05:06艾孜爾古麗阿力木木拉提玉素甫艾白都拉
        中文信息學報 2015年6期
        關鍵詞:詞干維吾爾語詞類

        艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉

        (1.新疆師范大學計算機科學與技術學院,新疆維吾爾自治區(qū)烏魯木齊830054;2.中國科學院新疆理化技術研究所,新疆維吾爾自治區(qū),烏魯木齊830011)

        1 引言

        現(xiàn)代維吾爾語名詞詞干識別是自然語言處理領域的重要基礎性研究,主要目的是從句子中提取名詞詞干?,F(xiàn)代維吾爾語名詞具有豐富的句法和語義信息,識別的結果可以被廣泛應用于維吾爾語名詞短語分析、詞性標注、命名實體識別、句法分析、機器翻譯等領域?,F(xiàn)代維吾爾語名詞詞干識別還被應用在平行語料的對齊上,以提高詞對齊的效果;由于維吾爾語歧義切分問題導致句法分析的任務變得十分復雜,維吾爾語名詞詞干的識別能部分消解這些歧義;隨著新事物的不斷涌現(xiàn),新詞術語的識別、統(tǒng)計分析、翻譯也是亟待解決的重要問題。

        維吾爾語在形態(tài)結構上屬于粘著語類型,作為粘著語類型的語言,詞的詞匯變化和各種語法變化都是通過在實詞詞干上綴接各種附加成分的方式來表現(xiàn)的。維吾爾語詞形態(tài)的多變性是維吾爾語的最突出的特點之一?!靶螒B(tài)是在語言中詞與詞組合時形式要發(fā)生變化,同一個詞與不同的詞組合就有不同的變化。這些不同的變化形成一個聚合,叫作詞形變化,或者叫做形態(tài)?!雹偃~蜚聲、徐通鏘著:《語言學綱要》,北京大學出版社,108頁維吾爾語名詞類詞語的特點就集中體現(xiàn)在形態(tài)的變化上,容易產(chǎn)生歧義。本文結合現(xiàn)代維吾爾語語言學、形態(tài)學、計算語言學、計量語言學等學科,通過研究維吾爾語名詞的形態(tài)特征,并根據(jù)名詞特定的構詞規(guī)則和格式,很大程度上提高了名詞的識別率和機器翻譯的準確性。例如北京人”是一個新詞,是由維吾爾語原詞(北京)連接詞綴(...人),通過這些形態(tài)特征可以準確地識別其詞性和翻譯其意義。

        2 現(xiàn)代維吾爾語名詞形態(tài)分析研究

        2.1 維吾爾語的詞類劃分標準

        確定劃分詞類的標準,實質是找出各類詞在類別上的語法特點。每一種詞類都有區(qū)別于其他詞類的特點。維吾爾語的詞類特點表現(xiàn)在詞的形態(tài)學、結構學和語義學三個方面。維吾爾語是黏著語,根據(jù)其語法特點,應該把形態(tài)學特征作為劃分維吾爾語詞類的重要標準之一。例如,維吾爾語的名詞有人稱、數(shù)、格的范疇。各個詞類有不同的形態(tài)變化。②程適良、阿不都熱西提、米扎爾等著:《現(xiàn)代維吾爾語語法》,新疆人民出版社,47頁

        形態(tài)學特征的另外一個重要標志是維吾爾語的派生新詞的能力。根據(jù)構詞詞綴的不同,很容易將維吾爾語詞的類別劃分清楚。如在原詞詞根后連接詞綴 構成的詞是名詞。

        2.2 維吾爾語名詞的形態(tài)特征分析

        現(xiàn)代維吾爾語屬于黏著語,在形態(tài)學方面以詞干或詞根為基礎,后接附加成分派生新詞和進行詞形變化;附加成分分為構詞附加成分和構形附加成分(包含名詞、代詞、形容詞、數(shù)詞的格、領屬、數(shù)范疇以及動詞時、體、態(tài)、式等)兩大類,其中構形附加成分不改變詞根或詞干的詞類屬性;但詞干后綴接構詞附加成分時,有時發(fā)生詞類變化,有時不發(fā)生詞類變化.因此,在維吾爾語名詞識別中上下文的詞類特征和當前詞的形態(tài)特征都是很重要的。

        維吾爾語中有相當一部分新詞都是由詞綴綴加于詞干構成的。本文歸納總結了構成名詞的詞綴,并通過這些詞綴識別名詞。表示人的維吾爾語詞綴20種,共36個;表示物的維吾爾語名詞詞綴20種,共52個;表示人、物的維吾爾語名詞詞綴五種,共13個;表示地域的維吾爾語名詞詞綴五種,共五個;不能構成名詞的維吾爾語名詞詞綴53種,共53個;共103種,共159個。樣例如表1,2,3,4,5所示。

        表1 表示人的維吾爾語名詞詞綴樣例

        表2 表示物的維吾爾語名詞詞綴樣例

        表3 表示人、物的維吾爾語名詞詞綴樣例

        表4 表示地域的維吾爾語名詞詞綴樣例

        表5 不能構成名詞的維吾爾語名詞詞綴樣例

        2.3 詞綴歧義及消解規(guī)則

        同一詞綴接在詞干上也會產(chǎn)生不同的詞類。對于這個類型的問題,本文專門列出具有歧義的詞綴及其消歧規(guī)則,已提出七種,共19個詞綴歧義及消解規(guī)則,有效地提高了維吾爾語名詞的識別率。樣例如表6所示。

        3 基于形態(tài)分析的現(xiàn)代維吾爾語名詞識別方法

        3.1 識別總體思路

        現(xiàn)代維吾爾語名詞識別主要包括維吾爾語詞匯統(tǒng)計、詞性標注(基于詞典、統(tǒng)計)、名詞識別等關鍵技術與方法,如圖1所示。

        表6 詞綴歧義及消解規(guī)則樣例

        圖3 -1 名詞識別流程圖

        3.2 現(xiàn)代維吾爾語普通新詞中名詞識別算法研究

        本文提出一種融合現(xiàn)代維吾爾語形態(tài)變形特征的最大熵名詞識別模型。根據(jù)上述總結的維吾爾語構詞特點,定義上下文特征模板,提取特征集,再通過人工設置規(guī)則篩選模板;然后,訓練最大熵概率模型參數(shù)。經(jīng)實驗結果表明,融入多個語言形態(tài)特征的最大熵模型能獲得較好的性能。

        最大熵原理的主要思想描述為:將已知事實作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布。該模型的形式如式(1)-(2)所示。

        其中,Zλ(x)為歸一化函數(shù),fi(x,y)∈(0,1)為特征函數(shù),λi是特征函數(shù)的權重,它代表每個特征函數(shù)的重要性,每個λi對應一個特征函數(shù)。

        3.2.1 特征選擇

        (1)特征選擇依據(jù)

        使用最大熵模型對維吾爾語名詞進行識別,是根據(jù)當前詞的上下文特征確定它的信息。本文的模型特征選擇依據(jù)維吾爾語名詞本身的構詞特點。

        (2)特征模板定義

        根據(jù)維吾爾語構詞特點和統(tǒng)計結果,本文共設計了詞內(nèi)部特征、前后依存詞特征。

        3.2.2 詞內(nèi)部特征

        詞內(nèi)部特征表現(xiàn)的是一個詞的內(nèi)部變化,包括詞干信息和詞綴信息。維吾爾語詞是通過在一個詞干之后連接不同的詞綴(構詞詞尾)構成,詞綴信息表現(xiàn)詞性等語法意義,本文設計了以下兩個類型的詞內(nèi)部信息特征模板。

        (1)詞干信息

        因為構形詞尾并不影響整個詞的詞類信息,對于維吾爾語詞干、詞根上連接構形詞尾構成的詞,只需考慮其詞干或詞根的標注信息,詞內(nèi)部信息特征如表7所示。例如,“ ”(水壺)是名詞,該詞是由詞干“ ”(茶)加上詞綴“ ”構成,只要考慮詞干“ ”的詞性即可,特征函數(shù)定義為式(3)。

        表7 詞內(nèi)部信息特征模板

        (2)詞綴信息

        盡管維吾爾文的構詞和構形都是以詞根、詞干上連接不同詞尾來完成,形成各類詞,但是詞尾信息是有限的,根據(jù)“維吾爾文語法語義信息詞典”收錄為準維吾爾文詞綴中過濾的100余種名詞詞綴。設計如“ ”等作為名詞詞綴的一些特征模板。例如特征函數(shù)可以定義為式(4)。

        3.2.3 前后依存詞特征

        前后依存詞特征體現(xiàn)一個維吾爾文句子中與當前詞緊密聯(lián)系的詞之間的關系,使用前后依存詞相關信息可以解決一詞兼多個詞類的問題.例如,句子1: (阿里木騎著馬玩)和句子2:(阿里木向進入果園的小偷扔石頭)。句中的 有動詞和名詞兩種詞性,可以通過其前后詞的詞類特征進行消歧處理。本文設計了以下特征,如表8所示。

        表8 前后依存詞信息特征模板

        4 實驗結果分析

        本次統(tǒng)計語料以維吾爾語初中、高中物理教材為主。實驗數(shù)據(jù)如表9所示。

        由表9所示,中學物理教材中名詞在整個教材詞匯的平均比例為46.37%,本教材作為實驗語料合理、可行。

        表9 中學物理教材詞種數(shù)

        實驗結果如表10所示,本實驗中一些帶領屬性人稱的代詞、綴接一些詞綴的動詞命令式等也被識別成名詞。還有一些既不帶附加成分的,又不在名詞詞根庫中的名詞容易被忽略,需要豐富名詞詞根庫。

        表10 實驗結果

        5 總結

        本文介紹了現(xiàn)代維吾爾語名詞詞干識別方面的一些研究工作,重點是維吾爾語名詞的形態(tài)分析和在最大熵模型特征的選擇。本文根據(jù)維吾爾語的特點,選取詞內(nèi)部詞干和詞綴、詞前后信息等形態(tài)信息作為特征,構建了名詞識別系統(tǒng)。實驗結果表明,利用維吾爾語形態(tài)特征和最大熵模型,有效地利用上下文信息,得到了較好的識別率,尤其是對普通新詞的名詞識別有顯著的效果。

        [1] 趙巖,王曉龍,劉秉權,等.融合聚類觸發(fā)對特征的最大熵詞性標注模型[J].計算機研究與發(fā)展,2006,43(2):268-274.

        [2] 趙偉,趙法興,王東海,等.一種基于改進的最大熵模型的漢語詞性自動標注的新方法[J].計算機研究與發(fā)展,2006,43(增刊):174-178.

        [3] 玉素甫·艾白都拉,張海軍,艾孜爾古麗.信息處理用現(xiàn)代維吾爾語詞干類標記集研究[J].信息技術與標準化,2011:45-48.

        [4] 艾孜爾古麗,努爾艾合買提,玉素甫·艾白都拉.現(xiàn)代維吾爾語常用詞統(tǒng)計關鍵技術研究[J].中文信息學報,2014,28(5):192-197.

        [5] 艾孜爾古麗,艾山江·阿不力孜,玉素甫·艾白都拉.現(xiàn)代維吾爾文網(wǎng)絡媒體用詞研究[J].計算機應用與軟件,2012,29(2):67-68,121.

        [6] 艾孜爾古麗,齊向衛(wèi),玉素甫·艾白都拉.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞干提取和應用研究[J].計算機應用與軟件,2012,29(3):32-34.

        [7] 玉素甫,艾孜爾古麗.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞尾切分和應用研究[J].計算機應用與軟件,2012,29(4):13-15.

        [8] 玉素甫,艾孜爾古麗,祖力皮亞.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞長研究[J].計算機應用與軟件,2012,29(5):32-34.

        [9] 蘇新春.漢語詞匯計量研究[M].廈門大學出版社,2001.

        [10] 蘇新春,楊爾弘.2005年度漢語詞匯大規(guī)模統(tǒng)計的分析與思考[J].廈門大學學報,2006,6:84-91.

        [11] 趙小兵.基于動態(tài)流通語料庫的現(xiàn)代漢語基本詞匯自動識別與提取方法研究[D].中央民族大學博士學位論文,2007.

        猜你喜歡
        詞干維吾爾語詞類
        論柯爾克孜語詞干提取方法
        用詞類活用法擴充詞匯量
        基于語料庫“隱秘”的詞類標注初步探究
        從成語中學習詞類活用
        維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
        統(tǒng)計與規(guī)則相結合的維吾爾語人名識別方法
        自動化學報(2017年4期)2017-06-15 20:28:55
        基于“字本位”理論再談漢語詞類問題
        維吾爾語話題的韻律表現(xiàn)
        維吾爾語詞重音的形式判斷
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        融合多策略的維吾爾語詞干提取方法
        国产高清亚洲精品视频| 97se亚洲国产综合自在线| 久久99国产亚洲高清观看韩国| 久久99老妇伦国产熟女高清| 亚洲av熟女传媒国产一区二区| 中文无码人妻有码人妻中文字幕 | 久久青青草原一区网站| 婷婷精品国产亚洲av| 可以直接在线看国产在线片网址 | 无码无套少妇毛多18p| 特黄a级毛片免费视频| 91精品久久久久含羞草| 日韩国产自拍视频在线观看 | 精品国产yw在线观看| 色哟哟网站在线观看| 国产91对白在线观看| 伊人狼人大香线蕉手机视频 | 无码国产色欲xxxx视频| 日本丶国产丶欧美色综合| 黄色三级视频中文字幕| 日韩极品视频免费观看| 欧美裸体xxxx极品少妇| 国产一区二区牛影视| 麻豆成年人视频在线观看| 国产一区二区三区小说| 每天更新的免费av片在线观看| 亚洲精品综合色区二区| 亚洲av高清一区二区三区| 久久婷婷人人澡人人爽人人爱| 日本中文字幕在线播放第1页| 在线日本高清日本免费| 欧美拍拍视频免费大全| 久久久久久人妻一区二区三区| 久热re在线视频精品免费| 自拍视频在线观看国产| 亚洲av日韩av天堂久久| 四虎4545www国产精品| 大岛优香中文av在线字幕| 插鸡网站在线播放免费观看| 伊人久久无码中文字幕| 特级毛片a级毛片在线播放www|