亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        THUUyMorph:維吾爾語形態(tài)切分語料庫

        2018-04-16 07:24:38哈里旦木阿布都克里木孫茂松阿布都克力木阿布力孜
        中文信息學報 2018年2期
        關鍵詞:詞干維吾爾語詞綴

        哈里旦木·阿布都克里木,孫茂松,劉 洋,阿布都克力木·阿布力孜

        (1.清華大學 計算機科學與技術系 智能技術與系統(tǒng)國家重點實驗室,清華信息科學與技術國家實驗室(籌),北京 100084)(2.清華大學 人文學院 計算語言學實驗室,北京 100084)

        0 引言

        深度學習在自然語言處理領域中廣泛應用,形態(tài)切分工作也取得了極大進展,實現(xiàn)了從規(guī)則和傳統(tǒng)統(tǒng)計方法向神經(jīng)網(wǎng)絡方法的跨越[8]。然而,當前的深度學習技術主要是有監(jiān)督的學習,深度學習的成功運用前提是先具有一定規(guī)模的標注語料[9]。

        維吾爾語在語料庫建設方面已做了大量的工作。新疆大學吐爾根·依布拉音等[10-12]和新疆師范大學的玉素甫·艾白都拉等[13-14]都已構建了百萬詞次的維吾爾語詞法分析語料庫,并分別在這些語料庫基礎上進行了詞法、句法及面向具體任務的標注等。除此之外,文獻[15]構建了FrameNet,文獻[16]建立了語法信息詞典,文獻[17]建立了小規(guī)模命名實體關系語料庫。雖然當前已有了相當規(guī)模的維吾爾語語料庫,但是還沒有可公開使用的維吾爾語形態(tài)切分語料庫。

        本文建立的形態(tài)切分語料庫——THUUyMorph,分為詞級和句子級兩種,可用于維吾爾語有監(jiān)督、半監(jiān)督、無監(jiān)督的形態(tài)切分,以及維吾爾語分詞、詞干提取等任務。在建立過程中本文參考了Ryan Cotterell的工作[18]。建立和公開的維吾爾語形態(tài)切分語料庫的開源網(wǎng)址為:http://thuuymorph.thunlp.org/。該研究不僅對維吾爾語語料庫的建設具有參考意義,而且為維吾爾語自然語言處理研究提供了有益的資源。

        1 研究背景

        1.1 維吾爾語形態(tài)切分的特點

        世界上語言分類包括:孤立語、屈折語和黏著語等。孤立語的特點一般不通過詞形變化來表達語法作用,如漢語。屈折語和黏著語的共同點是使用詞綴來實現(xiàn)語法功能。但是兩者的區(qū)別在于屈折語可通過一個詞綴實現(xiàn)多個語法功能,而黏著語中的一個詞綴一般只具有一個語法功能,因此黏著語中經(jīng)常會出現(xiàn)一個詞內(nèi)部有多個綴黏著的現(xiàn)象。屬于黏著語的語言有日語、韓語、朝鮮語、芬蘭語、土耳其語、維吾爾語、蒙古語和哈薩克語等幾十種,這些黏著語的特點是詞的詞匯變化和各種語法變化都是通過在實詞詞干上連接不同詞綴的方式來體現(xiàn)的[19],因此可以說黏著語是形態(tài)豐富的語言。作為黏著語,維吾爾語形態(tài)的多變性是維吾爾語最突出的特點之一。

        1.2 維吾爾語形態(tài)切分的難點

        維吾爾語形態(tài)切分是維吾爾語自然語言處理的一大難點。導致維吾爾語分詞精度不高的原因一般有:黏著性、語音變化現(xiàn)象、歧義和形態(tài)切分問題等。

        1.2.1黏著性

        維吾爾語作為一種黏著語在語素的組合上具有高度的靈活性,所謂黏著性指的是維吾爾語的絕大部分附加成分都依附在詞根之后,在同一個詞根上依次連綴幾個附加成分,形成一種線條性特點[19]。雖然詞干和詞綴的數(shù)量有限,但是理論上可以組合生成無限的詞語,其中,絕大多數(shù)維吾爾語詞語在語料庫中只出現(xiàn)一次[20-21]。維吾爾語通過在詞干上添加詞綴來實現(xiàn)豐富的句法和語義功能。這種情況在維吾爾語自然語言處理中造成了嚴重的數(shù)據(jù)稀疏問題。

        1.2.2語音變化現(xiàn)象

        1.2.3歧義

        維吾爾語詞的歧義現(xiàn)象也較嚴重,這種現(xiàn)象對維吾爾語形態(tài)切分任務帶來一定的困難。表1給出了一些例子。

        表1 維吾爾語的歧義現(xiàn)象舉例

        1.2.4形態(tài)切分問題

        2 維吾爾語形態(tài)切分標注庫建設

        2.1 標注規(guī)范

        2.1.1基本規(guī)則

        (1) 維吾爾語有兩種詞綴:構詞詞綴和構形詞綴。本文只考慮構形詞綴的形態(tài)切分,例如,

        “旅游者、旅游業(yè)”由構詞詞綴構成,而“旅游者的、旅游業(yè)的”由構形詞綴構成,本文的形態(tài)切分任務是將“旅游者的”和“旅游業(yè)的”分別切分成“旅游者#的”和“旅游業(yè)#的”,而構詞成分“旅游者”和“旅游業(yè)”不切分。

        (2) 當詞干單獨出現(xiàn)時,不加任何標記,默認為詞干。例如:旅游。

        (3) 當詞干與構形詞綴一起出現(xiàn)時,詞干后面“#”與詞綴分開。例如,旅游者#的。

        2.1.2切分細則

        我們主要以名詞、形容詞、數(shù)詞、量詞、副詞、代詞、動詞為依據(jù)來進行切分。目前進行的是粗切分,即構形切分。

        (1) 名詞:名詞原形(名詞的主格形式)為詞干,派生名詞(名詞的零派生形式)、專用名詞可以單獨做詞干,例如,人名。名詞后面加各種名詞人稱、格、數(shù)語法范疇時,名詞語法范疇和名詞詞干分開。

        (8) 模擬詞:模擬詞是詞干。

        (9) 連詞:連詞單獨出現(xiàn)時是詞干,附帶實詞作構形附加成分時要切分。

        (10) 后置詞:后置詞是詞干。

        (12) 感嘆詞:維吾爾語中的所有感嘆詞以詞干形式出現(xiàn)。

        除此之外,維吾爾語中的縮略詞基本上存在三種情況。

        (3) 用拉丁字母縮寫,作為獨立的詞。例如,GDP、WTO、KTW等。

        2.2 形態(tài)切分語料庫建立流程

        我們首先從天山網(wǎng)維文版*http://uy.ts.cn/下載了維吾爾語語料,包含新聞、法律、經(jīng)濟和生活等。語料庫構建步驟為:爬蟲、校對原始語料、分句、校對分句、人工和自動形態(tài)切分、人工標注語音和諧變化現(xiàn)象、人工校對形態(tài)切分和語音和諧變化現(xiàn)象。語料庫包含10 596個文檔,69 200個句子,不同領域文檔數(shù)量的具體分布如表2所示。

        表2 不同領域文檔數(shù)量的領域分布

        我們使用tokenizer.perl(https://github.com/moses-smt/mosesdecoder)工具對語料進行了標點符號切分。同時,為了減輕標注的工作量,我們提取了語料中的詞語類型作為人工標注的數(shù)據(jù)。我們從中央民族大學維吾爾語語言學專業(yè)的學生中選擇了七位學生對語料進行人工形態(tài)切分,要求對每一個詞進行帶有語音和諧變化的形態(tài)切分。在人工標注過程中不斷對語料和人工切分錯誤及不一致性進行更正。人工標注完成后,從七位學生中選出標注最好的一份力克·阿卜杜瓦伊提進行了一次校對,之后又邀請了新疆大學的阿布都熱依木·熱合曼副教授和這位原標注者交替進行了校對。

        2.3 維吾爾語語音變化現(xiàn)象分布

        我們對人工切分后的新聞領域語料的詞表進行了語音變化現(xiàn)象統(tǒng)計。該新聞語料詞表中發(fā)生語音和諧變化的詞占總詞表的23.9%。為了進一步了解發(fā)生語音和諧變化的詞中詞干和詞綴在不同語音和諧變化現(xiàn)象下的分布我們做了進一步統(tǒng)計,統(tǒng)計結(jié)果見表3。

        表3 語音和諧變化現(xiàn)象分布

        從表3可知,語音變化現(xiàn)象主要體現(xiàn)為弱化,詞干和詞綴的弱化分布相似。一般情況下,語音和諧變化發(fā)生在詞干或語素內(nèi)部,而語素之間不會發(fā)生語音和諧變化。由以上分析我們得知維吾爾語中語音和諧變化很嚴重,而且其中的弱化現(xiàn)象應為研究重點。

        2.4 維吾爾語詞級形態(tài)切分語料庫

        我們從已進行形態(tài)切分的維吾爾語詞表(89 923個)中抽取出一部分建立數(shù)據(jù)集,用于形態(tài)切分任務,該數(shù)據(jù)集有19 629條維吾爾語詞。我們將該數(shù)據(jù)集分為訓練集、開發(fā)集和測試集。訓練集有17 629條詞,開發(fā)集和測試集分別是1 000條詞。測試任務分為兩種:一種是只進行詞干和詞綴的切分;一種是詞干、詞綴切分的同時考慮語音變化。該數(shù)據(jù)集已開源免費使用*http://thuuymorph.thunlp.org/。目前,已有工作使用該數(shù)據(jù)集研究了維吾爾語形態(tài)切分在神經(jīng)網(wǎng)絡中的性能體現(xiàn),獲得了具有參考價值的實驗結(jié)果[21],對應的預處理后的數(shù)據(jù)集和代碼也已開源*https://github.com/halidanmu/THUUMS。

        2.5 維吾爾語句子級形態(tài)切分語料庫

        我們進一步完善形態(tài)切分語料的建設,在詞級語料庫的基礎上建立了句子級形態(tài)切分語料。句子級語料包含69 200條句子。因為詞級形態(tài)切分語料建設中已經(jīng)建立了標注規(guī)范,詞級規(guī)范直接應用到句子中。句子級形態(tài)切分時,對句子中的每一個詞進行人工形態(tài)切分并校對,詞干和詞綴之間用“#”號來分開,“’”表示右邊的語素是詞干,“$”表示左邊的語素是右邊語素的原形。如下例所示:

        句子級語料的建設比詞級形態(tài)語料建設有以下幾方面的優(yōu)勢:(1)句子級形態(tài)切分時完全可以按上下文來判斷句子中每一個詞的詞干部分,這樣就避免兼類詞難切分的情況; (2)句子形態(tài)切分時可以避免一些正字法、方言詞等詞匯切分錯誤。

        我們對句子級形態(tài)切分語料庫進行了統(tǒng)計,統(tǒng)計結(jié)果見表4。通過實驗我們發(fā)現(xiàn)詞、詞干、詞綴的平均長度是17、14和5,維吾爾語詞的最大長度為33,每個詞的詞綴的平均個數(shù)是3.5。

        表4 維吾爾語句子級形態(tài)切分語料庫統(tǒng)計結(jié)果

        3 結(jié)論

        本文描述了構建的維吾爾語形態(tài)切分語料庫—THUUyMorph,并著重分析了維吾爾語形態(tài)切分規(guī)則,同時進行了一些語言學上的統(tǒng)計。該語料庫已被開源免費使用。該文工作不僅對相關維吾爾語語料庫的建設具有參考意義,而且為維吾爾語自然語言處理的研究提供了有益的資源。

        [1]Afify M,Sarikaya R,Kuo H K J,et al.On the use of morphological analysis for dialectal arabic speech recogni-tion[C]//Interspeech 2006-ICSLP Ninth International Conference on Spoken Language Processing.Pittsbutgh,PA,USA:ISCA,2006:277-280.

        [2]Botha J A,Blunsom P.Compositional morphology for word representations and language modelling [C]// Proceedings of the 31st International Conference on Machine Learning,Beijing,China:JMLR,2014:W&CP volume 32.

        [3]Clifton A,Sarkar A.Combining morpheme-based machine translation with post-processing morpheme prediction[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technol-ogies,Portland,Oregon,USA:Association for Computa-tional Linguistics,2011:32-42.

        [4]Seeker W,Cetinoglu O.A graph-based lattice dependency parser for joint morphological segmentation and syntactic analysis [J].Transactions of the Association for Computa-tional Linguistics,2015,3:359-373.

        [5]Cotterell R,Schutze H.Joint semantic synthesis and morphological analysis of the derived word [J].Transactions of the Association for Computational Linguistics,2018,6:33-48.

        [6]Marslen-Wilson W.Lexical representation and process [M].Cambridge,MA,USA:MIT Press,1989.

        [7]哈里旦木·阿布都克里木,劉洋,孫茂松.神經(jīng)機器翻譯系統(tǒng)在維吾爾語—漢語翻譯中的性能對比 [J].清華大學學報:(自然科學版),2017,57(8):878-883.

        [8]Wang L,Cao C,Xia Y,et al.Morphological Segmentation with Window LSTM Neural Networks [C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix,Arizona,USA:Association for the Advancement of Artificial Intelligence,2016:2842-2848.

        [9]Zohp B,Yuret D,May J,et al.Transfer Learning for Low-Resource Neural Machine Translation [C]// Proceed-ings of the 2016 Conference on Empirical Methods in Nat-ural Language Processing.Austin,Texas:Association for Computational Linguistics,2016:1568-1575.

        [10]吐爾根·依布拉音,阿里甫·庫爾班.基于詞典的現(xiàn)代維吾爾語詞性自動標注系統(tǒng)的研究[C].中國中文信息學會二十五周年學術會議.北京:中國中文信息學會,2006:148-152.

        [11]艾山·吾買爾.維吾爾語詞法句法分析關鍵技術的研究[D].烏魯木齊:新疆大學,2009.

        [12]買合木提·買買提,吐爾根·依布拉音.基于N-gram的維吾爾語詞性標注研究[C].第二屆全國少數(shù)民族青年自然語言處理學術研討會.合肥:中國中文信息學會,2008:206-209.

        [13]Yusup A,Lua K T.The development of tagged Uyghur corpus [C]//Proceedings of the 17th Pacific Asia Conference on Language,Information and Computation.Sentosa,Singapore:PACLIC Steering Committee,2003:228-234.

        [14]Yusup A,Iskender O,and Mamateli T.Progress on con-struction technology of Uyghur knowledge base [C]//Proceedings of the 2009 International Symposium on Intelligent Ubiquitous Computing and Education.Wash-ington,DC,USA:IEEE Computer Society,2009:554-557.

        [15]Mirejiguli R,Alifu K.Design of the Uyghur FrameNet desktop [J].Software Engineering,2015,3(1):53-56.

        [16]Jiamila W,Wayiti A,Kahaerjiang A,et al.Building con-temporary Uyghur grammatical information dictionary [C]//Proceedings of Worldwide Language Service Infrastructure:Second International Workshop.Kyoto,Japan:Springer Interna-tional Publishing,2015:137-144.

        [17]Kahaerjiang A,Maihemuti M,and Tuergen Y,et al.Annotation schemes for constructing Uyghur named entity relation corpus [C]//Proceedings of International Conference on Asian Language Processing.Taiwan:IEEE Computer Society,2017:103-107.

        [18]Cotterell R,Vieira T,Schütze H.A joint model of ortho-graphy and morphological segmentation [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.San Diego,California:Association for Computiaonal Linguistics,2016:664-669.

        [19]艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉.基于形態(tài)分析的現(xiàn)代維吾爾語名詞詞干識別研究 [J].中文信息學報,2015,29(6):208-212.

        [20]哈里旦木·阿布都克里木,程勇,劉洋,等.基于雙向門限遞歸單元神經(jīng)網(wǎng)絡的維吾爾語形態(tài)切分 [J].清華大學學報:(自然科學版),2017,57(1):1-6.

        Abudukelimu Halidanmu,Cheng Yong,Liu Yang,et al.Uyghur morphological segmentation with bidirectional GRU neural networks [J].J Tsinghua Univ:(SciandTech),2017,57(1):1-6.(in Chinese)

        [21]Abudukelimu Halidanmu,Liu Y,Chen X,et al.Learning distributed representations of Uyghur words and morphemes [C]// Proceedings of CCL/NLP-NABD.Guangzhou,China:Springer,2015:202-211.

        [22]霍盛.試論維吾爾語形態(tài)變化的功能及其特點 [J].新疆大學學報(哲學社會科學版),1991,(3):104-111.

        哈里旦木·阿布都克里木(1978—),博士研究生,主要研究領域為自然語言處理。E-mail:abdklmhldm@gmail.com

        孫茂松(1962—),博士,教授,主要研究領域為自然語言處理、網(wǎng)絡智能、計算社會科學。E-mail:sms@mail.tsinghua.edu.cn

        劉洋(1979—),通信作者,博士,副教授,主要研究領域為自然語言處理、機器翻譯。E-mail:liuyang2011@tsinghua.edu.cn

        猜你喜歡
        詞干維吾爾語詞綴
        從網(wǎng)絡語“X精”看“精”的類詞綴化
        論柯爾克孜語詞干提取方法
        維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
        釋西夏語詞綴wji2
        西夏研究(2017年1期)2017-07-10 08:16:55
        統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
        自動化學報(2017年4期)2017-06-15 20:28:55
        維吾爾語話題的韻律表現(xiàn)
        維吾爾語詞重音的形式判斷
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        融合多策略的維吾爾語詞干提取方法
        基于維吾爾語詞干詞綴粒度的漢維機器翻譯
        現(xiàn)代維吾爾語中“-0wat-”的進行體特征
        語言與翻譯(2014年3期)2014-07-12 10:32:09
        久久蜜臀av一区三区| 性久久久久久久| 亚洲黄色免费网站| 免费观看在线视频一区| 国产在线精品福利大全| 一区二区三区四区日韩亚洲| 人妻制服丝袜中文字幕| 国产欧美日韩综合精品一区二区| 精精国产xxxx视频在线| 成美女黄网站18禁免费| 日本一区二区三区区视频| 日韩精品视频一区二区三区 | 无人区乱码一区二区三区| 放荡的少妇2欧美版| 国产精品午夜爆乳美女视频| 亚洲免费视频播放| 亚洲午夜精品国产一区二区三区| 爆操丝袜美女在线观看| 日韩av激情在线观看| 精品少妇人妻av免费久久久| 狠狠躁狠狠躁东京热无码专区| 日本女优中文字幕四季视频网站 | 视频国产精品| 国产不卡在线免费视频| 亚洲国产综合在线亚洲区亚洲av| 最新中文字幕av无码不卡| 欧美成人一区二区三区| 欧美日韩精品福利在线观看| 久久AⅤ无码精品色午麻豆| 精品女厕偷拍视频一区二区| 天天狠天天添日日拍| 国产日韩亚洲欧洲一区二区三区| 中文字幕人妻系列一区尤物视频| 亚洲av色av成人噜噜噜| 亚洲色成人www永久在线观看| 日韩亚洲欧美中文高清在线| 一本色道久久88综合| 国精产品一区一区二区三区mba| 亚洲av中文无码乱人伦在线r▽| 亚洲国产字幕| 虎白m粉嫩小在线播放|