亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語(yǔ)音節(jié)標(biāo)注研究

        2017-10-11 07:09:47龍從軍劉匯丹
        中文信息學(xué)報(bào) 2017年4期
        關(guān)鍵詞:藏語(yǔ)分詞音節(jié)

        龍從軍,劉匯丹,吳 健

        (1. 中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081; 2. 中國(guó)科學(xué)院 軟件研究所,北京 100190)

        藏語(yǔ)音節(jié)標(biāo)注研究

        龍從軍1,2,劉匯丹2,吳 健2

        (1. 中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081; 2. 中國(guó)科學(xué)院 軟件研究所,北京 100190)

        藏語(yǔ)的“音節(jié)”在詞匯語(yǔ)法研究和文本信息處理研究中都十分重要,尤其在解決未登錄詞切分問題和標(biāo)注中能夠發(fā)揮積極的作用。然而在現(xiàn)有的研究中,對(duì)音節(jié)的重視還不夠。該文提出在文本標(biāo)注時(shí),可以先進(jìn)行音節(jié)的性質(zhì)標(biāo)注,然后通過音節(jié)構(gòu)詞的規(guī)律預(yù)測(cè)復(fù)合詞的詞性,尤其是未登錄詞的詞性。該文作者對(duì)藏語(yǔ)音節(jié)的定義進(jìn)行了界定,提出音節(jié)的性質(zhì)分類及標(biāo)注原則,利用統(tǒng)計(jì)模型,在約24萬(wàn)音節(jié)的中小學(xué)語(yǔ)文教材語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn),音節(jié)性質(zhì)標(biāo)注的正確率為93.520 8%。在此基礎(chǔ)上,把音節(jié)性質(zhì)標(biāo)注信息用到詞性標(biāo)注中。實(shí)驗(yàn)結(jié)果表明: 即使在音節(jié)性質(zhì)標(biāo)注存在一定錯(cuò)誤的情況下,詞性標(biāo)注的正確率也提高到94.196 7%;如果在保證音節(jié)性質(zhì)標(biāo)注完全正確的情況下,詞性標(biāo)注的正確率可以提高到97.775 4%,這說明音節(jié)性質(zhì)標(biāo)注信息對(duì)詞性標(biāo)注有幫助。

        藏語(yǔ);藏語(yǔ)音節(jié);音節(jié)性質(zhì)標(biāo)注;音節(jié)性質(zhì)分類

        Abstract: “Syllables” of Tibetan language are very important in vocabulary construction and text information processing, especially for solving the segmentation and annotation of OOVs. This paper proposes to tag the syllables, which can be applied to predict POS of compound words (especially OOVs) according to the rules of words-construction. This paper presents the definition of the Tibetan syllable, outlines and the principles of classification and labeling. The train and test texts are selected from teaching material of Tibetan language of primary and secondary schools, total 240K syllables. Experiments reveals a precision of 93.5208% for syllable tagging, upon which an improved 94.1967% accuracy for POS tagging can be reached. And given the gold-standard of syllable tagging, the accuracy of POS tagging will be improved to 97.775 4%.

        Key words: Tibetan language; Tibetan syllable; syllable tagging; syllable classification

        收稿日期: 2016-04-18 定稿日期: 2017-03-03

        基金項(xiàng)目: 國(guó)家語(yǔ)委重點(diǎn)項(xiàng)目(ZDI135-17)

        1 引言

        詞性標(biāo)注是為給定句子中的每個(gè)詞確定一個(gè)合適的詞性的過程。詞性標(biāo)注研究是自然語(yǔ)言處理的基礎(chǔ)內(nèi)容之一,它在語(yǔ)音識(shí)別、信息檢索等很多領(lǐng)域發(fā)揮著重要的作用。在分詞和詞性標(biāo)注研究中,未登錄詞是影響分詞或標(biāo)注正確率的重要因素。文獻(xiàn)[1]指出,在Bakeoff2003分詞評(píng)測(cè)中,在給定的四個(gè)語(yǔ)料庫(kù)基礎(chǔ)上進(jìn)行測(cè)評(píng),未登錄損失詞造成的分詞精度損失比歧義切分造成的精度至少大10倍。藏語(yǔ)由于存在黏寫形式[2],未登錄詞造成的切分錯(cuò)誤還會(huì)更多。同樣,在詞性標(biāo)注中,未登錄詞標(biāo)注錯(cuò)誤也占據(jù)較大的比例?,F(xiàn)有的藏語(yǔ)詞性標(biāo)注模型基本上以詞為單位進(jìn)行標(biāo)注[3-5],由于用來訓(xùn)練標(biāo)注模型的語(yǔ)料庫(kù)比較小,未登錄詞的比例較高,標(biāo)注結(jié)果并不理想[6-7];而且各標(biāo)注系統(tǒng)在詞邊界劃分上也有分歧,不同系統(tǒng)的標(biāo)注結(jié)果往往不一致。在統(tǒng)一標(biāo)注語(yǔ)料庫(kù)缺失的情況下,各種標(biāo)注系統(tǒng)難以比較優(yōu)劣。近幾年,基于音節(jié)的方法在統(tǒng)計(jì)語(yǔ)言模型中發(fā)揮著積極的作用。在拼音線性文字研究方面,基于字符(letter)、子詞(subword)層級(jí)的統(tǒng)計(jì)語(yǔ)言模型不管在文本處理還是語(yǔ)音識(shí)別、文本語(yǔ)音轉(zhuǎn)換研究中都凸顯優(yōu)越性[8]。在漢、藏語(yǔ)文本處理研究中,研究者也廣泛采用了基于字位的統(tǒng)計(jì)分詞策略,并已經(jīng)取得了明顯的效果。因此,本文采用這種研究思路進(jìn)行藏語(yǔ)音節(jié)(通常指一個(gè)非黏寫形式的音節(jié))的音節(jié)性質(zhì)標(biāo)注。文章第二部分著重談藏語(yǔ)音節(jié)的概念、分類,第三部分主要講藏語(yǔ)音節(jié)性質(zhì)標(biāo)注的原則,第四部分描述標(biāo)注策略及結(jié)果分析。

        2 藏語(yǔ)音節(jié)的定義與分類

        2.2 藏語(yǔ)音節(jié)的性質(zhì)分類

        古代藏語(yǔ)以單音節(jié)為主,大部分音節(jié)都有實(shí)意,這里所說的音節(jié)的性質(zhì)是指音節(jié)的語(yǔ)法類別性質(zhì),與詞的詞性類似。藏語(yǔ)的詞可以由單個(gè)音節(jié)構(gòu)成,也可以由多個(gè)音節(jié)構(gòu)成。漢語(yǔ)中把構(gòu)成合成詞的字稱為詞素或者語(yǔ)素,詞素可以分成名詞性詞素、動(dòng)詞性詞素、形容詞性詞素等。藏語(yǔ)音節(jié)的性質(zhì)同樣可以分成名詞性音節(jié)、動(dòng)詞性音節(jié)、形容詞性音節(jié)等。要標(biāo)注藏語(yǔ)音節(jié)的語(yǔ)法屬性,首先需要對(duì)它們進(jìn)行分類,經(jīng)過標(biāo)注實(shí)踐,我們對(duì)藏語(yǔ)音節(jié)進(jìn)行了如下分類。

        (9) 前綴、后綴音節(jié)(f),指沒有詞匯意義,只有語(yǔ)法意義的音節(jié),如“pa”、“po”、“mo”、“bo”等。根據(jù)后綴所依附的音節(jié)的不同性質(zhì),可以分為nf(名詞性音節(jié)的綴)、vf(動(dòng)詞性音節(jié)的綴)、af(形容詞性音節(jié)的綴)等。如果是前綴,則分別為fn、fv、fa等,但實(shí)際上藏語(yǔ)中的前綴非常少。

        除了上述的音節(jié)之外,還有一部分表示語(yǔ)義、句法關(guān)系的格標(biāo)記和助詞,它們的分類如表1所示[9]。

        表1 表示語(yǔ)法意義的音節(jié)分類及標(biāo)注標(biāo)記表

        3 藏語(yǔ)音節(jié)性質(zhì)標(biāo)注的原則

        由此可見,藏語(yǔ)音節(jié)性質(zhì)標(biāo)注過程實(shí)際上是對(duì)同形多性進(jìn)行歧義消解的過程,每一個(gè)音節(jié)需要放置于合成詞、短語(yǔ)或句子中,才能夠得以正確標(biāo)注。根據(jù)這些特點(diǎn),本文作者在音節(jié)標(biāo)注時(shí)遵循了以下幾個(gè)原則。

        (1) 考慮合成詞中音節(jié)的來源,這個(gè)原則在前文已經(jīng)交代。

        (3) 遵循上下文原則,音節(jié)的標(biāo)注不是對(duì)孤立的音節(jié)或者獨(dú)立的合成詞中的音節(jié)進(jìn)行標(biāo)注,而是把音節(jié)置于文本的句子中考慮。尤其是單獨(dú)成詞或者具有某種語(yǔ)法意義的音節(jié),在確認(rèn)性質(zhì)的時(shí)候要結(jié)合上下文語(yǔ)境。例如,在確定格標(biāo)記時(shí),不但要考慮格標(biāo)記相關(guān)的名詞性結(jié)構(gòu),還要考慮動(dòng)詞的語(yǔ)義特性。

        4 藏語(yǔ)音節(jié)性質(zhì)標(biāo)注策略及結(jié)果分析

        在現(xiàn)有的研究中,對(duì)藏語(yǔ)黏寫形式切分的方法主要有兩種: 基于規(guī)則的方法[11-12]和基于統(tǒng)計(jì)的方法[2,12-13]。在統(tǒng)計(jì)方法中,有采用分詞和黏寫切分一體化的四詞位和六詞位標(biāo)注方法,以及單獨(dú)先處理黏寫形式然后再進(jìn)行分詞的預(yù)處理方法,實(shí)驗(yàn)結(jié)果表明后者比前者稍好一些[3],因此本實(shí)驗(yàn)采用后一種方法處理黏寫音節(jié)。

        4.2 語(yǔ)料選擇

        4.3 模型選擇

        音節(jié)性質(zhì)標(biāo)注實(shí)驗(yàn)采用了條件隨機(jī)場(chǎng)模型工具包。條件隨機(jī)場(chǎng)模型被廣泛使用在自然語(yǔ)言標(biāo)注研究中,尤其在序列標(biāo)注任務(wù)中表現(xiàn)突出。需要標(biāo)注的序列與標(biāo)注標(biāo)簽之間的概率可以采用式(1)計(jì)算。

        (1)

        對(duì)于藏語(yǔ)音節(jié)來說,X是藏語(yǔ)音節(jié)的序列,Y是對(duì)應(yīng)的音節(jié)性質(zhì)標(biāo)簽。fk是特征函數(shù),t是每個(gè)音節(jié)在當(dāng)前句子中的索引,Z(X)是歸一化因子,它用來保證Pλ(Y|X)滿足作為概率值的性質(zhì),其計(jì)算方法如式(2)所示。

        (2)

        如果將fk中的X和yt-1視為當(dāng)前的上下文h,將yt視為在當(dāng)前上下文環(huán)境中當(dāng)前觀察值的標(biāo)簽t,則概率模型和相應(yīng)的特征函數(shù)取自空間H×T,其中H表示所有可能的上下文或者任何預(yù)先定義的條件,而T是所有可能的標(biāo)簽集合,則特征函數(shù)可由式(3)定義,其中hi∈H,tj∈T。

        (3)

        條件隨機(jī)場(chǎng)模型不需要隱馬爾科夫模型所要求的嚴(yán)格獨(dú)立假設(shè),也克服了最大熵模型的標(biāo)記偏置的缺陷。它是在給定觀測(cè)序列的條件下定義整個(gè)類別標(biāo)記中單一標(biāo)記的聯(lián)合概率,而不是單單定義一個(gè)狀態(tài)分布概率。這個(gè)特點(diǎn)更符合自然語(yǔ)言的序列遞歸特點(diǎn)。

        4.4 標(biāo)注實(shí)驗(yàn)及結(jié)果分析

        在實(shí)驗(yàn)中,語(yǔ)料庫(kù)按照1∶4的比例分配,隨機(jī)抽取3 983句作為測(cè)試語(yǔ)料,其余15 952句作為訓(xùn)練語(yǔ)料,獲得模型大小為215MB。測(cè)試結(jié)果分別采用正確率來度量。本實(shí)驗(yàn)語(yǔ)料情況如表 2所示。

        表2 語(yǔ)料情況

        我們采用五個(gè)上下文窗口進(jìn)行訓(xùn)練,分別進(jìn)行詞性標(biāo)注、音節(jié)性質(zhì)標(biāo)注,以及使用帶音節(jié)性質(zhì)信息的詞性標(biāo)注實(shí)驗(yàn),實(shí)驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)如表3所示。

        表3 實(shí)驗(yàn)數(shù)據(jù)

        注: 標(biāo)準(zhǔn)音節(jié)性質(zhì)是指正確標(biāo)注的音節(jié)性質(zhì)。

        從表3中可以看出,單獨(dú)進(jìn)行音節(jié)性質(zhì)標(biāo)注,音節(jié)性質(zhì)標(biāo)注的正確率為93.520 8%;單獨(dú)進(jìn)行詞性標(biāo)注,正確率為93.014 3%;如果利用音節(jié)性質(zhì)標(biāo)注信息進(jìn)行詞性標(biāo)注,詞性標(biāo)注的正確率可以提高到94.196 7%,比不利用音節(jié)性質(zhì)信息直接進(jìn)行詞性標(biāo)注的方法提高了1.18%,在音節(jié)性質(zhì)標(biāo)注存在較多錯(cuò)誤的情況下,仍然能夠提高詞性標(biāo)注的正確率,其原因可能是歧義音節(jié)的多個(gè)音節(jié)性質(zhì)雖然不同,但在構(gòu)詞時(shí)卻能形成相同的詞性,因而仍然有利于詞性標(biāo)注。在保證音節(jié)性質(zhì)標(biāo)注完全正確的情況下,利用正確的音節(jié)性質(zhì)信息,詞性標(biāo)注的正確率提高到97.78%,正確率提高了4.77%。也就是說,如果音節(jié)性質(zhì)信息完全正確,可以極大地提高詞性標(biāo)注的正確率。

        5 結(jié)語(yǔ)

        本文進(jìn)行了基于音節(jié)的音節(jié)性質(zhì)標(biāo)注研究,對(duì)音節(jié)進(jìn)行了定義、分類,闡述了標(biāo)注的原則;構(gòu)建了約24萬(wàn)音節(jié)的中小學(xué)藏語(yǔ)文教材標(biāo)注語(yǔ)料庫(kù)。經(jīng)過實(shí)驗(yàn)得到了音節(jié)標(biāo)注模型,測(cè)試結(jié)果正確率達(dá)到了93.520 8%。經(jīng)分析錯(cuò)誤例子得知,大部分標(biāo)注錯(cuò)誤是由于標(biāo)注語(yǔ)料的不一致性引起的。由于藏語(yǔ)音節(jié)性質(zhì)標(biāo)注研究在藏語(yǔ)文本信息處理中還沒有報(bào)道過,本文的研究對(duì)藏語(yǔ)構(gòu)詞法研究、未登錄詞識(shí)別與標(biāo)注、基于音節(jié)的語(yǔ)言模型的構(gòu)造都具有積極的意義。

        [1] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào),2007,21(3): 8-19.

        [2] 康才畯,龍從軍,江荻.基于詞位的藏文黏寫形式的切分[J].計(jì)算機(jī)工程與應(yīng)用, 2014(11): 218-222.

        [3] 史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2011,25(4): 54-56.

        [4] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報(bào),2013, 27(5): 160-165.

        [5] 康才畯.藏語(yǔ)分詞與詞性標(biāo)注研究[D].上海師范大學(xué)博士學(xué)位論文, 2014: 53.

        [6] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J]. 中文信息學(xué)報(bào), 2013, 27(5): 160-165.

        [7] 華卻才讓,劉群,趙海興,等.判別式藏語(yǔ)文本詞性標(biāo)注研究[J].中文信息學(xué)報(bào), 2014, 28(2): 56-60.

        [8] Tomá?Mikolov, IlyaSutskever, Hai-Son Leetc. Subword language modeling with neural networks[EB/OL]. www.fit.vutbr.cz /~imikolov/ rnnlm/char.pdf.

        [9] 趙小兵,孫媛,龍從軍,等.藏文拉丁轉(zhuǎn)寫、分詞和詞性分類規(guī)范: 信息處理用現(xiàn)代藏語(yǔ)分詞規(guī)范(草案)[M].北京: 商務(wù)印書館, 2015: 1-10.

        [10] 張濟(jì)川. 藏語(yǔ)詞族研究: 古代藏族如何豐富發(fā)展他們的詞匯[M].北京: 社會(huì)科學(xué)文獻(xiàn)出版社,2009: 207.

        [11] 才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別[J].中文信息學(xué)報(bào),2009,23(1): 35-37, 43.

        [12] 劉匯丹,藏文分詞及文本資源挖掘研究[D],中國(guó)科學(xué)院博士學(xué)位論文,2012: 46.

        [13] Congjun Long, Caijun Kang, Di Jiang. The comparative research on the segmentation strategies of Tibetan bounded variant forms[C]//Proceedings of the Asian Language Processing(IALP), 2013 International Conference on DOI: 10.1109/IALP,2013 : 243-246.

        龍從軍(1978—),博士,副研究員, 主要研究領(lǐng)域?yàn)椴卣Z(yǔ)計(jì)算語(yǔ)言學(xué)。

        E-mail: longcj@cass.org.cn

        劉匯丹(1982—),博士,副研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、多語(yǔ)言信息處理。

        E-mail: huidan@iscas.ac.cn

        吳健(1962—),研究員,主要研究領(lǐng)域?yàn)椴僮飨到y(tǒng)中文信息處理、多語(yǔ)言信息處理。

        E-mail: wujian@iscas.ac.cn

        Research on Tagging of Tibetan Syllables

        LONG Congjun1,2, LIU Huidan2, WU Jian2

        (1. Institute of Ethnology and Anthropology, Chinese Academy of Social Sciences, Beijing 100081,China;2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)

        1003-0077(2017)04-0089-05

        文獻(xiàn)標(biāo)志碼: A

        猜你喜歡
        藏語(yǔ)分詞音節(jié)
        淺談藏語(yǔ)中的禮儀語(yǔ)
        客聯(lián)(2022年2期)2022-04-29 22:05:07
        漢藏語(yǔ)及其音樂
        拼拼 讀讀 寫寫
        結(jié)巴分詞在詞云中的應(yīng)用
        藏語(yǔ)拉達(dá)克話的幾個(gè)語(yǔ)音特征
        西藏研究(2017年3期)2017-09-05 09:44:58
        值得重視的分詞的特殊用法
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        藏語(yǔ)地理分布格局的形成原因
        西藏研究(2016年5期)2016-06-15 12:56:42
        快樂拼音
        木管樂器“音節(jié)練習(xí)法”初探
        亚洲裸男gv网站| 蜜臀精品一区二区三区| 99在线视频这里只有精品伊人| 大学生粉嫩无套流白浆| 免费a级毛片无码a| 国内精品视频成人一区二区| 国产夫妻自偷自拍第一页| 久久伊人亚洲精品视频| 中文字幕亚洲欧美在线不卡| 无遮无挡爽爽免费视频| 中国农村熟妇性视频| 日韩极品视频免费观看| 91精品国产乱码久久久| 亚洲人成网站在线播放观看| 妓院一钑片免看黄大片| 国产精品天堂avav在线| 国产女主播在线免费看| 色又黄又爽18禁免费网站现观看| 无码综合天天久久综合网| 在线看片国产免费不卡| 日本av一区二区在线| 国模冰莲极品自慰人体| 少妇极品熟妇人妻无码| 亚洲一区二区三区在线观看蜜桃| 亚洲婷婷久悠悠色悠在线播放| 免费久久人人爽人人爽av| 亚洲熟妇色xxxxx欧美老妇 | 亚洲产在线精品亚洲第一页| 综合国产婷婷精品久久99之一 | 精品人妻久久一区二区三区| 亚洲人成人网站在线观看| 无码日韩人妻AV一区免费| 亚洲av综合色区久久精品| 国产freesexvideos中国麻豆| 久久国产精久久精产国| 国产一区二区精品网站看黄 | 亚洲精品久久久久久| 淫妇日韩中文字幕在线| 亚洲悠悠色综合中文字幕| 亚洲色大成网站www久久九| 在线看片国产免费不卡|