亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語(yǔ)音節(jié)標(biāo)注研究

        2017-10-11 07:09:47龍從軍劉匯丹
        中文信息學(xué)報(bào) 2017年4期
        關(guān)鍵詞:性質(zhì)模型研究

        龍從軍,劉匯丹,吳 健

        (1. 中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類(lèi)學(xué)研究所,北京 100081; 2. 中國(guó)科學(xué)院 軟件研究所,北京 100190)

        藏語(yǔ)音節(jié)標(biāo)注研究

        龍從軍1,2,劉匯丹2,吳 健2

        (1. 中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類(lèi)學(xué)研究所,北京 100081; 2. 中國(guó)科學(xué)院 軟件研究所,北京 100190)

        藏語(yǔ)的“音節(jié)”在詞匯語(yǔ)法研究和文本信息處理研究中都十分重要,尤其在解決未登錄詞切分問(wèn)題和標(biāo)注中能夠發(fā)揮積極的作用。然而在現(xiàn)有的研究中,對(duì)音節(jié)的重視還不夠。該文提出在文本標(biāo)注時(shí),可以先進(jìn)行音節(jié)的性質(zhì)標(biāo)注,然后通過(guò)音節(jié)構(gòu)詞的規(guī)律預(yù)測(cè)復(fù)合詞的詞性,尤其是未登錄詞的詞性。該文作者對(duì)藏語(yǔ)音節(jié)的定義進(jìn)行了界定,提出音節(jié)的性質(zhì)分類(lèi)及標(biāo)注原則,利用統(tǒng)計(jì)模型,在約24萬(wàn)音節(jié)的中小學(xué)語(yǔ)文教材語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn),音節(jié)性質(zhì)標(biāo)注的正確率為93.520 8%。在此基礎(chǔ)上,把音節(jié)性質(zhì)標(biāo)注信息用到詞性標(biāo)注中。實(shí)驗(yàn)結(jié)果表明: 即使在音節(jié)性質(zhì)標(biāo)注存在一定錯(cuò)誤的情況下,詞性標(biāo)注的正確率也提高到94.196 7%;如果在保證音節(jié)性質(zhì)標(biāo)注完全正確的情況下,詞性標(biāo)注的正確率可以提高到97.775 4%,這說(shuō)明音節(jié)性質(zhì)標(biāo)注信息對(duì)詞性標(biāo)注有幫助。

        藏語(yǔ);藏語(yǔ)音節(jié);音節(jié)性質(zhì)標(biāo)注;音節(jié)性質(zhì)分類(lèi)

        Abstract: “Syllables” of Tibetan language are very important in vocabulary construction and text information processing, especially for solving the segmentation and annotation of OOVs. This paper proposes to tag the syllables, which can be applied to predict POS of compound words (especially OOVs) according to the rules of words-construction. This paper presents the definition of the Tibetan syllable, outlines and the principles of classification and labeling. The train and test texts are selected from teaching material of Tibetan language of primary and secondary schools, total 240K syllables. Experiments reveals a precision of 93.5208% for syllable tagging, upon which an improved 94.1967% accuracy for POS tagging can be reached. And given the gold-standard of syllable tagging, the accuracy of POS tagging will be improved to 97.775 4%.

        Key words: Tibetan language; Tibetan syllable; syllable tagging; syllable classification

        收稿日期: 2016-04-18 定稿日期: 2017-03-03

        基金項(xiàng)目: 國(guó)家語(yǔ)委重點(diǎn)項(xiàng)目(ZDI135-17)

        1 引言

        詞性標(biāo)注是為給定句子中的每個(gè)詞確定一個(gè)合適的詞性的過(guò)程。詞性標(biāo)注研究是自然語(yǔ)言處理的基礎(chǔ)內(nèi)容之一,它在語(yǔ)音識(shí)別、信息檢索等很多領(lǐng)域發(fā)揮著重要的作用。在分詞和詞性標(biāo)注研究中,未登錄詞是影響分詞或標(biāo)注正確率的重要因素。文獻(xiàn)[1]指出,在Bakeoff2003分詞評(píng)測(cè)中,在給定的四個(gè)語(yǔ)料庫(kù)基礎(chǔ)上進(jìn)行測(cè)評(píng),未登錄損失詞造成的分詞精度損失比歧義切分造成的精度至少大10倍。藏語(yǔ)由于存在黏寫(xiě)形式[2],未登錄詞造成的切分錯(cuò)誤還會(huì)更多。同樣,在詞性標(biāo)注中,未登錄詞標(biāo)注錯(cuò)誤也占據(jù)較大的比例。現(xiàn)有的藏語(yǔ)詞性標(biāo)注模型基本上以詞為單位進(jìn)行標(biāo)注[3-5],由于用來(lái)訓(xùn)練標(biāo)注模型的語(yǔ)料庫(kù)比較小,未登錄詞的比例較高,標(biāo)注結(jié)果并不理想[6-7];而且各標(biāo)注系統(tǒng)在詞邊界劃分上也有分歧,不同系統(tǒng)的標(biāo)注結(jié)果往往不一致。在統(tǒng)一標(biāo)注語(yǔ)料庫(kù)缺失的情況下,各種標(biāo)注系統(tǒng)難以比較優(yōu)劣。近幾年,基于音節(jié)的方法在統(tǒng)計(jì)語(yǔ)言模型中發(fā)揮著積極的作用。在拼音線性文字研究方面,基于字符(letter)、子詞(subword)層級(jí)的統(tǒng)計(jì)語(yǔ)言模型不管在文本處理還是語(yǔ)音識(shí)別、文本語(yǔ)音轉(zhuǎn)換研究中都凸顯優(yōu)越性[8]。在漢、藏語(yǔ)文本處理研究中,研究者也廣泛采用了基于字位的統(tǒng)計(jì)分詞策略,并已經(jīng)取得了明顯的效果。因此,本文采用這種研究思路進(jìn)行藏語(yǔ)音節(jié)(通常指一個(gè)非黏寫(xiě)形式的音節(jié))的音節(jié)性質(zhì)標(biāo)注。文章第二部分著重談藏語(yǔ)音節(jié)的概念、分類(lèi),第三部分主要講藏語(yǔ)音節(jié)性質(zhì)標(biāo)注的原則,第四部分描述標(biāo)注策略及結(jié)果分析。

        2 藏語(yǔ)音節(jié)的定義與分類(lèi)

        2.2 藏語(yǔ)音節(jié)的性質(zhì)分類(lèi)

        古代藏語(yǔ)以單音節(jié)為主,大部分音節(jié)都有實(shí)意,這里所說(shuō)的音節(jié)的性質(zhì)是指音節(jié)的語(yǔ)法類(lèi)別性質(zhì),與詞的詞性類(lèi)似。藏語(yǔ)的詞可以由單個(gè)音節(jié)構(gòu)成,也可以由多個(gè)音節(jié)構(gòu)成。漢語(yǔ)中把構(gòu)成合成詞的字稱(chēng)為詞素或者語(yǔ)素,詞素可以分成名詞性詞素、動(dòng)詞性詞素、形容詞性詞素等。藏語(yǔ)音節(jié)的性質(zhì)同樣可以分成名詞性音節(jié)、動(dòng)詞性音節(jié)、形容詞性音節(jié)等。要標(biāo)注藏語(yǔ)音節(jié)的語(yǔ)法屬性,首先需要對(duì)它們進(jìn)行分類(lèi),經(jīng)過(guò)標(biāo)注實(shí)踐,我們對(duì)藏語(yǔ)音節(jié)進(jìn)行了如下分類(lèi)。

        (9) 前綴、后綴音節(jié)(f),指沒(méi)有詞匯意義,只有語(yǔ)法意義的音節(jié),如“pa”、“po”、“mo”、“bo”等。根據(jù)后綴所依附的音節(jié)的不同性質(zhì),可以分為nf(名詞性音節(jié)的綴)、vf(動(dòng)詞性音節(jié)的綴)、af(形容詞性音節(jié)的綴)等。如果是前綴,則分別為fn、fv、fa等,但實(shí)際上藏語(yǔ)中的前綴非常少。

        除了上述的音節(jié)之外,還有一部分表示語(yǔ)義、句法關(guān)系的格標(biāo)記和助詞,它們的分類(lèi)如表1所示[9]。

        表1 表示語(yǔ)法意義的音節(jié)分類(lèi)及標(biāo)注標(biāo)記表

        3 藏語(yǔ)音節(jié)性質(zhì)標(biāo)注的原則

        由此可見(jiàn),藏語(yǔ)音節(jié)性質(zhì)標(biāo)注過(guò)程實(shí)際上是對(duì)同形多性進(jìn)行歧義消解的過(guò)程,每一個(gè)音節(jié)需要放置于合成詞、短語(yǔ)或句子中,才能夠得以正確標(biāo)注。根據(jù)這些特點(diǎn),本文作者在音節(jié)標(biāo)注時(shí)遵循了以下幾個(gè)原則。

        (1) 考慮合成詞中音節(jié)的來(lái)源,這個(gè)原則在前文已經(jīng)交代。

        (3) 遵循上下文原則,音節(jié)的標(biāo)注不是對(duì)孤立的音節(jié)或者獨(dú)立的合成詞中的音節(jié)進(jìn)行標(biāo)注,而是把音節(jié)置于文本的句子中考慮。尤其是單獨(dú)成詞或者具有某種語(yǔ)法意義的音節(jié),在確認(rèn)性質(zhì)的時(shí)候要結(jié)合上下文語(yǔ)境。例如,在確定格標(biāo)記時(shí),不但要考慮格標(biāo)記相關(guān)的名詞性結(jié)構(gòu),還要考慮動(dòng)詞的語(yǔ)義特性。

        4 藏語(yǔ)音節(jié)性質(zhì)標(biāo)注策略及結(jié)果分析

        在現(xiàn)有的研究中,對(duì)藏語(yǔ)黏寫(xiě)形式切分的方法主要有兩種: 基于規(guī)則的方法[11-12]和基于統(tǒng)計(jì)的方法[2,12-13]。在統(tǒng)計(jì)方法中,有采用分詞和黏寫(xiě)切分一體化的四詞位和六詞位標(biāo)注方法,以及單獨(dú)先處理黏寫(xiě)形式然后再進(jìn)行分詞的預(yù)處理方法,實(shí)驗(yàn)結(jié)果表明后者比前者稍好一些[3],因此本實(shí)驗(yàn)采用后一種方法處理黏寫(xiě)音節(jié)。

        4.2 語(yǔ)料選擇

        4.3 模型選擇

        音節(jié)性質(zhì)標(biāo)注實(shí)驗(yàn)采用了條件隨機(jī)場(chǎng)模型工具包。條件隨機(jī)場(chǎng)模型被廣泛使用在自然語(yǔ)言標(biāo)注研究中,尤其在序列標(biāo)注任務(wù)中表現(xiàn)突出。需要標(biāo)注的序列與標(biāo)注標(biāo)簽之間的概率可以采用式(1)計(jì)算。

        (1)

        對(duì)于藏語(yǔ)音節(jié)來(lái)說(shuō),X是藏語(yǔ)音節(jié)的序列,Y是對(duì)應(yīng)的音節(jié)性質(zhì)標(biāo)簽。fk是特征函數(shù),t是每個(gè)音節(jié)在當(dāng)前句子中的索引,Z(X)是歸一化因子,它用來(lái)保證Pλ(Y|X)滿足作為概率值的性質(zhì),其計(jì)算方法如式(2)所示。

        (2)

        如果將fk中的X和yt-1視為當(dāng)前的上下文h,將yt視為在當(dāng)前上下文環(huán)境中當(dāng)前觀察值的標(biāo)簽t,則概率模型和相應(yīng)的特征函數(shù)取自空間H×T,其中H表示所有可能的上下文或者任何預(yù)先定義的條件,而T是所有可能的標(biāo)簽集合,則特征函數(shù)可由式(3)定義,其中hi∈H,tj∈T。

        (3)

        條件隨機(jī)場(chǎng)模型不需要隱馬爾科夫模型所要求的嚴(yán)格獨(dú)立假設(shè),也克服了最大熵模型的標(biāo)記偏置的缺陷。它是在給定觀測(cè)序列的條件下定義整個(gè)類(lèi)別標(biāo)記中單一標(biāo)記的聯(lián)合概率,而不是單單定義一個(gè)狀態(tài)分布概率。這個(gè)特點(diǎn)更符合自然語(yǔ)言的序列遞歸特點(diǎn)。

        4.4 標(biāo)注實(shí)驗(yàn)及結(jié)果分析

        在實(shí)驗(yàn)中,語(yǔ)料庫(kù)按照1∶4的比例分配,隨機(jī)抽取3 983句作為測(cè)試語(yǔ)料,其余15 952句作為訓(xùn)練語(yǔ)料,獲得模型大小為215MB。測(cè)試結(jié)果分別采用正確率來(lái)度量。本實(shí)驗(yàn)語(yǔ)料情況如表 2所示。

        表2 語(yǔ)料情況

        我們采用五個(gè)上下文窗口進(jìn)行訓(xùn)練,分別進(jìn)行詞性標(biāo)注、音節(jié)性質(zhì)標(biāo)注,以及使用帶音節(jié)性質(zhì)信息的詞性標(biāo)注實(shí)驗(yàn),實(shí)驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)如表3所示。

        表3 實(shí)驗(yàn)數(shù)據(jù)

        注: 標(biāo)準(zhǔn)音節(jié)性質(zhì)是指正確標(biāo)注的音節(jié)性質(zhì)。

        從表3中可以看出,單獨(dú)進(jìn)行音節(jié)性質(zhì)標(biāo)注,音節(jié)性質(zhì)標(biāo)注的正確率為93.520 8%;單獨(dú)進(jìn)行詞性標(biāo)注,正確率為93.014 3%;如果利用音節(jié)性質(zhì)標(biāo)注信息進(jìn)行詞性標(biāo)注,詞性標(biāo)注的正確率可以提高到94.196 7%,比不利用音節(jié)性質(zhì)信息直接進(jìn)行詞性標(biāo)注的方法提高了1.18%,在音節(jié)性質(zhì)標(biāo)注存在較多錯(cuò)誤的情況下,仍然能夠提高詞性標(biāo)注的正確率,其原因可能是歧義音節(jié)的多個(gè)音節(jié)性質(zhì)雖然不同,但在構(gòu)詞時(shí)卻能形成相同的詞性,因而仍然有利于詞性標(biāo)注。在保證音節(jié)性質(zhì)標(biāo)注完全正確的情況下,利用正確的音節(jié)性質(zhì)信息,詞性標(biāo)注的正確率提高到97.78%,正確率提高了4.77%。也就是說(shuō),如果音節(jié)性質(zhì)信息完全正確,可以極大地提高詞性標(biāo)注的正確率。

        5 結(jié)語(yǔ)

        本文進(jìn)行了基于音節(jié)的音節(jié)性質(zhì)標(biāo)注研究,對(duì)音節(jié)進(jìn)行了定義、分類(lèi),闡述了標(biāo)注的原則;構(gòu)建了約24萬(wàn)音節(jié)的中小學(xué)藏語(yǔ)文教材標(biāo)注語(yǔ)料庫(kù)。經(jīng)過(guò)實(shí)驗(yàn)得到了音節(jié)標(biāo)注模型,測(cè)試結(jié)果正確率達(dá)到了93.520 8%。經(jīng)分析錯(cuò)誤例子得知,大部分標(biāo)注錯(cuò)誤是由于標(biāo)注語(yǔ)料的不一致性引起的。由于藏語(yǔ)音節(jié)性質(zhì)標(biāo)注研究在藏語(yǔ)文本信息處理中還沒(méi)有報(bào)道過(guò),本文的研究對(duì)藏語(yǔ)構(gòu)詞法研究、未登錄詞識(shí)別與標(biāo)注、基于音節(jié)的語(yǔ)言模型的構(gòu)造都具有積極的意義。

        [1] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào),2007,21(3): 8-19.

        [2] 康才畯,龍從軍,江荻.基于詞位的藏文黏寫(xiě)形式的切分[J].計(jì)算機(jī)工程與應(yīng)用, 2014(11): 218-222.

        [3] 史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2011,25(4): 54-56.

        [4] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報(bào),2013, 27(5): 160-165.

        [5] 康才畯.藏語(yǔ)分詞與詞性標(biāo)注研究[D].上海師范大學(xué)博士學(xué)位論文, 2014: 53.

        [6] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J]. 中文信息學(xué)報(bào), 2013, 27(5): 160-165.

        [7] 華卻才讓,劉群,趙海興,等.判別式藏語(yǔ)文本詞性標(biāo)注研究[J].中文信息學(xué)報(bào), 2014, 28(2): 56-60.

        [8] Tomá?Mikolov, IlyaSutskever, Hai-Son Leetc. Subword language modeling with neural networks[EB/OL]. www.fit.vutbr.cz /~imikolov/ rnnlm/char.pdf.

        [9] 趙小兵,孫媛,龍從軍,等.藏文拉丁轉(zhuǎn)寫(xiě)、分詞和詞性分類(lèi)規(guī)范: 信息處理用現(xiàn)代藏語(yǔ)分詞規(guī)范(草案)[M].北京: 商務(wù)印書(shū)館, 2015: 1-10.

        [10] 張濟(jì)川. 藏語(yǔ)詞族研究: 古代藏族如何豐富發(fā)展他們的詞匯[M].北京: 社會(huì)科學(xué)文獻(xiàn)出版社,2009: 207.

        [11] 才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別[J].中文信息學(xué)報(bào),2009,23(1): 35-37, 43.

        [12] 劉匯丹,藏文分詞及文本資源挖掘研究[D],中國(guó)科學(xué)院博士學(xué)位論文,2012: 46.

        [13] Congjun Long, Caijun Kang, Di Jiang. The comparative research on the segmentation strategies of Tibetan bounded variant forms[C]//Proceedings of the Asian Language Processing(IALP), 2013 International Conference on DOI: 10.1109/IALP,2013 : 243-246.

        龍從軍(1978—),博士,副研究員, 主要研究領(lǐng)域?yàn)椴卣Z(yǔ)計(jì)算語(yǔ)言學(xué)。

        E-mail: longcj@cass.org.cn

        劉匯丹(1982—),博士,副研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、多語(yǔ)言信息處理。

        E-mail: huidan@iscas.ac.cn

        吳健(1962—),研究員,主要研究領(lǐng)域?yàn)椴僮飨到y(tǒng)中文信息處理、多語(yǔ)言信息處理。

        E-mail: wujian@iscas.ac.cn

        Research on Tagging of Tibetan Syllables

        LONG Congjun1,2, LIU Huidan2, WU Jian2

        (1. Institute of Ethnology and Anthropology, Chinese Academy of Social Sciences, Beijing 100081,China;2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)

        1003-0077(2017)04-0089-05

        文獻(xiàn)標(biāo)志碼: A

        猜你喜歡
        性質(zhì)模型研究
        一半模型
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        隨機(jī)變量的分布列性質(zhì)的應(yīng)用
        重要模型『一線三等角』
        完全平方數(shù)的性質(zhì)及其應(yīng)用
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        九點(diǎn)圓的性質(zhì)和應(yīng)用
        EMA伺服控制系統(tǒng)研究
        国产亚洲av手机在线观看| 久热这里只有精品视频6| a亚洲va欧美va国产综合| 欧美日韩中文字幕久久伊人| 超短裙老师在线观看一区| 国内自拍速发福利免费在线观看| 久久99精品久久水蜜桃| 国产精品久久久久久妇女6080| 日韩精品视频在线观看免费 | 中文字幕乱码一区在线观看| 日韩欧美在线综合网另类| 性动态图av无码专区| 色播在线永久免费视频网站| 日本一级三级在线观看| 国产精品久久久久久| 亚洲一本大道无码av天堂| 国产欧美激情一区二区三区| 深夜福利国产精品中文字幕| 大学生高潮无套内谢视频| 五月天精品视频在线观看| 亚洲无码美韩综合| 国产日产桃色精品久久久| 亚洲av日韩av在线观看| 亚洲中文字幕一区av| 日本边添边摸边做边爱喷水| 色婷婷综合中文久久一本 | 伊伊人成亚洲综合人网香| 亚洲国产成人AⅤ片在线观看| 色小姐在线视频中文字幕| 国产一区二区精品久久岳| 女人大荫蒂毛茸茸视频| 中文亚洲成a人片在线观看| 李白姓白白又白类似的套路| 欧美又大又色又爽aaaa片| 五月婷婷激情综合| 亚洲一区二区三区麻豆| 国产午夜福利片在线观看| 比比资源先锋影音网| 91久久精品国产性色tv| 成年人观看视频在线播放| 日本aⅴ大伊香蕉精品视频|