亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語句法功能組塊的邊界識別

        2013-10-15 01:52:18龍從軍
        中文信息學(xué)報 2013年6期
        關(guān)鍵詞:中文信息藏語組塊

        李 琳,龍從軍,江 荻

        (1.中國社會科學(xué)院 研究生院,北京102488;2.中國社會科學(xué)院 民族學(xué)與人類學(xué)研究所,北京100081;3.中央民族大學(xué) 民族語言監(jiān)測分中心,北京100081)

        1 引言

        句法分析是自然語言處理的基礎(chǔ)技術(shù),被廣泛地應(yīng)用到機器翻譯、信息抽取等諸多研究領(lǐng)域。目前句法分析技術(shù)的一個重要發(fā)展趨勢是由完全句法分析轉(zhuǎn)向部分句法分析的研究?;趬K的部分句法分析可以降低句法分析的復(fù)雜性,提高局部分析的準(zhǔn)確性,從而為進(jìn)一步的完全句法分析和語義分析奠定基礎(chǔ)。英漢句法分析的研究成果很多[1-10],尤其是組塊邊界識別的研究為藏語組塊邊界的識別提供了較好的經(jīng)驗和技術(shù)積累。

        對藏語句法組塊理論及識別方法探討已經(jīng)有了較多成果。文獻(xiàn)[11]從藏語的高層單位(短語、結(jié)構(gòu)及句法成分組)切入,提出了現(xiàn)代藏語句法特征的組塊描述體系,該系統(tǒng)包括八種類型的藏語句法組塊。在此基礎(chǔ)上,文獻(xiàn)[12]對該描述體系進(jìn)行了擴(kuò)充。文獻(xiàn)[13]通過藏語助動詞的句法分布特征,探討了識別帶助動詞的謂語組塊;文獻(xiàn)[14]討論了藏語形容詞謂語句的謂語結(jié)構(gòu)和形式標(biāo)記并進(jìn)行實驗;文獻(xiàn)[15]提出了依靠右邊界的名詞組塊識別方法;文獻(xiàn)[16]提出了識別藏語判定句的主語和賓語的方法;文獻(xiàn)[17]討論了藏語述說動詞句賓語的識別方法。

        目前對藏語組塊的研究主要是采用規(guī)則的方法對不同類型的組塊進(jìn)行識別。在前人對藏語句法組塊的描述基礎(chǔ)上,本文提出了基于CRFs模型的藏語功能組塊邊界識別方法。從實踐角度對藏語功能組塊邊界進(jìn)行識別,并對錯誤結(jié)果進(jìn)行分析,為進(jìn)一步的組塊邊界識別與組塊類型標(biāo)注積累經(jīng)驗。

        2 藏語功能組塊體系

        功能組塊描述體系是自頂向下描述句子的基本骨架[10],在該體系中描述單元可以是句子層面的謂詞和與它相關(guān)聯(lián)的體詞,如謂詞與各種論元。由于藏語具有豐富的句法標(biāo)記,描述單元之間的關(guān)系更加清晰,因此能夠借鑒英漢組塊識別的方法,從高層語言單位切入分析藏語句法結(jié)構(gòu)和句法功能組塊。

        現(xiàn)代藏語總的語序是主語-賓語-謂語,表達(dá)完整意義的擴(kuò)展句法語序是:主語+(間接賓語)+(直接賓語)+(結(jié)果補語)+(狀語)+動詞+(狀態(tài)補語)[12]。從句法成分的各個位置上看,藏語句子中與句法組塊存在對應(yīng)關(guān)系的句法成分有主、賓、謂、狀、補①定語與中心語之間的標(biāo)記不能或者極少作為組塊邊界標(biāo)記,因此本文不單獨列示。,名詞或體詞的修飾語組塊未單獨列出。根據(jù)這些研究成果,本文建立了藏語功能組塊描述體系,如表1所示。

        表1 藏語功能組塊描述體系

        3 基于CRFs的藏語功能組塊識別

        3.1 藏語功能組塊標(biāo)注集

        為了將識別功能組塊邊界問題轉(zhuǎn)化為序列標(biāo)注問題,本文采用Start/End標(biāo)記集[18]來標(biāo)記功能組塊。標(biāo)記集中的每個標(biāo)記均由兩部分構(gòu)成:第一部分是詞語所屬功能組塊的類型標(biāo)記,具體如表1所示;第二部分為該詞語在功能組塊中的位置,起始位置用B表示,內(nèi)部位置用I表示,結(jié)束位置用E表示,只包含一個詞的塊用U表示;在這兩部分標(biāo)記之間用“-”來分隔。對于不屬于這幾類功能組塊的單詞和符號,統(tǒng)一使用N來標(biāo)記。

        ?

        3.2 條件隨機域模型

        藏語功能組塊邊界識別問題可以轉(zhuǎn)化為序列標(biāo)注問題,本文利用CRFs模型建立功能組塊的序列標(biāo)注模型。CRFs模型是一個基于無向圖的條件概率模型,具有表達(dá)長距離依賴性和交疊性特征的能力,能夠較好地解決標(biāo)注(分類)偏置等問題,并求得全局的最優(yōu)解。CRFs模型在各類序列標(biāo)注問題中都顯示出了很好的處理效果,例如,詞類標(biāo)注、專有名詞識別、語義角色標(biāo)注等。選擇CRFs模型是因為它能夠任意添加有效的特征向量,從而綜合利用詞、詞性等多層次的語言信息。

        具體計算問題可以描述如下:設(shè)輸入的序列為X=x1x2x3…xn,其中xi為一個詞語,并帶有相應(yīng)的詞性標(biāo)記,相應(yīng)的輸出序列為Y=y(tǒng)1y2y3…yn,其中yi是標(biāo)注了功能塊標(biāo)記的詞語。則對一個輸入序列X進(jìn)行標(biāo)注的過程就是為其尋找一個最優(yōu)的輸出標(biāo)記序列Y的過程。

        4 實驗

        4.1 實驗語料及評價參數(shù)

        實驗使用Taku Kudo開發(fā)的開源CRF++軟件包0.53。實驗語料采用拉薩藏語口語語料庫,該語料庫標(biāo)注了詞性和功能組塊的邊界信息。由于標(biāo)注語料較少,我們采用交叉驗證的方式,將語料平均分為4份,進(jìn)行了4次試驗。試驗結(jié)果是這4次試驗數(shù)據(jù)的平均值。每次實驗對語料按8∶2進(jìn)行劃分,其中訓(xùn)練集包含800個句子,測試集包含200個句子。使用自然語言處理常用的評價方法對功能組塊邊界識別性能進(jìn)行評價:

        (1)準(zhǔn)確率(Precision):

        P=(正確功能組塊數(shù)/召回組塊總數(shù))×100%

        (2)召回率(Recall):

        R=(正確功能組塊數(shù)/功能組塊總數(shù))×100%

        (3)F-1測度(F-1measure):

        F=(2×P×R)/(P+R)

        4.2 特征模板

        CRFs模型識別功能塊邊界的關(guān)鍵在于特征的選擇,其恰當(dāng)與否會對識別結(jié)果產(chǎn)生直接的影響。通常來講,豐富的上下文特征對于識別精確率的提高有著積極的作用,但會給訓(xùn)練和測試過程帶來很大的開銷。因此,應(yīng)在保證實驗效果的情況下,所選取的特征應(yīng)盡可能少。本文在進(jìn)行特征選擇的時候,考慮到詞和詞性及其上下文之間存在著的種種依賴關(guān)系,嘗試將當(dāng)前位置的前后兩個詞及詞性作為特征。這種組合包括了詞和詞性標(biāo)記的組合信息,可以對模型提供更豐富的識別信息。本實驗利用不同模板進(jìn)行了分組實驗,詳見表3。

        表3 功能塊邊界識別特征模板

        4.3 實驗結(jié)果

        利用表2的特征模板,利用訓(xùn)練語料對CRFs模型進(jìn)行訓(xùn)練,再利用得到的模型對測試語料進(jìn)行標(biāo)注,最后得到功能組塊邊界識別結(jié)果。表4為在不同特征模板下訓(xùn)練的CRF模型自動識別功能組塊的效果。

        表4 CRFs識別結(jié)果

        實驗結(jié)果表明,采用template3時識別模型效果最好,F(xiàn)值達(dá)到了83.56%。這比template1提升了9.8%,比template2提升了6.6%,說明前一個詞和當(dāng)前詞轉(zhuǎn)移概率特征的加入,使得系統(tǒng)能夠識別出更多的功能塊,尤其對功能塊準(zhǔn)確率的提高更為明顯。template4的實驗效果不如template3好,這證明采用“前一個詞和當(dāng)前詞的轉(zhuǎn)移概率特征”比“后一個詞和當(dāng)前詞的轉(zhuǎn)移概率特征”效果好。雖然豐富的上下文特征能夠提高模型的性能,然而template3的效果卻比template5要好,這說明在某些情況下,過多的上下文特征,反而會使識別效果下降。

        4.4 錯誤分析

        在使用CRFs模型對功能組塊邊界進(jìn)行識別后,錯誤率仍然較高,主要的原因有以下幾個方面。

        (1)復(fù)雜名詞組塊分析錯誤:藏語名詞組塊功能多樣、結(jié)構(gòu)復(fù)雜,尤其是遇到名詞組塊嵌套的情況,其識別結(jié)果往往出現(xiàn)錯誤。

        (3)由于可用的訓(xùn)練語料過少,數(shù)據(jù)稀疏問題影響了CRFs模型的識別效果。而且對于句子結(jié)構(gòu)的不同理解,也給標(biāo)注造成一些不一致的情況。由于功能組塊標(biāo)注是采用人工標(biāo)注,在工作中難免存在主觀因素的影響。如果能夠采用機器初步標(biāo)注,后期再進(jìn)行人工校對的方式,就可以避免標(biāo)注手法不一致對結(jié)果的影響。

        5 結(jié)束語

        在以往研究的基礎(chǔ)上,本文將CRFs模型引入藏語功能組塊邊界識別工作,嘗試使用不同語言信息構(gòu)造特征模板,進(jìn)而構(gòu)建不同的識別模型。實驗結(jié)果表明,基于統(tǒng)計的方法在塊邊界識別中效果比較明顯。在下一步工作當(dāng)中,我們一方面要進(jìn)一步擴(kuò)大訓(xùn)練語料和確定更優(yōu)的特征,另一方面可以引入錯誤驅(qū)動的方法對處理結(jié)果加以校正。

        [1]Abney S P.Parsing by chunks[M].Springer Netherlands,1992.

        [2]周俏麗,劉新,郎文靜,等.基于分治策略的組塊分析[J].中文信息學(xué)報,2012,26(5):120-128.

        [3]周強.漢語基本塊描述體系[J].中文信息學(xué)報,2007,21(3):21-27.

        [4]周俊生,戴新宇,陳家俊等.基于大間隔方法的漢語組塊分析[J].軟件學(xué)報,2009,20(4):870-877.

        [5]黃德根,王瑩瑩.基于SVM的組塊識別及其錯誤驅(qū)動學(xué)習(xí)方法[J].中文信息學(xué)報,2006,20(6):17-24.

        [6]周強,李玉梅.漢語塊分析測評任務(wù)設(shè)計[J].中文信息學(xué)報,2010,24(1):123-128.

        [7]黃德根,于靜.分布式策略與CRFs相結(jié)合識別漢語組塊[J].中文信息學(xué)報,2009,23(1):16-22.

        [8]李國臣,王瑞波,李濟(jì)洪.基于條件隨機場模型的漢語功能塊自動標(biāo)注[J].計算機研究與發(fā)展,2010(002):336-343.

        [9]劉海霞,黃德根.語義信息與CRF結(jié)合的漢語功能塊自動識別[J].中文信息學(xué)報,2011,25(5):53-59.

        [10]周強,趙穎澤.漢語功能塊自動分析[J].中文信息學(xué)報,2007,21(5):18-24.

        [11]江荻.現(xiàn)代藏語組塊分詞的方法與過程[J].民族語文,2003,4:31-39.

        [12]江荻.面向及其處理的現(xiàn)代藏語句法規(guī)則和詞類、組塊標(biāo)注集.江荻、孔江平,中國民族語言工程研究新進(jìn)展[M],北京:社會科學(xué)文獻(xiàn)出版社,2005:13-106.

        [13]龍從軍,江荻.現(xiàn)代藏語帶助動詞的謂語組塊及其識別.江荻、孔江平,中國民族語言工程研究新進(jìn)展[M],北京:社會科學(xué)文獻(xiàn)出版社,2005:123-135.

        [14]Jiang Di,Hu Hong-yan.The construction and identification approaches of adjectival predicate in modern Tibetan[J].Studies in Language and Linguistics,2005,25(2):115-122.

        [15]黃行,孫宏開,江荻,等.現(xiàn)代藏語名詞組塊的類型及形式標(biāo)記特征[C]//全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議 (JSCL-2005)論文集.2005.

        [16]黃行,江荻.現(xiàn)代藏語判定動詞句主賓語的自動識別方法[J].,孫茂松,語言計算與基于內(nèi)容的文本處理,2003:172.

        [17]江荻.藏語述說動詞小句賓語及其標(biāo)記[J].中文信息學(xué)報,2007,21(4):111-115.

        [18]Manabu Sassano and Takehito Utsuro.Named Entity Chunking Techniques in Supervised Learning for Japanese Named Entity Recognition[C]//Proceedings of COLING 2000:705-711.

        猜你喜歡
        中文信息藏語組塊
        淺談藏語中的禮儀語
        客聯(lián)(2022年2期)2022-04-29 22:05:07
        橫浪作用下大型上部組塊雙船浮托安裝動力響應(yīng)特性試驗研究
        漢藏語及其音樂
        中國中文信息學(xué)會2019年活動計劃2019年活動計劃表
        中國中文信息學(xué)會2018年學(xué)術(shù)活動計劃
        藏語拉達(dá)克話的幾個語音特征
        西藏研究(2017年3期)2017-09-05 09:44:58
        藏語地理分布格局的形成原因
        西藏研究(2016年5期)2016-06-15 12:56:42
        陸豐7-2油田導(dǎo)管架平臺上部組塊低位浮托安裝關(guān)鍵技術(shù)
        英語詞匯組塊學(xué)習(xí)路徑研究——組塊法
        詞匯組塊層次網(wǎng)絡(luò)
        亚洲成人免费无码| 国产毛多水多高潮高清| 中国少妇内射xxxx狠干| 中文字幕无码免费久久| 产精品无码久久_亚洲国产精| 精品人妻一区二区三区狼人| 国产激情无码视频在线播放性色| 国内老熟妇对白xxxxhd| 99热成人精品国产免| 美女福利视频在线观看网址| 99久久无码一区人妻| 中文字幕av无码免费一区| 人妻少妇一区二区三区| 在线观看一区二区三区视频| 中国妇女做爰视频| 夜夜爽一区二区三区精品| 91情侣在线精品国产免费| 91久久精品美女高潮喷白浆| 亚洲国产精品无码久久| 日韩精品大片在线观看| 亚洲精品国产主播一区二区| 亚州终合人妖一区二区三区| 国产一区二区三区特区| 日本高清一级二级三级| 777午夜精品免费观看| 欧美xxxx新一区二区三区 | 日韩成人无码一区二区三区| 亚洲色无码中文字幕| 中文字幕一区在线直播| 日韩欧美人妻一区二区三区| 亚洲熟妇网| 一区二区三区婷婷中文字幕| 亚洲中文字幕久久精品色老板| 少妇高潮惨叫久久久久久电影| 黄色毛片视频免费| 蜜桃激情视频一区二区| 国产办公室秘书无码精品99| 乱码一二三入区口| 国产一级一片内射在线| 男人天堂网2017| 欧美性性性性性色大片免费的|