亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        俄語國(guó)家語料庫的標(biāo)注系統(tǒng)

        2014-09-27 03:03:23
        文教資料 2014年12期
        關(guān)鍵詞:詞法俄語句法

        陳 虹

        (安徽財(cái)經(jīng)大學(xué),安徽 蚌埠 233030;黑龍江大學(xué),黑龍江 哈爾濱 150080)

        俄語國(guó)家語料庫的標(biāo)注系統(tǒng)

        陳 虹

        (安徽財(cái)經(jīng)大學(xué),安徽 蚌埠 233030;黑龍江大學(xué),黑龍江 哈爾濱 150080)

        標(biāo)注是語料庫的重要特征,其層次和質(zhì)量決定所建語料庫的級(jí)別和有效使用程度。俄語國(guó)家語料庫是當(dāng)今世界上成功創(chuàng)建的大型現(xiàn)代語料庫之一,其標(biāo)注模式是在國(guó)際標(biāo)注模式的基礎(chǔ)上,結(jié)合俄語自身的語言特征進(jìn)行擴(kuò)展的成功范例。目前它的標(biāo)注體系包括四種,即元文本標(biāo)注、詞法標(biāo)注、句法標(biāo)注和語義標(biāo)注。研究國(guó)外包括俄語在內(nèi)的各語種語料庫的標(biāo)注經(jīng)驗(yàn),可以更好地為建設(shè)國(guó)內(nèi)語料庫提供參考和借鑒。

        俄語國(guó)家語料庫 標(biāo)注 語料庫

        一、引言

        在創(chuàng)建語料庫時(shí),需要對(duì)收集來的普通文本進(jìn)行處理,即在純文本文件中添加表示文本基本信息或文本單位語言特征的特殊符號(hào)或符號(hào)串,這些符號(hào)或符號(hào)串稱為標(biāo)記或附碼 (тэг,tag)。為語料庫純文本添加標(biāo)記的過程稱為標(biāo)注(разметка или аннотация,annotation or tagging),標(biāo)注后,文本包含的信息由隱性變?yōu)轱@性,利用相應(yīng)的檢索系統(tǒng)可以最大限度地使用語料庫,語料庫的有效使用依賴于純文本標(biāo)注的層次和質(zhì)量。對(duì)純文本利用計(jì)算機(jī)資源進(jìn)行批量處理和檢索,以及多維度、多層面標(biāo)注純文本,是語料庫語言學(xué)、計(jì)算語言學(xué)的重要課題之一。

        從世界范圍來看,俄語語料庫的標(biāo)注以俄語國(guó)家語料庫(Национальный Корпус Русского Языка,НКРЯ)的標(biāo)注最成功、最具代表性,層次和質(zhì)量最高。和漢語一樣,俄語也是世界上最復(fù)雜的語言之一,研究俄語純文本的標(biāo)注及俄語語料庫的標(biāo)注系統(tǒng),有助于進(jìn)行漢語相關(guān)領(lǐng)域的研究。

        二、語料庫標(biāo)注

        (一)語料庫標(biāo)注的規(guī)范語言

        為了表示文本中包含的語言信息,方便語言學(xué)研究,語料庫需要進(jìn)行規(guī)范、系統(tǒng)的標(biāo)注。適用于萬維網(wǎng)大多數(shù)網(wǎng)頁的標(biāo)記語言——HTML語言(HyperText Markup Language,超文本標(biāo)記語言),由于其標(biāo)記是固定的,因此不能滿足標(biāo)記必須是自定義的語料庫標(biāo)注的需要?,F(xiàn)階段世界各國(guó)開發(fā)語料庫使用的標(biāo)記語言有兩種,即SGML語言(Standard General Markup Language,標(biāo)準(zhǔn)通用標(biāo)記語言)和XML語言(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)。

        SGML語言是1986年國(guó)際標(biāo)準(zhǔn)化組織頒布的一個(gè)信息管理方面的國(guó)際標(biāo)準(zhǔn)(ISO8879:1986),用于規(guī)定在各種電子文本中嵌入描述標(biāo)記的標(biāo)準(zhǔn)格式,定義各種電子文本結(jié)構(gòu)的標(biāo)準(zhǔn)方法,以及指定文本結(jié)構(gòu)的標(biāo)準(zhǔn)標(biāo)記代碼。該置標(biāo)語言復(fù)雜、龐大,功能十分強(qiáng)大,適用于各種類型的文本。XML語言是SGML語言的一個(gè)子集,也用于標(biāo)記電子文本的結(jié)構(gòu)。它不僅重新定義了SGML語言的一些內(nèi)部值和參數(shù),去掉了大量很少用到的功能,而且允許自定義標(biāo)記,因此它的結(jié)構(gòu)化功能更簡(jiǎn)單方便。世界公認(rèn)語料庫典范的英語國(guó)家語料庫(BNC)及斯拉夫語語料庫典范的捷克國(guó)家語料庫(ЧНК)使用的都是SGML和XML語言,我國(guó)“國(guó)家現(xiàn)代漢語語料庫管理系統(tǒng)”是國(guó)內(nèi)率先使用XML語言組織的大型語料庫??梢哉f,世界上新建和在建的語料庫使用的都是這兩種語言。

        (二)語料庫標(biāo)注的基本模式

        從語料庫開發(fā)角度看,目前最常用的語料庫文本標(biāo)記模式是建立在SGML語言或XML語言上的TEI、EAGLES和CES。TEI(Text Encoding Initiative,文本編碼規(guī)范)具有超大限度的靈活性、綜合性和可擴(kuò)展性,能支持對(duì)各種類型或特征的文本進(jìn)行編碼,被認(rèn)為是“最能反映當(dāng)前語料庫語言學(xué)家致力于建立更具形式化的機(jī)讀語篇信息編碼國(guó)際標(biāo)準(zhǔn)的方向”(崔剛,盛永梅,2000:90)的標(biāo)注模式。EAGLES(Expert Advisory Group Language Engineering Standards,專家顧問團(tuán)語言工程標(biāo)準(zhǔn))是歐盟在1993年2月制定的關(guān)于語言工程的標(biāo)準(zhǔn),其內(nèi)容涉及大型語言資源(包括文本語料庫、詞匯庫、言語語料庫)的建設(shè)、語言知識(shí)的處理工具(形式語法、標(biāo)記語言、各種軟件)、語言工程系統(tǒng)的評(píng)估資源和工具等。CES(Corpus Encoding Standard,語料庫編碼標(biāo)準(zhǔn))是EAGLES的一部分,它規(guī)定了語料庫的總體結(jié)構(gòu)、語言信息標(biāo)記等語料庫建設(shè)的技術(shù)規(guī)范,與TEI相兼容,目標(biāo)是建立一套能被廣泛承認(rèn)的語料庫標(biāo)注模式。

        從俄語語料庫的建設(shè)實(shí)踐看,俄語語料庫建設(shè)總體上采用的是語料庫建設(shè)的國(guó)際標(biāo)準(zhǔn)和模式。但由于俄語本身是一種綜合性語言,詞形變化比英語等語言復(fù)雜得多、豐富得多,因此俄語語料庫在采用國(guó)際通用的標(biāo)注模式的同時(shí),還根據(jù)俄語自身特點(diǎn)對(duì)標(biāo)準(zhǔn)標(biāo)注模式做了一些修訂。俄國(guó)國(guó)家語料庫的標(biāo)注模式就是在SGML語言、符合TEI和EA-GLES標(biāo)準(zhǔn)的基礎(chǔ)上,根據(jù)俄語語言的自身特點(diǎn)對(duì)TEI進(jìn)行了必要擴(kuò)展后得到的。

        三、俄國(guó)國(guó)家語料庫的標(biāo)注

        (一)俄語國(guó)家語料庫簡(jiǎn)介

        俄語國(guó)家語料庫(以下簡(jiǎn)稱НКРЯ)是在俄羅斯學(xué)者С.А. Шаров和В.Б.Касевич的積極倡導(dǎo)下,由俄羅斯科學(xué)院語言學(xué)研究所于2003年年底納入《語文學(xué)與信息學(xué)》計(jì)劃并開始建設(shè)的。該語料庫計(jì)劃規(guī)模為2億詞次,擁有多個(gè)文本類型,包括1個(gè)主庫和8個(gè)子庫。其中主庫是深度標(biāo)注語料庫;子庫有俄英俄德平行語料庫、方言語料庫、詩歌文本語料庫、俄語教學(xué)語料庫、口語語料庫、報(bào)紙語料庫、句法語料庫和重音語料庫。НКРЯ目前暫時(shí)有四種標(biāo)注,即元文本標(biāo)注、詞法標(biāo)注、句法標(biāo)注和語義標(biāo)注。它在網(wǎng)絡(luò)上開放的部分是20世紀(jì)下半葉至21世紀(jì)初的現(xiàn)代俄語文本語料庫,規(guī)模超過1.4億詞次,有9個(gè)文本類型,提供精確和詞匯—語法兩種查詢方法。

        (二)俄國(guó)國(guó)家語料庫的元標(biāo)注

        由于НКРЯ希望能為盡可能多的一般用戶服務(wù),因此其文本元標(biāo)注非常細(xì)致和多樣,分為兩大部分,即基本文本參數(shù)和文本類型?;疚谋緟?shù)主要用來說明文本的自然情況,分為五個(gè)方面,即文本名稱、文本作者、文本作者的性別、文本作者出生年代、文本產(chǎn)生的年代。文本類型參數(shù)主用用來對(duì)文本進(jìn)行分類,分為兩個(gè)方面,即文學(xué)文本和非文學(xué)文本。

        其中,文學(xué)文本分三項(xiàng),即文本體裁選項(xiàng),包括散文、偵探和戰(zhàn)爭(zhēng)類、兒童類、歷史散文、驚險(xiǎn)類、幻想類、愛情故事、幽默諷刺類、文獻(xiàn)散文、戲劇、翻譯作品11種體裁;文本類型選項(xiàng),包括寓言、謎語、便函、傳說、歌劇劇本、小品、隨筆、書信、中篇小說、詩歌、諷喻作品、話劇、短篇小說、長(zhǎng)篇小說、童話故事、民間故事、電影劇本17種類型;文本產(chǎn)生的時(shí)間和地點(diǎn)選項(xiàng),如歐洲中世紀(jì)、亞洲19世紀(jì)、俄羅斯/蘇聯(lián)1999—1914等詳細(xì)的時(shí)間分期和地點(diǎn)。

        非文學(xué)文本分為三項(xiàng),即文本的功能領(lǐng)域,包括日常生活領(lǐng)域、正式公文、生產(chǎn)技術(shù)領(lǐng)域、時(shí)事評(píng)論、教學(xué)科研領(lǐng)域、教堂教會(huì)領(lǐng)域、電子交際7個(gè)領(lǐng)域;文本類型,包括時(shí)事評(píng)論、教學(xué)科研類、正式公文和日常生活類4大類,每一個(gè)大類下又細(xì)分為若干小類;文本主題,包括科學(xué)技術(shù)類和非科學(xué)技術(shù)類兩大類,每一個(gè)大類下也繼續(xù)細(xì)分為若干小類。

        從НКРЯ的元文本標(biāo)注體系可以看出,它不是嚴(yán)格按照普遍性的語料庫語言學(xué)國(guó)際分類標(biāo)準(zhǔn)描述各個(gè)文本的,其分類自由、細(xì)致、豐富,但非常好地貫徹了其設(shè)計(jì)理念——為盡可能多的一般用戶服務(wù),而不是針對(duì)專門的語言研究者或語言學(xué)家。

        (三)俄語國(guó)家語料庫的詞法標(biāo)注

        НКРЯ的詞法標(biāo)注是由俄羅斯開發(fā)的多用途語言處理系統(tǒng)ЭТАП—3詞法分析儀利用半自動(dòng)詞法程序Mystem完成初始標(biāo)注的,然后語言研究者們對(duì)初標(biāo)結(jié)果中的400萬詞次進(jìn)行手工消歧,以及進(jìn)一步檢查和校對(duì)。Mystem程序詞法分析模式的基礎(chǔ)是А.А.Зализняк的《俄語語法詞典》(《Грамматический словарь русского языка》)(M.1977;4-е изд.,M.2003)。如果文本中的詞形存在于該詞典中,程序就賦予全部可能的標(biāo)注;如果不在,則給予假設(shè)的標(biāo)注,并加上“?”。

        НКРЯ中任意一個(gè)被標(biāo)注過的詞的詞法信息都由四部分組成,一是這個(gè)詞形的詞位;二是這個(gè)詞位全部的語法特征;三是這個(gè)詞形全部的語法特征;四是關(guān)于其非標(biāo)準(zhǔn)語法形式和異常拼寫方面的信息。用鼠標(biāo)對(duì)準(zhǔn)在消歧語料庫檢索結(jié)果中的任意詞形,這四個(gè)方面的標(biāo)注信息都會(huì)顯示出來;在未消歧語料庫中,同樣的做法只會(huì)顯示出原形詞位和所屬詞類。

        由于НКРЯ把一般的國(guó)際用戶設(shè)定為語料庫的服務(wù)對(duì)象,因此它擁有兩套詞法標(biāo)記元語言,一套使用俄語傳統(tǒng)的語法范疇名稱,另一套以拉丁字母為基礎(chǔ)簡(jiǎn)化得來。也就是說,如果利用НКРЯ研究俄語詞法,就可以用俄語傳統(tǒng)的語法范疇或拉丁字母縮寫兩種方式進(jìn)行檢索。詞法標(biāo)注的完整附碼表和拉丁字母縮略形式標(biāo)注表在НКРЯ網(wǎng)站的“мой коркус”一欄中可以查到。查看該表可以發(fā)現(xiàn),俄語全部的詞法范疇都囊括在內(nèi),非常細(xì)致豐富。

        (四)俄語國(guó)家語料庫的句法標(biāo)注

        由于俄語句法標(biāo)注異常復(fù)雜和繁瑣,因此НКРЯ沒有進(jìn)行全庫句法標(biāo)注,只是建設(shè)了一個(gè)消歧的深度標(biāo)注句法子庫(глубоко аннотированный синтаксический корпус),里面包含三個(gè)基本類型的文本,即現(xiàn)代俄語散文文本,1980至2004年俄語雜志中的科普文本和社會(huì)政治文本,以及俄羅斯新聞機(jī)構(gòu)和網(wǎng)絡(luò)上發(fā)表的新聞文本。在這個(gè)子庫中,句子中的每個(gè)詞不但進(jìn)行了詳盡的詞法標(biāo)注,而且按照它的句法功能進(jìn)行了句法標(biāo)注。

        НКРЯ深標(biāo)句法子庫的理論基礎(chǔ)來源于И.А.Мельчук和А.К.Жолковский的《意思?文本》的語言學(xué)模型(лингвист ическая модель《Смысл?Текст》);與應(yīng)用于句法標(biāo)注中的句法關(guān)系形式、體現(xiàn)句法結(jié)構(gòu)思想相關(guān)的一系列語言學(xué)演算是由РАН信息傳輸問題研究所計(jì)算語言學(xué)實(shí)驗(yàn)室完成的;具體的標(biāo)注操作先是由多用途語言學(xué)處理系統(tǒng)ЭТАП-3句法分析儀進(jìn)行的,而后語言學(xué)家們對(duì)取得的結(jié)果進(jìn)行必要的檢查和校對(duì)。庫中標(biāo)注后的句子呈現(xiàn)為一個(gè)句法依存關(guān)系樹(дерево зависимостей),樹上的每個(gè)節(jié)點(diǎn)都被一個(gè)組成句子的詞占據(jù),每個(gè)樹枝上都標(biāo)有表明句法關(guān)系的詞。

        (五)俄語國(guó)家語料庫的語義標(biāo)注

        НКРЯ的語義標(biāo)注是其詞法標(biāo)注的自然延伸和深入,其主要依據(jù)是“詞匯數(shù)據(jù)庫”(база данных“Лексикограф”)中的俄語詞匯分類系統(tǒng)?!霸~匯數(shù)據(jù)庫”以А.А.Зализняк《俄語語法字典》擴(kuò)展而來的DIALING系統(tǒng)(共約12萬詞)為基礎(chǔ),由全俄科學(xué)技術(shù)情報(bào)研究所(ВИНИТИ)語言研究分所在Е.В.Падучева和Е.В.Рахилина的領(lǐng)導(dǎo)下研制。庫中文本語義標(biāo)注的實(shí)際操作是借助А.Е.Поляков創(chuàng)造的Semmarkup程序由計(jì)算機(jī)自動(dòng)完成的。由于文本語義標(biāo)注的手工檢核非常復(fù)雜、耗時(shí),因此全庫的語義標(biāo)注沒有進(jìn)行手工消歧。

        語料庫語義標(biāo)注的歷史非常短,國(guó)際上還沒有形成統(tǒng)一的標(biāo)注思想和方式。但從語料庫建設(shè)的實(shí)踐來看,目前語義標(biāo)注通常采用兩種方法,一是標(biāo)注語言單位之間的語義關(guān)系,二是標(biāo)注語言單位的語義特征或范疇。НКРЯ實(shí)行的是以詞匯——語義特征為基礎(chǔ)的語義標(biāo)注。НКРЯ文本中任意詞的詞匯——語義特征由三組標(biāo)記集構(gòu)成,分別是類別、獨(dú)有的詞匯——語義特征和構(gòu)詞特征。每組標(biāo)記集下都有許多非常細(xì)致的分類和描寫,這樣就使НКРЯ文本中的詞被賦予了一個(gè)或多個(gè)語義標(biāo)注,其中一般詞匯有一個(gè)語義標(biāo)注,多義詞或同音異義詞有多個(gè)語義標(biāo)注。

        四、結(jié)語

        語料庫標(biāo)注對(duì)于語料庫的建設(shè)和開發(fā)非常重要和關(guān)鍵,是語料庫語言學(xué)、計(jì)算語言學(xué)等研究領(lǐng)域的重要課題之一。目前在這一領(lǐng)域,歐美和俄羅斯等國(guó)都取得了巨大成果,積累了豐富的經(jīng)驗(yàn),研發(fā)了大量應(yīng)用程序。相比之下,我國(guó)的語料庫標(biāo)注建設(shè)和研發(fā)比較滯后,借鑒國(guó)外各語種語料庫的標(biāo)注經(jīng)驗(yàn),更好地建設(shè)國(guó)內(nèi)包括漢語在內(nèi)的各語種的語料庫是當(dāng)務(wù)之急。

        [1]Leech,G.Corpus annotation schemes,Literary and Linguistic Computing,1993,8(4):275-281.

        [2]McEnery,T.&Wilson,A.Corpus Linguistics[M].Edinburgh,Edinburgh University Press,1996.

        [3]陳虹.俄語語料庫的標(biāo)注[J].中國(guó)俄語教學(xué),2012(2):38-44.

        [4]崔剛,盛永梅.語料庫中語料的標(biāo)注[J].清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2000(1):89-94.

        [5]傅興尚等主編.俄羅斯計(jì)算語言學(xué)與機(jī)器翻譯[M].北京:語文出版社,2009.

        [6]何婷婷.語料庫研究[D].華中師范大學(xué),2003.

        [7]宋余亮.俄語現(xiàn)代標(biāo)注語料庫的理論與實(shí)踐[D].解放軍外國(guó)語學(xué)院,2006.

        本文系安徽財(cái)經(jīng)大學(xué)2012科研項(xiàng)目(ACKY Q1221)的研究成果。

        猜你喜歡
        詞法俄語句法
        詞法 名詞、代詞和冠詞
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        應(yīng)用于詞法分析器的算法分析優(yōu)化
        談對(duì)外漢語“詞法詞”教學(xué)
        基于3D虛擬情境的俄語視聽說教學(xué)
        2010年高考英語“相似”考題例析
        俄語稱呼語的變遷
        久久久久综合一本久道| 国产午夜福利不卡在线观看| 无码任你躁久久久久久| 国产亚洲女在线线精品| 97久久久一区二区少妇| 婷婷亚洲岛国热超碰中文字幕| 桃花影院理论片在线| 无码国产精品一区二区免费97| 亚洲日本一区二区在线观看 | 国产一区二区三区日韩在线观看| 亚洲熟妇丰满多毛xxxx| 成人网站在线进入爽爽爽| 久无码久无码av无码| 欧美黑人xxxx性高清版| 一区二区三区日韩蜜桃| 99久久婷婷国产综合亚洲| 少妇人妻在线视频| 青青青草国产熟女大香蕉| 亚洲三级中文字幕乱码| av永久天堂一区二区三区| 东北无码熟妇人妻AV在线| 亚洲嫩模一区二区三区视频| 国产亚洲av成人噜噜噜他| 精品人妻伦九区久久aaa片| 久久99精品久久久久久hb无码| 西西人体大胆视频无码| 亚洲女同av在线观看| 午夜无遮挡男女啪啪免费软件 | 白丝美女被狂躁免费视频网站| 丝袜美腿诱惑区在线播放| 免费久久99精品国产| 国产成人精品电影在线观看| 欧美 亚洲 国产 日韩 综AⅤ| 宅男天堂亚洲一区二区三区| 亚洲av永久无码精品漫画| 中文字幕亚洲乱码熟女一区二区| 中文字幕一区二区网站| 青青草免费手机视频在线观看| 日本理伦片午夜理伦片| 一区二区三区婷婷在线| 日韩有码在线一区二区三区合集|