亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        俄語國家語料庫的標(biāo)注系統(tǒng)

        2014-09-27 03:03:23
        文教資料 2014年12期
        關(guān)鍵詞:句法語義文本

        陳 虹

        (安徽財經(jīng)大學(xué),安徽 蚌埠 233030;黑龍江大學(xué),黑龍江 哈爾濱 150080)

        俄語國家語料庫的標(biāo)注系統(tǒng)

        陳 虹

        (安徽財經(jīng)大學(xué),安徽 蚌埠 233030;黑龍江大學(xué),黑龍江 哈爾濱 150080)

        標(biāo)注是語料庫的重要特征,其層次和質(zhì)量決定所建語料庫的級別和有效使用程度。俄語國家語料庫是當(dāng)今世界上成功創(chuàng)建的大型現(xiàn)代語料庫之一,其標(biāo)注模式是在國際標(biāo)注模式的基礎(chǔ)上,結(jié)合俄語自身的語言特征進(jìn)行擴(kuò)展的成功范例。目前它的標(biāo)注體系包括四種,即元文本標(biāo)注、詞法標(biāo)注、句法標(biāo)注和語義標(biāo)注。研究國外包括俄語在內(nèi)的各語種語料庫的標(biāo)注經(jīng)驗,可以更好地為建設(shè)國內(nèi)語料庫提供參考和借鑒。

        俄語國家語料庫 標(biāo)注 語料庫

        一、引言

        在創(chuàng)建語料庫時,需要對收集來的普通文本進(jìn)行處理,即在純文本文件中添加表示文本基本信息或文本單位語言特征的特殊符號或符號串,這些符號或符號串稱為標(biāo)記或附碼 (тэг,tag)。為語料庫純文本添加標(biāo)記的過程稱為標(biāo)注(разметка или аннотация,annotation or tagging),標(biāo)注后,文本包含的信息由隱性變?yōu)轱@性,利用相應(yīng)的檢索系統(tǒng)可以最大限度地使用語料庫,語料庫的有效使用依賴于純文本標(biāo)注的層次和質(zhì)量。對純文本利用計算機(jī)資源進(jìn)行批量處理和檢索,以及多維度、多層面標(biāo)注純文本,是語料庫語言學(xué)、計算語言學(xué)的重要課題之一。

        從世界范圍來看,俄語語料庫的標(biāo)注以俄語國家語料庫(Национальный Корпус Русского Языка,НКРЯ)的標(biāo)注最成功、最具代表性,層次和質(zhì)量最高。和漢語一樣,俄語也是世界上最復(fù)雜的語言之一,研究俄語純文本的標(biāo)注及俄語語料庫的標(biāo)注系統(tǒng),有助于進(jìn)行漢語相關(guān)領(lǐng)域的研究。

        二、語料庫標(biāo)注

        (一)語料庫標(biāo)注的規(guī)范語言

        為了表示文本中包含的語言信息,方便語言學(xué)研究,語料庫需要進(jìn)行規(guī)范、系統(tǒng)的標(biāo)注。適用于萬維網(wǎng)大多數(shù)網(wǎng)頁的標(biāo)記語言——HTML語言(HyperText Markup Language,超文本標(biāo)記語言),由于其標(biāo)記是固定的,因此不能滿足標(biāo)記必須是自定義的語料庫標(biāo)注的需要?,F(xiàn)階段世界各國開發(fā)語料庫使用的標(biāo)記語言有兩種,即SGML語言(Standard General Markup Language,標(biāo)準(zhǔn)通用標(biāo)記語言)和XML語言(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)。

        SGML語言是1986年國際標(biāo)準(zhǔn)化組織頒布的一個信息管理方面的國際標(biāo)準(zhǔn)(ISO8879:1986),用于規(guī)定在各種電子文本中嵌入描述標(biāo)記的標(biāo)準(zhǔn)格式,定義各種電子文本結(jié)構(gòu)的標(biāo)準(zhǔn)方法,以及指定文本結(jié)構(gòu)的標(biāo)準(zhǔn)標(biāo)記代碼。該置標(biāo)語言復(fù)雜、龐大,功能十分強(qiáng)大,適用于各種類型的文本。XML語言是SGML語言的一個子集,也用于標(biāo)記電子文本的結(jié)構(gòu)。它不僅重新定義了SGML語言的一些內(nèi)部值和參數(shù),去掉了大量很少用到的功能,而且允許自定義標(biāo)記,因此它的結(jié)構(gòu)化功能更簡單方便。世界公認(rèn)語料庫典范的英語國家語料庫(BNC)及斯拉夫語語料庫典范的捷克國家語料庫(ЧНК)使用的都是SGML和XML語言,我國“國家現(xiàn)代漢語語料庫管理系統(tǒng)”是國內(nèi)率先使用XML語言組織的大型語料庫。可以說,世界上新建和在建的語料庫使用的都是這兩種語言。

        (二)語料庫標(biāo)注的基本模式

        從語料庫開發(fā)角度看,目前最常用的語料庫文本標(biāo)記模式是建立在SGML語言或XML語言上的TEI、EAGLES和CES。TEI(Text Encoding Initiative,文本編碼規(guī)范)具有超大限度的靈活性、綜合性和可擴(kuò)展性,能支持對各種類型或特征的文本進(jìn)行編碼,被認(rèn)為是“最能反映當(dāng)前語料庫語言學(xué)家致力于建立更具形式化的機(jī)讀語篇信息編碼國際標(biāo)準(zhǔn)的方向”(崔剛,盛永梅,2000:90)的標(biāo)注模式。EAGLES(Expert Advisory Group Language Engineering Standards,專家顧問團(tuán)語言工程標(biāo)準(zhǔn))是歐盟在1993年2月制定的關(guān)于語言工程的標(biāo)準(zhǔn),其內(nèi)容涉及大型語言資源(包括文本語料庫、詞匯庫、言語語料庫)的建設(shè)、語言知識的處理工具(形式語法、標(biāo)記語言、各種軟件)、語言工程系統(tǒng)的評估資源和工具等。CES(Corpus Encoding Standard,語料庫編碼標(biāo)準(zhǔn))是EAGLES的一部分,它規(guī)定了語料庫的總體結(jié)構(gòu)、語言信息標(biāo)記等語料庫建設(shè)的技術(shù)規(guī)范,與TEI相兼容,目標(biāo)是建立一套能被廣泛承認(rèn)的語料庫標(biāo)注模式。

        從俄語語料庫的建設(shè)實踐看,俄語語料庫建設(shè)總體上采用的是語料庫建設(shè)的國際標(biāo)準(zhǔn)和模式。但由于俄語本身是一種綜合性語言,詞形變化比英語等語言復(fù)雜得多、豐富得多,因此俄語語料庫在采用國際通用的標(biāo)注模式的同時,還根據(jù)俄語自身特點對標(biāo)準(zhǔn)標(biāo)注模式做了一些修訂。俄國國家語料庫的標(biāo)注模式就是在SGML語言、符合TEI和EA-GLES標(biāo)準(zhǔn)的基礎(chǔ)上,根據(jù)俄語語言的自身特點對TEI進(jìn)行了必要擴(kuò)展后得到的。

        三、俄國國家語料庫的標(biāo)注

        (一)俄語國家語料庫簡介

        俄語國家語料庫(以下簡稱НКРЯ)是在俄羅斯學(xué)者С.А. Шаров和В.Б.Касевич的積極倡導(dǎo)下,由俄羅斯科學(xué)院語言學(xué)研究所于2003年年底納入《語文學(xué)與信息學(xué)》計劃并開始建設(shè)的。該語料庫計劃規(guī)模為2億詞次,擁有多個文本類型,包括1個主庫和8個子庫。其中主庫是深度標(biāo)注語料庫;子庫有俄英俄德平行語料庫、方言語料庫、詩歌文本語料庫、俄語教學(xué)語料庫、口語語料庫、報紙語料庫、句法語料庫和重音語料庫。НКРЯ目前暫時有四種標(biāo)注,即元文本標(biāo)注、詞法標(biāo)注、句法標(biāo)注和語義標(biāo)注。它在網(wǎng)絡(luò)上開放的部分是20世紀(jì)下半葉至21世紀(jì)初的現(xiàn)代俄語文本語料庫,規(guī)模超過1.4億詞次,有9個文本類型,提供精確和詞匯—語法兩種查詢方法。

        (二)俄國國家語料庫的元標(biāo)注

        由于НКРЯ希望能為盡可能多的一般用戶服務(wù),因此其文本元標(biāo)注非常細(xì)致和多樣,分為兩大部分,即基本文本參數(shù)和文本類型。基本文本參數(shù)主要用來說明文本的自然情況,分為五個方面,即文本名稱、文本作者、文本作者的性別、文本作者出生年代、文本產(chǎn)生的年代。文本類型參數(shù)主用用來對文本進(jìn)行分類,分為兩個方面,即文學(xué)文本和非文學(xué)文本。

        其中,文學(xué)文本分三項,即文本體裁選項,包括散文、偵探和戰(zhàn)爭類、兒童類、歷史散文、驚險類、幻想類、愛情故事、幽默諷刺類、文獻(xiàn)散文、戲劇、翻譯作品11種體裁;文本類型選項,包括寓言、謎語、便函、傳說、歌劇劇本、小品、隨筆、書信、中篇小說、詩歌、諷喻作品、話劇、短篇小說、長篇小說、童話故事、民間故事、電影劇本17種類型;文本產(chǎn)生的時間和地點選項,如歐洲中世紀(jì)、亞洲19世紀(jì)、俄羅斯/蘇聯(lián)1999—1914等詳細(xì)的時間分期和地點。

        非文學(xué)文本分為三項,即文本的功能領(lǐng)域,包括日常生活領(lǐng)域、正式公文、生產(chǎn)技術(shù)領(lǐng)域、時事評論、教學(xué)科研領(lǐng)域、教堂教會領(lǐng)域、電子交際7個領(lǐng)域;文本類型,包括時事評論、教學(xué)科研類、正式公文和日常生活類4大類,每一個大類下又細(xì)分為若干小類;文本主題,包括科學(xué)技術(shù)類和非科學(xué)技術(shù)類兩大類,每一個大類下也繼續(xù)細(xì)分為若干小類。

        從НКРЯ的元文本標(biāo)注體系可以看出,它不是嚴(yán)格按照普遍性的語料庫語言學(xué)國際分類標(biāo)準(zhǔn)描述各個文本的,其分類自由、細(xì)致、豐富,但非常好地貫徹了其設(shè)計理念——為盡可能多的一般用戶服務(wù),而不是針對專門的語言研究者或語言學(xué)家。

        (三)俄語國家語料庫的詞法標(biāo)注

        НКРЯ的詞法標(biāo)注是由俄羅斯開發(fā)的多用途語言處理系統(tǒng)ЭТАП—3詞法分析儀利用半自動詞法程序Mystem完成初始標(biāo)注的,然后語言研究者們對初標(biāo)結(jié)果中的400萬詞次進(jìn)行手工消歧,以及進(jìn)一步檢查和校對。Mystem程序詞法分析模式的基礎(chǔ)是А.А.Зализняк的《俄語語法詞典》(《Грамматический словарь русского языка》)(M.1977;4-е изд.,M.2003)。如果文本中的詞形存在于該詞典中,程序就賦予全部可能的標(biāo)注;如果不在,則給予假設(shè)的標(biāo)注,并加上“?”。

        НКРЯ中任意一個被標(biāo)注過的詞的詞法信息都由四部分組成,一是這個詞形的詞位;二是這個詞位全部的語法特征;三是這個詞形全部的語法特征;四是關(guān)于其非標(biāo)準(zhǔn)語法形式和異常拼寫方面的信息。用鼠標(biāo)對準(zhǔn)在消歧語料庫檢索結(jié)果中的任意詞形,這四個方面的標(biāo)注信息都會顯示出來;在未消歧語料庫中,同樣的做法只會顯示出原形詞位和所屬詞類。

        由于НКРЯ把一般的國際用戶設(shè)定為語料庫的服務(wù)對象,因此它擁有兩套詞法標(biāo)記元語言,一套使用俄語傳統(tǒng)的語法范疇名稱,另一套以拉丁字母為基礎(chǔ)簡化得來。也就是說,如果利用НКРЯ研究俄語詞法,就可以用俄語傳統(tǒng)的語法范疇或拉丁字母縮寫兩種方式進(jìn)行檢索。詞法標(biāo)注的完整附碼表和拉丁字母縮略形式標(biāo)注表在НКРЯ網(wǎng)站的“мой коркус”一欄中可以查到。查看該表可以發(fā)現(xiàn),俄語全部的詞法范疇都囊括在內(nèi),非常細(xì)致豐富。

        (四)俄語國家語料庫的句法標(biāo)注

        由于俄語句法標(biāo)注異常復(fù)雜和繁瑣,因此НКРЯ沒有進(jìn)行全庫句法標(biāo)注,只是建設(shè)了一個消歧的深度標(biāo)注句法子庫(глубоко аннотированный синтаксический корпус),里面包含三個基本類型的文本,即現(xiàn)代俄語散文文本,1980至2004年俄語雜志中的科普文本和社會政治文本,以及俄羅斯新聞機(jī)構(gòu)和網(wǎng)絡(luò)上發(fā)表的新聞文本。在這個子庫中,句子中的每個詞不但進(jìn)行了詳盡的詞法標(biāo)注,而且按照它的句法功能進(jìn)行了句法標(biāo)注。

        НКРЯ深標(biāo)句法子庫的理論基礎(chǔ)來源于И.А.Мельчук和А.К.Жолковский的《意思?文本》的語言學(xué)模型(лингвист ическая модель《Смысл?Текст》);與應(yīng)用于句法標(biāo)注中的句法關(guān)系形式、體現(xiàn)句法結(jié)構(gòu)思想相關(guān)的一系列語言學(xué)演算是由РАН信息傳輸問題研究所計算語言學(xué)實驗室完成的;具體的標(biāo)注操作先是由多用途語言學(xué)處理系統(tǒng)ЭТАП-3句法分析儀進(jìn)行的,而后語言學(xué)家們對取得的結(jié)果進(jìn)行必要的檢查和校對。庫中標(biāo)注后的句子呈現(xiàn)為一個句法依存關(guān)系樹(дерево зависимостей),樹上的每個節(jié)點都被一個組成句子的詞占據(jù),每個樹枝上都標(biāo)有表明句法關(guān)系的詞。

        (五)俄語國家語料庫的語義標(biāo)注

        НКРЯ的語義標(biāo)注是其詞法標(biāo)注的自然延伸和深入,其主要依據(jù)是“詞匯數(shù)據(jù)庫”(база данных“Лексикограф”)中的俄語詞匯分類系統(tǒng)?!霸~匯數(shù)據(jù)庫”以А.А.Зализняк《俄語語法字典》擴(kuò)展而來的DIALING系統(tǒng)(共約12萬詞)為基礎(chǔ),由全俄科學(xué)技術(shù)情報研究所(ВИНИТИ)語言研究分所在Е.В.Падучева和Е.В.Рахилина的領(lǐng)導(dǎo)下研制。庫中文本語義標(biāo)注的實際操作是借助А.Е.Поляков創(chuàng)造的Semmarkup程序由計算機(jī)自動完成的。由于文本語義標(biāo)注的手工檢核非常復(fù)雜、耗時,因此全庫的語義標(biāo)注沒有進(jìn)行手工消歧。

        語料庫語義標(biāo)注的歷史非常短,國際上還沒有形成統(tǒng)一的標(biāo)注思想和方式。但從語料庫建設(shè)的實踐來看,目前語義標(biāo)注通常采用兩種方法,一是標(biāo)注語言單位之間的語義關(guān)系,二是標(biāo)注語言單位的語義特征或范疇。НКРЯ實行的是以詞匯——語義特征為基礎(chǔ)的語義標(biāo)注。НКРЯ文本中任意詞的詞匯——語義特征由三組標(biāo)記集構(gòu)成,分別是類別、獨有的詞匯——語義特征和構(gòu)詞特征。每組標(biāo)記集下都有許多非常細(xì)致的分類和描寫,這樣就使НКРЯ文本中的詞被賦予了一個或多個語義標(biāo)注,其中一般詞匯有一個語義標(biāo)注,多義詞或同音異義詞有多個語義標(biāo)注。

        四、結(jié)語

        語料庫標(biāo)注對于語料庫的建設(shè)和開發(fā)非常重要和關(guān)鍵,是語料庫語言學(xué)、計算語言學(xué)等研究領(lǐng)域的重要課題之一。目前在這一領(lǐng)域,歐美和俄羅斯等國都取得了巨大成果,積累了豐富的經(jīng)驗,研發(fā)了大量應(yīng)用程序。相比之下,我國的語料庫標(biāo)注建設(shè)和研發(fā)比較滯后,借鑒國外各語種語料庫的標(biāo)注經(jīng)驗,更好地建設(shè)國內(nèi)包括漢語在內(nèi)的各語種的語料庫是當(dāng)務(wù)之急。

        [1]Leech,G.Corpus annotation schemes,Literary and Linguistic Computing,1993,8(4):275-281.

        [2]McEnery,T.&Wilson,A.Corpus Linguistics[M].Edinburgh,Edinburgh University Press,1996.

        [3]陳虹.俄語語料庫的標(biāo)注[J].中國俄語教學(xué),2012(2):38-44.

        [4]崔剛,盛永梅.語料庫中語料的標(biāo)注[J].清華大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2000(1):89-94.

        [5]傅興尚等主編.俄羅斯計算語言學(xué)與機(jī)器翻譯[M].北京:語文出版社,2009.

        [6]何婷婷.語料庫研究[D].華中師范大學(xué),2003.

        [7]宋余亮.俄語現(xiàn)代標(biāo)注語料庫的理論與實踐[D].解放軍外國語學(xué)院,2006.

        本文系安徽財經(jīng)大學(xué)2012科研項目(ACKY Q1221)的研究成果。

        猜你喜歡
        句法語義文本
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        人妻中文无码久热丝袜| 麻豆成人久久精品一区| 男女视频在线观看一区| 亚洲国产成人精品无码一区二区| 91日本精品国产免| av熟女一区二区久久| 成人av综合资源在线| 性做久久久久久久| 亚洲肥老太bbw中国熟女| 亚洲AV日韩AV高潮喷潮无码 | 中文字幕无码日韩欧毛| 久久综合老鸭窝色综合久久| 亚洲国产精品亚洲一区二区三区 | 少妇饥渴偷公乱a级无码| 久久国产亚洲AV无码麻豆| 久久综合久中文字幕青草| 亚洲综合极品美女av| 全免费a级毛片免费看网站| 国精品无码一区二区三区在线看 | 国产老熟女精品一区二区| 亚洲国产av玩弄放荡人妇系列| 78成人精品电影在线播放| 日韩精品少妇专区人妻系列| 国产视频一区二区三区在线免费| 中文字幕人妻被公上司喝醉| 国产精品九九九无码喷水| 激情视频在线播放一区二区三区| 老鸭窝视频在线观看| 婷婷五月综合丁香在线| 久久99精品久久久久九色| 今井夏帆在线中文字幕| 国产午夜福利久久精品| 五月天激情综合网| 日本成人在线不卡一区二区三区| 蜜桃18禁成人午夜免费网站| 明星性猛交ⅹxxx乱大交| 欧美综合图区亚洲综合图区| 中文字幕亚洲在线第一页| 亚洲人成色7777在线观看不卡| 国产色噜噜| 国产偷国产偷亚洲高清|