亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國內(nèi)漢語語料庫概況

        2014-08-15 00:54:11
        科技視界 2014年27期
        關(guān)鍵詞:現(xiàn)代漢語語料語言學(xué)

        鄭 萌

        (東北財(cái)經(jīng)大學(xué)MBA學(xué)院,遼寧 大連116024)

        0 引言

        自20世紀(jì)60年代計(jì)算機(jī)問世,計(jì)算機(jī)技術(shù)就迅速應(yīng)用到了以語料庫為基礎(chǔ)的語言學(xué)研究中,隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,世界各國在語料庫的建設(shè)上成績顯著。不同語言、不同類型、不同規(guī)模的語料庫越來越多。語料庫的廣度越來越大,開發(fā)加工的深也日益加深。語料庫在語言學(xué)研究和自然語言處理中發(fā)揮的作用越來越大。

        自第一代大型電子語料庫BROWN建立至今,語料庫語言學(xué)的研究已經(jīng)有50多年的歷史。而國內(nèi)的語料庫研究也有30多年的歷史,并在上世紀(jì)90年代得到飛速發(fā)展,語言學(xué)與計(jì)算機(jī)技術(shù)加速融合,不同的學(xué)者和專家秉著不同的出發(fā)點(diǎn),在各種角度和各種層次上進(jìn)行了大量實(shí)證研究,這使得我國的語料庫語言學(xué)迅速發(fā)展繁榮。

        1 語料庫和語料庫語言學(xué)

        1.1 語料庫和語料庫語言學(xué)的定義

        語料庫(corpus或corpora,corpuses[復(fù)]):是指按照一定的語言學(xué)原則,運(yùn)用隨機(jī)抽樣方,收集自然出現(xiàn)的連續(xù)語言運(yùn)用文本或話語片段而建成的具有一定容量的大型電子文本庫。

        語料庫語言學(xué):在文本語料的基礎(chǔ)上進(jìn)行語言研究的一門學(xué)科。語料庫語言學(xué)通過語言現(xiàn)象出現(xiàn)的概率對(duì)語言材料進(jìn)行研究。這里的語言材料是真實(shí)的、可觀存在的,因此,通過概率統(tǒng)計(jì)手段在語料庫語言學(xué)研究中得到的語言使用情況是真實(shí)客觀的,排除掉了語言學(xué)家的主觀性,研究結(jié)果更加真實(shí)可靠。

        1.2 語料庫在語言學(xué)研究領(lǐng)域的應(yīng)用

        語料庫應(yīng)用對(duì)語言學(xué)研究的主要改進(jìn)有:

        (1)保證了語料的客觀真實(shí)性,排除了語言學(xué)家的主觀性;(2)借助計(jì)算機(jī)的儲(chǔ)存能力,提高了研究的廣度和深度;(3)提高了工作效率,減少了人工誤差;(4)使語料資源具有共享性。

        語料庫在語言學(xué)研究中主要的應(yīng)用領(lǐng)域有:

        (1)詞典編纂;(2)語言統(tǒng)計(jì);(3)語言監(jiān)控,包括新詞、新用法的發(fā)現(xiàn);(4)語言教學(xué);(5)語言信息處理;(6)語法、語義、詞匯、語音等各種語言問題的研究;(7)方言研究等等。

        2 漢語語料庫

        我國漢語語料庫的建設(shè)開始于20世紀(jì)80年代,取得了不少成果。這里簡單介紹北京大學(xué)建設(shè)的三個(gè)語料庫極其特點(diǎn)。

        2.1 北京大學(xué)中國語言學(xué)研究中心ccl語料庫

        該語料庫包含三個(gè)子語料庫:現(xiàn)代漢語語料庫、古代漢語語料庫和漢英雙語語料庫。

        其中現(xiàn)代漢語語料庫和古代漢語語料庫主要是面向漢語研究和教學(xué)使用的大規(guī)模語料庫及其在線檢索系統(tǒng)。目前該語料庫收集了大約4.77億字語料,現(xiàn)代漢語和古代漢語大體上各占一半?,F(xiàn)代漢語語料庫,主要收錄1696部作品,9711字的查詢。古代漢語語料庫,涉及從周代到民國時(shí)期,22580字的查詢。語料未經(jīng)分詞處理。該語料庫的檢索系統(tǒng)可以提供比較方便的例句查詢功能,主要特色包括:A)可以查詢不連續(xù)的詞語,可以指定詞語之間的距離(比如“幫……忙”);B)可以查詢標(biāo)點(diǎn)符號(hào)(比如查詢“《》”可以把書名都查出來);C)可以查詢漢語特有的重疊模式;D)支持對(duì)標(biāo)點(diǎn)符號(hào)的查詢(比如查詢“?”可以檢索語料庫中所有疑問句)等等。

        漢英雙語語料庫目前規(guī)模已經(jīng)超過100萬句對(duì)。漢英雙語語料庫對(duì)于漢英語言對(duì)比研究有直接的幫助。該語料庫還可以用于漢英機(jī)器翻譯。目前北京大學(xué)在該語料庫的基礎(chǔ)上開發(fā)一個(gè)雙語詞典編纂平臺(tái)。這個(gè)平臺(tái)集成例句查找功能,詞語搭配分析功能,多詞翻譯等價(jià)單位的自動(dòng)識(shí)別功能,等等。該語料庫只對(duì)北大校內(nèi)用戶開放。

        2.2 人民日?qǐng)?bào)切分和標(biāo)注語料庫

        北大計(jì)算語言所對(duì)1998年和2000年兩個(gè)全年的人民日?qǐng)?bào)語料進(jìn)行了切分和詞性標(biāo)注的加工。該語料庫可以用來訓(xùn)練統(tǒng)計(jì)模型幫助計(jì)算機(jī)自動(dòng)分詞和詞性標(biāo)注處理。對(duì)于制訂漢語高頻詞表,定量研究詞語的語法功能(比如兼類詞、多義詞各種用法的分布情況),有直接的支持作用。

        2.3 現(xiàn)代漢語樹庫

        樹庫(Treebank)是對(duì)句子結(jié)構(gòu)進(jìn)行分析和標(biāo)注的深加工語料庫。北京大學(xué)中文系自2003年開始逐步建設(shè)現(xiàn)代漢語句法樹庫,目前已經(jīng)達(dá)到百萬漢字級(jí)的規(guī)模,同時(shí)也形成了一系列的相關(guān)工具軟件,包括分詞和詞性標(biāo)注、自動(dòng)句法分析、輔助校對(duì)工具、樹庫查詢與知識(shí)抽取工具等等。此外還開發(fā)了一個(gè)基于Web的樹庫查詢系統(tǒng)。建成的樹庫一方面可以用來訓(xùn)練統(tǒng)計(jì)參數(shù),幫助計(jì)算機(jī)進(jìn)行自動(dòng)句法分析,另一方面也可以用于漢語研究和教學(xué),既可以方便地查找例子,也可以做定量分析。

        3 國內(nèi)語料庫建設(shè)現(xiàn)狀及發(fā)展方向

        3.1 語料庫建設(shè)現(xiàn)狀

        3.1.1 研究漢語的語料庫比例小

        由于受國外語料庫語言學(xué)研究和發(fā)展的影響,加上近年來我國對(duì)英語教學(xué)的重視程度越來越高,多數(shù)國內(nèi)語料庫的建設(shè)仍以英語為主。參考查找到的國內(nèi)建設(shè)的語料庫,其中有大部分是與英語相關(guān)的,只有少數(shù)語料庫是完全用來研究漢語的。

        3.1.2 語料庫建設(shè)小型化專業(yè)化

        隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)快速的發(fā)展,越來越多的語言學(xué)者躋身于語料庫建設(shè)中,因其研究方向各異,相比大型綜合型的語料庫,小型的、專業(yè)化的語料庫的建設(shè)更受青睞。

        3.1.3 生語料庫居多

        因?yàn)槿鄙俳?biāo)準(zhǔn)和統(tǒng)一管理,現(xiàn)在國內(nèi)的語料庫建設(shè)雜亂,大多是自建自用,缺乏共享,語料庫中的內(nèi)容得到標(biāo)注和重新加工的寥寥無幾,這使得語料庫的使用效率不高,同時(shí)也存在著重復(fù)性建設(shè)。

        3.2 國內(nèi)漢語語料庫的發(fā)展方向

        發(fā)展到現(xiàn)在,語料庫己經(jīng)成為現(xiàn)代語言學(xué)研究的重要基礎(chǔ)。語料庫語言學(xué)是指以語料庫為基礎(chǔ)的語言學(xué)研究方法。關(guān)于語料庫語言學(xué)的研究有很多文章和專著,而把漢語語料庫建設(shè)本身作為一個(gè)研究對(duì)象來專門進(jìn)行研究的課題卻不是很多,導(dǎo)致了漢語語料庫建設(shè)的規(guī)范性不強(qiáng)、缺少系統(tǒng)的理論指導(dǎo)、缺少評(píng)測(cè)標(biāo)準(zhǔn)等現(xiàn)象,使得當(dāng)前漢語語料庫建設(shè)的質(zhì)量良莠不齊、重復(fù)開發(fā)。語料庫的建設(shè)牽涉到語言學(xué)、計(jì)算機(jī)科學(xué)、概率統(tǒng)計(jì)學(xué)、文獻(xiàn)學(xué)、版權(quán)學(xué)、管理學(xué)等多個(gè)學(xué)科,建設(shè)一個(gè)高質(zhì)量的大型語料庫,是一個(gè)人力、物力、時(shí)間、金錢開銷都很龐大的工程。因此語料庫建設(shè)周期長,難以滿足語料庫語言學(xué)發(fā)展的需要,難以為語言學(xué)研究提供全面、豐富、及時(shí)、權(quán)威的語料素材。因此,未來進(jìn)行漢語語料庫建設(shè)理論規(guī)范性研究、制定統(tǒng)一評(píng)判標(biāo)準(zhǔn),為研究者提供功能豐富、使用方便靈活、效率高的語料庫分析工具,是漢語語料庫未來的發(fā)展方向。

        [1]段海鵬.近十年語料庫語言學(xué)在中國的發(fā)展綜述[J].海外英語,2011(11):304-305.

        [2]侯敏.計(jì)算語言學(xué)與漢語自動(dòng)分析[M].北京:北京廣播學(xué)院出版社,1999:155-159.

        [3]穆曉麗,尹轉(zhuǎn)云.語料庫在語言研究方面的應(yīng)用綜述[J].西安外國語學(xué)院報(bào),2001(09):21-26.

        [4]甄鳳超,張霞.語料庫語言學(xué)發(fā)展趨勢(shì)瞻望:2003語料庫語言學(xué)國際會(huì)議綜述[J].外語界,2004(04).

        [5]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2002.

        [6]張艷偉.語料庫語言學(xué)的多維角度:2011年中國語料庫語言學(xué)大會(huì)綜述[J].當(dāng)代外語研究,2012(09):87-88.

        猜你喜歡
        現(xiàn)代漢語語料語言學(xué)
        “楞”“愣”關(guān)系及“楞”在現(xiàn)代漢語中的地位
        評(píng)《現(xiàn)代漢語詞典》(第6版)
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        認(rèn)知語言學(xué)與對(duì)外漢語教學(xué)
        現(xiàn)代漢語中詞匯性的性范疇
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        北大版《現(xiàn)代漢語》增訂本)出版
        語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        av网站不卡的av在线| 无码人妻系列不卡免费视频| 国产粉嫩嫩00在线正在播放| 男女互舔动态视频在线观看| 国产成人av一区二区三区在线观看| 亚洲国产另类久久久精品黑人| 久久精品国产亚洲Av无码偷窍| 日韩精品一区二区在线视| 五月色婷婷丁香无码三级| 四川少妇大战4黑人| 色播中文字幕在线视频| av人妻在线一区二区三区| 亚洲精品久久激情国产片| 疯狂做受xxxx高潮欧美日本| 8090成人午夜精品无码| 国产精品又湿又黄九九九久久嫩草 | 久久国产精99精产国高潮| 日本女u久久精品视频| 亚洲精品乱码久久久久久不卡| 五月天激情婷婷婷久久| A阿V天堂免费无码专区| 日本师生三片在线观看| 人妻少妇中文字幕专区| 人人妻人人澡人人爽人人dvd| 国产亚洲日韩在线三区| 久久久久人妻精品一区5555| 91九色播放在线观看| 久久久久久久97| 欧美成人久久久| 在线观看国产精品一区二区不卡| 日韩综合无码一区二区 | 亚洲中文字幕无码永久在线| 精品久久久久久国产潘金莲| 在线观看 国产一区二区三区| 免费观看交性大片| 国产喷水福利在线视频| 午夜香蕉av一区二区三区| 天天做天天爱夜夜夜爽毛片| 亚洲 暴爽 av人人爽日日碰| 无码三级国产三级在线电影| 少妇下面好爽好紧好湿一区二区|