亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國內(nèi)外語料庫建設(shè)研究簡述

        2018-05-14 16:38:17陳夢圓
        知識文庫 2018年21期
        關(guān)鍵詞:古漢語分詞詞典

        陳夢圓

        語料庫研究興起于20世紀(jì)60年代其在語言學(xué)各領(lǐng)域所引發(fā)的革命,引起了語言學(xué)家、教育學(xué)家的極大關(guān)注。語料庫研究以及基于語料庫的語言研究,正逐漸成為語言學(xué)研究領(lǐng)域的話語中心,其涵蓋范圍及應(yīng)用領(lǐng)域也日益廣泛。本文首先對國內(nèi)外語料庫建設(shè)研究進行梳理、分析,且就與語料庫相關(guān)的方面如自動標(biāo)注與檢索研究等進行了闡述,重點介紹中醫(yī)文獻語料庫建設(shè)研究概況,旨在于為中醫(yī)文化研究及中醫(yī)翻譯提供借鑒。

        1 國內(nèi)外語料庫建設(shè)

        語料庫(corpus)就是計算機應(yīng)用于語言領(lǐng)域的一種形式,是存放語言的倉庫,將實際使用中真實出現(xiàn)過的語言材料經(jīng)過加工(分析和處理)成為有用的資源以電子計算機為載體的語言知識基礎(chǔ)資源。近年來,語料庫的建設(shè)已在世界范圍廣泛展開,容量逐步擴大,種類繁多,其應(yīng)用已滲透到語言領(lǐng)域的各個方面,成為語言研究、詞典編纂、語言教學(xué)的有力工具,受到語言研究者和教育工作者的重視。

        1.1國外語料庫建設(shè)

        計算機語料庫建設(shè)始于1964年美國布朗大學(xué)發(fā)布的BROWN語料庫以及1987年英國Lancaster大學(xué)發(fā)布的LOB語料庫。歐美學(xué)者利用這兩個語料庫開展了大規(guī)模的研究,范圍涉及自然語言文本的采集、存儲、檢索、統(tǒng)計、語法標(biāo)注等問題以及語料庫在語言定量分析、詞典編纂、作品風(fēng)格分析、自然語言理解和機器翻譯等領(lǐng)域中的應(yīng)用,取得了豐碩的成果(Leech,1987;Sinclair, 1999; Thomas, 2001)。此后的十幾年里,語料庫建設(shè)在全球范圍內(nèi)快速發(fā)展:歐洲相繼建成了COBUILD語料庫、BNC語料庫(British National Corpus);美國的賓州大學(xué)發(fā)布了樹庫語料庫(TreeBank);日本建成了RWC日語語料庫;臺灣的中央研究院建成了現(xiàn)代漢語平衡語料庫。

        1.2中國的語料庫建設(shè)

        中國的語料庫建設(shè)發(fā)端于上海交通大學(xué)的科技英語語料庫和國家語委的現(xiàn)代漢語語料庫。此后,北京大學(xué)計算語言研究所開發(fā)了《人民日報》語料庫,中國科學(xué)院自動化研究所、清華大學(xué)、哈爾濱工業(yè)大學(xué)、山西大學(xué)等等也建設(shè)了各具特色的語料庫(馮志偉,1999;何安平,2001;楊惠中,2002)。國家語委現(xiàn)代漢語語料庫是一個大規(guī)模的平衡語料庫,語料選材類別廣泛,時間跨度大。在線提供檢索的語料經(jīng)過分詞和詞性標(biāo)注,可以進行按詞檢索和分詞類的檢索,還錄入了一部分未加工的古漢語語料,但沒有涉及《黃定內(nèi)經(jīng)》、《難經(jīng)》等中醫(yī)經(jīng)典著作。

        進入21世紀(jì)以來,語料庫建設(shè)中的文本加工、存儲、檢索、管理等等問題基本上已經(jīng)解決,研究語料庫的學(xué)者們開始關(guān)注基于語料庫的數(shù)據(jù)統(tǒng)計、句法分析、語義分析、機器翻譯、自動對齊、知識自動獲取等等深層次的自動處理與應(yīng)用問題。

        2 國內(nèi)外語料庫自動標(biāo)注與檢索研究

        國內(nèi)外語料庫標(biāo)注與檢索(Annotation & Concordance)方面的文獻非常豐富,綜合既有文獻看,標(biāo)注與檢索研究主要涉及具以下幾個方面的內(nèi)容:第一,語料庫標(biāo)注規(guī)范及詞典研究,包括詞匯的詞性分類和語義分類,標(biāo)注符號的制定等。BROWN語料庫使用了不足40種詞類標(biāo)注符號,LOB語料庫卻使用了120多種,北大語料庫使用的詞類標(biāo)注符號跟中科院的也各不相同;詞匯語義分類中,Wordnet使用了詞義相互關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu),北大語料庫詞典主要采用了上下義關(guān)系的層次結(jié)構(gòu)(Leech,1994;于江生,2002;詹衛(wèi)東,2004)。第二,自動標(biāo)注程序開發(fā),BROW語料庫設(shè)計了一個基于規(guī)則的自動標(biāo)注系統(tǒng) TAGGIT,LOB語料庫則設(shè)計了基于統(tǒng)計模型的 CLAWS 自動詞性標(biāo)注系統(tǒng),我國中科院研制的中文分詞系統(tǒng)ICTCLAS具備漢語分詞和詞性標(biāo)注的雙重功能(Sinclair, 1991;俞士汶,2004;劉群,2005)。第三,語料庫檢索方法研究,除了跟大型語料庫配套的專用檢索工具之外,還出現(xiàn)了一些語料庫通用檢索工具,Wordsmith、 Antconc等工具具有關(guān)鍵詞檢索和搭配分析等功能;nooj系統(tǒng)還具有根據(jù)正則表達式、語法規(guī)則進行檢索的能力。第四,語料庫應(yīng)用研究,主要集中在計算語言學(xué)領(lǐng)域,自動句法分析和機器翻譯研究是此方面的典型代表,已提出很多算法如轉(zhuǎn)換生成語法、依存語法、詞匯功能語法、富田勝算法、概率算法等等(劉開瑛,2000;劉穎,2004)。第五,基于語料庫的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究,主要涉及自動文摘、知識提取等方面,這種研究往往以語義詞典為基礎(chǔ),其研究范圍已經(jīng)擴展到自由文本分析和網(wǎng)絡(luò)資源分析等等方面。

        3.中醫(yī)文獻語料庫建設(shè)研究

        縱觀語料庫建設(shè)方面的既有文獻可見,隨著語料庫自動標(biāo)注工具的開發(fā),語料庫建設(shè)的規(guī)模越來越大,語料庫建設(shè)的難度也在不斷降低,然而,關(guān)于中醫(yī)經(jīng)典文獻語料庫建設(shè)方面的研究文獻卻寥寥無幾,已有文獻大多是泛泛的建議或可行性研究、或者是一些定性概括。中醫(yī)經(jīng)典文獻,按照中醫(yī)學(xué)的觀點,至少應(yīng)該包括《黃帝內(nèi)經(jīng)》、《難經(jīng)》、《神農(nóng)本草經(jīng)》、《傷寒雜病論》和《金匱要略》五部作品。建設(shè)一個中醫(yī)經(jīng)典文獻語料庫,不但需要面對語料庫建設(shè)過程中關(guān)于文本存儲、標(biāo)注、檢索等等基本問題,還必須解決錯訛字、假借字、異體字規(guī)范化、古漢語自動分詞與標(biāo)注、中醫(yī)術(shù)語分類詞典設(shè)計等等特殊問題,尤其是語料庫的檢索系統(tǒng),不能僅僅停留在語言問題的檢索方面,還必須研究如何充分利用分詞和標(biāo)注符號進行信息篩選提取的問題。

        已有文獻調(diào)查顯示,字詞研究以及中醫(yī)術(shù)語詞典研究相對豐富,已出版有《內(nèi)經(jīng)詞典》、《實用中醫(yī)詞典》等等(馬繼興,1990;張登本,1990)。深加工的古漢語中醫(yī)文獻語料庫建設(shè)及其標(biāo)注與數(shù)據(jù)分析方面的研究尚未見到。由陜西中醫(yī)藥大學(xué)聞永毅在研的“中醫(yī)經(jīng)典文獻語料庫建設(shè)及其數(shù)據(jù)分析方法研究”(2016-2019)是一種深加工的古漢語中醫(yī)經(jīng)典文獻語料庫建設(shè)項目,在國內(nèi)外尚無先例,填補了古漢語語料庫建設(shè)方面的空白。本研究目的截然不同于其他語料庫,已有語料庫建設(shè)項目主要服務(wù)于語言自身問題研究或者機器翻譯研究,對本課題而言,這只是語料庫的一種基本功能;本研究高度關(guān)注如何從古漢語文獻語料庫中自動篩選并提取有價值的信息,探索一整套適合古漢語自動加工和數(shù)據(jù)分析的具體方法才是本研究的最終目的。再者,以分詞與標(biāo)注的方法處理并保存中醫(yī)經(jīng)典文獻,是保護與傳承古籍的一種新思路,含有古籍文獻標(biāo)準(zhǔn)化的理念,是對標(biāo)準(zhǔn)化研究古漢語文獻的一種創(chuàng)造性探索。

        十八大以來,黨和國家領(lǐng)導(dǎo)人多次強調(diào)要保護好、傳承好中醫(yī)藥文化,屠呦呦獲得諾貝爾獎的青蒿素故事更進一步激發(fā)了人們從中醫(yī)古籍文獻中挖掘數(shù)據(jù)的積極性,中醫(yī)經(jīng)典文獻語料庫能夠在此方面發(fā)揮重要作用。中醫(yī)經(jīng)典文獻語料庫能夠徹底改變一邊翻閱紙質(zhì)資料、一邊手工記錄的資料查閱方式,而只需在計算機上輸入關(guān)鍵詞或特定模式,然后由檢索系統(tǒng)自動篩選并提取所需信息,無需擔(dān)心因異體字、假借字、分詞斷句、古漢語閱讀障礙等因素而造成信息檢索不全的問題,其檢索準(zhǔn)確性會遠遠優(yōu)于谷歌、百度等搜索引擎。另外,深加工的中醫(yī)經(jīng)典文獻語料庫又是一個古漢語研究平臺,能夠用于古漢語的字詞、語法、語義問題研究,徹底扭轉(zhuǎn)古漢語研究缺乏大規(guī)模統(tǒng)計數(shù)據(jù)支持以及漢語研究與醫(yī)古文研究長期相互脫節(jié)的局面。

        本文為國家社會科學(xué)基金項目;課題編號:16xyy011

        (作者單位:陜西中醫(yī)藥大學(xué))

        猜你喜歡
        古漢語分詞詞典
        古漢語疑問句末“為”字補證
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        上古漢語“施”字音義考
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        值得重視的分詞的特殊用法
        談?wù)劰艥h語的翻譯
        語言與翻譯(2014年1期)2014-07-10 13:06:11
        古漢語中表反問的一組能愿動詞
        語文知識(2014年3期)2014-02-28 21:59:31
        高考分詞作狀語考點歸納與疑難解析
        国产成人精品日本亚洲i8| 国产精品亚洲二区在线| 日本a在线免费观看| 亚洲色欲色欲www成人网| 亚洲高清一区二区三区视频| 国产精品一品二区三区| 日韩中文字幕素人水野一区| 人人妻人人澡人人爽国产| 久久伊人精品一区二区三区| 亚洲av日韩av天堂一区二区三区| 亚洲av综合色区无码一二三区 | 日本久久久免费高清| 网友自拍人妻一区二区三区三州| 伊人狼人影院在线视频| 日本不卡视频一区二区| 麻豆亚洲一区| 永久黄网站免费视频性色| 中文字幕日本特黄aa毛片| 亚洲精品日韩自慰喷水白浆| 久久狠色噜噜狠狠狠狠97| 青青草精品在线免费观看| 精品国内日本一区二区| 成 人片 黄 色 大 片| 亚洲精品一区二区| 免费现黄频在线观看国产| 亚洲国产成人精品91久久久| 国产成人高清视频在线观看免费| 欧美日韩午夜群交多人轮换| 亚洲av无码一区二区三区不卡| 男人边吃奶边做好爽免费视频| 欧美日韩亚洲成色二本道三区| 久久精品国产亚洲AV高清y w| 亚洲偷自拍国综合第一页国模| 国产乱子伦精品无码专区 | 2021亚洲色中文字幕| 国产一品二品三品精品久久| 国产精品熟女视频一区二区三区| 欧美xxxxx在线观看| 五十路熟妇高熟无码视频| 日韩中文在线视频| 99久久免费中文字幕精品|