亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向術(shù)語識別的術(shù)語界定研究

        2014-12-26 13:21:28
        中國科技術(shù)語 2014年4期
        關(guān)鍵詞:定義概念

        張 榕

        (北京語言大學(xué)漢語速成學(xué)院,北京 100083)

        面向術(shù)語識別的術(shù)語界定研究

        張 榕

        (北京語言大學(xué)漢語速成學(xué)院,北京 100083)

        術(shù)語的界定問題一直都是術(shù)語學(xué)界研究的課題。術(shù)語與普通詞語之間的交融滲透關(guān)系使得術(shù)語的界定復(fù)雜。如何提供一種可操作的術(shù)語界定標(biāo)準(zhǔn)來指導(dǎo)術(shù)語識別是亟待解決的現(xiàn)實問題。提出一種面向術(shù)語識別的術(shù)語界定方法,對于術(shù)語詞典的編纂與更新都是一項有意義的工作。

        術(shù)語界定,術(shù)語識別,定義性描述

        一 問題的提出

        術(shù)語尤其是新術(shù)語的識別一直都是術(shù)語學(xué)研究的重點之一。近年來該領(lǐng)域的研究成果頗豐。施水才[1]、劉豹[2]、何琳[3]等都使用各種語言學(xué)及統(tǒng)計學(xué)的方法進(jìn)行術(shù)語的識別發(fā)現(xiàn)。然而究竟哪些詞語是術(shù)語需要被識別出來,學(xué)界在該問題上的處理始終存在一定的盲目性與主觀性。各家各派從不同的角度對術(shù)語界定問題都進(jìn)行過闡述,遺憾的是這些術(shù)語界定,在面向中文信息處理的目標(biāo)背景下,可操作程度較低。術(shù)語的界定原則與術(shù)語識別的最終結(jié)果,以及術(shù)語詞典編纂的收詞原則緊密相關(guān)。如何給出一個科學(xué)的、可操作的術(shù)語界定方法以服務(wù)于術(shù)語識別、術(shù)語詞典編纂是本文的研究重點。

        二 術(shù)語與普通詞語之間的交融滲透

        一個詞語在一個上下文中可以是術(shù)語,在另一個上下文中可能是普通詞語。術(shù)語本身是一個詞語,和普通詞語之間互相滲透表現(xiàn)為術(shù)語也可泛化為普通詞語;普通詞語可以抽象為術(shù)語。

        1.術(shù)語的泛化現(xiàn)象

        術(shù)語的泛化指特定領(lǐng)域的術(shù)語,在通用領(lǐng)域被廣泛使用,成為日常用語的過程。術(shù)語的泛化改變了術(shù)語的單義性和專業(yè)性的特性。單義性指在一個特定領(lǐng)域內(nèi),一個術(shù)語只表述一個概念,同一個概念只用同一個術(shù)語來指稱,術(shù)語與概念之間一一對應(yīng)[4]。術(shù)語的泛化使得術(shù)語含有一個以上的概念,但由于這些概念分屬不同的領(lǐng)域,所以并不會造成理解上的混淆。舉例如下。

        在計算機(jī)科學(xué)技術(shù)領(lǐng)域,“軟件”指一系列按照特定順序組織的計算機(jī)數(shù)據(jù)和指令的集合,一般來講軟件被劃分為系統(tǒng)軟件、應(yīng)用軟件和介于這兩者之間的中間件;在普通詞匯中指服務(wù)水平、管理模式、人員素質(zhì)、企業(yè)氛圍等內(nèi)容。

        在遺傳學(xué)中,“克隆”有兩個含義:(1)又稱“無性[繁殖]系”,遺傳組成完全相同的分子、細(xì)胞或個體及其組成的一個群體。(2)利用體外重組技術(shù)將某特定的基因或DNA序列插入載體分子的操作過程。而現(xiàn)在也指復(fù)制與原件完全一樣的副本的過程。

        有些術(shù)語已經(jīng)成為日常用語,經(jīng)過泛化后的術(shù)語具有了多義性和普遍性。例如“盲點”:

        “這件事情你沒弄明白,是你理解上的盲點吧。”

        2.普通詞語的專業(yè)化現(xiàn)象

        與術(shù)語的泛化相對應(yīng)的是普通詞語的專業(yè)化現(xiàn)象。某些普通詞語在特定領(lǐng)域與語境下,可以專業(yè)化為術(shù)語。但在不同的上下文環(huán)境、不同的領(lǐng)域中,這些詞語的概念內(nèi)涵不盡相同,有時甚至完全不同。普通詞語成為術(shù)語,概念上可能保持一致,也可能指代不同的概念內(nèi)涵。

        (1)普通詞語可成為具有相同概念的術(shù)語。例如“失眠”在《現(xiàn)代漢語詞典》中的釋義為:“夜間睡不著或醒后不能再入睡。”而在醫(yī)學(xué)科技詞典中的釋義為:“由于精神活動長期過度緊張,致使大腦的興奮和抑制功能失調(diào),精神活動能力因而受到影響而造成的不充分的睡眠或不完全的睡眠,臨床特點是失眠、多夢,常伴有頭痛、頭昏、胸悶、心悸、腹脹、注意力不集中,臨床表現(xiàn)有入睡困難、多夢、易醒、醒后難以再入睡?!?/p>

        普通人對“失眠”一詞的理解與專科大夫的理解就有很大的區(qū)別。可見日常生活中一個很普通的詞語,在某個特定領(lǐng)域,對該領(lǐng)域的研究者來說是一個專業(yè)術(shù)語。

        (2)普通詞語可以成為具有不同概念的術(shù)語。例如“指針”“協(xié)議”“地址”三個詞語可以被認(rèn)為是普通詞語,也可被認(rèn)為是專門術(shù)語。在《現(xiàn)代漢語詞典》中的義項就是它們作為普通術(shù)語的解釋,在計算機(jī)詞典中的義項就是它們作為術(shù)語的解釋。

        在《現(xiàn)代漢語詞典》中的釋義分別如下:

        指針:(義項1)鐘表的面上指示時間的針,分為時針,分針,秒針;儀表指示度數(shù)的針。 (義項2)比喻辨別正確方向的依據(jù)。

        協(xié)議:(義項1)協(xié)商 (義項2)國家,政黨或團(tuán)體間經(jīng)過談判,協(xié)商后取得的一致意見。

        地址:人、團(tuán)體居住或通信的地點。

        計算機(jī)詞典中的釋義分別如下:

        指針:保存對象地址的變量。

        協(xié)議:一種成文的公約集,管轄兩臺相互通信的系統(tǒng)間的信息交換格式化和相對定時。

        地址:(義項1)數(shù)據(jù)源出地和目的地的代碼。 (義項2)確定傳輸目的地和來源的數(shù)字位或字符序列。 (義項3)文件的位置。可以使用地址查找Internet 和計算機(jī)中的文件。Internet 地址也稱為URL。

        可見一個詞語是否為術(shù)語并不是一成不變的,而是與領(lǐng)域以及不同的使用對象緊密相關(guān)的。術(shù)語的泛化以及普通詞語的專業(yè)化兩個過程是聯(lián)動的。

        三 術(shù)語的界定

        術(shù)語的界定始終是術(shù)語學(xué)界和語言學(xué)界爭議的問題。國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、辭書、詞典都曾經(jīng)給術(shù)語下過定義,一些專門從事術(shù)語研究的專家學(xué)者也紛紛發(fā)表各自的觀點,其中包括:“術(shù)語指專業(yè)領(lǐng)域中一般概念的文字指稱”[5]“術(shù)語是指稱專業(yè)概念的詞或詞組”[6]“通過語音或文字來表達(dá)或限定專業(yè)概念的約定性符號”[4]“術(shù)語是經(jīng)常在專業(yè)領(lǐng)域中出現(xiàn),而很少在其他領(lǐng)域中出現(xiàn)的詞語”[7]等多達(dá)幾十種的界定方法。上述的術(shù)語界定在術(shù)語識別的任務(wù)前提下,都不能或不完全能準(zhǔn)確提供一個可操作性標(biāo)準(zhǔn),給術(shù)語識別以及術(shù)語詞典的收詞造成了一定的困難。在該背景下,本文提出一種可操作的術(shù)語界定方法,來提高術(shù)語識別、術(shù)語詞典編纂的客觀性,這是前人的工作尚未涉及的。

        上述對術(shù)語的各種界定,例如,什么是“專業(yè)領(lǐng)域”“專業(yè)概念”,針對不同的人群,有不同的理解。對某個領(lǐng)域的專家來說屬于專門領(lǐng)域、專業(yè)概念的詞語對普通人群可能就是一個普通詞語。這些概念和術(shù)語一樣也是需要界定的。人都難以界定的概念,對于進(jìn)行中文信息處理的計算機(jī)而言,更難具有實際的操作性。

        例如“門”這個概念,一般對普通人來講就是“指房屋等的出入口”。但是在建筑學(xué)里,“門”的概念是指在出入通道處所設(shè)可開關(guān)或轉(zhuǎn)動的裝置。在生物學(xué)里,“門”的概念是指生物分類法中的一級,位于界和綱之間。在電子學(xué)中“門”是一種邏輯電路。若按照上述的術(shù)語界定方式去判斷,“門”很大概率是一個普通詞語,它可能出現(xiàn)在多個領(lǐng)域中,不具有領(lǐng)域特異性,如果按照通常的術(shù)語識別方法,例如tf-idf的方法(一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)),則抽取出該詞語的概率很低。由此本文提出了一種不同于前人的術(shù)語的界定方式。該方法建立在國家標(biāo)準(zhǔn)《術(shù)語工作 計算機(jī)應(yīng)用 數(shù)據(jù)類目》(terminology work computer applications data categories)的基礎(chǔ)之上。其中關(guān)于術(shù)語的界定為:專門語言中表達(dá)已定義概念的詞語的指稱。

        以術(shù)語識別為目的驅(qū)動,本文將術(shù)語定義為:在某一特定領(lǐng)域內(nèi),有定義性描述的詞或詞組。該界定方法將術(shù)語與被定義項的關(guān)系結(jié)合起來。某種程度上可以認(rèn)定:術(shù)語是某一特定領(lǐng)域的被定義項。一個詞語是否為術(shù)語,它所在的上下文即句子起了決定性的作用。例如以下兩個句子:

        (1)門是指在出入通道處所設(shè)可開關(guān)或轉(zhuǎn)動的裝置。

        (2)客廳的門通向臥室和廚房。

        依據(jù)本文的界定標(biāo)準(zhǔn),句1中的“門”就可以被認(rèn)作是術(shù)語。句2中“門”只是個普通詞語。因為句子1中的“門”存在于定義性描述的語句中,以一個被定義項的語言形式存在。

        依照這一界定標(biāo)準(zhǔn)可提高術(shù)語識別的客觀性與可操作性,理據(jù)如下:

        首先概念清晰。該界定排除了人名、地名、機(jī)構(gòu)名等命名實體類專用名詞。因為這些專名指稱現(xiàn)實中的唯一個體,不可能有定義。排除了各種修飾性的語言成分如形容詞、副詞、成語、俗語等。能被抽出來的一定在某專業(yè)領(lǐng)域有定義性描述,符合前面所列的所有關(guān)于術(shù)語的定義。

        其次可操作性強(qiáng)。因為定義性描述是由語言形式表現(xiàn)的,根據(jù)這些形式特點可建立起形式系統(tǒng),設(shè)計算法,讓計算機(jī)自動操作。

        再者能與專業(yè)領(lǐng)域直接建立聯(lián)系。縱觀前面引用的各種有關(guān)術(shù)語的界定,核心都是要同專業(yè)領(lǐng)域相關(guān)。定義的語言內(nèi)容本身及定義的上下文語境會明確地指示該術(shù)語所述的專業(yè)領(lǐng)域。該界定解決了同一個詞形用在不同領(lǐng)域充當(dāng)術(shù)語的身份辨認(rèn)問題。

        同時預(yù)測到對該界定方法可能有如下缺陷。第一,認(rèn)為大量的術(shù)語在文本中的出現(xiàn)都是使用性出現(xiàn),并非定義性出現(xiàn),按照這種方法無法抽取出來;第二,這種方法能抽取新術(shù)語,抽不出老術(shù)語。比如,能從網(wǎng)上抽出“藍(lán)牙”“WiFi”這類較新術(shù)語,因為這類術(shù)語能找到定義;但是“電燈”“電話”這類老術(shù)語因為找不到定義,也就抽不出來了,但只要認(rèn)真分析,就可以看出這種批評是不正確的。

        基于中文信息處理的術(shù)語研究通常分為兩種類型:

        (1)以構(gòu)建術(shù)語表為目的,抽取術(shù)語的詞形,識別其所屬的領(lǐng)域;

        (2)事先已有術(shù)語表,在上下文語境中識別術(shù)語的各種詞例,目的是研究術(shù)語出現(xiàn)的頻率、用法等動態(tài)性質(zhì)。

        術(shù)語的識別就是抓住術(shù)語出現(xiàn)的源頭,將所有定義性描述的詞語給找出來。第一種缺陷中指出的沒有定義性描述的術(shù)語可能在一篇文本中無法被識別,但只要它是術(shù)語,就一定會作為被定義項在句子中出現(xiàn),基于大規(guī)模的真實語料,這是完全能被識別發(fā)現(xiàn)的;同時可通過術(shù)語聚類方法,識別出該術(shù)語所在的領(lǐng)域,進(jìn)行領(lǐng)域分類后放進(jìn)術(shù)語詞典的收詞表中。當(dāng)然,具體操作中要看能否把術(shù)語出現(xiàn)的源頭都找到。誠如第二種缺陷所指出的,用這種方法識別出的術(shù)語多數(shù)是新術(shù)語。因為幾十年前、幾百年前出現(xiàn)的術(shù)語,其定義所在的文本許多尚未數(shù)字化,更不會進(jìn)入網(wǎng)絡(luò),計算機(jī)暫時還沒法抽取到,但那些老術(shù)語早已收進(jìn)各種術(shù)語詞典中。對于它們來說,第一種類型的術(shù)語識別工作根本沒必要重復(fù)去做。

        四 結(jié) 語

        依據(jù)已有的術(shù)語界定標(biāo)準(zhǔn)進(jìn)行的術(shù)語識別存在以下幾個問題。第一,抽取出來的詞語若果真是術(shù)語,絕大多數(shù)都是各種術(shù)語表中已經(jīng)收錄的,從構(gòu)造術(shù)語表的角度看并無很大意義。第二,抽取出來的詞語中包含著一定數(shù)量的非術(shù)語,仍需花費大量人力去鑒別。比如使用tf-idf的方法,識別出來的只是領(lǐng)域特異詞,即在某個領(lǐng)域經(jīng)常出現(xiàn)而在其他領(lǐng)域很少出現(xiàn)的詞語,但這些詞語中有可能是人名、地名、常用語、俗語。使用互信息的統(tǒng)計方法抽取出來的也會有一些非術(shù)語的固定詞語搭配。第三,把所有的詞語都作為初選的對象,極為低效。依據(jù)本文的術(shù)語界定方式可抽取出新術(shù)語,連同術(shù)語詞典中的老術(shù)語,就可以構(gòu)造出完整的術(shù)語表,并不斷補充發(fā)展。利用這樣的術(shù)語表,就可采用一般的分詞和詞義排歧的方法,在大規(guī)模文本的各種上下文語境中抽取術(shù)語的詞例,完成第二種類型的工作,而上述兩項工作的結(jié)合,正是術(shù)語詞典編纂的主要任務(wù)。本文的術(shù)語界定研究對于術(shù)語識別、術(shù)語詞典的編纂與更新都是一項有意義的工作。

        [1] 施水才,王楷,呂學(xué)強(qiáng).基于條件隨機(jī)場的領(lǐng)域術(shù)語識別研究[J].計算機(jī)工程與應(yīng)用,2013(10):147-149.

        [2] 劉豹,張桂平,蔡東風(fēng).基于統(tǒng)計和規(guī)則相結(jié)合的科技術(shù)語自動抽取研究[J].計算機(jī)工程與應(yīng)用,2008(23):147-150.

        [3] 何琳.基于多策略的領(lǐng)域本體術(shù)語抽取研究[J].情報學(xué)報, 2012(8):45-47.

        [4] 馮志偉.現(xiàn)代術(shù)語學(xué)引論[M].北京:語文出版社,1997.

        [5] ISO/TC 37. Terminology work-Vocabulary-Part 1:Theory and application[S].

        [6] 標(biāo)準(zhǔn)化與信息分類編碼研究所. GB/T 10112—1999 術(shù)語工作 原則與方法[S]. 中國標(biāo)準(zhǔn)出版社,2004.

        [7] 王強(qiáng)軍.信息技術(shù)領(lǐng)域新術(shù)語提取的初步研究[J]. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2003(1):32-35.

        動 態(tài)

        電氣工程名詞審定委員會第四次會議紀(jì)要

        2014年7月19日,中國電工技術(shù)學(xué)會在北京鐵道大廈召開了電氣工程名詞審定委員會第四次會議(全體),與會的領(lǐng)導(dǎo)及專家共50多人。會議由中國電工技術(shù)學(xué)會理事、電氣工程名詞審定委員會主任顧國彪院士主持。中國電工技術(shù)學(xué)會副理事長兼秘書長裴相精講話,感謝各位專家百忙之中前來參加會議并積極完成名詞定義階段的工作。全國科學(xué)技術(shù)名詞審定委員會審定室主任鄔江,根據(jù)目前上報的詞條定義撰寫中的問題,向與會專家講解了撰寫名詞定義工作中應(yīng)注意的問題及解決思路。全國科學(xué)技術(shù)名詞審定委員會副主任劉青也參加了本次會議,他在講話中指出,此次由中國電工技術(shù)學(xué)會組織審定電氣工程名詞的工作非常重要和及時,該名詞是我國科技名詞規(guī)范化事業(yè)的重要組成部分,并對如何解決工作中存在的問題提出了一些建議。

        (史金鵬)

        Research on Term Definition Based on Term Identification

        ZHANG Rong

        s: Term definition is one of hot topics for terminology researchers. The interrelate relations between terms and common words make term definition more complicated. In this paper, we propose a kind of definition which provides a workable criterion for term identification. The research is helpful for the compilation and updating of term dictionaries.

        term definition, term identification, definitional description

        2014-02-19

        張榕(1975—),北京語言大學(xué)漢語速成學(xué)院講師,博士,研究方向為英語語言文學(xué)。通信方式:lostballoon@sina.com。

        H083;N04

        A

        1673-8578(2014)04-0005-04

        猜你喜歡
        定義概念
        Birdie Cup Coffee豐盛里概念店
        永遠(yuǎn)不要用“起點”定義自己
        海峽姐妹(2020年9期)2021-01-04 01:35:44
        定義“風(fēng)格”
        幾樣概念店
        學(xué)習(xí)集合概念『四步走』
        聚焦集合的概念及應(yīng)用
        論間接正犯概念之消解
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        概念的限制
        修辭學(xué)的重大定義
        国产日韩午夜视频在线观看 | 国产精品一区二区韩国av| 精品女同一区二区三区不卡| 久久99精品综合国产女同| 欧美成人国产精品高潮| 亚洲av综合色区无码一二三区| 欧美xxxx新一区二区三区| 白丝美女扒开内露出内裤视频| 日本女优在线一区二区三区| 果冻传媒2021精品一区| 国产久热精品无码激情 | 亚洲国产av一区二区三| 那有一级内射黄片可以免费看| 午夜无遮挡男女啪啪免费软件| 韩国19禁主播深夜福利视频| 日韩一区二区三区中文字幕| 成人一区二区三区国产| 国产 麻豆 日韩 欧美 久久| 一级免费毛片| 偷拍av一区二区三区| 在线日本看片免费人成视久网| 久久亚洲私人国产精品va| 久久青草免费视频| 丰满人妻一区二区三区精品高清| 国产精品会所一区二区三区| 久久久午夜精品福利内容| 无码一区二区三区不卡AV| 亚洲一区二区av天堂| 精品人妻av区乱码| 精品无码一区二区三区爱欲九九| 日韩偷拍视频一区二区三区 | 一本一道AⅤ无码中文字幕| 美女视频黄a视频全免费网站色 | 欧洲熟妇乱xxxxx大屁股7| 亚洲视频在线播放免费视频 | 国产精品你懂的在线播放 | AV在线毛片| 青青草高中生在线视频| 精品国产一区av天美传媒| ZZIJZZIJ亚洲日本少妇| 丰满人妻被持续侵犯中出在线|