邱碧華 編譯
?
本體術語學:把術語和知識本體統(tǒng)一起來的范式
邱碧華 編譯
(全國科學技術名詞審定委員會,北京 100717)
摘 要:術語在現(xiàn)代知識社會中肩負著基礎性的作用,現(xiàn)代社會信息技術的應用對術語學理論研究提出新的挑戰(zhàn)。信息技術要求術語具有其計算機化的代表物,而舊有的普通術語學理論滿足不了現(xiàn)代術語實踐的狀況;西方的術語學理論家在術語學與信息技術、術語學與知識工程相互碰撞的實踐中,構想了“本體術語學”這一術語學理論的新范式,這一構想在具體的術語學實踐中產(chǎn)生了積極的成果。文章旨在介紹和分析“本體術語學”的理論淵源和學術成果。
關鍵詞:普通術語學,知識本體,術語,概念,雙重符號學三角形,本體術語學
法國薩瓦大學(Université de Savoie)計算機科學系的C.羅什(C.Roche)教授,是國際標準化組織(the International Organization for Standardization,ISO)術語國際標準ISO 704和ISO 1087制定項目的負責人[1],多年擔任國際“術語與知識本體:理論和應用會議”科學委員會的主席,他在術語學與信息技術、術語學與知識工程相碰撞的實踐中,于2007年提出了“本體術語學”(Ontoterminology)這一術語學理論的新范式[2]。近年來,他與他的同事M.卡爾貝格-沙洛(M.Calberg-Challot)、L.達馬斯(L.Damas)、P.魯阿爾(P.Rouard)又將這一理論不斷充實完善[3],并對國際標準化組織的術語標準ISO 704、ISO 1087-1進行了重新考察,提出了很多科學、合理的修改建議[4]。本文旨在對“本體術語學”思想產(chǎn)生的理論基礎和形成過程做簡單梳理,以期我們對歐洲術語學理論的多元化發(fā)展有更深入的了解。
在日益全球化的信息社會中,術語所肩負的基礎性作用毋庸置疑。現(xiàn)代社會信息技術的應用,如:計算機輔助翻譯、多語信息檢索、專業(yè)性百科全書、語義網(wǎng)等等都自然而然要求術語要有其計算機化的代表物。這也對術語學理論的發(fā)展提出了新
C.羅什提出的“本體術語學”的新范式[1],說的是:一種“術語總體”,它的概念系統(tǒng)是形式化的“知識本體”,這個“術語總體”有語言學和概念化兩個維度,是這兩個維度的統(tǒng)一體,但這種新范式強調(diào)的是這兩個維度的不同之處。“本體術語學”旨在對現(xiàn)代術語學的語言維度和概念維度進行調(diào)和,同時又保持它們各自根本性的不同。為了更好地說明這個新范式,羅什提出了“雙重符號學三角形”(a double semiotic triangle),它將語言學觀點與知識本體的觀點聯(lián)系了起來:一方面,術語作為“能指”與其概念的名稱聯(lián)系了起來;另一方面,術語的“含義”作為“所指”與概念建立了聯(lián)系。這種術語學的新方法由此引入了兩種定義:(1)用自然語言書寫的“術語”的定義,它被視為一種語言學上的解釋,而不一定要求標準化;(2)用形式語言書寫的“概念”的定義,它是一種形式化的和計算機化的規(guī)范,以便于“術語”在信息技術中的可操作性。這個“雙重符號學三角形”強調(diào)構成每個“術語總體”的兩個不同的層面——語言符號系統(tǒng)和概念符號系統(tǒng),表明相遇在現(xiàn)代術語學中的“術語的含義”和領域本體中的“概念”之間存在著不同。
羅什認為[3],在信息技術中實現(xiàn)“術語”的可操作化,這實際上驗證了維斯特所創(chuàng)立的普通術語學的科學性本質(zhì);但是,舊有術語學不可避免的歷史局限性,使得今日的術語學有被專業(yè)化的辭典編纂學和知識工程吞并的危險,也就是說,術語學要么被簡化成一種純粹語言現(xiàn)象的研究,要么被簡化成計算機化知識的代表物。因此,很有必要對舊有的術語學進行進一步發(fā)展和深化。
下文從兩個方面對“本體術語學”這個新范式的理論淵源進行追述,然后力求較詳細地介紹“本體術語學”這個新范式。
20多年來,雖然有不少西方學者質(zhì)疑術語學作為一門獨立學科的地位,也有學者試圖把它降低為應用語言學的一部分[6],但是,人們都由衷承認歐根·維斯特(Eugen Wüster)在20世紀創(chuàng)立了現(xiàn)代術語學,并使它以獨立學科的姿態(tài)屹立于世界[7]。西方學者們都承認,“普通術語學”(the general theory of terminology,GTT)盡管依舊面臨很多爭議,但無論這種思想是否稱得上是理論,也無論這種理論是否成熟,都是前人想對術語做更深入理論探究的一種努力[7]。
依據(jù)國際標準化組織的術語標準ISO 1087-1,“術語”被定義為:“屬于一種特殊語言的一套名稱?!保?]此套標準旨在通過標準化手段剔除科技語言中的“歧義”現(xiàn)象,這也是傳統(tǒng)術語學的目標。為了實現(xiàn)這個目標,維斯特的普通術語學提出了“概念優(yōu)先于名稱(術語)”的先決條件,并且認為“概念”具有獨立于語言多樣性的普遍性。在ISO術語手冊中,H.費爾伯(H.Felber)對“terminology”所下的三種定義,都體現(xiàn)了“概念優(yōu)先于術語”的理念[8]:“處理概念及其代表物(術語、符號等)的學科內(nèi)部和跨學科的知識領域”;“出版物中某學科的概念系統(tǒng)被術語所代表”;“代表某學科領域被定義概念的常規(guī)符號”。在普通術語學里,術語是“專業(yè)化的語言單元”,是“由唯一的特征聯(lián)合體所產(chǎn)生的知識單元”,它為學科領域中的概念定名;而“概念”是“術語的含義”,“概念”不是依其自身存在的,它須依賴于用自然語言書寫的術語的定義,或者借助于半形式化的語言(semiformal language)所表達的定義(如公式)才能存在。
雖然在術語學傳統(tǒng)思想中,“概念”是普通術語學的核心,但它與現(xiàn)代人工智能中用形式語言表示的“概念”有所不同:在舊有的術語學思想中,概念是通過詞匯化的術語定義表達的,并且傳統(tǒng)術語學對“概念”進行闡述,也不是為了能對它們進行操作(用計算機處理)。因此,術語工作中對“概念”計算機化代表物的需求,是信息技術發(fā)展造成的結果。隨著信息技術的發(fā)展,在歐洲乃至全球出現(xiàn)了多語的內(nèi)容管理系統(tǒng)、多語的信息檢索技術、專業(yè)化的百科全書或者語義網(wǎng),所有這些現(xiàn)實應用都對術語學理論提出了新的需求。
雖然,體現(xiàn)在國際標準中的普通術語學原則,假設了一些基于相互聯(lián)系的概念系統(tǒng)的范式,但是,這些范式未能跟上時代的要求,這就給實現(xiàn)術語的計算機可操作化帶來了難度;在術語的計算機的實踐中,人們感到有必要對普通術語學舊有原則進行重新審視,需要從邏輯上對一些原則進行重新規(guī)范,否則,在信息技術時代,運用人工智能原理和方法的“知識工程”(knowledge engineering)大有可能取代舊有的術語學理論。在此背景下,西方學者認為應該向術語學理論中引入一些人工智能的新特色,要將“知識本體”(ontology)融于現(xiàn)代術語學理論。
知識工程中的本體論思想與信息技術時代的術語學,都期望在人類之間或者人與軟件之間實現(xiàn)信息交流和知識的共享。二者也依賴著一個相似的原則:擁有的共享要基于標準化,要開發(fā)共同的概念系統(tǒng)。法國學者羅什等在實踐中發(fā)現(xiàn):在科技交流中,專家們在交流出現(xiàn)歧義或者不通暢時,是概念間的邏輯形式規(guī)范或者半形式化的語言(例如公式、圖表、圖示)使大家達成共識,而不是依靠自然語言形式。由此,羅什等認為:“知識本體”為信息技術時代的術語以及實現(xiàn)其可操作性和共享,提供了最理想和最有用的代表物和手段[1]。
依據(jù)美國學者 T.格魯伯(T.Gruber)的觀點[9],“知識本體”是“某領域概念體系的明確規(guī)范”,它首先是“對可能存在的概念及其關系的一種描述(就像某種程序的形式規(guī)范一樣)”,以實現(xiàn)從邏輯或者計算機操作的角度對概念及其關系進行處理。也有學者更進一步表明:“知識本體是可以共享的概念體系的形式規(guī)范”[10],“知識本體是對概念體系明確的、形式化的、可共享的規(guī)范”[11]。
雖然也有學者認為:“一個明確的知識本體可能采取不同的形式,但是它必須包括術語詞匯表和一些有關它們含義的規(guī)范(即定義)”[10];但是,“知識本體”歸根結底并不是“術語”[1],因為“知識本體”并沒有考慮“術語”的語言學維度,“概念”是一種“超語言的”知識[12]。雖然“術語”不能簡約成隨意性的詞匯,也不能將其簡單地看成是給“概念”貼上標簽,但是,“術語”所應該具有的重要特色,如:術語的用法、術語詞匯化的形式(包括術語的變化和縮減、修辭特點)、術語隱含的信息以及語言關系等,“知識本體”都不可能具備。
在知識工程中,對“知識本體”和“概念”進行的定義,直接取決于所使用的形式語言。例如,“描述邏輯”(description logic)是適合于對“知識表示”(knowledge representation)進行描述的邏輯形式;而“框架表示語言”(frame representation language)則提供了半形式化和更具人類可讀性的語言。“網(wǎng)絡本體語言”(the Web Ontology Language,OWL)綜合了這兩種方法的優(yōu)點。
羅什認為,對“知識本體”的定義,實際上應該運用形式(或者半形式化的)語言并遵循這種人工語言的認識論原則[13]。
科技文本的寫作和知識建模,是兩種各自涉及不同語言的不同活動;前者涉及自然語言,而后者涉及形式語言。這兩種語言,對我們這個“世界”的定義采用的是不同的觀點。近年來,人們常談論的“領域本體”(domain ontology),指的是對學科概念的一種描述,包括描述學科中的概念、概念的屬性、概念間的關系以及屬性和關系的約束。由于知識具有顯著的領域特性,所以“領域本體”能夠更為合理而有效地進行知識的表示[13]。羅什認為,作為科學知識表示的“領域本體”,雖然其有用的信息是從語料庫里提取的,但我們對它進行定義時所采用的方法,完全可以與“說”它的各種語言學方法相脫離。
在信息技術背景下的知識概念體系(conceptualisation)遠遠不僅是簡單地對“概念”進行形式化或者計算機化的表示,它需要以認識論原則為指導;術語學不僅僅是關于術語(專業(yè)性的詞匯單元)的科學,它也是有關對象客體(它們占據(jù)著這個世界)的科學,后者決定了術語學也需要認識論的指導。
舊有術語學的原則在信息技術社會條件下,需要引入一種新的理論范式——“本體術語學”:它的概念體系是以認識論為指導的形式化的知識本體。與普通術語學一樣,“本體術語學”也是以“名稱學”方法為基礎的:“專家知識中的‘概念’成為術語學分析的起點?!保?]“本體術語學”依賴兩種相關但又分離的系統(tǒng):(1)語言系統(tǒng):直接與專業(yè)話語和科技語篇相連;(2)概念系統(tǒng):關心的是領域建模。它首先要對“領域本體”和概念在形式語言層面上進行定義,然后才確定最適合的術語(自然語言形式,優(yōu)先考慮最新標準化的術語)對概念進行定名。
羅什提到,雖然近十幾年在術語工作中存在著其他以知識本體為導向的方法,例如“術語本體編纂學”(termontography)等,但是這些方法是以“語義學”方法為基礎的:“文本中的術語(語言學上的表達)成為術語學分析的起點?!保?]“本體術語學”側(cè)重于概念體系的建構,而“術語本體編纂學”側(cè)重的是專業(yè)化的詞匯。從語料庫中抽取出來的詞匯化的結構,肯定與由信息專家運用形式語言直接定義的概念結構不一樣,即所謂“說話不是建?!保╯aying is not modeling)[12]。
“本體術語學”中的“概念”和“術語”是以各自獨立的方式存在著的?!靶g語”遵循語言學的法則,而“概念”遵循形式化的邏輯規(guī)范。因此術語的定義(用自然語言書寫)也是與概念的定義(用形式語言表達)相分離的。這就使得我們可以對“術語總體”在概念維度和語言維度這兩個維度上進行管理。這也導致在“本體術語學”中出現(xiàn)了兩種定義:(1)在形式上定義“概念”;(2)從語言學角度對“術語”及其用法進行解釋[3]。
羅什為“本體術語學”構建了一個“雙重符號學三角形”[3]模型(見圖1),它是以古典語言學的語義學三角形模型(見圖2)[1923年由奧格登(Ogden)和理查茲(Richards)創(chuàng)建,維斯特普通術語學的四部分詞語模型也基于此]為基礎的?!半p重符號學三角形”旨在表述清楚本體術語學中“術語”的語言學含義和“知識本體”層面的“概念”含義并不是完全對等的。這個模型強調(diào)了兩種不同的符號系統(tǒng):語言學符號系統(tǒng)和概念符號系統(tǒng),它標識出在術語構建過程中所牽涉的不同要素及其關系。
圖1 雙重符號學三角形
圖2 古典語言學的語義學三角形
與傳統(tǒng)術語學一樣,“本體術語學”也能實現(xiàn)語言的標準化。而且,它更加體現(xiàn)了維斯特關于“‘概念’具有獨立于語言多樣性的普遍性”的思想:“本體術語學”保留了不同實踐群體間語言的多樣性,而不妨礙它們共享共同的學科領域和標準化的概念體系。實際上,不同語言或者文化背景下的不同術語可以表達同一個概念,借助于這個概念的標識符,我們可以清楚地知道這個概念在“知識本體”中的確切位置。術語的標準化可以借助概念的標識符實現(xiàn),即使這個標準化術語并沒有在現(xiàn)實中使用。羅什舉了“電壓閾值繼電器”這個例子:此概念在英語中俗稱voltage replay,標準化寫法應該是voltage threshold replay(但并未使用)[13];而在法語中通常書寫成relais de tension,標準化術語則是relais à seuil de tension,這兩種語言雖然表達形式不同,但所指概念并未改變,都指的是 “電壓閾值繼電器”。
歐洲的術語學實踐,證實了“本體術語學”理論的有效性,它在多語的信息檢索系統(tǒng)和使知識資本化(注:即將知識變?yōu)橘Y本,知識的資本化是知識經(jīng)濟、網(wǎng)絡經(jīng)濟時代的特有現(xiàn)象)的專業(yè)性百科全書中得到應用。例如:歐洲加熱和冷卻應用技術的可持續(xù)性項目(ASTECH),此項目旨在為歐洲再生能源技術領域的供應商和用戶之間提供共享信息的平臺,它的多語言搜索引擎利用的就是“本體術語學”的原則,這個項目的文獻和信息可用9種語言進行發(fā)布和搜索[14]。
ASTECH項目的第一步,就是先建立一個共同且獨立于各種語言的“知識本體”,其中,“概念”由特殊微分法給出定義;第二步,參加項目的合作伙伴給出本民族語言的術語定義,也就是將不同的術語(包括術語變量)與共享的同一個“概念”相連;如果再有新的民族語言需要加入這個項目,只需針對共享的“概念”提出自己特有術語的語言學定義即可。每一種文檔,都依據(jù)“概念”進行分類,每種“概念”就像一個文件夾,把相關的文檔收在一起,而不用去管它的書寫語言是什么。人們依照自己的母語進行信息查詢即可。利用“術語”之間的語言關系和“概念”之間的形式關系,這個項目可以不斷得到改進。
20世紀90年代以來,信息技術給全球化的術語實踐工作帶來極大的便利,也給術語學理論建設帶來極大的挑戰(zhàn)?!爸R工程”等新生事物的出現(xiàn),使得舊有的普通術語學理論不能解釋現(xiàn)代術語學實踐所遇到的新問題,以羅什為代表的信息技術領域的學者,從自己對專業(yè)技術領域術語問題的長期觀察和思考中,為術語學理論引入了“本體術語學”這種新的范式,它將“知識本體”引入了術語學理論。這種新范式,既將“術語總體”的語言維度和其概念維度相分離,同時又在這兩種非同構的維度間建立起科學的聯(lián)系[2]:(1)“術語總體”的語言成分包括“術語”(規(guī)范化的和不規(guī)范的專業(yè)詞匯),它們依照語言關系(例如上下位關系和同義關系等)相互聯(lián)系著;用自然語言書寫的“術語”的定義,可看成是一種語言學上的解釋。(2)“術語總體”的概念成分是一種形式化的“知識本體”,它的“概念”是用概念關系相聯(lián)系的,例如“……是一(種)”(is-a(kind of))和“……的部分”(part of)等,用形式語言表達的“概念”的定義,可看成是一種邏輯的規(guī)范。
“本體術語學”強調(diào)認識論原則對學科概念體系所起的重要支配作用,強調(diào)術語學建設需要科學的方法,其中學科專家所起的關鍵性作用不容忽視?!氨倔w術語學”理論有助于我們在日益全球化的術語系統(tǒng)中,實現(xiàn)“術語”的“語言維度”和“概念維度”這兩種非同構維度的連接。
目前,“本體術語學”理論還在發(fā)展完善中,它在信息技術實踐中已得到很多應用,例如知識繪圖和瀏覽技術、敘詞表編輯技術(OTe-for-Thesaurus)等,在此,“知識本體”被看成是一張概念圖,專家可以順著is-a(kind of)和part-of關系進行定位,以便得到與“概念”相連的信息。
羅什及其同事,近年來又運用“本體術語學”的理念,對國際標準化組織依據(jù)原普通術語學理論原則制定的術語標準進行了重新審視,旨在改進其不足之處,達到保留、完善普通術語學科學性本質(zhì)的目的。
綜上所述,如果依照西班牙女學者卡布雷(Cabré)為術語學設計的“多門理論模型”[15],“本體術語學”無疑是通過“術語”的“概念體系”(知識本體)這扇門,進入到“術語學”這個復雜“多面體”的一種通路。我們期待著它在日益全球化的術語學實踐中發(fā)揮更好的作用。
注釋
此文編譯自“Ontoterminology:How unify terminology and ontology into a single paradigm”by Christophe Roche. http://www.lrec-conf.org/proceedings/lrec2012/pdf/567_ Paper.pdf
參考文獻
[1][EB/OL].(2014-12-23)[2014-1-22].http:// termcoord.eu/termania/why-is-termonology-your-passion/ interview-christophe-roche/.
[2]Roche C.Le terme et le concept:fondements d'une ontoterminologie[EB/OL].(2007-09-10)[2014-12-18]. https://arxiv.org/ftp/arxiv/papers/0801/0801.1275.pdf.
[3]Roche C,Calberg-Challot M,Damas L,Rouard,et al. Ontoterminology:A new paradigm for terminology[EB/ OL].(2011-09-17)[2014-12-15].https://hal-univdiderot.archives-ouvertes.fr/hal-00622132/.
[4]Proceedings of the 10thTerminology and Knowledge Engineering Conference(TKE 2012)[EB/OL]. (20011-11-18)[2014-11-16].http://oeg-lia3.dia. fi.upm.es/c/document_library.
[5]Pavel S,Nolet D.Handbook of Terminology[EB/OL]. (2002-09-17)[2014-12-15].http://itia.ir/farsi/ documents/ha.pdf.
[6]Sageder D.Terminology today:a science,an art or a practice?someaspectsonTerminologyandits development[EB/OL].(2011-02-15)[2015-01-22]. http://www.phil.muni.cz/plonedata/wkaa/BSE/BSE% 202010-36-1/BSE%202010-36-1%20(123-134)% 20Sageder.pdf.
[7]Campo A.The Reception of Eugen Wüster's Work and the Development of Terminology[EB/OL].(2014-11-13)[2015-02-27].https://papyrus.bib.umontreal.ca/ xmlui/bitstream/handle/1866/9198/Campo_Angela_2012 _these.pdf?sequence=2.
[8]Felber H.Terminology Manual[M].Vienna:Infoterm Publishing,1984:1-100.
[9]Gruber T.A Translation Approach to Portable Ontology Specifications[EB/OL].(1993-12-15)[2015-1-22]. http://tomgruber.org/writing/ontolingua-kaj-1993.pdf.
[10]領域本體[EB/OL].(2014-12-15)[2015-1-22]. http://baike.baidu.com/view/4695937.htm.
[11]知識本體[EB/OL].(2013-12-10)[2014-12-27]. http://baike.baidu.com/view/554471.htm.
[12]Roche C.Saying is not modeling[J].Natural Language Processing and Cognitive Science,2007(6):23-56.
[13]Roche C.Multilingual Thesaurus:The Ontoterminology Approach[EB/OL].(2014-11-12)[2015-01-21]. http://www.cidoc2014.de/images/sampledata/cidoc/ papers/F-2_Roche_Damas_Roche_paper.pdf.
[14]Ushold M,Gruninger M.Ontologies:Principles,Methods and Applications[J].Knowledge Engineering Review,1996(11):20-89.
[15]Cabré M T.Theories in Terminology[J].Terminology,2003(9):10-198.
中圖分類號:N04;H083
文獻標識碼:A
DOI:10.3969/j.issn.1673-8578.2016.03.004
收稿日期:2015-12-28
作者簡介:邱碧華(1968—),女,全國科學技術名詞審定委員會副編審。2003年底到2005年初,在奧地利維也納大學學習,主要研究術語學等。通信方式:qiubh@cnctst.cn。的挑戰(zhàn)。在過去十幾年里,很多學者對“知識本體”(ontology)寄予厚望,認為它作為“學科概念體系可共享和形式化的規(guī)范”[4]可以作為術語計算機化的代表物。但是,概念系統(tǒng)在本質(zhì)上是“超語言的”(extra-linguistic)[1,5],一個“知識本體”并不是一個“術語總體”(terminology),因為“術語總體”中的術語是詞匯化的概念,是一種自然語言形式;反過來,“術語總體”也不是“知識本體”,因為“知識本體”所說的“概念”,雖然也指術語的“含義”,但卻是以形式語言形式表達的。在信息技術時代,術語(尤其是科技術語)的存在要依賴于兩種不同的符號系統(tǒng):(1)語言學的符號系統(tǒng):在專業(yè)語言中體現(xiàn)為科技文獻的書寫形式;(2)概念符號系統(tǒng):描述科技領域的專業(yè)知識,體現(xiàn)為形式化的語言。這兩種系統(tǒng)既彼此分離又相互聯(lián)系。
Ontoterminology:A Way of Unifying Terminology and Ontology into a Single Paradigm//
translated and edited by QIU Bihua
Abstract:Terminology is assigned to play a more and more important role in the information society,and IT applications raise new challenges for Terminology.Information technology calls for the appearance of the computational representation of terminology,however,the old terminology theories(GTT)cannot bring a satisfactory explanation for modern terminological practice,esp.in the scientific fields.Among these conflicts between Terminology and information technology as well as Knowledge Engineering,a new paradigm of Terminology,i.e.ontoterminology,seems to be the most suitable solution.This paper aims to introduce and analyze the ontoterminology theory and related academic achievements.
Keywords:General Theory of Terminology,ontology,terms,concepts,double semiotic triangle,ontoterminology