那日松+劉青
摘 要:主要討論了由三個(gè)詞組成的術(shù)語(yǔ)的抽取問(wèn)題。首先從實(shí)驗(yàn)語(yǔ)料中抽取了三個(gè)詞組成的詞串,利用語(yǔ)法規(guī)則剔除了不符合要求的三詞串,最后對(duì)剩下的三詞串進(jìn)行了人工判別,判斷其是否為術(shù)語(yǔ)。研究發(fā)現(xiàn):1)由三個(gè)詞組成的術(shù)語(yǔ)數(shù)量相對(duì)較少;2)所獲得術(shù)語(yǔ)中被賦予新含義的術(shù)語(yǔ)占多數(shù);3)同一領(lǐng)域術(shù)語(yǔ)間的流通性不同;4)三個(gè)以上的詞組成的術(shù)語(yǔ)仍然存在,只是數(shù)量直線下降。
關(guān)鍵詞:三詞型術(shù)語(yǔ),術(shù)語(yǔ)抽取,法律術(shù)語(yǔ)
中圖分類(lèi)號(hào):H083;H087;D90 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1673-8578.2017.03.002
Research on Triword Term Extraction//Narisong,LIU Qing
Abstract: This paper mainly discussed the topic of triword term extraction. We extracted all the linguistic strings formed by three words from the corpus, and filtered those illegal phrases based on the rule of grammar, and judge whether the rest of triword linguistic strings could be identified as terms. Our conclusions are: 1) there are a relatively small number of triword terms in the corpus; 2) many triword terms have been given new meanings; 3) terms in the same field have different negotiability; 4) there are terms formed by more than three words in the corpus, but the number of this kind term is falling sharply.
Keywords: triword term,term extraction,legal term
引 言
術(shù)語(yǔ)是專(zhuān)業(yè)領(lǐng)域中概念的語(yǔ)言指稱(chēng)[1]。從不同的角度出發(fā)可以對(duì)術(shù)語(yǔ)進(jìn)行多種分類(lèi)。從術(shù)語(yǔ)語(yǔ)言結(jié)構(gòu)的角度,可以把中文術(shù)語(yǔ)系統(tǒng)中的術(shù)語(yǔ)分為單詞型術(shù)語(yǔ)和多詞型術(shù)語(yǔ)[2]。單詞型術(shù)語(yǔ)是指由單詞構(gòu)成的術(shù)語(yǔ),多詞型術(shù)語(yǔ)是指采用原有的單詞構(gòu)成詞組來(lái)表示新概念的術(shù)語(yǔ)。也就是說(shuō)術(shù)語(yǔ)的長(zhǎng)度不一,正如馮志偉在《現(xiàn)代術(shù)語(yǔ)學(xué)引論》中提出的,以組成術(shù)語(yǔ)的單詞數(shù)作為長(zhǎng)度單位,術(shù)語(yǔ)的最小長(zhǎng)度為1,大量術(shù)語(yǔ)分布在2~6詞之間[2]。
從目前的術(shù)語(yǔ)抽取研究來(lái)看,主要是基于語(yǔ)料庫(kù)利用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法[3-6]來(lái)抽取術(shù)語(yǔ),不過(guò)很多研究主要是側(cè)重于抽取單詞型的術(shù)語(yǔ)。多詞型術(shù)語(yǔ)數(shù)量較少、抽取難度大,使得其受到的關(guān)注度較低,而一些研究不再將術(shù)語(yǔ)分為單詞型術(shù)語(yǔ)和多詞型術(shù)語(yǔ)。
本文主要是討論法律術(shù)語(yǔ)[7-8]的抽取問(wèn)題,在之前的研究中筆者主要探討了單詞型和雙詞型法律術(shù)語(yǔ)的抽取[9],這里重點(diǎn)討論三詞型法律術(shù)語(yǔ)抽取的問(wèn)題。首先對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注,然后利用三元語(yǔ)法,將所有三詞串提取出來(lái),之后利用排除法,剔除不符合語(yǔ)法規(guī)則的三詞串,最后人工識(shí)別出了所有可能的三詞型法律術(shù)語(yǔ)。
一 語(yǔ)料與研究方法
研究材料選用了香港雙語(yǔ)法例資料系統(tǒng)(BLIS, Bilingual Laws Information System)[10]中的1萬(wàn)個(gè)句子,包含37萬(wàn)多個(gè)詞的語(yǔ)料。語(yǔ)料利用ICTCLAS分詞系統(tǒng)進(jìn)行了分詞和詞性標(biāo)注,標(biāo)注時(shí)遵循了北大詞性標(biāo)準(zhǔn)。
研究采用了統(tǒng)計(jì)和語(yǔ)法規(guī)則相結(jié)合的方法。三個(gè)詞組成的詞串的抽取主要使用了n元語(yǔ)法,即將語(yǔ)料中同時(shí)出現(xiàn)在一個(gè)上下文中的三個(gè)詞組成的詞串都挑選出來(lái),并對(duì)其出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì)。之后對(duì)所有三詞串進(jìn)行是否合法的判別,判斷三詞串是否符合語(yǔ)法規(guī)則,是否為符合人類(lèi)語(yǔ)言規(guī)律的詞串。
n元語(yǔ)法(ngram)[11]是指文本中連續(xù)出現(xiàn)的n個(gè)語(yǔ)詞。n元語(yǔ)法模型是基于(n-1)階馬爾可夫鏈的一種概率語(yǔ)言模型,通過(guò)n個(gè)語(yǔ)詞出現(xiàn)的概率來(lái)推斷語(yǔ)句的結(jié)構(gòu)。本文使用三元語(yǔ)法,提取了語(yǔ)料中所有三詞串,并計(jì)算了它們的出現(xiàn)次數(shù)。
按照國(guó)家標(biāo)準(zhǔn)GB/T 10112—1999 術(shù)語(yǔ)工作·原則和方法,術(shù)語(yǔ)選擇和術(shù)語(yǔ)構(gòu)成的要求是:1)單名單義性;2)顧名思義性;3)簡(jiǎn)明性;4)派生性;5)穩(wěn)定性;6)合乎本族語(yǔ)言習(xí)慣。我們嚴(yán)格按照該原則和方法來(lái)人工識(shí)別了語(yǔ)料中所有的法律術(shù)語(yǔ)。
二 數(shù)據(jù)與討論
除去標(biāo)點(diǎn)符號(hào),我們共獲得了94 823個(gè)三詞串,去掉包含助詞(/u)、介詞(/p)、副詞(/d)、方位詞(/f)、非語(yǔ)素詞(/x)、連詞(/c)、量詞(/q)的詞串后,剩下16 778個(gè)三詞串。人工識(shí)別出406個(gè)候選三詞型術(shù)語(yǔ),在百度百科和法律詞典中查詢和確認(rèn)后,共獲得了76個(gè)待定的法律術(shù)語(yǔ)和36個(gè)法律術(shù)語(yǔ)。
1.待定的法律術(shù)語(yǔ)
76個(gè)待定的法律術(shù)語(yǔ)大部分以“法律、條例、程序、合約、令、規(guī)則、狀、罪、訴訟、權(quán)、法則、法令、事宜”等詞結(jié)尾,這類(lèi)詞雖然由多個(gè)修飾成分組合而成,而且大部分能讓大家理解所表述的內(nèi)容,但是也存在著法律層面對(duì)于這種條例新的詮釋和解讀,所以類(lèi)似這樣的詞該如何判別其是否為術(shù)語(yǔ)呢?如果從術(shù)語(yǔ)的定義出發(fā),這樣的組合詞已經(jīng)在法律領(lǐng)域賦予了新的定義,而不是人們普遍理解的字面含義,應(yīng)該有法律層面的解釋。這類(lèi)詞主要特點(diǎn)是使用頻率相對(duì)較高,頻繁出現(xiàn)在法律領(lǐng)域文獻(xiàn)中,只是組成部分組詞能力較強(qiáng)。我們將這類(lèi)法律術(shù)語(yǔ)稱(chēng)為法律常用詞。
2.法律術(shù)語(yǔ)
嚴(yán)格來(lái)說(shuō),我們從16 778個(gè)詞串中只抽取到了36個(gè)法律術(shù)語(yǔ),占全部三詞串的0.2%,非常低,假設(shè)我們把前述76個(gè)詞也認(rèn)作術(shù)語(yǔ),其比例也只占到0.67%,這也是人們很少討論或者忽略討論多詞型法律術(shù)語(yǔ)的原因所在。表1是我們從實(shí)驗(yàn)語(yǔ)料中提取出來(lái)的36個(gè)法律術(shù)語(yǔ)。表中分別列出了每個(gè)詞的詞性和出現(xiàn)頻數(shù)。由于分詞工具無(wú)法做到百分百正確,所以有些分詞和詞性標(biāo)注結(jié)果有誤。這些法律術(shù)語(yǔ)大部分是賦予了法律含義后的詞,所承載的含義不是組成它們的三個(gè)詞的含義的相加,所以這類(lèi)法律術(shù)語(yǔ)是真正的法律專(zhuān)用詞。
3.問(wèn)題討論
(1)頻率不是判斷法律術(shù)語(yǔ)的關(guān)鍵指標(biāo)。從表1可見(jiàn),這些法律術(shù)語(yǔ)的出現(xiàn)頻數(shù)并不高,基本都在10次以下。主要原因可能在于我們選擇的語(yǔ)料規(guī)模不夠大,而且這些法律術(shù)語(yǔ)使用范圍受限,只適合在法律領(lǐng)域或者其中某些部分使用,即有些法律術(shù)語(yǔ)只是在某些章節(jié)中集中出現(xiàn),而在其他章節(jié)較少提及或者基本不會(huì)提及。但有些組合能力較強(qiáng)的術(shù)語(yǔ),在整個(gè)法律語(yǔ)料中使用的頻率都比較高。所以有必要將術(shù)語(yǔ)分為兩個(gè)等級(jí):領(lǐng)域常用詞和領(lǐng)域?qū)S迷~。領(lǐng)域常用詞主要特點(diǎn)是在某一個(gè)領(lǐng)域內(nèi)使用頻繁,組詞能力強(qiáng),而領(lǐng)域?qū)S迷~使用頻率并不高,但是所承載的領(lǐng)域信息較強(qiáng)。這也充分說(shuō)明了在流通性方面,術(shù)語(yǔ)間有較大的差別。
(2)多詞型術(shù)語(yǔ)雖然少,仍有少量以片段的形式出現(xiàn)在三詞串中,例如:“監(jiān)/g 理/v 誓/g (2)”(監(jiān)理誓章);“知/v 會(huì)/v 備/v (45)”(知會(huì)備忘);“皇/g 制/v 誥/v (4)”(英皇制誥);“餉/v 租/v 值/v (41)”“課/n 差/v 餉/v (41)”(應(yīng)課差餉租值)。
(3)分詞和詞性標(biāo)注錯(cuò)誤也部分影響術(shù)語(yǔ)的判別。特別是對(duì)于兼類(lèi)詞的分詞和詞性標(biāo)注錯(cuò)誤常有發(fā)生。例如:“雙/b 語(yǔ)法/n 例/v”。
(4)多詞型術(shù)語(yǔ)的自動(dòng)識(shí)別難度較大,因?yàn)檫@些術(shù)語(yǔ)出現(xiàn)頻次較低,組詞能力較弱,都是些新生詞,且賦予了新的含義,分詞工具無(wú)法正確地應(yīng)對(duì)和切分這些詞,反而有所妨礙。
三 結(jié) 語(yǔ)
以上針對(duì)性地討論了三個(gè)詞組成的三詞型法律術(shù)語(yǔ)的抽取問(wèn)題,由于大部分詞和術(shù)語(yǔ)的長(zhǎng)度集中在一詞或二詞范圍內(nèi),所以三詞組成的術(shù)語(yǔ)相對(duì)較少。我們將所有可能的三詞串都抽取出來(lái),對(duì)其進(jìn)行了進(jìn)一步的研究分析,最后只獲得了極少的術(shù)語(yǔ)。這也說(shuō)明了自動(dòng)抽取多詞型術(shù)語(yǔ)的難度相當(dāng)大,而且完全靠自動(dòng)的方法獲得所有多詞型術(shù)語(yǔ)需要付出比較大的代價(jià),需要大量的人力和時(shí)間才能實(shí)現(xiàn)。不過(guò)也不能因?yàn)槎嘣~型術(shù)語(yǔ)數(shù)量少,抽取難度大而忽略了對(duì)它們的研究,也應(yīng)積極搜集并補(bǔ)充相應(yīng)的術(shù)語(yǔ)詞典。
研究中我們總結(jié)出:1)建議將術(shù)語(yǔ)進(jìn)行分類(lèi),例如分為領(lǐng)域常用詞和領(lǐng)域?qū)S迷~,這樣更利于術(shù)語(yǔ)特點(diǎn)的掌握及自動(dòng)提取。2)分詞和詞性標(biāo)注出現(xiàn)錯(cuò)誤,會(huì)影響語(yǔ)法規(guī)則(詞性,短語(yǔ)結(jié)構(gòu))在剔除非法律術(shù)語(yǔ)時(shí)所起的作用。3)從詞的層面或者詞間關(guān)系的層面,較難給出判別術(shù)語(yǔ)的特別有效的規(guī)則來(lái),所以可以考慮從句子結(jié)構(gòu)的層面出發(fā),通過(guò)句法分析來(lái)發(fā)現(xiàn)和抽取術(shù)語(yǔ)。
參考文獻(xiàn)
[1] 國(guó)家技術(shù)監(jiān)督局. GB/T 10112—1999 術(shù)語(yǔ)工作·原則和方法[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2000:1-8.
[2] 馮志偉.現(xiàn)代術(shù)語(yǔ)學(xué)引論[M].北京:語(yǔ)文出版社,1997.
[3] 周浪. 中文術(shù)語(yǔ)抽取若干問(wèn)題研究[D]. 南京:南京理工大學(xué), 2009.
[4] 張榕.術(shù)語(yǔ)定義抽取、聚類(lèi)與術(shù)語(yǔ)識(shí)別研究[D].北京:北京語(yǔ)言文化大學(xué),2003.
[5] 張勇.中文術(shù)語(yǔ)自動(dòng)抽取相關(guān)方法研究[D].武漢:華中師范大學(xué),2006.
[6] 凌祺,樊孝忠.領(lǐng)域詞匯自動(dòng)獲取的研究[J].微機(jī)發(fā)展,2005(8):148-150.
[7] 劉紅嬰.法律語(yǔ)言學(xué)[M].北京:北京大學(xué)出版社,2007.
[8] 封鵬程.現(xiàn)代漢語(yǔ)法律語(yǔ)料庫(kù)的建立及其詞匯計(jì)量研究[D].南京:南京師范大學(xué),2005.
[9] 那日松.法律術(shù)語(yǔ)抽取研究[D].北京:中國(guó)傳媒大學(xué),2008.
[10] 揭春雨,劉曉月,冼景炬,等.從網(wǎng)絡(luò)獲取香港法律雙語(yǔ)語(yǔ)料[C]//南京師范大學(xué).全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集.北京:清華大學(xué)出版社,2005:193-199.
[11] Manning C D, Schütze H. Foundations of Statistical Natural Language Processing[M].Cambridge: MIT Press, 1999:192-195.