丁 杰,呂學(xué)強(qiáng),劉克會(huì)
(1.北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播重點(diǎn)實(shí)驗(yàn)室,北京100101;2.北京城市系統(tǒng)工程研究中心,北京100035)
專利文獻(xiàn)是當(dāng)今世界科學(xué)技術(shù)最大的信息源,快速有效地利用此信息源,能夠促進(jìn)人類新知識(shí)的傳播和科技成果的普及。術(shù)語(yǔ)是自然語(yǔ)言處理中的一種特殊的詞匯數(shù)據(jù),與語(yǔ)言中一般的普通詞匯不同,術(shù)語(yǔ)大多數(shù)都是由多個(gè)單詞組成的詞組型術(shù)語(yǔ),它們對(duì)于科學(xué)技術(shù)的發(fā)展特別敏感,隨著科學(xué)技術(shù)的發(fā)展而發(fā)展[1]。在中文專利信息處理過(guò)程中,專利術(shù)語(yǔ)識(shí)別是一個(gè)基礎(chǔ)環(huán)節(jié),專利的檢索、專利翻譯等后續(xù)工作都離不開中文專利術(shù)語(yǔ)的識(shí)別。因此,專利術(shù)語(yǔ)識(shí)別質(zhì)量的高低直接影響到專利文獻(xiàn)的應(yīng)用和科學(xué)技術(shù)的普及。
現(xiàn)有的專利術(shù)語(yǔ)抽取方法主要有語(yǔ)言學(xué)方法、統(tǒng)計(jì)學(xué)方法及統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)相融合的方法[2]。目前,大部分的研究已經(jīng)從傳統(tǒng)的語(yǔ)言學(xué)方法逐步轉(zhuǎn)變?yōu)榻y(tǒng)計(jì)與語(yǔ)言學(xué)相結(jié)合的方法。利用統(tǒng)計(jì)的方法獲取候選術(shù)語(yǔ),再結(jié)合規(guī)則的方法對(duì)候選術(shù)語(yǔ)進(jìn)行規(guī)則過(guò)濾。其中,文獻(xiàn)[3,4]通過(guò)改進(jìn)的TFIDF模型并經(jīng)權(quán)重計(jì)算和閾值篩選后得到專利術(shù)語(yǔ)集,但是其方法領(lǐng)域針對(duì)性較強(qiáng),無(wú)法證明在大規(guī)模語(yǔ)料中的通用性。文獻(xiàn)[5~7]等使用條件隨機(jī)場(chǎng)模型CRF(Conditional Random Fields)機(jī)器學(xué)習(xí)方法結(jié)合過(guò)濾規(guī)則對(duì)術(shù)語(yǔ)進(jìn)行抽取,該方法能顯著提高未登錄術(shù)語(yǔ)的召回率,但是語(yǔ)料的標(biāo)注卻需要消耗大量的人力和時(shí)間。文獻(xiàn)[8,9]通過(guò)統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,構(gòu)建相應(yīng)的規(guī)則庫(kù)并選擇有效的統(tǒng)計(jì)量或機(jī)器學(xué)習(xí)模型對(duì)中文專利文獻(xiàn)進(jìn)行術(shù)語(yǔ)抽取,但并未考慮上下文的信息。
本文在總結(jié)前人研究的基礎(chǔ)之上,針對(duì)前人研究方法在大規(guī)模語(yǔ)料中的通用性差、語(yǔ)料標(biāo)注費(fèi)時(shí)費(fèi)力的缺點(diǎn),提出了邊界標(biāo)記集的概念,并應(yīng)用邊界標(biāo)記集的獲取無(wú)需人工標(biāo)注、領(lǐng)域獨(dú)立性的特點(diǎn),提出基于邊界標(biāo)記集的術(shù)語(yǔ)抽取方法。該方法首先根據(jù)文中邊界標(biāo)記集的定義提出邊界標(biāo)記集的構(gòu)造方法;然后使用種子術(shù)語(yǔ)權(quán)重計(jì)算方法抽取候選術(shù)語(yǔ)并結(jié)合術(shù)語(yǔ)部件庫(kù)抽取術(shù)語(yǔ);最后通過(guò)統(tǒng)計(jì)和規(guī)則的方法對(duì)抽取出的術(shù)語(yǔ)進(jìn)行過(guò)濾。該方法充分考慮了專利術(shù)語(yǔ)的上下文信息特點(diǎn),對(duì)抽取長(zhǎng)術(shù)語(yǔ)和短術(shù)語(yǔ)都有較好的效果,可明顯提高術(shù)語(yǔ)抽取的準(zhǔn)確率和召回率。
句子是由實(shí)詞和虛詞連接構(gòu)成的,對(duì)于句子中的每一個(gè)詞,與它直接相鄰的兩個(gè)詞稱之為它的前驅(qū)與后繼,本文根據(jù)專利文獻(xiàn)中術(shù)語(yǔ)和前后兩個(gè)詞的位置關(guān)系,定義術(shù)語(yǔ)邊界標(biāo)記集如下:
定義1術(shù)語(yǔ)邊界標(biāo)記集:在專利文獻(xiàn)中,由專利術(shù)語(yǔ)的前驅(qū)和后繼及對(duì)應(yīng)的詞性所構(gòu)成的集合稱為術(shù)語(yǔ)的邊界標(biāo)記集。
作為專利術(shù)語(yǔ)的邊界標(biāo)記是通用性較強(qiáng)、具有一般詞匯意義的詞,并且這些詞具有一定的領(lǐng)域獨(dú)立性。在專利文獻(xiàn)中,同一個(gè)術(shù)語(yǔ)的上下邊界標(biāo)記可能存在多個(gè)。例如:術(shù)語(yǔ)“光刻投影裝置”的上邊界標(biāo)記詞有“一種”、“用”、“的”等,下邊界標(biāo)記詞為“來(lái)”、“中”、“工作”等;不同專利術(shù)語(yǔ)可能存在相同的邊界標(biāo)記詞,例如“掩模臺(tái)”和“晶片步進(jìn)器”具有相同的上邊界標(biāo)記詞“在”。雖如此,但可以看出這些詞在詞性構(gòu)成上具有一定的相似性,如大部分是動(dòng)詞、助詞、標(biāo)點(diǎn)等。為能夠更直觀地展示出專利文獻(xiàn)中邊界標(biāo)記集元素的構(gòu)成,本文隨機(jī)抽取10篇不同領(lǐng)域?qū)@墨I(xiàn)并統(tǒng)計(jì)術(shù)語(yǔ)邊界標(biāo)記集,文獻(xiàn)中術(shù)語(yǔ)的邊界標(biāo)記詞性構(gòu)成的統(tǒng)計(jì)結(jié)果如表1所示。
Table 1 Part of speech distribution of boundary tags in the term boundary tag set表1 術(shù)語(yǔ)邊界標(biāo)記集中邊界標(biāo)記詞性分布表
由表1可以看出:專利術(shù)語(yǔ)邊界標(biāo)記符的集合由一些沒(méi)有構(gòu)詞能力的實(shí)詞,如動(dòng)詞,一些標(biāo)點(diǎn)符號(hào)以及一些虛詞,如介詞、連詞、量詞等構(gòu)成。根據(jù)上述邊界集詞性特點(diǎn)并對(duì)邊界詞與術(shù)語(yǔ)在專利文獻(xiàn)中的共現(xiàn)信息統(tǒng)計(jì)分析,總結(jié)邊界標(biāo)記集的特點(diǎn)如下:
(1)完備性。邊界標(biāo)記集的完備性是指邊界標(biāo)記集合中的邊界標(biāo)記可將專利文獻(xiàn)完全切分為字符串長(zhǎng)度符合術(shù)語(yǔ)長(zhǎng)度的候選術(shù)語(yǔ)串的程度。一般來(lái)講,邊界標(biāo)記集的完備性越高,抽取專利術(shù)語(yǔ)的召回率越高。
(2)多樣性。邊界標(biāo)記集合的多樣性是指由于專利術(shù)語(yǔ)的上下文不同導(dǎo)致專利術(shù)語(yǔ)的邊界標(biāo)記也不相同,同時(shí),不同術(shù)語(yǔ)的上下文標(biāo)記也不完全相同。
(3)重復(fù)性。邊界標(biāo)記集的重復(fù)性是指邊界標(biāo)記集中存在一些邊界標(biāo)記可以作為多個(gè)術(shù)語(yǔ)的邊界。例如,同一個(gè)介詞或其它一些常見的虛詞可能成為不同專利術(shù)語(yǔ)的上界標(biāo)記或下界標(biāo)記。例如“由/p扎/v模/n工藝制備/n”“由/n 傳感器裝置/n”中上邊界“由/p”可作為多個(gè)專利術(shù)語(yǔ)的邊界。
根據(jù)專利文獻(xiàn)中對(duì)發(fā)明專利陳述的特點(diǎn),不同領(lǐng)域的專利文獻(xiàn)都可采用相同的邊界標(biāo)記集的構(gòu)建方法。首先,不同領(lǐng)域的專利文獻(xiàn)有很多相同的邊界標(biāo)記集,例如:“該發(fā)明”“利用”“使用”“提高”“以便于”都在不同領(lǐng)域的專利文獻(xiàn)中出現(xiàn);另外,一些標(biāo)點(diǎn)等非文字特征的邊界標(biāo)記也是不同領(lǐng)域的專利文獻(xiàn)所共有的邊界標(biāo)記。因此,邊界標(biāo)記集具有一定的通用性,并根據(jù)不同領(lǐng)域?qū)@墨I(xiàn)的擴(kuò)展而擴(kuò)展。
雖然中文專利文獻(xiàn)中的邊界標(biāo)記集提供了邊界詞之間詞串構(gòu)成術(shù)語(yǔ)的可能性,但不能完全保證前后邊界標(biāo)記詞之間的詞串就是術(shù)語(yǔ)。因此,需要根據(jù)邊界標(biāo)記集的特點(diǎn),并結(jié)合一定的術(shù)語(yǔ)抽取規(guī)則和統(tǒng)計(jì)量來(lái)抽取術(shù)語(yǔ)。
根據(jù)術(shù)語(yǔ)邊界標(biāo)記集的特點(diǎn),本文提出基于部件的本體術(shù)語(yǔ)抽取方法,如圖1所示,主要包括種子術(shù)語(yǔ)抽取、種子術(shù)語(yǔ)擴(kuò)展和候選術(shù)語(yǔ)校驗(yàn)三個(gè)部分。其中在種子術(shù)語(yǔ)抽取部分包括邊界標(biāo)記構(gòu)建和術(shù)語(yǔ)部件庫(kù)構(gòu)建;種子術(shù)語(yǔ)擴(kuò)展部分充分利用詞性規(guī)則和統(tǒng)計(jì)量對(duì)抽取出的種子術(shù)語(yǔ)進(jìn)行擴(kuò)展,最終根據(jù)術(shù)語(yǔ)左右熵的方法對(duì)搭配錯(cuò)誤的候選術(shù)語(yǔ)進(jìn)行過(guò)濾。
從邊界標(biāo)記集的定義可以看出,每個(gè)術(shù)語(yǔ)都具有術(shù)語(yǔ)邊界標(biāo)記集,且專利術(shù)語(yǔ)的邊界標(biāo)記集就是專利術(shù)語(yǔ)的上下文信息。根據(jù)專利文獻(xiàn)術(shù)語(yǔ)上下文信息并結(jié)合邊界標(biāo)記集的特點(diǎn),通過(guò)以下方法構(gòu)建術(shù)語(yǔ)邊界標(biāo)記集Set:
Figure 1 Chinese patent term extraction method圖1 中文專利術(shù)語(yǔ)抽取方法
(1)初始化術(shù)語(yǔ)邊界標(biāo)記集Set為空。
(2)利用統(tǒng)計(jì)量IDF構(gòu)造專利文獻(xiàn)通用詞表,將專利文獻(xiàn)中IDF值較高的無(wú)構(gòu)詞能力的詞作為專利文獻(xiàn)通用詞,并添加到標(biāo)記集Set中。
(3)將專利文獻(xiàn)中標(biāo)點(diǎn)、數(shù)詞、介詞、連詞、助詞等添加到標(biāo)記集Set中。
雖然介詞、連詞和副詞后面的動(dòng)詞是專利術(shù)語(yǔ)邊界標(biāo)記集的組成部分,但均不能作為專利術(shù)語(yǔ)的組成部分,將該類的動(dòng)詞也加入邊界標(biāo)記集Set中,例如,專利文獻(xiàn)中“還/d 包括/v”“所/u 述/v”“還/d 可以/v”中“還/d”、“所/u”都不是術(shù)語(yǔ)的組成部分。
術(shù)語(yǔ)是由一個(gè)或多個(gè)詞構(gòu)成的,其中有些詞生成術(shù)語(yǔ)的能力很強(qiáng),有些詞生成術(shù)語(yǔ)的能力不強(qiáng),這些構(gòu)成術(shù)語(yǔ)的一個(gè)個(gè)詞就叫做術(shù)語(yǔ)部件[10]。術(shù)語(yǔ)一般分為單詞型術(shù)語(yǔ)和多詞型術(shù)語(yǔ)兩類,單詞型術(shù)語(yǔ)由單個(gè)詞語(yǔ)組成,如“傳感器”“過(guò)濾器”等。單詞型術(shù)語(yǔ)本身就是部件,它可以生成新的短語(yǔ)型術(shù)語(yǔ),如“溫度傳感器”“廢氣過(guò)濾器”,而構(gòu)成多詞型術(shù)語(yǔ)的每個(gè)詞都可以看作術(shù)語(yǔ)部件。
單詞型術(shù)語(yǔ)識(shí)別通常采用語(yǔ)料庫(kù)比較的方法,即選擇一個(gè)通用的平衡語(yǔ)料庫(kù)與領(lǐng)域語(yǔ)料庫(kù)相比較,比對(duì)兩個(gè)語(yǔ)料庫(kù)生成的詞表并按照與頻度相關(guān)的某個(gè)統(tǒng)計(jì)量進(jìn)行排序,刪除領(lǐng)域詞表中在通用詞表中統(tǒng)計(jì)量高的,剩下的詞被認(rèn)為是術(shù)語(yǔ)[11]。
單詞型術(shù)語(yǔ)的識(shí)別和部件庫(kù)的構(gòu)建在方法上是一致的,但部件庫(kù)中的每個(gè)詞未必都是術(shù)語(yǔ)。文中的術(shù)語(yǔ)部件僅從術(shù)語(yǔ)的領(lǐng)域性來(lái)考慮,如果一個(gè)詞具有較強(qiáng)的領(lǐng)域性,可以把這個(gè)詞看作術(shù)語(yǔ)部件,因此可以采用與上述抽取單詞型術(shù)語(yǔ)類似的方法來(lái)抽取領(lǐng)域部件。人民日?qǐng)?bào)中的詞匯大部分是人們生活中經(jīng)常使用的詞匯,領(lǐng)域性較弱,為此本文選用1998年1 月份人民日?qǐng)?bào)熟語(yǔ)料[12]作為專利文獻(xiàn)的對(duì)比語(yǔ)料,比較兩個(gè)語(yǔ)料庫(kù)生成的詞表,將只在專利詞表出現(xiàn)的詞匯抽取出來(lái)作為專利術(shù)語(yǔ)部件,所得的部分術(shù)語(yǔ)部件如表2所示。
Table 2 Term component library表2 術(shù)語(yǔ)部件庫(kù)
從表2的結(jié)果中可以看出,有些部件已經(jīng)是術(shù)語(yǔ),如“暗電流”“光電二極管”等,或是術(shù)語(yǔ)的組成部分,如“設(shè)備、蝕刻、輸出”。通過(guò)觀察抽取出的術(shù)語(yǔ)部件庫(kù)發(fā)現(xiàn):部件庫(kù)中存在一些詞不能作為術(shù)語(yǔ)的組成詞,如“范圍”,但這并不影響術(shù)語(yǔ)的抽取效果,因?yàn)槲闹械牟考?kù)僅用于對(duì)候選串進(jìn)行過(guò)濾,并不使用部件庫(kù)來(lái)生成術(shù)語(yǔ),所以最終能夠提高候選術(shù)語(yǔ)的術(shù)語(yǔ)度,而不會(huì)在術(shù)語(yǔ)識(shí)別過(guò)程中引入噪音。
根據(jù)術(shù)語(yǔ)邊界標(biāo)記集完備性的特點(diǎn),將專利文獻(xiàn)中相鄰的兩個(gè)邊界標(biāo)記之間的字符串抽取出來(lái),并通過(guò)術(shù)語(yǔ)部件庫(kù)過(guò)濾以獲取候選術(shù)語(yǔ)。種子術(shù)語(yǔ)抽取的過(guò)濾規(guī)則如下:
規(guī)則1若抽取出的字符串為單字詞,則該單字詞必須在部件庫(kù)中出現(xiàn),否則刪除該字符串;
規(guī)則2若抽取出的字符串為多字詞,經(jīng)分詞后的每個(gè)單字詞中應(yīng)該至少有一個(gè)在部件庫(kù)中出現(xiàn),否則將該字符串刪除。
將上述規(guī)則過(guò)濾之后剩余的字符串作為術(shù)語(yǔ)候選串。專利術(shù)語(yǔ)在專利文獻(xiàn)中的存在具有相對(duì)穩(wěn)定的結(jié)構(gòu),其內(nèi)部詞語(yǔ)可以看作一個(gè)完整的結(jié)構(gòu),不可隨意拆分。目前,術(shù)語(yǔ)抽取研究中使用的大部份統(tǒng)計(jì)方法都是基于術(shù)語(yǔ)的結(jié)構(gòu)完整性特征,選擇有效的統(tǒng)計(jì)量和評(píng)估機(jī)制,來(lái)衡量術(shù)語(yǔ)中詞語(yǔ)之間的黏合度以及共現(xiàn)概率[13]。其方法可分為兩類:一類是通過(guò)統(tǒng)計(jì)量分析詞串內(nèi)部詞語(yǔ)之間的緊密關(guān)系,來(lái)確定該詞串是否是一個(gè)結(jié)構(gòu)穩(wěn)定的短語(yǔ);另一類認(rèn)為:如果一個(gè)詞串多次在不同的上下文中出現(xiàn),那么該詞串可以作為結(jié)構(gòu)上結(jié)合緊密的單元,并且很有可能是術(shù)語(yǔ)。
專利術(shù)語(yǔ)邊界標(biāo)記集具有多樣性,同一個(gè)術(shù)語(yǔ)上下文環(huán)境的不同,術(shù)語(yǔ)的上下邊界標(biāo)記也不相同,從而可證明該術(shù)語(yǔ)具有穩(wěn)定的結(jié)構(gòu),這也符合上文中第二種評(píng)估字符串粘合度的方法。因此,可通過(guò)候選術(shù)語(yǔ)被不同的切分標(biāo)記切分的數(shù)量來(lái)衡量候選術(shù)語(yǔ)的緊密結(jié)合程度。實(shí)驗(yàn)中使用了改進(jìn)的TF-IDF方法,弱化了高詞頻對(duì)權(quán)重的影響,增加了通過(guò)多樣性切分標(biāo)記切分獲取的候選串的權(quán)重。本文根據(jù)邊界標(biāo)記集的特點(diǎn)提出種子術(shù)語(yǔ)的權(quán)重計(jì)算方法,具體計(jì)算方法如下:
其中,preSeg、postSeg分別為候選術(shù)語(yǔ)S前后邊界標(biāo)記集合;f(preSeg)為術(shù)語(yǔ)邊界標(biāo)記集合大小,因?yàn)閜reSeg、postSeg都表示集合,都已將重復(fù)的候選串刪除,弱化了同一術(shù)語(yǔ)相同上下文在術(shù)語(yǔ)抽取中的作用,增強(qiáng)了切分標(biāo)記集多樣性的影響;N表示所有專利文獻(xiàn)的篇數(shù);df(S)表示候選術(shù)語(yǔ)串在所有專利文獻(xiàn)中出現(xiàn)的篇數(shù);α、β為權(quán)重因子。將Weight(S)滿足某一個(gè)閾值的候選術(shù)語(yǔ)抽取出來(lái)作為種子術(shù)語(yǔ)。
為了便于對(duì)種子術(shù)語(yǔ)進(jìn)行擴(kuò)展,通過(guò)種子術(shù)語(yǔ)對(duì)包含種子術(shù)語(yǔ)的候選串進(jìn)行擴(kuò)展,并定義如下變量。
定義2種子術(shù)語(yǔ)余串:在候選術(shù)語(yǔ)串中,去除種子術(shù)語(yǔ)后剩余的部分,稱之為種子術(shù)語(yǔ)的余串。
定義3單字詞:本文將經(jīng)ICTCLAS[14]切分且具有獨(dú)立詞性標(biāo)注的最小語(yǔ)義單元稱作單字詞。如“形成/v”,“傳感器/n”“的/u”。
定義4最長(zhǎng)術(shù)語(yǔ):本文將在專利文獻(xiàn)中出現(xiàn)的且不被更長(zhǎng)的術(shù)語(yǔ)包含的專利術(shù)語(yǔ)稱之為最長(zhǎng)術(shù)語(yǔ)。
在本文實(shí)驗(yàn)中,通過(guò)邊界標(biāo)記符集抽取的候選串都是“寬類型”的,這里的“寬類型”是指一個(gè)候選串是術(shù)語(yǔ)或者包含一個(gè)最長(zhǎng)的術(shù)語(yǔ),而不會(huì)被其它更長(zhǎng)的專利術(shù)語(yǔ)包含。例如候選串“制造/v CMOS/x 圖像/n 傳感器/n”中包含最長(zhǎng)的術(shù)語(yǔ)“CMOS/x 圖像/n 傳感器/n”,而不會(huì)被其他更長(zhǎng)的術(shù)語(yǔ)包含,這是因?yàn)樵诤蜻x串中出現(xiàn)的詞未在邊界標(biāo)記集中出現(xiàn)?;诤蜻x串的這個(gè)特點(diǎn),可以在種子術(shù)語(yǔ)基礎(chǔ)之上,對(duì)候選串進(jìn)行左右種子術(shù)語(yǔ)余串?dāng)U展。例如,種子術(shù)語(yǔ)“傳感器/n”,如果“圖像/n 傳感器/n”不在種子術(shù)語(yǔ)中,可以通過(guò)種子術(shù)語(yǔ)左擴(kuò)展一個(gè)單字詞“圖像/n”,抽取出術(shù)語(yǔ)“圖像/n傳感器/n”。
定義5上邊界拒?。涸O(shè)候選串S可以表示為S1S2,其中S2為種子術(shù)語(yǔ),S1為單字詞,如果S1S2不符合術(shù)語(yǔ)詞性搭配規(guī)則,則將S1刪除,稱之為上邊界拒取。
定義6下邊界拒取:設(shè)候選串S可以表示為S1S2,其中S1為種子術(shù)語(yǔ),S2為單字詞,如果S1S2不符合術(shù)語(yǔ)詞性搭配規(guī)則,則將S2刪除,稱之為上邊界拒取。
根據(jù)文獻(xiàn)[13]中統(tǒng)計(jì)結(jié)果并結(jié)合專利術(shù)語(yǔ)的特點(diǎn)發(fā)現(xiàn),專利術(shù)語(yǔ)大多都是以名詞(/n)、動(dòng)詞(/v)、形容詞(/a)、副詞(/d)等四類詞開頭,且大多以名詞和動(dòng)詞為主極,少數(shù)以副詞開頭。但是,當(dāng)候選串是以動(dòng)詞開頭時(shí),若動(dòng)詞前面的修飾詞是副詞時(shí),該副詞和動(dòng)詞具有“發(fā)出動(dòng)作”的語(yǔ)義,不是術(shù)語(yǔ)的組成部分,因此一些被副詞修飾的動(dòng)詞不能作為專利術(shù)語(yǔ)上邊界,此時(shí)副詞將視為拒絕后驅(qū)詞(動(dòng)詞)作為術(shù)語(yǔ)上邊界的提示詞;一些緊跟介詞后面的動(dòng)詞也具有“發(fā)出動(dòng)作”的語(yǔ)義,同樣也不能作為術(shù)語(yǔ)的上邊界。如“以/p 保護(hù)/v 感測(cè)組件/n”“通過(guò)/p調(diào)節(jié)/v減壓閥/n”中“保護(hù)”“調(diào)節(jié)”都不能作為專利術(shù)語(yǔ)的組成部分。術(shù)語(yǔ)大多以名詞(/n)、動(dòng)詞(/v)、形容詞(/a)、助詞(/u)、后綴詞(/k)、量詞(/q)等作為結(jié)尾。因此,一些具有“發(fā)出動(dòng)作”的動(dòng)詞以及緊跟其后的介詞也都不能作為術(shù)語(yǔ)的構(gòu)成詞。部分統(tǒng)計(jì)的規(guī)則如表3和表4所示。
Table 3 The pre-boundary tag rules表3 上邊界拒取規(guī)則表
Table 4 The post-boundary tag rules表4 下邊界拒取規(guī)則表
在術(shù)語(yǔ)抽取過(guò)程中,常使用一些統(tǒng)計(jì)量來(lái)計(jì)算術(shù)語(yǔ)之間的結(jié)合程度。其中,張鋒等[15]使用互信息來(lái)計(jì)算術(shù)語(yǔ)之間結(jié)合的緊密程度,林磊等[16]通過(guò)似然比來(lái)計(jì)算。但是,一些結(jié)合緊密、頻度較高的候選串并不能構(gòu)成術(shù)語(yǔ)。例如:“操縱/v 送/v料/n 推桿/n”、“推動(dòng)/v送/v料/n 推桿/n”都不是術(shù)語(yǔ),只是選術(shù)語(yǔ)“送/v 料/n 推桿/n”的兩個(gè)固定搭配。針對(duì)以上問(wèn)題,本文綜合考慮了詞頻、構(gòu)成術(shù)語(yǔ)的詞串長(zhǎng)度和詞性搭配信息,提出了余串術(shù)語(yǔ)修飾度的計(jì)算方法來(lái)衡量單字余串和種子術(shù)語(yǔ)之間的粘合程度,以決定是否對(duì)種子術(shù)語(yǔ)擴(kuò)展。余串修飾度是對(duì)余串和種子術(shù)語(yǔ)之間緊密關(guān)系的度量,計(jì)算方法如公式(2)所示:
其中,Weight(Left)表示候選串中余串的修飾度;POSTTagging表示候選術(shù)語(yǔ)S所包含的種子術(shù)語(yǔ)的所有單字余串;POSTSet表示所有單字余串集合,在POSTSet中出現(xiàn)的單字詞都是實(shí)詞,因?yàn)榇蟛糠痔撛~已經(jīng)作為候選術(shù)語(yǔ)的邊界標(biāo)記;F(POSTTagging)為特征函數(shù),如果集合中POSTTagging的詞性與候選串S的單字余串相等 則 取1,否 則 取0;β為 調(diào) 節(jié) 因 子,若∑F(POSTTaging)值為1,β取1,否則β取0。當(dāng)∑F(POSTTaging)的取值大于1時(shí),表明修飾同一種子術(shù)語(yǔ)的同一詞性的實(shí)詞有多個(gè),該詞性余串和種子術(shù)語(yǔ)不具備修飾關(guān)系。Len(Left)表示候選術(shù)語(yǔ)S單字余串的長(zhǎng)度,F(xiàn)re(S)表示候選術(shù)語(yǔ)S的頻度。例如:候選串“制造/v 圖像/n 傳感器/n”中“圖像/n 傳感器/n”是種子術(shù)語(yǔ),Contex={制造/v,觸發(fā)/v},則β取0,不對(duì)種子術(shù)語(yǔ)往前擴(kuò)展。因?yàn)槿绻揎棥皥D像/n傳感器/n”的動(dòng)詞有多個(gè),那么這些動(dòng)詞應(yīng)該都具有發(fā)出動(dòng)作的語(yǔ)義,而不應(yīng)作為種子術(shù)語(yǔ)的前綴,而對(duì)候選術(shù)語(yǔ)“透光/v樹脂/n 材料/n”中種子術(shù)語(yǔ)是“樹脂/n 材料/n”,Contex={透光/v},β取1,那么“透光/v”很有可能是術(shù)語(yǔ)的組成部分。
上述兩種方法只能處理種子術(shù)語(yǔ)前后的單字余串,在候選術(shù)語(yǔ)中存在余串為多字的候選術(shù)語(yǔ)。如候選術(shù)語(yǔ)“易/a受/v 腐蝕性/n 含氟/n 化合物/n 侵蝕/v”中包含種子術(shù)語(yǔ)“含氟/n 化合物/n”,其前余串為“易/a 受/v 腐蝕性/n”,后余串為“侵蝕/v”,后余串可以采用上述統(tǒng)計(jì)量擴(kuò)展單字余串的方法給予排除,而對(duì)于前余串主要使用詞性規(guī)則的方法處理。統(tǒng)計(jì)術(shù)語(yǔ)的詞性搭配規(guī)則,采用如下算法對(duì)多字余串進(jìn)行擴(kuò)展:
算法種子術(shù)語(yǔ)多字余串?dāng)U展算法
輸入:
包含種子術(shù)語(yǔ)和多字余串的種子候選術(shù)語(yǔ)集合Set:S為Set中的候選術(shù)語(yǔ)且候選串可以表示為preSeg+Seed+PostSeg形式,其中preSeg、PostSeg都為多字余串;
所有單字詞的詞性集合TagSet:TagSet中元素為〈Token,Tag〉,其中Token為單字詞性,Tag為單字詞性的詞性。
輸出:經(jīng)多字余串?dāng)U展后的術(shù)語(yǔ)。
算法描述:
邊界標(biāo)記集抽取出來(lái)的候選術(shù)語(yǔ)中有的不包含種子術(shù)語(yǔ),對(duì)此,我們計(jì)算出候術(shù)語(yǔ)和其他候選術(shù)語(yǔ)的最長(zhǎng)公共字串作為種子術(shù)語(yǔ),如果公共字串包含名詞,使用上述種子術(shù)語(yǔ)擴(kuò)展的方式進(jìn)行術(shù)語(yǔ)擴(kuò)展,否則丟棄該候選術(shù)語(yǔ),這就彌補(bǔ)了部分候選術(shù)語(yǔ)中因?yàn)椴淮嬖诜N子術(shù)語(yǔ)而不能對(duì)種子術(shù)語(yǔ)進(jìn)行擴(kuò)展方法的不足,提高了術(shù)語(yǔ)抽取的召回率。
實(shí)驗(yàn)中的候選術(shù)語(yǔ),依然有部分類似于v+n型的名詞性短語(yǔ)作為候選術(shù)語(yǔ),但該類的候選術(shù)語(yǔ)大多是一些固定的搭配,不能作為專利術(shù)語(yǔ)。通過(guò)統(tǒng)計(jì)發(fā)現(xiàn):在該類候選術(shù)語(yǔ)中存在一些詞很容易構(gòu)成搭配關(guān)系,即這類詞語(yǔ)與其它詞語(yǔ)搭配的靈活性非常大。針對(duì)術(shù)語(yǔ)抽取中的這種現(xiàn)象,劉里[17]提出了一種基于左右熵的短語(yǔ)過(guò)濾方法,本文借鑒上述方法,對(duì)活躍詞性候選術(shù)語(yǔ)進(jìn)行過(guò)濾。具體方法如公式(3)所示:
其中,l表示出現(xiàn)在種子術(shù)語(yǔ)w左側(cè)的詞匯的集合;r表示出現(xiàn)在種子術(shù)語(yǔ)w右側(cè)的詞匯集合;p(lw|w)表示詞l出現(xiàn)在w左側(cè)的概率;p(lw|w)表示詞r出現(xiàn)在w右側(cè)的概率。
根據(jù)上述公式,如果某個(gè)余串是易于搭配的活躍詞匯,那么這個(gè)詞的左右兩個(gè)熵應(yīng)該只是有一個(gè)比較大。如果一個(gè)單字詞作為詞首出現(xiàn),那么需計(jì)算該單字詞右側(cè)與其它詞匯搭配的熵的大小,如果該單字詞作為詞尾出現(xiàn),則需要計(jì)算該單字詞左側(cè)與其它詞匯搭配的熵的大小。例如,候選串“面對(duì)/v集成電路/n”“布置/v 傳感器/n 器件/n”“傳感器/n器件/n制造/v”都可以通過(guò)活躍詞匯的左右熵過(guò)濾后正確抽取出術(shù)語(yǔ)“集成電路”“傳感器器件”。
本文使用涉及紡織、機(jī)械、物理、電學(xué)四個(gè)領(lǐng)域每個(gè)領(lǐng)域1 000篇、共計(jì)4 000篇專利文獻(xiàn)作為實(shí)驗(yàn)語(yǔ)料,通過(guò)ICTCLAS[14]對(duì)專利文獻(xiàn)進(jìn)行專利分詞及詞性標(biāo)注,并基于此構(gòu)建邊界標(biāo)記集。評(píng)測(cè)采用準(zhǔn)確率(P)、召回率(R)和F值進(jìn)行評(píng)測(cè)。各指標(biāo)定義如下:
在評(píng)估實(shí)驗(yàn)結(jié)果正確率和準(zhǔn)確率時(shí),每個(gè)領(lǐng)域隨機(jī)抽取150篇、共600篇作為測(cè)試語(yǔ)料,在術(shù)語(yǔ)抽取過(guò)程中閾值設(shè)定的好壞將極大地影響實(shí)驗(yàn)的結(jié)果,閾值的最終確定需要通過(guò)大量的實(shí)驗(yàn)來(lái)實(shí)現(xiàn)。在本實(shí)驗(yàn)中,鑒于候選術(shù)語(yǔ)的前后邊界標(biāo)記在種子術(shù)語(yǔ)抽取過(guò)程中起到等同的作用,在公式(1)中人為設(shè)定α、β都為0.5,在選取閾值抽取候選術(shù)語(yǔ)時(shí)經(jīng)實(shí)驗(yàn)驗(yàn)證選取0.6作為候選術(shù)語(yǔ)閾值,公式(2)中使用統(tǒng)計(jì)量方法進(jìn)行余串?dāng)U展時(shí)設(shè)置權(quán)重Weight(Left)為3.0時(shí)具有較佳的識(shí)別效果。人工標(biāo)注選取文獻(xiàn)中出現(xiàn)的術(shù)語(yǔ),將本文的方法和傳統(tǒng)的c-value[18]和文獻(xiàn)[15]中互信息抽取術(shù)語(yǔ)的方法在相同測(cè)試集下進(jìn)行對(duì)比,表5是在候選術(shù)語(yǔ)權(quán)重分別取0.55、0.60、0.65的實(shí)驗(yàn)結(jié)果。
從表5統(tǒng)計(jì)結(jié)果可以看出,本文提出的基于邊界標(biāo)記集的方法效果良好,正確率和召回率都明顯高于互信息方法和c-value方法。從本方法不同的weight(S)閾值設(shè)定可以看出,當(dāng)候選串weight(S)閾值設(shè)為0.55時(shí)本文方法具有較高的召回率,當(dāng)weight(S)閾值設(shè)為0.65時(shí)具有最高的準(zhǔn)確率,但weight(S)設(shè)為0.60時(shí)本文方法具有最高的F值,此時(shí)準(zhǔn)確率比c-value方法高出3個(gè)百分點(diǎn),比互信息方法高出6個(gè)百分點(diǎn),召回率比c-value方法高3個(gè)百分點(diǎn),與互信息方法相比,高11個(gè)百分點(diǎn)。
Table 5 Experiment results in contrast with other methods表5 本方法和其它方法結(jié)果對(duì)比
由此可見,本文方法相對(duì)對(duì)比實(shí)驗(yàn)中的其他方法具有良好的術(shù)語(yǔ)抽取準(zhǔn)確率和召回率。為當(dāng)weight(S)閾值設(shè)為0.60 時(shí),不同長(zhǎng)度術(shù)語(yǔ)抽取結(jié)果如表6所示。
從表6中可以看出,本文中將單字定義為分詞后的最小單詞形式,因此互信息的方法不能對(duì)單字術(shù)語(yǔ)起作用,然而本文的單字抽取召回率高于cvalue的方法。這是因?yàn)樵趹?yīng)用c-value方法來(lái)計(jì)算候選術(shù)語(yǔ)權(quán)重時(shí),不僅考慮了候選術(shù)語(yǔ)的詞頻,還需要考慮該候選串被包含更長(zhǎng)候選術(shù)語(yǔ)的次數(shù),即被包含的次數(shù)越多,對(duì)應(yīng)的術(shù)語(yǔ)的權(quán)重就會(huì)越低。專利文獻(xiàn)中的術(shù)語(yǔ)有很大一部分是被長(zhǎng)術(shù)語(yǔ)包含的,而本文中的方法不需要考慮這些因素。但是,互信息的方法對(duì)雙字詞的抽取效果最佳,高于本文中的方法,而本文中雙字詞的抽取效果略高于c-value的方法。
但是,通過(guò)對(duì)四字和四字以上的長(zhǎng)術(shù)語(yǔ)的對(duì)比效果可以看出,本文方法要明顯優(yōu)越于其它兩種方法,這是因?yàn)楸疚牡姆椒ㄖ械倪吔鐦?biāo)記集的多樣性,一些作為短術(shù)語(yǔ)的邊界標(biāo)記同樣可以對(duì)較長(zhǎng)的術(shù)語(yǔ)邊界標(biāo)記;同樣,術(shù)語(yǔ)部件庫(kù)對(duì)不同長(zhǎng)度的候選術(shù)語(yǔ)都能起到相同的過(guò)濾效果,即與候選術(shù)語(yǔ)長(zhǎng)度無(wú)關(guān)。另外,在專利文獻(xiàn)中存在一些詞頻為1的長(zhǎng)術(shù)語(yǔ),例如“P/x-/n 型/k 金氧半/n 位/q 準(zhǔn)/a轉(zhuǎn)換/v電路/n”“堆棧式/n N/x-/n 型/k 金氧半/n 晶體管/n 形式/n”等也可以通過(guò)本文中的方法抽取出來(lái)。
本文通過(guò)構(gòu)建邊界標(biāo)記符集進(jìn)行術(shù)語(yǔ)抽取,過(guò)濾部分標(biāo)記之間的候選串作為種子術(shù)語(yǔ),包含種子術(shù)語(yǔ)的候選串,采用規(guī)則和修飾度的方法來(lái)確定是否對(duì)種子術(shù)語(yǔ)進(jìn)行擴(kuò)展。對(duì)低頻候選串采用最長(zhǎng)公共字串?dāng)U展的方法抽取低頻術(shù)語(yǔ),提高了低頻術(shù)語(yǔ)的召回率。實(shí)驗(yàn)表明,該方法能夠有效地識(shí)別出大部分高頻術(shù)語(yǔ)和部分低頻術(shù)語(yǔ)。但同時(shí),規(guī)則制定時(shí)難免會(huì)引入一部分噪音,同時(shí)對(duì)低頻術(shù)語(yǔ)抽取時(shí),擴(kuò)展模式過(guò)于單一,不能提取所有低頻術(shù)語(yǔ)。本文中邊界標(biāo)記集的構(gòu)建存在一些不足,邊界標(biāo)記集中存在一些單字詞是術(shù)語(yǔ)的組成部分,但錯(cuò)誤地判別為停用詞,如術(shù)語(yǔ)“電子/n-/n 空穴/n 對(duì)/p”中“對(duì)/p”錯(cuò)誤地判定為邊界標(biāo)記。
下一步工作中,我們將根據(jù)論文中邊界標(biāo)記集中出現(xiàn)的錯(cuò)誤,進(jìn)一步優(yōu)化邊界標(biāo)記集,提高邊界標(biāo)記集的正確性并制定出一些更加準(zhǔn)確的術(shù)語(yǔ)擴(kuò)展規(guī)則,以抽取出更多的術(shù)語(yǔ)。
Table 6 Accuracy comparison of different methods表6 不同方法正確率對(duì)比
[1] Feng Zhi-wei.A new scientific domain in terminology——computational terminology[J].Terminology Standardization&Information Technology,2008(4):4-9.(in Chinese)
[2] Zhang Wen-jing,Liang Ying-h(huán)ong.Study on the technology of term identification [J].Information Technology,2008(3):6-9.(in Chinese)
[3] Zhai Du-feng,Liu Bai-song.Automatic domain-specific term extraction in administrative-domain ontology[J].New Technology of Library and Information Service,2010,26(4):59-65.(in Chinese)
[4] Gu Jun,Wang Hao.Study on term extraction on the basis of Chinese domain texts[J].New Technology of Library and Information Service,2011,27(4):29-34.(in Chinese)
[5] Jia Mei-ying,Yang Bing-ru,Zheng De-quan,et al.Research on automatic military intelligence term extraction using CRF model[J].Computer Engineering and Applications,2009,45(32):126-129.(in Chinese)
[6] Tang Tao,Zhou Qiao-li,Zhang Gui-ping.Term extraction based on the combination of statistics and rules[J].Journal of Shenyang Aerospace University,2011,28(5):71-74.(in Chinese)
[7] Yue Jin-yuan,Xu Jin-an,Zhang Yu-jie.Chinese word segmentation for patent documents[J]Acta Scientiarum Naturalium Universitatis Pekinensis,2013,49(1)159-164.(in Chinese)
[8] Dai Cui,Zhou Qiao-li,Cai Dong-feng,et al.Automatic identification of Chinese maximum noun phrase based on statistics and rules[J].Journal of Chinese Information Processing,2008,22(6):110-115.(in Chinese)
[9] Zeng Wen,Xu Shuo,Zhang Yun-liang,et al.Automatic extraction technology research and analysis of scientific literature terminology[J].New Technology of Library and Information Service,2014:30(1):51-55.(in Chinese)
[10] W Yun-fang,Sui Zhi-fang,Qiu Li-kun,et al.The approaches and strategies to describe the term component in information science and technology[J].Applied Linguistics,2003(4):34-39.(in Chinese)
[11] He Yan,Sui Zhi-Fang,Duan Hui-ming,et al.Term mining combining term component bank[J].Computer Engineering and Applications,2006,42(33):4-7.(in Chinese)
[12] Peking University Institute of Computational Linguistics.January 1998 Daily segmentation,annotated corpus[EB/OL].[2014-10-19].http://icl.pku.edu.cn/ic_groups/corpus/dwldform1.asp.2001-05-10/2004-04-1.(in Chinese)
[13] Zhou Lang.Several research questions Chinese term extraction[D].Nangjin:Nangjin,Nanjing University of Science&Technology,2009.(in Chinese)
[14] Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]∥Proc of the 2nd SIGHAN Workshop on Chinese Language Processing-Volume 17,2003:184-187.
[15] Zhang Feng,Xu Yun,Hou Yan,et al.Chinese term extraction system based on mutual information[J].Application Research of Computers,2005,22(5):72-73.(in Chinese)
[16] Lin Lei,Sun Cheng-jie,Zhang Er-yan,et al.A term extraction approach based on modified log-likelihood ratio[J].Journal of Guangxi Normal University(Natural Science),2010,28(1):153-156.(in Chinese)
[17] Zhou Long,F(xiàn)eng Chong,Huang He-yan,et al.Oriented terminology extraction phrase filtering technology [J].Computer Engineering and Applications,2006,45(19):9-11.(in Chinese)
[18] Frantzi K T,Ananiadou S,Tsujii J.The c-value/nc-value method of automatic recognition for multi-word terms[C]∥Proc of the 2nd Eruopean Conference,ECDL’98,1998:585-604.
附中文參考文獻(xiàn):
[1] 馮志偉.一個(gè)新興的術(shù)語(yǔ)學(xué)科——計(jì)算術(shù)語(yǔ)學(xué)[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2008(4):3.
[2] 張文靜,梁穎紅.術(shù)語(yǔ)抽取技術(shù)研究[J].信息技術(shù),2008(3):6-9.
[3] 翟篤風(fēng),劉柏嵩.政務(wù)領(lǐng)域本體術(shù)語(yǔ)的自動(dòng)抽?。跩].現(xiàn)代圖書情報(bào)技術(shù),2010,26(4):59-65.
[4] 谷俊,王昊.基于領(lǐng)域中文文本的術(shù)語(yǔ)抽取方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011,27(4):29-34.
[5] 賈美英,楊炳儒,鄭德權(quán),等.采用CRF 技術(shù)的軍事情報(bào)術(shù)語(yǔ)自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(32):126-129.
[6] 唐濤,周俏麗,張桂平.統(tǒng)計(jì)與規(guī)則相結(jié)合的術(shù)語(yǔ)抽?。跩].沈陽(yáng)航空航天大學(xué)學(xué)報(bào),2011,28(5):71-74.
[7] 岳金媛,徐金安,張玉潔.面向?qū)@墨I(xiàn)的漢語(yǔ)分詞技術(shù)研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(1):159-164.
[8] 代翠,周俏麗,蔡?hào)|風(fēng),等.統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語(yǔ)最長(zhǎng)名詞短語(yǔ)自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2008,22(6):110-115.
[9] 曾文,徐碩,張運(yùn)良,等.科技文獻(xiàn)術(shù)語(yǔ)的自動(dòng)抽取技術(shù)研究與分析[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(1):51-55.
[10] 吳云芳,穗志方,邱利坤,等.信息科學(xué)與技術(shù)領(lǐng)域術(shù)語(yǔ)部件描述[J].語(yǔ)言文字應(yīng)用,2003(4):34-39.
[11] 何燕,穗志方,段慧明,等.一種結(jié)合術(shù)語(yǔ)部件庫(kù)的術(shù)語(yǔ)提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(33):4-7.
[12] 北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所.1998年1月人民日?qǐng)?bào)切分、標(biāo)注語(yǔ)料庫(kù)[EB/OL].[2014-10-19].http://icl.pku.edu.cn/ic_groups/corpus/dwldform1.asp.2001-05-10/2004-04 一1.
[13] 周浪.中文術(shù)語(yǔ)抽取若干問(wèn)題研究[D].南京,南京理工大學(xué),2009.
[15] 張鋒,許云,侯艷,等.基于互信息的中文術(shù)語(yǔ)抽取系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2005,22(5):72-73.
[16] 林磊,孫承杰,張二艷,等.一種基于改進(jìn)似然比的術(shù)語(yǔ)自動(dòng)抽取方法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,28(1):153-156.
[17] 周浪,馮沖,黃河燕.一種面向術(shù)語(yǔ)抽取的短語(yǔ)過(guò)濾技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(19):9-11.