楊福義
(鞍山師范學院,遼寧鞍山 114006)
大型術語部件庫建設的實踐與思考
楊福義
(鞍山師范學院,遼寧鞍山 114006)
在大規(guī)模術語部件庫的建設中,獲得了10萬條術語部件,對建設中使用的技術予以介紹。進行了術語部件庫的統(tǒng)計分析,總結了術語部件庫的建設經(jīng)驗與問題,提出了進一步解決的方法。
術語部件,統(tǒng)計語言學,術語經(jīng)濟律
術語部件庫是一個包含豐富信息的知識庫,這些豐富信息有助于新術語的自動發(fā)現(xiàn)、術語的自動定義、術語概念體系的建立等相關研究工作[1]。目前,較大型的術語部件庫很少,現(xiàn)有的術語部件庫也缺少相應的術語部件構成統(tǒng)計分析。為了進一步開展科技文獻和論文的自動標引與自動分類工作,以及發(fā)現(xiàn)新的科技術語,迫切需要建設一個具有專業(yè)領域特異性的術語部件庫。
為了更好地進行文本的科學自動分類與自動標引,必須有一個來源可靠、分類科學的分詞詞典,以及方便合理的分詞工具。術語部件對于建立按學科自動分類與自動標引工作具有重要的作用,是當今時代中文信息處理的迫切需要,也是為數(shù)以千萬讀者快速方便進行科學文獻智能檢索而提供的重要工具。
術語具有鮮明的學科領域性特點,是按學科分類的重要工具,大部分術語由術語部件所組成。術語部件中含有重要的語義信息,可以用于科技文獻的自動摘要、關鍵理論與信息的自動抽取和分析。國家有關部門對術語數(shù)據(jù)庫的建設制定了一系列標準與規(guī)范,《術語部件庫的信息描述規(guī)范》(以下簡稱“描述規(guī)范”)[1]就是其中一項重要的參考資料。
1.術語部件庫的數(shù)據(jù)來源
術語部件庫的建設離不開術語數(shù)據(jù)庫。術語部件庫需要對術語數(shù)據(jù)庫中的術語進行解析,將多詞術語按條目進行切分與標注,在此基礎上進行術語部件的提取。所以對術語數(shù)據(jù)庫的要求是權威性、規(guī)模性與領域特異性。
術語數(shù)據(jù)庫選用了全國科學技術名詞審定委員會(以下簡稱“全國科技名詞委”)網(wǎng)站發(fā)布的術語數(shù)據(jù)電子文本以及中國知網(wǎng)獲得授權后發(fā)布的規(guī)范術語,以保證術語部件的來源權威性。數(shù)據(jù)庫的電子文本通過多年的復制、拷貝、粘貼以及去除因客觀因素導致的有問題的術語,獲得了基本可靠的原始術語數(shù)據(jù)。
2.術語的凈化與預處理
已經(jīng)出版的術語詞典和發(fā)布的術語文件是眾多專家多年的心血結晶,但術語庫的建設是一項持續(xù)恒久的工作,過程中總會有瑕疵,有些問題也存在觀點分歧。下面就術語數(shù)據(jù)庫凈化與預處理的幾個問題予以說明。
(1)術語中的字母詞
關于術語中的數(shù)字與字母詞問題,已有多篇文章對其討論。在部件庫的建設中,對數(shù)字字母詞做如下處理:對術語中的全角和半角混用詞,在不改變原有詞義的情況下,采用全角化處理,以保證分詞的準確性。
(2)術語中的標點符號詞
針對術語中的標點符號,《信息處理用現(xiàn)代漢語分詞規(guī)范》[2]第一項指出:空格或標點符號是計算機中的分詞單位標記,如果將帶有標點符號的詞按標點符號切分,將違背術語部件與術語相關關系的含義。因此,在術語部件庫建設中,對含有標點符號的術語詞,要根據(jù)具體情況予以處理。
術語中的標點符號問題處理起來更加困難。例如“(0,2)插值[數(shù)學](0,2) interpolation”“1K-(2-吡啶基偶氮)-2-萘酚[化學]1-(2-pyridylazo)-2-naphthol, PAN”,絕大多數(shù)分詞軟件都無法把標點符號連接的詞匯進行準確分詞。術語中的標點符號還有中文標點符號和英文標點符號,也需要根據(jù)具體情況做出相應處理。
(3)術語中的特殊字母詞
將術語統(tǒng)一轉化為全角漢字符號。使用UTF-8編碼,可以處理包括中韓日全部象形文字的數(shù)據(jù),但對于希臘字母,卻只有雙字節(jié)的內碼數(shù)據(jù),因此對于含有希臘字母的術語,分詞時也要特殊處理,轉化為ANSI碼處理。
此外,保留術語中的標點符號,不進行分詞。對全半角混用情況,一律改為全角字符。刪除術語條目中出現(xiàn)的空格。將中文標點符號中的半角連接號改為全角的連接號。全部英文字母與標點均采用全角中文字母表示。
如前所述,中文分詞已有國家標準,但目前為止,標有詞性的專門分詞詞典還沒有公開出版。其中最大的難點是詞與字的定義,絕大多數(shù)漢字具有詞義,可以說幾乎一字一詞,分成單個漢字顯然脫離中文分詞作用的初始意愿,分詞原則以中文信息處理為目的。規(guī)范中明確指出了其他領域參考、補充與細化問題。《信息處理用現(xiàn)代漢語分詞規(guī)范》[3]中有“一律切分”“不予切分”“應予切分”“按習慣形式切分”等多種規(guī)定。沒有完整的詞表,這些切分原則會有不同解釋。在描述規(guī)范中,結合緊密、生成能力強、使用穩(wěn)定的語言片段也可以看作是術語部件。其度量標準問題也不好界定。
因此,分詞的準確界定,依然有許多問題需要討論,山西大學劉開瑛在《中文文本自動分詞和標注》一書中指出分詞規(guī)范的一些問題[3],例如:“每年”一詞是否切分,推薦規(guī)范與《現(xiàn)代漢語詞典》相矛盾問題等。
1.本次術語部件庫建設過程的分詞標準
(1)遵循國家標準分詞規(guī)范,以雙字詞為核心的原則
本文涉及的術語部件庫的建設采用詞組型分詞,把多詞術語的分詞分到最小詞組長度后,不再切分,即使他們是單字術語組成的雙字詞組,也不再切分。例如:基是單字術語詞,體是單字術語詞,基體是合成術語新詞,在化學、細胞生物學、植物學、航天科技、冶金學、人體組織學等多學科中使用,且具有不同的英文譯文和含義。對于這類雙字詞不再切分,即術語部件庫的部件最小字長為2,也就是雙字詞。雙字術語部件詞加前綴或后綴可形成新的術語部件,分詞后的術語構成一個二叉樹,可與其他術語部件構成樹圖,進一步分析術語的結構與類型。
(2)以多詞術語部件構成原則為依據(jù)
采用以單字詞術語和雙字詞術語為種子術語,參與新術語部件的發(fā)現(xiàn)與擴充建設的原則。
由1個字或2個字組成的規(guī)范術語詞,加其他漢字則構成新生術語。所加部分一定是術語部件,可以是字,也可以是詞。因此,每個多詞術語的生成均可以切分為單字術語+單字術語、單字術語+構成術語單字等幾種模式。
在分詞原則中,2字詞或3字詞,以及結合緊密、使用穩(wěn)定的2字或3字詞組一律為分詞單位。按此原則,2字詞與3字詞作為分詞的基本單位,參與多詞術語中部件的度量與計算。在涉及分詞歧義的情況下,適當收入4字以上的部件詞。中外人名與機構名不受字數(shù)限制。
2.本文涉及的幾個概念的定義
(1)分詞粒度:在馮志偉《現(xiàn)代術語學引論》中,被稱為術語長度[4]。一個術語部件詞為一粒,稱作粒度為1。一個術語部件所含有漢字的個數(shù),稱為粒長。例如:“漢字信息處理”的部件數(shù)是3,則稱為術語部件粒數(shù)為3,每粒的粒長均為2??梢哉f,“漢字信息處理”有三個術語部件詞。
(2)術語部件粒長:術語部件按規(guī)定原則不再切分時,單個術語部件的漢字的字數(shù)稱為粒長(不稱為字長是因為與計算機科學技術專業(yè)中的字長概念相區(qū)別)。
(3)綴:以術語中助詞為主要成分的單字詞。參與術語組詞的稱為綴,分為前綴、中綴、后綴三種。綴為術語部件中的基本部分,可多次加詞構成新部件。這些部件不再切分,以避免失去專業(yè)屬性,影響特定領域術語部件的分析與應用。這類部件可成為核心部件詞的擴充部件,加前綴或者后綴組成新部件。此類部件大部分粒長為3。分詞過程產(chǎn)生的中綴,可以合并到前面或后面,構成新的術語部件。
(4)術語部件黏度:術語部件構成新術語詞的能力。構詞越多黏度越大,對構詞數(shù)目取對數(shù),取頻次的常用對數(shù)作為術語黏度的定義。可以定量分析術語部件的生成能力。頻次1000條的術語黏度為3,100條的為2,10條的為1。頻次只有1條的黏度為0,只在一個術語條目中出現(xiàn)。
這樣,就明確定義了術語部件生成術語能力的級別,常用術語部件黏度大于或等于1.0,少用術語部件黏度小于1.0并且大于0,罕用術語部件黏度等于0。將術語部件的生成能力予以定量描述,也對應組成能力十條以上(常用),幾條(少用),一條(罕用)的概念。
按此標準,可以分組計量從而發(fā)現(xiàn)術語部件分布的客觀規(guī)律與分布的數(shù)學模型。
3.分詞詞典的建設理據(jù)與過程
根據(jù)多詞術語的定義,多詞術語可完全正確切分,如拆出一個部件詞,其余仍是多詞詞組或單個部件詞。根據(jù)馮志偉介紹的術語生成機制[4],取雙字術語詞作為新術語部件發(fā)現(xiàn)的種子術語,參與分詞與新詞發(fā)現(xiàn)。
4.術語部件庫的形成過程
以20 000條雙字詞術語為種子詞開始建設,對約243 000詞條的術語數(shù)據(jù)庫按專業(yè)進行切分,分詞程序包含著新術語部件產(chǎn)生發(fā)現(xiàn)模塊,每分詞一次就生成新詞備審文件,審查后補充進入分詞詞典,再次分詞。
使用擴充新部件詞后的分詞詞典再次進行分詞,會再次出現(xiàn)新部件,如此循環(huán),直至不再出現(xiàn)術語新部件為止。
接著,對不再具有新詞生成的術語庫進行單字分析,分別通過前綴、中綴、后綴的處理,組成一些以基本核心部件詞為主的擴充部件,例如“非+線性”構成“非線性”。如此反復運算,最終獲得10萬詞匯的術語部件,構成科技術語部件總庫。而且對于每個專業(yè),分別單獨建立部件詞表。以獲得具有專業(yè)領域屬性的術語部件頻次數(shù)據(jù)。用于科技文獻的自動標引與自動分類研究。
一般術語數(shù)據(jù)庫,需要按以上分詞過程進行5~6次。
筆者編寫了術語庫分詞與新部件發(fā)現(xiàn)程序軟件,分詞軟件采用正向最大分詞方法,從12字進行切分,遞歸處理。在種子術語部件庫的基礎上,對字數(shù)大于3的術語進行分詞。
術語分詞后,如果有連續(xù)的單字,則合并為預選新詞,經(jīng)人工甄別后入庫。對散落的單字,除語法詞外,進行與上下部件歸并的粘連操作。
對243 000條的術語數(shù)據(jù)庫進行按專業(yè)分詞,建立了術語部件庫。分詞產(chǎn)生103 000條術語部件。按頻次黏度定義結果如下:
常用術語部件(黏度>1.0) 6646個 占 6.41%
少用術語部件 (1.0>黏度>0) 33675個 占32.48%
罕用術語部件 (黏度為0) 63349個 占 61.10%
由以上數(shù)據(jù)可以看到,術語頻次曲線的長尾現(xiàn)象,即有大量的部件詞只使用一次。各專業(yè)罕用詞均在60%~80%之間,常用詞約占1%~6%。罕用術語部件約占70%,覆蓋30%的詞次,一般與常用部件約占30%,覆蓋70%的詞次,即總詞次的70%。這個規(guī)律也可以稱為部件頻度分布的三七規(guī)則。
罕用部件詞量大,而且專業(yè)領域特異性明顯,對文件詳細分類的精確度有重要作用。常用部件使用頻度高,對于發(fā)現(xiàn)術語新詞和文本分類較大類別的劃分具有重要意義。
獲取各專業(yè)、各領域的術語部件詞表后,需要各方面進行標注。主要的標注工作如下:
詞的語法屬性:按國家標準標注語法詞性,在無法確定的情況下,使用計算機輔助詞性標注加人工校對的方法。
詞的專業(yè)屬性:研究專業(yè)分布頻次與向量分布。
詞的部首屬性:研究術語部件字部首與術語部件詞的相關性。
詞的黏度(術語構成能力)屬性:研究術語部件詞構成術語的能力與模式。
1.分析術語部件庫經(jīng)濟指數(shù)
按術語經(jīng)濟指數(shù)定義與馮志偉介紹的術語于形成的經(jīng)濟律計算方法[4],對58個專業(yè)術語部件庫進行經(jīng)濟指數(shù)計算,表1是部分專業(yè)的數(shù)據(jù)計算結果。
表1 部分專業(yè)的術語經(jīng)濟指數(shù)
2.分析術語部件詞頻分布規(guī)律
根據(jù)術語部件詞表在術語庫的使用頻度,可以研究術語部件構成規(guī)律。采用五種數(shù)學曲線按專業(yè)對數(shù)據(jù)進行計算[5]。計算表明以冪函數(shù)擬合效果最好。這里根據(jù)齊夫定律(Zipf ’s law),將部件按頻度排序。詞頻與序號的關系是離散的,近似用非線性回歸轉化為線性回歸的方法予以計算。
使用美國語言學家朱斯(M.Joos)對Zipf公式提出修正的雙參數(shù)詞頻定律[6]:
Y=AX-B
其中,Y代表頻次,X代表單詞排序號,B代表指數(shù),A代表系數(shù)。
對各個專業(yè)分別進行回歸計算。對等式兩邊取對數(shù)后化為直線方程進行最小二乘法擬合,對計算結果進行比較分析,部分專業(yè)術語部件詞頻規(guī)律方程如表2:
表2 部分專業(yè)術語部件庫頻次曲線數(shù)學模型
3.術語部件庫之間的相關系數(shù)
哪些專業(yè)術語部件庫之間具有相同的部件較多?可以采用術語部件詞構成的方向向量來計量。這是科技文獻聚類分析的重要參考數(shù)據(jù)。使用向量距離的度量方法[7],應用余弦定理對術語部件詞表的向量距離進行計算,結果見表4。按詞表建立向量,計算不同專業(yè)之間的距離(相關系數(shù))。夾角角度為0度,余弦值為1,距離為零,數(shù)據(jù)越小,距離越大。表3可以看出電力專業(yè)與電工學專業(yè),計算機科學技術與自動化專業(yè)具有較高的相關系數(shù),共用了較多的術語部件。
表3 專業(yè)相互之間術語部件的相關系數(shù)(余弦距離)
4.進行科技文獻自動標引與自動分類
以術語部件庫的術語條目作為主題詞與關鍵詞,是把文獻中涉及專業(yè)屬性最敏感部分進行提煉。實踐表明,應用術語部件庫可以進行自動標引,并有利于計算機輔助信息檢索,為用戶提供相關詞族群的檢索詞匯,也可以為科技術語審定提供參考。
由于部件是從術語數(shù)據(jù)庫中提煉出的精化部分,可以對文件中的術語在各專業(yè)的向量分布進行概率統(tǒng)計分析。從而為解決相關學科的檢索和新的術語分類提供參考依據(jù)。
例如,通過文獻的生物學詞頻概率和電子學的詞頻概率,發(fā)現(xiàn)涉及生物電子學的新詞。
5.構建由術語部件表達知識與概念的語義網(wǎng)
概念是人類知識的基本單元。通常一個概念對應一個自然語言的單詞或詞組,對術語部件庫的進一步深入研究,可以考慮構建以部件詞為核心的科技術語詞網(wǎng),以及術語工程專家系統(tǒng)。建立適合在網(wǎng)絡環(huán)境下應用的術語知識組織系統(tǒng),運用知識本體的理論和方法研究術語,并進一步理解知識的內涵與相互關系,為科技術語知識的學習提供便利工具,為術語概念體系的建立提供依據(jù)和參考。
術語部件庫的建設是術語工作的重要組成。無論采用何種方法與何種工具,最終形成的部件庫將殊途同歸。筆者初步建成含有10萬條詞匯的術語部件庫,這項工程還遠未結束,還有大量的屬性標定與詞匯審校工作。部件庫也需要專家學者的進一步審定,建成的部件庫詞表審定后可以資源共享,供更多的科技人員研究術語時作為參考,或可避免低水平的重復勞動。
術語部件是對浩瀚術語數(shù)據(jù)的凝縮與集中,做好術語部件庫的建設具有重要意義。僅以筆者的數(shù)年實踐拋磚引玉,期望術語部件庫的研究、數(shù)據(jù)挖掘能得到更多同仁的重視,為中國術語的規(guī)范推廣與應用做出貢獻。
[1] GB/T 19102—2003 術語部件庫的信息描述規(guī)范[S].北京:中國標準出版社,2003.
[2] GB/T 13715—1992 信息處理用現(xiàn)代漢語分詞規(guī)范[S].北京:中國標準出版社,1992.
[3] 劉開瑛.中文文本自動分詞和標注[M].北京:商務印書館,2000:30-33.
[4] 馮志偉.現(xiàn)代術語學引論(增訂本)[M].北京:商務印書館,2011.
[5] 陳魁.應用概率統(tǒng)計[M].北京:清華大學出版社,2000:255-260.
[6] 馮志偉,胡鳳國. 數(shù)理語言學[M].北京:商務印書館,2012:269.
[7] 吳軍.數(shù)學之美[M].北京:人民郵電出版社,2012:127-135.
Practice and Thoughts on Building a Large Term Component Database
YANG Fuyi
Based on 100 000 term components obtained during the construction of large-scale term component database, we introduced the construction techniques. We also made statistics on the term components of database, sum up construction experience and problems for the database construction, and put forward suggestions for further work.
term component, statistical linguistics, word term economic law
2014-03-27
楊福義(1945—), 遼寧蓋州人,鞍山師范學院高級工程師, 研究方向為語料庫、術語數(shù)據(jù)庫與知識組織系統(tǒng)。通信方式:yangfuyi@sina.com。
H083;N04
A
1673-8578(2014)04-0009-05