張廣慶,孫旺先,岳琪佳
(1.青島市標準化研究院,青島 266071;2.青島市建筑節(jié)能協(xié)會,青島 266071;3.山東省青島第五十八中學,青島 266100)
巧用標準題錄信息校對企業(yè)專業(yè)術語
張廣慶1,孫旺先2,岳琪佳3
(1.青島市標準化研究院,青島 266071;2.青島市建筑節(jié)能協(xié)會,青島 266071;3.山東省青島第五十八中學,青島 266100)
外向型企業(yè)編寫產(chǎn)品說明書或宣傳材料常常需要借助術語中英文對照表,但表中術語的中英文翻譯是否準確,卻沒有恰當?shù)呐袛喾椒ɑ驑藴??;诖?,本文借助中國國家標準的中英文題錄信息,提出了校對企業(yè)術語的參考方法,并通過實驗檢驗了校對效果。
術語;標準題錄;校對;術語校對庫;術語對照表
隨著我國市場經(jīng)濟的不斷發(fā)展和完善,企業(yè)經(jīng)營的國際化和規(guī)范化水平正日益提高。據(jù)海關統(tǒng)計,2016年我國貨物出口總值達到13.84萬億元人民幣,越來越多的中國產(chǎn)品走向世界。企業(yè)在出口產(chǎn)品和提供服務中經(jīng)常使用各類專業(yè)術語,通常而言,企業(yè)會借助翻譯公司或科技翻譯軟件制作專業(yè)術語中英文對照表(以下簡稱術語對照表),實現(xiàn)產(chǎn)品和服務名稱的一致化和標準化[1],并依據(jù)術語對照表編寫說明書和宣傳手冊,以幫助客戶更容易理解這些產(chǎn)品和服務。術語對照表的重要性可見一斑,但表中術語的中英文翻譯是否準確,目前卻沒有恰當?shù)呐袛喾椒ɑ驑藴??;诖?,本文介紹如何利用中國國家標準題錄中英文信息,來校對、補充和糾正術語對照表的方法,并通過樣本術語的校對數(shù)據(jù)查看實驗效果。
筆者收集整理了中國國家標準約6.1萬條(其中,含中英文題錄信息的約4.7萬條,僅有中文題錄信息的約1.4萬條),以此為基礎構建中國國家標準中英文術語校對庫(以下簡稱術語校對庫)。另采集某企業(yè)在用的524條術語,組成樣本術語對照表。存放這些信息的數(shù)據(jù)庫,則采用常見的關系型數(shù)據(jù)庫SQL Server。
從術語對照表中,選取術語中文詞和英文詞,同時匹配術語校對庫中的標準題錄中文名和英文名,匹配成功說明該專業(yè)術語翻譯正確,稱雙語匹配;只選取術語中文詞,匹配術語校對庫中的標準題錄中文名,匹配成功的,稱中文匹配;只選取術語英文詞,匹配術語校對庫中的標準題錄英文名,匹配成功的,稱英文匹配。術語中文詞或英文詞與術語校對庫匹配成功的數(shù)量稱匹配度。未實現(xiàn)雙語匹配的術語,用其他方法改造后再次匹配術語校對庫,稱二次匹配;每次去除未實現(xiàn)雙語匹配的術語,逐一用其他方法改造后,再匹配術語校對庫,稱累加匹配。
利用術語校對庫校對這些樣本術語的方法有:快速法、單詞法、實詞法、分詞法、英文變形法、綜合法。
2.1 快速法
使用關系型數(shù)據(jù)庫中模糊查詢語句直接匹配術語的方法。結構化查詢語言(簡稱SQL)是關系型數(shù)據(jù)庫中最常用的查詢語言,模糊查詢語句的格式通常是“SELECT 字段 FROM 表 WHERE某字段 LIKE 條件”,當“條件”使用通配符“%”時,表示模糊查詢。如模糊查詢含“標準”字樣的題錄信息時,SQL語句是“SELECT 中文名字段 FROM 國家標準題錄表 WHERE 中文名字段LIKE ‘%標準%’”。該方法的缺點是英文匹配不嚴謹,如“bus”用“%bus%”查詢時,含“bush”和“business”的題錄信息也會當成查詢結果,產(chǎn)生誤匹配。但該方法操作簡單、查詢快,在本文中除單詞法外,均使用本法完成初次匹配。
在術語校對庫中使用本法,實現(xiàn)雙語匹配的術語有143條,中文匹配的術語有238條,英文匹配的術語有225條,能匹配成功(取消重復計數(shù)的)的術語總計288條,占全部術語的55.0%,本法匹配成功的術語超過全部術語的一半。匹配度較高的部分術語見表1。
表1 匹配成功的部分術語
2.2 單詞法
術語的中文詞按照快速法校對,英文詞按照單詞形式嚴格匹配標準題錄信息的方法。校對方法是先用快速法將能匹配術語中文詞和英文詞的題錄信息全部找出,再從這些題錄信息中挑出能按照單詞形式匹配術語英文詞。在軟件程序中,匹配英文單詞的簡易算法可以采用該英文單詞在題錄信息的前后字符均不是英文字母的方式。
本法實現(xiàn)雙語匹配的術語有119條,中文匹配的術語有238條,英文匹配的術語有190條,能匹配成功的術語總計276條,占全部術語的52.7%。
2.3 實詞法
將術語中文詞或英文詞中的虛詞取消,只校對余下的實詞的方法。
在中文語法中,詞是由語素組成的最小的造句單位,按詞性可以分為實詞和虛詞。實詞指有實際意義的詞,包括名詞、動詞、形容詞、數(shù)詞、量詞、代詞等;虛詞是指沒有實在意義的詞,包括副詞、介詞、連詞、助詞、嘆詞、擬聲詞等。未能實現(xiàn)匹配成功的術語中文詞取消虛詞后再校對余下的實詞,可以提高校對成功率。如“標定中”在術語校對庫中不能匹配,取消虛詞“中”,只匹配實詞“標定”,快速法的匹配度可以達到52次。
在英文語法中,實詞指在句子中獨立擔任成分,包括名詞、動詞、形容詞、數(shù)詞、代詞、副詞等;虛詞指不能在句子中獨立擔任任何成分,包括冠詞、介詞、連詞、感嘆詞等。同樣的,對于不能匹配成功的術語英文詞,也可以取消虛詞只校對實詞。如”beam off”不能匹配成功,取消虛詞”off”后,只匹配實詞”beam”,快速法的匹配度是90次。
快速法沒有實現(xiàn)雙語匹配的術語使用本法進行二次匹配,實現(xiàn)雙語匹配的術語合計153條,中文匹配的術語合計249條,英文匹配的術語合計243條,能匹配成功的術語總計305條,占全部術語的58.2%。
2.4 分詞法
利用分詞技術將術語中文詞和英文詞分解成相互獨立的兩組或多組,再進行校對的方法。如將“電磁波”分詞為“電磁”和“波”,將”Electromagnetic Waves”分詞為”Electromagnetic”和”Waves”,形成兩組新術語“電磁(Electromagnetic)”和“波(Waves)”。分解后的術語中文詞和英文詞都能匹配術語校對庫中的中英文題錄信息,稱雙語匹配,任一中文分詞能匹配中文題錄信息的稱部分中文匹配,任一英文分詞匹配英文題錄信息的稱部分英文匹配,全部中文分詞都能匹配中文題錄信息的稱全中文匹配,全部英文分詞都能匹配英文題錄信息的稱全英文匹配。對術語進行分詞應遵循一些原則,如中文與英文成對分詞原則、已校對成功的英文(或中文)優(yōu)先分詞原則、中文分詞換位原則等。
快速法沒有實現(xiàn)雙語匹配的術語使用本法進行二次匹配,采用全分詞匹配方式時,實現(xiàn)雙語匹配的術語合計178條,全中文匹配的術語合計295條,全英文匹配的術語合計300條,能匹配成功的術語總計368條,占全部術語的70.2%。
采用部分分詞匹配方式時,雙語匹配術語數(shù)量仍為178條,部分中文匹配的術語合計471條,部分英文匹配的術語合計468條,能匹配成功的術語總計506條,占全部術語的96.6%。
2.5 英文變形法
將英文實詞的變形詞與術語校對庫中的英文題錄信息進行校對的方法。英文題錄信息中的名詞有時會以復數(shù)形式存在,使用單詞法就不能查詢到術語英文詞,此時應使用術語英文詞的復數(shù)形式;同樣,術語英文詞中屬于動詞的,如果不能匹配成功,則可以使用該動詞的第三人稱單數(shù)、-ing形式、各種時態(tài)詞(過去時、進行時、完成時)進行二次匹配。該方法對于1個或2個詞語組成的術語英文詞較為實用,超過3個詞語(含3個)的,因組合出來的變形詞較多,不再推薦使用本法,本文沒有使用本法做樣本庫的校對實驗。
2.6 綜合法
將以上方法中的一種或多種方法采用累加匹配的方式,實現(xiàn)術語雙語匹配的匹配度最高的方法。除英文變形法外,將其他方法取得的實驗結果統(tǒng)計后,本法實現(xiàn)雙語匹配的術語合計187條,中文匹配的術語合計473條,英文匹配的術語合計475條,取消重復計數(shù)的術語總計511條,占全部術語的97.5%。
表2列出了以上方法的校對結果??梢钥闯?,綜合法合成了其它方法的實驗結果,達到最高的匹配效果,雖然雙語匹配(187條)占全部樣本術語的35.7%,沒有超過一半,但中文匹配、英文匹配、合計匹配分別達到90.3%、90.7%、97.5%,匹配度非常高,能實現(xiàn)較好的校對效果。單一方法中,分詞法的校對效果最好,合計匹配比例可以達到70.2%(全匹配)或96.6%(部分匹配)。
表2 各種方法校對術語樣本庫的實驗結果
沒有實現(xiàn)雙語匹配僅能實現(xiàn)中文或英文匹配的術語,通過查找對應的英文題錄或中文題錄信息,可以糾正翻譯不準確的術語,或者作為不同科學領域的術語備用詞,完善術語對照表。
中國國家標準的題錄信息作為權威的中英文對照,不僅可以當做查詢常用標準的工具,還能滿足企業(yè)標準人員編制專業(yè)術語對照表的需要。使用常規(guī)術語翻譯方式翻譯的專業(yè)術語,通過使用國家標準題錄信息進行校對和檢查,可以達到糾正和完善這些專業(yè)術語的效果。結合使用術語類標準中術語的中英文信息,既能豐富標準工作者在術語領域的應用,也可為開發(fā)新式術語工具軟件提供數(shù)據(jù)基礎[2]。
[1] 金倩.術語應用標準化建設加快步伐——中國標準術語數(shù)據(jù)庫開發(fā)正式啟動[J].產(chǎn)品安全與召回, 2000,(3):40-40.
[2] 郭劍.術語數(shù)據(jù)庫建設之我見[J].中國科技術語, 2015,17(5):57-60.
Application of Chinese Word Segmentation in Standard Information Retrieval
ZHANG Guang-qing1, SUN Wang-xian2, YUE Qi-jia3
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Qingdao Building Energy Conservation Association, Qingdao, Shandong 266071, China; 3. Qingdao NO.58 High School Shandong Province, Qingdao, Shandong 266100, China)
Export-oriented enterprises often need to use the terms of the English and Chinese comparison table to write product brochures or promotional materials, but the terms of the Chinese and English translation is accurate or not, there is no appropriate method or standard of judgment. Based on this, with the help of China national standards in English bibliographic information, this paper puts forward a reference method for proofreading enterprise terminology, and proves the proofreading effect through the experiment.
term; standard title; proofreading; terminology library; glossary of terms
G254.37
A
1672-6286(2017)02-0042-05
張廣慶(1971-),男,山東巨野人。質(zhì)量高級工程師,本科,主要從事組織機構代碼、軟件、信息化、標準等領域研究。