王華樹(shù) 劉世界
摘? 要:自然語(yǔ)言處理技術(shù)的飛速發(fā)展,使得術(shù)語(yǔ)抽取軟件在翻譯、教育、語(yǔ)言學(xué)等領(lǐng)域成為不可或缺的資源,軟件的種類(lèi)也越來(lái)越多,可為用戶(hù)提供不同的功能。然而,如何選擇合適的軟件成了亟待解決的問(wèn)題。此研究參考ISO/IEC 25010: 2011和GB/T 2500.10—2016,從術(shù)語(yǔ)抽取軟件的特性出發(fā),選取功能適用性、兼容性、性能效率、易用性、信息安全性五個(gè)方面,探討了術(shù)語(yǔ)抽取軟件的動(dòng)態(tài)化測(cè)評(píng)框架,并提出針對(duì)性的框架應(yīng)用建議與應(yīng)用案例,以期為用戶(hù)選擇恰當(dāng)?shù)男g(shù)語(yǔ)抽取軟件提供科學(xué)依據(jù)。
關(guān)鍵詞:術(shù)語(yǔ)抽取軟件;測(cè)評(píng)框架;術(shù)語(yǔ)管理;功能適用性;性能效率
中圖分類(lèi)號(hào):TP391;H083? 文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.005
Evaluation Framework of Terminology Extraction Software//WANG Huashu, LIU Shijie
Abstract: The rapid development of natural language processing technology has made terminology extraction software (TES) an indispensable resource in translation, education, and linguistics, and there are more and more types of software that can provide users with different functions. However, how to choose an appropriate software has become an urgent problem. Referring to ISO/IEC 25010: 2011 and GB/T 2500.10—2016 standards, this study selects five aspects related to the characteristics of TES, such as functional suitability, compatibility, performance efficiency, usability, and information security, analyzes the dynamic evaluation framework of TES, and proposes recommendations and application cases for the framework to provide a scientific basis for users to choose an appropriate TES.
Keywords: terminology extraction software (TES); evaluation framework; terminology management;functional suitability; performance efficiency
引言
術(shù)語(yǔ)自動(dòng)抽?。╝utomatic term extraction, ATE)是一項(xiàng)從特定領(lǐng)域的語(yǔ)料庫(kù)(domain-specific corpus)中提取術(shù)語(yǔ)的自然語(yǔ)言處理任務(wù),抽取的方法主要包括基于詞典、基于統(tǒng)計(jì)、基于語(yǔ)言規(guī)則、基于機(jī)器學(xué)習(xí)的方法及多種混合的方法[1]。近年來(lái)開(kāi)發(fā)的自動(dòng)術(shù)語(yǔ)抽取軟件在各種應(yīng)用場(chǎng)景中發(fā)揮著作用,例如術(shù)語(yǔ)篩選、同義詞庫(kù)構(gòu)建、文檔索引、技術(shù)監(jiān)視及其本體開(kāi)發(fā)[2],其抽取效率對(duì)術(shù)語(yǔ)庫(kù)的構(gòu)建、數(shù)據(jù)的挖掘、機(jī)器翻譯詞典的編撰、機(jī)器輔助翻譯軟件效率的提升等方面有著重要的意義,備受學(xué)界關(guān)注。
術(shù)語(yǔ)抽取軟件的出現(xiàn)不僅提升了術(shù)語(yǔ)抽取效率,也在一定程度上避免了主觀性和缺乏系統(tǒng)性的風(fēng)險(xiǎn)。然而,國(guó)內(nèi)外術(shù)語(yǔ)抽取軟件紛繁復(fù)雜,按照系統(tǒng)結(jié)構(gòu)來(lái)劃分,整體上可分為獨(dú)立式和集成式兩大類(lèi)[3],其中獨(dú)立式包含單機(jī)版與Web版,單機(jī)版如SDL MultiTerm Extract、SynchroTerm、TermSuite、Simple Extractor,Web版如Sketch Engine、Terminus、TermoStat、語(yǔ)帆術(shù)語(yǔ)寶(LingoSail TermBox);集成式也可稱(chēng)為非獨(dú)立模塊版,指依附于計(jì)算機(jī)輔助軟件本體、無(wú)法單獨(dú)使用的術(shù)語(yǔ)抽取模塊,如Déjà Vu中的Lexicon、Anchovy、 memoQ中的術(shù)語(yǔ)抽取模塊。面對(duì)如此繁雜的術(shù)語(yǔ)抽取軟件,用戶(hù)經(jīng)常不知如何客觀有效地去評(píng)價(jià)它們并選擇滿(mǎn)足自己需求的一款。此外,囿于術(shù)語(yǔ)抽取軟件測(cè)評(píng)涉及自然語(yǔ)言處理、軟件工程和計(jì)算模型構(gòu)建等領(lǐng)域的知識(shí),測(cè)評(píng)難度較大。雖已有部分學(xué)者對(duì)術(shù)語(yǔ)抽取軟件測(cè)評(píng)框架進(jìn)行過(guò)實(shí)驗(yàn)性的研究,但仍不夠系統(tǒng)全面,得出的評(píng)測(cè)結(jié)果存在一定程度的主觀性和片面性。
1? ?研究基礎(chǔ)
在現(xiàn)有相關(guān)研究中, Sauron以及Perián-Pascual 和 Mairal-Usón的研究[4-5]被認(rèn)為較具有代表性,其主要目的是超越指標(biāo)性能測(cè)試的層面,為術(shù)語(yǔ)抽取軟件的比較和測(cè)評(píng)設(shè)計(jì)一個(gè)全面的框架。Sauron基于ISO/IEC 9126-1: 2001和Expert Advisory Group on Language Engineering Standards(EAGLES)評(píng)估工作組的測(cè)評(píng)方法提出了一種測(cè)評(píng)術(shù)語(yǔ)抽取軟件的標(biāo)準(zhǔn)化方法。Sauron從功能性(functionality)、可用性(usability)、可靠性(reliability)和效率(efficiency)4個(gè)特性(characteristic)著手,進(jìn)一步將其分解為7個(gè)子特性(subcharacteristic),如準(zhǔn)確性(accuracy)、互操作性(interoperability)、易學(xué)性(learnability)、可恢復(fù)性(recoverability)、適用性(suitability)、時(shí)間響應(yīng)(time response)和可理解性(understandability)[4]。這種選擇軟件中可量化的質(zhì)量屬性來(lái)構(gòu)建測(cè)評(píng)模型的方法,在一定程度上為用戶(hù)提供了較為全面的參考。Perián-Pascual 和 Mairal-Usón同樣遵循ISO/IEC 9126-1: 2001,自行設(shè)計(jì)了一個(gè)術(shù)語(yǔ)抽取軟件的測(cè)評(píng)框架。兩位學(xué)者提出的測(cè)評(píng)框架側(cè)重于軟件外部質(zhì)量(external quality)標(biāo)準(zhǔn),所以選取了ISO/IEC 9126-1: 2001中的功能性、可用性和效率3個(gè)特性,進(jìn)一步細(xì)分為4個(gè)子特性:適用性、精確率(precision)、可操作性(operability)和時(shí)間特性(time behavior)。并通過(guò)實(shí)證研究,使用該框架測(cè)評(píng)對(duì)比了其團(tuán)隊(duì)自行研制的術(shù)語(yǔ)抽取軟件(DEXTER)與其他3款開(kāi)源型自動(dòng)術(shù)語(yǔ)抽取軟件[5]。兩位學(xué)者的研究實(shí)驗(yàn)性地利用自行設(shè)計(jì)的框架測(cè)評(píng)了4種術(shù)語(yǔ)抽取工具的質(zhì)量特性,打破了理論層面的探討,為解釋測(cè)評(píng)結(jié)果的方式提供了新見(jiàn)解。
然而,以上學(xué)者提出的測(cè)評(píng)框架并非系統(tǒng)全面的。Sauron在對(duì)屬性(attribute)設(shè)定評(píng)分規(guī)則時(shí)表述欠妥。例如,Sauron提出,如果軟件是“用戶(hù)友好型”(user-friendly),評(píng)分記為5;如果軟件“不是非常用戶(hù)友好型”(not very user friendly),則評(píng)分記為2.5[4]。這里的“very”一詞含有比較模糊的意味,對(duì)其解讀因人而異,也就很難客觀地衡量其“用戶(hù)友好”的屬性。此外,框架中設(shè)定的每個(gè)屬性都被設(shè)定為3個(gè)標(biāo)準(zhǔn),即“good”“acceptable”“unacceptable”,每個(gè)標(biāo)準(zhǔn)對(duì)應(yīng)不同的分值[4],但是這種賦分和表態(tài)的方式得出的結(jié)果不能更好表達(dá)態(tài)度強(qiáng)弱,可靠性欠佳。以上兩處存在明顯缺陷,在Perián-Pascual 和Mairal-Usón的文獻(xiàn)回顧部分[5]也曾明確提及,再次證實(shí)了Sauron的研究存在一定的局限性。Perián-Pascual 和Mairal-Usón兩位學(xué)者在介紹選取特性時(shí)并沒(méi)有結(jié)合術(shù)語(yǔ)抽取軟件的特點(diǎn)進(jìn)行深入的闡述,停留在ISO/IEC 9126-1: 2001中的宏觀概念層面。此外,他們僅基于ISO/IEC 9126-1: 2001中的軟件外部質(zhì)量標(biāo)準(zhǔn)選取了3個(gè)特性進(jìn)行測(cè)評(píng),在選取特性的客觀性方面欠佳,未將內(nèi)部質(zhì)量(internal quality)和使用質(zhì)量(quality in use)考慮在內(nèi),也未深入解釋3個(gè)特性之間的關(guān)系。因此,通過(guò)計(jì)算模型得出的結(jié)論的準(zhǔn)確性有待驗(yàn)證。
綜上所述,發(fā)現(xiàn)相關(guān)研究的不足在于:選取的研究特性不全面,特性間的關(guān)聯(lián)度不強(qiáng),賦分規(guī)則設(shè)定不科學(xué),概念的闡述脫離術(shù)語(yǔ)抽取軟件的特點(diǎn)。因此,本研究兼顧術(shù)語(yǔ)抽取軟件的功能性和非功能性特性,充分結(jié)合術(shù)語(yǔ)抽取軟件的特點(diǎn)對(duì)所選取特性的概念進(jìn)行詳細(xì)闡述,采用動(dòng)態(tài)化的科學(xué)評(píng)估方法,力求客觀地為用戶(hù)呈現(xiàn)一個(gè)全新的測(cè)評(píng)視角,提供一個(gè)兼具完善性和可操作性的動(dòng)態(tài)測(cè)評(píng)框架。
2? 測(cè)評(píng)框架構(gòu)建
基于此,文章遵循ISO/IEC 25010: 2011[6],借鑒GB/T 2500. 10—2016[7]中的部分內(nèi)容(如信息安全性),結(jié)合軟件質(zhì)量評(píng)價(jià)的三個(gè)部分和術(shù)語(yǔ)抽取軟件的特性,設(shè)計(jì)了一個(gè)比較全面系統(tǒng)的動(dòng)態(tài)測(cè)評(píng)框架(見(jiàn)圖1)。該框架選取了功能適用性、兼容性、性能效率、易用性、信息安全性5個(gè)特性,進(jìn)一步分解為功能正確性、功能適合性、軟件兼容性、數(shù)據(jù)兼容性、時(shí)間特性、容量、易學(xué)性、用戶(hù)界面舒適性、保密性、完整性、信息安全性的依從性11個(gè)子特性,最后再細(xì)分為若干個(gè)屬性,以幫助用戶(hù)確定最適合他們需求的軟件。本框架中的子特性并非完全按照ISO/IEC 25010: 2011和GB/T 2500. 10—2016來(lái)選取,有一部分是根據(jù)術(shù)語(yǔ)抽取軟件自身的特性(如軟件兼容性、數(shù)據(jù)兼容性)來(lái)制定的。需要指出的是,術(shù)語(yǔ)抽取軟件的測(cè)評(píng)特性紛繁復(fù)雜,本文盡可能全面地列出測(cè)評(píng)術(shù)語(yǔ)抽取軟件的重要特性。下文將對(duì)這些測(cè)評(píng)指標(biāo)逐一介紹和分析,并提出測(cè)評(píng)框架的應(yīng)用建議和應(yīng)用案例。
2.1 功能適用性
功能適用性(functional suitability)是在指定條件下使用時(shí),產(chǎn)品或系統(tǒng)提供滿(mǎn)足明確和隱含要求的功能的程度[6]。結(jié)合術(shù)語(yǔ)抽取軟件的特殊性,本框架只考慮與此密切相關(guān)的兩個(gè)子特性:功能正確性(functional correctness)和功能適合性(functional appropriateness)。
2.1.1 功能正確性
功能正確性是產(chǎn)品或系統(tǒng)提供具有所需精度的正確的結(jié)果的程度[6]。精確率(precision)、召回率(recall)和F1值(F1 measure)是評(píng)價(jià)術(shù)語(yǔ)抽取結(jié)果中較常用且易操作的度量標(biāo)準(zhǔn)[8],可用來(lái)測(cè)評(píng)術(shù)語(yǔ)抽取軟件的功能正確性。根據(jù)Vivaldi和Rodríguez構(gòu)建的計(jì)算模型(見(jiàn)圖2),精確率是軟件抽取的可采納的術(shù)語(yǔ)(accepted terms)與軟件抽取的所有候選術(shù)語(yǔ)(term candidates)數(shù)量的比值,用來(lái)衡量抽取的候選術(shù)語(yǔ)的正確性;召回率是軟件抽出的可采納的術(shù)語(yǔ)與所測(cè)試語(yǔ)料文本中黃金標(biāo)準(zhǔn)(Gold Standard)術(shù)語(yǔ)表所包含的術(shù)語(yǔ)數(shù)量的比值,用來(lái)衡量抽取的候選術(shù)語(yǔ)的全面性[8]。一般情況下,二者結(jié)合使用,精確率和召回率均為高值時(shí),則表示抽取效果理想。然而,抽取的閾值(threshold value)降低或過(guò)濾條件寬松(open filter)時(shí),將有更多符合條件的術(shù)語(yǔ),此時(shí)召回率提高而精確率降低;抽取的過(guò)濾條件嚴(yán)格(closed filter)時(shí),則會(huì)導(dǎo)致精確率提高而召回率降低[8-9],由此可以看出精確率和召回率是兩個(gè)相互制約的衡量標(biāo)準(zhǔn)。在這種情況下,Vivaldi 和Rodríguez引入了F1值的概念(見(jiàn)圖3),將其作為加權(quán)調(diào)和均值來(lái)綜合精確率和召回率的衡量值,削弱了二者間的明顯差異,可以客觀測(cè)評(píng)術(shù)語(yǔ)抽取軟件的功能正確性[8]。
2.1.2 功能適合性
功能適合性是功能促進(jìn)指定的任務(wù)和目標(biāo)實(shí)現(xiàn)的程度[6],排除任何不必要的步驟,只為用戶(hù)提供必要的步驟就可以完成任務(wù)。各類(lèi)術(shù)語(yǔ)抽取軟件提供的功能多種多樣,在測(cè)評(píng)其功能適用性時(shí),需要考慮到系統(tǒng)是否支持多語(yǔ)言對(duì)、單/雙語(yǔ)提取、單/雙語(yǔ)標(biāo)注、詞長(zhǎng)/詞頻限制、(原/譯文)停用表功能、靜噪比設(shè)置、結(jié)果篩選、術(shù)語(yǔ)添加/編輯、術(shù)語(yǔ)管理、術(shù)語(yǔ)分享、標(biāo)簽分類(lèi)等。在滿(mǎn)足以上功能的同時(shí)也需評(píng)估在執(zhí)行每一項(xiàng)必要功能或任務(wù)時(shí)是否存在不必要的操作。
2.2 兼容性
兼容性(compatibility)是在共享相同的硬件或軟件環(huán)境的條件下,產(chǎn)品、系統(tǒng)或組件能夠與其他產(chǎn)品、系統(tǒng)或組件交換信息、執(zhí)行其所需功能的程度[6]。本框架主要考慮與兼容性最相關(guān)的兩個(gè)子特性:軟件兼容性和數(shù)據(jù)兼容性。
2.2.1 軟件兼容性
軟件兼容性包括操作系統(tǒng)兼容性、應(yīng)用軟件兼容性、瀏覽器兼容性,是測(cè)評(píng)術(shù)語(yǔ)抽取軟件的一個(gè)重要因素。理想的術(shù)語(yǔ)抽取軟件應(yīng)該具有平臺(tái)無(wú)關(guān)性,即不受操作系統(tǒng)類(lèi)型的影響便可完美運(yùn)行。市面上多種術(shù)語(yǔ)抽取軟件或抽取模塊,如SDL MultiTerm Extract、Déjà Vu中的Lexicon、memoQ中的術(shù)語(yǔ)提取模塊,僅支持在Windows環(huán)境下運(yùn)行,比起某些能夠在Windows、macOS和Linux系統(tǒng)環(huán)境中運(yùn)行的術(shù)語(yǔ)抽取軟件,操作系統(tǒng)兼容性便會(huì)成為一個(gè)典型的區(qū)分指標(biāo)。應(yīng)用軟件兼容性尤指組件在與其他平臺(tái)或軟件共享通用的環(huán)境和資源的條件下,能夠有效執(zhí)行其所能提供的功能的程度,如Tmxmall在線(xiàn)對(duì)齊界面中接入語(yǔ)帆術(shù)語(yǔ)寶的術(shù)語(yǔ)抽取端口,實(shí)現(xiàn)對(duì)現(xiàn)有語(yǔ)料的雙語(yǔ)提取,在一定程度上反映了術(shù)語(yǔ)抽取軟件的軟件兼容性。瀏覽器兼容性主要針對(duì)Web端的術(shù)語(yǔ)抽取平臺(tái),是測(cè)試其在不同瀏覽器或不同分辨率的瀏覽器中能否正常運(yùn)行的重要指標(biāo)。
2.2.2 數(shù)據(jù)兼容性
數(shù)據(jù)兼容性包括新舊數(shù)據(jù)轉(zhuǎn)換性、異種數(shù)據(jù)兼容性,是確保數(shù)據(jù)在不同版本和不同軟件間自由交換的重要子特性。新舊數(shù)據(jù)轉(zhuǎn)換性是指術(shù)語(yǔ)抽取軟件不同版本間的數(shù)據(jù)兼容,比如軟件或平臺(tái)升級(jí)或更新后可能定義了新的數(shù)據(jù)格式或文件格式,此時(shí)需要考慮到轉(zhuǎn)換過(guò)程中數(shù)據(jù)的完整性與正確性,確保對(duì)原來(lái)格式的支持及更新。異種數(shù)據(jù)兼容性是指術(shù)語(yǔ)抽取軟件支持?jǐn)?shù)據(jù)格式的程度,即可否完全正確導(dǎo)入、導(dǎo)出常用格式的文件以及導(dǎo)出的數(shù)據(jù)格式被其他軟件讀取的程度。例如, SDL MultiTerm Extract 支持從大量的文件格式中抽取術(shù)語(yǔ),具體文件格式取決于用戶(hù)當(dāng)前所使用的項(xiàng)目類(lèi)型,如單語(yǔ)術(shù)語(yǔ)抽取項(xiàng)目(Monolingual Term Extraction Project)、雙語(yǔ)術(shù)語(yǔ)抽取項(xiàng)目(Bilingual Term Extraction Project)、詞典編纂項(xiàng)目(Dictionary Compilation Project)、翻譯項(xiàng)目(Translation Project)和質(zhì)檢項(xiàng)目(QA Project)。支持的文件格式合計(jì)達(dá)20余種,如TXT、DOC、HTML、HTM、XLS、PPT、XML、TMX、RTF、ISC、PPS等。抽取后的術(shù)語(yǔ)數(shù)據(jù)(XML、TXT)可以直接導(dǎo)出至術(shù)語(yǔ)庫(kù),免去術(shù)語(yǔ)數(shù)據(jù)格式轉(zhuǎn)換的步驟。語(yǔ)帆術(shù)語(yǔ)寶支持TMX、TXT和DOC(X)格式的文件導(dǎo)入,導(dǎo)出格式為XLS(X)和TBX的文件,然而還需利用SDL MultiTerm Convert將XLS(X)或TBX文件轉(zhuǎn)換為XDT和MultiTerm XML文件,方可進(jìn)一步導(dǎo)入術(shù)語(yǔ)管理軟件(如SDL MultiTerm Desktop)。
2.3 性能效率
性能效率(performance efficiency)與指定條件下所使用的資源量有關(guān)[6],即在保證高效完成任務(wù)的前提下,所用時(shí)間越短,性能效率越高。本框架主要考慮性能效率中可量化衡量的兩個(gè)子特性:時(shí)間特性(time behavior)和容量(capacity)。
2.3.1 時(shí)間特性
時(shí)間特性是指產(chǎn)品或系統(tǒng)執(zhí)行功能時(shí),其響應(yīng)時(shí)間、處理時(shí)間及吞吐率滿(mǎn)足需求的程度[6]。Perián-Pascual和Mairal-Usón曾使用一個(gè)大小為1.57MB的西班牙語(yǔ)料庫(kù)來(lái)根據(jù)詞權(quán)重(term weighting)的響應(yīng)時(shí)間測(cè)評(píng)4款術(shù)語(yǔ)抽取軟件的時(shí)間特性,進(jìn)而得出性能效率的測(cè)評(píng)結(jié)果。根據(jù)結(jié)果,他們認(rèn)為主要存在兩個(gè)影響因素,即候選術(shù)語(yǔ)提?。╟andidate extraction)的方式和詞權(quán)重的復(fù)雜性[5]。至于Perián-Pascual 和 Mairal-Usón所提及的兩個(gè)因素,不易采用量化的方式去衡量,所以本研究考慮將術(shù)語(yǔ)抽取的時(shí)間成本作為衡量性能效率的一個(gè)重要因素,具體涉及源文檔的讀取時(shí)間、人工篩選時(shí)間和數(shù)據(jù)導(dǎo)出時(shí)間。
2.3.2 容量
容量指產(chǎn)品或系統(tǒng)參數(shù)的最大限量滿(mǎn)足需求的程度[6],可以作為衡量性能效率的輔助子特性。不同術(shù)語(yǔ)抽取軟件的容量有所不同,譬如,在語(yǔ)帆術(shù)語(yǔ)寶中,普通用戶(hù)無(wú)論是單語(yǔ)提取還是雙語(yǔ)提取,單次上傳僅支持單個(gè)文件,且文件大小不超過(guò)5M,開(kāi)通會(huì)員后則支持100M的大文件上傳;在SDL MultiTerm Extract中根據(jù)所選項(xiàng)目類(lèi)型,支持單個(gè)或批量文件上傳,文件大小不受限制; memoQ中的術(shù)語(yǔ)抽取模塊可以即時(shí)對(duì)翻譯文件(translation documents)、翻譯記憶庫(kù)(translation memories)或?qū)R的語(yǔ)料庫(kù)文件(LiveDocs corpus documents)以單文件或批量文件的形式進(jìn)行術(shù)語(yǔ)抽取,文件大小同樣不受限制。
2.4 易用性
易用性(usability)指在指定的使用環(huán)境中,產(chǎn)品或系統(tǒng)在有效性、效率和滿(mǎn)意度等方面為了指定的目標(biāo)可為指定用戶(hù)使用的程度[6],本框架主要考慮與易用性密切相關(guān)的兩個(gè)子特性:易學(xué)性(learnability)、用戶(hù)界面舒適性(user interface aesthetics)。
2.4.1 易學(xué)性
易學(xué)性旨在描述用戶(hù)首次完成界面操作的難度,以及達(dá)到熟練操作時(shí)所重復(fù)的操作次數(shù),是測(cè)評(píng)術(shù)語(yǔ)抽取軟件易用性最重要的子特性。根據(jù)Joyce的分析,可從3個(gè)維度來(lái)分析易學(xué)性,即初次使用時(shí)的易學(xué)性(first-use learnability)、學(xué)習(xí)曲線(xiàn)的陡度(steepness of the learning curve)和效率飽和點(diǎn)(efficiency of the ultimate plateau),理想情況下三者表現(xiàn)優(yōu)異方可證明軟件易學(xué)性良好[10]。然而,也常常會(huì)面臨一種窘境,即用戶(hù)在使用一款術(shù)語(yǔ)抽取軟件時(shí),每一個(gè)操作步驟都有詳細(xì)說(shuō)明和解釋?zhuān)脩?hù)感覺(jué)比較容易上手,但這種情況下學(xué)習(xí)曲線(xiàn)較為平緩。隨著重復(fù)操作的次數(shù)增加,用戶(hù)對(duì)操作界面比較熟悉后,便會(huì)達(dá)到效率飽和點(diǎn),感覺(jué)詳細(xì)的操作步驟說(shuō)明會(huì)導(dǎo)致使用效率低下。因此,一款易學(xué)性良好的術(shù)語(yǔ)抽取軟件應(yīng)該考慮增加快捷鍵或跳過(guò)介紹等操作,旨在給用戶(hù)帶來(lái)快速的引導(dǎo)流程和較低的學(xué)習(xí)成本,讓用戶(hù)感到自信,從而提高用戶(hù)滿(mǎn)意度[10]。在語(yǔ)帆術(shù)語(yǔ)寶中,平臺(tái)會(huì)為每一步操作提供簡(jiǎn)單的向?qū)Щ蛭淖终f(shuō)明,比如在上傳待提取的文件時(shí),會(huì)告知用戶(hù)平臺(tái)所支持的格式和語(yǔ)言對(duì)及文件大小的限制,達(dá)到了一種用戶(hù)易學(xué)性友好的效果。此外,操作界面是否提供幫助文檔或視頻(含支持語(yǔ)種的數(shù)量)、是否提供技術(shù)支持(例如在線(xiàn)客服、及時(shí)通信或郵件聯(lián)系方式)等都應(yīng)是測(cè)評(píng)術(shù)語(yǔ)抽取軟件易學(xué)性需要考慮的指標(biāo)。
2.4.2 用戶(hù)界面舒適性
用戶(hù)界面舒適性是指用戶(hù)界面提供令人愉悅和滿(mǎn)意的交互的程度[6],屬于視覺(jué)上的設(shè)計(jì),但其重要性不亞于功能設(shè)計(jì)。舒適的用戶(hù)界面設(shè)計(jì)需要從用戶(hù)體驗(yàn)的角度出發(fā),充分考慮用戶(hù)體驗(yàn)的要素,把握好操作界面的人機(jī)交互、操作邏輯和界面美觀的整體設(shè)計(jì)。Garett認(rèn)為用戶(hù)體驗(yàn)(user experience)是一個(gè)自下而上的層級(jí)機(jī)構(gòu),包含5個(gè)層級(jí),分別是戰(zhàn)略層、范圍層、結(jié)構(gòu)層、框架層和表現(xiàn)層[11]。其中,框架層(skeleton)可以進(jìn)一步分解為界面設(shè)計(jì)、導(dǎo)航設(shè)計(jì)和信息設(shè)計(jì)[11],目的是合理分割頁(yè)面空間,提高交互體驗(yàn),同時(shí)也方便用戶(hù)的使用和操作。因此,框架層的理念可用于測(cè)評(píng)用戶(hù)界面舒適性。具體而言,界面設(shè)計(jì)包括顏色的使用、圖形化的設(shè)計(jì);導(dǎo)航設(shè)計(jì)用于呈現(xiàn)信息的表現(xiàn)形式;信息設(shè)計(jì)則用于提供有效的信息交流,如資訊更新、技術(shù)支持、咨詢(xún)方式。以SDL MultiTerm Extract為例,軟件整體界面顏色為灰白搭配,最上方采用圖標(biāo)和文字(重要步驟處加粗處理)的形式進(jìn)行信息指引,最下方為導(dǎo)航區(qū)域,簡(jiǎn)單幾個(gè)按鈕便可以引導(dǎo)用戶(hù)完成操作,在框架層面考慮了用戶(hù)的交互體驗(yàn),達(dá)到一種用戶(hù)界面舒適性良好的效果。
2.5 信息安全性
信息安全性指產(chǎn)品或系統(tǒng)保護(hù)信息和數(shù)據(jù)的程度,以使用戶(hù)、其他產(chǎn)品或系統(tǒng)具有與其授權(quán)類(lèi)型和授權(quán)級(jí)別一致的數(shù)據(jù)訪(fǎng)問(wèn)度[7],信息安全性高的術(shù)語(yǔ)抽取軟件可以保護(hù)軟/硬件、數(shù)據(jù)不因偶然或惡意原因而遭到未授權(quán)訪(fǎng)問(wèn)、破壞、篡改和泄露。本框架主要考慮與信息安全性緊密相關(guān)的3個(gè)子特性:保密性、完整性、信息安全性的依從性。
2.5.1 保密性
保密性指產(chǎn)品或系統(tǒng)確保數(shù)據(jù)只有在被授權(quán)時(shí)才能被訪(fǎng)問(wèn)的程度[7],不僅防止未獲得授權(quán)的人或系統(tǒng)訪(fǎng)問(wèn)相關(guān)的信息或數(shù)據(jù),還要保證獲得授權(quán)的人或系統(tǒng)能正常訪(fǎng)問(wèn)相關(guān)的信息或數(shù)據(jù)。以下情況均可作為測(cè)評(píng)術(shù)語(yǔ)抽取軟件保密性的指標(biāo),例如,登錄時(shí)是否需要每次都進(jìn)行用戶(hù)身份鑒別,是否存在登錄驗(yàn)證碼,是否有登錄失敗次數(shù)限制,用戶(hù)賬號(hào)密碼是否可見(jiàn)、可復(fù)制。
2.5.2 完整性
保密性與完整性定義相似,但二者側(cè)重點(diǎn)有所不同。完整性指系統(tǒng)、產(chǎn)品或組件防止未授權(quán)訪(fǎng)問(wèn)、篡改計(jì)算機(jī)程序或數(shù)據(jù)的程度[7]。對(duì)于術(shù)語(yǔ)抽取軟件而言,尤指其數(shù)據(jù)的完整性,例如在進(jìn)行術(shù)語(yǔ)管理時(shí)是否具備術(shù)語(yǔ)數(shù)據(jù)自動(dòng)保存的功能、術(shù)語(yǔ)庫(kù)數(shù)據(jù)遭受破壞或篡改后是否具備恢復(fù)功能。在語(yǔ)帆術(shù)語(yǔ)寶中,如果用戶(hù)在上次操作時(shí)忘記保存或?qū)С鲂g(shù)語(yǔ),再次進(jìn)入操作界面時(shí),會(huì)出現(xiàn)一條溫馨提示“系統(tǒng)檢測(cè)到你提取到的術(shù)語(yǔ)還未保存或?qū)С鼍庉嫽騺G棄”,在一定程度上可確保用戶(hù)術(shù)語(yǔ)數(shù)據(jù)的完整性,避免重復(fù)性操作。
2.5.3 信息安全性的依從性
信息安全性的依從性指產(chǎn)品或系統(tǒng)遵循與信息安全性相關(guān)的標(biāo)準(zhǔn)、約定或法規(guī)以及類(lèi)似規(guī)定的程度[7],目的是核實(shí)軟件、系統(tǒng)或組件是否遵循了涉及用戶(hù)認(rèn)證安全、系統(tǒng)網(wǎng)絡(luò)安全、數(shù)據(jù)庫(kù)安全、數(shù)據(jù)采取行為等法律法規(guī)。隨著信息安全立法進(jìn)程在全球持續(xù)推進(jìn),各國(guó)政府都對(duì)現(xiàn)行信息安全治理相關(guān)政策法規(guī)進(jìn)行了改進(jìn)和完善,如《中華人民共和國(guó)計(jì)算機(jī)信息系統(tǒng)安全保護(hù)條例》(1994)、《中華人民共和國(guó)網(wǎng)絡(luò)安全法》(2016)、《在線(xiàn)隱私法》(2019)、《國(guó)家安全和個(gè)人數(shù)據(jù)保護(hù)法》(2019)、《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》(2020)等。術(shù)語(yǔ)抽取軟件涉及數(shù)據(jù)的傳輸和儲(chǔ)存,小到個(gè)人隱私層面,大到國(guó)家信息安全層面,因此術(shù)語(yǔ)抽取軟件應(yīng)遵循信息安全性的依從性,不僅對(duì)用戶(hù)的信息或數(shù)據(jù)資產(chǎn)安全負(fù)責(zé),更要重視和貫徹國(guó)家信息安全戰(zhàn)略。術(shù)語(yǔ)抽取軟件是否符合或遵從相關(guān)標(biāo)準(zhǔn)、約定或法規(guī),只需檢查幫助文檔或軟件用戶(hù)服務(wù)協(xié)議即可。
3? 測(cè)評(píng)框架應(yīng)用
3.1 應(yīng)用建議
因術(shù)語(yǔ)抽取軟件中不同特性所涉及的具體指標(biāo)各異,故通過(guò)某個(gè)固定的方法去測(cè)評(píng)一款術(shù)語(yǔ)抽取軟件的全部特性是很難實(shí)現(xiàn)的,得出的結(jié)果也會(huì)欠缺說(shuō)服力。因此,在實(shí)際測(cè)評(píng)時(shí),除采用李克特量表這種評(píng)分加總式的量表,用戶(hù)還可以考慮選擇模糊綜合評(píng)價(jià)法(Fuzzy Comprehensive Evaluation,F(xiàn)CE)、層次分析法(Analytic Hierarchy Process,AHP)或混合使用的方法,將定性評(píng)價(jià)轉(zhuǎn)化為定量評(píng)價(jià)或定性和定量相結(jié)合,以科學(xué)化的方法處理模糊性強(qiáng)、難以量化測(cè)評(píng)的特性或子特性。在此方面,翻譯自動(dòng)化用戶(hù)協(xié)會(huì)(TAUS)與都柏林城市大學(xué) Sharon O’ Brien 教授團(tuán)隊(duì)合作研發(fā)的新型翻譯質(zhì)量評(píng)估系統(tǒng)(Dynamic Quality Framework,DQF)為本研究帶來(lái)一種新的評(píng)估思路,即考慮核心構(gòu)成要素,動(dòng)態(tài)靈活地選擇評(píng)估方法[12],具體使用見(jiàn)下文應(yīng)用案例。此外,在測(cè)評(píng)軟件的功能正確性時(shí)建議嚴(yán)格制定黃金標(biāo)準(zhǔn)術(shù)語(yǔ)表,其精確性將直接影響術(shù)語(yǔ)抽取的召回率。黃金標(biāo)準(zhǔn)術(shù)語(yǔ)表需要先人工進(jìn)行術(shù)語(yǔ)標(biāo)注,經(jīng)領(lǐng)域?qū)<遥╠omain specialists)審核后方可制定使用,所以在此過(guò)程中用戶(hù)可通過(guò)關(guān)注詞頻(frequency)、短語(yǔ)類(lèi)別(phrasal category)、詞目(lemma)和原材料的缺陷(source material flaws)來(lái)提升標(biāo)注效率和黃金標(biāo)準(zhǔn)術(shù)語(yǔ)表的可靠性[13],進(jìn)而確??陀^測(cè)評(píng)術(shù)語(yǔ)抽取軟件的功能適用性。
3.2 應(yīng)用案例
為綜合測(cè)評(píng)A和B兩款術(shù)語(yǔ)抽取軟件,本研究提供了一種動(dòng)態(tài)、開(kāi)放、可度量的模型示例,如表1所示。從特性出發(fā),將其分解為多個(gè)子特性,子特性繼續(xù)分解為多個(gè)度量(metrics),這樣就可以將術(shù)語(yǔ)抽取軟件的特點(diǎn)以權(quán)重的形式全面反映到度量上,形成統(tǒng)一的、可操作性的標(biāo)準(zhǔn),確保評(píng)估值在一個(gè)量綱層面。同時(shí)參考動(dòng)態(tài)質(zhì)量評(píng)估框架(DQF)的理念,根據(jù)不同的度量特點(diǎn),采用不同的測(cè)評(píng)方法,比如數(shù)值標(biāo)度、二值標(biāo)度、李克特五分量表等。具體而言,數(shù)值標(biāo)度是指得到的百分?jǐn)?shù)值,主要針對(duì)精確率、召回率和F1值。其中,召回率和F1值均應(yīng)在嚴(yán)格制定黃金標(biāo)準(zhǔn)術(shù)語(yǔ)表的前提下計(jì)算得出;二值標(biāo)度是指得到的回應(yīng)為“是”或“否”(“是”為1,“否”為0),如“是否支持靜噪比設(shè)置?”;李克特五分量表測(cè)出來(lái)的是5個(gè)回應(yīng)類(lèi)別,比如“非常滿(mǎn)意”“滿(mǎn)意”“不好說(shuō)”“不滿(mǎn)意”“非常不滿(mǎn)意”,每一個(gè)回應(yīng)類(lèi)別對(duì)應(yīng)不同的分值。
需要注意的是,隨著后期研究的不斷深入,特性、子特性和度量都會(huì)呈現(xiàn)出動(dòng)態(tài)的變化,每個(gè)部分的權(quán)重也可以隨時(shí)進(jìn)行調(diào)整,達(dá)到一種測(cè)評(píng)框架復(fù)用的效果。目前模型中的權(quán)重分配僅做實(shí)驗(yàn)演示,真實(shí)場(chǎng)景中需要根據(jù)用戶(hù)的需求和其對(duì)于各特性、子特性和度量的看法做適當(dāng)調(diào)整。假設(shè)用戶(hù)十分重視術(shù)語(yǔ)抽取軟件的功能適用性,對(duì)于其易用性并沒(méi)有那么重視,則可適當(dāng)增加功能適用性的權(quán)重,降低易用性的權(quán)重。對(duì)于子特性和度量的調(diào)整也可遵照這種方法操作。此處以功能適用性為例,對(duì)A和B兩款術(shù)語(yǔ)抽取軟件的功能適用性進(jìn)行測(cè)評(píng),如表2所示。
在該實(shí)驗(yàn)?zāi)P椭校δ苓m用性的權(quán)重為30%,按照百分制折合為30分,計(jì)算起來(lái)方便易操作,如A的精確率綜合得分=30*50%*30%*40%=1.8。如表2所示,A和B兩款術(shù)語(yǔ)抽取軟件的功能適用性以此方式便算出得分分別為15.9和20.4,則可以說(shuō)明B款在功能適用性方面優(yōu)于A款。當(dāng)其他特性也按照這種方式進(jìn)行計(jì)算后,最后將各特性的分值累加之后便是該款術(shù)語(yǔ)抽取軟件的總得分。進(jìn)而根據(jù)各款術(shù)語(yǔ)抽取軟件的總得分情況,便可以客觀地計(jì)算出用戶(hù)的最優(yōu)選擇。
4 結(jié)語(yǔ)
本文通過(guò)遵循和借鑒ISO/IEC 25010: 2011、GB/T 2500. 10—2016標(biāo)準(zhǔn),選取了功能適用性、兼容性、性能效率、易用性和信息安全性等5個(gè)特性,嘗試在前人[4-5]的基礎(chǔ)上為術(shù)語(yǔ)抽取軟件構(gòu)建一個(gè)全面、動(dòng)態(tài)、開(kāi)放的測(cè)評(píng)框架。針對(duì)測(cè)評(píng)過(guò)程中需要注意的事項(xiàng)提出框架應(yīng)用建議,并為用戶(hù)演示了如何使用這個(gè)動(dòng)態(tài)化、可度量的測(cè)評(píng)框架模型,以引導(dǎo)用戶(hù)將術(shù)語(yǔ)抽取軟件與術(shù)語(yǔ)管理過(guò)程緊密結(jié)合在一起,客觀評(píng)價(jià)術(shù)語(yǔ)抽取軟件。限于實(shí)驗(yàn)條件等方面的原因,本文提供的測(cè)評(píng)框架還需要進(jìn)一步驗(yàn)證。后續(xù)研究將從用戶(hù)體驗(yàn)的角度出發(fā),采用李克特五分量表、模糊綜合評(píng)價(jià)法和層次分析法相結(jié)合的方法,通過(guò)實(shí)證研究對(duì)該框架進(jìn)行多輪驗(yàn)證,不斷提升其科學(xué)性與可操作性。
參考文獻(xiàn)
[1] 王華樹(shù), 王少爽. 翻譯場(chǎng)景下的術(shù)語(yǔ)管理: 流程、工具與趨勢(shì)[J]. 中國(guó)科技術(shù)語(yǔ), 2019, 21(3): 9-14.
[2] BERNIER-COLBORNE G. Defining a gold standard for the evaluation of term extractors[C]//Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC ’12), 2012: 15-18.
[3] 王華樹(shù). 淺議實(shí)踐中的術(shù)語(yǔ)管理[J]. 中國(guó)科技術(shù)語(yǔ), 2013, 15(2): 11-14.
[4] SAURON V. Tearing out the terms: Evaluating terms extractors[C]//Proceedings of the Aslib Conference Translating and the Computer 24, London: The Association for Information Management, 2002: 1-18.
[5] PERIN-PASCUAL C, MAIRAL-USN R. A framework of analysis for the evaluation of automatic term extractors[J]. Vigo International Journal of Applied Linguistics, 2018: 105-125.
[6] ISO. ISO/IEC 25010:2011 Systems and Software Engineering—Systems and Software Quality Requirements and Evaluation (SQuaRE)—System and Software Quality Models[S]. Geneva: International Organization for Standardization International Electrotechnical Commission, 2011.
[7] 中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局, 中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì). GB/T 25000.10—2016 系統(tǒng)與軟件工程: 系統(tǒng)與軟件質(zhì)量要求和評(píng)價(jià)(SQuaRE)? 第10部分: 系統(tǒng)與軟件質(zhì)量模型[S]. 北京: 中國(guó)標(biāo)準(zhǔn)出版社, 2016.
[8] VIVALDI J, RODRGUEZ H. Evaluation of terms and term Extraction Systems: A practical approach[J]. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, 2007, 13(2): 225-248.
[9] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms: The C-value/NC-value method[J]. International Journal on Digital Libraries, 2000, 3(2): 115-130.
[10] JOYCE A. How to Measure Learnability of a User Interface[EB/OL].? (2019-10-20)[2021-05-04]. https://www.nngroup.com/articles/measure-learnability.
[11] GARRETT J J. 用戶(hù)體驗(yàn)要素: 以用戶(hù)為中心的產(chǎn)品設(shè)計(jì)[M]. 范曉燕,譯. 北京: 機(jī)械工業(yè)出版社, 2011.
[12] 王均松. 翻譯質(zhì)量評(píng)估新方向: DQF動(dòng)態(tài)質(zhì)量評(píng)估框架[J]. 中國(guó)科技翻譯, 2019, 32(3): 27-29.
[13] DERIEMAEKER J. Research into the performance of the terminology extraction software Termtreffer[D]. Belgium: Ghent University, 2012: 13-17.
作者簡(jiǎn)介:王華樹(shù)(1980—),男,博士,北京外國(guó)語(yǔ)大學(xué)高級(jí)翻譯學(xué)院副教授,兼任世界翻譯教育聯(lián)盟翻譯技術(shù)研究會(huì)會(huì)長(zhǎng)、中國(guó)翻譯協(xié)會(huì)本地化服務(wù)委員會(huì)副秘書(shū)長(zhǎng)、中國(guó)英漢語(yǔ)比較研究會(huì)外語(yǔ)教育技術(shù)專(zhuān)業(yè)委員會(huì)副秘書(shū)長(zhǎng)、《中國(guó)科技術(shù)語(yǔ)》編委等。多年來(lái)致力于推動(dòng)翻譯技術(shù)產(chǎn)學(xué)研的生態(tài)融合,在《中國(guó)翻譯》《外國(guó)語(yǔ)》《外語(yǔ)電化教學(xué)》《上海翻譯》等期刊發(fā)表論文六十余篇,主持國(guó)家級(jí)、省部級(jí)及校級(jí)科研項(xiàng)目十多項(xiàng),出版《人工智能時(shí)代翻譯技術(shù)研究》《計(jì)算機(jī)輔助翻譯概論》《應(yīng)用程序本地化》《翻譯與本地化項(xiàng)目管理》等十多部著作。研究領(lǐng)域:翻譯與本地化技術(shù)、外語(yǔ)教育技術(shù)、術(shù)語(yǔ)管理。通信方式:wanghuashu@vip.qq.com。
劉世界(1994—),男,上海海事大學(xué)外國(guó)語(yǔ)學(xué)院2019級(jí)碩士研究生,專(zhuān)業(yè)為英語(yǔ)筆譯,曾在《外語(yǔ)教學(xué)》《中國(guó)ESP研究》等刊物上發(fā)表論文。研究方向:翻譯技術(shù)、術(shù)語(yǔ)管理、機(jī)器翻譯譯后編輯。通信方式:henryliushijie@163.com。