亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        專(zhuān)業(yè)領(lǐng)域技術(shù)性英文詞匯識(shí)別的多方法對(duì)比

        2014-09-08 06:49:24崔維霞王均松
        中國(guó)科技術(shù)語(yǔ) 2014年4期
        關(guān)鍵詞:詞匯文本方法

        崔維霞 王均松

        (1.西安外國(guó)語(yǔ)大學(xué),陜西西安 710061; 2. 西北工業(yè)大學(xué),陜西西安 710129)

        專(zhuān)業(yè)領(lǐng)域技術(shù)性英文詞匯識(shí)別的多方法對(duì)比

        崔維霞1王均松2

        (1.西安外國(guó)語(yǔ)大學(xué),陜西西安 710061; 2. 西北工業(yè)大學(xué),陜西西安 710129)

        以航空英語(yǔ)為例,采用信息檢索領(lǐng)域常用的準(zhǔn)確率、召回率等指標(biāo)對(duì)四種常用的專(zhuān)業(yè)技術(shù)詞匯識(shí)別方法(使用專(zhuān)業(yè)詞典、借助語(yǔ)境線索、分類(lèi)排除法和主題詞分析法)的識(shí)別有效性進(jìn)行評(píng)估。結(jié)果顯示,上述幾種方法的平均識(shí)別率均不高,完全依靠某一種方法來(lái)識(shí)別專(zhuān)業(yè)技術(shù)詞匯不可避免地存在不足或缺陷,建議開(kāi)展多方法相結(jié)合的綜合研究。

        專(zhuān)業(yè)技術(shù)詞匯,專(zhuān)門(mén)用途英語(yǔ),識(shí)別方法

        引 言

        專(zhuān)業(yè)技術(shù)詞匯(technical vocabulary),顧名思義,是指與特定學(xué)科或領(lǐng)域密切相關(guān)的專(zhuān)業(yè)用詞。這類(lèi)詞匯具有顯著的學(xué)科特異性,頻繁出現(xiàn)在所屬專(zhuān)業(yè)領(lǐng)域內(nèi),意義相對(duì)固定。近年來(lái),隨著科技的迅猛發(fā)展和全球科技信息交流需求的增長(zhǎng), 對(duì)科技領(lǐng)域內(nèi)英語(yǔ)詞匯使用的研究也得到極大的發(fā)展。然而,在以往的研究中,專(zhuān)業(yè)技術(shù)詞匯的重要性往往被低估甚至是忽視??伎怂鼓?Coxhead)曾指出,專(zhuān)業(yè)技術(shù)詞匯通常只構(gòu)成學(xué)術(shù)性文章中約5%的行文文字[1]。但在鐘和內(nèi)申(Chung and Nation)的研究中卻發(fā)現(xiàn)無(wú)論是在解剖學(xué) (31.2%) 還是應(yīng)用語(yǔ)言學(xué)文本中(20.6%),專(zhuān)業(yè)技術(shù)詞匯所占的比例遠(yuǎn)遠(yuǎn)高于先前的估計(jì)[2]。此外,大多數(shù)詞匯方面的研究都集中于高頻詞匯和學(xué)術(shù)性詞匯,專(zhuān)業(yè)技術(shù)詞匯方面的文獻(xiàn)則乏陳可述,國(guó)內(nèi)更是鮮有此類(lèi)研究。由于缺乏統(tǒng)一的標(biāo)準(zhǔn)和科學(xué)有效的識(shí)別方法,人們對(duì)于該類(lèi)詞匯知之甚少。事實(shí)上,專(zhuān)業(yè)技術(shù)詞匯無(wú)論是對(duì)于專(zhuān)門(mén)用途英語(yǔ)教學(xué)、專(zhuān)門(mén)用途英語(yǔ)教材設(shè)計(jì)還是專(zhuān)業(yè)外語(yǔ)詞典編纂都具有極為重要的意義,應(yīng)當(dāng)引起廣泛的關(guān)注。

        一 專(zhuān)業(yè)技術(shù)詞匯的識(shí)別方法

        從20世紀(jì)80年代開(kāi)始,國(guó)外很多專(zhuān)家和學(xué)者就在專(zhuān)業(yè)技術(shù)詞匯識(shí)別方面展開(kāi)了積極的探索。目前,學(xué)界主流的識(shí)別方法有以下幾種:使用專(zhuān)業(yè)詞典[3-4];依賴文本中提供的語(yǔ)境線索[5-7];詞匯分類(lèi)法[1,8]和主題詞分析法[9-10]。

        識(shí)別專(zhuān)業(yè)技術(shù)詞匯最常用的方法就是查閱專(zhuān)業(yè)詞典。由于專(zhuān)業(yè)詞典只收錄專(zhuān)科性語(yǔ)詞,包括專(zhuān)門(mén)術(shù)語(yǔ)和專(zhuān)有名詞,因此可以看作是特定學(xué)科或?qū)I(yè)的技術(shù)性詞匯的集合。而判斷某個(gè)詞是否屬于專(zhuān)業(yè)技術(shù)詞匯,最直接的方法就是看該詞是否出現(xiàn)在專(zhuān)業(yè)詞典中,如果出現(xiàn)在該領(lǐng)域的專(zhuān)業(yè)詞典中就被認(rèn)定為專(zhuān)業(yè)技術(shù)詞匯,否則為非專(zhuān)業(yè)技術(shù)詞匯。但需要注意的是,有的詞雖然出現(xiàn)在專(zhuān)業(yè)詞典的詞條位置,但卻是某個(gè)多詞短語(yǔ)不可分割的組成部分,因此不能被認(rèn)定屬于專(zhuān)業(yè)技術(shù)詞匯。此外,各個(gè)專(zhuān)業(yè)領(lǐng)域都至少存在一本甚至是多本專(zhuān)業(yè)詞典,但并不是每一本詞典都能滿足和適合當(dāng)前研究的需要。由于面向的讀者對(duì)象不同,收詞立目的原則也各不相同。比如,有的專(zhuān)業(yè)詞典的使用對(duì)象為本學(xué)科領(lǐng)域內(nèi)能夠使用外語(yǔ)的內(nèi)行讀者和專(zhuān)業(yè)翻譯人員,因此只收錄那些很專(zhuān)、很細(xì)的術(shù)語(yǔ);而有的專(zhuān)業(yè)詞典讀者對(duì)象十分寬泛,從實(shí)用的角度出發(fā),詞典編纂者在收錄專(zhuān)科詞匯的同時(shí),通常會(huì)酌收部分普通詞匯。鐘和內(nèi)申(Chung and Nation)[11]曾指出,“最大的詞典不一定是最好的選擇,因?yàn)榇蟮脑~典往往包括了很多非專(zhuān)業(yè)技術(shù)詞匯”。所以詞典的選擇對(duì)于專(zhuān)業(yè)技術(shù)詞匯識(shí)別準(zhǔn)確率至關(guān)重要,在選擇時(shí)應(yīng)充分考慮其能否覆蓋所研究領(lǐng)域的專(zhuān)業(yè)技術(shù)詞匯,收詞量大小是否合適,更新與否,以及是否存在英式英語(yǔ)或美式英語(yǔ)之偏好等等。

        2.借助語(yǔ)境線索

        在科技文本中,當(dāng)專(zhuān)業(yè)技術(shù)詞匯首次出現(xiàn)時(shí),作者通常會(huì)利用各種語(yǔ)境線索對(duì)其進(jìn)行標(biāo)識(shí)。借助這些語(yǔ)境線索可以快速、準(zhǔn)確地識(shí)別文本中的專(zhuān)業(yè)技術(shù)詞匯。常見(jiàn)的語(yǔ)境線索可以分為以下幾種:第一種是采取隱含下定義的方式,通常借用一些詞或短語(yǔ),如“referred to as”“known as”“namely”“be called”等引出專(zhuān)業(yè)技術(shù)詞匯。例如:The design process starts by considering the forces that act on the aircraft,namely, lift, drag, thrust, and weight。第二種是借助于印刷格式上的線索,例如粗體、斜體和括號(hào)等標(biāo)記。 如Propulsion,Takeoff, angle of attack (AOA)等。第三種則是利用圖表或插圖中的標(biāo)簽。在科技文本中,為了闡釋某個(gè)概念或原理,通常會(huì)使用大量的圖表或插圖,其中的專(zhuān)業(yè)技術(shù)詞匯或術(shù)語(yǔ)往往會(huì)有明確的標(biāo)識(shí)。然而,在借助線索識(shí)別專(zhuān)業(yè)技術(shù)詞匯的具體操作中仍然存在不少困難。首先,下定義的形式多種多樣,某些形式上不很規(guī)范的定義很難識(shí)別。其次,印刷上的形式標(biāo)記功能不僅僅局限于突顯專(zhuān)業(yè)技術(shù)詞匯,也就是說(shuō)并非所有的粗體或斜體詞匯都是專(zhuān)業(yè)技術(shù)詞匯。此外,圖表和插圖中的標(biāo)簽文字包括了很多的功能詞及其他,需要進(jìn)行仔細(xì)的篩選和識(shí)別。

        3.分類(lèi)排除法

        內(nèi)申把英語(yǔ)詞匯分為四類(lèi):高頻詞匯(high frequency words)、專(zhuān)業(yè)技術(shù)詞匯(technical words)、學(xué)術(shù)性詞匯(academic words)和低頻詞匯(low frequency words)。高頻詞匯指的是在所有文體中都頻繁使用的基礎(chǔ)核心詞匯;專(zhuān)業(yè)技術(shù)詞匯是指在專(zhuān)業(yè)文本或特定學(xué)科領(lǐng)域內(nèi)使用的術(shù)語(yǔ);學(xué)術(shù)性詞匯介于高頻詞匯和專(zhuān)業(yè)技術(shù)性詞匯之間,也稱(chēng)半技術(shù)性詞匯(sub-technical words),這類(lèi)詞匯在文學(xué)性文體中出現(xiàn)的頻率很低,但卻頻繁出現(xiàn)在各個(gè)領(lǐng)域的學(xué)術(shù)性文本中;而低頻詞泛指上述三類(lèi)詞匯以外的所有詞匯,包括其他學(xué)科領(lǐng)域的專(zhuān)業(yè)技術(shù)詞匯、專(zhuān)有名詞、次高頻詞匯以及語(yǔ)言中使用頻率很低的詞語(yǔ)。內(nèi)申對(duì)英語(yǔ)詞匯的分類(lèi)為利用詞頻分析軟件Range進(jìn)行專(zhuān)業(yè)技術(shù)詞匯識(shí)別提供了理論基礎(chǔ),通過(guò)排除其他三類(lèi)詞匯就可以得到專(zhuān)業(yè)技術(shù)詞匯。Range 是可用于分析文本中詞匯深度和廣度的計(jì)算機(jī)軟件,該軟件包含三級(jí)詞匯底表,前兩個(gè)詞表包含2 000個(gè)詞族,源自韋斯特(West)所編的《通用英語(yǔ)詞表》[12](AGeneralServiceListofEnglishWords),即所謂的高頻詞。第三個(gè)詞表包含570個(gè)詞族,源自Coxhead的《學(xué)術(shù)英語(yǔ)詞表》[1](AcademicWordList),即所謂的學(xué)術(shù)詞匯。將以上三個(gè)詞表作為基礎(chǔ)詞表,使用Range軟件對(duì)專(zhuān)業(yè)文本進(jìn)行詞匯自動(dòng)評(píng)估便可以得到篩選后的專(zhuān)業(yè)技術(shù)詞匯。

        4.主題詞分析法

        在統(tǒng)計(jì)主題詞時(shí)采用卡方檢驗(yàn)必須滿足兩個(gè)條件:首先,使用的觀察語(yǔ)料庫(kù)要足夠大,只有樣本空間足夠大才可以為主題詞提供充足的出現(xiàn)機(jī)會(huì),從而最大程度減少低頻事件概率對(duì)統(tǒng)計(jì)結(jié)果的影響。其次,進(jìn)行主題詞統(tǒng)計(jì)的前提是參照語(yǔ)料庫(kù)(文本)在總量上要大于觀察語(yǔ)料庫(kù)(文本)。許家金曾引用托尼·柏柏爾·薩丁拾(Tony Berber-Sardinha)的觀點(diǎn)認(rèn)為參照語(yǔ)料庫(kù)比觀察語(yǔ)料庫(kù)大5倍就可以滿足需要,參照語(yǔ)料庫(kù)需要達(dá)到一定的規(guī)模,才可以得到足夠豐富的主題詞[14]。此外,參照語(yǔ)料庫(kù)的選擇取決于研究目的,研究目的不同,語(yǔ)料庫(kù)的選擇也不同,但要排除其中與觀察語(yǔ)料具有相同主題的文本。

        黑米屬于糯米類(lèi),是我國(guó)古老的珍貴稻種,屬于藥食同源稻米。黑米富含特有的營(yíng)養(yǎng)與功能因子,具有調(diào)節(jié)人體生理功能的作用,素有“黑珍珠”和“世界米中之王”的美譽(yù),是一種有很大開(kāi)發(fā)潛力的黑色食品資源。

        二 研究設(shè)計(jì)

        1.研究問(wèn)題

        本研究試圖回答下列兩個(gè)問(wèn)題:(1)使用專(zhuān)業(yè)詞典、借助語(yǔ)境線索、分類(lèi)排除法以及主題詞分析法在專(zhuān)業(yè)技術(shù)詞匯識(shí)別方面各自有哪些優(yōu)勢(shì)和不足。(2)以上四種方法中,哪一種是最理想的識(shí)別方法。

        2.語(yǔ)料來(lái)源及預(yù)處理

        研究中使用的文本材料取自美國(guó)航空航天研究所教育系列叢書(shū)《飛行器引擎設(shè)計(jì)》(AIAAEducationSeries)第二版,第2章“Constraint Analysis”,共3 053詞次。首先對(duì)所選語(yǔ)料進(jìn)行預(yù)處理,清理其中不合規(guī)范的符號(hào)、格式以及拼寫(xiě)錯(cuò)誤。然后對(duì)文本進(jìn)行詞形還原(lemmatization)處理,還原之后文本中所有的詞被其原形所替代。在本研究中,詞項(xiàng)①(lemma)被確定為詞頻統(tǒng)計(jì)單位。

        3.研究方法

        本研究采用定性與定量相結(jié)合的方法,以人工標(biāo)注專(zhuān)業(yè)技術(shù)詞匯的結(jié)果為標(biāo)準(zhǔn),對(duì)以上四種常見(jiàn)的識(shí)別方法進(jìn)行比較,并對(duì)其準(zhǔn)確率和效度做出評(píng)估。為評(píng)價(jià)不同方法的專(zhuān)業(yè)技術(shù)詞匯識(shí)別性能, 這里引入三個(gè)通用的測(cè)評(píng)指標(biāo),即準(zhǔn)確率(Precision Rate)、召回率(Recall Rate)和F值(F-score)。準(zhǔn)確率和召回率是廣泛用于信息檢索領(lǐng)域的兩個(gè)度量值,用來(lái)評(píng)價(jià)統(tǒng)計(jì)結(jié)果的質(zhì)量。其中準(zhǔn)確率衡量的是識(shí)別方法的查準(zhǔn)率;召回率衡量的是識(shí)別方法的查全率。準(zhǔn)確率和召回率是相互制約的,一般情況下,準(zhǔn)確率高、召回率就低,召回率高、準(zhǔn)確率就低。為了能夠綜合地衡量各種方法的識(shí)別性能,避免僅比較準(zhǔn)確率和召回率的片面性,本研究引入了二者的均值F值作為性能評(píng)價(jià)的重要指標(biāo)。具體定義下:

        4.數(shù)據(jù)統(tǒng)計(jì)

        首先,采取人工標(biāo)注的方法識(shí)別觀察文本中的專(zhuān)業(yè)技術(shù)詞匯,并將統(tǒng)計(jì)結(jié)果作為評(píng)估的參照標(biāo)準(zhǔn)。本研究借鑒鐘和內(nèi)申實(shí)驗(yàn)中使用四級(jí)檢選量表(4-point scale)的做法[2],根據(jù)詞匯的語(yǔ)境意義與航空領(lǐng)域的語(yǔ)義相關(guān)度,將詞匯劃分為相關(guān)性由弱到強(qiáng)的四個(gè)等級(jí)。其中,一級(jí)和二級(jí)詞匯意義與該領(lǐng)域的相關(guān)性較弱,被認(rèn)為是非專(zhuān)業(yè)技術(shù)詞匯;而三級(jí)和四級(jí)詞匯相關(guān)性較強(qiáng)被認(rèn)為是專(zhuān)業(yè)技術(shù)詞匯。通過(guò)篩選和識(shí)別,共獲得專(zhuān)業(yè)技術(shù)詞匯73個(gè),其中包括與航空領(lǐng)域密切相關(guān)的三級(jí)詞匯53個(gè)(aerodynam-ic,constraint,drag,etc.),和航空領(lǐng)域獨(dú)有的四級(jí)詞匯20個(gè) (airfoil,afterburner,fuselage,etc.)。

        至于使用專(zhuān)業(yè)詞典,實(shí)驗(yàn)中采用了英國(guó)A&C Black 圖書(shū)公司出版的《航空英語(yǔ)詞典》(DictionaryofAviation)第二版,該詞典收錄了5 500多個(gè)詞條,涵蓋了航空領(lǐng)域各個(gè)學(xué)科門(mén)類(lèi)中的通用技術(shù)詞匯,而且定期更新,是航空專(zhuān)業(yè)科技人員使用和學(xué)習(xí)的常備工具書(shū)。經(jīng)過(guò)與專(zhuān)業(yè)詞典比對(duì),共獲取候選詞匯359個(gè),其中正確識(shí)別的專(zhuān)業(yè)技術(shù)詞匯有59個(gè),準(zhǔn)確率為16.43%,召回率為80.82%,F(xiàn)值為27.31%。借助語(yǔ)境線索共識(shí)別85個(gè)候選詞匯,包括26個(gè)帶有定義標(biāo)記的詞匯,46個(gè)帶有印刷標(biāo)記的詞匯以及13個(gè)出現(xiàn)在圖表和插圖中的標(biāo)簽詞匯。其中正確識(shí)別的專(zhuān)業(yè)技術(shù)詞匯有41個(gè),識(shí)別準(zhǔn)確率為48.24%,召回率為56.16%,F(xiàn)值為51.90%。在分類(lèi)排除法中,使用詞頻分析軟件Range對(duì)觀察文本進(jìn)行統(tǒng)計(jì)分析,結(jié)果顯示,通過(guò)該方法共識(shí)別168個(gè)專(zhuān)業(yè)技術(shù)詞匯,其中正確識(shí)別的專(zhuān)業(yè)技術(shù)詞匯有46個(gè),識(shí)別準(zhǔn)確率為27.38%,召回率為63.01%,F(xiàn)值為38.17%。而主題詞分析法以英國(guó)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)(BAWE)[15]為參照語(yǔ)料庫(kù),使用wordsmith3.0的詞表功能,分別創(chuàng)建航空英語(yǔ)詞表和英國(guó)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)詞表,然后對(duì)兩個(gè)詞表進(jìn)行對(duì)比,通過(guò)卡方檢驗(yàn)共篩選出候選詞匯178個(gè)。其中正確識(shí)別的專(zhuān)業(yè)的詞匯有57個(gè),準(zhǔn)確率為32.02%,召回率為78.08%,F(xiàn)值為45.45%(詳見(jiàn)表1)。

        表1 識(shí)別方法評(píng)估

        三 結(jié)果與討論

        在以上幾種方法中,使用專(zhuān)業(yè)詞典識(shí)別專(zhuān)業(yè)技術(shù)詞匯的召回率在幾種方法中是最高的,達(dá)到了80.82%,也就是說(shuō)通過(guò)這種方法可以最大限度地識(shí)別文本中的專(zhuān)業(yè)技術(shù)詞匯,遺漏的情況比較少。但是這種方法的準(zhǔn)確率卻是幾種方法中最低的,僅有16.43%,這就極大地影響了該方法識(shí)別率的平均值(27.31%),這主要是因?yàn)楹芏嘣~典從使用者的角度出發(fā)將很多的跨領(lǐng)域技術(shù)詞匯和功能詞匯收錄其中。此外,使用專(zhuān)業(yè)詞典在實(shí)際操作中不可避免的一個(gè)問(wèn)題就在于選用不同的專(zhuān)業(yè)詞典,識(shí)別結(jié)果往往差別很大。因此,詞典的選擇對(duì)于研究結(jié)果影響非常大。

        借助語(yǔ)境線索在專(zhuān)業(yè)技術(shù)詞匯識(shí)別方面的準(zhǔn)確率達(dá)到48.24%,遠(yuǎn)遠(yuǎn)高于其他幾種方式,但是其召回率卻比較低,僅有56.16%,盡管這種方法的平均準(zhǔn)確率(51.90%)差強(qiáng)人意,但由于其遺漏的專(zhuān)業(yè)技術(shù)詞匯較多,不能看作是一種理想的識(shí)別方法。此外,在具體的操作過(guò)程中,一方面很多語(yǔ)境線索由于印刷格式或形式上的問(wèn)題難以識(shí)別;另一方面,根據(jù)不同類(lèi)別線索識(shí)別的詞匯往往出現(xiàn)重復(fù),這就增加了篩選工作的難度,同時(shí)也在一定程度上影響了識(shí)別的效率。

        相對(duì)于使用專(zhuān)業(yè)詞典和借助語(yǔ)境線索,分類(lèi)排除法操作簡(jiǎn)單,可行性強(qiáng)。研究人員只需在統(tǒng)計(jì)結(jié)果中排除高頻詞匯和學(xué)術(shù)性詞匯,即可獲得包含少量低頻詞匯的專(zhuān)業(yè)技術(shù)詞匯。而且,在詞匯分布軟件Range的輔助下,可以對(duì)文本進(jìn)行批量處理,很大程度上減輕了逐個(gè)判別專(zhuān)業(yè)技術(shù)詞匯的負(fù)擔(dān)。但是這種方法存在很大的局限性,由于部分高頻詞匯和學(xué)術(shù)詞匯存在一詞多義和一詞多類(lèi)的現(xiàn)象,在特定的專(zhuān)業(yè)領(lǐng)域里會(huì)具有特殊的含義,從而轉(zhuǎn)變?yōu)樵擃I(lǐng)域的專(zhuān)業(yè)技術(shù)詞匯。例如load在一般的用法中意為“裝載”,但在航空領(lǐng)域有其特殊的意義“負(fù)荷”。在等級(jí)量表中該詞被評(píng)定為航空專(zhuān)業(yè)技術(shù)詞匯,但在篩選過(guò)程中它作為高頻詞匯被排除在航空專(zhuān)業(yè)技術(shù)詞匯之外,這就使得專(zhuān)業(yè)技術(shù)詞匯的召回率較低(63.01%)。此外,篩選后得到的專(zhuān)業(yè)詞表中還包括了低頻詞匯,盡管數(shù)量很少,但也在一定程度上降低了該方法的準(zhǔn)確率(27.38%),因此該方法的平均識(shí)別率也偏低(38.17%)。

        主題詞分析法在專(zhuān)業(yè)技術(shù)詞匯查全方面的性能僅次于使用專(zhuān)業(yè)詞典,召回率高達(dá)78.08%,而在查準(zhǔn)率方面則稍稍遜色,準(zhǔn)確率為32.02%,F(xiàn)值為45.45%。而且該方法易于操作,在計(jì)算機(jī)軟件wordsmith的輔助下可以同時(shí)處理上百個(gè)文本,處理速度遠(yuǎn)遠(yuǎn)超過(guò)了其他方法。目前,這種方法技術(shù)上還不夠完善,準(zhǔn)確率還有待提高。首先,基于詞頻對(duì)比的方法無(wú)法區(qū)分專(zhuān)業(yè)技術(shù)詞匯與其搭配詞,如constraint analysis在文本中反復(fù)出現(xiàn),其中constraint是專(zhuān)業(yè)技術(shù)詞匯,而analysis是非專(zhuān)業(yè)技術(shù)詞匯。但由于analysis作為專(zhuān)業(yè)技術(shù)詞匯的搭配詞在文本中的復(fù)現(xiàn)頻率超高,因此也被錯(cuò)誤地歸為專(zhuān)業(yè)技術(shù)詞匯。其次,在科技文本中廣泛存在的某些語(yǔ)言形式,如含連字符的詞(Air-to-Air)、專(zhuān)有名詞(MIG-31)以及具有固定意義的特殊符號(hào)(/)在識(shí)別的過(guò)程中往往被忽略或遺漏。

        綜合以上的討論可以發(fā)現(xiàn),幾種方法的平均識(shí)別率都不高,而且各自存在明顯的優(yōu)勢(shì)和不足,很難指出哪一種是最理想的識(shí)別方式。事實(shí)上,完全依靠某一種方法來(lái)識(shí)別專(zhuān)業(yè)技術(shù)詞匯不可避免地存在不足或缺陷。在本研究中,平均值較高的兩種方式分別是基于語(yǔ)言規(guī)則的借助語(yǔ)境線索和基于頻率統(tǒng)計(jì)的主題詞分析法。雖然借助語(yǔ)境線索平均識(shí)別率最高,但是該方法最大的缺陷在于其召回率非常低,而且采用人工識(shí)別的方式非常耗時(shí),尤其是在文本量較大的情況下,效率低下。主題詞分析的方法通過(guò)比較不同語(yǔ)料庫(kù)間詞頻差異的方式識(shí)別專(zhuān)業(yè)技術(shù)詞匯,大部分的工作可以通過(guò)計(jì)算機(jī)輔助的方法短時(shí)間內(nèi)完成。它能夠最大程度地減輕篩選負(fù)擔(dān),降低識(shí)別難度,提高識(shí)別效率,這標(biāo)志著基于計(jì)算機(jī)輔助的方法在專(zhuān)業(yè)技術(shù)詞匯識(shí)別及自動(dòng)提取方面已經(jīng)取得了重大突破和進(jìn)步。但是,必須承認(rèn),純粹基于統(tǒng)計(jì)的方法在專(zhuān)業(yè)技術(shù)詞匯提取上效果并不理想,尤其是其準(zhǔn)確率還不高,統(tǒng)計(jì)結(jié)果最終需要依賴專(zhuān)業(yè)人員根據(jù)學(xué)科知識(shí)和經(jīng)驗(yàn)做進(jìn)一步的判斷。因此,在專(zhuān)業(yè)技術(shù)詞匯識(shí)別中,建議將基于語(yǔ)言規(guī)則的借助語(yǔ)境線索法和基于統(tǒng)計(jì)的主題詞分析法相結(jié)合,對(duì)語(yǔ)境線索中的語(yǔ)言規(guī)則進(jìn)行抽象并應(yīng)用于專(zhuān)業(yè)技術(shù)詞匯的初步篩選,然后再進(jìn)行詞頻對(duì)比,從而提高專(zhuān)業(yè)技術(shù)詞匯識(shí)別的效率和準(zhǔn)確率,這在很大程度上也為未來(lái)的研究提供了思路和可以借鑒的方法。

        四 結(jié) 語(yǔ)

        隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展和科學(xué)技術(shù)的不斷進(jìn)步, 人類(lèi)社會(huì)對(duì)反映科技現(xiàn)狀和發(fā)展動(dòng)態(tài)的專(zhuān)業(yè)技術(shù)詞匯需求劇增, 專(zhuān)業(yè)技術(shù)詞匯識(shí)別有重要的理論價(jià)值和現(xiàn)實(shí)意義。本文首先對(duì)幾種常見(jiàn)專(zhuān)業(yè)技術(shù)詞匯識(shí)別方法的原理進(jìn)行了介紹,然后分別使用這些方法對(duì)航空領(lǐng)域文本中的專(zhuān)業(yè)技術(shù)詞匯進(jìn)行識(shí)別,并利用信息檢索領(lǐng)域常用的準(zhǔn)確率、召回率等指標(biāo)對(duì)其識(shí)別有效性進(jìn)行評(píng)估。評(píng)估結(jié)果顯示,上述幾種方法的平均識(shí)別率均不高,完全依靠某一種方法來(lái)識(shí)別專(zhuān)業(yè)技術(shù)詞匯不可避免地存在不足或缺陷,建議采取借助語(yǔ)境線索和主題詞分析相結(jié)合的方式,在進(jìn)行詞頻統(tǒng)計(jì)的基礎(chǔ)上引入語(yǔ)言規(guī)則,從而改善和提高專(zhuān)業(yè)技術(shù)詞匯識(shí)別的效率和準(zhǔn)確率。此外,隨著科學(xué)技術(shù)的進(jìn)步,專(zhuān)業(yè)技術(shù)詞匯的識(shí)別需要從原來(lái)主要以手工識(shí)別的方式轉(zhuǎn)變?yōu)橛?jì)算機(jī)輔助的自動(dòng)識(shí)別,識(shí)別的對(duì)象也需要從單詞擴(kuò)展到多詞短語(yǔ)。到目前為止,國(guó)內(nèi)在專(zhuān)業(yè)技術(shù)詞匯識(shí)別和提取方面的理論研究還不是很成熟,由于缺乏一個(gè)完整的評(píng)價(jià)系統(tǒng),對(duì)實(shí)驗(yàn)結(jié)果無(wú)法做統(tǒng)一的評(píng)測(cè),造成了很多重復(fù)性的工作,這很不利于學(xué)科的發(fā)展。所以,建立一個(gè)開(kāi)放、完整的評(píng)價(jià)體系是當(dāng)前亟須解決的一個(gè)問(wèn)題。

        注釋

        ①詞項(xiàng)是由一個(gè)基礎(chǔ)詞(base word)與它的詞類(lèi)相同的曲折形式 (inflected forms) 構(gòu)成的一系列單詞,例如動(dòng)詞access這個(gè)詞項(xiàng)就由基礎(chǔ)詞access和它的曲折形式accesses、accessed、accessing構(gòu)成[8]。

        [1] Coxhead A. A new academic word list [J]. TESOL Quarterly, 2000, 34(2):213-238.

        [2] Chung T M, Nation P. Technical vocabulary in specialized texts [J]. Reading in a Foreign Language, 2003, 15(2):103-116.

        [3] Nation I S P Learning Vocabulary in Another Language [M].Cambridge: Cambridge University Press,2001.

        [4] Oh J,Lee J,Lee K,et al. Japanese term extraction using dictionary hierarchy and a machine translation system [J]. Terminology, 2000(6): 287-311.

        [5] Bramki D, Williams R. Lexical familiarization in economics text, and its pedagogic implications in reading comprehension [J]. Reading in a Foreign Language,1984(2): 169-181.

        [6] Flowerdew J. Definitions in science lectures [J]. Applied Linguistics, 1992(13):202-221.

        [7] Williams R. Lexical familiarization in content area textbooks [C]// Chapman, L. The Reader and the Text. London: Heinemann Educational Books Ltd, 1981:49-59.

        [8] Kwary D A. A hybrid method for determining technical vocabulary [J]. System, 2011(39):175-185.

        [9] Scott M. PC analysis of keywords and key keywords [J]. System 25,1997(2):233-245.

        [10] Anthony L. AntConc: A Learner and Classroom Frien- dly, Multi-Platform Corpus Analysis Toolkit[C]//In proceedings of IWLeL 2004: An Interactive Workshop on Language e-Learning.Tokyo:2004.

        [11] Chung T M,Nation P. Identifying technical vocabulary[J].System,2004(32):251-263.

        [12] West M.General Service List of English Words[M].London: Longman,Green & Co.,1953.

        [13] 李紹山.語(yǔ)言研究中的統(tǒng)計(jì)學(xué)[M]. 西安: 西安交通大學(xué)出版社,2001.

        [14] 梁茂成,李文中,許家金.語(yǔ)料庫(kù)應(yīng)用教程[M].北京:外語(yǔ)教學(xué)與研究出版社,2010.

        [15] Nesi H,Gardner S, Thompson P,et al. British Academic Written English Corpus (BAWE)[DB/OL],2010. http://wwwm.coventry.ac.uk/researchnet/BAWE/Pages/BAWE.aspx

        動(dòng) 態(tài)

        第十二期“出版物規(guī)范應(yīng)用科技名詞培訓(xùn)研討會(huì)”在濟(jì)南舉辦

        2014年6月15—20日,全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)與新聞出版總署教育培訓(xùn)中心在山東省濟(jì)南市聯(lián)合舉辦了第十二期“出版物規(guī)范應(yīng)用科技名詞培訓(xùn)研討會(huì)”。來(lái)自全國(guó)各地55家科技期刊、圖書(shū)出版單位的71名編輯參加了此次培訓(xùn)。培訓(xùn)研討會(huì)在很大范圍內(nèi)宣傳了規(guī)范科學(xué)技術(shù)名詞在新聞出版行業(yè)中的意義,對(duì)科技名詞規(guī)范工作進(jìn)行了比較全面的介紹。

        全國(guó)科技名詞委發(fā)揮自身優(yōu)勢(shì),多位專(zhuān)家授課老師結(jié)合出版專(zhuān)業(yè)實(shí)際,以豐富的科技名詞審定工作經(jīng)驗(yàn),運(yùn)用大量實(shí)例和資料,深入細(xì)致地介紹了科技名詞規(guī)范工作及主要成果,使學(xué)員在提高編輯專(zhuān)業(yè)技能的同時(shí),對(duì)科技名詞規(guī)范工作的重要性有了深刻認(rèn)識(shí),對(duì)科技名詞審定工作的方法與原則有了深入了解,對(duì)科技名詞的實(shí)際應(yīng)用有了更加全面的體會(huì),盡力使學(xué)員成為規(guī)范使用科技名詞的推廣者。研討會(huì)上還特意為學(xué)員們安排了科技名詞實(shí)際應(yīng)用測(cè)試環(huán)節(jié),鞏固學(xué)員們的學(xué)習(xí)成果。

        為提高學(xué)員在日常工作查詢應(yīng)用規(guī)范名詞的便利性,進(jìn)一步增強(qiáng)學(xué)員自覺(jué)應(yīng)用規(guī)范術(shù)語(yǔ)的可操作性與可能性,研討會(huì)還專(zhuān)門(mén)為學(xué)員演示如何利用規(guī)范術(shù)語(yǔ)在線查詢平臺(tái)查詢規(guī)范術(shù)語(yǔ),指導(dǎo)學(xué)員如何利用軟件與網(wǎng)絡(luò)技術(shù)進(jìn)行規(guī)范術(shù)語(yǔ)查詢,并將授課講師的課件上傳至網(wǎng)絡(luò),以便學(xué)員進(jìn)行下載,滿足長(zhǎng)期學(xué)習(xí)的需求。

        (郭劍)

        Multiple Methods for Identifying Professional/Technical Vocabularies

        CUI Weixia WANG Junsong

        In this study, five different methods have been used to select the professional/technical words in aeronautical text. The five methods are using rating scale, using clues provided by writers, using technical dictionaries, vocabulary classification and keyword analysis. The author compared the five methods in terms of accuracy, efficiency and practicality, and the evaluation results showed that keyword analysis is based on corpus comparison and considered to be an ideal method but it still has problems, such as failing to separate technical words from their collocates. A hybrid method was proposed for identifying professional/technical vocabulary.

        technical vocabulary, English for special purpose, keyword analysis

        2014-03-31

        本文為陜西省社科基金“基于專(zhuān)業(yè)雙語(yǔ)平行語(yǔ)料庫(kù)的詞典編纂研究”(13K111)、西安外國(guó)語(yǔ)大學(xué)科研基金項(xiàng)目“專(zhuān)門(mén)用途英語(yǔ)(ESP)主題詞表的創(chuàng)建及應(yīng)用研究”(11XWB01),以及西北工業(yè)大學(xué)中央高校基本科研項(xiàng)目(3102014RW0017)的階段性研究成果

        崔維霞 (1979—),女,西安外國(guó)語(yǔ)大學(xué)高職部講師,研究方向?yàn)檎Z(yǔ)料庫(kù)語(yǔ)言學(xué)、專(zhuān)門(mén)用途英語(yǔ)教學(xué)。 通信方式:cuiweixia@xisu.edu.cn。

        H083;N04

        A

        1673-8578(2014)04-0014-06

        分析是語(yǔ)料庫(kù)技術(shù)中研究文本內(nèi)容和文本語(yǔ)言特征差異的重要手段。它既是一種文本層面詞語(yǔ)運(yùn)用的統(tǒng)計(jì)方法,也是一種通過(guò)詞語(yǔ)分布概率觀察文本的視角。主題詞是指“頻率顯著高于或顯著低于參照語(yǔ)料庫(kù)中對(duì)應(yīng)詞頻率的那些詞匯”[9]。在科技英語(yǔ)中,技術(shù)性詞匯在專(zhuān)業(yè)文本中的比例要遠(yuǎn)遠(yuǎn)高于其在普通文本中的頻率。主題詞分析即是通過(guò)將詞匯在專(zhuān)業(yè)文本(語(yǔ)料庫(kù))和參照文本(語(yǔ)料庫(kù))中的頻率進(jìn)行對(duì)比,從而將其中差異顯著的主題詞提取出來(lái)。常用的主題詞統(tǒng)計(jì)軟件為wordsmith和antconc,而進(jìn)行頻數(shù)差異檢驗(yàn)的最常用方法是卡方檢驗(yàn)(chi-square或χ2)??ǚ綑z驗(yàn)是“比較實(shí)際次數(shù)與期望次數(shù)之間是否有顯著差異”的檢驗(yàn)[13],屬于非參數(shù)檢驗(yàn)。在詞匯頻次差異研究方面,就是測(cè)定某詞匯的頻次觀測(cè)值O與理論期望值E之間的差異,為此而構(gòu)造的統(tǒng)計(jì)量稱(chēng)為χ2統(tǒng)計(jì)量,其計(jì)算公式如下:

        猜你喜歡
        詞匯文本方法
        本刊可直接用縮寫(xiě)的常用詞匯
        一些常用詞匯可直接用縮寫(xiě)
        在808DA上文本顯示的改善
        本刊可直接用縮寫(xiě)的常用詞匯
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        国产裸体AV久无码无遮挡 | 五月av综合av国产av| 蜜臀av性久久久久蜜臀aⅴ| 亚洲男人av香蕉爽爽爽爽| 日韩精品欧美激情国产一区| 国产影院一区二区在线| 日韩欧美中文字幕公布| 久久综合狠狠综合久久| 亚洲免费av电影一区二区三区| 亚洲综合天堂一二三区| 精品在线视频在线视频在线视频| 亚洲精品tv久久久久久久久久| 亚洲av无码第一区二区三区| 亚洲不卡电影| 一区二区三区免费自拍偷拍视频| 国产亚洲aⅴ在线电影| 日日摸日日碰夜夜爽无码| 在线观看亚洲AV日韩A∨| 国产av一区二区内射| 久久国产精品一区二区三区| 日夜啪啪一区二区三区| 久久成年片色大黄全免费网站| 亚洲av色在线观看网站| 国语对白免费观看123 | 亚洲国产性夜夜综合另类| 亚洲va中文字幕无码毛片| 一级午夜视频| 男女男生精精品视频网站| 日本道免费一区二区三区日韩精品 | 中文字幕五月久久婷热| 刚出嫁新婚少妇很紧很爽| 亚洲妇女无套内射精| 99国产小视频| 亚洲小少妇一区二区三区| 好吊妞视频这里有精品| 亚洲av中文无码乱人伦在线r▽| 在线亚洲AV成人无码一区小说| 日韩精品免费av一区二区三区 | 中文字幕一区二区区免| 国产亚洲欧美精品永久| 人人玩人人添人人澡|