李 婧
(綏化學(xué)院,黑龍江 綏化 152000)
語(yǔ)料庫(kù)包括單模態(tài)語(yǔ)料庫(kù)(Unimodal Corpus)與多模態(tài)語(yǔ)料庫(kù)(Multimodal Corpus)。前者是純文本語(yǔ)料庫(kù),我國(guó)學(xué)者在研制和應(yīng)用單模態(tài)語(yǔ)料庫(kù)上做出了開(kāi)拓性的貢獻(xiàn);后者是在單模態(tài)語(yǔ)料庫(kù)基礎(chǔ)上做出的新的發(fā)展,是指音頻、視頻以及文字語(yǔ)料信息的集成,運(yùn)用多模態(tài)的方式完成加工、檢索以及統(tǒng)計(jì)研究的語(yǔ)料庫(kù)。也就是說(shuō),通過(guò)轉(zhuǎn)寫、處理以及標(biāo)注語(yǔ)言文本及音視頻數(shù)據(jù)庫(kù)就是多模態(tài)語(yǔ)料庫(kù),其可以運(yùn)用實(shí)證法研究語(yǔ)言符號(hào)與非語(yǔ)言符號(hào)之間的作用。這遠(yuǎn)遠(yuǎn)超出之前所定義的語(yǔ)料庫(kù)范疇,其通過(guò)標(biāo)注不同交際渠道協(xié)同的數(shù)據(jù)集合,達(dá)到直接記錄人類行為的目的。因此,我們需要深入研究多模態(tài)語(yǔ)料庫(kù)的相關(guān)內(nèi)容,以便加深理解。
1.語(yǔ)料錄入
國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)的文本傳遞信息途徑可分為以下四種基本形式:紙質(zhì)文本、電子文本、網(wǎng)頁(yè)、靜態(tài)圖像。這些信息傳遞途徑采用UAM image tool 2.0等多模態(tài)文本傳遞信息途徑處理軟件予以特殊的集成處理。利用UAM image tool 2.0軟件把文本傳遞信息途徑依附于類別導(dǎo)入到文本傳遞信息途徑庫(kù)中,為下一步標(biāo)注做好準(zhǔn)備。而針對(duì)文本傳遞信息途徑的收集,要先通過(guò)不同種渠道收集多模態(tài)語(yǔ)篇樣本,把紙質(zhì)的語(yǔ)篇樣本通過(guò)掃描、拍照等方式予以數(shù)字化處理。[1]
2.語(yǔ)料依附原稿核準(zhǔn)
因?yàn)閲?guó)際報(bào)紙新聞文本傳遞信息途徑存在一定的特殊性,所以在文本傳遞信息途徑完成錄入時(shí)要第一時(shí)間予以“自動(dòng)依附原稿核準(zhǔn)+人工依附原稿核準(zhǔn)”。
3.語(yǔ)料加工及存儲(chǔ)
文本傳遞信息途徑依附既有稿件予以核準(zhǔn)的基礎(chǔ)上,其能夠獲取文本相關(guān)傳遞信息途徑,只有對(duì)其予以加工后才會(huì)生成規(guī)模型文本庫(kù)。而對(duì)于篇頭元信息設(shè)計(jì),采取依附于文本傳遞信息途徑來(lái)源、發(fā)布時(shí)間以及種類等設(shè)計(jì)多層次內(nèi)容標(biāo)簽,涉及內(nèi)容主要包括:規(guī)模型文本庫(kù)差異化模態(tài)類型、相關(guān)語(yǔ)種信息、傳遞信息途徑、獲取文本的發(fā)布時(shí)間、文本種類、翻譯以及既有文本標(biāo)題等。文本傳遞信息途徑予以分詞(中文)以及自動(dòng)詞性標(biāo)注,依附于相關(guān)內(nèi)容嘗試對(duì)文本傳遞信息途徑予以各門學(xué)科專用詞匯、句型自動(dòng)標(biāo)注。其傳遞信息途徑以及靜態(tài)圖像等多模態(tài)文本傳遞信息途徑在一定程度上要依附于研究側(cè)重點(diǎn)選擇己有工具予以有針對(duì)性的標(biāo)注。[2]
針對(duì)存儲(chǔ),為了方便在使用中可以第一時(shí)間予以有效的查詢,可以將元內(nèi)容以及文本進(jìn)行單獨(dú)的存儲(chǔ)。而且,為了使規(guī)模型文本庫(kù)能夠直接通過(guò)國(guó)際報(bào)紙新聞?dòng)?jì)算機(jī)輔助翻譯系統(tǒng)(Computer-aided Translation,簡(jiǎn)稱CAT),要將析出文本傳遞信息途徑錄入至tmx格式,進(jìn)而構(gòu)建機(jī)器翻譯存儲(chǔ)模塊。[3]
4.語(yǔ)料對(duì)齊處理
本研究中,筆者首先予以可差異化語(yǔ)類間的對(duì)比,其中包括圖像模態(tài)的再現(xiàn)價(jià)值、互動(dòng)意義、構(gòu)圖意義等方面的特性,這些特性包括在文本傳遞信息途徑標(biāo)注區(qū)間之中,經(jīng)對(duì)比研究找到差異化語(yǔ)類對(duì)圖像模態(tài)的選擇傾向。其次,還要予以具體多模態(tài)語(yǔ)篇和該語(yǔ)類的綜合特性對(duì)比。經(jīng)對(duì)具體多模態(tài)語(yǔ)篇實(shí)例予以研究,總結(jié)其特性,并在此基礎(chǔ)上以及文本傳遞信息途徑庫(kù)內(nèi)經(jīng)查詢統(tǒng)計(jì)獲取的平均語(yǔ)類特征予以對(duì)比研究,以揭示多模態(tài)語(yǔ)篇意義系統(tǒng)的選擇和實(shí)現(xiàn)語(yǔ)篇目的之間的深層關(guān)系。[4]
5.多語(yǔ)種語(yǔ)料加工
現(xiàn)階段,世界范圍內(nèi)多語(yǔ)種平行規(guī)模型文本庫(kù)建設(shè)發(fā)展較為緩慢。這主要是由于受規(guī)模型文本庫(kù)加工介質(zhì)以及查詢軟件的影響,很多的工具以及軟件僅能夠兼容英語(yǔ)文本或漢語(yǔ)文本,又缺乏同時(shí)掌握多種語(yǔ)言學(xué)的研究者。因此,多語(yǔ)種國(guó)際報(bào)紙新聞平行規(guī)模型文本庫(kù)的建設(shè)需具備一定的專業(yè)性。在數(shù)據(jù)庫(kù)還未建設(shè)的時(shí)候,其側(cè)重點(diǎn)應(yīng)是探究漢英雙語(yǔ)國(guó)際報(bào)紙新聞平行規(guī)模型文本庫(kù)的建設(shè);在漢英規(guī)模型文本庫(kù)編制具有一定成就的基礎(chǔ)上,再將其作為范例拓展至多語(yǔ)種國(guó)際報(bào)紙新聞話語(yǔ)平行數(shù)據(jù)庫(kù)之中。[5]
6.多模態(tài)語(yǔ)料加工
多模態(tài)文本傳遞信息途徑的加工,依附于研究目的來(lái)確定采用己有的(如,UAM image tool 2.0)或自主開(kāi)發(fā)新的加工工具予以處理以及標(biāo)注。[6]在完成文本傳遞信息途徑庫(kù)建設(shè)后,可以通過(guò)該庫(kù)予以語(yǔ)篇研究及語(yǔ)類特性研究擇取定性、定量相結(jié)合的研究方法,前者用于從具體多模態(tài)語(yǔ)篇實(shí)例中概括規(guī)律性的語(yǔ)篇特性,后者通過(guò)文本傳遞信息途徑庫(kù)的查詢功能和統(tǒng)計(jì)功能,對(duì)查詢所獲取的數(shù)據(jù)予以統(tǒng)計(jì)對(duì)比,在量化研究的先決條件下驗(yàn)證定性研究方法獲取的語(yǔ)篇及語(yǔ)類特性的正確性、適用區(qū)間等。兩種方法相結(jié)合,使語(yǔ)篇研究以及語(yǔ)類研究的結(jié)果更為精準(zhǔn)。[7]
國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)的在線搜索平臺(tái)需匹配于單機(jī)平臺(tái)功能,而要達(dá)到翻譯輔助功能目標(biāo),需要結(jié)合規(guī)模型文本庫(kù)搜索軟件翻譯記憶交換文件(tmx)拓展以及UAM image tool 2.0多模態(tài)查詢軟件。此平臺(tái)不但能夠?qū)⒁?guī)模型文本庫(kù)整合到CAT系統(tǒng)之內(nèi),不論載入路徑亦或翻譯拓展,規(guī)模型文本庫(kù)內(nèi)所衍生出的翻譯記憶庫(kù)均可得到拓展。此平臺(tái)還能夠予以全文查詢、語(yǔ)境內(nèi)關(guān)鍵詞查詢等。
規(guī)模型文本庫(kù)的建成,首先要對(duì)規(guī)模型文本庫(kù)予以常規(guī)運(yùn)維管理。管理的側(cè)重點(diǎn)主要是友好的用戶交互面板以及程序的綜合利用系數(shù);確保數(shù)據(jù)的可靠及穩(wěn)定性;確保查詢速率。維護(hù)的側(cè)重點(diǎn)主要是變更規(guī)模型文本庫(kù)的制衡性、拓展文本傳遞信息途徑。[8]
1.國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)的各門學(xué)科專用詞匯庫(kù)的自動(dòng)生成
各門學(xué)科專用詞匯是國(guó)際報(bào)紙新聞翻譯的側(cè)重點(diǎn),各門學(xué)科專用詞匯一致性以及譯文有效性在國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)建設(shè)中具有深遠(yuǎn)的意義。在國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)的設(shè)計(jì)過(guò)程中,需將各門學(xué)科專用詞匯庫(kù)的自動(dòng)生成視為主要內(nèi)容。首先要運(yùn)用計(jì)算機(jī)翻譯軟件創(chuàng)建各門學(xué)科專用詞匯庫(kù)的生成流程,將矩陣內(nèi)的平行文本滲透至數(shù)據(jù)庫(kù)之中,即自動(dòng)生成各門學(xué)科專用詞匯核心詞表,利用人工進(jìn)行深度處理,制成國(guó)際報(bào)紙新聞各門學(xué)科專用詞匯庫(kù)。同時(shí),通過(guò)前沿的自然傳遞信息途徑處理以及規(guī)模型文本庫(kù)技術(shù),對(duì)國(guó)際報(bào)紙新聞各門學(xué)科專用詞匯予以自動(dòng)生成。不過(guò)任何的方法,都需要進(jìn)行相應(yīng)的人工干預(yù)。[9]
2.國(guó)際報(bào)紙新聞CAT模型下的各門學(xué)科專用詞匯庫(kù)的構(gòu)建
本研究中,筆者在翻譯模塊中構(gòu)建了兩個(gè)規(guī)模型文本庫(kù),即雙語(yǔ)規(guī)模型文本庫(kù)和國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)。不過(guò),這兩個(gè)規(guī)模型文本庫(kù)還需進(jìn)一步完善,其中并未將各門學(xué)科的特殊專用詞匯列入其中,因此,需要根據(jù)實(shí)際情況對(duì)模型予以完善和升級(jí)。筆者認(rèn)為,可以在CAT系統(tǒng)內(nèi)加設(shè)各門學(xué)科專用詞匯庫(kù),在此基礎(chǔ)上經(jīng)前沿的機(jī)器學(xué)習(xí)技術(shù),將AI技術(shù)的優(yōu)勢(shì)拓展到國(guó)際報(bào)紙新聞話語(yǔ)自動(dòng)翻譯之中,進(jìn)而從根本上提高國(guó)際報(bào)紙新聞翻譯軟件CAT的性能??梢?jiàn),依附于翻譯過(guò)程中的人工參與,在機(jī)器介入予以匹配翻譯的基礎(chǔ)上,再側(cè)重于各門學(xué)科專用詞匯規(guī)范化翻譯,翻譯完成后,新詞匯會(huì)被拓展至各門學(xué)科專用詞匯庫(kù)內(nèi),同時(shí)反饋到規(guī)模型文本庫(kù)中。長(zhǎng)此以往,新增的各門學(xué)科專用詞匯庫(kù)在整個(gè)CAT機(jī)制內(nèi)會(huì)得到全面的利用。[10]
國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)為多模態(tài)語(yǔ)料庫(kù),其能夠真實(shí)反映國(guó)際報(bào)紙新聞原貌,具有較強(qiáng)的使用價(jià)值。該庫(kù)在使用過(guò)程中,通過(guò)多層次標(biāo)注就可以完成較為精準(zhǔn)的定向檢索,從而達(dá)到檢索國(guó)際報(bào)紙新聞話語(yǔ)的目的,并對(duì)非語(yǔ)言因素完成檢索;通過(guò)研究國(guó)際報(bào)紙新聞話語(yǔ)中語(yǔ)言轉(zhuǎn)換規(guī)律,可以探究語(yǔ)言符號(hào)與非語(yǔ)言符號(hào)間的關(guān)系,從而掌握國(guó)際報(bào)紙新聞話語(yǔ)深層次的信息。此外,運(yùn)用“快速檢索”能夠快速地檢索到任意的語(yǔ)言字符;點(diǎn)擊任意檢索,可同步查到對(duì)應(yīng)的音視頻信息,重復(fù)播放,也能更加直觀的查看口譯過(guò)程,全方位的了解更加精準(zhǔn)的國(guó)際信息。[11]
國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)的構(gòu)建,是以UAM image tool 2.0和CAT為主要應(yīng)用軟件。首先,經(jīng)過(guò)語(yǔ)料錄入、語(yǔ)料依附原稿核準(zhǔn)、語(yǔ)料加工及存儲(chǔ)、語(yǔ)料對(duì)齊處理、多語(yǔ)種語(yǔ)料加工、多模態(tài)語(yǔ)料加工等流程完成語(yǔ)料庫(kù)的科學(xué)取樣。然后,通過(guò)完善語(yǔ)料庫(kù)的檢索功能、維護(hù)管理以及學(xué)科專用詞匯庫(kù)建設(shè)等措施完成語(yǔ)料庫(kù)的構(gòu)建。其目的在于提高國(guó)際報(bào)紙新聞翻譯的質(zhì)量。本研究成果具有一定的推廣價(jià)值。