亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        論國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)的構(gòu)建

        2020-01-19 06:23:07
        哈爾濱學(xué)院學(xué)報(bào) 2020年11期
        關(guān)鍵詞:傳遞信息語(yǔ)料語(yǔ)料庫(kù)

        李 婧

        (綏化學(xué)院,黑龍江 綏化 152000)

        語(yǔ)料庫(kù)包括單模態(tài)語(yǔ)料庫(kù)(Unimodal Corpus)與多模態(tài)語(yǔ)料庫(kù)(Multimodal Corpus)。前者是純文本語(yǔ)料庫(kù),我國(guó)學(xué)者在研制和應(yīng)用單模態(tài)語(yǔ)料庫(kù)上做出了開(kāi)拓性的貢獻(xiàn);后者是在單模態(tài)語(yǔ)料庫(kù)基礎(chǔ)上做出的新的發(fā)展,是指音頻、視頻以及文字語(yǔ)料信息的集成,運(yùn)用多模態(tài)的方式完成加工、檢索以及統(tǒng)計(jì)研究的語(yǔ)料庫(kù)。也就是說(shuō),通過(guò)轉(zhuǎn)寫、處理以及標(biāo)注語(yǔ)言文本及音視頻數(shù)據(jù)庫(kù)就是多模態(tài)語(yǔ)料庫(kù),其可以運(yùn)用實(shí)證法研究語(yǔ)言符號(hào)與非語(yǔ)言符號(hào)之間的作用。這遠(yuǎn)遠(yuǎn)超出之前所定義的語(yǔ)料庫(kù)范疇,其通過(guò)標(biāo)注不同交際渠道協(xié)同的數(shù)據(jù)集合,達(dá)到直接記錄人類行為的目的。因此,我們需要深入研究多模態(tài)語(yǔ)料庫(kù)的相關(guān)內(nèi)容,以便加深理解。

        一、國(guó)際報(bào)紙新聞話語(yǔ)的科學(xué)取樣

        1.語(yǔ)料錄入

        國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)的文本傳遞信息途徑可分為以下四種基本形式:紙質(zhì)文本、電子文本、網(wǎng)頁(yè)、靜態(tài)圖像。這些信息傳遞途徑采用UAM image tool 2.0等多模態(tài)文本傳遞信息途徑處理軟件予以特殊的集成處理。利用UAM image tool 2.0軟件把文本傳遞信息途徑依附于類別導(dǎo)入到文本傳遞信息途徑庫(kù)中,為下一步標(biāo)注做好準(zhǔn)備。而針對(duì)文本傳遞信息途徑的收集,要先通過(guò)不同種渠道收集多模態(tài)語(yǔ)篇樣本,把紙質(zhì)的語(yǔ)篇樣本通過(guò)掃描、拍照等方式予以數(shù)字化處理。[1]

        2.語(yǔ)料依附原稿核準(zhǔn)

        因?yàn)閲?guó)際報(bào)紙新聞文本傳遞信息途徑存在一定的特殊性,所以在文本傳遞信息途徑完成錄入時(shí)要第一時(shí)間予以“自動(dòng)依附原稿核準(zhǔn)+人工依附原稿核準(zhǔn)”。

        3.語(yǔ)料加工及存儲(chǔ)

        文本傳遞信息途徑依附既有稿件予以核準(zhǔn)的基礎(chǔ)上,其能夠獲取文本相關(guān)傳遞信息途徑,只有對(duì)其予以加工后才會(huì)生成規(guī)模型文本庫(kù)。而對(duì)于篇頭元信息設(shè)計(jì),采取依附于文本傳遞信息途徑來(lái)源、發(fā)布時(shí)間以及種類等設(shè)計(jì)多層次內(nèi)容標(biāo)簽,涉及內(nèi)容主要包括:規(guī)模型文本庫(kù)差異化模態(tài)類型、相關(guān)語(yǔ)種信息、傳遞信息途徑、獲取文本的發(fā)布時(shí)間、文本種類、翻譯以及既有文本標(biāo)題等。文本傳遞信息途徑予以分詞(中文)以及自動(dòng)詞性標(biāo)注,依附于相關(guān)內(nèi)容嘗試對(duì)文本傳遞信息途徑予以各門學(xué)科專用詞匯、句型自動(dòng)標(biāo)注。其傳遞信息途徑以及靜態(tài)圖像等多模態(tài)文本傳遞信息途徑在一定程度上要依附于研究側(cè)重點(diǎn)選擇己有工具予以有針對(duì)性的標(biāo)注。[2]

        針對(duì)存儲(chǔ),為了方便在使用中可以第一時(shí)間予以有效的查詢,可以將元內(nèi)容以及文本進(jìn)行單獨(dú)的存儲(chǔ)。而且,為了使規(guī)模型文本庫(kù)能夠直接通過(guò)國(guó)際報(bào)紙新聞?dòng)?jì)算機(jī)輔助翻譯系統(tǒng)(Computer-aided Translation,簡(jiǎn)稱CAT),要將析出文本傳遞信息途徑錄入至tmx格式,進(jìn)而構(gòu)建機(jī)器翻譯存儲(chǔ)模塊。[3]

        4.語(yǔ)料對(duì)齊處理

        本研究中,筆者首先予以可差異化語(yǔ)類間的對(duì)比,其中包括圖像模態(tài)的再現(xiàn)價(jià)值、互動(dòng)意義、構(gòu)圖意義等方面的特性,這些特性包括在文本傳遞信息途徑標(biāo)注區(qū)間之中,經(jīng)對(duì)比研究找到差異化語(yǔ)類對(duì)圖像模態(tài)的選擇傾向。其次,還要予以具體多模態(tài)語(yǔ)篇和該語(yǔ)類的綜合特性對(duì)比。經(jīng)對(duì)具體多模態(tài)語(yǔ)篇實(shí)例予以研究,總結(jié)其特性,并在此基礎(chǔ)上以及文本傳遞信息途徑庫(kù)內(nèi)經(jīng)查詢統(tǒng)計(jì)獲取的平均語(yǔ)類特征予以對(duì)比研究,以揭示多模態(tài)語(yǔ)篇意義系統(tǒng)的選擇和實(shí)現(xiàn)語(yǔ)篇目的之間的深層關(guān)系。[4]

        5.多語(yǔ)種語(yǔ)料加工

        現(xiàn)階段,世界范圍內(nèi)多語(yǔ)種平行規(guī)模型文本庫(kù)建設(shè)發(fā)展較為緩慢。這主要是由于受規(guī)模型文本庫(kù)加工介質(zhì)以及查詢軟件的影響,很多的工具以及軟件僅能夠兼容英語(yǔ)文本或漢語(yǔ)文本,又缺乏同時(shí)掌握多種語(yǔ)言學(xué)的研究者。因此,多語(yǔ)種國(guó)際報(bào)紙新聞平行規(guī)模型文本庫(kù)的建設(shè)需具備一定的專業(yè)性。在數(shù)據(jù)庫(kù)還未建設(shè)的時(shí)候,其側(cè)重點(diǎn)應(yīng)是探究漢英雙語(yǔ)國(guó)際報(bào)紙新聞平行規(guī)模型文本庫(kù)的建設(shè);在漢英規(guī)模型文本庫(kù)編制具有一定成就的基礎(chǔ)上,再將其作為范例拓展至多語(yǔ)種國(guó)際報(bào)紙新聞話語(yǔ)平行數(shù)據(jù)庫(kù)之中。[5]

        6.多模態(tài)語(yǔ)料加工

        多模態(tài)文本傳遞信息途徑的加工,依附于研究目的來(lái)確定采用己有的(如,UAM image tool 2.0)或自主開(kāi)發(fā)新的加工工具予以處理以及標(biāo)注。[6]在完成文本傳遞信息途徑庫(kù)建設(shè)后,可以通過(guò)該庫(kù)予以語(yǔ)篇研究及語(yǔ)類特性研究擇取定性、定量相結(jié)合的研究方法,前者用于從具體多模態(tài)語(yǔ)篇實(shí)例中概括規(guī)律性的語(yǔ)篇特性,后者通過(guò)文本傳遞信息途徑庫(kù)的查詢功能和統(tǒng)計(jì)功能,對(duì)查詢所獲取的數(shù)據(jù)予以統(tǒng)計(jì)對(duì)比,在量化研究的先決條件下驗(yàn)證定性研究方法獲取的語(yǔ)篇及語(yǔ)類特性的正確性、適用區(qū)間等。兩種方法相結(jié)合,使語(yǔ)篇研究以及語(yǔ)類研究的結(jié)果更為精準(zhǔn)。[7]

        二、國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)的查詢及維護(hù)管理

        國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)的在線搜索平臺(tái)需匹配于單機(jī)平臺(tái)功能,而要達(dá)到翻譯輔助功能目標(biāo),需要結(jié)合規(guī)模型文本庫(kù)搜索軟件翻譯記憶交換文件(tmx)拓展以及UAM image tool 2.0多模態(tài)查詢軟件。此平臺(tái)不但能夠?qū)⒁?guī)模型文本庫(kù)整合到CAT系統(tǒng)之內(nèi),不論載入路徑亦或翻譯拓展,規(guī)模型文本庫(kù)內(nèi)所衍生出的翻譯記憶庫(kù)均可得到拓展。此平臺(tái)還能夠予以全文查詢、語(yǔ)境內(nèi)關(guān)鍵詞查詢等。

        規(guī)模型文本庫(kù)的建成,首先要對(duì)規(guī)模型文本庫(kù)予以常規(guī)運(yùn)維管理。管理的側(cè)重點(diǎn)主要是友好的用戶交互面板以及程序的綜合利用系數(shù);確保數(shù)據(jù)的可靠及穩(wěn)定性;確保查詢速率。維護(hù)的側(cè)重點(diǎn)主要是變更規(guī)模型文本庫(kù)的制衡性、拓展文本傳遞信息途徑。[8]

        三、國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)中各門學(xué)科專用詞匯庫(kù)的生成

        1.國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)的各門學(xué)科專用詞匯庫(kù)的自動(dòng)生成

        各門學(xué)科專用詞匯是國(guó)際報(bào)紙新聞翻譯的側(cè)重點(diǎn),各門學(xué)科專用詞匯一致性以及譯文有效性在國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)建設(shè)中具有深遠(yuǎn)的意義。在國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)的設(shè)計(jì)過(guò)程中,需將各門學(xué)科專用詞匯庫(kù)的自動(dòng)生成視為主要內(nèi)容。首先要運(yùn)用計(jì)算機(jī)翻譯軟件創(chuàng)建各門學(xué)科專用詞匯庫(kù)的生成流程,將矩陣內(nèi)的平行文本滲透至數(shù)據(jù)庫(kù)之中,即自動(dòng)生成各門學(xué)科專用詞匯核心詞表,利用人工進(jìn)行深度處理,制成國(guó)際報(bào)紙新聞各門學(xué)科專用詞匯庫(kù)。同時(shí),通過(guò)前沿的自然傳遞信息途徑處理以及規(guī)模型文本庫(kù)技術(shù),對(duì)國(guó)際報(bào)紙新聞各門學(xué)科專用詞匯予以自動(dòng)生成。不過(guò)任何的方法,都需要進(jìn)行相應(yīng)的人工干預(yù)。[9]

        2.國(guó)際報(bào)紙新聞CAT模型下的各門學(xué)科專用詞匯庫(kù)的構(gòu)建

        本研究中,筆者在翻譯模塊中構(gòu)建了兩個(gè)規(guī)模型文本庫(kù),即雙語(yǔ)規(guī)模型文本庫(kù)和國(guó)際報(bào)紙新聞規(guī)模型文本庫(kù)。不過(guò),這兩個(gè)規(guī)模型文本庫(kù)還需進(jìn)一步完善,其中并未將各門學(xué)科的特殊專用詞匯列入其中,因此,需要根據(jù)實(shí)際情況對(duì)模型予以完善和升級(jí)。筆者認(rèn)為,可以在CAT系統(tǒng)內(nèi)加設(shè)各門學(xué)科專用詞匯庫(kù),在此基礎(chǔ)上經(jīng)前沿的機(jī)器學(xué)習(xí)技術(shù),將AI技術(shù)的優(yōu)勢(shì)拓展到國(guó)際報(bào)紙新聞話語(yǔ)自動(dòng)翻譯之中,進(jìn)而從根本上提高國(guó)際報(bào)紙新聞翻譯軟件CAT的性能??梢?jiàn),依附于翻譯過(guò)程中的人工參與,在機(jī)器介入予以匹配翻譯的基礎(chǔ)上,再側(cè)重于各門學(xué)科專用詞匯規(guī)范化翻譯,翻譯完成后,新詞匯會(huì)被拓展至各門學(xué)科專用詞匯庫(kù)內(nèi),同時(shí)反饋到規(guī)模型文本庫(kù)中。長(zhǎng)此以往,新增的各門學(xué)科專用詞匯庫(kù)在整個(gè)CAT機(jī)制內(nèi)會(huì)得到全面的利用。[10]

        四、國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)的應(yīng)用展望

        國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)為多模態(tài)語(yǔ)料庫(kù),其能夠真實(shí)反映國(guó)際報(bào)紙新聞原貌,具有較強(qiáng)的使用價(jià)值。該庫(kù)在使用過(guò)程中,通過(guò)多層次標(biāo)注就可以完成較為精準(zhǔn)的定向檢索,從而達(dá)到檢索國(guó)際報(bào)紙新聞話語(yǔ)的目的,并對(duì)非語(yǔ)言因素完成檢索;通過(guò)研究國(guó)際報(bào)紙新聞話語(yǔ)中語(yǔ)言轉(zhuǎn)換規(guī)律,可以探究語(yǔ)言符號(hào)與非語(yǔ)言符號(hào)間的關(guān)系,從而掌握國(guó)際報(bào)紙新聞話語(yǔ)深層次的信息。此外,運(yùn)用“快速檢索”能夠快速地檢索到任意的語(yǔ)言字符;點(diǎn)擊任意檢索,可同步查到對(duì)應(yīng)的音視頻信息,重復(fù)播放,也能更加直觀的查看口譯過(guò)程,全方位的了解更加精準(zhǔn)的國(guó)際信息。[11]

        五、小結(jié)

        國(guó)際報(bào)紙新聞話語(yǔ)語(yǔ)料庫(kù)的構(gòu)建,是以UAM image tool 2.0和CAT為主要應(yīng)用軟件。首先,經(jīng)過(guò)語(yǔ)料錄入、語(yǔ)料依附原稿核準(zhǔn)、語(yǔ)料加工及存儲(chǔ)、語(yǔ)料對(duì)齊處理、多語(yǔ)種語(yǔ)料加工、多模態(tài)語(yǔ)料加工等流程完成語(yǔ)料庫(kù)的科學(xué)取樣。然后,通過(guò)完善語(yǔ)料庫(kù)的檢索功能、維護(hù)管理以及學(xué)科專用詞匯庫(kù)建設(shè)等措施完成語(yǔ)料庫(kù)的構(gòu)建。其目的在于提高國(guó)際報(bào)紙新聞翻譯的質(zhì)量。本研究成果具有一定的推廣價(jià)值。

        猜你喜歡
        傳遞信息語(yǔ)料語(yǔ)料庫(kù)
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        舞臺(tái)字幕與表演不同的原因及解決措施
        論組織中有效溝通模式
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        《苗防備覽》中的湘西語(yǔ)料
        體態(tài)語(yǔ)在語(yǔ)文教學(xué)中的運(yùn)用
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        无人高清电视剧在线观看| 日本国产一区二区在线观看| 国产精品精品国产色婷婷| 人妻饥渴偷公乱中文字幕| 色偷偷一区二区无码视频| 九九精品国产99精品| av免费一区二区久久| 女人色熟女乱| 四虎成人精品无码永久在线| 亚洲色欲色欲欲www在线| 天堂免费av在线播放| 国产两女互慰高潮视频在线观看| 无码专区天天躁天天躁在线| 国产精品视频一区二区三区,| 少妇激情高潮视频网站| 国产精品亚洲lv粉色| 日韩黑人欧美在线视频观看| 喷潮出白浆视频在线观看| 久久婷婷国产精品香蕉| 婷婷丁香91| 亚洲女同精品一区二区久久| 亚洲国产精品一区二区| 午夜精品久久久久久久| 久久精品国产亚洲精品| 蜜臀aⅴ永久无码一区二区| 天堂网日韩av在线播放一区| 欧美牲交a欧美牲交aⅴ免费真| 国产精品天堂| 最新日韩精品视频免费在线观看| 久久午夜精品人妻一区二区三区| 中文成人无码精品久久久不卡| 久久成人永久免费播放| 日本国产一区二区在线| 国产成人精品2021| 极品尤物高潮潮喷在线视频 | 自拍 另类 综合 欧美小说| 国产激情免费观看视频| 国产av熟女一区二区三区| 亚洲中文字幕无码久久2020| 蜜桃av观看亚洲一区二区| 手机免费在线观看av网址|