亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        論國際報紙新聞話語語料庫的構(gòu)建

        2020-01-19 06:23:07
        哈爾濱學(xué)院學(xué)報 2020年11期
        關(guān)鍵詞:模態(tài)途徑文本

        李 婧

        (綏化學(xué)院,黑龍江 綏化 152000)

        語料庫包括單模態(tài)語料庫(Unimodal Corpus)與多模態(tài)語料庫(Multimodal Corpus)。前者是純文本語料庫,我國學(xué)者在研制和應(yīng)用單模態(tài)語料庫上做出了開拓性的貢獻;后者是在單模態(tài)語料庫基礎(chǔ)上做出的新的發(fā)展,是指音頻、視頻以及文字語料信息的集成,運用多模態(tài)的方式完成加工、檢索以及統(tǒng)計研究的語料庫。也就是說,通過轉(zhuǎn)寫、處理以及標(biāo)注語言文本及音視頻數(shù)據(jù)庫就是多模態(tài)語料庫,其可以運用實證法研究語言符號與非語言符號之間的作用。這遠(yuǎn)遠(yuǎn)超出之前所定義的語料庫范疇,其通過標(biāo)注不同交際渠道協(xié)同的數(shù)據(jù)集合,達到直接記錄人類行為的目的。因此,我們需要深入研究多模態(tài)語料庫的相關(guān)內(nèi)容,以便加深理解。

        一、國際報紙新聞話語的科學(xué)取樣

        1.語料錄入

        國際報紙新聞規(guī)模型文本庫的文本傳遞信息途徑可分為以下四種基本形式:紙質(zhì)文本、電子文本、網(wǎng)頁、靜態(tài)圖像。這些信息傳遞途徑采用UAM image tool 2.0等多模態(tài)文本傳遞信息途徑處理軟件予以特殊的集成處理。利用UAM image tool 2.0軟件把文本傳遞信息途徑依附于類別導(dǎo)入到文本傳遞信息途徑庫中,為下一步標(biāo)注做好準(zhǔn)備。而針對文本傳遞信息途徑的收集,要先通過不同種渠道收集多模態(tài)語篇樣本,把紙質(zhì)的語篇樣本通過掃描、拍照等方式予以數(shù)字化處理。[1]

        2.語料依附原稿核準(zhǔn)

        因為國際報紙新聞文本傳遞信息途徑存在一定的特殊性,所以在文本傳遞信息途徑完成錄入時要第一時間予以“自動依附原稿核準(zhǔn)+人工依附原稿核準(zhǔn)”。

        3.語料加工及存儲

        文本傳遞信息途徑依附既有稿件予以核準(zhǔn)的基礎(chǔ)上,其能夠獲取文本相關(guān)傳遞信息途徑,只有對其予以加工后才會生成規(guī)模型文本庫。而對于篇頭元信息設(shè)計,采取依附于文本傳遞信息途徑來源、發(fā)布時間以及種類等設(shè)計多層次內(nèi)容標(biāo)簽,涉及內(nèi)容主要包括:規(guī)模型文本庫差異化模態(tài)類型、相關(guān)語種信息、傳遞信息途徑、獲取文本的發(fā)布時間、文本種類、翻譯以及既有文本標(biāo)題等。文本傳遞信息途徑予以分詞(中文)以及自動詞性標(biāo)注,依附于相關(guān)內(nèi)容嘗試對文本傳遞信息途徑予以各門學(xué)科專用詞匯、句型自動標(biāo)注。其傳遞信息途徑以及靜態(tài)圖像等多模態(tài)文本傳遞信息途徑在一定程度上要依附于研究側(cè)重點選擇己有工具予以有針對性的標(biāo)注。[2]

        針對存儲,為了方便在使用中可以第一時間予以有效的查詢,可以將元內(nèi)容以及文本進行單獨的存儲。而且,為了使規(guī)模型文本庫能夠直接通過國際報紙新聞計算機輔助翻譯系統(tǒng)(Computer-aided Translation,簡稱CAT),要將析出文本傳遞信息途徑錄入至tmx格式,進而構(gòu)建機器翻譯存儲模塊。[3]

        4.語料對齊處理

        本研究中,筆者首先予以可差異化語類間的對比,其中包括圖像模態(tài)的再現(xiàn)價值、互動意義、構(gòu)圖意義等方面的特性,這些特性包括在文本傳遞信息途徑標(biāo)注區(qū)間之中,經(jīng)對比研究找到差異化語類對圖像模態(tài)的選擇傾向。其次,還要予以具體多模態(tài)語篇和該語類的綜合特性對比。經(jīng)對具體多模態(tài)語篇實例予以研究,總結(jié)其特性,并在此基礎(chǔ)上以及文本傳遞信息途徑庫內(nèi)經(jīng)查詢統(tǒng)計獲取的平均語類特征予以對比研究,以揭示多模態(tài)語篇意義系統(tǒng)的選擇和實現(xiàn)語篇目的之間的深層關(guān)系。[4]

        5.多語種語料加工

        現(xiàn)階段,世界范圍內(nèi)多語種平行規(guī)模型文本庫建設(shè)發(fā)展較為緩慢。這主要是由于受規(guī)模型文本庫加工介質(zhì)以及查詢軟件的影響,很多的工具以及軟件僅能夠兼容英語文本或漢語文本,又缺乏同時掌握多種語言學(xué)的研究者。因此,多語種國際報紙新聞平行規(guī)模型文本庫的建設(shè)需具備一定的專業(yè)性。在數(shù)據(jù)庫還未建設(shè)的時候,其側(cè)重點應(yīng)是探究漢英雙語國際報紙新聞平行規(guī)模型文本庫的建設(shè);在漢英規(guī)模型文本庫編制具有一定成就的基礎(chǔ)上,再將其作為范例拓展至多語種國際報紙新聞話語平行數(shù)據(jù)庫之中。[5]

        6.多模態(tài)語料加工

        多模態(tài)文本傳遞信息途徑的加工,依附于研究目的來確定采用己有的(如,UAM image tool 2.0)或自主開發(fā)新的加工工具予以處理以及標(biāo)注。[6]在完成文本傳遞信息途徑庫建設(shè)后,可以通過該庫予以語篇研究及語類特性研究擇取定性、定量相結(jié)合的研究方法,前者用于從具體多模態(tài)語篇實例中概括規(guī)律性的語篇特性,后者通過文本傳遞信息途徑庫的查詢功能和統(tǒng)計功能,對查詢所獲取的數(shù)據(jù)予以統(tǒng)計對比,在量化研究的先決條件下驗證定性研究方法獲取的語篇及語類特性的正確性、適用區(qū)間等。兩種方法相結(jié)合,使語篇研究以及語類研究的結(jié)果更為精準(zhǔn)。[7]

        二、國際報紙新聞話語語料庫的查詢及維護管理

        國際報紙新聞規(guī)模型文本庫的在線搜索平臺需匹配于單機平臺功能,而要達到翻譯輔助功能目標(biāo),需要結(jié)合規(guī)模型文本庫搜索軟件翻譯記憶交換文件(tmx)拓展以及UAM image tool 2.0多模態(tài)查詢軟件。此平臺不但能夠?qū)⒁?guī)模型文本庫整合到CAT系統(tǒng)之內(nèi),不論載入路徑亦或翻譯拓展,規(guī)模型文本庫內(nèi)所衍生出的翻譯記憶庫均可得到拓展。此平臺還能夠予以全文查詢、語境內(nèi)關(guān)鍵詞查詢等。

        規(guī)模型文本庫的建成,首先要對規(guī)模型文本庫予以常規(guī)運維管理。管理的側(cè)重點主要是友好的用戶交互面板以及程序的綜合利用系數(shù);確保數(shù)據(jù)的可靠及穩(wěn)定性;確保查詢速率。維護的側(cè)重點主要是變更規(guī)模型文本庫的制衡性、拓展文本傳遞信息途徑。[8]

        三、國際報紙新聞話語語料庫中各門學(xué)科專用詞匯庫的生成

        1.國際報紙新聞話語語料庫的各門學(xué)科專用詞匯庫的自動生成

        各門學(xué)科專用詞匯是國際報紙新聞翻譯的側(cè)重點,各門學(xué)科專用詞匯一致性以及譯文有效性在國際報紙新聞規(guī)模型文本庫建設(shè)中具有深遠(yuǎn)的意義。在國際報紙新聞規(guī)模型文本庫的設(shè)計過程中,需將各門學(xué)科專用詞匯庫的自動生成視為主要內(nèi)容。首先要運用計算機翻譯軟件創(chuàng)建各門學(xué)科專用詞匯庫的生成流程,將矩陣內(nèi)的平行文本滲透至數(shù)據(jù)庫之中,即自動生成各門學(xué)科專用詞匯核心詞表,利用人工進行深度處理,制成國際報紙新聞各門學(xué)科專用詞匯庫。同時,通過前沿的自然傳遞信息途徑處理以及規(guī)模型文本庫技術(shù),對國際報紙新聞各門學(xué)科專用詞匯予以自動生成。不過任何的方法,都需要進行相應(yīng)的人工干預(yù)。[9]

        2.國際報紙新聞CAT模型下的各門學(xué)科專用詞匯庫的構(gòu)建

        本研究中,筆者在翻譯模塊中構(gòu)建了兩個規(guī)模型文本庫,即雙語規(guī)模型文本庫和國際報紙新聞規(guī)模型文本庫。不過,這兩個規(guī)模型文本庫還需進一步完善,其中并未將各門學(xué)科的特殊專用詞匯列入其中,因此,需要根據(jù)實際情況對模型予以完善和升級。筆者認(rèn)為,可以在CAT系統(tǒng)內(nèi)加設(shè)各門學(xué)科專用詞匯庫,在此基礎(chǔ)上經(jīng)前沿的機器學(xué)習(xí)技術(shù),將AI技術(shù)的優(yōu)勢拓展到國際報紙新聞話語自動翻譯之中,進而從根本上提高國際報紙新聞翻譯軟件CAT的性能??梢?,依附于翻譯過程中的人工參與,在機器介入予以匹配翻譯的基礎(chǔ)上,再側(cè)重于各門學(xué)科專用詞匯規(guī)范化翻譯,翻譯完成后,新詞匯會被拓展至各門學(xué)科專用詞匯庫內(nèi),同時反饋到規(guī)模型文本庫中。長此以往,新增的各門學(xué)科專用詞匯庫在整個CAT機制內(nèi)會得到全面的利用。[10]

        四、國際報紙新聞話語語料庫的應(yīng)用展望

        國際報紙新聞話語語料庫為多模態(tài)語料庫,其能夠真實反映國際報紙新聞原貌,具有較強的使用價值。該庫在使用過程中,通過多層次標(biāo)注就可以完成較為精準(zhǔn)的定向檢索,從而達到檢索國際報紙新聞話語的目的,并對非語言因素完成檢索;通過研究國際報紙新聞話語中語言轉(zhuǎn)換規(guī)律,可以探究語言符號與非語言符號間的關(guān)系,從而掌握國際報紙新聞話語深層次的信息。此外,運用“快速檢索”能夠快速地檢索到任意的語言字符;點擊任意檢索,可同步查到對應(yīng)的音視頻信息,重復(fù)播放,也能更加直觀的查看口譯過程,全方位的了解更加精準(zhǔn)的國際信息。[11]

        五、小結(jié)

        國際報紙新聞話語語料庫的構(gòu)建,是以UAM image tool 2.0和CAT為主要應(yīng)用軟件。首先,經(jīng)過語料錄入、語料依附原稿核準(zhǔn)、語料加工及存儲、語料對齊處理、多語種語料加工、多模態(tài)語料加工等流程完成語料庫的科學(xué)取樣。然后,通過完善語料庫的檢索功能、維護管理以及學(xué)科專用詞匯庫建設(shè)等措施完成語料庫的構(gòu)建。其目的在于提高國際報紙新聞翻譯的質(zhì)量。本研究成果具有一定的推廣價值。

        猜你喜歡
        模態(tài)途徑文本
        構(gòu)造等腰三角形的途徑
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        多種途徑理解集合語言
        減少運算量的途徑
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        久久久久av综合网成人| 亚洲色无码中文字幕| 国产自产自现在线视频地址| 日本第一影院一区二区| 18禁黄网站禁片免费观看女女| 国产肉体ⅹxxx137大胆| 性色欲情网站| 亚洲av无码男人的天堂在线| 亚洲www视频| 97成人精品在线视频| 少妇被爽到高潮喷水久久欧美精品 | 亚洲欧美色一区二区三区| 亚洲a∨无码一区二区| 永久免费毛片在线播放| 国产av一卡二卡日韩av| 在线观看视频播放| 成人无码午夜在线观看| 中文字幕免费观看视频| 97色人阁俺也去人人人人人| 国产精品国三级国产a| 国产精品自在拍在线拍| 夜夜综合网| 国产一区二区三区乱码在线| 久久精品国产成人午夜福利| 在线亚洲午夜理论av大片| 2021国产最新无码视频| 久久一区二区视频在线观看| 亚洲人成网网址在线看| 成年女人永久免费看片| 一本一本久久久久a久久综合激情| 日韩字幕无线乱码免费| 精品女厕偷拍视频一区二区| 久久久久久九九99精品| 亚洲人成综合网站在线| 女同性恋一区二区三区四区| 亚洲av无码乱码精品国产| 四川丰满少妇被弄到高潮| 亚洲AV成人无码天堂| 在线视频色系中文字幕| 国产成人无码免费视频在线 | 亚洲精品中文字幕视频色|