亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        影視對白平行文本語料庫建設

        2018-01-08 06:51:24劉瑞
        河南科技 2017年21期
        關鍵詞:字幕平行語料庫

        劉瑞

        (鄭州工程技術學院,河南 鄭州 450004)

        影視對白平行文本語料庫建設

        劉瑞

        (鄭州工程技術學院,河南 鄭州 450004)

        與大型或專門用途的平行語料庫相比,利用影視對白字幕文本及文本中的相關信息建設平行語料庫,不僅能精確定位對白在影視中出現的位置,而且能通過字幕中的句子對齊實現對平行文本的檢索。本文就如何建立影視對白平行文本語料庫進行討論分析,為語言教學與研究提供一個新的平臺和窗口。

        影視對白;平行語料庫;XML標注

        1 平行語料庫的研究現狀

        平行語料庫在國外創(chuàng)建已有二十余年,其在國內的創(chuàng)建剛剛起步。世界上第一個翻譯語料庫(Translational English Corpus,TEC)是英國曼徹斯特大學科技學院(UMIST)翻譯研究中心于1995年創(chuàng)建的。國外有英國的“德-英文學文本平行語料庫”、加拿大的“Hansard英法雙語語料庫”、挪威奧斯陸大學的“英挪雙語語料庫”、英國蘭卡斯特大學的“ITU英法西對應語料庫”和美國馬里蘭大學的“圣經九國語言對應語料庫”等。國內有北京外國語大學的“中國英漢平行語料庫”、上海交通大學的“莎士比亞戲劇英漢平行語料庫”、燕山大學的“《紅樓夢》中英文平行語料庫”、紹興文理學院的“中國法律法規(guī)漢英平行語料庫”、香港科技大學的“HKUST中英對應語料庫”、香港理工大學的“中英雙語旅游語料庫”和臺灣的“Sinorama中英對應語料庫”等[1]。

        平行語料庫的種類越來越多,已廣泛應用于語言學研究、翻譯研究與教學、雙語對比、雙語詞典編纂、雙語術語提取、機器翻譯等[2]。但目前,面世的平行語料庫由于受建庫目的、選材局限、技術限制、最終用戶類型等因素的影響,難以大規(guī)模地為廣大研究者所使用[3]。目前,平行語料庫無法實現文本句子級自動對齊,為相關研究帶來了諸多困難。影視中的語言是現實中語言的真實再現,為英語教學提供了地道的語言素材。本文試圖探討利用影視字幕對白建立影視對白平行語料庫,以解決上述實際難題。

        依靠多媒體和語料庫技術建立影視對白平行語料庫既能克服目前平行語料庫受眾小的不足,也能為英語教學和語料庫研究提供新的研究途徑。

        2 建庫的技術途徑及語料標注

        2.1 建庫分析

        在選擇影視對白語料時,要遵循以下幾條原則:①選擇優(yōu)秀有代表性的電影;②各種類別的影視都涉及到,保持均衡;③在數量上,初步建立一個包含50部影視的語料庫,并不斷擴充;④影視的翻譯字幕文件盡量選擇官方、權威的版本。相關建庫原則和技術標準參照Wynne,文本分類標準參照EAGLES。

        DVD格式的影視都有獨立的字幕文件,其格式分為圖形格式和文本格式兩大類。其中,srt文本字幕最為常見。其中包含的信息有:每段對白的順序編號、插入時間及對白文本。這種文本格式內容規(guī)整,直接使用記事本即可打開。

        2.2 字幕文件處理及標注

        收集到語料后,需要進行兩步預處理:①文本凈化處理,即通過PowerGrep軟件批量消除文本的嘈雜信息和標注對白;②為文本添加元信息,元信息經過編碼后,應用XML標記語言標注原文件。XML標記語言即可擴展式標記語言(Extensible Markup Language),其特點是結構簡單、描述性強、功能強大、可檢索性強??紤]到在以后的處理中要對齊多語種的文本庫,文本編碼采用UTF-8編碼格式。為了便于講解,本文以英漢字幕文本處理為例。

        鑒于程序開發(fā)的需求及檢索的快捷性,把所有影視信息(頭部信息)、字幕文件以“路徑+文件名”的格式放置在一個索引文件index.xml中,標注后的字幕文件單獨放置在另外設定的文件夾中。

        2.2.1 文本凈化處理。文本中的“1、2、3…”為字幕對白序號;“00:03:13,143-->00:03:17,706”為該行字幕在電影播放中出現的起始時間和終止時間(時:分:秒:毫秒);“{fnTahomafs13}”為控制字體顯示效果的代碼;中間為字幕對白的文本內容。

        雖然字幕文件格式規(guī)整簡潔,但仍要標注出來。仔細觀察可知“時:分:秒”中英文一一對照,對于“毫秒”誤差,需要把不必要的信息刪除。字幕順序編號和控制字體顯示效果的代碼“{fnTahomafs13}”是沒有意義的,必須把這些垃圾碼剔除。一部電影有幾千句對白,完全通過手工來完成是不可能的。

        正是由于字幕文件的格式規(guī)整,使用正則表達式的模式匹配可以輕松完成。支持正則表達式的軟件很多,在此使用PowerGrep。

        首先刪除垃圾碼“{fnTahomafs13}”。在查找框中輸入正則表達式“{[^}]+}”(即查找大括號內所有內容),替換框中什么都不填,即替換為空。個別影視字幕中可能還有一些其他形式的垃圾碼,查找規(guī)律,批量處理。

        2.2.2 XML標注。對白用XML標注,根標記設置為<text></text>,對白文本用<dialogue></dialogue>標記,其中時間作為<dialogue>標記的屬性(序號id讀取原文件對白的開始時間),用作每段對白在整個文本中唯一的標識符,用于句子對齊;時間可分為“開始時間”(start_time)和“結束時間”(close_time),分別讀取原文件中的時間信息,用于表示對白顯示時間,這些信息在以后都非常有用。

        信息標注、刪除順序編號和毫秒數字同時進行。在正則表達式中,“d”表示0-9十個數字;“^”和“ ”(或“$”)分別表示行開始和行結束;另外使用“()”可以進行字符分組,在后面的正則表達式中使用反斜杠加數字的形式“1”、“2”分別引用前面的第一個、第二個括號中的內容等,這些正則表達式的使用,讀者可參考其他資料,此處不再詳述。

        表1 為文件添加頭部信息

        使用PowerGrep,首先通過查找文件開頭和結束的錨點,用正則表達式批量處理文本,把對白顯示的開始時間作為每段對白標識符“id”的值,以便以后的句子對齊;把對白時間分別標識為“開始時間(start_time)”和“結束時間(close_time),以便以后利用該信息。最后保存文件為.xml格式,采用UTF-8編碼。

        2.3 影視元信息標注

        在文件的頭部,可添加影視相關分類信息及描述信息,這些元信息可以到網上查詢(IMDB網站),信息標注如下。

        ①媒體分類(multimedia):電影(movie_info)、電視劇(telefilm_info)、紀錄片(newsreel_info)。為減少分類的層級,不同種類的媒體可分放在獨立的文件夾中,本文元信息標注以電影為例。

        ②名稱:英語名(name_en)、漢語名(name_ch)。

        ③拍攝時間(time):yyyy年。

        ④劇情時間(movieage):古代近代現代未來。

        ⑤國家(country):中國美國英國等。

        ⑥分類(type):動作片、喜劇片、愛情片、倫理片、戰(zhàn)爭片、恐怖片、科幻片、動畫片、災難片等。

        ⑦語言(language):影視所使用的原語言。

        ⑧級別(classification):標注該影視在該國官方指定級別。

        ⑨獲獎(award):注明該影視獲獎情況。

        ⑩導演(director):該影視導演。

        ?主演(actor):影視主演演員。

        ?時長(runtime):影視播放時間長。

        ?備注(remark):一些說明性信息,例如,該影視改編自哪部文學作品、收視率票房、社會影響和評論等。

        以上信息通過XML編碼,添加在文件頭部,以便檢索,具體如表1所示。

        字幕文件和元信息文件分開放置便于管理和檢索。如果一部電影對白被分割成多個字幕文件,通過<dia?logue no=”1”>的屬性no來標識;字幕文件被標注在<dia?logue_en>(英語字幕)、<dialogue_ch>(漢語字幕)、<dia?logue_jp>(日語字幕)中,若還有其他語種,再增加標簽;屬性version來表示其是原文(version="0")或譯文(ver?sion="1")。

        3 文本對齊及檢索應用

        把編碼文本導入平行語料庫軟件paracon中,復選編碼格式(UTF-8),對齊格式(align format)選擇“start/stop”標簽,輸入對白標簽。Paracon軟件根據對白標簽的id屬性值,自動對齊對白中每一段對話,如圖1所示。

        之后,可以對雙語文本進行檢索,既可以檢索單詞,也可以檢索多詞序列。檢索結果在兩個窗口以索引行形式呈現,自動跟隨所選對話,如檢索英文文本“Gump”,得到索引行。這種索引方式為教師和翻譯研究者提供了一個深度分析電影對白翻譯的數據界面。對外語教師而言,通過對白文本檢索,可以查找典型的對話和場景,分析其語用特征,制作成視聽課的互動練習和輔助材料。對翻譯研究者而言,可以查找和分析同一詞語的不同翻譯,而這種翻譯的差異往往是由于電影語境限制了詞語的語用意義。

        圖1 句子對齊后的文本

        經過XML標記的文本不受平臺限制,呈現出標準的數據結構,可以被各種數據庫編程直接應用。目前,大多數主流瀏覽器支持XML文件顯示,在今后的開發(fā)中,可以基于瀏覽器創(chuàng)建影視對白平行語料庫索引界面,輕松實現雙語檢索和對齊。在文本檢索中,可以利用文件的頭部信息進行條件查詢,即用戶先設定條件,劃定范圍,在范圍內進行語料檢索。檢索的結果能呈現檢索詞所在的句子、前后語境、對應的漢/英句子、所屬電影信息等。

        4 結語

        目前,平行語料庫是語料庫語言學、自然語言處理、機器翻譯等領域的重要發(fā)展方向。與國外相比,在語料庫的質量、容量、種類、數量和基于語料庫的研究與軟件開發(fā)方面,目前國內研究有些滯后。沒有語料庫,不可能開展基于語料庫的信息研究。影視對白平行文本語料庫在很大程度上克服了平行語料庫建庫中的取材難和對齊難的問題,為基于平行語料庫的研究提供了一個新的契機,能更好地服務于語言教學與研究,具有廣闊的使用前景和潛在的開發(fā)價值。

        [1] 熊兵.基于英漢雙語平行語料庫的翻譯教學模式研究[J].外語界,2015(4):1-10.

        [2] 陳國華,王立欣,梁茂成,等.英漢/漢英對譯語料庫對應詞檢索器[J].外語電化教學,2006(6):11-16.

        [3] 王克非.雙語平行語料庫在翻譯教學上的用途[J].外語電化教學,2004(6),27-32.

        Construction of Movie Caption Parallel Corpus

        Liu Rui
        (Zhengzhou Institute of Technology,Zhengzhou Henan 450004)

        Comparing with specialized parallel corpus,the construction of movie caption parallel corpus not only precisely locates the parallel movie caption texts but also easily aligns and retrieves the parallel texts at the sentence level.In the paper,the author discussed the construction of movie caption parallel corpus and tried to provide a new perspective for foreign language teaching and research.

        movie caption;parallel corpus;XML

        TP393.092

        A

        1003-5168(2017)11-0031-03

        2017-10-09

        劉瑞(1982-),女,碩士,講師,研究方向:應用語言學、語料庫與外語教學。

        猜你喜歡
        字幕平行語料庫
        Word和Excel聯手字幕添加更高效
        向量的平行與垂直
        平行
        逃離平行世界
        《語料庫翻譯文體學》評介
        把課文的優(yōu)美表達存進語料庫
        整合適應選擇度下的動畫電影字幕翻譯——以《冰河世紀》的字幕漢譯為例
        唐山文學(2016年11期)2016-03-20 15:25:57
        再頂平行進口
        汽車觀察(2016年3期)2016-02-28 13:16:36
        論紀錄片的字幕翻譯策略
        人間(2015年22期)2016-01-04 12:47:26
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        亚洲一区二区三区中国| 国产亚洲欧美精品一区| 国产精品亚洲综合天堂夜夜| 日本不卡一区二区三区在线| 国产专区国产精品国产三级| 免费视频一区二区三区美女| 99精品人妻少妇一区二区三区| 亚洲国产成人久久综合碰碰| 国产午夜毛片v一区二区三区| 久久久g0g0午夜无码精品| 国产人妻人伦精品1国产盗摄| 亚洲色大成网站www在线观看| 免费黄色福利| 国产精品人成在线765| 中国男男女在线免费av| 中国久久久一级特黄久久久| 久久久免费精品re6| 精品久久人人妻人人做精品| 亚洲午夜无码视频在线播放 | 在线看片国产免费不卡| 亚洲大片一区二区三区四区| 日产一区一区三区区别| 青青草狠吊色在线视频| 国产成人久久精品一区二区三区| 久久久久亚洲av片无码v| 亚洲熟妇色xxxxx欧美老妇| 中文乱码字幕在线中文乱码| 国产亚洲av一线观看| 亚洲视频网站大全免费看| 精品久久久久成人码免费动漫| 真人与拘做受免费视频| 日韩最新在线不卡av| 亚洲av国产精品色a变脸| 综合亚洲二区三区四区在线| 久久精品中文字幕无码绿巨人| 亚洲色欲综合一区二区三区| 国内精品久久久久国产盗摄| 人妻1024手机看片你懂的| 午夜dv内射一区二区| 精品无码久久久久成人漫画| 国产91一区二这在线播放|