韋斌
歐洲發(fā)達(dá)國(guó)家和地區(qū)(包括我國(guó)香港特區(qū)),其數(shù)字電視廣播的字幕普遍采用歐洲D(zhuǎn)VB Subtitling標(biāo)準(zhǔn),在衛(wèi)星電視、有線電視及地面數(shù)字電視廣播上大量采用。目前國(guó)內(nèi)的觀眾可以從香港地面數(shù)字電視廣播或亞洲3S衛(wèi)星4000MHz頻點(diǎn)鳳凰衛(wèi)視那組碼流里接觸到該字幕系統(tǒng)。DVB Subtitling系統(tǒng)具有可顯示、可關(guān)閉字幕的功能,還可以選擇多種文字字幕服務(wù)(前提是運(yùn)營(yíng)商提供多語種字幕廣播),這是一種比較人性化的字幕系統(tǒng),也稱Close Caption。而我們國(guó)內(nèi)電視上常見的內(nèi)嵌字幕(也稱Open Caption開放型字幕),字幕與圖像是一體的,無法分離,更無法關(guān)閉或選多語種,兩者的優(yōu)劣對(duì)比,高下立判。圖(1-3)
使用碼流分析軟件,可以看到采用DVB Subtitling標(biāo)準(zhǔn)制作字幕的節(jié)目,有DVB Subtitles字樣的TS私有流,即為DVB字幕。
用 VLC media player 等軟件播放能顯示 DVB Subtitles字幕。DVB Subtitles為圖形字幕,內(nèi)含時(shí)間軸,不能直接提取為文本格式。
提取這種字幕,可以用OCR光學(xué)字符識(shí)別軟件,把字幕提取出來成為 SUP 或 IDX/SUB 字幕文件。目前能提取DVB字幕的文件為ProjectX及DVBSub2Text,前者可將DVB中的中文及其他文字字幕提取轉(zhuǎn)換為SUB文件,而DVBSub2Tex暫不支持中文識(shí)別,但識(shí)別及提取英文或拉丁文字幕卻非常準(zhǔn)確便捷,準(zhǔn)確率接近100%,可一次性直接轉(zhuǎn)換為Srt字幕文件?,F(xiàn)我們分別介紹兩種軟件的使用方法。
使用DVBSub2Text
提取英文或拉丁文字幕
1、啟動(dòng)DVBSub2Text程序。由于目前DVBSub2Text對(duì)中文及日文等的支持不理想,識(shí)別出來的都是亂碼,我們只用它來OCR識(shí)別英文字幕。
2、點(diǎn)擊左上角File Open MPEG -TS,打開電腦中的DVB TS流文件
3、我們要選的是英文字幕轉(zhuǎn)換,故將前面兩條軌道的勾選框去掉(見圖8)
用記事本直接打開,可以看到我們已經(jīng)得到一個(gè)完整的Srt文件,英文字母的識(shí)別率幾乎為100%(當(dāng)然也偶有錯(cuò)誤,故最好檢查一遍),但有一些特殊符號(hào),如分隔行的“-”,識(shí)別出來的卻變成,我們需要用替換的辦法把它替換為“-”。在記事本中點(diǎn)擊編輯-替換-將替換為-,最后點(diǎn)擊“全部替換”,即可得到一個(gè)合格的Srt字幕文件。如果替換效果不佳,還需要人工檢查一下,將亂碼的符號(hào)刪除或替換掉。
用這種方法提取DVB Subtitles英文字幕是目前最為便捷高效的辦法。如果我們收錄到國(guó)外無中文字幕的DVB節(jié)目,可先用此法分離提取Srt格式字幕,并可在此字幕基礎(chǔ)上,根據(jù)英文內(nèi)容及時(shí)間軸制作中文字幕,就要比根據(jù)圖像聲音聽譯記錄字幕的方法快捷準(zhǔn)確得多了。我不知道網(wǎng)絡(luò)上那些美劇字幕組是否是用此法來制作中文字幕,我用此法測(cè)試制作的中文版Srt字幕,一部電影只需一個(gè)上午就完成字幕翻譯制作工作,連視頻及聲音都不需要打開。
有時(shí)會(huì)出現(xiàn)字幕時(shí)間軸整體提前或滯后幾百毫秒的問題,只需用其他Srt字幕編輯軟件調(diào)整一下即可(如SrtEdit2012等),在此不再贅述。
使用ProjectX提取中文字幕
對(duì)于非英文或拉丁文的漢語阿拉伯語日語等圖形字幕,目前用DVBSub2Text做OCR識(shí)別,還是很不成熟的,出來的都是亂碼,這主要是軟件暫時(shí)缺乏字庫(kù)支持,如果以后能支持漢字等字庫(kù), DVBSub2Text將是很好用的一款DVB字幕提取軟件,故目前我們只能選用另一種方法。我們這里借助的是ProjectX_0.91.0軟件版本,它是運(yùn)行在JAVA環(huán)境下的,故需要先下載JAVA軟件,可到其官方網(wǎng)站免費(fèi)下載。推薦下載脫機(jī)版,方便以后在無網(wǎng)絡(luò)的地方使用。
ProjectX_0.91.0.zip下載地址為
http://sourceforge.net/projects/project-x/
直接下載地址:
http://sourceforge.net/projects/ ... download?_test=goal
JAVA脫機(jī)安裝WIN版的直接下載地址
http://sdlc-esd.sun.com/ESD6/JSC ... Host=javadl.sun.com
這兩款軟件下載安裝完畢后,即可運(yùn)行ProjectX_0.91.0
現(xiàn)在,需要用另外一個(gè)軟件,把提取出來的時(shí)間軸及圖形字幕,通過OCR光學(xué)字符識(shí)別軟件識(shí)別出來,這里我們選用國(guó)內(nèi)網(wǎng)友馬健編寫的免費(fèi)軟件IdxSubOcr,這是目前對(duì)漢字OCR識(shí)別率最高的軟件。該軟件需要跟微軟Office2003或2007版本的MODI一起使用才有效。我們可以在安裝Offices時(shí)選擇安裝MODI(在Office工具選項(xiàng)中選,見圖25),這樣才能有效利用Office自帶的OCR光學(xué)識(shí)別程序,幫助我們對(duì)圖形字幕進(jìn)行識(shí)別。
用IdxSubOcr打開其中一個(gè)sub.idx文件。見下圖。這樣可以O(shè)CR出繁體字幕。
提取出來的字幕,最好再進(jìn)行校對(duì),即可完成DVB字幕的抽取。Srt字幕可轉(zhuǎn)換成多種字幕格式,適合各種用途。
另外,我們?cè)阡浿艱VB數(shù)字電視廣播節(jié)目時(shí),為保證節(jié)目的完整性,往往連片頭、片尾及片中插播的廣告等節(jié)目也錄了進(jìn)去。在對(duì)節(jié)目進(jìn)行編輯時(shí),需要用其他TS流處理軟件進(jìn)行分割,舍棄無用的內(nèi)容后再合并。這其中最重要的是要保留TS流中的原始數(shù)據(jù),而有些TS流復(fù)用軟件會(huì)把DVB Subtitle字幕數(shù)據(jù)丟失掉(如tsMuXerGui等)。
由于DVB Subtitle字幕制作技術(shù)目前僅為個(gè)別英國(guó)專業(yè)公司所掌握,我們對(duì)其代碼還未完全了解,暫時(shí)無法提供與DVB Subtitle字幕完全兼容的字幕制作技術(shù)。電視機(jī)構(gòu)對(duì)外節(jié)目交流如果使用DVB Subtitle字幕,還是需要購(gòu)買英國(guó)某公司的專業(yè)字幕設(shè)備。筆者現(xiàn)在找到另外一種非常簡(jiǎn)單的DVB字幕制作及播出、解碼的解決方案,可以將Srt字幕直接編碼為TS私有流,與視頻音頻(可以是多音軌)封裝為一套節(jié)目的TS流,在數(shù)字電視廣播通道中傳輸與解碼,用戶終端電視機(jī)上展現(xiàn)的效果與DVB Subtitling幾乎完全一致,可自由選擇顯示或關(guān)閉臺(tái)詞字幕,可選多種語種字幕(如果TS流中有多語種字幕),可以認(rèn)為是目前所知的最簡(jiǎn)單實(shí)用的DVB字幕系統(tǒng),而且完全是免費(fèi)的。此字幕系統(tǒng)已經(jīng)進(jìn)行內(nèi)部多次內(nèi)部測(cè)試,效果相當(dāng)好。我將于近期公開其制作方法,供有興趣的讀者參考,也歡迎廣電同行進(jìn)行相關(guān)測(cè)試。