范俊軍
(暨南大學 文學院, 廣東 廣州 510632)
?
【語言學研究】
中國瀕危語言自然話語轉(zhuǎn)寫規(guī)則(試行)*
范俊軍
(暨南大學 文學院, 廣東 廣州 510632)
本文定義了中國瀕危語言自然話語轉(zhuǎn)寫規(guī)則,內(nèi)容包括五個部分:一、定義和范圍;二、引用和參考的規(guī)范性文件;三、口語現(xiàn)象;四、轉(zhuǎn)寫規(guī)則;五、轉(zhuǎn)寫符號集。本規(guī)則適用于中國瀕危語言自然話語的采集、記錄和建檔,也可作為中國語言口語語料庫建設的參考準則。
中國瀕危語言; 自然話語; 轉(zhuǎn)寫規(guī)則
本文定義了瀕危語言自然話語中常見的口語現(xiàn)象,制定了自然話語錄音錄像的轉(zhuǎn)寫規(guī)則,適用于中國瀕危語言口語聲像資料的采錄、加工和建檔,也可作為漢語方言和少數(shù)民族語言田野調(diào)查記錄以及口語語料庫建設的參考準則。
(1)美國加州大學圣巴巴拉分?!睹绹⒄Z口語語料庫轉(zhuǎn)寫規(guī)則》(SBCSAE DT2,2006)。
(2)臺灣語言研究所《口語現(xiàn)象標記》(2005)。
(3)德國語言研究院《話語分析轉(zhuǎn)寫系統(tǒng)》(GAT2,2009)。
(4)維也納大學、牛津大學出版社《維也納—牛津國際英語語料庫轉(zhuǎn)寫規(guī)則》(VOICE Transcription Conventions,2008)。
自然話語是語言社群日常交際中自然發(fā)生的口語,包括獨白口述、情景對話、游戲、表演和說唱,等等??谡Z由言語、口音現(xiàn)象、非語音人聲和背景聲音構成。言語是口語的主體??谝衄F(xiàn)象是說話人在說話過程中的伴隨發(fā)音特征。非言語人聲是說話人發(fā)音器官發(fā)出的非語音聲音和肢體動作聲音。背景聲音是說話人之外的自然環(huán)境聲音和人為聲音。
(一)口音現(xiàn)象 phonological phenomena
【拖長音】字音或詞音節(jié)發(fā)音拖長,不限定在音節(jié)中的出現(xiàn)位置。
【吞音/合并音】說話過快或圖省力而出現(xiàn)的幾個音節(jié)合并、一帶而過的囫圇發(fā)音。
【同化音】由語流發(fā)音影響而改變本來發(fā)音。
【異讀音】同一個字詞有兩種或以上習慣發(fā)音。
【習慣發(fā)音偏差】發(fā)音偏離標準發(fā)音,但習慣上固定,有規(guī)律可循,仍可辨識字詞。新老派發(fā)音差異歸入此類。
【臨時發(fā)音偏差】發(fā)音偏離標準發(fā)音,無規(guī)律可循,但仍可辨識字詞。
【鼻化音】標準音無任何鼻音而實際說話時出現(xiàn)鼻音。不包括鼻塞產(chǎn)生的鼻音。
【喃喃自語】說話中無意讓對方聽見的連續(xù)不斷的獨自小聲說話,內(nèi)容清楚可辨。
【無法辨識的語音】說出的話語無法聽清是何音、何字、何意。
【不確定字詞音】根據(jù)前后話語可猜出大意,但不完全確定;或能聽清發(fā)音并猜測大意,但無法確定具體字詞。
【外來影響音】母語人能明顯分辨的其他方言或語言借入的語音,或受其他方言和語言影響而產(chǎn)生的非母語習慣發(fā)音。
【語碼轉(zhuǎn)換】話語中插入或轉(zhuǎn)說別的語言或方言。
【外語詞】話語中的外語詞,包括用母語譯音的專有名詞。
【沉默】說話人因話題銜接不上而無法維持正常接話速度時產(chǎn)生的停頓。
【停頓】語流中500毫秒以上的自行中斷。對話回應中因態(tài)度猶豫而產(chǎn)生的有意停頓也歸入此類。
【短停頓】語流中200~300毫秒的自發(fā)中斷。
【口吃】說話人習慣性的發(fā)音重復、中斷、拖長、含混現(xiàn)象。
【無停頓續(xù)語】本應先停頓再接著說卻沒有停頓而連續(xù)的話語。
【片段音】字詞音節(jié)發(fā)音不完整,但能根據(jù)前后內(nèi)容判斷是何音、何字、何詞。
【半截字詞音】一個詞只說了一半便突然中斷,而轉(zhuǎn)說別的詞語。
【打住話頭/半截話】一句話未說完即中斷,并開始新的語句;或發(fā)覺不該說而半途中斷說話。
【被打斷語句】話語未結束即被另一說話人搶走說話權,造成說話被迫中斷。
【重復語】因說話受干擾或說話人自身緣故而出現(xiàn)的同一個字詞兩次重復發(fā)音。多次習慣性重復歸入口吃。
【口誤】說話中的用詞和語法錯誤。發(fā)音錯誤歸入臨時發(fā)音偏差。
【更正插語】說話時提示或糾正口誤和發(fā)錯音的插入語。
【停頓插入語】說話時用于舒緩語氣和緩沖時間,以便思索組織話語的習慣插入語。如“這個,這個”等。
【重疊話語】說話人話輪還未結束,另一說話人同時開始新的話輪。
【回應插語】對話過程中聽話人不時說出的簡短字詞,表示在聽對方說話,或表示回應、同意、附和。
【同聲回應】多位聽話人同時應答或呼應。
【語速變快】語流中明顯快于習慣速度的話語。
【語速變慢】語流中明顯慢于習慣速度的話語。
【嗓音提高】說話過程中突然提高嗓門或大聲說話。
【耳語】能聽清語意內(nèi)容的耳語。
【輕聲細語】語流中嗓音和音量明顯低于正常說話聲的話語。
【引語仿聲】說話過程中為模仿他人說話而改變自身嗓音和音色。
(二)非言語人聲 non-phonological sounds
【口腔或鼻腔音】笑聲、哭聲、呼氣聲、吐氣聲、喘氣聲、吸氣聲、咂嘴聲、嘖舌聲、嘆氣聲、哈欠聲、打嗝聲、噴嚏聲、沙啞聲、鼻塞聲、清喉嚨聲、咳嗽聲、口哨聲、吞口水聲、哽喉聲,以及其他無法辨識的聲音。
【肢體動作聲】掌聲、叩擊聲、腳步聲,其他肢體動作發(fā)出的聲音。
(三)背景聲音 background noises
【自然界噪聲】風聲、雨聲、雷聲、流水聲、獸叫聲、鳥叫聲、蟲叫聲、牲畜叫聲、家禽叫聲,以及其他自然界聲音。
【機械噪聲】車船飛機聲、廣播電視聲、家用電器聲、手機電話鈴聲、電流聲、音樂聲、電磁波、干擾聲,以及其他機械電器噪聲。
【背景人聲】喊叫聲、吵鬧聲,說話人以外的其他說話聲,其他的人為噪聲。
轉(zhuǎn)寫*轉(zhuǎn)寫通常指口語中言語部分的文字記錄,而對言語的翻譯、解釋、分析等記錄則稱為標注。本規(guī)范的轉(zhuǎn)寫包含轉(zhuǎn)寫和標注。是將錄音錄像的話語和言語行為按時序用文字和符號做作同步記錄,使口語變成可閱讀文本。轉(zhuǎn)寫分為最簡轉(zhuǎn)寫、基本轉(zhuǎn)寫、綜合轉(zhuǎn)寫三個等級。最簡轉(zhuǎn)寫定義瀕危語言口語錄音錄像的必需轉(zhuǎn)寫項,基本轉(zhuǎn)寫定義最簡轉(zhuǎn)寫之上的增加項,綜合轉(zhuǎn)寫是包含最簡轉(zhuǎn)寫、基本轉(zhuǎn)寫和多模態(tài)轉(zhuǎn)寫的復雜精細轉(zhuǎn)寫。
(一)轉(zhuǎn)寫精細度層級 Transcription delicacy hierarchy
1.最簡轉(zhuǎn)寫 Minimal transcript
最簡轉(zhuǎn)寫包括下列各項:
a.說話人姓名,或假名、代號;
b.話語的標準正字(詞)法轉(zhuǎn)寫(適用于有文字的語言);
c.話語的羅馬字母轉(zhuǎn)寫(適用于無文字的語言);
d.話語國際音標注音;
e.普通話逐句意譯;
f.普通話逐詞對譯;
g.話語口音現(xiàn)象標注;
h.非言語人聲和背景聲標注;
i.注釋或說明。
2.基本轉(zhuǎn)寫 Basic transcript
基本轉(zhuǎn)寫包括下列各項:
a.句(末)語調(diào);
b.句子重音;
c.詞重音;
d.韻律句(可選);
e.音步(可選)。
3.綜合轉(zhuǎn)寫 Complex transcript
綜合轉(zhuǎn)寫包括下列各項但不限于:
a.手勢、身勢和互動行為;
b.聲學數(shù)據(jù)(可選);
c.其他多模態(tài)數(shù)據(jù)(可選)。
(二)轉(zhuǎn)寫數(shù)據(jù)結構 Transcript data structure
口語轉(zhuǎn)寫應使用轉(zhuǎn)寫軟件工具。轉(zhuǎn)寫文本采用分層結構,文本與錄音對齊鏈接。使用普通文字處理軟件轉(zhuǎn)寫口語,應按話輪和語調(diào)單位行間轉(zhuǎn)寫。非言語聲音的轉(zhuǎn)寫符號應同步在言語轉(zhuǎn)寫文本中標記,其他非聲音或多模態(tài)內(nèi)容應另層標記。
用漢字轉(zhuǎn)寫的普通話和方言話語文本原則上不分詞,口語現(xiàn)象隨漢字文本標記。也可增加拼音文本。拼音文本必須分詞。口語現(xiàn)象也可以在拼音文本中標記。
從右到左書寫和豎排的少數(shù)民族轉(zhuǎn)寫文本,應增加羅馬字母拼寫文本,口語現(xiàn)象在拼音文本中標記。
轉(zhuǎn)寫符號用于轉(zhuǎn)寫話語結構要素、口音現(xiàn)象、非言語人聲、背景噪聲等現(xiàn)象。
(一)話語結構要素標記符號 Symbols of discourse structural elements
要素轉(zhuǎn)寫符號使用說明說話人Lidahai用漢語拼音或羅馬字母拼寫,開頭字母大寫?;玓hangsan化名前面加波浪號。會話場景Geka
(二)口音現(xiàn)象標記符號 Symbols of speech phenamena
要素 轉(zhuǎn)寫符號 使用說明結尾語調(diào) 語調(diào)單位結束,用句點。停頓語調(diào) 語句未完時的停頓,用逗號。疑問語調(diào) 疑問語調(diào)單位,用問號。帶笑話語 @ <@>話語@>一個詞帶笑聲,在該詞首標記。幾個詞帶笑聲,在起始和結束處標記。嗆喉或沙啞話語 % <%>話語< %>一個詞帶沙啞聲,在詞首標記。幾個詞帶沙啞聲,在起始和結束處標記。變聲說話 話語< p>在變快話語的兩側標記。吞音/合并音<*>詞語< *>在發(fā)生吞音或合并音詞語的兩側標記。同化音 * 詞語在發(fā)生同化的字詞前面標記。異讀音 x 詞語在發(fā)生異讀音的字詞前面標記。習慣發(fā)音偏差<++>字詞< ++>在發(fā)生偏差音的字詞兩側標記。臨時發(fā)音偏差/口誤<+>字詞< +>在出現(xiàn)偏差音或口誤的字詞兩側標記。鼻化音<+n>字詞< +n>在出現(xiàn)鼻化音的字詞兩側標注。無法辨識語音 ### 猜測字詞 用#號標記無法猜測的字詞;或?qū)懗霾聹y的字詞。不確定話語<#>話語< #>在不確定話語的兩側標記。喃喃自語 (三)非言語人聲標記符號 Symbols of non-phonological vocals 要素轉(zhuǎn)寫符號要素轉(zhuǎn)寫符號要素轉(zhuǎn)寫符號笑聲{@@}嘆氣聲{hi}鼻塞聲{nn}哭聲{MYMMYM}哈欠聲{ah}咳嗽聲{kk}呼吸聲{hh}打嗝聲{ee}口哨聲{oo}吸氣聲{xi}噴嚏聲{aq}掌聲{pp}吐氣聲{tu}沙啞聲{ss}叩擊聲{bn}喘氣聲{ha}吞口水聲{gu}腳步聲{dd}咂嘴聲{bb}哽喉聲{ka}其他肢體動作聲{!!}嘖舌聲{zz}清喉嚨聲{gg}無法辨識的聲音{##} (四)背景聲音標記符號 Symbols of background noises 風聲{feng}機械聲{^^^}雷聲{lei}車船飛機聲{feiji/chuan/che}雨聲{yu}廣播電視聲{tv}流水聲{shui}音樂聲{123}鳥叫聲{niao}手機電話鈴聲{tel}蟲叫聲{chong}其他家電聲{jiad}家畜叫聲{gou/niu/ji/ya}電流聲{~~~}獸叫聲{shou}吵鬧/喊叫/說話等人為噪聲{xxx}爆炸聲{bong}其他聲音{***} [責任編輯 閆月珍 責任校對 池雷鳴] 2016-05-10 范俊軍(1963—),男,湖南桂陽縣人,暨南大學漢語方言研究中心研究員、博士生導師。 國家社科基金重大項目《中國瀕危語言數(shù)字博物館建設的理論與實踐研究》(批準號:12AYY002)。 H0 A 1000-5072(2016)10-0030-06 * 本規(guī)則在“中國瀕危語言有聲資源采錄和立檔技術高級講習班”暨南二期、三期、四期上試用,本次公開發(fā)表,希望更廣泛征求意見。