亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于格局理論的多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)研究

2017-04-21 17:38:05彭飛

北京檔案 2017年3期

彭飛

摘要：本文對(duì)現(xiàn)有語(yǔ)言檔案數(shù)據(jù)庫(kù)進(jìn)行調(diào)查，就其存在的缺少原始語(yǔ)音信息、系統(tǒng)搜索功能單一、資源非共享、音質(zhì)保真度低等問(wèn)題，提出如何構(gòu)建格局理論的多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)，并對(duì)該數(shù)據(jù)庫(kù)中的語(yǔ)音子數(shù)據(jù)庫(kù)、圖像視頻子數(shù)據(jù)庫(kù)和文本子數(shù)據(jù)庫(kù)的基本結(jié)構(gòu)和主要功能進(jìn)行詳細(xì)分析。

關(guān)鍵詞：格局理論多模態(tài)檔案數(shù)據(jù)庫(kù)

自20世紀(jì)90年代以來(lái)，蒙古語(yǔ)、哈薩克語(yǔ)、維吾爾語(yǔ)等多種少數(shù)民族語(yǔ)言檔案數(shù)據(jù)庫(kù)陸續(xù)建設(shè)成功。20世紀(jì)初，安多藏語(yǔ)、云南各少數(shù)民族語(yǔ)言運(yùn)用新技術(shù)，擁有了自己的有聲語(yǔ)言數(shù)據(jù)庫(kù)。2011年，“浙江方言語(yǔ)音檔案建設(shè)工程”開(kāi)始建設(shè)，包含了68個(gè)方言點(diǎn)，涉及語(yǔ)音、詞匯、語(yǔ)法及說(shuō)唱、歌謠、戲曲等內(nèi)容，同時(shí)還錄制了部分音視頻材料。通過(guò)這種方式，一定程度上改變了口口相傳或文字記載等保留方言的傳統(tǒng)形式，對(duì)保存和搶救民族語(yǔ)言資源具有重要意義。從整體上看，目前我國(guó)語(yǔ)言檔案數(shù)據(jù)庫(kù)建設(shè)尚處于探索階段，面對(duì)大數(shù)據(jù)以及“互聯(lián)網(wǎng)+”的挑戰(zhàn)，如何實(shí)現(xiàn)對(duì)語(yǔ)言檔案的有效管理將成為檔案學(xué)研究的熱點(diǎn)。其中，本文所涉語(yǔ)言檔案數(shù)據(jù)庫(kù)指的是以錄音、錄像等多種電子媒體錄制民族語(yǔ)言資源有聲語(yǔ)料，以高保真的質(zhì)量為目的，收集研究樣本而建立的數(shù)據(jù)庫(kù)，它可以原生態(tài)地保留現(xiàn)階段有關(guān)語(yǔ)言的語(yǔ)音、詞匯、語(yǔ)法及篇章等面貌。

一、基于格局理論的多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)的提出

以往的語(yǔ)言檔案和數(shù)據(jù)庫(kù)研究，通常都是從詞匯、語(yǔ)音或者語(yǔ)法的某個(gè)方面入手，缺少相互之間的聯(lián)系，導(dǎo)致材料缺乏整體性和相關(guān)性。另外，在研究范式上，大多數(shù)語(yǔ)言檔案數(shù)據(jù)庫(kù)僅依靠文字、錄音等，各種信息之間的匹配度和精準(zhǔn)度一直受到質(zhì)疑。具體而言，現(xiàn)有的各種語(yǔ)言檔案庫(kù)，如丁邦新等開(kāi)發(fā)的“漢藏同源詞研究系統(tǒng)”，收錄了漢藏語(yǔ)系122種語(yǔ)言和12種漢語(yǔ)方言的1500余條詞匯；中國(guó)科學(xué)院多民族語(yǔ)言資源數(shù)據(jù)庫(kù)，建立了漢語(yǔ)、藏語(yǔ)、蒙語(yǔ)和維語(yǔ)的平行語(yǔ)料庫(kù)和形態(tài)庫(kù)，目前收錄了781篇文章的文本信息；上海語(yǔ)言資源有聲數(shù)據(jù)庫(kù)僅列舉了上海不同區(qū)域的幾十個(gè)單音字。這些語(yǔ)言檔案庫(kù)均在不同程度上存在缺少語(yǔ)音原始情景信息（如無(wú)法直觀用圖像展示兩個(gè)音的差異）、系統(tǒng)搜索功能單一（大多僅用于搜索漢語(yǔ)普通話(huà)對(duì)應(yīng)的方言詞或民族詞）、資源非共享等缺陷。在技術(shù)層面上，檔案聲音的音質(zhì)也不夠理想，錄像不夠清晰，數(shù)據(jù)清晰度和保真度較低。

針對(duì)上述問(wèn)題，筆者提出從格局理論的角度出發(fā)，建立多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)。其中，格局理論提倡用科學(xué)實(shí)驗(yàn)的方法對(duì)語(yǔ)言進(jìn)行研究，用計(jì)算機(jī)軟件將原本口口相傳的內(nèi)容轉(zhuǎn)變成可視圖像，構(gòu)建出一種語(yǔ)言或方言的格局。即把語(yǔ)音學(xué)和音系學(xué)聯(lián)系在一起，用于聲調(diào)、元音、輔音、語(yǔ)調(diào)、韻律、聽(tīng)感等多個(gè)方面的研究，能夠從這些維度全方位地保存語(yǔ)音的原始情景信息，提升數(shù)據(jù)的完整性。多模態(tài)研究則是通過(guò)多種技術(shù)手段采集人們使用語(yǔ)言過(guò)程中所呈現(xiàn)的各種類(lèi)型的多模態(tài)數(shù)據(jù)，發(fā)掘蘊(yùn)含在音頻、視頻、圖像等各種媒介中的各種信號(hào)、數(shù)據(jù)，從而多維度地解讀人們言語(yǔ)交際的意義及其產(chǎn)生機(jī)制，有效進(jìn)行語(yǔ)言檔案的采集和保護(hù)。在此基礎(chǔ)上的格局理論下的多模態(tài)語(yǔ)言是一種融合了多種符號(hào)模態(tài)進(jìn)行交際的話(huà)語(yǔ)，除了傳統(tǒng)的文本之外，它還包括口頭語(yǔ)言、圖像、體態(tài)語(yǔ)、音調(diào)、音樂(lè)等形式，具有復(fù)合性和動(dòng)態(tài)性的特點(diǎn)，能夠全方位地展現(xiàn)語(yǔ)音的特點(diǎn)。與常見(jiàn)的詞匯、語(yǔ)法等傳統(tǒng)文本語(yǔ)料庫(kù)相比，多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)的語(yǔ)料采集、轉(zhuǎn)寫(xiě)、切分、標(biāo)注以及建庫(kù)均不相同。它采集的所有語(yǔ)料必須是高保真、非壓縮的語(yǔ)音信號(hào)，這樣才能完成后期語(yǔ)音實(shí)驗(yàn)，數(shù)據(jù)的準(zhǔn)確性可以得到保證。也可以采用高速攝像頭、呼吸帶等最新研究?jī)x器，進(jìn)行跨學(xué)科研究，關(guān)注發(fā)聲態(tài)、韻律等特征。最近也有專(zhuān)家嘗試用Terason超聲儀、電磁發(fā)音記錄儀（EMA）等采集更多復(fù)合信息。綜上，本研究以格局理論為指導(dǎo)，參照國(guó)際語(yǔ)言檔案數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)，采用新型的生理及聲學(xué)觀測(cè)方法，收集多模態(tài)的語(yǔ)言數(shù)據(jù)，采用最新搜索技術(shù)（包含文本和聲音搜索，還有二三次搜索），從而建設(shè)了一個(gè)動(dòng)態(tài)的、數(shù)字信息化的語(yǔ)言檔案數(shù)據(jù)庫(kù)。目標(biāo)是將數(shù)據(jù)中包含的性別、年齡、表情等信息綜合處理，提高信息處理的速度和準(zhǔn)確度，為信息資源建設(shè)服務(wù)，實(shí)現(xiàn)資源共享。

二、基于格局理論的多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)的構(gòu)建

多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)的建設(shè)并不是簡(jiǎn)單地錄音、攝像保存，而是一個(gè)系統(tǒng)的、多維度的立體建設(shè)過(guò)程，從最開(kāi)始的確定調(diào)查材料，經(jīng)過(guò)數(shù)據(jù)采集、分析，到最后的建成使用，中間有多個(gè)過(guò)程。如圖1所示。在構(gòu)建多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)的過(guò)程中，本文針對(duì)現(xiàn)有語(yǔ)言檔案資源庫(kù)存在的系統(tǒng)搜索功能單一、資源非共享等問(wèn)題，特別強(qiáng)調(diào)各個(gè)系統(tǒng)及子系統(tǒng)檔案數(shù)據(jù)庫(kù)之間的交互性。這里，筆者主要以畬話(huà)為例進(jìn)行闡述。畬話(huà)是浙江畬族群眾普遍使用的一種語(yǔ)言，他們主要分布在麗水、溫州等地。其中，景寧是我國(guó)唯一的畬族自治縣，現(xiàn)有畬族人口約1.45萬(wàn)人。在前期田野調(diào)查時(shí)我們發(fā)現(xiàn)，越來(lái)越多的畬族年輕人已經(jīng)不會(huì)說(shuō)畬話(huà)了，可見(jiàn)建立畬話(huà)語(yǔ)言檔案數(shù)據(jù)庫(kù)迫在眉睫。

（一）調(diào)查材料設(shè)計(jì)

這是建設(shè)語(yǔ)言檔案數(shù)據(jù)庫(kù)的第一步。在這個(gè)過(guò)程中，需要注意的是語(yǔ)言檔案數(shù)據(jù)庫(kù)是否具有代表性，其體現(xiàn)在分析得出的結(jié)果能否概括這種語(yǔ)言的整體或指定部分的特征，進(jìn)而歸納出語(yǔ)音格局。在參考其他學(xué)者音系研究的基礎(chǔ)上，筆者所在課題組制定了錄音的字表、詞表、句表和語(yǔ)篇。原則是盡量選取畬話(huà)中使用的自然語(yǔ)言作為調(diào)查材料，主要包含使用頻率較高的常用字詞、具有畬話(huà)特征的字詞、具有代表性的語(yǔ)音結(jié)構(gòu)的字詞，每一部分都要經(jīng)過(guò)精心設(shè)計(jì)。最終的語(yǔ)料文本由以下部分構(gòu)成：9個(gè)單元音、20個(gè)輔音、6個(gè)聲調(diào)。

1.在設(shè)計(jì)字表的時(shí)候，分為元音、輔音、聲調(diào)三個(gè)部分，根據(jù)錄音要求分別制定。如針對(duì)每個(gè)聲調(diào)，所用發(fā)音字表設(shè)計(jì)了包括六個(gè)聲調(diào)在內(nèi)的單音字6組，其中每組包含同一聲調(diào)的單音例字10個(gè)。這樣能夠保證用盡量少的語(yǔ)料覆蓋全部的聲調(diào)和語(yǔ)音，進(jìn)而使數(shù)據(jù)庫(kù)的冗余度較小。相較而言，詞表的設(shè)計(jì)相對(duì)復(fù)雜，我們主要設(shè)計(jì)了雙音節(jié)詞，研究畬話(huà)中的連讀變調(diào)現(xiàn)象。6個(gè)聲調(diào)，構(gòu)成了36種組合方式，每種組合方式有6個(gè)詞語(yǔ)，共得到196個(gè)語(yǔ)料。

2.句子和語(yǔ)篇設(shè)計(jì)包括朗讀部分和表達(dá)部分。朗讀部分主要包含經(jīng)過(guò)處理的畬族民間故事、詩(shī)歌等。語(yǔ)篇設(shè)計(jì)盡量做到聲、韻、調(diào)搭配的全面性，同時(shí)考慮不同的語(yǔ)調(diào)、韻律、音段等。為了使語(yǔ)料包括不同的韻律結(jié)構(gòu)單位，設(shè)計(jì)的句子包括畬話(huà)的多種句類(lèi)、句型、句式。表達(dá)部分確定了一些常見(jiàn)話(huà)題，主要有個(gè)人經(jīng)歷、家庭情況、情景描述等，構(gòu)成了鮮活的“口述檔案”。這一部分不指定文本，記錄發(fā)音人獨(dú)自表達(dá)或與他人交談時(shí)的數(shù)據(jù)，因此自然度較高，收集到了一些特殊的語(yǔ)音現(xiàn)象，如情緒、心理變化對(duì)語(yǔ)調(diào)的影響、口語(yǔ)化的停頓與呼吸模式等。

（二）建立發(fā)音人的信息檔案庫(kù)

為了保證研究結(jié)果的科學(xué)性，我們?cè)谶x擇發(fā)音人前，確定了相關(guān)標(biāo)準(zhǔn)：一是世代生活在景寧當(dāng)?shù)氐漠屪迦罕?，母語(yǔ)為畬話(huà)，沒(méi)有長(zhǎng)時(shí)間外出經(jīng)歷，家庭成員均為畬族。二是均為右利手，聽(tīng)力和發(fā)音器官均正常。三是發(fā)音當(dāng)日身體健康，無(wú)影響錄音和錄像質(zhì)量的疾病。四是認(rèn)識(shí)語(yǔ)料中的漢字，但無(wú)語(yǔ)言學(xué)背景知識(shí)。經(jīng)過(guò)篩選，筆者所在課題組選取了不同年齡段（20-60歲）的5名男性和5名女性，作為儲(chǔ)備發(fā)音人。

（三）語(yǔ)言檔案采集

語(yǔ)料采集是語(yǔ)言檔案庫(kù)建設(shè)的關(guān)鍵。其采集過(guò)程包括實(shí)驗(yàn)系統(tǒng)的配置、實(shí)驗(yàn)地點(diǎn)的選取、預(yù)實(shí)驗(yàn)的實(shí)施及問(wèn)題處理、實(shí)驗(yàn)后期數(shù)據(jù)鑒別等。傳統(tǒng)的田野調(diào)查多選取在安靜的普通房間內(nèi)，用錄音筆等方式錄音，對(duì)錄音質(zhì)量的控制并不嚴(yán)格，效果也差強(qiáng)人意。為此，為了保證語(yǔ)音樣本的準(zhǔn)確性，解決數(shù)據(jù)失真的問(wèn)題，筆者所在課題組通過(guò)與景寧電視臺(tái)合作，使用技術(shù)最新的錄音棚進(jìn)行錄音，聲卡采用Sound device USBPre2，話(huà)筒采用頭戴式指向性話(huà)筒AKG C520，極大地控制了噪音。此外，我們還采用了高速攝像頭、呼吸帶等作為采集系統(tǒng)，采集發(fā)音時(shí)面部嘴唇和表情、呼吸韻律節(jié)奏等信息。這樣，便于語(yǔ)言檔案的采集、管理和開(kāi)發(fā)，能夠使數(shù)據(jù)達(dá)到高保真、高清晰的多模態(tài)效果。

（四）語(yǔ)言檔案管理

為了能夠集成化管理語(yǔ)料，我們?cè)O(shè)計(jì)了一系列的語(yǔ)音文件命名規(guī)則。每個(gè)文件的名稱(chēng)由性別（男M、女F）、年齡（老年E、中年M、青年Y）、錄音時(shí)間（年、月、日）、類(lèi)型（字A、詞B、句C、段落D）、發(fā)音人編號(hào)（001、002……）等組成，如編號(hào)“MY20150123A”的文件，想要表達(dá)的是發(fā)音人是一位男性，青年人年齡段，錄音時(shí)間是2015年1月23日，單字音，編號(hào)是002。這樣，錄制的每一個(gè)文件都有自己的名稱(chēng)，調(diào)取和保存較為方便，有利于信息處理。

（五）語(yǔ)言檔案分析

大規(guī)模的錄音采樣完成后，需要對(duì)數(shù)據(jù)進(jìn)行處理，以提高數(shù)據(jù)庫(kù)質(zhì)量。每次錄音完畢后，都由畬話(huà)母語(yǔ)者檢驗(yàn)錄音文件是否正確，進(jìn)行檢查和補(bǔ)錄。在技術(shù)上，需要處理噪聲，如過(guò)長(zhǎng)的靜音段、咳嗽聲等。之后將錄音導(dǎo)入到南開(kāi)大學(xué)研發(fā)的電腦語(yǔ)音分析系統(tǒng)“桌上語(yǔ)音工作室”的軟件中，進(jìn)行測(cè)算和統(tǒng)計(jì)作圖。以聲調(diào)為例，需要得出發(fā)音字的基頻圖，調(diào)整曲線(xiàn)然后進(jìn)行統(tǒng)計(jì)，將數(shù)據(jù)加入聲調(diào)格局，最后用語(yǔ)音分析軟件畫(huà)出聲調(diào)格局圖，如圖2所示。其結(jié)果主要用于語(yǔ)音識(shí)別、語(yǔ)音合成等。

三、多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)的基本結(jié)構(gòu)及主要功能

多模態(tài)語(yǔ)言檔案數(shù)據(jù)庫(kù)主要由三個(gè)子數(shù)據(jù)庫(kù)組成，即語(yǔ)音子數(shù)據(jù)庫(kù)，圖像、視頻子數(shù)據(jù)庫(kù)以及文本子數(shù)據(jù)庫(kù)。

1.語(yǔ)音子檔案庫(kù)用于存放畬話(huà)的語(yǔ)音信息及其屬性、鏈接等。語(yǔ)音信息主要指字、詞、句、段落的發(fā)音，也包括連讀變調(diào)以后的發(fā)音。語(yǔ)音特征信息包含了音系特征、字音特征和語(yǔ)調(diào)特征等。通過(guò)比較，可以較好地看到畬話(huà)與其他語(yǔ)言或方言之間的聯(lián)系與區(qū)別。語(yǔ)音數(shù)據(jù)庫(kù)主要包括字音庫(kù)、詞音庫(kù)、句音庫(kù)和語(yǔ)篇音庫(kù)等。

語(yǔ)音子檔案庫(kù)主要用來(lái)檢索，目前可以提供文本（包括漢字、國(guó)際音標(biāo)、漢語(yǔ)拼音等）的檢索方式。同時(shí)，以畬話(huà)的語(yǔ)音為檢索條件，可以迅速找出調(diào)類(lèi)、調(diào)型、變調(diào)、韻律等語(yǔ)音特征，有效實(shí)現(xiàn)普通話(huà)與畬話(huà)之間的雙向匹配。通過(guò)控制搜索條件，點(diǎn)擊語(yǔ)音庫(kù)里的字、詞、句、段落，便可以聽(tīng)到不同發(fā)音人的原生態(tài)發(fā)音信息。逐步采用智能化檢索功能，與用戶(hù)進(jìn)行交互。檢索結(jié)果可以進(jìn)行二、三次檢索。

2.圖像、視頻子檔案庫(kù)用于存放與語(yǔ)音信息相匹配的圖像、視頻信息。它是一個(gè)集成化的系統(tǒng)，用戶(hù)點(diǎn)擊語(yǔ)音信息時(shí)，旁邊就會(huì)出現(xiàn)發(fā)音人發(fā)音時(shí)的臉部、體態(tài)圖像與視頻等。而這些基于現(xiàn)代信息技術(shù)對(duì)方言的原始記錄語(yǔ)言檔案，能夠原汁原味地呈現(xiàn)方言的語(yǔ)言?xún)?nèi)涵，避免在保存過(guò)程中出現(xiàn)失真的情況，最大限度地實(shí)現(xiàn)對(duì)語(yǔ)言檔案的整理、開(kāi)發(fā)、利用和保護(hù)。

3.文本子檔案庫(kù)主要用于存放畬話(huà)的字、詞、句、段落等文本信息及其屬性、鏈接等。具體包括字庫(kù)、詞匯庫(kù)、句庫(kù)、段落庫(kù)等。對(duì)各部分的語(yǔ)音材料進(jìn)行文本轉(zhuǎn)寫(xiě)，與語(yǔ)音數(shù)據(jù)庫(kù)同步呈現(xiàn)在屏幕上，實(shí)現(xiàn)三個(gè)子數(shù)據(jù)庫(kù)數(shù)據(jù)的平行呈現(xiàn)。

以上三個(gè)語(yǔ)言子檔案庫(kù)是一個(gè)集成化的系統(tǒng)，在各自獨(dú)立的基礎(chǔ)上又存在密切聯(lián)系，構(gòu)成新的語(yǔ)言檔案庫(kù)格局。除了在線(xiàn)學(xué)習(xí)以外，三個(gè)語(yǔ)言子檔案數(shù)據(jù)庫(kù)也提供下載服務(wù)。用戶(hù)可以將檢索的結(jié)果下載，輸出語(yǔ)言數(shù)據(jù)的統(tǒng)計(jì)結(jié)果，也可以下載語(yǔ)音文件等。

*本文為教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“景寧畬話(huà)的語(yǔ)音格局研究”（項(xiàng)目編號(hào)：14YJC740071）和浙江省社科聯(lián)研究課題“景寧畬話(huà)的聲調(diào)格局研究”（項(xiàng)目編號(hào)：2014B154）的階段性成果之一。

參考文獻(xiàn)：

[1]徐越.“浙江方言音檔”的構(gòu)建及預(yù)期價(jià)值[J].浙江檔案，2012（1）：39-42.

[2]洪拓夷.漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)構(gòu)想[J].圖書(shū)情報(bào)工作，2009，53（5）：83-86.

[3]石鋒，冉啟斌，王萍.論語(yǔ)音格局[J].南開(kāi)語(yǔ)言學(xué)刊，2010（1）：1-14.

[4]高原，顧明亮等.多用途漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)的設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用，2012，48（5）：118-120.

[5]陳子丹，鄭宇，武澤淼.我國(guó)少數(shù)民族瀕危語(yǔ)言建檔的幾點(diǎn)思考[J].檔案學(xué)通訊，2016（4）：92-96.

[6]張芳霖，湯曉良，謝雨菲.我國(guó)方言檔案式保護(hù)的SWOT分析[J].北京檔案，2016（2）：27-28.

作者單位：中國(guó)計(jì)量大學(xué)