張 曉
(伊犁師范學院 電子與信息工程學院,新疆 伊寧 835000)
語料庫作為大數(shù)據(jù)的一部分,目前已廣泛應用于社會各個領域[1-6]。由于語料數(shù)據(jù)的特殊性,語料庫建設周期往往較長。雖然目前一些語料庫建設中能夠通過爬蟲等技術自動獲取所需語料信息[7-11],但對于一些瀕危語言或網(wǎng)絡信息量本來就很少的語言或方言,能爬取的內(nèi)容則相對較少,所以此類語料庫建設仍然需要語言工作者通過人工完成。此外,對爬蟲算法性能的檢測也需要標準庫的支持。
目前語料庫根據(jù)語料類型可分為兩類,一類是單模態(tài)語料庫,另一類是多模態(tài)語料庫。單模態(tài)語料即為純文本語料,此類語料庫相對簡單,利用傳統(tǒng)的語料庫工具即可實現(xiàn)。因其語料為純文本形式,所以利用XML類的文本標記語言很容易實現(xiàn)網(wǎng)絡化[12-14];另一類為多模態(tài)語料庫。多模態(tài)語料庫將音頻、視頻及文字語料等多種信息加以集成,研究者可通過多模態(tài)方式對其進行加工、檢索與統(tǒng)計[15]。由于多模態(tài)語料庫較為復雜,在建的語料庫大多為單模態(tài)語料庫[16-18]。目前與語料庫建設相關的工具軟件也比較多,如Transcriber、ELAN、Praat等,但語料庫作為大數(shù)據(jù)非常重要的一部分,對其進行網(wǎng)絡化已是必然趨勢[19-20]。目前多模態(tài)語料庫的網(wǎng)絡化仍需要基于數(shù)據(jù)庫技術實現(xiàn)[21-23],這對于從事語料庫建設的語言工作者而言是十分困難的,因而導致網(wǎng)絡語料庫建設進展緩慢。本文將介紹一種網(wǎng)絡多模態(tài)語料庫建設方法,其不需要非常專業(yè)的計算機技術支持即可完成,從而使后期語料庫資源擴充及維護工作量大幅下降。本文采用的基本功能軟件有:音頻編輯軟件、語料轉寫標注軟件、語檔創(chuàng)建工具軟件,分別推薦使用Audacity、Excel與Sonicfield。
Sonicfield也稱為聲飛,是暨南大學漢語方言研究中心研發(fā)的一款免費語言調(diào)查與建檔工具,其支持錄音、注音、多媒體網(wǎng)頁語檔創(chuàng)建等功能,是一款小巧實用的功能軟件。與其它軟件相比,其優(yōu)勢在于對字、詞、句語料的采錄與處理,且操作簡單,易于掌握。軟件主要功能有:新建或導入調(diào)查表、條目錄音與轉寫、提取詞表及句表、輸出網(wǎng)頁、創(chuàng)建語料庫等。
Audacity是一款跨平臺的免費、開源聲音編輯軟件,可從其官方網(wǎng)站下載https://www.audacityteam.org/download/。Audacity具有錄音、音頻編輯、電子音樂制作等功能,可在Windows、Mac、GNU / Linux及其它操作系統(tǒng)上運行,支持多種文件格式,如:WAV、AIFF、AU、IRCAM、MP3及Ogg Vorbis等。軟件功能較為強大,包括:環(huán)境噪聲與人聲音量測定、降噪、剪輯、碎片音頻導出、格式轉換等。在應用這些軟件之前需準備好語料的文本部分,包括少數(shù)民族語言/方言文本,若因語言的書寫方向或其它原因無法直接使用,還應準備對應的轉寫文本。另外還可根據(jù)需要準備國際音標、漢語拼音等素材。
語料庫建設基本流程通常包括以下幾個階段:腳本征集編寫階段、音視頻采集階段、轉寫標注階段、語料庫生成階段。語料庫的有聲語料包括單字錄音、詞匯錄音、句子錄音、話語錄音4大類[24]。
第一階段最終需給出符合一定規(guī)范要求的腳本,并根據(jù)需要給出轉寫及標注文本;第二階段需對這些腳本進行音視頻采集。在語料采集前應填寫相應的記錄資料存檔表及發(fā)音合作人基本情況表[25]。為了使語料庫將來能作為語音標準數(shù)據(jù)庫用于語音識別、檢測等,對于字、詞、句的發(fā)音人,若有條件應選擇以本民族方言為母語的播音員。對于發(fā)音人性別的選擇,從應用效果看,女聲比男聲更加清晰,且更具有親和力[26];第三階段的語料轉寫是指呈現(xiàn)能夠通過感官直接觀察到的語料信息,而標注則是根據(jù)研究者從事何項研究、采用何種理論而對語料信息進行選擇性地加工與呈現(xiàn),是將信息轉化為數(shù)據(jù)的過程[15]。選取合適的工具軟件,實現(xiàn)對媒體文件的轉寫標注,并給出標注文件;第四階段將得到的所有標注文件及文檔組織成語料庫。
本文將重點介紹利用Audacity、Sonicfield與Excel創(chuàng)建網(wǎng)絡多模態(tài)語料庫的詳細過程。因第一與第二階段不是本文主要內(nèi)容,在此不作過多闡述。
語料庫建設過程中的一個重要階段就是轉寫標注。在得到轉寫標注文本后,發(fā)音人需要對其進行錄音或錄像,生成媒體文件,下一步即對媒體文件進行轉寫標注。目前已有ELAN、Praat、EXMARalDA等轉寫標注工具,因后期Sonicfield可支持的導入文件類型很多,如EXMARalDA、ELAN、Audacity標記、Sonicfield XML及Excel文件等,這里使用最熟悉的Excel文件進行導入。以下以錫伯語語料庫為例進行說明。
對錫伯語進行三層標注,分別是錫伯語的拉丁轉寫、國際音標與普通話翻譯。對于以下詞匯內(nèi)容,只需按列導入到Excel中即可,列標題分別為編碼、民族文字、國際音標和條目。
編碼民族文字國際音標條目1dededd阿姨2heerremxεrm愛3pakaphakha矮
需要說明的是,因Excel中的數(shù)據(jù)將作為后期Sonicfield的數(shù)據(jù)源,因此其列標題定義要與Sonicfield中的定義相符,而且其中必須有編碼與條目,且編碼不能重復。
本文使用Audacity進行錄音文件切分,具體步驟如下:
(1)用Audacity打開錄音文件,執(zhí)行“軌道”菜單中“增加新軌道”下的“標記軌”命令,將會在聲波下方增加一個新軌道——“標記軌”。用鼠標選擇需要切分的音段,執(zhí)行“編輯”菜單中“標記”命令下的“為選區(qū)添加標記”操作(快捷鍵Ctrl+B),在編輯區(qū)寫入標記,按“回車”確定,如圖1所示(注:這里的標記應與Excel中的編碼相同,并與之一一對應)。
圖1 添加標記
(2)執(zhí)行“文件”菜單中“導出”命令下的“導出多個文件”選項,選擇輸出路徑、輸出格式等,“命名文件”選擇默認選項。對每個導出都作出提示,完成后提示總共導出的文件數(shù)。
網(wǎng)絡語料庫建設需要經(jīng)過以下兩個步驟:網(wǎng)頁文件生成與語料庫組織發(fā)布。
2.3.1 網(wǎng)頁文件生成
網(wǎng)頁文件的生成方法很多,如使用EXMARaLDA生成網(wǎng)頁文件等[27],本文采用Sonicfield進行文件生成。
在前期使用Excel生成轉寫文件,利用聲飛Sonicfield“文件”菜單下的“導入”命令導入Excel文件;導入成功后,錄音狀態(tài)顯示為“未錄”,此時執(zhí)行“選項”菜單下的“錄音模式”命令,選擇“導入錄音”下拉列表框里的“按編號批量導入”,找到Audacity導出的文件路徑,選擇所有要導入的文件(Ctrl+A),點擊“打開”,出現(xiàn)導入進程條;當導入結束時,“錄音狀態(tài)”變?yōu)椤耙唁洝保鐖D2所示。
圖2 聲飛導入轉寫文件后頁面
另外,如果錄音過程尚未完成,可在導入轉寫文件后,請發(fā)音人在錄音模式下再進行一條條錄制。
在綁定切分完成后,執(zhí)行“文件”菜單下的“導出”命令,在“保存類型”列表中選擇“帶音視頻網(wǎng)頁”,即完成網(wǎng)頁文件導出。
打開網(wǎng)頁文件,可看到在每個條目旁有一個小喇叭,點擊即可播放該錄音文件,如圖3所示。
圖3 導出音視頻網(wǎng)頁
若是視頻文件,旁邊則出現(xiàn)攝像機符號,點擊可打開小窗口播放視頻,如圖4所示。
圖4 視頻媒體播放效果
2.3.2 語料庫組織發(fā)布
語料庫中含有大量信息,根據(jù)其所屬類別分別組織為不同的轉寫文件或文本。由于文件之間相互獨立,本文利用Sonicfield的語檔管理功能完成對文件的組織。在組織語檔之前,應準備好網(wǎng)頁文件及說明性文本文件,然后執(zhí)行“語檔”菜單下的“創(chuàng)建語檔網(wǎng)頁”命令。
整個創(chuàng)建過程分為4步:①填寫語檔元數(shù)據(jù);②輸出調(diào)查表網(wǎng)頁,如果前期已生成網(wǎng)頁,可跳過該步驟;③組織網(wǎng)頁文件,主要完成概況填寫并添加網(wǎng)頁文件;④生成語檔網(wǎng)頁,將所有添加的文件組織在一起并放在各自的文件夾下,生成一個主頁文件index.html。語料庫運行界面如圖5所示。
圖5 語料庫運行界面
“點擊瀏覽”欄里列出了所有添加的文件,單擊可打開相應頁面。如點擊“詞表”,即打開如圖3所示頁面。
后期可與相關部門協(xié)商將該語料庫文件上傳到相應網(wǎng)站,即可通過互聯(lián)網(wǎng)進行瀏覽。
基于網(wǎng)絡多模態(tài)語料庫的語言研究對于拓展語言學研究視野、推動語言學理論發(fā)展具有一定促進作用,對其它人文社科的研究也具有參考價值。本文介紹的方法僅利用簡單的技術即實現(xiàn)了網(wǎng)絡多模態(tài)語料庫建設,與傳統(tǒng)的程序設計開發(fā)方法相比,大大降低了成本,使網(wǎng)絡多模態(tài)語料庫建設從此步入快車道,進而使得語料庫成果受益人從先前的少數(shù)專業(yè)人員擴大到廣大語言愛好者。該技術的推廣對于少數(shù)民族語言/方言資源的保護與研究具有重要意義。