亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于預(yù)制約束的漢語語音錄入系統(tǒng)

        2021-01-13 00:41:35錢小飛
        現(xiàn)代語文 2021年12期
        關(guān)鍵詞:預(yù)制流程管理約束

        錢小飛

        摘? 要:基于預(yù)制約束,提出一種漢語語音錄入的解決方案。在軟件系統(tǒng)方面,通過定制音系系統(tǒng),采用大顆粒度語音數(shù)據(jù)和選擇式錄入方式進行語音錄入,并引入智能的錯誤檢查機制和記憶排序機制,來檢測錯誤和提高錄入效率。在管理系統(tǒng)方面,重視錄入流程管理,制定配套的錄入流程規(guī)范來支持高質(zhì)量錄入?;陬A(yù)制約束的漢語語音錄入系統(tǒng),在提高錄入一致性和準(zhǔn)確性方面,提供了高效的解決方案。

        關(guān)鍵詞:漢語語音錄入;預(yù)制;約束;流程管理

        隨著經(jīng)驗主義研究的繁榮,語言學(xué)研究越來越依賴于大規(guī)模真實語言材料的獲取。受益于計算機技術(shù)的發(fā)展,語法學(xué)和語義學(xué)研究所需要的大量文本材料比語音材料更容易獲取。語音材料的獲取不僅需要大量的語言調(diào)查,高效靈活的錄入也是困擾研究者的主要問題。前人在語音錄入問題上作出了大量的富有成效的工作,如李龍、潘悟云開發(fā)了云龍國際音標(biāo)輸入法,解決了國際音標(biāo)錄入的問題[1]。海柳文開發(fā)了“漢語方言民族語言語音材料處理軟件”,分析處理調(diào)查所得的語音數(shù)據(jù)[2]。程南昌、侯敏開發(fā)了同音字匯生成軟件,專門處理同音字表的排序生成[3]。潘悟云設(shè)計開發(fā)了漢語方言計算機處理系統(tǒng)(TFD),實現(xiàn)了方言材料的輸入與規(guī)整、字音查詢、方言音系分析、方言語音處理、方言地圖等功能[4]。上述系統(tǒng)大多是針對方言語音處理的,在一定程度上支持了語音的輸入、編輯和整理工作,為語音錄入的編碼、輸入、檢索、分析提供了便捷的工具。

        我們希望在前人工作的基礎(chǔ)上,對語音錄入所存在的一些難點提供解決方案。這些問題主要包括:第一,字符一致性問題。國際音標(biāo)需要用特殊軟件錄入,對于同一個音標(biāo),不同人員以至同一人的錄入都會出現(xiàn)大量差別。第二,音標(biāo)的錯誤約束問題。在錄入國際音標(biāo)時,常常會發(fā)生錄入錯誤,包括誤刪、誤增等。有些錄入者使用鍵盤和普通輸入法錄入部分國際音標(biāo),甚至將一個音標(biāo)拆分為多個字符,使得看上去類似的“國際音標(biāo)”符號內(nèi)部編碼不同,這樣就會造成檢索不全和誤檢現(xiàn)象,降低了數(shù)據(jù)庫的可用性和準(zhǔn)確性。第三,稀疏特征值數(shù)據(jù)的問題。相近的方言在語音上可能會存在少量區(qū)別,卻是語音研究的重要數(shù)據(jù)。在提供批量修正功能的系統(tǒng)中,容易造成稀疏特征值數(shù)據(jù)的無意識忽視。第四,字表問題。有時僅依靠所擁有的字表難以預(yù)測被調(diào)查方言的同音字情況,或者需要在現(xiàn)有字表的基礎(chǔ)上增補語音材料[5],希望先錄入再整理材料,這就需要一種靈活的逐字錄入的方式?;谏鲜鰡栴},本文提出了一種基于預(yù)制約束的語音錄入策略,研制了一個漢語語音錄入系統(tǒng)。

        一、研制思路和系統(tǒng)構(gòu)造

        (一)漢語語音錄入系統(tǒng)的研制思路

        基于預(yù)制約束的漢語語音錄入系統(tǒng)的主要研制思路,是通過支持定制化和規(guī)范化的錄入流程管理,來解決錄入過程中的錄入一致性、音標(biāo)的錯誤約束和稀疏特征值數(shù)據(jù)問題。具體來說,我們采用基于大顆粒數(shù)據(jù)的選擇式語音錄入方式,同時引入智能的錯誤檢查機制和記憶排序機制,并通過嚴格的流程管理來保證錄入數(shù)據(jù)的質(zhì)量。

        (二)漢語語音錄入系統(tǒng)的構(gòu)造

        廣義的漢語語音錄入系統(tǒng)包括軟件系統(tǒng)和管理機制兩個方面。具體來說,軟件系統(tǒng)主要由數(shù)據(jù)系統(tǒng)、語音錄入系統(tǒng)兩個部分組成,管理機制則由錄入管理規(guī)范構(gòu)成。漢語語音錄入系統(tǒng)結(jié)構(gòu)可如圖1所示:

        其中,數(shù)據(jù)系統(tǒng)是語音錄入系統(tǒng)的操作對象,同時也為語音錄入系統(tǒng)規(guī)定參數(shù);錄入管理規(guī)范規(guī)定了語音錄入系統(tǒng)的錄入規(guī)則。狹義的漢語語音錄入系統(tǒng)則專指軟件系統(tǒng)。

        二、漢語語音錄入的軟件系統(tǒng)

        (一)數(shù)據(jù)系統(tǒng)

        數(shù)據(jù)系統(tǒng)包括語音數(shù)據(jù)表庫和元數(shù)據(jù)系統(tǒng)。數(shù)據(jù)庫采用Access數(shù)據(jù)庫,由多個語音數(shù)據(jù)表組成。數(shù)據(jù)表是系統(tǒng)存放錄入數(shù)據(jù)的地方,包括用于初始化的Init數(shù)據(jù)表和用戶自定義的數(shù)據(jù)表。每個數(shù)據(jù)表的數(shù)據(jù)結(jié)構(gòu)可如表1所示:

        元數(shù)據(jù)系統(tǒng)包括合法的聲韻調(diào)數(shù)據(jù)和非法的聲韻符號,用于提高錄入的效率,進行智能化的錯誤檢測。合法的聲韻調(diào)數(shù)據(jù)存放于List文件夾中,非法的聲韻調(diào)符號存放于IllElem文件夾中。這兩組數(shù)據(jù)默認已經(jīng)存在,用戶可按照規(guī)定格式自行定制和修改內(nèi)容,由于語音錄入往往需要使用國際音標(biāo),數(shù)據(jù)內(nèi)容必須使用UNICODE編碼。List文件夾和IllElem文件夾與主程序TPD(Tools for Phonetic Data)位于同一個文件夾下。合法的聲韻調(diào)數(shù)據(jù)文件、非法的聲韻調(diào)符號文件分別如表2、表3所示:

        (二)語音錄入系統(tǒng)

        1.控件注冊

        語音錄入系統(tǒng)用于錄入漢語語音,具備了數(shù)據(jù)庫連接、加載視圖、語音記錄錄入、語音記記錄檢索、語音記錄更新、語音記錄刪除等功能。

        在打開語音錄入軟件之前,需要為軟件進行控件注冊,這些控件管理語音數(shù)據(jù)的顯示??丶钥梢苑譃閮煞N情況:第一種情況,如果系統(tǒng)盤為C盤,雙擊regctrl.bat或regctrl.bat64,彈出注冊成功的窗口后予以確認。第二種情況,如果系統(tǒng)盤不是C盤,拷貝OCX文件夾下的MSADODC.OCX,MSDATGRD.OCX至system32文件夾;點擊開始->運行,在控制臺中輸入regsvr32 msadodc.ocx,按回車,彈出注冊成功的窗口后確認;然后在控制臺中輸入regsvr32 msdatgrd.ocx,按回車,彈出注冊成功的窗口后確認。

        注冊好控件之后,雙擊語音錄入軟件TPD.exe打開程序,單擊菜單“語音庫錄入”->“錄入系統(tǒng)”打開錄入系統(tǒng)后,其界面如圖2所示:

        2.數(shù)據(jù)庫連接

        語音錄入系統(tǒng)將漢字音節(jié)分項錄入數(shù)據(jù)表,因此,在進行語音錄入之前,首先需要建立一個Access語音數(shù)據(jù)庫,并在數(shù)據(jù)庫中建立相應(yīng)的空數(shù)據(jù)表。該數(shù)據(jù)表的結(jié)構(gòu)與Init數(shù)據(jù)表相同,如表1所示。在進行語音錄入時,首先點擊“載入數(shù)據(jù)庫”連接數(shù)據(jù)庫,然后點擊“選擇表”,下拉列表框中的下拉箭頭,選擇該數(shù)據(jù)庫中的一張數(shù)據(jù)表。這里以北京官話為例,此時,下方的紅色字體顯示為“連接數(shù)據(jù)庫成功”。具體如圖3所示:

        3.語音數(shù)據(jù)表視圖

        語音數(shù)據(jù)表視圖可以幫助我們觀察數(shù)據(jù)表中的已有數(shù)據(jù)和實時錄入數(shù)據(jù)情況。第一次載入數(shù)據(jù)表時,如果數(shù)據(jù)表中已經(jīng)存在數(shù)據(jù),為保證顯示字段與實際字段相對應(yīng),需要核對“ID字段”“韻母字段”“聲母字段”“聲調(diào)字段”“單字字段”“注釋字段”的字段名是否與數(shù)據(jù)表的字段名相對應(yīng);如果不對應(yīng),可以在相應(yīng)的下拉列表中選擇更改。點擊“載入視圖記錄”,則左側(cè)的語音數(shù)據(jù)表單顯示數(shù)據(jù)表中的數(shù)據(jù)。這些數(shù)據(jù)是分頁顯示的,點擊“首頁”“上一頁”“下一頁”“末頁”可以跳轉(zhuǎn)到相應(yīng)的位置。此外,點擊字體可以設(shè)置語音數(shù)據(jù)表單的顯示字體、大小等格式,所選擇的字體、格式將同時應(yīng)用于“語音數(shù)據(jù)表單”和“韻母”“聲母”“聲調(diào)”“單字”“注釋”的下拉列表框。語音數(shù)據(jù)表載入視圖可如圖4所示:

        4.預(yù)制約束下的語音錄入

        預(yù)制約束下的語音錄入主要包括三種不同的錄入機制:基于預(yù)制的語音錄入、基于約束的語音錄入和記憶排序機制。

        基于預(yù)制的語音錄入與合法的聲韻調(diào)數(shù)據(jù)文件listYM、listSM、listSD配合使用,在這些元數(shù)據(jù)文件中分別預(yù)制合法的聲、韻、調(diào)等數(shù)據(jù)。具體示例如圖5所示:

        在錄入過程中,采用元數(shù)據(jù)選擇式錄入的方式,只允許在下拉列表中使用預(yù)制的元數(shù)據(jù),而不允許使用其他即時錄入數(shù)據(jù);如果需要修改錄入數(shù)據(jù),只能在系統(tǒng)底層修改元數(shù)據(jù),原則上不接受界面邊界。相對于國際音標(biāo)而言,預(yù)制的聲韻調(diào)數(shù)據(jù)的顆粒度更大,我們稱之為“基于大顆粒度數(shù)據(jù)的錄入”,它大大提高了語音錄入的一致性和錄入效率,使得同一個錄入者在不同時間的錄入,以及不同的錄入者的錄入內(nèi)容基本相同;即使發(fā)生錄入錯誤,這些錯誤也是一致的,易于修改的。比如,?和??、t?和?’存在書寫方式的差異,這些差異在錄入的數(shù)據(jù)中是一致的,易于批量修正?;诖箢w粒度的選擇式錄入可如圖6所示:

        與預(yù)制語音錄入配合使用的是基于約束的語音錄入。為了保證底層元數(shù)據(jù)的合法性,我們設(shè)計了一種約束機制,對錄入錯誤進行定制的智能化的識別。基于約束的語音錄入在系統(tǒng)底層自定義錯誤類別,并在編輯框下拉列表內(nèi),選擇相應(yīng)的預(yù)制元數(shù)據(jù)進行錄入檢查。如果出現(xiàn)與自定義錯誤類別一致的情況,將反饋給錄入人員。對于韻母、聲母、聲調(diào)而言,漢字默認是非法選項。約束機制元數(shù)據(jù)可如圖7所示:

        具體來說,在錄入界面,單擊“韻母”“聲母”“聲調(diào)”“單字”“注釋”下方編輯框的下拉列表,選擇對應(yīng)數(shù)據(jù),或者輸入對應(yīng)數(shù)據(jù),程序?qū)z查輸入的合法性。輸入完成后,單擊“添加記錄”按鈕,程序?qū)z查是否存在重復(fù)記錄;如無重復(fù)記錄,“語音數(shù)據(jù)”界面將跳至最后一頁,在尾部添加新記錄。這種逐條錄入的方式可以保證每條記錄都被錄入者關(guān)注,防止稀疏特征值數(shù)據(jù)的無意識疏忽。圖8顯示的是在韻母誤錄入非法字符“/”時的系統(tǒng)反饋。

        語音錄入系統(tǒng)還能夠提供記憶排序機制。在輸入第二條記錄時,“編號”“韻母”“聲母”“聲調(diào)”下方的編輯框內(nèi)將保留上一次的輸入信息,“單字”“注釋”編輯框的上一條信息會自動清除。如果不需要記憶上一次的錄入內(nèi)容,單擊“清空輸入”按鈕,便可以清除“編號”“韻母”“聲母”“聲調(diào)”“單字”“注釋”下方編輯框中的信息。“韻母”“聲母”“單字”下拉列表框?qū)⒈A糇罱麼次的錄入信息以供選擇,并默認N=5,5,3。如果listDZ中錄入了單字表,“單字”下拉列表將從第I個字開始,按照字表順序動態(tài)顯示M條信息,這時可以使用左向按鈕和右向按鈕進行調(diào)節(jié),并默認I=1、M=10。修改字表后,需要重啟錄入界面。記憶排序機制能協(xié)助錄入人員盡可能地利用上一次或前幾次的已錄入信息,大大減少了錄入工作量;同時,也可以使我們利用已有字表進行錄入,既兼顧了錄入的靈活性,又極大地提高了錄入的效率。

        5.檢索數(shù)據(jù)

        語音錄入系統(tǒng)同時也提供了檢索功能,以便于查詢、檢查和修正錄入數(shù)據(jù)。在“編號”“韻母”“聲母”“聲調(diào)”“單字”“注釋”下方的編輯框中,輸入待檢索信息,單擊“檢索記錄”按鈕,程序?qū)⑦M行精確檢索,進入檢索視圖。單擊“關(guān)閉檢索記錄”,則可以退出檢索視圖。檢索視圖可如圖9所示:

        6.更新記錄

        更新記錄功能可以在分頁視圖和檢索視圖下進行。在分頁視圖下,單擊“語音數(shù)據(jù)表單”某條記錄,在“語音數(shù)據(jù)表單”中修改該記錄的內(nèi)容,然后單擊“更新記錄”按鈕,即可更新記錄中的數(shù)據(jù)。在檢索視圖下,單擊“語音數(shù)據(jù)表單”某條記錄,在“語音數(shù)據(jù)表單”中修改該記錄的內(nèi)容,然后單擊“更新檢索記錄”按鈕,即可更新記錄中的數(shù)據(jù)。如圖9中,可以將??修改為t?。

        7.刪除記錄

        刪除記錄功能可以在分頁視圖和檢索視圖下進行。在分頁視圖下,單擊“語音數(shù)據(jù)表單”某條記錄左部游標(biāo),當(dāng)出現(xiàn)黑三角箭頭指向該條記錄時,單擊“刪除記錄”按鈕,即可刪除該條記錄。在檢索視圖下,單擊“語音數(shù)據(jù)表單”某條記錄左部游標(biāo),當(dāng)出現(xiàn)黑三角箭頭指向該條記錄時,單擊“刪除檢索記錄”按鈕,即可刪除該條記錄。

        三、漢語語音錄入的管理機制

        我們認為,與語音錄入軟件相比,語音錄入的項目管理機制同樣重要。只有將語音錄入軟件的功能與優(yōu)質(zhì)的項目管理結(jié)合起來,才能取得令人滿意的錄入效果。而以往的研究卻對此缺乏足夠的重視。漢語語音錄入的管理機制主要包括錄入標(biāo)準(zhǔn)的管理和錄入流程的管理兩個方面。

        漢語語音錄入首先應(yīng)制定錄入的標(biāo)準(zhǔn)。語音錄入的標(biāo)準(zhǔn)主要是在于音系。在多方言或多變體的數(shù)據(jù)庫中,多個音系之間的符號表示應(yīng)協(xié)調(diào)、規(guī)范而不沖突、不混淆,以便于檢索結(jié)果中的音系符號具有唯一的意義。同時,錄入標(biāo)準(zhǔn)還應(yīng)包括元數(shù)據(jù)管理的標(biāo)準(zhǔn)。

        我們不僅要在錄入過程中嚴格執(zhí)行錄入標(biāo)準(zhǔn),而且還要制定嚴格的流程管理。漢語語音錄入項目的管理流程包括8個步驟:1.項目組成員錄入音系;2.項目負責(zé)人審核和統(tǒng)一修正所有音系;3.項目組成員按照音系制定元數(shù)據(jù);4.項目負責(zé)人審核和統(tǒng)一修正元數(shù)據(jù);5.項目組成員進行語音錄入;6.錄入完成后,項目組成員根據(jù)錄入數(shù)據(jù)重新歸納音系;7.項目組成員對比原始音系和錄入音系,復(fù)查錄入結(jié)果和進行修正,再次歸納音系,直到原始音系和錄入音系相同,或確認新增聲韻調(diào)標(biāo)注無誤;8.項目負責(zé)人審核和修正所有錄入結(jié)果。

        綜上所述,基于預(yù)制約束的漢語語音錄入系統(tǒng),通過支持定制音系系統(tǒng),采用大顆粒度語音數(shù)據(jù)、選擇式錄入方式,提高了語音錄入的一致性。同時,引入智能的錯誤檢查機制和記憶排序機制,通過嚴格有效的流程管理,來保證錄入數(shù)據(jù)的質(zhì)量,提高錄入數(shù)據(jù)的效率。我們借助于這套系統(tǒng),錄入了20個方言點的語音材料,獲得了很好的錄入一致性和非常優(yōu)質(zhì)的語音數(shù)據(jù),極大地減少了人工復(fù)檢率??傮w而言,基于預(yù)制約束的漢語語音錄入系統(tǒng)與前人開發(fā)的錄入系統(tǒng)各有特點,可以相互補充。它在前人研究的基礎(chǔ)上,采用國際音標(biāo)輸入法錄入大顆粒元數(shù)據(jù),借助于預(yù)制約束機制和質(zhì)量管理機制,在解決錄入一致性、提高錄入準(zhǔn)確率方面,提供了一種高效的解決方案。

        參考文獻:

        [1]李龍,潘悟云.國際音標(biāo)輸入法及其實現(xiàn)[J].語言研究, 2006,(3).

        [2]海柳文.漢語方言民族語言語音材料處理軟件設(shè)計[J].廣西民族學(xué)院學(xué)報(自然科學(xué)版),2005,(3).

        [3]程南昌,侯敏.“方言同音字匯”自動生成軟件的設(shè)計及實現(xiàn)[J].中文信息學(xué)報,2013,(1).

        [4]潘悟云.漢語方言計算機處理系統(tǒng)[DB/OL].http://www.eastling.org/resource.htm,2011-06-11.

        [5]李如龍.漢語方言學(xué)(第二版)[M].北京:高等教育出版社,2007.

        Chinese Speech Input System:Based on Prefabrication and Constraints

        Qian Xiaofei

        (College of Liberal Arts, Shanghai University, Shanghai 200444, China)

        Abstract:A solution to Chinese speech input based on prefabrication and constraint is proposed. In terms of software systems, custom phonological systems, large-granule speech data and selective entry methods are used for voice entry, and intelligent error checking mechanisms and memory ranking mechanisms are introduced to detect errors and improve the efficiency of entry. In the area of management systems, the importance of entry process management has been put forward, and supporting input process specifications have been formulated to support high-quality input. Chinese speech input system based on prefabrication and constraint provides an efficient solution for improving the consistency and accuracy of input.

        Key words:Chinese speech input;prefabrication;constraint;process management

        猜你喜歡
        預(yù)制流程管理約束
        “碳中和”約束下的路徑選擇
        約束離散KP方程族的完全Virasoro對稱
        特大型沉箱預(yù)制施工工藝研究
        中國水運(2017年3期)2017-03-30 17:36:17
        無人值守遠程計量系統(tǒng)在唐山鋼鐵集團有限責(zé)任公司物資管理中的應(yīng)用
        預(yù)制裝配式混凝土框架結(jié)構(gòu)受力性能有限元分析
        基于微信企業(yè)號的企業(yè)移動協(xié)同管理平臺
        淺析舉報線索流程管理之不足及完善建議
        用流程管理解決圖書編校質(zhì)量的不確定性
        CP400平臺玻璃鋼管現(xiàn)場預(yù)制及安裝
        高中英語詞匯教學(xué)中的“語塊”教學(xué)啟示
        18禁免费无码无遮挡不卡网站| 少妇无码av无码专区| 曰欧一片内射vα在线影院| 精品亚洲成在人线av无码| 欧美视频久久久| 99精品国产av一区二区| 久久综合九色综合久久久| 久久综合国产精品一区二区| 337p日本欧洲亚洲大胆色噜噜| 69精品人人人人| 国产精品乱码在线观看| 亚洲AV无码乱码1区久久| 亚洲AV无码一区二区三区少妇av | 国产一区二区a毛片色欲| 日本岛国一区二区三区四区| 日韩在线观看入口一二三四| 亚洲精品无码专区| 亚洲碰碰人人av熟女天堂| 无码人妻精品中文字幕免费| 国产在线av一区二区| 巨人精品福利官方导航| 热re99久久精品国产99热| 毛片网站视频| 中文字幕有码在线视频| 麻豆国产av在线观看| 狠狠躁夜夜躁人人爽超碰97香蕉| 精品麻豆国产色欲色欲色欲www | 亚洲午夜精品国产一区二区三区| 日韩极品在线观看视频| 久久无码高潮喷水抽搐| 天堂中文在线资源| 丰满少妇又紧又爽视频| 久久精品亚洲国产av网站| 51看片免费视频在观看| 女女女女bbbbbb毛片在线| 99久久人妻无码精品系列蜜桃| 国产在线观看免费不卡视频| 亚洲av男人的天堂一区| 色婷婷综合久久久中文字幕| 99久久精品国产一区二区蜜芽 | 国产99久久亚洲综合精品|