摘 要:在檢察行業(yè)信息化中,較為傳統(tǒng)的人機(jī)交互方式包括鍵盤(pán)、觸屏、手寫(xiě)筆等,由于屏幕小、鍵盤(pán)小,傳統(tǒng)的交互方式相對(duì)比較笨拙,對(duì)使用者的技能也有較高的要求,效率低下、不夠便捷,尤其是在詢問(wèn)訊問(wèn)、文書(shū)編寫(xiě)、會(huì)議記錄等對(duì)輸入要求高、時(shí)效性要求高的場(chǎng)景下,對(duì)信息的錄入速度與輸入設(shè)備的便攜性都提出了更高的要求。智能語(yǔ)音技術(shù)是近年興起的一項(xiàng)新技術(shù),主要通過(guò)信息快速錄入、人機(jī)智能交互、語(yǔ)音采集識(shí)別、語(yǔ)言文字翻譯等關(guān)鍵技術(shù),讓設(shè)備和系統(tǒng)能聽(tīng)、會(huì)說(shuō),重新定義了人機(jī)交互方式,是移動(dòng)網(wǎng)和物聯(lián)網(wǎng)的重要入口,近年來(lái)廣泛應(yīng)用于醫(yī)療、汽車(chē)、教育、金融、軍事、公共安全等領(lǐng)域。
關(guān)鍵詞:檢務(wù)語(yǔ)音云;語(yǔ)音識(shí)別;語(yǔ)音合成;檢務(wù)語(yǔ)音輸入法
中圖分類號(hào):TN912.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)06-0013-04
Abstract:In the information of the procuratorial industry,the traditional human-computer interaction methods include keyboard,touch screen,handwriting pen and so on. Because of small screen and small keyboard,the traditional interactive mode is relatively clumsy. It also has high requirements for the user’s skills,low efficiency and inconvenient,especially in the case of interrogating interrogation,writing of documents,meeting record and so on,high requirements and high timeliness requirements are required for the input speed of information and the portability of the input equipment. Intelligent voice technology is a new technology which has been developed in recent years. It mainly solves the key technologies such as information rapid entry,man-machine intelligence interaction,speech acquisition and recognition,language and text translation,so that the equipment and system can be heard and said,redefining the human-computer interaction. It is an important entrance to the mobile network and the internet of things,and has been widely used in recent years. It is applied to medical,automobile,education,finance,military,public safety and other fields.
Keywords:verification voice cloud;speech recognition;speech synthesis;verification speech input method
0 引 言
隨著社會(huì)經(jīng)濟(jì)的迅猛發(fā)展,社會(huì)矛盾日益凸顯,各類違法犯罪案件數(shù)量呈現(xiàn)逐年上升的趨勢(shì)。檢察機(jī)關(guān)肩負(fù)的責(zé)任和承擔(dān)的工作任務(wù)越來(lái)越重。多年來(lái),案多人少、辦案力量不足一直是各級(jí)檢察機(jī)關(guān)比較突出的問(wèn)題。與此同時(shí),公眾對(duì)檢察院執(zhí)法部門(mén)的工作效率、反應(yīng)和應(yīng)變能力也提出了更高的要求,執(zhí)法工作的移動(dòng)性、突發(fā)性和緊急性與傳統(tǒng)工作模式的矛盾正日益凸顯。為了適應(yīng)新的執(zhí)法環(huán)境和檢察實(shí)戰(zhàn)要求,伴隨著物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,檢察行業(yè)正朝著移動(dòng)化、物聯(lián)化、智能化的理念和形態(tài)發(fā)展。
檢察機(jī)關(guān)內(nèi)外部數(shù)據(jù)爆發(fā)式地增長(zhǎng),檢務(wù)工作者通過(guò)傳統(tǒng)手段進(jìn)行繁雜的數(shù)據(jù)采集錄入與分析處理工作,人力嚴(yán)重不足,以上這些成為制約檢務(wù)工作的突出問(wèn)題。從總體上看,智能語(yǔ)音技術(shù)在我國(guó)檢察系統(tǒng)中的應(yīng)用處于分散探索階段,一直采取單點(diǎn)突破,單業(yè)務(wù)方向應(yīng)用的方式。一方面,這種應(yīng)用模式?jīng)]有能夠從全局角度綜合考慮智能語(yǔ)音技術(shù)與應(yīng)用的結(jié)合,影響技術(shù)能力和應(yīng)用價(jià)值的發(fā)揮;另一方面,分散的投入和隔離的系統(tǒng)造成智能語(yǔ)音技術(shù)的進(jìn)化速度和適應(yīng)過(guò)程加長(zhǎng)。因此,檢務(wù)智能語(yǔ)音云的引入必須從全局進(jìn)行統(tǒng)一規(guī)劃,為各業(yè)務(wù)應(yīng)用系統(tǒng)提供統(tǒng)一的語(yǔ)音處理平臺(tái)。
1 設(shè)計(jì)原則
檢務(wù)語(yǔ)音云平臺(tái)總體設(shè)計(jì)遵循以下主要原則。
1.1 實(shí)用性和先進(jìn)性
采用先進(jìn)成熟的技術(shù)滿足系統(tǒng)各種應(yīng)用的需求,兼顧其他相關(guān)的管理需求,在保證滿足各種應(yīng)用系統(tǒng)業(yè)務(wù)的同時(shí),也體現(xiàn)出硬件系統(tǒng)和軟件系統(tǒng)的先進(jìn)性。
1.2 高可靠性
平臺(tái)的穩(wěn)定可靠是應(yīng)用系統(tǒng)正常運(yùn)行的關(guān)鍵。為保證各項(xiàng)業(yè)務(wù)的應(yīng)用,網(wǎng)絡(luò)、硬件必須具有高可靠性,盡量避免系統(tǒng)的單點(diǎn)故障,軟件需要支持虛擬化和負(fù)載均衡。同時(shí)要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)等各個(gè)方面進(jìn)行高可靠性地設(shè)計(jì)和建設(shè)。
1.3 標(biāo)準(zhǔn)性與開(kāi)放性
所選用的設(shè)備和軟件技術(shù)要支持國(guó)際通用的通信協(xié)議和標(biāo)準(zhǔn),采用標(biāo)準(zhǔn)協(xié)議進(jìn)行互連互通,確保本次建設(shè)是網(wǎng)絡(luò)平臺(tái)與原有系統(tǒng)、其他系統(tǒng)能夠無(wú)縫互聯(lián),在結(jié)構(gòu)上真正實(shí)現(xiàn)開(kāi)放。堅(jiān)持統(tǒng)一規(guī)范的原則,為未來(lái)的發(fā)展奠定基礎(chǔ)。
1.4 高安全性
數(shù)據(jù)涉及社會(huì)公眾,具有一定的敏感性和私密性,因此要充分考慮平臺(tái)的安全性。采用先進(jìn)的安全產(chǎn)品和技術(shù),確保平臺(tái)的邊界安全、數(shù)據(jù)云中心安全以及計(jì)算機(jī)終端的接入安全,并對(duì)操作行為進(jìn)行實(shí)時(shí)有效的監(jiān)控和日志記錄。
1.5 高性能
系統(tǒng)用戶包括檢察機(jī)關(guān)各業(yè)務(wù)機(jī)構(gòu)工作者,操作過(guò)程中會(huì)出現(xiàn)多樣的高并發(fā)的請(qǐng)求服務(wù),還有各類復(fù)雜的使用環(huán)境,因此需要系統(tǒng)在基于海量數(shù)據(jù)的檢索、應(yīng)用、接口服務(wù)等方面均提供高性能、高穩(wěn)定的服務(wù)。
1.6 靈活性及可擴(kuò)展性
信息化系統(tǒng)是一個(gè)不斷發(fā)展的系統(tǒng),平臺(tái)不僅需要保持對(duì)以前技術(shù)的兼容性,還必須具有良好的靈活性和可擴(kuò)展性,具備支持多種應(yīng)用系統(tǒng)的能力,具備設(shè)備擴(kuò)容和技術(shù)升級(jí)的靈活性。
1.7 易操作性和可管理性
平臺(tái)具有高度友好的界面和使用性。平臺(tái)有非常強(qiáng)的糾錯(cuò)操作能力,使得在各種可能發(fā)生的誤操作下,不會(huì)引起系統(tǒng)的混亂。
1.8 采用開(kāi)放技術(shù)兼容原有系統(tǒng)數(shù)據(jù)
系統(tǒng)采用J2EE多層體系架構(gòu)設(shè)計(jì),支持Windows、Linux系列操作系統(tǒng),支持Oracle、SqlServer和MySQL等主流成熟大型數(shù)據(jù)庫(kù)。
2 總體設(shè)計(jì)
本檢務(wù)語(yǔ)音云平臺(tái)建設(shè)方案包括語(yǔ)音服務(wù)平臺(tái)和智能語(yǔ)音應(yīng)用兩個(gè)方面。
2.1 語(yǔ)音服務(wù)平臺(tái)
語(yǔ)音服務(wù)平臺(tái)是智能語(yǔ)音云的基礎(chǔ)平臺(tái),各項(xiàng)語(yǔ)音技術(shù)在語(yǔ)音云中,以服務(wù)的方式提供給應(yīng)用系統(tǒng)調(diào)用。智能語(yǔ)音服務(wù)平臺(tái)示意圖如圖1所示,主要包括:
(1)語(yǔ)音識(shí)別。將語(yǔ)音轉(zhuǎn)成文字,具備中文普通話和英語(yǔ)的識(shí)別能力;
(2)語(yǔ)音合成。具有將中文和英文的文字轉(zhuǎn)變?yōu)檎Z(yǔ)音的合成能力;
(3)語(yǔ)音接口服務(wù)。提供集成開(kāi)發(fā)接口,以便開(kāi)發(fā)人員能夠?qū)⑵渑c應(yīng)用程序進(jìn)行集成,實(shí)現(xiàn)具有完整語(yǔ)音能力的應(yīng)用。
2.1.1 語(yǔ)音識(shí)別服務(wù)
語(yǔ)音識(shí)別能夠把用戶說(shuō)的任意語(yǔ)音轉(zhuǎn)換成對(duì)應(yīng)的文字信息,是移動(dòng)互聯(lián)時(shí)代全新的信息錄入方式,可以大大提高在移動(dòng)終端上的文字輸入速度。主要功能有如下:
(1)端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)是對(duì)輸入的音頻流進(jìn)行分析,確定用戶說(shuō)話的起始和終止的處理過(guò)程。一旦檢測(cè)到用戶開(kāi)始說(shuō)話,語(yǔ)音開(kāi)始流向識(shí)別引擎,直到檢測(cè)到用戶說(shuō)話結(jié)束。這種方式使識(shí)別引擎在用戶說(shuō)話的同時(shí)即開(kāi)始進(jìn)行識(shí)別處理。
(2)噪音抑制。在實(shí)際應(yīng)用中,背景噪聲對(duì)于語(yǔ)音識(shí)別應(yīng)用是一個(gè)現(xiàn)實(shí)的挑戰(zhàn),即便說(shuō)話人處于安靜的辦公室環(huán)境,在電話語(yǔ)音通話的過(guò)程中也難以避免一定的噪聲。語(yǔ)音識(shí)別系統(tǒng)具有高效的噪音抑制能力,能夠提高用戶在千差萬(wàn)別的環(huán)境中的識(shí)別效果。
(3)支持中文常見(jiàn)語(yǔ)句識(shí)別。語(yǔ)音識(shí)別對(duì)于日常使用的對(duì)話有著很高的識(shí)別準(zhǔn)確率,包括短信類、生活、交通、娛樂(lè)、科技、數(shù)字?jǐn)?shù)值、名人、互聯(lián)網(wǎng)熱詞、新聞等領(lǐng)域的對(duì)話,這些領(lǐng)域的整句識(shí)別正確率可以達(dá)到80%~95%,基本可以達(dá)到中國(guó)人日常生活的要求。
(4)支持中文標(biāo)點(diǎn)智能預(yù)測(cè)。語(yǔ)音識(shí)別將使用超大規(guī)模的語(yǔ)言模型,根據(jù)識(shí)別結(jié)果語(yǔ)句智能預(yù)測(cè)其對(duì)話語(yǔ)境,提供智能斷句和標(biāo)點(diǎn)符號(hào)的預(yù)測(cè)。
(5)熱詞識(shí)別。語(yǔ)音識(shí)別服務(wù)系統(tǒng)支持應(yīng)用和用戶自定義熱詞集,并在識(shí)別結(jié)果中給出是否為自定義熱詞的信息。識(shí)別結(jié)果應(yīng)優(yōu)先從熱詞集中選取。
(6)個(gè)性化識(shí)別。語(yǔ)音識(shí)別服務(wù)系統(tǒng)支持應(yīng)用級(jí)個(gè)性化和用戶級(jí)個(gè)性化識(shí)別的實(shí)施。應(yīng)用級(jí)個(gè)性化是面向應(yīng)用的個(gè)性化定制,既包括應(yīng)用開(kāi)發(fā)者通過(guò)熱詞集提升識(shí)別效果,又包括應(yīng)用開(kāi)發(fā)者根據(jù)自己應(yīng)用的定位,選擇不同年齡、性別的用戶群體提取出聲學(xué)模型,對(duì)識(shí)別效果進(jìn)行優(yōu)化;用戶級(jí)個(gè)性化是面向終端用戶的個(gè)性化定制,既包括用戶上傳自己的熱詞集來(lái)優(yōu)化識(shí)別效果,又包括語(yǔ)音識(shí)別引擎針對(duì)用戶提取聲學(xué)模型,提升識(shí)別效果。
2.1.2 語(yǔ)音合成服務(wù)
語(yǔ)音合成是將文字轉(zhuǎn)變?yōu)檎Z(yǔ)音的一項(xiàng)技術(shù),用于在業(yè)務(wù)應(yīng)用中實(shí)現(xiàn)語(yǔ)音播報(bào)、信息提醒和遠(yuǎn)程呼叫等,采用最先進(jìn)的中文文本、韻律分析算法和大語(yǔ)料庫(kù)的合成方法,合成語(yǔ)音已經(jīng)接近真人的自然效果。
本項(xiàng)目語(yǔ)音合成服務(wù)設(shè)計(jì)分為構(gòu)建階段、合成階段何輸出階段三大部分。
(1)構(gòu)建階段。構(gòu)建階段的主要工作是為后續(xù)階段提供聲學(xué)模型和文本處理能力,由于數(shù)據(jù)準(zhǔn)備和處理的前期工作較多,一般訓(xùn)練階段都是離線完成。
漢語(yǔ)口語(yǔ)前端知識(shí)庫(kù):該模塊為語(yǔ)言知識(shí)的儲(chǔ)備部分,是在語(yǔ)言學(xué)層面指導(dǎo)語(yǔ)音合成的關(guān)鍵知識(shí)。知識(shí)庫(kù)包括文本語(yǔ)料、音素集合、發(fā)音字典、字音轉(zhuǎn)換規(guī)則、特殊符號(hào)處理規(guī)則以及韻律屬性標(biāo)注數(shù)據(jù)庫(kù)等。構(gòu)建前端知識(shí)庫(kù)需要大量語(yǔ)言學(xué)專家的研究總結(jié),特別是口語(yǔ)化表達(dá)特點(diǎn)需要長(zhǎng)期性的積累;
音庫(kù)錄制:發(fā)音人音庫(kù)是語(yǔ)音合成的數(shù)據(jù)基礎(chǔ),一般由前端知識(shí)庫(kù)提供錄音文本,采集專業(yè)發(fā)音人在錄音棚環(huán)境下的干凈人聲錄音。口語(yǔ)化音庫(kù)的錄音將采用雙人應(yīng)答試錄音;
音庫(kù)標(biāo)注:音庫(kù)標(biāo)注用來(lái)處理錄音數(shù)據(jù),將錄音中的字詞邊界、韻律層次、重讀弱化、發(fā)音變調(diào)等關(guān)鍵信息標(biāo)出,音庫(kù)標(biāo)注一般由具有語(yǔ)音學(xué)經(jīng)驗(yàn)的標(biāo)注人員人工操作;
問(wèn)題集:?jiǎn)栴}集是對(duì)語(yǔ)言學(xué)知識(shí)的提煉,由語(yǔ)言學(xué)專家設(shè)計(jì),主要針對(duì)語(yǔ)音的異質(zhì)化特征設(shè)計(jì)分類問(wèn)題,加以區(qū)分(如漢語(yǔ)聲調(diào)、語(yǔ)氣),在聲學(xué)模型訓(xùn)練中體現(xiàn)出表現(xiàn)差異;
聲學(xué)模型訓(xùn)練:訓(xùn)練聲學(xué)模型是語(yǔ)音合成的核心技術(shù)之一,帶標(biāo)注的音庫(kù)經(jīng)過(guò)聲學(xué)參數(shù)提?。òl譜、基頻、時(shí)長(zhǎng)),形成參數(shù)化的數(shù)據(jù)集合。再經(jīng)過(guò)以隱馬爾柯夫模型(Hidden Markov Model,HMM)為代表的統(tǒng)計(jì)建模方法,對(duì)多種聲學(xué)參數(shù)進(jìn)行統(tǒng)計(jì)建模,生成聲學(xué)模型。音庫(kù)的豐富標(biāo)注結(jié)合問(wèn)題集,完成基于最大似然準(zhǔn)則的決策樹(shù)構(gòu)建,為后續(xù)階段使用聲學(xué)模型進(jìn)行參數(shù)生成和單元挑選提供模型依據(jù)。
(2)合成階段。合成階段是處理實(shí)時(shí)合成請(qǐng)求的內(nèi)部算法階段,擔(dān)負(fù)著將每一段待合成文本轉(zhuǎn)化為符合相應(yīng)信息的語(yǔ)音信號(hào)的任務(wù)。
前端文本分析:前端文本分析模塊是合成階段的入口,外來(lái)待合成文本在此模塊下被解析成合成系統(tǒng)可以理解的音素序列串,并賦予層次結(jié)構(gòu)、詞性信息等預(yù)測(cè)信息。前端文本分析模塊也是由前端知識(shí)庫(kù)提煉的構(gòu)建,具備口語(yǔ)化特征處理能力;
模型決策:解析后的音素序列串在模型決策模塊中進(jìn)行多種聲學(xué)模型的決策,生成對(duì)應(yīng)的文本決策模型序列,將文本信息實(shí)現(xiàn)模型化表達(dá);
文本決策模型序列:由于問(wèn)題集和前端文本分析向音素序列串提供了和音庫(kù)標(biāo)注相對(duì)應(yīng)的多種高層語(yǔ)言學(xué)信息,經(jīng)過(guò)模型決策之后,簡(jiǎn)單的音素序列串成為變化更加豐富的模型序列,變得更接近自然發(fā)音;
語(yǔ)音參數(shù)生成:決策聲學(xué)模型進(jìn)行語(yǔ)音參數(shù)生成,屬于語(yǔ)音合成技術(shù)兩大技術(shù)路線中的統(tǒng)計(jì)參數(shù)合成路線。聲學(xué)模型序列基于最大似然準(zhǔn)則可以生成一系列聲學(xué)參數(shù),模型化將待合成文本實(shí)現(xiàn)參數(shù)化;
語(yǔ)音聲碼器:聲碼器可以將聲學(xué)參數(shù)序列解碼成語(yǔ)音波形信號(hào),在此實(shí)現(xiàn)待合成文本的語(yǔ)音化;
樣本單元挑選:決策聲學(xué)模型指導(dǎo)樣本單元挑選技術(shù),屬于語(yǔ)音合成技術(shù)兩大技術(shù)路線中的單元挑選波形拼接合成路線。傳統(tǒng)的單元挑選一般基于專家規(guī)則和模板匹配技術(shù),基于統(tǒng)計(jì)聲學(xué)模型的單元挑選技術(shù)是訊飛首創(chuàng)的全新挑選算法,它利用聲學(xué)統(tǒng)計(jì)模型作為單元挑選指導(dǎo)目標(biāo),使用KLD距離準(zhǔn)則的單元預(yù)選和基于最大似然值準(zhǔn)則的單元挑選,并通過(guò)Viterbi搜索得到最佳的合成單元序列串組合;
樣本單元拼接:樣本單元拼接技術(shù)將搜索到的波形單元序列串拼合起來(lái),通過(guò)相位對(duì)齊和加窗疊加等平滑算法,保證波形單元之間的順暢過(guò)渡,形成自然流暢的、完整的合成語(yǔ)音波形信號(hào)。
(3)輸出階段。輸出階段承擔(dān)著語(yǔ)音后期處理的任務(wù),在此階段可以通過(guò)規(guī)則定制手段滿足個(gè)性化合成需求。
定制模塊:定制模塊提供開(kāi)放性的定制服務(wù),有針對(duì)性地提升合成效果。用戶可以在此模塊中設(shè)計(jì)個(gè)性化的詞條(如添加方言俚語(yǔ))、發(fā)音規(guī)則(如多音字發(fā)音),進(jìn)行合成模板(如應(yīng)用較多的固定句式)和特殊符號(hào)規(guī)則等多樣化處理;
音效處理:音效處理模塊是對(duì)原始語(yǔ)音的處理加工,可以根據(jù)用戶設(shè)計(jì)調(diào)整語(yǔ)音的語(yǔ)速、能量和音調(diào)等,還可以根據(jù)使用目的的不同,實(shí)現(xiàn)語(yǔ)音的身份隱藏、疊加回聲、混響、背景音等豐富的效果。
2.1.3 語(yǔ)音接口服務(wù)
檢務(wù)語(yǔ)音云作為一個(gè)語(yǔ)音的基礎(chǔ)平臺(tái),其重點(diǎn)是向上層的應(yīng)用提供豐富的擴(kuò)展服務(wù)支持。平臺(tái)應(yīng)提供豐富的應(yīng)用開(kāi)發(fā)接口,可由業(yè)務(wù)系統(tǒng)整合。還要提供應(yīng)用開(kāi)發(fā)接口(SDK),向第三方提供合成、識(shí)別等相關(guān)語(yǔ)音業(yè)務(wù)功能。同時(shí)也可以將其他系統(tǒng)作為數(shù)據(jù)資源接入智能語(yǔ)音云平臺(tái),實(shí)現(xiàn)語(yǔ)音檢索功能。在檢務(wù)語(yǔ)音云發(fā)展到一定規(guī)模時(shí),可以通過(guò)擴(kuò)充軟、硬件資源的方式,提升云服務(wù)的數(shù)據(jù)存儲(chǔ)量和運(yùn)算吞吐量。
2.2 智能語(yǔ)音應(yīng)用
2.2.1 檢務(wù)語(yǔ)音輸入法
較為傳統(tǒng)的人機(jī)交互方式包括鍵盤(pán)、觸屏、手寫(xiě)筆等,由于移動(dòng)終端屏幕小、鍵盤(pán)小,傳統(tǒng)的交互方式相對(duì)比較笨拙,對(duì)使用者的技能也有較高的要求。在智能語(yǔ)音云平臺(tái)服務(wù)的基礎(chǔ)上,提供語(yǔ)音輸入法,適用于智能手機(jī)、平板電腦、筆記本等設(shè)備,實(shí)現(xiàn)語(yǔ)音識(shí)別輸入、手寫(xiě)輸入、拼音輸入等全方位的文字輸入功能。語(yǔ)音輸入結(jié)合智能語(yǔ)音技術(shù),將用戶口述內(nèi)容自動(dòng)轉(zhuǎn)為與語(yǔ)音對(duì)應(yīng)的文本,改變現(xiàn)有的信息采錄方式,比傳統(tǒng)方式快3~5倍,可以大大降低對(duì)技能的要求,讓打字慢的用戶在采錄工作中也可以提高速度,提高工作效率。
2.2.2 網(wǎng)絡(luò)版智能會(huì)議系統(tǒng)
在智能語(yǔ)音云平臺(tái)服務(wù)的基礎(chǔ)上,提供引擎后置的網(wǎng)絡(luò)版智能會(huì)議系統(tǒng),部署覆蓋所有會(huì)議室的網(wǎng)絡(luò)版智能會(huì)議系統(tǒng),提供各級(jí)檢察機(jī)關(guān)的會(huì)議內(nèi)容轉(zhuǎn)寫(xiě)應(yīng)用,實(shí)現(xiàn)在會(huì)議場(chǎng)景下的實(shí)時(shí)音頻或錄音采集,并通過(guò)語(yǔ)音識(shí)別技術(shù)實(shí)時(shí)轉(zhuǎn)化為文字。系統(tǒng)具備會(huì)議音頻管理、即時(shí)校對(duì)編輯、敏感詞屏蔽、轉(zhuǎn)寫(xiě)文字實(shí)時(shí)直播等基本功能。系統(tǒng)提供延時(shí)播放、按句回聽(tīng)、重點(diǎn)標(biāo)記等功能,方便快速整理出會(huì)議材料;提供語(yǔ)氣詞過(guò)濾、自動(dòng)分段等功能,自動(dòng)優(yōu)化文字結(jié)果;提供全文檢索功能,方便檢索歷史音頻。
2.2.3 訊(詢)問(wèn)筆錄系統(tǒng)
部署覆蓋所有審訊室的網(wǎng)絡(luò)版訊(詢)問(wèn)筆錄系統(tǒng),提供各級(jí)檢察機(jī)關(guān)的審訊筆錄應(yīng)用。系統(tǒng)設(shè)計(jì)如下:
(1)基于麥克風(fēng)陣列技術(shù)的語(yǔ)音采集設(shè)備。審訊應(yīng)用環(huán)境中,說(shuō)話人離話筒的距離不可控、問(wèn)答雙方聲音在不同話筒間相互干擾以及封閉環(huán)境的回聲和混響等一系列問(wèn)題造成審訊收音效果較差。為解決收音效果的問(wèn)題,系統(tǒng)在音頻采音方面,通過(guò)八路麥克風(fēng)陣列的硬件方案來(lái)降低噪聲和混響水平,提升信噪比;在音頻處理方面,通過(guò)基于自適應(yīng)濾波的噪聲消除、多通道線性預(yù)測(cè)、干音提取等方法進(jìn)一步減少噪聲,提取有效音頻。
(2)自動(dòng)化審訊語(yǔ)音轉(zhuǎn)寫(xiě)筆錄系統(tǒng)。首先,本系統(tǒng)基于VAD語(yǔ)音端點(diǎn)檢測(cè)技術(shù),將每個(gè)人的語(yǔ)音進(jìn)行自動(dòng)分段,基于說(shuō)話人自動(dòng)分離技術(shù),采用微信的對(duì)話方式,更好地展現(xiàn)雙方的對(duì)話內(nèi)容。用戶可對(duì)審訊筆錄進(jìn)行按句回聽(tīng)、排版布局、快速編輯以及快速出材;其次,利用語(yǔ)義理解相關(guān)技術(shù),對(duì)審訊錄音進(jìn)行語(yǔ)義分析,并構(gòu)建語(yǔ)義索引,開(kāi)發(fā)語(yǔ)義檢索服務(wù),實(shí)現(xiàn)面向?qū)徲嵐P錄的語(yǔ)義檢索;最后基于內(nèi)容識(shí)別和后處理技術(shù),顯示同步文字、標(biāo)點(diǎn),支持邊點(diǎn)邊聽(tīng),針對(duì)可懂度較好的,可以直接跳聽(tīng)。紅色高亮顯示用戶預(yù)設(shè)、自動(dòng)抽取的關(guān)鍵詞,快速了解關(guān)鍵信息,提供快速聽(tīng)音功能,可以通過(guò)文字定位語(yǔ)音片段,從而實(shí)現(xiàn)精準(zhǔn)回溯。
(3)中文語(yǔ)音識(shí)別轉(zhuǎn)寫(xiě)引擎。基于長(zhǎng)短時(shí)記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模和語(yǔ)言模型建模技術(shù),同時(shí)考慮后續(xù)智能審訊巡查監(jiān)督技術(shù)的應(yīng)用需求,研發(fā)基于識(shí)別結(jié)果的分段、分詞、順滑、置信度評(píng)估等后處理技術(shù),實(shí)現(xiàn)審訊語(yǔ)音數(shù)據(jù)的自動(dòng)筆錄、關(guān)鍵信息抽取、結(jié)構(gòu)化存儲(chǔ)、信息檢索、智能分析及語(yǔ)速檢測(cè)等技術(shù)。
(4)數(shù)據(jù)交換平臺(tái)??梢詾榈谌较到y(tǒng)(如:辦案系統(tǒng)、同步錄音錄像系統(tǒng))提供相關(guān)業(yè)務(wù)信息查詢等外部接口,方便與其他業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)交換。
檢務(wù)智能語(yǔ)音云平臺(tái)建設(shè)完成后,能夠?yàn)闄z察信息化提供一個(gè)基礎(chǔ)語(yǔ)音服務(wù)平臺(tái),通過(guò)云端服務(wù)方式與檢察信息化應(yīng)用相融合,為移動(dòng)應(yīng)用提供低成本、高可用的綜合語(yǔ)音技術(shù)服務(wù),可以廣泛應(yīng)用于信息采集、播報(bào)等領(lǐng)域,解放民警雙手,降低語(yǔ)音技術(shù)的應(yīng)用門(mén)檻,從而大大提高工作效率。
參考文獻(xiàn):
[1] 楊行峻,遲惠生,等.語(yǔ)音信號(hào)數(shù)字處理 [M].北京:電子工業(yè)出版社,1995.
[2] 趙力.語(yǔ)音信號(hào)處理 [M].北京:機(jī)械工業(yè)出版社,2009.
作者簡(jiǎn)介:侯彬鋒(1979.04-),男,河北石家莊人,高級(jí)設(shè)計(jì)師,中級(jí)工程師,學(xué)士。研究方向:互聯(lián)網(wǎng)技術(shù)。