占善華 張永平
(廣東司法警官職業(yè)學(xué)院信息管理系 廣東省廣州市 510520)
公共法律服務(wù)是政府公共服務(wù)體系的重要組成部分,是司法行政機(jī)關(guān)的基本職責(zé)任務(wù)。近年來隨著公共法律服務(wù)平臺(tái)建設(shè),語音數(shù)據(jù)快速增長(zhǎng),但這些數(shù)據(jù)并未進(jìn)行深入的數(shù)據(jù)分析和挖掘,因此,為了更精確地分析人民群眾的法律服務(wù)需求,提高法律服務(wù)的質(zhì)量以及輿情數(shù)據(jù)的分析,擬引入智能語音技術(shù)對(duì)語音數(shù)據(jù)進(jìn)行轉(zhuǎn)寫以及對(duì)轉(zhuǎn)寫后的內(nèi)容進(jìn)行分析、挖掘,提供可融入日常工作的公共法律服務(wù)智能語言數(shù)據(jù)管理系統(tǒng),實(shí)現(xiàn)對(duì)語音數(shù)據(jù)價(jià)值最大化。
在智能語音領(lǐng)域,對(duì)于如何將利用好司法行政系統(tǒng)內(nèi)的法律服務(wù)平臺(tái)的海量語音數(shù)據(jù),如何做到識(shí)別和轉(zhuǎn)換后的語義分析,國(guó)內(nèi)外研究和實(shí)現(xiàn)很少,語音識(shí)別的聲學(xué)建模主要用于建模語音信號(hào)與音素之間的關(guān)系,業(yè)界相繼提出了前饋型序列記憶網(wǎng)絡(luò)(FSMN,Feed-forwardSequential Memory Network)[1]作為聲學(xué)建??蚣芤约吧疃热蛄芯矸e神經(jīng)網(wǎng)絡(luò)(DFCNN,Deep Fully Convolutional Neural Network)[2][3]。針對(duì)目前最好的語音識(shí)別系統(tǒng)采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM,Long Short Term Memory)[4-7]訓(xùn)練復(fù)雜度高、解碼延時(shí)高等缺陷,一般來說可以使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來克服雙向 LSTM 的缺陷,從而提高識(shí)別正確率。
公共法律服務(wù)平臺(tái)包括電話,網(wǎng)絡(luò)平臺(tái),實(shí)體大廳,數(shù)據(jù)分散,需要建立一個(gè)統(tǒng)一的語音數(shù)據(jù)管理系統(tǒng),對(duì)語音數(shù)據(jù)和文本數(shù)據(jù)以及業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)、管理、應(yīng)用,并建設(shè)可視化數(shù)據(jù)管理平臺(tái),開放接口。
語音聽寫能夠把用戶說的任意語音轉(zhuǎn)換成對(duì)應(yīng)的文字信息,配合語義理解后,語音聽寫就能夠聽懂人說話,和語音合成構(gòu)成“能聽會(huì)說” 的語音交互模式。圖1為系統(tǒng)的整體技術(shù)架構(gòu)圖,其主要包括以下一些功能點(diǎn)。
3.2.1 端點(diǎn)檢測(cè)
圖1:公共法律服務(wù)智能語音數(shù)據(jù)管理系統(tǒng)技術(shù)架構(gòu)圖
端點(diǎn)檢測(cè),業(yè)界也稱之為語音活動(dòng)檢測(cè),即Voice Activity Detection,簡(jiǎn)稱VAD[8-10],VAD 的目的就是為了對(duì)一段數(shù)據(jù)進(jìn)行語音和非語音的分離判別。簡(jiǎn)單來說,就是如果給定有一段語音,該語音具有一定的噪聲污染,那么如何對(duì)該語音數(shù)據(jù)進(jìn)行語音起點(diǎn)、語音結(jié)束點(diǎn)進(jìn)行準(zhǔn)確定位和識(shí)別,并同時(shí)可以去除噪聲的部分,從而完整找到該語音數(shù)據(jù)真正對(duì)我們有效的內(nèi)容。學(xué)術(shù)界對(duì)端點(diǎn)檢測(cè)有準(zhǔn)確的定義,即是對(duì)輸入的音頻流進(jìn)行分析,確定用戶說話的起始和終止的處理過程。
常見的技術(shù)方法有三種:基于閾值的 VAD、作為分類器的VAD、模型 VAD。在本系統(tǒng)中,可以綜合使用。
3.2.2 噪音抑制
背景噪聲對(duì)于語音識(shí)別應(yīng)用是一個(gè)現(xiàn)實(shí)的挑戰(zhàn),對(duì)于研究者來說,如何對(duì)噪聲進(jìn)行抑制可以追溯到上世紀(jì)70年代。其實(shí)從字面意義去理解,大家會(huì)認(rèn)為這非常簡(jiǎn)單,無非就是對(duì)于一段語音數(shù)據(jù)首先進(jìn)行嘈雜信號(hào)的采取,然后盡可能的去除噪聲,并盡最大程度保留原語音的語義。但最大程度保留語義確是一個(gè)大挑戰(zhàn),需要我們?cè)谠O(shè)計(jì)算法的時(shí)候非常仔細(xì)的調(diào)整參數(shù),同時(shí)需要進(jìn)行大量的測(cè)試。利用speexdsp 庫[11,12]可以實(shí)現(xiàn)一定程度的噪音處理工作,但對(duì)整個(gè)噪音抑制器效果并不是非常好。本文擬利用深度學(xué)習(xí)的思想處理,對(duì)語音數(shù)據(jù)設(shè)計(jì)深度學(xué)習(xí)模型,該模型可以使用具有數(shù)千個(gè)神經(jīng)元和數(shù)千萬個(gè)權(quán)重的層來執(zhí)行噪聲抑制。該方法可以提高精準(zhǔn)度,缺點(diǎn)是對(duì)于計(jì)算成本要求較高,畢竟這需要存儲(chǔ)數(shù)千行代碼以及幾十兆字節(jié)的神經(jīng)元權(quán)重,但這對(duì)于一個(gè)服務(wù)于全省的平臺(tái)來說,這點(diǎn)投入是值得的。確保系統(tǒng)應(yīng)具備高效的噪音抑制能力,以提高用戶在千差萬別的環(huán)境中識(shí)別效果才是首要的。
3.2.3 支持中文常見語句聽寫
語音識(shí)別對(duì)于日常使用的常用對(duì)話有較高的識(shí)別率。這利用各大公司開放的SDK 或者開源系統(tǒng)進(jìn)行中文常見語句的聽寫,需要有意識(shí)的加入法律服務(wù)領(lǐng)域的專業(yè)語句庫,提高準(zhǔn)確率。
3.2.4 支持中文標(biāo)點(diǎn)智能預(yù)測(cè)
使用超大規(guī)模的語言模型,對(duì)識(shí)別結(jié)果語句智能預(yù)測(cè)其對(duì)話語境,提供斷句和標(biāo)點(diǎn)符號(hào)的預(yù)測(cè)。
3.2.5 熱詞識(shí)別
語音識(shí)別服務(wù)系統(tǒng)支持應(yīng)用和用戶自定義熱詞集。
3.2.6 個(gè)性化識(shí)別
應(yīng)用級(jí)個(gè)性化是面向應(yīng)用的個(gè)性化定制,既包括應(yīng)用開發(fā)者通過構(gòu)熱詞集提升識(shí)別效果, 又包括應(yīng)用開發(fā)者根據(jù)自己應(yīng)用的定位; 用戶級(jí)個(gè)性化是面向終端用戶的個(gè)性化定制,既包括用戶上傳自己的熱詞集來優(yōu)化識(shí)別效果,又包括語音識(shí)別引擎針對(duì)用戶提取聲學(xué)模型;語音合成服務(wù),采用中文文本、韻律分析和大語料庫的方法合成語音。
3.3.1 服務(wù)管理
為 SDK 分配唯一的身份標(biāo)識(shí) APPID,并通過此標(biāo)識(shí),控制為第三方開放的服務(wù)。
3.3.2 終端管理
從應(yīng)用終端層面進(jìn)一步細(xì)化管理,為每個(gè)終端分配其可訪問的應(yīng)用。
3.3.3 應(yīng)用管理
管理各個(gè)應(yīng)用所需的基礎(chǔ)信息資源,如詞庫、快捷短語、翻譯句對(duì)、語義資源等,同時(shí),提供應(yīng)用的升級(jí)管理。
3.3.4 運(yùn)營(yíng)管理收集用戶的建議反饋;并多維度對(duì)客戶、應(yīng)用、服務(wù)的使用情況進(jìn)行細(xì)致的統(tǒng)計(jì)分析,指導(dǎo)產(chǎn)品優(yōu)化
通過上述法律服務(wù)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì),并基于該設(shè)計(jì)對(duì)語音數(shù)據(jù)進(jìn)行深入的數(shù)據(jù)挖掘和分析,可以解決以下問題:
(1)各大法律服務(wù)平臺(tái)收集的音頻轉(zhuǎn)寫成文本,通過對(duì)文本進(jìn)行數(shù)據(jù)分析和挖掘,發(fā)現(xiàn)法律服務(wù)的熱點(diǎn)問題;
(2)問法律服務(wù)的人員配比及制定服務(wù)策略提供數(shù)據(jù)支撐;
(3)為輿情的發(fā)現(xiàn)和管控等提供數(shù)據(jù)支撐;
(4)通過分析文本內(nèi)容,對(duì)法律服務(wù)的質(zhì)量進(jìn)行檢查,分析法律服務(wù)咨詢的內(nèi)容和目的,挖掘出隱藏的案件。
本文設(shè)計(jì)了一種公共法律服務(wù)智能語音數(shù)據(jù)管理系統(tǒng),該系統(tǒng)開源實(shí)現(xiàn)音頻語音識(shí)別轉(zhuǎn)寫,將各大法律服務(wù)平臺(tái)收集的音頻數(shù)據(jù)利用智能語音技術(shù)轉(zhuǎn)寫成文本,同時(shí)開發(fā)數(shù)據(jù)分析功能,對(duì)轉(zhuǎn)寫后的文本進(jìn)行挖掘,包括服務(wù)質(zhì)量和隱藏案件的挖掘,最后通過對(duì)轉(zhuǎn)寫后的文本內(nèi)容進(jìn)行整體挖掘和統(tǒng)計(jì)分析,從法律服務(wù)分析輿情數(shù)據(jù)。最終實(shí)現(xiàn)對(duì)法律服務(wù)的熱點(diǎn)問題追蹤,為制定服務(wù)策略提供數(shù)據(jù)支撐,同時(shí)也可以為輿情的發(fā)現(xiàn)和管控提供數(shù)據(jù)支撐,實(shí)現(xiàn)對(duì)語音數(shù)據(jù)的價(jià)值最大化。