楊鴻珍 陳是同 董媛媛 浦正國
摘要:隨著通信視頻會議的推廣應(yīng)用,會議記錄整理需求涌現(xiàn),而傳統(tǒng)的視頻會議系統(tǒng)無法解決會議記錄編輯耗時長,強度大,重復(fù)性強等問題。本文設(shè)計了基于智能語音技術(shù)的通信視頻會議方案,在傳統(tǒng)的通信視頻會議引入語音識別技術(shù)方案,實現(xiàn)會議發(fā)言實時上墻和會議記錄自動整理,提高了浙江電力信通分公司視頻會議的智能化水平。
關(guān)鍵詞:語音識別;會議;通信
中圖分類號:TN912.3 文獻標識碼:A 文章編號:1007-9416(2019)11-0019-02
0 引言
隨著信息時代的到來,包括視頻電話會議、專題辦公會、匯報演講會在內(nèi)的會議頻次多達數(shù)千場次,這蘊含了大量的會議紀要整理與輸出的需求。當(dāng)前根據(jù)會議錄音整理的方式,存在編輯耗時長、強度大、重復(fù)性強的缺陷。然而很多重要會議具備時間長、信息量大、紀要輸出嚴等特點,對會議記錄人員提出更高要求,且仍可能存在信息遺漏或會議思想理解偏差等問題,亟需得到解決。針對上述問題,本文在傳統(tǒng)通信視頻會議引入智能語音技術(shù),設(shè)計出智能會議方案,實現(xiàn)會議記錄的實時記錄和上墻,提高會議人員的工作效率。
1 關(guān)鍵技術(shù)
1.1 基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)構(gòu)建聲學(xué)模型
DFCNN使用大量的卷積層直接對整句語音信號進行建模。首先,類似圖像處理的方式,在輸入端以語譜圖作為代替語音輸入,相比其他以傳統(tǒng)語音特征作為輸入的語音識別框架相比具有天然的優(yōu)勢。其次,在模型結(jié)構(gòu)上,也借鑒了圖像識別的網(wǎng)絡(luò)架構(gòu),充分利用語音數(shù)據(jù)的歷史和未來信息,從而保障了語音處理的長時相關(guān)性,相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色,同時可以實現(xiàn)短延時的準在線解碼,從而可用于會議系統(tǒng)中。
1.2 口語化和篇章級語言模型處理技術(shù)
首先,收集部分口語文本和書面文本語料對;其次,使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書面語文本與口語文本之間的對應(yīng)關(guān)系,從而實現(xiàn)了口語文本的自動生成。另外,上下文信息可以較大程度幫助人類對語言的理解,對于機器轉(zhuǎn)錄也是同樣的道理?;谏鲜龅乃悸诽岢銎录壵Z言模型的方案,該方案根據(jù)語音識別的解碼結(jié)果自動進行關(guān)鍵信息抽取,實時進行語料搜索和后處理,用解碼結(jié)果和搜索到的語料形成特定語音相關(guān)的語言模型,從而進一步提高語音轉(zhuǎn)寫的準確率。
1.3 噪聲和遠場識別技術(shù)
單麥克降噪、解混響。對采集到的有損失語音,使用混合訓(xùn)練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進行降噪和解混響,進一步提高帶噪、遠場語音的識別正確率。
麥克風(fēng)陣列降噪、解混響。使用多個麥克風(fēng)采集多路時頻信號,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)波束形成,從而在目標信號的方向形成一個拾音波束,并衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合,可以進一步顯著的提高帶噪、遠場語音的識別正確率。
2 方案設(shè)計
系統(tǒng)采用分層的方式設(shè)計,總體架構(gòu)上共分為三層:基礎(chǔ)設(shè)施層、平臺層、應(yīng)用層。基礎(chǔ)設(shè)施層提供基礎(chǔ)計算能力、存儲能力、網(wǎng)絡(luò)支撐能力,保障整個系統(tǒng)安全、穩(wěn)定、高效運行。平臺層提供中文語音轉(zhuǎn)寫、全文檢索等智能語音與基礎(chǔ)業(yè)務(wù)能力。應(yīng)用層針對中文語音轉(zhuǎn)寫提供控制管理終端實現(xiàn)對系統(tǒng)以及業(yè)務(wù)的管理,屏幕顯示終端實現(xiàn)會議過程中結(jié)果展現(xiàn)給參會人員的功能;音頻采集服務(wù)通過聲卡、麥克風(fēng)等硬件設(shè)備完成音頻的實時采集。
2.1 技術(shù)架構(gòu)
本文設(shè)計方案的技術(shù)架構(gòu)按照音頻數(shù)據(jù)分析的技術(shù)流程,從前端處理到后臺識別,在都按內(nèi)容展示,主要包括:前端語音處理、后端識別處理和語法功能。其中語法功能包括語法識別系統(tǒng)、編譯系統(tǒng)、動態(tài)加載系統(tǒng)、激活系統(tǒng)和緩存系統(tǒng)等等。
2.2 功能架構(gòu)
智能語音識別技術(shù)可以實現(xiàn)在會議、教學(xué)、演講等場景下的實時音頻或錄音采集,并通過語音識別技術(shù)實時轉(zhuǎn)化為文字。具體功能設(shè)計如下:
(1)用戶管理:對不同用戶進行管理和維護。(2)音頻采集處理:對音頻信號從獲取到內(nèi)容展示進行全過程展示,供后續(xù)的轉(zhuǎn)寫文字等功能使用,同時保存到內(nèi)容管理模塊中。(3)實時語音轉(zhuǎn)寫:對進入系統(tǒng)的實時語音流進行語音識別操作,并持續(xù)進行轉(zhuǎn)寫結(jié)果文本內(nèi)容的輸出。(4)歷史語音轉(zhuǎn)寫:主要支持離線語音上傳與識別結(jié)果的下載與編輯。(5)角色分離:支持對多角色語音的識別與說話人識別。(6)內(nèi)容編輯:對轉(zhuǎn)寫后的文本進行編輯。(7)效果優(yōu)化:自動或者手動的對轉(zhuǎn)寫的文本進行優(yōu)化。(8)內(nèi)容展示:系統(tǒng)通過提供展板上屏等形式進行實時語音轉(zhuǎn)寫結(jié)果的展示。(9)內(nèi)容管理:對轉(zhuǎn)寫后的文本進行內(nèi)容管理,支持用戶的全文檢索、快速導(dǎo)出等方便快捷。(10)全文檢索:支持對海量語音數(shù)據(jù)的檢索。
2.3 物理架構(gòu)
由多個服務(wù)端集群和部署在不同場所的終端設(shè)備構(gòu)成。中文轉(zhuǎn)寫引擎服務(wù)集群用于部署中文轉(zhuǎn)寫引擎,提供中文語音轉(zhuǎn)寫能力;分布式文件存儲集群主要用于音頻文件的存儲;全文檢索服務(wù)集群用于部署全文檢索服務(wù),提供全文檢索的能力。
3 效益分析
(1)提升會議效果:本技術(shù)方案的實現(xiàn)將會議中每個人的發(fā)言都實時、完整、有序的轉(zhuǎn)成文字,并且在會場實時上屏,提升了會議效果。(2)降低人工成本:本文設(shè)計的智能會議系統(tǒng),可提高會議記錄的準確性和會議紀要的生成速度,并減少記錄員的工作量,降低人工成本。(3)提高公司智能化水平,打造公司品牌效應(yīng):將人工智能、語音識別等先進的技術(shù)引入公司進行研究及應(yīng)用,提高了公司的智能化水平。
4 結(jié)語
本文探究了智能語音識別技術(shù)在會議、演講等場景的應(yīng)用技術(shù)方案,從技術(shù)研究出發(fā)給出了技術(shù)方案,最后制定了切實可行的智能語音識別技術(shù)在會議中的應(yīng)用方案,實現(xiàn)智能語音技術(shù)與視頻會議系統(tǒng)結(jié)合使用,通過語音識別可以將會議發(fā)言實時轉(zhuǎn)寫成結(jié)構(gòu)化數(shù)據(jù),讓會議發(fā)言實時上墻,實現(xiàn)會議記錄自動整理,輔助整理會議紀要和會議討論重點問題,降低會議記錄人員的工作強度,提高會議的智能會水平。
參考文獻
[1] 周志平.基于深度學(xué)習(xí)的小尺度單元拼接語音合成方法研究[D].中國科學(xué)技術(shù)大學(xué),2017.
[2] 顧亞平.基于智能語音交互技術(shù)的智慧語音助理系統(tǒng)實現(xiàn)[D].南京郵電大學(xué),2015.
[3] 薛少飛.DNN-HMM語音識別聲學(xué)模型的說話人自適應(yīng)[D].中國科學(xué)技術(shù)大學(xué),2015.
[4] 王山海,景新幸,楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別的研究[J].計算機應(yīng)用研究,2015,32(08):2289-2291+2298.
[5] 陳偉.語音識別聲學(xué)建模中的主動學(xué)習(xí)研究[D].北京郵電大學(xué),2011.