彭長嶺
摘要:伴隨人類社會步入信息化時代,多媒體技術(shù)在網(wǎng)絡(luò)教學(xué)當(dāng)中應(yīng)用范圍愈加廣泛,并且,在新冠疫情時期,網(wǎng)絡(luò)教學(xué)自身優(yōu)勢得到充分發(fā)揮,但是,現(xiàn)階段市面上的線上視頻編輯平臺功能單一,且效率不高?;诖耍疚膶⒅饕陨疃葘W(xué)習(xí)為基礎(chǔ),針對視頻語音提取文本系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)展開探討。
關(guān)鍵詞:深度學(xué)習(xí);音頻語音;文本提取
引言:語音識別技術(shù)在過去的幾十年中取得了一定的發(fā)展,目前,大部分語音識別是基于在線云服務(wù)平臺和電子計(jì)算機(jī),嵌入式終端設(shè)備采用的離線語音識別技術(shù)并不完善,不能滿足移動機(jī)器人、聲控機(jī)械設(shè)備等在離線終端設(shè)備語音識別要求。
1研究背景
在線遠(yuǎn)程教育市場持續(xù)發(fā)展,該領(lǐng)域的教育平臺百花齊放,但大多缺乏競爭優(yōu)勢,傳統(tǒng)視頻解決方案服務(wù)平臺功能單一,效率較低,用戶實(shí)際操作復(fù)雜,在激烈的市場競爭中,視頻語音采集和語音識別功能的開發(fā)設(shè)計(jì),完成快速的文字轉(zhuǎn)換,提高課堂教學(xué)視頻的質(zhì)量,無疑將占據(jù)有利的地位[1]。功能齊全、操作簡單的視頻、視頻、語音采集,不僅能以高視頻質(zhì)量吸引學(xué)生,也能以優(yōu)秀的用戶體驗(yàn)吸引教師,本系統(tǒng)的開發(fā)設(shè)計(jì),必將推動互聯(lián)網(wǎng)科技教育云平臺的快速發(fā)展。音視頻語音采集文字系統(tǒng)軟件的首要目標(biāo)是準(zhǔn)確編輯教師教學(xué)課堂視頻、視頻和語音。系統(tǒng)軟件智能分為網(wǎng)頁和網(wǎng)站后臺管理。智能管理系統(tǒng),網(wǎng)頁向教師展示視頻倉庫控制模塊、視頻剪輯控制模塊、視頻編輯控制模塊、語音識別技術(shù)控制模塊、審理控制模塊、個人中心控制模塊的功能。
2系統(tǒng)總體架構(gòu)
系統(tǒng)主要由麥克風(fēng)、音頻編解碼集成ic、嵌入式CPU、PC四部分組成,麥克風(fēng)采用MP34DTO1TR規(guī)格的MEMS數(shù)據(jù)麥克風(fēng),完成視頻和語音信號的記錄和采集,輸出PDM文件格式的視頻信號數(shù)據(jù)信號;音頻編解碼集成ic采用WM8994EC超功耗低質(zhì)保碼解碼集成ic,用于接收麥克風(fēng)輸出的視頻信號數(shù)據(jù)信號,解壓后將數(shù)據(jù)信號編號輸出到嵌入式CPU;嵌入式CPU采用STM32F746NGH6規(guī)格的嵌入式MCU,根據(jù)集成ic的SAI插座與音頻解碼集成ic連接完成對輸入的音頻數(shù)據(jù)信息的識別,并將識別結(jié)果輸出到串口端口通訊;由于嵌入式服務(wù)平臺資源相對有限,無法滿足基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)材料模型練習(xí)的要求,因此使用PC來完成聲學(xué)材料模型的練習(xí)[2]。
3語音功能實(shí)現(xiàn)及算法分析
3.1語音識別實(shí)現(xiàn)
在語音識別方面,從動態(tài)時間整潔模型,到混合高斯函數(shù)-隱馬爾可夫模型,再到使用機(jī)器學(xué)習(xí)的端到端語音識別模型,最終百度搜索開源系統(tǒng)的PaddlePaddle架構(gòu)被選中,在DeepSpeech2的基礎(chǔ)上開發(fā),選用端到端語音識別技術(shù),應(yīng)用CTC損失函數(shù),采用雙層CNN、RNN深度神經(jīng)元網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。與傳統(tǒng)的DNN/HMM語音識別相比,有很大的命中率和效率提升[3]。一、svm算法:將視頻和語音數(shù)據(jù)庫查詢中的音頻特征提取為電子計(jì)算機(jī)可以識別的空間矢量數(shù)據(jù)信息,是進(jìn)行驗(yàn)尸神經(jīng)元網(wǎng)絡(luò)練習(xí)的基礎(chǔ),在獲取特征時,有兩個常用的狀態(tài)參數(shù)作為獲取模板的關(guān)鍵,即線性預(yù)測分析指數(shù)(LPCC)和梅爾倒譜指數(shù)(MFCC),LPCC的主要概念是通過多個歷史時間和時間信號的線性組合,可以使當(dāng)前時間數(shù)據(jù)信號成為可能。MFCC是源自人類聽覺系統(tǒng)研究擴(kuò)聲功能,它采用同態(tài)求解的方法得到音頻數(shù)據(jù)信號的離散變量傅立葉變換的對數(shù),然后逆變換得到倒譜指數(shù),與MFCC相比,LPCC的完成更容易,響應(yīng)速度也快,同時,也會對特征解析的信息進(jìn)行指標(biāo)值歸一化、預(yù)處理等實(shí)際操作。其次,聲學(xué)材料模型:一個好的優(yōu)化算法模型可以逼近基礎(chǔ)理論的極限,團(tuán)隊(duì)對語音識別的技術(shù)性進(jìn)行了調(diào)研,選取了學(xué)術(shù)界時尚的識別框架和新穎的工藝,并結(jié)合具體的業(yè)務(wù)流程,改變了訓(xùn)練集,完成了課堂教學(xué)視頻的語音識別系統(tǒng)。
3.2聲學(xué)模型訓(xùn)練與移植
聲學(xué)材料模型練習(xí)使用Google語音命令數(shù)據(jù)集作為訓(xùn)練集,應(yīng)用Tensorflow架構(gòu)中標(biāo)準(zhǔn)化的交叉熵?fù)p失和adam優(yōu)化器進(jìn)行練習(xí)。大batch size為100,模型更新20000次迭代,原始學(xué)習(xí)率為5×10-,前10000次迭代后降為10-4。運(yùn)動數(shù)據(jù)信息改善環(huán)境噪聲和任意時移可達(dá)100ms,以模擬復(fù)雜的環(huán)境,提高操作系統(tǒng)的可擴(kuò)展性[4]。使用ARM開發(fā)設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)庫amnn創(chuàng)建DS-CNN神經(jīng)網(wǎng)絡(luò)架構(gòu),將聲學(xué)材料模型練習(xí)得到的各種模型的主要參數(shù)鍵入結(jié)構(gòu)的相應(yīng)部分。之后創(chuàng)建新的嵌入式項(xiàng)目時,可以移植已經(jīng)進(jìn)入聲學(xué)材料模型主要參數(shù)的DS-CNN神經(jīng)元網(wǎng)絡(luò),就可以移植聲學(xué)材料模型。
4系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
4.1后臺管理系統(tǒng)
(1)登錄模塊:后臺管理人員輸入賬號和登錄密碼完成信息的實(shí)際操作。(2)首頁模塊:在該模塊中,還可以對網(wǎng)站系統(tǒng)日志進(jìn)行查詢和管理,并根據(jù)瀏覽量、用戶總數(shù)、用戶在線時間、收入、信息、訂單信息等信息進(jìn)行查詢和管理等根據(jù)比率圖、直方圖、折線統(tǒng)計(jì)圖進(jìn)行數(shù)據(jù)可視化,簡單明了,提高了管理員對信息的理解。(3)管理信息系統(tǒng)模塊:管理信息系統(tǒng)分為用戶管理方式和人員角色管理方式,審批用戶資料,維護(hù)服務(wù)平臺一般用戶和VIP會員用戶的資料信息內(nèi)容。(4)視頻存儲管理模塊:該模塊分為三個模塊:視頻文檔管理、用戶視頻個人收藏、用戶變更歷史時間管理。能夠管理用戶的各種類型的視頻。(5)語音識別管理模塊:網(wǎng)站管理員對用戶的聲音模型進(jìn)行管理,保證用戶可以在網(wǎng)絡(luò)平臺上選擇聲音模型完成語音識別。最后,課程內(nèi)容視頻基本不變,提高了學(xué)生的課堂體驗(yàn)。(7)審理管理:用戶審理信息的管理。
4.2用戶Web端
(1) 新增用戶注冊控制模塊:門戶服務(wù)于教師和客戶。簡單的大數(shù)據(jù)可視化方式,可以輕松喚起最復(fù)雜的操作流程,為用戶帶來簡單合理的管理員賬戶操作流程管理方法。(2)視頻庫控制模塊:視頻庫控制模塊給出了視頻文件格式管理方法功能??蛻暨€可以進(jìn)行提交、一鍵下載、刪除視頻文件格式等操作。此外,控制模塊還產(chǎn)生采集、訪問、分類等功能。其他省時省力的功能。(3)進(jìn)一步提升客戶體驗(yàn)和工作效率。同時客戶可以返回列表頁面對所有切片進(jìn)行監(jiān)管操作流程,實(shí)現(xiàn)簡單的xml分析和檢查。(4) 視頻加載控制模塊:視頻加載控制模塊是該方向的重要控制模塊,可以將視頻分片,獲取文字提示和錯誤的音頻集錦。不正確的音頻更改包括兩種方法:文本智能語音系統(tǒng)系統(tǒng)生成和音頻替換。(5)語音識別技術(shù)控制模塊:一般的文字轉(zhuǎn)語音都有非常明顯的機(jī)器設(shè)備視頻和視頻語音情況。為了更好更快地滿足消費(fèi)者的感受,新的語音識別技術(shù)的使用帶來了多種智能語音系統(tǒng)軟件實(shí)物模型供客戶選擇,從而達(dá)到更細(xì)致、更具體的更換實(shí)際效果[5]。(6) 個人中控模塊:客戶還可以在個人中控模塊中查看個人隱私信息的內(nèi)容。如果遇到問題,可以通過幫助中心綜合服務(wù)平臺的助手了解問題。
結(jié)語:
本文明確提出了當(dāng)今視頻編輯服務(wù)平臺、整體項(xiàng)目設(shè)計(jì)、實(shí)際語音識別建立方案中存在的一些難點(diǎn)問題,集成k8s和服務(wù)網(wǎng)格,完成云端省時省力部署,真正保證語音識別的準(zhǔn)確性和效率,實(shí)時音文本轉(zhuǎn)換,多種視頻傳輸文件格式,一鍵切片省時省力,審理信息多元化呈現(xiàn),用戶數(shù)據(jù)信息形象可視化、服務(wù)平臺助手正確引導(dǎo)提醒,用戶應(yīng)用方便高效等特點(diǎn),最終將提升在線教學(xué)視頻的質(zhì)量,推動文教行業(yè)大數(shù)據(jù)、智能化、智能化系統(tǒng)的轉(zhuǎn)型發(fā)展,以全步驟的數(shù)據(jù)信息聚合和整合,完成高效的數(shù)據(jù)共享。
參考文獻(xiàn)
[1]姚錦江, 程允權(quán). 基于深度學(xué)習(xí)的視頻檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)測量與控制, 2019, v.27;No.249(06):237-241.
[2]許業(yè)寬, 黃魯. 基于深度學(xué)習(xí)的嵌入式離線語音識別系統(tǒng)設(shè)計(jì)[J]. 信息技術(shù)與網(wǎng)絡(luò)安全, 2019, 38(04):67-70.
[3]張千, 王慶瑋, 張悅,等. 基于深度學(xué)習(xí)的文本特征提取研究綜述[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2019(12):61-65.
[4]梁建勝, 溫賀平. 基于深度學(xué)習(xí)的視頻關(guān)鍵幀提取與視頻檢索[J]. 控制工程, 2019, 026(005):965-970.
[5]胡婕, 陶宏才. 基于深度學(xué)習(xí)的領(lǐng)域問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 成都信息工程大學(xué)學(xué)報, 2019, 034(003):232-237.