亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的視頻語音提取文本系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2021-12-27 08:12:13彭長嶺

電子樂園·中旬刊 2021年3期

彭長嶺

摘要：伴隨人類社會步入信息化時代，多媒體技術(shù)在網(wǎng)絡(luò)教學(xué)當(dāng)中應(yīng)用范圍愈加廣泛，并且，在新冠疫情時期，網(wǎng)絡(luò)教學(xué)自身優(yōu)勢得到充分發(fā)揮，但是，現(xiàn)階段市面上的線上視頻編輯平臺功能單一，且效率不高?；诖耍疚膶⒅饕陨疃葘W(xué)習(xí)為基礎(chǔ)，針對視頻語音提取文本系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)展開探討。

關(guān)鍵詞：深度學(xué)習(xí);音頻語音;文本提取

引言：語音識別技術(shù)在過去的幾十年中取得了一定的發(fā)展，目前，大部分語音識別是基于在線云服務(wù)平臺和電子計(jì)算機(jī)，嵌入式終端設(shè)備采用的離線語音識別技術(shù)并不完善，不能滿足移動機(jī)器人、聲控機(jī)械設(shè)備等在離線終端設(shè)備語音識別要求。

1研究背景

在線遠(yuǎn)程教育市場持續(xù)發(fā)展，該領(lǐng)域的教育平臺百花齊放，但大多缺乏競爭優(yōu)勢，傳統(tǒng)視頻解決方案服務(wù)平臺功能單一，效率較低，用戶實(shí)際操作復(fù)雜，在激烈的市場競爭中，視頻語音采集和語音識別功能的開發(fā)設(shè)計(jì)，完成快速的文字轉(zhuǎn)換，提高課堂教學(xué)視頻的質(zhì)量，無疑將占據(jù)有利的地位[1]。功能齊全、操作簡單的視頻、視頻、語音采集，不僅能以高視頻質(zhì)量吸引學(xué)生，也能以優(yōu)秀的用戶體驗(yàn)吸引教師，本系統(tǒng)的開發(fā)設(shè)計(jì)，必將推動互聯(lián)網(wǎng)科技教育云平臺的快速發(fā)展。音視頻語音采集文字系統(tǒng)軟件的首要目標(biāo)是準(zhǔn)確編輯教師教學(xué)課堂視頻、視頻和語音。系統(tǒng)軟件智能分為網(wǎng)頁和網(wǎng)站后臺管理。智能管理系統(tǒng)，網(wǎng)頁向教師展示視頻倉庫控制模塊、視頻剪輯控制模塊、視頻編輯控制模塊、語音識別技術(shù)控制模塊、審理控制模塊、個人中心控制模塊的功能。

2系統(tǒng)總體架構(gòu)

系統(tǒng)主要由麥克風(fēng)、音頻編解碼集成ic、嵌入式CPU、PC四部分組成，麥克風(fēng)采用MP34DTO1TR規(guī)格的MEMS數(shù)據(jù)麥克風(fēng)，完成視頻和語音信號的記錄和采集，輸出PDM文件格式的視頻信號數(shù)據(jù)信號;音頻編解碼集成ic采用WM8994EC超功耗低質(zhì)保碼解碼集成ic，用于接收麥克風(fēng)輸出的視頻信號數(shù)據(jù)信號，解壓后將數(shù)據(jù)信號編號輸出到嵌入式CPU;嵌入式CPU采用STM32F746NGH6規(guī)格的嵌入式MCU，根據(jù)集成ic的SAI插座與音頻解碼集成ic連接完成對輸入的音頻數(shù)據(jù)信息的識別，并將識別結(jié)果輸出到串口端口通訊;由于嵌入式服務(wù)平臺資源相對有限，無法滿足基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)材料模型練習(xí)的要求，因此使用PC來完成聲學(xué)材料模型的練習(xí)[2]。

3語音功能實(shí)現(xiàn)及算法分析

3.1語音識別實(shí)現(xiàn)

在語音識別方面，從動態(tài)時間整潔模型，到混合高斯函數(shù)-隱馬爾可夫模型，再到使用機(jī)器學(xué)習(xí)的端到端語音識別模型，最終百度搜索開源系統(tǒng)的PaddlePaddle架構(gòu)被選中，在DeepSpeech2的基礎(chǔ)上開發(fā)，選用端到端語音識別技術(shù)，應(yīng)用CTC損失函數(shù)，采用雙層CNN、RNN深度神經(jīng)元網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。與傳統(tǒng)的DNN/HMM語音識別相比，有很大的命中率和效率提升[3]。一、svm算法：將視頻和語音數(shù)據(jù)庫查詢中的音頻特征提取為電子計(jì)算機(jī)可以識別的空間矢量數(shù)據(jù)信息，是進(jìn)行驗(yàn)尸神經(jīng)元網(wǎng)絡(luò)練習(xí)的基礎(chǔ)，在獲取特征時，有兩個常用的狀態(tài)參數(shù)作為獲取模板的關(guān)鍵，即線性預(yù)測分析指數(shù)（LPCC）和梅爾倒譜指數(shù)（MFCC），LPCC的主要概念是通過多個歷史時間和時間信號的線性組合，可以使當(dāng)前時間數(shù)據(jù)信號成為可能。MFCC是源自人類聽覺系統(tǒng)研究擴(kuò)聲功能，它采用同態(tài)求解的方法得到音頻數(shù)據(jù)信號的離散變量傅立葉變換的對數(shù)，然后逆變換得到倒譜指數(shù)，與MFCC相比，LPCC的完成更容易，響應(yīng)速度也快，同時，也會對特征解析的信息進(jìn)行指標(biāo)值歸一化、預(yù)處理等實(shí)際操作。其次，聲學(xué)材料模型：一個好的優(yōu)化算法模型可以逼近基礎(chǔ)理論的極限，團(tuán)隊(duì)對語音識別的技術(shù)性進(jìn)行了調(diào)研，選取了學(xué)術(shù)界時尚的識別框架和新穎的工藝，并結(jié)合具體的業(yè)務(wù)流程，改變了訓(xùn)練集，完成了課堂教學(xué)視頻的語音識別系統(tǒng)。

3.2聲學(xué)模型訓(xùn)練與移植

聲學(xué)材料模型練習(xí)使用Google語音命令數(shù)據(jù)集作為訓(xùn)練集，應(yīng)用Tensorflow架構(gòu)中標(biāo)準(zhǔn)化的交叉熵?fù)p失和adam優(yōu)化器進(jìn)行練習(xí)。大batch size為100，模型更新20000次迭代，原始學(xué)習(xí)率為5×10-，前10000次迭代后降為10-4。運(yùn)動數(shù)據(jù)信息改善環(huán)境噪聲和任意時移可達(dá)100ms，以模擬復(fù)雜的環(huán)境，提高操作系統(tǒng)的可擴(kuò)展性[4]。使用ARM開發(fā)設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)庫amnn創(chuàng)建DS-CNN神經(jīng)網(wǎng)絡(luò)架構(gòu)，將聲學(xué)材料模型練習(xí)得到的各種模型的主要參數(shù)鍵入結(jié)構(gòu)的相應(yīng)部分。之后創(chuàng)建新的嵌入式項(xiàng)目時，可以移植已經(jīng)進(jìn)入聲學(xué)材料模型主要參數(shù)的DS-CNN神經(jīng)元網(wǎng)絡(luò)，就可以移植聲學(xué)材料模型。

4系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

4.1后臺管理系統(tǒng)

（1）登錄模塊：后臺管理人員輸入賬號和登錄密碼完成信息的實(shí)際操作。（2）首頁模塊：在該模塊中，還可以對網(wǎng)站系統(tǒng)日志進(jìn)行查詢和管理，并根據(jù)瀏覽量、用戶總數(shù)、用戶在線時間、收入、信息、訂單信息等信息進(jìn)行查詢和管理等根據(jù)比率圖、直方圖、折線統(tǒng)計(jì)圖進(jìn)行數(shù)據(jù)可視化，簡單明了，提高了管理員對信息的理解。（3）管理信息系統(tǒng)模塊：管理信息系統(tǒng)分為用戶管理方式和人員角色管理方式，審批用戶資料，維護(hù)服務(wù)平臺一般用戶和VIP會員用戶的資料信息內(nèi)容。（4）視頻存儲管理模塊：該模塊分為三個模塊：視頻文檔管理、用戶視頻個人收藏、用戶變更歷史時間管理。能夠管理用戶的各種類型的視頻。（5）語音識別管理模塊：網(wǎng)站管理員對用戶的聲音模型進(jìn)行管理，保證用戶可以在網(wǎng)絡(luò)平臺上選擇聲音模型完成語音識別。最后，課程內(nèi)容視頻基本不變，提高了學(xué)生的課堂體驗(yàn)。（7）審理管理：用戶審理信息的管理。

4.2用戶Web端

（1）新增用戶注冊控制模塊：門戶服務(wù)于教師和客戶。簡單的大數(shù)據(jù)可視化方式，可以輕松喚起最復(fù)雜的操作流程，為用戶帶來簡單合理的管理員賬戶操作流程管理方法。（2）視頻庫控制模塊：視頻庫控制模塊給出了視頻文件格式管理方法功能?？蛻暨€可以進(jìn)行提交、一鍵下載、刪除視頻文件格式等操作。此外，控制模塊還產(chǎn)生采集、訪問、分類等功能。其他省時省力的功能。（3）進(jìn)一步提升客戶體驗(yàn)和工作效率。同時客戶可以返回列表頁面對所有切片進(jìn)行監(jiān)管操作流程，實(shí)現(xiàn)簡單的xml分析和檢查。（4）視頻加載控制模塊：視頻加載控制模塊是該方向的重要控制模塊，可以將視頻分片，獲取文字提示和錯誤的音頻集錦。不正確的音頻更改包括兩種方法：文本智能語音系統(tǒng)系統(tǒng)生成和音頻替換。（5）語音識別技術(shù)控制模塊：一般的文字轉(zhuǎn)語音都有非常明顯的機(jī)器設(shè)備視頻和視頻語音情況。為了更好更快地滿足消費(fèi)者的感受，新的語音識別技術(shù)的使用帶來了多種智能語音系統(tǒng)軟件實(shí)物模型供客戶選擇，從而達(dá)到更細(xì)致、更具體的更換實(shí)際效果[5]。（6）個人中控模塊：客戶還可以在個人中控模塊中查看個人隱私信息的內(nèi)容。如果遇到問題，可以通過幫助中心綜合服務(wù)平臺的助手了解問題。

結(jié)語：

本文明確提出了當(dāng)今視頻編輯服務(wù)平臺、整體項(xiàng)目設(shè)計(jì)、實(shí)際語音識別建立方案中存在的一些難點(diǎn)問題，集成k8s和服務(wù)網(wǎng)格，完成云端省時省力部署，真正保證語音識別的準(zhǔn)確性和效率，實(shí)時音文本轉(zhuǎn)換，多種視頻傳輸文件格式，一鍵切片省時省力，審理信息多元化呈現(xiàn)，用戶數(shù)據(jù)信息形象可視化、服務(wù)平臺助手正確引導(dǎo)提醒，用戶應(yīng)用方便高效等特點(diǎn)，最終將提升在線教學(xué)視頻的質(zhì)量，推動文教行業(yè)大數(shù)據(jù)、智能化、智能化系統(tǒng)的轉(zhuǎn)型發(fā)展，以全步驟的數(shù)據(jù)信息聚合和整合，完成高效的數(shù)據(jù)共享。

參考文獻(xiàn)

[1]姚錦江，程允權(quán). 基于深度學(xué)習(xí)的視頻檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)測量與控制， 2019， v.27;No.249（06）：237-241.

[2]許業(yè)寬，黃魯. 基于深度學(xué)習(xí)的嵌入式離線語音識別系統(tǒng)設(shè)計(jì)[J]. 信息技術(shù)與網(wǎng)絡(luò)安全， 2019， 38（04）：67-70.

[3]張千，王慶瑋，張悅，等. 基于深度學(xué)習(xí)的文本特征提取研究綜述[J]. 計(jì)算機(jī)技術(shù)與發(fā)展， 2019（12）：61-65.

[4]梁建勝，溫賀平. 基于深度學(xué)習(xí)的視頻關(guān)鍵幀提取與視頻檢索[J]. 控制工程， 2019， 026（005）：965-970.

[5]胡婕，陶宏才. 基于深度學(xué)習(xí)的領(lǐng)域問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 成都信息工程大學(xué)學(xué)報， 2019， 034（003）：232-237.