郭冰奇 李志揚 鄧蕾 楊澤信 鄒穎
摘要:目前教學(xué)網(wǎng)站提供的教師講課視頻一般以課時為單位,時長很長,而且知識點繁多。本文提出了一種可以快速將視頻根據(jù)知識點進行剪輯整理的方法。該方法首先采用語音識別技術(shù)將視頻中的語音轉(zhuǎn)化成文字,生成字幕文件,然后借助字幕文件中關(guān)鍵詞出現(xiàn)的時間段對整個教學(xué)視頻進行分節(jié)或提取知識點,制作成帶有字幕的教學(xué)短視頻。采用這種根據(jù)知識點分節(jié)的短視頻,學(xué)生可以依據(jù)自己的興趣重點搜索、學(xué)習(xí)相關(guān)知識點視頻,而不是整個視頻,從而大量減輕學(xué)生負擔(dān),提高學(xué)習(xí)效率。
關(guān)鍵詞:語音識別;視頻剪輯;知識點;字幕
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)26-0006-03
開放科學(xué)(資源服務(wù))標識碼(OSID):
A Teaching Video Clip Method Based on Speech Recognition
GUO Bing-qi,LI Zhi-yang, DENG Lei, YANG Ze-xin, ZOU Ying
(College of Physical Science and Technology, Central China Normal University, Wuhan 430079, China)
Abstract: Presently the videos on most teaching websites are provided in time unit of the class hour, which are relatively long and consist of lots of knowledge points. The paper proposed a method to clip the video quickly according to knowledge points. The method first uses the speech recognition technology to convert the speech in a teaching video into text, producing a subtitle file. Then, it divides the whole video into sections or extracts the knowledge points based on the time stamp of the keywords in the subtitle file, yielding short teaching videos with subtitles. With such short videos? students may search and focus on their interested knowledge points without referring the whole video.
Key words:? speech recognition; video editing; knowledge; subtitles
1 引言
近年來,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上教學(xué)模式逐漸興起,直播授課[1]和視頻教學(xué)等軟件層出不窮,如在疫情影響下被廣泛使用的釘釘直播授課軟件以及功能豐富的中國大學(xué)MOOC教學(xué)網(wǎng)站,不但可以線上授課,還具備上課簽到、提交作業(yè)和學(xué)生管理等豐富的功能,而且教師完成授課后視頻被永久的保存在了網(wǎng)站中,供學(xué)生課后重復(fù)觀看復(fù)習(xí)知識點。但是這樣保存的原始教學(xué)視頻一般時長較長,而且知識點繁多,當(dāng)學(xué)生只想針對性地學(xué)習(xí)某一個知識點時也必須瀏覽整個視頻,浪費大量的學(xué)習(xí)時間。
針對時長長且知識點繁多的教學(xué)視頻,本文提出了一種快捷剪輯整理方法,它借助語音識別技術(shù)[2-4]識別視頻中的知識點,然后根據(jù)知識點進行視頻切分。該方法可用于教學(xué)網(wǎng)站的視頻數(shù)據(jù)整理,有助于提升學(xué)生學(xué)習(xí)效率。
2 基于語音識別的視頻處理算法框架與原理
本文提出的基于語音識別的視頻剪輯整理方法,其處理流程如圖1所示。首先選擇一個教學(xué)視頻,然后對其進行語音識別,獲得字幕文件。由于字幕文件中每一句文字都記錄了相對應(yīng)的視頻時間段,借助關(guān)鍵詞出現(xiàn)的時間段可以對整個教學(xué)視頻進行分節(jié)或提取知識點。最后根據(jù)字幕文件將文字內(nèi)容插入原始視頻,得到帶字幕的以小節(jié)或知識點為單位的教學(xué)短視頻。
圖1中語音識別所采用的算法框架與流程如圖 2 所示,主要包括預(yù)處理與數(shù)字化、特征提取、聲學(xué)模型、語言學(xué)模型和解碼搜索等5個方面:
①預(yù)處理與數(shù)字化。把語音信號進行采樣和量化,使之變成頻域離散信號,采樣頻率應(yīng)取信號最高頻率的兩倍以上,然后對得到的頻域信號進行加窗,窗函數(shù)在信號上移動,把信號分成幀,幀與幀之間的偏移取1/2。
②特征提取。本文采用的聲學(xué)特征提取方法是“梅爾頻率倒譜系數(shù)(MFCC)[5-6]”,對①中的信號幀進行FFT變換求頻譜,然后求得幅度譜[|Xn(k)|](其中,k=0,1,2...)。幅度譜存在大量冗余信息,可以通過Mel濾波器組對其進行簡化提煉,步驟如下:
根據(jù)[fmel(f)=2595.log(1+f700HZ)](其中[fmel(f)]是Mel頻率,[f]是語音信號的實際頻率)求出最大的Mel頻率[fmax[mel]]。然后在Mel頻率軸上配置K個通道的三角形濾波器組(K由信號截至頻率決定)。在Mel刻度范圍內(nèi),任一三角濾波器的中心頻率都是等間隔的線性分布,因此,可以通過公式[Δmel=fmaxk+1]計算相鄰三角濾波器中心頻率的間距。
設(shè)第x個濾波器的下限、中心和上限頻率分別是d(x),b(x),u(x),則相鄰三角形濾波器的下限,中心,上限頻率的關(guān)系如下:b(x)=u(x-1)=d(x+1)。根據(jù)語音信號幅度譜[|Xn(k)|]求每個濾波器的輸出。公式如下: