亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多模態(tài)的教學(xué)視頻分割系統(tǒng)設(shè)計(jì)

2022-06-01 02:08:02祁冰

信息記錄材料 2022年4期

祁冰

（海南工商職業(yè)學(xué)院海南 ?？?570228）

0 引言

隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展，線上教育已成為一種常用的學(xué)習(xí)方式。然而網(wǎng)絡(luò)上現(xiàn)存的大量長(zhǎng)時(shí)間的教學(xué)視頻現(xiàn)狀與當(dāng)今人們簡(jiǎn)單高效的學(xué)習(xí)追求產(chǎn)生了矛盾，短視頻的流行證明了這一點(diǎn)，人們渴望高效地獲得知識(shí)，在某些有限的條件下只能利用碎片化的時(shí)間或精力，甚至?xí)r長(zhǎng)超過15 min 的教學(xué)視頻就會(huì)不受歡迎，因此產(chǎn)生了將長(zhǎng)教學(xué)視頻按內(nèi)容知識(shí)點(diǎn)來分割成小段視頻單元的需求。

而想要解決長(zhǎng)教學(xué)視頻分割的問題，直接采用現(xiàn)有的視頻分析方法有如下不足：首先，現(xiàn)有利用深度學(xué)習(xí)技術(shù)的視頻分析方法采用的標(biāo)準(zhǔn)數(shù)據(jù)集都具備明顯的背景環(huán)境、人物、目標(biāo)和動(dòng)作，而教學(xué)視頻除了情境教學(xué)環(huán)節(jié)會(huì)出現(xiàn)這類內(nèi)容，其他部分以教師站在課件或軟件前講解居多，在標(biāo)準(zhǔn)數(shù)據(jù)集中預(yù)訓(xùn)練的現(xiàn)有視頻分析技術(shù)難以提取出代表教學(xué)內(nèi)容的語義特征。其次，同樣由于數(shù)據(jù)集的原因，利用現(xiàn)有視頻文字描述方法更擅長(zhǎng)短視頻文字描述，如：一個(gè)男人在路邊演奏鋼琴。然而教學(xué)視頻往往是長(zhǎng)時(shí)間視頻，內(nèi)容多變，要想提取出其中的文字語義信息，現(xiàn)有方法處理困難，描述準(zhǔn)確率很低。

1 多模態(tài)視頻分割系統(tǒng)框架的提出

站在多模態(tài)的角度分析，教學(xué)視頻有其自身特點(diǎn)：首先，圖像模態(tài)部分的組成部分較為固定：教師人像、課件畫面、軟件演示畫面或教學(xué)情景視頻；其次，聲音模態(tài)主要組成部分是教師的授課語音，也有較少的背景音和過渡音，其中包括視頻素材的還有素材自帶音頻，然而不是所有教師的語音都是標(biāo)準(zhǔn)的普通話，也并非都與視頻圖像內(nèi)容一一對(duì)應(yīng)，數(shù)據(jù)量較大；最后，文字模態(tài)部分主要由貫穿整個(gè)教學(xué)視頻的課件文字組成，由部分教學(xué)視頻配有字幕文字，課件中字體大小一般按標(biāo)題和內(nèi)容分級(jí)，標(biāo)題字體更大位置更靠上。

盡管教學(xué)視頻包含豐富的圖、文、聲、像多模態(tài)的信息，然而針對(duì)視頻按內(nèi)容分割任務(wù)而言，聲音模態(tài)種類少，教學(xué)內(nèi)容的切換與聲音的波動(dòng)與變化沒有顯著聯(lián)系，若將語音轉(zhuǎn)化為文字來提取視頻語義內(nèi)容，需要考慮包括非標(biāo)準(zhǔn)普通話語音識(shí)別成錯(cuò)誤率和信息冗余，而圖像模態(tài)和文字模態(tài)本身包含文字，可以利用圖像模態(tài)和文字模態(tài)作為教學(xué)視頻分割的依據(jù)。隨著深度學(xué)習(xí)的發(fā)展，計(jì)算機(jī)視覺和自然語言處理方法中現(xiàn)有很多優(yōu)秀的圖像和文字處理方法。以某平臺(tái)上《網(wǎng)絡(luò)攻防與協(xié)議分析》課程的教學(xué)視頻為例，本文提出了一種結(jié)合了圖像模態(tài)及文字模態(tài)的視頻分割系統(tǒng)框架，見圖1，先基于直方圖特征將視頻按鏡頭初步分割，提取鏡頭關(guān)鍵幀，對(duì)關(guān)鍵幀中課件標(biāo)題文字進(jìn)行檢測(cè)與識(shí)別，最后按標(biāo)題文字相同與否來合并鏡頭組成有完整知識(shí)點(diǎn)的教學(xué)視頻單元，采用這種框架整合現(xiàn)有方法，取得了較好的長(zhǎng)教學(xué)視頻語義分割效果。

2 鏡頭分割

自然場(chǎng)景中的視頻鏡頭切換方式多達(dá)10 種以上，針對(duì)不同的切換方式有多種鏡頭邊界檢測(cè)方法，包括基于運(yùn)動(dòng)、輪廓、直方圖、深度神經(jīng)網(wǎng)絡(luò)的方法等[1]。然而教學(xué)視頻中的切換方法較簡(jiǎn)單，總體分為鏡頭突變和鏡頭漸變兩類，本文選用基于直方圖的方法，處理起來既簡(jiǎn)單又能取得較好的效果。直方圖表示一幅數(shù)字圖像中不同顏色或不同灰度在數(shù)量上占有的比例，可以代表圖像的顏色或灰度分布情況，與顏色在圖像中出現(xiàn)空間位置無關(guān)，不同圖像其直方圖及參數(shù)的變化見圖2。

2.1 鏡頭突變檢測(cè)

鏡頭突變指兩個(gè)鏡頭直接切換，前后鏡頭沒有交疊過渡，是教學(xué)視頻中常用的切換方式。由于鏡頭的突變切換，會(huì)導(dǎo)致前后視頻幀的差異較大，提取相鄰兩幀的直方圖對(duì)比，設(shè)其相似度低于設(shè)定閾值時(shí)，則認(rèn)定這兩幀之間發(fā)生了鏡頭的切換，可以在此處進(jìn)行一次視頻切分。

2.2 鏡頭漸變檢測(cè)

鏡頭漸變指前一個(gè)鏡頭的最后幾幀和后一個(gè)鏡頭的前幾幀半透明的交疊在一起，直至后面的鏡頭完全出現(xiàn)。在這個(gè)過程中相鄰幀的差異并不像鏡頭突變的忽然變大，而是從小到大再到小的過程。因此鏡頭漸變的檢測(cè)方法與鏡頭突變不同，依次提取當(dāng)前幀的后一幀直方圖特征與當(dāng)前幀的直方圖特征，計(jì)算其相似度值，當(dāng)出現(xiàn)了相似度值從小于設(shè)定閾值變化到大于閾值、而后又變回小于狀態(tài)的過程，則認(rèn)定這些幀之間發(fā)生了鏡頭的漸變，可以選擇中間幀進(jìn)行一次視頻分割。

3 提取關(guān)鍵幀

按鏡頭分割視頻后，得到許多視頻片段，按25 幀/s的視頻標(biāo)準(zhǔn)，則已分為單位的視頻片段包含數(shù)量龐大的視頻幀。同一個(gè)鏡頭中，視頻幀之間差別較小，往往低于設(shè)定閾值，相互之間相似性大造成信息冗余，為了降低冗余度，降低數(shù)據(jù)處理工作量，需要將視頻中的有代表性的關(guān)鍵內(nèi)容幀提取出來，得到的一系列的關(guān)鍵幀圖像，即可將視頻模態(tài)的處理轉(zhuǎn)化為圖像模態(tài)的處理。

關(guān)鍵幀提取的方法主要有基于鏡頭邊界、基于像素直方圖、基于內(nèi)容分析、基于運(yùn)動(dòng)分析和基于聚類的方法等[2]。教學(xué)視頻主要以課件和教師為主要畫面，課件和教師畫面交替出現(xiàn)，有時(shí)教師畫面還會(huì)與課件畫面同時(shí)出現(xiàn)，然而能代表視頻內(nèi)容的畫面主要來自課件的文字信息，因此視頻分割依據(jù)主要為課件標(biāo)題，理想中的教學(xué)視頻關(guān)鍵幀應(yīng)該包含完整課件標(biāo)題?；诮虒W(xué)視頻的這些特點(diǎn)，采用基于像素直方圖的方法更適合提取視頻關(guān)鍵幀?；谙袼刂狈綀D的方法依次取鏡頭中相鄰幀計(jì)算像素值距離，大于設(shè)定閾值的就設(shè)置為關(guān)鍵幀，閾值一般取所有距離的平均值，這種方法更適合視頻幀中課件標(biāo)題位置或文字不變的關(guān)鍵幀提取，其計(jì)算簡(jiǎn)單，且不止一個(gè)關(guān)鍵幀，還可以根據(jù)實(shí)際情況動(dòng)態(tài)地調(diào)整閾值來取得更精確的關(guān)鍵幀，具有更好的靈活性和更高的準(zhǔn)確率。

基于像素直方圖的方法具體操作分為3 部分：首先提取每個(gè)視頻幀的像素直方圖，即將像素值區(qū)間為橫坐標(biāo)、像素的數(shù)量為縱坐標(biāo)形成的直方圖，依次計(jì)算鏡頭相鄰幀之間的距離，第2 步計(jì)算所有距離的平均值，設(shè)定為閾值，最后依次將各個(gè)距離與閾值相比較，距離大于閾值的兩幀取后一幀作為視頻關(guān)鍵幀。如果獲得的關(guān)鍵幀存在重復(fù)和冗余，調(diào)整閾值直至得到更加準(zhǔn)確的結(jié)果。為了以課件標(biāo)題文字作為視頻分割依據(jù)，可以在得到的關(guān)鍵幀中再次通過設(shè)置閾值，去除掉單獨(dú)教師畫面和情景教學(xué)畫面的關(guān)鍵幀，僅保留包含課件畫面的關(guān)鍵幀。

4 文字檢測(cè)與識(shí)別

在上一步中得到了包含課件畫面的各個(gè)鏡頭提取的關(guān)鍵幀，現(xiàn)在要將這些關(guān)鍵幀中的文字提取出來，為后期的鏡頭合并提供依據(jù)，這一步將前期圖像模態(tài)的處理轉(zhuǎn)化為文字模態(tài)的處理[3]。文字檢測(cè)與識(shí)別一直是計(jì)算機(jī)視覺領(lǐng)域研究的重要問題，文字檢測(cè)是指運(yùn)用文字檢測(cè)算法檢測(cè)輸入圖像中是否含有文字，若檢測(cè)到文字，還需定位文字出現(xiàn)在圖片中的位置；文字識(shí)別即運(yùn)用文字識(shí)別算法對(duì)輸入圖片中的文字區(qū)域進(jìn)行識(shí)別。文字檢測(cè)是文字識(shí)別的基礎(chǔ)，識(shí)別文字需要準(zhǔn)確的文字檢測(cè)定位框。

自然場(chǎng)景圖像中包含的文字可能存在背景干擾或角度扭曲等問題，而教學(xué)視頻中的文字大多數(shù)出現(xiàn)在精心準(zhǔn)備的課件中，不存在角度不正或模糊不清等問題，相比自然場(chǎng)景圖片文字更加清晰易得，因此，教學(xué)視頻中文字檢測(cè)與識(shí)別任務(wù)相比自然場(chǎng)景文字的更簡(jiǎn)單?，F(xiàn)有自然場(chǎng)景視頻文字的檢測(cè)識(shí)別已取得一定成果，可以在現(xiàn)有自然文字的檢測(cè)識(shí)別方法中選擇適合的方法來完成這一任務(wù)。

4.1 文字檢測(cè)

在視頻單幀圖像中檢測(cè)出文字區(qū)域的方法主要分為兩種：基于區(qū)域的方法和基于連接部件的方法，或直接調(diào)用現(xiàn)有OCR 工具來做文字檢測(cè)，由于課件中文字與背景不是單純的白底黑字這樣的情況，采用OCR 工具檢測(cè)文字其會(huì)產(chǎn)生大量的亂碼，準(zhǔn)確率不高。教學(xué)視頻中的文字具有如下特點(diǎn)：文字較多、背景與文字區(qū)別較大干擾較小、同一行文字的字體、顏色、大小相似，其中標(biāo)題文字還具有字體更大更粗更醒目、位置靠上、通常為單行等特點(diǎn)。針對(duì)教學(xué)視頻的標(biāo)題文字特點(diǎn)，選擇基于連接部件的方法更為有效精確?；谶B通部件的方法將圖像中出現(xiàn)文字的連通區(qū)域設(shè)置為候選文字提取區(qū)域，它能檢測(cè)到經(jīng)過變形、調(diào)色、縮放、字體調(diào)整的文字，采用現(xiàn)有方法中的自然場(chǎng)景的文字檢測(cè)算法：最大穩(wěn)定極值區(qū)域方法（Maximally Stable Extremal Regions，MSER）就能較為精確地獲得文字的定位框[4]。該方法具體實(shí)現(xiàn)過程如下：（1）對(duì)文字進(jìn)行區(qū)域塊的提取。（2）對(duì)提取的區(qū)域進(jìn)行連通域分析，求得其最小包含矩形框，合并矩形框，去除明顯的非文字框。（3）進(jìn)一步合并矩形框，得到逐個(gè)文字塊。（4）將文字塊處理成正矩形框，進(jìn)行塊的反白判斷和二值化。（5）對(duì)二值化后的圖像進(jìn)行投影，依據(jù)分析高是否為寬的整數(shù)倍來判定矩形框定的是否為文字塊，從而得到最終結(jié)果。

得到文字塊的集合后還需要進(jìn)一步從中找出標(biāo)題文本區(qū)域，由前述分析可知，標(biāo)題文字較其他文字位置靠上且字體更大，一般字體大小大于35 號(hào)且文字個(gè)數(shù)不少于兩個(gè)字，于是可以設(shè)定標(biāo)題文字的判斷條件為寬大于70，高大于35，且寬高比大于2，從坐標(biāo)位置靠上方的文字塊開始匹配，符合條件的即為標(biāo)題文字框。

4.2 文字識(shí)別

文字檢測(cè)實(shí)現(xiàn)的標(biāo)題文字框準(zhǔn)確的定位，依然是圖像模態(tài)，要通過文字的識(shí)別轉(zhuǎn)為含有語義的文字模態(tài)。文本識(shí)別主要分為兩種策略：?jiǎn)巫肿R(shí)別和多字識(shí)別，單字識(shí)別是將文本行分割成單獨(dú)的文字進(jìn)行識(shí)別，單字識(shí)別主要采用基于卷積神經(jīng)網(wǎng)絡(luò)的分類器來識(shí)別[5]。多字識(shí)別就是對(duì)文本行整體識(shí)別，不需要分割。對(duì)于多字識(shí)別的文本識(shí)別主要采用兩種方法：基于連接主義時(shí)許分類損失函數(shù)的方法和基于注意力機(jī)制的方法。由于需要識(shí)別的教學(xué)視頻標(biāo)題文字清晰醒目，其識(shí)別任務(wù)相對(duì)簡(jiǎn)單，采用基于卷積神經(jīng)網(wǎng)絡(luò)的分類器的單字識(shí)別方法，該方法簡(jiǎn)單易行，準(zhǔn)確率高，對(duì)文本行有很好的識(shí)別效果。分類器具體工作原理如下：（1）基于字符的筆畫寬度對(duì)文字行進(jìn)行分割，得到多個(gè)單獨(dú)的文字框。（2）將這些文字框送入訓(xùn)練好的分類器，分類器包括5 000 類，包括大部分的漢字、英文字母、數(shù)字和符合等，每個(gè)文字框圖最終被分類成對(duì)應(yīng)的文字字符。

5 鏡頭合并

經(jīng)過上述步驟就得到每個(gè)關(guān)鍵幀的標(biāo)題文字信息，將長(zhǎng)教學(xué)視頻分割成多個(gè)具有完整知識(shí)點(diǎn)的視頻片段，依據(jù)是每個(gè)視頻片段包含相同的標(biāo)題且時(shí)間前后連續(xù)，將具有相同標(biāo)題文字的相鄰鏡頭進(jìn)行合并。然而有些關(guān)鍵幀不包含標(biāo)題文字，由于課件一般會(huì)用標(biāo)題來體現(xiàn)知識(shí)主題和學(xué)習(xí)進(jìn)度，沒有更換標(biāo)題代表這個(gè)知識(shí)點(diǎn)的講解還沒結(jié)束，因此在新標(biāo)題出現(xiàn)之前默認(rèn)現(xiàn)在的視頻都屬于前一個(gè)知識(shí)點(diǎn)，將其鏡頭合并到前面的視頻片段中。合并后的視頻片段和標(biāo)題文字對(duì)組成具有完整知識(shí)點(diǎn)的教學(xué)視頻單元，其中文字還可以作為視頻單元的摘要信息，可用于滿足用戶后期瀏覽和檢索視頻的需求[6]。具體算法流程見圖3，設(shè)當(dāng)前視頻單元為V，關(guān)鍵幀為K，標(biāo)題文字為T。

6 結(jié)語

隨著信息技術(shù)的發(fā)展，如何將教學(xué)形式進(jìn)行多樣化，是每個(gè)教學(xué)專家研究的方向之一。而網(wǎng)絡(luò)教學(xué)則給這樣的時(shí)代提供了一種有效、便捷的學(xué)習(xí)方式，在這種學(xué)習(xí)方式中，我們需要對(duì)教學(xué)視頻進(jìn)行很好地研究，以便學(xué)習(xí)者能夠在海量的學(xué)習(xí)視頻中較為精準(zhǔn)地檢索到自己需要的學(xué)習(xí)內(nèi)容。而本文提出了一種多模態(tài)的教學(xué)視頻分割系統(tǒng)框架，能夠有效地為學(xué)習(xí)者進(jìn)行視頻信息的檢索與查找。本文對(duì)其主要步驟進(jìn)行了詳細(xì)的闡述：首先基于直方圖特征將視頻按鏡頭初步分割，然后提取鏡頭關(guān)鍵幀，對(duì)關(guān)鍵幀中課件標(biāo)題文字進(jìn)行檢測(cè)與識(shí)別，最后按標(biāo)題文字相同與否來合并鏡頭，組成有完整知識(shí)點(diǎn)的教學(xué)視頻單元，將標(biāo)題文字作為視頻單元的摘要信息，以便后期用戶的瀏覽和檢索需求。整個(gè)系統(tǒng)框架設(shè)計(jì)簡(jiǎn)單，目標(biāo)明確，將現(xiàn)有方法整合起來，取得了較好的長(zhǎng)視頻語義分割效果，值得在實(shí)際視頻檢索中進(jìn)行應(yīng)用。