亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模態(tài)的教學(xué)視頻分割系統(tǒng)設(shè)計(jì)

        2022-06-01 02:08:02
        信息記錄材料 2022年4期
        關(guān)鍵詞:模態(tài)檢測(cè)教學(xué)

        祁 冰

        (海南工商職業(yè)學(xué)院 海南 ???570228)

        0 引言

        隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,線上教育已成為一種常用的學(xué)習(xí)方式。然而網(wǎng)絡(luò)上現(xiàn)存的大量長(zhǎng)時(shí)間的教學(xué)視頻現(xiàn)狀與當(dāng)今人們簡(jiǎn)單高效的學(xué)習(xí)追求產(chǎn)生了矛盾,短視頻的流行證明了這一點(diǎn),人們渴望高效地獲得知識(shí),在某些有限的條件下只能利用碎片化的時(shí)間或精力,甚至?xí)r長(zhǎng)超過15 min 的教學(xué)視頻就會(huì)不受歡迎,因此產(chǎn)生了將長(zhǎng)教學(xué)視頻按內(nèi)容知識(shí)點(diǎn)來分割成小段視頻單元的需求。

        而想要解決長(zhǎng)教學(xué)視頻分割的問題,直接采用現(xiàn)有的視頻分析方法有如下不足:首先,現(xiàn)有利用深度學(xué)習(xí)技術(shù)的視頻分析方法采用的標(biāo)準(zhǔn)數(shù)據(jù)集都具備明顯的背景環(huán)境、人物、目標(biāo)和動(dòng)作,而教學(xué)視頻除了情境教學(xué)環(huán)節(jié)會(huì)出現(xiàn)這類內(nèi)容,其他部分以教師站在課件或軟件前講解居多,在標(biāo)準(zhǔn)數(shù)據(jù)集中預(yù)訓(xùn)練的現(xiàn)有視頻分析技術(shù)難以提取出代表教學(xué)內(nèi)容的語義特征。其次,同樣由于數(shù)據(jù)集的原因,利用現(xiàn)有視頻文字描述方法更擅長(zhǎng)短視頻文字描述,如:一個(gè)男人在路邊演奏鋼琴。然而教學(xué)視頻往往是長(zhǎng)時(shí)間視頻,內(nèi)容多變,要想提取出其中的文字語義信息,現(xiàn)有方法處理困難,描述準(zhǔn)確率很低。

        1 多模態(tài)視頻分割系統(tǒng)框架的提出

        站在多模態(tài)的角度分析,教學(xué)視頻有其自身特點(diǎn):首先,圖像模態(tài)部分的組成部分較為固定:教師人像、課件畫面、軟件演示畫面或教學(xué)情景視頻;其次,聲音模態(tài)主要組成部分是教師的授課語音,也有較少的背景音和過渡音,其中包括視頻素材的還有素材自帶音頻,然而不是所有教師的語音都是標(biāo)準(zhǔn)的普通話,也并非都與視頻圖像內(nèi)容一一對(duì)應(yīng),數(shù)據(jù)量較大;最后,文字模態(tài)部分主要由貫穿整個(gè)教學(xué)視頻的課件文字組成,由部分教學(xué)視頻配有字幕文字,課件中字體大小一般按標(biāo)題和內(nèi)容分級(jí),標(biāo)題字體更大位置更靠上。

        盡管教學(xué)視頻包含豐富的圖、文、聲、像多模態(tài)的信息,然而針對(duì)視頻按內(nèi)容分割任務(wù)而言,聲音模態(tài)種類少,教學(xué)內(nèi)容的切換與聲音的波動(dòng)與變化沒有顯著聯(lián)系,若將語音轉(zhuǎn)化為文字來提取視頻語義內(nèi)容,需要考慮包括非標(biāo)準(zhǔn)普通話語音識(shí)別成錯(cuò)誤率和信息冗余,而圖像模態(tài)和文字模態(tài)本身包含文字,可以利用圖像模態(tài)和文字模態(tài)作為教學(xué)視頻分割的依據(jù)。隨著深度學(xué)習(xí)的發(fā)展,計(jì)算機(jī)視覺和自然語言處理方法中現(xiàn)有很多優(yōu)秀的圖像和文字處理方法。以某平臺(tái)上《網(wǎng)絡(luò)攻防與協(xié)議分析》課程的教學(xué)視頻為例,本文提出了一種結(jié)合了圖像模態(tài)及文字模態(tài)的視頻分割系統(tǒng)框架,見圖1,先基于直方圖特征將視頻按鏡頭初步分割,提取鏡頭關(guān)鍵幀,對(duì)關(guān)鍵幀中課件標(biāo)題文字進(jìn)行檢測(cè)與識(shí)別,最后按標(biāo)題文字相同與否來合并鏡頭組成有完整知識(shí)點(diǎn)的教學(xué)視頻單元,采用這種框架整合現(xiàn)有方法,取得了較好的長(zhǎng)教學(xué)視頻語義分割效果。

        2 鏡頭分割

        自然場(chǎng)景中的視頻鏡頭切換方式多達(dá)10 種以上,針對(duì)不同的切換方式有多種鏡頭邊界檢測(cè)方法,包括基于運(yùn)動(dòng)、輪廓、直方圖、深度神經(jīng)網(wǎng)絡(luò)的方法等[1]。然而教學(xué)視頻中的切換方法較簡(jiǎn)單,總體分為鏡頭突變和鏡頭漸變兩類,本文選用基于直方圖的方法,處理起來既簡(jiǎn)單又能取得較好的效果。直方圖表示一幅數(shù)字圖像中不同顏色或不同灰度在數(shù)量上占有的比例,可以代表圖像的顏色或灰度分布情況,與顏色在圖像中出現(xiàn)空間位置無關(guān),不同圖像其直方圖及參數(shù)的變化見圖2。

        2.1 鏡頭突變檢測(cè)

        鏡頭突變指兩個(gè)鏡頭直接切換,前后鏡頭沒有交疊過渡,是教學(xué)視頻中常用的切換方式。由于鏡頭的突變切換,會(huì)導(dǎo)致前后視頻幀的差異較大,提取相鄰兩幀的直方圖對(duì)比,設(shè)其相似度低于設(shè)定閾值時(shí),則認(rèn)定這兩幀之間發(fā)生了鏡頭的切換,可以在此處進(jìn)行一次視頻切分。

        2.2 鏡頭漸變檢測(cè)

        鏡頭漸變指前一個(gè)鏡頭的最后幾幀和后一個(gè)鏡頭的前幾幀半透明的交疊在一起,直至后面的鏡頭完全出現(xiàn)。在這個(gè)過程中相鄰幀的差異并不像鏡頭突變的忽然變大,而是從小到大再到小的過程。因此鏡頭漸變的檢測(cè)方法與鏡頭突變不同,依次提取當(dāng)前幀的后一幀直方圖特征與當(dāng)前幀的直方圖特征,計(jì)算其相似度值,當(dāng)出現(xiàn)了相似度值從小于設(shè)定閾值變化到大于閾值、而后又變回小于狀態(tài)的過程,則認(rèn)定這些幀之間發(fā)生了鏡頭的漸變,可以選擇中間幀進(jìn)行一次視頻分割。

        3 提取關(guān)鍵幀

        按鏡頭分割視頻后,得到許多視頻片段,按25 幀/s的視頻標(biāo)準(zhǔn),則已分為單位的視頻片段包含數(shù)量龐大的視頻幀。同一個(gè)鏡頭中,視頻幀之間差別較小,往往低于設(shè)定閾值,相互之間相似性大造成信息冗余,為了降低冗余度,降低數(shù)據(jù)處理工作量,需要將視頻中的有代表性的關(guān)鍵內(nèi)容幀提取出來,得到的一系列的關(guān)鍵幀圖像,即可將視頻模態(tài)的處理轉(zhuǎn)化為圖像模態(tài)的處理。

        關(guān)鍵幀提取的方法主要有基于鏡頭邊界、基于像素直方圖、基于內(nèi)容分析、基于運(yùn)動(dòng)分析和基于聚類的方法等[2]。教學(xué)視頻主要以課件和教師為主要畫面,課件和教師畫面交替出現(xiàn),有時(shí)教師畫面還會(huì)與課件畫面同時(shí)出現(xiàn),然而能代表視頻內(nèi)容的畫面主要來自課件的文字信息,因此視頻分割依據(jù)主要為課件標(biāo)題,理想中的教學(xué)視頻關(guān)鍵幀應(yīng)該包含完整課件標(biāo)題?;诮虒W(xué)視頻的這些特點(diǎn),采用基于像素直方圖的方法更適合提取視頻關(guān)鍵幀?;谙袼刂狈綀D的方法依次取鏡頭中相鄰幀計(jì)算像素值距離,大于設(shè)定閾值的就設(shè)置為關(guān)鍵幀,閾值一般取所有距離的平均值,這種方法更適合視頻幀中課件標(biāo)題位置或文字不變的關(guān)鍵幀提取,其計(jì)算簡(jiǎn)單,且不止一個(gè)關(guān)鍵幀,還可以根據(jù)實(shí)際情況動(dòng)態(tài)地調(diào)整閾值來取得更精確的關(guān)鍵幀,具有更好的靈活性和更高的準(zhǔn)確率。

        基于像素直方圖的方法具體操作分為3 部分:首先提取每個(gè)視頻幀的像素直方圖,即將像素值區(qū)間為橫坐標(biāo)、像素的數(shù)量為縱坐標(biāo)形成的直方圖,依次計(jì)算鏡頭相鄰幀之間的距離,第2 步計(jì)算所有距離的平均值,設(shè)定為閾值,最后依次將各個(gè)距離與閾值相比較,距離大于閾值的兩幀取后一幀作為視頻關(guān)鍵幀。如果獲得的關(guān)鍵幀存在重復(fù)和冗余,調(diào)整閾值直至得到更加準(zhǔn)確的結(jié)果。為了以課件標(biāo)題文字作為視頻分割依據(jù),可以在得到的關(guān)鍵幀中再次通過設(shè)置閾值,去除掉單獨(dú)教師畫面和情景教學(xué)畫面的關(guān)鍵幀,僅保留包含課件畫面的關(guān)鍵幀。

        4 文字檢測(cè)與識(shí)別

        在上一步中得到了包含課件畫面的各個(gè)鏡頭提取的關(guān)鍵幀,現(xiàn)在要將這些關(guān)鍵幀中的文字提取出來,為后期的鏡頭合并提供依據(jù),這一步將前期圖像模態(tài)的處理轉(zhuǎn)化為文字模態(tài)的處理[3]。文字檢測(cè)與識(shí)別一直是計(jì)算機(jī)視覺領(lǐng)域研究的重要問題,文字檢測(cè)是指運(yùn)用文字檢測(cè)算法檢測(cè)輸入圖像中是否含有文字,若檢測(cè)到文字,還需定位文字出現(xiàn)在圖片中的位置;文字識(shí)別即運(yùn)用文字識(shí)別算法對(duì)輸入圖片中的文字區(qū)域進(jìn)行識(shí)別。文字檢測(cè)是文字識(shí)別的基礎(chǔ),識(shí)別文字需要準(zhǔn)確的文字檢測(cè)定位框。

        自然場(chǎng)景圖像中包含的文字可能存在背景干擾或角度扭曲等問題,而教學(xué)視頻中的文字大多數(shù)出現(xiàn)在精心準(zhǔn)備的課件中,不存在角度不正或模糊不清等問題,相比自然場(chǎng)景圖片文字更加清晰易得,因此,教學(xué)視頻中文字檢測(cè)與識(shí)別任務(wù)相比自然場(chǎng)景文字的更簡(jiǎn)單?,F(xiàn)有自然場(chǎng)景視頻文字的檢測(cè)識(shí)別已取得一定成果,可以在現(xiàn)有自然文字的檢測(cè)識(shí)別方法中選擇適合的方法來完成這一任務(wù)。

        4.1 文字檢測(cè)

        在視頻單幀圖像中檢測(cè)出文字區(qū)域的方法主要分為兩種:基于區(qū)域的方法和基于連接部件的方法,或直接調(diào)用現(xiàn)有OCR 工具來做文字檢測(cè),由于課件中文字與背景不是單純的白底黑字這樣的情況,采用OCR 工具檢測(cè)文字其會(huì)產(chǎn)生大量的亂碼,準(zhǔn)確率不高。教學(xué)視頻中的文字具有如下特點(diǎn):文字較多、背景與文字區(qū)別較大干擾較小、同一行文字的字體、顏色、大小相似,其中標(biāo)題文字還具有字體更大更粗更醒目、位置靠上、通常為單行等特點(diǎn)。針對(duì)教學(xué)視頻的標(biāo)題文字特點(diǎn),選擇基于連接部件的方法更為有效精確?;谶B通部件的方法將圖像中出現(xiàn)文字的連通區(qū)域設(shè)置為候選文字提取區(qū)域,它能檢測(cè)到經(jīng)過變形、調(diào)色、縮放、字體調(diào)整的文字,采用現(xiàn)有方法中的自然場(chǎng)景的文字檢測(cè)算法:最大穩(wěn)定極值區(qū)域方法(Maximally Stable Extremal Regions,MSER)就能較為精確地獲得文字的定位框[4]。該方法具體實(shí)現(xiàn)過程如下:(1)對(duì)文字進(jìn)行區(qū)域塊的提取。(2)對(duì)提取的區(qū)域進(jìn)行連通域分析,求得其最小包含矩形框,合并矩形框,去除明顯的非文字框。(3)進(jìn)一步合并矩形框,得到逐個(gè)文字塊。(4)將文字塊處理成正矩形框,進(jìn)行塊的反白判斷和二值化。(5)對(duì)二值化后的圖像進(jìn)行投影,依據(jù)分析高是否為寬的整數(shù)倍來判定矩形框定的是否為文字塊,從而得到最終結(jié)果。

        得到文字塊的集合后還需要進(jìn)一步從中找出標(biāo)題文本區(qū)域,由前述分析可知,標(biāo)題文字較其他文字位置靠上且字體更大,一般字體大小大于35 號(hào)且文字個(gè)數(shù)不少于兩個(gè)字,于是可以設(shè)定標(biāo)題文字的判斷條件為寬大于70,高大于35,且寬高比大于2,從坐標(biāo)位置靠上方的文字塊開始匹配,符合條件的即為標(biāo)題文字框。

        4.2 文字識(shí)別

        文字檢測(cè)實(shí)現(xiàn)的標(biāo)題文字框準(zhǔn)確的定位,依然是圖像模態(tài),要通過文字的識(shí)別轉(zhuǎn)為含有語義的文字模態(tài)。文本識(shí)別主要分為兩種策略:?jiǎn)巫肿R(shí)別和多字識(shí)別,單字識(shí)別是將文本行分割成單獨(dú)的文字進(jìn)行識(shí)別,單字識(shí)別主要采用基于卷積神經(jīng)網(wǎng)絡(luò)的分類器來識(shí)別[5]。多字識(shí)別就是對(duì)文本行整體識(shí)別,不需要分割。對(duì)于多字識(shí)別的文本識(shí)別主要采用兩種方法:基于連接主義時(shí)許分類損失函數(shù)的方法和基于注意力機(jī)制的方法。由于需要識(shí)別的教學(xué)視頻標(biāo)題文字清晰醒目,其識(shí)別任務(wù)相對(duì)簡(jiǎn)單,采用基于卷積神經(jīng)網(wǎng)絡(luò)的分類器的單字識(shí)別方法,該方法簡(jiǎn)單易行,準(zhǔn)確率高,對(duì)文本行有很好的識(shí)別效果。分類器具體工作原理如下:(1)基于字符的筆畫寬度對(duì)文字行進(jìn)行分割,得到多個(gè)單獨(dú)的文字框。(2)將這些文字框送入訓(xùn)練好的分類器,分類器包括5 000 類,包括大部分的漢字、英文字母、數(shù)字和符合等,每個(gè)文字框圖最終被分類成對(duì)應(yīng)的文字字符。

        5 鏡頭合并

        經(jīng)過上述步驟就得到每個(gè)關(guān)鍵幀的標(biāo)題文字信息,將長(zhǎng)教學(xué)視頻分割成多個(gè)具有完整知識(shí)點(diǎn)的視頻片段,依據(jù)是每個(gè)視頻片段包含相同的標(biāo)題且時(shí)間前后連續(xù),將具有相同標(biāo)題文字的相鄰鏡頭進(jìn)行合并。然而有些關(guān)鍵幀不包含標(biāo)題文字,由于課件一般會(huì)用標(biāo)題來體現(xiàn)知識(shí)主題和學(xué)習(xí)進(jìn)度,沒有更換標(biāo)題代表這個(gè)知識(shí)點(diǎn)的講解還沒結(jié)束,因此在新標(biāo)題出現(xiàn)之前默認(rèn)現(xiàn)在的視頻都屬于前一個(gè)知識(shí)點(diǎn),將其鏡頭合并到前面的視頻片段中。合并后的視頻片段和標(biāo)題文字對(duì)組成具有完整知識(shí)點(diǎn)的教學(xué)視頻單元,其中文字還可以作為視頻單元的摘要信息,可用于滿足用戶后期瀏覽和檢索視頻的需求[6]。具體算法流程見圖3,設(shè)當(dāng)前視頻單元為V,關(guān)鍵幀為K,標(biāo)題文字為T。

        6 結(jié)語

        隨著信息技術(shù)的發(fā)展,如何將教學(xué)形式進(jìn)行多樣化,是每個(gè)教學(xué)專家研究的方向之一。而網(wǎng)絡(luò)教學(xué)則給這樣的時(shí)代提供了一種有效、便捷的學(xué)習(xí)方式,在這種學(xué)習(xí)方式中,我們需要對(duì)教學(xué)視頻進(jìn)行很好地研究,以便學(xué)習(xí)者能夠在海量的學(xué)習(xí)視頻中較為精準(zhǔn)地檢索到自己需要的學(xué)習(xí)內(nèi)容。而本文提出了一種多模態(tài)的教學(xué)視頻分割系統(tǒng)框架,能夠有效地為學(xué)習(xí)者進(jìn)行視頻信息的檢索與查找。本文對(duì)其主要步驟進(jìn)行了詳細(xì)的闡述:首先基于直方圖特征將視頻按鏡頭初步分割,然后提取鏡頭關(guān)鍵幀,對(duì)關(guān)鍵幀中課件標(biāo)題文字進(jìn)行檢測(cè)與識(shí)別,最后按標(biāo)題文字相同與否來合并鏡頭,組成有完整知識(shí)點(diǎn)的教學(xué)視頻單元,將標(biāo)題文字作為視頻單元的摘要信息,以便后期用戶的瀏覽和檢索需求。整個(gè)系統(tǒng)框架設(shè)計(jì)簡(jiǎn)單,目標(biāo)明確,將現(xiàn)有方法整合起來,取得了較好的長(zhǎng)視頻語義分割效果,值得在實(shí)際視頻檢索中進(jìn)行應(yīng)用。

        猜你喜歡
        模態(tài)檢測(cè)教學(xué)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        微課讓高中數(shù)學(xué)教學(xué)更高效
        甘肅教育(2020年14期)2020-09-11 07:57:50
        “自我診斷表”在高中數(shù)學(xué)教學(xué)中的應(yīng)用
        東方教育(2017年19期)2017-12-05 15:14:48
        對(duì)外漢語教學(xué)中“想”和“要”的比較
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        av无码小缝喷白浆在线观看| 欧美日韩国产在线人成dvd| 丰满人妻无套内射视频| 成年人一区二区三区在线观看视频| 国产亚洲美女精品久久久2020 | 亚洲最大水蜜桃在线观看| 琪琪的色原网站| 樱花AV在线无码| 一区两区三区视频在线观看| 日韩精品一区二区在线天天狠天| 人妻无码一区二区视频| 99国产超薄丝袜足j在线播放| 精品国精品自拍自在线| 国产亚洲成人av一区| 毛多水多www偷窥小便| 午夜无码一区二区三区在线| 五十路一区二区中文字幕| 男女性杂交内射女bbwxz| 国产亚洲情侣一区二区无 | 一区二区三区在线免费av| 在线观看国产成人av天堂野外| 免费拍拍拍网站| 亚洲不卡无码高清视频| 精品女人一区二区三区| 亚洲欧洲国产码专区在线观看| 人妻少妇av无码一区二区 | 国产一区二区精品久久岳| 国产人妻无码一区二区三区免费| 国产成人自产拍免费视频| 亚洲av综合色一区二区| 我把护士日出水了视频90分钟| 国产亚洲欧美日韩综合综合二区| 久久精品国产亚洲av成人网| 成人无码av免费网站| 拍摄av现场失控高潮数次| 国产一级片内射在线视频| 亚洲三级视频一区二区三区| 伊人久久大香线蕉av一区| 精品国产高清a毛片| 日本一区二区三区熟女俱乐部| 狠狠综合久久av一区二区|