徐迎春,豐洪才,劉 立
(1.武漢市氣象臺;2.武漢輕工大學網(wǎng)絡與信息中心;3.武漢市東西湖職業(yè)技術(shù)學校信息技術(shù)系,湖北武漢 430023)
農(nóng)業(yè)被認為是人類的“母親產(chǎn)業(yè)”,而我國傳統(tǒng)農(nóng)業(yè)大多都是依靠經(jīng)驗進行種植的,且各地自然條件復雜多變,很多農(nóng)民依然需要靠天吃飯,尤其缺乏專業(yè)化、系統(tǒng)化的培訓。此種形勢輕則影響糧食產(chǎn)量,重則危害生態(tài)與社會安全[1]。氣象災害對于農(nóng)業(yè)生產(chǎn)會造成重要影響。在鄉(xiāng)村振興的背景下,新媒體開啟了新時代的農(nóng)村發(fā)展之路,其在信息傳播等方面的優(yōu)勢顯得尤為突出[2]。目前許多網(wǎng)絡平臺為農(nóng)業(yè)從業(yè)者免費提供氣象科普視頻,氣象科普視頻的發(fā)展是國家防災減災政策引導的結(jié)果。借助視頻推廣農(nóng)業(yè)氣象知識,可讓農(nóng)戶了解氣象與農(nóng)事的關(guān)系,從而掌握不同類型氣象災害的應對方法,以適應現(xiàn)代農(nóng)業(yè)發(fā)展的需要、降低務農(nóng)風險,從而獲得更好的經(jīng)濟效益[3]。但現(xiàn)有的農(nóng)業(yè)氣象科普視頻種類繁多,且很多內(nèi)容冗長,農(nóng)民很難快速找到自己需要的內(nèi)容。因此,了解農(nóng)民用戶的個性化需求,并利用先進的視頻分割技術(shù)幫助其快速獲取信息,是當代技術(shù)人員的奮斗方向。
在農(nóng)業(yè)生產(chǎn)過程中,氣象災害的影響尤為突出,因此廣大農(nóng)民用戶有必要學習氣象災害防治知識,以便掌握相應防護措施,保障農(nóng)業(yè)生產(chǎn)穩(wěn)步進行。但如何高效地對海量農(nóng)業(yè)氣象科普視頻進行組織、表達、存儲和管理,提高農(nóng)業(yè)氣象科普視頻檢索效率,同時幫助農(nóng)民朋友找出視頻中感興趣的鏡頭,促進其更充分地利用農(nóng)業(yè)氣象科普視頻,從而推動農(nóng)業(yè)信息化的發(fā)展,是亟需解決的難題。
一個完整的視頻由幀、鏡頭、場景等組成,鏡頭是視頻的基本組成單位,也是視頻的最小語義單元,其包含一次連續(xù)拍攝的幀序列。開始幀號、幀數(shù)量、結(jié)束幀號等是鏡頭屬性。在結(jié)構(gòu)化的視頻流中對鏡頭邊界進行檢測是許多視頻后續(xù)處理的基礎[4],在同一組鏡頭內(nèi)視頻幀的特征保持穩(wěn)定,而一旦相鄰的圖像幀特征出現(xiàn)明顯變化,即可判斷鏡頭發(fā)生了變化,而發(fā)生變化的幀就是鏡頭分割點。視頻序列中兩個不同鏡頭間的銜接點稱為分割點。視頻中鏡頭的變化主要分為突變和漸變兩種。突變(切變)是視頻中最常見的鏡頭轉(zhuǎn)換方式,是指一個鏡頭沒有使用任何編輯手段直接切換到下一個鏡頭,該過程一般在兩幀之間完成。漸變(緩變)是指鏡頭之間通過某種過渡方式,從一個鏡頭逐漸切換到另一個鏡頭,該變化過程可能在幾幀或幾十幀之間完成。漸變鏡頭邊界又可劃分成溶解、淡入淡出、擦變等。
鏡頭邊界檢測是基于內(nèi)容的視頻分析檢索(Content Based Video Retrieval,CBVR)的關(guān)鍵和基礎[5],其研究與應用一直受到人們關(guān)注。曾凡鋒等[6]提出一種基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)的漸變鏡頭檢測方法,該方法首先使用深度神經(jīng)網(wǎng)絡技術(shù)提取特征,然后將特征融入幀間差得到初選視頻鏡頭序列,最后運用循環(huán)神經(jīng)網(wǎng)絡技術(shù)進行二次復檢,通過雙重檢驗的方式進一步提高視頻鏡頭邊界的檢測精度;王瑞佳等[7]提出一種基于改進互信息量的鏡頭檢測算法,該算法通過定位視頻中的字幕區(qū)域,計算非四角區(qū)域的HSV 直方圖信息量差異度;來毅等[8]通過融合空間差異度和感知哈希度量構(gòu)建一種鏡頭邊界特征,再結(jié)合直方圖差異度,判斷鏡頭是否發(fā)生了切換;Chakraborty 等[9]提出一種將梯度與顏色相結(jié)合的鏡頭邊界檢測技術(shù),該技術(shù)通過計算梯度相似度和亮度失真,以測量包括亮度變化在內(nèi)的每一幀對比度和結(jié)構(gòu)變化,從而判斷鏡頭是否發(fā)生了轉(zhuǎn)變。
以上方法大多針對綜合平臺,或面向特定場景,但并未涉及針對農(nóng)業(yè)氣象科普視頻的鏡頭分割方法。本文針對農(nóng)業(yè)氣象科普視頻的特點,設計了一種雙重檢驗模型,將冗長的農(nóng)業(yè)氣象科普視頻鏡頭進行分割。該算法可滿足農(nóng)民個性化的信息需求,提高農(nóng)民對農(nóng)業(yè)氣象知識的檢索效率,從而推進農(nóng)業(yè)氣象科普事業(yè)的發(fā)展,因此具有重要的研究意義。
氣象科普視頻的選題、拍攝內(nèi)容及拍攝角度都是經(jīng)過精心策劃的,視頻畫面生動形象,內(nèi)容清晰明了、通俗易懂,且傳播速度快、覆蓋面廣。其具有以下特點:
(1)農(nóng)業(yè)氣象科普視頻的鏡頭變化以突變?yōu)橹?,但也存在視頻鏡頭漸變的現(xiàn)象,在視頻鏡頭邊界的檢測方案中,兩種變化都需要考慮。
(2)在農(nóng)業(yè)氣象科普視頻節(jié)目中,通常以一種天氣現(xiàn)象為主(如暴雨、雷電、大風、強對流天氣等),講述此種天氣現(xiàn)象形成過程、發(fā)生時的表現(xiàn)形式以及帶來的危害,最后提出應對措施。這類視頻節(jié)目具有較強的邏輯性、科普性。
本文針對農(nóng)業(yè)氣象視頻的特點,提出一種基于雙重檢驗模型(初檢和復檢)的農(nóng)業(yè)氣象鏡頭分割算法。初檢階段利用等面積矩形環(huán)方法提取視頻流的顏色特征,突出每一幀圖像的主體內(nèi)容。為避免人工設定閾值,采用自適應雙閾值方法對鏡頭進行初次檢測。復檢階段采用改進的sobel-sift 算法對初次檢測的結(jié)果再次進行檢測,從而進一步提高準確率,如圖1所示。
Fig.1 Dual detection model圖1 雙重檢測模型
視頻具有靜態(tài)特性和動態(tài)特性,靜態(tài)特性是指圖像幀的原始屬性,主要是由顏色、紋理、形狀大小等視覺特征來體現(xiàn)的。通過分析視頻的靜態(tài)特征,可提取出區(qū)別于其他視頻幀的特征。動態(tài)特征是視頻獨有的屬性,主要是由視頻中的物體或攝像機的運動引起的,反映了視頻動態(tài)的時域變化。
特征提取是指對視頻特征屬性進行數(shù)值化處理,通常是利用一些簡單的值或矩陣(數(shù)值)來識別視頻。顏色特征作為一種全局特征,是視頻圖像的重要屬性之一[10]。彩色圖像的表示與所采用的彩色模型有關(guān),同一幅彩色圖像如果采用不同的彩色模型(顏色空間)加以表示,對其的描述可能會有很大不同。常用的顏色空間有RGB(紅red、綠green、藍blue)、CMY(青色cyan、品紅magenta、黃色yellow)、HSV(色調(diào)hue、飽和度saturation、亮度value)等。
HSV 顏色空間包含3 個通道,且各個通道可獨立感知各種顏色分量的變化。HSV 空間有兩個重要特點:①人眼能獨立感知該空間各顏色分量的變化;②在HSV 顏色空間中,顏色三元組之間的歐式距離與人眼感覺到的相應顏色差具有線性關(guān)系,且符合人類的視覺特性[11]。但在現(xiàn)實生活中,人們?nèi)庋鬯芸吹降念伾蒖GB 3 種基本顏色構(gòu)成,因此需要進行顏色空間的轉(zhuǎn)換。
設定RGB 顏色空間中的值(r,g,b),r,g,b∈[0,255],設v′=max(r,g,b),定義r′、g′、b′為:
則RGB 空間到HSV 空間的轉(zhuǎn)換為:
對HSV 顏色空間進行非均勻量化,不但能夠表達圖像內(nèi)容,而且能有效降低高維數(shù)據(jù)計算量。本文采用劉華詠等[12]提出的等面積矩形環(huán)量化HSV 顏色特征,先按照式(4)將3 個顏色分量轉(zhuǎn)換為1 個分量,從而將視頻圖像的顏色劃分為36個等級。
根據(jù)心理學研究表明,人的注意力主要集中在圖像中心部分。顏色直方圖只對視頻圖像的顏色進行統(tǒng)計,而忽略了顏色的空間分布信息。傳統(tǒng)分塊方法是將幀圖像平均分成a×b 塊,而沒有突出幀圖像的中心主體部分。本文采用一種基于等面積矩形環(huán)的劃分方法,突出視頻圖像的中心內(nèi)容,排除了視頻圖像中其他無關(guān)內(nèi)容的干擾,即在矩形環(huán)上進行顏色特征提取,步驟如下:
Step1:確定每一幀圖像的中心點O,按等面積矩形環(huán)分塊原則,計算以O為中心的每個矩形環(huán)的邊長m、n。假設從中心開始向外,依次標記出每個矩形環(huán)(R1,R2,…,Rn),如圖2所示。
Fig.2 Equal area rectangular ring圖2 等面積矩形環(huán)
則劃分后每個矩形環(huán)的邊長為:
式中,a、b為幀圖像的邊長,n為劃分的矩形環(huán)數(shù)。
Step2:對于每一幀圖像按照上述方法提取36個維度的顏色直方圖特征,中心由內(nèi)向外依次標記為Li(i=1,2,…,n)。
Step3:對每一幀圖像的矩形環(huán)賦予不同權(quán)重值ωi,目的為在突出圖像主體部分的同時,減弱邊緣部分帶來的影響,且各權(quán)重值大小按照幀圖像中心點由內(nèi)向外的順序依次減小。
式中,n為劃分的矩形環(huán)數(shù)。
Step4:利用式(7)得到幀圖像特征向量F:
式中,F(xiàn)為從視頻幀中提取的36維顏色特征向量。
Step5:計算幀間差Dij:
式中,F(xiàn)i,k、Fj,k分別表示第i 幀和第j 幀在第k 維的特征值。
鏡頭是視頻的基本組成單位,也是視頻的最小語義單元,包含了一次連續(xù)拍攝的幀序列[5]。視頻鏡頭分割的主要目標是檢測出鏡頭邊緣,將一段視頻分割成若干個獨立鏡頭,這也是CBVR 的基礎技術(shù)和關(guān)鍵步驟?;阽R頭的視頻分割是利用鏡頭之間的明顯特征差異確定鏡頭邊界,如果某相鄰兩幀的差異度超出了設定閾值,則說明鏡頭發(fā)生了變化,下一個視頻幀屬于新鏡頭,否則屬于同一個鏡頭。視頻鏡頭發(fā)生突變時,幀間差異值較大,表現(xiàn)明顯;而若是漸變,幀間差異值沒有突變那么大,所以如何找到漸變的起始點成為鏡頭檢測研究的重點。目前,學者們對鏡頭突變檢測的研究已經(jīng)取得了不錯的成果,而針對鏡頭漸變的檢測一直以來都是視頻分割的難點所在。
很多學者在該領域進行了大量研究工作,其中最具代表性是雙閾值法。雙閾值法雖然能同時檢測鏡頭突變和漸變,但此方法采用的是全局固定閾值,易導致鏡頭漸變起始點與結(jié)束點的誤判。此外,采用全局閾值的鏡頭檢測方法普適性差,不同視頻的閾值不一定相同,極易導致檢測性能不穩(wěn)定[13]。為了改進閾值不易確定的問題,本文采用全局閾值與局部閾值相結(jié)合的方法進行鏡頭檢測,以提高檢測精度。具體流程如下:
高閾值為:
低閾值為:
在式(9)中,取一個長度為w 的滑動窗口,avg 為滑動窗口w 內(nèi)的平均幀間差,Dij表示某兩幀之間顏色的幀間差。在式(10)-式(11)中,α和β 為修正參數(shù),當Dij>TH 時,即當某兩幀的幀間差大于高閾值時,則判定第i 幀與第j 幀之間發(fā)生了鏡頭突變;當TL <Dij<TH 時,即當某兩幀的幀間差落在高低閾值之間時,則判定第i 幀為漸變的起始幀,然后計算第i 幀與之后每一幀(i+1,i+2……)的累計幀間差,直到出現(xiàn)第j 幀的累計幀間差大于高閾值時,則第i+j 幀為漸變過程的結(jié)束幀。為避免初檢階段鏡頭分得過細或分割不夠的結(jié)果,本文采用經(jīng)驗值α為5,β為3。
1.3.1 sift算法
尺度不變特征變換(scale-invariant feature transform,sift)可幫助定位圖像中的局部特征,其對于圖像的尺度和旋轉(zhuǎn)能夠保持不變性,對于視頻圖像噪聲和拍攝視角的微小變化也能保持一定的穩(wěn)定性與魯棒性[14]。
1.3.2 多方向模板sobel算子
sobel 算子是一種將方向差分運算與局部平均相結(jié)合的方法。sobel算子認為,鄰域像素對當前像素的影響不是等價的,距離不同的像素具有不同權(quán)值。一般來說,距離越近,產(chǎn)生的影響越大,反之亦然。但傳統(tǒng)的sobel 算子只包含水平和垂直兩個方向的模板,為更精準地提取圖像邊緣信息,本文采用李備備等[15]提出的多方向模板提取sobel 算子,此方法在原始的sobel 方向模板上,按逆時針旋轉(zhuǎn),每隔30 度增加一個模板,由此可得到12 個模板,并按各方向模板梯度求和,通過此種改進提高了sobel 算子的魯棒性。多方向模板的sobel算子示意圖如圖3所示。
Fig.3 Schematic diagram of the sobel operator of the multi-directional template圖3 多方向模板的sobel算子示意圖
圖3(a)是原始的sobel 算子模板,將此模板依次按逆時針旋轉(zhuǎn)30°,即可得到12 個方向模板。通過該操作完善了視頻幀各個方向的邊緣信息,彌補了傳統(tǒng)sobel 算子對于方向信息缺失的問題,同時擴展后的模板可提高視頻幀邊緣的檢測精度。
為更好地細化視頻幀邊緣信息,需要對12 個方向模板進行加權(quán)求和,如式(12)所示:
以MP4 格式視頻為例,輸入一段視頻序列V,設該視頻序列包含N 個視頻幀。首先,利用式(1)-式(3)將每一幀視頻圖像從RGB 顏色空間轉(zhuǎn)化為HSV 顏色空間,用式(4)將HSV 的3 個顏色分量轉(zhuǎn)換為1 個分量,從而將視頻幀的顏色劃分為36 個等級;然后,根據(jù)式(5)-式(7)對每個視頻幀按等面積環(huán)進行不均勻分塊,并結(jié)合式(8)計算出第i 幀與第j 幀之間的幀間差;最后,采用局部滑動窗口法實現(xiàn)鏡頭檢測,改善了全局閾值法的短板,進而獲得初次檢測的漸變鏡頭序列g(shù)rab、切變鏡頭序列cut。
為提高鏡頭檢測精度,本文采用改進sift 特征匹配的視頻鏡頭邊緣復檢算法,具體流程如下:
Step1:提取圖像幀邊緣信息。將初次得到的鏡頭序列進行灰度化處理(見式(13)-式(14)),灰度化是指替彩色圖像的R、G、B 3 個分量找到一個合適、等效的值,以便將其轉(zhuǎn)化為灰度圖像的過程。假設彩色圖像的三基色分量分別表示為R0、G0和B0,經(jīng)過灰度化處理后所得的灰度值為Gnew,根據(jù)原始彩色圖像中RGB 3 種顏色分量的相對重要性或其他指標,賦予三分量不同的權(quán)值,并取其加權(quán)平均值作為灰度化圖像的灰度值。計算公式為:
其中,WR、WG、WB分別代表R、B、G 的權(quán)重值。
實驗結(jié)果證明,當WR=0.299,WG=0.587,WB=0.114時,所得到的灰度圖像比較合適。用公式表示為:
Step2:提取視頻幀的sift 特征。采用多方向模板的sobel算子(見式(12))提取圖像幀的邊緣信息。sift特征提取流程如圖4所示。
Step3:基于sift算法的圖像匹配,將初檢得到的視頻序列集合進行二次復檢,即比較初次提取某一鏡頭序列首尾幀sift特征點的匹配變化情況[16]。假設該鏡頭第一幀匹配的特征點數(shù)為m,最后一幀匹配的特征點數(shù)為n,如果m 與n 相差很大,說明存在鏡頭邊界,否則進行sift 特征點匹配。假設s 為匹配點數(shù),計算第i 幀與第i+1 幀的sift 特征匹配率為:
若Rm<2%,則說明第i 幀與第i+1 幀之間存在鏡頭邊界,反之亦然,可將其從初檢序列剔除。按此方法依次檢測在初檢過程中所提取的鏡頭集合cut 和grab 中的幀,并剔除匹配率低于2%的視頻鏡頭序列,如圖5所示。
Step4:輸出二次復檢后的鏡頭集合cut′和grab′。
實驗視頻素材來源于云上智農(nóng),云上智農(nóng)是國內(nèi)領先的農(nóng)業(yè)教育服務平臺(實驗素材見圖6),擁有最新的農(nóng)業(yè)技能在線培訓課程,同時也發(fā)布了有關(guān)農(nóng)業(yè)知識的科普文章和視頻。該平臺在農(nóng)業(yè)領域具有一定影響力。
Fig.4 Flow of sift feature extraction圖4 sift特征提取流程
Fig.5 Recheck based on improved sift algorithm圖5 基于改進sift算法的復檢
Fig.6 Experimental material display圖6 實驗素材展示
美國國家標準與技術(shù)研究院為鏡頭邊界檢測給出了一種標準的估計方案,主要以鏡頭變換的查全率(Recall)和查準率(Precision)兩個評價指標來檢驗視頻鏡頭邊界的檢測結(jié)果,定義如下:
采用配置為i7 芯片、32GB 內(nèi)存、1TB 固態(tài)硬盤的電腦進行實驗,并采用MATLAB2019a 仿真軟件對3 段視頻進行鏡頭邊界檢測的仿真實驗,結(jié)果如表1、表2 和圖7-圖9所示。
Table 1 Analysis of experimental results表1 實驗結(jié)果分析
Table 2 Comparative experiment with other literatures表2 與其他文獻對比實驗 %
Fig.7 Lens gradient effect display圖7 鏡頭漸變效果展示
以上實驗結(jié)果表明,該算法對于鏡頭切變的檢測效果較好,3 段視頻切變的查全率分別為94.2%、89.3%、92.2%,查準率分別為91.7%、92.6%、94.0%。由于視頻漸變種類較多,因而加大了鏡頭檢測難度,因此本文算法對于鏡頭的漸變檢測效果較為一般,其中平均查準率為84.03%,平均查全率為88.13%。本文算法與雙閾值法相比,檢測效果有所提升,其原因為經(jīng)過sobel-sift 復檢進一步提高了鏡頭檢測精度。本文算法與文獻[16]的算法相比,因為文獻[16]的算法采用sift 提取每一幀圖像特征,而提取sift 點的過程復雜,需要花費大量時間,因此該算法并不適合直接應用于視頻這類數(shù)據(jù)量大的場景。從圖7 可以看出,同一組鏡頭畫面具有極高的相似性,每一幀圖像的變化很小。圖8 展示了從閃電鏡頭畫面逐漸切換到下一個介紹暴雨的鏡頭畫面,圖9 展示了暴雨科普視頻經(jīng)過鏡頭分割后的部分鏡頭畫面。
本文在現(xiàn)有視頻分割算法的基礎上,結(jié)合農(nóng)業(yè)氣象科普視頻的特點,將先進的視頻分割技術(shù)應用于農(nóng)業(yè)氣象科普視頻中,運用一種雙重檢驗方式。實驗結(jié)果表明,該算法較好地實現(xiàn)了農(nóng)業(yè)氣象科普視頻分割,減少了鏡頭的漏檢數(shù)和誤檢數(shù),平均查全率為88.13%,平均查準率為84.03%。本文立足于農(nóng)民對氣象科普視頻的需求,創(chuàng)新性地融合視頻的內(nèi)容和表現(xiàn)形式,充分發(fā)揮視頻傳播速度快、覆蓋面廣、表現(xiàn)形式多樣化的特點。本文算法滿足了農(nóng)民個性化與專業(yè)化的檢索需求,提升了農(nóng)民對農(nóng)業(yè)氣象科普視頻的利用率,同時也促進了多媒體技術(shù)與氣象科普工作的融合。在可預見的未來,基于內(nèi)容的視頻檢索技術(shù)還將為氣象科普事業(yè)的發(fā)展提供更多新思路和新方法,從而不斷提升農(nóng)業(yè)氣象科普的社會影響力。
Fig.8 Lens switching effect display圖8 鏡頭切換效果展示
Fig.9 Partial lens segmentation effect display圖9 部分鏡頭分割效果展示