亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        小視頻內(nèi)容分析技術(shù)發(fā)展探討

        2021-11-28 08:54:17薛向陽李斌
        中興通訊技術(shù) 2021年1期
        關(guān)鍵詞:小視頻

        薛向陽 李斌

        摘要:小視頻數(shù)量呈爆炸式增長態(tài)勢,并引發(fā)了許多技術(shù)需求,包括小視頻的編輯、搜索、推薦、溯源、審查和監(jiān)管等。介紹了小視頻數(shù)據(jù)的主要特點和小視頻內(nèi)容分析技術(shù)面臨的挑戰(zhàn),并對目標(biāo)檢測、追蹤、重識別等小視頻內(nèi)容分析技術(shù)的研究進(jìn)展做了綜合分析。認(rèn)為只有構(gòu)建一個整合多種不同算法的系統(tǒng),才能夠更準(zhǔn)確、更魯棒地解決分析問題,才能系統(tǒng)性地完成小視頻內(nèi)容分析任務(wù)。

        關(guān)鍵詞:小視頻;內(nèi)容分析技術(shù);視頻目標(biāo)檢測;多目標(biāo)追蹤;人物重識別

        Abstract: The number of short videos has increased explosively, which has led to more technical requirements, such as editing, searching, recommendation, sourcing, censoring, and monitoring of short videos. The main features of short video data and the challenges faced by the short video content analysis technology are introduced. The research progress of short video content analysis technologies such as object detection, tracking, and re-identification is comprehensively analyzed. It is considered that only by building a system that integrates multiple algorithms, can the analysis problems be solved more accurately and robustly, and the short video content analysis task can be completed systematically.

        Keywords: short video; content analysis technology; video object detection; multi-object tracking; person re-identification

        1 小視頻數(shù)據(jù)類型與特點

        1.1小視頻數(shù)據(jù)類型

        隨著抖音、快手、騰訊微視、西瓜視頻等小視頻應(yīng)用平臺的興起,小視頻已經(jīng)隨處可見。在激烈的競爭下,市場上涌現(xiàn)出了不同類別的小視頻內(nèi)容。

        (1)社交生活類

        以快手、抖音、騰訊微視等為代表的應(yīng)用平臺,鼓勵用戶拍攝、制作、上傳小視頻,分享自己的生活點滴,這方便了用戶拓寬自己的社交范圍。此類小視頻主題多為生活記錄,如拍攝寵物、烹飪、服飾等。通過分享生活點滴,用戶可以找到與自己趣味相投的朋友,拓寬社交圈。

        (2)內(nèi)容服務(wù)類

        以西瓜視頻、梨視頻為代表的應(yīng)用平臺,依靠大數(shù)據(jù)分析為用戶提供精準(zhǔn)內(nèi)容服務(wù),如感興趣的話題、認(rèn)識的朋友、關(guān)心的產(chǎn)品等。此類小視頻主題多為行業(yè)熱點資訊、育兒經(jīng)驗或家教信息、“雙十一”優(yōu)惠活動等。

        (3)剪輯技術(shù)類

        以小咖秀等為代表的應(yīng)用平臺,為對視頻制作感興趣的用戶提供制片剪輯等功能,使用戶以更靈活幽默的方式記錄自己的生活。此類小視頻主題多為宣傳視頻、紀(jì)念視頻、情景短劇以及其他具有特殊意義的視頻(如高考加油視頻)等。

        1.2小視頻數(shù)據(jù)特點

        小視頻數(shù)據(jù)除了具有規(guī)模海量這一特點之外,其余還包括類型繁多、特效復(fù)雜、姿態(tài)多變等。

        (1)類型繁多

        類型繁多是小視頻數(shù)據(jù)的一大特點。小視頻數(shù)據(jù)包含的物體類別為開集,除人物之外,還涵蓋寵物、電子產(chǎn)品、音樂器材、體育用品等。此外,與圖像數(shù)據(jù)集(ImageNet)[1]的1 000類和目標(biāo)檢測數(shù)據(jù)集(COCO)[2]的80類相比,小視頻數(shù)據(jù)的類別更豐富,包含更多的子類,如不同品種的貓和狗、不同品牌的電子產(chǎn)品等。

        (2)特效復(fù)雜

        與其他視頻相比,小視頻往往包含更多的特效,以使自身更具有吸引力和娛樂性,如各種幻燈片轉(zhuǎn)場、人物美顏特效、多屏鏡面特效等。這對目標(biāo)檢測和追蹤等分析任務(wù)而言,是一個不可忽視的巨大挑戰(zhàn)。

        (3)姿態(tài)多變

        在小視頻中,各目標(biāo)的外觀姿態(tài)往往變化較大。小視頻記錄生活點滴,包含大量特寫鏡頭。一段小視頻主題可能聚焦于人、動物、產(chǎn)品等。這些目標(biāo)圍繞的主題包含較多姿態(tài)和外觀變化,例如人的換裝小視頻、寵物成長記錄小視頻等。

        除前文提到的3種特點外,由于小視頻的拍攝設(shè)備多為智能手機,故小視頻數(shù)據(jù)的特點還包括畫面清晰度相對較低、鏡頭抖動、視野較窄等。

        2 小視頻分析技術(shù)面臨的挑戰(zhàn)

        學(xué)術(shù)界對視頻內(nèi)容分析技術(shù)已進(jìn)行大量且系統(tǒng)的深入研究。例如,針對視頻盜用轉(zhuǎn)載和重復(fù)出現(xiàn)問題的視頻拷貝檢測技術(shù),對視頻進(jìn)行分割以提取感興趣或關(guān)鍵場景的鏡頭分割技術(shù),對視頻中主要物體進(jìn)行檢測、分類和追蹤的語義提取技術(shù)等。其中,小視頻語義提取是最受關(guān)注的技術(shù),是后續(xù)各種應(yīng)用的基礎(chǔ)。

        在對小視頻中的主要物體進(jìn)行語義抽取時,涉及的技術(shù)模塊主要包括視頻目標(biāo)檢測、多目標(biāo)追蹤、人物重識別(也稱Person ReID)等。視頻目標(biāo)檢測是指,從視頻圖像幀中自動定位事先定義好的類別集合中的物體,并推斷其類別。多目標(biāo)追蹤是指,利用目標(biāo)的外觀特征和位置信息來將相鄰幀中的相同目標(biāo)關(guān)聯(lián)起來,以構(gòu)成目標(biāo)序列,實現(xiàn)對目標(biāo)的持續(xù)追蹤。人物重識別是指,在多個非重疊攝像頭拍攝的場景下,在一段視頻或者某個圖片集合中篩檢出感興趣的人物。當(dāng)然,重識別技術(shù)也可以用于篩檢某一動物、某一物品等。

        2.1 小視頻目標(biāo)檢測

        目前,人們對視頻目標(biāo)檢測的研究主要集中在類似ImageNet VID[3](VID指視頻目標(biāo)檢測)的數(shù)據(jù)集上。這些數(shù)據(jù)集往往包含相對較少的物體類別,背景相對簡單,前景物體容易與背景區(qū)分。小視頻場景下的目標(biāo)檢測任務(wù)面臨的巨大挑戰(zhàn)具體包括:(1)類別繁多。小視頻中出現(xiàn)的物體類別數(shù)以萬計,且物體類別的分布呈現(xiàn)長尾效應(yīng)。大量物體類別嚴(yán)重缺乏訓(xùn)練數(shù)據(jù),極大地影響了目標(biāo)檢測算法的性能。(2)剪輯與特效帶來較大干擾。鏡頭切換和視頻特效使得物體外觀信息被嚴(yán)重干擾,前后幀中主要物體的外觀連續(xù)性被嚴(yán)重破壞。(3)背景復(fù)雜、物體運動難預(yù)測。小視頻來自用戶上傳,其背景和人物姿態(tài)變化往往更復(fù)雜。

        2.2 小視頻多目標(biāo)追蹤

        考慮到業(yè)界的實際需求,傳統(tǒng)的多目標(biāo)追蹤任務(wù)主要聚焦于交通監(jiān)控等應(yīng)用場景中對行人和車輛的追蹤。這導(dǎo)致目前學(xué)術(shù)界廣泛研究的數(shù)據(jù)集更多是通過監(jiān)控設(shè)備來采集的,并且主要針對行人目標(biāo)進(jìn)行追蹤。目前,多目標(biāo)追蹤算法解決的焦點主要是監(jiān)控場景中的常見問題,如行人目標(biāo)密集、遮擋等。

        在小視頻場景中,多目標(biāo)追蹤任務(wù)面臨前所未有的挑戰(zhàn)。與交通監(jiān)控場景相比,小視頻創(chuàng)作偏愛近景。人物在視頻上占據(jù)區(qū)域較大,很難被簡單地視為剛體。人物姿態(tài)變化直接影響追蹤效果。除此以外,頻繁的鏡頭切換也打破了物體幀間位置連續(xù)性的假設(shè)。

        因此,小視頻目標(biāo)追蹤任務(wù)面臨的挑戰(zhàn)可歸納為:(1)鏡頭切換。這使得時空連續(xù)性只能在局部窗口內(nèi)有效。(2)場景不確定性。目標(biāo)的距離、大小難以預(yù)測,很難依據(jù)先驗信息進(jìn)行算法性能優(yōu)化。(3)制作特效問題。小視頻有電腦特效或疊加字幕,這給目標(biāo)追蹤帶來很多干擾。

        2.3 目標(biāo)重識別

        通用目標(biāo)的重識別是一個十分困難的研究課題,主要是因為每類目標(biāo)的特征各不相同。在對小視頻分析時,我們通常從人物等特定類別目標(biāo)重識別開始研究,而這面臨的挑戰(zhàn)包括:每個鏡頭中人物的入鏡區(qū)域存在很大不同,上一個鏡頭出現(xiàn)的是一個完整的人物,下一個鏡頭中可能只有上半身入鏡;人物在小視頻畫面中的復(fù)雜運動姿態(tài)與傳統(tǒng)監(jiān)控畫面中的行走姿態(tài)有很大差別。這些挑戰(zhàn)使得小視頻場景下的目標(biāo)重識別與相機固定監(jiān)控場景下的行人重識別有很大的不同。

        針對小視頻場景的人物重識別任務(wù)主要包括兩點:(1)視頻內(nèi)人物重識別。根據(jù)某段小視頻前幾幀出現(xiàn)的主要人物目標(biāo),將后續(xù)幀出現(xiàn)的相同人物目標(biāo)與之一一匹配起來。這類任務(wù)的挑戰(zhàn)主要是人物局部入鏡、姿態(tài)變化大、遮擋情況復(fù)雜多樣(如障礙物遮擋、人物相互遮擋、隨機字幕遮擋)。(2)視頻間的人物重識別。根據(jù)(1)中得到的某個人物圖片序列,搜尋其他小視頻中出現(xiàn)的相同著裝的該人物。這類任務(wù)的挑戰(zhàn)主要是解決人物著裝變化、背景風(fēng)格差異大、面部遮擋模糊等問題。

        2.4算法性能需求

        (1)計算速度

        對于現(xiàn)有海量規(guī)模的小視頻數(shù)據(jù),如果算法處理不夠快,對用戶請求的響應(yīng)不及時,用戶的使用體驗將極大降低。以小視頻搜索為例,如果搜索算法能為用戶即時提供新的熱點視頻,用戶體驗無疑將會得到提升。

        (2)算法精度

        由于小視頻包含的物體種類繁多,且姿態(tài)外觀等變化較大,如果分析算法的精度不夠高,用戶體驗將受到顯著影響。這對小視頻內(nèi)容分析算法提出了很高的要求,即必須在面臨各種挑戰(zhàn)的情況下保持穩(wěn)定且很高的精度,才可獲得良好的應(yīng)用效果。

        (3)泛化能力

        小視頻類別很多,其包含的物體類別也是開放的,這對分析技術(shù)的泛化能力提出更高要求。小視頻分析算法只有具備了良好的泛化能力,才能很好地適應(yīng)各種應(yīng)用場景,從而才能真正滿足用戶時刻變化的應(yīng)用需求。

        3 小視頻分析技術(shù)研究進(jìn)展

        本章分別從小視頻分析任務(wù)涉及的技術(shù)研究進(jìn)展,和針對第2章所述的小視頻數(shù)據(jù)特殊難點的解決方案出發(fā),對相關(guān)方法進(jìn)行詳細(xì)介紹。

        3.1視頻目標(biāo)檢測

        目標(biāo)檢測從計算機視覺興起時便一直是基礎(chǔ)性的研究任務(wù)。隨著2015年面向視頻目標(biāo)檢測任務(wù)的數(shù)據(jù)集ImageNet VID的發(fā)布,深度學(xué)習(xí)在目標(biāo)檢測研究中開始發(fā)揮巨大作用。當(dāng)前學(xué)術(shù)界主流研究思路有:

        (1)將檢測與追蹤相結(jié)合

        基于檢測與追蹤結(jié)合的方法在圖像級別的目標(biāo)檢測結(jié)果的基礎(chǔ)上,輔以目標(biāo)追蹤方法來將各幀中相同物體的檢測框關(guān)聯(lián)起來。2017年由KANG K.等提出具有卷積神經(jīng)網(wǎng)絡(luò)的小管(T-CNN)[4]的方法,通過圖像目標(biāo)檢測器對輸入視頻完成目標(biāo)檢測,再通過目標(biāo)追蹤算法得到目標(biāo)的檢測框序列。2019年由LUO H.等提出的分布式對象技術(shù)(DoT)[5]框架則進(jìn)一步地對視頻目標(biāo)檢測任務(wù)進(jìn)行有選擇性地檢測和追蹤,充分利用檢測算法和追蹤算法各自的優(yōu)點,在速度和質(zhì)量上取得平衡。

        (2)利用光流信息

        光流可描述物體的運動狀態(tài)和軌跡。2015年和2017年P(guān). FISCHER等分別提出了光流網(wǎng)絡(luò)(FlowNet)[6]和FlowNet 2.0[7],通過卷積神經(jīng)網(wǎng)絡(luò)直接計算出光流,用來代替目標(biāo)追蹤模塊。ZHU X.等在2017年提出的流引導(dǎo)特整體聚合(FGFA)[8]算法,利用光流描述的運動軌跡將相鄰幀的特征聚合到當(dāng)前幀的特征上,可得到更魯棒的物體特征,能明顯減少由于視頻中物體運動模糊和亮度變化帶來的影響。光流適用于對局部時空域內(nèi)的物體運動進(jìn)行建模,但難以對全局時空域內(nèi)的物體特征進(jìn)行整合。

        (3)利用循環(huán)神經(jīng)網(wǎng)絡(luò)

        視頻是一種典型的序列數(shù)據(jù),用循環(huán)神經(jīng)網(wǎng)絡(luò)來對幀序列和物體的運動進(jìn)行建模是一種常見的選擇。2017年,LU Y.等提出關(guān)聯(lián)長短期記憶(LSTM)[9]結(jié)構(gòu),對視頻目標(biāo)檢測任務(wù)中的相鄰幀間物體的關(guān)聯(lián)信息進(jìn)行專門建模。通過與檢測網(wǎng)絡(luò)相結(jié)合,該方法可直接回歸獲得物體的位置和類別,同時還能將物體在不同幀之間的特征在時空上都關(guān)聯(lián)起來,最終可得到融合了時序運動信息的關(guān)聯(lián)特征。然而,這類方法的缺點是大量增加了模型訓(xùn)練難度和計算耗時。

        (4)利用全局幀特征融合

        WU H. P.等不僅考慮到從局部時域中提取物體的運動信息,還更加關(guān)注物體在全局時域上的時序信息,并在2019年提出了序列級語義聚合(SELSA)[10]算法。該算法在整個視頻的完整序列內(nèi)提取各幀所有感興趣區(qū)域的特征,通過一個聚類模塊和變換模塊將不同幀之間具有相似語義信息的候選框匹配,從而得到一個全局時域內(nèi)綜合的特征,隨后與各幀中提取得到的局部特征相聚合,可得到一個更魯棒的特征。CHEN Y. H.等在2020年提出基于記憶增強的全局-局部整合(MEGA)[11]算法,同時利用局部時域和全局時域內(nèi)物體的時序信息,即在局部更加關(guān)注物體的運動信息,在全局更加關(guān)注物體的外觀信息,并將兩者結(jié)合得到最終的融合特征。

        3.2視頻目標(biāo)追蹤

        目前,視頻多目標(biāo)追蹤主要分為3個模塊:目標(biāo)檢測、特征提取/運動預(yù)測、親和力計算與關(guān)聯(lián)。

        (1)目標(biāo)檢測模塊

        目標(biāo)檢測模塊負(fù)責(zé)提供目標(biāo)位置信息,并將其作為后續(xù)處理的先驗信息。檢測模塊提供位置信息,用于確定目標(biāo)的外觀特征,為運動預(yù)測提供目標(biāo)初始位置信息。針對目標(biāo)檢測的研究已經(jīng)取得長足進(jìn)步:從傳統(tǒng)的可變形部件模型(DPM)[12]到深度學(xué)習(xí)方法,從視覺幾何網(wǎng)絡(luò)(VGGNet)[13]到最新的高分辨網(wǎng)絡(luò)(HRNet)[14],ImageNet數(shù)據(jù)集的精度不斷被刷新,位置預(yù)測方式從一階段的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)[15]到兩階段的YOLOv4(指對象檢測算法)[16],在精度和速度上都取得了巨大突破。

        (2)特征提取/運動預(yù)測

        特征提取/運動預(yù)測模塊主要負(fù)責(zé)從外觀特征提取高層語義特征和充分利用運動信息。多目標(biāo)跟蹤算法DeepSort[17]利用簡單殘差網(wǎng)絡(luò)構(gòu)成的重識別(ReID)模型,大幅度改善Sort[18]算法的性能。而HRNet等方法則采用姿態(tài)評估模型來挖掘目標(biāo)姿態(tài)等更為豐富的信息。在運動預(yù)測方法中,目前采用比較多的是簡單高效的卡爾曼濾波算法??柭鼮V波算法可預(yù)測接近勻速直線的運動,也有些方法采用更為復(fù)雜的粒子濾波,以擬合目標(biāo)的復(fù)雜運動。

        (3)親和力計算與關(guān)聯(lián)

        親和力計算模塊從物體區(qū)域的特征信息中計算出匹配對,即當(dāng)前檢測區(qū)域與預(yù)測結(jié)果區(qū)域之間的相似度,以此作為依據(jù)來進(jìn)行關(guān)聯(lián)計算。關(guān)聯(lián)模塊從相似度矩陣中求解出最佳的匹配方式,盡量將同一目標(biāo)的檢測區(qū)域匹配到對應(yīng)的軌跡上,通過關(guān)聯(lián)形成新的軌跡。網(wǎng)絡(luò)流算法、匈牙利匹配算法、多假設(shè)追蹤算法等都是通過以降低全局匹配為代價來提升匹配效果的。此外,基于深度學(xué)習(xí)的方法也有所進(jìn)展:多趟近鄰排序(MPN)[19]算法以及深度多目標(biāo)跟蹤(DeepMOT)[20]算法利用卷積神經(jīng)網(wǎng)絡(luò)分別模擬傳統(tǒng)的網(wǎng)絡(luò)流算法和匈牙利匹配算法來實現(xiàn)關(guān)聯(lián)匹配,并取得了出色的效果。

        3.3視頻物體重識別

        對于小視頻場景下的通用物體重識別,學(xué)術(shù)界目前還沒有找到很好的解決方法。對于復(fù)雜場景下的人物等特定物體重識別來說,我們一般將人物局部入鏡的重識別問題定義為局部人物重識別,即利用局部人物圖片來檢索其完整的人物圖片。此外,還有不少關(guān)于遮擋人物重識別的研究工作,下面我們將分別進(jìn)行介紹。

        (1)局部人物重識別

        早期處理局部人物重識別的方法是直接將局部人物圖片和完整人物圖片縮放到同樣尺寸,這會導(dǎo)致特征不對齊等問題。有的研究則采用滑動窗口方法,利用局部人物圖片大小相同的滑動窗口在完整人物圖片上進(jìn)行區(qū)域檢索,找到最相近的區(qū)域進(jìn)行相似度計算。當(dāng)局部人物圖片的寬度大于完整人物圖片時,這類方法就會失效,同時也耗費了很多計算資源。

        為了解決局部人物重識別的問題,HE L. X.等提出了一種深度空間特征重構(gòu)(DSR)的方法[21]。該方法首先利用全卷積網(wǎng)絡(luò)生成固定尺寸的特征圖,然后利用字典學(xué)習(xí)模型中的重建誤差來計算不同特征圖的相似度。 SUN Y. F.等提出一種自監(jiān)督的方法[22]來解決局部人物重識別的特征不對齊問題。該方法將圖片劃分為上、中、下3個抽象模塊區(qū)域,得到每個區(qū)域中像素點的區(qū)域標(biāo)簽,并以此來訓(xùn)練模型對每個區(qū)域的觀察能力。在推理階段,模型通過預(yù)測區(qū)域可見得分,判斷圖片是否發(fā)生了身體部位的缺失,進(jìn)而通過自監(jiān)督的注意力機制實現(xiàn)對人物圖片間對應(yīng)區(qū)域的相似度比較。

        (2)遮擋人物重識別

        不同于局部人物重識別,遮擋人物重識別主要的問題在于圖片中包含的遮擋區(qū)域會使得直接提取的全局特征包含大量的干擾噪聲,進(jìn)而影響兩張圖片的相似度計算結(jié)果。針對這一點,MIAO J. X.等[23]通過引入額外的姿態(tài)檢測模型來獲得人體關(guān)鍵點信息,進(jìn)而引導(dǎo)重識別模型關(guān)注人物的非遮擋區(qū)域。具體思路是,首先通過關(guān)鍵點的位置信息來提取人物的局部特征,然后利用關(guān)鍵點的置信度信息來判斷哪些關(guān)鍵點是處于遮擋區(qū)域的。在重識別的推斷階段,模型只會計算兩張圖片未被遮擋的區(qū)域之間的相似度,以此來消除遮擋噪聲的干擾。

        3.4針對小視頻的研究工作

        目前,學(xué)術(shù)界專門針對小視頻特點的研究工作比較少。本文中,我們挑選一些比較突出的相關(guān)研究工作進(jìn)行介紹。

        (1)針對小視頻復(fù)雜特效問題的研究

        針對不同鏡頭間添加的視頻特效導(dǎo)致物體外觀信息不匹配問題,ZHONG Z.等于2018年在行人重識別領(lǐng)域提出了相機風(fēng)格自適應(yīng)[24]算法。該算法假定,在不同相機風(fēng)格下拍攝所得的人物數(shù)據(jù)屬于不同的數(shù)據(jù)域,同時通過引入循環(huán)生成對抗網(wǎng)絡(luò)(CycleGAN)[25],對每一對具有不同風(fēng)格的同一人物圖像,生成圖像到圖像的風(fēng)格轉(zhuǎn)移模型。生成不同相機風(fēng)格下的人物圖像為重識別模型提供額外的訓(xùn)練數(shù)據(jù)。為了防止重識別模型受到由CycleGAN風(fēng)格轉(zhuǎn)移得到的偽圖像中噪聲的影響,算法引入了一個標(biāo)簽平滑修正(LSR)機制,以降低在重識別模型損失函數(shù)中對偽圖像評判的權(quán)重。

        (2)針對小視頻物體類別繁多的研究

        針對物體類別繁多所帶來的長尾分布效應(yīng),POOJAN O.與VISHAL P.于2019年在圖像分類領(lǐng)域提出了基于多任務(wù)的開集物體識別(MLOSR)[26]算法。該算法通過使用權(quán)值共享的分類網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),同時進(jìn)行分類與重構(gòu)任務(wù)。此外,算法依據(jù)極值理論[27]通過一個極值模型來對重構(gòu)誤差分布的尾部部分建模,使得模型對未出現(xiàn)在訓(xùn)練集中的類別更為敏感。

        (3)針對小視頻鏡頭切換頻繁的研究

        針對不同鏡頭下的物體空間位置變化不連續(xù)問題,HSU H. M.等于2019年在目標(biāo)追蹤領(lǐng)域提出一個多攝像機目標(biāo)追蹤系統(tǒng)[28],將多個攝像機下的目標(biāo)追蹤問題劃分為鏡頭內(nèi)的目標(biāo)追蹤問題和鏡頭間的目標(biāo)追蹤問題。對于鏡頭內(nèi)的目標(biāo)追蹤問題,該研究團隊采用蹤片網(wǎng)絡(luò)追蹤器(TNT)[29]。對于鏡頭間的目標(biāo)追蹤問題,該研究團隊首先將鏡頭內(nèi)追蹤得到的蹤片輸入到Mask R-CNN[30]網(wǎng)絡(luò)中,以得到去除背景后的結(jié)果,然后再通過一個時間注意力模型,對各蹤片提取蹤片級別的特征,最后通過比較特征相似度的方式來匹配不同攝像機下的同一物體。

        4 小視頻內(nèi)容分析系統(tǒng)

        要系統(tǒng)性完成小視頻內(nèi)容分析任務(wù),單純依靠某一個算法模塊是困難的。只有構(gòu)建一個整合多種不同算法的系統(tǒng),才能夠更準(zhǔn)確、更魯棒地解決分析問題。本文在此拋磚引玉,提出一個小視頻內(nèi)容分析系統(tǒng)的構(gòu)成框圖。結(jié)合此前提到的小視頻數(shù)據(jù)的特點,以及當(dāng)前對于視頻分析技術(shù)的研究成果,我們認(rèn)為小視頻內(nèi)容分析系統(tǒng)至少應(yīng)包括鏡頭分割、視頻目標(biāo)檢測、視頻目標(biāo)追蹤、視頻目標(biāo)重識別等模塊,如圖1所示。

        對于輸入的小視頻,首先,鏡頭分割模塊將不同鏡頭分割開來,使得每個鏡頭內(nèi)物體運動能基本滿足幀間位置連續(xù)性假設(shè);接著,目標(biāo)檢測模塊獲得各幀內(nèi)物體的定位框和物體分類結(jié)果,并將結(jié)果輸入到后續(xù)鏡頭內(nèi)的目標(biāo)追蹤模塊,同時屬于同一物體的檢測框在相鄰幀中將被關(guān)聯(lián)起來;最后,系統(tǒng)再進(jìn)行跨鏡頭目標(biāo)重識別,得到各物體在小視頻中完整的時空運動軌跡。小視頻內(nèi)容分析系統(tǒng)的輸出結(jié)果可被應(yīng)用到后續(xù)更多的應(yīng)用處理中,例如實現(xiàn)視頻結(jié)構(gòu)化、完成以視頻搜索視頻等任務(wù)。

        視頻結(jié)構(gòu)化應(yīng)用的主要目標(biāo)是,僅從無結(jié)構(gòu)視頻數(shù)據(jù)中解析主要物體的語義屬性和時空軌跡等結(jié)構(gòu)化的語義信息,就可以實現(xiàn)人車信息檢索以及行為研判等,為交通安全和社會治安提供風(fēng)險評估和事件預(yù)警。以視頻搜視頻是小視頻的一大類應(yīng)用。常規(guī)文字、圖片搜索等不能完全滿足用戶需求,而以視頻搜索類似視頻的功能在各大應(yīng)用軟件的出現(xiàn),有助于提升用戶體驗。小視頻內(nèi)容分析結(jié)果使小視頻搜索成為可能。此外,小視頻查重、溯源等也是類似應(yīng)用?;谛∫曨l內(nèi)容分析的各種衍生應(yīng)用正在日益增多,這將大大改善小視頻的用戶體驗。

        5 結(jié)束語

        小視頻應(yīng)用的興起是互聯(lián)網(wǎng)技術(shù)發(fā)展的必然結(jié)果,也是人工智能技術(shù)廣泛服務(wù)人們生活的發(fā)展趨勢。目前,越來越多的巨頭公司和科研機構(gòu)開始研發(fā)小視頻內(nèi)容分析技術(shù),旨在更好地應(yīng)用人工智能技術(shù)分析海量視頻數(shù)據(jù),以更好地服務(wù)社會。隨著小視頻研究和應(yīng)用的不斷發(fā)展,在為受眾提供更高質(zhì)量服務(wù)的同時,對小視頻數(shù)據(jù)規(guī)范化利用、確保個人隱私和數(shù)據(jù)安全,正在成為社會大眾非常關(guān)注的熱點問題。

        致謝

        感謝復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院邱泰儒、徐僖禧、王潯彥、陳冠先等為本文寫作而做出的大量貢獻(xiàn)。

        參考文獻(xiàn)

        [1] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 248-255. DOI: 10.1109/ cvprw.2009.5206848

        [2] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//European conference on computer vision. Zurich, Switzerland: Springer, 2014: 740-755. DOI: 10.1007/978-3-319-10602-1_48

        [3] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International journal of computer vision, 2015, 115(3): 211-252. DOI: 10.1007/s11263-015-0816-y

        [4] KANG K, LI H S, YAN J J, et al. T-CNN: tubelets with convolutional neural networks for object detection from videos [J]. IEEE transactions on circuits and systems for video technology, 2018, 28(10): 2896-2907. DOI: 10.1109/tcsvt.2017.2736553

        [5] LUO H, XIE W X, WANG X G, et al. Detect or track: towards cost-effective video object detection/tracking [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Honolulu, HI, USA: AAAI, 2019, 33: 8803-8810. DOI: 10.1609/aaai.v33i01.33018803

        [6] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks [C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile. IEEE, 2015: 2758-2766. DOI: 10.1109/iccv.2015.316

        [7] ILG E, MAYER N, SAIKIA T, et al. FlowNet 2.0: evolution of optical flow estimation with deep networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 2462-2470. DOI: 10.1109/cvpr.2017.179

        [8] ZHU X, WANG Y, DAI J, et al. Flow-guided feature aggregation for video object detection[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 408-417

        [9] LU Y, LU C, TANG C K. Online video object detection using association LSTM [C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 2344-2352

        [10] WU H P, CHEN Y T, WANG N Y, et al. Sequence level semantics aggregation for video object detection [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019: 9217-9225. DOI: 10.1109/iccv.2019.00931

        [11] CHEN Y H, CAO Y, HU H, et al. Memory enhanced global-local aggregation for video object detection [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 10337-10346. DOI: 10.1109/ cvpr42600.2020.01035

        [12] FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008. DOI: 10.1109/cvpr.2008.4587597

        [13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2020-12-05]. https:// arxiv.org/abs/1409.1556v1

        [14] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach, CA, USA: IEEE, 2019: 5693-5703. DOI: 10.1109/cvpr.2019.00584

        [15] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 39(6): 91-99. DOI: 10.1109/ tpami.2016.2577031

        [16] BOCHKOVSKIY A, WANG C Y, LIAO H M. YOLOv4: Optimal speed and accuracy of object detection [EB/OL]. [2020-12-05]. https:// arxiv.org/abs/2004.10934

        [17] WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric [C]//2017 IEEE International Conference on Image Processing (ICIP). Beijing, China: IEEE, 2017: 3645-3649. DOI: 10.1109/icip.2017.8296962

        [18] BEWLEY A, GE Z, OTT L, et al. Simple online and realtime tracking [C]//2016 IEEE International Conference on Image Processing (ICIP). Phoenix, AZ, USA: IEEE, 2016: 3464-3468

        [19] BRASó G, LEAL-TAIXé L. Learning a neural solver for multiple object tracking [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 6247-6257

        [20] XU Y H, SEP A, BAN Y T, et al. How to train your deep multi-object tracker [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 6787-6796. DOI: 10.1109/ cvpr42600.2020.00682

        [21] HE L X, LIANG J, LI H Q, et al. Deep spatial feature reconstruction for partial person Re-identification: alignment-free approach[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018: 7073-7082. DOI: 10.1109/ cvpr.2018.00739

        [22] SUN Y F, XU Q, LI Y L, et al. Perceive where to focus: learning visibility-aware part-level features for partial person Re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 393-402. DOI: 10.1109/cvpr.2019.00048

        [23] MIAO J X, WU Y, LIU P, et al. Pose-guided feature alignment for occluded person Re-identification [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019: 542-551. DOI: 10.1109/iccv.2019.00063

        [24] ZHONG Z, ZHENG L, ZHENG Z D, et al. Camera style adaptation for person Re-identification [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 5157-5166. DOI: 10.1109/cvpr.2018.00541

        [25] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]//2017 IEEE International Conference on Computer Vision(ICCV). Venice, Italy: IEEE, 2017: 2223-2232. DOI: 10.1109/iccv.2017.244

        [26] OZA P, PATEL V M. Deep CNN-based multi-task learning for open-set recognition [EB/OL]. [2020-12-05]. https://arxiv.org/ abs/1903.03161

        [27] DE HAAN L, FERREIRA A. Extreme value theory: an introduction [M]. Springer Science & Business Media, 2007

        [28] HSU H M, HUANG T W, WANG G, et al. Multi-camera tracking of vehicles based on deep features re-ID and trajectory-based camera link models [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 416-424

        [29] WANG G A, WANG Y Z, ZHANG H T, et al. Exploit the connectivity: multi-object tracking with TrackletNet [C]//Proceedings of the 27th ACM International Conference on Multimedia. New York, NY, USA: ACM, 2019: 482-490. DOI: 10.1145/3343031.3350853

        [30] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN [C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 2961-2969. DOI: 10.1109/ iccv.2017.322

        作者簡介

        薛向陽,復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師;主要從事計算機視覺、視頻大數(shù)據(jù)分析、機器學(xué)習(xí)等研究;發(fā)表論文200余篇,其中90余篇發(fā)表在國際權(quán)威期刊(如《IEEE Transactions on Pattern Analysis and Machine Intelligence》《IEEE Transactions on Image Processing》等)和頂級國際會議(如ICCV、CVPR、ICML、NeurIPS、ACM MM、IJCAI、AAAI等)上。

        李斌,復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院青年研究員、博士生導(dǎo)師,上海高校特聘教授(東方學(xué)者);研究領(lǐng)域為機器學(xué)習(xí)、類腦人工智能及其在機器視覺與大數(shù)據(jù)分析中的應(yīng)用;在《IEEE Transactions on Knowledge and Data Engineering》《IEEE Transactions on Cybernetics》等知名期刊與ICML、NeurIPS、IJCAI、AAAI等一流機器學(xué)習(xí)和人工智能會議上發(fā)表論文60余篇。

        猜你喜歡
        小視頻
        莫讓小視頻淪為謠言大本營
        孩子沉迷于小視頻是個大問題
        甘肅教育(2018年13期)2018-10-13 12:30:02
        面對庸俗小視頻,少年如何“應(yīng)萬變”
        雷鋒(2018年8期)2018-05-14 17:41:59
        今日頭條10億元補貼短視頻
        綜藝報(2017年10期)2017-06-02 13:45:39
        APP
        Reverse Slow — Video, Live Photo, Gif Editor
        CHIP新電腦(2016年8期)2016-08-25 13:52:05
        微課程在“微時代”的思索
        挖出微信里的小視頻
        電腦愛好者(2015年7期)2015-04-09 19:39:46
        小視頻的大時代
        CHIP新電腦(2014年11期)2014-11-12 20:00:23
        《微信》“小視頻”,這才是開始
        亚洲欧美日韩精品久久亚洲区色播| 国产md视频一区二区三区| 人妻丝袜无码国产一区| 另类专区欧美在线亚洲免费| 日韩人妻有码中文字幕| 国产熟女露脸91麻豆| 亚洲人成77777在线播放网站| 婷婷五月综合激情| 中文字幕亚洲精品人妻| 谷原希美中文字幕在线| 性生交片免费无码看人| 欧美变态口味重另类在线视频| 亚洲精品AⅤ无码精品丝袜无码| 全国一区二区三区女厕偷拍| 领导边摸边吃奶边做爽在线观看 | 国产 在线播放无码不卡| 亚洲男人的天堂av一区| 午夜免费视频| 激情内射亚洲一区二区三区爱妻 | 欧美性生交活xxxxxdddd| 国产又滑又嫩又白| 一本大道在线一久道一区二区| 久久精品国产精品亚洲艾| 又大又长粗又爽又黄少妇视频| 精品人妻潮喷久久久又裸又黄| 日韩不卡无码三区| 亚洲美女毛多水多免费视频 | 婷婷色婷婷开心五月四| 国产精品自在线拍国产| 精品人伦一区二区三区蜜桃麻豆| 丝袜人妻中文字幕首页| 好大好湿好硬顶到了好爽视频| 特级毛片a级毛片免费播放| 国产亚洲精品日韩香蕉网| 青青青免费在线视频亚洲视频 | 我和隔壁的少妇人妻hd| 99精品国产高清一区二区麻豆| 国产人成无码视频在线1000| 久久精品国产亚洲av久按摩 | 国产精品丝袜久久久久久不卡| 亚洲精品国产老熟女久久|