技術宅
相信大家在各種影視作品中都看到過慢動作特效,比如在剛剛結束的世界杯上就有許多球員進球、射門、身體接觸的慢動作回放,通過VAR逐幀回看這些慢動作可以清晰看到一瞬間發(fā)生的事情(圖1)。
對于電影里的慢動作特效,實際上是借助設備進行高速攝影,比如拍攝速度達到50幀/秒、100幀/秒甚至更高,然后在回放時仍然選擇24幀/秒常規(guī)速度播放,這就相當于把實際1秒鐘拍攝的圖像用2秒多到4秒多的時間回放,從而實現慢動作效果。
當然對于普通用戶來說,我們沒有高速攝影設備,怎么能實現慢動作效果呢?英偉達近日推出了基于cuDNN加速的PyTorch深度學習框架實現任意視頻慢動作的技術,通過這個人工智能框架,結合NVIDIA Tesla V100 GPU強大的處理能力,它可以將任意一段視頻拉長,從而實現類似電影特效里的慢動作(圖2)。
視頻拉長的背后——人工智能慢動作技術
通過上面的介紹我們知道,常規(guī)的慢動作是將高速攝影的視頻低速播放而實現。那么對于普通的視頻(已經是低速攝影成品了),英偉達又是怎樣實現慢動作效果的呢?
慢動作的核心是將原來的視頻拉長而實現慢速效果,但是如果將普通的視頻直接使用低速效果播放,實際效果則會變得卡頓,幀與幀之間動作變得不連貫。因此將普通的視頻拉長后還要實現平滑的慢動作效果,此時就需要對視頻物體進行定位和補幀。
比如一段汽車漂移的視頻,如果要實現漂移的慢動作演示,我們首先需要對視頻中的汽車進行準確定位,比如精確定位汽車每一秒的漂移位置,這樣才可以對汽車后續(xù)整個漂移動作進行全程的展示(圖3)。
因為原來的視頻本身就是低速攝影拍攝的,現在將視頻拉長后,為了讓拉長的視頻不出現卡頓(掉幀),就需要進行精確的補幀,使得視頻拉長后播放仍然非常順滑(圖4)。
這樣通過視頻定位和補幀,英偉達的人工智能框架技術就實現了將任意視頻慢動作化。那么這樣的效果是怎樣實現的呢?
英偉達的這項技術是借助NVIDIA Tesla V100 GPU強大的視頻處理能力+人工智能學習框架實現的。英偉達搭建好人工智能學習框架后,把預先準備的約1.1萬段視頻素材作為數據源,提供給人工智能進行學習,讓它從這些視頻素材中學習定位和補幀。比如上述跳舞視頻,人工智能技術可以對視頻中的舞者進行定位,并且可以對舞者每一幀動作進行學習,知道下一幀的人物是怎樣的狀態(tài)顯示。這樣通過一定的算法和學習模型,并且經過人工智能的深度學習和自我學習,這個人工智能框架就可以對其他視頻進行同樣的定位和分解,用完美的定位和補幀技術,實現將普通視頻慢動作化(圖5)。
當然不僅僅是視頻慢動作,借助新的訓練方式,人工智能還可以從已有的圖像中生成新的圖像,甚至可以利用不同的人像生成新的肖像。就像影片中的換臉特效一樣,英偉達的人工智能框架可以精準地實現人物從一個人臉無縫轉換到另一個人臉的特效(圖6)。
通過上面的展示,我們見識了英偉達人工智能框架在視頻處理方面的強大功能。這個技術的出現可以給我們的生活帶來很多樂趣。
隨著手機的普及,我們使用手機來拍攝短視頻,對于那些稍縱即逝的畫面,我們總想看清楚整個過程。比如喜歡跳廣場舞的老媽,對于隊友、教練的快舞節(jié)奏總是看不清楚整個動作,現在只要使用手機拍攝,然后借助英偉達這個技術轉換,舞者再快的動作都可以變慢,讓老媽仔細看清楚每個舞蹈的動作。
英偉達的變臉技術則可以讓我們在手機上制作出更多的搞笑視頻,比如將舍友變成可愛的貓咪,然后通過微信、朋友圈和好友共享。當然這些技術也可以讓我們的視頻處理變得更為簡單,比如剪輯鋼琴老師彈琴的動作,方便我們學習指法;剪輯球員射門的視頻,讓我們細細欣賞漂亮的射門!