林盈
施瓦辛格有一部系列電影《終結(jié)者》,說的是機(jī)器人在能力上超過了人類,并且有了自我意識,反過來要統(tǒng)治人類?,F(xiàn)實(shí)中當(dāng)然沒有那么夸張,但是現(xiàn)在的機(jī)器人在很多方面開始接近人類也是一個趨勢。如今,機(jī)器人已經(jīng)不滿足于從事掃地和兒童早期教育這些重復(fù)性勞動了,它們開始準(zhǔn)備向文化創(chuàng)意產(chǎn)業(yè)發(fā)展。機(jī)器人寫小說已經(jīng)不是什么稀奇事,這不,北京航空航天大學(xué)和清華大學(xué)的科學(xué)家又開發(fā)出了一個能夠進(jìn)行電影剪輯的機(jī)器人——你講故事,它剪視頻。
這個機(jī)器人的名字叫作“Write-A-Video”。它拍攝和剪輯的范圍很廣,網(wǎng)絡(luò)文本、童謠、人物介紹等都可以。
拍攝的第一步當(dāng)然是要理解文本。Write-A-Video會運(yùn)用挑選關(guān)鍵詞的方法理解文本的含義,然后在它的素材庫中挑選合適的素材進(jìn)行剪輯。比如,當(dāng)劇本中“汽車”這個詞語出現(xiàn)了很多次,Write-A-Video就會認(rèn)為這個劇本和汽車有關(guān),便會在自己的素材庫中查找標(biāo)簽是“汽車”的視頻片段。
找到了合適的視頻片段之后,Write-A-Video會自己分鏡頭。當(dāng)然,它是不能理解視頻內(nèi)容的,但是它可以通過統(tǒng)計畫面數(shù)據(jù)來確定分鏡頭的位置。常看電影的人都知道一個最基本的規(guī)律,在鏡頭切換的時候,畫面的色彩就會出現(xiàn)明顯的變化。Write-A-Video就是利用了這個規(guī)律,統(tǒng)計出每幀圖像的色彩數(shù)據(jù),并發(fā)現(xiàn)緊鄰著的兩幀圖像,如果它們的色彩數(shù)據(jù)80%都變化了,Write-A-Video就會認(rèn)為這里是鏡頭切換的位置,將視頻分割成兩個部分。
上面只是計算機(jī)視頻處理的常規(guī)操作,下面才是Write-A-Video大顯身手的時刻。這里的主角是一個叫作視覺語義嵌入的程序。這個程序可以比較視頻和文字內(nèi)容的相似程度,并且給它們打分。因?yàn)楦鶕?jù)標(biāo)簽搜索的視頻數(shù)量較多,這時就需要視覺語義嵌入程序來判斷應(yīng)該把哪個片段放到最后的影片中。
到底什么樣的視頻才算是“好看的”,這是審美問題。好在通過大量的機(jī)器學(xué)習(xí),Write-A-Video已經(jīng)建立了一套審美標(biāo)準(zhǔn)。首先,畫面要明亮,色彩要生動;其次,畫面不能抖動得太厲害;最后,畫面必須連貫,不能出現(xiàn)跳接。
這樣簡單的審美要求距離成為一個大師級的電影導(dǎo)演還有很遠(yuǎn)的距離,目前我們不能指望這樣一個機(jī)器人通過鏡頭語言表達(dá)什么深刻的思想,但是做一些簡單的剪輯工作它還是能夠勝任的。比如,制作新聞報道和簡單的紀(jì)錄片,只要能夠做到視頻和解說內(nèi)容相呼應(yīng),鏡頭轉(zhuǎn)換自然,就達(dá)到了剪輯的要求,而這正是Write-A-Video大顯身手的領(lǐng)域。
人工智能最大的優(yōu)勢是處理重復(fù)問題時的效率,Write-A-Video也不例外,面對簡單重復(fù)的任務(wù),它可以把剪輯的時間縮短到原來的幾十分之一。比如網(wǎng)劇要換演員,原來演員的鏡頭都要刪掉,這對剪輯師來說是艱巨的考驗(yàn)。然而,有了Write-A-Video,一切就輕松了,因?yàn)樗梢愿鶕?jù)劇本找到演員出現(xiàn)的鏡頭,然后批量刪除,一鍵解決。
以往人們都認(rèn)為,機(jī)器人即便能代替人類的工作,也只是一些重復(fù)性的勞動密集型崗位,對于文化創(chuàng)意這種需要天賦和個性的工作,機(jī)器是永遠(yuǎn)都學(xué)不會的。現(xiàn)在看來,大家想得或許太簡單了,誰知道哪天它們不會強(qiáng)大起來和導(dǎo)演們搶飯碗呢?