關(guān)鍵詞 短視頻;算法;生成對抗網(wǎng)絡(luò);透明性
中圖分類號 G2 文獻(xiàn)標(biāo)識碼 A 文章編號 2096-0360(2021)15-0054-03
社交媒體時代,短視頻因其傳播速度快、內(nèi)容輕量化等特點,深度切合當(dāng)前用戶碎片化的使用場景,已成為人們獲取新聞資訊的一種主要形態(tài)[1]125。中國網(wǎng)絡(luò)視聽節(jié)目服務(wù)協(xié)會發(fā)布的《2020中國網(wǎng)絡(luò)視聽發(fā)展研究報告》數(shù)據(jù)顯示,截至2020年6月,短視頻用戶規(guī)模已達(dá)8.18億,從人均使用時長看,短視頻應(yīng)用人均單日達(dá)110分鐘,超過即時通信,成為第一大互聯(lián)網(wǎng)應(yīng)用[ 2 ]。
龐大的用戶群體與有限的生產(chǎn)能力之間的矛盾催生算法在短視頻合成與推薦中的應(yīng)用。路透社新聞研究院報告顯示,72%的媒體表示會應(yīng)用人工智能處理過載信息以實現(xiàn)新聞和視頻的自動化合成與個性化推薦[3],算法在短視頻的合成與推送的過程中扮演著越來越重要的角色。通過以算法為基礎(chǔ)將數(shù)據(jù)公式化和結(jié)構(gòu)化的研究工具使得原本在理論描述中的傳播規(guī)律和效果評價得以量化和圖示化,以實現(xiàn)短視頻的智能化合成[4]。
算法作為一種基于數(shù)據(jù)量化的自動化工具,應(yīng)用于敘事性較強(qiáng)的短視頻的合成,尤其是以客觀真實為原則的新聞領(lǐng)域,往往伴隨著是否具備專業(yè)性的爭議。如何將專業(yè)知識、技能合理量化,如何真正發(fā)揮好“把關(guān)人”的作用,如何將新聞的專業(yè)性糅合進(jìn)算法代碼的自動化流程中是算法應(yīng)用過程中面臨的關(guān)鍵問題。本文將結(jié)合國內(nèi)外案例說明算法應(yīng)用于短視頻合成中的算法邏輯,并分析算法應(yīng)用中可能產(chǎn)生的技術(shù)風(fēng)險問題。
算法是解題方案的準(zhǔn)確而完整的描述,是一系列解決問題的清晰指令,能對一定規(guī)范的輸入在有限時間內(nèi)獲得所要求的輸出[5]。算法作為一種“工具”“中介”和“代理者”,能夠利用數(shù)據(jù)在較短的時間內(nèi)“獨立”完成大規(guī)模的信息處理。
短視頻合成的算法邏輯是以用戶需求為中心,由數(shù)據(jù)和算法驅(qū)動,利用不同素材的創(chuàng)意組合,自動合成新聞短視頻,并能根據(jù)場景變化實時優(yōu)化和調(diào)整,實現(xiàn)“千人千面”的快速傳播[6]。相比于藝術(shù)類影片,在新聞報道中短視頻以展現(xiàn)信息為主要目的,對情節(jié)設(shè)計要求較低。而人工智能目前也無法做到動用蒙太奇敘事手法制作電影電視劇等長視頻,但對諸如會議視頻報道等模式相對固定的新聞視頻,算法可以在短時間內(nèi)完成高質(zhì)量制作[7]。因此,算法合成短視頻在新聞領(lǐng)域有更加廣泛的發(fā)展前景。算法合成短視頻的技術(shù)邏輯從整體上來看基本可以理解為內(nèi)容識別與素材聚合兩大步。
識別檢索能力是算法最明顯的優(yōu)勢,它極大簡化了搜集并理解視頻素材內(nèi)容的步驟。內(nèi)容識別依托于自然語言處理技術(shù)(Natural Language Processing)與內(nèi)容識別技術(shù),包括人臉識別、語音識別、物體/場景識別等實現(xiàn)關(guān)鍵詞提取、內(nèi)容智能分析、智能拆條、智能素材檢索與聚合等。其中,關(guān)鍵詞提取與片段檢索的準(zhǔn)確度是決定合成效果的關(guān)鍵[1]127。結(jié)合不同的短視頻合成需求,內(nèi)容識別也會有不同的標(biāo)準(zhǔn),如IBM研發(fā)的智能化剪輯系統(tǒng)AI Vision,在合成2016年驚悚電影《Morgan》預(yù)告片與2017年科技類綜藝節(jié)目《我是未來》宣傳片時就利用了對觀眾情緒的識別以尋找最“精彩”的片段。媒體大腦在進(jìn)行兩會報道時利用了“掌聲識別”與“笑聲識別”判斷所篩選句子的受歡迎程度,以挑選出最佳素材片段,實現(xiàn)對“金句”的內(nèi)容合成。在算法檢索力的智能輔助下,短視頻的合成效率大大提升,百度研究院研發(fā)的AI自動合成視頻工具Vidpress完成從用戶輸入到成品輸出的整套流程僅需9分鐘[ 8 ],2019年國慶節(jié)閱兵期間,央視利用AI剪輯發(fā)布方隊游行視頻,平均耗時僅90秒[9]。
算法自動化聚合素材通常借助于算法敘事模板完成。算法本身沒有邏輯,因此無法獨立的將識別檢索到的內(nèi)容按照正常的敘事邏輯聚合,敘事模板則起到了為算法聚合素材提供敘事邏輯鏈的作用。塔奇曼在《做新聞》中表示,任何一種突發(fā)性新聞都可以被稱作“火警新聞”(fire story),因為報道這種新聞的技巧都是相似的[10]。這些新聞技巧里的相似性就是新聞的敘事邏輯。利用算法將轉(zhuǎn)場、開頭、結(jié)尾等變動不大的部分預(yù)設(shè)好,并將模板空缺位置以關(guān)鍵詞標(biāo)簽標(biāo)記好,算法通過將內(nèi)容識別標(biāo)簽與模板預(yù)設(shè)標(biāo)簽相匹配,即可完成自動化的短視頻合成。當(dāng)前,國內(nèi)外多家機(jī)構(gòu)已布局短視頻的模板化生產(chǎn),新華智云媒體大腦單獨開辟了大“?!蓖醢鍓K征集各類優(yōu)秀模板;號稱“世界上最簡單的視頻制作工具”的Biteable網(wǎng)站分幾十類推出了上百種模板;Animoto,Animaker,Moovly等專業(yè)視頻模板網(wǎng)站層出不窮。
算法合成短視頻不僅局限于對已有素材的物理剪接,還可以利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Network)學(xué)習(xí)視頻內(nèi)容進(jìn)一步合成視頻。物理剪接的視頻通常利用可見轉(zhuǎn)場(如淡入淡出)連接素材,為了使視頻更加流暢伯克利分校研發(fā)的算法還提出了一種“隱匿轉(zhuǎn)場”的聚合方式,其基本邏輯是利用分層聚類算法計算幀間人物形態(tài)差距抓取“過渡幀”,在兩段視頻剪接點之間插入過渡幀或暫停幀,從而實現(xiàn)視覺上的連貫。隱匿轉(zhuǎn)場的聚合方式對視頻素材的燈光、背景等要求較高,適用性相對較低[ 1 1 ]。杜克大學(xué)的Yitong Li等學(xué)者則利用生成對抗網(wǎng)絡(luò)研發(fā)出直接基于文本合成動態(tài)視頻的算法,但由于人體姿勢與骨骼特征的復(fù)雜性,目前還不能很好的保證在生成合理運動的同時保持對象形狀[ 1 2 ]。
算法應(yīng)用于短視頻合成中主要存在以下三方面的風(fēng)險問題:識別準(zhǔn)確度不能保證、新聞專業(yè)性無法體現(xiàn)、技術(shù)濫用變相生產(chǎn)假新聞。
2.1 識別準(zhǔn)確度不能保證
人工智能技術(shù)的發(fā)展革新了短視頻的生產(chǎn)與傳播形式。技術(shù)并不完美,也不是所有的指標(biāo)都可以“數(shù)據(jù)化”,“數(shù)據(jù)化”過程中仍然存在許多限制,算法在信息識別過程中仍有許多不足。
算法進(jìn)行面部識別時,如果面部顯示不完整就極易出現(xiàn)識別錯誤或無法識別的問題。尤其是在今年疫情的大環(huán)境下,公眾普遍養(yǎng)成了佩戴口罩的習(xí)慣,美國國家標(biāo)準(zhǔn)與技術(shù)協(xié)會(NIST)的研究顯示,戴上足夠覆蓋口鼻的口罩會導(dǎo)致一些最廣泛使用的面部識別算法的錯誤率高達(dá)5%至50%[13]。
其實,哪怕在沒有遮擋前提下進(jìn)行識別,算法也存在足夠的偏見。因為多種人為因素的影響內(nèi)嵌在算法之中[14]。美國麻省理工學(xué)院媒體實驗室研究項目顯示,人工智能識別淺色皮膚男性的平均識別錯誤率不超過1%,淺色皮膚女性的平均識別錯誤率約為7%,深色皮膚男性的平均識別錯誤率約為12%,深色皮膚女性的平均識別錯誤率則高達(dá)35%[15]。2020年6月,美國密歇根州就發(fā)生了因算法識別錯誤而錯誤逮捕一名黑人男子的“烏龍”[16]。
除此之外,算法對語義的識別同樣存在準(zhǔn)確度無法保證的問題。當(dāng)前人工智能還處于沒有獨立意識的弱人工智能階段,新聞文本內(nèi)容是復(fù)雜的,需要依靠專業(yè)知識、社會經(jīng)驗、話題語境、語義理解等多方面的技能才能擁有極高的辨識準(zhǔn)確度[17]。盡管自“深度學(xué)習(xí)”算法應(yīng)用于語義識別領(lǐng)域以來,識別錯誤率有所下降,但目前仍沒有人類級別的語音識別[ 1 8 ]。
2.2 新聞專業(yè)性無法體現(xiàn)
算法主要是對復(fù)雜的短視頻合成過程的簡化和提煉,是一種“以簡御繁”的化約主義(reductionism)[19],追求簡單化的算法邏輯必然無法深入到短視頻合成最核心的專業(yè)層次。電視新聞報道在信息傳達(dá)的過程中分為三個層次:信息層面、個性與情感層面和思辨層面[20]。當(dāng)前階段的算法多數(shù)停留在信息層面,雖然可以通過將音樂、文字、場景等非結(jié)構(gòu)化視頻數(shù)據(jù)提取為結(jié)構(gòu)化數(shù)據(jù)以實現(xiàn)對情緒的理解[ 2 1 ],但僅局限于對單一情緒的淺層理解,無法很好的駕馭情緒。而算法本身就沒有獨立邏輯,思辨層面更是無法觸及。
從央視利用人工智能發(fā)布的2019年閱兵的報道到百度Vidpress平臺在推出之初發(fā)布的兩段短視頻《公開宣戰(zhàn)?蔣大為嘲諷朱之文不配當(dāng)藝術(shù)家,網(wǎng)友怒批:真是弟弟》與《孫紅雷〈新世界〉大結(jié)局提前泄露,鐵證已出,3點再無反轉(zhuǎn)》可以看出,視頻內(nèi)容僅是素材的堆砌,并無故事化可言。且Vidpress平臺由于是基于圖文鏈接自動合成短視頻,視頻內(nèi)大量的解說詞與素材內(nèi)容的圖文不符問題非常明顯,且算法對素材的挑選也無法從清晰度、畫面穩(wěn)定度、人物呈現(xiàn)效果等專業(yè)角度集中考量,視頻呈現(xiàn)效果并不能滿足專業(yè)性需求。
2.3 技術(shù)濫用變相生產(chǎn)假新聞
算法是一把“雙刃劍”,在利用算法便利合成短視頻的同時我們也不得不考慮到其內(nèi)容真實性誰來保證?歸根結(jié)底,算法邏輯實際是人的思想邏輯的延伸,算法本身無法完成獨立的思考,對其所合成的短視頻內(nèi)容是否真實、是否合乎現(xiàn)實邏輯無法保證。而在互聯(lián)網(wǎng)與社交媒體時代,算法在助力短視頻自動合成的同時也為假新聞的生產(chǎn)推波助瀾。2018年4月約談今日頭條和快手的主要負(fù)責(zé)人,暫停更新視頻,原因是它們包含低俗和不真實的內(nèi)容。
2017年,德國藝術(shù)家馬里奧·克林格曼(Mario Klingeman)發(fā)布了一段名為“另類面孔v1.1”(Alternative Face v1.1)的視頻作品,他利用數(shù)字技術(shù)創(chuàng)建了法國音樂家弗朗索瓦絲·哈迪(Fran·oise Hardy)正在說話的影像,當(dāng)年73歲的哈迪在影片中只有20歲,而從年輕時的她口中“說出”的確是當(dāng)時NBC采訪特朗普的顧問凱莉安娜·康威(Kellyanne Conway)時的錄音[ 2 2 ]。而生成此段“假視頻”的技術(shù)就是短視頻自動合成的技術(shù)——“生成對抗性網(wǎng)絡(luò)”(Generative Adversarial Network)的機(jī)器學(xué)習(xí)算法,克林格曼僅花了幾天就用算法“記錄”了一件從未發(fā)生過的事情。
此類“造假”視頻的危害有多大?從“ZAO”換臉App“一夜走紅,三天下架”事件便可見一斑。算法換臉發(fā)展至今,只需一幅圖片的信息即可完成整個視頻的人臉替換,且效果幾乎可以以假亂真。換臉?biāo)惴ú粌H會造成假新聞的泛濫,同時對公民的個人隱私與財產(chǎn)安全也會造成威脅。
其實假新聞的生產(chǎn)并不需要如此復(fù)雜,將不同情境下的視頻混剪在一起就可能產(chǎn)生歧義?;趦?nèi)容標(biāo)簽的算法模型利用關(guān)鍵詞等標(biāo)簽匹配搜集素材完成拼接,而缺乏對語境的考量,在合成短視頻的過程中生成假新聞也不鮮見。2017年,《洛杉磯時報》自動化新聞系統(tǒng)Quakebot因捕捉到美國地質(zhì)調(diào)查局更新系統(tǒng)是錯誤發(fā)布的數(shù)據(jù),錯誤的報道了加州維拉島(Isla Vista,Calif)發(fā)生里氏6.8級地震,引起社會動蕩[23]。
如今,我們正處于快速發(fā)展的智能媒體時代,基于算法的各項人工智能技術(shù)正越來越廣泛的應(yīng)用于新聞采集、生產(chǎn)、分發(fā)的各個階段,如何向用戶提供相應(yīng)的提示信息應(yīng)當(dāng)成為算法倫理的一部分,由于創(chuàng)作者坦誠算法設(shè)計與應(yīng)用中的局限,不僅可以規(guī)避一些風(fēng)險,還有助于建立與用戶的信任關(guān)系,在具體的實施方式上,可以通過超鏈接的方式兼顧用戶體驗與透明性的實現(xiàn)[24],這既是一種對用戶負(fù)責(zé)的方式,也是坦誠技術(shù)局限,規(guī)避和減輕相關(guān)風(fēng)險的有效措施。
參考文獻(xiàn)
[1]譚樂娟.人工智能技術(shù)在視頻編輯中的應(yīng)用實踐[J].中國傳媒科技,2020(8):125,127.
[2]中國網(wǎng)絡(luò)視聽節(jié)目服務(wù)協(xié)會.2020中國網(wǎng)絡(luò)視聽發(fā)展研究報告.[EB/OL].(2020-10-14)[2021-03-05].https:// www.doc88.com/p-38973161865085.html.
[3]Newman N.Journalism,media,and technology trends and predictions[EB/OL].[2021-03-04].https:// www.digitalnewsreport.org/publications/2019/ journalism-media-technology-trends-predictions-2019/#footnote-21019-50.
[4]趙辰瑋,劉韜,都海虹.算法視域下抖音短視頻平臺視頻推薦模式研究[J].出版廣角,2019(18):76.
[5]呂國英.算法設(shè)計與分析[M].北京:清華大學(xué)出版社,2009:7.
[6]段淳林,宋成.用戶需求、算法推薦與場景匹配:智能廣告的理論邏輯與實踐思考[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報),2020(8):123.
[7]秦艷.AI新聞視頻剪輯的原理與應(yīng)用價值[J].新傳播,2021(1):43.
[8]百度AI.百度研究院又出黑科技,AI全自動合成短視頻,片子也能“躺著剪”[EB/OL].(2020-04-20)[2021-03-25].https://mp.weixin.qq.com/s/ Lcamk9mxElEd3z2l1ryLrw.
[9]索貝時代.里程碑!首次AI剪輯大閱兵在央視新聞![EB/OL].(2019-10-01)[2021-04-03].https:/-/ mp.weixin.qq.com/s/u41je6YIbXiACyQpVvo40w.
[10]蓋伊·塔奇曼.做新聞[M].麻爭旗,劉笑盈,徐揚,譯.北京:華夏出版社,2008:109.
[11]FloraineBerthouzoz ,WilmotLi,ManeeshAgrawala. Tools for Placing Cuts and Transitions in Interview Video[EB/OL].(2012-08)[2021-03-16]. http://kneecap.cs.berkeley.edu/papers/vidtrans/ vidtrans.pdf.
[12]YitongLi,MartinRenqiangMin,DinghanShen,DavidCarlson,LawrenceCarin.Video Generation from Text[EB/OL].(2017-10-01)[2021-03-29]. https://arxiv.org/abs/1710.00421.
[13]李亞山.全民戴口罩,人臉識別算法抓了瞎:89種常見算法都出錯,最高錯誤率達(dá)50%[EB/OL].(2020-08-01)[2021-04-20].https://mp.weixin.qq.com/s/ F16NOJyGajN6yvh2iUm2ig.
[14]張超.釋放數(shù)據(jù)的力量:數(shù)據(jù)新聞生產(chǎn)與倫理研究[M].北京:中國人民大學(xué)出版社,2020:215.
[15]謝開飛,許曉鳳,王憶希.識別深色皮膚女性的平均錯誤率達(dá)35%,誰才是讓AI產(chǎn)生偏見的幕后推手?[EB/ OL].(2020-07-15)[2021-05-01].https://view. inews.qq.com/a/20200715A04EWO00·startextras=0_ fffdcc99ff081&from=xw_dcyzkqw.
[16]Kashmir Hill.Wrongfully Accused by an Algorithm[EB/OL].(2020-06-24)[2021-05-03]. https://www.nytimes.com/2020/06/24/technology/ facial-recognition-arrest.html.
[17]張超.社交平臺假新聞的算法治理:邏輯、局限與協(xié)同治理模式[J].新聞界,2019(11):24.
[18]AwniHannun:Speech Recognition Is Not Solved[EB/ OL].(2017-10-11)[2021-05-11].https://awni. github.io/speech-recognition/.
[19]鄧建國.機(jī)器人新聞:原理、風(fēng)險和影響[J].新聞記者,2016(9):12.
[20]曾祥敏.電視采訪:融合報道中的人、故事與視角[M].北京:中國傳媒大學(xué)出版社,2018:29-30.
[21]IBM中國.揭秘:業(yè)界首支AI剪輯的“電視節(jié)目宣傳片”,它是怎么做到的?[EB/OL].(2017-10-20)[2021-04-03].https://mp.weixin.qq.com/s/ Im3UwyxQDYW97bSurmxMxQ.
[22]經(jīng)濟(jì)學(xué)人集團(tuán).假新聞新戰(zhàn)場:算法生成視頻[EB/OL].(2017-07-26)[2021-05-20].https://mp.weixin. qq.com/s/8pTbYItIPjpO1rck2EOLMQ.
[23]Meredith Broussard,Seth Lewis.Will AI Save Journalism—or Kill It·[EB/OL].(2019-04-09)[2021-05-25].https://knowledge.wharton.upenn. edu/article/ai-in-journalism/.
[24]張超.“后臺”前置:新聞透明性的興起、爭議及其“適度”標(biāo)準(zhǔn)[J].國際新聞界,2020(8):88-109.