內(nèi)容摘要:Sora展示了文本生成視頻的“世界模擬器”的全新可能性,標志著媒介生產(chǎn)自動化與媒體形態(tài)一體化的臨界點,開啟了人類傳播史上又一“谷登堡時刻”。我們需要超越技術(shù)、產(chǎn)品、應(yīng)用和資本等層面,從人類傳播變革的角度,為理解Sora提供一個更加開闊而深入的視角?,F(xiàn)代印刷術(shù)開啟的“谷登堡時刻1.0”通過工業(yè)化信息生產(chǎn)和傳播方式實現(xiàn)了信息傳播持續(xù)線性增長的潛能,跨越長達數(shù)百年的大眾傳播時代,塑造并定義了現(xiàn)代社會。而AI技術(shù)開啟的“谷登堡時刻2.0”通過數(shù)據(jù)和算法實現(xiàn)了信息傳播的指數(shù)化增長,代表了人類傳播的又一次根本性變革,開啟了智能傳播新時代。這一輪變革顛覆并重構(gòu)了人在信息傳播中固有的主體地位,AI生成內(nèi)容將占據(jù)絕對主導(dǎo),全新的人機融合的合成社會即將到來。如何駕馭技術(shù)變革帶來的前所未有的高度不確定性和模糊性,成為最大挑戰(zhàn)。我們亟須進一步把握當前這場智能傳播浪潮的規(guī)律與本質(zhì),以全新的問題域去審視和反思技術(shù)、傳播與社會的互動。
關(guān)鍵詞:Sora;生成式人工智能;AIGC;ChatGPT;智能傳播;谷登堡時刻
課題:中央高?;究蒲袠I(yè)務(wù)費專項資金;國家社科基金重大項目“互聯(lián)網(wǎng)環(huán)境下新聞理論范式創(chuàng)新研究”(編號:21amp;ZD318)
DOI:10.3969/j.issn.2095-0330.2024.03.001
引言:Sora沖擊波:人類傳播的又一次根本性變革
Sora的突現(xiàn)令世人矚目,收獲諸多贊譽。一時間所有人都想知道,該模型到底是如何運作的,它是根據(jù)什么數(shù)據(jù)進行訓(xùn)練的,為什么現(xiàn)在突然發(fā)布它,它的真正用途是什么,以及它未來的發(fā)展對行業(yè)、全球勞動力、整個社會和環(huán)境的影響如何,等等。Sora展現(xiàn)了文本、圖片和視頻等各類媒體之間無縫的自動化生產(chǎn)與跨越的全新可能性,與一年前的ChatGPT一樣,掀起全球輿論的又一場沖擊波。
但是迄今為止,對Sora的認識主要停留在新聞效應(yīng)層面,即從技術(shù)、產(chǎn)品、應(yīng)用和資本等層面所作的解析和主觀研判。也就是說,對以ChatGPT和Sora等轟動性應(yīng)用為代表的AIGC浪潮,各界的認識主要還停留在感性認識層面,部分上升到知性層面,還缺乏系統(tǒng)性的理性認識。人類傳播變革為我們理解Sora提供了一個更加開闊的視角。在諸多命名和論斷中,“谷登堡時刻2.0”可能是最恰當也是最貼切的命名。
人類正處于一個“加速、擴增和民主化”的時代。從印刷術(shù)的發(fā)明到科學(xué)革命、工業(yè)革命和核能革命,再到個人計算機和互聯(lián)網(wǎng),托馬斯·L.弗里德曼(Thomas L.Friedman)將當前的生成式AI時刻稱作人類的“新普羅米修斯時刻”。他認為,相較于以往的變革,當前的變革并非由單個的發(fā)明如印刷機或蒸汽機所推動,而是由一系列相互關(guān)聯(lián)和增強的技術(shù)進步組成的超級循環(huán)所驅(qū)動。這個技術(shù)超級循環(huán)包括了從感知世界、將物理信息數(shù)字化、處理數(shù)據(jù)、機器學(xué)習(xí)、分享信息到采取行動的全過程,人工智能在這一循環(huán)中起到了重要作用。同時,我們不該忽視傳播在這個技術(shù)超級循環(huán)過程中所扮演的核心角色,它是連接各個技術(shù)環(huán)節(jié)的關(guān)鍵紐帶。從感知世界到采取行動的過程中,信息的生產(chǎn)和分發(fā)是至關(guān)重要的。人工智能不僅進一步加速了這個過程,還推動著社會信息傳播范式的轉(zhuǎn)變。
在這個意義上,我們可以說Sora沖擊波的本質(zhì)是人類傳播繼谷登堡現(xiàn)代印刷術(shù)之后的又一次根本性變革。顯然,ChatGPT和Sora僅僅是這一輪技術(shù)浪潮的開端而已,更多突破性的技術(shù)、產(chǎn)品與應(yīng)用還將層出不窮。但是,這一切都離不開“谷登堡時刻”的基本邏輯和框架。那就是,15世紀中葉現(xiàn)代印刷術(shù)的誕生,使圖書出版從手工作坊走向工業(yè)化生產(chǎn)。而今,人類信息生產(chǎn)和傳播超越人的環(huán)節(jié)進入一個數(shù)據(jù)和技術(shù)驅(qū)動、信息量可以實現(xiàn)指數(shù)級持續(xù)增長的全新時代。今天的人類社會,顯然還沒有為迎接這一新時代做好基本的準備。也因此,ChatGPT和Sora會帶來如此巨大的全球震動。
一、觀察S o r a 的三個視角及“ 三個時刻”
對于現(xiàn)代印刷術(shù)的影響,啟蒙運動者格奧爾格·克里斯托弗·利希滕貝格(Georg ChristophLichtenberg)說:“比起彈丸中的鉛,排字盒中的鉛更多地改變了世界。”雖然圍繞Sora的評價眾說紛紜,但是,結(jié)合年鑒學(xué)派費爾南·布羅代爾(Fernand Braudel)的時段理論,基本上可以分成三個視角:技術(shù)和產(chǎn)品層面的短時段視角,產(chǎn)業(yè)格局和行業(yè)變革的中時段視角,以及社會傳播變革與人類文明進程的長時段視角。三個視角交織綜合在一起,造成人們對Sora認知和評價的多樣性。
我們圍繞三個視角,概括Sora引發(fā)的變革,可以發(fā)現(xiàn)幾個著名的“時刻”。一個是“iPhone時刻”。2023年3月23日GTC大會上英偉達CEO黃仁勛將ChatGPT的出現(xiàn)比喻為“iPhone時刻”,其特指一個革命性的轉(zhuǎn)變時刻——喬布斯在2007年發(fā)布的第一代iPhone,標志著手機行業(yè)迎來了重大變局。從技術(shù)、產(chǎn)品和應(yīng)用視角,以開啟移動時代的“iPhone時刻”來比喻,很生動直觀。另一個是“衛(wèi)星時刻”,也被稱為“Sputnik時刻”。蘇聯(lián)在1957年發(fā)射人類首顆人造衛(wèi)星Sputnik 1,蘇聯(lián)這一劃時代成就當即在西方世界引發(fā)了一場“衛(wèi)星地震”,尤其是在美國人當中喚起了一種強烈而復(fù)雜的感受。因此,以“Sputnik時刻”來比喻國家創(chuàng)新和科技發(fā)展面臨的挑戰(zhàn),形象貼切。克勞斯-呂迪格·馬伊(Klaus-R diger Mai)將谷登堡稱為“500年前塑造今日世界的人”?!盎蛟S可以說,谷登堡的印刷機是從中世紀晚期進入近代的社會范式徹底轉(zhuǎn)變的標志,因為它通過改變傳播而深刻地影響了人們的生活,從而改變了社會?!备匾霓D(zhuǎn)折是,“個體——一個此前無人了解的思想史單位——從此踏上了世界的舞臺,之前還依賴于上帝的主體迅速成為行為者和決策者。在傳播領(lǐng)域,個體成為作者,個人獲得的著作權(quán)保障了其作為作者的身份。人一躍成為創(chuàng)造者,而且也自知這一身份?!币虼耍绻暧^、深入、系統(tǒng)地洞察Sora沖擊波的變革與影響,我們認為將其稱為“谷登堡時刻”,更契合本質(zhì),也更富有學(xué)理。傳播是人類和社會存在的基本方式。一部人類傳播史,就是一部人類文明史。回顧人類信息傳播變革的歷程,我們會發(fā)現(xiàn),無論是互聯(lián)網(wǎng)還是ChatGPT,抑或是Sora,都是傳播變革宏大進程中的一朵浪花。它們并非突如其來的創(chuàng)新,而是歷史演進邏輯中的一個關(guān)鍵節(jié)點。從傳播歷史的維度審視Sora的意義,可以發(fā)現(xiàn)更深遠的進程和邏輯。
如果說15世紀中葉谷登堡推動印刷術(shù)普及引發(fā)的變革可以稱為谷登堡時刻1.0,那么,今天ChatGPT和Sora引發(fā)的革命可以稱為谷登堡時刻2.0。谷登堡時刻1.0開啟大眾傳播時代,確立了人的主體性。而谷登堡時刻2.0正式開啟智能傳播時代,將顛覆并重構(gòu)人的固有主體地位。AI生成內(nèi)容將占據(jù)絕對主導(dǎo),人機融合的全新的合成社會(Synthetic Society)將到來。生成式AI以及深度偽造、類人機器人、增強現(xiàn)實和虛擬現(xiàn)實等技術(shù)建構(gòu)的合成社會,將從人類生存方式上模糊真實和虛擬的界限。
這幾個“時刻”可以大致對應(yīng)于布羅代爾的短時段、中時段和長時段的劃分。當然,它們之間的界限并不是涇渭分明的,而是有著相當程度的重合。不同的視角為我們理解Sora呈現(xiàn)了不同的邏輯,具有不同的深度和廣度。
從人類傳播歷史進程看,這一輪以ChatGPT和Sora等生成式AI為代表的智能傳播的新突破,很可能開啟第二次谷登堡時刻。正如基辛格等人所言,“生成式AI提出了自啟蒙運動以來從未經(jīng)歷過的哲學(xué)和實踐挑戰(zhàn)。一項新技術(shù)(生成式 AI)正試圖改變?nèi)祟愓J知過程,這是自印刷術(shù)發(fā)明以來從未經(jīng)歷過的震動……隨著它的能力變得更廣泛,它們將重新定義人類知識,加速我們現(xiàn)實構(gòu)造的變化,并重組政治和社會”。 盡管生成式 AI技術(shù)的研究仍處于起步階段,但隨著技術(shù)的迭代和各種AI 應(yīng)用和產(chǎn)品的發(fā)展,這項顛覆性技術(shù)或成為撬動第四次工業(yè)革命的杠桿,引發(fā)包括傳播機制變革、生產(chǎn)方式變革、科研范式變革、教育形式變革和生活方式變革等在內(nèi)的人類社會更深層次的變革,從而徹底改變?nèi)祟惖纳?、學(xué)習(xí)和工作方式,甚至人類的思維。其最大的變革就是實現(xiàn)了以數(shù)據(jù)和AI技術(shù)驅(qū)動的信息傳播的指數(shù)級增長。
相較于智能傳播,20世紀80—90年代的網(wǎng)絡(luò)傳播和21世紀頭10年的社交傳播,處于兩次谷登堡時刻的過渡階段?;ヂ?lián)網(wǎng)革命的短短30年間,人類信息傳播從大眾傳播、網(wǎng)絡(luò)傳播、社交傳播轉(zhuǎn)變?yōu)橹悄軅鞑?。全局性的革命似乎才真正啟航,而過去30年更像是一場“超級熱身賽”。當然,目前這一變革浪潮的序幕才剛剛拉開,其未來演進的圖景和產(chǎn)生的影響,依然充滿更多的未知和風(fēng)險。
二、谷登堡時刻的共同特性:高度的不確定性和模糊性
迄今為止,人們對Sora影響的預(yù)測可謂悲喜交加。OpenAI聲稱,Sora將成為實現(xiàn)通用人工智能(AGI)的重要里程碑,是朝著AGI邁出的關(guān)鍵一步。特別是隨著Sora技術(shù)的發(fā)展和普及,AI在創(chuàng)造性任務(wù)中扮演的角色將持續(xù)拓展。目前透露出的狀況正預(yù)示著各行各業(yè)都將經(jīng)歷一次創(chuàng)新和變革的浪潮。Sora不僅僅是一個視頻生成模型,作為一個能夠模擬世界的“數(shù)據(jù)驅(qū)動的物理引擎”,它能夠從大量真實世界的視頻中理解物理定律和現(xiàn)象。
人們對Sora的主要擔憂是其社會和道德影響。Sora的出現(xiàn)可能會進一步模糊真實與虛構(gòu)之間的界限,涉及大量的深度偽造和虛假信息,從而加劇“后真相”狀況,我們無意中建立了一個“宣傳引擎”(propaganda engines)的世界,并越來越接近難以區(qū)分真假的時代。作為一個先進的AI視頻生成模型,Sora能夠提供更直觀的3D建模和動畫工具,促進教育和培訓(xùn),加快電影和游戲制作流程,推動虛擬現(xiàn)實和擴展現(xiàn)實內(nèi)容的創(chuàng)新。但它也可能導(dǎo)致影視、游戲、廣告和短視頻等相關(guān)行業(yè)的運行模式出現(xiàn)變革,而大量失業(yè)則將構(gòu)成重大社會風(fēng)險;Sora改善和簡化視頻敘事的同時,也可能加劇互聯(lián)網(wǎng)虛假信息傳播,助長政治傳播和社會偏見等風(fēng)險;它還可能被用來影響選舉,危及公共衛(wèi)生措施,甚至可能因潛在的虛假證據(jù)而給司法系統(tǒng)帶來負擔。史蒂文·利維(Steven Levy)稱Sora可能成為“虛假信息的大災(zāi)難”(misinformationtrain wreck)。加州大學(xué)伯克利分校的哈尼·法里德(Hany Farid)認為,Sora技術(shù)如果與AI 驅(qū)動的語音克?。╲oice cloning)相結(jié)合,可能為深度偽造開辟出一個全新前沿。因此,如何確保Sora這樣的先進技術(shù)不會成為虛假信息的傳播工具成為一項巨大挑戰(zhàn);如何防范其被用于制造虛假信息、惡意誤導(dǎo)公眾將成為一個亟待解決的社會議題;如何界定機器生成視頻的版權(quán)歸屬、防止濫用侵權(quán)行為成為法律法規(guī)和倫理規(guī)范需要面對的重要問題;監(jiān)管層和技術(shù)開發(fā)者共同面臨著來自隱私安全問題的嚴峻考驗。
從短期來看,Sora可以被視為一種工具,在技術(shù)維度仍然有很多問題需要解決,但有評論家提醒人們不該忽視Sora的雙重性。AI是資本邏輯在當代的重要體現(xiàn)。對于OpenAI來說,Sora的重點不止于視頻,還應(yīng)考慮其戰(zhàn)略維度。通過消費者產(chǎn)品、企業(yè)銷售以及開發(fā)者社區(qū)建設(shè),OpenAI在當前的人工智能領(lǐng)域占據(jù)了領(lǐng)先地位。具體而言,通過消費者產(chǎn)品和企業(yè)解決方案的實踐,OpenAI不斷提升其技術(shù)水平,為生成式模型設(shè)立了新的標準。同時,通過社區(qū)建設(shè),其AI應(yīng)用更為廣泛和深入。在對AGI的定義和目標上,OpenAI也不斷探索著這一領(lǐng)域的邊界,試圖定義和構(gòu)建未來AGI的可能形態(tài)。此外,ChatGPT和Sora等生成式 AI對人類全量知識進行整合的能力,對以知識傳授為主的教育理念帶來了巨大挑戰(zhàn)。當我們探索Sora能力的含義時,還必須考慮生活在一個眼見不再可信、真實與人造之間的界限變得越來越模糊的世界給人帶來的心理影響,其可能引發(fā)關(guān)于信任、信仰以及數(shù)字增強世界中人類經(jīng)驗本質(zhì)的重要問題。
這種巨大的不確定性和模糊性,同樣發(fā)生在印刷革命之后。事實上,直到今天,圍繞印刷術(shù)的社會影響及其變革意義,依然存在極大的分歧。這一方面涉及究竟如何認識傳播在社會建構(gòu)和變革中的角色與作用,另一方面涉及關(guān)于技術(shù)對傳播的影響與作用機制的認識。迄今為止,人們對信息傳播在人類社會發(fā)展中的重要性,都缺乏基本的認識,其經(jīng)常從屬于政治、經(jīng)濟和技術(shù)等因素。而事實上,傳播更可能是政治、經(jīng)濟和社會,甚至也是技術(shù)發(fā)展演進的關(guān)鍵因素。馬克思認為:“火藥、指南針、印刷術(shù)——這是預(yù)告資產(chǎn)階級社會到來的三大發(fā)明?;鹚幇羊T士階級炸得粉碎,指南針打開了世界市場并建立了殖民地,而印刷術(shù)則變成了新教的工具,總的來說變成科學(xué)復(fù)興的手段,變成對精神發(fā)展創(chuàng)造必要前提的最強大的杠桿?!瘪R歇爾·麥克盧漢(Marshall McLuhan)更加突出了印刷術(shù)對資本主義經(jīng)濟發(fā)展的關(guān)鍵作用。印刷術(shù)引起工業(yè)革命——“事實上,活字印刷是一切裝配線的祖先”。
美國史學(xué)家、傳播學(xué)家,媒介環(huán)境學(xué)派代表人物伊麗莎白·愛森斯坦(Elisabeth Eisenstein)認為,作為文藝復(fù)興、宗教改革、科學(xué)革命三大思想運動的“變革動因”,印刷術(shù)是一個完全獨立的技術(shù)構(gòu)件,對當時及其后的政治、經(jīng)濟、社會等方面都有重要影響。她對各學(xué)科廣泛認可并引用的馬克斯·韋伯的《新教倫理與資本主義精神》中對資本主義起源和西方理性化內(nèi)在動因的解析,以及更被廣泛引用的托馬斯·庫恩(Thomas Kuhn)的《科學(xué)革命的結(jié)構(gòu)》對科學(xué)范式轉(zhuǎn)變的內(nèi)在原因的分析,都提出了強有力的質(zhì)疑,并都將印刷術(shù)掀起的大眾傳播作為上述變革真正的根本動因。馬克斯·韋伯主張新教倫理觀念和生活方式為資本主義精神的形成提供了重要的精神動力。他認為,新教徒對勤勉工作的重視、對世俗事務(wù)的合理安排,以及對經(jīng)濟成功作為神賜福分的解讀,為早期資本主義的發(fā)展提供了道德上的正當性和精神上的推動力。然而,他忽略了“這一切都和宗教思想的傳播有關(guān),沒有印刷機,宗教改革這樣一場重大的革命是不可能完成的”。印刷術(shù)的出現(xiàn)是新教革命重要的先決條件。它使知識的存儲和傳播更為便捷和廣泛,從而加快了知識積累的速度;通過大量復(fù)制而保持一致的文本,為封建傳統(tǒng)知識權(quán)威的崩潰和現(xiàn)代知識體系的建立鋪平了道路,為資本主義和理性化的興起提供了更為具體和實質(zhì)性的基礎(chǔ)。愛森斯坦的研究提供了一個清晰的邏輯來解析資本主義和西方理性化的復(fù)雜起源,即傳播革命是加強韋伯所說的新教倫理與資本主義精神之間關(guān)系的一個決定性因素。愛森斯坦還提供了一個新的視角,用以理解科學(xué)知識如何在早期現(xiàn)代歐洲得以迅速傳播和接受。托馬斯·庫恩聚焦于科學(xué)領(lǐng)域內(nèi)部的變化,討論了科學(xué)理論和實踐中的范式轉(zhuǎn)變,即科學(xué)發(fā)展并非通過逐步積累知識,而是通過一系列的革命性轉(zhuǎn)變,這些轉(zhuǎn)變涉及基礎(chǔ)理論和觀念的根本性更替。科學(xué)共同體在一個穩(wěn)定的范式下工作,直到積累起來的反常現(xiàn)象和問題導(dǎo)致現(xiàn)有范式不足以解決,隨后發(fā)生一場科學(xué)革命,產(chǎn)生新的范式。而愛森斯坦則認為,印刷術(shù)的發(fā)明和普及使得科學(xué)知識可以更廣泛、更迅速地傳播,使更多的人能夠接觸到這些知識,并參與到科學(xué)辯論和研究中。這種信息傳播的加速可能促使了科學(xué)理論的更迅速接受和集體思維的變化,從而有利于科學(xué)范式的形成和更替。
同樣,將傳播視為變革的最根本驅(qū)動,來理解和研判Sora的發(fā)展趨勢和社會變革,可能才是最經(jīng)得起中長時段檢驗的視角。技術(shù)不僅僅是一個工具或者平臺,其傳播和采納過程實際上是一個動態(tài)的、交互的過程。作為技術(shù)體系的傳播邏輯不僅是參與控制的內(nèi)在機制的形式,更多是參與社會構(gòu)建的闡釋機制的增量。換言之,智能技術(shù)的傳播方式不僅影響信息的控制和管理(包括算法、數(shù)據(jù)處理和用戶界面設(shè)計等),也影響信息的社會構(gòu)建作用的發(fā)揮。它深度參與社會認知的形成和價值觀的塑造,并在社會構(gòu)建中逐漸形成新的社會實踐、交流方式和思維模式。
三、Sora文本生成視頻的原理與機制
如何理解Sora沖擊波,首先需要從其底層的核心技術(shù)革新和潛在發(fā)展來理解其意義。同時,這也將為理解此類技術(shù)對傳播學(xué)所產(chǎn)生的沖擊的內(nèi)在驅(qū)動力提供基礎(chǔ)。了解這些技術(shù)的本質(zhì)和發(fā)展軌跡對于預(yù)見它們將如何影響傳播至關(guān)重要。
Sora在技術(shù)層面被視為“視頻生成的GPT-2時刻”。它的主要功能是將文本描述轉(zhuǎn)化為視頻內(nèi)容,這一過程的核心在于解析語言表達背后的復(fù)雜場景和動態(tài)視覺信息。正如OpenAI在其技術(shù)論文中所解釋的,Sora是基于之前在圖像數(shù)據(jù)生成建模方面的研究而構(gòu)建的,如圖像生成器DALL-E和GPT大語言模型等。以往的研究采用了循環(huán)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)(GANs)、自回歸Transformer和擴散模型等多種方法,但其往往專注于某一狹窄的視覺數(shù)據(jù)類別、較短的或固定大小的視頻。Sora則超越了這些限制,并且在生成不同持續(xù)時間、寬高比和分辨率的視頻方面有了顯著的改進。它通過結(jié)合對語言的深刻理解和視覺上下文以及準確解釋提示來保持敘事的一致性,從給定的提示中捕捉角色的情感和個性,并將它們作為富有表現(xiàn)力的角色特征在視頻中呈現(xiàn)出來。處理視覺數(shù)據(jù)的統(tǒng)一表征(unified representation of visual Data)是Sora技術(shù)的核心突破,對于大規(guī)模訓(xùn)練生成模型以及生成各種視覺內(nèi)容的能力而言必不可少。從視覺數(shù)據(jù)到視覺子塊(visual patches)的轉(zhuǎn)變是Sora處理視覺內(nèi)容的關(guān)鍵,即將圖像分割成序列化的時空子塊(Spacetime Patches),并將其作為視頻處理的基本單位。簡言之,Sora 是通過對視頻數(shù)據(jù)的學(xué)習(xí)來理解現(xiàn)實世界的動態(tài)變化,并用計算機視覺技術(shù)模擬這些變化,從而創(chuàng)造出新的視覺內(nèi)容。但值得注意的是,Sora學(xué)習(xí)的不僅僅是視頻,也不僅僅是視頻里的畫面、像素點,它還學(xué)習(xí)視頻里面那個世界的“物理規(guī)律”。
生成式AI技術(shù)的歷史可以追溯到20世紀50年代的隱馬爾可夫模型(hidden markov models,HMM)和高斯混合模型(ga u s s i a n m i x t u r emodels,GMM)。從最原始的編程技術(shù)控制計算機實現(xiàn)內(nèi)容輸出,到大規(guī)模數(shù)據(jù)庫的可用性增強和計算設(shè)備性能的提高帶來的可用性增強,從生成對抗性網(wǎng)絡(luò)(GANs)到大規(guī)模數(shù)據(jù)集的可用性不斷增強,直到深度學(xué)習(xí)的出現(xiàn),生成模型的性能才有了顯著的提高。生成式模型在自然語言生成(natural language generation)、圖像生成(image generation)和多模態(tài)機器學(xué)習(xí)(multimodal machine learning)等領(lǐng)域的發(fā)展遵循著不同的路徑 ,但最終聚焦在自注意力模型(transformer)架構(gòu)上。作為一種神經(jīng)網(wǎng)絡(luò)架構(gòu),transformer模型在自然語言處理(NLP)領(lǐng)域(如ChatGPT)引發(fā)了一場革命性變化。同時,它也是Sora的技術(shù)底座。阿列克謝·多索維斯基(Alexey Dosovitskiy)等人將transformer原理應(yīng)用于圖像識別,將transformer模型(通常用于處理語言和文字的模型)轉(zhuǎn)化為處理視覺內(nèi)容的工具,突破了transformer模型在計算機視覺應(yīng)用中存在的局限,使模型在理解整個圖像的內(nèi)容和結(jié)構(gòu)上變得更加靈活和高效。
作為對視覺自注意力模型(vision transformer,ViT)概念的進一步擴展,視頻視覺自注意力模型(video vision transformer,ViViT)被應(yīng)用于視頻的多維數(shù)據(jù)。它通過將視頻分解為時空子塊(spatiotemporal patches),并將這些子塊作為transformer模型內(nèi)的詞元來處理,同時捕捉視頻中的靜態(tài)元素和動態(tài)元素,并建模它們之間的復(fù)雜關(guān)系。在此基礎(chǔ)上,莫斯塔法·德加尼(Mostafa Dehghani)等人提出原生分辨率視覺自注意力模型(native resolution visiontransformer,NaViT),將其用于處理任意寬高比或分辨率的圖像,進一步拓寬ViT應(yīng)用范圍。這在視覺識別領(lǐng)域是一個重要突破。
擴散模型(diffusion models)對Sora的影響顯著且意義重大,尤其是在數(shù)據(jù)利用和生成能力方面。它以少量數(shù)據(jù)作為訓(xùn)練基礎(chǔ),不僅提高了數(shù)據(jù)的利用效率,還極大地拓展了其生成各種高質(zhì)量視覺內(nèi)容的能力。這種能力對媒體內(nèi)容創(chuàng)造、游戲開發(fā)、虛擬現(xiàn)實等眾多領(lǐng)域都具有深遠的影響。更進一步,隱性空間擴散模型(latent diffusionmodels)為視頻內(nèi)容的高效處理和高質(zhì)量生成開辟了新的途徑。這種在隱性空間內(nèi)進行高效數(shù)據(jù)處理和生成的能力,使Sora在視頻合成和編輯領(lǐng)域的能力得到顯著增強,不僅提高了效率和質(zhì)量,也增大了在資源受限的設(shè)備上進行高級視覺內(nèi)容創(chuàng)建和修改的可能性。
擴散自注意力模型(diffusion transformer,DiT)成為Sora得以實現(xiàn)的最關(guān)鍵技術(shù)。它允許更有效地處理圖像貼片,使其在有效利用計算資源的同時,生成高質(zhì)量的圖像。DiT為Sora提供了一個強大的框架,以便更深入地學(xué)習(xí)和模擬復(fù)雜數(shù)據(jù)分布,這對于視頻內(nèi)容的生成尤為關(guān)鍵。在生成高質(zhì)量圖像方面,DiT比傳統(tǒng)擴散模型擁有更低的計算成本。這種技術(shù)的使用標志著在利用深度學(xué)習(xí)模型進行內(nèi)容創(chuàng)造方面的一個重要進步,對于增強現(xiàn)實、電影產(chǎn)業(yè)、游戲開發(fā)以及自動內(nèi)容生成等領(lǐng)域都有著潛在的深刻影響。
四、Sora標志著媒介生產(chǎn)自動化與媒體形態(tài)一體化的臨界點
OpenAI承認目前Sora存在的一些局限,包括物理準確性差(難以模擬復(fù)雜的物理動力學(xué)原理,導(dǎo)致視頻可能不完全符合現(xiàn)實世界的原則)、連續(xù)性錯誤(保持較長視頻序列的連續(xù)性仍然是一個挑戰(zhàn),對象位置或行為偶爾會不一致)、對因果關(guān)系的把握有限、空間細節(jié)不準確。但是,Sora的后續(xù)演進必將沿著現(xiàn)有的變革邏輯繼續(xù)深化下去。
對于Sora的社會影響和可能圖景,人們基本還是基于各自不同學(xué)科、不同視角來思考。但是,Sora正在多個方面重新定義AI視頻生成模型的標準,也產(chǎn)生了一些已經(jīng)確定的新變革。
1. 物理世界模擬器
以往的AI生成視頻大部分是基于“大模型+大數(shù)據(jù)”架構(gòu),難以突破AI幻覺問題。Sora已經(jīng)具有了“世界模型”的雛形,其生成的視頻是基于對真實物理世界的理解和重建。一方面,通過觀察和學(xué)習(xí)海量視頻數(shù)據(jù),Sora 能夠通過掌握視頻世界中時空子塊單元之間的物理規(guī)律建立需遵守的模式,進而利用這些模式約束時空子塊的組合。例如,它能有效模擬人物、動物或物品被遮擋或離開/回到視線的場景。另一方面,Sora 對來自物理世界的人、動物和環(huán)境等的模擬是在沒有經(jīng)過3D、物理等明確數(shù)據(jù)標記的情況下發(fā)生的,完全得益于規(guī)模效應(yīng),這種涌現(xiàn)能力被看作其最引人注目的突破性特征。它不僅證明了DiT模型可以通過海量數(shù)據(jù)的學(xué)習(xí),以“直覺”的方式理解整個物理世界,并表達各種物理規(guī)律,還指出了一條通向AGI的可行的技術(shù)路線。
2. 視頻時間長度、分辨率和寬高比
Sora的最大支持長度達到60秒,目前整個行業(yè)所公布的單個連貫性視頻的最大長度是1 6秒,行業(yè)的普遍水平是2—4秒。Sora在時長上的突破得益于NaViT技術(shù),Sora能夠生成寬屏的1920×1080p視頻、豎屏的1080×1920視頻以及它們之間的各種格式,可以為不同類型的設(shè)備創(chuàng)建任何分辨率的視覺內(nèi)容。這種能力的提升大大擴展了自動生成內(nèi)容在不同場景和平臺中的應(yīng)用范圍,進一步推動了媒介形態(tài)的一體化發(fā)展。
3. 鏡頭切換、畫面流暢性和時空一致性
此前AI生成視頻產(chǎn)品都是單鏡頭單生成,Sora生成的視頻,能夠在保持主體一致性的前提下實現(xiàn)多角度鏡頭無縫切換,整個畫面干凈流暢。雖然目前還沒有技術(shù)論文直接涉及該特征,但Sora能夠生成動態(tài)攝像機運動的視頻。隨著攝像機的移動和旋轉(zhuǎn),人物和場景元素在三維空間保持一致的移動。這也表明生成式AI在理解和表現(xiàn)復(fù)雜敘事結(jié)構(gòu)方面取得了巨大進展,是電影、電視和在線視頻內(nèi)容生產(chǎn)領(lǐng)域的重大變革。
4. 各類媒介形態(tài)的自動化生產(chǎn)和無縫一體化轉(zhuǎn)換
多媒體內(nèi)容制作將變得更加高效,內(nèi)容創(chuàng)作者可以在不同的媒介形態(tài)之間更加輕松地轉(zhuǎn)換和再創(chuàng)造內(nèi)容。特別是對于內(nèi)容生產(chǎn)和分發(fā)的生態(tài)系統(tǒng)來說,這是一個根本性的變化。然而,實現(xiàn)高質(zhì)量的無縫一體化轉(zhuǎn)換仍然面臨挑戰(zhàn),如要確保轉(zhuǎn)換的準確性、保留內(nèi)容的意圖和情感、處理復(fù)雜或模糊的內(nèi)容以及確保轉(zhuǎn)換內(nèi)容的自然流暢性。
以Sora為代表的AI生成視頻技術(shù)的不斷發(fā)展,無疑將塑造文化規(guī)范、影響經(jīng)濟模式并挑戰(zhàn)法律框架。它的社會影響超越了真實性和隱私,涵蓋技術(shù)在塑造人類經(jīng)驗中的作用等更多問題。
五、兩次谷登堡時刻:變革的邏輯與進程
簡單地說,傳播就是信息的生產(chǎn)、處理、傳遞和接收的過程。我們可以將傳播簡化為信息的生產(chǎn)和傳遞兩個關(guān)鍵過程。顯然,谷登堡印刷術(shù)開啟的機械復(fù)制的廣泛應(yīng)用是智能技術(shù)出現(xiàn)之前最大的一次變革。這一次變革的主要作用,就是使人類傳播擺脫了人類生理條件和自然條件的局限性,借助科學(xué)和工業(yè)革命,印刷術(shù)開啟了傳播信息的大規(guī)模生產(chǎn)和傳遞,實現(xiàn)了信息傳播的線性增長,人類進入大眾傳播階段。我們把它稱為第一次谷登堡時刻,即谷登堡時刻1.0。不可否認,該時刻的來臨有著中國發(fā)明印刷術(shù)等一系列準備和鋪墊。但是,真正的爆發(fā)還是在歐洲,其迎來了長達數(shù)百年的大眾傳播時代。
第一次谷登堡時刻的來臨始于印刷機這項革命性發(fā)明。印刷革命在所有方面都是其他革命的起源,推動了歐洲文化、宗教和政策的發(fā)展。尼古拉·德·孔多塞(Marquis de Condorcet)將印刷機視為人類思想進步的里程碑之一。它確保了文藝復(fù)興的成果能夠經(jīng)久不衰,也保證了像中世紀那樣對知識和思想的遮蔽永不會再次發(fā)生。西格弗里德·H.斯坦伯格(Sigfrid H.Steinberg)在其著作《五百年的印刷史》中指出:“印刷史是整個文明史不可分割的一部分?!彼J為,無論是政治、憲法、教會和經(jīng)濟事件,還是社會學(xué)、哲學(xué)和文學(xué)運動,如果不考慮印刷術(shù)對它們的影響,都無法完全理解。盡管威爾伯·施拉姆(WilburSchramm)將印刷機視為大眾傳播的開端,但在相當長的一段時間內(nèi)它仍是一種“未被承認的革命”——作為引起傳播變革的動因,它在關(guān)于文藝復(fù)興、宗教改革和科學(xué)革命的敘述中被低估了。愛森斯坦強烈呼吁將印刷史帶入現(xiàn)代性的問題核心。她指出,“不能僅僅把印刷術(shù)當作復(fù)雜因果關(guān)系中的許多要素之一,這是因為傳播變革使因果關(guān)系的性質(zhì)變了”。
“一個歷史時期已經(jīng)因印刷革命而開啟。不僅是火和鐵的發(fā)現(xiàn),抑或是國家和戰(zhàn)爭的發(fā)展,信息的傳播同樣創(chuàng)造了文化和文明?!边@場由印刷術(shù)引發(fā)的革命性變革,使人類復(fù)制信息的能力發(fā)生了一次飛躍,使知識的大規(guī)模傳播成為可能,改變了人類存儲和檢索知識的方式 ,而且深刻影響了社會結(jié)構(gòu)、經(jīng)濟活動和文化形態(tài),可以說是現(xiàn)代世界發(fā)展的重要基石。在費爾南·布羅代爾看來,大眾傳播不是一個單純自生自長的現(xiàn)象,更不是傳播活動的總和,其復(fù)雜性只有在經(jīng)濟生活以及社會生活的整體中才能被理解,而經(jīng)濟生活與社會生活是在不斷變化的;同時,其復(fù)雜性本身也不斷在進化和演化,隨時會改變其意義或影響。作為大眾傳播的一個重要起點,谷登堡印刷術(shù)標志著大規(guī)模信息傳播時代的開始,信息傳播從精英化轉(zhuǎn)變?yōu)榇蟊娀?,從而對信息標準化、觀念和知識的廣泛傳播、社會動員與改革、新聞出版業(yè)的興起等產(chǎn)生了深遠的影響。
如果說第一次谷登堡時刻是由機械復(fù)制開啟的,那么,第二次谷登堡時刻,即谷登堡時刻2.0,則是由擬像開啟的。生產(chǎn)被再生產(chǎn)所取代,真實連同其參照物一起消失了,只剩下比真實還要真實的“超真實”,以及代碼相互參照且對立的、自娛自樂的狂歡。法國哲學(xué)家讓·鮑德里亞(JeanBaudrillard)將傳播描述為“一場大型的同義反復(fù)的操作,一場大型的自我實現(xiàn)的預(yù)言”。這意味著在某種程度上,傳播的過程不再服務(wù)于傳遞新信息或創(chuàng)造新的理解,而是變成了一種循環(huán)的自我確認的活動。在這個過程中,信息的傳播不再引發(fā)深刻的溝通或?qū)嵸|(zhì)的變化,而是成為一個自我強化的模式,即便這些信息可能是冗余的、重復(fù)的或者缺乏實際內(nèi)容。鮑德里亞的論述并不是一個絕對的判斷,而是一種批判性反思。他讓我們對信息傳播機制保持批判性思考,并警惕其可能對個體認知和社會結(jié)構(gòu)產(chǎn)生的長期影響。如今的狀況是,生成式AI進一步將擬像從視覺和符號領(lǐng)域帶入認知領(lǐng)域。
從以TikTok為代表的由數(shù)據(jù)和算法驅(qū)動內(nèi)容分發(fā)變革的上半場,到以ChatGPT和Sora為代表的生成式AI的下半場,智能傳播將大眾傳播、網(wǎng)絡(luò)傳播和社交傳播都變成了特例。數(shù)據(jù)主義將數(shù)據(jù)看作信息社會人類生活的中心。歷經(jīng)原始神秘主義和近代人文主義,人類社會已經(jīng)進入數(shù)據(jù)主義主導(dǎo)的時代。數(shù)據(jù)正在成為人類社會發(fā)展的核心要素。也正如尤瓦爾·諾亞·赫拉利(Yuval NoahHarari)認為的,如果把人類看作數(shù)據(jù)處理系統(tǒng)的發(fā)展過程,人類社會的發(fā)展可以劃分為認知革命時代、農(nóng)業(yè)革命時代、工業(yè)革命時代和數(shù)據(jù)革命時代。在數(shù)據(jù)革命影響下,新媒體技術(shù)理論和實踐應(yīng)用深刻改變著人類的傳播活動、傳播行為和傳播觀念,并驅(qū)動著人類走向萬物互聯(lián)的新世界。然而,人工智能生成內(nèi)容(AIGC)的生產(chǎn)模式實現(xiàn)了整體性的信息傳播格局顛覆,第一次奪走了人類對信息流的主導(dǎo),使傳播指向一個無限的開放系統(tǒng)。如今看來,盧西亞諾·弗洛里迪(LucianoFloridi)關(guān)于“三級技術(shù)”的論斷似乎正成為現(xiàn)實。作為使用者的技術(shù)與作為敦促者的技術(shù)一旦被媒介技術(shù)關(guān)聯(lián)在一起,形成技術(shù)—技術(shù)—技術(shù)的連接方式,技術(shù)就會開始呈指數(shù)級發(fā)展。智能和自主將不再是人類獨有的特性,一個超歷史的、依賴于三級技術(shù)的社會可以脫離人類而獨立存在。
生成式AI不僅對人類經(jīng)濟和社會秩序的組織原則發(fā)起挑戰(zhàn),它還是具有政治和文化顛覆性的自主技術(shù)的又一個例證,扮演著塑造知識、傳播和權(quán)力的角色。在凱特·克勞福德(Kate Crawford)看來,“人工智能既不人工,也不智能”,它完全依賴于一套更廣泛的政治和社會結(jié)構(gòu)。AI還是一種權(quán)力,是技術(shù)和社會實踐、機構(gòu)和基礎(chǔ)設(shè)施、政治和文化的綜合體,既反映又產(chǎn)生社會關(guān)系和對世界的理解。因此,我們只有在理解了新技術(shù)如何改變價值觀、權(quán)力結(jié)構(gòu)和社會結(jié)構(gòu)之后,才能知道什么是真正的進步。
六、谷登堡時刻2.0將如何重構(gòu)傳播格局
第二次谷登堡時刻剛剛拉開序幕,盡管ChatGPT和Sora等強勢“出圈”,但是,未來智能傳播的新的主導(dǎo)性技術(shù)、應(yīng)用與企業(yè),依然不明朗。盡管AIGC助推了AI芯片的全球需求,催生了英偉達這樣市值高達2萬億美元的超級企業(yè),但是,智能浪潮的產(chǎn)業(yè)格局并沒有塵埃落定。
當然,根據(jù)傳播變革的邏輯,在基礎(chǔ)、模型、應(yīng)用和制度的四層架構(gòu)下,大致的圖景開始有了一定的邏輯和輪廓,為我們把握這場變革提供了很好的理解框架。
其一,底層的關(guān)鍵基礎(chǔ)設(shè)施是以TCP/IP為基礎(chǔ)的互聯(lián)網(wǎng)元架構(gòu)奠定的、信息傳播開放的全球一體化基礎(chǔ)設(shè)施。隨著其承載的網(wǎng)民數(shù)量突破50億大關(guān),這一基礎(chǔ)設(shè)施使ChatGPT和Sora等創(chuàng)新性突破能夠第一時間被全球網(wǎng)民使用,并迅速積累了數(shù)億級的用戶規(guī)模,其與資本相互推動和催化,形成加速發(fā)展態(tài)勢。
其二,以AI算力為基礎(chǔ)的大模型體系,成為當下技術(shù)博弈和產(chǎn)業(yè)競爭的核心。美國牢牢占據(jù)著大模型領(lǐng)域的主導(dǎo)地位。當前最具代表性的大模型都集中在美國。例如,OpenAI的GPT—4模型、谷歌的PaLM 2 AI模型、Anthropic的Claude大模型、Google Deepmind團隊開發(fā)的Gemini,以及Meta開發(fā)的一種新的開源大語言模型LlaMA等。其中,算力是保證美國在AI大模型上占據(jù)領(lǐng)先優(yōu)勢的關(guān)鍵。美國擁有世界上最大的云計算企業(yè)。據(jù)Synergy研究院發(fā)布的2023年第四季度全球云計算市場份額排名,亞馬遜(31%)排名第一,微軟azure(24%)排名第二,Google云(11%)排名第三,阿里云(4%)排名第四,美國企業(yè)合計占比達66%。芯片則是另一個關(guān)鍵因素。高性能的芯片能夠提供更加高效的計算能力,加速訓(xùn)練過程。美國芯片制造商英偉達在科技創(chuàng)新和整個產(chǎn)業(yè)生態(tài)中處于引領(lǐng)地位。財報顯示,其2023年第四季度營收同比激增265%,達221億美元。截至2023年12月,中國已發(fā)布大模型約238個,10億級參數(shù)規(guī)模以上基礎(chǔ)大模型有79個(美國為100個),中美兩國大模型的數(shù)量占全球大模型數(shù)量的近90%。生命未來研究所(Future of Life Institute)在《全球AI市場中新興的非歐洲壟斷企業(yè)》(EmergingNon-European Monopolies in the Global AIMarket)報告中指出,歐洲普遍缺乏開發(fā)AI大模型所需的資金、數(shù)據(jù)和計算資源。歐洲可能主要扮演一個使用者的角色,即通過接入其他國家開發(fā)的大模型API來開發(fā)應(yīng)用,其關(guān)注的重點更傾向于開源、可持續(xù)與綠色安全等。任何技術(shù)革命在其歷史進程中都不可避免地被嵌入國家角色并產(chǎn)生作用力,也不可避免地會引發(fā)國家間的新的博弈與新的競爭,人工智能也不例外。人工智能已經(jīng)成為數(shù)字權(quán)力重要的呈現(xiàn)載體,走向全球技術(shù)競爭的中心舞臺。大國采取多種手段參與全球“AI競賽”的同時,也帶來了“AI監(jiān)管競賽”,推動了AI外交新框架的形成 。
其三,主導(dǎo)未來信息生產(chǎn)和傳播的AI智能體即將出現(xiàn)。應(yīng)用無疑是新格局中最豐富、最活躍也是最不明朗的部分。作為一個動態(tài)系統(tǒng),AI智能體能夠感知環(huán)境并針對環(huán)境采取行動,它與“智能實體”概念緊密相連,又區(qū)別于“自動工具/程序”。比爾·蓋茨提供了一個更加直觀地理解智能體的方式——一種能對自然語言作出響應(yīng),并能根據(jù)它的用戶知識完成許多不同任務(wù)的由AI驅(qū)動的個人助理。他認為,智能體不僅將改變每個人與計算機的交互方式,而且將顛覆軟件產(chǎn)業(yè),帶來計算領(lǐng)域的最大變革,對醫(yī)療保健、教育、生產(chǎn)力、娛樂和購物等領(lǐng)域帶來重大影響。
總之,谷登堡時刻2.0標志著人類社會信息傳播范式的根本轉(zhuǎn)變。首先,人的主導(dǎo)性地位被極大削弱,尤其是人作為內(nèi)容創(chuàng)作者的核心主體地位被削弱。其次,信息擺脫人的局限性,呈現(xiàn)技術(shù)和數(shù)據(jù)驅(qū)動的傳播能力和數(shù)量指數(shù)級無限增長的趨勢。最后,人類社會將進入一個人機全面融合的合成社會,可能發(fā)生社會、政治、經(jīng)濟和文化不可預(yù)知的巨大變化。OpenAI首席執(zhí)行官薩姆·奧特曼(SamAltman)在迪拜舉行的世界政府峰會上表示,讓他在人工智能方面夜不能寐的危險是“非常微妙的社會失調(diào)”,這可能會給系統(tǒng)造成嚴重破壞。
七、谷登堡時刻2.0的社會影響與變革趨勢
正在到來的第二次谷登堡時刻,信息和知識的生產(chǎn)和傳播將從過去的大眾媒體、社交媒體等轉(zhuǎn)向大模型和智能體。這一輪傳播變革將更加全面建構(gòu)未來社會,重構(gòu)世界格局,塑造人類文明新的圖景。隨著智能傳播快速成為新的“時代背景”,圍繞智能媒體、算法、人機關(guān)系等焦點的各類研究如雨后春筍般出現(xiàn)。智能傳播生態(tài)正在構(gòu)建全新的傳播邏輯,預(yù)示著未來社交媒體文化的終結(jié)與連接邏輯的嬗變。智能技術(shù)的發(fā)展構(gòu)建了新的傳播景觀,改變了大眾對外部世界的認知方式,形成了新的社會關(guān)系。智能傳播以強勢的姿態(tài)浸入現(xiàn)實生活,打破現(xiàn)實和虛擬的界限,構(gòu)建了更為多元的景觀世界。
互聯(lián)網(wǎng)開辟了“空間革命”,智能手機的出現(xiàn)帶來“時間革命”,生成式AI則可能形成“思維革命”,重塑各行業(yè)生態(tài)乃至整個世界。由數(shù)據(jù)和算法驅(qū)動的智能傳播正在給我們的工作和生活帶來前所未有的便利,不斷拓寬我們對信息處理和知識生成的認知邊界。正如喻國明等人所言,生成式AI將在信息層面、個體層面和連接層面引發(fā)深刻的變革,推動傳媒產(chǎn)業(yè)革新和社會數(shù)字化生存的發(fā)展。然而,這一進展同樣伴隨著深刻的挑戰(zhàn)。人們開始質(zhì)疑,當算法越來越多地介入我們獲取信息、作出決策乃至形成社會關(guān)系的過程時,我們是否還能保有作為獨立個體的基本權(quán)利。算法對個體自主性所蘊含的知情權(quán)、選擇權(quán)、拒絕權(quán)等基本權(quán)利的消解,使作為主體的“人”逐漸走向數(shù)據(jù)化、群體化,最終成為技術(shù)工具的客體,喪失人的自主性。曾潤喜等人發(fā)現(xiàn),具有多重過濾、滿意原則、算法黑箱、自我進化等特征的AIGC生成和傳播的“漏斗模式”是改變用戶認知的重要機理。該模式可能加劇用戶兩極分化、社會操控和偏見,制造民意分歧和政治腹語,激化人機關(guān)系悖論等認知風(fēng)險。生成式AI不僅進一步重塑著社會,還造成了人的異化,重塑著人的交往、人的思維和人的勞動,威脅著人的主體性發(fā)展。我們必須警惕這種技術(shù)可能對人類自我認知和自主性造成的根本性改變。
AIGC為知識生產(chǎn)、連接與傳播帶來革命性影響,實現(xiàn)了知識生產(chǎn)全面數(shù)據(jù)化,知識連接全場景化,知識傳播復(fù)集中式。劉智鋒等對AIGC技術(shù)及其生成內(nèi)容特征進行了梳理,提出AIGC技術(shù)對知識生產(chǎn)與傳播所帶來的革新與挑戰(zhàn)。作為“知識新媒介”,AIGC已經(jīng)展現(xiàn)出從個人知識向公共知識傳播演化的過程。當機器生成的知識成為公共知識,成為公共對話、討論和社會運作的資源,必然對公共輿論、公共交往與公共生活產(chǎn)生重要影響。可見,生成式AI嵌入公共治理領(lǐng)域也將展現(xiàn)出巨大潛力,需要未雨綢繆,預(yù)判其可能帶來的失靈、失信、失德、失向等風(fēng)險,使其成為一個可用、可信、可靠和可親的“推動者”。有學(xué)者提出,我們需要擺脫傳統(tǒng)的方法論個人主義、物化認識論和零和博弈思維,將人類與生成式AI的關(guān)系視為智能關(guān)聯(lián)主義,用以理解智能技術(shù)帶來的科技革命。生成式AI的突破需要人文社會科學(xué)研究者提供新的認識世界的框架,探索出適宜于智能關(guān)聯(lián)主義的人文應(yīng)用場景。正如陳衛(wèi)星所認為的,智能傳播是“基于信息生產(chǎn)的數(shù)據(jù)鏈組合,這就需要不斷確認數(shù)字符號和實踐經(jīng)驗的關(guān)系,或者從操作形態(tài)上確定數(shù)字符號與經(jīng)驗世界的相關(guān)性系數(shù)”,“基于人與人之間的關(guān)系建構(gòu)是獲取并維系意義感、價值感、存在感的來源,并以此成為智能傳播的認識論的基石”。此外,生成式AI技術(shù)具有賦能現(xiàn)代政治傳播的巨大潛力。但它也可能助推政治的極化,造成“過多或過少”的民主,以及導(dǎo)致虛假消息的泛濫。對技術(shù)的響應(yīng)度是政治傳播現(xiàn)代化的重要指標,我們要把握住歷史機遇,但同時也要以“超越機器”的反省能力建構(gòu)新世界的政治傳播規(guī)范。
智能傳播將帶來人類信息傳播范式的根本轉(zhuǎn)變,也意味著舊有治理范式的失效和缺失。由此而激發(fā)的新興治理方法、新型制度和政策能力建設(shè)以及治理機制不斷被構(gòu)建,以歐盟的GDPR、數(shù)字市場法和AI法案等為代表。AI已經(jīng)成為一個迫切的橫跨不同利益相關(guān)方的優(yōu)先事項。與此同時,全球AI治理格局也呈現(xiàn)出AI治理領(lǐng)域迅速增加的復(fù)雜性。“必須確保在接受任何技術(shù)變革的不可避免性之前評估其影響”的認識在很早之前就已經(jīng)形成?!翱屏指窭锲胬Ь场北砻?,技術(shù)在起步階段可以相對容易地進行監(jiān)管,但在那個階段,我們對其影響和監(jiān)管原因的了解也處于起步階段。當技術(shù)得到部署并廣泛傳播時,對技術(shù)實施社會控制就變得更加困難。因此,治理的關(guān)鍵在于時機的把握,應(yīng)根據(jù)生成式AI的主流化進程,探索“先發(fā)展,再治理”和“邊發(fā)展,邊管理”兩種節(jié)奏的靈活組合。但AI治理的實施仍具挑戰(zhàn)性。機器學(xué)習(xí)系統(tǒng)不透明的算法和不可預(yù)測的結(jié)果會妨礙人類對AI行為的可控性;數(shù)據(jù)碎片化和系統(tǒng)之間缺乏互操作性導(dǎo)致對組織內(nèi)部和跨組織的數(shù)據(jù)治理難度增加;科技巨頭和監(jiān)管機構(gòu)之間的信息不對稱給立法帶來了挑戰(zhàn) ;等等。
無論是作為對新威脅的應(yīng)急反應(yīng),還是作為為新技術(shù)提前構(gòu)筑的“防波堤”,這一輪制度建設(shè)與科技創(chuàng)新一道決定著人類的發(fā)展進程,也在快速成為大國博弈的核心戰(zhàn)場之一。為此,我們亟須進一步把握當前這場智能傳播浪潮的規(guī)律與本質(zhì),以全新的問題域去審視和反思技術(shù)、傳播與社會的互動。
(作者方興東系浙江大學(xué)國際傳播研究中心求是特聘教授,烏鎮(zhèn)數(shù)字文明研究院院長;鐘祥銘系浙江傳媒學(xué)院新聞與傳播學(xué)院助理研究員,烏鎮(zhèn)數(shù)字文明研究院研究員)