摘要:人工智能已成為各行各業(yè)發(fā)展的重要驅(qū)動(dòng)力。特別是ChatGPT為代表的大模型應(yīng)用,讓我們感受到了數(shù)字新時(shí)代序幕已經(jīng)拉開(kāi)。本文主要從人工智能生成內(nèi)容(AIGC)的發(fā)展歷程、底層技術(shù)、風(fēng)險(xiǎn)挑戰(zhàn)三方面分析,幫助我們思考“享受人工智能技術(shù)時(shí),還要考慮哪些風(fēng)險(xiǎn)?應(yīng)如何應(yīng)對(duì)新機(jī)遇與挑戰(zhàn)” 。
關(guān)鍵詞:AIGC;ChatGPT;大模型;擴(kuò)散模型
引言
2022年12月,OpenAI公司發(fā)布了對(duì)話式AI大模型產(chǎn)品ChatGPT,ChatGPT是OpenAI公司基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)研發(fā)的自然聊天工具。ChatGPT不僅能夠聊天,還能寫代碼、報(bào)告、腳本、翻譯等,能夠做到與人沒(méi)有區(qū)別的聊天交流,一經(jīng)發(fā)布風(fēng)靡全球,僅推出兩個(gè)月,ChatGPT月活躍用戶就突破1億人 [1],成為互聯(lián)網(wǎng)歷史上增長(zhǎng)速度最快的產(chǎn)品。人工智能生成內(nèi)容(AIGC)在商業(yè)領(lǐng)域的成功落地,讓投資圈看到其巨大價(jià)值。大大小小的公司紛紛涌入這一領(lǐng)域,從資金、人才等方面推動(dòng)整個(gè)產(chǎn)業(yè)飛速發(fā)展[2]。越來(lái)越多人相信不遠(yuǎn)的未來(lái),機(jī)器一定會(huì)擁有思考能力,并為我們帶來(lái)更加便利的生活。
1. AIGC發(fā)展歷程
1.1 人工智能概念
1950年艾倫·圖靈發(fā)表論文題目為《機(jī)器能思考嗎?》。他在文章中提出,如果一臺(tái)機(jī)器能夠和人類進(jìn)行對(duì)話,并不被辨別出其機(jī)器身份,那么這臺(tái)機(jī)器就具有智能。1956年的達(dá)特茅斯會(huì)議上,科學(xué)家詳細(xì)討論機(jī)器模擬人類智慧問(wèn)題,并首次提出了人工智能(AI)概念。
1.2 人工智能生成內(nèi)容概念
近兩年大模型在人工智能生成內(nèi)容上取得重大突破。文本、語(yǔ)音、視頻、代碼等多種展示形式都可實(shí)現(xiàn)人工智能生成。AIGC的廣泛應(yīng)用,提升了內(nèi)容生產(chǎn)的效率、降低了生產(chǎn)成本,一種嶄新的內(nèi)容生產(chǎn)模式正在興起?;仡檭?nèi)容生成的發(fā)展歷程可以總結(jié)為三個(gè)階段。
第一階段PGC(professional generated content,專業(yè)內(nèi)容生成)。這個(gè)階段內(nèi)容生產(chǎn)被作為一種尖端技術(shù)和資源,牢牢掌握在少數(shù)人手中。中西方歷史都很相似,只有少數(shù)受過(guò)高等教育的階級(jí)團(tuán)體能夠創(chuàng)造內(nèi)容,書籍紙張是昂貴的載體。工業(yè)革命后廣播、電視、報(bào)紙出現(xiàn),但因制作成本高昂,大多數(shù)人仍是接受者。
第二階段UGC(user generated content,用戶內(nèi)容生成)。伴隨互聯(lián)網(wǎng)技術(shù)發(fā)展,內(nèi)容生產(chǎn)的條件大幅降低,每個(gè)人都可以生產(chǎn)內(nèi)容并與他人分享交流,信息傳送從傳統(tǒng)的單向變?yōu)殡p向。每個(gè)人都是內(nèi)容瀏覽者,更是生產(chǎn)者。從最早期的網(wǎng)站、論壇、微博以文字圖片展現(xiàn)形式為代表的互聯(lián)網(wǎng)產(chǎn)品,到后期的YouTube、抖音、快手、B站的高流量視頻,都是這個(gè)階段的代表。
第三階段AIGC(artificial intelligence generated content,人工智能生成內(nèi)容)。用戶對(duì)于內(nèi)容生產(chǎn)的效率、展現(xiàn)方式要求越來(lái)越高,對(duì)于信息交流的層次也要求越來(lái)越深;以往需要幾天甚至幾周,由美工設(shè)計(jì)、開(kāi)發(fā)、編輯等多個(gè)崗位聯(lián)合完成的內(nèi)容,智能機(jī)器可以在幾十秒內(nèi)完成。通過(guò)虛擬現(xiàn)實(shí)技術(shù)中的人物、場(chǎng)景展現(xiàn)出來(lái),用戶提出的大部分問(wèn)題都能得到解答,且大多符合我們的邏輯和認(rèn)知。人們之間能交互,人還可以與機(jī)器交互,甚至能夠獲得的信息和體驗(yàn)更優(yōu)。
1.3 人工智能生成內(nèi)容發(fā)展過(guò)程
AIGC的發(fā)展可以按時(shí)間分為初期研究階段、中期探索階段、應(yīng)用發(fā)展階段。初期研究階段,實(shí)驗(yàn)人員研究在機(jī)器學(xué)習(xí)的基礎(chǔ)上進(jìn)行發(fā)展,深度學(xué)習(xí)(deep learning,DL)一種基于神經(jīng)網(wǎng)絡(luò)算法,通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行特征提取最終實(shí)現(xiàn)對(duì)人物的識(shí)別、分類和預(yù)測(cè)完成。深度學(xué)習(xí)模型參數(shù)量巨大,需要大量數(shù)據(jù)和算力支持,為AIGC的發(fā)展積累大量技術(shù)經(jīng)驗(yàn)和訓(xùn)練數(shù)據(jù)。中期探索階段,2014年深度學(xué)習(xí)GAN(generative adversarial nets,生成對(duì)抗網(wǎng)絡(luò))模型被提出,生成模型熱度被點(diǎn)燃。2018年谷歌團(tuán)隊(duì)基于生成對(duì)抗網(wǎng)絡(luò)提出Transformer模型,具有良好的并行性。這種模型數(shù)據(jù)開(kāi)始被廣泛應(yīng)用于文本生成領(lǐng)域,新聞、報(bào)告、小說(shuō)、對(duì)話等。2021年基于Transformer框架OpenAI公司正式發(fā)布GPT模型。強(qiáng)大的算力與數(shù)據(jù)積累,推動(dòng)AIGC進(jìn)入“快車道”。AI生成內(nèi)容精準(zhǔn)度都已達(dá)到普通用戶訴求,AIGC進(jìn)入商業(yè)化運(yùn)營(yíng),并與教育、文化、金融等領(lǐng)域進(jìn)行深度融合。
2. AIGC底層核心技術(shù)
盡管AIGC模型很多,但底層原理基本一致。主要是基于深度神經(jīng)網(wǎng)絡(luò)算法,通過(guò)輸入大量的數(shù)據(jù)和模型訓(xùn)練,讓模型學(xué)習(xí)數(shù)據(jù)的規(guī)律和表達(dá)模式。目前市場(chǎng)應(yīng)用最廣泛的為擴(kuò)散模型和生成對(duì)抗網(wǎng)絡(luò)。
2.1 擴(kuò)散模型
擴(kuò)散模型是近幾年機(jī)器學(xué)習(xí)領(lǐng)域的重大成果。擴(kuò)散模型屬于生成模型,它的提出實(shí)際是受到非平衡熱力學(xué)的啟發(fā)。其工作原理是通過(guò)連續(xù)添加高斯噪聲破壞訓(xùn)練數(shù)據(jù),在添加到T步高斯噪聲后,數(shù)據(jù)已經(jīng)從最原始的分布變成純高斯噪聲,這一過(guò)程也被稱為正向擴(kuò)散。至此再反向進(jìn)行擴(kuò)散,逐步移除前向擴(kuò)散中添加的高斯噪聲,最終獲得最原始的數(shù)據(jù)分布,這一過(guò)程被稱為反向擴(kuò)散。
擴(kuò)散模型的整體框架是完整的,數(shù)據(jù)推導(dǎo)過(guò)程也完整,但在實(shí)驗(yàn)過(guò)程中生成圖片并未盡如人意,帶有很多的噪聲并沒(méi)有達(dá)到預(yù)期攝像。實(shí)驗(yàn)人員在原有理論上進(jìn)行優(yōu)化,提出了去聲擴(kuò)展概率模型(denoising diffusion probabilistic model,DDPM)[3],并應(yīng)用在圖片生成方面,較擴(kuò)散模型有很大提升,這讓人們看到了擴(kuò)散模型在圖像影音方面的巨大發(fā)展?jié)摿?,可支持生成較大分辨率尺寸的圖片。
雖然DDPM效果提升,但在兩個(gè)方面仍有很大提升空間:一是生成時(shí)間方面。因?yàn)镈DPM每次添加的噪聲范圍很小,所以添加的步數(shù)較多,這就導(dǎo)致采樣時(shí)間過(guò)長(zhǎng),生成圖片的時(shí)間比較長(zhǎng)。二是圖片質(zhì)量方面。DDPM生成圖片的數(shù)據(jù)集與訓(xùn)練用數(shù)據(jù)集并不相同,導(dǎo)致圖片效果并沒(méi)有GAN(生成對(duì)抗模型)中的SOTA有顯著優(yōu)勢(shì)。為此,實(shí)驗(yàn)人員定義了DDIM(denoising diffusion implicit model)模型,用于減少反向擴(kuò)散步伐提升生成時(shí)間;提出IDDPM(improved denoising diffusion implicit model)模型用于優(yōu)化聲添加過(guò)程,通過(guò)增加模型的深度且減少模型寬度保持模型大小不變。實(shí)驗(yàn)過(guò)程中人們發(fā)現(xiàn)不管是DDPM、DDIM還是IDDPM都是無(wú)條件擴(kuò)充模型,最終圖片不可知。如果可以使用一個(gè)條件特征,引導(dǎo)擴(kuò)充模型形成一類指定的圖片,那么圖片的精準(zhǔn)度會(huì)大幅提升。分類器引導(dǎo)被發(fā)明并應(yīng)用在模型中。
2.2 生成對(duì)抗網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)是一種深度學(xué)習(xí)的生成模型。與前面提到的擴(kuò)散模型不同,GAN由生成器和判別器兩個(gè)神經(jīng)網(wǎng)絡(luò)組件組成。我們可以打個(gè)比方,生成器就像是一個(gè)造假大師,判別器就像是一個(gè)鑒定大師。生成器不斷造假并將真假文物送給鑒定師鑒定。通過(guò)兩者間的相互對(duì)抗,相互促進(jìn)學(xué)習(xí),最終造成以假亂真的文物目的。因此,我們可以得出結(jié)論,生成器的目的是生成虛假數(shù)據(jù),無(wú)限接近于真實(shí);判別器是一個(gè)好老師區(qū)分真假,幫助生成器不斷改進(jìn)優(yōu)化。整體過(guò)程如圖1所示。
生成對(duì)抗網(wǎng)絡(luò)一經(jīng)推出就獲得業(yè)界廣泛關(guān)注,主要原因是其特殊的訓(xùn)練模式是通過(guò)兩個(gè)對(duì)抗的網(wǎng)絡(luò)相互學(xué)習(xí)。一方面不斷造假,另一方面不斷辨別。GAN模型最大優(yōu)勢(shì)在于具有很強(qiáng)的適應(yīng)性和廣泛性,生成的新樣本可以無(wú)限接近真實(shí),這使得GAN除了在圖片生成還在語(yǔ)音合成、文本生成等方面較擴(kuò)散模型更有優(yōu)勢(shì),可應(yīng)用的空間更大。2018年StyleGAN推出,這是一種基于GAN的圖像合成模型,并引入了AdaIN將顯示特征風(fēng)格作為變量輸入生成器,確保圖像均值和風(fēng)格一致性。2019年一種基于GAN的聲音生成模型——WaveGAN被提出,可用于生產(chǎn)高質(zhì)量的音頻信號(hào)。此外,WaveGAN還加入批歸一化層和Leaky ReLU激活函數(shù),可以生成人聲和音樂(lè)樣本,并對(duì)已完成音頻信號(hào)監(jiān)測(cè)分類。
3. AIGC的風(fēng)險(xiǎn)與不足
3.1 AIGC的風(fēng)險(xiǎn)
3.1.1 法律風(fēng)險(xiǎn)
傳統(tǒng)繪畫、攝影、文字等作品需要付費(fèi)才能使用。作品的創(chuàng)作者享有著作權(quán)。AIGC技術(shù)通過(guò)學(xué)習(xí)模仿,可以快速模擬作者生成圖片、音視頻、文字,但AI生成的著作權(quán)、肖像權(quán)等物權(quán)歸屬還沒(méi)確定,國(guó)內(nèi)外沒(méi)有相關(guān)法律。2022年有網(wǎng)友通過(guò)AIGC技術(shù)將喜歡的歌手孫燕姿的聲音進(jìn)行合成,替換部分歌曲演唱者。一夜間“孫燕姿”錄制歌曲近千首,歌手本人也表示一輩子都無(wú)法唱完這么多歌曲。但此行為也損害了其他歌手的版權(quán),原歌手通過(guò)平臺(tái)下載量和收入減少。
國(guó)內(nèi)外已發(fā)生多起著作人對(duì)AI公司進(jìn)行起訴,控告AI抄襲原作者作品或創(chuàng)意,生成內(nèi)容未付費(fèi)對(duì)創(chuàng)作者造成侵權(quán)傷害。一些不法分子也將注意力轉(zhuǎn)到這方面,通過(guò)AIGC換臉、電信詐騙或者生物識(shí)別等方式盜取用戶資金。
3.1.2 個(gè)人隱私安全
AIGC在圖片與視頻生成過(guò)程中需要投入大量數(shù)據(jù)進(jìn)行訓(xùn)練。AI公司獲取數(shù)據(jù)具有絕對(duì)的技術(shù)優(yōu)勢(shì),可以通過(guò)APP瀏覽數(shù)據(jù)、媒體數(shù)據(jù)、社交網(wǎng)絡(luò)多個(gè)渠道獲取客戶信息,這些數(shù)據(jù)有客戶隱私數(shù)據(jù)也有客戶交易和瀏覽軌跡[4]。公司還會(huì)要求用戶輸入敏感數(shù)據(jù)或商業(yè)信息作為訓(xùn)練數(shù)據(jù),信息是否得到有效保護(hù)、用戶隱私安全是否得到有效保障還沒(méi)有明確法律要求。上文提到Lensa和妙鴨相機(jī),都需要客戶上傳大量個(gè)人照片。關(guān)于客戶這些照片在訓(xùn)練后的處理,是否會(huì)被公司作為一種資產(chǎn)進(jìn)行出售都有待觀察。
3.1.3 道德風(fēng)險(xiǎn)
AI在處理具象工作方面具有強(qiáng)大的數(shù)據(jù)處理能力、極度專注度、多線程并發(fā)處理能力。未來(lái)很多知識(shí)類基礎(chǔ)工作將由AI承擔(dān),如寫作、圖片、視頻拍攝、代碼編寫等。人類將更多負(fù)責(zé)創(chuàng)造性工作。但在AI替代部分傳統(tǒng)工作中,人類可能在很多方面與AI會(huì)因文化認(rèn)同、社會(huì)道德等意識(shí)形態(tài)方面的差異而產(chǎn)生矛盾。在教育領(lǐng)域很多大學(xué)明確禁止學(xué)生使用ChatGPT。一方面由于其功能強(qiáng)大,可以短時(shí)間內(nèi)生成論文,且難以被發(fā)現(xiàn);另一方面,也說(shuō)明學(xué)校擔(dān)心學(xué)生濫用技術(shù)會(huì)導(dǎo)致過(guò)度依賴ChatGPT,導(dǎo)致學(xué)生喪失獨(dú)立思考和研究能力,考試有失公平。如果AI是基于非真實(shí)數(shù)據(jù)進(jìn)行的訓(xùn)練,很可能生成內(nèi)容帶有一定偏見(jiàn)和非真實(shí)性。
3.2 ?AIGC的不足
3.2.1 技術(shù)成熟度不足
AIGC的大模型在進(jìn)行測(cè)試和調(diào)試過(guò)程中,仍然會(huì)出現(xiàn)很多答非所問(wèn)、答案重復(fù)、通識(shí)錯(cuò)誤等現(xiàn)象。一方面,內(nèi)容生成嚴(yán)重依賴訓(xùn)練數(shù)據(jù),如果數(shù)據(jù)陳舊、偏差,機(jī)器無(wú)法判斷,很難達(dá)到我們所期望的效果;另一方面,AIGC生成內(nèi)容缺乏深度思考與個(gè)人觀點(diǎn),更多的是將一些知識(shí)點(diǎn)關(guān)聯(lián)起來(lái),對(duì)于部分內(nèi)容用戶會(huì)感覺(jué)機(jī)器在“一本正經(jīng)地胡說(shuō)八道”。根本原因是深度學(xué)習(xí)仍是一種“被動(dòng)”狀態(tài),目的是尋找規(guī)律建立規(guī)律,但缺乏“欲望”和目標(biāo)。同時(shí),機(jī)器缺乏情感無(wú)法理解和體現(xiàn)人的心理活動(dòng),生成內(nèi)容閱讀起來(lái)會(huì)感覺(jué)很平淡,缺乏情緒,這與真人生產(chǎn)內(nèi)容有很大差距。
3.2.2 缺乏監(jiān)管與控制
2022年國(guó)家互聯(lián)網(wǎng)信息辦公室會(huì)同相關(guān)部門制定了《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》。這是我國(guó)唯一與人工智能生成內(nèi)容有關(guān)的規(guī)定,僅是以行政手段下發(fā)缺乏立法過(guò)程。AIGC具有強(qiáng)大的內(nèi)容生產(chǎn)能力,但是監(jiān)管和執(zhí)法部門缺乏技術(shù)手段有效識(shí)別AIGC生成圖片、合成聲音和文字,執(zhí)法過(guò)程缺乏工具。根據(jù)人工智能內(nèi)容生產(chǎn)發(fā)展,建立“科學(xué)立法、嚴(yán)格執(zhí)法、全面守法”的監(jiān)督管理體系還有大量工作,各方面經(jīng)驗(yàn)需要不斷積累。
結(jié)語(yǔ)
AIGC本身并沒(méi)有好與壞、善與惡的區(qū)別。同蒸汽機(jī)和電氣化一樣,作為一種創(chuàng)新技術(shù)它既可以帶來(lái)巨大價(jià)值,減少重復(fù)和具象性工作,但也可能帶來(lái)動(dòng)蕩和不穩(wěn)定。未來(lái),AIGC需要一個(gè)有序良性的發(fā)展環(huán)境:一是完善法律法規(guī),確保新技術(shù)應(yīng)用在人類可控范圍內(nèi),避免由此所帶來(lái)的各類風(fēng)險(xiǎn)或者災(zāi)難。二是強(qiáng)化頂尖人才培養(yǎng)?!叭瞬诺暮穸葲Q定事業(yè)的高度”。AIGC領(lǐng)域?qū)τ趯I(yè)人才的需求巨大,特別是“基礎(chǔ)數(shù)學(xué)”人才[5]。GPT-3.5已具有1750億參數(shù),傳統(tǒng)數(shù)學(xué)理論已很難解釋其機(jī)理,只有在應(yīng)用數(shù)學(xué)方面取得重大突破,人類才有可能超越現(xiàn)有大模型,建立真正的AI理論模型[6]。三是豐富AIGC應(yīng)用廣度。AIGC已應(yīng)用在多行業(yè),但應(yīng)用范圍和功能相對(duì)簡(jiǎn)單,生成內(nèi)容還未實(shí)現(xiàn)和視頻、VR、AR的結(jié)合。只有應(yīng)用更加廣泛,才能促進(jìn)更多廠商公司加入其中,進(jìn)一步降低AIGC軟硬件成本,推動(dòng)業(yè)務(wù)發(fā)展。
參考文獻(xiàn):
[1]司馬華鵬,湯毅平,唐翠翠,等.大模型時(shí)代——ChatGPT拉開(kāi)硅基文明序幕[M].北京:電子工業(yè)出版社,2023.
[2]蔡然.人工智能內(nèi)容生成技術(shù)對(duì)銀行業(yè)的影響研究[J].中國(guó)金融電腦,2023,(7):47-49.
[3]汲雪嬌.專訪杜雨:AIGC時(shí)代的人工智能[J].現(xiàn)代商業(yè)銀行,2023,(6):20-22.
[4]張漫游.聚焦“大模型+網(wǎng)絡(luò)安全”銀行跨界設(shè)立創(chuàng)新實(shí)驗(yàn)室[N].中國(guó)經(jīng)營(yíng)報(bào),2023-7-17(B5).
[5]許琦敏.理解并超越大模型需要數(shù)學(xué)“應(yīng)戰(zhàn)”[N].文匯報(bào),2023-7-26(4).
[6]于夢(mèng)珂.生成式對(duì)抗網(wǎng)絡(luò)GAN的研究現(xiàn)狀與應(yīng)用[J].無(wú)線互聯(lián)科技,2019,16(9):25-26,29.
作者簡(jiǎn)介:路加,碩士研究生,經(jīng)濟(jì)師,研究方向:新媒體運(yùn)營(yíng)、遠(yuǎn)程銀行、金融科技、銀行零售業(yè)務(wù)。