亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人工智能內(nèi)容生成技術(shù)的研究與思考

2023-09-16 14:32:16路加

互聯(lián)網(wǎng)周刊 2023年17期

摘要：人工智能已成為各行各業(yè)發(fā)展的重要驅(qū)動力。特別是ChatGPT為代表的大模型應(yīng)用，讓我們感受到了數(shù)字新時代序幕已經(jīng)拉開。本文主要從人工智能生成內(nèi)容（AIGC）的發(fā)展歷程、底層技術(shù)、風險挑戰(zhàn)三方面分析，幫助我們思考“享受人工智能技術(shù)時，還要考慮哪些風險？應(yīng)如何應(yīng)對新機遇與挑戰(zhàn)” 。

關(guān)鍵詞：AIGC；ChatGPT；大模型；擴散模型

引言

2022年12月，OpenAI公司發(fā)布了對話式AI大模型產(chǎn)品ChatGPT，ChatGPT是OpenAI公司基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)研發(fā)的自然聊天工具。ChatGPT不僅能夠聊天，還能寫代碼、報告、腳本、翻譯等，能夠做到與人沒有區(qū)別的聊天交流，一經(jīng)發(fā)布風靡全球，僅推出兩個月，ChatGPT月活躍用戶就突破1億人 [1]，成為互聯(lián)網(wǎng)歷史上增長速度最快的產(chǎn)品。人工智能生成內(nèi)容（AIGC）在商業(yè)領(lǐng)域的成功落地，讓投資圈看到其巨大價值。大大小小的公司紛紛涌入這一領(lǐng)域，從資金、人才等方面推動整個產(chǎn)業(yè)飛速發(fā)展[2]。越來越多人相信不遠的未來，機器一定會擁有思考能力，并為我們帶來更加便利的生活。

1. AIGC發(fā)展歷程

1.1 人工智能概念

1950年艾倫·圖靈發(fā)表論文題目為《機器能思考嗎？》。他在文章中提出，如果一臺機器能夠和人類進行對話，并不被辨別出其機器身份，那么這臺機器就具有智能。1956年的達特茅斯會議上，科學家詳細討論機器模擬人類智慧問題，并首次提出了人工智能（AI）概念。

1.2 人工智能生成內(nèi)容概念

近兩年大模型在人工智能生成內(nèi)容上取得重大突破。文本、語音、視頻、代碼等多種展示形式都可實現(xiàn)人工智能生成。AIGC的廣泛應(yīng)用，提升了內(nèi)容生產(chǎn)的效率、降低了生產(chǎn)成本，一種嶄新的內(nèi)容生產(chǎn)模式正在興起?；仡檭?nèi)容生成的發(fā)展歷程可以總結(jié)為三個階段。

第一階段PGC（professional generated content，專業(yè)內(nèi)容生成）。這個階段內(nèi)容生產(chǎn)被作為一種尖端技術(shù)和資源，牢牢掌握在少數(shù)人手中。中西方歷史都很相似，只有少數(shù)受過高等教育的階級團體能夠創(chuàng)造內(nèi)容，書籍紙張是昂貴的載體。工業(yè)革命后廣播、電視、報紙出現(xiàn)，但因制作成本高昂，大多數(shù)人仍是接受者。

第二階段UGC（user generated content，用戶內(nèi)容生成）。伴隨互聯(lián)網(wǎng)技術(shù)發(fā)展，內(nèi)容生產(chǎn)的條件大幅降低，每個人都可以生產(chǎn)內(nèi)容并與他人分享交流，信息傳送從傳統(tǒng)的單向變?yōu)殡p向。每個人都是內(nèi)容瀏覽者，更是生產(chǎn)者。從最早期的網(wǎng)站、論壇、微博以文字圖片展現(xiàn)形式為代表的互聯(lián)網(wǎng)產(chǎn)品，到后期的YouTube、抖音、快手、B站的高流量視頻，都是這個階段的代表。

第三階段AIGC（artificial intelligence generated content，人工智能生成內(nèi)容）。用戶對于內(nèi)容生產(chǎn)的效率、展現(xiàn)方式要求越來越高，對于信息交流的層次也要求越來越深；以往需要幾天甚至幾周，由美工設(shè)計、開發(fā)、編輯等多個崗位聯(lián)合完成的內(nèi)容，智能機器可以在幾十秒內(nèi)完成。通過虛擬現(xiàn)實技術(shù)中的人物、場景展現(xiàn)出來，用戶提出的大部分問題都能得到解答，且大多符合我們的邏輯和認知。人們之間能交互，人還可以與機器交互，甚至能夠獲得的信息和體驗更優(yōu)。

1.3 人工智能生成內(nèi)容發(fā)展過程

AIGC的發(fā)展可以按時間分為初期研究階段、中期探索階段、應(yīng)用發(fā)展階段。初期研究階段，實驗人員研究在機器學習的基礎(chǔ)上進行發(fā)展，深度學習（deep learning，DL）一種基于神經(jīng)網(wǎng)絡(luò)算法，通過對大量數(shù)據(jù)進行特征提取最終實現(xiàn)對人物的識別、分類和預測完成。深度學習模型參數(shù)量巨大，需要大量數(shù)據(jù)和算力支持，為AIGC的發(fā)展積累大量技術(shù)經(jīng)驗和訓練數(shù)據(jù)。中期探索階段，2014年深度學習GAN（generative adversarial nets，生成對抗網(wǎng)絡(luò)）模型被提出，生成模型熱度被點燃。2018年谷歌團隊基于生成對抗網(wǎng)絡(luò)提出Transformer模型，具有良好的并行性。這種模型數(shù)據(jù)開始被廣泛應(yīng)用于文本生成領(lǐng)域，新聞、報告、小說、對話等。2021年基于Transformer框架OpenAI公司正式發(fā)布GPT模型。強大的算力與數(shù)據(jù)積累，推動AIGC進入“快車道”。AI生成內(nèi)容精準度都已達到普通用戶訴求，AIGC進入商業(yè)化運營，并與教育、文化、金融等領(lǐng)域進行深度融合。

2. AIGC底層核心技術(shù)

盡管AIGC模型很多，但底層原理基本一致。主要是基于深度神經(jīng)網(wǎng)絡(luò)算法，通過輸入大量的數(shù)據(jù)和模型訓練，讓模型學習數(shù)據(jù)的規(guī)律和表達模式。目前市場應(yīng)用最廣泛的為擴散模型和生成對抗網(wǎng)絡(luò)。

2.1 擴散模型

擴散模型是近幾年機器學習領(lǐng)域的重大成果。擴散模型屬于生成模型，它的提出實際是受到非平衡熱力學的啟發(fā)。其工作原理是通過連續(xù)添加高斯噪聲破壞訓練數(shù)據(jù)，在添加到T步高斯噪聲后，數(shù)據(jù)已經(jīng)從最原始的分布變成純高斯噪聲，這一過程也被稱為正向擴散。至此再反向進行擴散，逐步移除前向擴散中添加的高斯噪聲，最終獲得最原始的數(shù)據(jù)分布，這一過程被稱為反向擴散。

擴散模型的整體框架是完整的，數(shù)據(jù)推導過程也完整，但在實驗過程中生成圖片并未盡如人意，帶有很多的噪聲并沒有達到預期攝像。實驗人員在原有理論上進行優(yōu)化，提出了去聲擴展概率模型（denoising diffusion probabilistic model，DDPM）[3]，并應(yīng)用在圖片生成方面，較擴散模型有很大提升，這讓人們看到了擴散模型在圖像影音方面的巨大發(fā)展?jié)摿?，可支持生成較大分辨率尺寸的圖片。

雖然DDPM效果提升，但在兩個方面仍有很大提升空間：一是生成時間方面。因為DDPM每次添加的噪聲范圍很小，所以添加的步數(shù)較多，這就導致采樣時間過長，生成圖片的時間比較長。二是圖片質(zhì)量方面。DDPM生成圖片的數(shù)據(jù)集與訓練用數(shù)據(jù)集并不相同，導致圖片效果并沒有GAN（生成對抗模型）中的SOTA有顯著優(yōu)勢。為此，實驗人員定義了DDIM（denoising diffusion implicit model）模型，用于減少反向擴散步伐提升生成時間；提出IDDPM（improved denoising diffusion implicit model）模型用于優(yōu)化聲添加過程，通過增加模型的深度且減少模型寬度保持模型大小不變。實驗過程中人們發(fā)現(xiàn)不管是DDPM、DDIM還是IDDPM都是無條件擴充模型，最終圖片不可知。如果可以使用一個條件特征，引導擴充模型形成一類指定的圖片，那么圖片的精準度會大幅提升。分類器引導被發(fā)明并應(yīng)用在模型中。

2.2 生成對抗網(wǎng)絡(luò)

生成對抗網(wǎng)絡(luò)（generative adversarial networks， GAN）是一種深度學習的生成模型。與前面提到的擴散模型不同，GAN由生成器和判別器兩個神經(jīng)網(wǎng)絡(luò)組件組成。我們可以打個比方，生成器就像是一個造假大師，判別器就像是一個鑒定大師。生成器不斷造假并將真假文物送給鑒定師鑒定。通過兩者間的相互對抗，相互促進學習，最終造成以假亂真的文物目的。因此，我們可以得出結(jié)論，生成器的目的是生成虛假數(shù)據(jù)，無限接近于真實；判別器是一個好老師區(qū)分真假，幫助生成器不斷改進優(yōu)化。整體過程如圖1所示。

生成對抗網(wǎng)絡(luò)一經(jīng)推出就獲得業(yè)界廣泛關(guān)注，主要原因是其特殊的訓練模式是通過兩個對抗的網(wǎng)絡(luò)相互學習。一方面不斷造假，另一方面不斷辨別。GAN模型最大優(yōu)勢在于具有很強的適應(yīng)性和廣泛性，生成的新樣本可以無限接近真實，這使得GAN除了在圖片生成還在語音合成、文本生成等方面較擴散模型更有優(yōu)勢，可應(yīng)用的空間更大。2018年StyleGAN推出，這是一種基于GAN的圖像合成模型，并引入了AdaIN將顯示特征風格作為變量輸入生成器，確保圖像均值和風格一致性。2019年一種基于GAN的聲音生成模型——WaveGAN被提出，可用于生產(chǎn)高質(zhì)量的音頻信號。此外，WaveGAN還加入批歸一化層和Leaky ReLU激活函數(shù)，可以生成人聲和音樂樣本，并對已完成音頻信號監(jiān)測分類。

3. AIGC的風險與不足

3.1 AIGC的風險

3.1.1 法律風險

傳統(tǒng)繪畫、攝影、文字等作品需要付費才能使用。作品的創(chuàng)作者享有著作權(quán)。AIGC技術(shù)通過學習模仿，可以快速模擬作者生成圖片、音視頻、文字，但AI生成的著作權(quán)、肖像權(quán)等物權(quán)歸屬還沒確定，國內(nèi)外沒有相關(guān)法律。2022年有網(wǎng)友通過AIGC技術(shù)將喜歡的歌手孫燕姿的聲音進行合成，替換部分歌曲演唱者。一夜間“孫燕姿”錄制歌曲近千首，歌手本人也表示一輩子都無法唱完這么多歌曲。但此行為也損害了其他歌手的版權(quán)，原歌手通過平臺下載量和收入減少。

國內(nèi)外已發(fā)生多起著作人對AI公司進行起訴，控告AI抄襲原作者作品或創(chuàng)意，生成內(nèi)容未付費對創(chuàng)作者造成侵權(quán)傷害。一些不法分子也將注意力轉(zhuǎn)到這方面，通過AIGC換臉、電信詐騙或者生物識別等方式盜取用戶資金。

3.1.2 個人隱私安全

AIGC在圖片與視頻生成過程中需要投入大量數(shù)據(jù)進行訓練。AI公司獲取數(shù)據(jù)具有絕對的技術(shù)優(yōu)勢，可以通過APP瀏覽數(shù)據(jù)、媒體數(shù)據(jù)、社交網(wǎng)絡(luò)多個渠道獲取客戶信息，這些數(shù)據(jù)有客戶隱私數(shù)據(jù)也有客戶交易和瀏覽軌跡[4]。公司還會要求用戶輸入敏感數(shù)據(jù)或商業(yè)信息作為訓練數(shù)據(jù)，信息是否得到有效保護、用戶隱私安全是否得到有效保障還沒有明確法律要求。上文提到Lensa和妙鴨相機，都需要客戶上傳大量個人照片。關(guān)于客戶這些照片在訓練后的處理，是否會被公司作為一種資產(chǎn)進行出售都有待觀察。

3.1.3 道德風險

AI在處理具象工作方面具有強大的數(shù)據(jù)處理能力、極度專注度、多線程并發(fā)處理能力。未來很多知識類基礎(chǔ)工作將由AI承擔，如寫作、圖片、視頻拍攝、代碼編寫等。人類將更多負責創(chuàng)造性工作。但在AI替代部分傳統(tǒng)工作中，人類可能在很多方面與AI會因文化認同、社會道德等意識形態(tài)方面的差異而產(chǎn)生矛盾。在教育領(lǐng)域很多大學明確禁止學生使用ChatGPT。一方面由于其功能強大，可以短時間內(nèi)生成論文，且難以被發(fā)現(xiàn)；另一方面，也說明學校擔心學生濫用技術(shù)會導致過度依賴ChatGPT，導致學生喪失獨立思考和研究能力，考試有失公平。如果AI是基于非真實數(shù)據(jù)進行的訓練，很可能生成內(nèi)容帶有一定偏見和非真實性。

3.2 ?AIGC的不足

3.2.1 技術(shù)成熟度不足

AIGC的大模型在進行測試和調(diào)試過程中，仍然會出現(xiàn)很多答非所問、答案重復、通識錯誤等現(xiàn)象。一方面，內(nèi)容生成嚴重依賴訓練數(shù)據(jù)，如果數(shù)據(jù)陳舊、偏差，機器無法判斷，很難達到我們所期望的效果；另一方面，AIGC生成內(nèi)容缺乏深度思考與個人觀點，更多的是將一些知識點關(guān)聯(lián)起來，對于部分內(nèi)容用戶會感覺機器在“一本正經(jīng)地胡說八道”。根本原因是深度學習仍是一種“被動”狀態(tài)，目的是尋找規(guī)律建立規(guī)律，但缺乏“欲望”和目標。同時，機器缺乏情感無法理解和體現(xiàn)人的心理活動，生成內(nèi)容閱讀起來會感覺很平淡，缺乏情緒，這與真人生產(chǎn)內(nèi)容有很大差距。

3.2.2 缺乏監(jiān)管與控制

2022年國家互聯(lián)網(wǎng)信息辦公室會同相關(guān)部門制定了《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》。這是我國唯一與人工智能生成內(nèi)容有關(guān)的規(guī)定，僅是以行政手段下發(fā)缺乏立法過程。AIGC具有強大的內(nèi)容生產(chǎn)能力，但是監(jiān)管和執(zhí)法部門缺乏技術(shù)手段有效識別AIGC生成圖片、合成聲音和文字，執(zhí)法過程缺乏工具。根據(jù)人工智能內(nèi)容生產(chǎn)發(fā)展，建立“科學立法、嚴格執(zhí)法、全面守法”的監(jiān)督管理體系還有大量工作，各方面經(jīng)驗需要不斷積累。

結(jié)語

AIGC本身并沒有好與壞、善與惡的區(qū)別。同蒸汽機和電氣化一樣，作為一種創(chuàng)新技術(shù)它既可以帶來巨大價值，減少重復和具象性工作，但也可能帶來動蕩和不穩(wěn)定。未來，AIGC需要一個有序良性的發(fā)展環(huán)境：一是完善法律法規(guī)，確保新技術(shù)應(yīng)用在人類可控范圍內(nèi)，避免由此所帶來的各類風險或者災(zāi)難。二是強化頂尖人才培養(yǎng)?！叭瞬诺暮穸葲Q定事業(yè)的高度”。AIGC領(lǐng)域?qū)τ趯I(yè)人才的需求巨大，特別是“基礎(chǔ)數(shù)學”人才[5]。GPT-3.5已具有1750億參數(shù)，傳統(tǒng)數(shù)學理論已很難解釋其機理，只有在應(yīng)用數(shù)學方面取得重大突破，人類才有可能超越現(xiàn)有大模型，建立真正的AI理論模型[6]。三是豐富AIGC應(yīng)用廣度。AIGC已應(yīng)用在多行業(yè)，但應(yīng)用范圍和功能相對簡單，生成內(nèi)容還未實現(xiàn)和視頻、VR、AR的結(jié)合。只有應(yīng)用更加廣泛，才能促進更多廠商公司加入其中，進一步降低AIGC軟硬件成本，推動業(yè)務(wù)發(fā)展。

參考文獻：

[1]司馬華鵬，湯毅平，唐翠翠，等.大模型時代——ChatGPT拉開硅基文明序幕[M].北京：電子工業(yè)出版社，2023.

[2]蔡然.人工智能內(nèi)容生成技術(shù)對銀行業(yè)的影響研究[J].中國金融電腦，2023，（7）：47-49.

[3]汲雪嬌.專訪杜雨：AIGC時代的人工智能[J].現(xiàn)代商業(yè)銀行，2023，（6）：20-22.

[4]張漫游.聚焦“大模型+網(wǎng)絡(luò)安全”銀行跨界設(shè)立創(chuàng)新實驗室[N].中國經(jīng)營報，2023-7-17（B5）.

[5]許琦敏.理解并超越大模型需要數(shù)學“應(yīng)戰(zhàn)”[N].文匯報，2023-7-26（4）.

[6]于夢珂.生成式對抗網(wǎng)絡(luò)GAN的研究現(xiàn)狀與應(yīng)用[J].無線互聯(lián)科技，2019，16（9）：25-26，29.

作者簡介：路加，碩士研究生，經(jīng)濟師，研究方向：新媒體運營、遠程銀行、金融科技、銀行零售業(yè)務(wù)。

互聯(lián)網(wǎng)周刊2023年17期

互聯(lián)網(wǎng)周刊的其它文章: 新媒體背景下信息技術(shù)的發(fā)展及其應(yīng)用分析; 互聯(lián)網(wǎng)技術(shù)在醫(yī)療領(lǐng)域中的應(yīng)用; 大數(shù)據(jù)背景下以服務(wù)學生為中心的技工院校智慧校園平臺設(shè)計與建設(shè); 數(shù)據(jù)挖掘技術(shù)在教改科研項目管理中的應(yīng)用研究; “互聯(lián)網(wǎng)+教育”背景下的學生行為模式與學習效果關(guān)系研究; SWOT視角下中小型制藥企業(yè)數(shù)字化轉(zhuǎn)型分析及對策思考