劉明亮
(廣東警官學院 廣東 廣州 510000)
以海量大數(shù)據(jù)為基礎的深度學習和算法模型為支撐,人工智能生成內(nèi)容(artificial intelligence generated content,AIGC)將數(shù)字化信息和智能生成進行深度融合,并應用到圖像、文字、視頻等多模態(tài)信息內(nèi)容的生成、編輯和創(chuàng)作中,使得生成內(nèi)容模式由專業(yè)生成內(nèi)容(professionally generated content,PGC)、用戶生成內(nèi)容(user generated content,UGC)向AIGC 轉(zhuǎn)變[1]。
AIGC 以其優(yōu)越的信息生成和“擬人化”的交互能力得到了廣泛的關注,但是如何推進AIGC 在現(xiàn)實場景的應用仍然是一個亟待解決的問題。 本文的研究工作分為兩個階段:首先,歸納梳理AIGC 的技術特征,總結(jié)技術迭代的要點。 其次,將AIGC 應用場景歸納為輔助設計、自主生成、智能交互三個階段,并對各個階段的具體應用方向進行分析。
Web 1.0 時代,互聯(lián)網(wǎng)信息以內(nèi)容發(fā)布為主,將各渠道獲取的信息進行集中整合,方便用戶搜索獲取所需的信息。 雖然其中也存在論壇、博客等用戶交流渠道,但僅限于提供針對信息的討論和交流,用戶很少參與到內(nèi)容的建設當中。 信息發(fā)布的主導權(quán)集中在門戶網(wǎng)站手中,形成了門戶網(wǎng)站搭建信息傳輸架構(gòu),提供專業(yè)化的信息,用戶被動接收信息的PGC 模式。
Web 2.0 時代,隨著智能終端和移動互聯(lián)的普及,線上線下融為一體,隨時隨地上網(wǎng)、隨時隨地溝通成為時代的特性。 互聯(lián)網(wǎng)信息更多地注重即時性、交互性。 信息發(fā)布的主導也轉(zhuǎn)移向用戶,應用軟件不僅簡化了內(nèi)容編輯發(fā)布模式,而且提供了簡單易操作的編輯、排版工具及豐富的特效、轉(zhuǎn)場功能,信息發(fā)布進入自媒體時代。
Web 3.0 時代,智能交互成為主流。 信息發(fā)布者多元化,內(nèi)容也不僅僅局限于已經(jīng)創(chuàng)設好的知識結(jié)構(gòu),而是通過AI 進行大數(shù)據(jù)整理、挖掘,輸出為用戶所需的信息,實現(xiàn)了生產(chǎn)內(nèi)容多樣化、生產(chǎn)過程去中心化[2]、生產(chǎn)質(zhì)量專業(yè)化。
AIGC 的內(nèi)容生成是以大數(shù)據(jù)訓練資料作為支撐的,多模態(tài)數(shù)據(jù)集LAION-400 M[3]訓練的圖文對數(shù)據(jù)量達到4 個億;GPT-1 訓練資料為5 GB,訓練參數(shù)為1.17 億;GPT-2 訓練資料達到40 GB,訓練參數(shù)為15 億;GPT-3 訓練資料已經(jīng)高達45 TB,訓練參數(shù)為1750 億;谷歌公司發(fā)布的PaLM-E 語言模型訓練參數(shù)達到5620 億,AIGC 訓練樣本呈幾何倍率增長。
相比編程語言,自然語言雖然更貼近日常生活中,但是存在表達形式的多樣性、表達語義的不確定性、表達內(nèi)容的簡略性等特點,不容易直接被計算機正確理解,所以要經(jīng)過自然語言處理(natural language processing,NLP)過程。
自然語言處理,也被稱為計算語言學,主要的目的是用以理解、識別和產(chǎn)生自然語言內(nèi)容。 處理語言的過程分為兩個階段:自然語言理解階段、自然語言生成階段[4]。主要處理的內(nèi)容包括圖像、文本、語音等類型的信息。
NLP 主要分為以下五個步驟:第一步,按照文本編碼倡議(text encoding initiative,TEI)對文本進行編碼、歸納形成語料庫。 第二步,對語料庫進行預處理,完成語料整理、數(shù)據(jù)統(tǒng)計。 第三步,進行分詞處理,拆分文本形成詞元,制作標注、索引。 第四步,特征向量化。 根據(jù)文本的類別、情感等特征將拆分的詞語向量化,解釋為計算機語言。 第五步,進行模型訓練。 利用算法模型,根據(jù)自監(jiān)督或者無監(jiān)督的模式來進行訓練,并根據(jù)反饋來進行調(diào)整。
在Transformer 模型的基礎上,以大規(guī)模預訓練、無監(jiān)督自學習為特性的BERT、GPT、文心、智源“問道”等語言大模型相繼出現(xiàn),解決了圖像、文字、視頻等多模態(tài)信息的識別、交互、生成問題,夯實了AIGC 技術迭代發(fā)展的基礎。
有了海量的訓練樣本,下一步就是對數(shù)據(jù)信息進行學習-糅合-加工,形成AI 自身的認知體系。 而算法模型的更新則是實現(xiàn)AIGC 技術發(fā)展的重要支撐,如變分自動編碼器(variational auto encoder,VAE)、生成對抗網(wǎng)絡(generative adversarial networks, GAN)、擴散模型等。
2.3.1 變分自動編碼器
自動編碼器是一種無監(jiān)督的生成模式,主要構(gòu)造為編碼器和解碼器,其原理是通過編碼器將樣本數(shù)據(jù)降維映射到低維變量,解碼器根據(jù)映射特征將低維變量重構(gòu)為新的樣本數(shù)據(jù)。
變分自動編碼器在自動編碼器的基礎上形成,但是將編碼器分為方差模塊和均值模塊,另外增加了服從正態(tài)分布的隱變量[5],從而使得解碼器不僅僅能還原數(shù)據(jù),而且具有了生成數(shù)據(jù)的能力。
主要原理如圖1 所示:首先,樣本X經(jīng)過編碼器均值模塊和方差模塊編碼,形成符合正態(tài)分布的變量;其次,通過隨機采樣獲得隱變量Z,并通過高斯噪聲對變量進行干擾,使得重構(gòu)生成的樣本和原始樣本不完全一樣;最后,通過解碼器生成盡可能接近原始樣本的新樣本Y。
圖1 變分自動編碼器原理
2.3.2 生成對抗網(wǎng)絡
GAN 利用生成器和判別器互相對抗、博弈、制衡,最終達到納什平衡狀態(tài)[6]。 生成器的作用就是生成最可能接近真實樣本的數(shù)據(jù),以求能夠欺騙過判別器,而判別器的目的就是判斷生成器生成的數(shù)據(jù)是否和真實樣本一致,并且通過不斷學習樣本數(shù)據(jù)以提升自己的鑒別能力。
原理如圖2 所示:首先生成器通過隱空間采樣一組隨機噪聲生成數(shù)據(jù),然后由生成器進行判別,判斷為假則返回讓生成器重新生成,直到判別器無法判斷出生成數(shù)據(jù)和樣本數(shù)據(jù)的差別時,則流程結(jié)束。
圖2 生成對抗網(wǎng)絡原理
但是,GAN 網(wǎng)絡在生成數(shù)據(jù)時也存在一些問題。 (1)生成圖像的多樣性欠缺。 生成器如果生成一種圖形能夠“欺騙”過判別器,則在以后的生成過程中會反復生成同一類型的數(shù)據(jù)。 (2)判別器訓練效率較低,不容易收斂。 導致圖像生成的過程較為繁瑣,而且不容易進行優(yōu)化。
2.3.3 擴散模型
擴散模型同樣是一種無監(jiān)督的深度生成模型,主要原理如圖3 所示:在學習階段,基于馬爾可夫鏈(Markov chain)模型將樣本庫的訓練樣本通過添加噪聲實現(xiàn)分解。假設原始樣本為t0,通過不斷添加噪聲形成t1,t2,直到全部添加噪聲,并在這個過程中構(gòu)建標簽,形成樣本庫,此過程可以看作是正向擴散過程。 在生成階段則正好相反,生成器擬合樣本數(shù)據(jù),并逐步去除噪聲,根據(jù)要求生成圖像,可以看作是逆向的高斯轉(zhuǎn)換過程[7]。
圖3 擴散模型原理
隨著大數(shù)據(jù)訓練的維度及深度學習算法的發(fā)展,AIGC 由復制、模仿向創(chuàng)造、創(chuàng)新演進,應用場景也由最初的AI 輔助設計向自主生成及智能交互場景發(fā)展[8-9]。2022 年,AI 繪畫工具midjourney 開放測試,用戶通過自定義的文字描述,就可以智能生成形態(tài)各異、風格多元的圖像,而且提供了人臉風格變化、AI 換臉等功能。Open AI 發(fā)布了ChatGPT 語言大模型,智能學習并糅合數(shù)據(jù)資料,可以與人工智能交互并創(chuàng)作文章、圖片等數(shù)據(jù)資料。
在早期應用階段,AIGC 主要用于輔助設計方面,為圖文設計提供素材、模板、特效編輯等方面的功能。 而這些功能是軟件或平臺里已經(jīng)設定好的,用戶直接拿來使用即可,并不能自主生成富含邏輯的創(chuàng)意。 比如在圖像處理和設計方面,軟件或平臺里面會預先設置好圖層渲染、濾鏡等模版,方便用戶使用;在文字編輯方面,可以根據(jù)用戶需求進行檢索,并將檢索內(nèi)容進行簡單的排列組合。 在語音交互方面,可以實現(xiàn)對聲音的識別、傳譯,如同聲傳譯系統(tǒng)、語音識別軟件, 但是還不能達到完善的交互水平[10-11]。
語言大模型的不斷推出,如ChatGPT 4.0、PalM-E、文心一言、盤古等,給人智交互帶來了可能。 AI 不僅僅能夠識別文字、語音、圖像等信息,根據(jù)用戶需求生成多模態(tài)數(shù)據(jù),而且生成的內(nèi)容也已經(jīng)不僅僅局限于預設的場景,而是具有了自主生成的能力。
在學習學科知識、語義、邏輯規(guī)律等相關內(nèi)容的基礎上,通過無監(jiān)督的學習方式及模型訓練,AIGC 以智能化、擬人化的體驗將促進其在藝術、教育、媒體等方面的應用。
在藝術領域,用戶可以很方便地使用相關軟件創(chuàng)作出富有創(chuàng)意的音樂、繪畫等作品。 在繪畫生成方面,用戶可以通過文本描述或者提供參考圖片的方式讓AI 生成相應的圖片。 比如,以關鍵詞“巍峨的群山之巔,中國古代建筑,一群飛鳥掠過,廣角鏡頭,色彩鮮明”作畫,如圖4 所示。
圖4 AI 作圖示例
在教育方面,據(jù)Open AI 公司公布,GPT-4 模擬律師考試的成績在考生中排名前10%左右,在GRE 考試的數(shù)學和語言部分幾乎得了滿分。 有大數(shù)據(jù)資源庫、算法模型、虛擬仿真等方面的支持,AI 不僅可以給學生提供學習資料,在生成文章、個性化學習支持、輔導答疑等方面提供幫助,還能營造沉浸式的學習環(huán)境,并根據(jù)學生的反饋及時進行評測互動。
有神經(jīng)網(wǎng)絡技術、移動互聯(lián)傳感網(wǎng)絡、物聯(lián)網(wǎng)等技術的支撐,AI 將逐漸進入更高層次的智能交互階段,通過感觸現(xiàn)實場景和人們的需求進行交互。
通過AIGC 與輔助腦機接口的融合,可以實現(xiàn)大腦不經(jīng)過外圍神經(jīng)系統(tǒng)而直接與外部設備之間進行智能交互,這項技術可以應用在醫(yī)療、教育、游戲等方面。
目前機器人已經(jīng)在工業(yè)制造、家居生活、醫(yī)療等方面有了相關的應用。 但是如果將AIGC 和機器人進行深度融合,那機器人除了簡單執(zhí)行已經(jīng)設置好的命令之外,還可以根據(jù)人們提供的文本、圖像、視頻或者語音等多模態(tài)的指令實時地進行交互,就能夠完成更多具有創(chuàng)造性的工作。 依托于Jetson Xavier 計算系統(tǒng),根據(jù)傳感器網(wǎng)絡感應環(huán)境,機器人可以根據(jù)判斷自主進行合理的反饋和動作。
綜上所述,AIGC 給信息數(shù)據(jù)的整合、傳播、應用都帶來了新的機遇,并且隨著大數(shù)據(jù)訓練樣本的增加,自然語言處理技術與算法模型的迭代更新,其在數(shù)字化內(nèi)容生成、人智交互領域也將得到更多的應用。