亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ?成式??智能正在改變?切當(dāng)炒作消失會剩下什么?

        2023-12-29 00:00:00
        海外星云 2023年2期

        OpenAI很明顯知道自己在做什么。2021年底,只有幾個人的研究小組在OpenAI舊金山辦公室討論了一個想法,隨后他們創(chuàng)造了OpenAI的文本到圖像模型的新版本:DALL-E。

        這是一個可以將簡短的文字描述轉(zhuǎn)變?yōu)閳D片的人工智能模型,你可以讓它生成梵高畫的狐貍,或者是披薩做的柯基。

        OpenAI的聯(lián)合創(chuàng)始人和首席執(zhí)行官山姆·奧特曼告訴《麻省理工科技評論》:“我們會創(chuàng)造一些新東西,然后我們都必須體驗(yàn)它一段時間,幾乎總是這樣。我們要試圖弄清楚它將是什么樣子的,被用于做什么。”

        但這次不行。當(dāng)他們修改模型時,每個參與其中的人都意識到這是一件特別的事情?!昂苊黠@,這就是我們的產(chǎn)品,”山姆說,“(這一點(diǎn))沒有任何爭論,我們甚至從來沒有開會討論過。”

        但沒有人能夠預(yù)測這款產(chǎn)品將會引起多大的轟動。山姆說:“這是第一個被每個普通用戶帶火的人工智能技術(shù)。”

        DALL-E2在2022年4月發(fā)布。5月,谷歌官宣了(但沒有發(fā)布)它自己的兩種文本到圖像的模型,Imagen和Parti。

        然后是Midjourney公司推出了一個為藝術(shù)家制作的文本到圖像模型。8月,英國初創(chuàng)公司StabilityAI向公眾免費(fèi)發(fā)布了開源模型StableDiffusion。

        嘗鮮的用戶蜂擁而至。OpenAI在短短2個半月內(nèi)就吸引了100萬用戶。超過100萬人開始通過付費(fèi)服務(wù)DreamStudio使用StableDiffusion;更多的人通過第三方應(yīng)用程序使用StableDiffusion,或在他們自己的電腦上安裝免費(fèi)版本。

        StabilityAI的創(chuàng)始人易馬德·莫斯塔克表示,他的目標(biāo)是擁有10億用戶。

        在2022年10月,我們看到了第二輪熱潮:谷歌、Meta等公司發(fā)布了文本到視頻模型,可以創(chuàng)建短視頻、動畫和3D圖像。

        這種發(fā)展速度令人驚訝。在短短幾個月的時間里,這項(xiàng)技術(shù)登上了媒體頭條和雜志封面,社交媒體上到處都是討論的人和有關(guān)的話題,話題的熱度高居不下,但同時也引發(fā)了強(qiáng)烈的反彈。

        倫敦國王學(xué)院研究計算創(chuàng)造力的人工智能研究員邁克·庫克說:“這項(xiàng)技術(shù)令人驚嘆,它很有趣,這是新技術(shù)該有的樣子。

        但它發(fā)展得如此之快,以至于你的理解根本趕不上它的更新速度。我認(rèn)為,整個社會要花上一段時間來消化它。”

        藝術(shù)家們陷入了這個時代最大的動蕩之中。有些人會失去工作;有些人會找到新的機(jī)會。一些人選擇訴諸法律,因?yàn)樗麄冋J(rèn)為,訓(xùn)練模型所用的圖像被濫用了。

        曾在夢工廠等視覺效果工作室工作過的數(shù)字藝術(shù)家,唐·艾倫·史蒂文森三世說:“對于像我這樣接受過技術(shù)訓(xùn)練的人來說,這非常可怕的。

        “我會說天吶,這是我的全部工作,”他說,“我在使用DALL-E的第一個月就陷入了生存危機(jī)?!?/p>

        盡管一些人仍沉浸在震驚之中,但包括史蒂文森在內(nèi)的許多人正在尋找使用這些工具的方法,并預(yù)測接下來會發(fā)生什么。

        令人興奮的事實(shí)是,我們不知道接下來會發(fā)生什么。原因是,雖然創(chuàng)意產(chǎn)業(yè)從娛樂媒體到時尚、建筑、市場營銷等,將最先感受到影響,但這項(xiàng)技術(shù)將把創(chuàng)造力賦予每個人。

        從長遠(yuǎn)來看,它可以用于產(chǎn)生幾乎任何東西的設(shè)計,從新型藥物到服裝和建筑。生成式的革命已經(jīng)開始。

        神奇的?命

        對于曾從事電子游戲和電視節(jié)目制作的數(shù)字創(chuàng)作者查德·納爾遜來說,從文本到圖像的模型是一個千載難逢的突破。

        他說:“這項(xiàng)技術(shù)可以讓你在幾秒鐘內(nèi)將腦海里的靈光一閃變成一個原型。你創(chuàng)造和探索的速度是革命性的——超過了我30年來經(jīng)歷過的任何一個時刻。”

        在模型剛出的幾周里,人們就開始使用這些工具進(jìn)行原型創(chuàng)造和頭腦風(fēng)暴,從雜志插圖和營銷布局到電子游戲環(huán)境和電影概念。

        人們制作了同人作品,甚至是整本漫畫書,并在網(wǎng)上不斷分享。山姆甚至用DALL-E來設(shè)計運(yùn)動鞋,就在他把設(shè)計圖發(fā)在推特上之后,有人為他制作了一雙。

        紋身藝術(shù)師兼計算機(jī)科學(xué)家艾米·史密斯一直在使用DALL-E模型來設(shè)計紋身?!澳憧梢院涂蛻粢黄鹱聛?,一起進(jìn)行設(shè)計,”她說,“我們正處于一場革命之中?!?/p>

        數(shù)字和視頻藝術(shù)家保羅·特里洛認(rèn)為,這項(xiàng)技術(shù)將使關(guān)于視覺效果的頭腦風(fēng)暴更容易、更快速。

        “人們都在說,這是特效藝術(shù)家或時裝設(shè)計師的末日,”他說,“我不認(rèn)為這是任何職業(yè)的終局。相反,我認(rèn)為它意味著我們不必在晚上和周末加班?!?/p>

        圖片公司則采取了不同的立場。Getty已經(jīng)禁止了人工智能生成的圖像;Shutterstock公司已經(jīng)與OpenAI簽署了一項(xiàng)協(xié)議,將DALL-E嵌入其網(wǎng)站,并表示將成立一個基金,對那些成果被模型當(dāng)作訓(xùn)練數(shù)據(jù)的藝術(shù)家進(jìn)行補(bǔ)償。

        史蒂文森說,他在動畫工作室制作電影的每一步都嘗試了DALL-E,包括角色和環(huán)境的設(shè)計。

        有了DALL-E,他能夠在幾分鐘內(nèi)完成多個部門的工作。他說:“對于那些因?yàn)榧夹g(shù)太貴或太復(fù)雜而無法從事創(chuàng)造工作的人來說,這是令人振奮的。但如果你不愿意接受改變,那就太可怕了?!?/p>

        納爾遜認(rèn)為未來還會有更多的事情發(fā)生。最終,他認(rèn)為這項(xiàng)技術(shù)不僅會被媒體巨頭所接受,也會被建筑和設(shè)計公司所接受。不過,他認(rèn)為人工智能模型還沒有準(zhǔn)備好。

        “現(xiàn)在就像你有一個小魔法盒子,一個小巫師,”他說。如果你只是想繼續(xù)生成圖像,那足夠了,但如果你需要一個創(chuàng)造性的合作伙伴,那還不夠。

        他說:“如果我想讓它創(chuàng)造故事和構(gòu)建世界,它需要對我正在創(chuàng)造的東西有更多的認(rèn)知?!?/p>

        這就是問題所在:這些模型仍然不知道自己在做什么。

        ?盒?

        為了了解原因,讓我們看看這些程序是如何工作的。從外部來看,模型是一個黑盒子。

        你輸入一段簡短的文字描述,又可以被稱為一段提示,然后等待幾秒鐘,你就會得到一些(或多或少)符合提示的圖像。

        你可能不得不調(diào)整你的文本,讓模型產(chǎn)生一些更接近你的想法的東西,或者不斷打磨一個偶然得到的結(jié)果,這已被稱為“提示工程”。

        為了獲得最細(xì)致的、樣式獨(dú)特的圖像,一段描述可以多達(dá)幾百個單詞,而選擇正確的單詞已經(jīng)成為一項(xiàng)有價值的技能。相關(guān)的網(wǎng)絡(luò)市場如雨后春筍般涌現(xiàn),專門買賣那些能夠產(chǎn)生理想結(jié)果的文字提示和描述。

        文字提示可以包含指示模型選擇特定風(fēng)格的短語,比如“ArtStation的流行趨勢”,這是在告訴人工智能模仿ArtStation網(wǎng)站上流行的圖像(通常是非常詳細(xì)的)風(fēng)格,這個網(wǎng)站上有成千上萬的藝術(shù)家展示他們的作品;而“虛幻引擎”則會激活類似電子游戲的圖像風(fēng)格。

        用戶甚至可以輸入特定藝術(shù)家的名字,讓人工智能制作出模仿他們風(fēng)格的仿制品。當(dāng)然,這讓一些藝術(shù)家非常不高興。

        外表之下,文本到圖像模型有兩個關(guān)鍵組成部分:一個經(jīng)過訓(xùn)練的、將圖像與描述圖像的文本配對的神經(jīng)網(wǎng)絡(luò),以及另一個被訓(xùn)練成從零開始生成圖像的神經(jīng)網(wǎng)絡(luò)。其核心思想是讓第二個神經(jīng)網(wǎng)絡(luò)生成能讓第一個神經(jīng)網(wǎng)絡(luò)接受的圖像。

        新模型背后的重大突破在于圖像生成的方式。DALL-E模型的第一個版本使用了OpenAI語言模型GPT-3背后的技術(shù),通過預(yù)測圖像中的下一個像素來生成圖像,就像預(yù)測句子中的單詞一樣。這可以實(shí)現(xiàn)目的,但效果不好。

        “它沒有給人一種神奇的感覺,”山姆說,“它能運(yùn)轉(zhuǎn)本身就很神奇了?!?/p>

        相反,DALL-E2模型使用了一種叫做擴(kuò)散模型的東西。擴(kuò)散模型是一種神經(jīng)網(wǎng)絡(luò),經(jīng)過訓(xùn)練后,它可以通過去除訓(xùn)練過程中添加的像素化噪聲來清理圖像。

        這個過程包括拿到一張圖片,改變其中的幾個像素并重復(fù)多次,直到原始圖像被擦除,最后只剩下隨機(jī)的像素。

        “如果你這樣做一千次,最終圖像看起來就像是沒有信號的電視上面的雪花,”比約恩·歐蒙說。他在德國慕尼黑大學(xué)研究生成式人工智能,幫助建立了StableDiffusion背后的擴(kuò)散模型。

        然后訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)逆轉(zhuǎn)這個過程,并預(yù)測給定圖像的低像素化版本會是什么樣子。結(jié)果是如果你給一個擴(kuò)散模型一堆像素,它會嘗試生成稍微更干凈的圖像。

        把清理后的圖像放回去,模型就會產(chǎn)生更干凈的圖像。當(dāng)這個過程足夠長,模型就可以把雪花圖像變成高分辨率圖片。

        文本到圖像模型的訣竅是,這個過程是由語言模型引導(dǎo)的,該語言模型負(fù)責(zé)將文字提示與擴(kuò)散模型產(chǎn)生的圖像相匹配。這將擴(kuò)散模型推向了語言模型認(rèn)為的匹配度更高的圖像。

        但這些模型并沒有擺脫文本和圖像之間的聯(lián)系。如今,大多數(shù)文本到圖像的模型都是在一個名為LAION的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練的,該數(shù)據(jù)集包含了從互聯(lián)網(wǎng)上提取的數(shù)十億組文本和圖像。

        這意味著你從文本到圖像模型中得到的圖像,是真實(shí)網(wǎng)絡(luò)世界的抽象,它包含了被偏見(和色情)扭曲的網(wǎng)絡(luò)內(nèi)容。

        還有一點(diǎn)值得注意,目前最流行的兩種模型,DALL-E2和StableDiffusion之間有一個微小但關(guān)鍵的區(qū)別。

        DALL-E2的擴(kuò)散模型適用于全尺寸圖像,而StableDiffusion則使用了一種由歐蒙和他的同事發(fā)明的被稱為“潛在擴(kuò)散”的技術(shù)。

        后者作用于神經(jīng)網(wǎng)絡(luò)中編碼圖像的壓縮版本,即所謂的“隱空間”中,其中只保留了圖像的基本特征。

        這意味著StableDiffusion需要的算力更少。與運(yùn)行在OpenAI高性能服務(wù)器上的DALL-E2模型不同,StableDiffusion可以在性能尚可的個人電腦上運(yùn)行。

        創(chuàng)造力的爆炸式增長和新應(yīng)用程序的快速開發(fā),在很大程度上是由于StableDiffusion不僅是開源的,程序員可以自由地改變它,在開源代碼的基礎(chǔ)上構(gòu)建它并以此賺錢,而且它足夠輕巧,人們在家就能運(yùn)行。

        重新定義創(chuàng)造?

        對一些人來說,這些模型是向通用人工智能(AGI)邁進(jìn)的一步。AGI指的是未來具有通用或甚至類似人類智能的人工智能,當(dāng)然,你也可以認(rèn)為它是一個被過度炒作的概念。OpenAI已經(jīng)明確了其實(shí)現(xiàn)AGI的目標(biāo)。

        出于這個原因,OpenAI的聯(lián)合創(chuàng)始人山姆并不關(guān)心DALL-E2現(xiàn)在正與大量類似的工具競爭,其中一些是免費(fèi)的。

        “我們是要制造AGI的,而不是圖像生成器,”他說,“我們的工具將契合一個更廣泛的產(chǎn)品路線圖。這只是AGI能做的一件小事?!?/p>

        這是一個樂觀的想法,因?yàn)樵S多專家認(rèn)為,今天的人工智能永遠(yuǎn)不會達(dá)到那個水平。就基本智能而言,文本到圖像的模型并不比支撐它們的語言模型更智能。

        像GPT-3和谷歌的PaLM這樣的工具,會從他們所訓(xùn)練的數(shù)十億個文檔中獲取文本模式。類似地,DALL-E和StableDiffusion可能只是復(fù)制了在數(shù)十億個網(wǎng)絡(luò)樣本中發(fā)現(xiàn)的文本和圖像之間的關(guān)聯(lián)。

        雖然社交媒體上有許多眼花繚亂的成果,但如果我們不斷嘗試,總會發(fā)現(xiàn)不盡如人意的地方。

        這些模型會犯下愚蠢的錯誤,比如你想要“河里的鮭魚”,它會生成“漂浮在河上的生魚片”,或者你想要“蝙蝠飛過棒球場”,它會給你一張“有飛行的哺乳動物和一根木棍”的圖片。

        這是因?yàn)樗鼈兯褂玫募夹g(shù),完全不能像人類(甚至大多數(shù)動物)那樣理解我們的世界。

        即便如此,讓這些模型學(xué)習(xí)更好的技巧可能只是時間問題。庫克說:“人們說它現(xiàn)在不太擅長做某件事,沒問題,等再燒一億美元之后,它很可能就會做了。”

        OpenAI就是這樣做的。山姆說:“我們已經(jīng)知道如何讓模型的性能提高10倍。我們知道,它在遇到一些邏輯推理任務(wù)時會表現(xiàn)很差。我們將列出一個待辦問題清單,然后推出一個新版本來解決當(dāng)前出現(xiàn)的所有問題?!?/p>

        如果關(guān)于智能和理解的說法被夸大了,那么創(chuàng)造力呢?就人類而言,我們說藝術(shù)家、數(shù)學(xué)家、企業(yè)家、幼兒園的小孩子和他們的老師都是創(chuàng)造力的典范。但要了解這些人的共同之處,是很難的一件事。

        對一些人來說,最重要的是結(jié)果。另一些人則認(rèn)為,事物的制造方式,以及在這個過程中的動機(jī)——是最重要的。

        盡管如此,許多人還是認(rèn)可瑪格麗特·博登給出的定義

        她是英國蘇塞克斯大學(xué)一位有影響力的人工智能研究員和哲學(xué)家,她將創(chuàng)造力這個概念歸結(jié)為三個關(guān)鍵標(biāo)準(zhǔn):要有創(chuàng)意,一個想法或人工制品需要是新的、令人驚訝的和有價值的。

        除此之外,創(chuàng)造性是你第一眼看到就能意識到的東西?!坝嬎銊?chuàng)造力”領(lǐng)域的研究人員將他們的工作描述為:如果使用計算機(jī)產(chǎn)生的成果,可以被認(rèn)為是人類能夠憑一己之力創(chuàng)造出來的東西,那它就會被認(rèn)為是具有創(chuàng)造性的。

        因此,史密斯很高興地稱這種新一代的生成式模型具有創(chuàng)造性,盡管它們會犯一些愚蠢的錯誤。

        她說:“很明顯,這些圖像中的創(chuàng)新并不受任何人類輸入的控制。從文本到圖像的轉(zhuǎn)換往往是令人驚訝和美麗的?!?/p>

        在澳大利亞莫納什大學(xué)研究計算創(chuàng)造力的瑪麗亞·特蕾莎·拉拉諾,同意文本到圖像的模型擴(kuò)展了以前的定義,但她并不認(rèn)為它是有創(chuàng)意的。

        拉拉諾指出,當(dāng)用戶經(jīng)常使用這些程序時,結(jié)果可能會開始變得重復(fù)。

        這意味著它們沒有完全符合創(chuàng)造力的部分或全部要求,這可能是該技術(shù)的一個根本性限制。

        本質(zhì)上,文本到圖像的模型生產(chǎn)出的圖像,依據(jù)的是數(shù)十億張已經(jīng)存在的圖像。也許機(jī)器學(xué)習(xí)只會產(chǎn)生(或模仿)它在過去所接觸到的東西的圖像。

        這對計算機(jī)圖形學(xué)來說可能并不重要。Adobe已經(jīng)開始在Photoshop軟件中加入文本到圖像的生成功能;類似Photoshop但開源的Blender已經(jīng)有一個StableDiffusion插件;OpenAI正在與微軟合作,為Office辦公套件開發(fā)一個從文本到圖像的小組件。

        正是在這種互動中,在這些熟悉的生產(chǎn)力工具的未來版本中,用戶才真正地體會到了影響:來自那些不取代人類創(chuàng)造力,但卻能增強(qiáng)創(chuàng)造力的機(jī)器。

        “我們今天看到的創(chuàng)造力來自于系統(tǒng)的使用,而不是系統(tǒng)本身,”拉拉諾說道。

        這一觀點(diǎn)得到了其他計算創(chuàng)造力研究人員的贊同。這不僅僅關(guān)乎于機(jī)器所做的事情,更多的是他們是怎么做的。把他們變成真正的創(chuàng)意伙伴,意味著推動他們更加自主,賦予他們創(chuàng)造性的責(zé)任,讓他們?nèi)ゲ邉澓蛣?chuàng)造。

        許多相關(guān)的工具很快就會接踵而至。有人已經(jīng)編寫了一個叫做CLIP詢問器的程序,它可以分析一個圖像,并給出一段用于生成更多類似圖像的提示。

        另一些人則在使用機(jī)器學(xué)習(xí),調(diào)整短語和詞匯使得提示的效果更好,讓生成的圖像有更高的質(zhì)量和保真度——這也有效自動化了提示工程,一個剛出現(xiàn)幾個月的工種。

        與此同時,隨著圖像不斷涌現(xiàn),我們也看到了其他方面的影響。庫克說:“互聯(lián)網(wǎng)現(xiàn)在永遠(yuǎn)被人工智能制作的圖像污染了。我們在2022年制作的圖片,將是從現(xiàn)在開始制作的任何模型的一部分?!?/p>

        這些工具將對創(chuàng)意產(chǎn)業(yè)和整個人工智能領(lǐng)域?qū)a(chǎn)生哪些持久性影響,我們將拭目以待,生成式人工智能已經(jīng)成為另一種表達(dá)工具。

        OpenAI聯(lián)合創(chuàng)始人山姆說,他現(xiàn)在會在私人短息中使用生成的圖像,就像使用emoji表情符號一樣。他說:“我的一些朋友甚至都懶得去生成圖像,他們會直接輸入提示文本。”

        但從文本到圖像的模型可能只是一個開始。生成式人工智能最終可能被用于建筑設(shè)計和開發(fā)之中,這又被稱為“文本到X(圖片之外的某種事物)”。

        “人們會意識到,技術(shù)或工藝不再是障礙,唯一的限制是他們的想象力,”納爾遜說。

        計算機(jī)已經(jīng)在幾個行業(yè)中被使用,以生成大量可能的設(shè)計,然后人們會篩選出那些可能有效的設(shè)計。

        文本到X的模型將允許人類設(shè)計師從一開始就微調(diào)生成過程,使用文字引導(dǎo)計算機(jī)跳過無數(shù)的選項(xiàng),以獲得更加令人滿意的結(jié)果。

        計算機(jī)可以召喚出充滿無限可能性的空間,文本到X將讓我們用詞匯來探索這些空間。

        “我認(rèn)為這是可以流傳下去的東西,”山姆說?!皥D像、視頻、音頻、最終,一切都會被生成。我認(rèn)為它將會無處不在?!?/p>

        国产三级不卡一区不卡二区在线| 欧美成人免费看片一区| 亚洲精品天堂在线观看| 国内精品国产三级国产| 亚洲va欧美va日韩va成人网| 97无码人妻福利免费公开在线视频| 2020国产精品久久久久| 日本国产一区二区在线观看 | 国产成人午夜福利在线观看者| 国产又粗又猛又黄色呦呦| 国产精品成人自拍在线观看| 色噜噜久久综合伊人一本| 尤物99国产成人精品视频| 精品中文字幕手机在线| 黄片小视频免费观看完整版| 国语对白嫖老妇胖老太| 无码 制服 丝袜 国产 另类| 亚洲国产线茬精品成av| 亚洲国产av无码精品无广告| 麻豆一区二区99久久久久| 在线观看av国产自拍| 日产国产亚洲精品系列| 久久不见久久见免费影院| 99久久夜色精品国产网站| 亚洲一区二区三在线播放| 黄射视频在线观看免费| 闺蜜张开腿让我爽了一夜| 亚洲AⅤ无码国精品中文字慕| 亚洲av中文字字幕乱码软件| 国产成人午夜高潮毛片| 成人无码区免费a片www| 国产一区二区内射最近人| gg55gg国产成人影院| 亚洲а∨精品天堂在线| 99在线视频精品费观看视| 日韩有码在线免费视频| 无码人妻精品一区二区三区9厂| 在线免费黄网| 亚洲国产不卡免费视频| 国产精品亚洲精品日韩已方| 女人夜夜春高潮爽a∨片|