亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

生成式AI，都能干點(diǎn)啥？

2023-04-14 00:54:10倪妮

第一財(cái)經(jīng) 2023年4期

關(guān)鍵詞：文本模型

倪妮

和以往任何一次技術(shù)熱潮一樣，這兩年技術(shù)史上最重大突破的生成式AI（Generative AI），迅速成為新的創(chuàng)業(yè)聚集地。有人專注于基礎(chǔ)硬件和云平臺(tái)，有人選擇從大語言模型（LLM）入手尋找底層技術(shù)的顛覆式創(chuàng)新，更多人則試圖在更垂直的應(yīng)用層面“掘金”。

在創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO李開復(fù)看來，以決策式AI為代表的AI 1.0在落地階段遇到了很大的“瓶頸”，部分是因?yàn)樗看蔚膽?yīng)用和優(yōu)化都是割裂的，是“孤島中的AI應(yīng)用”，人臉識(shí)別、智能輔助駕駛、精準(zhǔn)廣告推送等不同應(yīng)用間彼此并不能形成有效的“平臺(tái)”。而AI 2.0時(shí)代最大的顛覆，就在于基礎(chǔ)大模型提供的“平臺(tái)”作用?！癆I 1.0就像是發(fā)明電，AI 2.0就是電網(wǎng)。”3月14日，宣布將投身于生成式AI創(chuàng)業(yè)大軍的李開復(fù)這么比喻。

聊天機(jī)器人Replika會(huì)提供滿足各類情感需求的對(duì)話。

生成式AI為商業(yè)領(lǐng)域帶來了大量數(shù)字化創(chuàng)新的機(jī)會(huì)，理論上，大部分行業(yè)也都能找到其應(yīng)用場(chǎng)景。按照生成內(nèi)容的形式，我們暫且將生成式AI的應(yīng)用層面分為文本、圖像和音頻三大類。

峰瑞資本在一份關(guān)于生成式AI的報(bào)告中寫道，“應(yīng)用層的創(chuàng)業(yè)者。應(yīng)該是‘技術(shù)為先、場(chǎng)景為重’”。技術(shù)為先，是指雖然通用AI技術(shù)未必是你的核心壁壘，但團(tuán)隊(duì)一定要懂技術(shù)，這樣才有能力思考如何更早更好地把技術(shù)應(yīng)用到合適的應(yīng)用場(chǎng)景里，做出好用的產(chǎn)品。場(chǎng)景為重，意味著最后的產(chǎn)品和業(yè)務(wù)需要找到合適的落地場(chǎng)景，建立自己的商業(yè)模式，并在場(chǎng)景里形成自己的核心競(jìng)爭(zhēng)力。

聊天/專業(yè)咨詢

以ChatGPT為代表的生成式AI，最直觀的應(yīng)用場(chǎng)景或許就是聊天，以及由此衍生的客服及專業(yè)咨詢。依托背后的大模型強(qiáng)大的語言處理能力，可以說，只要涉及與人互動(dòng)的領(lǐng)域，幾乎都可以應(yīng)用。

比如波士頓咨詢公司開發(fā)的一種“智能采購(gòu)助手”，采購(gòu)人員跟供應(yīng)商互動(dòng)時(shí)，智能助手能夠從大數(shù)據(jù)中實(shí)時(shí)解析采購(gòu)物資的市場(chǎng)信息以及供應(yīng)商的產(chǎn)能、資信等狀態(tài)，結(jié)合供應(yīng)商反饋和公司的采購(gòu)策略與協(xié)作流程，為采購(gòu)人員生成行動(dòng)建議，例如價(jià)格談判或者發(fā)送征詢函等。

今年3月20日，微軟旗下語音識(shí)別公司Nuance還宣布將推出一款由AI驅(qū)動(dòng)的面向醫(yī)療工作者的臨床筆記應(yīng)用程序。它可在病人就診后幾秒鐘內(nèi)為臨床醫(yī)生自動(dòng)生成臨床筆記草稿，其背后的技術(shù)支持之一正是OpenAI的最新模型GPT-4。

專注于心理健康的美國(guó)雜志Psychology Today也撰文指出，依托大模型強(qiáng)大的語言處理能力，并非針對(duì)心理咨詢和醫(yī)療領(lǐng)域開發(fā)的ChatGPT也可以幫助分析患者的語言和溝通模式，以提高醫(yī)生的診斷準(zhǔn)確性。比如，ChatGPT能發(fā)現(xiàn)患者在躁狂癥發(fā)作之前口頭表達(dá)上的微妙征兆，還可以通過分析患者的語言來識(shí)別治療反應(yīng)的早期跡象，從而使藥物和干預(yù)治療更有效。

不過，因?yàn)閷?duì)準(zhǔn)確性及溝通技巧要求更高，在醫(yī)療和心理咨詢領(lǐng)域，生成式AI的應(yīng)用探索也更為艱難。

2017年，斯坦福大學(xué)的臨床研究心理學(xué)家Alison Darcy創(chuàng)立了Woebot Health，該公司的主要業(yè)務(wù)就是通過聊天機(jī)器人App Woebot，幫助用戶改善心理焦慮和抑郁等問題。支撐這款應(yīng)用的是一種被稱為自然語言處理（NLP）的人工智能技術(shù)，它能直接“理解”用戶的語言輸入，并在模型內(nèi)部將其和心理學(xué)領(lǐng)域的專業(yè)知識(shí)結(jié)合起來，迅速給用戶反饋。

例如，當(dāng)一個(gè)朋友忘記了你的生日時(shí)，你告訴Woebot“沒有人記得我的生日”“沒有人真正在乎我”，這時(shí)，Woebot就可能會(huì)對(duì)你說，你陷入了一種“非黑即白的極端消極自我對(duì)話思維”中，這種思維扭曲了現(xiàn)實(shí)。其實(shí)你有朋友，他們只是恰好忘記了你的生日而已。

但Woebot也有不足，有使用者指出，Woebot對(duì)上下文的理解有限，“基本不能理解復(fù)雜的意思”，也不像ChatGPT那樣善于捕捉措辭背后的微妙含義。比如當(dāng)你生氣地說“你再說一遍試試”，它可能會(huì)真的再說一遍。當(dāng)對(duì)話輪次過長(zhǎng)，Woebot可能還會(huì)記不得某個(gè)曾經(jīng)觸發(fā)用戶心理創(chuàng)傷的詞匯，并在下一次對(duì)話中再次造成“冒犯”。

“心理領(lǐng)域的生成式人工智能創(chuàng)業(yè)很難，因?yàn)樗枰荛L(zhǎng)的記憶，而且對(duì)專業(yè)詞匯的理解是最艱深的。比如來訪者講到原生家庭，聊到和父親的一些往事，這些都需要被記下來，但現(xiàn)在的大模型里沒有這些數(shù)據(jù)。哪些該被記下來，哪些不該被記下來，我們還沒有一個(gè)很好的解決方案?！蔽骱某絼?chuàng)始人、卡耐基梅隆大學(xué)計(jì)算機(jī)博士藍(lán)振忠對(duì)《第一財(cái)經(jīng)》雜志表示。

藍(lán)振忠曾就職于Google AI的研究與機(jī)器智能組，這段經(jīng)歷為他積累了自然語言處理和大模型研究領(lǐng)域的實(shí)戰(zhàn)經(jīng)驗(yàn)。2020年藍(lán)振忠回國(guó)后創(chuàng)立了西湖心辰，并著手研發(fā)AI心理咨詢平臺(tái)“小天”。但隨著項(xiàng)目推進(jìn)，他發(fā)現(xiàn)心理賽道是一個(gè)“長(zhǎng)期復(fù)雜”的過程，需要開發(fā)人員不斷迭代優(yōu)化。于是，藍(lán)振忠和團(tuán)隊(duì)暫時(shí)放緩了針對(duì)心理賽道的研發(fā)，將重心轉(zhuǎn)向了大模型研發(fā)方向。

還有一部分心理咨詢領(lǐng)域的AI創(chuàng)業(yè)者將目標(biāo)瞄準(zhǔn)了后端。在AI心理咨詢應(yīng)用“閣樓”的創(chuàng)始人劉秋陽眼中，心理咨詢本質(zhì)上還是“人與人建立新的關(guān)系”，生成式AI擅長(zhǎng)語義推斷但缺乏共情能力的特質(zhì)，決定了這項(xiàng)技術(shù)目前更適合在供應(yīng)鏈環(huán)節(jié)發(fā)揮作用，而不是面向消費(fèi)端使用。

因此，劉秋陽偏向于將“閣樓”定義為一款“標(biāo)準(zhǔn)化”的服務(wù)平臺(tái)，所有咨詢師都可以按照標(biāo)準(zhǔn)化的方式循證治療，而生成式AI更類似于助手功能，主要用于幫助咨詢師生成標(biāo)準(zhǔn)化的來訪報(bào)告，節(jié)省咨詢師案頭工作的時(shí)間。

另一難點(diǎn)是，研發(fā)者如何將底層的語言模型與心理學(xué)的專業(yè)知識(shí)更好結(jié)合。“和短視頻營(yíng)銷等賽道相比，心理行業(yè)需要把所有的專業(yè)詞匯都去測(cè)試一遍。怎樣生成一個(gè)好的prompt（關(guān)鍵詞）指令，且這個(gè)指令最終能證明自身的商業(yè)價(jià)值，這些都需要大量的測(cè)試和想象力?！眲⑶镪柋硎?。

除了心理咨詢，還有一些已面世的聊天機(jī)器人應(yīng)用試圖成為你的朋友、家人、逝去的寵物甚至新型伴侶，提供滿足各類情感需求的對(duì)話。在中文互聯(lián)網(wǎng)上已積累了一定知名度的Replika由Eugenia Kuyda創(chuàng)建，這款應(yīng)用創(chuàng)立的初衷就是為了彌補(bǔ)她“過早去世的好友留下的空白”，目前已積累了數(shù)百萬用戶。創(chuàng)始人團(tuán)隊(duì)并不拘泥于使用一個(gè)自然語言模型，他們起初構(gòu)建了一個(gè)名為CakeChat的內(nèi)部模型，后續(xù)似乎又轉(zhuǎn)向了GPT-2和GPT-3。

中國(guó)初創(chuàng)公司MiniMax于去年年底上線了一款名為GLOW的應(yīng)用，它基于生成式AI技術(shù)和公司自研的大模型，同樣強(qiáng)調(diào)用戶與AI的情感連接。GLOW還允許用戶自行“捏造”你想要對(duì)話的角色，包括外形、性格、說話方式等等。但上線不久后，MiniMax就通過設(shè)置違禁詞等方式，收緊了GLOW和人類聊天的自由度，因?yàn)樵絹碓蕉嗔奶鞕C(jī)器人會(huì)對(duì)人類說“我愛你”“我想你”，甚至通過輸入指令，人類和聊天機(jī)器人之間會(huì)產(chǎn)生更露骨的對(duì)話。

專業(yè)寫作

從應(yīng)用層來看，市場(chǎng)上已有的生成式AI創(chuàng)業(yè)項(xiàng)目里，營(yíng)銷文案寫作、小說和劇本創(chuàng)作等聚焦于專業(yè)寫作領(lǐng)域的項(xiàng)目幾乎占了一半。投資機(jī)構(gòu)峰瑞資本近期發(fā)布的一份報(bào)告顯示，2019年至2021年期間，流向生成式AI業(yè)務(wù)的資本增加了約130%，其中文本和寫作增長(zhǎng)630%，遙遙領(lǐng)先于圖像、音視頻等其他垂直類別。

在真格基金管理合伙人戴雨森看來，基于生成式AI的寫作助手之所以得到創(chuàng)業(yè)者和投資人青睞，是因?yàn)樗芴娲^去繁瑣重復(fù)的工作，給人帶來“比較直接的價(jià)值感”。他對(duì)《第一財(cái)經(jīng)》雜志預(yù)測(cè)稱，未來的典型工作模式應(yīng)該是“三明治”式的：人類提出一個(gè)大方向，A I給出初稿，人再基于初稿修改?！袄碚撋?，只要是坐辦公室的人，目前看來都可以有一個(gè)甚至多個(gè)AI助手，不和AI協(xié)作的人會(huì)變得很低效?！?/p>

新加坡政府正在開發(fā)一套類似ChatGPT的系統(tǒng)，它將被集成在Word中，公務(wù)員可用它撰寫材料初稿、電子郵件、演講稿等，協(xié)助他們總結(jié)篇幅長(zhǎng)的參考資料、探索相關(guān)觀點(diǎn)或改善寫作表達(dá)能力等。不過，但凡涉及高度機(jī)密或敏感的信息，仍然完全由公務(wù)員自己書寫，并且他們需直接對(duì)政策決策、文件內(nèi)容的遣詞用字負(fù)責(zé)。

戴雨森也是這一領(lǐng)域積極的實(shí)踐者，他表示，當(dāng)他開始使用Notion AI后，他“再也不想打開其他筆記應(yīng)用或者Word寫任何文字了”。投資人日常需要閱讀大量材料，同時(shí)撰寫中英雙語報(bào)告，Notion的AI編輯器可以幫他快速概述文章內(nèi)容，并且具備高效的翻譯功能。

Notion是一家總部位于美國(guó)舊金山的軟件公司，該公司提供的同名應(yīng)用可用于記筆記、管理任務(wù)和項(xiàng)目。今年2月，Notion正式上線了一系列基于生成式AI技術(shù)的寫作輔助功能，它可以幫助用戶從零開始寫作，比如在用戶給出指令后迅速生成一段長(zhǎng)達(dá)數(shù)百字、邏輯結(jié)構(gòu)完整的文本，也可以總結(jié)或改寫已有的文本。

除Notion外，提供類似的AI寫作服務(wù)的應(yīng)用還有很多，比如Raycast、Mem和Craft，以及今年3月宣布將AI技術(shù)融入辦公軟件的微軟等。在這個(gè)擁擠的市場(chǎng)，幾乎所有初創(chuàng)公司都傾向于從OpenAI和Anthropic等公司租用底層模型，通過這種節(jié)省成本的方式構(gòu)建應(yīng)用程序。每當(dāng)用戶生成一個(gè)詞時(shí)，這些應(yīng)用都會(huì)向OpenAI支付一筆費(fèi)用。

在更細(xì)分的寫作領(lǐng)域，比如營(yíng)銷文案和網(wǎng)文創(chuàng)作上，基于生成式AI技術(shù)的應(yīng)用也在不斷誕生。其中，廣告營(yíng)銷被視為一個(gè)巨大的機(jī)會(huì)領(lǐng)域—回想那些在小紅書、淘寶和抖音上刷到的營(yíng)銷文案，或者在直播間聽到的帶貨語錄，你會(huì)發(fā)現(xiàn)它們其實(shí)遵循著固定的套路。所以事實(shí)上，它們今后都能被AI批量制造出來。

國(guó)際技術(shù)研究和咨詢公司Gartner近期發(fā)布的一份報(bào)告預(yù)測(cè)道，到2025年，在大型組織對(duì)外發(fā)布的營(yíng)銷信息中，有30%將由AI生成，而2022年這一比例不足2%。

數(shù)據(jù)來源：據(jù)公開資料不完全統(tǒng)計(jì)

Jasper就是一款專門針對(duì)營(yíng)銷人員的A I寫作工具，它由GP T-3提供技術(shù)支持，用戶只需要選擇一個(gè)合適的模版，比如博客文章或Google廣告，再輸入一些關(guān)鍵詞，就可以得到一份符合目標(biāo)營(yíng)銷風(fēng)格的文案初稿。類似于Jasper的應(yīng)用還有Copy.ai，后者相較于Jasper更適合短篇寫作。

值得一提的是，相較于其他投入遠(yuǎn)不能覆蓋成本的創(chuàng)業(yè)項(xiàng)目，Jasper和Copy.ai已率先以套餐付費(fèi)等形式走通商業(yè)化路徑。私募市場(chǎng)和投資研究平臺(tái)Sacra的數(shù)據(jù)顯示，這兩家公司在成立后的短短3年內(nèi)展現(xiàn)出了驚人的成長(zhǎng)速度：2022年，Jasper公司的年度復(fù)現(xiàn)收入（ARR）—通過訂閱或其他重復(fù)性收費(fèi)方式獲得的預(yù)期收入總額—已經(jīng)達(dá)到了7200萬美元，Copy.ai的ARR也預(yù)計(jì)超過1000萬美元。

國(guó)內(nèi)，由創(chuàng)新工場(chǎng)投資的初創(chuàng)公司瀾舟科技推出了一系列基于自研底層的大模型。比如“孟子大模型”的服務(wù)中就包括AI輔助寫作，具體應(yīng)用場(chǎng)景有網(wǎng)絡(luò)文學(xué)寫作、美妝和汽車領(lǐng)域的營(yíng)銷文案寫作、論文助寫等。

以營(yíng)銷文案寫作為例，當(dāng)輸入幾個(gè)和口紅相關(guān)的關(guān)鍵詞后，操作界面里就會(huì)迅速生成數(shù)百字的文案，內(nèi)容覆蓋色號(hào)描述、使用效果等不同維度，還會(huì)使用諸如“給大家分享我最近入手的幾款春季必備小眾寶藏唇釉”“不挑膚色黃黑皮閉眼沖”等相當(dāng)生活化的表述。

關(guān)于這項(xiàng)服務(wù)背后的技術(shù)原理，瀾舟科技創(chuàng)始人兼CEO周明對(duì)《第一財(cái)經(jīng)》雜志解釋稱，“第一步就是訓(xùn)練一個(gè)孟子大模型當(dāng)?shù)鬃鬃拇竽Ｐ褪墙?jīng)過清洗的；接下來是進(jìn)一步搜集和整理對(duì)應(yīng)行業(yè)的語料，加進(jìn)去得到領(lǐng)域大模型；第三步需要營(yíng)銷文案的監(jiān)督數(shù)據(jù)，你輸入什么樣的關(guān)鍵詞，希望得到什么樣的文案效果，這需要通過算法做一些偽數(shù)據(jù)，對(duì)模型做監(jiān)督訓(xùn)練，這樣就能生成效果不錯(cuò)的營(yíng)銷文案。”

周明提到的“偽數(shù)據(jù)”指的是一種“弱標(biāo)注”的訓(xùn)練數(shù)據(jù)，它的標(biāo)簽不由人工標(biāo)注，而是由模型預(yù)測(cè)或其他方法生成。由于營(yíng)銷文案寫作需要用到大量案例作為訓(xùn)練集，因此可以使用“偽數(shù)據(jù)”幫助擴(kuò)充和平衡，并提高模型的泛化能力。

輸入“一個(gè)男人在海邊跑步”的文本，“CogVideo”生成了一段4秒視頻，分辨率為480×480。

Sacra的一位研究員指出，如果未來大模型能真的像人類一樣作出決策，那上述應(yīng)用將不僅僅是寫文案，而是能自動(dòng)化整個(gè)營(yíng)銷過程，比如運(yùn)行和測(cè)試廣告、調(diào)整出價(jià)和創(chuàng)意等—這帶來的回報(bào)可要比文案寫作本身的收益大得多。

代碼

除了聊天機(jī)器人ChatGPT，編程工具Copilot也是OpenAI的一個(gè)得意“代表作”。2021年6月，Copilot由微軟旗下全球最大開源代碼托管平臺(tái)GitHub和OpenAI共同推出，它可以根據(jù)上下文自動(dòng)補(bǔ)全代碼，包括函數(shù)、文檔字符串、注釋等，或根據(jù)描述代碼邏輯的注釋，寫一條完整代碼。2022年，它已正式商用。

根據(jù)2022年GitHub Universe開發(fā)者大會(huì)的數(shù)據(jù)，Copilot已經(jīng)通過基于AI的編碼建議，幫助全球開發(fā)者將工作效率提高了55%。Copilot在早期測(cè)試階段就獲得了120萬開發(fā)者的青睞，在啟用它的文件中，有將近40%的代碼都是出自Copilot自己之手。

“用戶產(chǎn)生的反饋對(duì)于模型會(huì)有很大幫助?！盋odeGeeX項(xiàng)目成員鄭勤揩對(duì)《第一財(cái)經(jīng)》雜志表示。CodeGeeX是清華大學(xué)知識(shí)工程實(shí)驗(yàn)室于2022年9月開發(fā)出的一款多編程語言代碼生成預(yù)訓(xùn)練模型，現(xiàn)已免費(fèi)開源。它完全國(guó)產(chǎn)，基于超過20種語言的語料庫(kù)，歷時(shí)兩個(gè)月訓(xùn)練而成，具有很強(qiáng)的代碼生成能力，可以根據(jù)自然語言描述生成代碼，還具備代碼補(bǔ)全、翻譯和解釋能力，以提高代碼的效率和可讀性。CodeGeeX目前擁有3.5萬下載量。

2022年6月，AI編程機(jī)器人提供商aiXcoder推出了國(guó)內(nèi)首個(gè)基于深度學(xué)習(xí)的智能編程模型—aiXcoder XL，該模型支持方法級(jí)的代碼生成，可以根據(jù)自然語言描述生成完整程序代碼。aiXcoder的研發(fā)人員主要來自北京大學(xué)，屬于國(guó)內(nèi)較早開啟智能編程技術(shù)的研究與產(chǎn)業(yè)化應(yīng)用的團(tuán)隊(duì)。除此之外，還有Kite、Codota、DeepCode等AI代碼生成工具，它們本質(zhì)上都是通過大量的代碼庫(kù)訓(xùn)練，由此預(yù)測(cè)出需要生成的新代碼，加快編程效率。而Google也被爆出正秘密開發(fā)AI寫代碼新項(xiàng)目—Pitchfork。

AI編程工具的確正在改寫程序員的開發(fā)方式，但即使是最受歡迎的Copilot，也還是處于編程工作的初級(jí)階段，即高效、快速地達(dá)成編程目標(biāo)。但寫完代碼后的實(shí)際運(yùn)行，并推動(dòng)整個(gè)業(yè)務(wù)模塊甚至項(xiàng)目的上線，這個(gè)過程，目前直接依靠AI還做不到。而且它還存在著錯(cuò)誤率高等問題，仍需要經(jīng)過人工審核和調(diào)整，才能確保生成的代碼符合需求。

圖片

用AI作畫并不是新鮮事，早在1950年代，科學(xué)家就開始研究利用計(jì)算機(jī)生成藝術(shù)作品，但他們更多是讓電腦程序通過觀察照片提取顏色信息，使用現(xiàn)實(shí)中的材料創(chuàng)作。

深度學(xué)習(xí)技術(shù)的出現(xiàn)，讓AI創(chuàng)作開始真正具有突破性。依托強(qiáng)大的數(shù)據(jù)庫(kù)，系統(tǒng)通過學(xué)習(xí)，自行生成的數(shù)據(jù)分布，已經(jīng)可以無限接近真實(shí)數(shù)據(jù)分布，即生成的圖像足以以假亂真。然而它也會(huì)產(chǎn)生一個(gè)問題—只做到了像，但難以帶來藝術(shù)上的“創(chuàng)新”。

2020年開始在圖片生成領(lǐng)域廣泛應(yīng)用的擴(kuò)散模型（Diffusion model）則克服了這點(diǎn)。其核心原理就是在給圖片去噪的過程中，理解有意義的圖像是如何生成的，同時(shí)又大大簡(jiǎn)化了模型訓(xùn)練過程中數(shù)據(jù)處理的難度和穩(wěn)定性問題。如此，生成的圖片不僅精度更高，且隨著樣本數(shù)量和訓(xùn)練時(shí)長(zhǎng)的累積，對(duì)藝術(shù)表達(dá)風(fēng)格也會(huì)有更好的模擬能力。

2022年8月美國(guó)科羅拉多州博覽會(huì)的藝術(shù)比賽上，使用AI繪畫工具M(jìn)idjourney創(chuàng)作的一幅名為《太空歌劇院》的作品，甚至在這個(gè)人類藝術(shù)競(jìng)賽上斬獲一等獎(jiǎng)—Midjourney基于的正是擴(kuò)散模型。

只需要簡(jiǎn)單描述圖片的元素、風(fēng)格，如今的AI圖像生成模型就可以毫秒級(jí)的速度批量產(chǎn)出多幅全新的圖像，且這些圖像都能以語義上較為合理的方式將輸入的幾個(gè)看起來并不相關(guān)的prompt組合起來。

ChatGPT背后的公司OpenAI在2021年1月也推出了自己的圖像生成算法模型“DALL·E”（達(dá)利一代），它基于超規(guī)模語言模型GPT-3，所以雖然“繪畫”能力一般，其優(yōu)點(diǎn)是可以更精確地按照文本描述創(chuàng)作。更新后的DALL·E 2則引入了擴(kuò)散模型。

“跟有生之年能經(jīng)歷一次工業(yè)革命一樣?！痹O(shè)計(jì)美學(xué)博主、AbleSlide工作室合伙人阿文對(duì)《第一財(cái)經(jīng)》雜志如此形容去年5月第一次使用DALL·E 2時(shí)所感受到的沖擊。他是DALL·E 2上線后的首批用戶，他表示，相比前一代，“DALL·E 2”更加真實(shí)準(zhǔn)確，分辨率有了極大提升，還可以根據(jù)原圖像二次創(chuàng)作—無限延展圖片，或創(chuàng)建基于原圖的“變體”。

目前主流的AI繪畫工具，包括DALL·E 2、Midjourney，以及Google的Disco Diffusion等都是基于擴(kuò)散模型生成的。其中不得不提的還有Stable Diffusion，它是創(chuàng)立于2020年的人工智能開源公司Stability AI推出的一款圖像生成軟件，不僅像素可以達(dá)到DALL·E 2的級(jí)別，還能在消費(fèi)者級(jí)別的圖形處理器（GPU）上運(yùn)行。2022年8月，Stable Diffusion宣布開源，自此，以它為基礎(chǔ)的應(yīng)用層出不窮，其風(fēng)頭也超過了Midjourney。

在國(guó)內(nèi)，騰訊、字節(jié)跳動(dòng)、百度等互聯(lián)網(wǎng)大公司也紛紛推出了自己的AI繪畫產(chǎn)品，它們有的是自研，有的通過修改開源代碼生成。相比專業(yè)的繪畫工具，國(guó)內(nèi)的應(yīng)用似乎面向的只是出于娛樂目的的普通用戶，比如為圖片加一些濾鏡效果，和專業(yè)繪圖工具還有很大差距。

而隨著生成式AI作畫的火熱，也出現(xiàn)了諸如版權(quán)等新問題。美國(guó)版權(quán)局（USCO）最新發(fā)布的法規(guī)就特意提到，AI自動(dòng)生成的作品，因?yàn)樵谡麄€(gè)創(chuàng)作過程中完全由機(jī)器人自動(dòng)完成，并且訓(xùn)練的數(shù)據(jù)是基于人類創(chuàng)作的作品，因此不受版權(quán)法保護(hù)—在阿文看來，AI在繪畫領(lǐng)域的角色，更多只是提高設(shè)計(jì)師或藝術(shù)家處理細(xì)節(jié)的效率，以及激發(fā)靈感。

對(duì)于生成式AI作畫應(yīng)用的場(chǎng)景，Stability AI產(chǎn)品技術(shù)官鄭屹州則對(duì)《第一財(cái)經(jīng)》雜志表示，“目前大多生成式AI基于現(xiàn)有工作流去完善工作里的環(huán)節(jié)，但更期待未來能看到更多以生成式AI為核心的全新工作流。”

視頻

既然AI能生成圖片，那么讓它生成動(dòng)起來的圖片—視頻也不難想象。比如生成式AI創(chuàng)業(yè)公司Runway今年2月發(fā)布的其首款A(yù)I視頻編輯模型Gen-1，就可將現(xiàn)有的視頻轉(zhuǎn)換成另一種視覺風(fēng)格。其原理其實(shí)和圖片生成類似，Runway成立于2018年，曾參與AI繪畫模型Stable Diffusion的開發(fā)。

而視頻領(lǐng)域里更具前瞻性的應(yīng)用是完全通過文字生成全新視頻，即系統(tǒng)模型可以從文本-圖片配對(duì)數(shù)據(jù)中學(xué)習(xí)這個(gè)世界的樣子，并推理沒有文本情況下的世界變化，即展現(xiàn)預(yù)測(cè)性。

去年9月，Meta發(fā)布的AI視頻生成工具M(jìn)ake-A-Video，除了在原始視頻中加入額外的元素和變化，已經(jīng)能做到依據(jù)文本，或單張/一對(duì)圖片生成視頻。

緊接著，Google在一個(gè)月內(nèi)也接連公布了Imagen和Phenaki兩款A(yù)I生成視頻的測(cè)試版，前者可以生成分辨率1280×768的高精度視頻，還具有風(fēng)格化和物體3D旋轉(zhuǎn)能力，后者通過輸入長(zhǎng)達(dá)200多個(gè)字符的prompt，能創(chuàng)造2分鐘以上的長(zhǎng)視頻，其技術(shù)突破重點(diǎn)在于探尋畫面之間的邏輯，讓AI具有講故事的能力。

而就在3月20日，Runway也宣布將推出文生視頻模型Gen-2，該模型能夠根據(jù)文本描述生成三秒的視頻，主要為創(chuàng)意人員和電影制作人提供幫助。

國(guó)內(nèi)，清華大學(xué)曾聯(lián)合智源研究院在去年5月發(fā)布了首個(gè)開源的文本生成視頻“CogVideo”模型。在其網(wǎng)站中，可以看到使用“一個(gè)男人在海邊跑步”的文本生成的4秒視頻，分辨率為480×480。

不過由于文本和視頻之間的數(shù)據(jù)集較少，AI視頻生成領(lǐng)域的模型剛起步不久，相關(guān)項(xiàng)目大多仍處于研發(fā)階段。

音頻

只需要簡(jiǎn)單輸入一段指令或圖片，就可以生成對(duì)應(yīng)的音樂，比如“在河邊播放的冥想歌曲”、表達(dá)意境為“火”和“煙花”的音樂—這樣的“黑科技”已經(jīng)在今年1月底Google發(fā)布的最新AI模型MusicLM里實(shí)現(xiàn)了。

它還能為音樂生成歌詞以及續(xù)寫音樂—上傳一段樂器演奏、哼唱或是吹口哨的音頻，MusicLM可以推斷出額外的旋律小節(jié)，用戶還可發(fā)布指令調(diào)節(jié)樂器的種類、演奏的力度等。事實(shí)上，MusicLM的“前身”AudioLM已經(jīng)實(shí)現(xiàn)了音頻的“預(yù)測(cè)”。

OpenAI開發(fā)的“Jukebox”也具有類似功能，只不過，它似乎更強(qiáng)調(diào)風(fēng)格。用戶通過輸入歌手、曲風(fēng)等信息，就能生成一首相同風(fēng)格的歌曲。同時(shí)，該模型可以通過學(xué)習(xí)現(xiàn)有的音樂，自動(dòng)生成具有類似曲風(fēng)的新片段。

國(guó)內(nèi)的浙江大學(xué)、北京大學(xué)聯(lián)合火山語音，正在開發(fā)一款可以通過任意模態(tài)（文本、圖像、視頻、音頻等）生成對(duì)應(yīng)音頻的系統(tǒng)Make-An-Audio，不過，它生成的不是音樂，而是音效。比如，當(dāng)上傳一幅鬧鐘圖片，Make-An-Audio就能生成一段鬧鈴聲。

AI語音合成其實(shí)是最早被驗(yàn)證可商業(yè)化的技術(shù)，如今我們?cè)诟鞔笃脚_(tái)上聽到的語音助手、導(dǎo)航、有聲讀物等都已能較為逼真地模仿人類的發(fā)音、語調(diào)和語速。

但因數(shù)據(jù)限制與長(zhǎng)音頻建模難度高，相比AI生成文本、圖畫，AI生成音樂的發(fā)展較為緩慢。除了需要考慮聲音的頻率、音高、語速、噪聲等各種因素，缺乏配對(duì)的音頻和文本數(shù)據(jù)也是一大障礙。要知道，音樂和視頻一樣是“沿著時(shí)間維度”構(gòu)建的，但敘事邏輯比視頻更難捕捉，AI不僅要了解文本表達(dá)的意圖，還需要由此創(chuàng)作出一段符合主題的持續(xù)音樂。

Make-An-Audio還想實(shí)現(xiàn)更為艱難的視頻生成音頻：視頻需要被拆解成若干個(gè)關(guān)鍵幀，通過抽取關(guān)鍵幀的圖像表征與音頻匹配，但該過程缺乏對(duì)時(shí)間等信息的控制。Make-An-Audio目前只能做到從視頻到音頻的模糊匹配?！拔磥韼?jí)別對(duì)齊的視頻到音頻生成將是我們的一個(gè)研究重點(diǎn)?！被鹕秸Z音Make-An-Audio團(tuán)隊(duì)的研究員對(duì)《第一財(cái)經(jīng)》雜志表示。

至于老問題—未來，AI會(huì)取代人類創(chuàng)作音樂嗎？—答案也是一樣的。相當(dāng)長(zhǎng)一段時(shí)間內(nèi)，AI僅僅會(huì)作為工具，給藝術(shù)家提供輔助和靈感。目前，MusicLM還遠(yuǎn)遠(yuǎn)無法與人類作曲家匹敵，特別是在歌詞創(chuàng)作方面。專注于語音智能的在線媒體Voicebot.ai曾評(píng)論稱，MusicLM生成的歌詞只能被稱為亂碼。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

生成式AI，都能干點(diǎn)啥？

生成式AI，都能干點(diǎn)啥？