亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生成式AI,都能干點(diǎn)啥?

        2023-04-14 00:54:10倪妮
        第一財(cái)經(jīng) 2023年4期
        關(guān)鍵詞:文本模型

        倪妮

        和以往任何一次技術(shù)熱潮一樣,這兩年技術(shù)史上最重大突破的生成式AI(Generative AI),迅速成為新的創(chuàng)業(yè)聚集地。有人專注于基礎(chǔ)硬件和云平臺(tái),有人選擇從大語言模型(LLM)入手尋找底層技術(shù)的顛覆式創(chuàng)新,更多人則試圖在更垂直的應(yīng)用層面“掘金”。

        在創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO李開復(fù)看來,以決策式AI為代表的AI 1.0在落地階段遇到了很大的“瓶頸”,部分是因?yàn)樗看蔚膽?yīng)用和優(yōu)化都是割裂的,是“孤島中的AI應(yīng)用”,人臉識(shí)別、智能輔助駕駛、精準(zhǔn)廣告推送等不同應(yīng)用間彼此并不能形成有效的“平臺(tái)”。而AI 2.0時(shí)代最大的顛覆,就在于基礎(chǔ)大模型提供的“平臺(tái)”作用?!癆I 1.0就像是發(fā)明電,AI 2.0就是電網(wǎng)。”3月14日,宣布將投身于生成式AI創(chuàng)業(yè)大軍的李開復(fù)這么比喻。

        聊天機(jī)器人Replika會(huì)提供滿足各類情感需求的對(duì)話。

        生成式AI為商業(yè)領(lǐng)域帶來了大量數(shù)字化創(chuàng)新的機(jī)會(huì),理論上,大部分行業(yè)也都能找到其應(yīng)用場(chǎng)景。按照生成內(nèi)容的形式,我們暫且將生成式AI的應(yīng)用層面分為文本、圖像和音頻三大類。

        峰瑞資本在一份關(guān)于生成式AI的報(bào)告中寫道,“應(yīng)用層的創(chuàng)業(yè)者。應(yīng)該是‘技術(shù)為先、場(chǎng)景為重’”。技術(shù)為先,是指雖然通用AI技術(shù)未必是你的核心壁壘,但團(tuán)隊(duì)一定要懂技術(shù),這樣才有能力思考如何更早更好地把技術(shù)應(yīng)用到合適的應(yīng)用場(chǎng)景里,做出好用的產(chǎn)品。場(chǎng)景為重,意味著最后的產(chǎn)品和業(yè)務(wù)需要找到合適的落地場(chǎng)景,建立自己的商業(yè)模式,并在場(chǎng)景里形成自己的核心競(jìng)爭(zhēng)力。

        聊天/專業(yè)咨詢

        以ChatGPT為代表的生成式AI,最直觀的應(yīng)用場(chǎng)景或許就是聊天,以及由此衍生的客服及專業(yè)咨詢。依托背后的大模型強(qiáng)大的語言處理能力,可以說,只要涉及與人互動(dòng)的領(lǐng)域,幾乎都可以應(yīng)用。

        比如波士頓咨詢公司開發(fā)的一種“智能采購(gòu)助手”,采購(gòu)人員跟供應(yīng)商互動(dòng)時(shí),智能助手能夠從大數(shù)據(jù)中實(shí)時(shí)解析采購(gòu)物資的市場(chǎng)信息以及供應(yīng)商的產(chǎn)能、資信等狀態(tài),結(jié)合供應(yīng)商反饋和公司的采購(gòu)策略與協(xié)作流程,為采購(gòu)人員生成行動(dòng)建議,例如價(jià)格談判或者發(fā)送征詢函等。

        今年3月20日,微軟旗下語音識(shí)別公司Nuance還宣布將推出一款由AI驅(qū)動(dòng)的面向醫(yī)療工作者的臨床筆記應(yīng)用程序。它可在病人就診后幾秒鐘內(nèi)為臨床醫(yī)生自動(dòng)生成臨床筆記草稿,其背后的技術(shù)支持之一正是OpenAI的最新模型GPT-4。

        專注于心理健康的美國(guó)雜志Psychology Today也撰文指出,依托大模型強(qiáng)大的語言處理能力,并非針對(duì)心理咨詢和醫(yī)療領(lǐng)域開發(fā)的ChatGPT也可以幫助分析患者的語言和溝通模式,以提高醫(yī)生的診斷準(zhǔn)確性。比如,ChatGPT能發(fā)現(xiàn)患者在躁狂癥發(fā)作之前口頭表達(dá)上的微妙征兆,還可以通過分析患者的語言來識(shí)別治療反應(yīng)的早期跡象,從而使藥物和干預(yù)治療更有效。

        不過,因?yàn)閷?duì)準(zhǔn)確性及溝通技巧要求更高,在醫(yī)療和心理咨詢領(lǐng)域,生成式AI的應(yīng)用探索也更為艱難。

        2017年,斯坦福大學(xué)的臨床研究心理學(xué)家Alison Darcy創(chuàng)立了Woebot Health,該公司的主要業(yè)務(wù)就是通過聊天機(jī)器人App Woebot,幫助用戶改善心理焦慮和抑郁等問題。支撐這款應(yīng)用的是一種被稱為自然語言處理(NLP)的人工智能技術(shù),它能直接“理解”用戶的語言輸入,并在模型內(nèi)部將其和心理學(xué)領(lǐng)域的專業(yè)知識(shí)結(jié)合起來,迅速給用戶反饋。

        例如,當(dāng)一個(gè)朋友忘記了你的生日時(shí),你告訴Woebot“沒有人記得我的生日”“沒有人真正在乎我”,這時(shí),Woebot就可能會(huì)對(duì)你說,你陷入了一種“非黑即白的極端消極自我對(duì)話思維”中,這種思維扭曲了現(xiàn)實(shí)。其實(shí)你有朋友,他們只是恰好忘記了你的生日而已。

        但Woebot也有不足,有使用者指出,Woebot對(duì)上下文的理解有限,“基本不能理解復(fù)雜的意思”,也不像ChatGPT那樣善于捕捉措辭背后的微妙含義。比如當(dāng)你生氣地說“你再說一遍試試”,它可能會(huì)真的再說一遍。當(dāng)對(duì)話輪次過長(zhǎng),Woebot可能還會(huì)記不得某個(gè)曾經(jīng)觸發(fā)用戶心理創(chuàng)傷的詞匯,并在下一次對(duì)話中再次造成“冒犯”。

        “心理領(lǐng)域的生成式人工智能創(chuàng)業(yè)很難,因?yàn)樗枰荛L(zhǎng)的記憶,而且對(duì)專業(yè)詞匯的理解是最艱深的。比如來訪者講到原生家庭,聊到和父親的一些往事,這些都需要被記下來,但現(xiàn)在的大模型里沒有這些數(shù)據(jù)。哪些該被記下來,哪些不該被記下來,我們還沒有一個(gè)很好的解決方案?!蔽骱某絼?chuàng)始人、卡耐基梅隆大學(xué)計(jì)算機(jī)博士藍(lán)振忠對(duì)《第一財(cái)經(jīng)》雜志表示。

        藍(lán)振忠曾就職于Google AI的研究與機(jī)器智能組,這段經(jīng)歷為他積累了自然語言處理和大模型研究領(lǐng)域的實(shí)戰(zhàn)經(jīng)驗(yàn)。2020年藍(lán)振忠回國(guó)后創(chuàng)立了西湖心辰,并著手研發(fā)AI心理咨詢平臺(tái)“小天”。但隨著項(xiàng)目推進(jìn),他發(fā)現(xiàn)心理賽道是一個(gè)“長(zhǎng)期復(fù)雜”的過程,需要開發(fā)人員不斷迭代優(yōu)化。于是,藍(lán)振忠和團(tuán)隊(duì)暫時(shí)放緩了針對(duì)心理賽道的研發(fā),將重心轉(zhuǎn)向了大模型研發(fā)方向。

        還有一部分心理咨詢領(lǐng)域的AI創(chuàng)業(yè)者將目標(biāo)瞄準(zhǔn)了后端。在AI心理咨詢應(yīng)用“閣樓”的創(chuàng)始人劉秋陽眼中,心理咨詢本質(zhì)上還是“人與人建立新的關(guān)系”,生成式AI擅長(zhǎng)語義推斷但缺乏共情能力的特質(zhì),決定了這項(xiàng)技術(shù)目前更適合在供應(yīng)鏈環(huán)節(jié)發(fā)揮作用,而不是面向消費(fèi)端使用。

        因此,劉秋陽偏向于將“閣樓”定義為一款“標(biāo)準(zhǔn)化”的服務(wù)平臺(tái),所有咨詢師都可以按照標(biāo)準(zhǔn)化的方式循證治療,而生成式AI更類似于助手功能,主要用于幫助咨詢師生成標(biāo)準(zhǔn)化的來訪報(bào)告,節(jié)省咨詢師案頭工作的時(shí)間。

        另一難點(diǎn)是,研發(fā)者如何將底層的語言模型與心理學(xué)的專業(yè)知識(shí)更好結(jié)合。“和短視頻營(yíng)銷等賽道相比,心理行業(yè)需要把所有的專業(yè)詞匯都去測(cè)試一遍。怎樣生成一個(gè)好的prompt(關(guān)鍵詞)指令,且這個(gè)指令最終能證明自身的商業(yè)價(jià)值,這些都需要大量的測(cè)試和想象力?!眲⑶镪柋硎?。

        除了心理咨詢,還有一些已面世的聊天機(jī)器人應(yīng)用試圖成為你的朋友、家人、逝去的寵物甚至新型伴侶,提供滿足各類情感需求的對(duì)話。在中文互聯(lián)網(wǎng)上已積累了一定知名度的Replika由Eugenia Kuyda創(chuàng)建,這款應(yīng)用創(chuàng)立的初衷就是為了彌補(bǔ)她“過早去世的好友留下的空白”,目前已積累了數(shù)百萬用戶。創(chuàng)始人團(tuán)隊(duì)并不拘泥于使用一個(gè)自然語言模型,他們起初構(gòu)建了一個(gè)名為CakeChat的內(nèi)部模型,后續(xù)似乎又轉(zhuǎn)向了GPT-2和GPT-3。

        中國(guó)初創(chuàng)公司MiniMax于去年年底上線了一款名為GLOW的應(yīng)用,它基于生成式AI技術(shù)和公司自研的大模型,同樣強(qiáng)調(diào)用戶與AI的情感連接。GLOW還允許用戶自行“捏造”你想要對(duì)話的角色,包括外形、性格、說話方式等等。但上線不久后,MiniMax就通過設(shè)置違禁詞等方式,收緊了GLOW和人類聊天的自由度,因?yàn)樵絹碓蕉嗔奶鞕C(jī)器人會(huì)對(duì)人類說“我愛你”“我想你”,甚至通過輸入指令,人類和聊天機(jī)器人之間會(huì)產(chǎn)生更露骨的對(duì)話。

        專業(yè)寫作

        從應(yīng)用層來看,市場(chǎng)上已有的生成式AI創(chuàng)業(yè)項(xiàng)目里,營(yíng)銷文案寫作、小說和劇本創(chuàng)作等聚焦于專業(yè)寫作領(lǐng)域的項(xiàng)目幾乎占了一半。投資機(jī)構(gòu)峰瑞資本近期發(fā)布的一份報(bào)告顯示,2019年至2021年期間,流向生成式AI業(yè)務(wù)的資本增加了約130%,其中文本和寫作增長(zhǎng)630%,遙遙領(lǐng)先于圖像、音視頻等其他垂直類別。

        在真格基金管理合伙人戴雨森看來,基于生成式AI的寫作助手之所以得到創(chuàng)業(yè)者和投資人青睞,是因?yàn)樗芴娲^去繁瑣重復(fù)的工作,給人帶來“比較直接的價(jià)值感”。他對(duì)《第一財(cái)經(jīng)》雜志預(yù)測(cè)稱,未來的典型工作模式應(yīng)該是“三明治”式的:人類提出一個(gè)大方向,A I給出初稿,人再基于初稿修改?!袄碚撋?,只要是坐辦公室的人,目前看來都可以有一個(gè)甚至多個(gè)AI助手,不和AI協(xié)作的人會(huì)變得很低效?!?/p>

        新加坡政府正在開發(fā)一套類似ChatGPT的系統(tǒng),它將被集成在Word中,公務(wù)員可用它撰寫材料初稿、電子郵件、演講稿等,協(xié)助他們總結(jié)篇幅長(zhǎng)的參考資料、探索相關(guān)觀點(diǎn)或改善寫作表達(dá)能力等。不過,但凡涉及高度機(jī)密或敏感的信息,仍然完全由公務(wù)員自己書寫,并且他們需直接對(duì)政策決策、文件內(nèi)容的遣詞用字負(fù)責(zé)。

        戴雨森也是這一領(lǐng)域積極的實(shí)踐者,他表示,當(dāng)他開始使用Notion AI后,他“再也不想打開其他筆記應(yīng)用或者Word寫任何文字了”。投資人日常需要閱讀大量材料,同時(shí)撰寫中英雙語報(bào)告,Notion的AI編輯器可以幫他快速概述文章內(nèi)容,并且具備高效的翻譯功能。

        Notion是一家總部位于美國(guó)舊金山的軟件公司,該公司提供的同名應(yīng)用可用于記筆記、管理任務(wù)和項(xiàng)目。今年2月,Notion正式上線了一系列基于生成式AI技術(shù)的寫作輔助功能,它可以幫助用戶從零開始寫作,比如在用戶給出指令后迅速生成一段長(zhǎng)達(dá)數(shù)百字、邏輯結(jié)構(gòu)完整的文本,也可以總結(jié)或改寫已有的文 本。

        除Notion外,提供類似的AI寫作服務(wù)的應(yīng)用還有很多,比如Raycast、Mem和Craft,以及今年3月宣布將AI技術(shù)融入辦公軟件的微軟等。在這個(gè)擁擠的市場(chǎng),幾乎所有初創(chuàng)公司都傾向于從OpenAI和Anthropic等公司租用底層模型,通過這種節(jié)省成本的方式構(gòu)建應(yīng)用程序。每當(dāng)用戶生成一個(gè)詞時(shí),這些應(yīng)用都會(huì)向OpenAI支付一筆費(fèi)用。

        在更細(xì)分的寫作領(lǐng)域,比如營(yíng)銷文案和網(wǎng)文創(chuàng)作上,基于生成式AI技術(shù)的應(yīng)用也在不斷誕生。其中,廣告營(yíng)銷被視為一個(gè)巨大的機(jī)會(huì)領(lǐng)域—回想那些在小紅書、淘寶和抖音上刷到的營(yíng)銷文案,或者在直播間聽到的帶貨語錄,你會(huì)發(fā)現(xiàn)它們其實(shí)遵循著固定的套路。所以事實(shí)上,它們今后都能被AI批量制造出來。

        國(guó)際技術(shù)研究和咨詢公司Gartner近期發(fā)布的一份報(bào)告預(yù)測(cè)道,到2025年,在大型組織對(duì)外發(fā)布的營(yíng)銷信息中,有30%將由AI生成,而2022年這一比例不足2%。

        數(shù)據(jù)來源:據(jù)公開資料不完全統(tǒng)計(jì)

        Jasper就是一款專門針對(duì)營(yíng)銷人員的A I寫作工具,它由GP T-3提供技術(shù)支持,用戶只需要選擇一個(gè)合適的模版,比如博客文章或Google廣告,再輸入一些關(guān)鍵詞,就可以得到一份符合目標(biāo)營(yíng)銷風(fēng)格的文案初稿。類似于Jasper的應(yīng)用還有Copy.ai,后者相較于Jasper更適合短篇寫作。

        值得一提的是,相較于其他投入遠(yuǎn)不能覆蓋成本的創(chuàng)業(yè)項(xiàng)目,Jasper和Copy.ai已率先以套餐付費(fèi)等形式走通商業(yè)化路徑。私募市場(chǎng)和投資研究平臺(tái)Sacra的數(shù)據(jù)顯示,這兩家公司在成立后的短短3年內(nèi)展現(xiàn)出了驚人的成長(zhǎng)速度:2022年,Jasper公司的年度復(fù)現(xiàn)收入(ARR)—通過訂閱或其他重復(fù)性收費(fèi)方式獲得的預(yù)期收入總額—已經(jīng)達(dá)到了7200萬美元,Copy.ai的ARR也預(yù)計(jì)超過1000萬美元。

        國(guó)內(nèi),由創(chuàng)新工場(chǎng)投資的初創(chuàng)公司瀾舟科技推出了一系列基于自研底層的大模型。比如“孟子大模型”的服務(wù)中就包括AI輔助寫作,具體應(yīng)用場(chǎng)景有網(wǎng)絡(luò)文學(xué)寫作、美妝和汽車領(lǐng)域的營(yíng)銷文案寫作、論文助寫等。

        以營(yíng)銷文案寫作為例,當(dāng)輸入幾個(gè)和口紅相關(guān)的關(guān)鍵詞后,操作界面里就會(huì)迅速生成數(shù)百字的文案,內(nèi)容覆蓋色號(hào)描述、使用效果等不同維度,還會(huì)使用諸如“給大家分享我最近入手的幾款春季必備小眾寶藏唇釉”“不挑膚色黃黑皮閉眼沖”等相當(dāng)生活化的表述。

        關(guān)于這項(xiàng)服務(wù)背后的技術(shù)原理,瀾舟科技創(chuàng)始人兼CEO周明對(duì)《第一財(cái)經(jīng)》雜志解釋稱,“第一步就是訓(xùn)練一個(gè)孟子大模型當(dāng)?shù)鬃鬃拇竽P褪墙?jīng)過清洗的;接下來是進(jìn)一步搜集和整理對(duì)應(yīng)行業(yè)的語料,加進(jìn)去得到領(lǐng)域大模型;第三步需要營(yíng)銷文案的監(jiān)督數(shù)據(jù),你輸入什么樣的關(guān)鍵詞,希望得到什么樣的文案效果,這需要通過算法做一些偽數(shù)據(jù),對(duì)模型做監(jiān)督訓(xùn)練,這樣就能生成效果不錯(cuò)的營(yíng)銷文案。”

        周明提到的“偽數(shù)據(jù)”指的是一種“弱標(biāo)注”的訓(xùn)練數(shù)據(jù),它的標(biāo)簽不由人工標(biāo)注,而是由模型預(yù)測(cè)或其他方法生成。由于營(yíng)銷文案寫作需要用到大量案例作為訓(xùn)練集,因此可以使用“偽數(shù)據(jù)”幫助擴(kuò)充和平衡,并提高模型的泛化能力。

        輸入“一個(gè)男人在海邊跑步”的文本,“CogVideo”生成了一段4秒視頻,分辨率為480×480。

        Sacra的一位研究員指出,如果未來大模型能真的像人類一樣作出決策,那上述應(yīng)用將不僅僅是寫文案,而是能自動(dòng)化整個(gè)營(yíng)銷過程,比如運(yùn)行和測(cè)試廣告、調(diào)整出價(jià)和創(chuàng)意等—這帶來的回報(bào)可要比文案寫作本身的收益大得多。

        代碼

        除了聊天機(jī)器人ChatGPT,編程工具Copilot也是OpenAI的一個(gè)得意“代表作”。2021年6月,Copilot由微軟旗下全球最大開源代碼托管平臺(tái)GitHub和OpenAI共同推出,它可以根據(jù)上下文自動(dòng)補(bǔ)全代碼,包括函數(shù)、文檔字符串、注釋等,或根據(jù)描述代碼邏輯的注釋,寫一條完整代碼。2022年,它已正式商 用。

        根據(jù)2022年GitHub Universe開發(fā)者大會(huì)的數(shù)據(jù),Copilot已經(jīng)通過基于AI的編碼建議,幫助全球開發(fā)者將工作效率提高了55%。Copilot在早期測(cè)試階段就獲得了120萬開發(fā)者的青睞,在啟用它的文件中,有將近40%的代碼都是出自Copilot自己之手。

        “用戶產(chǎn)生的反饋對(duì)于模型會(huì)有很大幫助?!盋odeGeeX項(xiàng)目成員鄭勤揩對(duì)《第一財(cái)經(jīng)》雜志表示。CodeGeeX是清華大學(xué)知識(shí)工程實(shí)驗(yàn)室于2022年9月開發(fā)出的一款多編程語言代碼生成預(yù)訓(xùn)練模型,現(xiàn)已免費(fèi)開源。它完全國(guó)產(chǎn),基于超過20種語言的語料庫(kù),歷時(shí)兩個(gè)月訓(xùn)練而成,具有很強(qiáng)的代碼生成能力,可以根據(jù)自然語言描述生成代碼,還具備代碼補(bǔ)全、翻譯和解釋能力,以提高代碼的效率和可讀性。CodeGeeX目前擁有3.5萬下載量。

        2022年6月,AI編程機(jī)器人提供商aiXcoder推出了國(guó)內(nèi)首個(gè)基于深度學(xué)習(xí)的智能編程模型—aiXcoder XL,該模型支持方法級(jí)的代碼生成,可以根據(jù)自然語言描述生成完整程序代碼。aiXcoder的研發(fā)人員主要來自北京大學(xué),屬于國(guó)內(nèi)較早開啟智能編程技術(shù)的研究與產(chǎn)業(yè)化應(yīng)用的團(tuán)隊(duì)。除此之外,還有Kite、Codota、DeepCode等AI代碼生成工具,它們本質(zhì)上都是通過大量的代碼庫(kù)訓(xùn)練,由此預(yù)測(cè)出需要生成的新代碼,加快編程效率。而Google也被爆出正秘密開發(fā)AI寫代碼新項(xiàng)目—Pitchfork。

        AI編程工具的確正在改寫程序員的開發(fā)方式,但即使是最受歡迎的Copilot,也還是處于編程工作的初級(jí)階段,即高效、快速地達(dá)成編程目標(biāo)。但寫完代碼后的實(shí)際運(yùn)行,并推動(dòng)整個(gè)業(yè)務(wù)模塊甚至項(xiàng)目的上線,這個(gè)過程,目前直接依靠AI還做不到。而且它還存在著錯(cuò)誤率高等問題,仍需要經(jīng)過人工審核和調(diào)整,才能確保生成的代碼符合需求。

        圖片

        用AI作畫并不是新鮮事,早在1950年代,科學(xué)家就開始研究利用計(jì)算機(jī)生成藝術(shù)作品,但他們更多是讓電腦程序通過觀察照片提取顏色信息,使用現(xiàn)實(shí)中的材料創(chuàng)作。

        深度學(xué)習(xí)技術(shù)的出現(xiàn),讓AI創(chuàng)作開始真正具有突破性。依托強(qiáng)大的數(shù)據(jù)庫(kù),系統(tǒng)通過學(xué)習(xí),自行生成的數(shù)據(jù)分布,已經(jīng)可以無限接近真實(shí)數(shù)據(jù)分布,即生成的圖像足以以假亂真。然而它也會(huì)產(chǎn)生一個(gè)問題—只做到了像,但難以帶來藝術(shù)上的“創(chuàng)新”。

        2020年開始在圖片生成領(lǐng)域廣泛應(yīng)用的擴(kuò)散模型(Diffusion model)則克服了這點(diǎn)。其核心原理就是在給圖片去噪的過程中,理解有意義的圖像是如何生成的,同時(shí)又大大簡(jiǎn)化了模型訓(xùn)練過程中數(shù)據(jù)處理的難度和穩(wěn)定性問題。如此,生成的圖片不僅精度更高,且隨著樣本數(shù)量和訓(xùn)練時(shí)長(zhǎng)的累積,對(duì)藝術(shù)表達(dá)風(fēng)格也會(huì)有更好的模擬能力。

        2022年8月美國(guó)科羅拉多州博覽會(huì)的藝術(shù)比賽上,使用AI繪畫工具M(jìn)idjourney創(chuàng)作的一幅名為《太空歌劇院》的作品,甚至在這個(gè)人類藝術(shù)競(jìng)賽上斬獲一等獎(jiǎng)—Midjourney基于的正是擴(kuò)散模型。

        只需要簡(jiǎn)單描述圖片的元素、風(fēng)格,如今的AI圖像生成模型就可以毫秒級(jí)的速度批量產(chǎn)出多幅全新的圖像,且這些圖像都能以語義上較為合理的方式將輸入的幾個(gè)看起來并不相關(guān)的prompt組合起來。

        ChatGPT背后的公司OpenAI在2021年1月也推出了自己的圖像生成算法模型“DALL·E”(達(dá)利一代),它基于超規(guī)模語言模型GPT-3,所以雖然“繪畫”能力一般,其優(yōu)點(diǎn)是可以更精確地按照文本描述創(chuàng)作。更新后的DALL·E 2則引入了擴(kuò)散模型。

        “跟有生之年能經(jīng)歷一次工業(yè)革命一樣?!痹O(shè)計(jì)美學(xué)博主、AbleSlide工作室合伙人阿文對(duì)《第一財(cái)經(jīng)》雜志如此形容去年5月第一次使用DALL·E 2時(shí)所感受到的沖擊。他是DALL·E 2上線后的首批用戶,他表示,相比前一代,“DALL·E 2”更加真實(shí)準(zhǔn)確,分辨率有了極大提升,還可以根據(jù)原圖像二次創(chuàng)作—無限延展圖片,或創(chuàng)建基于原圖的“變體”。

        目前主流的AI繪畫工具,包括DALL·E 2、Midjourney,以及Google的Disco Diffusion等都是基于擴(kuò)散模型生成的。其中不得不提的還有Stable Diffusion,它是創(chuàng)立于2020年的人工智能開源公司Stability AI推出的一款圖像生成軟件,不僅像素可以達(dá)到DALL·E 2的級(jí)別,還能在消費(fèi)者級(jí)別的圖形處理器(GPU)上運(yùn)行。2022年8月,Stable Diffusion宣布開源,自此,以它為基礎(chǔ)的應(yīng)用層出不窮,其風(fēng)頭也超過了Midjourney。

        在國(guó)內(nèi),騰訊、字節(jié)跳動(dòng)、百度等互聯(lián)網(wǎng)大公司也紛紛推出了自己的AI繪畫產(chǎn)品,它們有的是自研,有的通過修改開源代碼生成。相比專業(yè)的繪畫工具,國(guó)內(nèi)的應(yīng)用似乎面向的只是出于娛樂目的的普通用戶,比如為圖片加一些濾鏡效果,和專業(yè)繪圖工具還有很大差距。

        而隨著生成式AI作畫的火熱,也出現(xiàn)了諸如版權(quán)等新問題。美國(guó)版權(quán)局(USCO)最新發(fā)布的法規(guī)就特意提到,AI自動(dòng)生成的作品,因?yàn)樵谡麄€(gè)創(chuàng)作過程中完全由機(jī)器人自動(dòng)完成,并且訓(xùn)練的數(shù)據(jù)是基于人類創(chuàng)作的作品,因此不受版權(quán)法保護(hù)—在阿文看來,AI在繪畫領(lǐng)域的角色,更多只是提高設(shè)計(jì)師或藝術(shù)家處理細(xì)節(jié)的效率,以及激發(fā)靈感。

        對(duì)于生成式AI作畫應(yīng)用的場(chǎng)景,Stability AI產(chǎn)品技術(shù)官鄭屹州則對(duì)《第一財(cái)經(jīng)》雜志表示,“目前大多生成式AI基于現(xiàn)有工作流去完善工作里的環(huán)節(jié),但更期待未來能看到更多以生成式AI為核心的全新工作流。”

        視頻

        既然AI能生成圖片,那么讓它生成動(dòng)起來的圖片—視頻也不難想象。比如生成式AI創(chuàng)業(yè)公司Runway今年2月發(fā)布的其首款A(yù)I視頻編輯模型Gen-1,就可將現(xiàn)有的視頻轉(zhuǎn)換成另一種視覺風(fēng)格。其原理其實(shí)和圖片生成類似,Runway成立于2018年,曾參與AI繪畫模型Stable Diffusion的開發(fā)。

        而視頻領(lǐng)域里更具前瞻性的應(yīng)用是完全通過文字生成全新視頻,即系統(tǒng)模型可以從文本-圖片配對(duì)數(shù)據(jù)中學(xué)習(xí)這個(gè)世界的樣子,并推理沒有文本情況下的世界變化,即展現(xiàn)預(yù)測(cè)性。

        去年9月,Meta發(fā)布的AI視頻生成工具M(jìn)ake-A-Video,除了在原始視頻中加入額外的元素和變化,已經(jīng)能做到依據(jù)文本,或單張/一對(duì)圖片生成視 頻。

        緊接著,Google在一個(gè)月內(nèi)也接連公布了Imagen和Phenaki兩款A(yù)I生成視頻的測(cè)試版,前者可以生成分辨率1280×768的高精度視頻,還具有風(fēng)格化和物體3D旋轉(zhuǎn)能力,后者通過輸入長(zhǎng)達(dá)200多個(gè)字符的prompt,能創(chuàng)造2分鐘以上的長(zhǎng)視頻,其技術(shù)突破重點(diǎn)在于探尋畫面之間的邏輯,讓AI具有講故事的能 力。

        而就在3月20日,Runway也宣布將推出文生視頻模型Gen-2,該模型能夠根據(jù)文本描述生成三秒的視頻,主要為創(chuàng)意人員和電影制作人提供幫助。

        國(guó)內(nèi),清華大學(xué)曾聯(lián)合智源研究院在去年5月發(fā)布了首個(gè)開源的文本生成視頻“CogVideo”模型。在其網(wǎng)站中,可以看到使用“一個(gè)男人在海邊跑步”的文本生成的4秒視頻,分辨率為480×480。

        不過由于文本和視頻之間的數(shù)據(jù)集較少,AI視頻生成領(lǐng)域的模型剛起步不久,相關(guān)項(xiàng)目大多仍處于研發(fā)階段。

        音頻

        只需要簡(jiǎn)單輸入一段指令或圖片,就可以生成對(duì)應(yīng)的音樂,比如“在河邊播放的冥想歌曲”、表達(dá)意境為“火”和“煙花”的音樂—這樣的“黑科技”已經(jīng)在今年1月底Google發(fā)布的最新AI模型MusicLM里實(shí)現(xiàn)了。

        它還能為音樂生成歌詞以及續(xù)寫音樂—上傳一段樂器演奏、哼唱或是吹口哨的音頻,MusicLM可以推斷出額外的旋律小節(jié),用戶還可發(fā)布指令調(diào)節(jié)樂器的種類、演奏的力度等。事實(shí)上,MusicLM的“前身”AudioLM已經(jīng)實(shí)現(xiàn)了音頻的“預(yù)測(cè)”。

        OpenAI開發(fā)的“Jukebox”也具有類似功能,只不過,它似乎更強(qiáng)調(diào)風(fēng)格。用戶通過輸入歌手、曲風(fēng)等信息,就能生成一首相同風(fēng)格的歌曲。同時(shí),該模型可以通過學(xué)習(xí)現(xiàn)有的音樂,自動(dòng)生成具有類似曲風(fēng)的新片段。

        國(guó)內(nèi)的浙江大學(xué)、北京大學(xué)聯(lián)合火山語音,正在開發(fā)一款可以通過任意模態(tài)(文本、圖像、視頻、音頻等)生成對(duì)應(yīng)音頻的系統(tǒng)Make-An-Audio,不過,它生成的不是音樂,而是音效。比如,當(dāng)上傳一幅鬧鐘圖片,Make-An-Audio就能生成一段鬧鈴聲。

        AI語音合成其實(shí)是最早被驗(yàn)證可商業(yè)化的技術(shù),如今我們?cè)诟鞔笃脚_(tái)上聽到的語音助手、導(dǎo)航、有聲讀物等都已能較為逼真地模仿人類的發(fā)音、語調(diào)和語速。

        但因數(shù)據(jù)限制與長(zhǎng)音頻建模難度高,相比AI生成文本、圖畫,AI生成音樂的發(fā)展較為緩慢。除了需要考慮聲音的頻率、音高、語速、噪聲等各種因素,缺乏配對(duì)的音頻和文本數(shù)據(jù)也是一大障礙。要知道,音樂和視頻一樣是“沿著時(shí)間維度”構(gòu)建的,但敘事邏輯比視頻更難捕捉,AI不僅要了解文本表達(dá)的意圖,還需要由此創(chuàng)作出一段符合主題的持續(xù)音樂。

        Make-An-Audio還想實(shí)現(xiàn)更為艱難的視頻生成音頻:視頻需要被拆解成若干個(gè)關(guān)鍵幀,通過抽取關(guān)鍵幀的圖像表征與音頻匹配,但該過程缺乏對(duì)時(shí)間等信息的控制。Make-An-Audio目前只能做到從視頻到音頻的模糊匹配?!拔磥韼?jí)別對(duì)齊的視頻到音頻生成將是我們的一個(gè)研究重點(diǎn)?!被鹕秸Z音Make-An-Audio團(tuán)隊(duì)的研究員對(duì)《第一財(cái)經(jīng)》雜志表示。

        至于老問題—未來,AI會(huì)取代人類創(chuàng)作音樂嗎?—答案也是一樣的。相當(dāng)長(zhǎng)一段時(shí)間內(nèi),AI僅僅會(huì)作為工具,給藝術(shù)家提供輔助和靈感。目前,MusicLM還遠(yuǎn)遠(yuǎn)無法與人類作曲家匹敵,特別是在歌詞創(chuàng)作方面。專注于語音智能的在線媒體Voicebot.ai曾評(píng)論稱,MusicLM生成的歌詞只能被稱為亂碼。

        猜你喜歡
        文本模型
        一半模型
        p150Glued在帕金森病模型中的表達(dá)及分布
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产性感主播一区二区| 久久午夜无码鲁丝片直播午夜精品| av鲁丝一区鲁丝二区| 蜜桃伦理一区二区三区| 亚洲熟女一区二区三区250p| 国产欧美日韩精品丝袜高跟鞋| 中国猛少妇色xxxxx| 最新在线观看精品国产福利片| 人妻中文字幕在线一二区| 极品尤物一区二区三区| 亚洲va中文字幕无码| 亚洲一区二区高清精品| 亚洲综合中文日韩字幕| 亚洲va韩国va欧美va| 女人大荫蒂毛茸茸视频| 成人精品免费av不卡在线观看| 精品久久人妻av中文字幕| 中文字幕一精品亚洲无线一区| 国内露脸中年夫妇交换| 亚洲高清一区二区三区在线观看 | 在线视频观看国产色网| 亚洲色欲久久久综合网| 永久免费看免费无码视频| 国产一区二区三区18p| 一色桃子中文字幕人妻熟女作品| 丰满人妻熟妇乱又伦精品视| 国产成人久久精品流白浆| 偷拍一区二区三区高清视频| 无码中文字幕免费一区二区三区 | 丁香婷婷色| 亚洲精品456在线播放狼人| 粗大的内捧猛烈进出少妇| 麻豆av传媒蜜桃天美传媒| 伊人久久婷婷综合五月97色| 中文字幕亚洲熟女av| 日本不卡一区二区三区在线| 久久久久久久尹人综合网亚洲| 久久久熟女一区二区三区| 日韩欧美成人免费观看| 97人妻碰免费视频| 日本女优免费一区二区三区|