《股市動(dòng)態(tài)分析》研究部
去年年初,尤其是春節(jié)期間,ChatGPT的橫空出世引發(fā)了普通人澎湃的討論熱情與A股AI板塊的持續(xù)上漲,此后海內(nèi)外在AI大模型投資上展開(kāi)了軍備競(jìng)賽。一切似乎那么類似,近期,也是春節(jié)期間,OpenAI發(fā)布首個(gè)文生視頻模型Sora,在自然語(yǔ)言輸入基礎(chǔ)上可以直接輸出長(zhǎng)達(dá)60秒的視頻,包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭,以及富有情感的多個(gè)角色,加上國(guó)內(nèi)魅族AllinAI和OPPO開(kāi)啟AI手機(jī)新時(shí)代等動(dòng)作,引發(fā)了新一輪的AI討論熱潮。
2月16日凌晨,OpenAI發(fā)布了文生視頻大模型Sora,它能夠根據(jù)文本提示創(chuàng)建詳細(xì)的視頻、擴(kuò)展現(xiàn)有視頻中的敘述以及從靜態(tài)圖像生成場(chǎng)景。
文生視頻大模型是一種能夠由AI生成視頻內(nèi)容的大型機(jī)器學(xué)習(xí)模型。文生視頻基于用戶的自然語(yǔ)言描述準(zhǔn)確地生成相應(yīng)視頻內(nèi)容。以用戶給出的文本、圖像、音頻、視頻等內(nèi)容作為提示(prompt),模型能夠處理并結(jié)合用戶提供的內(nèi)容,創(chuàng)造出完全自主生成或拓展的視頻。這些模型通常基于深度學(xué)習(xí),尤其是自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)(CV)和語(yǔ)音識(shí)別(ASR)等技術(shù)的融合。
以O(shè)penAI官方發(fā)布的范例視頻為例,輸入提示詞:“一位時(shí)尚的女士漫步在東京街頭,街上充滿了溫暖的霓虹燈和生動(dòng)的城市標(biāo)志。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,手中提著一個(gè)黑色手提包。她戴著太陽(yáng)鏡,涂著紅色口紅。走路時(shí)自信而隨意。街道潮濕且反光,形成了彩色燈光的鏡面效果,許多行人來(lái)來(lái)往往。”(見(jiàn)圖)
雖然Sora不是最早的文生視頻應(yīng)用,“文生視頻大模型”也并不是一條全新的賽道。在OpenAI登場(chǎng)之前,頭部大模型研發(fā)商幾乎都擁有自己的文生視頻大模型,例如Google的Lumiere以及StabilityAI的SVD(StableVideoDiffusion),甚至已經(jīng)誕生了垂直于多媒體內(nèi)容創(chuàng)作大模型的獨(dú)角獸,例如視頻生成大模型Gen-2的開(kāi)發(fā)商Runway,在2023年6月底完成由Google、Nvidia、Salesforce參與的C輪融資后,估值超過(guò)15億美元。
但Sora的呈現(xiàn)仍然驚艷,視頻中的主體穩(wěn)定可控,可實(shí)現(xiàn)多角度切換,時(shí)長(zhǎng)方面也突破,最長(zhǎng)能生成60秒視頻,隱隱有了生產(chǎn)力工具的影子。它的推出已經(jīng)標(biāo)志著生成式AI迎來(lái)一個(gè)里程碑。
與此前的視頻生成模型相比,Sora主要實(shí)現(xiàn)了以下突破:
視頻時(shí)長(zhǎng)達(dá)到60秒:Sora目前可以根據(jù)文本要求生成60s的連貫視頻,并保持視頻主體與背景的高度流暢性與穩(wěn)定性。
文本的深度理解能力:Sora可以準(zhǔn)確理解用戶的文本指令,無(wú)論是復(fù)雜的動(dòng)作場(chǎng)景還是細(xì)膩的情感表達(dá),Sora都能夠精確捕捉并展現(xiàn)。
對(duì)真實(shí)世界的理解:生成的視頻除滿足了文本要求的主題、要素外,Sora對(duì)物理規(guī)律的遵循程度較高,對(duì)于光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)的呈現(xiàn)效果較為逼真,都展示了極高的質(zhì)量。
根據(jù)OpenAI官方介紹,目前Sora具備生成包括多個(gè)角色、特定類型的運(yùn)動(dòng)、準(zhǔn)確細(xì)節(jié)的主體和復(fù)雜場(chǎng)景的能力。同時(shí),還能夠創(chuàng)建多個(gè)鏡頭,模擬復(fù)雜的攝像機(jī)運(yùn)鏡效果,使得生成的視頻更加生動(dòng)。
資料來(lái)源:OpenAI官網(wǎng)
3D一致性:Sora可以生成攝像機(jī)動(dòng)態(tài)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在3D空間中的移動(dòng)會(huì)保持一致。
當(dāng)然了,Sora還有很多瑕疵,還不夠好,也有人質(zhì)疑把AI用在短視頻上,沒(méi)有太大價(jià)值。真正帶來(lái)壓迫感的,是Sora不可思議的進(jìn)化速度。
Sora就是AI能力體現(xiàn),它并不完美,但如今看起來(lái)傻傻的、只支持生成“4秒視頻生成”并且“掉幀明顯到像幻燈片”的Gen-2其實(shí)是2023年6月發(fā)布的產(chǎn)品,距離Sora的發(fā)布日不過(guò)8個(gè)月。
2023年11月,Meta發(fā)布的視頻生成大模型EmuVideo看起來(lái)在Gen-2上更進(jìn)一步,能夠支持512×512、每秒16幀的“精細(xì)化創(chuàng)作”,但3個(gè)月之后的Sora已經(jīng)能夠做到生成任意分辨率和長(zhǎng)寬比的視頻,并且根據(jù)上面提到的開(kāi)發(fā)者技術(shù)論文,Sora還能夠執(zhí)行一系列圖像和視頻編輯任務(wù),從創(chuàng)建循環(huán)視頻到即時(shí)向前或向后延伸視頻,再到更改現(xiàn)有視頻背景等。
2月18日,OPPO創(chuàng)始人、首席執(zhí)行官陳明永發(fā)表員工內(nèi)部信認(rèn)為,2024年是AI手機(jī)元年,未來(lái)五年AI對(duì)手機(jī)行業(yè)的影響完全可以比肩當(dāng)年智能手機(jī)替代功能機(jī),這輪由大模型支撐的AI技術(shù)正在重構(gòu)手機(jī)行業(yè)的未來(lái),AI手機(jī)的全新時(shí)代正在加速到來(lái)。
同一天,魅族也官宣將AllinAI,停止傳統(tǒng)“智能手機(jī)”新項(xiàng)目,全力投入明日設(shè)備AIForNewGenerations,2024年魅族面向AI時(shí)代全新打造的手機(jī)端操作系統(tǒng)將進(jìn)行系統(tǒng)更新,此外,魅族首款A(yù)IDevice硬件產(chǎn)品也將在今年內(nèi)正式發(fā)布。
除了OPPO和魅族之外,華為、小米、OPPO等已開(kāi)始在手機(jī)中接入AI大模型,vivo、三星已開(kāi)始重點(diǎn)發(fā)布AI手機(jī),其中三星GalaxyS24系列在全球范圍內(nèi)展現(xiàn)出旺盛需求量,在荷蘭、印度和韓國(guó)等多個(gè)市場(chǎng)的創(chuàng)下預(yù)訂記錄。
各大手機(jī)廠商關(guān)于AI手機(jī)的重點(diǎn)布局表明,隨著全球手機(jī)市場(chǎng)換機(jī)周期延長(zhǎng)、消費(fèi)創(chuàng)新空間有限、行業(yè)惡性競(jìng)爭(zhēng)加劇,手機(jī)行業(yè)呈現(xiàn)存量競(jìng)爭(zhēng)態(tài)勢(shì),同時(shí)手機(jī)產(chǎn)品單純依賴硬件升級(jí)和參數(shù)競(jìng)爭(zhēng),已無(wú)法滿足廣大消費(fèi)者多樣化、全面化的使用需求和使用體驗(yàn),行業(yè)亟需尋找新的可持續(xù)發(fā)展方向,而AI技術(shù)有望在手機(jī)行業(yè)的應(yīng)用加速發(fā)展,并將對(duì)手機(jī)行業(yè)產(chǎn)生深遠(yuǎn)影響。
另外,隨著AI技術(shù)的飛速進(jìn)步,AIPC在2024年的CES展覽上備受矚目。接近半數(shù)PC都宣稱具備AI功能,預(yù)示著AIPC市場(chǎng)的蓬勃發(fā)展。
群智咨詢表示,2024年,AIPC初現(xiàn)端倪,引領(lǐng)著新一輪的科技革命。PC制造商開(kāi)始向AI技術(shù)領(lǐng)域轉(zhuǎn)型,競(jìng)相推出自家的AIPC產(chǎn)品。群智咨詢預(yù)計(jì),2024年作為AIPC發(fā)展的元年,AI筆記本電腦出貨量達(dá)到1300萬(wàn)臺(tái),在筆記本電腦市場(chǎng)滲透率達(dá)到7%,2025年滲透率預(yù)計(jì)逼近30%,2026年滲透率會(huì)超過(guò)50%,2027年AIPC成為主流PC產(chǎn)品的類別,市場(chǎng)滲透率逼近80%。
根據(jù)彭博行業(yè)研究,邊緣設(shè)備(用于控制進(jìn)出網(wǎng)絡(luò)間邊界的數(shù)據(jù)流的硬件)推理需求可能會(huì)加速個(gè)人電腦和智能手機(jī)的升級(jí)換代(這些設(shè)備目前不太能夠跟得上AILLM的繁重處理、內(nèi)存和存儲(chǔ)要求),同時(shí)催生出可穿戴設(shè)備和智能音箱以外的新類別。隨著更多應(yīng)用在OpenAI的ChatGPT、谷歌的PaLM2和Meta的LLaMA等基礎(chǔ)模型之上得到開(kāi)發(fā),對(duì)推理的需求料將增加。
資本端同時(shí)傳來(lái)新消息。在完成最新交易后,OpenAI的估值已飆升至800億美元以上。這筆交易來(lái)自于ThriveCapital精心策劃的要約收購(gòu)。
只不過(guò),和去年相比,投資人的心態(tài)變了。不是人人都有機(jī)會(huì)投中OpenAI,但OpenAI的能力邊界卻實(shí)實(shí)在在影響著一批創(chuàng)業(yè)公司和背后的投資人。
網(wǎng)上有一句話可以反映其火熱:今天,所有VC的會(huì)上都在談Sora。