亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人工智能賦能元宇宙發(fā)展

2022-11-10 08:23:18菲利普托爾魏宏峰

張江科技評論 2022年5期

■文/菲利普·托爾魏宏峰

人工智能產(chǎn)業(yè)化過程中出現(xiàn)的“元宇宙”概念，正在成為解決現(xiàn)實(shí)超復(fù)雜問題的新的突破點(diǎn)，不斷推動構(gòu)建現(xiàn)實(shí)與虛擬融合共生的新生態(tài)。

近兩年興起的“元宇宙”概念，其實(shí)質(zhì)是人工智能產(chǎn)業(yè)化過程中出現(xiàn)的新模式、新生態(tài)。元宇宙以虛實(shí)融合、時空延展的場景構(gòu)建與體驗(yàn)更迭，加速人工智能與虛擬現(xiàn)實(shí)（VR）、增強(qiáng)現(xiàn)實(shí)（AR）、數(shù)字孿生、物聯(lián)網(wǎng)、區(qū)塊鏈等多重技術(shù)的融合應(yīng)用，拓展產(chǎn)研想象。目前，人們對元宇宙未來愿景的描繪不一而足，無論是“與物理世界無縫疊加的虛擬空間”，還是“虛實(shí)融合的世界”，抑或是“虛實(shí)共生的互聯(lián)網(wǎng)應(yīng)用和社會形態(tài)”，本質(zhì)上都在強(qiáng)調(diào)人的主體性在虛實(shí)融合時空的進(jìn)一步延伸。解決這一訴求正是元宇宙的核心價值所在。

人工智能在元宇宙發(fā)展過程中扮演著重要的角色。人工智能技術(shù)是當(dāng)今時代的共性技術(shù)，即與大部分新技術(shù)相關(guān)，且有潛力在不同程度上賦能各類技術(shù)的技術(shù)。人工智能在產(chǎn)業(yè)化過程中能夠與各層級、各領(lǐng)域技術(shù)互動融合，通過一系列互補(bǔ)性創(chuàng)新互相促進(jìn)，為個體生活、經(jīng)濟(jì)生產(chǎn)、社會治理等復(fù)雜現(xiàn)實(shí)問題的解決帶來以元宇宙為代表的新可能。在人、機(jī)、物、系統(tǒng)互聯(lián)的基礎(chǔ)上，人工智能通過高速計算、感知識別、認(rèn)知推理等能力，在元宇宙三大關(guān)鍵環(huán)節(jié)（構(gòu)建元宇宙場景、發(fā)展元宇宙技術(shù)、共創(chuàng)元宇宙體驗(yàn)）中以更人性化的協(xié)作和更高效的互動方式，充分發(fā)揮并增強(qiáng)人認(rèn)識和改造現(xiàn)實(shí)世界的能力。簡言之，人工智能可以使人們在元宇宙中實(shí)現(xiàn)更大可能。

元宇宙的關(guān)鍵技術(shù)需求

元宇宙不等同于技術(shù)的簡單疊加，而是多重技術(shù)進(jìn)行有機(jī)結(jié)合以滿足應(yīng)用需求。要探究元宇宙的關(guān)鍵技術(shù)需求，首先需要理解元宇宙的三大關(guān)鍵環(huán)節(jié)——場景構(gòu)建、技術(shù)發(fā)展、體驗(yàn)共創(chuàng)（見圖1），同時關(guān)注人工智能作為一種與元宇宙各層級、各領(lǐng)域技術(shù)相生的共性技術(shù)，滿足這些關(guān)鍵技術(shù)需求的可能性。

圖1 人工智能賦能元宇宙

智能互聯(lián)的元宇宙生態(tài)，建立于場景構(gòu)建的基礎(chǔ)能力之上。元宇宙的場景構(gòu)建是對現(xiàn)實(shí)世界虛擬化、數(shù)字化的過程?，F(xiàn)實(shí)場景中的實(shí)體在元宇宙空間中的化身對應(yīng)著一個個在形態(tài)、質(zhì)地、行為等方面都與現(xiàn)實(shí)極為相似的數(shù)字化模型。數(shù)字化模型主要就是將物體的幾何信息以三維坐標(biāo)的形式在數(shù)字世界中呈現(xiàn)出來。然而，傳統(tǒng)的手工三維建模技術(shù)往往面臨創(chuàng)作成本高、制作周期長、內(nèi)容復(fù)用率低、實(shí)時性差、質(zhì)量參差不齊的問題，制約了元宇宙的發(fā)展應(yīng)用。使智能體基于空間相關(guān)性自主判斷整個環(huán)境中的物體之間的空間位置構(gòu)成，是元宇宙面臨的關(guān)鍵技術(shù)需求之一。三維場景重建的人工智能技術(shù)的突破發(fā)展，可以為現(xiàn)實(shí)世界到元宇宙虛擬世界的映射提供強(qiáng)大的環(huán)境感知、圖像處理以及計算能力。

時空延展的元宇宙世界依賴于高效的智能技術(shù)發(fā)展。元宇宙打破了空間的有限性，使物體、環(huán)境信息可以在無限、多重的虛擬空間相互作用、影響。同時，元宇宙也打破了時間的指向性，使跳轉(zhuǎn)、追溯或預(yù)測在過去、現(xiàn)在、未來任一時間點(diǎn)的事件、行為信息成為可能。時間和空間維度的延展也增大了人們在元宇宙世界中認(rèn)知和改造環(huán)境的復(fù)雜性?？焖俑兄?、分析、判斷復(fù)雜場景中目標(biāo)對象的行為模式并提供應(yīng)對策略，是元宇宙面臨的關(guān)鍵技術(shù)需求之二。近年來，人工智能深度學(xué)習(xí)領(lǐng)域的重要突破帶動了計算機(jī)視覺等一系列技術(shù)的發(fā)展，可以為元宇宙世界中人、機(jī)、物、系統(tǒng)運(yùn)行的態(tài)勢提供準(zhǔn)確感知、預(yù)測、預(yù)警，并實(shí)現(xiàn)主動決策反應(yīng)。

具有沉浸感的元宇宙體驗(yàn)，衍生自多重技術(shù)的有機(jī)共生與共創(chuàng)。無限逼近現(xiàn)實(shí)、全方位沉浸的感官體驗(yàn)是元宇宙最重要也最富想象力的表征。元宇宙通過更人性化的互動，為小到個人、大到產(chǎn)業(yè)和全社會面臨的形形色色的實(shí)際問題提供新的解決方案，塑造虛實(shí)共生的全新世界。然而，只有當(dāng)不同層級、領(lǐng)域的技術(shù)有機(jī)結(jié)合、深度融合，才能激發(fā)虛實(shí)互動的體驗(yàn)創(chuàng)新，跨越式邁向虛實(shí)共生的元宇宙未來。提升虛擬智能對象行為的社會性、多樣性和交互擬真性，實(shí)現(xiàn)虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等技術(shù)與人工智能的有機(jī)結(jié)合和高效互動，是元宇宙面臨的關(guān)鍵技術(shù)需求之三。自最近一輪人工智能產(chǎn)業(yè)化建設(shè)高潮涌現(xiàn)以來，適用于元宇宙場景的智能交互設(shè)備和應(yīng)用日漸成熟，并將在生產(chǎn)生活等領(lǐng)域?qū)崿F(xiàn)對人機(jī)協(xié)作模式的變革。

人工智能賦能元宇宙發(fā)展

●構(gòu)建元宇宙場景的人工智能

將現(xiàn)實(shí)場景映射到虛擬空間的人工智能技術(shù)，其應(yīng)用水平直接決定了所構(gòu)建元宇宙場景的擬真程度和擴(kuò)展可能。其中，同步定位和映射（SLAM）及三維重建是最具代表性的技術(shù)。

SLAM被認(rèn)為是智能體自主定位的核心智能技術(shù)，支撐著將現(xiàn)實(shí)世界中各種物體的位置、3D地圖、導(dǎo)航信息映射到虛擬世界這一元宇宙關(guān)鍵環(huán)節(jié)。將一個智能體放入未知環(huán)境中的未知位置，是否有辦法在該智能體移動的過程中實(shí)時描繪出不受障礙、可達(dá)環(huán)境各個角落的地圖？這就是SLAM著力解決的問題。特別是在如隧道和室內(nèi)等缺乏全球位置信息的場景中，SLAM可以在極大程度上提高現(xiàn)實(shí)到虛擬的映射效率。

SLAM技術(shù)支撐著多個圖像之間建立的對應(yīng)關(guān)系，并使用多視圖幾何學(xué)來生成一個隨時間變化的三維地圖。語義場景理解可以豐富三維環(huán)境的表示，并提供可生成更好的三維模型的信息。當(dāng)智能體探索環(huán)境時，智能算法可以同時估計與障礙物（如墻壁）的相對位置，以便在每一幀的第一人稱視圖中建立周圍的三維環(huán)境地圖。

按傳感模式區(qū)分，SLAM可分為VSLAM和激光SLAM兩大類。其中，VSLAM基于視覺傳感器，主要有兩種實(shí)現(xiàn)路徑，一種基于RGBD深度攝像機(jī)，另一種基于單目、雙目或者魚眼攝像頭。VSLAM目前尚處于進(jìn)一步技術(shù)理論研發(fā)、應(yīng)用場景拓展、產(chǎn)品逐漸落地的階段。激光SLAM比VSLAM起步早，在理論、技術(shù)和產(chǎn)品落地上相對更成熟。激光SLAM脫胎于早期的基于超聲和紅外單點(diǎn)測距的定位方法。隨后，光學(xué)測距的出現(xiàn)和普及使測量更快、更準(zhǔn)，信息更豐富。光學(xué)測距采集到的物體信息呈現(xiàn)一系列分散的、具有準(zhǔn)確角度和距離信息的點(diǎn)，被稱為點(diǎn)云（point cloud）。通常，激光SLAM系統(tǒng)通過對不同時刻兩片點(diǎn)云進(jìn)行比對與匹配，憑借計算光學(xué)測距相對運(yùn)動的距離和姿態(tài)的改變，完成對智能體自身的定位。光學(xué)測距較為準(zhǔn)確，誤差模型簡單，在強(qiáng)光直射以外的環(huán)境中運(yùn)行穩(wěn)定，點(diǎn)云的處理也比較容易。同時，點(diǎn)云信息本身包含直接的幾何關(guān)系，使得智能體的路徑規(guī)劃和導(dǎo)航變得直觀。激光SLAM理論研究也相對成熟，落地產(chǎn)品更豐富，是目前元宇宙場景構(gòu)建的主流方法技術(shù)。例如，中科智云公司將激光SLAM用于作業(yè)環(huán)境復(fù)雜的塔吊施工、港口堆取料場景，為作業(yè)人員構(gòu)建數(shù)字孿生平臺并提供超視距虛實(shí)交互，提高人機(jī)協(xié)作的作業(yè)效率（見圖2）。

圖2 中科智云公司參與建設(shè)的天津港元宇宙碼頭

重建大型三維場景的密集點(diǎn)云模型（即三維重建），在諸如電影和游戲內(nèi)容創(chuàng)作、增強(qiáng)現(xiàn)實(shí)、文化遺產(chǎn)保護(hù)、建筑和城市信息建模等眾多元宇宙場景構(gòu)建任務(wù)中發(fā)揮著重要作用。通過利用位姿估計與跟蹤的在線RGB-D（RGB+Depth Map），一個尖端的三維重建系統(tǒng)允許多個用戶在半小時內(nèi)使用消費(fèi)級硬件協(xié)作重建整個建筑的密集點(diǎn)云模型，為現(xiàn)有基于全景掃描儀的整個建筑重建方法提供了一個低成本、高效率互動的替代方案，使用戶比以往更容易捕捉到詳細(xì)的三維場景模型。

●引領(lǐng)元宇宙技術(shù)的人工智能

人工智能技術(shù)中的目標(biāo)分割、目標(biāo)追蹤、姿態(tài)估計等是元宇宙場景中感知現(xiàn)實(shí)的關(guān)鍵工具，這類技術(shù)以虛擬世界為載體，通過捕捉現(xiàn)實(shí)世界的瞬息萬變，為人們提供過去、現(xiàn)在、未來有關(guān)所處元宇宙場景的超維感知力。

目標(biāo)分割能準(zhǔn)確捕捉場景中出現(xiàn)的物體（如汽車、行人、騎車人等）特征信息，包括位置、速度、類型、形狀、姿勢、大小等。普遍流行的算法是利用語義分割網(wǎng)絡(luò)在線進(jìn)行一個二分類的訓(xùn)練，然后再對后續(xù)幀進(jìn)行預(yù)測。目前，目標(biāo)分割已經(jīng)擴(kuò)展到視頻領(lǐng)域。計算機(jī)視覺領(lǐng)域正在尋找能夠處理視頻中一組物體類別所有實(shí)例的定位、分割、分類的算法，并且正在著力解決處理速度慢、對圖形處理器（GPU）要求高、分割精度低等瓶頸問題。

目標(biāo)追蹤是指在視頻序列第一幀指定目標(biāo)后，以盡可能高的精度在后續(xù)幀持續(xù)跟蹤目標(biāo)，實(shí)現(xiàn)目標(biāo)的定位與尺度估計。目標(biāo)追蹤在視頻幀之間建立物體的對應(yīng)關(guān)系，被用于多種場景，如公共安防、自動駕駛、智能機(jī)器人、人機(jī)智能交互和活動識別等。目標(biāo)跟蹤的主流方法包括基于相關(guān)濾波的目標(biāo)跟蹤算法和基于深度學(xué)習(xí)中的孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法。前者通過計算目標(biāo)區(qū)域與待檢測區(qū)域之間的相關(guān)性，得到相關(guān)性最大的區(qū)域就是目標(biāo)區(qū)域，即跟蹤區(qū)域；后者將目標(biāo)跟蹤問題轉(zhuǎn)化為圖像塊的匹配問題，通過訓(xùn)練一個相似性函數(shù)來計算模板圖像與搜索區(qū)域的相似度，并由此判斷目標(biāo)所在的位置，這種端到端的離線訓(xùn)練方式使跟蹤問題被大大簡化。當(dāng)跟蹤目標(biāo)為人形時，還需要用到姿態(tài)估計技術(shù)。姿態(tài)估計解決的是各種元宇宙場景中虛與實(shí)、人與機(jī)交互的核心問題，用于確定某一三維目標(biāo)（如人體）的方位指向?；诖?，我們可以將目標(biāo)跟蹤看作一個二元分類問題，在單個監(jiān)控畫面中給定初始幀，選定跟蹤目標(biāo)后，對視頻每一幀進(jìn)行人體姿態(tài)估計，通過分析前后若干幀之間的人體姿態(tài)關(guān)系來跟蹤移動人形的運(yùn)動軌跡，實(shí)現(xiàn)目標(biāo)行為的智能推理。歐洲計算機(jī)視覺國際會議（ECCV 2022）公布了長視頻目標(biāo)分割算法的最新進(jìn)展XMem，該方法基于底層內(nèi)存的創(chuàng)新，不僅能對長視頻快速進(jìn)行對象分割，達(dá)到20 FPS的畫面幀數(shù)，同時所需顯存資源也大大減少，在普通GPU上就能完成。

將視覺目標(biāo)跟蹤和視頻目標(biāo)分割納入統(tǒng)一框架的融合方法提供了新的技術(shù)路徑。代表性的方法有SiamMask，該方法通過在用于目標(biāo)跟蹤的孿生網(wǎng)絡(luò)上增加Mask分支網(wǎng)絡(luò)來實(shí)現(xiàn)目標(biāo)的分割，即可實(shí)現(xiàn)超實(shí)時的視頻目標(biāo)跟蹤性能，超高速的視頻目標(biāo)分割，并簡化交互難度（見圖3）。

圖3 應(yīng)用SiamMask對視頻序列進(jìn)行目標(biāo)跟蹤和目標(biāo)分割的結(jié)果

●共創(chuàng)元宇宙體驗(yàn)的人工智能

在AR、VR以及其他以人的體驗(yàn)為中心的數(shù)字場景中，人工智能技術(shù)承擔(dān)著舉足輕重的角色。AR、VR系統(tǒng)嘗試使用計算機(jī)生成的虛擬環(huán)境來增強(qiáng)和擴(kuò)展人類的能力和體驗(yàn)。人工智能試圖模仿人類理解和處理信息的方式，并結(jié)合計算機(jī)的能力，無缺陷地處理大量數(shù)據(jù)?？梢灶A(yù)見，人工智能與AR、VR系統(tǒng)的融合，能夠共同創(chuàng)造出全新的虛實(shí)交互體驗(yàn)。

以AR系統(tǒng)為例，現(xiàn)有的AR系統(tǒng)普遍存在無法更有效地識別并處理出現(xiàn)在其增強(qiáng)虛擬內(nèi)容中的人類元素的問題。當(dāng)前的解決路徑中，一種是將前述人工智能技術(shù)疊加在所有被系統(tǒng)追蹤的表面，為AR系統(tǒng)的互動提供一個自然用戶界面（NUI），以提高AR體驗(yàn)。這種虛實(shí)之間的互動是元宇宙以虛促實(shí)的關(guān)鍵。例如，微軟公司的Kinect控制臺以其無控制器的游戲體驗(yàn)，已經(jīng)徹底改變互動視頻游戲的范式和市場。高效的手勢識別工具為殘疾人或老年人提供了很大的幫助，有望進(jìn)一步提高他們在數(shù)字時代的生活質(zhì)量。

在最新的研究實(shí)踐中，通過理解和利用計算機(jī)視覺背后的復(fù)雜數(shù)學(xué)理論，創(chuàng)建一個強(qiáng)大的人類手部追蹤器和分割器，以感知玩家手的位置，并在實(shí)時視頻中進(jìn)行分割，最終讓這一自然的虛實(shí)交融體驗(yàn)以一種更自然的新方式戲劇性地“活”在屏幕上。這其中需要克服的主要技術(shù)挑戰(zhàn)包括在多種現(xiàn)實(shí)光線條件下對多種膚色的玩家手部進(jìn)行檢測和跟蹤，以及實(shí)時對計算機(jī)游戲應(yīng)用效率和速度的限制。這一研究成果被用于娛樂和教育場景的元宇宙體驗(yàn)上，如索尼公司的AR圖書Wonderbook。在Wonderbook中，玩家通過使用EyeToy相機(jī)追蹤的實(shí)體書與游戲進(jìn)行互動。利用書和書頁的跟蹤位置，虛擬游戲圖形被增強(qiáng)到屏幕上，創(chuàng)造出一本虛擬的彈出式圖書，玩家可以看到實(shí)體書與神奇的彈出式圖書的融合。

此外，體驗(yàn)的概念還能夠進(jìn)一步深化。例如，針對視障群體開發(fā)的智能AR眼鏡可借助人工智能技術(shù)捕捉人們視力的弱點(diǎn)，并為其增強(qiáng)相關(guān)視覺細(xì)節(jié)，使有視覺障礙的個人能夠獨(dú)立導(dǎo)航、避免碰撞，并在黑暗或低光條件下看得更清楚（見圖4）。用于視障群體的智能AR眼鏡通過使用智能計算機(jī)視覺算法和攝像頭的組合來記錄個人面前的場景，然后根據(jù)用戶的要求夸大其中某些特定部分的細(xì)節(jié)，如增加圖像對比度、突出特定特征或創(chuàng)造出“現(xiàn)實(shí)的卡通表現(xiàn)”。在正在探索的工作中，該眼鏡可以為因患青光眼而視力模糊的人增強(qiáng)視覺圖像中某些重要部分。

圖4 測試者配戴針對視障群體的智能AR眼鏡行走

人工智能產(chǎn)業(yè)化過程中出現(xiàn)的“元宇宙”概念，正在成為解決現(xiàn)實(shí)超復(fù)雜問題的新的突破點(diǎn)，不斷推動構(gòu)建現(xiàn)實(shí)與虛擬融合共生的新生態(tài)。當(dāng)前，元宇宙正在促進(jìn)人工智能與虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、數(shù)字孿生、物聯(lián)網(wǎng)、區(qū)塊鏈等技術(shù)的有機(jī)結(jié)合和高效互動，實(shí)現(xiàn)人、機(jī)、物、系統(tǒng)間的無縫連接。對元宇宙領(lǐng)域發(fā)展機(jī)遇的探索，不僅有望滿足個人在工作、學(xué)習(xí)、生活、娛樂等不同場景下感知、分析、判斷與決策等實(shí)時信息需求，更有望為各類工業(yè)場景提供物理環(huán)境態(tài)勢全方位感知、人機(jī)跨地域虛實(shí)交互協(xié)作、復(fù)雜生產(chǎn)作業(yè)自動化安全管理等關(guān)鍵能力，實(shí)現(xiàn)包括設(shè)計、工藝、制造、交付、維護(hù)保障服務(wù)等全生命周期管理過程的數(shù)字化以及智能化，為人工智能技術(shù)實(shí)現(xiàn)更大賦能價值創(chuàng)造新的平臺。