亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模態(tài)大模型的智能無人機系統(tǒng):總結與展望

        2024-12-25 00:00:00劉暢行陳思衡楊峰
        無線電工程 2024年12期
        關鍵詞:人機交互

        摘 要:多模態(tài)大模型的出現(xiàn)和發(fā)展帶來了無人機系統(tǒng)智能化的方向,將其高效集成進無人機系統(tǒng)能夠顯著提升無人機智能體的自主性和靈活性,在多個領域發(fā)揮無人機的作用。為促進相關研究,說明了多模態(tài)大模型和無人機系統(tǒng)集成的重要性,詳細介紹了多模態(tài)大模型的發(fā)展和應用現(xiàn)狀,列舉了多模態(tài)大模型能為無人機系統(tǒng)提供的人機交互、智能感知、自主決策和群體協(xié)同上的革新能力,闡明了其應用范圍和面臨的挑戰(zhàn),為無人機智能化發(fā)展提供了一定參考。

        關鍵詞:多模態(tài)大模型;無人機系統(tǒng);自主決策;智能感知;人機交互

        中圖分類號:TP181;V279 文獻標志碼:A

        文章編號:1003-3106(2024)12-2923-10

        0 引言

        隨著技術發(fā)展,無人機因其具備靈活性、時效性和自主性的特點,已成為多領域應用的重要工具。從農(nóng)業(yè)監(jiān)測、災難救援,到交通管理和安全監(jiān)視等領域,無人機不僅革新了許多任務的完成方式,還擴展了人類的作業(yè)范圍、執(zhí)行效率。尤其在一些高風險或人類難以觸及的環(huán)境中,無人機可以執(zhí)行傳統(tǒng)方式難以完成的任務,如在災難現(xiàn)場進行快速偵查和數(shù)據(jù)收集,或在大范圍農(nóng)田上進行精準施肥。越來越多的企業(yè)開始探索使用無人機進行快遞服務,期望通過降低成本和提高配送速度,為消費者提供更優(yōu)質的服務。在此背景下,如何提升無人機的智能化水平,進一步擴大其應用范圍,顯著提高任務執(zhí)行的精確性、經(jīng)濟性和適應性,是當前無人機發(fā)展的關鍵方向。

        人工智能是本世紀生產(chǎn)力和社會變革的重要動力,近年來出現(xiàn)的大模型更是將其推入飛速發(fā)展的軌道。大模型以大語言模型(Large Language Model,LLM)為基礎,通過預訓練得到了廣泛的知識,能夠理解人類語言并做出思考和回應,完成給定的復雜任務。近年來,多模態(tài)大模型的出現(xiàn)標志著大模型發(fā)展到一個新階段,它們能同時處理并融合來自不同數(shù)據(jù)源的信息,如文本、圖像、聲音和視頻,從而提供更為全面和精準的分析結果。這種能力極大地推動了智能系統(tǒng)的發(fā)展,多源信息的加入極大豐富了如無人機等具身智能體的感知能力。這種多模態(tài)的智能加持使得無人機不局限于執(zhí)行預設的簡單任務,而是能夠在執(zhí)行過程中實時處理和分析復雜的環(huán)境信息,做出更為智能的決策。例如,在災害救援任務中,通過多模態(tài)大模型處理的影像和聲音數(shù)據(jù),無人機能夠獨立識別被困人員的位置并評估環(huán)境風險,從而指導救援隊有效地進行人員疏散。隨著技術的進一步發(fā)展和應用的深化,多模態(tài)大模型和無人機的結合預計將開辟更多創(chuàng)新應用。未來,無人機將成為自主運行的智能節(jié)點,不僅能夠高效完成針對性的單一任務,也能在更為復雜的環(huán)境中進行多任務協(xié)作和群體智能作業(yè),如城市交通管理、大規(guī)模公共安全監(jiān)控等領域。這一進步不僅將極大提高無人機系統(tǒng)的操作效率和安全性,更將為其在商業(yè)和民用領域的廣泛應用提供新的可能。

        本文首先具體介紹從大模型到多模態(tài)大模型的發(fā)展歷程,并介紹當前主流應用的和最先進的多模態(tài)大模型;其次介紹在無人機的各功能模塊中,引入多模態(tài)大模型可以帶來的全新能力和變革;然后著重說明智能化無人機在新時代的應用范圍,舉例說明當前已有的研究探索;最后詳細指出多模態(tài)大模型和無人機結合過程中面臨的重大挑戰(zhàn),指出可能的解決方法和發(fā)展途徑,并總結全文,旨在為相關領域研究人員提供參考。

        1 多模態(tài)大模型

        1. 1 多模態(tài)大模型的發(fā)展歷程

        人工智能從傳統(tǒng)的機器學習起步。早期的機器學習模型如決策樹、支持向量機等,通過人為尋找特征和統(tǒng)計方法,在處理較為簡單的數(shù)據(jù)和任務時表現(xiàn)出色,但在處理大規(guī)?;蚋呔S數(shù)據(jù)時往往能力有限。深度學習技術的崛起標志著人工智能的新時代。通過構建深層的神經(jīng)網(wǎng)絡,深度學習模型能夠處理和學習復雜的數(shù)據(jù)結構。典型的深度學習模型包括卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡和圖神經(jīng)網(wǎng)絡等。

        但是,現(xiàn)有深度學習模型依然存在若干難題,首先是其通常設置為從頭開始深度學習,網(wǎng)絡收斂緩慢、時間成本高[1];其次,大多數(shù)視覺識別研究高度依賴訓練中的人工標記數(shù)據(jù),在訓練網(wǎng)絡時收集大規(guī)模、特定任務的人工標記數(shù)據(jù)十分費力[2];最后,通常需要為每個特定任務訓練一個網(wǎng)絡,不具備廣泛的適應性。

        隨著研究的發(fā)展,一種新的學習范式“預訓練、微調和預測”表現(xiàn)十分出色。通過在大量無監(jiān)督相關領域知識上預訓練一個通用模型,再針對特定任務進行微調,模型能顯著提升性能[3]。隨著計算資源的增加,以及Transformer 結構[4]帶來的訓練大規(guī)模模型的可能性,研究者開始訓練參數(shù)量更大的模型,這些嘗試從自然語言處理領域的LLM 開始,如GPT 系列[5]和BERT[6]。這些模型不僅能夠捕捉語言的深層次語義,還能在多種下游任務中遷移學習,展示出驚人的通用性和靈活性。

        為進一步拓展這種通用理解能力的應用范圍,多模態(tài)大模型應運而生,能夠接收多源類型的數(shù)據(jù),除常規(guī)的文字外還包括圖像、音頻和視頻,甚至觸覺等,使得模型能夠理解更加高維和豐富的信息,更加向“人”靠近。上述模態(tài)中,視覺模態(tài)是最重要和優(yōu)先發(fā)展的,視覺的接入代表了對環(huán)境信息的獲取,除拓展了人機交互的維度外,更為具身智能體理解世界和所處環(huán)境提供渠道。視覺語言模型(VisualLanguage Model,VLM)如CLIP[2]、GPT4V[5],通過聯(lián)合訓練圖像和文本數(shù)據(jù),使得模型能夠同時理解視覺信息和語言信息,從而在諸如圖像標注和視覺問答等任務中取得了顯著成果。除了多源的輸入外,多模態(tài)大模型還可能產(chǎn)生多源的輸出,例如,OpenAI 的DALLE[7]能生成與文本描述相符的圖像,展示了創(chuàng)造性與理解力的結合;GPT4o[5]能夠實時生成類人語氣的語音輸出。這種多模態(tài)的理解和生成能力,為AI 在更廣泛領域的應用奠定了基礎。

        圖1 概述了一個多模態(tài)大模型的通用架構,分為理解和生成兩階段。在理解輸入時,多種模型如ViT 等被用來提取和處理多種類型的數(shù)據(jù),并映射到語言模型主結構的特征空間,深入分析和處理輸入數(shù)據(jù),適應不同的應用需求。在生成輸出時,獲得的理解被映射到生成器中,可以生成不同形式的媒體輸出,如圖像、視頻和音頻。

        多模態(tài)大模型憑借其獨特的架構與算法設計,在多個維度上展現(xiàn)了卓越的能力,不僅深化了人工智能的應用范疇,也重新定義了技術與現(xiàn)實世界互動的邊界。具體而言,這些能力涵蓋了以下幾個核心方面:

        ① 場景深度理解。通過對圖像、視頻等多媒體數(shù)據(jù)的深入解析,多模態(tài)大模型能夠準確識別場景中的元素、理解復雜布局與對象間的關系,進而為智慧城市管理、虛擬現(xiàn)實體驗等領域提供高度情境化的智能支持。

        ② 目標定位與識別?;谏疃葓D像理解能力,模型在復雜背景中可以實現(xiàn)精確的目標鎖定,無論是用于物流追蹤、安防監(jiān)控還是自動駕駛車輛的避障系統(tǒng),都顯著提高了系統(tǒng)的準確性和深度。

        ③ 自然語言交互。結合強大的自然語言處理能力,多模態(tài)大模型能夠流暢地理解并回應人類語言指令,支持多樣化的人機交互場景,增強了用戶體驗的自然度與便利性,方便快速實時的指令部署。

        ④ 音視頻分析。通過分析音頻特征與視頻內容的同步信息,模型能夠識別聲音來源、情緒變化乃至特定事件的發(fā)生,為內容審核、情緒分析和遠程健康監(jiān)護等應用提供了新的洞察視角。

        ⑤ 跨模態(tài)融合。整合不同模態(tài)信息,如將文本描述與圖像內容相結合,模型能夠實現(xiàn)更加全面和深入的信息理解和生成,促進了在教育、娛樂和科研等多領域的創(chuàng)新應用。

        ⑥ 自適應學習與優(yōu)化??梢再x予多模態(tài)大模型以持續(xù)學習機制,根據(jù)新數(shù)據(jù)自我調整和優(yōu)化模型參數(shù),不斷適應變化的環(huán)境和任務需求,不僅提升了模型的魯棒性和泛化能力,也為未來的個性化服務與智能決策系統(tǒng)奠定了堅實的基礎。

        1. 2 主流多模態(tài)大模型及其特點

        國外商業(yè)機構的閉源模型處在行業(yè)前沿,尤其是OpenAI 的GPT 系列模型在業(yè)界處于領先地位。GPT4V[5]主要集中于將視覺能力整合到傳統(tǒng)語言模型框架中,擴展了模型處理圖像輸入與文本的能力,適用于更廣泛的應用場景,如醫(yī)學影像分析、多媒體內容創(chuàng)建和增強的交互式用戶界面。這個版本的模型在生成和理解結合視覺與文字元素內容方面顯示了相當?shù)膬?yōu)勢。GPT4o[5]則進一步在多模態(tài)技術上取得了進展,不僅包含視覺能力,還加入了音頻輸入,模型能夠理解并生成跨文本、視覺和音頻的響應,使其非常適合需要深入整合這些模態(tài)的應用。GPT4o 在處理音頻任務方面表現(xiàn)出色,超越了以往的模型,在語音識別和音頻翻譯任務中具有優(yōu)勢。

        Gemini 1. 5 Pro[8]是一款由Google DeepMind 開發(fā)的先進的多模態(tài)LLM。該模型特別優(yōu)化了處理和理解多種語言和模態(tài)的能力,使其在自然語言處理領域表現(xiàn)卓越,具備理解和生成長文本的能力,不僅在文本處理上表現(xiàn)卓越,還支持圖像和視頻等多種輸入模態(tài),進一步增強了其多模態(tài)處理能力。例如,它能夠從上傳的講座視頻中生成基于內容的測驗,顯示出其在視頻內容理解和生成應用方面的強大功能。

        國內的大模型研究起步稍晚,但產(chǎn)出的模型性能正在穩(wěn)步提升。上海AI 實驗室開源了新一代書生·視覺大模型(InternVL)[9],在視覺能力上能夠逼近GPT4V 的表現(xiàn)。其視覺編碼器參數(shù)量達60 億,首次提出了對比-生成融合的漸進式對齊技術,實現(xiàn)了在互聯(lián)網(wǎng)級別數(shù)據(jù)上視覺大模型與語言大模型的精細對齊。InternVL 不僅能處理復雜圖片中細微的視覺信息并完成圖生文任務,還可以識別和解讀復雜頁面中的信息,甚至解決其中的數(shù)理問題。

        2 基于多模態(tài)大模型的智能無人機系統(tǒng)的基本架構

        多模態(tài)大模型帶來了視覺等多源數(shù)據(jù)接口,賦予智能體對環(huán)境的分析和理解能力,這對具備廣域感知能力的無人機而言意義重大。同樣,多模態(tài)大模型也繼承了LLM 所具備的人機交互的便捷性特點,以及對復雜任務的理解和處理,能夠全面支持無人機的智能化發(fā)展。基于多模態(tài)大模型的智能無人機系統(tǒng)由人機交互、智能感知、自主決策和群體協(xié)同4 個方面組成其基本架構,各方面之間的關系如圖2所示。

        2. 1 人機交互

        多模態(tài)大模型為無人機領域帶來的首要改變是能夠革新人與無人機系統(tǒng)的交互模式。傳統(tǒng)的無人機系統(tǒng)通常只能接收預設的輸入指令,限制了人機交互的自由度,對預設任務的豐富性和適應性提出了很高的要求。引入多模態(tài)大模型作為系統(tǒng)的主體或人機交互的接口后,由于模型具備泛化的知識和理解能力,并且可以接收自然語言輸入,生成自然語言的輸出,這使得操控者對無人機系統(tǒng)可以直接通過語言進行交互并獲得容易理解的反饋,而系統(tǒng)可以直接對人類語言指令進行解析,對具體執(zhí)行進行后續(xù)的組織安排。由此,人機交互的自由度大大拓展,使無人機可以執(zhí)行更廣泛的任務,操作者和無人機系統(tǒng)間的交互變得高效和易理解。文獻[10]引入大模型接收語音的指令輸入,其系統(tǒng)能夠理解并實現(xiàn)簡單任務和給予反饋。

        2. 2 智能感知

        無人機運行的場景多為室外場景,具備復雜、高動態(tài)和開放的特征,使得高效精確的智能感知十分重要。無人機需要即時地獲取對環(huán)境的感知,可能包括視覺、雷達信息和音頻信息等,并且對這些信息進行整合和理解,做出完整、準確的總結和評估。智能感知賦予了無人機“感官”,是一切后續(xù)任務的基石。

        傳統(tǒng)的感知多局限在預訓練好的有限的目標識別、目標跟蹤等任務中,而有了多模態(tài)大模型的加入,無人機的感知可以革新地向人們想象中的智能化靠近?;诙嗄B(tài)大模型的視覺理解能力,無人機可以獲取環(huán)境信息,并對其進行理解和分析,從而獲得對環(huán)境的整體理解。利用VLM 對單目相機獲取的圖像進行操作環(huán)境安全性的判斷,保障無人機運行時,不對人和環(huán)境造成危害。文獻[11]聯(lián)合LLM 和VLM,連同最先進的檢測方式,提供精準的零樣本無人機場景文字描述。文獻[12]提出了零樣本理解的無人機系統(tǒng)的視頻理解方法,創(chuàng)建了一個基于語言的世界狀態(tài)歷史記錄,記錄了無人機捕捉到的場景中出現(xiàn)的事件和物體。特定多模態(tài)大模型具備多源數(shù)據(jù)融合能力,可以結合聲音、視頻和雷達等信息綜合地對環(huán)境進行理解。AeroAgent[13]接收圖像、聲音的輸入,在救援行動中識別出求救人的信息,并在后續(xù)執(zhí)行中完成對人員的搜救。

        部分多模態(tài)大模型還具備語義聯(lián)合定位能力,如CogVLM[14]、QwenVL[15]等,即輸入對目標的語言描述,輸出目標在圖像中的檢測框。將這種能力集成進無人機系統(tǒng)中,可以打破僅能識別預訓練目標類別的局限,從而可以對具有詳細描述的目標進行識別和跟蹤,使任務目標更加具體和精確。AeroAgent[13]利用多模態(tài)大模型尋找視覺中的森林火源位置和搜救對象定位,并儲存在記憶中輔助后續(xù)任務執(zhí)行。

        2. 3 自主決策

        傳統(tǒng)的無人機決策和規(guī)劃主要依賴于預先編程的算法和規(guī)則,這些方法通常基于狀態(tài)機、人工勢場法、圖搜索算法以及經(jīng)典的路徑規(guī)劃算法等技術實現(xiàn)。這些傳統(tǒng)方法雖然在一定程度上能夠滿足基本的無人機操作需求,但對規(guī)則和邊界條件的設置提出了很高的要求,往往缺乏對環(huán)境的動態(tài)適應能力和對復雜決策場景的處理能力,使得無人機能夠執(zhí)行的任務較為單一。

        大模型發(fā)展帶來的革新之一是以大模型本身作為智能體,具備自主決策和規(guī)劃的能力。將多模態(tài)大模型集成進無人機系統(tǒng),賦予了無人機分析和思考的智能。結合自由的人機交互和智能化的感知,無人機能夠自主理解操作者的指令,將其拆分為自身可執(zhí)行的任務,高效調度下游模塊完成執(zhí)行,并且在遇到意外情況或復雜環(huán)境變化時,可以靈活變通,調整任務的執(zhí)行計劃。文獻[10]將LLM 與傳統(tǒng)路徑規(guī)劃模塊相結合,令大模型調整規(guī)劃模塊的輸入?yún)?shù)以控制任務完成,展示了卓越的零樣本泛化能力。TypeFly[16]將大模型應用在任務規(guī)劃和決策中,設置了專門的編程模塊輔助大模型完成對任務的指揮執(zhí)行。在大模型智能體的系統(tǒng)設計中通常包含記憶模塊,這賦予了系統(tǒng)終身學習的能力,能夠記憶過往的任務經(jīng)驗并有效做出反思,提高后續(xù)任務執(zhí)行的魯棒性和適應性。

        2. 4 群體協(xié)同

        群體協(xié)同應用廣泛,在自動駕駛[17-20]、無人機[21]等場景均有前景。無人機群體協(xié)同是指多架無人機通過相互之間的通信與合作,共同完成一項或多項復雜任務的能力。這種協(xié)同不僅包括空間上的編隊飛行、任務區(qū)域的高效覆蓋,還包括時間上的任務調度與資源分配。群體協(xié)同顯著增強了無人機系統(tǒng)的整體效能,使其能夠在搜索與救援、環(huán)境監(jiān)測和農(nóng)業(yè)植保等領域展現(xiàn)出前所未有的應用潛力。部分研究通過深度學習已經(jīng)能實現(xiàn)一定的協(xié)同效果,如Where2comm[21]在無人機間通過空間置信度圖分享感知信息,提升性能并降低通信量。

        多模態(tài)大模型在無人機群體協(xié)同中扮演著橋梁和智腦的角色,極大地提升了協(xié)同作業(yè)的智能化水平和效率。其應用方向首先在于高效的信息共享方式,各無人機可以自主分析和選擇重點目標進行分享,共享的信息除目標位置外還可以包括對目標的詳細描述、所處區(qū)域的環(huán)境概況等。其次,基于多模態(tài)數(shù)據(jù)的深入分析,大模型能夠實時評估任務需求、無人機狀態(tài)以及環(huán)境條件,動態(tài)調整任務分配和路徑規(guī)劃,確保任務執(zhí)行的高效性和靈活性。協(xié)同過程中,既能以無人機編隊為整體進行統(tǒng)一動態(tài)規(guī)劃,也可以通過各無人機之間的自主溝通和協(xié)調實現(xiàn)。此外,多模態(tài)大模型具有一定的自學習能力,能夠從群體協(xié)同的實踐中不斷優(yōu)化決策模型,適應新場景和新任務。FlockGPT[22]第一個通過大模型使用自然語言進行快速無人機群控制,所描述的方法可以直觀地編排任何規(guī)模的無人機群以實現(xiàn)所需的幾何形狀。

        3 基于多模態(tài)大模型的智能無人機系統(tǒng)的任務場景

        3. 1 物流運輸

        集成了多模態(tài)大模型的無人機可以革新快遞服務和物流行業(yè),通過優(yōu)化配送路線、增強與顧客的交互以及提升運營效率實現(xiàn)轉型[23]。這些模型能夠處理交通、氣候以及地理等復雜數(shù)據(jù),從而動態(tài)地優(yōu)化配送路徑,不僅縮短了配送時間,還有效減少了運營成本[24]。此外,無人機還可以通過語言模型與客戶互動,實時更新配送狀態(tài)、解答疑問,甚至處理投訴或特殊指令,這種增強的互動能提高客戶滿意度,并簡化配送流程,減少人工客服的需求。LLM 還賦予無人機在配送過程中進行自主決策的能力,在遇到突發(fā)障礙或緊急情況時,無人機能夠自主選擇最佳應對策略,如改變路線、等待清除或返回基地,這種自主性保證了即使在不可預見的情況下,配送服務也能可靠且一致。多模態(tài)大模型還可以幫助進行負載均衡、包裝尺寸調整和優(yōu)先級設置,確保每架無人機高效裝載,最大化配送量,減少必要的飛行次數(shù)。它們不斷分析交通和天氣信息,實時調整飛行計劃,特別是在惡劣天氣或空域擁擠的情況下,確保安全、準時的配送。智能多模態(tài)無人機的應用如圖3 所示。

        3. 2 偵察監(jiān)控

        多模態(tài)大型模型賦予無人機前所未有的認知和分析能力,顯著提升了無人機監(jiān)控系統(tǒng)的效率、準確度與有效性[25]。這種技術整合使無人機能夠高效處理和分析海量視覺數(shù)據(jù),支持實時圖像識別、物體偵測與環(huán)境感知。多模態(tài)大型模型精于從視頻流或圖像中識別特定物體、人員、車輛或活動,為軍事及民用的監(jiān)控任務提供關鍵的細節(jié)洞察。此外,這種模型提高了無人機的自主運行能力,使其能在復雜或惡劣環(huán)境中迅速響應,減少了對人工持續(xù)監(jiān)管的依賴。配備多模態(tài)大型模型的無人機也能根據(jù)任務需求和地面實際情況的變化,實時調整飛行路線、關注的區(qū)域及拍攝關鍵畫面的時機。通過理解和處理人類語言,無人機可以接收并解析更復雜的指令和問詢。多模態(tài)大型模型可以通過歷史數(shù)據(jù)預測潛在安全威脅或重點監(jiān)控區(qū)域,這種預測功能使無人機能主動進行監(jiān)控,密切關注可疑地區(qū),或向操作員報告基于已學習模式的異常行為。它還能將收集的大量數(shù)據(jù)轉化為可行的情報,增強實時決策支持,使無人機在快速變化的監(jiān)視和偵查任務中能夠做出關鍵的迅速而明智的決策[26]。

        3. 3 應急管理

        結合多模態(tài)大型模型的無人機在應急響應和災害管理中的應用可以極大提升行動的效率、準確性和效果。這些模型能迅速分析無人機收集的圖像與傳感器數(shù)據(jù),評估災害后損毀狀況,如識別堵塞道路、受損建筑及洪水區(qū)域[27]。在搜救任務中,時間至關重要,配備了LLM 的無人機能自動搜索廣闊區(qū)域,利用物體識別和模式檢測技術定位幸存者,并能獨立導航通過復雜地形,加速搜救進程,提高救援成功率。具備實時態(tài)勢感知能力的無人機能幫助應急人員優(yōu)先處理緊急區(qū)域并規(guī)劃有效的應對策略[28]。它們還能通過分析歷史數(shù)據(jù)和當前天氣狀況預測潛在災害,提前做好準備,提示管理者監(jiān)控危險區(qū)域并提前實施疏散或其他預防措施。當災害破壞通信網(wǎng)絡時,這些無人機還能建立臨時通信網(wǎng)絡,作為空中通信中繼,促進救援人員與受災群眾的通信。此外,這些模型在后勤管理中也發(fā)揮作用,通過需求評估和資源調配,確保無人機高效地分配和運送救援物資(如食物、水和醫(yī)療設備)到難以通過常規(guī)手段到達的地區(qū)[29]。通過將復雜數(shù)據(jù)轉化為可操作的洞察和直觀報告,這些模型增強了無人機與人類操作員之間的互動,使應急響應人員能夠根據(jù)無人機提供的全面分析迅速且有效地做出明智決策。

        3. 4 環(huán)境監(jiān)測和動物保護

        多模態(tài)大模型能夠處理和分析無人機收集的豐富環(huán)境數(shù)據(jù),如圖像、溫度讀數(shù)和污染水平。這些數(shù)據(jù)有助于識別環(huán)境變化趨勢和異常情況,例如植被的變化、水質變動或污染物的檢測[30-33]。多模態(tài)大模型能迅速對這些信息進行分析,為自然資源保護者和環(huán)境科學家提供實用的建議。此外,多模態(tài)大型模型可以利用多架無人機捕獲的視頻和音頻數(shù)據(jù)追蹤和研究野生動物,辨識個體動物,追蹤其移動,并在無人干擾的條件下觀察它們的行為模式,從而減少人為接觸對動物造成的壓力和行為變化[34-35]。

        結合LLM 的無人機相比傳統(tǒng)方法能夠更有效地繪制廣闊且難以接近的區(qū)域地圖。多模態(tài)大型模型能分析收集的地理數(shù)據(jù),制作詳盡的棲息地地圖,并監(jiān)測其隨時間的變化,這對于管理自然保護區(qū)、規(guī)劃重造林項目或評估人類活動對生態(tài)環(huán)境的影響至關重要。此外,這種模型利用歷史和持續(xù)的監(jiān)測數(shù)據(jù),可以預測未來環(huán)境條件和野生動物的變化趨勢。這些預測為采取保護措施提供依據(jù),如確定物種保護措施的最佳實施時間和地點,或預測可能影響生物多樣性的生態(tài)變化。

        4 基于多模態(tài)大模型的智能無人機系統(tǒng)的關鍵技術

        4. 1 大模型可靠性

        模型的可靠性對于部署無人機通信至關重要,特別是當基于模型的輸出決策影響重大時[36]。例如,由于模型通常依賴于從訓練數(shù)據(jù)中學習到的模式,它們在面對新穎或異常情況時可能會產(chǎn)生不可預測或錯誤的輸出,因為這些模式可能未能完全覆蓋所有現(xiàn)實情景[37]。在需要迅速而準確做出決策的動態(tài)環(huán)境中,這種風險尤為突出[38]。通過持續(xù)使用新數(shù)據(jù)來更新和重新訓練模型,可以幫助模型從最新經(jīng)驗中學習,適應可能遇到的變化或新情景。

        此外,當依賴于大型模型執(zhí)行關鍵任務時,進行基于模擬的測試和驗證變得至關重要。在多種模擬環(huán)境下測試這些模型,對于發(fā)現(xiàn)模型在復雜場景(如惡劣天氣、通信中斷或不常見任務參數(shù))下可能的故障或弱點是必不可少的。如果模型輸出不確定或超出預期,還應建立人工干預的閾值或條件,實施強大的故障安全機制,防止因模型錯誤輸出引發(fā)的不利后果。通過實施冗余系統(tǒng),可以在執(zhí)行關鍵決策前進行仔細檢查,增強的錯誤處理能力能夠應對大型模型的意外輸出,確保無人機操作的連續(xù)性[39]。

        4. 2 大模型與傳統(tǒng)系統(tǒng)集成

        多模態(tài)大型模型需要與無人機的現(xiàn)有硬件和軟件模塊(如飛行控制、導航系統(tǒng)、通信協(xié)議和數(shù)據(jù)處理單元)進行無縫交互,每個模塊均具有自己的獨特規(guī)范和操作要求[40]。這些要求的多樣性使得將大型模型整合進這些系統(tǒng)變得復雜且耗時,因此,采用模塊化設計方法對系統(tǒng)進行設計顯得尤為重要,它允許在不干擾整個系統(tǒng)運行的情況下,方便地集成、移除或更新大型模型的各個組件,從而大幅簡化大型模型的集成過程。此外,開發(fā)一種能夠定期進行更新和維護的系統(tǒng)策略也是必要的,以確保集成的大型模型持續(xù)有效,并使整個系統(tǒng)能夠適應新技術進展或操作需求的變化[37]。

        4. 3 計算負載與延時

        大型模型的運行依賴于大量的計算力和能源[41-42]。然而,由于無人機的機載計算能力和電源容量有限,且需滿足輕型設計的要求以保證較長的飛行時間和較高的運行效率,處理這些模型所需的大量電力會迅速消耗無人機的電池,縮短關鍵任務的可操作時間[43]。為了克服這些挑戰(zhàn),采用裁剪不必要參數(shù)和應用量化技術以縮小模型規(guī)模和降低能耗是至關重要的[44]。常見的解決方案是將數(shù)據(jù)處理任務外包給云端服務器,盡管這種方法能夠借助強大的云計算能力,但無人機與云服務器之間的通信延遲可能引入額外的延時,這在需要關鍵即時響應的任務中可能影響任務的執(zhí)行效率和安全性[45]。為減輕這一問題,無人機可以通過集成如微處理器、GPU 或定制的專用集成電路等高級計算資源來提升機載處理能力,從而更有效地處理復雜算法。采用混合處理策略至關重要,即將緊急且實時的處理任務在無人機上直接完成,而將較復雜、對時間敏感度較低的任務外包給云處理。這種策略有助于平衡計算負擔,并根據(jù)任務的緊急程度和復雜性調整響應時間。此外,通過建立強大的近場通信網(wǎng)絡并采用邊緣計算方案可以進一步降低延遲。將處理能力配置在離無人機更近的位置,無論是本地服務器還是附近的邊緣服務器設備,都能顯著減少通信距離和時間,增強無人機操作的響應能力[46-47]。

        4. 4 數(shù)據(jù)安全與隱私

        基于無人機強大的感知和監(jiān)控能力,對數(shù)據(jù)安全和隱私的關注日益增長,主要是因為這些模型常處理包括監(jiān)控任務中收集的個人信息在內的敏感數(shù)據(jù)。這類數(shù)據(jù)容易遭受攻擊,一旦泄露,可能導致嚴重的隱私侵權和其他安全風險。因此,采取堅固的數(shù)據(jù)安全措施是降低這些風險的關鍵。強化數(shù)據(jù)加密是確保數(shù)據(jù)在傳輸和存儲過程中不被未經(jīng)授權用戶訪問的重要策略[48]。此外,建立嚴格的訪問控制機制,限制數(shù)據(jù)訪問權限僅限于授權人員,是防止未授權的數(shù)據(jù)操作或泄露的有效手段。遵循數(shù)據(jù)保護法規(guī)也極為關鍵,這些法規(guī)設計用以保護數(shù)據(jù)隱私和完整性,要求組織采取嚴格措施以保障個人信息的安全。通過符合這些法律標準,無人機操作員能夠保護由大型模型處理的敏感數(shù)據(jù),最大程度地減少違規(guī)風險,維護數(shù)據(jù)的機密性和完整性[49]。同時,也應當限制無人機的移動范圍,使其不輕易進入引起隱私侵犯的區(qū)域或機密場所,杜絕引起他人不適。文獻[50]提出的NetGPT 賦予系統(tǒng)攻擊性無人機攔截和良性無人機通信保持的能力,提出對無人機通信中數(shù)據(jù)安全和隱私保護的問題。

        5 結束語

        隨著多模態(tài)大模型能力的快速增長和拓展[51],將其集成進無人機系統(tǒng)是勢在必行的趨勢。這種集成能夠顯著發(fā)揮無人機作為智能體的自主性和靈活性,在多個領域彰顯無人機的作用。未來,基于多模態(tài)大模型的無人機智能系統(tǒng)研究將聚焦于多模態(tài)數(shù)據(jù)融合、自適應學習、模型輕量化和模型安全性等關鍵方向,持續(xù)發(fā)展,并著力關注其在復雜應用場景中的實際部署[52]。

        本文首先說明了多模態(tài)大模型和無人機二者集成的重要性,并詳細介紹了多模態(tài)大模型的發(fā)展和應用現(xiàn)狀,然后列舉了多模態(tài)大模型能為無人機系統(tǒng)提供的革新能力,最后闡明了其應用范圍和面臨的挑戰(zhàn)。本文全面地對多模態(tài)大模型及其與無人機結合的角度和前景進行了分析和闡釋,期待為無人機的智能化發(fā)展提供參考并起到一定推動作用。

        參考文獻

        [1] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual

        Learning for Image Recognition[C]∥2016 IEEE Confe

        rence on Computer Vision and Pattern Recognition

        (CVPR). Las Vegas:IEEE,2016:770-778.

        [2] RADFORD A,KIM J W,HALLACY C,et al. Learning

        Transferable Visual Models from Natural Language Super

        vision[EB/ OL]. (2021-02-26)[2024-05-15]. https:∥

        arxiv. org / abs / 2103. 00020.

        [3] GIRSHICK R. Fast RCNN[C]∥Proceedings of the 2015

        IEEE International Conference on Computer Vision. San

        tiago:IEEE,2015:1440-1448.

        [4] VASWANI A,SHAZEER N,PARMAR N,et al.

        Attentionis Is All You Need[C]∥Proceedings of the 31st

        International Conference on Neural Information Processing

        Systems (NIPS’17). New York:ACM,2017:6000-6010.

        [5] OpenAI. GPT4 Technical Report [EB / OL]. (2024 - 03 -

        04)[2024-05-01]. https:∥arxiv. org / abs/ 2303. 08774.

        [6] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre

        training of Deep Bidirectional Transformers for Language

        Understanding[EB / OL]. (2018 - 10 - 11)[2024 - 03 -

        10]. https:∥arxiv. org / abs / 1810. 04805.

        [7] RAMESH A,PAVLOV M,GOH G,et al. Zeroshot Text

        toImage Generation[EB / OL]. (2021 -02 -26)[2024 -

        05-01]. https:∥arxiv. org / abs / 2102. 12092.

        [8] Gemini Team Google. Gemini 1. 5:Unlocking Multimodal

        Understanding Across Millions of Tokens of Context[EB /

        OL]. (2024 - 04 - 25)[2024 - 05 - 01]. https:∥ arxiv.

        org / abs / 2403. 05530.

        [9] CHEN Z,WU J N,WANG W H,et al. InternVL:Scaling

        up Vision Foundation Models and Aligning for Generic

        VisualLinguistic Tasks [C ] ∥ 2024 IEEE / CVF

        Conference on Computer Vision and Pattern Recognition.

        Seattle:IEEE,2024:24185-24198.

        [10] ZHONG J G,LI MING,CHEN Y L,et al. A Safer Vision

        based Autonomous Planning System for Quadrotor UAVs

        with Dynamic Obstacle Trajectory Prediction and Its Ap

        plication with LLMs[C]∥2024 IEEE / CVF Winter Con

        ference on Applications of Computer Vision. Waikoloa:

        IEEE,2024:920-929.

        [11] DE CURT? J,DE ZARZ? I,CALAFATE C T. Semantic

        Scene Understanding with Large Language Models on Un

        manned Aerial Vehicles[J]. Drones,2023,7(2):114.

        [12] DE ZARZ? I,DE CURT? J,CALAFATE C T. Socratic

        Video Understanding on Unmanned Aerial Vehicles[J].

        Procedia Computer Science,2023,225:144-154.

        [13] ZHAO H R,PAN F X,PING H Q Y,et al. Agent as Cere

        brum, Controller as Cerebellum: Implementing an

        Embodied LMMbased Agent on Drones [EB / OL ].

        (2023-11-25)[2024-05-01]. https:∥arxiv. org / abs /

        2311. 15033.

        [14] WANG W H,LV Q S,YU W M,et al. Cogvlm:Visual Ex

        pert for Pretrained Language Models[EB / OL]. (2024 -

        02 - 04 ) [2024 - 06 - 01 ]. https:∥ arxiv. org / abs /

        2311. 03079.

        [15] BAI J Z,BAI S,YANG S S,et al. QwenVL:A Frontier

        Large Visionlanguage Model with Versatile Abilities

        [EB / OL]. (2023 - 10 - 13)[2024 - 05 - 01]. https:∥

        arxiv. org / abs / 2308. 12966.

        [16] CHEN G J,YU X J,LING N W,et al. TypeFly:Flying

        Drones with Large Language Model [EB / OL]. (2023 -

        12 - 08 ) [2024 - 05 - 01 ]. https:∥ arxiv. org / abs /

        2312. 14950.

        [17] HU Y,CHEN S H,ZHANG Y,et al. Collaborative Motion

        Prediction via Neural Motion Message Passing[C]∥2020

        IEEE / CVF Conference on Computer Vision and Pattern

        Recognition. Seattle:IEEE,2020:6318-6327.

        [18] HU Y,PENG J T,LIU S F,et al. Communicationefficient

        Collaborative Perception via Information Filling with Co

        debook[C]∥2024 IEEE / CVF Conference on Computer

        Vision and Pattern Recognition. Seattle:IEEE,2024:

        15481-15490.

        [19] LU Y F,HU Y,ZHONG Y Q,et al. An Extensible Frame

        work for Open Heterogeneous Collaborative Perception

        [EB / OL]. (2024 - 04 - 01)[2024 - 05 - 01]. https:∥

        arxiv. org / abs / 2401. 13964.

        [20] LU Y F,LI Q H,LIU B A,et al. Robust Collaborative 3D

        Object Detection in Presence of Pose Errors[C]∥2023

        IEEE International Conference on Robotics and Automa

        tion. London:IEEE,2023:4812-4818.

        [21] HU Y,FANG S F,LEI Z X,et al. Where2comm:Commu

        nicationefficient Collaborative Perception via Spatial Con

        fidence Maps[EB / OL]. (2022 - 09 - 26 )[2024 - 05 -

        02]. https:∥arxiv. org / abs / 2209. 12836.

        [22] LYKOV A,KARAF S,MARTYNOV M,et al. FlockGPT:

        Guiding UAV Flocking with Linguistic Orchestration[EB /

        OL]. (2024 - 05 - 09)[2024 - 06 - 01]. https:∥ arxiv.

        org / abs / 2405. 05872.

        [23] LUO S C,YAO Y X,ZHAO H H,et al. A Language

        Modelbased Finegrained Address Resolution Framework

        in UAV Delivery System [J]. IEEE Journal of Selected

        Topics in Signal Processing,2024,18(3):529-539.

        [24] SHE R F,OUYANG Y F. Efficiency of UAVbased Last

        mile Delivery Under Congestion in Lowaltitude Air[J].

        Transportation Research Part C:Emerging Technologies,

        2021,122:102878.

        [25] THAKUR N,NAGRATH P,JAIN R,et al. Artificial Intel

        ligence Techniques in Smart Cities Surveillance Using

        UAVs:A Survey[EB / OL]. (2021 -06 -01)[2024 -03 -

        10]. https:∥link. springer. com / chapter / 10. 1007 / 978 -

        3-030-72065-0_18.

        [26] KUWERTZ A,MHLENBERG D,SANDER J,et al. Ap

        plying Knowledgebased Reasoning for Information Fusion

        in Intelligence,Surveillance,and Reconnaissance [EB /

        OL]. (2018 - 07 - 05 )[2024 - 03 - 10 ]. https:∥ link.

        springer. com / chapter / 10. 1007 / 978-3-319-90509-9_7.

        [27] MAHARANI W. Sentiment Analysis During Jakarta Flood

        for Emergency Responses and Situational Awareness in

        Disaster Management Using BERT[C]∥2020 8th Inter

        national Conference on Information and Communication

        Technology (ICoICT). Yogyakarta:IEEE,2020:1-5.

        [28] GOECKS V G,WAYTOWICH N R. DisasterResponseGPT:

        Large Language Models for Accelerated Plan of Action

        Development in Disaster Response Scenarios [EB / OL].

        (2023-06-29)[2024-05-01]. https:∥arxiv. org / abs /

        2306. 17271.

        [29] LEE M,MESICEK L,BAE K,et al. AI Advisor Platform

        for Disaster Response Based on Big Data[J]. Concurrency

        and Computation:Practice and Experience,2023,35

        (16):6215.

        [30] ASADZADEH S,DE OLIVEIRA W J,DE SOUZA F C R.

        UAVbased Remote Sensing for the Petroleum Industry

        and Environmental Monitoring:Stateoftheart and Per

        spectives[J]. Journal of Petroleum Science and Engineer

        ing,2022,208:109633.

        [31] NOVA K. AIenabled Water Management Systems:An

        Analysis of System Components and Interdependencies for

        Water Conservation[EB / OL]. [2024-05-01]. https:∥

        studies. eigenpub. com / index. php / erst / article / download /

        12 / 11 / 24.

        [32] MASHALA M J,DUBE T,MUDERERI B T,et al. A Sys

        tematic Review on Advancements in Remote Sensing for

        Assessing and Monitoring Land Use and Land Cover

        Changes Impacts on Surface Water Resources in Semiarid

        Tropical Environments [J ]. Remote Sensing,2023,15

        (16):3926.

        [33] ADUMANU K S,TAPPARELLO C,HEINZELMAN W,et

        al. Water Quality Monitoring Using Wireless Sensor Net

        works:Current Trends and Future Research Directions

        [J]. ACM Transactions on Sensor Networks (TOSN),

        2017,13(1):1-41.

        [34] STEPHENSON P J. Integrating Remote Sensing into Wild

        life Monitoring for Conservation[J]. Environmental Con

        servation,2019,46(3):181-183.

        [35] CHANEV M,DOLAPCHIEV N,KAMENOVA I,et al. Ap

        plication of Remote Sensing Methods For Monitoring Wild

        Life Populations:A Review[C]∥Ninth International Con

        ference on Remote Sensing and Geoinformation of the Envi

        ronment (RSCy2023). Ayia Napa:SPIE,2023:2681760.

        [36] SCHWARTZ S,YAELI A,SHLOMOV S. Enhancing Trust

        in LLMbased AI Automation Agents:New Considerations

        and Future Challenges [EB / OL ]. (2023 - 08 - 10 )

        [2024-05-01]. https:∥arxiv. org / pdf / 2308. 05391.

        [37] TELLI K,KRAA O,HIMEUR Y,et al. A Comprehensive

        Review of Recent Research Trends on Unmanned Aerial

        Vehicles (UAVs)[J]. Systems,2023,11(8):400.

        [38] DE CURT? J,DE ZARZA I,CALAFATE C T. Semantic

        Scene Understanding with Large Language Models on Un

        manned Aerial Vehicles[J]. Drones,2023,7(2):114.

        [39] MISHRA S,PALANISAMY P. Autonomous Advanced

        Aerial Mobility—An EndtoEnd Autonomy Framework

        for UAVs and Beyond [J ]. IEEE Access,2023,11:

        136318-136349.

        [40] ULLAH A,QI G,HUSSAIN S,et al. The Role of LLMs in

        Sustainable Smart Cities:Applications,Challenges,and

        Future Directions[EB / OL]. (2024-02-07)[2024-05-

        01]. https:∥arxiv. org / abs / 2402. 14596.

        [41] WAN L J,HUANG Y B,LI Y H,et al. Software / Hardware

        Codesign for LLM and Its Application for Design Verifi

        cation[C]∥ 2024 29th Asia and South Pacific Design

        Automation Conference (ASPDAC ). Incheon:IEEE,

        2024:435-441.

        [42] YANG J F,JIN H Y,TANG R X,et al. Harnessing The

        Power of LLMs In Practice:A Survey on ChatGPT and

        Beyond[EB / OL]. (2023 - 04 - 26 ) [2024 - 05 - 01 ].

        https:∥arxiv. org / abs / 2304. 13712.

        [43] JAVAID S,SAEED N,QADIR Z,et al. Communication

        and Control in Collaborative UAVs:Recent Advances and

        Future Trends [J ]. IEEE Transactions on Intelligent

        Transportation Systems,2023,24(6):5719-5739.

        [44] MA X Y,FANG G F,WANG X C. LLMpruner:On the

        Structural Pruning of Large Language Models [J ].

        Advances in Neural Information Processing Systems,

        2023,36:21702-21720.

        [45] RONG B,RUTAGEMWA H. Leveraging Large Language

        Models for Intelligent Control of 6G Integrated TNNTN

        with IoT Service [J ]. IEEE Network,2024,38 (4 ):

        136-142.

        [46] HASSAN S S,PARK Y M,TUN Y K,et al. Satellitebased

        ITS Data Offloading & Computation in 6G Networks:A

        Cooperative Multiagent Proximal Policy Optimization

        DRL with Attention Approach[J]. IEEE Transactions on

        Mobile Computing,2023,23(5):4956-4974.

        [47] CHEN Q,GUO Z,MENG W X,et al. A Survey on

        Resource Management in Joint Communication and Com

        putingembedded SAGIN [EB / OL ]. (2024 - 05 - 14 )

        [2024-05-01]. https:∥arxiv. org / html / 2403. 17400v2.

        [48] YAO Y F,DUAN J H,XU K D,et al. A Survey on Large

        Language Model (LLM)Security and Privacy:The Good,

        the Bad,and the Ugly[J]. HighConfidence Computing,

        2024,4(2):100211.

        [49] WU F Z,ZHANG N,JHA S,et al. A New Era in LLM Se

        curity:Exploring Security Concerns in Realworld LLM

        based Systems[EB / OL]. (2024 - 02 - 28)[2024 - 05 -

        01]. https:∥arxiv. org / abs / 2402. 18649.

        [50] PIGGOTT B,PATIL S,FENG G H,et al. NetGPT:A LLM

        empowered Maninthemiddle Chatbot for Unmanned Aerial

        Vehicle[C]∥2023 IEEE / ACM Symposium on Edge Com

        puting (SEC). Wilmington:IEEE,2023:287-293.

        [51] 羅錦釗,孫玉龍,錢增志,等. 人工智能大模型綜述及

        展望[J]. 無線電工程,2023,53(11):2461-2472.

        [52] 趙林,張宇飛,姚明C,等. 無人機集群協(xié)同技術發(fā)展

        與展望[J]. 無線電工程,2021,51(8):823-828.

        作者簡介

        劉暢行 男,(2002—),博士研究生。主要研究方向:自主無人系統(tǒng)、具身智能。

        陳思衡 男,(1989—),博士,副教授。主要研究方向:自主無人系統(tǒng)、協(xié)同感知。

        楊 峰 男,(1978—),博士,研究員。主要研究方向:無線通信、人工智能。

        猜你喜歡
        人機交互
        某型柴油機虛擬維修系統(tǒng)研究
        基于虛擬現(xiàn)實技術的九江城市交通事故模擬系統(tǒng)設計
        人機交互課程創(chuàng)新實驗
        計算機教育(2016年7期)2016-11-10 09:01:27
        人形交互式服務機器人研究現(xiàn)狀及發(fā)展趨勢
        基于任務規(guī)劃的家庭仿真服務機器人的研究
        多點噪聲遠程自動采集系統(tǒng)設計
        基于智能手機的盲人語言應用軟件的設計與開發(fā)
        基于Intel Realsense技術的感知展示系統(tǒng)的設計與開發(fā)
        一種靜態(tài)手勢數(shù)字識別的實現(xiàn)及應用
        圖像處理耦合模板定位的答題卡識別研究與應用
        日本女优中文字幕亚洲| 91制服丝袜| 一区在线播放| 日本国产一区在线观看| 放荡的美妇在线播放| 亚洲精品无码久久久久秋霞| 一级片麻豆| 久久综合久中文字幕青草| 国产黄色av一区二区三区| 成人免费无码大片a毛片软件| 午夜性刺激免费视频| 最新国产av网址大全| 亚洲中文字幕人妻久久| 日本公与熄乱理在线播放| 99热最新在线观看| 人妻少妇偷人精品久久人妻| 日出白浆视频在线播放| 手机看片福利一区二区三区| 亚洲国产成人手机在线观看| av免费网站不卡观看| 欧洲美熟女乱av亚洲一区| 国产成人无码一区二区在线观看| av深夜福利在线| 亚洲av男人的天堂在线| 人妻精品久久久久中文字幕| 亚洲精品久久久久久| 亚洲va成无码人在线观看| 日本一区二区免费高清| 伊人久久大香线蕉av不卡| 99er视频| 亚洲精品女同在线观看| 国产av无码专区亚洲a∨毛片 | 一区二区久久不射av| 一本色道久久综合亚洲精品不| 久久久久人妻精品一区三寸| 玖玖资源站无码专区| 久久精品国产亚洲av高清蜜臀| 中文字幕亚洲熟女av| 国产影片中文字幕| 红杏性无码免费专区| 国产一区二区黄色的网站|