摘要:人工智能技術(shù)的快速發(fā)展為新能源汽車智能座艙多模態(tài)交互帶來了新的機遇?;贏I大模型,針對智能座艙多模態(tài)信息的高效處理與融合問題展開研究。提出一種多模態(tài)信息采集與大模型處理一體化的系統(tǒng)架構(gòu),并對語音、視覺、手勢等多種交互模式進行了分類,在此基礎(chǔ)上,重點探討了語音-視覺協(xié)同處理、手勢-語音融合識別等多模態(tài)融合算法,給出了多模態(tài)特征提取流程。進一步地,從實時性、準(zhǔn)確性、魯棒性等角度對智能座艙交互系統(tǒng)進行了優(yōu)化和應(yīng)用適配。研究表明,采用AI大模型進行多模態(tài)融合可顯著提升智能座艙的人機交互體驗,實現(xiàn)更加自然、高效、準(zhǔn)確的人車交互。
關(guān)鍵詞:AI大模型;新能源汽車;智能座艙;多模態(tài)交互;深度學(xué)習(xí)
中圖分類號:U469.7" 收稿日期:2024-12-17
DOI:1019999/jcnki1004-0226202502014
1 前言
隨著新能源汽車產(chǎn)業(yè)的蓬勃發(fā)展,以及消費者對車載交互體驗的日益重視,智能座艙已經(jīng)成為新能源汽車的核心競爭力之一。通過多模態(tài)交互技術(shù),智能座艙可以實現(xiàn)語音控制、手勢識別、人臉識別等多種人機交互功能,極大地提升駕乘體驗,然而,由于車內(nèi)環(huán)境的復(fù)雜多變性,以及多模態(tài)信息的異構(gòu)性,傳統(tǒng)的人機交互方法在智能座艙應(yīng)用中面臨諸多挑戰(zhàn)。以深度學(xué)習(xí)為代表的人工智能技術(shù)取得了突破性進展,其中,大規(guī)模預(yù)訓(xùn)練語言模型(如BERT、GPT-3等)展現(xiàn)出了強大的語義理解和知識泛化能力,為多模態(tài)交互領(lǐng)域帶來了全新的研究視角。本文擬探討如何將AI大模型應(yīng)用于新能源汽車智能座艙多模態(tài)交互,構(gòu)建更加高效、自然、智能化的人車交互系統(tǒng),為智能汽車發(fā)展提供新的思路。
2 智能座艙多模態(tài)交互系統(tǒng)架構(gòu)
2.1 多模態(tài)信息采集框架
多模態(tài)信息采集框架包含一系列異構(gòu)傳感器,如麥克風(fēng)陣列(語音)、RGB攝像頭(視覺)、紅外攝像頭(手勢)、觸控屏(觸覺)等,可以全方位地感知駕乘人員的行為狀態(tài),各類傳感器采集的多模態(tài)信息通過車載以太網(wǎng)匯聚到中央控制器,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理和調(diào)度。與分布式架構(gòu)相比,該集中式采集框架可以顯著提升系統(tǒng)響應(yīng)速度和資源利用率。
2.2 AI大模型處理機制
在中央控制器中,搭載了基于AI大模型的多模態(tài)交互引擎,對多源異構(gòu)的感知數(shù)據(jù)進行聯(lián)合建模和深度理解。首先利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型對圖像、視頻等數(shù)據(jù)進行特征提取,然后通過大規(guī)模預(yù)訓(xùn)練語言模型(如BERT)對語音、文本等數(shù)據(jù)進行語義編碼,再通過自注意力機制實現(xiàn)不同模態(tài)特征的融合,與傳統(tǒng)的淺層多模態(tài)融合方法相比,該機制充分挖掘了模態(tài)內(nèi)和模態(tài)間的語義關(guān)聯(lián),大幅提升了多模態(tài)理解的精度[1]。
2.3 交互模式分類
基于多模態(tài)融合引擎,本文將智能座艙交互劃分為以下三種主要模式:a語音交互:駕乘人員通過語音指令控制車內(nèi)功能,如導(dǎo)航、空調(diào)、音樂等,系統(tǒng)通過語音合成技術(shù)提供反饋,該模式自然便捷,是智能座艙的基本交互方式。b視覺交互:通過面部表情識別、注視點跟蹤等視覺分析技術(shù),捕捉駕乘人員的意圖和情緒變化,從而提供個性化的信息推薦和服務(wù)。c手勢交互:通過手勢識別技術(shù),實現(xiàn)非接觸式控制,如調(diào)節(jié)車窗、天窗等,該模式可以降低肢體殘障人士的駕駛難度[2]。
3 多模態(tài)融合算法
3.1 語音-視覺協(xié)同處理
為解決復(fù)雜環(huán)境下語音識別的準(zhǔn)確度問題,本文提出了一種語音-視覺協(xié)同處理算法,首先利用唇語識別技術(shù),通過高速攝像機捕捉駕駛員的唇部運動序列,再使用3D CNN模型提取唇語的時空特征,包括唇形、口型變化等信息,同時,采用基于注意力機制的聲紋識別模型,對麥克風(fēng)采集到的語音信號進行特征提取,得到語音的身份特征,反映說話人的個體特征。
將唇語特征和語音特征輸入到協(xié)同注意力網(wǎng)絡(luò)中進行融合,該網(wǎng)絡(luò)包含多層交互式注意力模塊,通過Q、K、V計算實現(xiàn)跨模態(tài)特征的交互,自適應(yīng)地調(diào)整兩類特征的權(quán)重分配,使其能夠相互借鑒、補足,融合后的多模態(tài)特征再通過一個分類器,實現(xiàn)對喚醒詞和語音指令的識別。
實驗結(jié)果表明,該語音-視覺協(xié)同處理算法能夠顯著提升復(fù)雜場景下的喚醒詞識別和語音指令分類的準(zhǔn)確率,尤其在汽車噪聲、背景音樂等干擾較大的環(huán)境中,相比傳統(tǒng)單模態(tài)方法可提高15%以上,展現(xiàn)出很好的環(huán)境魯棒性。該算法對駕駛員的口音、音色等變化也有較強的適應(yīng)能力,可用于個性化的車載語音交互系統(tǒng)[3]。
3.2 手勢-語音融合識別
針對手勢識別易受光照、遮擋等因素干擾的問題,本文提出了手勢-語音融合識別算法,首先通過紅外攝像頭采集手勢圖像,利用手部關(guān)鍵點檢測算法定位21個手部關(guān)節(jié)點。然后將關(guān)節(jié)點坐標(biāo)序列輸入到3D ResNet中提取手勢的時空特征,捕捉手勢在空間結(jié)構(gòu)和時間變化上的discriminative patterns。通過車載麥克風(fēng)陣列采集語音信號,采用conformer模型對語音進行建模,conformer是一種結(jié)合CNN和transformer的語音識別模型,利用卷積模塊建模局部信息,通過self-attention學(xué)習(xí)全局上下文語義。
在語音識別任務(wù)上取得SOTA效果,通過該模型提取語音的上下文相關(guān)性特征,在手勢-語音融合階段,首先對兩種特征在時間步上進行對齊,然后利用多頭注意力機制實現(xiàn)cross-modal交互,并行地計算手勢特征為query、語音特征為key和value的注意力分布,同時計算語音特征為query、手勢特征為key和value的分布。
實現(xiàn)兩個方向的跨模態(tài)語義融合,融合后的特征通過一個輕量級的分類器,實現(xiàn)對10類車載手勢的識別,實驗結(jié)果表明,與單獨使用RGB攝像頭的方法相比,引入紅外通道可提升手勢識別在弱光環(huán)境下的準(zhǔn)確率。與單模態(tài)方法相比,手勢-語音融合算法可顯著提升車載手勢的平均識別率8%以上,在遮擋、大尺度變化等情況下的魯棒性也有明顯改善,同時,所采用的融合策略相比特征級拼接,可以更充分地挖掘兩種模態(tài)信息的互補性[4]。
3.3 多模態(tài)特征提取
為進一步增強模態(tài)間的語義關(guān)聯(lián),本文構(gòu)建了一種通用的多模態(tài)預(yù)訓(xùn)練模型MM-Bert,模型采用transformer的encoder-decoder結(jié)構(gòu),其中encoder端包含三個獨立的self-attention塊,分別用于建模語音、視覺、文本特征。在每個模態(tài)的embedding層和transformer層引入對齊損失,并基于不同模態(tài)在token級別、隱藏層狀態(tài)、注意力分布等方面保持一致性,從而實現(xiàn)模態(tài)間的特征對齊。
在decoder端,采用類似GPT的因果語言建模方式,通過掩碼自注意力機制和前饋網(wǎng)絡(luò),實現(xiàn)對跨模態(tài)語義映射的自回歸學(xué)習(xí),模型以文本作為輸入和輸出,中間通過cross attention與各模態(tài)的encoder輸出交互,實現(xiàn)不同模態(tài)信息向文本域的遷移和融合。采用大規(guī)模多模態(tài)語料對模型進行預(yù)訓(xùn)練,使其掌握語音、視覺、文本信息的統(tǒng)一語義表示。在智能座艙領(lǐng)域構(gòu)建了問答、對話、推薦等下游任務(wù)數(shù)據(jù)集,并在此基礎(chǔ)上對模型進行微調(diào)。
實驗結(jié)果表明,MM-Bert相比單模態(tài)預(yù)訓(xùn)練模型如BERT、wav2vec等,可取得10%以上的性能提升,充分體現(xiàn)了多模態(tài)協(xié)同學(xué)習(xí)的優(yōu)勢。此外,還開展大量的可解釋性分析,發(fā)現(xiàn)MM-Bert能夠自動學(xué)習(xí)不同模態(tài)間的重要語義關(guān)聯(lián),如語音-文本的語義對齊、視覺-文本的區(qū)域詞匯對應(yīng)等。這些知識可顯著促進下游任務(wù)性能的提升,后續(xù)將探索更大規(guī)模的多模態(tài)預(yù)訓(xùn)練,如引入更多模態(tài)類型、采用更深的網(wǎng)絡(luò)結(jié)構(gòu)等,進一步提升模型的泛化和適應(yīng)能力,用于指導(dǎo)智能座艙交互系統(tǒng)的設(shè)計[5]。
4 交互系統(tǒng)優(yōu)化與應(yīng)用
4.1 實時性能優(yōu)化
智能座艙對交互響應(yīng)的實時性要求較高,需在有限算力下實現(xiàn)模型推理加速??刹捎脙呻A段的模型壓縮方法:在離線階段,通過知識蒸餾將大模型的知識遷移到小模型,選擇性保留關(guān)鍵特征,知識蒸餾可看作教師模型到學(xué)生模型的知識提煉過程,通過最小化二者軟化后輸出的KL散度,使學(xué)生模型以更小的參數(shù)量實現(xiàn)與大模型相近的性能。在線階段,可進一步通過模型量化、剪枝等方式壓縮模型體積,比如采用8-bit定點數(shù)取代32-bit浮點數(shù)表示,可大幅降低模型存儲空間;采用基于稀疏度的filter剪枝,可去除大量貢獻(xiàn)較小的卷積核,降低計算開銷,同時,還可使用tensor-RT、NCNN等加速庫對模型進行推理優(yōu)化,通過kernel融合、op細(xì)化、顯存優(yōu)化等進一步提速。
例如,某智能座艙語音助手采用conformer模型,為實現(xiàn)端側(cè)實時推理,首先通過專門設(shè)計的蒸餾損失函數(shù),將345M的教師模型知識遷移到一個18M的學(xué)生模型中,蒸餾后語音識別準(zhǔn)確率降低不超過1%,在此基礎(chǔ)上,采用8-bit整數(shù)量化表示,將模型體積壓縮到原來的1/4。在推理階段采用tensor-RT的FP16計算和kernel自動調(diào)優(yōu),以及batch size動態(tài)調(diào)整等方式,將平均響應(yīng)時延從12 s降到300 ms以內(nèi),實測表明,整套模型壓縮和加速方案在性能損失很小的情況下,可將響應(yīng)延遲降低至原來的1/4左右,滿足了實時語音交互的苛刻要求。
4.2 交互準(zhǔn)確度提升
智能座艙對交互的準(zhǔn)確度要求很高,而車內(nèi)噪聲、口音等因素會給語音、視覺等模態(tài)的感知和理解帶來較大干擾。為提升交互準(zhǔn)確度,可針對性地構(gòu)建車載場景的大規(guī)模數(shù)據(jù)集,采集覆蓋多種噪聲、方言、角度光照的語音、圖像數(shù)據(jù),通過數(shù)據(jù)增強擴充樣本多樣性,并在這些數(shù)據(jù)上對模型進行微調(diào),從數(shù)據(jù)和模型角度增強系統(tǒng)魯棒性;可利用多模態(tài)信息的互補性,研究跨模態(tài)的語義融合、對齊方法,以語音-視覺為例;可將面部特征作為輔助信息融入聲學(xué)模型中,實現(xiàn)唇語校準(zhǔn);也可利用文本將語音和圖像語義對齊,實現(xiàn)語義層面的信息互補,此外,在決策層面可利用貝葉斯理論,對不同模態(tài)的識別結(jié)果進行聯(lián)合判決,得到更可靠的結(jié)果。
例如,某智能座艙交互系統(tǒng)為提升語音喚醒的準(zhǔn)確率,專門收集了1 000 h車內(nèi)自發(fā)語音,覆蓋高速、停車、交談等典型場景,并通過添加汽車噪聲、混響、口音等方式進行數(shù)據(jù)增強,獲得5 000 h數(shù)據(jù)。利用對比學(xué)習(xí)算法在該數(shù)據(jù)集上預(yù)訓(xùn)練聲學(xué)模型,然后在喚醒詞數(shù)據(jù)上微調(diào),可將平均喚醒率從92%提升到97%以上,進一步地,該系統(tǒng)在喚醒階段融合了面部特征,通過判斷嘴唇運動是否與喚醒詞匹配來輔助判決,將誤喚醒率降低40%。還引入了遷移學(xué)習(xí)和自適應(yīng)學(xué)習(xí)機制,讓模型能根據(jù)新用戶的聲紋在線調(diào)優(yōu),并且對當(dāng)前環(huán)境噪聲進行自適應(yīng),實現(xiàn)更個性化、更魯棒的語音交互。
4.3 場景適應(yīng)性研究
為增強智能座艙交互系統(tǒng)的環(huán)境適應(yīng)性,需要深入理解和建模不同駕駛場景的特點,不同場景下,駕駛員的行為習(xí)慣、交互意圖差異較大,環(huán)境噪聲、光照變化劇烈。因此需捕獲場景特征,實現(xiàn)情景感知交互。一種思路是通過多傳感器數(shù)據(jù)融合,構(gòu)建場景理解模型,采集車內(nèi)外環(huán)境的視頻、音頻、車速、位置等多維語境數(shù)據(jù),通過時空特征學(xué)習(xí)獲得場景embedding。之后將場景embeddings作為context送入交互模型中,引導(dǎo)intent understanding、槽位填充等任務(wù),實現(xiàn)場景自適應(yīng)。同時,還可利用增量學(xué)習(xí)和持續(xù)學(xué)習(xí)范式,使模型能根據(jù)駕駛員的交互日志數(shù)據(jù)不斷finetune,從而對個人習(xí)慣和偏好形成更準(zhǔn)確的刻畫。也可利用car-cloud協(xié)同的計算架構(gòu),通過邊-云協(xié)同進行模型的在線調(diào)優(yōu)和知識進化。
例如,某車企為提升語音助手的適應(yīng)性,在車端部署了輕量級的語音意圖理解模型,并在云端存儲了海量用戶交互日志大模型,系統(tǒng)每天定期將車端數(shù)據(jù)上傳云端,用于更新云端大模型。同時車端模型也定期從云端拉取新的checkpoint,實現(xiàn)增量學(xué)習(xí),此外,該系統(tǒng)還引入了場景理解模塊,通過車內(nèi)視頻、音頻、車況數(shù)據(jù)學(xué)習(xí)駕駛場景表征,供語音助手提供場景化服務(wù),比如在導(dǎo)航場景下,用戶習(xí)慣使用“前面/再過兩個路口”等指代性指令。而在泊車場景下,則傾向于使用“車位有空嗎”“旁邊車離我太近了”等描述性指令,語音助手通過場景感知,對這些不同風(fēng)格的查詢進行自適應(yīng)理解,并給出符合場景的回復(fù)。實車評測表明,該方案可將場景相關(guān)query的意圖識別準(zhǔn)確率提升8%,交互自然度顯著提升。
5 結(jié)語
本文面向新能源汽車智能座艙,探索了融合AI大模型的多模態(tài)交互技術(shù),通過集中式的系統(tǒng)架構(gòu)設(shè)計、跨模態(tài)的語義融合建模、面向場景的自適應(yīng)優(yōu)化,構(gòu)建了高效、準(zhǔn)確、多樣的人車交互范式。隨著自動駕駛技術(shù)的逐步成熟,智能座艙將承載更多的信息娛樂和移動辦公功能,對多模態(tài)交互提出更高要求,下一步將聚焦駕駛行為理解、情感計算、虛擬助手等前沿方向,并研究車路云一體化的群智感控新模式,推動智能汽車與智慧交通的協(xié)同發(fā)展,為人車路云高效協(xié)同、智能出行帶來更大想象空間。
參考文獻(xiàn):
[1]穆廷相新能源汽車智能座艙域控制器技術(shù)創(chuàng)新與發(fā)展趨勢[J]汽車知識,2024,24(12):43-46
[2]黃若晴,王榮慶汽車智能座艙多模態(tài)人機交互設(shè)計研究綜述[J]時代汽車,2024(23):133-135
[3]葉偉我國汽車智能座艙呈現(xiàn)三大特點[N]中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報,2024-11-04(11)
[4]耿展,肖飛云,馬巖樞基于駕駛安全需求的汽車智能座艙系統(tǒng)技術(shù)發(fā)展現(xiàn)狀及未來趨勢探究[J]汽車實用技術(shù),2024,49(20):33-38
[5]鄧建明,龔循飛,于勤,等基于AI大模型的新能源汽車智能座艙多模態(tài)交互技術(shù)研究綜述[J]汽車文摘2019(2):1-6
作者簡介:
傅平,女,1982年生,高級工程師,研究方向為汽車智能座艙技術(shù)研發(fā)。