中國科學院自動化研究所紫東太初多模態(tài)中心常務副主任,研究員,博士生導師,武漢人工智能研究院院長,中國科學院大學人工智能學院崗位教授,多模態(tài)人工智能產業(yè)聯(lián)盟秘書長。 主要從事多模態(tài)大模型、視頻分析與檢索和大規(guī)模目標識別等方面的研究。 發(fā)表包括IEEE 國際權威期刊和頂級會議論文300 余篇。 完成國家標準提案3 項,發(fā)明專利36 項,國際視覺算法競賽冠軍10 項。 獲北京市科技進步一等獎,吳文俊人工智能科技進步二等獎,中國發(fā)明創(chuàng)新銀獎。
內容導讀
隨著AI 與計算機視覺技術的發(fā)展,基于深度神經網(wǎng)絡的視覺識別在智能交通、遙感測繪、醫(yī)療健康以及安防監(jiān)控等場景下取得了廣泛的應用,極大地促進了各行各業(yè)的轉型升級和迭代創(chuàng)新。 然而,現(xiàn)實世界是一個未經結構化梳理的、長尾分布的、開放類別的復雜場景。 在這樣的視覺環(huán)境下,如何設計視覺感知與理解算法解決AI 落地中的長尾、噪聲、災難遺忘、場景泛化和無監(jiān)督語義發(fā)現(xiàn)等問題,實現(xiàn)視覺技術從“可用”到“好用”,是一個非常具有挑戰(zhàn)的課題。
當前,以云計算、大數(shù)據(jù)、區(qū)塊鏈和AI 等為代表的新一代信息技術蓬勃發(fā)展和廣泛滲透,為發(fā)展開放環(huán)境下的視覺感知與理解技術帶來了難得的機遇。 在此背景下,學術界和工業(yè)界的研究人員為了解決下一代智能視覺系統(tǒng)中的一些關鍵問題,研究開放環(huán)境下的視覺智能感知與理解的新理論、新方法和新技術,不斷增強視覺智能感知與理解能力,使其能夠靈活響應不同的任務需求,為實現(xiàn)全天候、全天時、全地域快速信息分析理解提供方法支撐。
為集中展現(xiàn)開放環(huán)境下的視覺感知與理解領域的最新研究成果,《無線電工程》2023 年第3 期推出“開放環(huán)境下的視覺感知與理解”專題。 專題采用公開征稿的方式組織稿件,在所有通過專家評審的稿件中,最終確定錄用稿件7 篇。 專題主要展示了文本檢索、超分網(wǎng)絡加速、紅外與可見光單應性估計、路面質量分析、銷量預測、目標檢測和人體姿態(tài)估計等領域的研究成果。
在文本檢索方面,李巖等針對某些場景中文本時常呈現(xiàn)彎曲、壓縮和拉伸等不規(guī)則形態(tài),文本區(qū)域提取與匹配面臨極大挑戰(zhàn)的問題,提出了一個端到端的網(wǎng)絡模型,將不規(guī)則文本提取和跨模態(tài)相似度學習統(tǒng)一到一個框架內,利用學習到的相似度對檢測的文本實例排序,從而實現(xiàn)對不規(guī)則文本的檢索。
在超分網(wǎng)絡加速方面,劉智軒等針對基于分治策略的圖像超分加速問題,提出了基于像素級分治策略的超分網(wǎng)絡加速方法,為不同像素所對應區(qū)域分配不同規(guī)模的計算量來實現(xiàn)超分過程,實現(xiàn)了更加高效的超分加速策略。 同時,提出了一個聯(lián)合困難像素挖掘的重建損失函數(shù),使網(wǎng)絡在重建超分辨率圖像的同時,通過無監(jiān)督自適應的學習預測出每個像素的超分難易程度,用于為每個像素點所在位置的超分分配更加合理的計算量。
在紅外與可見光單應性估計等方面,羅銀輝等針對紅外與可見光圖像灰度差異較大、配準精度低等問題,提出了一種基于生成對抗網(wǎng)絡的紅外與可見光圖像單應性估計方法,利用淺層特征提取網(wǎng)絡提取紅外與可見光圖像的精細特征;將精細特征進行通道級聯(lián)輸入到生成器中,以預測得出單應性矩陣;對單應性矩陣變換后的扭曲圖像提取精細特征,送入判別器進行判斷,從而建立一個對抗博弈過程。
在路面質量分析方面,孫玉龍等針對全自動化路面質量評估和分析的實際場景需求,提出了基于大型卷積核模型和自監(jiān)督預訓練的路面質量分析方法,采用基于重參數(shù)化大型卷積核的U 型網(wǎng)絡結構,實現(xiàn)像素級別的高精度路面病害識別,并采集了一個大型的路面病害分割數(shù)據(jù)集。
在銷量預測方面,劉雁兵等針對零售終端卷煙營銷的實際場景需求,提出了基于卷煙陳列識別和品牌文本表示的銷量預測方法。 在樣本選擇階段,建立零售終端運行質量評估體系,實現(xiàn)高質量樣本點篩選。
在目標檢測方面,武德彬等針對SSD 單階段目標檢測算法未充分利用不同特征層之間的語義關系以及獲取語義信息和位置信息能力不夠好的問題,提出了一種多注意力單階段目標檢測改進算法,采用并行殘差多尺度特征提取網(wǎng)絡增強淺層特征層的語義信息和中間層的上下文信息,使用雙重注意力機制加強對關鍵信息的學習,提高各特征層對語義信息和空間位置信息的獲取能力。
在人體姿態(tài)估計方面,周偉等面向無約束場景的人體姿態(tài)估計任務中無規(guī)則變化的人物服飾、復雜場景和高靈活度的姿態(tài)等因素導致樣本分布極其復雜的問題,提出了在回歸網(wǎng)絡中通過度量學習方法來優(yōu)化高層特征對人體姿態(tài)的判別性。 同時,為了更好地在人體姿態(tài)估計的框架下建模該判別學習任務,進一步提出了基于點特征優(yōu)化的局部樣本關系模塊。 該方法可對樣本間的相似度進行更合理的建模,從而有效地輔助度量學習優(yōu)化人體姿態(tài)估計算法的性能和泛化能力。
綜上所述,專題所收錄的這7 篇論文,分別針對特定的研究問題,從不同視角,使用不同方法研究了開放環(huán)境下的視覺感知與理解問題,得到了有意義的研究結論,能夠提供較好的參考作用。 當然,視覺識別所涵蓋的子領域非常多,這些論文也不能窮盡所有的方面,希望通過這些論文的刊出,讓更多的專家學者和研究人員關注該領域的發(fā)展,從而促進產生更多的研究成果。
最后,感謝參與稿件評審的各位專家學者的辛勤工作,感謝《無線電工程》編輯部各位老師的大力支持,衷心希望專題的出版能夠對視覺識別的研究起到有益的作用。