視覺可供性研究綜述

2022-09-21 05:37:26李云龍卿粼波韓龍玫王昱晨

計算機(jī)工程與應(yīng)用 2022年18期

李云龍，卿粼波，韓龍玫，王昱晨

1.四川大學(xué) 電子信息學(xué)院，成都610065

2.成都市規(guī)劃設(shè)計研究院，成都610041

可供性這一概念由生態(tài)心理學(xué)家Gibson在1966年[1]首次提出，他在1979 年[2]將可供性定義為“The affordances of the environment are what it offers the animal，what it provides or furnishes，either for good or ill.The word affordance implies the complementarity of the animal and the environment.”即環(huán)境的可供性描述其可為動物行為活動提供的或正向或負(fù)向的支持，反映動物與環(huán)境之間的互補性。Norman[3]將可供性進(jìn)一步解釋為“決定如何使用該事物的基本屬性”，其認(rèn)為可供性為暗示事物的相關(guān)操作提供了充分的線索。比如，旋鈕可以旋擰，按鈕可以按下以及球可以投擲或拍打等。

可供性理論一經(jīng)提出即受到了廣泛關(guān)注，相繼被引入環(huán)境心理學(xué)[4-5]、城市規(guī)劃[6]等相關(guān)領(lǐng)域，開展結(jié)合可供性基礎(chǔ)理論的研究。近年來，隨著視覺數(shù)據(jù)逐漸增加，利用計算機(jī)視覺直觀地研究可供性漸成趨勢。Gibson認(rèn)為計算機(jī)視覺中應(yīng)該注重物與人的交互，而不是單純地對物體進(jìn)行識別?；诖?，大量學(xué)者和機(jī)構(gòu)開始關(guān)注物體與個人的交互，利用計算機(jī)視覺領(lǐng)域的技術(shù)識別物體的視覺可供性。視覺可供性一方面可以推進(jìn)機(jī)器人領(lǐng)域的發(fā)展，促進(jìn)機(jī)器人實現(xiàn)自我控制并完成與人或目標(biāo)之間的進(jìn)一步交互。另一方面，對計算機(jī)視覺領(lǐng)域而言，視覺可供性的引入可以打破傳統(tǒng)物體檢測任務(wù)中的桎梏，利用物體的屬性進(jìn)一步挖掘其潛在的各類可供性，為物體提供新的使用思路與應(yīng)用場景。

早期的視覺可供性研究基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法，而隨著深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)[7]（convolutional neural networks，CNN）、條件隨機(jī)場[8]（conditional random field，CRF）等各類神經(jīng)網(wǎng)絡(luò)在視覺可供性研究中得到越來越多的應(yīng)用。伴隨傳統(tǒng)機(jī)器學(xué)習(xí)的不斷改進(jìn)和深度學(xué)習(xí)的不斷深入，能夠識別的范圍也從簡單的目標(biāo)識別擴(kuò)展到對于行為以及物體之間關(guān)系的識別研究，在識別的精度上也有大幅的提升。

1 視覺可供性概述

視覺可供性的分類方式很多，本文與目前已有的綜述[9-12]不同的是首次對于可供性不同分類進(jìn)行定義，并分別總結(jié)檢測方法。本文根據(jù)識別方法的不同，將可供性分為功能可供性、行為可供性、社交可供性三大類：

（1）功能可供性是基于物體自身性質(zhì)判斷的可供性。例如利用物體的外形材質(zhì)判斷。

（2）行為可供性是基于物體的使用方法判斷的可供性。例如利用人或機(jī)器人使用物體的行為判斷。

（3）社交可供性是基于目標(biāo)間關(guān)系判斷的可供性。例如利用環(huán)境各要素之間或個體之間的關(guān)系判斷。

圖1展示了可供性的分類關(guān)系。

圖1 視覺可供性分類Fig.1 Visual affordances classification

1.1 功能可供性

視覺可供性最基礎(chǔ)的類別為功能可供性，即通過識別物體的外形、形狀、材質(zhì)等判斷物體的可供性。

功能可供性關(guān)注物體的自身屬性，可以根據(jù)判斷方式將其分為顯性功能可供性和隱性功能可供性。顯性功能可供性即可以通過物體某一自身屬性直接推測的功能可供性，而隱性功能可供性則需要在獲取物體自身屬性的基礎(chǔ)之上，結(jié)合已有的先驗知識判斷對于該物體而言并不常見的功能可供性。

1.1.1 顯性功能可供性

顯性功能可供性通過物體的單個性質(zhì)或形狀等直接判斷?；陲@性可供性的性質(zhì)，大多研究人員將視覺顯性可供性判斷任務(wù)同等化為目標(biāo)檢測任務(wù)，使用方法與目標(biāo)檢測任務(wù)的方法相同，包含且不僅限于KNN、CNN、集成的ResNet或Yolo[13]等框架。例如，Ye將可供性理解為目標(biāo)檢測問題，研究了認(rèn)知機(jī)器人的場景功能理解問題，實現(xiàn)對室內(nèi)場景中可供性區(qū)域的高效識別[14]，（如圖2所示）“抓”作為可供性意為可以被抓取，圖2展示了圖片中檢測出存在“抓”這類可供性的區(qū)域。

圖2 場景中“抓”的顯性可供性檢測Fig.2 Affordance detection for“grasp”in pictures

1.1.2 隱性功能可供性

隱性功能可供性需要通過已知的可供性與物體的性質(zhì)推斷。例如，石頭自身具有可以抓取的可供性，如果進(jìn)一步判斷其有質(zhì)地堅硬、尺寸合適的物理屬性，即可推斷出該石頭具備與工具錘子類似的敲擊能力，具有“敲打”這個可供性。這些潛在的可供性都不易直接通過物體的特性判斷，而是需要結(jié)合先驗知識推斷。SchoelerM等人[15]成功推斷某工具可能存在的另一種用法，如圖3，用石頭代替錘子或用頭盔代替水杯等。

圖3 隱性功能可供性的推斷Fig.3 Recessive affordance inference

1.2 行為可供性

行為可供性不直接從物體的物理屬性中推斷，而是需要結(jié)合圖像中人類或自身的行為，即使用者的行為進(jìn)一步進(jìn)行推理。例如一扇無把手的門，其物理屬性可以描述為“一塊平整的豎立放置的木板”，難以直接推斷出其具備的可供性。而如果結(jié)合人推門這一連續(xù)的行為動作，則可以直觀地判斷其具有“推”的可供性?，F(xiàn)有的行為可供性分析方法主要通過學(xué)習(xí)包含人物交互的行為圖像或視頻，預(yù)測物體所支持的人類活動，進(jìn)而分析物體的可供性。早期Fitzpatrick等人[16]提出機(jī)器人不應(yīng)該是只對外部刺激產(chǎn)生反應(yīng)的系統(tǒng)，而應(yīng)該探索和理解環(huán)境。通過學(xué)習(xí)人類的行為學(xué)習(xí)與物體互動應(yīng)當(dāng)是它們像人類一樣行事和互動的第一步。

如圖4 所示，Pieropan 等人[17]認(rèn)為人類演示視頻中包含大量人物交互性信息，可以輔助機(jī)器人更好地完成針對物體的可供性理解，因此在可供性理解框架中加入了人手與物體交互的RGBD視頻，以便更好地理解人類的活動。

圖4 通過物體使用視頻學(xué)習(xí)物體可供性Fig.4 Learn object affordances by how objects are used

1.3 社交可供性

社交可供性是指在會被環(huán)境中其他個體與交互目標(biāo)的關(guān)系所影響的可供性，該類可供性需要基于環(huán)境各要素或個體相互間的關(guān)系判斷。

例如在圖5中所示，抓取一個人身旁的包是不合適的，因為這個包是屬于那個人，并且操作執(zhí)行者會違反法律。一把被占用的椅子仍然被認(rèn)為是一把椅子，人卻不能坐在它上面[18-19]，這是因為這把椅子被已經(jīng)被坐在它上面的人或物體所占用，故它用來坐的可供性不存在了，因此一個物體的某些可供性需要結(jié)合它身處的環(huán)境來判定。

圖5 社交可供性與環(huán)境中的元素聯(lián)系相關(guān)Fig.5 Social affordances are related to connection of elements in environment

另一方面，社會可供性也與觀察者自身的屬性存在關(guān)系，例如給殘疾人提供的專屬座位，對于一個健康的人來說，一般情況下這個座位是不合適去使用的，則可以稱殘疾人專屬座位的可供性對于健康人而言是消極的[19]。

1.4 可供性檢測框架

可供性檢測的流程如圖6所示，先對輸入的文件進(jìn)行預(yù)處理，包括目標(biāo)檢測或目標(biāo)分割，這樣有利于進(jìn)一步的可供性檢測。其中預(yù)處理不是必須的，但經(jīng)過預(yù)處理后，后續(xù)對圖像的處理效率更高。

圖6 可供性檢測流程Fig.6 Affordance detection process

可供性檢測的核心部分如圖7所示，主要分為傳統(tǒng)機(jī)器學(xué)習(xí)的方法和深度學(xué)習(xí)的方法。其中基于機(jī)器學(xué)習(xí)的方法包括K最鄰近[20]（K-nearest neighbor，KNN）、支持向量機(jī)[21]（support vector machine，SVM）等，而基于深度學(xué)習(xí)的方法則利用CNN[7]、CRF[8]等網(wǎng)絡(luò)進(jìn)行可供性檢測。

圖7 可供性檢測方法Fig.7 Affordance detection method

2 功能可供性檢測

功能可供性由目標(biāo)的物理特性等性質(zhì)直接體現(xiàn)，對視覺功能可供性的檢測旨在通過視覺信息對物體直接顯現(xiàn)的可供性進(jìn)行判斷?？晒┬愿拍钐岢龊?，早期研究僅考慮了顯性可供性，大多數(shù)方法為目標(biāo)檢測，與圖像處理中的目標(biāo)檢測算法相似，使用KNN[20]、CNN[7]等基礎(chǔ)方法即可實現(xiàn)。如今對于隱性可供性的檢測，需要在檢測到物體顯性可供性的基礎(chǔ)上，對不易直接檢測出的潛在可供性進(jìn)行推斷，需要結(jié)合物體性質(zhì)、顯性可供性和先驗經(jīng)驗綜合推斷，故隱性可供性檢測方法框架更加復(fù)雜。在表1 中呈現(xiàn)了有關(guān)功能可供性的檢測方法發(fā)展，展示了部分代表性和部分較新的研究。

表1 功能可供性檢測研究Table 1 Functional affordance detection research

2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的功能可供性檢測

在早期可供性理論的定義還未統(tǒng)一時，傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)被用來檢測物體的功能可供性，其方法是成功檢測到物體后，通過該物體對應(yīng)的標(biāo)簽來確定其可供性。伴隨機(jī)器學(xué)習(xí)理論的發(fā)展，越來越多的學(xué)者使用SVM、KNN、貝葉斯網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法檢測更加廣泛的可供性種類。Stark和Bowyer[22]最初構(gòu)建了基于形式和函數(shù)的通用識別系統(tǒng)，根據(jù)對象的功能來識別對象，而不是使用分配給多個函數(shù)基元來進(jìn)行基于函數(shù)的識別，此研究作為對于可供性識別的開端。早期，Piyathilaka等人[23]使用SVM對可供性的檢測研究用于實現(xiàn)更好的人機(jī)交互，提出了通過查看環(huán)境幾何特征來繪制可供性地圖。最后使用SVM分類器作為映射可供性的二進(jìn)制分類器解決多標(biāo)簽分類問題，以完成可供性識別。

KNN 作為一個理論上比較成熟的方法，也是最簡單的機(jī)器學(xué)習(xí)算法之一，常常被用在可供性檢測之中。近來對于KNN算法的使用往往結(jié)合其他的算法以提高KNN 的精度或簡化運算。Hermans 等人[24]引入一種依賴于物理和視覺特征的方法，如材料、形狀、大小和重量，來學(xué)習(xí)可供性標(biāo)簽。基于這些特征，同時使用SVM和KNN分類器來測試方法。這種方法強(qiáng)調(diào)了結(jié)合物理和視覺特征可以增強(qiáng)可供性理解的概念。

Hjelm等人[25]將物體的RGBD 圖片轉(zhuǎn)化為2 維圖像和點云，并將物體的特征分為全局特征和局部特征。使用large margin component analysis（LMCM）的正則化版本LMCA-R，將輸入空間的每類結(jié)點的K階最鄰近結(jié)點聚集，同時將非同類成員分散，損失函數(shù)使用梯度下降法?？晒┬灶悇e分類中，為每個可供性類別學(xué)習(xí)一個特定的值L，將問題理解為二元決策問題，對L使用kNN對可供性進(jìn)行分類，最終達(dá)到可以定位對象的重要部分以分類到可供性。

由于隱性可供性起步較晚，且需要對已有的信息進(jìn)行綜合判斷，大部分傳統(tǒng)機(jī)器學(xué)習(xí)方法無法高效完成此問題，故傳統(tǒng)機(jī)器學(xué)習(xí)只有對于顯性功能可供性的檢測。同時伴隨近十年深度學(xué)習(xí)的提出和改進(jìn)，深度神經(jīng)網(wǎng)絡(luò)已經(jīng)實現(xiàn)了遠(yuǎn)遠(yuǎn)超過傳統(tǒng)機(jī)器學(xué)習(xí)方法的精確度，并且由于傳統(tǒng)機(jī)器學(xué)習(xí)不能在獲得更多數(shù)據(jù)的情況下準(zhǔn)確率繼續(xù)穩(wěn)步提升，因此近期使用深度學(xué)習(xí)進(jìn)行顯性功能可供性檢測的研究也更多。

2.2 基于深度學(xué)習(xí)的功能可供性檢測

和傳統(tǒng)機(jī)器學(xué)習(xí)算法相比，深度學(xué)習(xí)的一個主要優(yōu)勢是它能夠從訓(xùn)練集中包含的有限特征集合中推斷出新的特征，準(zhǔn)確率更高、適用性更強(qiáng)。近幾年，深度學(xué)習(xí)在圖像、聲音、視頻方面的處理都取得了較為出色的成果，同樣伴隨CNN、RNN 等發(fā)展，深度學(xué)習(xí)在物體可供性檢測方面也有著較為顯著的成果。

2.2.1 顯性功能可供性檢測

CNN是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)，是深度學(xué)習(xí)的代表算法之一，在功能可供性的識別中也是常被使用的方法之一。Roy等人[37]使用四個多規(guī)模的CNN進(jìn)行可供性分割：三個多尺度CNN獨立應(yīng)用于圖像，以提取三個線索——深度圖、表面法線和場景中粗層表面的語義分割；另一個多尺度CNN用于融合這些中級線索，以進(jìn)行像素可供性預(yù)測。Nguyen等人[38]提出了一種從RGBD 圖像中檢測對象可供性的實時方法訓(xùn)練一個深度卷積神經(jīng)網(wǎng)絡(luò)，以端到端的方式從輸入數(shù)據(jù)中學(xué)習(xí)深度功能。在之后Nguyen 等人提出了[27]一種使用深度卷積神經(jīng)網(wǎng)絡(luò)、目標(biāo)檢測器和密集條件隨機(jī)場檢測現(xiàn)實場景中對象可供性的新方法，并成功應(yīng)用于全尺寸人形機(jī)器人。此方法第一階段，通過在文獻(xiàn)[39]中提出的R-FCN 方法作為目標(biāo)檢測器預(yù)測輸入圖像的邊界框和對象類別，以完全卷積的方式訓(xùn)練一個非常深的網(wǎng)絡(luò)。第二階段，從語義分割網(wǎng)絡(luò)中獲得提供分割結(jié)果，為了能夠生成對于每個像素可供性預(yù)測的熱圖，將VGG-16網(wǎng)絡(luò)最后一層替換為1×1的10維的卷積層來預(yù)測數(shù)據(jù)集中每個類的分?jǐn)?shù)，之后將其所有全連接層轉(zhuǎn)換為卷積層。下一步，使用基于CRF的后處理模塊來進(jìn)一步提高提供分割的準(zhǔn)確性。

在目前已有的很多成熟圖像檢測算法的基礎(chǔ)上，對其進(jìn)行針對于功能可供性檢測的改進(jìn)，也可得到較好的效果。Luddecke 等人[28]提出了改進(jìn)版ResNet 架構(gòu)[40]的殘差卷積神經(jīng)網(wǎng)絡(luò)，并且獲得了較好的效果。Ko 等人[41]也使用Yolo進(jìn)行目標(biāo)檢測，下一步進(jìn)行主成分分析以判斷可供性，并達(dá)到理想的效果。

但直接使用目標(biāo)檢測的方法會面臨一個目標(biāo)中存在多個區(qū)域與人交互等目標(biāo)檢測原本不存在的問題，故Abdalwhab 等人[42]引入了一個單階段可供性檢測框架，利用特征融合來提高視覺可供性檢測性能。將已知性能良好的分割模型SegNet[43]開始作為模型主干，通過在每次采樣步驟后將可供性與編碼器學(xué)習(xí)的相應(yīng)可供性合并到下一層之前來增強(qiáng)此架構(gòu)。下一步，通過將低分辨率、加強(qiáng)語義的功能與高分辨率功能相結(jié)合，實現(xiàn)更好的特征表示。Wu 等人44]提出一個可供性檢測框架ASPN（affordance space perception network），ASPN 是一個完全卷積的拓?fù)?，用于用RGB 圖像輸入近似可供性映射，該網(wǎng)絡(luò)以圖像為輸入并輸出可供性地圖。與推斷圖像空間像素概率可供性地圖的現(xiàn)有作品不同，此處的可供性是在現(xiàn)實世界中定義的，消除了人工校準(zhǔn)的必要性。Yin等人[29]使用SEAnet作為主要框架，加入空間梯度融合模塊與共享梯度注意力模塊，對于可供性檢測與可供性語義邊緣檢測更加一致。

綜上所述，常見的方法是使用兩個獨立的深度神經(jīng)網(wǎng)絡(luò)模型分別執(zhí)行可供性分割和對象檢測任務(wù)。然而，這種常見方法的缺陷是大大降低了整個系統(tǒng)的處理速度，并且網(wǎng)絡(luò)模型的計算復(fù)雜性大大提高。另一種可行的方法是使用多任務(wù)網(wǎng)絡(luò)模型同時執(zhí)行兩項任務(wù)，但多任務(wù)網(wǎng)絡(luò)的設(shè)計比單任務(wù)網(wǎng)絡(luò)更困難。

2.2.2 隱性功能可供性檢測

物體檢測及其可供性的推理是視覺智能的一個基本問題。大多數(shù)工作將這個問題轉(zhuǎn)換為分類任務(wù)，訓(xùn)練單獨的分類器來標(biāo)記對象、識別屬性或分配賦值。Zhu等人[30]使用知識庫（knowledge base，KB）表示進(jìn)行對象提供推理的問題。對象的多樣化信息首先從圖像和其他元數(shù)據(jù)來源中獲取，使知識庫包含廣泛的異構(gòu)信息，包括對象屬性、可供性、人體姿勢等，之后使用馬爾科夫邏輯網(wǎng)絡(luò)[45]（Markov logic network，MLN）通過學(xué)習(xí)關(guān)系來構(gòu)建知識庫，即一般規(guī)則的權(quán)重，通過加權(quán)的一階邏輯知識庫指定馬爾可夫隨機(jī)場，以構(gòu)建知識庫。最后無需訓(xùn)練單獨的分類器就可完成一套不同的視覺推理任務(wù)，包括對人類姿勢的預(yù)測和對象識別。例如蘋果在知識圖中，一些描述其視覺屬性的節(jié)點與可供性連接，如形狀、顏色、質(zhì)地等節(jié)點與可食用連接。

在此之后，Zhu等人[46]再次提出面向任務(wù)的建模、學(xué)習(xí)和識別，旨在了解將對象用作“工具”的基本功能、物理和因果關(guān)系，提出物體識別。不僅僅是記住每個類別的典型外觀示例，而是推理各種任務(wù)中的物理機(jī)制，以實現(xiàn)概括。在此基礎(chǔ)上，Schoeler 等人[15]成功推斷工具的任何可能用法，證明了可以識別各種工具甚至不常見的工具類型，系統(tǒng)“理解”對象可以用作臨時替代品。例如，頭盔或空心顱骨可用于運輸水，是因為都存在一個空間可以儲存水。但是這個框架忽視了對象的大小，并且未考慮目標(biāo)屬性，僅僅通過形狀判斷。近期Nair 等人[31]討論了任務(wù)規(guī)劃背景下的工具構(gòu)建問題，引入了一種名為可供性引導(dǎo)搜索的方法，使機(jī)器人能夠在無法獲得執(zhí)行任務(wù)所需的工具的情況下有效地構(gòu)建和使用工具。在此之后，F(xiàn)itzgerald等人[32]在工具的替代問題進(jìn)行了更深一步的研究，表明交互式校正中學(xué)習(xí)的模型可以推廣到為新工具有類似可供性的其他任務(wù)。

綜上，在隱性可供性探索的前期，主要方法為通過找到目標(biāo)的各部件和各部件的關(guān)系，并且學(xué)習(xí)其中的聯(lián)系進(jìn)行隱性可供性檢測。隨著時間的發(fā)展，隱性可供性的研究集中到了目標(biāo)物體的功能可供性擴(kuò)展，其中包含三個關(guān)鍵步驟：探索、評估以及將隱性可供性運用到任務(wù)。

3 行為可供性檢測

行為可供性通過物體被使用的一系列行為動作判斷，其需要檢測視頻或圖像中正在發(fā)生的行為，或者類人機(jī)器人對于自己正在執(zhí)行的行為或正在交互的物體進(jìn)行理解。以動作倒水為例，Mottaghi 等人[47]認(rèn)為機(jī)器人在完成該動作時需要估計杯子的體積，近似水罐中的水量，并預(yù)測傾斜水罐時的水的行為，容器的角度等。在表2中呈現(xiàn)了有關(guān)行為可供性的檢測方法發(fā)展，展示了部分代表性和部分較新的研究。

表2 行為可供性檢測研究Table 2 Behavioral affordance detection research

行為可供性檢測作為實現(xiàn)人與機(jī)器人的無縫交互關(guān)鍵的一步，與機(jī)器人技術(shù)、人機(jī)交互、認(rèn)知科學(xué)、人工智能、動作識別等多個學(xué)科共同實現(xiàn)。行為可供性在機(jī)器人理解環(huán)境并與之交互中起到了關(guān)鍵的作用。

3.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的行為可供性檢測

在早期，研究可供性運用了SVM分類器的學(xué)者中，Ugur等人[48]提出了一個兩步學(xué)習(xí)過程，引導(dǎo)階段和好奇心驅(qū)動（curiosity-driven learning）的學(xué)習(xí)階段。在引導(dǎo)階段，使用初始交互數(shù)據(jù)來查找可供性的相關(guān)感知特征，并訓(xùn)練SVM分類器。在好奇心驅(qū)動學(xué)習(xí)階段，使用SVM決策超平面的好奇心決定給定的互動機(jī)會是否值得探索。

Akgun 等人[49]使用SVM 分析機(jī)器人與一組不同類型和大小的對象進(jìn)行交互，以學(xué)習(xí)其環(huán)境中的可供性關(guān)系。首先控制機(jī)器人對物體進(jìn)行敲擊，物體由初始特征變?yōu)樽罱K特征，從最終特征中減去初始特征得到所有物體的效應(yīng)特征；下一步，使用1D 鄰域的Kohonen selforganizing maps（SOM）[58]進(jìn)行聚類；再通過ReliefF 算法[59]，將相關(guān)性強(qiáng)的效應(yīng)特征整合為相關(guān)特征；最后使用分類標(biāo)簽和相關(guān)特征共同訓(xùn)練SVM，最終將初始特征與動作聯(lián)系，機(jī)器人由此可以執(zhí)行特定動作并預(yù)測它對物體產(chǎn)生的效果。此研究證實了SVM分類器可以使用相關(guān)特征成功地學(xué)習(xí)效應(yīng)類別。

Koppula 等人[60]通過給定一個RGBD 視頻，將人類活動和對象可供性聯(lián)合建模為馬爾可夫隨機(jī)場，之后選擇使用結(jié)構(gòu)支持向量機(jī)（SSVM）方法來進(jìn)行機(jī)器學(xué)習(xí)以判斷行為可供性。

貝葉斯網(wǎng)絡(luò)又稱信度網(wǎng)絡(luò)，是貝葉斯方法的擴(kuò)展，是目前不確定知識表達(dá)和推理領(lǐng)域最有效的理論模型之一。Hassan等人[61]為了實現(xiàn)對行為可供性的檢測，分別運用SVM、KNN和貝葉斯網(wǎng)絡(luò)構(gòu)成檢測模型，對正在進(jìn)行的操作圖像進(jìn)行圖像檢測，經(jīng)過對比結(jié)果，使用基于貝葉斯網(wǎng)絡(luò)的方法構(gòu)建最終可供性模型準(zhǔn)確率最高。

3.2 基于深度學(xué)習(xí)的行為可供性檢測

基于深度學(xué)習(xí)的方法較傳統(tǒng)方法在進(jìn)行行為可供性檢測時對于不同行為的檢測更加高效，學(xué)習(xí)能力更強(qiáng)。Gupta等人[51]提出了一個以人為中心的場景理解范式，用于估計3D場景幾何形狀，預(yù)測以數(shù)據(jù)驅(qū)動的人類互動詞匯，以表示的人類“工作空間”。在有著內(nèi)場景理解和運動捕捉數(shù)據(jù)方面[62-63]工作的基礎(chǔ)上，創(chuàng)建一個人類姿勢和場景幾何的聯(lián)合空間。但其只著重于對相互作用的檢測，而未強(qiáng)調(diào)物體本身的可供性。之后Qi 等人[52]提出一種使用ST-AOG 觀測RGBD 視頻以預(yù)測人類未來的運動的方法，其中使用隨機(jī)語法模型來捕獲事件的組成結(jié)構(gòu)，整合人類行為、物體及其可供性。

行為可供性的研究在對物體的可供性檢測之外也包括對于人類活動的理解，Li 等人[64]提出了一種高效、全自動的3D 人姿勢合成器，該合成器利用從二維學(xué)到的姿勢分布和從三維中提取的可供性。其在此之后開發(fā)了一個3D 可供性能力預(yù)測生成模型，該模型從單個場景圖像中生成具有完整3D信息的可信的人類姿勢。

行為可供性識別的另一個方向是使用現(xiàn)實或虛擬的機(jī)器人進(jìn)行實際操作。Shu等人[65]使用ST-AOG作為可供性檢測方法，從人類交互的RGBD 視頻中學(xué)習(xí)，并輸出到類人機(jī)器人，以實現(xiàn)實時運動推理人機(jī)交互（human-robot interaction，HRI）。Chu 等人[66]通過語義分割預(yù)測對象的可供性，并用于真實的機(jī)器人操作。Mandikal 等人[67]將以對象為中心的視覺可供性模型嵌入到一個深度強(qiáng)化學(xué)習(xí)循環(huán)中，以學(xué)習(xí)使用人們更傾向的對象區(qū)域。模型由兩個階段組成。首先，訓(xùn)練一個網(wǎng)絡(luò)，從靜態(tài)圖像預(yù)測可供性區(qū)域。其次，使用可供性來訓(xùn)練動態(tài)抓取規(guī)則。Zhao 等人[54]考慮了多可供性之間的共生關(guān)系以及可供性和客觀之間的組合關(guān)系。與現(xiàn)有CNN 的方法不同，所提出的網(wǎng)絡(luò)以端到端的方式直接從輸入圖像生成像素提供映射。

靜態(tài)的視覺觀察只能識別物體的一些特征如形狀和紋理。如果不了解對象的全部范圍而規(guī)劃動作可能會導(dǎo)致策略失誤，Veres等人[53]針對這個問題，主要研究了機(jī)器人抓取時所需要考慮的屬性，例如物體表面的摩擦力或者物體的剛度都進(jìn)入可供性一起進(jìn)行考慮，提出通過機(jī)器人手腕上的力和扭矩讀數(shù)，將CoM 隱含地納入抓取承受力預(yù)測中。其主要是對文獻(xiàn)[68]中的框架進(jìn)行了改進(jìn)，將引導(dǎo)網(wǎng)絡(luò)方法擴(kuò)展到感官反饋的機(jī)器人抓取問題。先使用CNN 模型，通過幾個卷積加池化操作對RGB對象圖像進(jìn)行編碼。此深度學(xué)習(xí)網(wǎng)絡(luò)同時由另一個CNN和MLP編碼RGB圖像和力/扭矩讀數(shù)的形式展示了k與之前完全相同的物體的抓取嘗試的預(yù)測抓取成功的概率。

以前的方法通常將移動對象視為主對象，并依靠光流來捕獲視頻中的運動線索，當(dāng)嘈雜的運動特征與外觀特征相結(jié)合時，主對象的定位有幾率被誤導(dǎo)，此時僅靠流動信息不足以區(qū)分主物體和一起移動的背景物體。Luo 等人[55]利用視頻中手的位置和行動提供的輔助線索，消除多種可能性，更好地定位對象中的交互區(qū)域。此方法在可供性基礎(chǔ)方面取得了先進(jìn)的結(jié)果。

Lu等人[69]建立一個循環(huán)雙邊一致性增強(qiáng)網(wǎng)絡(luò)（cyclic bilateral consistency enhancement network，CBCE-Net），以逐步調(diào)整語言和視覺特征。此外，對比實驗結(jié)果表明，在客觀指標(biāo)和視覺質(zhì)量方面，此方法在四個相關(guān)領(lǐng)域（語義分割、顯著性檢測、可供性檢測和實例分割）都優(yōu)于九種典型方法，其中包括用于可供性檢測的OSADNet[70]和OAFFD[54]。

4 社交可供性檢測

社交可供性檢測目的是通過研究個體與環(huán)境屬性或環(huán)境屬性自身內(nèi)部的關(guān)聯(lián)性，探索出更加深層次的可供性的可能或限制。各物體互相或與觀測個體的相互聯(lián)系造就的可供性則稱之為社交可供性?，F(xiàn)實生活中，人類對物體的感知就一部分取決于時空上下文知識[71-72]，鑒于人類對環(huán)境已有的了解，這種機(jī)制有助于識別未知物體及其可供性[73]。總體而言，對于社交可供性的檢測，重點在于對于物體上下文信息等的推斷，由于社交可供性起步較晚，深度學(xué)習(xí)已經(jīng)被熟練運用在此檢測中，例如CRF、CNN 等，故使用傳統(tǒng)機(jī)器學(xué)習(xí)方法的社交可供性研究較少。在表3 中呈現(xiàn)了有關(guān)社交可供性的檢測方法發(fā)展，展示了部分代表性和部分較新的研究。

表3 社交可供性檢測研究Table 3 Social affordance detection research

4.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的社交可供性檢測

Sun等人[74]提出了一種建模目標(biāo)相互間的可供性的方法，這種可供性關(guān)系被用來提高行為識別準(zhǔn)確度。其中使用以全監(jiān)督的方式訓(xùn)練目標(biāo)分類器、動作分類器和貝葉斯網(wǎng)絡(luò)。首先獲得對目標(biāo)的操縱和目標(biāo)的反應(yīng)的初始可能性，其中目標(biāo)初始似然度是使用基于方向梯度直方圖（HoG）的滑動窗口目標(biāo)檢測器估計的。并且據(jù)人類手部運動軌跡的特征估計了人類動作的初始可能性。在訓(xùn)練中，全程跟蹤人手，根據(jù)速度的不同對手部動作分段。通過分割和可能的目標(biāo)位置，檢測出正在交互的目標(biāo)，最后利用貝葉斯網(wǎng)絡(luò)建立人與物體之間的聯(lián)系。此實驗通過觀察物體與主動動作之間的聯(lián)系來解決機(jī)器人學(xué)中的技能學(xué)習(xí)問題。

社交可供性的概念近幾年才開始作為一個明確的研究要點，對于社交可供性這種更加需要探究物體之間的關(guān)聯(lián)性的任務(wù)，傳統(tǒng)機(jī)器學(xué)習(xí)方法性能并達(dá)不到深度學(xué)習(xí)的效率，基于傳統(tǒng)機(jī)器學(xué)習(xí)的社交可供性檢測實例不多。

4.2 基于深度學(xué)習(xí)的社交可供性檢測

社交可供性研究的是物體之間的關(guān)系，使用深度學(xué)習(xí)的方法更適合找到各個物體的深層次聯(lián)系。為了探究物體之間可供性的影響，Pieropan 等人[75]提出利用對象到對象的時空關(guān)系來創(chuàng)建“對象上下文”以及功能描述符來預(yù)測人類活動。例如，只有杯子的存在不能確定是否會發(fā)生飲酒行為，但旁邊有酒瓶會增加飲酒行為的可能性。其描述了一個概率框架，為場景中物體及其隨時間推移的相互作用建模，但只局限于成對的關(guān)系。于是Hu等人[76]提出了一種分析對象間關(guān)系和對象內(nèi)關(guān)系的方法，旨在根據(jù)對象的功能對其進(jìn)行分類。他們使用對象的部件上下文、語義和功能來識別它們的可供性。

在過去很少有研究對象-對象交互的任務(wù)，而對象交互在機(jī)器人操作和規(guī)劃任務(wù)中發(fā)揮著重要作用。在日常生活中，有豐富的對象-對象交互場景空間，例如將對象放在凌亂的桌面上，將對象放置在抽屜里，使用工具推動對象等。Chuang 等人[19]提到為了在社會中自然融合，機(jī)器人需要像人類一樣行事，因此機(jī)器人需要了解3D 環(huán)境施加的可供性和限制，以及在特定場景中哪些行動是社會可接受的。利用空間網(wǎng)狀圖神經(jīng)網(wǎng)絡(luò)（gated graph neural network，GGNN）來推理給定感興趣的操作對圖像中對象的提供。并且基于實例級語義分割映射構(gòu)建一個圖表，其中節(jié)點是圖像中的對象。之后通過將相鄰對象與邊緣連接來編碼節(jié)點對的空間關(guān)系。最后空間GGNN 模型將每個對象的語義特征表示作為其初始節(jié)點表示，并通過在圖表中的鄰近點之間傳播消息來迭代更新其隱藏矢量。這能夠高效地捕捉圖像中的上下文關(guān)系。

近期，Mo等人[78]提出了一種對象-內(nèi)核點卷積網(wǎng)絡(luò)（object-kernel point convolutional network），以推理兩個對象之間的詳細(xì)交互，以學(xué)習(xí)各種任務(wù)的對象交互。通過構(gòu)建對象-對象交互任務(wù)環(huán)境，進(jìn)行大規(guī)模的對象支持學(xué)習(xí)，無需人工注釋或演示。對大規(guī)模合成數(shù)據(jù)和現(xiàn)實世界數(shù)據(jù)的實驗證明了該方法的有效性。

總而言之，在社交可供性研究起步階段，都是對小規(guī)模的對象-對象交互進(jìn)行了建模，并通過人工注釋或演示對模型進(jìn)行了訓(xùn)練，而近期研究進(jìn)行了大規(guī)模無注釋可供性學(xué)習(xí)，涵蓋了具有不同形狀和類別的各種對象-對象交互。

5 輕量化策略

目前已經(jīng)存在的視覺可供性檢測方法框架數(shù)量很充足，但其中大部分方法并不適合在運算資源受限的系統(tǒng)中使用，如嵌入式平臺，它們主要目標(biāo)是提高準(zhǔn)確性，未關(guān)注所提出解決方案的計算成本。例如，計算機(jī)視覺用于智能假肢等移動平臺，在這種情況下，平臺能夠提供的運算資源是有限的，但需要可供性檢測可用于確認(rèn)物體可供性，此時視覺可供性檢測是必要的。

在輕量化檢測框架這個方向，Yen-Chen等人[79]發(fā)現(xiàn)視覺任務(wù)的預(yù)訓(xùn)練顯著提高了學(xué)習(xí)操作對象的泛化能力和樣本效率。因此，將模型參數(shù)從視覺網(wǎng)絡(luò)直接傳輸?shù)娇晒┬灶A(yù)測網(wǎng)絡(luò)，并成功進(jìn)行零樣本適應(yīng)，意味著機(jī)器人可以無訓(xùn)練就能抓取物體。只需少量經(jīng)驗，在拾取新物體方面成功率就能達(dá)到約80%。

Tsai 等人[80]提出了一種基于ESPNetv2 的輕量級可供性分割模型，該模型可以有效地提高處理速度，并降低運行時所需的計算需求。采用基于錨點的單級對象檢測模型作為與語義分割分支集成的骨干網(wǎng)絡(luò)。依靠單階段網(wǎng)絡(luò)架構(gòu)的優(yōu)勢，該網(wǎng)絡(luò)模型可以通過相對簡單的架構(gòu)來實現(xiàn)，在高精確度的同時，大幅度提升運算速度，比AffordanceNet 快五倍。Apicella 等人[81]提出了一種利用對象檢測器克服幀問題的可供性檢測通道，減少通道在資源受限平臺上運行的計算負(fù)載，構(gòu)建了具有輕量級結(jié)構(gòu)和嵌入式重新校準(zhǔn)技術(shù)的抓取候選評估器。

在此之后，Ragusa等人[82]提出并描述了第一個完整的嵌入式設(shè)備可供性檢測解決方案即一種基于硬件感知深度學(xué)習(xí)解決方案的可供性檢測策略。這種解決方案可用于大幅改善基于計算機(jī)視覺的假肢控制，在計算成本和準(zhǔn)確性之間建立了更好的平衡。因此，該模型在實時嵌入式設(shè)備上在功耗有限的情況下實現(xiàn)并獲得了高FPS速率。

綜上所述，輕量化的解決方案應(yīng)該使用在嵌入式設(shè)備上以支持的模型，降低訓(xùn)練模型的整體硬件需求。其次，應(yīng)僅通過處理RGB 圖像實現(xiàn)可供性檢測。目前最新的硬件檢測可供性模型可以在標(biāo)準(zhǔn)基準(zhǔn)上實現(xiàn)與機(jī)器人學(xué)的最先進(jìn)解決方案相同的精度。

6 數(shù)據(jù)集

對于視覺可供性檢測，數(shù)據(jù)集的重要性是不言而喻的。利用合適的數(shù)據(jù)集，結(jié)合與之對應(yīng)的框架與參數(shù)能達(dá)到最好的檢測可供性的結(jié)果。

在本章中，提供了可供性注釋的可用數(shù)據(jù)集。如表1所示，所使用的文件格式也包括圖像、視頻以及3D 模型。對于視覺可供性，已經(jīng)提出了許多數(shù)據(jù)集，以促進(jìn)從場景中檢測可供性對象，即從輸入圖像中檢測具有可供性或功能性的對象。

如表4所示，對于適用于功能可供性的數(shù)據(jù)集需要有各類不同的物體與其對應(yīng)的可供性標(biāo)簽，此時物體種類越多，則此數(shù)據(jù)集的應(yīng)用范圍則越大；對于適用于行為可供性的數(shù)據(jù)集需要包含動作數(shù)據(jù)或人物使用物體過程；對于適用于社交可供性的數(shù)據(jù)集不僅需要有功能可供性數(shù)據(jù)集的要求，并且需要存在多個有聯(lián)系的物體出現(xiàn)在同一圖中，由此也可發(fā)現(xiàn)對于社交可供性的數(shù)據(jù)集制作是有一定困難的。這也是為何近期可供性的數(shù)據(jù)集主要集中于功能可供性與行為可供性，而極少包含社交可供性。

表4 近期主要可供性數(shù)據(jù)集Table 4 Recent and primary affordance datasets

有的數(shù)據(jù)集經(jīng)過對較早數(shù)據(jù)集的修正、補充與篩選等更新，使得新數(shù)據(jù)集更加適合某些特定類型的可供性檢測，或能夠覆蓋更多的場景使得應(yīng)用面擴(kuò)大。

7 視覺可供性的應(yīng)用、挑戰(zhàn)及未來方向

7.1 應(yīng)用方向

視覺可供性是依靠攝像頭理解世界的一個重要途徑，用于判斷環(huán)境或物體的交互方式。對于視覺可供性的檢測的兩大應(yīng)用主體則分別是真人與機(jī)器人。

7.1.1 視覺可供性對于真人的應(yīng)用

可供性識別可以代替人去感受，包括且不限于環(huán)境、產(chǎn)品等。使用可供性識別以真人的視角去評估事物，相比于真人的評估更準(zhǔn)確與標(biāo)準(zhǔn)：

（1）城市規(guī)劃領(lǐng)域：通過以真人視角檢測可供性之后，可以對于一個區(qū)域的環(huán)境與設(shè)施的合理性作出建議[83]，比如以小孩或老人視角評估設(shè)施環(huán)境[84]，進(jìn)而提升環(huán)境的兒童友好性或適老性，例如公園環(huán)境和設(shè)備所包含的可供性能給予兒童直接的感官體驗，包括自然環(huán)境、標(biāo)識以及游戲設(shè)備的適宜性等能夠增加兒童的體驗舒適度。

（2）產(chǎn)品設(shè)計：通過運用可供性檢測的方式優(yōu)化產(chǎn)品使得用戶有更舒適的使用體驗，Zhu 等人[85]通過坐在椅子上時不同身體部位的壓力來判斷舒適區(qū)間。

7.1.2 視覺可供性對于機(jī)器人的應(yīng)用

可供性識別可以使機(jī)器人理解其所處的環(huán)境，理解工具的用法，達(dá)到一定程度的智能：

（1）操作目標(biāo)對象：經(jīng)過視覺可供性識別，機(jī)器人可以了解物體的性質(zhì)與可供性，以便于操作對象。例如對于城市垃圾的處理分類[86]，亦或者對于超市自主機(jī)器人[87]的加強(qiáng)。

（2）理解目標(biāo)運動：結(jié)合行為可供性的運動檢測，將會幫助機(jī)器人理解觀測目標(biāo)的運動，以便于后續(xù)的預(yù)測或交互更加合理。

（3）預(yù)測目標(biāo)運動：以機(jī)器人視角進(jìn)行視覺可供性檢測，幫助機(jī)器人更加高效預(yù)測人的活動[60，88-90]，在環(huán)境存在指定可供性的情況下，可判斷為目標(biāo)做特定行為的可能性會變高。Corona 等人[91]根據(jù)一個或多個物體的單個RGB 圖像，預(yù)測人類將如何抓住這些物體。預(yù)測人的活動可以有助于機(jī)器人充分理解和響應(yīng)人的行為。

（4）場景理解：機(jī)器人需要掌握使用工具的方法，比如Myers等人[92]提到在廚房的機(jī)器人應(yīng)該要充分理解各種工具的可供性，才能更好地代替人類工作[93]或與人交互，使得它們與人或物體的交互更加合理，使機(jī)器人更好理解其所處的環(huán)境，也可以運用到AI 使其更加智能。例如加強(qiáng)自動駕駛[94]的可靠性。

（5）發(fā)掘工具隱藏功能：隱性可供性檢測可發(fā)現(xiàn)工具之間的可替代性，例如當(dāng)前任務(wù)為“開快遞”，在環(huán)境中利用隱性可供性檢測達(dá)成鑰匙來完成此任務(wù)。

7.2 目前的挑戰(zhàn)

（1）目前的視覺可供性識別，主要框架與計算機(jī)視覺目標(biāo)檢測所使用的框架類似，存在的挑戰(zhàn)與目標(biāo)檢測部分相同：

①視角的多樣性：同一個物體在不同的視角下的外形大多是不同的，所以需要在不同角度下都能識別出物體的可供性。

②物體的形變：現(xiàn)在對于可供性的檢測全部都是剛性物體，也就意味著不包含例如繩子之類的可形變物體，這對于視覺可供性是一個缺失的部分。

③遮擋：遮擋是實際對象可供性估計任務(wù)中的常見挑戰(zhàn)。Liu等人[100]制作了用于研究被遮擋物體的可供性的數(shù)據(jù)集。但是這個問題對于可供性檢測的影響依舊存在。

（2）同時，也存在很多在進(jìn)行目標(biāo)檢測時并不會顯現(xiàn)，而是只有在可供性檢測時才會顯現(xiàn)的問題：

①多區(qū)域可供性：一個對象中可能存在多個可能的區(qū)域可以與人交互，也就意味著，不能將物體看作一個整體，而是對物體自身也要有拆分。

②可供性多樣性：與物體檢測不同，同一對象區(qū)域存在多個可能的可供性。

7.3 未來發(fā)展方向

目前視覺可供性檢測主要集中在這三種類型，即功能可供性、行為可供性、社交可供性。而對于未來的發(fā)展方向主要分為應(yīng)用的方向與研究的方向。

7.3.1 未來應(yīng)用方向

（1）未來可供性識別應(yīng)用方向廣闊，其中機(jī)器人智能設(shè)計將為重要的應(yīng)用領(lǐng)域，通過視覺可供性與機(jī)械相結(jié)合，可以達(dá)到如下成果：

①智能機(jī)器人與機(jī)械手：對于視覺可供性檢測，最顯而易見的應(yīng)用為機(jī)器人與機(jī)械手，將可供性檢測運用到機(jī)器人上后，其可以更加智能的服務(wù)人類。

②社會輔助機(jī)器人：全球人口需求的變化和增加，需要社會輔助機(jī)器人為最需要幫助的個人提供更舒適、更安全的環(huán)境[109]。

③專用視覺：與日常生活相對應(yīng)的為專業(yè)使用場景，結(jié)合視覺可供性，可以比人手更加精準(zhǔn)的操作。例如，使用機(jī)械臂完成手術(shù)時，不會出現(xiàn)人為意外。

（2）不依賴機(jī)械實物作為載體，可供性識別可以在其他相關(guān)領(lǐng)域創(chuàng)造成果和創(chuàng)新：

①虛擬現(xiàn)實與建模：在虛擬現(xiàn)實中，重要的一點是人與建模出的物體的交互。結(jié)合可供性檢測，可以在虛擬現(xiàn)實中更加便捷地對于各類物體進(jìn)行分類與運用。同時，在直接使用現(xiàn)實物體掃描進(jìn)行建模的方法相比于直接建模將會更加便捷。

②5G-云端計算：與輕量化設(shè)計相對應(yīng)的是，如果將所有的運算通過5G 放置云端，那么無論是運算速度或是框架的尺度都可以與在本地運算不在同量級。

7.3.2 未來研究方向

（1）目前的挑戰(zhàn)之一，視角的多樣性使物體在不同角度所觀察到的外形不同，對此在未來可以進(jìn)行如下研究：

①數(shù)據(jù)集的創(chuàng)建與更新：數(shù)據(jù)集是對深度學(xué)習(xí)結(jié)果有著重要影響的因素之一?？晒┬匝芯康囊粋€重要工作是可供性數(shù)據(jù)集的制作與優(yōu)化，目前已經(jīng)有很多優(yōu)質(zhì)的數(shù)據(jù)集可以使用，不過跟現(xiàn)實世界的復(fù)雜性相比，已有的數(shù)據(jù)集在標(biāo)簽的種類方面依舊存在局限。同一個物體不同視角下的數(shù)據(jù)越多，則此問題更易解決。

②多視角兼容性與可遷移：在第一人稱視角下的可供性檢測與第三人稱視角下的可供性檢測是不同的。易于發(fā)現(xiàn)的是，第三人稱視角的數(shù)據(jù)更容易獲得，而機(jī)器人使用第一人稱觀察對象，故而在不同角度下對可供性檢測的兼容性是必要的。

（2）目前只能做到對于剛性物體的可供性檢測，而對于繩子一類可變形物體的可供性檢測技術(shù)尚不成熟，即物體的形變是現(xiàn)在尚未有明確解決方案的研究方向，可從如下方面進(jìn)行實現(xiàn)：

①對已有可供性檢測框架改進(jìn)：對于可形變物體需要更精準(zhǔn)地識別與控制，對檢測框架的改進(jìn)實現(xiàn)對非剛性物體的模擬和操控。

②多傳感器結(jié)合：在未來伴隨硬件品質(zhì)的發(fā)展，以及更多種傳感器的出現(xiàn)，將視覺與其他傳感器相結(jié)合。例如，將視覺與壓力傳感器相結(jié)合共同檢測可供性，那么可以更加準(zhǔn)確地判斷物體的硬度可供性。

（3）物體被遮擋條件下的可供性識別目前已有進(jìn)展且有研究人員制作相關(guān)數(shù)據(jù)庫，在未來這個問題仍可以繼續(xù)深入研究：

①對于數(shù)據(jù)庫的創(chuàng)建與更新。

②對已有計算機(jī)視覺框架轉(zhuǎn)化：目前存在基于深度學(xué)習(xí)技術(shù)，對視覺可供性提出新的研究框架，但對還未運用到可供性方向的圖像識別等框架的改造適配，將最新的研究成果適配于可供性檢測有幾率獲得更好的成果。

（4）物體的不同區(qū)域可供性不同和同一區(qū)域可供性的多樣性使得可供性檢測與目標(biāo)檢測有著顯著的差距，未來可能的研究方向如下：

①對于數(shù)據(jù)庫的創(chuàng)建與更新：目前研究使用的數(shù)據(jù)庫大都是專供可供性或在原始數(shù)據(jù)庫技術(shù)上為可供性更新的新數(shù)據(jù)庫。在未來可創(chuàng)建更多適配可供性檢測的數(shù)據(jù)庫。

②創(chuàng)建新的可供性檢測框架：可供性檢測與目標(biāo)檢測不同在于可供性除外形等特征外，還可通過使用者的行為或與其他物體的關(guān)系來確定，在未來可以創(chuàng)造出更適配可供性檢測的算法框架。

（5）目前已有研究方向的加深同樣是未來可供性檢測研究的重要一環(huán)：

①輕量化設(shè)計：可見對于視覺可供性檢測的輕量化設(shè)計發(fā)展才開始被重視，將視覺可供性檢測框架做小，放在嵌入式設(shè)備或?qū)⒄w做快，運算速度更快，則機(jī)器人可以有更多的反應(yīng)時間。

②知識圖譜的更新與創(chuàng)建：在有先驗知識或知識圖譜的情況下，可以更好地去理解圖像或者視頻，基于圖或圖譜的方法和視覺可供性結(jié)合將會幫助可供性檢測。目前對于知識圖譜的可供性研究依舊處于缺失狀態(tài)，目前Zhu等人[30]使用知識庫表示進(jìn)行對象提供推理的問題來完成對于隱性可供性的檢測。利用知識圖譜，將物體與可供性的聯(lián)系組合，并且通過知識圖譜相互聯(lián)系，使得AI應(yīng)用更智能。

③對已有可供性檢測框架改進(jìn)；目前基于可供性的機(jī)器人行為控制僅能實現(xiàn)簡單動作（例如移動、抓取等一次性動作），而對需要多重可供性共同控制的復(fù)雜動作（例如開鎖等復(fù)雜性更高的行為）目前仍未能實現(xiàn)。

（6）除以上所述，目前還有如下部分可供性檢測未有顯著成果的研究方向：

①主動視覺檢測：將感知與運動、控制結(jié)合，將視覺上升到有意識的、可控制的一個過程。作為生物的視覺可以通過實時調(diào)整，能夠在能量消耗和三維感知，分辨率等達(dá)到平衡。如果將主動視覺加入可供性檢測，機(jī)器人可以通過在新環(huán)境中的主動探索，實現(xiàn)智能等提升。

②動態(tài)特性：目前僅僅有行為可供性進(jìn)行對于人的動態(tài)檢測，然而目前對于機(jī)器人的自我運動依舊是固定場景，未考慮到攝像頭自身運動導(dǎo)致動態(tài)場景的情況。

8 結(jié)語

本文對視覺可供性的概念、分類與識別的相關(guān)方法對可供性理論誕生以來的文獻(xiàn)進(jìn)行了綜述。首先將可供性劃分為三種類型，按傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)的方法出發(fā)分別進(jìn)行了闡述和討論；并且梳理了可供性數(shù)據(jù)集；最后對視覺可供性的應(yīng)用方向、未來可能的研究方向及潛在的應(yīng)用領(lǐng)域進(jìn)行了討論。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放