亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)知識圖譜的3D場景識別與表達方法綜述

        2023-10-30 08:57:44李建辛司冠南田鵬新安兆亮周風余
        計算機工程與應(yīng)用 2023年20期
        關(guān)鍵詞:圖譜實體模態(tài)

        李建辛,司冠南,田鵬新,安兆亮,周風余

        1.山東交通學(xué)院 信息科學(xué)與電氣工程學(xué)院,濟南 250357

        2.山東大學(xué) 控制科學(xué)與工程學(xué)院,濟南 250000

        伴隨著場景圖(scene graphs,SG)[1]的流行,以知識圖的快速增長為特征的知識工程再度興起。知識圖(knowledge graph,KG)本質(zhì)上是一個大規(guī)模的語義網(wǎng)絡(luò)數(shù)據(jù)庫,它包含實體以及實體之間的各種語義關(guān)系。知識圖在包括文本理解、推薦系統(tǒng)和自然語言問答在內(nèi)的現(xiàn)實世界中有著廣泛的應(yīng)用價值。場景圖構(gòu)建可以捕捉場景的語義[1-2],其核心形式為一種有向圖,其中節(jié)點表示場景中的實體(例如,桌子、沙發(fā)、電視機等),邊表示節(jié)點之間的關(guān)系(例如:相鄰、包含等)。這種結(jié)構(gòu)化的表示方法相對于向量表示會更加容易被人理解,同時場景圖的構(gòu)建過程也可以被看作是一個小型的知識圖譜。

        場景圖構(gòu)建知識圖譜主要是以各個場景實體及其關(guān)系來構(gòu)建,知識圖譜的質(zhì)量主要由實體的粒度切分和實體之間關(guān)系(關(guān)聯(lián)關(guān)系、空間關(guān)系等)的細節(jié)程度決定。場景知識圖譜構(gòu)建之后,可以加深同場景下不同實體的(家具、裝修風格、電子器械等)構(gòu)建關(guān)聯(lián),進而通過實體特征和場景圖,建立實體與場景的關(guān)聯(lián)。通過知識圖譜,可以更加精準描述不同場景下實體分布情況,更加準確關(guān)聯(lián)不同場景,從而實現(xiàn)對場景的精確分析。有時需要處理場景中的語義信息,以提高各種計算機視覺算法所提供結(jié)果的質(zhì)量。將圖像作為輸入的算法通常傾向于關(guān)注圖像中存在的對象的絕對屬性(顏色、形狀、大小等),即概念信息,而不是這些對象之間的關(guān)系,即上下文信息(例如,人與狗玩耍)。在場景識別任務(wù)中,盡管跨類型實體識別模型可以在一定程度上表達出當前場景的大部分實體,但是要單純使用跨類型實體識別模型識別所有場景的所有實體和知識很難做到。

        為了更好地理解場景識別任務(wù)中單一結(jié)構(gòu)處理多任務(wù)的方法,提出基于知識的3D 場景圖與知識圖譜構(gòu)建綜述。本文綜述結(jié)構(gòu)分為三層。第一層為場景知識存儲,第二層為場景知識表示,第三層為場景種類劃分。本文為當前場景識別技術(shù)發(fā)展做出以下貢獻:

        (1)多模態(tài)知識圖譜作為特征存儲數(shù)據(jù)庫對場景先驗知識進行存儲的技術(shù)總結(jié)與討論。通過基于編碼-解碼器結(jié)構(gòu)的節(jié)點嵌入、知識圖譜節(jié)點匹配方式、知識圖譜補全等技術(shù)的綜述和論證,對知識圖譜與場景圖知識互補領(lǐng)域進行了技術(shù)論證和未來發(fā)展方向的討論。

        (2)對2D-3D 數(shù)據(jù)融合進而增強3D 數(shù)據(jù)對場景環(huán)境表達能力技術(shù)的總結(jié)和論證,即場景知識表示層的全面綜述。通過對點云和圖像兩種數(shù)據(jù)不同融合方式的技術(shù)討論、多種經(jīng)典和最新的神經(jīng)網(wǎng)絡(luò)模型的比較和總結(jié),對當前多模態(tài)識別模型發(fā)展進行總結(jié)和展望。

        (3)對場景劃分任務(wù)做出總結(jié),并提出未來發(fā)展方向。

        1 結(jié)構(gòu)總覽

        由于感知應(yīng)用的發(fā)展,計算機視覺發(fā)展重點已轉(zhuǎn)向需要對場景進行認知的下游任務(wù)?;谖谋拘畔⒑鸵曈X信息的結(jié)合,極大提高了計算機視覺領(lǐng)域中檢索、視覺問答等任務(wù)的性能,結(jié)合GCN(graph convolutional networks)網(wǎng)絡(luò)的快速發(fā)展,場景圖已經(jīng)成為結(jié)構(gòu)知識處理關(guān)鍵任務(wù)的流行方法。場景圖的思想有幾個優(yōu)點,比如它能夠包含比對象實體更多的信息(例如ImageNet[3]),而且場景圖包含比自然語言標題[4-5]更多的結(jié)構(gòu)和不變性?,F(xiàn)有思想基本是用基礎(chǔ)3D信息擴充了基本的場景圖結(jié)構(gòu),如Visual Genome中的場景圖結(jié)構(gòu)[6],并生成了3D場景圖。場景圖的構(gòu)建過程也可以被看作是一個小型的知識圖譜,雖然知識圖譜與場景圖都作為一種圖結(jié)構(gòu)而存在,但兩者還是有差別。首先:(1)場景圖目標是讓計算機自動生成一種語義化的圖結(jié)構(gòu)作為圖像的表示。圖像或視頻中的實體對應(yīng)nodes,實體間的關(guān)系對應(yīng)edges(實體對象的各種屬性)。即場景圖中的每個節(jié)點都與一個圖像區(qū)域相關(guān)聯(lián),這些節(jié)點成對出現(xiàn),即主體和對象;而知識圖中的每個節(jié)點都是其語義標簽的一般概念。(2)在場景圖中,有向邊表示對象之間的關(guān)系;而知識圖譜的邊表示實體對的概念關(guān)系。總體結(jié)構(gòu)如圖1所示:右側(cè)實體及位置關(guān)系識別流程見第3章,圖1場景分類流程見第4章。存放在知識圖譜內(nèi)的知識、場景內(nèi)實體結(jié)合神經(jīng)網(wǎng)絡(luò)模型進行特征處理后的知識會進行聚類操作,對不同相似或相近實體進行聚類到不同場景,再對不同場景進行分類,就可達到場景內(nèi)實體識別和不同場景識別的效果。

        圖1 綜述結(jié)構(gòu)示意圖Fig.1 Schematic diagram of overview structure

        2 場景知識存儲

        認知科學(xué)的最新發(fā)現(xiàn)表明,認知過程可以大致分解為“表示”和“溝通”。知識表示(knowledge representation,KR)的結(jié)構(gòu)對穩(wěn)定記憶起著關(guān)鍵作用,這表明大腦與圖形結(jié)構(gòu)有著潛在的聯(lián)系。知識操作(knowledge manipulation,KOS)中包含的自適應(yīng)更新和檢索促進了知識的有效利用。場景識別的目的就是根據(jù)多種模態(tài)數(shù)據(jù)的環(huán)境內(nèi)容、實體對象及其實體的位置關(guān)系布局,將場景分類為預(yù)訓(xùn)練定義場景類別中的一個,其識別效率高、應(yīng)用前景廣。目前,場景分類任務(wù)遠不如圖像分類任務(wù)所能夠達到的高準確率,因為現(xiàn)有的方法大多忽略了實體特征之間的復(fù)雜關(guān)系、場景內(nèi)實體知識表達的重復(fù)利用性、場景知識的存儲再表達等關(guān)鍵技術(shù)。

        為了使3D 場景能快速實時構(gòu)建,當前最流行的方法是使用多模態(tài)知識圖譜[7]作為對象特征的存儲數(shù)據(jù)庫。為了構(gòu)建3D場景圖,需要識別它的特征、屬性和依存關(guān)系。但是,在給定識別場景模型和傳感器數(shù)量的限制下,用對象標簽和足夠多參數(shù)的深度網(wǎng)絡(luò)模型是構(gòu)建3D場景圖的工作瓶頸。因此本文綜述焦點是通過外置特征數(shù)據(jù)庫特征匹配方式快速構(gòu)建3D場景圖技術(shù)。知識圖譜—場景圖存儲的作用是通過識別對象的特征知識[8]與多模態(tài)知識圖譜節(jié)點快速匹配。Tian 等人[9]利用外部知識庫中無偏置的常識性知識規(guī)范場景圖的語義空間,緩解數(shù)據(jù)集中關(guān)系數(shù)據(jù)分布不平衡的問題,以提高場景圖生成的泛化能力;利用殘差置亂方式對視覺特征和提取的常識性知識進行融合,規(guī)范場景圖生成網(wǎng)絡(luò)。使用基于外部信息引導(dǎo)和殘差置亂相結(jié)合的場景圖生成方法,緩解數(shù)據(jù)集偏置對場景圖生成的負面影響。

        同時,為了應(yīng)對KG與SG知識交流中的挑戰(zhàn),研究者們提出很多知識自適應(yīng)框架結(jié)構(gòu),該框架可以不斷地積累知識圖譜知識信息,以便在任何新場景都具有更好的泛化質(zhì)量。Wickramarachchi 等人[10]把場景的實體關(guān)系預(yù)測形式化為基于知識的實體預(yù)測。旨在通過利用駕駛場景的異構(gòu)、高級語義知識預(yù)測潛在的未識別實體來提高場景理解?;谌谌胫R的學(xué)習(xí),提出了一種創(chuàng)新的模型神經(jīng)符號解決方案,解決引入數(shù)據(jù)集不可知論本體來描述駕駛場景,提出一種有效的、使用知識圖嵌入將知識的實體預(yù)測問題非標準映射到鏈路預(yù)測問題。

        知識操作(KOS)中[11]包含的自適應(yīng)更新和檢索促進了知識的有效利用。如此復(fù)雜的KR 和KOS 使人們大腦能夠很好地完成知識再利用學(xué)習(xí)。知識表示與存儲結(jié)構(gòu)如圖2 所示。為了將場景的結(jié)構(gòu)化表示形式化(見圖2),人們定義了場景圖概念。場景圖將對象(例如桌子、沙發(fā)、電腦、電話)編碼為節(jié)點中心,成對關(guān)系(例如位置關(guān)系、順序關(guān)系)連接的節(jié)點作為邊緣,將場景(例如辦公樓、公寓)作為相關(guān)實體對應(yīng)節(jié)點關(guān)系的集合。然而,現(xiàn)有的場景圖模型忽略了98%以上的關(guān)系類別,這些類別沒有足夠的標記實例,而是將重點放在建模。雖然使用建模提取特征可以很好地描述某些場景視覺關(guān)系,但它們可能無法捕獲具有高方差、高離散的復(fù)雜關(guān)系。

        圖2 知識存儲示意圖Fig.2 Schematic diagram of knowledge storage

        2.1 場景知識嵌入方法

        場景圖實體特征嵌入算法可以將場景圖數(shù)據(jù)映射為低維向量,能夠很好地解決場景圖數(shù)據(jù)難以高效輸入機器學(xué)習(xí)算法的問題,在復(fù)雜網(wǎng)絡(luò)中,研究者們提出了許多融合網(wǎng)絡(luò)嵌入算法的改進算法[12]。其中,在編碼器-解碼器框架中,圖表示學(xué)習(xí)問題視為涉及兩個關(guān)鍵操作的方法。首先,編碼器模型將點云、圖像的每個節(jié)點映射到低維向量或嵌入其中。其次,解碼器模型采用低維節(jié)點嵌入,并使用它們重建原始數(shù)據(jù)中每個節(jié)點的鄰域信息。而節(jié)點嵌入的目的是對圖的節(jié)點進行編碼,使得節(jié)點在嵌入空間的相似度近似節(jié)點在圖中的相似度,即場景圖實體關(guān)系平行遷移到存儲結(jié)構(gòu)上。如圖3所示,編碼器將節(jié)點映射為嵌入向量;定義節(jié)點的相似度函數(shù)F,度量節(jié)點在左邊圖結(jié)構(gòu)的相似度;解碼器將嵌入向量映射為相似度得分;最優(yōu)的編碼器參數(shù),使得節(jié)點在右邊嵌入空間的相似度接近節(jié)點在左邊圖結(jié)構(gòu)網(wǎng)絡(luò)中的相似度。

        圖3 節(jié)點嵌入結(jié)構(gòu)示意圖Fig.3 Schematic diagram of node embedding structure

        在場景圖與知識圖譜之間找到可靠的對應(yīng)關(guān)系是計算機視覺未來發(fā)展的一項重要任務(wù)。由于描述符的限制,原始匹配常常被大多數(shù)離群值所污染,算法給出的匹配結(jié)果可能會在具有相似特征的圖像中進行交叉交換。節(jié)點嵌入和相似度匹配預(yù)測結(jié)構(gòu)如圖4所示,鏈接預(yù)測的目標是根據(jù)已知(a)的節(jié)點和邊,得到新(b)的邊(的權(quán)值/特征),其過程可以用一個有向圖表示。知識圖譜的完整性和準確性是影響其可用性的主要因素,(a)已有的知識圖譜存在A、B、C數(shù)據(jù)的連接關(guān)系不完整問題,鏈接預(yù)測技術(shù)能夠依據(jù)其余完整數(shù)據(jù),自動知識圖譜進行補全,提高(b)知識圖譜的質(zhì)量,輸出為該圖譜的預(yù)測值A(chǔ)1、B1、C1。當今研究模型建立了一個基于對象的場景表示,并將句子翻譯成可執(zhí)行的符號程序。為了將這兩個模塊的學(xué)習(xí)連接起來,研究者們使用了一個神經(jīng)符號推理模塊,該模塊在潛在場景表示上執(zhí)行這些程序。與人類的概念學(xué)習(xí)類似,感知模塊根據(jù)被引用對象的語言描述來學(xué)習(xí)視覺概念。同時,學(xué)習(xí)到的視覺概念有助于學(xué)習(xí)新單詞和解析新句子。通常會用課程學(xué)習(xí)來指導(dǎo)對圖像和語言構(gòu)成空間的探索。

        圖4 鏈接預(yù)測的示例Fig.4 Example of link prediction

        2.2 場景知識的關(guān)系預(yù)測與補全

        知識圖譜已經(jīng)被廣泛采用,很大程度上是因為其無模式的特性,它具有豐富的自然語義,可以包含各種更完整的信息。其具有無縫增長的特性,可以根據(jù)需要創(chuàng)建新的節(jié)點和關(guān)系。知識圖譜將每一項實體和用戶表示為節(jié)點,通過邊將相互作用的節(jié)點連接并存儲起來,然而,知識圖譜總是不完整的[13]。因此,自適應(yīng)構(gòu)造一個更完整的KG是一項具有挑戰(zhàn)性的任務(wù),通常將其表述為鏈接預(yù)測問題[14],可使用知識的補充增強技術(shù)解決這一問題。Shen 等人[15]探討了考慮拓撲關(guān)系的空間場景知識圖構(gòu)建,積極探索了空間場景知識圖式的定義、拓撲關(guān)系知識的獲取和存儲以及空間場景知識圖形的可視化問題。該圖在空間查詢、空間分析和空間數(shù)據(jù)建模中發(fā)揮重要作用。

        正如前文所述,預(yù)訓(xùn)練模型可在非結(jié)構(gòu)化數(shù)據(jù)中獲取到知識;知識圖譜可以看作在視覺中抽取實體與實體關(guān)系的數(shù)據(jù)集合,兩者結(jié)合可獲得巨大的研究空間。

        作為圖結(jié)構(gòu)的知識圖譜想融合預(yù)訓(xùn)練模型就要進行三段式改造,即輸入前融合改造,模型結(jié)構(gòu)融合方式改造和模型輸出融合方式改造。K-ADAPTER[16]加入了額外的預(yù)訓(xùn)練模型中間層,使得模型參數(shù)固定,增強了舊知識穩(wěn)定性的同時可以不斷融入新知識。但是并未解決多知識和多種知識圖譜的融合問題。KT-NET[17]在Fine-tuning階段使用知識圖譜融入,通過注意力機制將BERT Vector[18]與KB Embedding[19]做融合;并且通過雙層的注意力機制進一步融合BERT和KB的表示,解決了多種知識圖譜的融合問題。但是直接通過KB Embedding和Bert vector的映射關(guān)系結(jié)合Attention機制融合,舍棄考慮了映射之間的差異性,導(dǎo)致結(jié)果差強人意。針對不同下游任務(wù),KnowBERT[20]在pre-training+fine-tuning 階段使用architecture injection+output injection 的融合方式,在輸入中顯式建模實體跨度(entity spans),并使用實體鏈接器(entity linker)從KB 中檢測Mention、檢索相關(guān)的實體嵌入(entity embeddings),以形成知識增強的實體跨度表示形式,對映射之間的差異性做出較好解釋。

        2.2.1 距離變化和語義匹配

        知識圖譜KG是三元組的集合,節(jié)點代表對象實體,邊代表對象間關(guān)系。眾多知識圖譜,如YAGO[21]、Freebase[22]、DBpedia[23]和NELL[24]成功應(yīng)用于一些現(xiàn)實應(yīng)用程序中。學(xué)者們針對知識圖譜補全,進行了大量的研究工作,即預(yù)測缺失三元組是否正確,并將正確三元組添加到知識圖譜進行補全。目前,許多嵌入模型用來學(xué)習(xí)實體和關(guān)系的矢量表示,如早期的TransE[25]、TransH[26]、TransR[27]等模型[28],這些模型可以有效預(yù)測缺失三元組。目前較流行的五種知識圖譜補全函數(shù)如表1所示。

        表1 五種算法函數(shù)公式和參數(shù)規(guī)模比較Table 1 Comparison of five algorithm function formulas and parameter scales

        在語義匹配能量模型(SME)模型中,在輸入層將三元組(h,r,t)分別映射為嵌入向量h,r,t。在隱含層,將關(guān)系向量r與頭向量h組合,得到得分向量;同理得到尾實體對應(yīng)的得分向量;并最終將兩個向量進行組合算出匹配分數(shù)。SME 是目前使用較多的語義匹配模型,同為語義匹配模型的還有RESCAL 模型、HoIE 模型、DistMult模型、RESCAL模型等。

        知識圖補全(knowledge graph completion,KGC)或鏈接預(yù)測(link prediction,LP)已成為一個活躍的研究領(lǐng)域[33],目的是推斷缺失的頭實體、尾實體或三元組中的關(guān)系。其主要思想是對具有不同性質(zhì)的關(guān)系進行建模,可以解決圖結(jié)構(gòu)中的對稱和非對稱關(guān)系。TransE[25]就是將知識圖譜中的實體和關(guān)系看成兩個Matrix。訓(xùn)練后模型的理想狀態(tài)得到的結(jié)果近似于實體矩陣中的另一個實體的向量,從而達到通過詞向量表示知識圖譜中已存在的三元組,但它只能處理1-1關(guān)系,具體結(jié)構(gòu)見圖5。為了解決這個問題,TransH[26]提出通過將頭部和尾部實體投影到關(guān)系特定的超平面中來處理1-N關(guān)系,讓一個實體在不同的關(guān)系下?lián)碛胁煌谋硎?。TransR[34]直接構(gòu)建獨立的關(guān)系和實體空間,將實體從實體空間投影到關(guān)系特定空間,以計算實體之間的距離。TransR在兩個不同的空間,即實體空間和多個關(guān)系空間(關(guān)系特定的實體空間)中建模實體和關(guān)系,并在對應(yīng)的關(guān)系空間中進行轉(zhuǎn)換。TransE 模型需要將實體和關(guān)系表示在同一空間中[35-36],但是不能表示一對多、多對一、多對多關(guān)系。在實際場景識別的任務(wù)中局限性很大,所以人們基于TransE 提出了TransH 模型,通過一個實體在不同的關(guān)系下?lián)碛胁煌谋硎綶37],將頭實體向量h和尾實體向量t投影到關(guān)系r對應(yīng)的超平面上,再利用TransE模型進行訓(xùn)練和學(xué)習(xí)。但是實體和關(guān)系處于相同的語義空間中,一定程度限制了模型的表達能力[38]。于是研究人員讓頭實體與尾實體共享投影矩陣,投影過程與關(guān)系和實體都相關(guān)但此處只用關(guān)系,進而研究出TransR模型。

        圖5 三種常態(tài)化使用結(jié)構(gòu)對比Fig.5 Comparison of three normalized use structures

        即使可以對知識圖譜進行補全操作,但是絕大多數(shù)的KG 通常是不完整的,很難包含人類擁有[39]的所有概念。而現(xiàn)實世界的數(shù)據(jù)往往是動態(tài)的和不斷演變的,這導(dǎo)致難以構(gòu)建正確和完整的KGS[40]。為了解決模型擴展和存儲平衡工作能力的問題,TuckER[41]為張量分解提供了一個分解結(jié)構(gòu),通過輸出核心張量和實體和關(guān)系的嵌入向量來學(xué)習(xí)嵌入,解決稀疏張量的填補問題?;贑NN(convolutional neural network)的模型也被證明可以通過捕獲實體和關(guān)系之間的復(fù)雜交互以提高表達能力。同時,CNN 的參數(shù)效率可以防止模型隨著知識圖規(guī)模的擴大而變得難以運行。Convu[42]將頭部實體和關(guān)系嵌入到二維矩陣中,并應(yīng)用二維卷積和全連接層以獲得特征向量。該特征向量和尾部實體嵌入向量被拋出到內(nèi)積層進行最終預(yù)測。類似膠囊網(wǎng)絡(luò)在圖像處理領(lǐng)域中的應(yīng)用,CapsE[43]通過在卷積層之后應(yīng)用膠囊網(wǎng)絡(luò)來捕獲三元組中復(fù)雜的高級特征。也可以通過三個關(guān)鍵思想[44]:特征置換、一種新的特征重塑和循環(huán)卷積,增加了關(guān)系和實體嵌入之間的相互作用[45]。

        2.2.2 神經(jīng)網(wǎng)絡(luò)辦法

        由于涉及神經(jīng)網(wǎng)絡(luò)的模型具有很強的魯棒性和容錯性,信息分布貯于網(wǎng)絡(luò)內(nèi)的神經(jīng)元中,在場景識別等領(lǐng)域被人所接受。它的自學(xué)習(xí)、自組織、自適應(yīng)性,使得網(wǎng)絡(luò)可以處理不確定或不知道的系統(tǒng),可以充分逼近任意復(fù)雜的非線性關(guān)系,具有很強的信息綜合能力。例如:神經(jīng)張量網(wǎng)絡(luò)模型(neural tensor network,NTN)、ConvE[42]模型等。NTN 模型的關(guān)系r對應(yīng)一個張量與兩個常規(guī)矩陣,分別用來匹配雙線性與線性關(guān)系。NTN是最具表達力的模型之一,幾乎涵蓋了所有的匹配關(guān)系,但是在參數(shù)數(shù)量上遠大于ConvE 模型,不能疊加多層增強表達能力,所以在復(fù)雜度和表達能力間不能找到很好的平衡,以至于NTN 模型相較于ConvE 模型很難以被訓(xùn)練,所以在大型知識圖譜中使用較少。

        (1)關(guān)系圖卷積網(wǎng)絡(luò)

        關(guān)系圖卷積網(wǎng)絡(luò)[46(]relational graph convolutional network,R-GCN)這種類型的網(wǎng)絡(luò)旨在泛化GCN 來處理知識庫中實體之間的不同關(guān)系。它的特點在于:對于一個節(jié)點,它把周圍所有與之相連的關(guān)系r都表示為一個關(guān)系矩陣并加入節(jié)點更新公式中,并且通過自循環(huán)來保持自身信息。在同一類型邊下分為進邊和出邊,還有假設(shè)指向自己的邊類型。模型結(jié)構(gòu)沒有太大的改變,真正改變的是鄰接矩陣的類型和個數(shù)。R-GCN能夠處理異構(gòu)圖數(shù)據(jù),對于場景的實體識別特征匹配和補全任務(wù)有著很好的速度和補全質(zhì)量。其流程結(jié)構(gòu)如圖6所示。

        圖6 關(guān)系圖卷積網(wǎng)絡(luò)示意圖Fig.6 Schematic diagram of relational graph convolutional network

        (2)CompGCN

        CompGCN[47]利用知識圖譜中的composition operations同時學(xué)習(xí)節(jié)點、關(guān)系的表示向量,并利用參數(shù)分解方法使得模型具備多關(guān)系的可擴展性。在傳統(tǒng)的圖結(jié)構(gòu)中,即使是異構(gòu)圖中,邊節(jié)點上也并不存儲任何信息,而在知識圖譜等領(lǐng)域中這樣“邊上的信息”較為普遍。由于場景是一個在現(xiàn)實中存在的復(fù)雜實體和關(guān)系類型,傳統(tǒng)的GCN 算法廣泛應(yīng)用于同質(zhì)圖,而同質(zhì)圖算法遠不能滿足知識圖譜解決場景識別和構(gòu)建的需求,CompGCN便是針對于Multi-relational Graphs 提出的異質(zhì)圖表征算法,CompGCN 能夠同時對node 和relation 進行表征學(xué)習(xí)。在節(jié)點分類、鏈接預(yù)測和圖分類任務(wù)上都取得Sota效果。其結(jié)構(gòu)如圖7所示。CompGCN較為傾向于知識圖譜鄰域,邊的Embedding聚合在常用的異質(zhì)圖網(wǎng)絡(luò)中并不常見,圖7 中有多種節(jié)點,如London 和United Kingdom;也有多種有向關(guān)系,如Born-in 和Citizen-of,Born-in 和Bord-in_inv 是同一關(guān)系的兩個方向。圖7 清晰展示出有向邊和反向邊的聚合過程。

        圖7 CompGCN流程示意圖Fig.7 Schematic diagram of CompGCN process

        3 場景知識表示

        隨著3D采集技術(shù)的快速發(fā)展,3D傳感器的可用性不斷提升,各類3D傳感器的價格也不斷飆升。這些3D傳感器采集的3D 數(shù)據(jù)可以提供豐富的三維立體信息如:幾何、形狀和比例[48]。在自動駕駛、機器人技術(shù)、等技術(shù)領(lǐng)域,3D 技術(shù)起到了無可替代的作用[49]。點云作為一種常用的三維數(shù)據(jù)格式,在三維空間中保留了原始的幾何信息,無需任何離散化。因此,它是許多場景理解相關(guān)應(yīng)用(如自動駕駛和機器人)的首選表示。并且通過2D圖像的補充,3D數(shù)據(jù)為更好地了解周圍的環(huán)境提供了機會[50]。然而,對三維點云的深入學(xué)習(xí)仍然面臨著幾個重大挑戰(zhàn)[51],如數(shù)據(jù)集規(guī)模小、三維點云的高維性和非結(jié)構(gòu)化性質(zhì)等。在此基礎(chǔ)上,本章重點分析了用于處理三維點云和視頻的深度學(xué)習(xí)方法構(gòu)建場景圖實體特征與實體關(guān)系。

        3.1 視頻和點云的實體識別

        3.1.1 實體識別網(wǎng)絡(luò)

        研究者們將三維圖像投射到n個視圖中提取特征,對特征進行緊耦合[52]從而實現(xiàn)精確的分類任務(wù)。MVCNN組合[53]來自多個視圖的特征聚合表示,這些表示生成一個三維形狀的單一緊湊描述符,且所有參數(shù)都經(jīng)過區(qū)分性學(xué)習(xí)的CNN架構(gòu)來組合來自多個視圖的信息,從而為3D形狀生成一個緊湊的描述符,但是其僅使用最大池化操作[54]會導(dǎo)致部分知識的丟失。此外,研究者們還提出了幾種其他方法來提高識別精度[55-56]。

        而在現(xiàn)實生活更多的是圖結(jié)構(gòu)數(shù)據(jù),圖的結(jié)構(gòu)是十分不規(guī)則的,可以認為是無限維度的一種數(shù)據(jù),所以它沒有平移不變性。當前研究有多種技術(shù)處理這類數(shù)據(jù),例如GNN[57]、DeepWalk[58]、node2vec[59]等。而GCN(圖卷積神經(jīng)網(wǎng)絡(luò)),作為一個特征提取器,設(shè)計了一種從圖數(shù)據(jù)中提取特征的方法,從而可以使用這些特征去對圖數(shù)據(jù)進行節(jié)點分類(node classification)、圖分類(graph classification)、邊預(yù)測(link prediction),還可以得到圖的嵌入表示(graph embedding)。Wei 等人[60]通過將多個視圖視為Grpah節(jié)點,在視圖GCN中使用一種由局部圖卷積、非局部消息傳遞和選擇性視圖采樣組成的核心層應(yīng)用于構(gòu)造的圖,所有級別上最大池節(jié)點特征的串聯(lián)最終用于形成全局形狀描述符。同時為了解決GCN網(wǎng)絡(luò)卷積操作的圖結(jié)構(gòu)固定大小的限制問題,利用非局部信息的傳遞,通過全圖長距離關(guān)聯(lián)性來更新節(jié)點特征。

        3.1.2 位置識別網(wǎng)絡(luò)

        對于場景對象的定位,常用的方法是利用雙目立體視覺計算圖像視差圖獲取整個場景圖像中每個像素的位置信息,這可能存在計算精度低、速度慢等缺陷。近些年來場景對象識別研究學(xué)者,提供了一些新的研究方向[61]。目前位置識別領(lǐng)域應(yīng)用最廣泛的技術(shù)是視覺同步定位與建圖(visual simultaneous localization and mapping,VSLAM)技術(shù),VSLAM也是移動機器人技術(shù)的重要研究領(lǐng)域。VSLAM主要功能是實現(xiàn)運動設(shè)備在未知場景中的自身位置判斷與環(huán)境實體建模。從最早的軍事用途到現(xiàn)在,視覺SLAM 已經(jīng)逐步走入了大眾的視野。由于現(xiàn)實環(huán)境的場景復(fù)雜性高、變化性大,眾多學(xué)者都在提高復(fù)雜光照條件下SLAM 的識別魯棒性上努力。Zeller等人[62]在2018年第一個使用光場相機子圖像進行追蹤建圖的算法設(shè)計,使用單傳感器設(shè)備從一張光場圖像獲取深度等技術(shù),使得利用單個光場相機具有尺度恢復(fù)的能力。對魯棒追蹤進行了改進,使相機能夠在復(fù)雜多變的場景中準確定位,追蹤過程直接在微透鏡圖像以及虛擬孔徑圖像上進行,并且使用了coarse-to-fine的方式優(yōu)化位姿。尺度優(yōu)化算法能夠連續(xù)地估計關(guān)鍵幀的尺度,通過對多幀估計聯(lián)合優(yōu)化得到全局一致的尺度。但后續(xù)研究停止,該技術(shù)僅停留在實驗室的試驗研究階段,并不能在社會、工業(yè)上進行有效推廣與應(yīng)用。

        3.2 視頻和點云的融合

        3.2.1 數(shù)據(jù)融合Pixel Level

        像素級圖像融合[63]目的是同場景下互補信息收集多個輸入圖像生成合成圖像。從不同的成像設(shè)備[64]或單一類型的傳感器捕獲稱為源圖像的輸入圖像,被稱為融合。合成圖像應(yīng)該比任何單獨輸入更適合人類或機器感知。像素級圖像融合被認為在遙感、衛(wèi)星地圖、醫(yī)學(xué)影像、自動駕駛等多個領(lǐng)域具有重要意義。傳統(tǒng)方法大多采用機器學(xué)習(xí)算法,通過各種技術(shù)進行像素圖像分割,如閾值分割[65]、區(qū)域增長[66]、邊緣檢測[67]、聚類[68-69]等。同時,深度學(xué)習(xí)(DL)技術(shù)在像素級圖像處理問題上取得了巨大的成功。也有一些研究集中于某些特定應(yīng)用領(lǐng)域的融合問題,如醫(yī)學(xué)成像[70]、遙感和[71]監(jiān)控。而在場景識別中的應(yīng)用——視頻對象聯(lián)合分割中,基于面片匹配的方法被廣泛用于提取視頻幀之間的相似度。但是,由于這些方法降低了像素定位的精度,容易導(dǎo)致像素誤分類。

        在邊緣檢測技術(shù)對圖像進行處理方面,像素級邊緣檢測器無法準確檢測平滑輪廓,所有閾值操作必須以像素級精度執(zhí)行。有些應(yīng)用程序甚至需要比像素網(wǎng)格更高的精度。例如HCNet[72]能有效地捕獲全局上下文信息,以實現(xiàn)更精確的語義分割,并且提出了一種PCM方法來學(xué)習(xí)由預(yù)先分割產(chǎn)生的每個均勻區(qū)域內(nèi)的像素級依賴關(guān)系。對不同區(qū)域之間的區(qū)域級上下文進行建模,聚合細粒度像素上下文特征和粗粒度區(qū)域上下文特征。Xu等人[73]提出一種基于深度學(xué)習(xí)語義分割的像素級變化檢測和對象級變化檢測相結(jié)合的方法。針對像素級和目標級變化檢測方法中存在的大量“椒鹽”現(xiàn)象和虛假檢測問題,結(jié)合高分辨率遙感圖像的多維特征,使用隨機森林分類器進行分類,得到像素級變化檢測結(jié)果。解決了圖像分割過程中繁瑣的問題。

        3.2.2 中間融合Feature Level

        通過文獻[74]構(gòu)建復(fù)雜的集合,將多個低級圖像特征與來自對象檢測器和場景分類器的高級上下文相結(jié)合,但是其性能很容易停滯不前。例如:HyperDense-Net[75]提出一種三維全卷積神經(jīng)網(wǎng)絡(luò),使用MRI(magnetic resonance imaging)核磁共振T1加權(quán)成像圖(T1-weighted image)和T2 加權(quán)成像圖結(jié)合去改進分割效果,創(chuàng)新使用了densenet 的密集連接用于多模態(tài)圖像融合。與早期/晚期融合相比,這顯著提高了學(xué)習(xí)表示能力。

        使用深度學(xué)習(xí)模型處理點云數(shù)據(jù)的一種常見方法是:首先將原始點云數(shù)據(jù)轉(zhuǎn)換為體積表示,即三維網(wǎng)格[76-77]。然而,這種方法通常會引入量化偽影和過多的內(nèi)存使用,從而難以捕獲高分辨率或細粒度特征。一類幾何深度學(xué)習(xí)方法試圖通過將形狀嵌入具有平移不變結(jié)構(gòu)的域來撤回卷積運算。幾何生成模型試圖將自動編碼器、變分自動編碼器(variational autoencoder,VAE)[78]和生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[79]等模型推廣到Non-Euclidean環(huán)境。這兩種設(shè)置之間的根本區(qū)別之一是輸入和輸出頂點之間缺乏規(guī)范順序,因此需要解決輸入-輸出對應(yīng)問題。對于點云數(shù)據(jù)提出了多種生成架構(gòu),此類方法都是對抽象的特征進行融合,也是使用最多的方法。

        3.2.3 決策融合Decision Level

        實際場景中會出現(xiàn)光照的變化、實體對象的遮擋[80]、實體對象與場景背景顏色相似等問題,會造成攝像頭的視頻分析出現(xiàn)大量的實體對象計算錯誤和誤分類問題。所以單純憑借視頻或照片的處理模型無法做到對場景的增強現(xiàn)實(augmented reality)[81]。同時針對檢測物理對象(包括表面和特定場景空間內(nèi)的單個物體),單純憑借圖片或視頻處理技術(shù)也是難以做到的。

        而多元感知數(shù)據(jù)融合[82]應(yīng)用效果方面:利用計算機圖像處理技術(shù)可以對不清晰的圖像進行去噪、銳化等處理[83];利用點云表示可以保留三維空間中原始的幾何信息,不進行離散化,同時也可以表示空間分辨率、點位精度、表面法向量等信息;物體的空間輪廓和具體位置,物體距離攝像機的距離也是可知的。然而,由于二維和三維數(shù)據(jù)生活在不同的空間,因此融合具有挑戰(zhàn)性[84]。雖然有PointNet[85-86],這種端到端的深度神經(jīng)網(wǎng)絡(luò),可以直接從點云學(xué)習(xí)到逐點特征以進行分割和分類任務(wù),也已被證明對從激光雷達獲得的密集點云非常有效。但它們對稀疏雷達點云的效果卻不如BEV 或文獻[87]。同時聚合在不同時間戳中獲得的多個雷達讀數(shù)有助于在點云中提供更多的點,但這些點并不能很好地表示對象的形狀和大小。相機難以捕捉細粒度的3D 信息,而激光雷達在遠距離提供非常稀疏的觀測[88]。本小節(jié)對當前比較流行和經(jīng)典的模型識別和融合流程進行了匯總,如圖8所示。

        圖8 比較流行和經(jīng)典的模型識別和融合流程進行了匯總示意圖Fig.8 Summary of popular and classic model identification and fusion processes

        4 場景種類劃分

        在實際場景識別中,一般使用分割模型對場景圖進行分“塊”處理進而識別場景內(nèi)不同實體。然而現(xiàn)有的語義/實例/全景分割模型往往都要考慮類別信息,這導(dǎo)致在此類圖像編輯場景中出現(xiàn)了一些不可避免的問題,如圖9 所示[89]:類別的歧義性導(dǎo)致模型對同一個“塊”有兩種解讀,例如桌子和椅子,沙發(fā)和床。同時,會使得網(wǎng)絡(luò)無法預(yù)測出訓(xùn)練階段標注的類別,缺少一定的泛化能力,例如卷發(fā)梳、筆和電話。由于實體是一個很客觀的概念,所以一般模型需要做大量的數(shù)據(jù)人工分析來判斷對實體“塊”的定義是合理的。

        圖9 場景種類層概念示意圖Fig.9 Schematic diagram of concept of scene category layer

        根據(jù)當前技術(shù)發(fā)展,場景劃分主要分為聚類和分類兩種方法,其中:聚類方法是為了剔除共性實體、分類方法是為了提取特性實體,進而對相似場景、差異場景、陌生場景等進行識別和劃分。一般通過深度學(xué)習(xí)算法,包括卷積網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)、殘差收縮網(wǎng)絡(luò)[90]等,可以有效地對實體進行分類和聚合,從而分類場景的不同權(quán)重,進而分類出不同場景。李飛飛團隊[91]的最新研究——PSGNet(physical scene graphs,PSG)網(wǎng)絡(luò)架構(gòu),首先進行特征提取,采用ConvRNN[92]從輸入中提取特征進而構(gòu)建圖形,負責優(yōu)化現(xiàn)有物理場景圖(PSG)級別,最后用于端到端訓(xùn)練的圖形渲染。其中,利用向量化,在每個池化核相關(guān)聯(lián)的圖像區(qū)域及其邊界上聚合節(jié)點統(tǒng)計產(chǎn)生新節(jié)點的屬性向量,這樣便可以直觀地表示出真實場景中的物體屬性,解決了CNN 在識別物體具體屬性方面的缺點。細微到物體表面的紋理都可以利用PSGNet進行識別。Kong 等人[93]為了實現(xiàn)人的感知效果,為三維點云場景提出了一種新的語義圖表示法,它捕捉語義信息并建立了語義對象之間的拓撲關(guān)系。同時提出了一個有效的網(wǎng)絡(luò)來估計點云場景之間的圖形匹配相似度,該網(wǎng)絡(luò)可用于循環(huán)閉合檢測,為場景識別提供研究方向。同時可以利用基于全局描述符的方法,如:SeqLPD[94]和LPD-Net[95]在特征空間和笛卡爾空間中提取特征,融合每個點的鄰域特征,并使用NetVLAD 生成全局描述符。上述方法處理了大量的原始點,并且在點云場景旋轉(zhuǎn)時取得了理想的性能。從場景內(nèi)實體聚類和場景整體分類兩方面總結(jié)場景種類劃分的方法。

        4.1 基于實體聚類的場景劃分

        聚類(clustering)是按照某個特定標準(如距離、單一特征相似度等)把一個數(shù)據(jù)集分割成不同的類或簇,使得同一個簇內(nèi)的對象相似性盡可能大,不在同一個簇中的對象的差異性盡可能大;聚類后同一類的對象盡可能聚集到一起,不同類對象盡量分離。原始知識從多個維度視圖進行語義聚類,例如位置等知識視圖是第一級別區(qū)分生成的,表示“集群類型”??傊螤詈蛢?nèi)容是聚類的區(qū)分視圖,通過收集每個視圖中的聚類信息,形成語義表示。

        聚類的判定方法分為很多種,例如one-hot 編碼聚類方法。在不考慮特征語義的情況下,把所有區(qū)分類別的特征進行one-hot 編碼,然后進行聚類降維。這種方法的缺點是:如果特征的類別取值太多,one-hot編碼后的特征維度會過高,降維之后也會丟失大量的信息。針對此缺點,Xiao 等人[96]提出多視圖聚類框架,該框架提供一種新的無監(jiān)督方法,利用聚類的隸屬粘合度(即概率分布)來識別實體和關(guān)系。

        對于實體檢索任務(wù),可以將知識元素(即實體/關(guān)系)和文本描述聯(lián)合嵌入到同一語義空間中。給定一個作為單詞序列的查詢,可以通過語義匹配來預(yù)測相應(yīng)的實體。解決了主要的知識嵌入方法采用幾何翻譯來設(shè)計評分函數(shù)問題;解決了部分對于自然語言處理領(lǐng)域來說弱語義的問題。但是對于細粒度的異質(zhì)性信息而言,對用戶交互意圖進行編碼的過程中幾乎沒有被利用。本章節(jié)列舉了三種聚類相似度評估分類和10 種算法,如表2所示。

        表2 聚類相似度度量方法對比表Table 2 Comparison of clustering similarity measurement methods

        4.2 基于場景分類的場景劃分

        深度學(xué)習(xí)可以在圖像中提取高級特征,它的模型在處理圖像、視頻、遙感等任務(wù)中取得了驚人的進展。在此之后,研究人員提出了一些基于深度學(xué)習(xí)的場景分類算法,如基于CNN 的方法和基于GAN 的方法。隨著k均值聚類算法、主成分分析和稀疏編碼技術(shù)的成熟,計算機可以自動從未標記圖像中學(xué)習(xí)特征,由此出現(xiàn)了大量基于無監(jiān)督學(xué)習(xí)的場景分類方法,并在場景分類方面取得了實質(zhì)性進展。然而,這些無監(jiān)督學(xué)習(xí)方法不能充分利用數(shù)據(jù)類信息[97]。深度學(xué)習(xí)理論的進步以及多模態(tài)數(shù)據(jù)和并行計算資源的增加,有效地解決了此問題的部分難點。

        從細粒度圖像分類的角度思考場景間相似性和場景內(nèi)差異性,針對圖像細粒度分類的技術(shù)在場景分類上有效果的提升,如Bilinear CNN。場景分類和圖像分類既有同一性又有差異,例如:細粒度實體分類和細粒度場景分類任務(wù)有相當多的相似性,因此可以比較的實際是物體分類、場景分類等概念,而細粒度則不在討論維度上。在場景分類中,場景由實體,實體布局,背景(墻壁、裝飾等)和實體之間的關(guān)系等綜合而成,是十分抽象的概念。另外場景的場景間相似性和場景內(nèi)差異性也不等同于細粒度中的情形,其中可能涉及到空間布局,尺度和物體的種類等因素。

        除了實體、關(guān)系和事件等元素的定位之外,場景分類應(yīng)用需要對更加復(fù)雜的符號知識定位,這些知識由多個事件組成,相互之間具有密切關(guān)系。

        這些多重關(guān)系事件很難用單一或復(fù)雜神經(jīng)網(wǎng)絡(luò)實現(xiàn)精準識別和表達,需依靠外部知識庫的強化補充或融合,使用多模態(tài)知識圖譜作為外部知識庫表達不同場景,用其中一個或多個子圖表達由多實體及其關(guān)系組成個單一或多個事件,可以增強場景細粒度表達和場景知識復(fù)雜性表達。多模態(tài)知識圖譜基于傳統(tǒng)知識圖譜構(gòu)建了多種模態(tài)(例如視覺模態(tài))下的實體、實體關(guān)系、場景事件。場景與多模態(tài)知識圖譜融合做場景分類可以使得網(wǎng)絡(luò)預(yù)測出訓(xùn)練階段標注的類別,增強一定的泛化能力。

        4.2.1 基于場景靜態(tài)元素抽取的分類

        場景元素抽取就是場景知識的獲取,是將場景信息轉(zhuǎn)化為計算機理解的知識,比較普遍的任務(wù)是VAQ[98]、NLVR[99]等。其中,事件關(guān)系抽取是信息抽取中較難的任務(wù),MMKG 可以通過提供視覺特征使得MNER(multimodal entity recognition)附帶圖像信息用于實體識別。但是現(xiàn)實情況下大部分實體存在多種不同名稱,并且一種名稱可能對應(yīng)多種實體,多模式實體鏈接(multimodal entity linking,MEL)可以解決此類問題的部分難點[100]。其使用傳統(tǒng)文本和場景視覺數(shù)據(jù),將簡單文本中不確定提及信息、場景實體特征轉(zhuǎn)換后的信息連接到多模態(tài)知識圖譜中的實體(節(jié)點),成為研究熱門。且越來越多的工作更傾向使用多模態(tài)知識圖譜作為場景或鏈接的知識庫。但是MNER 對于文本與圖片無關(guān)的情況可能沒有辦法處理,沒法將表面不相關(guān)或關(guān)聯(lián)性復(fù)雜的鏈接數(shù)據(jù)達到相互回歸的狀態(tài),這樣很難做到多模態(tài)知識圖譜的實體節(jié)點與場景事件的高切合度融合,難以做到多場景的高區(qū)分度分類任務(wù)。

        通過利用相關(guān)文章中的背景知識來描述與圖像相關(guān)的命名實體、實體關(guān)系和事件是解決文本實體和其對應(yīng)視覺對象embedding 盡量靠近的辦法,通過此方法,可以側(cè)面描述場景非實體的事件發(fā)生情況,將場景知識有效連接到多模態(tài)知識圖譜,將一個事件分類為不同的場景類別,即MMKG 中不同粒度的概念。場景分類也可以看成是一種特殊的鏈接預(yù)測任務(wù),預(yù)測實體、實體關(guān)系和場景事件對應(yīng)的概念。在多模態(tài)知識圖譜層將場景進行分類有諸多方法,例如Zhao 等人[101]構(gòu)建了一個多模態(tài)知識圖譜,將視覺對象與命名實體相關(guān)聯(lián),從網(wǎng)絡(luò)收集的外部知識中同時建立實體之間的關(guān)系,將得到的文本實體和視覺目標的嵌入映射到同一個表示空間中,并且進行訓(xùn)練保證文本實體和其對應(yīng)的視覺對象的嵌入盡量靠近。利用此方法,可以有效地對低區(qū)分度實體的多場景進行分類。如圖10所示。不同場景存在相同或相似實體集合,通過“工作裝、多人工作”等多模態(tài)綜合的事件信息,可以進行有效的場景區(qū)分。

        圖10 場景識別融合多模態(tài)知識圖譜示意圖Fig.10 Schematic diagram of scene recognition fusion multimodal knowledge graph

        圖片的實體抽取和自然語言的語義抽取是基于時間點的任務(wù),任務(wù)涉及對象通常定格在某個瞬間,具有實體不動性、實體關(guān)系復(fù)雜程度低、與場景關(guān)聯(lián)性高等特性。而事件的抽取基于時間段,其具有實體活動范圍大、流動性高、實體與實體間的關(guān)系隨時間變化而變化等諸多增加場景分析和抽取難度的特性。視覺常識生成任務(wù)比看圖說話要更難,因為需要常識推理來預(yù)測給定圖像之前或之后的事件。但對于場景分類等業(yè)務(wù)模型,常識一旦生成,可增強場景區(qū)分度,并極大增加場景細粒度分類準確率,是一種針對場景分類任務(wù)的有效區(qū)分數(shù)據(jù)類型。Xing等人[102]提出了一個知識增強的多模態(tài)BART(KM-BART)模型,這是一種基于Transformer的seq2seq 模型,能夠從圖像和文本的多模態(tài)輸入中推理常識。特別是基于知識的常識生成(sense generation of knowledge,KCG)的預(yù)訓(xùn)練任務(wù)通過利用在外部預(yù)訓(xùn)練大型語言模型中的常識知識,提高了VCG(visual common sense generation)任務(wù)的模型性能,利用外部常識數(shù)據(jù)增強場景差異和單場景細粒度,改善了場景分類領(lǐng)域技術(shù)。

        4.2.2 基于場景時序性元素分類

        多模態(tài)知識圖譜的節(jié)點是偏靜態(tài)描述的實體,而場景的事件偏動態(tài)。與實體相比,場景事件能夠更加清晰、精確表示發(fā)生的各種事實信息,從而讓精準化對時間進行分類。若機器能夠接近于人腦知識結(jié)構(gòu)體系的方式來處理知識和進行場景分類,需要機器更好地理解復(fù)雜場景下的具體問題,相較于改變抽取任務(wù)和識別任務(wù)進而很好地分析場景事件,改變知識圖譜的存儲結(jié)構(gòu)更為穩(wěn)妥,用多模態(tài)知識去表示時間段的事件問題,是值得研究的。

        基于時間段的事件抽取涉及三個關(guān)鍵對象:實體、觸發(fā)器、觸發(fā)參數(shù)。如圖10 所示,比如,場景描述:“我坐在椅子上,旁邊有人來送文件”。我、桌子、凳子等物品就是此時間段內(nèi)出現(xiàn)的實體,辦公室就是此事件發(fā)生時候的場景所在地,動詞“坐”就是此時間段內(nèi)實體觸發(fā)的觸發(fā)器,觸發(fā)參數(shù)即為“送、拿著”等,是狀態(tài)詞。通過視覺的實體識別,實體位置識別、實體關(guān)系識別等進而推理出事件,對事件進行分類即是對場景進行分類。但動態(tài)運動過程難以表達,在場景事件記錄融合中,Long等人[103]利用隱式特征空間中的交互式消息傳播動態(tài)集成視覺和運動學(xué)信息。所考慮的多模態(tài)輸入數(shù)據(jù)包含了視頻和運動學(xué)序列,并且在提取embedding后建立成一個包含三種關(guān)系的知識圖譜,然后用KG embedding中GNN 的方法RGCN 來編碼圖結(jié)構(gòu)信息,之后通過全連接網(wǎng)絡(luò)實現(xiàn)手勢分類任務(wù)。

        另外一種有效方法就是結(jié)合外部知識圖譜,即融合常識推理,也就是基于對世界的一般理解來關(guān)聯(lián)相似實體和推斷相似關(guān)系的能力。Kan 等人[104]提出了融合常識知識的SGG 框架,用于零樣本關(guān)系預(yù)測。整個模型中的核心部分就是一個新的圖挖掘模塊來模擬外部常識知識圖譜中實體周圍的鄰域和路徑信息,并將它們集成到最先進的SGG 框架中。解決了由于缺乏常識推理,即關(guān)聯(lián)相似實體并根據(jù)對世界的一般理解推斷相似關(guān)系的能力不足問題,其將多模態(tài)知識圖譜和外部常識的高匹配度融合,有效地模仿了人類大腦區(qū)分不同場景的思維流程。當場景知識、事件充分分析后,MMKG構(gòu)建需要將普通KG中的符號知識(包括實體、概念、關(guān)系等)與圖像關(guān)聯(lián)起來。MMKG的構(gòu)建主要有兩種方式:即在圖像上標注KG 中的符號:在圖像上標注KG 中的對應(yīng)符號。但此類方法工作量大,知識存儲在多模態(tài)知識圖譜不能進行有效的泛化。為解決此類問題,Hong等人[105]提出了一種新穎的語言和視覺實體關(guān)系圖,用于對文本和視覺之間的模態(tài)間關(guān)系以及視覺實體之間的模態(tài)內(nèi)關(guān)系進行建模,利用目標和方向鏈接這兩個知識圖譜,進行模型構(gòu)建。提出了一種消息傳遞算法,用于在圖中的語言元素和視覺實體之間傳播信息,然后將其結(jié)合起來確定下一步要采取的行動。在真實場景中,優(yōu)化了正確感知環(huán)境能力,增強了智能體感知場景、理解場景并分類進而解釋復(fù)雜指令的能力。

        在處理或構(gòu)建預(yù)測場景事件類型中的多模態(tài)知識圖譜時,可通過圖像處理模型將實體轉(zhuǎn)化為節(jié)點參數(shù),將觸發(fā)器解釋為節(jié)點的連線即關(guān)系,而節(jié)點參數(shù)可以解釋為實體的屬性或者狀態(tài)。一個實體可以有多個狀態(tài)和多個連接其他實體的關(guān)系,一個狀態(tài)可以有與不同實體相連的多關(guān)系。但是,在場景實體不變的情況下,實體的狀態(tài)所連接的關(guān)系網(wǎng)絡(luò)不再是趨于分類,而是趨于回歸狀態(tài)。這就是通過預(yù)測事件類型進而分類場景。

        5 總結(jié)與展望

        本文引入了3D實時場景圖作為可操作場景空間感知的統(tǒng)一表示,深刻綜述綜合場景知識表達場景思想概念。本綜述展現(xiàn)了基于多模態(tài)知識圖譜的3D場景識別與表達方法的思想技術(shù)流程和技術(shù)可行性分析,并討論了它的幾個應(yīng)用,包括規(guī)劃任務(wù)、人機交互、多場景識別、預(yù)測等。首先,第1章深刻闡述了特征知識的存儲、遷移和匹配的研究問題。為了使3D場景能快速實時構(gòu)建,使用多模態(tài)知識圖譜作為對象特征的存儲數(shù)據(jù)庫。對實體特征之間的復(fù)雜關(guān)系、場景內(nèi)實體知識表達的重復(fù)利用性、場景知識的存儲再表達等關(guān)鍵技術(shù)進行了技術(shù)綜述和可行性分析。其次,第2章分析了用于處理三維點云和視頻的深度學(xué)習(xí)方法構(gòu)建場景圖實體特征與實體關(guān)系。對當前處理多模態(tài)數(shù)據(jù)網(wǎng)絡(luò)、實體識別、位置分析等先進模型進行可行性分析與技術(shù)對比;對三種數(shù)據(jù)融合方式進行了詳細的思想闡述,對當前優(yōu)秀模型進行了技術(shù)分析和對比。最后,通過實體聚類、場景分類兩大步驟為實際場景識別工作的分類難點做出先進技術(shù)綜述和分析。通過小實體聚類和大場景分類兩個工作,表述了剔除共性實體、提取特性實體的工作性質(zhì)。進而詳細展示了對相似場景、差異場景、陌生場景等進行識別和劃分的工作特點和技術(shù)難點。

        當前場景識別領(lǐng)域還有幾個問題值得研究:

        首先,特大量特征知識的存儲、遷移和匹配問題,值得進一步研究。當前場景識別的技術(shù)發(fā)展需要更多的研究來擴大場景識別的覆蓋范圍,進而引申出特大量特征處理技術(shù)。例如,通過開發(fā)可以從數(shù)據(jù)推斷其他節(jié)點屬性的算法(例如,對象的材質(zhì)類型和啟示),或者為不同的環(huán)境(例如,室外)創(chuàng)建新的節(jié)點類型。同時,知識的表示與符號機器學(xué)習(xí)的優(yōu)劣也是促進場景識別技術(shù)發(fā)展的關(guān)鍵。在KR中,知識是指以某種結(jié)構(gòu)化的方式表示的概念、事件和過程。在KR中限定了范圍和結(jié)構(gòu),而不是人們?nèi)粘I钪懈泄偎惺芎腕w現(xiàn)的。只有經(jīng)過計算機編碼的知識才能成為KR中的知識。但是,這種黑盒處理方式并不能有效地處理知識的遷移和異設(shè)備公用問題。將知識收集、處理、展示等過程可視化,是當前場景識別領(lǐng)域亟待解決的問題。僅停留在黑盒模型處理結(jié)構(gòu)化數(shù)據(jù)是不能做到知識的云端存儲、邊端應(yīng)用、終端顯示等先進技術(shù)要求和應(yīng)用的。

        第二,在場景識別中,在沒有良好先驗知識的情況下,無法很好地預(yù)測。僅停留在公開數(shù)據(jù)集是無法做到模型隨著知識更新而更新的,因為公開數(shù)據(jù)集無法做到隨著時間的更新而進行更新。目前,知識圖譜技術(shù)和公開數(shù)據(jù)集并不能覆蓋現(xiàn)實世界的所有知識,所以推理和補全就成為其核心任務(wù)。對于其推理關(guān)系涉及實體的位置,可以將其分為轉(zhuǎn)導(dǎo)推理和歸納推理,在場景識別任務(wù)中,需要兩者相互結(jié)合對場景的構(gòu)建和識別做出基于知識基礎(chǔ)的推理作用。即認知作用。將知識圖譜上升到認知圖譜是解決無良好先驗知識、無高時序性知識的優(yōu)秀方法。認知圖譜從多種心理學(xué)、人類歷史等方面汲取經(jīng)驗,結(jié)合多模態(tài)知識圖譜、強化學(xué)習(xí)、持續(xù)學(xué)習(xí)等關(guān)鍵技術(shù),建立穩(wěn)定推理和表達的有效機制,讓知識能夠被計算機理解和運用,實現(xiàn)從感知到認知的突破。解決推理、規(guī)劃、聯(lián)想、創(chuàng)作等復(fù)雜的認知智能化任務(wù)。同時,在場景圖與知識圖譜之間找到可靠的對應(yīng)關(guān)系是計算機視覺未來發(fā)展的一項重要任務(wù)。由于描述符的限制,原始匹配常常被大多數(shù)離群值所污染,算法給出的匹配結(jié)果可能會在具有相似特征的圖像中進行交叉交換。當今學(xué)術(shù)界也在尋找一種可解釋的人工智能技術(shù)來解決此類問題,例如可解釋機器學(xué)習(xí)、符號學(xué)習(xí)、知識學(xué)習(xí)等。

        第三,能否設(shè)計分布式機器人共享云端知識來應(yīng)對不同場景?,F(xiàn)實生活更多的圖結(jié)構(gòu)數(shù)據(jù)給與了研究者們對于可解釋機器學(xué)習(xí)任務(wù)的部分靈感,圖的結(jié)構(gòu)是十分不規(guī)則的,可以認為是無限維度的一種數(shù)據(jù),所以它沒有平移不變性。節(jié)點的周圍結(jié)構(gòu)具有獨特性質(zhì)。使用這類圖數(shù)據(jù)可以高效且準確地表示知識,GNN、GCN等基于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型誕生于此。這些網(wǎng)絡(luò)可以抽取圖結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)知識并對此充分理解,可用于更準確地表示復(fù)雜概念。這可能包括第三維度很重要的分子或網(wǎng)絡(luò),適用于場景理解和構(gòu)建任務(wù)。同時,由于圖結(jié)構(gòu)的高緯度性、節(jié)點高關(guān)聯(lián)性、復(fù)雜關(guān)系表達等優(yōu)點,可以作為異構(gòu)機器人共享云端數(shù)據(jù)的知識載體。結(jié)合云端海量先驗知識和終端機器人的少量識別即可做到場景識別的高準確率識別、低延時效果。

        猜你喜歡
        圖譜實體模態(tài)
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        主動對接你思維的知識圖譜
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        激情综合五月| 国产美女胸大一区二区三区| 一道本加勒比在线观看| 国产人妻鲁鲁一区二区| 欧美日韩不卡合集视频| 亚洲精品成人网线在线播放va| 少女高清影视在线观看动漫| a毛片全部免费播放| 国产人妖赵恩静在线视频| 亚洲av成人无网码天堂| 狂猛欧美激情性xxxx大豆行情| 国产超碰女人任你爽| 亚洲中文字幕第一页在线| 中日韩欧美成人免费播放 | 精品人妻av区乱码色片| 亚洲人成网址在线播放| 精品人妻中文av一区二区三区| 蜜桃精品国产一区二区三区 | 一区二区三区婷婷中文字幕| av有码在线一区二区三区| 无码精品人妻一区二区三区漫画| 久热综合在线亚洲精品| 无码免费午夜福利片在线| 久久这黄色精品免费久| 一本久道竹内纱里奈中文字幕| 999国内精品永久免费观看 | 国产剧情福利AV一区二区| 日本熟妇中文字幕三级 | 欧美性受xxxx黑人猛交| 女同性黄网aaaaa片| 少妇bbwbbw高潮| 虎白m粉嫩小在线播放| 国产国语亲子伦亲子| 国产成人一区二区三区影院动漫| 51精品视频一区二区三区| 久久麻豆精亚洲av品国产蜜臀| 三级黄色片免费久久久| 无码av免费精品一区二区三区| 国内精品久久久久久久久蜜桃| av网页免费在线观看| 亚洲国产成人精品无码一区二区|