亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        以圖像視頻為中心的跨媒體分析與推理

        2021-11-30 05:18:26黃慶明王樹(shù)徽許倩倩李亮蔣樹(shù)強(qiáng)
        智能系統(tǒng)學(xué)報(bào) 2021年5期
        關(guān)鍵詞:語(yǔ)義模態(tài)內(nèi)容

        黃慶明,王樹(shù)徽,許倩倩,李亮,蔣樹(shù)強(qiáng)

        (1. 中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049; 2. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 智能信息處理實(shí)驗(yàn)室,北京 100190)

        人類(lèi)通過(guò)多模態(tài)協(xié)同的方式對(duì)世界進(jìn)行感知與認(rèn)知。視覺(jué)是生物獲取環(huán)境信息的一種主要方式,Hubel 和Wiesel通過(guò)生物學(xué)實(shí)驗(yàn)發(fā)現(xiàn),高級(jí)生物通過(guò)不同復(fù)雜度的組織細(xì)胞對(duì)視覺(jué)信息進(jìn)行逐步提取與整合,實(shí)現(xiàn)視覺(jué)場(chǎng)景解構(gòu)與結(jié)構(gòu)化感知[1]。受上述研究啟發(fā), Marr[2]建立了完整的、可實(shí)現(xiàn)的視覺(jué)計(jì)算理論框架。在語(yǔ)言方面,Chomsky[3]提出了研究人類(lèi)語(yǔ)言機(jī)能的研究范式,并為計(jì)算機(jī)模擬語(yǔ)言生成奠定了理論基礎(chǔ)。心理學(xué)實(shí)驗(yàn)表明,視覺(jué)與聽(tīng)覺(jué)之間存在復(fù)雜的相互作用關(guān)系,即麥格克效應(yīng)[4]。人類(lèi)大腦的信息處理機(jī)制以圖、文、聲等多模態(tài)協(xié)同方式進(jìn)行。基于人腦強(qiáng)大的多模態(tài)信息抽象能力,人類(lèi)的認(rèn)知過(guò)程體現(xiàn)為將多模態(tài)信息進(jìn)行層級(jí)漸進(jìn)的符號(hào)概念轉(zhuǎn)化和符號(hào)推理。物理符號(hào)系統(tǒng)假說(shuō)認(rèn)為智能是用計(jì)算機(jī)和心理學(xué)方法進(jìn)行宏觀的人腦功能模擬[5]。信息加工心理學(xué)將心理過(guò)程看作是符號(hào)序列的信息加工過(guò)程[6]。心物同形論認(rèn)為認(rèn)知是對(duì)物理現(xiàn)實(shí)到人類(lèi)知覺(jué)現(xiàn)實(shí)的復(fù)雜同型轉(zhuǎn)換過(guò)程,而這一理論被大量借鑒到視覺(jué)計(jì)算領(lǐng)域[7]。最新的人腦結(jié)構(gòu)研究表明,人類(lèi)大腦當(dāng)中通過(guò)各種結(jié)構(gòu)的連接組成功能區(qū)域來(lái)實(shí)現(xiàn)從連接到認(rèn)知的轉(zhuǎn)換[8]。上述感知與認(rèn)知理論框架是發(fā)展人工智能理論與方法研究的重要依據(jù)。

        隨著信息技術(shù)的不斷發(fā)展,人類(lèi)社會(huì)已全面進(jìn)入網(wǎng)絡(luò)互聯(lián)時(shí)代。網(wǎng)絡(luò)用戶群體數(shù)量的不斷增長(zhǎng),以及手機(jī)、攝像頭等具有強(qiáng)大環(huán)境感知能力的終端設(shè)備的不斷普及,使得對(duì)物理世界與網(wǎng)絡(luò)世界的記錄越來(lái)越翔實(shí),并呈現(xiàn)跨模態(tài)、跨數(shù)據(jù)源的復(fù)雜關(guān)聯(lián)特性,即不同模態(tài)、不同來(lái)源的圖像、視頻、文本、音頻通過(guò)多源互補(bǔ)方式刻畫(huà)同一對(duì)象與事件信息。如何對(duì)體量巨大的跨媒體數(shù)據(jù)進(jìn)行有效管理與利用,是應(yīng)對(duì)重大變化的信息新環(huán)境的迫切需要,也是發(fā)展新一代人工智能亟待突破的瓶頸問(wèn)題。

        在海量跨媒體內(nèi)容當(dāng)中,超過(guò)90%的內(nèi)容通過(guò)圖像、視頻等視覺(jué)方式呈現(xiàn),以圖像視頻為中心的跨媒體分析推理技術(shù)近年來(lái)引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注和深入研究[9]。跨媒體分析推理的研究目標(biāo)是在對(duì)視覺(jué)、語(yǔ)言等不同模態(tài)信息的語(yǔ)義貫通理解基礎(chǔ)上,實(shí)現(xiàn)“舉一反三”的類(lèi)人智能推理,是促使人工智能從感知進(jìn)階到認(rèn)知并走向類(lèi)人智能的關(guān)鍵,也是信息科學(xué)、計(jì)算科學(xué)、神經(jīng)科學(xué)、認(rèn)知科學(xué)交叉的國(guó)際前沿科學(xué)問(wèn)題。傳統(tǒng)跨媒體處理方式是通過(guò)單一模態(tài)分析方法,如圖像視頻處理,自然語(yǔ)言處理,語(yǔ)音識(shí)別等,對(duì)特定模態(tài)通道的語(yǔ)義進(jìn)行獨(dú)立分析,然后進(jìn)行結(jié)果融合。這一方式導(dǎo)致了對(duì)跨媒體內(nèi)容的語(yǔ)義理解局限粗淺,難以從其中獲取充分全面的知識(shí),無(wú)法應(yīng)對(duì)開(kāi)放復(fù)雜的跨媒體內(nèi)容演化和多元化的跨媒體應(yīng)用場(chǎng)景。近年來(lái)由于直播、短視頻推薦等新應(yīng)用的出現(xiàn)和流行,數(shù)據(jù)的爆炸增長(zhǎng)和內(nèi)容的良莠不齊對(duì)網(wǎng)絡(luò)跨媒體數(shù)據(jù)管理與內(nèi)容服務(wù)造成了巨大挑戰(zhàn)。

        針對(duì)以圖像視頻為代表的海量網(wǎng)絡(luò)跨媒體內(nèi)容,借鑒高級(jí)生物的感知與認(rèn)知機(jī)理,團(tuán)隊(duì)對(duì)跨媒體內(nèi)容統(tǒng)一表征與符號(hào)化表征、跨媒體深度關(guān)聯(lián)理解、類(lèi)人跨媒體智能推理等關(guān)鍵技術(shù)開(kāi)展研究;基于上述關(guān)鍵技術(shù),研究團(tuán)隊(duì)著力于解決發(fā)展新一代人工智能的知識(shí)匱乏共性難題,開(kāi)展大規(guī)??缑襟w知識(shí)圖譜的構(gòu)建及人機(jī)協(xié)同標(biāo)注技術(shù)研究,為跨媒體感知進(jìn)階到認(rèn)知建立理論支撐,進(jìn)一步為多模態(tài)分類(lèi)、跨媒體檢索、事件發(fā)現(xiàn)與預(yù)測(cè)等跨媒體內(nèi)容管理與服務(wù)熱點(diǎn)應(yīng)用領(lǐng)域提供了可行思路。

        1 研究總體框架

        跨媒體由不同來(lái)源、不同模態(tài)的信息以交織融合的方式產(chǎn)生與演化??缑襟w不同模態(tài)信息的異構(gòu)性為跨媒體統(tǒng)一計(jì)算帶來(lái)了“異構(gòu)鴻溝”難題。另一方面,相比于傳統(tǒng)單一媒體,跨媒體內(nèi)容中蘊(yùn)含更為豐富的語(yǔ)義信息,然而跨媒體數(shù)據(jù)到語(yǔ)義知識(shí)之間存在較大的“語(yǔ)義鴻溝”,導(dǎo)致對(duì)跨媒體理解的粗淺和片面。針對(duì)海量跨媒體的形式異構(gòu)、內(nèi)容復(fù)雜、動(dòng)態(tài)演化等特點(diǎn),研究組針對(duì)以圖像視頻為中心的跨媒體分析推理理論與方法開(kāi)展了深入研究,建立了跨媒體分析推理研究的通用框架與范式,如圖1所示。具體而言,研究組通過(guò)符號(hào)化與統(tǒng)一表征、深度關(guān)聯(lián)理解、類(lèi)人智能推理等方式構(gòu)建了從數(shù)據(jù)到知識(shí)的歸納通路,通過(guò)粗粒度圖譜構(gòu)建、細(xì)粒度圖譜構(gòu)建和人機(jī)協(xié)同知識(shí)標(biāo)注平臺(tái)實(shí)現(xiàn)從知識(shí)到數(shù)據(jù)的演繹通路,最后在跨媒體歸納推理和演繹推理技術(shù)框架上,構(gòu)建跨媒體分析推理引擎技術(shù)原型系統(tǒng),為內(nèi)容管理與服務(wù)提供技術(shù)支撐。

        圖1 以圖像視頻為中心的跨媒體分析推理技術(shù)框架Fig.1 Cross-media analysis and reasoning framework centered on images and videos

        2 跨媒體統(tǒng)一表征與符號(hào)化表征

        網(wǎng)絡(luò)跨媒體內(nèi)容中包含大量的視覺(jué)及圖文聯(lián)合表達(dá)信息,對(duì)這些信息的統(tǒng)一表征是實(shí)現(xiàn)跨媒體統(tǒng)一計(jì)算的基礎(chǔ)性問(wèn)題,而將跨媒體信息進(jìn)行符號(hào)化轉(zhuǎn)換則是支撐跨媒體推理和認(rèn)知的關(guān)鍵。然而,盡管近年來(lái)圖像分類(lèi)與檢測(cè)技術(shù)取得了一定進(jìn)展,但對(duì)跨媒體當(dāng)中的視覺(jué)信息的符號(hào)化轉(zhuǎn)換精度仍處在較低水平。進(jìn)一步深入分析,針對(duì)視覺(jué)模態(tài)與文本模態(tài)的符號(hào)化表征方式之間存在的顯著差異,也為跨媒體統(tǒng)一計(jì)算與符號(hào)化表征造成了本質(zhì)困難。

        為此,研究組近年來(lái)開(kāi)展了如下的研究工作。針對(duì)視覺(jué)內(nèi)容的局部、淺層表征在描述性、顯著性和判別性不足等難題,借鑒生物視覺(jué)感知理論,對(duì)視覺(jué)表征進(jìn)行視覺(jué)空間擴(kuò)展和縱向特征層級(jí)融合。引入視覺(jué)內(nèi)容上下文,模擬生物神經(jīng)元信息傳遞規(guī)律,建模視覺(jué)基元間相關(guān)性和信息傳遞關(guān)系,建立了視覺(jué)內(nèi)容的通用符號(hào)表征體系。模擬生物視覺(jué)層級(jí)信息傳遞過(guò)程,提出視覺(jué)層級(jí)表征的遞進(jìn)式融合方法,實(shí)現(xiàn)了動(dòng)態(tài)復(fù)雜時(shí)空環(huán)境下的多尺度視覺(jué)目標(biāo)高效聚焦與跟蹤。針對(duì)圖像和文本內(nèi)容的異構(gòu)性問(wèn)題,提出跨媒體符號(hào)化統(tǒng)一表示及調(diào)和統(tǒng)一表示方法,實(shí)現(xiàn)了圖文模態(tài)當(dāng)中從局部到整體的內(nèi)容語(yǔ)義對(duì)齊表示。

        2.1 多尺度顯著性視覺(jué)表征

        針對(duì)視覺(jué)內(nèi)容匹配與檢索的需求,提出了描述性視覺(jué)單詞和視覺(jué)短語(yǔ)的通用提取算法框架。對(duì)視覺(jué)單詞的空間近鄰關(guān)系統(tǒng)計(jì)矩陣上的隨機(jī)游走穩(wěn)態(tài)結(jié)果進(jìn)行挖掘,得到視覺(jué)場(chǎng)景中語(yǔ)義顯著的單詞集合與頻繁共現(xiàn)的視覺(jué)詞對(duì)。如圖2所示,本文方法通過(guò)視覺(jué)單詞及其多尺度組合刻畫(huà)視覺(jué)物體和場(chǎng)景,具有可比擬文本詞和短語(yǔ)的強(qiáng)描述能力。

        圖2 描述性視覺(jué)單詞和視覺(jué)短語(yǔ)的通用提取算法框架Fig.2 Descriptive visual words visual phrases generation framework

        所提方法可用于檢索排序等任務(wù),實(shí)現(xiàn)了視覺(jué)單詞表征能力的階躍,與傳統(tǒng)視覺(jué)單詞相比具有顯著精度優(yōu)勢(shì),檢索的平均精度均值(mean average precision, MAP)相對(duì)提高19.5%,重排序精度相對(duì)提高12.4%,處理速度快11倍以上[10]。

        2.2 視覺(jué)目標(biāo)與多模態(tài)符號(hào)表征

        針對(duì)復(fù)雜的圖文內(nèi)容,提出一種圖像和文本的多粒度符號(hào)信息建模表示方法,將圖像利用物體檢測(cè)技術(shù)提取到包含顯著物體的圖像區(qū)域并編碼成視覺(jué)符號(hào)表征,實(shí)現(xiàn)圖像?文本的聯(lián)合自注意統(tǒng)一表征,并分別將圖像和文本映射到隱含聯(lián)合表示空間。使用Wordpiece Token得到文本詞匯、短語(yǔ)、句子符號(hào)表示,并使用自注意機(jī)制分別學(xué)習(xí)圖像和文本內(nèi)小塊的關(guān)聯(lián),進(jìn)一步聚合小塊的信息得到圖像和文本的隱含空間表示。其中建模自注意機(jī)制的層包括多頭自注意力子層和對(duì)每個(gè)位置的前饋網(wǎng)絡(luò)子層。使用難例挖掘配合優(yōu)化三元組損失和體現(xiàn)數(shù)據(jù)高階結(jié)構(gòu)特性的三角損失學(xué)習(xí)圖像和文本到隱含空間的映射函數(shù)?;谠撍惴ㄟM(jìn)行了圖像文本匹配檢索的實(shí)驗(yàn),在FLICKR30K數(shù)據(jù)集上性能超過(guò)當(dāng)時(shí)最佳算法,在MSCOCO數(shù)據(jù)集上性能和最優(yōu)算法相當(dāng),并且檢索速度更快[11]。

        2.3 跨媒體調(diào)和學(xué)習(xí)與統(tǒng)一表征

        跨媒體數(shù)據(jù)對(duì)象之間存在復(fù)雜的關(guān)聯(lián)關(guān)系。考慮到異構(gòu)媒體數(shù)據(jù)內(nèi)容和結(jié)構(gòu)的復(fù)雜關(guān)聯(lián),本項(xiàng)目突破傳統(tǒng)數(shù)據(jù)擬合學(xué)習(xí)的桎梏,提出了一種基于高斯過(guò)程隱變量模型的非線性關(guān)聯(lián)學(xué)習(xí)框架,通過(guò)跨模態(tài)數(shù)據(jù)的相似度信息來(lái)表示數(shù)據(jù)間的拓?fù)浣Y(jié)構(gòu),并通過(guò)設(shè)計(jì)合理的正則約束,使得跨模態(tài)觀測(cè)空間的拓?fù)潢P(guān)系能夠被有效通過(guò)隱含子空間進(jìn)行保持,從而實(shí)現(xiàn)了拓?fù)浔3值目缒B(tài)表示學(xué)習(xí);此外,所提方法還能夠利用跨媒體對(duì)象間的語(yǔ)義關(guān)系作為先驗(yàn)知識(shí)來(lái)指導(dǎo)跨模態(tài)表示的學(xué)習(xí),實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)間的有效關(guān)聯(lián)建模;在海量跨模態(tài)數(shù)據(jù)庫(kù)上的多視角分類(lèi)和跨模態(tài)檢索等任務(wù)上的算法評(píng)測(cè)結(jié)果表明所提方法具有較好的性能表現(xiàn)。

        如圖3所示,進(jìn)一步,通過(guò)深入挖掘跨模態(tài)對(duì)象間的內(nèi)在聯(lián)系,對(duì)跨模態(tài)數(shù)據(jù)間的不同關(guān)聯(lián)結(jié)構(gòu)構(gòu)建了一種調(diào)和約束,以隱含一致表示的拓?fù)浔硎緸闃蛄?,建立了跨模態(tài)高斯隱變量模型的參數(shù)空間,更好地實(shí)現(xiàn)了異構(gòu)信息間的共享機(jī)制,在4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)結(jié)果表明了所提非線性非參數(shù)跨模態(tài)實(shí)體關(guān)聯(lián)方法相比于傳統(tǒng)線性、參數(shù)化及深層非線性的跨模態(tài)統(tǒng)一表征方法具有更好的模型容量,能夠更有效和精確地對(duì)跨模態(tài)數(shù)據(jù)對(duì)象的深層高階非線性關(guān)系進(jìn)行刻畫(huà)[12]。

        圖3 基于高斯過(guò)程隱變量模型的跨媒體調(diào)和學(xué)習(xí)Fig.3 Harmonized multimodal learning with gaussian process latent variable models

        3 跨媒體深度關(guān)聯(lián)理解

        與傳統(tǒng)單模態(tài)內(nèi)容理解方式不同,跨媒體依賴于對(duì)不同模態(tài)內(nèi)容的綜合理解。同時(shí),由于模態(tài)互補(bǔ)性、異構(gòu)性和信息不均衡性,針對(duì)特定模態(tài)的獨(dú)立語(yǔ)義分析容易造成對(duì)跨媒體理解的粗淺、片面等現(xiàn)象。為此,研究組針對(duì)全局、層次化、細(xì)粒度的跨媒體語(yǔ)義理解和語(yǔ)義保持的內(nèi)容轉(zhuǎn)換生成等跨媒體深度語(yǔ)義關(guān)聯(lián)理解技術(shù)開(kāi)展系統(tǒng)深入的研究,目標(biāo)是從復(fù)雜跨媒體內(nèi)容中獲取全面、深入的語(yǔ)義信息,并進(jìn)一步實(shí)現(xiàn)跨模態(tài)內(nèi)容的演繹生成,這也是使機(jī)器具備類(lèi)人跨模態(tài)信息轉(zhuǎn)換的重要技術(shù)。

        3.1 海量高維數(shù)據(jù)場(chǎng)的全局語(yǔ)義映射

        針對(duì)海量網(wǎng)絡(luò)圖像視頻缺乏高質(zhì)量語(yǔ)義標(biāo)注及部分標(biāo)簽低質(zhì)沖突等難題,借鑒格式塔心物同型論,在圖像視頻數(shù)據(jù)上構(gòu)建數(shù)據(jù)場(chǎng)(特征關(guān)聯(lián)拓?fù)鋱D),并在數(shù)據(jù)的不完全語(yǔ)義信息上構(gòu)建語(yǔ)義場(chǎng),進(jìn)而建立數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)與語(yǔ)義向量結(jié)構(gòu)之間的數(shù)據(jù)?語(yǔ)義場(chǎng)同型化映射框架。

        從散度場(chǎng)角度,基于數(shù)據(jù)場(chǎng)多層拓?fù)湫畔U(kuò)散建模思想,提出了可擴(kuò)展半監(jiān)督誘導(dǎo)式多核學(xué)習(xí)方法,融合多種互補(bǔ)視覺(jué)特征提高學(xué)習(xí)能力。通過(guò)多核融合的近似近鄰搜索來(lái)確定有信息量的緊湊無(wú)標(biāo)注訓(xùn)練數(shù)據(jù)子集。通過(guò)無(wú)標(biāo)注域的條件期望一致性實(shí)現(xiàn)在無(wú)標(biāo)注數(shù)據(jù)的語(yǔ)義標(biāo)簽擴(kuò)散,學(xué)習(xí)過(guò)程快速有效。所提方法具有良好的理論收斂特性,相比于傳統(tǒng)方法具有更低的算法復(fù)雜度,在處理圖像分類(lèi)和個(gè)性化圖像重排序時(shí)具有更好的性能表現(xiàn),需要的用戶交互更少。所提方法[13]是利用無(wú)標(biāo)注網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行半(弱)監(jiān)督視覺(jué)學(xué)習(xí)的早期工作之一。

        從旋度場(chǎng)角度,提出了針對(duì)海量無(wú)序標(biāo)注的群體語(yǔ)義修正模型,從旋度場(chǎng)角度對(duì)標(biāo)注不一致性進(jìn)行建模和因子化?;诔蓪?duì)比較的隨機(jī)圖霍奇排序,構(gòu)建Erd?s-Rényi隨機(jī)圖和隨機(jī)正規(guī)圖逼近,從不完整及不平衡的數(shù)據(jù)、視頻的質(zhì)量分值和用戶判斷不一致性中得到成對(duì)比較數(shù)據(jù)的霍奇分解,實(shí)現(xiàn)了群體不一致標(biāo)注的精確修正。在不同的群體標(biāo)注數(shù)據(jù)量下,證明了兩種隨機(jī)圖設(shè)計(jì)都具有良好的采樣近似特性。在大規(guī)模直播視頻質(zhì)量評(píng)估任務(wù)上驗(yàn)證了所提方法的有效性,該方法也適用于標(biāo)注質(zhì)量難以控制的網(wǎng)絡(luò)眾包信息處理。該項(xiàng)研究為群體語(yǔ)義標(biāo)注的組織實(shí)施方式提供了指導(dǎo),為將群體智能引入到圖像視頻理解領(lǐng)域提供了理論保證和關(guān)鍵技術(shù)[14]。

        3.2 層次化、細(xì)粒度語(yǔ)義理解

        借鑒人類(lèi)的層次化、概念化、實(shí)體化漸進(jìn)認(rèn)知過(guò)程,建模層次化語(yǔ)義關(guān)聯(lián)結(jié)構(gòu),建立面向極多類(lèi)數(shù)據(jù)的層次化視覺(jué)特征與層次分類(lèi)聯(lián)合學(xué)習(xí)框架,實(shí)現(xiàn)了從粗粒度語(yǔ)義到細(xì)粒度語(yǔ)義的漸進(jìn)圖像視頻語(yǔ)義理解。

        1) 提出了局部到整體的視覺(jué)語(yǔ)義層次化表示方法,對(duì)視覺(jué)表現(xiàn)和語(yǔ)義概念間的概率隸屬關(guān)系進(jìn)行建模。通過(guò)組稀疏編碼,獲得更加準(zhǔn)確的圖像層面的稀疏表示,利用混合范數(shù)正則化學(xué)習(xí)具有結(jié)構(gòu)稀疏特性的判別性視覺(jué)概念隸屬度分布。在不同概念層級(jí)上進(jìn)行投影和距離計(jì)算,實(shí)現(xiàn)了一種新的圖像語(yǔ)義度量。所提視覺(jué)語(yǔ)義描述符合人類(lèi)語(yǔ)義理解習(xí)慣,具有天然的可解釋性,適用于包括大規(guī)模語(yǔ)義圖像搜索,圖像標(biāo)注和語(yǔ)義圖像重排序等在內(nèi)的主流視覺(jué)應(yīng)用場(chǎng)景[15]。

        2) 提出了層次化語(yǔ)義類(lèi)別指導(dǎo)的視覺(jué)特征學(xué)習(xí)方法。對(duì)于在層次化類(lèi)別結(jié)構(gòu)當(dāng)中的每個(gè)中間節(jié)點(diǎn),同時(shí)學(xué)習(xí)一個(gè)判別性字典和分類(lèi)模型,不同層次上的字典通過(guò)挖掘不同粒度的判別性視覺(jué)特性學(xué)習(xí)得到。低層細(xì)粒度類(lèi)別的字典集成了其祖先節(jié)點(diǎn)的字典,在低層的類(lèi)別通過(guò)所構(gòu)建的字典中的多尺度視覺(jué)共同描述。在主流大規(guī)模極多類(lèi)數(shù)據(jù)集上的實(shí)驗(yàn)表明所提方法在當(dāng)時(shí)取得了最高的識(shí)別精度,在處理極多類(lèi)分類(lèi)問(wèn)題時(shí)達(dá)到更好的精度?效率折衷。研究成果[16]被CVPR大會(huì)主席、IJCV副主編等多名國(guó)際重量級(jí)學(xué)者重點(diǎn)引用。

        3.3 跨媒體內(nèi)容轉(zhuǎn)換生成

        跨媒體內(nèi)容轉(zhuǎn)換生成是在不同模態(tài)的深入理解基礎(chǔ)上,在語(yǔ)義保持的約束下進(jìn)行不同模態(tài)的內(nèi)容轉(zhuǎn)換生成,如從視覺(jué)到文本的內(nèi)容轉(zhuǎn)換生成(圖像/視頻概述[17-18]),從多模態(tài)到視覺(jué)的內(nèi)容轉(zhuǎn)換生成(圖像內(nèi)容生成[19])。

        在從視覺(jué)到文本的內(nèi)容轉(zhuǎn)換方面,視頻自然語(yǔ)言描述任務(wù)是在對(duì)視覺(jué)內(nèi)容理解的基礎(chǔ)上,生成對(duì)視覺(jué)內(nèi)容的自然語(yǔ)言描述,是一種更深層次的跨媒體內(nèi)容理解任務(wù)。當(dāng)前的方法通常是引入跨模態(tài)注意力機(jī)制,動(dòng)態(tài)地整合輸入信息進(jìn)行建模,最終生成與源輸入語(yǔ)義對(duì)應(yīng)的語(yǔ)言描述或者圖像內(nèi)容。然而,現(xiàn)有方法忽略了不同模態(tài)內(nèi)容的結(jié)構(gòu)信息,從而導(dǎo)致了語(yǔ)言描述結(jié)果不精確且效率低下等難題。

        為克服這一問(wèn)題,在自然語(yǔ)言描述方面,利用句法信息的先驗(yàn)知識(shí)來(lái)指導(dǎo)視頻描述中多模態(tài)特征的融合,可設(shè)計(jì)一種語(yǔ)法指導(dǎo)的分層注意力模型。引入了一種分層注意力機(jī)制,同時(shí)利用語(yǔ)義和句法線索來(lái)整合2D圖像特征、3D運(yùn)動(dòng)特征和句子上下文特征。該模型包含一個(gè)內(nèi)容注意力模塊和一個(gè)句法注意力模塊,兩者分別從時(shí)序的維度和模態(tài)的維度對(duì)上述特征進(jìn)行聚合。如圖4所示,整個(gè)內(nèi)容轉(zhuǎn)換過(guò)程包含3個(gè)部分:特征編碼器、分層注意力模塊、描述生成器。在大規(guī)模公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)表明,合理利用2D圖像和3D運(yùn)動(dòng)特征有利于視覺(jué)單詞的生成,而有效利用句子上下文特征有利于非視覺(jué)單詞的生成[17]。

        圖4 句法指導(dǎo)的視頻概述生成模型框架Fig.4 Syntax-guided video caption generation framework

        此外,在視頻描述任務(wù)中,具有最好性能的處理方式為基于注意力的模型,它們通過(guò)將顯著的視覺(jué)成分和句子進(jìn)行準(zhǔn)確關(guān)聯(lián)。然而,現(xiàn)有的研究遵循一般化的視覺(jué)信息處理過(guò)程,即在等間隔采樣的視頻幀上進(jìn)行視覺(jué)表觀特征提取和運(yùn)動(dòng)信息特征提取,從而不可避免地遇到視覺(jué)信息表征冗余,對(duì)內(nèi)容噪聲敏感和不必要的運(yùn)算開(kāi)銷(xiāo)等難題。

        為此,提出一個(gè)即插即用的選幀網(wǎng)絡(luò)Pick-Net,在視頻概述過(guò)程對(duì)包含更多信息量的視頻幀進(jìn)行選擇。如圖5所示,基于標(biāo)準(zhǔn)的編碼器?解碼器結(jié)構(gòu),設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)的序列化網(wǎng)絡(luò)訓(xùn)練過(guò)程,其中每次幀選擇的獎(jiǎng)勵(lì)被設(shè)計(jì)為最大化視覺(jué)多樣性和最小化句子生成與真實(shí)句子之間的差異性。得到正向獎(jiǎng)勵(lì)的幀選擇候選結(jié)果將被選擇,并且編碼器?解碼器的隱含表示將被更新用于未來(lái)的處理過(guò)程。這個(gè)過(guò)程一直持續(xù)直到整個(gè)視頻序列處理完畢。相應(yīng)地,一個(gè)緊湊的幀子集能夠被有效選擇來(lái)對(duì)視覺(jué)信息進(jìn)行表征并且無(wú)性能損失地進(jìn)行視頻概述。實(shí)驗(yàn)結(jié)果表明所提方法在僅僅選擇6~8幀的情況下就能獲得與傳統(tǒng)方法相近的視頻概述結(jié)果[18]。

        圖5 基于幀選擇的高效視頻概述方法Fig.5 Efficient video captioning based on PickNet

        在從文本到視覺(jué)的內(nèi)容轉(zhuǎn)換生成方面,其核心難點(diǎn)問(wèn)題在于文本信息的信息量遠(yuǎn)遠(yuǎn)小于視覺(jué)模態(tài)的信息量,且文本與視覺(jué)模態(tài)的異構(gòu)性也為這一任務(wù)帶來(lái)了更大的挑戰(zhàn)。

        針對(duì)上述問(wèn)題,提出一種增量推理的生成對(duì)抗網(wǎng)絡(luò),通過(guò)推理目標(biāo)圖像中視覺(jué)的增量和指令中知識(shí)信息的增量之間的一致性,來(lái)保證生成結(jié)果的正確性。如圖6所示,該模型包括3個(gè)模塊,分別是指令編碼器、圖像生成器和推理判別器。對(duì)于指令編碼器,分別采用單詞級(jí)別和指令級(jí)別的GRU網(wǎng)絡(luò)作為編碼器去對(duì)當(dāng)前指令和歷史指令進(jìn)行分析,得到知識(shí)信息的表示。對(duì)于生成器,采用多層感知機(jī)將上述的表示投影到語(yǔ)義增量的特征圖,然后將其與原始圖像的特征圖進(jìn)行合成。之后這個(gè)合成的表示和原始圖像通過(guò)圖像解碼器來(lái)生成目標(biāo)圖像,其中原始圖像作為一種具有指示作用的輔助。最后,利用推理編碼器來(lái)推理歷史視覺(jué)信息,保持視覺(jué)增量和當(dāng)前指令的一致性。其中視覺(jué)增量從原始圖像和目標(biāo)圖像的特征圖中提取。通過(guò)采用多模態(tài)條件判別器對(duì)上述的一致性進(jìn)行衡量,保證了生成圖像的邏輯合理性。通過(guò)將圖像中的視覺(jué)增量和用戶意圖的語(yǔ)義增量進(jìn)行連接,解決了文本與圖片交互生成的問(wèn)題[19]。

        圖6 基于增量推理的圖片內(nèi)容生成對(duì)抗網(wǎng)絡(luò)Fig.6 Generative adversarial network with linguistic instruction by increment reasoning

        4 類(lèi)人跨媒體智能推理

        推理的本質(zhì)是基于某些前提條件找到結(jié)論的過(guò)程,是人類(lèi)有別于其他生物的高級(jí)思維能力。從計(jì)算與人工智能角度而言,實(shí)現(xiàn)機(jī)器推理的關(guān)鍵是在現(xiàn)有數(shù)據(jù)表征結(jié)構(gòu)(符號(hào)、向量、矩陣)基礎(chǔ)上,對(duì)數(shù)據(jù)對(duì)象之間的關(guān)聯(lián)性進(jìn)行人類(lèi)可解釋的挖掘、補(bǔ)全與推斷。然而,實(shí)現(xiàn)機(jī)器的類(lèi)人推理目前仍存在較大困難。首先,機(jī)器對(duì)多模態(tài)信息的符號(hào)化轉(zhuǎn)換未能達(dá)到人類(lèi)水平,從而為后續(xù)的推理任務(wù)帶來(lái)阻礙。進(jìn)一步來(lái)看,機(jī)器對(duì)信息的處理方式與生物神經(jīng)系統(tǒng)存在本質(zhì)區(qū)別,機(jī)器以單向的前饋或反饋機(jī)制為主要方式,而人類(lèi)認(rèn)知系統(tǒng)中的信息處理通路與交互反饋更加復(fù)雜。最后,人類(lèi)所具有的舉一反三甚至直覺(jué)頓悟等能力目前機(jī)器尚不具備。

        基于上述現(xiàn)狀,研究組近年來(lái)對(duì)類(lèi)人跨媒體智能推理技術(shù)開(kāi)展了初步的研究。具體而言,跨媒體機(jī)器推理的“類(lèi)人”特性可體現(xiàn)為機(jī)器推理的可解釋性、推理過(guò)程的人機(jī)可協(xié)同性以及主動(dòng)交互性等。其中,可解釋性推理著力于解決現(xiàn)有數(shù)據(jù)驅(qū)動(dòng)方法機(jī)理難以解釋且難以泛化的固有缺陷,實(shí)現(xiàn)表征、組件和結(jié)果的可解釋性,提高人機(jī)互信水平;人機(jī)協(xié)同群智推理是在海量用戶產(chǎn)生噪聲知識(shí)的基礎(chǔ)上,通過(guò)數(shù)據(jù)學(xué)習(xí)和知識(shí)指導(dǎo)實(shí)現(xiàn)潛在實(shí)體對(duì)象關(guān)聯(lián)的推斷與補(bǔ)全,提高跨媒體知識(shí)量和稠密度;主動(dòng)交互式推理是在人機(jī)之間充分的多模態(tài)信息交換基礎(chǔ)上,完成各類(lèi)語(yǔ)義標(biāo)注、內(nèi)容轉(zhuǎn)換生成、事件預(yù)測(cè)等任務(wù)。

        4.1 可解釋跨媒體推理

        目前,大多數(shù)視頻事件分析算法都是基于端到端的深度模型,具有黑盒屬性(black-box),阻礙了算法的實(shí)際應(yīng)用。一種可解釋性視頻事件分析的方法是基于概念表征進(jìn)行事件分析。但是現(xiàn)有基于概念表征的視頻事件識(shí)別方法僅利用簡(jiǎn)單的池化方法處理視頻幀的概念表征以獲取整個(gè)視頻的概念表示,未充分考慮概念的時(shí)序存在模式、概念間的關(guān)系以及概念與事件間的關(guān)系。基于此,如圖7所示。

        圖7 概念挖掘網(wǎng)絡(luò)Fig.7 Concept knowledge mining network

        本文利用場(chǎng)景、物體、動(dòng)作概念檢測(cè)器獲取初始概念表征,提出概念知識(shí)挖掘網(wǎng)絡(luò),研究概念與事件間的依存關(guān)系,從而獲取豐富且完備的視頻概念表征,進(jìn)行可解釋性的視頻事件識(shí)別。概念知識(shí)挖掘網(wǎng)絡(luò)主要包含初始概念表征的提取,域內(nèi)概念知識(shí)挖掘和域間概念知識(shí)挖掘以及概念表示融合模塊。時(shí)序概念感受野動(dòng)態(tài)挖掘網(wǎng)絡(luò)的核心模塊是時(shí)序動(dòng)態(tài)卷積。時(shí)序動(dòng)態(tài)卷積包括系數(shù)生成和結(jié)果融合兩個(gè)模塊,系數(shù)生成模塊可以根據(jù)具有不同感受野的卷積核的輸出結(jié)果生成加權(quán)系數(shù),用于融合不同時(shí)序感受野下的概念表征,從而得到完備的視頻概念表征。實(shí)驗(yàn)結(jié)果表明,所提算法[20]在FCVID、ActivityNet等主流大型事件識(shí)別數(shù)據(jù)集上均取得較好的事件識(shí)別性能,同時(shí)所提算法也可以對(duì)事件識(shí)別結(jié)果進(jìn)行可解釋性分析。

        在跨媒體問(wèn)答任務(wù)當(dāng)中,針對(duì)現(xiàn)有隱式推理方法缺乏可解釋性,而顯式推理方法需要額外的標(biāo)注信息的問(wèn)題,從統(tǒng)計(jì)建模的角度出發(fā),分析兩類(lèi)方法優(yōu)化過(guò)程的主要差異。分析結(jié)果表明隱式推理方法缺乏足夠解釋性的根本原因是缺少對(duì)推理過(guò)程的直接建模。如圖8所示,考慮到自然監(jiān)督條件下缺少回答程序的標(biāo)注,假設(shè)問(wèn)題文本之下存在一組隱變量z代表推理過(guò)程,并重構(gòu)優(yōu)化問(wèn)題為優(yōu)化問(wèn)題、答案以及推理過(guò)程隱變量的聯(lián)合分布,對(duì)推理過(guò)程進(jìn)行直接建模。通過(guò)變分推斷方式對(duì)優(yōu)化問(wèn)題進(jìn)行求解,并采用基于變分自編碼器的方法對(duì)分解得到的模塊進(jìn)行建模,模型的每個(gè)部分都是從原始的聯(lián)合分布建模推導(dǎo)得到,保證了建模過(guò)程可解釋性。將本研究推導(dǎo)得到的模型與現(xiàn)有的3種使用不同融合策略的隱式推理方法進(jìn)行結(jié)合,在真實(shí)數(shù)據(jù)集以及合成數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),都取得了性能的提升,并且在推理過(guò)程可視化方面較基線更可解釋[21]。

        圖8 過(guò)程可解釋的跨媒體問(wèn)答模型Fig.8 Interpretable visual question answering

        4.2 人機(jī)協(xié)同群智推理

        隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們可接觸到的數(shù)據(jù)量日益增長(zhǎng)。為緩解信息過(guò)載問(wèn)題、改善用戶體驗(yàn),推薦系統(tǒng)得到廣泛應(yīng)用。然而,傳統(tǒng)推薦方法的性能易受到數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題的制約。為此,將知識(shí)圖譜作為輔助信息的推薦算法得到大量關(guān)注。現(xiàn)有結(jié)合知識(shí)圖譜的推薦算法大多使用實(shí)數(shù)向量在歐氏空間中進(jìn)行建模,然而,實(shí)數(shù)向量的內(nèi)積不具備內(nèi)在的反對(duì)稱性且表達(dá)能力有限。為此,研究組提出了基于四元數(shù)的協(xié)同知識(shí)圖譜推薦網(wǎng)絡(luò)[22],其框架如圖9所示,將用戶?項(xiàng)目交互矩陣及知識(shí)圖譜構(gòu)建為協(xié)同知識(shí)圖譜,利用四元數(shù)及其漢密爾頓乘積實(shí)現(xiàn)三元組旋轉(zhuǎn)匹配的語(yǔ)義規(guī)則,并實(shí)現(xiàn)結(jié)合注意力機(jī)制的偏好傳播與聚合方法,從而進(jìn)一步提高個(gè)性化推薦的精準(zhǔn)程度。

        圖9 基于四元數(shù)的知識(shí)圖譜推薦方法Fig.9 Quaternion-based knowledge graph network for recommendation

        具體而言,利用四元數(shù)漢密爾頓乘積可建模旋轉(zhuǎn)的性質(zhì),設(shè)計(jì)三元組旋轉(zhuǎn)匹配的語(yǔ)義規(guī)則。為進(jìn)一步提升推薦效果,可以采用結(jié)合注意力機(jī)制的偏好傳播與聚合方法。沿協(xié)同知識(shí)圖譜關(guān)系路徑,利用每個(gè)實(shí)體的鄰居實(shí)體信息輔助偏好的學(xué)習(xí),使網(wǎng)絡(luò)更適用于推薦任務(wù)。利用三元組的可信度分?jǐn)?shù)度量每個(gè)實(shí)體和其鄰居實(shí)體連接的強(qiáng)弱程度,進(jìn)而求取該路徑的注意力分?jǐn)?shù)。基于每個(gè)實(shí)體本身的嵌入和其鄰居嵌入得到每個(gè)實(shí)體的最終嵌入。

        4.3 主動(dòng)、交互式推理

        對(duì)于跨模態(tài)相關(guān)的任務(wù),現(xiàn)有模型往往都需要較大規(guī)模的標(biāo)注數(shù)據(jù)集來(lái)訓(xùn)練模型,且要求數(shù)據(jù)集內(nèi)的視覺(jué)內(nèi)容足夠豐富,文本描述足夠詳細(xì),以使得模型能夠很好地感知跨模態(tài)信息并將其關(guān)聯(lián)理解。但是,數(shù)據(jù)的標(biāo)注需要消耗很大的人力物力以及時(shí)間,而跨模態(tài)數(shù)據(jù)又因?yàn)樯婕安煌B(tài)的理解,對(duì)標(biāo)注的要求高于純視覺(jué)任務(wù)(分類(lèi)、分割等),標(biāo)注跨模態(tài)數(shù)據(jù)集更是代價(jià)極大。為了解決這個(gè)問(wèn)題,可將跨模態(tài)任務(wù)和主動(dòng)學(xué)習(xí)相結(jié)合進(jìn)行推理[23]。

        為此,提出一種面向圖像描述生成任務(wù)的結(jié)構(gòu)化語(yǔ)義對(duì)抗主動(dòng)學(xué)習(xí)框架,利用主動(dòng)學(xué)習(xí)挑選值得標(biāo)注的、更有指導(dǎo)意義的數(shù)據(jù),從而在減少標(biāo)注的花費(fèi)的同時(shí),又能夠使模型推理學(xué)習(xí)到最有價(jià)值的數(shù)據(jù)。

        具體如圖10所示,基于跨模態(tài)的結(jié)構(gòu)化語(yǔ)義框架和對(duì)抗學(xué)習(xí)的主動(dòng)學(xué)習(xí)模型,將視覺(jué)圖像中的關(guān)鍵物體、物體狀態(tài)和物體間聯(lián)系表示為一個(gè)結(jié)構(gòu)化的特征表示,進(jìn)而判斷樣本的語(yǔ)義豐富度。該模型由3部分組成:結(jié)構(gòu)化語(yǔ)義構(gòu)建模塊、多任務(wù)學(xué)習(xí)模塊和標(biāo)注狀態(tài)判別器。結(jié)構(gòu)化語(yǔ)義構(gòu)建模塊提取關(guān)鍵物體的區(qū)域特征,并將其編碼為結(jié)構(gòu)化的語(yǔ)義表示;之后,多任務(wù)學(xué)習(xí)模塊計(jì)算了基于詞級(jí)的快照損失和基于句級(jí)的重建損失,并以此更新模型;最后,狀態(tài)判別器使用對(duì)抗學(xué)習(xí)機(jī)制判別樣本的標(biāo)注狀態(tài),并以此選取有價(jià)值的樣本。作為模型關(guān)鍵部分的狀態(tài)判別器中引入了對(duì)抗學(xué)習(xí)的機(jī)制。通過(guò)已標(biāo)注樣本和未標(biāo)注樣本在判別器內(nèi)的對(duì)抗學(xué)習(xí),使得結(jié)構(gòu)化表示變得更加可分、更加充分,同時(shí)使得判別器判別有價(jià)值樣本的能力更加強(qiáng)大。

        圖10 圖像概述生成的結(jié)構(gòu)化語(yǔ)義對(duì)抗主動(dòng)學(xué)習(xí)Fig.10 Adversarial active learning for image captioning

        用自然語(yǔ)言預(yù)測(cè)視頻中潛在的未來(lái)事件是一項(xiàng)嶄新且具有挑戰(zhàn)性的交互推理任務(wù),可廣泛應(yīng)用于安全輔助駕駛、視頻監(jiān)控(安防)、和人機(jī)交互等重要場(chǎng)合。該任務(wù)要求能夠推理未來(lái)事件的不確定性和多樣性,產(chǎn)生合理且多樣化的預(yù)測(cè)和描述。對(duì)于這種跨模態(tài)交互推理,提出了隱含隨機(jī)變量采樣的跨模態(tài)多樣性表示學(xué)習(xí)網(wǎng)絡(luò)[24]。通過(guò)引入隨機(jī)隱變量因子顯式地捕獲視頻中未來(lái)事件的隨機(jī)性和多樣性,對(duì)異質(zhì)模態(tài)數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)關(guān)系進(jìn)行建模,以此生成合理的且多樣化的自然語(yǔ)言語(yǔ)句來(lái)描述潛在的未來(lái)事件。引入隱變量因子分別對(duì)事件宏觀主旨以及視覺(jué)注意力進(jìn)行建模。一方面,對(duì)應(yīng)多種潛在的事件主旨,生成多樣性的語(yǔ)言描述;另一方面,在特定事件主旨下,模型使用隨機(jī)性注意力機(jī)制,針對(duì)性地改變視頻關(guān)注點(diǎn),更精準(zhǔn)地定位視頻中的線索內(nèi)容。這兩個(gè)關(guān)鍵點(diǎn)使得提出的算法能夠全面地且精準(zhǔn)地對(duì)視頻未來(lái)事件進(jìn)行預(yù)測(cè)和描述。

        如圖11所示,引入一種宏觀的隱變量因子,并使其符合特定的高斯分布,以對(duì)預(yù)測(cè)事件的宏觀特性(主旨、表達(dá)風(fēng)格)進(jìn)行表征和決策。技術(shù)效果: 在對(duì)視頻進(jìn)行預(yù)測(cè)性描述時(shí),模型首先對(duì)此宏觀的隱變量因子進(jìn)行隨機(jī)采樣,進(jìn)而根據(jù)不同采樣值生成多樣性的語(yǔ)言描述,對(duì)應(yīng)多種潛在的事件;還引入一種微觀的隱變量因子,構(gòu)建一種隨機(jī)性的注意力機(jī)制。此注意力機(jī)制模擬視覺(jué)關(guān)注點(diǎn)的隨機(jī)性變化,根據(jù)事件宏觀特征(主旨)針對(duì)性地挖掘可見(jiàn)視頻中的細(xì)節(jié)線索。技術(shù)效果:在對(duì)視頻進(jìn)行預(yù)測(cè)性描述時(shí),模型對(duì)此微觀的隱變量因子進(jìn)行采樣,進(jìn)而根據(jù)不同采樣值改變視頻內(nèi)容的關(guān)注點(diǎn)。

        圖11 跨模態(tài)推理網(wǎng)絡(luò)生成過(guò)程示意Fig.11 Generation process of the proposed structured stochastic recurring network

        5 跨媒體知識(shí)圖譜構(gòu)建與演化

        隨著移動(dòng)互聯(lián)網(wǎng)滲透到社會(huì)生活的各方面,各大網(wǎng)絡(luò)平臺(tái)跨媒體數(shù)據(jù)呈現(xiàn)爆炸性增長(zhǎng)和快速演化態(tài)勢(shì)。然而,從碎片化數(shù)據(jù)難以直接提取系統(tǒng)完備的跨媒體知識(shí),相關(guān)領(lǐng)域仍然面臨跨媒體知識(shí)匱乏的困境。相比于傳統(tǒng)的知識(shí)圖譜構(gòu)建任務(wù),跨媒體知識(shí)工程面臨更加嚴(yán)峻的技術(shù)挑戰(zhàn):1)跨媒體知識(shí)圖譜的構(gòu)建依賴于不同模態(tài)實(shí)體的有效獲取,雖然目前計(jì)算機(jī)已經(jīng)能夠識(shí)別各類(lèi)視覺(jué)物體和文字實(shí)體,但距離通用的實(shí)體檢測(cè)仍具有較高的技術(shù)難度,其主要難點(diǎn)在于對(duì)于新增實(shí)體無(wú)法有效識(shí)別;2) 不同模態(tài)的實(shí)體之間的關(guān)系種類(lèi)與層級(jí)繁多,依賴全自動(dòng)的數(shù)據(jù)關(guān)聯(lián)分析技術(shù)雖然能夠在短期內(nèi)擴(kuò)充圖譜的知識(shí)條目規(guī)模,但總體而言存在知識(shí)重復(fù)、冗余、質(zhì)量較低且系統(tǒng)智能演化緩慢的不足,而另一方面單純依賴人工標(biāo)注的方式構(gòu)建的跨媒體知識(shí)圖譜存在標(biāo)注緩慢、效率低下等問(wèn)題,難以有效適應(yīng)跨媒體內(nèi)容的動(dòng)態(tài)演化。

        為了應(yīng)對(duì)上述挑戰(zhàn),研究組以電影知識(shí)為核心,構(gòu)建了人機(jī)協(xié)同的跨媒體知識(shí)加工和演化更新基本技術(shù)框架。具體而言,所構(gòu)建的跨媒體知識(shí)圖譜包含兩個(gè)層面的知識(shí):1) 粗粒度知識(shí),圍繞特定的電影刻畫(huà)了大量的屬性知識(shí)和時(shí)空共現(xiàn)信息,如演員、導(dǎo)演、海報(bào)、評(píng)論、相關(guān)報(bào)道、影視主題曲等;1) 細(xì)粒度知識(shí),針對(duì)某個(gè)電影內(nèi)容,刻畫(huà)電影鏡頭中的人物、表情、動(dòng)作、關(guān)系、交互方式、字幕語(yǔ)義等知識(shí)。通過(guò)粗粒度和細(xì)粒度兩個(gè)層級(jí)的知識(shí)標(biāo)注,形成了以電影為主題的多層次多粒度跨媒體知識(shí),從而為后續(xù)的跨媒體分析推理提供支撐。

        5.1 粗粒度電影知識(shí)圖譜

        跨媒體知識(shí)工程旨在通過(guò)收集分布在互聯(lián)網(wǎng)各影片平臺(tái)中的跨媒體數(shù)據(jù),從而構(gòu)建節(jié)點(diǎn)規(guī)模億級(jí)的電影粗粒度知識(shí)圖譜數(shù)據(jù)庫(kù),并通過(guò)開(kāi)放網(wǎng)絡(luò)接口的方式實(shí)現(xiàn)高效的知識(shí)共享服務(wù)。

        為保證知識(shí)圖譜的體量與數(shù)據(jù)質(zhì)量,圖譜中數(shù)據(jù)主要來(lái)自國(guó)內(nèi)外主流的視頻網(wǎng)站、影片數(shù)據(jù)庫(kù)、視頻評(píng)論網(wǎng)站,例如IMDB、Amazon、Metacritic、AllMovie、Rotten Tomatoes、豆瓣、微博、嗶哩嗶哩、維基百科等。其中主要包含以下數(shù)據(jù)類(lèi)型:

        1)文本:影片基本信息、演員信息、角色臺(tái)詞、專業(yè)影評(píng)、用戶評(píng)論、新聞;

        2)圖片:劇照、演員頭像、演員其他照片等;

        3)視頻:精彩片段、幕后花絮、視頻報(bào)道等;

        4)音頻:電影片頭曲、主題曲、插曲等;

        5)關(guān)系:劇照中的角色關(guān)系、影片劇集關(guān)系、用戶觀影記錄等。

        構(gòu)建電影粗粒度知識(shí)圖譜的技術(shù)框架如圖12所示,主要包括數(shù)據(jù)源調(diào)研、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)與服務(wù)接口、數(shù)據(jù)演示等5部分,其中技術(shù)難點(diǎn)主要包括數(shù)據(jù)對(duì)齊和數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)。

        圖12 粗粒度跨媒體知識(shí)圖譜構(gòu)建系統(tǒng)Fig.12 Coarse-grained cross-media knowledge graph construction system

        一方面,未對(duì)齊的數(shù)據(jù)不僅會(huì)產(chǎn)生冗余、低信息量的節(jié)點(diǎn),更可能降低圖譜中知識(shí)的可靠性。具體而言,同一影片在不同平臺(tái)的名稱并不一定相同,例如《肖申克的救贖》《月黑風(fēng)高》《刺激1995》均可以代表同一部電影作品;在一個(gè)平臺(tái)中,相同的名稱可能對(duì)應(yīng)不同的影片,例如在IMDB中通過(guò)關(guān)鍵詞“Terminator”將會(huì)同時(shí)檢索到電影《終結(jié)者》及于1991年和2001年發(fā)行的兩部影片。為保證數(shù)據(jù)高度對(duì)齊,同時(shí)考慮到IMDB的權(quán)威性與完備性,擬優(yōu)先獲取來(lái)自兩類(lèi)平臺(tái)的數(shù)據(jù):

        1)IMDB頁(yè)面中包含的外部鏈接,例如IMDB電影頁(yè)面包含的Amazon商品頁(yè)面、Metacritic電影主頁(yè)等,如圖13(a)所示。

        2)外部鏈接中包含IMDB電影頁(yè)面的平臺(tái),例如豆瓣、維基百科等,如圖13(b)所示。

        圖13 爬取的兩類(lèi)網(wǎng)站Fig.13 Two types of websites crawled

        另一方面,不合理的數(shù)據(jù)結(jié)構(gòu)不僅會(huì)降低知識(shí)檢索的效率,更導(dǎo)致大量孤立節(jié)點(diǎn),降低圖譜知識(shí)密度。在知識(shí)圖譜中,存在節(jié)點(diǎn)、關(guān)系和屬性3種數(shù)據(jù)存儲(chǔ)方式。如圖14所示,將具有唯一性的數(shù)據(jù)存儲(chǔ)為節(jié)點(diǎn),如影片、演員、編劇角色、公司、新聞、專業(yè)影評(píng)、用戶評(píng)論、劇照、主題曲、花絮彩蛋等;將重復(fù)性很高的數(shù)據(jù)存儲(chǔ)為屬性,如性別、年齡、影片時(shí)長(zhǎng)、發(fā)行年份、電影分類(lèi)、評(píng)分等;將具有重要語(yǔ)義信息的數(shù)據(jù)存儲(chǔ)為關(guān)系,如導(dǎo)演了、參演了、評(píng)論了、獲得獎(jiǎng)項(xiàng)、想看過(guò)再看等。通過(guò)設(shè)置合理的數(shù)據(jù)存儲(chǔ)方式,一方面可減少語(yǔ)義信息較少的冗余節(jié)點(diǎn),另一方面可減少相鄰節(jié)點(diǎn)過(guò)少的孤立節(jié)點(diǎn),從而提高圖譜中有效知識(shí)的密度。

        圖14 電影粗粒度知識(shí)圖譜節(jié)點(diǎn)關(guān)系示意Fig.14 Diagram of node relationship of coarse-grained film knowledge graph

        跨媒體知識(shí)工程的發(fā)展前景為實(shí)現(xiàn)跨媒體知識(shí)的自主進(jìn)化和泛化。一方面,針對(duì)跨媒體數(shù)據(jù)快速更新演化的特點(diǎn),如何及時(shí)準(zhǔn)確地提取跨媒體信息,實(shí)現(xiàn)跨媒體知識(shí)的自主增長(zhǎng)與進(jìn)化,成為亟待解決的問(wèn)題;另一方面,針對(duì)圖譜中知識(shí)缺失問(wèn)題,需設(shè)計(jì)高效的跨媒體知識(shí)補(bǔ)全算法,通過(guò)有效的知識(shí)泛化提高圖譜中跨媒體知識(shí)的密度。

        5.2 細(xì)粒度電影知識(shí)圖譜與人機(jī)協(xié)同知識(shí)標(biāo)注

        結(jié)合跨媒體分析推理技術(shù)需求,開(kāi)展構(gòu)建細(xì)粒度跨媒體知識(shí)圖譜,并針對(duì)電影知識(shí)圖譜構(gòu)建任務(wù)目標(biāo),建立了如圖15所示的人機(jī)協(xié)同知識(shí)標(biāo)注系統(tǒng)。由于電影包含了豐富的圖、文、聲多模態(tài)信息,故選擇電影視頻(包括電影、紀(jì)錄片等不同類(lèi)型)作為跨媒體知識(shí)圖譜構(gòu)建的基礎(chǔ)數(shù)據(jù)。該跨媒體分析推理引擎中包含完備的電影視頻語(yǔ)義概念抽取的技術(shù),包括視頻事件識(shí)別、動(dòng)作識(shí)別、語(yǔ)音識(shí)別、表情識(shí)別、人臉識(shí)別、OCR、場(chǎng)景分類(lèi)、物體檢測(cè)、字幕解析等算法模塊,對(duì)已經(jīng)進(jìn)行鏡頭分割與聚合的視頻數(shù)據(jù)進(jìn)行語(yǔ)義粗標(biāo)注。在電影粗標(biāo)注的基礎(chǔ)上,搭建了群智標(biāo)注平臺(tái)(如圖15所示),引入人類(lèi)智慧對(duì)標(biāo)注結(jié)果進(jìn)行定期的糾錯(cuò)和更新,并利用修正過(guò)的視頻語(yǔ)義概念信息對(duì)事件識(shí)別、動(dòng)作識(shí)別、場(chǎng)景分類(lèi)等語(yǔ)義粗標(biāo)注模型進(jìn)行進(jìn)一步更新和優(yōu)化,改善語(yǔ)義粗標(biāo)注算法在后續(xù)標(biāo)注當(dāng)中的準(zhǔn)確率。目前,已完成了264部中文電影的知識(shí)標(biāo)注,知識(shí)圖譜的規(guī)模達(dá)到節(jié)點(diǎn)2 707 350,邊(事實(shí)) 4 159 220的規(guī)模。

        圖15 人機(jī)協(xié)同細(xì)粒度圖譜標(biāo)注系統(tǒng)Fig.15 Fine-grained knowledge graph labeling system with human-computer collaboration

        在后續(xù)研究工作當(dāng)中,將進(jìn)一步對(duì)500部英文電影和紀(jì)錄片進(jìn)行知識(shí)標(biāo)注,并不斷完善和優(yōu)化跨媒體分析推理引擎。

        5.3 跨媒體分析推理引擎

        基于上述關(guān)鍵技術(shù)研究成果,以億級(jí)跨媒體數(shù)據(jù)的跨媒體統(tǒng)一表征索引與檢索為基礎(chǔ),構(gòu)建跨媒體分析推理引擎。該計(jì)算引擎的目標(biāo)主要有3個(gè)層面:1) 驗(yàn)證跨媒體知識(shí)對(duì)跨媒體分析推理的支撐作用;2)通過(guò)跨媒體分析推理進(jìn)一步提高跨媒體知識(shí)生產(chǎn)效率;3) 通過(guò)跨媒體分析推理各技術(shù)子系統(tǒng)的集成,進(jìn)一步突出可解釋、可泛化分析推理的技術(shù)特色。目前該跨媒體分析推理引擎主要包含如下幾個(gè)部分:

        1) 跨媒體統(tǒng)一表征與檢索,實(shí)現(xiàn)億級(jí)以上跨媒體數(shù)據(jù)的統(tǒng)一可度量表征、高效索引與檢索;

        2) 跨媒體問(wèn)答引擎,包括人問(wèn)機(jī)答和機(jī)問(wèn)人答兩部分,為圖譜演化、內(nèi)容服務(wù)提供支持;

        3) 跨媒體遷移引擎,針對(duì)內(nèi)容監(jiān)測(cè)與內(nèi)容服務(wù)的多元化應(yīng)用場(chǎng)景,利用無(wú)標(biāo)注或者少量標(biāo)注跨媒體數(shù)據(jù)進(jìn)行遷移與泛化學(xué)習(xí),滿足各類(lèi)開(kāi)放域應(yīng)用需求。

        視頻計(jì)算引擎,針對(duì)各類(lèi)網(wǎng)絡(luò)視頻內(nèi)容,實(shí)現(xiàn)內(nèi)容識(shí)別預(yù)警,跨模態(tài)的內(nèi)容搜索定位和視頻事件的推理預(yù)測(cè),為視頻內(nèi)容監(jiān)測(cè)與服務(wù)提供技術(shù)支撐。

        6 結(jié)束語(yǔ)

        本文介紹了研究組近年來(lái)以圖像視頻為中心的跨媒體分析與推理方面的研究工作,提出了統(tǒng)一表征、關(guān)聯(lián)理解、類(lèi)人推理等方法,開(kāi)展構(gòu)建跨媒體知識(shí)圖譜和支撐知識(shí)圖譜構(gòu)建的各類(lèi)技術(shù)平臺(tái),初步建立了數(shù)據(jù)驅(qū)動(dòng)與知識(shí)指導(dǎo)相結(jié)合的跨媒體分析推理技術(shù)框架??煞?wù)于跨媒體內(nèi)容管理與服務(wù)等應(yīng)用場(chǎng)景。

        從跨媒體分析推理技術(shù)的發(fā)展前景來(lái)看,跨媒體知識(shí)的自主高效演化與可解釋、可泛化的類(lèi)人跨媒體分析推理將繼續(xù)成為未來(lái)相關(guān)領(lǐng)域的前沿?zé)狳c(diǎn)研究問(wèn)題,也是通向強(qiáng)人工智能的關(guān)鍵瓶頸。為此,結(jié)合領(lǐng)域前沿研究趨勢(shì),研究組針對(duì)跨媒體分析與推理的核心難題進(jìn)行集中研究與攻關(guān),擬從以下幾個(gè)方面具體開(kāi)展未來(lái)工作:

        1) 現(xiàn)有技術(shù)已能從不同模態(tài)數(shù)據(jù)當(dāng)中檢測(cè)出不同類(lèi)型的實(shí)體,如人物、物體、地標(biāo)建筑、事件、主題等,然而,相比于實(shí)體數(shù)量,跨媒體知識(shí)圖譜中的關(guān)系知識(shí)表示數(shù)量規(guī)模仍有待提高(平均每個(gè)實(shí)體包含的關(guān)系知識(shí)三元組不超過(guò)5條)。為從根本上提高跨媒體連接知識(shí)的稠密度,研究組擬對(duì)多模態(tài)實(shí)體提純、鏈接與多模態(tài)關(guān)系的發(fā)現(xiàn)、補(bǔ)全等前沿技術(shù)問(wèn)題進(jìn)行定義并構(gòu)建相應(yīng)的數(shù)據(jù)集,并在此基礎(chǔ)之上形成相關(guān)的技術(shù)突破。

        2) 針對(duì)跨媒體知識(shí)演化更新緩慢的難題,深入開(kāi)展深度人機(jī)協(xié)作的跨媒體分析推理技術(shù),并在跨媒體知識(shí)圖譜構(gòu)建當(dāng)中構(gòu)建相應(yīng)的原型系統(tǒng)。擬從個(gè)體協(xié)作和群體協(xié)作兩個(gè)層面開(kāi)展相應(yīng)研究。在人機(jī)個(gè)體協(xié)作方面,針對(duì)跨媒體事件語(yǔ)義理解、內(nèi)容轉(zhuǎn)換與生成等復(fù)雜跨媒體任務(wù)特點(diǎn),以主動(dòng)學(xué)習(xí)和問(wèn)答交互式學(xué)習(xí)為技術(shù)主線,開(kāi)發(fā)人機(jī)問(wèn)答博弈系統(tǒng),建立人問(wèn)機(jī)答和機(jī)問(wèn)人答相互博弈演化的跨媒體知識(shí)更新框架。在人機(jī)群體協(xié)作,深入研究群智挖掘與推薦技術(shù),實(shí)現(xiàn)“標(biāo)一當(dāng)百”的跨媒體群智計(jì)算,并將其應(yīng)用在跨媒體知識(shí)工程當(dāng)中。

        3) 突破現(xiàn)有跨媒體知識(shí)圖譜當(dāng)中由于大量時(shí)空偶發(fā)貢獻(xiàn)造成的虛假或不合理關(guān)聯(lián)信息,進(jìn)一步開(kāi)展跨媒體事理關(guān)系圖譜的構(gòu)建,刻畫(huà)深層次跨媒體事理知識(shí)。

        4) 深入研究機(jī)理、過(guò)程、結(jié)果可信的魯棒跨媒體分析推理理論方法。結(jié)合符號(hào)主義與聯(lián)結(jié)主義,研究數(shù)據(jù)去偏置的因果學(xué)習(xí)和因果辨識(shí)與組合推理等關(guān)鍵技術(shù),實(shí)現(xiàn)公平、可信、可泛化的跨媒體分析推理技術(shù)框架。

        猜你喜歡
        語(yǔ)義模態(tài)內(nèi)容
        內(nèi)容回顧溫故知新
        語(yǔ)言與語(yǔ)義
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語(yǔ)義模糊
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        語(yǔ)義分析與漢俄副名組合
        多模態(tài)話語(yǔ)模態(tài)的協(xié)同及在外語(yǔ)教學(xué)中的體現(xiàn)
        99久久免费只有精品国产| 美腿丝袜一区在线观看| 国产一级黄色片在线播放| 亚洲成av人片不卡无码| 久久人与动人物a级毛片| 日韩在线看片| 亚州韩国日本区一区二区片| 亚洲美女自拍偷拍视频| 久久精品国产亚洲av无码娇色| 亚洲男人第一av网站| 天天摸天天做天天爽天天舒服| 国产三级av大全在线爽| 伊人久久精品无码二区麻豆| 狠狠色狠狠色综合日日不卡| 伊人狠狠色j香婷婷综合| 精品一区二区三区a桃蜜| 大ji巴好深好爽又大又粗视频| 日韩精品中文字幕无码一区| 久久精品国产只有精品96| 日本一区二区三区精品免费| 日本在线 | 中文| 久久午夜无码鲁丝片直播午夜精品| 在线观看精品视频一区二区三区| 日本高清一区二区不卡| 国模冰莲极品自慰人体| 四虎影视永久在线精品| 中文字幕亚洲精品人妻| 精品久久综合日本久久综合网| 人妻哺乳奶头奶水| 欧美性福利| 91中文字幕精品一区二区| 亚洲图片自拍偷图区| 免费观看黄网站| 欧美日韩国产乱了伦| 国产精品成人av一区二区三区| 亚洲视频在线免费观看一区二区| 伊人情人色综合网站| 摸进她的内裤里疯狂揉她动视频| 亚洲欧美日韩在线中文一 | 国产一区二区三区免费精品视频| 人人妻人人狠人人爽天天综合网|