亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖像多標(biāo)簽學(xué)習(xí)的研究概述

        2019-05-30 22:57:16袁夢奇鮑秉坤
        關(guān)鍵詞:深度學(xué)習(xí)大數(shù)據(jù)

        袁夢奇 鮑秉坤

        摘要 隨著圖像大數(shù)據(jù)的爆發(fā),特別是用戶貢獻(xiàn)數(shù)據(jù)的飛速增長,圖像樣本的語義內(nèi)容越來越豐富,標(biāo)簽信息也隨之越來越復(fù)雜.因此圖像多標(biāo)簽學(xué)習(xí)的研究是近年來學(xué)術(shù)圈和產(chǎn)業(yè)界的研究熱點(diǎn)之一,涌現(xiàn)了大量表現(xiàn)優(yōu)異的方法和技術(shù).基于此,本文將對近年來圖像多標(biāo)簽學(xué)習(xí)上的研究成果進(jìn)行總結(jié).首先,對多標(biāo)簽學(xué)習(xí)進(jìn)行簡單介紹,并詳述其主流方法的分類;隨后,針對目前大數(shù)據(jù)時(shí)代的數(shù)據(jù)特性,總結(jié)了多標(biāo)簽學(xué)習(xí)面臨的新的技術(shù)難點(diǎn)及其對應(yīng)的解決方案;最后,在應(yīng)用層面上介紹了多標(biāo)簽學(xué)習(xí)在醫(yī)學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域的應(yīng)用實(shí)例.

        關(guān)鍵詞 多標(biāo)簽學(xué)習(xí);圖像標(biāo)注;深度學(xué)習(xí);大數(shù)據(jù)

        中圖分類號TP391.41;TP183

        文獻(xiàn)標(biāo)志碼A

        0 引言

        多標(biāo)簽學(xué)習(xí)最早起源于機(jī)器學(xué)習(xí)中的單標(biāo)簽學(xué)習(xí).圖像單標(biāo)簽問題是指通過給定的一組樣本特征,來預(yù)測該樣本所屬的類別.比如給定一張動物圖片,來預(yù)測該動物是否是一條狗.然而,隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)存儲與處理能力得到了飛速的發(fā)展,人們對數(shù)據(jù)分析的要求也開始不斷提高.單標(biāo)簽?zāi)P秃茈y再刻畫大數(shù)據(jù)時(shí)代復(fù)雜的現(xiàn)實(shí)問題,因此多標(biāo)簽問題誕生了.相比于單標(biāo)簽學(xué)習(xí),多標(biāo)簽學(xué)習(xí)是通過一組樣本特征,來預(yù)測一張圖像對應(yīng)多個(gè)輸出標(biāo)簽是否準(zhǔn)確.

        近年來,涌現(xiàn)了大量表現(xiàn)優(yōu)異的圖像多標(biāo)簽學(xué)習(xí)方法和技術(shù).本文將對這些研究成果進(jìn)行歸納和總結(jié),為圖像多標(biāo)簽學(xué)習(xí)的進(jìn)一步研究提供參考.首先,本文基于對輸入樣本處理方法的不同,將圖像多標(biāo)簽學(xué)習(xí)分為單例多標(biāo)簽學(xué)習(xí)(Single-Instance Multi-Label Learning,SIML)和多例多標(biāo)簽學(xué)習(xí)(Multi-Instance Multi-Label Learning,MIML).單例多標(biāo)簽學(xué)習(xí)指將一整幅圖像看成一個(gè)實(shí)例,并直接依據(jù)圖像的整體可視特征(即單一實(shí)例的特征),學(xué)習(xí)其對應(yīng)的標(biāo)簽.而多例多標(biāo)簽學(xué)習(xí)是通過將一幅圖像根據(jù)語義分割為多個(gè)區(qū)域塊(實(shí)例),對每個(gè)實(shí)例進(jìn)行標(biāo)簽學(xué)習(xí).隨后,本文針對互聯(lián)網(wǎng)時(shí)代圖像數(shù)據(jù)含有大噪聲、數(shù)據(jù)體量大、關(guān)聯(lián)復(fù)雜這三大挑戰(zhàn),總結(jié)圖像多標(biāo)簽學(xué)習(xí)面臨的技術(shù)難點(diǎn),并介紹對應(yīng)的解決方案.對于含大噪聲的圖像,如果直接訓(xùn)練,訓(xùn)練結(jié)果將會受到噪聲影響,需要首先進(jìn)行降噪、復(fù)原等處理;對于海量數(shù)據(jù)的問題,將介紹哈希預(yù)處理或標(biāo)簽嵌入等方法在降低算法的復(fù)雜度上的優(yōu)勢;對于圖像間關(guān)聯(lián)復(fù)雜方面的挑戰(zhàn),用雙標(biāo)簽集或條件貝葉斯框架等方法刻畫各圖像間的關(guān)聯(lián),以提高圖像的標(biāo)注性能.最后,介紹多標(biāo)簽學(xué)習(xí)在多個(gè)領(lǐng)域上的應(yīng)用.在醫(yī)學(xué)中,通過對患者CT圖像的多標(biāo)簽學(xué)習(xí),完成復(fù)雜的疾病監(jiān)測工作;在無人駕駛中,通過對路況圖像信息的多標(biāo)簽學(xué)習(xí),有效地幫助汽車處理復(fù)雜地形下的自動行駛工作.

        本文的結(jié)構(gòu)如下:第1章闡述多標(biāo)簽學(xué)習(xí)的基本概念及其分類;第2章,將針對多標(biāo)簽學(xué)習(xí)算法在互聯(lián)網(wǎng)時(shí)代遇到的標(biāo)簽噪聲大、數(shù)據(jù)體量大和標(biāo)簽關(guān)聯(lián)復(fù)雜等挑戰(zhàn),整理和總結(jié)近年來的研究成果和進(jìn)展;第3章,講述多標(biāo)簽學(xué)習(xí)在醫(yī)學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域的實(shí)際應(yīng)用,并對多標(biāo)簽學(xué)習(xí)未來的發(fā)展提出展望.

        1 多標(biāo)簽學(xué)習(xí)概述

        本章首先介紹圖像多標(biāo)簽學(xué)習(xí)的基本概念;隨后介紹兩類經(jīng)典的多標(biāo)簽學(xué)習(xí)方法:單實(shí)例多標(biāo)簽和多實(shí)例多標(biāo)簽,并總結(jié)近年來各種分類下多標(biāo)簽學(xué)習(xí)的研究成果.

        1.1 基本概念

        圖像多標(biāo)簽學(xué)習(xí)又名圖像標(biāo)注,是依據(jù)已知圖像內(nèi)容預(yù)測未知標(biāo)簽對象的過程.如圖1,對于一張草原照片,可以把標(biāo)簽設(shè)為樹、大象、獅子、草地等物體[1],通過輸入的圖片特征尋找預(yù)設(shè)的標(biāo)簽是否存在,并進(jìn)行標(biāo)注.此外,圖像多標(biāo)簽問題還具有三大特點(diǎn).首先,大部分標(biāo)簽都只與其對應(yīng)的語義區(qū)域有關(guān),這稱為標(biāo)簽局部性,如圖1中的獅子,只在圖像部分區(qū)域出現(xiàn);隨后,每個(gè)標(biāo)簽間都可能存在某種聯(lián)系,這稱為標(biāo)簽間的相似性,比如在海邊圖像上,沙灘和大海往往會同時(shí)存在;最后,每個(gè)標(biāo)簽在不同圖像上的對應(yīng)區(qū)域也可以不同,這稱為標(biāo)簽內(nèi)的多樣性,比如天空在天氣晴朗、多云、下雨時(shí)的表現(xiàn)完全不同.

        1.2 多標(biāo)簽學(xué)習(xí)問題的分類

        基于對輸入樣本處理方法的不同,本文將圖像的多標(biāo)簽學(xué)習(xí)方法分為兩類:單例多標(biāo)簽和多例多標(biāo)簽.如圖2,單例多標(biāo)簽學(xué)習(xí)指將一整幅圖像看成一個(gè)實(shí)例,并直接依據(jù)圖像中的可視特征對標(biāo)簽進(jìn)行標(biāo)注的過程[1],如圖1中對大象、獅子、草地的標(biāo)注.但現(xiàn)實(shí)中,圖片到標(biāo)簽經(jīng)常存在一種輸入的模糊性,無法根據(jù)圖像中的可視特征直接標(biāo)注標(biāo)簽,因此多例多標(biāo)簽學(xué)習(xí)出現(xiàn)了.多例多標(biāo)簽學(xué)習(xí)指在一幅圖像中提取多個(gè)部分,每個(gè)部分稱作一個(gè)實(shí)例,并通過這些實(shí)例間的語義聯(lián)系對圖像進(jìn)行多標(biāo)簽學(xué)習(xí)的過程,如圖1中,如果需要標(biāo)注的標(biāo)簽是非洲,可以先將圖像分成樹、大象、獅子等實(shí)例,再通過學(xué)習(xí)這些實(shí)例完成圖像的標(biāo)注.

        圖像多標(biāo)簽處理方法大致的演變?nèi)鐖D3所示.對于多標(biāo)簽問題的處理,最簡單直觀的方法是2007年Tsoumakas等[2]提出的將多標(biāo)簽分解為多個(gè)單標(biāo)簽問題.但是,這種獨(dú)立對待每個(gè)標(biāo)簽的方法忽略了標(biāo)簽間的相關(guān)性,導(dǎo)致訓(xùn)練效果欠佳.于是在2011年Read等[3]提出一種基于分類器鏈的方法,其通過概率的條件積來捕獲標(biāo)簽的依賴性.然而,此方法在處理大量標(biāo)簽時(shí)不僅會產(chǎn)生高計(jì)算成本,而且其捕獲標(biāo)簽間相關(guān)性的能力也很有限.隨著機(jī)器學(xué)習(xí)等相關(guān)技術(shù)的快速發(fā)展,2013年Nam等[4]開始使用神經(jīng)網(wǎng)絡(luò)解決多標(biāo)簽學(xué)習(xí),它通過網(wǎng)絡(luò)內(nèi)部復(fù)雜的神經(jīng)結(jié)構(gòu)、權(quán)重?fù)p失函數(shù)來優(yōu)化訓(xùn)練.隨著近幾年神經(jīng)網(wǎng)絡(luò)技術(shù)的更進(jìn),深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Net-work,RNN)等更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)開始被用于多標(biāo)簽訓(xùn)練.如基于視覺注意的RNN深度學(xué)習(xí)框架[5]、以人類行為為基礎(chǔ)的多層次深度卷積神經(jīng)網(wǎng)絡(luò)[6]、區(qū)域潛在語義依賴網(wǎng)絡(luò)模型[7]等方法.

        1.2.1 單例多標(biāo)簽處理方法

        單例多標(biāo)簽不需要對圖像的輸入特征分塊處理,所以其模型更簡單.而且在圖像標(biāo)注中,很多直觀的多標(biāo)簽問題都可由單例多標(biāo)簽處理,比如圖1中直接標(biāo)注圖像中的獅子.

        對于單例多標(biāo)簽學(xué)習(xí),Li等[8]最先提出一種學(xué)習(xí)深度二進(jìn)制編碼(DeepBe)的框架,通過將多標(biāo)簽轉(zhuǎn)換為單個(gè)標(biāo)簽來處理多標(biāo)簽問題,并且通過集成策略,成功地提高了學(xué)習(xí)的穩(wěn)健性.但這種轉(zhuǎn)化過程,對小目標(biāo)的多標(biāo)簽圖像會很難處理.因此,Zhang等[7]利用了完全卷積定位架構(gòu),來定位可能包含多個(gè)高度依賴標(biāo)簽的區(qū)域.此方法通過標(biāo)簽相關(guān)性的使用,讓小區(qū)域的預(yù)測變得容易.但是這類方法并不能很好地處理標(biāo)簽間的依賴關(guān)系,為此Markatopoulou等[6]提出了將多任務(wù)學(xué)習(xí)和多標(biāo)簽學(xué)習(xí)相結(jié)合的處理思路.他們建立一種雙層次的深度卷積神經(jīng)網(wǎng)絡(luò)框架.在第一個(gè)層次上,以多任務(wù)學(xué)習(xí)為基礎(chǔ),提出了一種基于稀疏線性組合來學(xué)習(xí)每個(gè)標(biāo)簽的獨(dú)有特征;在第二個(gè)層次上,以結(jié)構(gòu)化輸出學(xué)習(xí)的思想為基礎(chǔ),考慮標(biāo)簽之間的相關(guān)性,其中每個(gè)層次都通過標(biāo)準(zhǔn)的卷積層實(shí)現(xiàn),并通過每個(gè)詞語之間的內(nèi)在聯(lián)系提高訓(xùn)練效果.對于建模標(biāo)簽的相關(guān)性,Chen等[5]還提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)的圖像多標(biāo)簽分類模型,通過一個(gè)置信度排序的LSTM(Long Short Term Memory)模型對標(biāo)簽的依賴性建模.

        除了考慮標(biāo)簽間相關(guān)性,He等[9]提出一種模仿人類行為的強(qiáng)化圖像多標(biāo)簽學(xué)習(xí)方法.該方法允許增強(qiáng)學(xué)習(xí)代理通過充分利用圖像特征和先前的預(yù)測結(jié)果來按次序預(yù)測標(biāo)簽,并在圖像從簡單到復(fù)雜的過程中進(jìn)行標(biāo)簽化.Li等[10]則提出了另一種基于成對排序的多標(biāo)簽圖像分類法.其一方面使用了一種新的成對排序損失函數(shù),該函數(shù)處處光滑,因而更易于優(yōu)化;另一方面在模型中加入了一個(gè)標(biāo)簽決策模塊,用于估計(jì)每個(gè)視覺對象的最佳置信閾值.此方法在基礎(chǔ)的成隊(duì)排序法上加以優(yōu)化,也可以達(dá)到不錯(cuò)的圖像訓(xùn)練效果.此外,在圖像多標(biāo)簽學(xué)習(xí)中降低圖的成本也是一個(gè)很重要的工作,目前主要的方法是基于最大裕度法來學(xué)習(xí)邊緣權(quán)值.但不幸的是這些方法通常對損耗函數(shù)(如hamming損耗)提供的約束特別寬松.因此Behpour等[11]提出了一種基于最小代價(jià)圖割集的對抗性魯棒割集的方法,它將學(xué)習(xí)任務(wù)看作是預(yù)測者和標(biāo)簽逼近者之間取極大極小值的博弈.

        1.2.2 多例多標(biāo)簽處理方法

        在實(shí)際圖像標(biāo)注問題中,只依據(jù)圖像的整體可視特征,很難得到準(zhǔn)確的語義標(biāo)簽.如圖1中的非洲標(biāo)簽,直接看圖難以標(biāo)注,需要先提取圖片中大象、獅子等實(shí)例,再通過分析這些實(shí)例間的語義關(guān)系才能分辨此圖像是否標(biāo)注為非洲.這種先將圖像看作多個(gè)實(shí)例,隨后通過處理實(shí)例間的語義聯(lián)系對圖像進(jìn)行標(biāo)注的方法稱為多例多標(biāo)簽學(xué)習(xí).

        針對多例多標(biāo)簽的處理方法,最先Yang等[12]提出通過結(jié)合局部信息的方法來提高圖像辨別的能力.此方法首先從每個(gè)圖像中提取對象建議然后將每一幅圖像作為一個(gè)包,并將包中提取出的對象建議作為實(shí)例,從而把多標(biāo)簽識別問題轉(zhuǎn)化為多類多實(shí)例學(xué)習(xí)問題.但這類方法難以處理多實(shí)例與多標(biāo)簽間的聯(lián)系,因此Ding等[13]提出了一種同時(shí)考慮實(shí)例上下文和標(biāo)簽上下文的圖像標(biāo)注上下文感知MIML算法.作者首先引入多個(gè)圖來描述包中實(shí)例之間的復(fù)雜關(guān)系,并將這些圖進(jìn)行融合,然后利用潛在的概念來包含類標(biāo)簽之間的相互影響.此方法通過利用標(biāo)簽間和實(shí)例間的相關(guān)性,來達(dá)到提升圖像分類性能的目的.

        然而上述方法無法很好地利用圖像的額外信息,在圖像多標(biāo)簽標(biāo)注的訓(xùn)練中,經(jīng)??梢垣@得諸如邊界框、圖像標(biāo)題和描述等附加信息,這些信息被稱為特權(quán)信息.于是Yang等[14]著眼于MIML學(xué)習(xí)中這些特權(quán)包的使用,提出一種雙流全卷積網(wǎng)絡(luò),利用了現(xiàn)有的特權(quán)包,而不是難以獲得的特權(quán)實(shí)例,使該系統(tǒng)在實(shí)際應(yīng)用中更具通用性和實(shí)用性.而對于圖片額外信息有缺失時(shí),Zhu等[15]則提出一種利用有效的增廣拉格朗日優(yōu)化算法,用來發(fā)現(xiàn)多個(gè)新標(biāo)簽.該算法具有一個(gè)與包相關(guān)的損失項(xiàng)和一個(gè)與包無關(guān)的聚類正則化項(xiàng),這使得已知標(biāo)簽和多個(gè)新標(biāo)簽可以同時(shí)建模,從而達(dá)到了在有隱藏的測試數(shù)據(jù)中預(yù)測標(biāo)簽的效果.

        此外,Wang等[16]提出了另一種多例多標(biāo)簽圖像的標(biāo)注方法:通過開發(fā)一個(gè)重復(fù)記憶注意模塊來實(shí)現(xiàn)可解釋上下文的圖像多標(biāo)簽學(xué)習(xí).該模塊由兩個(gè)交替執(zhí)行的部分組成:第1部分是一個(gè)空間轉(zhuǎn)換層,用于從卷積特征圖中自由地定位需要注意區(qū)域;第2部分是一個(gè)LSTM子網(wǎng)絡(luò),該子網(wǎng)絡(luò)用于連續(xù)地預(yù)測所定位區(qū)域的語義標(biāo)記,并同時(shí)捕獲這些區(qū)域的全局相關(guān)性.此方法通過學(xué)習(xí)上下文和可解釋的區(qū)域的標(biāo)簽相關(guān)性,讓多標(biāo)簽分類的可辨別性得以提高.

        2 多標(biāo)簽學(xué)習(xí)面臨的新挑戰(zhàn)

        在大數(shù)據(jù)時(shí)代,我們在享受大數(shù)據(jù)處理帶來的方便快捷的同時(shí),也必須得面對大數(shù)據(jù)圖像處理的挑戰(zhàn).大數(shù)據(jù)下的圖像多標(biāo)簽標(biāo)注有三大特點(diǎn),分別是標(biāo)簽噪聲大、數(shù)據(jù)體量大和標(biāo)簽關(guān)聯(lián)復(fù)雜.首先,如果直接訓(xùn)練標(biāo)簽含噪的圖像,訓(xùn)練結(jié)果將會受到噪聲影響,因此需要進(jìn)行降噪處理;隨后,針對海量數(shù)據(jù)的問題,需要設(shè)計(jì)計(jì)算復(fù)雜度較低的標(biāo)注算法;最后,應(yīng)合理利用標(biāo)簽間的關(guān)聯(lián)關(guān)系,以提高圖像的標(biāo)注性能.本章針對標(biāo)簽噪聲大、數(shù)據(jù)體量大和標(biāo)簽關(guān)聯(lián)復(fù)雜這三大挑戰(zhàn),分別介紹近年來多標(biāo)簽學(xué)習(xí)的相關(guān)研究成果.

        2.1 標(biāo)簽噪聲大

        對于大數(shù)據(jù)時(shí)代的多標(biāo)簽問題,噪聲是很常見的,然而直接忽視噪聲往往會導(dǎo)致訓(xùn)練效果很差,甚至無法識別圖像.因此有效地處理噪聲是多標(biāo)簽問題中最先要面對的一個(gè)重要挑戰(zhàn).標(biāo)簽大噪聲問題,可以分為三類:標(biāo)簽有缺失、標(biāo)簽含噪聲差錯(cuò)、標(biāo)簽分布不均衡.下文將依次介紹它們的處理方法.

        1)針對標(biāo)簽有缺失問題.由于在多標(biāo)簽問題中對多個(gè)標(biāo)簽精確地標(biāo)注是昂貴和困難的,并且擁有完整標(biāo)簽的數(shù)據(jù)很難獲得,所以如何解決含有缺失標(biāo)簽的多標(biāo)簽學(xué)習(xí)問題變得十分必要.Xie等[17]提出一種部分多標(biāo)簽學(xué)習(xí)(Partial Multi-Label Learning,PML)的方法,作者給每個(gè)候選標(biāo)簽一個(gè)置信值,以估計(jì)它是實(shí)例的基本真值標(biāo)簽的可能性.而Yang等[18]則提出一種全局語義描述符和局部語義描述符相連接的語義表示方法,通過一個(gè)有效的語義描述符將圖像投影到語義空間.全局語義描述部分根據(jù)大規(guī)模數(shù)據(jù)集中的大量概念來描述“一般的圖像是什么”,而局部語義描述符通過對平均特定目標(biāo)域中每個(gè)圖像的視覺鄰域標(biāo)簽的提取,來描述“圖像具體看起來像什么”.最后通過將全局和局部語義描述符相結(jié)合,實(shí)現(xiàn)了更精確的語義表示.

        2)針對標(biāo)簽含噪聲差錯(cuò)問題.在許多實(shí)際任務(wù)中,人為地標(biāo)注所有標(biāo)簽成本太高,這時(shí)標(biāo)注器可能會粗略地為每個(gè)對象分配一組候選標(biāo)簽,而對于這些候選標(biāo)簽,出現(xiàn)噪聲差錯(cuò)也是正常的.對于這種含噪聲差錯(cuò)的多標(biāo)簽問題,主要處理方法是部分多標(biāo)簽學(xué)習(xí)法,而如何具體使用PML,每位學(xué)者也有自己的見解.Sun等[19]提出了一種基于低秩稀疏分解的局部多標(biāo)簽學(xué)習(xí)方法,該方法能夠從觀測到的標(biāo)簽矩陣中提取地面真值標(biāo)簽矩陣,并在同時(shí)通過低秩稀疏分解方案學(xué)習(xí)預(yù)測模型.與此前的PML算法相比,該方法能夠去除不相關(guān)的標(biāo)簽,避免了標(biāo)簽噪聲帶來的負(fù)面影響.而Fang等[20]則提出了另一種基于可信標(biāo)簽啟發(fā)的部分多標(biāo)簽學(xué)習(xí)方法:粒子學(xué)習(xí),其基本思想是從候選標(biāo)簽集中提取可信的標(biāo)簽來減輕假陽性標(biāo)簽的負(fù)面影響,并將其作為可靠的標(biāo)簽信息進(jìn)行后續(xù)的模型歸納.

        3)針對標(biāo)簽分布不均衡問題.由于在二分類問題中,通常假設(shè)標(biāo)簽正負(fù)類別相對均衡,然而實(shí)際應(yīng)用中標(biāo)簽類別不平衡的問題是非常常見的.比如員工體檢時(shí)不患病人數(shù)遠(yuǎn)超患病人數(shù),產(chǎn)品檢測時(shí)合格產(chǎn)品數(shù)遠(yuǎn)超不合格產(chǎn)品數(shù)等.對于這種分類的樣本,由于正例樣本出現(xiàn)的概率極低,直接訓(xùn)練會產(chǎn)生嚴(yán)重的過擬合.因此,有必要對這類樣本采取特殊的處理方法.Chen等[21]提出了一種端到端可訓(xùn)練網(wǎng)絡(luò)來解決多標(biāo)記腦腫瘤分割中的標(biāo)簽類間不平衡的問題,通過該網(wǎng)絡(luò)所具有的腫瘤區(qū)域池成分,來減輕非腫瘤區(qū)域的影響.然而,在多標(biāo)簽學(xué)習(xí)問題中,標(biāo)簽缺失和標(biāo)簽不平衡問題經(jīng)常會同時(shí)存在.為了應(yīng)對這種挑戰(zhàn),Wu等[22]提出了一個(gè)包含5個(gè)組成部分(標(biāo)簽一致性、瞬時(shí)水平和類水平標(biāo)簽光滑性,以及2種上下界)的傳導(dǎo)學(xué)習(xí)模型.前3個(gè)組件用于將標(biāo)簽信息傳播到缺少信息的標(biāo)簽,后2個(gè)組件用于處理2種類型的類不平衡問題.

        2.2 數(shù)據(jù)體量大

        隨著大數(shù)據(jù)時(shí)代的來臨,有關(guān)多標(biāo)簽數(shù)據(jù)的存儲量得到了飛速的增長.當(dāng)我們在享受大體量數(shù)據(jù)所帶來的大量重要信息的同時(shí),也不得不面對大體量數(shù)據(jù)訓(xùn)練困難的問題.如果不做特殊的預(yù)處理而直接訓(xùn)練,可能會導(dǎo)致訓(xùn)練復(fù)雜度過高,大大影響算法處理的能力.

        目前,對于這種體量巨大的數(shù)據(jù)最有效的預(yù)處理方法是基于學(xué)習(xí)的哈希算法.哈希算法主要用于大體量下的圖像檢索工作,早期的有監(jiān)督哈希算法通常將每個(gè)圖像編碼為手工制作的視覺特征向量,然后通過學(xué)習(xí)哈希函數(shù)將這樣的特征向量映射為一段二進(jìn)制代碼.近年來,隨著深度卷積網(wǎng)絡(luò)的迅猛發(fā)展,一種新興的有監(jiān)督哈希方法出現(xiàn)了,它是一種基于深度網(wǎng)絡(luò)的哈希方法,利用深度卷積網(wǎng)絡(luò)來學(xué)習(xí)圖像的哈希函數(shù)和鑒別特征表示.比如Huang等[23]提出的一種將輸入圖像編碼成二進(jìn)制碼的深層結(jié)構(gòu),取名叫多標(biāo)簽圖像目標(biāo)位置感知哈希算法,其核心思想是學(xué)習(xí)一個(gè)二值,它可以識別圖像對象的近似位置.借助于這些物體的近似位置,來聚焦圖像物體的區(qū)域,并忽略背景區(qū)域,然后將此聚焦的特征表示編碼為二進(jìn)制散列碼.Bao等[24]則提出一種積累圖像語義信息的大規(guī)模圖像標(biāo)注方法.作者首先通過多圖像分割技術(shù)將每個(gè)圖像編碼為區(qū)域包;隨后,采用局部敏感哈希方法將圖像區(qū)域分割成多個(gè)桶,以此保證相似區(qū)域的高碰撞概率;最后,引入稀疏和區(qū)域感知的圖像相似矩陣有效地提高了圖像標(biāo)注的性能.

        除哈希算法外,還有其他一些處理大體量數(shù)據(jù)的圖像多標(biāo)簽學(xué)習(xí)算法.Gupta等[25]從分布語義學(xué)的思想中得到啟發(fā),提出了一種基于標(biāo)簽嵌入的大規(guī)模多標(biāo)簽學(xué)習(xí)方法,該模型通過有效的基于梯度的方法預(yù)測這些嵌入,以便對新輸入進(jìn)行注釋.Hu等[26]則提出了另一種具有非線性特征轉(zhuǎn)換的網(wǎng)絡(luò)結(jié)構(gòu).作者利用海量的數(shù)據(jù)集和帶驗(yàn)證數(shù)據(jù)的小數(shù)據(jù)集來學(xué)習(xí)多標(biāo)簽分類器,也取得了不錯(cuò)的訓(xùn)練結(jié)果.

        2.3 關(guān)聯(lián)復(fù)雜

        標(biāo)簽間的相關(guān)性是多標(biāo)簽一個(gè)重要的特點(diǎn),通過標(biāo)簽相關(guān)性的合理使用,可以很好地提高圖像多標(biāo)簽學(xué)習(xí)的性能.在過去,處理多標(biāo)簽相關(guān)性的方法大致有如下3種:第1種是利用附加信息來運(yùn)用標(biāo)簽間的相關(guān)性[27];第2種是不考慮數(shù)據(jù)只考慮標(biāo)簽域中的信息來明確標(biāo)簽間的關(guān)聯(lián)[28-29];第3種是利用從特征和標(biāo)簽域獲得的信息處理[30-31].不過,近幾年又有許多新的利用相關(guān)性的思想被提出.其中主要的方法有:雙標(biāo)簽集法[32]、基于協(xié)作的多標(biāo)簽學(xué)習(xí)法[33]、基于圖像特征的處理方法[34-35]等.

        關(guān)于雙標(biāo)簽集的理論,是一種由Liu等[32]提出,旨在利用集內(nèi)和集間的標(biāo)簽關(guān)系去解決多標(biāo)簽學(xué)習(xí)問題的方法.作者首先對每個(gè)對象給予兩組標(biāo)簽來表示相關(guān)性,接著提出一種基于boosting的框架來解決雙標(biāo)簽集問題.其中雙標(biāo)簽集的每個(gè)組保持一個(gè)樣本分布,通過使用兩個(gè)相互重用的基本分類器,讓每個(gè)標(biāo)簽集利用嵌入在另一個(gè)標(biāo)簽集中的信息,并通過樣本分布的聯(lián)合調(diào)整,使得一個(gè)模型上的錯(cuò)誤可由另一個(gè)模型彌補(bǔ),以此來利用集內(nèi)和集間的標(biāo)簽關(guān)系.

        協(xié)作的多標(biāo)簽學(xué)習(xí)算法,是由Feng等[33]提出的一種新的多標(biāo)簽學(xué)習(xí)方法.以前的方法大多將標(biāo)簽相關(guān)性作為先驗(yàn)知識,但這可能無法正確刻畫標(biāo)簽之間的真實(shí)關(guān)系.而這種基于協(xié)作的多標(biāo)簽學(xué)習(xí)則可以利用學(xué)習(xí)到的標(biāo)簽相關(guān)性(標(biāo)簽相關(guān)性矩陣)來擬合最終預(yù)測結(jié)果.

        關(guān)于圖像特征的應(yīng)用,是學(xué)者在利用多標(biāo)簽相關(guān)性時(shí)容易忽略的一點(diǎn).Li等[34]提出了一種條件圖形套索的方法來應(yīng)對這些挑戰(zhàn).這是一種以圖像特征的結(jié)構(gòu)和參數(shù)學(xué)習(xí)為基礎(chǔ)的貝葉斯框架.將多標(biāo)簽預(yù)測問題表述為推理問題,并用平均場變分法求解.關(guān)于圖像特征的處理,Jing等[35]提出另一種方法:標(biāo)簽一致性正則化的多標(biāo)簽字典學(xué)習(xí)和部分相同標(biāo)簽嵌入法,作者在輸入、輸出兩個(gè)空間同時(shí)進(jìn)行多標(biāo)簽學(xué)習(xí),從而提高了輸入特征空間的特征表示能力和輸出標(biāo)簽空間的標(biāo)簽傳播能力.

        在處理多標(biāo)簽相關(guān)性問題時(shí),經(jīng)常需要面對的另一個(gè)挑戰(zhàn)是缺乏訓(xùn)練數(shù)據(jù),而在許多實(shí)際應(yīng)用中,具有可用標(biāo)簽信息的對象數(shù)量經(jīng)常是非常有限的,此時(shí)一般的有監(jiān)督學(xué)習(xí)算法的性能可能會顯著下降.在此基礎(chǔ)上,Jing等[36]提出了一種半監(jiān)督奇異值分解法(Singular Value Decomposition,SVD),該方法適用于訓(xùn)練數(shù)據(jù)量很小的情況下的多標(biāo)簽學(xué)習(xí).其主要思想是尋找從特征空間到低秩標(biāo)簽空間的映射,并通過SVD低秩映射出的左/右奇異向量來顯式地描述標(biāo)簽/特征分量向量.實(shí)驗(yàn)結(jié)果表明,此方法也可以在數(shù)據(jù)量很少的的情況下,有效地挖掘和利用特征空間和標(biāo)簽空間中的相關(guān)性.

        3 多標(biāo)簽學(xué)習(xí)的應(yīng)用實(shí)例

        在實(shí)際中,一幅圖像往往可同時(shí)屬于多個(gè)分類,需要用多個(gè)標(biāo)簽進(jìn)行標(biāo)注.因此圖像多標(biāo)簽可以很好地為很多實(shí)際問題建模.在醫(yī)學(xué)、人工智能、多媒體計(jì)算等諸多領(lǐng)域,將目標(biāo)問題轉(zhuǎn)化為多標(biāo)簽問題常常使得復(fù)雜的問題迎刃而解.

        在醫(yī)學(xué)領(lǐng)域,很多疾病在多標(biāo)簽的協(xié)助下都可以得到一定的處理.比如醫(yī)學(xué)的一大難題:腦腫瘤問題.腦腫瘤雖然不是常見疾病,但它嚴(yán)重危害了患者的健康,導(dǎo)致極高的死亡率.因?yàn)槭謩臃指钚枰叨鹊膶I(yè)知識并且非常耗時(shí),所以基于多標(biāo)簽理論的自動腦腫瘤分割技術(shù)將大大方便醫(yī)療診斷和治療計(jì)劃.在將腦腫瘤數(shù)據(jù)用多標(biāo)簽表示后,通過Chen等[21]提出的一種端到端可訓(xùn)練網(wǎng)絡(luò),便可以很好地解決自動腦腫瘤分割問題.Mamani等[37]為了更好地處理胸部CT掃描圖中各器官的自動定位工作,提出一種基于卷積網(wǎng)絡(luò)的多標(biāo)簽結(jié)構(gòu),通過多池化層的卷積神經(jīng)網(wǎng)絡(luò)處理,很好地解決了CT圖中器官的識別問題.

        在人工智能、計(jì)算機(jī)視覺等方面,多標(biāo)簽技術(shù)也有著相當(dāng)重要的作用.比如在自動駕駛領(lǐng)域,智能汽車的路況識別工作主要是用多標(biāo)簽?zāi)P蛠硖幚淼?為了解決自動駕駛的道路場景識別工作,Chen等[38]為駕駛場景數(shù)據(jù)集提出了一種新的多標(biāo)簽神經(jīng)網(wǎng)絡(luò).該體系結(jié)構(gòu)利用混合標(biāo)簽(同時(shí)包括多標(biāo)簽和單標(biāo)簽),其中多標(biāo)簽主要用于多類別預(yù)測學(xué)習(xí),而單標(biāo)簽則用于對訓(xùn)練過程中需要更仔細(xì)處理的小類別進(jìn)行監(jiān)督學(xué)習(xí),兩者協(xié)作構(gòu)建出道路識別模型.Sirirattanapol等[39]也在路況識別工作中有著獨(dú)到的見解,他們將多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)與現(xiàn)有的電視圖像結(jié)合起來,不需要專門為此類任務(wù)設(shè)計(jì)新的傳感器,從而提取出有雨、無雨、晴朗、黑暗、擁擠交通、非擁擠交通、潮濕道路和干燥道路等道路環(huán)境情況的組合,不但同時(shí)檢測多個(gè)事件而且降低了成本.

        除此之外,多標(biāo)簽還在圖像濾波[40]、視頻處理等方面起著重要的作用.雖然在過去十幾年科研工作者在圖像多標(biāo)簽學(xué)習(xí)領(lǐng)域取得了很多驕人的成績,但是在新時(shí)期的發(fā)展背景下仍然有許多亟待解決的問題.首先,現(xiàn)實(shí)世界是復(fù)雜的,圖片難以將所有低概率事件完全列出,比如識別被故意涂鴉的汽車.如何以較高的準(zhǔn)確性預(yù)測受到特殊干擾的圖像,始終是一個(gè)難題.其次,對于一幅圖像上有多個(gè)物體的情況,雖然已有許多方法通過語義來刻畫物體間的聯(lián)系,但精度依然有待提高,所以對于物體間關(guān)聯(lián)的刻畫依然是圖像多標(biāo)簽學(xué)習(xí)的重點(diǎn).

        4 總結(jié)

        近年來,隨著數(shù)據(jù)的快速增長,以及數(shù)據(jù)存儲能力的增強(qiáng),多標(biāo)簽問題的處理工作取得了不錯(cuò)的發(fā)展.在醫(yī)學(xué)、計(jì)算機(jī)等領(lǐng)域,以前很多難以實(shí)現(xiàn)的工作,現(xiàn)在都可以通過建立多標(biāo)簽?zāi)P停⒂蒙窠?jīng)網(wǎng)絡(luò)等技術(shù)進(jìn)行處理.本文首先介紹了多標(biāo)簽概念及其分類,接著分別從單例多標(biāo)簽和多例多標(biāo)簽兩個(gè)角度講述圖像多標(biāo)簽的具體學(xué)習(xí)方法.隨后,本文詳細(xì)總結(jié)了在大數(shù)據(jù)時(shí)代標(biāo)簽噪聲大、數(shù)據(jù)體量大和標(biāo)簽關(guān)聯(lián)復(fù)雜這三大挑戰(zhàn)下,多標(biāo)簽?zāi)P偷拇罱ㄅc處理工作,并構(gòu)建了一個(gè)有效地處理多標(biāo)簽問題的算法指南,同時(shí)也為多標(biāo)簽的進(jìn)一步研究提供了參考.最后,本文簡單闡述了多標(biāo)簽在醫(yī)學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域的具體現(xiàn)實(shí)應(yīng)用.

        參考文獻(xiàn)

        References

        [1]Zhou Z H,Zhang M L,Huang S J,et al.Multi-instance multi-label learning[J].Artificial Intelligence,2012,176(1):2291-2320

        [2]Tsoumakas G,Katakis I.Multi-label classification[J].International Journal of Data Warehousing and Mining,2007,3(3):1-13

        [3]Read J,Pfahringer B,Holmes G,et al.Classifier chains for multi-label classification[J].Machine Learning,2011,85(3):333-359

        [4]Nam J,Kim J,Gurevych I,et al.Large-scale multi-label text classification:revisiting neural networks[C]∥Joint European Conference on Machine Learning and Knowledge Discovery in Databases,2013:437-452

        [5]Chen S F,Chen Y C,Yeh C K,et al.Order-free RNN with visual attention for multi-label classification[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32:6714-6721

        [6]Markatopoulou F,Mezaris V,Patras I.Implicit and explicit concept relations in deep neural networks for multi-label video/image annotation[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(6):1631-1644

        [7]Zhang J J,Wu Q,Shen C H,et al.Multilabel image classification with regional latent semantic dependencies[J].IEEE Transactions on Multimedia,2018,20(10):2801-2813

        [8]Li C H,Kang Q,Ge G J,et al.DeepBE:learning deep binary encoding for multi-label classification[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2016:744-751

        [9]He S Y,Xu C,Guo T Y,et al.Reinforced multi-label image classification by exploring curriculum[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32:3183-3190

        [10]Li Y C,Song Y L,Luo J B.Improving pairwise ranking for multi-label image classification[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:1837-1845

        [11]Behpour S,Xing W,Ziebart B D.ARC:adversarial robust cuts for semi-supervised and multi-label classification[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2018:1905-1907

        [12]Yang H,Zhou J T,Zhang Y,et al.Exploit bounding box annotations for multi-label object recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:280-288

        [13]Ding X M,Li B,Xiong W H,et al.Multi-instance multi-label learning combining hierarchical context and its application to image annotation[J].IEEE Transactions on Multimedia,2016,18(8):1616-1627

        [14]Yang H,Zhou J T Y,Cai J F,et al.MIML-FCN+:multi-instance multi-label learning via fully convolutional networks with privileged information[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:5996-6004

        [15]Zhu Y,Ting K M,Zhou Z H.Discover multiple novel labels in multi-instance multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2017,31:2977-2984

        [16]Wang Z X,Chen T S,Li G B,et al.Multi-label image recognition by recurrently discovering attentional regions[J].IEEE International Conference on Computer Vision (ICCV),2017:464-472

        [17]Xie M K,Huang S J.Partial multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32:4302-4309

        [18]Yang H,Zhou J T,Cai J F.Improving multi-label learning with missing labels by structured semantic correlations[M]∥Computer Vision-ECCV 2016.Cham:Springer International Publishing,2016:835-851.DOI:10.1007/978-3-319-46448-0_50

        [19]Sun L J,F(xiàn)eng S H,Wang T,et al.Partial multi-label learning by low-rank and sparse decomposition[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:5016-5023

        [20]Fang J P,Zhang M L.Partial multi-label learning via credible label elicitation[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:3518-3525

        [21]Chen X,Liew J H,Xiong W,et al.Focus,segment and erase:an efficient network for multi-label brain tumor segmentation[M]∥Computer Vision-ECCV 2018.Cham:Springer International Publishing,2018:674-689.DOI:10.1007/978-3-030-01261-8_40

        [22]Wu B Y,Lyu S W,Ghanem B.Constrained submodular minimization for missing labels and class imbalance in multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2016,30:2229-2236

        [23]Huang C Q,Yang S M,Pan Y,et al.Object-location-aware hashing for multi-label image retrieval via automatic mask learning[J].IEEE Transactions on Image Processing,2018,27(9):4490-4502

        [24]Bao B K,Ni B B,Mu Y D,et al.Efficient region-aware large graph construction towards scalable multi-label propagation[J].Pattern Recognition,2011,44(3):598-606

        [25]Gupta V,Wadbude R,Natarajan N,et al.Distributional semantics meets multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:3747-3754

        [26]Hu M Y,Han H,Shan S G,et al.Multi-label learning from noisy labels with non-linear feature transformation[C]∥Asian Conference on Computer Vision,2019:404-419

        [27]Bengio S,Weston J,Grangier D.Label embedding trees for large multi-class tasks[C]∥NIPS10 Proceedings of the 23rd International Conference on Neural Information Processing Systems,2010:163-171

        [28]Dembczynski K,Cheng W,Hullermeier E.Bayes optimal multi-label classification via probabilistic classifier chains[C]∥International Conference on Machine Learning (ICML),2010:279-286

        [29]TsoumakasG,Katakis I,Vlahavas I.Random k-labelsets for multilabel classification[J].IEEE Transactions on Knowledge and Data Engineering,2011,23(7):1079-1089

        [30]Chen Y N,Lin H T.Feature-aware label space dimension reduction for multi-label classification[J].Advances in Neural Information Processing Systems,2012,2:1529-1537

        [31]Li X,Zhao F P,Guo Y H.Conditional restricted boltzmann machines for multi-label learning with incomplete labels[C]∥Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics,2015:635-643

        [32]Liu C,Zhao P,Huang S J,et al.Dual set multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32:3635-3642

        [33]Feng L,An B,He S.Collaboration based multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:3550-3557

        [34]Li Q,Qiao M Y,Bian W,et al.Conditional graphical lasso for multi-label image classification[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:2977-2986

        [35]Jing X Y,Wu F,Li Z Q,et al.Multi-label dictionary learning for image annotation[J].IEEE Transactions on Image Processing,2016,25(6):2712-2725

        [36]Jing L P,Shen C Y,Yang L,et al.Multi-label classification by semi-supervised singular value decomposition[J].IEEE Transactions on Image Processing,2017,26(10):4612-4625

        [37]Mamani G E H,Setio A A A,Ginneken B V,et al.Organ detection in thorax abdomen CT using multi-label convolutional neural networks[C]∥SPIE Medical Imaging,2017:1013416

        [38]Chen L,Zhan W J,Tian W,et al.Deep integration:a multi-label architecture for road scene recognition[J].IEEE Transactions on Image Processing,2019,28(10):4883-4898

        [39]Sirirattanapol C,Nagai M,Witayangkurn A,et al.Bangkok CCTV image through a road environment extraction system using multi-label convolutional neural network classification[J].ISPRS International Journal of Geo-Information,2019,8(3):128

        [40]Dai L Q,Yuan M K,Li Z C,et al.Hardware-efficient guided image filtering for multi-label problem[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:4905-4913

        Abstract With the fast growing number of images,especially the user-generated ones,the semantic content of images become richer,and labels become more complex.Therefore,the study on image multi-label learning is one of the hot research areas in both academia and industry,and a large number of efficient methods have emerged in recent years.This paper surveys the existing work on image multi-label learning in recent years.Firstly,we briefly describe the concept of multi-label learning and introduce two types of methods,that is,single-instance multi-label learning and multi-instance multi-label learning.Then,we summarize three challenges on multi-label learning caused by the big data characteristics,and provide related work which can handle these challenges.Finally,we elaborate two applications on image recognition and automatic drive to show that multi-label learning techniques can be effective for many application scenarios.

        Key words multi-label learning;image annotation;deep learning;big data

        猜你喜歡
        深度學(xué)習(xí)大數(shù)據(jù)
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        久久精品国产视频在热| 久久精品天堂一区二区| 亚洲一区亚洲二区视频在线| 免费无码一区二区三区a片百度| 国产精品理论片在线观看| 亚洲精品一区国产欧美| 五月天综合在线| 国产麻豆精品久久一二三| 成人性生交大片免费5| 精品国产第一国产综合精品| 日韩精品一区二区亚洲av| 欧美手机在线视频| 久久亚洲精品一区二区三区| 久久国产成人精品av| 免费无码午夜福利片69| 日本特黄a级高清免费大片| 宅男天堂亚洲一区二区三区| 国产狂喷水潮免费网站www| 国产免费av片在线观看播放| 正在播放淫亚洲| 男生自撸视频在线观看 | 中文字幕精品一区久久| 男人进去女人爽免费视频| 四虎影视亚洲精品| 日本中出熟女一区二区| 日韩乱码中文字幕在线| 一性一交一口添一摸视频| 一本大道久久精品 东京热| 国成成人av一区二区三区| 18国产精品白浆在线观看免费| 特级无码毛片免费视频尤物| 无码久久流水呻吟| 日韩午夜三级在线视频| 日韩视频在线观看| 精品国产乱码久久久久久口爆网站| 调教在线播放黄| 国产在线观看黄片视频免费| 亚洲一区二区三区影院| 无码丰满少妇2在线观看| 精品国产一品二品三品| 国产一区二区视频免费在|