亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        異質(zhì)媒體分析技術(shù)研究進(jìn)展

        2015-01-07 06:39:00王樹徽黃慶明
        集成技術(shù) 2015年2期
        關(guān)鍵詞:異質(zhì)語(yǔ)義模態(tài)

        王樹徽黃慶明,2

        1(中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室 北京 100190)

        2(中國(guó)科學(xué)院大學(xué) 北京 100049)

        異質(zhì)媒體分析技術(shù)研究進(jìn)展

        王樹徽1黃慶明1,2

        1(中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室 北京 100190)

        2(中國(guó)科學(xué)院大學(xué) 北京 100049)

        在異質(zhì)媒體應(yīng)用迅速興起,線上內(nèi)容和線下服務(wù)對(duì)網(wǎng)絡(luò)用戶影響日益深刻的背景下,介紹了異質(zhì)媒體分析的相關(guān)概念和方法,對(duì)異質(zhì)媒體的多源自然屬性和社會(huì)屬性進(jìn)行有效感知,揭示海量異質(zhì)媒體的語(yǔ)義多樣性、復(fù)雜關(guān)聯(lián)和內(nèi)在信息傳播機(jī)制。文章主要內(nèi)容涵蓋以下幾方面:首先,討論異質(zhì)媒體數(shù)據(jù)的跨平臺(tái)、多模態(tài)和來(lái)源廣泛等特性及其帶來(lái)的挑戰(zhàn)和機(jī)遇,介紹異質(zhì)媒體分析技術(shù)的特點(diǎn)和傳統(tǒng)單一媒體分析的不同之處,以及異質(zhì)媒體研究可能帶來(lái)的科學(xué)和社會(huì)影響力;其次,分別從異質(zhì)媒體語(yǔ)義分析與理解、異質(zhì)媒體關(guān)聯(lián)建模和異質(zhì)媒體社群分析等三個(gè)方面介紹異質(zhì)媒體分析技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀;最后,介紹作者及所在研究團(tuán)隊(duì)在異質(zhì)語(yǔ)義分析理解,異質(zhì)媒體中熱點(diǎn)事件和話題分析以及異質(zhì)媒體用戶行為分析等方面的最新研究成果。

        異質(zhì)媒體;語(yǔ)義分析與理解;關(guān)聯(lián)分析;熱點(diǎn)事件和話題分析;社群行為分析

        1 引 言

        隨著互聯(lián)網(wǎng)技術(shù)、多媒體技術(shù)、傳感器技術(shù)和移動(dòng)技術(shù)的飛速發(fā)展,以互聯(lián)網(wǎng)為核心的在線信息服務(wù)正越來(lái)越深入人們的生產(chǎn)、生活、娛樂(lè)和社會(huì)交往等活動(dòng)當(dāng)中。近年來(lái),網(wǎng)絡(luò)多媒體和移動(dòng)多媒體用戶的數(shù)量呈現(xiàn)飛速增長(zhǎng)態(tài)勢(shì),社交網(wǎng)絡(luò)等新興媒體在網(wǎng)絡(luò)用戶群體的使用率也接近甚至超過(guò)50%,用戶平均使用時(shí)間也不斷增加。有別于數(shù)十年前,文本已不再是信息和知識(shí)的唯一載體,知識(shí)的傳播正在以更為靈活、多樣、豐富和翔實(shí)的方式進(jìn)行,信息與知識(shí)呈現(xiàn)多來(lái)源化,跨媒介化以及關(guān)聯(lián)多樣化等種種特性。另一方面,隨著交互式網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,微博、圖像視頻分享網(wǎng)站、社交網(wǎng)絡(luò)等諸多平臺(tái)的興起與普及,越來(lái)越多的用戶在網(wǎng)絡(luò)上以發(fā)布消息、張貼圖片視頻等方式傳播消息、表達(dá)觀點(diǎn),通過(guò)與其他用戶的信息交互機(jī)制獲取大量知識(shí)。

        網(wǎng)絡(luò)數(shù)據(jù)除了呈現(xiàn)海量性特點(diǎn)之外,數(shù)據(jù)之間的關(guān)聯(lián)性也在不斷增強(qiáng)。這種關(guān)聯(lián)性也成為網(wǎng)絡(luò)信息除了自身內(nèi)容之外的另外一個(gè)重要來(lái)源。在文本搜索領(lǐng)域,互聯(lián)網(wǎng)搜索引擎公司谷歌(Google)利用的PageRank技術(shù),通過(guò)分析和利用網(wǎng)頁(yè)內(nèi)容之間的超鏈接信息對(duì)網(wǎng)頁(yè)的重要性進(jìn)行計(jì)算,為海量網(wǎng)絡(luò)內(nèi)容檢索帶來(lái)了革命性的突破。與文本相比,網(wǎng)絡(luò)多媒體數(shù)據(jù)之間的關(guān)聯(lián)性較之一般的文本網(wǎng)頁(yè)更加豐富。例如,網(wǎng)絡(luò)圖像和視頻一般與大量的環(huán)繞文字共同出現(xiàn),這些環(huán)繞文字提供了對(duì)視覺(jué)內(nèi)容的描述性信息。由于交互式網(wǎng)絡(luò)技術(shù)的興旺發(fā)展,網(wǎng)絡(luò)用戶可對(duì)異質(zhì)媒體進(jìn)行編輯和標(biāo)注,對(duì)視覺(jué)內(nèi)容提供標(biāo)注信息,可以自由轉(zhuǎn)載、分享和評(píng)論異質(zhì)媒體內(nèi)容。如何有效地分析利用這類信息,成為數(shù)據(jù)挖掘、多媒體、機(jī)器學(xué)習(xí)等研究領(lǐng)域的熱點(diǎn)問(wèn)題。

        總體而言,網(wǎng)絡(luò)信息呈現(xiàn)海量、來(lái)源廣泛、跨媒介、復(fù)雜關(guān)聯(lián)等特性,數(shù)據(jù)與用戶之間存在密不可分的互動(dòng)關(guān)系。這些來(lái)自不同平臺(tái)的不同類型的媒體和與之相關(guān)的社會(huì)屬性信息更加緊密地混合在一起,以一種嶄新的形式,更為形象地表示綜合性知識(shí),反映個(gè)體或者群體的社會(huì)行為,稱為“異質(zhì)媒體”。一些國(guó)內(nèi)同行,如浙江大學(xué)的潘云鶴、莊越挺將這類新型媒體類型命名“跨媒體(Cross-media)”,也有研究機(jī)構(gòu)將其命名為“異構(gòu)媒體”。不同的研究機(jī)構(gòu)的研究思路有所側(cè)重,如“跨媒體”研究偏重于內(nèi)容和語(yǔ)義,“異構(gòu)媒體”研究偏重于不同媒體結(jié)構(gòu)之間的關(guān)聯(lián)建模。然而,在本質(zhì)上,他們都是對(duì)不同的媒體類型,即“異質(zhì)媒體”的內(nèi)容、關(guān)聯(lián)、分布、語(yǔ)義、社群等信息進(jìn)行分析建模和知識(shí)發(fā)現(xiàn)。異質(zhì)媒體的表現(xiàn)形式呈現(xiàn)出如下四個(gè)基本屬性:

        (1)多源感知性

        異質(zhì)媒體的形成本質(zhì)上是在真實(shí)世界的個(gè)體主動(dòng)或被動(dòng)行為驅(qū)動(dòng)下,在來(lái)源不同屬性不同的傳感和智能設(shè)備上進(jìn)行的數(shù)據(jù)采集、內(nèi)容產(chǎn)生和海量匯聚過(guò)程,是在網(wǎng)絡(luò)空間中對(duì)物理世界的一種重現(xiàn)機(jī)制。

        (2)固有的跨模態(tài)和跨平臺(tái)屬性

        即文字、圖像、視頻、聲音、超鏈接、地理信息等結(jié)構(gòu)化或非結(jié)構(gòu)化的跨模態(tài)屬性及不同網(wǎng)絡(luò)平臺(tái)的數(shù)據(jù)之間的物理連接,以及高度相關(guān)的內(nèi)容和語(yǔ)義的多態(tài)多義性。

        (3)豐富的表達(dá)和呈現(xiàn)力

        通過(guò)各類網(wǎng)絡(luò)平臺(tái),異質(zhì)媒體數(shù)據(jù)所固有的多源信息從不同角度來(lái)展示客觀世界及其包含知識(shí),而且多種表達(dá)形式形成的互補(bǔ)協(xié)同的描述具有更豐富的呈現(xiàn)能力。

        (4)媒體數(shù)據(jù)的社會(huì)性

        來(lái)源于不同渠道的各類異質(zhì)媒體數(shù)據(jù)通過(guò)不同方式被賦予地理、時(shí)空、社區(qū)、熱度、偏好等屬性,數(shù)據(jù)與數(shù)據(jù)以及數(shù)據(jù)與用戶之間交叉關(guān)聯(lián),通過(guò)群體推動(dòng)的機(jī)制傳播并動(dòng)態(tài)演化,從而對(duì)媒體內(nèi)容的語(yǔ)義理解產(chǎn)生主觀影響。

        異質(zhì)媒體數(shù)據(jù)的模態(tài)包括文本信息、視覺(jué)信息、聽(tīng)覺(jué)信息,數(shù)據(jù)的來(lái)源包括網(wǎng)頁(yè)、網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)圖像、社會(huì)媒體中的分享、轉(zhuǎn)載、評(píng)注、引用、用戶GPS軌跡信息、地點(diǎn)定位信息等。在網(wǎng)絡(luò)的使用者對(duì)互聯(lián)網(wǎng)的信息獲取的依賴性不斷加強(qiáng)的同時(shí),他們自身也產(chǎn)生了大量的網(wǎng)絡(luò)數(shù)據(jù)。由于網(wǎng)絡(luò)數(shù)據(jù)的爆炸式增長(zhǎng),如果沒(méi)有強(qiáng)有力的內(nèi)容分析工具的幫助,用戶很難從海量數(shù)據(jù)中獲得所需的有用信息和知識(shí)。在本文中,我們將異質(zhì)媒體中蘊(yùn)含的知識(shí)分為兩種主要類型:第一種是異質(zhì)媒體的自然屬性,即描述異質(zhì)媒體的產(chǎn)生時(shí)間(When)、地點(diǎn)(Where)、描述什么內(nèi)容(What)、如何發(fā)生(How)等方面的特性;第二種是異質(zhì)媒體的社會(huì)屬性,即與哪些人相關(guān)、影響作用了哪些人以及被哪些人的行為影響和作用。異質(zhì)媒體分析和檢索研究的目的之一,就是為了有效地提取這些屬性,從而更好地認(rèn)識(shí)異質(zhì)媒體的產(chǎn)生、發(fā)展、傳播和演化機(jī)制。

        有別于傳統(tǒng)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),異質(zhì)媒體數(shù)據(jù)往往融合了多種模態(tài)信息。異質(zhì)媒體的多源屬性也導(dǎo)致了信息的交叉?zhèn)鞑ヅc整合,體現(xiàn)了多個(gè)平臺(tái)、不同媒體和用戶群體間的合作、共生、互動(dòng)與協(xié)調(diào)。對(duì)于同一個(gè)異質(zhì)媒體熱點(diǎn)事件或者話題,新聞網(wǎng)站里往往對(duì)事件的發(fā)生以及后續(xù)影響發(fā)展進(jìn)行深入報(bào)道,而社交媒體更多體現(xiàn)了民眾對(duì)事件的關(guān)注度以及主觀反響。例如,針對(duì)2014年5月中下旬發(fā)生的利比亞政變,世界各大主流媒體和電視網(wǎng)對(duì)其進(jìn)行深入的全程跟蹤報(bào)道。而在網(wǎng)絡(luò)上,瞬時(shí)出現(xiàn)很多針對(duì)此次事件的紀(jì)實(shí)資料和評(píng)論分析,大多數(shù)采用文字、圖片和視頻等圖文并茂的方式呈現(xiàn)。在社會(huì)媒體中,普通用戶對(duì)信息進(jìn)行引用、轉(zhuǎn)載和評(píng)述,一時(shí)間在網(wǎng)絡(luò)上針對(duì)這次事件討論的熱度不斷升高,并一度呈現(xiàn)白熱化態(tài)勢(shì)。在這次政治事件中,傳統(tǒng)媒體和新興媒體參與信息傳播的方式和手段,以及事件發(fā)展的信息傳播和演化過(guò)程,再一次讓我們對(duì)異質(zhì)媒體信息傳播有了直觀形象的認(rèn)識(shí)。

        異質(zhì)媒體帶來(lái)豐富信息量的同時(shí),也為媒體分析與理解的相關(guān)研究帶來(lái)了新的挑戰(zhàn)。傳統(tǒng)的針對(duì)單一類型、小數(shù)據(jù)量數(shù)據(jù)的分析方法已經(jīng)不能滿足技術(shù)需求。針對(duì)多源異構(gòu)大數(shù)據(jù)計(jì)算的研究已受到各國(guó)的充分重視。在我國(guó),多源異構(gòu)大數(shù)據(jù)和網(wǎng)絡(luò)異質(zhì)媒體數(shù)據(jù)分析被列入國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃和重大科學(xué)研究計(jì)劃2014年重要支持方向,對(duì)滿足國(guó)家的重大戰(zhàn)略以及商業(yè)應(yīng)用需求具有重要作用。從目前的技術(shù)發(fā)展情況來(lái)看,異質(zhì)媒體分析領(lǐng)域的研究主要存在如下趨勢(shì)和特點(diǎn):

        (1)對(duì)海量媒體內(nèi)容進(jìn)行有效理解,是實(shí)現(xiàn)眾多異質(zhì)媒體應(yīng)用的先決條件。由于海量異質(zhì)媒體數(shù)據(jù)的高維、多源和異構(gòu)特性,存在極為豐富的信息量的同時(shí),也不可避免地存在巨大的語(yǔ)義鴻溝,從而需要對(duì)符合用戶高層認(rèn)知的信息進(jìn)行分析和提取。例如對(duì)異質(zhì)媒體內(nèi)容進(jìn)行分類、標(biāo)注、聚類等。然而,針對(duì)異質(zhì)媒體理解問(wèn)題,以往的研究大多只考慮單特征或者單一模態(tài),例如純文本或者純視覺(jué)信息,且所關(guān)注的語(yǔ)義集合十分有限,所采用的模型一般也為淺層分析模型,不能很好地彌合底層特征與高層語(yǔ)義之間的巨大鴻溝,不利于處理開放網(wǎng)絡(luò)環(huán)境的海量異質(zhì)媒體的語(yǔ)義學(xué)習(xí)問(wèn)題。為應(yīng)對(duì)這些挑戰(zhàn),近年來(lái)在相關(guān)研究領(lǐng)域提出的多特征融合、特征學(xué)習(xí)和相關(guān)學(xué)習(xí)等新思路和新方法,為異質(zhì)媒體分析與檢索提供了新的研究思路,有助于解決異質(zhì)媒體數(shù)據(jù)的復(fù)雜分布和語(yǔ)義鴻溝問(wèn)題。

        (2)異質(zhì)媒體檢索是新一代媒體內(nèi)容服務(wù)的趨勢(shì)之一。對(duì)異質(zhì)媒體檢索技術(shù)的迫切需求,可以從兩個(gè)方面來(lái)概括。首先,由于異質(zhì)媒體數(shù)據(jù)的不斷涌現(xiàn),網(wǎng)絡(luò)用戶早已不滿足于檢索和瀏覽單一形態(tài)的媒體內(nèi)容,而往往希望通過(guò)更加靈活的方式對(duì)信息進(jìn)行查找和搜集。例如,用戶希望通過(guò)輸入一些文本查詢,找到具有相關(guān)內(nèi)容的網(wǎng)頁(yè)、視頻、圖像和音頻等,或者通過(guò)輸入一幅素描的長(zhǎng)城,檢索關(guān)于長(zhǎng)城的自然圖像或者油畫等。如何根據(jù)用戶的任意輸入查詢來(lái)查找及定制不同來(lái)源的多種模態(tài)的媒體信息,已經(jīng)成為迫在眉睫的問(wèn)題。另一方面,未來(lái)以人為中心的數(shù)據(jù)檢索技術(shù)應(yīng)能對(duì)任意類型的輸入進(jìn)行處理,并準(zhǔn)確理解用戶意圖,正確返回用戶感興趣的目標(biāo)異質(zhì)媒體數(shù)據(jù)。為達(dá)到上述目的,其關(guān)鍵在于如何建立不同模態(tài)、不同來(lái)源數(shù)據(jù)的具有語(yǔ)義一致性的可度量緊湊表示。通過(guò)融合異質(zhì)媒體數(shù)據(jù)的多源信息(例如:內(nèi)容共生性信息、語(yǔ)義標(biāo)注信息、超鏈接信息、社會(huì)信息等),構(gòu)建異質(zhì)媒體數(shù)據(jù)的多源知識(shí)表示模型,構(gòu)建有利于有效學(xué)習(xí)的異質(zhì)媒體語(yǔ)義一致性度量表示。

        (3)由于異質(zhì)媒體數(shù)據(jù)的海量性和用戶偏好的多樣性,媒體信息的個(gè)性化定制是信息內(nèi)容交換、共享和管理的核心問(wèn)題之一。隨著以社交媒體為代表的網(wǎng)絡(luò)信息分享網(wǎng)站的崛起和涌現(xiàn),每時(shí)每刻都會(huì)有數(shù)以萬(wàn)計(jì)的各種媒體信息在網(wǎng)絡(luò)上出現(xiàn)和傳播。普通民眾從信息的接收者變成了數(shù)據(jù)和網(wǎng)絡(luò)話題的制造者和直接參與者,并通過(guò)各類網(wǎng)絡(luò)應(yīng)用連結(jié)在一起形成網(wǎng)絡(luò)群體連接關(guān)系。這種關(guān)系包含現(xiàn)實(shí)生活在網(wǎng)絡(luò)上的延伸,也包含因?yàn)閾碛邢嗤鞔_的目標(biāo)和期望而關(guān)聯(lián)起來(lái)的純虛擬群體。社群的形成往往建立在共同的興趣、喜好背景或者對(duì)某種事物的共同認(rèn)知或關(guān)注上,因而社群內(nèi)的成員往往具有某些相似或關(guān)聯(lián)屬性,例如對(duì)異質(zhì)媒體內(nèi)容的認(rèn)知喜好、對(duì)網(wǎng)絡(luò)事件的觀點(diǎn)看法等。如何根據(jù)對(duì)用戶的屬性、行為和意圖分析,從海量的數(shù)據(jù)中找到所需要的目標(biāo)內(nèi)容,是一個(gè)非常具有挑戰(zhàn)性的難題。

        綜上所述,異質(zhì)媒體的興起,為新一代網(wǎng)絡(luò)多媒體檢索提供了前所未有的發(fā)展機(jī)遇。以往專注于多媒體自身內(nèi)容分析的研究思路已不能很好地適應(yīng)異質(zhì)媒體數(shù)據(jù)的跨模態(tài)、跨平臺(tái)等多源屬性,不能有效利用數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,對(duì)異質(zhì)媒體內(nèi)容進(jìn)行更為深入的內(nèi)容理解和更準(zhǔn)確的檢索。另一方面,由于異質(zhì)媒體數(shù)據(jù)所固有的社會(huì)屬性反映了異質(zhì)媒體數(shù)據(jù)本身與網(wǎng)絡(luò)社群用戶之間的緊密關(guān)聯(lián)關(guān)系,這為研究更加人性化和個(gè)性化的異質(zhì)媒體檢索技術(shù)提供了很好的契機(jī)。針對(duì)異質(zhì)媒體的數(shù)據(jù)多源性、跨模態(tài)性、海量性及分布復(fù)雜且不均衡等特點(diǎn),研究有效的異質(zhì)媒體語(yǔ)義分析和檢索技術(shù),對(duì)網(wǎng)絡(luò)社群行為進(jìn)行建模分析,充分挖掘異質(zhì)媒體信息處理和網(wǎng)絡(luò)社群用戶行為之間的關(guān)系,可為海量異質(zhì)媒體信息處理提供新的解決方案。從應(yīng)用角度來(lái)看,這又會(huì)為個(gè)性化檢索、推薦、內(nèi)容定制提供契機(jī),為更有效地進(jìn)行內(nèi)容推送、廣告投放、資訊發(fā)布給予指導(dǎo)。從社會(huì)角度來(lái)說(shuō),異質(zhì)媒體分析為網(wǎng)絡(luò)的內(nèi)容過(guò)濾和網(wǎng)絡(luò)社群行為分析提供強(qiáng)有力的支持,有助于維護(hù)社會(huì)公共安全,促進(jìn)社會(huì)公平正義,保持社會(huì)良好秩序。

        2 國(guó)內(nèi)外研究現(xiàn)狀

        由于網(wǎng)絡(luò)和多媒體技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)多媒體數(shù)據(jù)呈現(xiàn)爆炸性增長(zhǎng)趨勢(shì)。對(duì)多源異質(zhì)媒體數(shù)據(jù)智能處理已經(jīng)受到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注,近年來(lái)涌現(xiàn)了大量的研究成果。異質(zhì)媒體分析涉及的領(lǐng)域較多,例如:多媒體分析、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、音頻分析、網(wǎng)頁(yè)分析、社會(huì)網(wǎng)絡(luò)分析等等。本文將從三個(gè)異質(zhì)媒體的核心分析對(duì)象(語(yǔ)義、關(guān)聯(lián)、社群)來(lái)對(duì)相關(guān)工作進(jìn)行剖析。

        2.1 海量異質(zhì)媒體數(shù)據(jù)的語(yǔ)義分析與理解

        異質(zhì)媒體數(shù)據(jù)體量巨大,內(nèi)容豐富多樣。其中(尤其是視覺(jué)數(shù)據(jù))蘊(yùn)含的語(yǔ)義信息對(duì)于異質(zhì)媒體分析理解起到至關(guān)重要的作用。對(duì)于視覺(jué)數(shù)據(jù),特征表示往往直接影響模型的最終性能。然而,受制于圖像底層特征和高層語(yǔ)義之間的語(yǔ)義鴻溝[1],圖像的類別信息很難直接從視覺(jué)底層特征直接獲得。另一方面,現(xiàn)有的不同視覺(jué)底層特征一般從具體的某一方面(例如顏色、紋理和形狀信息)描述視覺(jué)內(nèi)容[2,3]。不同的底層特征對(duì)不同類別的圖像識(shí)別的貢獻(xiàn)不盡相同。即使對(duì)于某個(gè)典型主題的圖像內(nèi)容,不同的表現(xiàn)形式以及白天、黑夜等不同光照條件,在帶來(lái)不同的感官感受的同時(shí)也由于其所具有的豐富視覺(jué)內(nèi)容造成了網(wǎng)絡(luò)圖像檢索、分類模型學(xué)習(xí)的困難。研究者致力于通過(guò)設(shè)計(jì)特征的提取來(lái)解決上述問(wèn)題。雖然在一些情況下這些特征顯示了充分的效果,但是在大多數(shù)情況下仍然存在判別力不足的問(wèn)題,并不能用來(lái)解決識(shí)別、檢測(cè)等涉及相對(duì)高層語(yǔ)義的問(wèn)題。近年來(lái),學(xué)者提出一種基于稀疏編碼的局部視覺(jué)單詞編碼方法[4],在多個(gè)基準(zhǔn)視覺(jué)數(shù)據(jù)集上獲得優(yōu)越的分類性能?;谙∈杈幋a的思想,學(xué)者們還提出了若干類似的方法,例如局部線性編碼[5]等,也都被證明了能比傳統(tǒng)的視覺(jué)特征更好地應(yīng)對(duì)視覺(jué)表觀信息豐富的變化。Marial等[6]進(jìn)一步發(fā)現(xiàn)將判別信息(例如類別信息等)引入稀疏編碼過(guò)程,能夠使所提特征具有更好的語(yǔ)義一致性。這類方法也為相關(guān)研究提供了指導(dǎo)性信息。

        對(duì)于不同語(yǔ)義主題的圖像,由于內(nèi)容既存在類內(nèi)的變化,也存在一定的類間差異及共性,類別間的組織結(jié)構(gòu)對(duì)分類識(shí)別模型的學(xué)習(xí)起到重要的作用。傳統(tǒng)的一對(duì)多的分類模型雖然成功應(yīng)用于處理小數(shù)據(jù)量或者理想實(shí)驗(yàn)環(huán)境數(shù)據(jù),但由于極多類別帶來(lái)的類樣本分布極度不均衡以及數(shù)據(jù)來(lái)源域的多樣性,造成了模型的退化。一種可行的解決之道是利用圖像類別的層次化組織關(guān)系[7,8]構(gòu)建判別模型。近年來(lái),深度學(xué)習(xí)[9,10]被廣泛應(yīng)用于視頻、圖像、音頻、文本等數(shù)據(jù)分類和處理,并獲得了超越(幾乎所有)經(jīng)典方法的性能,已逐漸成為一種基準(zhǔn)方法。深度學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行多個(gè)層次的“抽象”表示,這與以往統(tǒng)計(jì)學(xué)習(xí)方法具有顯著的不同,更適合于處理具有復(fù)雜內(nèi)容的異質(zhì)媒體數(shù)據(jù),將成為研究的熱點(diǎn)。

        作為另外一種可行途徑,利用多個(gè)核函數(shù)處理多特征信息的多特征融合方法在計(jì)算機(jī)視覺(jué)方面也獲得了很大成功[11-16],并已經(jīng)成為一種處理視覺(jué)分類問(wèn)題的基準(zhǔn)方法。同時(shí),在視覺(jué)方面的研究也促進(jìn)了多核學(xué)習(xí)的發(fā)展。例如,Yang等[11]發(fā)現(xiàn)全局核權(quán)重學(xué)習(xí)方式在面對(duì)視覺(jué)數(shù)據(jù)復(fù)雜的分布形態(tài)時(shí)不能很好地適應(yīng),而樣本敏感的多核學(xué)習(xí)[14]又會(huì)對(duì)噪聲產(chǎn)生過(guò)度的響應(yīng)從而導(dǎo)致過(guò)擬合和模型退化,并針對(duì)這一問(wèn)題提出組敏感的核權(quán)重學(xué)習(xí)思想。事實(shí)上,多核學(xué)習(xí)的本質(zhì)仍然是特征選擇和多源信息融合。與傳統(tǒng)的相關(guān)方法的研究不同,以多核學(xué)習(xí)方式進(jìn)行的信息融合涉及到眾多特征之間的結(jié)構(gòu)化信息。今后,這方面的研究仍將是熱點(diǎn)。

        2.2 異質(zhì)媒體數(shù)據(jù)關(guān)聯(lián)建模

        在過(guò)去的十幾年研究中,為了有效組織網(wǎng)絡(luò)數(shù)據(jù),使用戶能夠準(zhǔn)確和快速地檢索到具有視覺(jué)和語(yǔ)義相關(guān)性的網(wǎng)絡(luò)文檔,相關(guān)領(lǐng)域的學(xué)者從幾個(gè)方面進(jìn)行了大量的研究工作,例如索引[17]、檢索模型[18-25]。最典型的一種適合于大規(guī)模數(shù)據(jù)檢索的技術(shù)是近似近鄰查找技術(shù)。例如:局部敏感哈希方法(LSH)[18]被提出以解決高維空間中的近似近鄰查找問(wèn)題。為了進(jìn)一步提升性能,學(xué)者們進(jìn)一步研究基于學(xué)習(xí)的哈希方法,例如譜哈希[19]、語(yǔ)義哈希[22]和針對(duì)特定任務(wù)的哈希碼學(xué)習(xí)技術(shù)[23]等。為了利用數(shù)據(jù)的非線性相似性度量,Kulis等[24]提出在給定的核表示上直接構(gòu)建哈希函數(shù),這種技術(shù)被稱作核化哈希。王樹徽等[25]將核化哈希擴(kuò)展到多特征表示上。Liu等[26]提出利用樣本類信息的基于學(xué)習(xí)的核化哈希方法。其他一些工作[20,21]提出了一系列算法框架,利用樣本類信息和多特征表示[27]進(jìn)行哈希函數(shù)學(xué)習(xí)。這些工作都僅僅考慮了單模態(tài)數(shù)據(jù),并不適用于解決跨模態(tài)數(shù)據(jù)的問(wèn)題。

        本質(zhì)而言,跨模態(tài)數(shù)據(jù)檢索需將不同模態(tài)的異構(gòu)數(shù)據(jù)映射到一個(gè)統(tǒng)一的可度量的表示空間當(dāng)中。為達(dá)到這個(gè)目的,兩個(gè)要求十分重要:首先,在模態(tài)內(nèi)部,語(yǔ)義上相似(不相似)的數(shù)據(jù)在統(tǒng)一表示空間中也應(yīng)該相似(不相似),這種模態(tài)內(nèi)部的相似性可以由局部鄰接結(jié)構(gòu)[28,29]或者樣本類信息提供[28];其次,跨模態(tài)的相關(guān)(不相關(guān))內(nèi)容在統(tǒng)一表示空間中應(yīng)該相似(不相似)[30,31]。為達(dá)到這兩個(gè)要求,相關(guān)的研究可粗略劃分為子空間學(xué)習(xí)和話題模型兩大類。

        子空間學(xué)習(xí)的目的是找到兩個(gè)模態(tài)中使其模態(tài)間相關(guān)性最大的低維投影子空間表示。經(jīng)典相關(guān)分析(CCA)[30]及其變種[32]提供了一種對(duì)這個(gè)問(wèn)題的直接解決方案。Rasiwasia等[33]基于CCA子空間表示提出一種跨模態(tài)內(nèi)容的話題分類器,如圖1所示。其基本流程如下:首先,基于圖像和文本文件的共生關(guān)系,通過(guò)CCA學(xué)習(xí)生成一對(duì)使圖像和文本內(nèi)容相關(guān)性最大化的子空間,并將圖像和文本投射到子空間當(dāng)中;然后,在各自的子空間表示上構(gòu)建語(yǔ)義分類器,得到不同模態(tài)文件在一個(gè)低維語(yǔ)義空間上的概率化表示,這個(gè)表示被認(rèn)為能夠很好地體現(xiàn)數(shù)據(jù)的語(yǔ)義信息;最后,在語(yǔ)義空間上對(duì)比不同的跨模態(tài)數(shù)據(jù)之間的語(yǔ)義相關(guān)性。然而,該方法忽略了模態(tài)內(nèi)部數(shù)據(jù)之間的相關(guān)性,并且其采用的分步式映射學(xué)習(xí)策略不能保證所得到的語(yǔ)義映射是最優(yōu)的,故只能處理小規(guī)??缒B(tài)數(shù)據(jù)。

        此外,Bronstein等[29]提出一種基于noosting的哈希碼學(xué)習(xí)方法,學(xué)習(xí)到一系列的“弱哈希函數(shù)”及其組合權(quán)重,并用來(lái)計(jì)算跨模態(tài)的加權(quán)漢明距離。Masci等[28]擴(kuò)展了Bronstein等[29]提出的模型,在多層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上對(duì)模態(tài)內(nèi)部的相似性信息和模態(tài)間的相關(guān)信息加以利用?;趫D表示的方法將模態(tài)內(nèi)部的相似性信息和模態(tài)間的相關(guān)信息用統(tǒng)一的圖結(jié)構(gòu)來(lái)表示,而該圖表示的最小特征值對(duì)應(yīng)的特征空間就是需要尋找的跨模態(tài)子空間?;陬愃频乃悸?Song等[34]提出一種基于模態(tài)內(nèi)和模態(tài)間關(guān)系建模的圖分解方法用于跨模態(tài)哈希學(xué)習(xí)。子空間學(xué)習(xí)的方法一般需要多模態(tài)數(shù)據(jù)嚴(yán)格對(duì)齊,同時(shí)被組織成一對(duì)一的數(shù)據(jù)對(duì),也就是說(shuō),每個(gè)文本/視覺(jué)文件必須有一個(gè)對(duì)應(yīng)的視覺(jué)/文本文件。然而,當(dāng)處理網(wǎng)絡(luò)數(shù)據(jù)時(shí),這種要求一般很難滿足。另外,子空間學(xué)習(xí)一般只能針對(duì)兩個(gè)模態(tài)的數(shù)據(jù),對(duì)于多個(gè)模態(tài),一般將其分解為一系列的兩兩模態(tài)對(duì)應(yīng)問(wèn)題,從而不可避免地帶來(lái)計(jì)算復(fù)雜度的提高。

        圖1 跨模態(tài)關(guān)聯(lián)學(xué)習(xí)示例Fig.1 The example of cross-modal correlation learning

        在隱含話題模型中,需要學(xué)習(xí)隱含話題來(lái)對(duì)多模態(tài)內(nèi)容的關(guān)聯(lián)方式進(jìn)行概率化建模。一致性隱形狄利克雷分布(Correspondence LDA,Corr-LDA)方法[35]試圖捕捉圖像和文字標(biāo)注之間的話題級(jí)別的關(guān)系。Xiao等[36]結(jié)合LDA和Corr-LDA等方法用于將圖像和聲音通過(guò)文本標(biāo)簽關(guān)聯(lián)起來(lái)。賈揚(yáng)清等[37]提出的模型可以看作是在LDA話題模型基礎(chǔ)上構(gòu)建的馬爾可夫隨機(jī)場(chǎng),其特點(diǎn)是不需要數(shù)據(jù)以一對(duì)一的方式加以組織。Zhen等[31]提出一種隱含二值嵌入的方法,其本質(zhì)是同時(shí)學(xué)習(xí)隱含話題分布及二值化的權(quán)重表示,并以此來(lái)刻畫被觀測(cè)到的模態(tài)內(nèi)部和不同模態(tài)數(shù)據(jù)的相似性。Chen等[38]提出一種多視角最大間隔(margin)的隱含子空間學(xué)習(xí),獲得了非常好的學(xué)習(xí)效果。然而,雖然有些研究試圖在對(duì)多模態(tài)數(shù)據(jù)中復(fù)雜的話題級(jí)別的關(guān)系進(jìn)行良好的建模,但這類方法一般不適用于大數(shù)據(jù)學(xué)習(xí)問(wèn)題。

        2.3 異質(zhì)媒體網(wǎng)絡(luò)社群分析

        網(wǎng)絡(luò)社群的出現(xiàn)是異質(zhì)媒體興起的主要原因之一,這為異質(zhì)媒體數(shù)據(jù)分析提供了大量信息,為個(gè)性化服務(wù)提供新契機(jī),但也對(duì)計(jì)算機(jī)領(lǐng)域提出了新的難題。對(duì)推特(Twitter)、臉譜(Facenook)等社交網(wǎng)絡(luò)的分析與研究已經(jīng)吸引了大量學(xué)者。在推特平臺(tái)上,研究者從用戶交互結(jié)果、信息內(nèi)容和信息時(shí)效性等不同角度進(jìn)行了統(tǒng)計(jì)來(lái)分析用戶行為[39]。一些相關(guān)工作進(jìn)一步展開,例如楊磊等[40]對(duì)哈希標(biāo)簽(Hashtag)信息傳播進(jìn)行分析建模,Ghosh等[41]通過(guò)對(duì)推特的鏈接耕作模式(link farming)進(jìn)行發(fā)掘,從不同角度切入來(lái)分析用戶的行為。Zhuang等[42]提出一種面向網(wǎng)絡(luò)社群用戶的融合視覺(jué)、文本、社會(huì)標(biāo)記、用戶偏好等信息的異質(zhì)媒體推薦方法。近年來(lái),由于位置感知設(shè)備的廣泛使用,異質(zhì)媒體內(nèi)容被賦予了豐富的地理信息。Liu等[43-45]在泛化的多源異質(zhì)媒體和地理信息上進(jìn)行了深入研究,提出若干社群分析方法,有效應(yīng)對(duì)了多源異構(gòu)信息當(dāng)中的信息不完整性和信息不對(duì)稱性等科學(xué)問(wèn)題。然而,針對(duì)網(wǎng)絡(luò)社群的研究工作僅僅是剛起步,尤其是還不能對(duì)網(wǎng)絡(luò)社群和異質(zhì)媒體內(nèi)容之間的交互影響機(jī)制進(jìn)行有效分析,還需要學(xué)者們更加深入地挖掘與探討。

        3 本課題組的研究工作進(jìn)展

        筆者所在的中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室多媒體分析課題組圍繞異質(zhì)媒體數(shù)據(jù)關(guān)聯(lián)理解與深度挖掘這個(gè)科學(xué)問(wèn)題展開了研究工作,內(nèi)容包括:針對(duì)異質(zhì)媒體數(shù)據(jù)呈現(xiàn)的多態(tài)性、異構(gòu)性、海量性和社會(huì)性等特點(diǎn),分析異質(zhì)媒體數(shù)據(jù)中蘊(yùn)含的熱點(diǎn)話題及重大事件結(jié)構(gòu)模式;研究異質(zhì)媒體數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)學(xué)習(xí)方法,建立異質(zhì)媒體事件的檢測(cè)、表示和追蹤模型;提出檢測(cè)突發(fā)性熱點(diǎn)話題及重大事件的計(jì)算模型和學(xué)習(xí)方法,形成基于群體智能的協(xié)同反饋計(jì)算手段。我們以現(xiàn)實(shí)環(huán)境的異質(zhì)媒體數(shù)據(jù)形態(tài)為研究背景,按照“異質(zhì)媒體語(yǔ)義分析和理解”、“異質(zhì)媒體話題和事件分析”以及“異質(zhì)媒體關(guān)聯(lián)的社群分析”等三條主線展開研究工作并推動(dòng)其不斷深入,重點(diǎn)研究如何構(gòu)建有效的異質(zhì)媒體語(yǔ)義單元學(xué)習(xí)模型和不同模態(tài)之間的數(shù)據(jù)關(guān)聯(lián)機(jī)制,并利用多模態(tài)融合及多源信息(超鏈接信息、標(biāo)注信息、社會(huì)標(biāo)簽、網(wǎng)絡(luò)指導(dǎo)信息以及社會(huì)群體信息等)提高對(duì)異質(zhì)媒體事件和話題的分析效果??傮w研究點(diǎn)如圖2所示。

        在異質(zhì)媒體語(yǔ)義學(xué)習(xí)方面,我們提出了半監(jiān)督多核學(xué)習(xí)方法,以有效應(yīng)對(duì)異質(zhì)媒體的多樣性特點(diǎn)和噪聲,在效率和可擴(kuò)展性上優(yōu)于現(xiàn)有半監(jiān)督學(xué)習(xí)方法;提出了字典學(xué)習(xí)和判別學(xué)習(xí)模型,對(duì)視覺(jué)信息的空間上下文進(jìn)行建模,有效挖掘?qū)哟位Z(yǔ)義信息,構(gòu)建層次化語(yǔ)義標(biāo)注模型,創(chuàng)新性地提出了一種多層判別字典學(xué)習(xí)和判別學(xué)習(xí)交互提升的學(xué)習(xí)框架;提出了視覺(jué)語(yǔ)義關(guān)聯(lián)方法,有效克服了視覺(jué)多義性和語(yǔ)義多態(tài)性等問(wèn)題,建立了符合現(xiàn)實(shí)異質(zhì)媒體數(shù)據(jù)特性的數(shù)據(jù)庫(kù)和評(píng)測(cè)平臺(tái),為異質(zhì)媒體關(guān)聯(lián)分析提供了新的解決思路。

        在熱點(diǎn)話題和重大事件檢測(cè)方面,我們提出了異質(zhì)媒體相似性度量學(xué)習(xí)方法,以應(yīng)對(duì)異質(zhì)媒體信息的多模態(tài)性,實(shí)現(xiàn)了多種不同異質(zhì)媒體學(xué)習(xí)任務(wù)的信息共享,從而提升了異質(zhì)媒體相似性度量的表示能力;提出了基于多源信息融合的話題檢測(cè)模型,對(duì)異質(zhì)媒體事件和話題的社會(huì)信息、指導(dǎo)信息、時(shí)序信息和多模態(tài)信息等進(jìn)行了有效建模,克服了傳統(tǒng)的基于單源信息的話題檢測(cè)方法的不足。

        在異質(zhì)媒體社會(huì)屬性分析方面,我們針對(duì)移動(dòng)用戶和社會(huì)網(wǎng)絡(luò)用戶,提出了若干基于多源屬性行為建模的多解析度和結(jié)構(gòu)化行為數(shù)據(jù)分析、社群發(fā)現(xiàn)和實(shí)體鏈接方法,有效應(yīng)對(duì)了群體用戶行為的復(fù)雜性和多樣性。

        圖2 異構(gòu)媒體分析研究框圖示意Fig.2 The proposed framework of heterogeneous media analytics

        3.1 異質(zhì)媒體語(yǔ)義分析和理解

        由于海量異質(zhì)媒體數(shù)據(jù)的復(fù)雜內(nèi)在分布,異質(zhì)媒體語(yǔ)義單元學(xué)習(xí)面臨著異質(zhì)媒體數(shù)據(jù)特征和高層語(yǔ)義缺乏一致性、標(biāo)注數(shù)據(jù)匱乏、對(duì)噪聲不夠魯棒、模型可擴(kuò)展性差、以及跨平臺(tái)和跨模態(tài)的數(shù)據(jù)分布復(fù)雜、關(guān)聯(lián)多樣等主要挑戰(zhàn)。這些挑戰(zhàn)一方面導(dǎo)致現(xiàn)有的特征表示和判別模型不能夠很好地適應(yīng)不同異質(zhì)媒體語(yǔ)義學(xué)習(xí)任務(wù)的要求,另一方面使得現(xiàn)有異質(zhì)媒體特征表示不能有效應(yīng)對(duì)異質(zhì)媒體數(shù)據(jù)的模態(tài)異構(gòu)性,不利于挖掘其復(fù)雜關(guān)聯(lián)關(guān)系。針對(duì)這些問(wèn)題,課題組分別在特征表示、判別模型、檢索模型上提出一系列行之有效的解決方案,研究成果發(fā)表在《美國(guó)電機(jī)電子工程師學(xué)會(huì)圖像處理匯刊(IEEE Transactions on Image Processing)》、《美國(guó)電機(jī)電子工程師學(xué)會(huì)多媒體匯刊(IEEE Transactions on Multimedia)》、美國(guó)電機(jī)電子工程師學(xué)會(huì)計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(IEEE Conference on Computer Vision and Pattern Recognition,CVPR)等高水平國(guó)際期刊和國(guó)際會(huì)議上。

        3.1.1 特征表示

        主流的圖像描述是基于尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)的視覺(jué)詞袋模型,但由于其缺乏空間信息描述能力,而且不夠緊致,不能很好滿足目前對(duì)特征的強(qiáng)描述能力和快速高效計(jì)算的要求。本課題提出了一種基于結(jié)構(gòu)紋理和邊緣提取的緊湊編碼模式Edge-SIFT[46]。為了使生成的Edge-SIFT更加緊致,我們提出了二值化壓縮和基于Ranknoost的判別學(xué)習(xí)方法,以便對(duì)該緊湊模式進(jìn)行選擇,得到適應(yīng)海量近似圖像檢索任務(wù)的緊湊碼本。此外,本課題基于所提出的Edge-SIFT開發(fā)了一種可快速在線驗(yàn)證的倒排索引框架,通過(guò)大量實(shí)驗(yàn)驗(yàn)證了其有效性和高效性。

        在圖像語(yǔ)義理解中,視覺(jué)多義性和語(yǔ)義多態(tài)性問(wèn)題一直都是一個(gè)挑戰(zhàn)。視覺(jué)多義性是指一塊視覺(jué)表觀可能有很多不同的語(yǔ)義解釋;語(yǔ)義多態(tài)性是指一個(gè)概念在不同的實(shí)例下可能有各種不同的視覺(jué)表觀。本課題提出通過(guò)一種新的視角——Vicept來(lái)理解圖像[47],每一個(gè)Vicept單詞是關(guān)于一個(gè)視覺(jué)表觀的多概念概率估計(jì)。在Vicept詞典中,每個(gè)視覺(jué)表觀和每個(gè)確定的概念都有一個(gè)概率聯(lián)系,這種聯(lián)系整合在一起可以構(gòu)成一個(gè)視覺(jué)表觀隸屬度的概率分布。為了通過(guò)學(xué)習(xí),生成有判別能力且結(jié)構(gòu)稀疏的Vicept,在視覺(jué)表觀的概念隸屬度分布的學(xué)習(xí)中采用了混合范式正則方法。此外,針對(duì)Vicept的多層次結(jié)構(gòu),引入了一種新的距離度量方法,即通過(guò)多層次的獨(dú)立性分析來(lái)融合不同層次的Vicept描述。

        3.1.2 判別模型

        針對(duì)傳統(tǒng)半監(jiān)督學(xué)習(xí)方法的不足,我們提出一種可擴(kuò)展的半監(jiān)督多核學(xué)習(xí)方法(S3MKL)[25]。其損失函數(shù)當(dāng)中包含了有標(biāo)注訓(xùn)練樣本上的訓(xùn)練損失、組稀疏參數(shù)正則化和無(wú)標(biāo)注樣本上的(組)條件期望一致性損失。與傳統(tǒng)的直推式方法不同,所得到的判別模型具有較強(qiáng)的判別性,能夠有效預(yù)測(cè)未知樣本的類別標(biāo)簽。在利用海量異質(zhì)媒體數(shù)據(jù)進(jìn)行學(xué)習(xí)時(shí),數(shù)據(jù)中蘊(yùn)含的噪聲樣本會(huì)對(duì)判別模型的判別性造成一定的干擾。為了對(duì)海量無(wú)標(biāo)注樣本進(jìn)行樣本選擇,我們基于核化局部敏感哈希方法構(gòu)建了一個(gè)多核哈希系統(tǒng)(MKLSH),對(duì)局部敏感哈希(KLSH)進(jìn)行了改進(jìn),即將在多個(gè)核上進(jìn)行的KLSH的漢明碼拼接到一起,形成了對(duì)海量圖像的多核局部敏感哈希表示。在我們的工作中,將總體的半監(jiān)督多核學(xué)習(xí)與基于多特征的核化哈希樣本選擇結(jié)合了起來(lái)。實(shí)驗(yàn)表明這種方法能夠更加有效地利用海量無(wú)標(biāo)注樣本進(jìn)行半監(jiān)督模型學(xué)習(xí),并在多個(gè)基準(zhǔn)數(shù)據(jù)庫(kù)上獲得了比傳統(tǒng)半監(jiān)督學(xué)習(xí)方法更佳的分類性能。

        傳統(tǒng)的圖像分類算法往往針對(duì)較少類別。但是,現(xiàn)實(shí)世界異質(zhì)媒體數(shù)據(jù)的類別極多。本課題提出了一種基于樹結(jié)構(gòu)的多層判別字典學(xué)習(xí)算法(ML-DDL)[48],用于克服現(xiàn)有碼本(特征)學(xué)習(xí)不能有效應(yīng)對(duì)海量類別分類的問(wèn)題。我們以根據(jù)標(biāo)簽信息的語(yǔ)義相關(guān)性構(gòu)建的語(yǔ)義樹結(jié)構(gòu)作為先驗(yàn),通過(guò)訓(xùn)練得到一組有監(jiān)督的碼本和分類器模型,利用層次結(jié)構(gòu)進(jìn)行碼本學(xué)習(xí),將原始的極多類問(wèn)題分解為多個(gè)較易處理的多層分類子問(wèn)題來(lái)逐一求解,大大降低運(yùn)算復(fù)雜度,使得有監(jiān)督的碼本學(xué)習(xí)能適用于海量類別的分類任務(wù),在可承受的時(shí)間開銷下得到較好的分類性能。

        3.1.3 檢索模型

        為了克服近鄰方法的不足,我們提出一種新的近鄰相似性度量方法[49],與以往距離度量的不同之處在于它同時(shí)利用了數(shù)據(jù)的局部密度信息和語(yǔ)義信息。其次,采用基于核化局部敏感哈希方法的多特征近鄰搜索策略。最后,為了提高對(duì)海量?jī)?nèi)容的魯棒性,采用了多特征融合的方法,將在不同特征通道上計(jì)算的近鄰相似性度量進(jìn)行融合。在三個(gè)經(jīng)典大規(guī)模圖像數(shù)據(jù)庫(kù)上的大量實(shí)驗(yàn)表明,這個(gè)方法比傳統(tǒng)的近鄰方法在語(yǔ)義分析和檢索的性能上有較大提升。

        為研究跨模態(tài)相關(guān)模型和跨模態(tài)檢索技術(shù),我們?cè)O(shè)計(jì)了一套自動(dòng)數(shù)據(jù)收集算法來(lái)構(gòu)建跨模態(tài)數(shù)據(jù)庫(kù)[50]。數(shù)據(jù)庫(kù)包括75 k段文本文檔和35 k幅圖像。數(shù)據(jù)庫(kù)中話題內(nèi)容的分布廣泛,不同模態(tài)的文件數(shù)量不均衡,跨模態(tài)共生性信息較稀疏,更接近真實(shí)跨模態(tài)數(shù)據(jù)。庫(kù)中包含網(wǎng)頁(yè)的超鏈接信息和人工標(biāo)注的類別信息(預(yù)定義的11大類)。對(duì)圖像文件,提取9種常用的視覺(jué)特征(約2萬(wàn)維),對(duì)文本提取經(jīng)典的TF-IDF特征(約7萬(wàn)維)。該數(shù)據(jù)庫(kù)可用于經(jīng)典跨模態(tài)分析方法的評(píng)測(cè)以及新的跨模態(tài)分析方法的研究和評(píng)測(cè)。

        進(jìn)一步地,在海量跨模態(tài)數(shù)據(jù)上,我們認(rèn)為,跨模態(tài)關(guān)聯(lián)學(xué)習(xí)及跨模態(tài)檢索應(yīng)該滿足語(yǔ)義一致性(Semantic Coherence)原則,即跨模態(tài)檢索的結(jié)果應(yīng)該符合人類對(duì)現(xiàn)實(shí)世界的物體和場(chǎng)景的實(shí)體概念的語(yǔ)義相似度的認(rèn)識(shí)。為此,我們提出了一種基于復(fù)雜語(yǔ)義建模的跨模態(tài)度量學(xué)習(xí)方法COLAR[51]和一種基于層次化語(yǔ)義表示的局部跨模態(tài)相關(guān)學(xué)習(xí)方法TINA[52]。該類方法通過(guò)視覺(jué)、文本和實(shí)體相似度分析自頂向下地生成了一個(gè)跨模態(tài)數(shù)據(jù)的層次化語(yǔ)義結(jié)構(gòu)。并在該層次化語(yǔ)義結(jié)構(gòu)的指導(dǎo)下,構(gòu)建跨模態(tài)度量學(xué)習(xí)機(jī)制[51]或局部跨模態(tài)映射子模型及子模型融合策略[52]。該類模型可以通過(guò)迭代優(yōu)化的方法進(jìn)行有效的模型學(xué)習(xí)。在多個(gè)海量跨模態(tài)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明所提方法得到的跨模態(tài)檢索結(jié)果具有更好的語(yǔ)義一致性,其評(píng)價(jià)指標(biāo)超過(guò)了現(xiàn)有方法,包括基于深度學(xué)習(xí)的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法。

        3.2 網(wǎng)絡(luò)異質(zhì)媒體事件和話題分析

        異質(zhì)媒體事件和話題檢測(cè)與分析面臨著三大挑戰(zhàn):社會(huì)交互多樣化,新式樣層出不窮;數(shù)據(jù)模態(tài)多變,內(nèi)在關(guān)聯(lián)稀疏;指導(dǎo)信息不足,粒度大小不一。為了對(duì)異質(zhì)媒體事件和話題進(jìn)行有效表示、檢測(cè)及追蹤,本課題充分考慮異質(zhì)媒體數(shù)據(jù)的產(chǎn)生、擴(kuò)散和關(guān)聯(lián)機(jī)制,從如下思路展開研究。第一,利用多特征互補(bǔ)信息以及最大間隔(Maximum Margin)學(xué)習(xí)等策略,學(xué)習(xí)和構(gòu)建異質(zhì)媒體話題的相似性度量。第二,融合多源、多模態(tài)信息構(gòu)建異質(zhì)媒體數(shù)據(jù)的關(guān)聯(lián)模型,利用熱搜詞指導(dǎo)發(fā)現(xiàn)社會(huì)熱點(diǎn)話題。研究成果發(fā)表在2012年的美國(guó)電機(jī)電子工程師學(xué)會(huì)計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議、美國(guó)計(jì)算機(jī)協(xié)會(huì)2012年多媒體會(huì)議(ACM Multimedia 2012)、美國(guó)電機(jī)電子工程師學(xué)會(huì)協(xié)會(huì)國(guó)際多媒體博覽會(huì)議(IEEE ICME 2013,2014)等國(guó)際會(huì)議上。

        3.2.1 異質(zhì)媒體結(jié)構(gòu)表示

        對(duì)于海量異質(zhì)媒體信息處理的研究而言,尋求理想的距離度量表示是絕大多數(shù)分析模型的核心部分或者研究重點(diǎn)。然而,傳統(tǒng)的度量學(xué)習(xí)方法無(wú)法很好地適應(yīng)高維多特征表達(dá)以及復(fù)雜的語(yǔ)義結(jié)構(gòu)和表觀視覺(jué)分布。為此,我們提出了一種有效的多任務(wù)多特征度量學(xué)習(xí)方法[53],利用網(wǎng)絡(luò)異質(zhì)媒體的語(yǔ)義標(biāo)注信息和社會(huì)標(biāo)簽信息進(jìn)行多任務(wù)學(xué)習(xí),得到一種在多特征表示下具有語(yǔ)義一致性的低復(fù)雜性度量準(zhǔn)則。所提方法能夠有效融合多種特征表示,相比于傳統(tǒng)方法,學(xué)習(xí)到的特征的復(fù)雜度(模型參數(shù)個(gè)數(shù))也顯著降低。該方法的另外一個(gè)優(yōu)點(diǎn)是能夠根據(jù)學(xué)習(xí)任務(wù)的需求,有效控制需要優(yōu)化的相似性度量數(shù)量,在準(zhǔn)確率和訓(xùn)練時(shí)間開銷之間的折衷可達(dá)到更好效果。在多個(gè)數(shù)據(jù)庫(kù)上的多項(xiàng)實(shí)驗(yàn)表明該方法的性能比其他方法有顯著的提高。

        3.2.2 基于多源信息融合的異質(zhì)媒體事件和話題分析

        不同于傳統(tǒng)的基于聚類的主題檢測(cè)方法,我們提出了一種新穎的基于多線索融合的網(wǎng)絡(luò)視頻話題檢測(cè)方法[54]。首先,利用與視頻相關(guān)的標(biāo)簽信息,提取密集突發(fā)的標(biāo)簽組,作為事件的備選;其次,檢測(cè)相似視頻片段,并將其與視頻的標(biāo)簽進(jìn)行融合形成視頻標(biāo)簽組;最后,通過(guò)對(duì)熱搜詞的時(shí)域特征分析,過(guò)濾掉突發(fā)性低的熱搜詞,指導(dǎo)事件檢測(cè)。

        傳統(tǒng)的話題檢測(cè)方法大多只能處理單一媒體的數(shù)據(jù)源,其信息量、受眾、關(guān)注點(diǎn)往往是有限的。相比之下,來(lái)自于不同媒體源的信息能夠互相補(bǔ)充,信息量更加豐富,能更好地反映社會(huì)現(xiàn)實(shí)。因此,有效利用不同數(shù)據(jù)源間的互補(bǔ)性,是提升話題檢測(cè)與跟蹤性能的有效途徑。為此,我們提出一種靈活的多模態(tài)信息融合的異質(zhì)媒體數(shù)據(jù)表示框架[55],充分利用跨模態(tài)數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián)信息,對(duì)異質(zhì)媒體中的話題結(jié)構(gòu)進(jìn)行檢測(cè)。首先,建立多模態(tài)圖,圖中邊的權(quán)重融合了多模態(tài)內(nèi)容的相似性和時(shí)間信息。由于屬于同一話題的數(shù)據(jù)自然地形成具有緊密相似度關(guān)系的密集子圖,故可通過(guò)圖聚類方法查找密集子圖,從而實(shí)現(xiàn)異質(zhì)媒體話題檢測(cè)。在公共數(shù)據(jù)集及自建異質(zhì)媒體數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明這一策略能夠有效檢測(cè)異質(zhì)媒體話題。

        3.3 異質(zhì)媒體用戶和社群行為分析

        針對(duì)移動(dòng)用戶和社會(huì)網(wǎng)絡(luò)用戶,我們提出了若干基于多源屬性行為建模的軌跡數(shù)據(jù)分析和社群發(fā)現(xiàn)方法,有效應(yīng)對(duì)了群體用戶行為的復(fù)雜性和多樣性。具體而言,我們針對(duì)大規(guī)模的用戶軌跡行為數(shù)據(jù),分別提取軌跡中地點(diǎn)的語(yǔ)義信息、速度模式信息、時(shí)間間隔模式信息和軌跡物理相似性信息,最后將多種行為的相似度進(jìn)行加權(quán)融合,并利用密集子圖檢測(cè)方法檢測(cè)到一系列具有長(zhǎng)時(shí)段相似行為的用戶群落(Communities)[56]。針對(duì)社會(huì)網(wǎng)絡(luò)用戶,引入多媒體內(nèi)容分析技術(shù),提出一種多源異構(gòu)行為建模框架,對(duì)屬性信息(性別、郵箱、國(guó)籍、年齡等)提出一種概率化匹配方法;對(duì)用戶的行為傾向性,提出一種多時(shí)域解析度的內(nèi)容分布描述方法。對(duì)用戶的轉(zhuǎn)載、引用、地點(diǎn)記錄等行為模式,提出一種多時(shí)間窗寬的匹配框架,并利用神經(jīng)網(wǎng)絡(luò)的池化方法去計(jì)算用戶在多個(gè)時(shí)間窗寬度上的總體行為相似性。基于這些行為相似性描述,提出一種基于多目標(biāo)優(yōu)化的結(jié)構(gòu)化匹配學(xué)習(xí)方法[57],有效利用社會(huì)網(wǎng)絡(luò)中用戶的好友信息對(duì)判別結(jié)果進(jìn)行有效擴(kuò)散,達(dá)到了對(duì)跨社會(huì)媒體平臺(tái)用戶進(jìn)行自動(dòng)匹配的目的。

        有效的異質(zhì)媒體話題分析技術(shù)對(duì)多媒體內(nèi)容理解以及知識(shí)發(fā)現(xiàn)是十分重要和迫切需要的。目前,已有話題方法以單純數(shù)據(jù)驅(qū)動(dòng)和僅從內(nèi)容建模的角度出發(fā),不可避免地忽略了用戶社區(qū)在話題的引發(fā)和傳播過(guò)程中的作用。傳統(tǒng)的話題模型只是基于文檔內(nèi)容建模,不能夠用于多模態(tài)數(shù)據(jù)下的話題分析。如何對(duì)異質(zhì)媒體中的社區(qū)行為進(jìn)行建模依然需要進(jìn)一步研究。我們研究了異質(zhì)媒體數(shù)據(jù)中三種重要的關(guān)系:話題-社區(qū)關(guān)系描述了不同用戶(社區(qū))對(duì)話題的作用;話題-話題關(guān)系度量了不同話題之間的關(guān)聯(lián)性和因果關(guān)系;社區(qū)-社區(qū)關(guān)系可以看成是不同社區(qū)在內(nèi)容上的共同興趣的相似性的一種度量。為了發(fā)現(xiàn)上述三種關(guān)系,提出一種話題與社群協(xié)同分析方法[58]。首先,利用多模態(tài)話題檢測(cè)方法,獲得一些緊湊的原子話題;然后,在這些原子話題的基礎(chǔ)上,本文提出一種多分辨率行為建模方法來(lái)度量不同用戶兩兩之間多時(shí)間分辨率的行為相似性。從而識(shí)別出用戶的社區(qū)結(jié)構(gòu)。利用話題-社區(qū)間的關(guān)系分析了話題-話題間的關(guān)系和社區(qū)-社區(qū)間的關(guān)系。與此同時(shí),一些媒體數(shù)據(jù)中高層的關(guān)系結(jié)構(gòu)(如宏話題、宏社區(qū))能夠被發(fā)現(xiàn)。所提出的方法針對(duì)更好的理解研究媒體話題傳播機(jī)制,建立更加準(zhǔn)確的模型來(lái)分析媒體話題以及進(jìn)行內(nèi)容推薦等未來(lái)的研究課題提供了有力的支持。

        3.4 研究進(jìn)展小結(jié)

        長(zhǎng)期以來(lái),針對(duì)單一媒體和多媒體的事件和話題分析,國(guó)內(nèi)外研究機(jī)構(gòu)往往采用單一媒體主題建模、單一模態(tài)分析方法和簡(jiǎn)單的話題結(jié)構(gòu)建模方法。本課題充分考慮了異質(zhì)媒體數(shù)據(jù)呈現(xiàn)的多態(tài)性、異構(gòu)性、海量性和社會(huì)性特點(diǎn),以現(xiàn)實(shí)環(huán)境的異質(zhì)媒體數(shù)據(jù)形態(tài)為研究背景,按照“異質(zhì)媒體語(yǔ)義單元學(xué)習(xí)”、“熱點(diǎn)話題和事件檢測(cè)”和“異質(zhì)媒體用戶行為分析”三條主線開展研究,基于多源信息和多特征融合這個(gè)主要的研究出發(fā)點(diǎn),有效利用異質(zhì)媒體上下文信息,構(gòu)建適合海量異質(zhì)媒體數(shù)據(jù)的語(yǔ)義分析、內(nèi)容理解和關(guān)聯(lián)框架,解決了在高噪聲和復(fù)雜關(guān)聯(lián)背景下對(duì)現(xiàn)實(shí)異質(zhì)媒體的語(yǔ)義分析、事件話題分析和用戶行為分析等問(wèn)題。

        與國(guó)內(nèi)外同類研究工作相比,本課題組的主要?jiǎng)?chuàng)新性成果包括:

        (1)在語(yǔ)義學(xué)習(xí)方面,提出半監(jiān)督多核學(xué)習(xí)方法,利用異質(zhì)媒體數(shù)據(jù)源的多特征表示,有效應(yīng)對(duì)異質(zhì)媒體的多樣性特點(diǎn)和噪聲問(wèn)題,克服了傳統(tǒng)的基于多特征融合的語(yǔ)義學(xué)習(xí)方法的不足;提出字典學(xué)習(xí)和判別學(xué)習(xí)模型,對(duì)視覺(jué)信息的空間上下文進(jìn)行建模,有效挖掘?qū)哟位Z(yǔ)義信息,構(gòu)建層次化語(yǔ)義標(biāo)注模型,并針對(duì)層次化語(yǔ)義類別結(jié)構(gòu),提出了一種多層判別字典學(xué)習(xí)和判別學(xué)習(xí)交互提升的學(xué)習(xí)框架;提出視覺(jué)語(yǔ)義關(guān)聯(lián)方法,有效克服了視覺(jué)多義性和語(yǔ)義多態(tài)性等帶來(lái)的困難,構(gòu)建了高維視覺(jué)數(shù)據(jù)到語(yǔ)義空間的映射模型,建立了符合現(xiàn)實(shí)異質(zhì)媒體數(shù)據(jù)特性的數(shù)據(jù)庫(kù)和評(píng)測(cè)平臺(tái),提出一種基于層次化語(yǔ)義建模的異質(zhì)媒體關(guān)聯(lián)分析,有效地適應(yīng)了海量異質(zhì)媒體的內(nèi)容復(fù)雜多變的特點(diǎn),實(shí)現(xiàn)了具有語(yǔ)義一致性的跨模態(tài)檢索。

        (2)在結(jié)構(gòu)化表示和事件分析方面,提出異質(zhì)媒體相似性度量學(xué)習(xí)方法,構(gòu)建了低復(fù)雜度的異質(zhì)媒體相似性度量,滿足了復(fù)雜異質(zhì)媒體學(xué)習(xí)任務(wù)的需求,并實(shí)現(xiàn)了多種不同異質(zhì)媒體學(xué)習(xí)任務(wù)的信息共享,從而提升了異質(zhì)媒體相似性度量的表示能力;提出基于多源信息融合的話題檢測(cè)模型,對(duì)異質(zhì)媒體事件和話題的社會(huì)信息、語(yǔ)義指導(dǎo)信息、時(shí)序信息和多模態(tài)信息等進(jìn)行了有效建模,克服了傳統(tǒng)的基于單源信息的話題檢測(cè)方法的不足,實(shí)現(xiàn)了異質(zhì)媒體話題檢測(cè)。

        (3)在異質(zhì)媒體社會(huì)網(wǎng)絡(luò)用戶行為方面,提出了有別于以往基于純文本行為分析的一系列基于多源行為分析的方法,有效地解決了社會(huì)網(wǎng)絡(luò)社群發(fā)現(xiàn)和賬戶鏈接等應(yīng)用問(wèn)題,構(gòu)建了內(nèi)容與社群行為的協(xié)同描述機(jī)制,為社會(huì)網(wǎng)絡(luò)行為分析提供了一種新的研究思路。

        4 總 結(jié)

        在未來(lái)五到十年內(nèi),異質(zhì)媒體分析和檢索技術(shù)將逐漸成為學(xué)術(shù)界和產(chǎn)業(yè)界的研究熱點(diǎn)。由于異質(zhì)媒體大數(shù)據(jù)中蘊(yùn)含著極大的價(jià)值,能否有效地挖掘這些價(jià)值,將直接決定各類信息和知識(shí)服務(wù)系統(tǒng)的服務(wù)質(zhì)量和用戶體驗(yàn)滿意度,決定媒體大數(shù)據(jù)分析產(chǎn)業(yè)的興衰成敗。

        從未來(lái)的發(fā)展趨勢(shì)來(lái)看,異質(zhì)媒體分析的核心目標(biāo)仍然將是“語(yǔ)義”、“關(guān)聯(lián)”和“社群”。為適應(yīng)異質(zhì)媒體數(shù)據(jù)自身各種復(fù)雜的特性,在數(shù)據(jù)分析理論上亞需更具有指導(dǎo)性和針對(duì)性的理論方法,相應(yīng)的分析和檢索技術(shù)也必須不斷創(chuàng)新,才能夠更好地滿足日益增長(zhǎng)的媒體大數(shù)據(jù)分析的需求。

        [1] Smeulders AWM,Worring M,Santini S,et al. Content-nased image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12): 1349-1380.

        [2] Shechtman E,Irani M.Matching local selfsimilarities across images and videos[C]//IEEE Conference on Computer Vision and Pattern Recognition,2007:1-8.

        [3] Hauagge DC,Snavely N.Image matching using local symmetry features[C]//IEEE Conference on Computer Vision and Pattern Recognition,2012: 206-213.

        [4] Yang JC,Yu K,Gong YH,et al.Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition,2009:1794-1801.

        [5] Wang JJ,Yang JC,Yu K,et al.Locality-constrained linear coding for image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition,2010:3360-3367.

        [6] Mairal J,Bach F,Ponce J.Task-driven dictionary learning[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2012,34(4):791-804.

        [7] Grauman K,Sha F,Hwang SJ.Learning a tree of metrics with disjoint visual features[C]// Proceedings of Neural Information Processing Systems,2011:621-629.

        [8] Zhou DY,Xiao L,Wu MR.Hierarchical classification via orthogonal transfer[C]// Proceedings of the 28th International Conference on Machine Learning,2011:801-808.

        [9] Hinton GE,Salakhutdinov RR.Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.

        [10]Krizhevsky A,Sutskever I,Hinton GE.Imagenet classification with deep convolutional neural networks[C]//Proceedings of Neural Information Processing Systems,2012:1106-1114.

        [11]Yang JJ,Li YN,Tian YH,et al.Group-sensitive multiple kernel learning for onject categorization [C]//IEEE 12th International Conference on Computer Vision,2009:436-443.

        [12]Varma M,Ray D.Learning the discriminative power-invariance trade-off[C]//IEEE 11th International Conference on Computer Vision, 2007:1-8.

        [13]Vedaldi A,Gulshan V,Varma M,et al.Multiple kernels for onject detection[C]//Proceedings of International Conference on Computer Vision, 2009:606-613.

        [14]Bucak SS,Jin R,Jain AK.Multi-lanel multiple kernel learning ny stochastic approximation: application to visual onject recognition[C]// Proceedings of Neural Information Processing Systems,2010:325-333.

        [15]Cao LL,Luo JB,Liang F,et al.Heterogeneous feature machine for visual recognition[C]//IEEE 12th International Conference on Computer Vision, 2009:1095-1102.

        [16]Liu JG,Ali S,Shah M.Recognizing human actions using multiple features[C]//IEEE Conference on Computer Vision and Pattern Recognition,2008: 1-8.

        [17]Nister D,Stewenius H.Scalanle recognition with a vocanulary tree[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006,2:2161-2168.

        [18]Datar M,Immorlica N,Indyk P,et al.Localitysensitive hashing scheme nased on p-stanle distrinutions[C]//Proceedings of the 20th Annual Symposium on Computational Geometry,2004: 253-262.

        [19]Weiss Y,Torralna A,Fergus R.Spectral hashing[C]// Proceedings of Neural Information Processing Systems,2008:1753-1760.

        [20]Song JK,Yang Y,Huang Z,et al.Multiple feature hashing for real-time large scale near-duplicate video retrieval[C]//Proceedings of the 19th ACM International Conference on Multimedia,2011: 423-432.

        [21]Zhang D,Wang J,Cai D,et al.Self-taught hashing for fast similarity search[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval,2010:18-25.

        [22]Salakhutdinov R,Hinton G.Semantic hashing[J]. International Journal of Approximate Reasoning, 2009,50(7):969-978.

        [23]Shakhnarovich G.Learning task-specific similarity [D].Camnridge:Massachusetts Institute of Technology,2005.

        [24]Kulis B,Grauman K.Kernelized locality sensitive hashing for scalanle image search[C]//IEEE International Conference on Computer Vision, 2009,2130-2137.

        [25]Wang SH,Huang QM,Jiang SQ,et al.S3MKL: Scalanle semi-supervised multiple kernel learning for real-world image applications[J].IEEE Transactions on Multimedia,2012,14(4):1259-1274.

        [26]Liu W,Wang J,Ji RR,et al.Supervised hashing with kernels[C]//IEEE Conference on Computer Vision and Pattern Recognition,2012:2074-2081.

        [27]Zhang D,Wang F,Si L.Composite hashing with multiple information sources[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,2011:225-234.

        [28]Masci J,Bronstein MM,Bronstein AM,et al. Multimodal similarity-preserving hashing[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence,2013,36(4):824-830.

        [29]Bronstein MM,Bronstein AM,Michel F,et al.Datafusion through cross-modality metric learning using similarity-sensitive hashing[C]//IEEE Conference on Computer Vision and Pattern Recognition,2010: 3594-3601.

        [30]Hotelling H.Relations netween two sets of variates [J].Biometrika,1936,28(34):321-372.

        [31]Zhen Y,Yeung DY.A pronanilistic model for multimodal hash function learning[C]//Proceedings of the 18thACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2012: 940-948.

        [32]Chen X,Liu H,Carnonell JG.Structured sparse canonical correlation analysis[C]//International Conference on Artificial Intelligence and Statistics, 2012,doi:10.1.1.219.606.

        [33]Rasiwasia N,Pereira JC,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C]// Proceedings of the International Conference on Multimedia,2010:251-260.

        [34]Song JK,Yang Y,Yang Y,et al.Inter-media hashing for large-scale retrieval from heterogeneous data sources[C]//Proceedings of the 13th International ACM SIGMOD Conference on Management of Data,2013:785-796.

        [35]Blei D,Jordan M.Modeling annotated data[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2003:127-134.

        [36]Xiao H,Stinor T.Toward artificial synesthesia: Linking images and sounds via words[C]// NIPS Workshop on Machine Learning for Next Generation Computer Vision Challenges,2010.

        [37]Jia YQ,Salzmann M,Darrell T.Learning crossmodality similarity for multinomial data[C]// Proceedings of the 11th International Conference on Computer Vision,2011:2407-2414.

        [38]Chen N,Zhu J,Sun FC,et al.Large-margin predictive latent sunspace learning for multi-view data analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(12): 2365-2378.

        [39]Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media?[C]//Proceedings of the 19th International World Wide Wen Conference,2010:591-600.

        [40]Yang L,Sun T,Zhang M,et al.We know what @you#tag:does the dual role affect hashtag adoption?[C]//Proceedings of the 21st International Conference on World Wide Wen, 2012:261-270.

        [41]Ghosh S,Viswanath B,Kooti F,et al. Understanding and comnating link farming in the Twitter social network[C]//Proceedings of the 21st International Conference on World Wide Wen, 2010:61-70.

        [42]Zhuang JF,Mei T,Hoi SCH,et al.Modeling social strength in social media community via kernelnased learning[C]//Proceedings of the 19th ACM InternationalConferenceonMultimedia,2011:113-122.

        [43]Liu SY,Yue YS,Krishnan R.Adaptive collective routing using gaussian process dynamic congestion models[C]//Proceedings of the 19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining,2013:704-712.

        [44]Liu SY,Liu YH,Ni LM,et al.Towards monilitynased clustering[C]//Proceedings of the 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining,2010:919-927.

        [45]Liu SY,Pu JS,Luo Q,et al.VAIT:a visual analytics system for metropolitan transportation[J].IEEE Transactions on Intelligent Transportation Systems, 2013,14(4):1586-1596.

        [46]Zhang SL,Tian Q,Lu K,et al.Edge-SIFT: discriminative ninary descriptor for scalanle partialduplicate monile search[J].IEEE Transactions on Image Processing,2013,22(7):2889-2902.

        [47]Li L,Jiang SQ,Huang QM.Learning hierarchical semantic description via mixed-norm regularization for image understanding[J].IEEE Transactions on Multimedia,2012,14(5):1401-1413.

        [48]Shen L,Wang SH,Sun G,et al.Multi-level discriminative dictionary learning towards hierarchical visual categorization[C]// Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition,2013: 383-390.

        [49]Wang SH,Huang QM,Jiang SQ,et al.Nearestneighnor method using multiple neighnorhood similarities for social media data mining[J]. Neurocomputing,2012,95:105-116.

        [50]Xiong W,Wang SH,Zhang CJ,et al.WIKI-CMR: a wen cross modality dataset for studying and evaluation of cross modality retrieval methods [C]//IEEE International Conference on Multimedia and Expo,2013,doi:10.1109/ ICME.2013.6607613.

        [51]Hua Y,Wang SH,Zhao ZC,et al.Cross modal metric learning with multi-level semantic relevance [C]//IEEE International Conference on Image Processing,2014.

        [52]Hua Y,Wang SH,Liu SY,et al.TINA:crossmodal correlation learning ny adaptive hierarchical semantic aggregation[C]//IEEE International Conference on Data Mining,2014.

        [53]Wang SH,Jiang SQ,Huang QM,et al.Multi-feature metric learning with knowledge transfer among semantics and social tagging[C]//Proceedings of the 25th IEEE Conference on Computer Vision and Pattern Recognition,2012:2240-2247.

        [54]Chen TL,Liu CX,Huang QM.An effective multiclue fusion approach for wen video topic detection [C]//Proceedings of the 20th ACM International Conference on Multimedia,2012:781-784.

        [55]Zhang YY,Li GR,Chu LY,et al.Cross-media topic detection:a multi-modality fusion framework[C]// Proceedings of IEEE International Conference on Multimedia and Expo,2013:1-6.

        [56]Liu SY,Wang SH,Jayarajah K,et al.TODMIS: mining communities from trajectories[C]// Proceedings of the 22nd ACM CIKM International Conference on Information and Knowledge Management,2013:2109-2118.

        [57]Liu SY,Wang SH,Zhu FD,et al.HYDRA:largescale social identity linkage via heterogeneous nehavior modeling[C]//Proceedings of the 41st ACM SIGMOD International Conference on Management of Data,2014:51-62.

        [58]Wang SH,Wang ZJ,Jiang SQ,et al.Cross media topic analytics nased on synergetic content and user nehavior modeling[C]//Proceedings of IEEE International Conference on Multimedia and Expo, 2014:1-6.

        Research on Heterogeneous Media Analytics: A Brief Introduction

        WANG Shuhui1HUANG Qingming1,2

        1(Key Lab of Intellectual Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing100190,China)
        2(University of Chinese Academy of Sciences,Beijing100049,China)

        With the proliferation of the diversified applications on heterogeneous media, online contents and offline services have influenced the daily life of wen users in a more comprehensive way. In this paper, the concepts and methodologies for heterogeneous media analysis, which aim to ontain physical and social attrinutes from huge amount of data from heterogeneous sources were introduced, and the intrinsic mechanism for modeling the semantic divergence, complicated correlations and the information propagation was revealed. Firstly, we discussed the heterogeneous media with properties of cross-platform, cross-modality and diversity, and put forward the challenges and opportunities in studying heterogeneous media analytics, and discussed the impact of studying the heterogeneous media. Secondly, we provided literature review from three perspectives, i.e., semantic analysis and understanding, heterogeneous correlation modeling and community modeling. Lastly, we introduced our research works on the semantic modeling, correlation modeling and social nehavior modeling on heterogeneous media resources.

        heterogeneous media; semantic analysis and understanding; correlation analysis; hot event and topic analysis;social nehavior analysis

        TP 181

        A

        2014-11-14

        :2014-11-27

        國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)(2012CB316400);國(guó)家自然科學(xué)基金(61025011,61332016,61303160,61390511);國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)(2014AA015202);博士后基金(2014T70126)

        王樹徽(通訊作者),博士,助理研究員,研究方向?yàn)樘卣魅诤?、子空間學(xué)習(xí)、深度學(xué)習(xí)和社交媒體中的社群行為分析技術(shù), E-mail:wangshuhui@ict.ac.cn;黃慶明,博士,教授,研究方向?yàn)槎嗝襟w分析、計(jì)算機(jī)視覺(jué)和模式識(shí)別技術(shù)。

        猜你喜歡
        異質(zhì)語(yǔ)義模態(tài)
        語(yǔ)言與語(yǔ)義
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        隨機(jī)與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
        Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見(jiàn)光光催化性能
        MoS2/ZnO異質(zhì)結(jié)的光電特性
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語(yǔ)義模糊
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        執(zhí)政者應(yīng)學(xué)習(xí)異質(zhì)傳播
        五月婷婷六月丁香久久综合| 韩国精品一区二区三区无码视频| 丰满人妻妇伦又伦精品国产 | 思思99热| 国产高潮精品一区二区三区av| 日本在线一区二区免费| 精品人妻av区乱码色片| 精品国内在视频线2019| 亚洲精品久久久无码av片软件| 亚洲av成人一区二区三区网址| 日本女优中文字幕四季视频网站| 国产午夜免费啪视频观看| 精品人妻一区二区三区四区在线| a级毛片免费观看在线| 综合网五月| 亚洲一区二区国产精品视频| 青青草手机视频免费在线播放| 国产精品无码一区二区三区在| 熟女少妇在线视频播放| 国产精品白浆一区二区免费看| 亚洲av一二三又爽又爽又色| 中文字幕乱码日本亚洲一区二区 | 疯狂做受xxxx高潮欧美日本| 久久亚洲AV无码一区二区综合| 精品亚洲av一区二区| 亚洲av熟女少妇久久| 岳毛多又紧做起爽| 中文字幕国产91| 亚洲高清自偷揄拍自拍| 日韩一级黄色片一区二区三区 | 日本边添边摸边做边爱喷水| 久久夜色精品国产噜噜亚洲av| 久久精品国产亚洲5555| 久久综合这里只有精品| 国产91精品高潮白浆喷水| 麻豆精品国产精华液好用吗| 精品国产黑色丝袜高跟鞋| 人妻少妇精品视频一区二区三区| 在线观看视频免费播放| 97日日碰人人模人人澡| 国产一区二区三区美女|