白如江 鞠孜涵 張玉潔 張亞輝 馮夢(mèng)瑩
(山東理工大學(xué)信息管理研究院 淄博 255049)
隨著“互聯(lián)網(wǎng)+”、“5G”時(shí)代的到來(lái),情報(bào)工作拓展到了科技、經(jīng)濟(jì)、社會(huì)等諸多領(lǐng)域,情報(bào)分析的數(shù)據(jù)源呈現(xiàn)出海量、多源、異構(gòu)、多模態(tài)等特征,數(shù)據(jù)之間的關(guān)聯(lián)更為隱蔽多變。但情報(bào)工作的本質(zhì)始終是解決決策管理過(guò)程中信息不完備的問(wèn)題[1],這也使得情報(bào)感知成為了新時(shí)代情報(bào)工作的核心?!扒閳?bào)感知”是對(duì)“未知”的問(wèn)題進(jìn)行感知探索,“早醒遠(yuǎn)眺”,對(duì)不確定的未來(lái)揭示預(yù)警,從而減少“意外”的發(fā)生[2]。其中,“感”是指情報(bào)人員對(duì)數(shù)據(jù)的獲取和處理;“知”則強(qiáng)調(diào)了數(shù)據(jù)的理解、評(píng)析與展望。由此可知,情報(bào)感知對(duì)數(shù)據(jù)優(yōu)勢(shì)的依賴(lài)性越來(lái)越強(qiáng),兩者密不可分。出色的情報(bào)感知工作必須要有豐富的數(shù)據(jù)支撐,進(jìn)而發(fā)現(xiàn)數(shù)據(jù)之間復(fù)雜的關(guān)聯(lián),挖掘出更深層、未知的研究?jī)?nèi)容,解決信息不完備情況下的決策問(wèn)題。
大數(shù)據(jù)時(shí)代的數(shù)據(jù)往往呈現(xiàn)出碎片化、線(xiàn)索化的特征,無(wú)法提供完整的情報(bào)地圖。因此,情報(bào)感知工作不僅需要多源多模態(tài)的數(shù)據(jù)支持,還需要將這些數(shù)據(jù)進(jìn)行有效融合,形成格式統(tǒng)一、面向感知應(yīng)用的數(shù)據(jù)集[3]。只有通過(guò)數(shù)據(jù)之間的相互支持、補(bǔ)充和校對(duì),才能提供更加準(zhǔn)確、全面和及時(shí)的信息支撐情報(bào)感知工作。在此基礎(chǔ)上,數(shù)據(jù)融合粒度的問(wèn)題也應(yīng)運(yùn)而生。由于數(shù)據(jù)外部特征融合方法難免會(huì)帶來(lái)宏觀、粗糙、客觀性差、層次淺的問(wèn)題[4],如何將數(shù)據(jù)的外部結(jié)構(gòu)特征和內(nèi)部語(yǔ)義特征深度融合,更加全面、深入、客觀的分析情報(bào)元素,支撐情報(bào)感知研究迫在眉睫。
情報(bào)感知是對(duì)“未知”問(wèn)題的進(jìn)行感知和探索。早在2008年杜元清研究員提出“有組織的‘惦記’和‘監(jiān)測(cè)’”[5],就昭示著情報(bào)學(xué)者對(duì)于情報(bào)感知的認(rèn)知追求。2016年楊峰等[6]在“情景嵌入的突發(fā)事件情報(bào)感知”研究中,雖然沒(méi)有給出“情報(bào)感知”的明確定義,但指出了要在多源異構(gòu)細(xì)粒度情報(bào)資源的融合層面上討論感知問(wèn)題。2018年王延飛教授[7]首次界定了“情報(bào)感知”的概念,并認(rèn)為情報(bào)工作必須重視對(duì)情報(bào)需求、情報(bào)對(duì)象和情報(bào)任務(wù)的感知和刻畫(huà)。除此之外,楊峰等[8]探討了基于情景相似度的突發(fā)事件情報(bào)感知方法,并指出全源情報(bào)資料是感知的基礎(chǔ)。馬紅巖等[9]從科技情報(bào)感知出發(fā),構(gòu)建了多源信息融合的新模式。白如江等[10]提出了智慧情報(bào)感知的內(nèi)涵,將因果推斷、事件溯因等方法引入情報(bào)感知研究,并指出了語(yǔ)義級(jí)多源數(shù)據(jù)融合的重要性。在上述情報(bào)感知研究中,均在不同程度上指出了數(shù)據(jù)融合在情報(bào)感知中的重要性,學(xué)界對(duì)技術(shù)賦能并融合多源多模態(tài)的數(shù)據(jù)進(jìn)行情報(bào)感知研究已經(jīng)形成共識(shí)。
數(shù)據(jù)融合(Data Fusion)又稱(chēng)為信息融合(Information Fusion),旨在利用多種方式采集多源多模態(tài)的數(shù)據(jù),得出更準(zhǔn)確、統(tǒng)一的信息,輔助決策[11]。①在國(guó)際上,以美國(guó)為代表的情報(bào)機(jī)構(gòu)在“9·11”事件之前,煙囪式的情報(bào)體制阻礙了數(shù)據(jù)的融合,導(dǎo)致無(wú)法產(chǎn)生更高價(jià)值的情報(bào)產(chǎn)品。之后美國(guó)汲取教訓(xùn),逐步建立多源融合中心,例如公開(kāi)信息源中心,通過(guò)挖掘、融合和分析多源異構(gòu)的公開(kāi)數(shù)據(jù),支持政府決策。②在國(guó)內(nèi),數(shù)據(jù)融合的研究多集中于多源數(shù)據(jù)理論、方法和技術(shù)的探討?;亓諿12]構(gòu)建了科技大數(shù)據(jù)在情報(bào)服務(wù)中的應(yīng)用框架,并指出多源異構(gòu)的融合技術(shù)推動(dòng)情報(bào)服務(wù)轉(zhuǎn)向了主動(dòng)服務(wù)、嵌入式服務(wù)。李廣建等[13]從知識(shí)融合的角度研究了多源異構(gòu)數(shù)據(jù)的計(jì)算型情報(bào)分析。李綱等[14]提出了科學(xué)社會(huì)計(jì)算的概念,解決了多源數(shù)據(jù)的組織與建模問(wèn)題。但總體來(lái)看,有關(guān)多模態(tài)數(shù)據(jù)融合的研究多集中于計(jì)算機(jī)視覺(jué)、遙感等領(lǐng)域,在情報(bào)工作中的應(yīng)用還有待深入。
綜上,無(wú)論是用“海量數(shù)據(jù)”還是“大數(shù)據(jù)”來(lái)表征這個(gè)時(shí)代,情報(bào)感知過(guò)程中多源多模態(tài)數(shù)據(jù)的融合問(wèn)題都無(wú)法回避,然而現(xiàn)有研究大多聚焦于數(shù)據(jù)融合必要性、理論的探討,融合的深度也浮于數(shù)據(jù)表面,并不能支撐細(xì)粒度的情報(bào)感知任務(wù)。破除數(shù)據(jù)異構(gòu)、異質(zhì)、多模態(tài)等特征給數(shù)據(jù)組織和關(guān)聯(lián)帶來(lái)的阻礙刻不容緩。
基于此,本文在系統(tǒng)梳理情報(bào)感知和多源多模態(tài)數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,闡述了多源異構(gòu)數(shù)據(jù)的細(xì)粒度融合方法以及多模態(tài)數(shù)據(jù)的語(yǔ)義融合方法,并提出了時(shí)空數(shù)據(jù)輔助的多模態(tài)數(shù)據(jù)融合思路。旨在彌補(bǔ)信息不完備情況下的感知弊端,支撐情報(bào)感知由被動(dòng)轉(zhuǎn)向主動(dòng),促進(jìn)情報(bào)感知的智慧發(fā)展。
情報(bào)感知針對(duì)的是未知或知之不詳?shù)膶?duì)象,情報(bào)工作者所面臨的問(wèn)題不確定性更強(qiáng)。因此,只有及時(shí)、準(zhǔn)確地捕捉用戶(hù)的情報(bào)需求,結(jié)合海量的數(shù)據(jù)去挑戰(zhàn)更為潛在的假設(shè),才能發(fā)現(xiàn)數(shù)據(jù)之間更為隱蔽的關(guān)聯(lián),完成好情報(bào)感知的任務(wù)。此外,過(guò)去的情報(bào)需求往往由情報(bào)用戶(hù)直接提出,但隨著情報(bào)工作的轉(zhuǎn)型升級(jí),如何主動(dòng)感知潛在的情報(bào)用戶(hù)需求也變得越來(lái)越重要。
在情報(bào)感知過(guò)程中,情報(bào)素材的處理也至關(guān)重要。本文所指的情報(bào)素材是多源、異構(gòu)、多模態(tài)的數(shù)據(jù),包括期刊、專(zhuān)利等科技文獻(xiàn)數(shù)據(jù),博客、論壇等新媒體數(shù)據(jù),空間媒體、行為軌跡等空間數(shù)據(jù)。由于數(shù)據(jù)的更新迭代速度極快,使得情報(bào)感知從泛化的感知相關(guān)數(shù)據(jù)逐漸發(fā)展到更加細(xì)致化的感知分支數(shù)據(jù)[15]。如何把這些多源多模態(tài)的數(shù)據(jù)融合起來(lái),統(tǒng)一規(guī)范、消除冗余,形成數(shù)據(jù)的互補(bǔ)與交叉印證,提供統(tǒng)一的數(shù)據(jù)視圖,值得我們關(guān)注。
綜上,本文將重點(diǎn)梳理情報(bào)感知模型中,多源多模態(tài)的數(shù)據(jù)融合什么、怎么融合的問(wèn)題,即多源多模態(tài)數(shù)據(jù)的細(xì)粒度融合與融合方法的研究(見(jiàn)圖1)。
圖1 情報(bào)感知模型
隨著網(wǎng)絡(luò)化、數(shù)字化的快速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)的規(guī)模不斷擴(kuò)大,來(lái)自不同來(lái)源的數(shù)據(jù)被收集在一個(gè)數(shù)據(jù)集中,這種類(lèi)型的數(shù)據(jù)被稱(chēng)為多源數(shù)據(jù);而多模態(tài)數(shù)據(jù)是指不同形態(tài)的數(shù)據(jù)形式,多指文本、圖像、音視頻等混合數(shù)據(jù)。兩者之間存在著或強(qiáng)或弱的內(nèi)容跨越和語(yǔ)義關(guān)聯(lián),一般來(lái)說(shuō)多源的數(shù)據(jù),也多涉及多模態(tài)的處理問(wèn)題。
總體來(lái)說(shuō),互聯(lián)網(wǎng)背景下的多源多模態(tài)數(shù)據(jù)主要有以下特征:①多源和多模態(tài)的數(shù)據(jù)混合并存,兩者密不可分,在處理不同粒度的數(shù)據(jù)時(shí),是否多源和多模態(tài)的判斷都不是絕對(duì)的;②數(shù)據(jù)外部的組織結(jié)構(gòu)復(fù)雜,有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多種類(lèi)型;③不同類(lèi)型的數(shù)據(jù)從不同方面表達(dá)同一語(yǔ)義,例如有些數(shù)據(jù)雖然在底層上是異構(gòu)的,但在頂層語(yǔ)義上卻是一致的。
具體而言,在情報(bào)感知過(guò)程中所使用的多源多模態(tài)數(shù)據(jù)是指公開(kāi)、可以合法獲取的數(shù)據(jù),特別是網(wǎng)絡(luò)上的開(kāi)源數(shù)據(jù)。在國(guó)際上,RAND公司將開(kāi)源的數(shù)據(jù)劃分為來(lái)自新聞媒體、灰色文獻(xiàn)、社交媒體等的數(shù)據(jù)[16];CIA則將其劃分為來(lái)自互聯(lián)網(wǎng)、新聞媒體、期刊、地理空間信息等類(lèi)型的開(kāi)源情報(bào)[17]。因此,結(jié)合情報(bào)感知的特點(diǎn),本文所指的多源多模態(tài)數(shù)據(jù)主要有:文本、圖像、音頻、視頻、矢量、混合數(shù)據(jù)等6種模態(tài);從來(lái)源來(lái)看可以分為:科技文獻(xiàn)數(shù)據(jù)(期刊、會(huì)議論文、專(zhuān)利、基金報(bào)告等)、社交媒體數(shù)據(jù)、新聞報(bào)道數(shù)據(jù)和地理時(shí)空數(shù)據(jù)(經(jīng)濟(jì)人文數(shù)據(jù)、位置軌跡數(shù)據(jù)和空間媒體數(shù)據(jù)等)等4種來(lái)源。
首先,文本數(shù)據(jù)的獲取難度小、內(nèi)容解析容易,但異構(gòu)性強(qiáng)。例如以文本為主的科技文獻(xiàn)數(shù)據(jù)中,期刊、專(zhuān)利等提供了摘要、關(guān)鍵詞和全文等,而基金項(xiàng)目、行業(yè)報(bào)告等只提供了全文,如果從全文開(kāi)始分析,當(dāng)處理高維數(shù)據(jù)時(shí),會(huì)因文本長(zhǎng)度的過(guò)載使得效率降低[18]。因此異構(gòu)文本數(shù)據(jù)的融合粒度至關(guān)重要。其次,圖像、音視頻數(shù)據(jù)多來(lái)自社交媒體和新聞媒體,所蘊(yùn)含的信息更加直觀,但是如果將其應(yīng)用于情報(bào)感知中,更重要的是深層語(yǔ)義的理解。只有將深層語(yǔ)義信息與感知任務(wù)結(jié)合,才能發(fā)揮多模態(tài)的互補(bǔ)優(yōu)勢(shì)。此外,由于其發(fā)布門(mén)檻低、操作簡(jiǎn)單,在使用時(shí)要注意對(duì)數(shù)據(jù)質(zhì)量的評(píng)估。最后,矢量數(shù)據(jù)是指來(lái)自地理空間的數(shù)據(jù),往往具有時(shí)間、空間和屬性3方面的固有特征,呈現(xiàn)出時(shí)空緊耦合、數(shù)據(jù)高維、復(fù)雜語(yǔ)義關(guān)聯(lián)的特點(diǎn)[19]。
綜上,公開(kāi)的多源數(shù)據(jù)對(duì)于情報(bào)感知具有較強(qiáng)的適用性,但文本數(shù)據(jù)的應(yīng)用必須解決其多源異構(gòu)帶來(lái)的分析阻礙,從不同粒度的融合出發(fā),整合彼此增益的信息;圖像、音視頻數(shù)據(jù)的應(yīng)用必須要理解深層的語(yǔ)義,將直觀感覺(jué)轉(zhuǎn)換為計(jì)算機(jī)可理解;矢量地理數(shù)據(jù)為情報(bào)感知的時(shí)序和地理分析提供了新的視角,可以根據(jù)感知任務(wù)的特點(diǎn)進(jìn)行恰當(dāng)運(yùn)用(見(jiàn)圖2)。
圖2 多源多模態(tài)數(shù)據(jù)的特征
情報(bào)感知視角下情報(bào)工作所需要的數(shù)據(jù)支撐已經(jīng)不再局限于傳統(tǒng)的文獻(xiàn)、事實(shí)型數(shù)據(jù),網(wǎng)絡(luò)開(kāi)源數(shù)據(jù)所呈現(xiàn)出的上述特征對(duì)于提升數(shù)據(jù)的語(yǔ)義理解具有重要意義。如何打通并利用好這些多源多模態(tài)的數(shù)據(jù),成為情報(bào)感知的重要基礎(chǔ)。本文梳理了多源多模態(tài)數(shù)據(jù)在情報(bào)感知應(yīng)用中亟待解決的挑戰(zhàn),旨在為后文數(shù)據(jù)的融合研究提供思想指導(dǎo)。
a.數(shù)據(jù)不完備,數(shù)據(jù)所蘊(yùn)含的碎片化信息使得情報(bào)線(xiàn)索呈現(xiàn)復(fù)雜性,實(shí)現(xiàn)數(shù)據(jù)的快速調(diào)動(dòng)、文本挖掘與分析,發(fā)現(xiàn)潛在規(guī)律和聯(lián)系至關(guān)重要;b.數(shù)據(jù)質(zhì)量良莠不齊,數(shù)據(jù)的質(zhì)量直接影響了后續(xù)情報(bào)分析的成敗,需要篩選數(shù)據(jù)自身質(zhì)量高、情報(bào)價(jià)值高、對(duì)感知任務(wù)貢獻(xiàn)度高的數(shù)據(jù);c.數(shù)據(jù)的動(dòng)態(tài)調(diào)整,數(shù)據(jù)體量并不是越大越好,而是要隨著情報(bào)感知任務(wù)的需求逐漸清晰和聚焦;d.數(shù)據(jù)歸屬問(wèn)題,要在數(shù)據(jù)安全、允許的法律規(guī)范下進(jìn)行數(shù)據(jù)的獲取、融合與分析。
如何將互補(bǔ)但冗余的多源多模態(tài)數(shù)據(jù)有效融合,支撐情報(bào)感知,面臨著以下挑戰(zhàn):①數(shù)據(jù)異構(gòu)鴻溝和語(yǔ)義鴻溝亟待解決,不同源、不同類(lèi)型的數(shù)據(jù)往往結(jié)構(gòu)差異較大,且語(yǔ)義復(fù)雜;②數(shù)據(jù)融合粒度問(wèn)題,如何根據(jù)不同的感知需求確定不同的融合粒度至關(guān)重要;③時(shí)序數(shù)據(jù)融合,海量的數(shù)據(jù)難免會(huì)引發(fā)快速查詢(xún)等一系列問(wèn)題,如何利用時(shí)間序列數(shù)據(jù)更快、更好地做出決策亟待解決;④智能融合,機(jī)器技術(shù)的蓬勃發(fā)展使“人+AI”的組合引人矚目,需要在充分利用機(jī)器學(xué)習(xí)的基礎(chǔ)上,更高效、智能的融合。
基于此,本文將從以下3個(gè)方面具體展開(kāi):①針對(duì)多源數(shù)據(jù)的異構(gòu)鴻溝導(dǎo)致文本的相似性難以直接度量,融合粒度難以確定這一問(wèn)題,聚焦單模態(tài)數(shù)據(jù)的融合,主要是指文本數(shù)據(jù)的多粒度融合。②針對(duì)多模態(tài)數(shù)據(jù)的語(yǔ)義鴻溝問(wèn)題,重點(diǎn)調(diào)研了基于深度學(xué)習(xí)的多模態(tài)數(shù)據(jù)語(yǔ)義融合方法,特別是基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的智能化融合方法。③情報(bào)感知中無(wú)論是時(shí)序數(shù)據(jù)還是空間數(shù)據(jù),都能在情報(bào)感知的演化、預(yù)測(cè)類(lèi)任務(wù)中提供全新的視角。因此應(yīng)充分利用時(shí)空數(shù)據(jù)的交互,將時(shí)序、空間信息融入感知過(guò)程。
綜上,面向情報(bào)感知的多源多模態(tài)數(shù)據(jù)融合模型(如圖3),根據(jù)不同的情報(bào)感知任務(wù)特點(diǎn),將數(shù)據(jù)的支持劃分為單模態(tài)文本數(shù)據(jù)、多模態(tài)數(shù)據(jù)與地理時(shí)空輔助數(shù)據(jù)。具體的研究方法包括細(xì)粒度的數(shù)據(jù)級(jí)融合、句子級(jí)融合、篇章級(jí)融合和知識(shí)級(jí)融合,基于特征級(jí)、深度學(xué)習(xí)和異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的語(yǔ)義融合,基于時(shí)空數(shù)據(jù)輔助的多源多模態(tài)數(shù)據(jù)融合。
圖3 面向情報(bào)感知的多源多模態(tài)數(shù)據(jù)融合模型
目前學(xué)者們探討的多源數(shù)據(jù)融合模型多從融合的過(guò)程出發(fā),對(duì)各組成部分間的相互作用過(guò)程進(jìn)行描述,例如Paul[20]將融合過(guò)程劃分為特征提取、位置融合、關(guān)系融合和關(guān)聯(lián)融合4個(gè)步驟。還有學(xué)者從數(shù)據(jù)層、特征層和決策層融合3個(gè)層次概括多源數(shù)據(jù)融合模型。本文借鑒上述思路,結(jié)合情報(bào)感知任務(wù)的需求,認(rèn)為面向情報(bào)感知的多源異構(gòu)數(shù)據(jù)融合必須是細(xì)粒度的,在考慮融合過(guò)程和層次的基礎(chǔ)上,是由簡(jiǎn)單的數(shù)據(jù)級(jí)組合融合擴(kuò)展到考慮詞粒度、短語(yǔ)粒度等的句子級(jí)融合,進(jìn)而深化至考慮篇章語(yǔ)義、篇章結(jié)構(gòu)、知識(shí)結(jié)構(gòu)的細(xì)粒度融合,以揭示數(shù)據(jù)的深層規(guī)律,作出前瞻性強(qiáng)、價(jià)值高的判斷。
4.1.1數(shù)據(jù)級(jí)融合
數(shù)據(jù)作為情報(bào)感知的源頭,可以幫助情報(bào)分析人員快速獲取所需信息,其重要性不言而喻。多源異構(gòu)數(shù)據(jù)的數(shù)據(jù)級(jí)融合可以分為數(shù)據(jù)直接融合和元數(shù)據(jù)融合兩種不同的粒度。
數(shù)據(jù)級(jí)別直接融合。當(dāng)情報(bào)感知的任務(wù)清晰,數(shù)據(jù)源結(jié)構(gòu)相似、主題相似或核心數(shù)據(jù)明確時(shí),可以將不同來(lái)源的數(shù)據(jù)在同一主題的指導(dǎo)下拼接組合,可以看作是數(shù)據(jù)集的擴(kuò)大,是數(shù)據(jù)間的淺層融合[21]。例如,數(shù)據(jù)A和數(shù)據(jù)B融合,補(bǔ)充數(shù)據(jù)C缺失的字段,或在數(shù)據(jù)A、B、C中選擇高質(zhì)量的字段。這種融合通常發(fā)生在學(xué)科前沿?zé)狳c(diǎn)的識(shí)別、產(chǎn)業(yè)發(fā)展的變革規(guī)律、科研關(guān)系的發(fā)展演化等情報(bào)研究中,把同一主題、結(jié)構(gòu)相似的數(shù)據(jù)直接融合,發(fā)現(xiàn)其演進(jìn)的過(guò)程和規(guī)律,進(jìn)而實(shí)現(xiàn)趨勢(shì)的預(yù)測(cè),早醒遠(yuǎn)眺。
元數(shù)據(jù)級(jí)別融合。元數(shù)據(jù)作為描述數(shù)據(jù)的數(shù)據(jù),不僅能夠在情報(bào)感知中幫助情報(bào)人員快速獲取所需素材,而且在對(duì)元數(shù)據(jù)進(jìn)行抽取、映射、融合等操作時(shí),能夠有效避免數(shù)據(jù)的異構(gòu)問(wèn)題。主要有三種融合方式[22]:①去重融合,當(dāng)同一資源的元數(shù)據(jù)非空且一致時(shí),只需要簡(jiǎn)單去重,保留一個(gè)來(lái)源的元數(shù)據(jù)。例如論文中的“關(guān)鍵詞”元數(shù)據(jù)項(xiàng)均為“人工智能”,則直接將其作為融合后的“題名”。②互補(bǔ)融合,當(dāng)不同來(lái)源的元數(shù)據(jù)部分缺失時(shí),需要對(duì)空值進(jìn)行填補(bǔ)。例如某篇論文中的“作者”,各來(lái)源中只有一個(gè)來(lái)源的“作者”非空,則將非空項(xiàng)信息進(jìn)行保留。③規(guī)則融合,如果某一資源各來(lái)源的元數(shù)據(jù)均非空,則保留符合元數(shù)據(jù)著錄標(biāo)準(zhǔn)的數(shù)據(jù)。綜上,去重融合和互補(bǔ)融合只針對(duì)元數(shù)據(jù)本身進(jìn)行操作,簡(jiǎn)單快捷;而規(guī)則融合需要考慮元數(shù)據(jù)的質(zhì)量和異構(gòu)問(wèn)題。
4.1.2句子級(jí)融合
在情報(bào)感知過(guò)程中,情報(bào)素材的評(píng)判對(duì)感知的結(jié)果至關(guān)重要。例如,針對(duì)前沿動(dòng)態(tài)跟蹤類(lèi)的感知項(xiàng)目,情報(bào)工作人員必須要全面、系統(tǒng)地獲取可能與用戶(hù)需求相匹配的數(shù)據(jù),這時(shí)需要對(duì)含有“最新”、“最前沿”等字樣的文章極為在意,基于數(shù)據(jù)粒度的融合已經(jīng)不能滿(mǎn)足情報(bào)需求。而詞語(yǔ)級(jí)和短語(yǔ)級(jí)融合大多以詞作為語(yǔ)義單元,對(duì)于英文文檔來(lái)說(shuō)適用于這種融合粒度,但是中文的分詞、語(yǔ)義等直接影響了融合結(jié)果,只考慮詞語(yǔ)或短語(yǔ)級(jí)融合不一定能取得很好的效果。因此需要考慮到多語(yǔ)義的文檔信息,綜合考慮文本的詞粒度信息、短語(yǔ)粒度信息和句粒度信息,通過(guò)更多層級(jí)和多粒度的融合,彌補(bǔ)數(shù)據(jù)級(jí)融合的信息損失,從而達(dá)到更好的融合效果。
在句子級(jí)融合的具體研究上,Luo等[23]融合了句子級(jí)和文檔級(jí)信息,提出了分層語(yǔ)義表示模型,并結(jié)合BiLSTM使模型充分利用上下文和全局信息。楊春霞等[24]通過(guò)字、詞、句的句法關(guān)系以及字-詞關(guān)系,對(duì)字和詞嵌入后進(jìn)行多粒度融合,利用CNN提取語(yǔ)義特征及上下文特征完成了新聞文本的主題分類(lèi)。由此可知,當(dāng)數(shù)據(jù)級(jí)的融合不能支撐情報(bào)感知時(shí),基于字、詞、句的多粒度融合模型能更好的理解文本的實(shí)體信息和語(yǔ)義信息,同時(shí)兼顧文本的上下文信息,支撐情報(bào)感知任務(wù)。
4.1.3篇章級(jí)融合
篇章級(jí)融合主要是從文章的邏輯結(jié)構(gòu)和篇章單元之間的語(yǔ)義關(guān)系出發(fā),挖掘更深層次的語(yǔ)義和結(jié)構(gòu)信息。篇章級(jí)融合有助于理解篇章的中心思想和主旨內(nèi)容,對(duì)情報(bào)感知時(shí)間線(xiàn)的構(gòu)建、感知信息的抽取等任務(wù)具有重要意義。以情報(bào)感知中的科技政策類(lèi)任務(wù)為例,主題各異的政策看來(lái)在是離散的,在內(nèi)容上缺乏相關(guān)性,而實(shí)際上卻具有深層次的聯(lián)系。在這時(shí),就可以將不同主題文本中的關(guān)鍵信息抽取,以篇章級(jí)的事件時(shí)序關(guān)系或主題聯(lián)系為特征,生成關(guān)于全局?jǐn)?shù)據(jù)的新的更加抽象的特征,以此揭示數(shù)據(jù)的深層次規(guī)律。
在篇章級(jí)事件時(shí)序關(guān)系融合方面,事件的時(shí)序關(guān)系與篇章關(guān)系密切相關(guān),如果僅以句子級(jí)的信息作為支撐,難以高效識(shí)別并融合事件的時(shí)序關(guān)系。戴倩雯等[25]融合了句子的依存關(guān)系和篇章的修辭關(guān)系,利用BiLSTM捕獲更多有效信息,較好地識(shí)別了事件的時(shí)序關(guān)系。劉耀等[26]提出了融合篇章結(jié)構(gòu)的文本知識(shí)網(wǎng)絡(luò),利用BiLSTM-CRF和SVM完成關(guān)系的標(biāo)引,融合了篇章特征和句法語(yǔ)義特征。由此可知,融合過(guò)程中如果考慮了篇章級(jí)的時(shí)序關(guān)系,文章中的事件并非孤立的存在,使得全文的一致性得以保證,增強(qiáng)了情報(bào)感知的準(zhǔn)確性。
篇章級(jí)主題融合的重點(diǎn)在于發(fā)現(xiàn)數(shù)據(jù)間的主題關(guān)聯(lián),找出背后的情報(bào)線(xiàn)索,以此洞察事務(wù)的本質(zhì)。在具體方法上,基于LDA的主題模型在情報(bào)感知的演化類(lèi)任務(wù)中具有較好的效果。徐碩等[27]將主題、作者和時(shí)間關(guān)聯(lián)提出作者主題演化模型(Author-Topic over Time, AToT),挖掘了隱含主題和作者研究興趣隨時(shí)間變化的規(guī)律。馮佳等[28]從載體-特征-關(guān)系3個(gè)層面構(gòu)建了改進(jìn)LDA的多源數(shù)據(jù)融合模型。但是LDA模型產(chǎn)生的主題之間相互孤立,會(huì)受到文本自身篇幅短、內(nèi)容格式散亂等多方面的影響。隨著深度學(xué)習(xí)的突破性應(yīng)用,word2vec通過(guò)向量空間的相似度衡量文本的相似度,克服了詞袋表示的不足,使得語(yǔ)義信息更加豐富,則更適于從短文本中提取主題。
4.1.4知識(shí)級(jí)融合
知識(shí)級(jí)融合中最具代表性的是應(yīng)用于知識(shí)圖譜的知識(shí)融合(Knowledge Fusion),即合并兩個(gè)知識(shí)圖譜中各層面的知識(shí),將多源的有關(guān)同一實(shí)體的描述信息有效融合。相比于篇章級(jí)的融合,知識(shí)級(jí)的融合粒度更加細(xì)致,得到的結(jié)果也更加準(zhǔn)確和全面。由于同一領(lǐng)域的數(shù)據(jù)具有各自的知識(shí)庫(kù),不同領(lǐng)域的數(shù)據(jù)進(jìn)行交互時(shí),知識(shí)的共享性、動(dòng)態(tài)性決定了知識(shí)的構(gòu)建過(guò)程中不可避免地會(huì)遇到知識(shí)異構(gòu)的現(xiàn)象。南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)發(fā)的眾包知識(shí)融合系統(tǒng)FactChain[29],解決了知識(shí)因時(shí)效性更新、多源知識(shí)間沖突的問(wèn)題,為知識(shí)的多源共享與融合提供了指導(dǎo)。因此,解決知識(shí)級(jí)的融合問(wèn)題,能更好地支持細(xì)粒度的情報(bào)感知,將知識(shí)異構(gòu)現(xiàn)象冰解凍釋。
在知識(shí)融合中常用的工具主要包括Falcon-AO、Dedupe、Limes和Silk等。其中,Falcon-AO[30]是一個(gè)本體自動(dòng)匹配系統(tǒng),是目前web本體匹配最為實(shí)用和流行的方法之一。而Dedupe[31]可以支持多種數(shù)據(jù)類(lèi)型和自定義類(lèi)型,為多源異構(gòu)數(shù)據(jù)的融合提供了合適的選擇。Limes是基于度量空間的框架,適用于大規(guī)模的數(shù)據(jù)鏈接;Silk是集成異構(gòu)數(shù)據(jù)的開(kāi)源框架,提供了圖形化的用戶(hù)界面,可以更加方便的進(jìn)行記錄鏈接。
綜上,異構(gòu)數(shù)據(jù)融合,特別是異構(gòu)文本數(shù)據(jù)融合時(shí),基于數(shù)據(jù)級(jí)、句子級(jí)、篇章級(jí)和知識(shí)級(jí)的融合各有利弊(見(jiàn)圖4),但在情報(bào)感知的應(yīng)用時(shí),要根據(jù)情報(bào)任務(wù)的特點(diǎn),選擇恰當(dāng)?shù)娜诤狭6?并在必要的時(shí)候?qū)Σ煌6鹊娜诤线M(jìn)行組合,促進(jìn)情報(bào)感知的智能化和精準(zhǔn)化。
圖4 多源異構(gòu)數(shù)據(jù)融合的發(fā)展趨勢(shì)
隨著智能設(shè)備的更新迭代,越來(lái)越多的人在微博、微信、抖音等社交平臺(tái)上以文本、圖片、音視頻等形式發(fā)表個(gè)人觀點(diǎn)。面對(duì)海量的社交媒體和新聞報(bào)道數(shù)據(jù),若能實(shí)現(xiàn)其合理利用,將在情報(bào)感知中產(chǎn)生巨大的價(jià)值。相比于單模態(tài)的文本數(shù)據(jù)融合,多模態(tài)數(shù)據(jù)融合則更加重視對(duì)數(shù)據(jù)深層次語(yǔ)義的理解,以及不同數(shù)據(jù)間關(guān)系的建模,有時(shí)也通過(guò)抽取不同模態(tài)的交互信息,高效利用海量的媒體數(shù)據(jù)。
總體。Omvivore采用統(tǒng)一的預(yù)訓(xùn)練模型處理圖片、視頻和3D圖像三種視覺(jué)模態(tài)的輸入,并映射到統(tǒng)一的特征空間;Data2vec則采用了統(tǒng)一的模型和訓(xùn)練框架,分別去訓(xùn)練文本、圖像和音頻,是第一個(gè)適用于文本、語(yǔ)音和圖像等多領(lǐng)域的高性能自監(jiān)督算法。此外,Bridge-Tower(MSRA)也提出了多模態(tài)預(yù)訓(xùn)練模型新的特征融合方式,其在單模態(tài)表示學(xué)習(xí)的中間層進(jìn)行跨模態(tài)的交互,不僅可以有效應(yīng)對(duì)模態(tài)缺失的問(wèn)題,而且能更好的學(xué)習(xí)多模態(tài)的交互。
4.2.1基于特征、決策級(jí)的多模態(tài)數(shù)據(jù)融合
關(guān)于多模態(tài)數(shù)據(jù)融合的智能處理,有特征級(jí)和決策級(jí)2個(gè)層次的融合方法。特征級(jí)融合適用于不同模態(tài)的數(shù)據(jù)高度相關(guān)的情況,采用提取特征信息融合的方式[33]。Yang等[34]采用了特征級(jí)的多模態(tài)數(shù)據(jù)融合,將音頻和視頻數(shù)據(jù)應(yīng)用于語(yǔ)音識(shí)別,但特征提取難度大,效果有待提高。此外,最初應(yīng)用于文本分類(lèi)問(wèn)題的PLSA(Probabilistic Latent Semantic Analysis, PLSA)模型近年來(lái)被應(yīng)用于圖像、音視頻等多媒體數(shù)據(jù)的分析,并取得了不錯(cuò)的效果。例如,熊回香等[35]利用PLSA模型和潛在主題變量的不同特征,構(gòu)建了潛在主題語(yǔ)義空間,進(jìn)而發(fā)現(xiàn)多模態(tài)數(shù)據(jù)間的相關(guān)性,克服了文字潛在語(yǔ)義信息的問(wèn)題。在決策級(jí)融合方面,謝豪等[36]構(gòu)建了多層語(yǔ)義決策級(jí)融合模型,充分挖掘圖文兩種模態(tài)數(shù)據(jù)之間的相似性信息,對(duì)社交媒體的圖文進(jìn)行了情感分類(lèi)。但需要注意的是,決策級(jí)的融合在處理異質(zhì)的多模態(tài)數(shù)據(jù)時(shí),會(huì)產(chǎn)生信息的損失。
4.2.2基于深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)融合
隨著人工智能的發(fā)展,跨模態(tài)的數(shù)據(jù)融合逐漸走向人們的視野??缒B(tài)數(shù)據(jù)融合通過(guò)關(guān)系抽取來(lái)獲得不同模態(tài)間的交互信息,再結(jié)合數(shù)據(jù)自身得到相互獨(dú)立的特征,比多模態(tài)數(shù)據(jù)融合所得到的特征更加全面和精確。
a.基于CNN的跨模態(tài)數(shù)據(jù)融合。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)不需要手動(dòng)提取數(shù)據(jù)的特征,可以共享權(quán)值并直接輸入網(wǎng)絡(luò),被廣泛應(yīng)用于圖像、視頻等模態(tài)數(shù)據(jù)的處理中。2015年You等[37]首次提出拼接圖文特征以實(shí)現(xiàn)跨模態(tài)分類(lèi),使用ImageNet預(yù)訓(xùn)練的CNN提取圖像特征,Word2Vec提取文本特征,此后的研究均是該方法的改進(jìn)。申自強(qiáng)[38]利用CNN和CBOW(Continuous Bag of Words, CBOW)分別提取圖文特征,但也只能提取高級(jí)語(yǔ)義特征。針對(duì)這一問(wèn)題,陳巧紅等[39]利用VGG13網(wǎng)絡(luò)外接卷積層,提取3個(gè)層次的圖像特征,對(duì)文本數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行跨模態(tài)融合。Hu等[40]利用預(yù)訓(xùn)練的CNN提取圖像特征,選擇LSTM在Glove詞向量上提取文本特征表示。
b.基于注意力的跨模態(tài)數(shù)據(jù)融合。在深度學(xué)習(xí)中引入注意力機(jī)制(Attention Mechanism)后,使得機(jī)器更貼合人類(lèi)行為,也在多模態(tài)數(shù)據(jù)融合中取得了一定效果。Xu等[41]基于注意力機(jī)制分別計(jì)算了圖文之間的雙向注意力,將文本實(shí)體和圖像語(yǔ)義對(duì)齊,實(shí)現(xiàn)了分層次的跨模態(tài)融合。陳小敏等[42]提出了基于Attention的TAI-CNN跨模態(tài)情感分類(lèi)方法。Yu等[43]利用多頭注意力機(jī)制(Multi-Head Attention Mechanism)將圖像特征融入到文本特征中,并利用自注意力機(jī)制提取文本數(shù)據(jù)的上下文信息,使跨模態(tài)的融合更加清晰。在此基礎(chǔ)上,又提出視覺(jué)注意力網(wǎng)絡(luò)(Visual Aspect Attention Network)以解決圖像模態(tài)的數(shù)據(jù)為主的應(yīng)用場(chǎng)景,更精確的進(jìn)行多模態(tài)數(shù)據(jù)融合。綜上,跨模態(tài)數(shù)融合模型不再局限于簡(jiǎn)單的特征提取、決策融合或單一神經(jīng)網(wǎng)絡(luò),而是可以根據(jù)實(shí)際問(wèn)題的需要和應(yīng)用環(huán)境,選擇適合于當(dāng)前情報(bào)感知任務(wù)或感知對(duì)象的模型。
4.2.3基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合
情報(bào)感知中的多模態(tài)數(shù)據(jù)大都具有圖結(jié)構(gòu),圖神經(jīng)網(wǎng)絡(luò)GNN(Graph Neural Network, GNN)[44]可以通過(guò)圖節(jié)點(diǎn)傳遞和捕捉數(shù)據(jù)的相關(guān)性,推動(dòng)了數(shù)據(jù)融合領(lǐng)域相關(guān)研究的發(fā)展。然而傳統(tǒng)的GNN模型,只能處理某一類(lèi)型節(jié)點(diǎn)構(gòu)成的規(guī)則拓?fù)鋱D,也就是說(shuō)只能表示同一模態(tài)或類(lèi)型的數(shù)據(jù),但是在實(shí)際的情報(bào)感知過(guò)程中,多模態(tài)的數(shù)據(jù)并非只有一種類(lèi)型的節(jié)點(diǎn)構(gòu)成,傳統(tǒng)GNN的模型質(zhì)量明顯下降。
近年來(lái),由不同類(lèi)型的節(jié)點(diǎn)和邊構(gòu)成的異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network, HIN)出現(xiàn),彌補(bǔ)了同構(gòu)網(wǎng)絡(luò)的不足[45]。越來(lái)越多的學(xué)者將多模態(tài)的交互信息建模為異質(zhì)信息網(wǎng)絡(luò),保留更加全面的語(yǔ)義信息,完成了更精確的知識(shí)關(guān)聯(lián)與發(fā)現(xiàn)。特別是面對(duì)情報(bào)感知中的海量、多源、異構(gòu)、多模態(tài)的數(shù)據(jù),異質(zhì)信息網(wǎng)絡(luò)的融合優(yōu)勢(shì)使其成為解決多模態(tài)數(shù)據(jù)融合的重要途徑。
既然異質(zhì)信息網(wǎng)絡(luò)可以融合豐富的結(jié)構(gòu)和語(yǔ)義信息,解決數(shù)據(jù)異質(zhì)融合的挑戰(zhàn),那文字、圖像、時(shí)空數(shù)據(jù)等模態(tài)數(shù)據(jù)是否可以采用異質(zhì)信息網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)結(jié)合的方式進(jìn)行建模與分析?陳卓等[46]將GNN與異質(zhì)信息網(wǎng)絡(luò)結(jié)合,對(duì)多源異質(zhì)數(shù)據(jù)進(jìn)行了解碼,實(shí)現(xiàn)了用戶(hù)項(xiàng)目和社交數(shù)據(jù)兩種網(wǎng)絡(luò)節(jié)點(diǎn)的有效融合。馮小東等[47]基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了社交媒體用戶(hù)與信息的交互建模與融合。Hu等[48]利用異質(zhì)信息網(wǎng)絡(luò)、GNN和LSTM完成了用戶(hù)、新聞、新聞主題間的模態(tài)交互,捕捉了用戶(hù)的興趣,對(duì)于情報(bào)感知的用戶(hù)追蹤類(lèi)任務(wù)具有一定的啟示意義。在以圖像模態(tài)數(shù)據(jù)為主的領(lǐng)域,基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的建模方式也有初步嘗試。Li等[49]將圖像中的位置、空間、語(yǔ)義等信息建模為異質(zhì)網(wǎng)絡(luò),并利用圖注意力機(jī)制完善了全局建模。因此針對(duì)情報(bào)感知中的多模態(tài)數(shù)據(jù),基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合是具有一定的競(jìng)爭(zhēng)優(yōu)勢(shì)的(見(jiàn)圖5)。
圖5 多模態(tài)數(shù)據(jù)融合的發(fā)展趨勢(shì)
在情報(bào)感知時(shí),允許不同模態(tài)的數(shù)據(jù)之間互融互通、彼此增益是多源多模態(tài)數(shù)據(jù)融合面臨的挑戰(zhàn),如果僅依靠深度學(xué)習(xí)等數(shù)據(jù)挖掘的方法,情報(bào)用戶(hù)難以對(duì)數(shù)據(jù)和感知的過(guò)程本身進(jìn)行直觀的理解和探索?;跁r(shí)間數(shù)據(jù)和空間數(shù)據(jù)輔助的多源多模態(tài)數(shù)據(jù)的融合,可以充分利用時(shí)空的交互,將時(shí)序數(shù)據(jù)、地理空間信息融入整個(gè)數(shù)據(jù)分析、感知決策的過(guò)程[50]。
時(shí)序數(shù)據(jù)融合。時(shí)序數(shù)據(jù)表示著事件發(fā)生的先后順序,串聯(lián)了情報(bào)感知中各個(gè)事件或要素的發(fā)展演化,一些看似離散著被敘述的事件,往往背后存在著一定的聯(lián)系。如果能及時(shí)、準(zhǔn)確地抽取并融合情報(bào)感知數(shù)據(jù)源中事件的時(shí)序關(guān)系,對(duì)于情報(bào)感知的脈絡(luò)梳理起到了很好的推動(dòng)作用。因此,時(shí)序數(shù)據(jù)的融合也被看作是情報(bào)感知中的一項(xiàng)重要任務(wù),受到了越來(lái)越多的關(guān)注。
空間數(shù)據(jù)融合。隨著全球定位、無(wú)線(xiàn)傳感器等技術(shù)的發(fā)展,產(chǎn)生了海量GPS數(shù)據(jù),進(jìn)而催發(fā)了大量基于位置服務(wù)(Location-Based Services, LBS)的應(yīng)用平臺(tái)。典型的LBS的社交網(wǎng)絡(luò),如Twitter、新浪、高德等運(yùn)營(yíng)過(guò)程中,產(chǎn)生了海量的時(shí)空語(yǔ)義數(shù)據(jù)[51],助力了情報(bào)的多維度感知。Twitter每天約產(chǎn)生1000萬(wàn)條帶有地理信息的數(shù)據(jù);美國(guó)Foursquare中更是存儲(chǔ)了超100億條的位置簽到信息[52]。在情報(bào)感知中,如果將這些數(shù)據(jù)的GPS信息與多模態(tài)數(shù)據(jù)結(jié)合,既可以表示感知對(duì)象在一定時(shí)間范圍內(nèi)的位置變化,也可以從細(xì)粒度、多層面和多視角記錄感知對(duì)象的變化狀態(tài)。
本文在系統(tǒng)梳理情報(bào)感知與多源多模態(tài)數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,提出了多源多模態(tài)數(shù)據(jù)在情報(bào)感知應(yīng)用中存在的問(wèn)題,并以此為基礎(chǔ)上詳細(xì)梳理了細(xì)粒度的數(shù)據(jù)融合方法。針對(duì)單模態(tài)數(shù)據(jù)特別是多源異構(gòu)的文本數(shù)據(jù),根據(jù)情報(bào)任務(wù)的不同選擇數(shù)據(jù)級(jí)、句子級(jí)、篇章級(jí)和知識(shí)級(jí)的融合方法。面對(duì)復(fù)雜的多模態(tài)數(shù)據(jù),基于深度學(xué)習(xí)的方法始終是語(yǔ)義融合的首選,值得一提的是基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的融合方法,是未來(lái)研究的重點(diǎn)。最后,提出了時(shí)空數(shù)據(jù)輔助的多模態(tài)數(shù)據(jù)融合思路,為情報(bào)感知提供了新的視角,未來(lái)一段時(shí)間,融合時(shí)序數(shù)據(jù)或全時(shí)空大數(shù)據(jù)的情報(bào)感知研究仍具有重要的研究意義。
總體而言,情報(bào)感知視角下,多粒度的多源、異構(gòu)、多模態(tài)數(shù)據(jù)融合不可避免。在實(shí)際應(yīng)用時(shí)也需要注意不同融合粒度之間的選擇與組合,以及各模態(tài)數(shù)據(jù)的綜合、準(zhǔn)確應(yīng)用。特別是面對(duì)異質(zhì)、交互的多模態(tài)數(shù)據(jù),基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的融合方法實(shí)力強(qiáng)勁,但也存在不少難題,例如從多模態(tài)數(shù)據(jù)中提取恰當(dāng)?shù)膶?duì)象和關(guān)系;實(shí)際應(yīng)用中的異質(zhì)網(wǎng)絡(luò)往往動(dòng)態(tài)變化、規(guī)模巨大、模式豐富;異質(zhì)圖網(wǎng)絡(luò)中,局部和全局信息的關(guān)系如何把握等都亟待解決。