亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交網(wǎng)絡(luò)輿情多模態(tài)知識圖譜構(gòu)建框架研究*

        2024-01-06 08:48:42
        情報雜志 2024年1期
        關(guān)鍵詞:語義模態(tài)文本

        何 巍

        (中國人民警察大學(xué) 廊坊 065000)

        0 引 言

        隨著移動互聯(lián)網(wǎng)的迅速發(fā)展,社交媒體平臺作為橋接物理和虛擬世界的信息通信工具,逐漸成為網(wǎng)民表達(dá)訴求、觀點和情緒的渠道之一[1],例如微博、微信、抖音、小紅書等。這些平臺提供了豐富的多媒體展示空間,網(wǎng)民不再僅僅局限于采用單一模態(tài)的文本信息,而是綜合使用文本、圖像、視頻等多種模態(tài)信息[2]。各種不同模態(tài)數(shù)據(jù)之間相互呼應(yīng)和補(bǔ)充,極大地豐富了人們的感官和認(rèn)知。在這種背景下,僅以文本數(shù)據(jù)作為知識來源的傳統(tǒng)知識圖譜將不能全面客觀地反映現(xiàn)實世界的真實狀態(tài),需要各種不同模態(tài)數(shù)據(jù)之間進(jìn)行語義上的補(bǔ)充[3]。

        多模態(tài)知識圖譜(Multi-modal Knowledge Graph, MMKG)可以將不同模態(tài)的數(shù)據(jù)(如文本、圖像、視頻等)融合在一起,構(gòu)建跨模態(tài)的實體以及語義關(guān)系, 豐富只包含文本數(shù)據(jù)的傳統(tǒng)知識圖譜[4,5]。但是由于不同模態(tài)數(shù)據(jù)之間存在語義鴻溝,而且數(shù)據(jù)結(jié)構(gòu)差異性較大,數(shù)據(jù)之間不能直接融合。所以,如何利用豐富的多模態(tài)數(shù)據(jù)構(gòu)建社交網(wǎng)絡(luò)輿情多模態(tài)知識圖譜成為一個關(guān)鍵且具有挑戰(zhàn)性的問題。

        1 相關(guān)研究

        由于缺乏有效的提取技術(shù),早期的知識圖譜主要是基于文本數(shù)據(jù)構(gòu)建的,例如維基百科。隨著計算機(jī)視覺和多模態(tài)學(xué)習(xí)研究的深入[2],提取視覺數(shù)據(jù)成為可能。視覺數(shù)據(jù)能夠為多模態(tài)知識圖譜提供更加豐富的實體信息,幫助人們更好地理解實體的含義和特征,以及不同實體之間的關(guān)聯(lián)。

        ImageNet等數(shù)據(jù)集的出現(xiàn)為構(gòu)建通用多模態(tài)知識圖譜提供了基礎(chǔ)。然而,由于圖片搜索的準(zhǔn)確性較低,有學(xué)者提出對圖片增加文本標(biāo)注,并進(jìn)行知識庫存儲的方法,以此來提高圖片搜索的質(zhì)量[5]。早期的多模態(tài)知識圖譜主要是基于這種方式進(jìn)行構(gòu)建的。

        根據(jù)知識圖譜構(gòu)建的目的和應(yīng)用領(lǐng)域不同,一般將知識圖譜分為通用知識圖譜和領(lǐng)域知識圖譜兩大類[6]。下面分別介紹通用多模態(tài)知識圖譜和領(lǐng)域多模態(tài)知識圖譜的研究現(xiàn)狀。

        1.1 通用多模態(tài)知識圖譜

        表1所示是現(xiàn)有部分通用多模態(tài)知識圖譜,這些知識圖譜主要采用文本和圖像模態(tài)數(shù)據(jù)構(gòu)建。早期的Wikidata[7]主要是以嵌入式鏈接的形式提供多媒體文件,并沒有提取多媒體文件本身的視覺特征。IMGpedia[8]開始嘗試對視覺內(nèi)容進(jìn)行描述,但圖片之間的關(guān)系仍然較為單一,沒有進(jìn)行深入的挖掘。MMKG[9]對Freebase15k、YAGO15k和DB15k三個知識圖譜進(jìn)行了實體對齊,但規(guī)模較小,缺乏對圖像多樣性的考慮。Richpedia是國內(nèi)Wang等人[10]提出的代表性工作,利用圖像的文字描述提取圖像中的實體,同時增加了圖像實體之間的語義關(guān)系。

        表1 現(xiàn)有部分通用多模態(tài)知識圖譜

        1.2 領(lǐng)域多模態(tài)知識圖譜

        隨著通用多模態(tài)知識圖譜的發(fā)展, 越來越多的領(lǐng)域?qū)<议_始嘗試將多模態(tài)技術(shù)應(yīng)用于領(lǐng)域知識圖譜中。李直旭、茶思月等構(gòu)建了多模態(tài)教學(xué)知識圖譜[6,11],孟卓宇構(gòu)建了多模態(tài)生長發(fā)育知識圖譜[12],彭京徽等構(gòu)建了軍事裝備領(lǐng)域多模態(tài)知識圖譜[13],付國華等構(gòu)建了基于多模態(tài)矮小癥輔助診斷知識圖譜[14],郭利榮構(gòu)建了汽車行業(yè)多模態(tài)知識圖譜[15]。

        然而,社交網(wǎng)絡(luò)輿情領(lǐng)域的知識圖譜絕大多數(shù)仍以單模態(tài)文本數(shù)據(jù)為主,例如于凱等構(gòu)建的突發(fā)事件網(wǎng)絡(luò)輿情事理圖譜[16]、夏立新等構(gòu)建的網(wǎng)絡(luò)輿情主題圖譜[17]、王晰巍等構(gòu)建的意見領(lǐng)袖主題圖譜[18]、安璐等構(gòu)建的跨平臺知識圖譜[19]等均是以文本數(shù)據(jù)作為數(shù)據(jù)來源,進(jìn)行實體和關(guān)系的抽取,從而對網(wǎng)絡(luò)輿情事件的主題、網(wǎng)絡(luò)結(jié)構(gòu)以及輿情事件的演化進(jìn)行分析。由此可見,現(xiàn)階段針對社交網(wǎng)絡(luò)輿情多模態(tài)知識圖譜的相關(guān)研究還比較缺乏。

        基于此,本文首先介紹多模態(tài)知識圖譜涉及的相關(guān)概念,然后在分析社交網(wǎng)絡(luò)輿情不同模態(tài)數(shù)據(jù)間語義互補(bǔ)方式的基礎(chǔ)上,探討多模態(tài)數(shù)據(jù)的融合方式和構(gòu)建框架,并進(jìn)一步分析多模態(tài)知識圖譜構(gòu)建過程中存在的困難與挑戰(zhàn),為多模態(tài)知識圖譜在社交網(wǎng)絡(luò)輿情領(lǐng)域的相關(guān)研究和應(yīng)用提供參考。

        2 相關(guān)概念

        在多模態(tài)知識圖譜的構(gòu)建過程中,涉及多模態(tài)數(shù)據(jù)、多源數(shù)據(jù)、異構(gòu)數(shù)據(jù)和多模態(tài)知識等多個概念,概念的內(nèi)涵和外延決定了它們之間具有不同的關(guān)聯(lián)關(guān)系。

        2.1 多模態(tài)數(shù)據(jù)

        多模態(tài)是指使用不同的輸入和輸出來進(jìn)行交互和傳達(dá)信息的方式,通常包含文本、圖像、視頻、音頻等不同的數(shù)據(jù)形式,用以提高用戶的交互體驗和信息傳達(dá)的效率及準(zhǔn)確性。由于社交網(wǎng)絡(luò)輿情領(lǐng)域的數(shù)據(jù)模態(tài)主要以文本、圖像、視頻為主,所以本文主要討論這三種數(shù)據(jù)模態(tài)。

        2.2 多源數(shù)據(jù)

        多源數(shù)據(jù)是指數(shù)據(jù)的來源不同,例如有的數(shù)據(jù)來源于微博,有的數(shù)據(jù)來源于抖音。所以多源數(shù)據(jù)和多模態(tài)數(shù)據(jù)之間并不存在直接的關(guān)聯(lián)。通常情況下,用于構(gòu)建多模態(tài)知識圖譜的多模態(tài)數(shù)據(jù)可以從單一數(shù)據(jù)來源中抽取,也可以從多源數(shù)據(jù)中抽取。不同來源的多模態(tài)數(shù)據(jù),語義的互補(bǔ)方式可能存在差異,在進(jìn)行多模態(tài)數(shù)據(jù)表征學(xué)習(xí)時應(yīng)該進(jìn)行綜合考慮。

        2.3 異構(gòu)數(shù)據(jù)

        異構(gòu)數(shù)據(jù)是指數(shù)據(jù)的結(jié)構(gòu)和存儲方式不同,例如表格數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),XML和HTML屬于半結(jié)構(gòu)化數(shù)據(jù),圖像和視頻屬于非結(jié)構(gòu)化數(shù)據(jù)。對這些數(shù)據(jù)進(jìn)行預(yù)處理之后,需要分別存儲在關(guān)系型和非關(guān)系型數(shù)據(jù)庫之中。由于多模態(tài)數(shù)據(jù)含有文本、圖像、視頻等多種不同的表達(dá)形式,所以多模態(tài)數(shù)據(jù)屬于異構(gòu)數(shù)據(jù)。

        2.4 多模態(tài)知識

        知識來源于人們對客觀世界的認(rèn)識和理解。在傳統(tǒng)的知識圖譜中,文本模態(tài)知識通常被表示為RDF三元組的形式,例如x1(h,r,t),其中x1代表某一種模態(tài),h代表頭實體,t代表尾實體,r代表頭實體和尾實體之間的關(guān)系。

        知識可以來源于單一的文本實體與關(guān)系,也可以來源于多個文本實體與關(guān)系的組合。從多個三元組中獲取的文本模態(tài)知識k1可以表示為f(k1)=x1(h1,r1,t1)+x1(h2,?,t2)+x1(h3,?,?),其中?代表不完整RDF三元組中的未知元素[20],即文本模態(tài)知識k1可以包含完整和不完整的三元組組合。以此類推,從多個RDF三元組中獲取的圖像模態(tài)知識k2可以表示為f(k2)=x2(h1,r1,t1)+x2(h2,?,t2)+x2(h3,?,?),音頻模態(tài)知識k3可以表示為f(k3)=x3(h1,r1,t1)+x3(h2,?,t2)+x3(h3,?,?)。由于視頻一般可以分解為圖像和音頻,所以視頻模態(tài)知識可以認(rèn)為是圖像模態(tài)知識和音頻模態(tài)知識的組合。

        多模態(tài)知識圖譜中的數(shù)據(jù)屬于異構(gòu)數(shù)據(jù),知識的復(fù)雜度要高于單純的文本知識。多模態(tài)知識需要從不同模態(tài)數(shù)據(jù)中抽取語義知識,然后根據(jù)其一致性或互補(bǔ)性進(jìn)行特征變換和融合得到。所以,多模態(tài)知識k4可以表示為f(k4)=x1(h1,r1,t1)+x1(h2,?,t2)+x1(h3,?,?)+x2(h4,r4,t4)+x2(h5,?,t5)+x2(h6,?,?)+x3(h7,r7,t7)+x3(h8,?,t8)+x3(h9,?,?),其中x1代表文本模態(tài),x2代表圖像模態(tài),x3代表音頻模態(tài)。

        3 多模態(tài)語義互補(bǔ)

        在網(wǎng)絡(luò)輿情事件中,社交媒體用戶通過發(fā)表跟輿情事件相關(guān)的博文或評論來表達(dá)自身的觀點、情感和訴求,發(fā)表的內(nèi)容可能包含文本、圖像、視頻等多種模態(tài)的組合。理解不同模態(tài)數(shù)據(jù)間的語義互補(bǔ)方式,有助于進(jìn)行網(wǎng)絡(luò)輿情相關(guān)事件檢測和情感分析,挖掘多模態(tài)數(shù)據(jù)中的隱含信息。

        3.1 事件檢測

        僅利用文本信息進(jìn)行事件檢測的方式已經(jīng)無法適應(yīng)當(dāng)下網(wǎng)絡(luò)輿情事件表達(dá)的多樣性。例如,在2021年7月20日發(fā)生的“河南遭遇特大暴雨”事件中,根據(jù)“知微事見”平臺的統(tǒng)計,網(wǎng)絡(luò)輿論峰值傳播速度達(dá)到了10577條/小時,引起了社會各界的極大關(guān)注。其中一條微博信息如圖1所示,包含文本和視頻兩種數(shù)據(jù)模態(tài)。

        圖1中的文本包含事件的細(xì)節(jié)內(nèi)容,例如,暴雨的發(fā)生時段為7月20日,地點為河南鄭州。從文本中,我們僅能獲悉暴雨導(dǎo)致“市區(qū)積水嚴(yán)重,地鐵關(guān)閉,鐵路停運”,但頭腦中并不能產(chǎn)生直觀的場景,也很難意識到這場暴雨所帶來的災(zāi)難性后果。然而,文本下面的視頻卻提供了更多關(guān)于暴雨的真實場景和更加豐富的信息。

        圖2中是視頻關(guān)鍵幀截圖,這些圖像對人的視覺產(chǎn)生了強(qiáng)烈的沖擊,不僅印證了文本中的內(nèi)容,并且補(bǔ)充了文本中缺失的信息。從視頻中可以看到,區(qū)別于普通的暴雨,此次暴雨導(dǎo)致了嚴(yán)重的城市內(nèi)澇,很多室外人員身處危險之中,急需救援和物資幫助。

        所以,通過文本、圖像和視頻在內(nèi)容上的相互關(guān)聯(lián)和呼應(yīng),快速捕捉到輿論信息所反應(yīng)的現(xiàn)實世界的真實狀態(tài),能夠幫助我們更好地進(jìn)行網(wǎng)絡(luò)輿情事件的檢測,從而可以及時做出相應(yīng)地處理和響應(yīng)。

        3.2 情感分析

        在網(wǎng)絡(luò)輿情的分析中,社交媒體用戶的觀點和情感,是實時態(tài)勢最直觀的反映。隨著輿論信息的短文本化和多模態(tài)化,基于文本的語義挖掘在用戶觀點和情緒抽取方面的表現(xiàn)面臨越來越大的挑戰(zhàn)。

        圖3所示是在“河南遭遇特大暴雨”事件中,用戶發(fā)布的一條短文本、多模態(tài)的微博內(nèi)容。文本信息很短,只有一句簡單的描述。基于常規(guī)的文本挖掘技術(shù),很難抽取其中用戶的觀點和情感。文本下方的視頻則提供了更加豐富的內(nèi)容,通過對視頻關(guān)鍵幀信息的分析,可以獲悉本條微博內(nèi)容表達(dá)了對火箭軍及時趕到,并轉(zhuǎn)移福利院兒童的感激之情,并且用戶對戰(zhàn)勝災(zāi)害充滿信心。

        圖3 短文本、多模態(tài)微博內(nèi)容示例

        所以,從不同的角度和層次抽取社交媒體多模態(tài)數(shù)據(jù)中的信息,然后進(jìn)行特征變換和語義上的融合,能夠獲得比單一模態(tài)更加豐富和準(zhǔn)確的信息,從而為社會治理提供決策支持。

        4 多模態(tài)知識融合

        構(gòu)建多模態(tài)知識圖譜的一個關(guān)鍵問題是除文本數(shù)據(jù)外,其它模態(tài)的數(shù)據(jù)以何種形式在知識圖譜中進(jìn)行表示[2],即存在單模態(tài)特征表示和多模態(tài)特征融合的問題。分析常見社交媒體平臺中網(wǎng)絡(luò)輿情信息的特點,總結(jié)出常見的信息模態(tài)組合方式通常為文本-圖像、文本-視頻、文本-圖像-視頻。下面以突發(fā)自然災(zāi)害事件“河南遭遇特大暴雨”為例,選取社交媒體平臺中的部分多模態(tài)數(shù)據(jù)進(jìn)行融合方式的說明。

        4.1 實體屬性關(guān)聯(lián)

        將圖像、視頻等多模態(tài)數(shù)據(jù)的URL鏈接以實體屬性的方式嵌入到傳統(tǒng)知識圖譜中,是最直接的一種多模態(tài)數(shù)據(jù)融合方式[21],如圖4所示。但是在這種情況下,圖像和視頻中的內(nèi)容并沒有被提取出來,沒有被作為獨立的實體,只是以鏈接的形式直接被添加到知識圖譜中。

        圖4 實體屬性關(guān)聯(lián)多模態(tài)知識圖譜示例

        4.2 圖像(視頻)文字描述

        圖像(視頻)文字描述是指向傳統(tǒng)的知識圖譜中添加圖像(視頻)數(shù)據(jù)的同時,還要添加描述該圖像(視頻)的文字描述[22]。在圖5中,圖像和視頻以實體的形式被添加到傳統(tǒng)知識圖譜中,同時增加了對圖像和視頻內(nèi)容的文字描述,該描述同樣以實體的形式被添加到傳統(tǒng)知識圖譜中。這種方式是以模態(tài)轉(zhuǎn)換的形式將圖像(視頻)內(nèi)容轉(zhuǎn)換成文本內(nèi)容,間接提取圖像(視頻)中的信息。但是這種方式不能完全獲取圖像(視頻)中的相關(guān)屬性信息。

        圖5 圖像(視頻)文字描述多模態(tài)知識圖譜示例

        4.3 圖像(視頻)屬性

        圖像(視頻)屬性是指向圖5所示的多模態(tài)知識圖譜中繼續(xù)添加從圖像(視頻)中提取出來的屬性信息[23],如圖6所示。

        圖6 圖像(視頻)屬性多模態(tài)知識圖譜示例

        例如從圖6左側(cè)第一張圖像中提取出“戶外人員”和“被困”,將其分別以“主體”和“事件”的關(guān)系鏈接到相對應(yīng)的圖像上;從圖6中間的視頻中提取出“救援人員”和“營救”,將其分別以“主體”和“事件”的關(guān)系鏈接到相對應(yīng)的視頻上。這樣可以增加知識圖譜中實體和關(guān)系的數(shù)量及復(fù)雜度,有利于在下游應(yīng)用中進(jìn)行知識搜索和推理。但是,這種方式的數(shù)據(jù)融合,圖像(視頻)與圖像(視頻)之間仍然缺乏直接的關(guān)聯(lián)。

        4.4 圖像(視頻)關(guān)聯(lián)

        圖像(視頻)關(guān)聯(lián)是指直接建立起多模態(tài)知識圖譜中不同圖像(視頻)間的關(guān)聯(lián)。在圖7中,將中間視頻與左右兩邊圖像的關(guān)系設(shè)定為“救援”。這種融合方式增加了圖像(視頻)之間的關(guān)聯(lián)關(guān)系,提高了不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)度,這樣不同模態(tài)的數(shù)據(jù)之間都能夠直接進(jìn)行知識搜索和推理,提高了圖譜搜索和推理的靈活性和全面性。

        圖7 圖像(視頻)關(guān)聯(lián)多模態(tài)知識圖譜示例

        5 圖譜構(gòu)建框架

        根據(jù)社交媒體輿情數(shù)據(jù)分析和圖譜構(gòu)建的需求[20],可以將多模態(tài)知識圖譜的構(gòu)建步驟分為數(shù)據(jù)獲取、數(shù)據(jù)處理、知識抽取、知識融合和圖譜應(yīng)用五個部分,如圖8所示。

        圖8 社交媒體輿情多模態(tài)知識圖譜的構(gòu)建框架

        5.1 數(shù)據(jù)獲取

        社交媒體平臺中通常包含豐富的多模態(tài)數(shù)據(jù),針對特定的需求,可以采集單一來源數(shù)據(jù)或者多源數(shù)據(jù)。常見的社交媒體多模態(tài)數(shù)據(jù)類型有文本、圖像和視頻。由于不同數(shù)據(jù)模態(tài)的處理技術(shù)存在差異性,這里將視頻中的音頻提取出來單獨作為一種數(shù)據(jù)模態(tài)進(jìn)行處理。

        采集到的原始數(shù)據(jù)可能存在空缺值、無關(guān)值、重復(fù)值等問題,需要進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗包括去除空缺值、去除無關(guān)值、刪除重復(fù)值等步驟。然后,根據(jù)數(shù)據(jù)模態(tài)的差異,將數(shù)據(jù)進(jìn)行分類存儲。例如可以將結(jié)構(gòu)化數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫中,將半結(jié)構(gòu)化數(shù)據(jù)存儲在NoSQL數(shù)據(jù)庫中,將非結(jié)構(gòu)化數(shù)據(jù)存儲在對象存儲中。存儲在數(shù)據(jù)庫中的數(shù)據(jù)還需要進(jìn)行質(zhì)量檢測,以確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。

        5.2 數(shù)據(jù)處理

        不同數(shù)據(jù)模態(tài)之間存在著巨大的差異,為了后續(xù)更加全面的進(jìn)行實體和關(guān)系抽取,需要將圖像、視頻和音頻數(shù)據(jù)進(jìn)行多模態(tài)的轉(zhuǎn)換。

        a.圖像數(shù)據(jù)的模態(tài)轉(zhuǎn)換。圖像數(shù)據(jù)的模態(tài)轉(zhuǎn)換是指根據(jù)圖像生成描述文本和場景圖,從而幫助計算機(jī)理解圖像的內(nèi)容和語義。

        基于圖像的文本生成又稱為圖像描述生成,是指讓計算機(jī)根據(jù)圖像生成語法正確,且能夠描述圖像視覺內(nèi)容的自然語言,實現(xiàn)從圖像到文本的模態(tài)轉(zhuǎn)換。圖像描述生成的方法主要分為兩類:基于模板的方法和基于深度學(xué)習(xí)的方法。基于模板的方法使用預(yù)定義的句子模板和規(guī)則,根據(jù)圖像的內(nèi)容填充相應(yīng)的詞語和短語,生成描述文本。而基于深度學(xué)習(xí)的方法則使用深度神經(jīng)網(wǎng)絡(luò)模型[24],通過學(xué)習(xí)大量的圖像-文本對,將圖像映射到一個語義空間,從而生成描述文本,而后進(jìn)行三元組信息提取。

        場景圖是一種圖結(jié)構(gòu),由節(jié)點和邊組成,每個節(jié)點表示一個對象,每條邊表示兩個對象之間的關(guān)系,用于描述圖像中的對象、關(guān)系和屬性。場景圖的生成通常基于深度學(xué)習(xí)算法進(jìn)行目標(biāo)檢測和圖像分割[25]。首先,通過目標(biāo)檢測算法識別圖像中的對象,并提取它們的位置和類別信息。然后,通過圖像分割算法對每個對象進(jìn)行像素級別的分割,得到對象的精確邊界。最后,根據(jù)對象之間的空間關(guān)系和語義關(guān)系,構(gòu)建場景圖的節(jié)點和邊。

        b.視頻數(shù)據(jù)的模態(tài)轉(zhuǎn)換。視頻是包含時間序列信息的一系列圖像,視頻數(shù)據(jù)的模態(tài)轉(zhuǎn)換是指將視頻進(jìn)行序列信息處理和生成主題文本。

        序列信息處理是指使用計算機(jī)視覺技術(shù)從視頻數(shù)據(jù)中提取出序列信息,例如視頻的幀序列、動作序列、物體序列等[26]。通過提取序列信息,可以將視頻數(shù)據(jù)轉(zhuǎn)換為序列數(shù)據(jù),便于后續(xù)的處理和分析。

        生成主題文本是指使用自然語言處理技術(shù)分析視頻的內(nèi)容和語義信息,從視頻數(shù)據(jù)中生成與主題相關(guān)的文本描述,例如圖像描述生成、視頻摘要生成等[27],而后進(jìn)行三元組信息提取。

        c.音頻數(shù)據(jù)的模態(tài)轉(zhuǎn)化。音頻數(shù)據(jù)的模態(tài)轉(zhuǎn)換包括背景音處理和生成音頻文本。背景音處理包括噪聲消除、音頻增強(qiáng)和混響消除,從而使音頻中的有效聲音更清晰或更突出。基于語音識別技術(shù)可以生成音頻文本,然后和本文信息一起進(jìn)行三元組信息提取。

        5.3 知識抽取

        多模態(tài)知識圖譜構(gòu)建過程中的知識抽取是將不同模態(tài)的信息轉(zhuǎn)化為結(jié)構(gòu)化的知識表示,以便于在知識圖譜中進(jìn)行存儲和查詢。知識抽取的過程可以分為文本三元組的知識抽取、場景圖的知識抽取、序列信息的知識抽取和背景音的知識抽取。

        文本三元組的知識抽取包括命名實體識別、實體消歧、文本關(guān)系抽取和事件抽取。命名實體識別是指從文本中識別出具有特定意義的實體,如人名、地名、組織機(jī)構(gòu)等。實體消歧是指將同義實體進(jìn)行合并,解決同一實體具有不同表述的問題。文本關(guān)系抽取是指從文本中提取出實體之間的關(guān)系,如"人物A是人物B的父親"。事件抽取是指從文本中抽取出事件及其相關(guān)實體和關(guān)系。

        場景圖的知識抽取包括目標(biāo)檢測、特征圖像提取、圖像實體識別和視覺關(guān)系檢測。目標(biāo)檢測是指從圖像中檢測出具有特定意義的目標(biāo),如人、車、建筑等。特征圖像提取是指從圖像中提取出具有代表性的特征,以便于后續(xù)的實體識別和關(guān)系檢測。圖像實體識別是指從圖像中識別出具有特定意義的實體,如人物、物體等。視覺關(guān)系檢測是指從圖像中提取出實體之間的關(guān)系,如"人物A坐在椅子上"。

        序列信息的知識抽取包括動作檢測和時間范圍獲取。動作檢測是指從序列信息中檢測出人物或物體的動作,如"人物A跑步"。時間范圍獲取是指從序列信息中獲取事件發(fā)生的時間范圍,如"事件A發(fā)生的時間區(qū)間"。

        背景音的知識抽取包括聲音分類和語音識別。聲音分類是指將背景音進(jìn)行分類,如環(huán)境聲、交通聲等。語音識別是指將語音轉(zhuǎn)化為文本表示,以便于后續(xù)的知識表示和關(guān)聯(lián)。

        在多模態(tài)知識圖譜構(gòu)建過程中,從文本中抽取的命名實體和從場景圖中抽取的圖像實體需要進(jìn)行跨模態(tài)實體對齊,使它們在知識圖譜中表示為同一個實體,從而實現(xiàn)不同模態(tài)之間的知識共享和交互。通過跨模態(tài)實體對齊,可以使多模態(tài)知識圖譜中的知識聯(lián)系更加緊密,提高知識的完整性和一致性。

        5.4 知識融合

        多模態(tài)知識融合是將來自不同模態(tài)的知識進(jìn)行整合,以建立一個綜合的多模態(tài)知識圖譜。通過將不同模態(tài)中的實體進(jìn)行對齊,并根據(jù)預(yù)定義的關(guān)系建立不同模態(tài)知識之間的關(guān)聯(lián)關(guān)系,從而實現(xiàn)知識的融合,為下游應(yīng)用提供更全面和準(zhǔn)確的支撐。

        5.5 圖譜應(yīng)用

        基于融合后的多模態(tài)知識,可以進(jìn)行跨模態(tài)的知識查找。同時,基于已有的關(guān)聯(lián)關(guān)系,可以識別異常模式,從而對潛在風(fēng)險進(jìn)行預(yù)警。這些都是進(jìn)行知識圖譜質(zhì)量評估的方式,從而提高多模態(tài)知識圖譜的質(zhì)量和可靠性。

        最后,將通過質(zhì)量評估的多模態(tài)知識以圖結(jié)構(gòu)進(jìn)行存儲和部署。通過可視化前端,可以提高多模態(tài)知識圖譜和下游應(yīng)用之間的交互性,從而實現(xiàn)更高效的信息處理和應(yīng)用。

        6 存在的困難與挑戰(zhàn)

        知識圖譜是實現(xiàn)人工智能由感知智能向認(rèn)知智能轉(zhuǎn)變的基石。然而,隨著數(shù)據(jù)對象和交互方式的多樣化,新一代知識圖譜的構(gòu)建也面臨新的機(jī)遇與挑戰(zhàn)。

        a.多模態(tài)語義理解。多模態(tài)語義理解是指將不同模態(tài)的數(shù)據(jù)進(jìn)行融合來獲取豐富、準(zhǔn)確的語義信息。但是,多模態(tài)數(shù)據(jù)之間存在異構(gòu)性。這些異構(gòu)數(shù)據(jù)具有不同的特征和表達(dá)方式,很難直接融合。在文本語義理解任務(wù)中,通常使用基于詞向量的方法來表示文本特征,但這種方法不能直接應(yīng)用于圖像和視頻等其它數(shù)據(jù)模態(tài)的特征提取,所以需要尋找能夠更好地在多模態(tài)數(shù)據(jù)之間進(jìn)行特征提取和融合的方式。此外,視覺檢測領(lǐng)域中的目標(biāo)檢測技術(shù)對圖像信息的識別仍然停留在感知層面[2],主要關(guān)注物體的位置和類別,而對于物體的細(xì)節(jié)和特征表示能力有限,很難實現(xiàn)細(xì)粒度、實例化的圖像識別,導(dǎo)致無法獲取深層的語義信息。所以,如何針對知識圖譜本身及其下游任務(wù),讓模型可以自適應(yīng)地提取有價值的特征,并進(jìn)行高效融合,是進(jìn)行多模態(tài)語義深層理解的關(guān)鍵。

        b.多模態(tài)實體對齊。多模態(tài)實體對齊是指將不同數(shù)據(jù)模態(tài)中的同一實體進(jìn)行匹配和對齊。但是,由于不同模態(tài)數(shù)據(jù)之間存在著語義鴻溝,機(jī)器不能自動識別跨模態(tài)數(shù)據(jù)間是否為同一實體。基于深度學(xué)習(xí)的處理技術(shù)雖然可以對任務(wù)進(jìn)行輔助,但是依賴于大量的人工標(biāo)注數(shù)據(jù)對模型進(jìn)行預(yù)訓(xùn)練,訓(xùn)練過程對計算機(jī)的算力和存儲能力要求較高。所以,如何降低多模態(tài)預(yù)訓(xùn)練模型對人工標(biāo)注數(shù)據(jù)的依賴性,過濾噪音數(shù)據(jù),提高其在實體對齊任務(wù)中的表現(xiàn)是構(gòu)建多模態(tài)知識圖譜的另一個關(guān)鍵。

        c.多模態(tài)知識表示。基于多源、異構(gòu)數(shù)據(jù)的多模態(tài)知識圖譜未來的發(fā)展方向是模態(tài)層次更全面、知識粒度更細(xì)、語義關(guān)聯(lián)更豐富。基于此,傳統(tǒng)的RDF數(shù)據(jù)模型將不能滿足知識的建模和表達(dá),亟需一種符合邏輯規(guī)則,涵蓋多種數(shù)據(jù)結(jié)構(gòu)的多模態(tài)知識表示方法,這是構(gòu)建多模態(tài)知識圖譜的第三個關(guān)鍵。

        7 結(jié) 語

        隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展,社交網(wǎng)絡(luò)輿情呈現(xiàn)出文本、圖像、視頻等多種模態(tài)數(shù)據(jù)共存的現(xiàn)象,不同模態(tài)數(shù)據(jù)之間相互呼應(yīng)和補(bǔ)充。所以,如何將不同模態(tài)的數(shù)據(jù)(如文本、圖像、視頻等)融合在一起,構(gòu)建跨模態(tài)的實體以及語義關(guān)系, 豐富只包含文本數(shù)據(jù)的傳統(tǒng)知識圖譜[5],是亟需解決的重要問題。

        本文在分析通用和領(lǐng)域多模態(tài)知識圖譜研究現(xiàn)狀的基礎(chǔ)上,提出社交網(wǎng)絡(luò)輿情多模態(tài)知識圖譜構(gòu)建框架。在多模態(tài)知識圖譜的構(gòu)建過程中,多模態(tài)數(shù)據(jù)可以從單一數(shù)據(jù)來源中抽取,也可以從多源數(shù)據(jù)中抽取。多模態(tài)數(shù)據(jù)屬于異構(gòu)數(shù)據(jù),所以獲取多模態(tài)知識需要將異構(gòu)數(shù)據(jù)進(jìn)行特征變換和融合。多模態(tài)數(shù)據(jù)的融合方式包括實體屬性關(guān)聯(lián)、圖像(視頻)文字描述、圖像(視頻)屬性、圖像(視頻)關(guān)聯(lián)等?;诖?本文將社交媒體輿情多模態(tài)知識圖譜的構(gòu)建框架分為數(shù)據(jù)獲取、數(shù)據(jù)處理、知識抽取、知識融合和圖譜應(yīng)用五個部分,并進(jìn)一步討論了多模態(tài)知識圖譜構(gòu)建過程中多模態(tài)語義理解、多模態(tài)實體對齊、多模態(tài)知識表示等方面存在的問題和挑戰(zhàn)。

        猜你喜歡
        語義模態(tài)文本
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認(rèn)知范疇模糊與語義模糊
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        全免费a级毛片免费看| 亚洲中文字幕无码不卡电影| 国产精品爽黄69天堂a| 香蕉视频一级| 国产成人夜色在线视频观看| 久久精品国产亚洲av不卡国产| 亚洲av无码国产精品永久一区| 草草网站影院白丝内射| 亚洲中文字幕日产喷水| 97精品熟女少妇一区二区三区| 一本色道久久综合狠狠躁篇| 免费国精产品自偷自偷免费看| 亚洲色AV天天天天天天| 中文字幕亚洲精品专区| 精品九九人人做人人爱| 美女高潮无遮挡免费视频| 久久精品国产亚洲AV高清wy | 男女好痛好深好爽视频一区| 国内揄拍国内精品久久| 日本精品久久久久中文字幕| 亚洲欧美日韩中文无线码| 精品的一区二区三区| 青青草视频在线观看入口| 亚洲性无码一区二区三区| 中文幕无线码中文字蜜桃| 少妇爽到爆视频网站免费| 成人国产精品一区二区八戒网| 蜜桃无码一区二区三区| 国内精品伊人久久久久av| 青青草久久久亚洲一区| 午夜精品久久久久久久| 人人妻人人澡人人爽曰本| 一区二区三区国产97| 日本视频一中文有码中文| 亚洲精品久久久久久久不卡四虎| 98色花堂国产精品首页| 男女后入式在线观看视频| 久久国产成人精品av| 男人和女人高潮免费网站| 自拍视频国产在线观看| 一本大道道久久综合av|