亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模態(tài)信息相關(guān)度計(jì)算的計(jì)算機(jī)教育領(lǐng)域?qū)嶓w鏈接

        2024-01-02 08:35:22王會(huì)勇張曉明
        軟件導(dǎo)刊 2023年12期
        關(guān)鍵詞:三元組圖譜實(shí)體

        郭 沛,王會(huì)勇,張曉明

        (河北科技大學(xué) 信息科學(xué)與工程學(xué)院,河北 石家莊 050018)

        0 引言

        人工智能為教育智能化創(chuàng)造了機(jī)遇,特別是以知識(shí)圖譜為核心的技術(shù),能將學(xué)科中的知識(shí)體系聯(lián)系起來(lái)構(gòu)建知識(shí)圖譜。但在學(xué)科教育中,其知識(shí)體系并不是一成不變的,因此學(xué)科知識(shí)圖譜[1]的更新已成為研究熱點(diǎn)和趨勢(shì),而實(shí)體鏈接作為更新知識(shí)圖譜的關(guān)鍵技術(shù)顯得尤為重要。在計(jì)算機(jī)學(xué)科領(lǐng)域,將與概念有關(guān)的圖片關(guān)聯(lián)到知識(shí)圖譜對(duì)應(yīng)實(shí)體上,可增強(qiáng)知識(shí)圖譜的表達(dá)性,提高知識(shí)圖譜[2]可用性。

        目前,實(shí)體鏈接方法主要是針對(duì)文本和視覺(jué)兩種模態(tài)。特定領(lǐng)域中,一些實(shí)體含義需要通過(guò)上下文語(yǔ)義確定,一詞多義或多詞一義等現(xiàn)象比較普遍[3],因而一些由單詞拼接的領(lǐng)域?qū)嶓w較難識(shí)別,故僅使用文本的實(shí)體鏈接有一定局限性。多模態(tài)實(shí)體鏈接則是結(jié)合多種模態(tài)信息完成鏈接,多模態(tài)知識(shí)表示學(xué)習(xí)[4]則將圖像特征和文本特征一起嵌入到統(tǒng)一低維空間[5-7],計(jì)算實(shí)體之間的相似性以尋找最佳鏈接點(diǎn)。但在多模態(tài)知識(shí)表示學(xué)習(xí)的訓(xùn)練過(guò)程中,能夠?qū)崿F(xiàn)對(duì)齊的多模態(tài)實(shí)體全部用人工標(biāo)注,會(huì)造成巨大的浪費(fèi)[7]。Zhang 等[8]設(shè)計(jì)了一個(gè)兩階段機(jī)制,首先確定圖像和文本之間的關(guān)系,以消除噪聲圖像的負(fù)面影響,然后執(zhí)行消歧。Gan 等[9]分別消除了視覺(jué)提及和文本提及的歧義,然后使用圖形匹配探索模式、提及之間的可能關(guān)系。但這些模型泛化能力和其應(yīng)用數(shù)據(jù)集中的實(shí)體類(lèi)型都比較受限。

        本文面向計(jì)算機(jī)學(xué)科領(lǐng)域提出一種實(shí)體鏈接方法,將圖像及其文本描述分別轉(zhuǎn)化成圖像視覺(jué)實(shí)體和三元組以幫助圖像完成鏈接。圖像和文本屬于兩種不同的模態(tài),如何有效地將兩者結(jié)合以完成實(shí)體鏈接是一項(xiàng)關(guān)鍵挑戰(zhàn)。本文主要貢獻(xiàn)如下:①面向計(jì)算機(jī)學(xué)科領(lǐng)域提出一種從圖像的文本描述中提取并篩選三元組的策略,先抽取圖像文本描述中的三元組,過(guò)濾低置信度的三元組,再通過(guò)計(jì)算圖像視覺(jué)實(shí)體和三元組頭尾實(shí)體的相關(guān)度之和對(duì)集合中的三元組進(jìn)行排序,最后得到與圖像相關(guān)度最強(qiáng)的三元組,用于圖像鏈接到多模態(tài)知識(shí)圖譜后的擴(kuò)展任務(wù);②面向計(jì)算機(jī)學(xué)科領(lǐng)域提出一種實(shí)體鏈接規(guī)則(Visual Entity Linking Rules,VELR),該規(guī)則依次利用圖像視覺(jué)實(shí)體、與圖像視覺(jué)實(shí)體相關(guān)度最強(qiáng)三元組中的頭或尾實(shí)體以尋找最佳鏈接點(diǎn);找到鏈接點(diǎn)之后,利用不同的鏈接策略,通過(guò)圖像視覺(jué)實(shí)體替換與圖像相關(guān)度最強(qiáng)的三元組中頭或尾實(shí)體形成的新三元組,對(duì)鏈接后的圖像或文本進(jìn)行擴(kuò)展。

        1 相關(guān)工作

        早在2013 年,Chen 等[10]手動(dòng)框出圖像中的實(shí)體并打上標(biāo)簽,通過(guò)標(biāo)簽內(nèi)容完成鏈接。但是人工注釋成本不僅高,而且會(huì)造成巨大的人力物力浪費(fèi)[11]。因此,Alberts等[12]直接計(jì)算輸入圖像和多模態(tài)知識(shí)圖譜中所有圖像的余弦相似性,將相似度最高節(jié)點(diǎn)作為其最佳鏈接點(diǎn)。但是單模態(tài)下,該方法有一定局限性,如信息量少、語(yǔ)義不夠豐富等,會(huì)影響最終鏈接效果。

        多模態(tài)實(shí)體鏈接則聚合了多模態(tài)信息。Moon 等[13]首先解決多模態(tài)實(shí)體鏈接任務(wù),他們?cè)谏缃幻襟w帖子中提取實(shí)體鏈接的文本、視覺(jué)和詞匯信息,并利用社交平臺(tái)上文字所附照片提供視覺(jué)背景輔助消歧。Wang 等[14]提出一個(gè)多模態(tài)實(shí)體鏈接數(shù)據(jù)集WIKIDiverse,并基于WIKIDiverse實(shí)現(xiàn)了一系列具有模態(tài)內(nèi)和模態(tài)間注意力的多模態(tài)實(shí)體鏈接模型。Gan 等[9]則重新定義了多模態(tài)實(shí)體鏈接,先分別做文本和視覺(jué)實(shí)體鏈接,之后將文本提及和視覺(jué)提及的對(duì)齊建模為二部圖匹配問(wèn)題以完成多模態(tài)聯(lián)合消歧。但這些多模態(tài)實(shí)體鏈接方法是基于自己數(shù)據(jù)集而提出,應(yīng)用到特定領(lǐng)域的效果可能并不理想。還有在多模態(tài)實(shí)體鏈接中利用聯(lián)合知識(shí)表示學(xué)習(xí)[15-16],將其轉(zhuǎn)化為向量平移問(wèn)題。由于圖像和文本是不同屬性的對(duì)象,需要通過(guò)矩陣乘法嵌入統(tǒng)一空間,因此計(jì)算量較大。Li等[17]先確定圖像中的實(shí)體,然后在Web 上檢索實(shí)體的鏈接,最后通過(guò)鏈接中的實(shí)體在知識(shí)圖譜中檢索圖像的鏈接點(diǎn)。檢測(cè)文本中的實(shí)體依賴(lài)于領(lǐng)域性詞典的完整性,因而這些方法很難應(yīng)用或遷移到計(jì)算機(jī)學(xué)科領(lǐng)域。

        為了找到一種適用于計(jì)算機(jī)學(xué)科領(lǐng)域、計(jì)算量小且不需要大量標(biāo)注數(shù)據(jù)的多模態(tài)實(shí)體鏈接方法,本文基于Li等[17]的思想,將圖像和文本描述相結(jié)合,面向計(jì)算機(jī)學(xué)科領(lǐng)域提出一種簡(jiǎn)單有效的實(shí)體鏈接方法。與上述所有方法不同的是,對(duì)圖像和其文本描述分別進(jìn)行處理,首先識(shí)別出圖像中的視覺(jué)實(shí)體,并將其文本描述處理成實(shí)體和關(guān)系較為明確的結(jié)構(gòu)化三元組,最后按照提出的實(shí)體鏈接規(guī)則完成最后的鏈接和擴(kuò)展。

        2 問(wèn)題描述與概念定義

        圖1 為任務(wù)描述圖,將其分為3 個(gè)步驟:①輸入:圖像及其文本描述;②圖文處理:檢測(cè)圖像視覺(jué)實(shí)體,提取并篩選文本描述中的三元組;③完成鏈接:將圖像鏈接到知識(shí)圖譜中,并利用視覺(jué)實(shí)體和三元組對(duì)圖像進(jìn)行擴(kuò)展。

        Fig.1 Task description圖1 任務(wù)描述

        對(duì)本文需要用到的概念和符號(hào)進(jìn)行定義如下:

        定義1多模態(tài)知識(shí)圖譜。根據(jù)Zhu 等[18]思想將多模態(tài)知識(shí)圖譜定義為G,G={E,R,A,V,T},其中E、R、A、V是實(shí)體、關(guān)系、屬性和屬性的集合,T為三元組集合。

        定義2待鏈接圖像、圖像的文本描述和待鏈接三元組。待鏈接圖像是要鏈接到G 中的圖像,用p表示。ep表示p的視覺(jué)實(shí)體。m表示圖像文本描述,ImgDesTriple表示從m中抽取的三元組集合。表示待鏈接三元組,是ImgDesTriple中與圖像視覺(jué)實(shí)體相關(guān)度最高的。

        定義3最佳鏈接點(diǎn)。實(shí)體鏈接的目標(biāo)是將文本中的實(shí)體提及指向知識(shí)庫(kù)中的特定實(shí)體,定義這個(gè)特定實(shí)體是實(shí)體提及的最佳鏈接點(diǎn)。

        根據(jù)所定義的概念和符號(hào)將問(wèn)題的形式化表述為式(1),其中f函數(shù)表示根據(jù)p和m返回一個(gè)找到最佳鏈接點(diǎn)且包含圖像的三元組,整體含義為在多模態(tài)知識(shí)圖譜G的三元組集合T中增加了一條新三元組,T發(fā)生了變化。

        3 視覺(jué)實(shí)體鏈接

        3.1 系統(tǒng)總體架構(gòu)

        圖2 為系統(tǒng)總體架構(gòu)圖,用戶(hù)輸入待鏈接圖像及其文本描述,首先通過(guò)檢測(cè)圖像中的視覺(jué)實(shí)體并從文本描述中提取并篩選出待鏈接三元組,然后根據(jù)領(lǐng)域特性設(shè)計(jì)實(shí)體鏈接規(guī)則,最后將圖像視覺(jué)實(shí)體和待鏈接三元組鏈接到知識(shí)庫(kù)中。

        Fig.2 Overall system architecture圖2 系統(tǒng)總體架構(gòu)

        3.2 總體方法描述

        總體方法描述如圖3所示。

        Fig.3 Overall approach description圖3 總體方法描述

        Step1:p和m的信息抽取。利用YOLOV5 檢測(cè)p中的視覺(jué)實(shí)體ep,抽取并篩選m中的三元組,確定一個(gè)置信度高且與ep相關(guān)度最高的三元組

        Step2:首先計(jì)算ep和頭尾實(shí)體相關(guān)度。當(dāng)ep和頭實(shí)體相關(guān)度最高,ep將其替換,形成;當(dāng)ep和尾實(shí)體相關(guān)度最高時(shí),亦如此。

        Step3:用ep在G 中尋找p的最佳鏈接點(diǎn),如果找到,則將ep替換為p;如果沒(méi)有找到ep的最佳鏈接點(diǎn),則用待鏈接三元組中hs或ts尋找最佳鏈接點(diǎn),如果找到,p與待鏈接三元組一起鏈接,p作為ep的屬性值。

        3.2.1 圖像及其文本處理

        視覺(jué)實(shí)體識(shí)別是對(duì)用戶(hù)輸入圖像中的實(shí)體進(jìn)行識(shí)別,利用YOLOV5 訓(xùn)練計(jì)算機(jī)學(xué)科領(lǐng)域的視覺(jué)實(shí)體識(shí)別模型,數(shù)據(jù)集使用CE-Detection。YOLOV5 對(duì)圖像的視覺(jué)實(shí)體識(shí)別結(jié)果如表1所示。

        Table 1 Visual entity recognition results of images表1 圖像的視覺(jué)實(shí)體識(shí)別結(jié)果

        為了獲得準(zhǔn)確且與圖像相關(guān)度較高的三元組,針對(duì)計(jì)算機(jī)學(xué)科領(lǐng)域設(shè)計(jì)了一種從圖像文本抽取并篩選三元組的規(guī)則。

        (1)過(guò)濾低置信度的三元組。用OpenIE[19]、OLLIE[20]工具對(duì)圖像文本進(jìn)行抽取,得到兩個(gè)三元組集合Open(h,r,t)和Oll(h,r,t)中。如式(2)所示,一個(gè)三元組同時(shí)存在于兩個(gè)集合中,則存放在ImgDesTriple,取兩個(gè)集合的平均置信度作為三元組新置信度。其余三元組合并到ImgDesTriple,選取一個(gè)置信度閾值對(duì)ImgDesTriple中的三元組進(jìn)行篩選,過(guò)濾低于閾值的三元組。

        (2)利用圖像視覺(jué)實(shí)體對(duì)過(guò)濾后ImgDesTriple中的三元組進(jìn)行排序。在計(jì)算機(jī)學(xué)科領(lǐng)域中,許多術(shù)語(yǔ)實(shí)體是由詞綴拼接而成[21],但基于字符串相似性的特征有局限性,沒(méi)有考慮實(shí)體間結(jié)構(gòu)語(yǔ)義相似性,因此基于WML 模型[22]計(jì)算三元組中的實(shí)體和ep語(yǔ)義相關(guān)度r(ep,a),利用SMOA算法[23]的Comm方法計(jì)算三元組中的實(shí)體和ep字符串相似度Comm(ep,a),再采用張曉明等[21]實(shí)體過(guò)濾的思想將基于結(jié)構(gòu)的語(yǔ)義相關(guān)度r(ep,a)和基于字符串的相似度Comm(ep,a)相加作為ep和a的相關(guān)度Sim。最后由本文提出的式(6)計(jì)算ep和ImgDesTriple中三元組相關(guān)度。

        式(3)中,I、J 分別是鏈接到候選實(shí)體ep和a的維基百科的超鏈接集合,W 是維基百科中實(shí)體的集合,r(ep,a)表示兩個(gè)實(shí)體間的相關(guān)度。式(4)中,分子為兩個(gè)字符串的最大公共子串的兩倍,分母為兩個(gè)字符串的長(zhǎng)度之和。式(5)中,Sim(ep,a)表示ep與實(shí)體a之間相關(guān)度。式(6)中,h、t分別表示三元組中頭、尾實(shí)體,Reltation(ep,)表示ep和三元組的相關(guān)度。

        將ImgDesTriple中三元組按此相關(guān)度為依據(jù)由大到小排序,與視覺(jué)實(shí)體相關(guān)度最高的三元組為。如式(7)所示,RelationFirst(x,)用式(6)計(jì)算得x與相關(guān)度最高,IsSpecific(,)表示這個(gè)特殊的。

        3.2.2 計(jì)算機(jī)學(xué)科領(lǐng)域?qū)嶓w鏈接規(guī)則

        VELR 中將ep和作為輸入,利用TALN[24]方法在G 中尋找ep或hs,ts的最佳鏈接點(diǎn)。TALN 中基于Babel-Net 的SENSEMBED 模型[25]將其轉(zhuǎn)化為向量,尋找候選實(shí)體集C。本文選其RunHeads映射在C 中尋找最佳鏈接點(diǎn)。

        Rule 1視覺(jué)實(shí)體鏈接規(guī)則。利用ep尋找最佳鏈接點(diǎn),首先計(jì)算ep和中頭尾實(shí)體的相關(guān)度,替換相關(guān)度最高的實(shí)體。由于尾實(shí)體的鏈接方法相同,因而用ep替換hs的鏈接過(guò)程加以說(shuō)明。如圖4 所示,在候選實(shí)體集C中找到ep的最佳鏈接點(diǎn)ei,ep替換成與其相關(guān)度最高的hs形成三元組,鏈接時(shí)將ep換成p。p作為ei的屬性值,關(guān)系為hasImage。公式表達(dá)如下:

        Fig.4 Visual entity link extension rules圖4 視覺(jué)實(shí)體鏈接擴(kuò)展規(guī)則

        式(8)中,isVisualEntity(ep,p)表示ep是p的視覺(jué)實(shí)體,beLinkTriple()表示是待鏈接三元組,SimMax(x,y)表示式(5)計(jì)算的x和y相關(guān)度最高,Run-HeadsMapfromC(x,y)表示TALN 中RunHeads 映射在候選實(shí)體集C 中找到x的鏈接點(diǎn)y。

        如圖5 所示,輸入圖像及其文本描述,首先通過(guò)領(lǐng)域?qū)嶓w識(shí)別得到圖像視覺(jué)實(shí)體‘AVL tree’,提取文本描述中的三元組,篩選排序得到與視覺(jué)實(shí)體相關(guān)度排名最高的三元組,然后利用視覺(jué)實(shí)體在知識(shí)庫(kù)中找到其最佳鏈接點(diǎn)‘AVL tree’,最后圖像替換三元組中與視覺(jué)實(shí)體相關(guān)度最高的頭實(shí)體bintree,形成新的三元組鏈接到知識(shí)庫(kù)中。

        Fig.5 An example of rule 1圖5 Rule 1實(shí)例

        Rule 2待鏈接三元組頭尾實(shí)體鏈接規(guī)則。是頭、尾實(shí)體與ep相關(guān)度之和篩選的,ep在G 中找不到最佳鏈接點(diǎn),則與它相關(guān)度最高的頭或尾實(shí)體可能也找不到,故利用與ep相關(guān)度不高的另一個(gè)實(shí)體進(jìn)行尋找。由于尾實(shí)體鏈接過(guò)程相同,因此用尾實(shí)體鏈接加以說(shuō)明:

        如圖6 所示,當(dāng)ep在G 中無(wú)法找到最佳鏈接點(diǎn),并且中hs和ep相關(guān)度最高,因而用中的ts在G中尋找最佳鏈接點(diǎn)ei。ep替換hs形成三元組,鏈接到ei上,p為ep的屬性值,關(guān)系為hasImage。公式表達(dá)如下:

        Fig.6 Tail entity link圖6 尾實(shí)體鏈接

        式(10)表示ep在G中沒(méi)有找到最佳鏈接點(diǎn),且ep與三元組中的頭實(shí)體hs相似度最高,此時(shí)ep替換hs,用ts尋找最佳鏈接點(diǎn)鏈接。式(11)表示ep在G中沒(méi)有找到最佳鏈接點(diǎn),且ep與三元組中的尾實(shí)體ts相似度最高,此時(shí)ep替換ts,用hs尋找最佳鏈接點(diǎn)鏈接。

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 數(shù)據(jù)集構(gòu)建

        實(shí)驗(yàn)中構(gòu)建了一個(gè)包含圖像和圖像標(biāo)簽的數(shù)據(jù)集CE-Detection,用于計(jì)算機(jī)學(xué)科領(lǐng)域的圖像實(shí)體識(shí)別。CE-Detection 中12 個(gè)類(lèi)別的圖像來(lái)自于CSDQA[26],由計(jì)算機(jī)相關(guān)專(zhuān)業(yè)的研究生手動(dòng)繪制邊界框并打上標(biāo)簽,確保標(biāo)簽內(nèi)容的一致性,其中80%作為訓(xùn)練集,20%作為驗(yàn)證集。同時(shí),構(gòu)建了一個(gè)包含圖像和文本的多模態(tài)數(shù)據(jù)集CS-IMG,該數(shù)據(jù)集中的圖像來(lái)自于CSDQA[26]和Wikipedia,文本包括圖像的文本描述和圖像中實(shí)體對(duì)應(yīng)的文本。CSDQA 中圖像的文本由5 名計(jì)算機(jī)專(zhuān)業(yè)研究生根據(jù)CSDQA 中的圖像內(nèi)容和相應(yīng)的圖像問(wèn)答對(duì)進(jìn)行總結(jié)得到,從Wikipedia 上搜集的圖像的文本也是由5 名計(jì)算機(jī)專(zhuān)業(yè)研究生根據(jù)圖像所在網(wǎng)頁(yè)中的文字信息總結(jié)而來(lái)。表2 為使用數(shù)據(jù)集的信息,CMMKG 是課題組Zhang 等[21]利用領(lǐng)域?qū)嶓w抽取方法構(gòu)建的計(jì)算機(jī)學(xué)科領(lǐng)域多模態(tài)知識(shí)圖譜。本文的任務(wù)是在CMMKG 中完成實(shí)體鏈接。

        Table 2 Data sets表2 數(shù)據(jù)集

        4.2 計(jì)算機(jī)領(lǐng)域圖像實(shí)體識(shí)別

        4.2.1 評(píng)價(jià)標(biāo)準(zhǔn)

        驗(yàn)證YOLOV5 在計(jì)算機(jī)學(xué)科領(lǐng)域中圖像視覺(jué)實(shí)體的識(shí)別效果,選擇COCO128 數(shù)據(jù)集作為對(duì)比。實(shí)驗(yàn)的評(píng)測(cè)指標(biāo)為P、R、mAP@0.5 和mAP@0.5:.95。mAP@0.5 表示將IoU 設(shè)為0.5 時(shí),每個(gè)類(lèi)所有圖片AP 的平均值。mAP@0.5:.95 表示在不同IoU 閾值(從0.5 到0.95,步長(zhǎng)為0.05)上的平均mAP。

        4.2.2 實(shí)驗(yàn)結(jié)果與分析

        表3 中,本文隨機(jī)從CE-Detection 中選取了6 個(gè)類(lèi)別進(jìn)行實(shí)驗(yàn),Images 列代表每個(gè)類(lèi)別圖像的總數(shù)。12 種圖像的P和R均在0.8 以上,且在每個(gè)值上的表現(xiàn)都與COCO128 相差不大,可以證明YOLOV5 在CE-Detection 上有良好表現(xiàn),可用于計(jì)算機(jī)學(xué)科領(lǐng)域中圖像視覺(jué)實(shí)體識(shí)別。

        Table 3 Entity recognition results in images表3 圖像中實(shí)體識(shí)別結(jié)果

        4.3 三元組置信度閾值選擇

        4.3.1 評(píng)價(jià)依據(jù)

        隨機(jī)選取500條圖像的文本描述,按照3.2節(jié)所述方法加以處理,得到3 000 條三元組存放在TotalTriple集合中。將TotalTriple中的三元組隨機(jī)平均分成3 組,設(shè)置不同的閾值并篩選,觀(guān)察剩余三元組數(shù)量平均占比和閾值之間的關(guān)系。

        4.3.2 結(jié)果與分析

        如圖7 所示,圖中實(shí)線(xiàn)表示隨著置信度閾值的增加剩余三元組的數(shù)量占比也在下降,虛線(xiàn)則為實(shí)線(xiàn)的趨勢(shì)線(xiàn)。從兩條線(xiàn)的趨勢(shì)看,當(dāng)閾值增加時(shí),集合中剩余的三元組數(shù)量在減少,這是因?yàn)槿M的置信度反映的是三元組的準(zhǔn)確率,置信度越高,三元組的準(zhǔn)確率越高,但置信度越高,集合中剩余的三元組數(shù)量會(huì)越少。當(dāng)閾值大于0.79時(shí),集合中三元組的數(shù)量減少迅速。但是當(dāng)閾值選擇0.95時(shí),與0.79 相比相差10%左右。因此,可以選擇0.79 以上的置信度閾值對(duì)三元組進(jìn)行篩選。

        Fig.7 Threshold selection圖7 閾值選擇

        應(yīng)確保每個(gè)圖像的ImgDesTriple中至少剩余兩個(gè)三元組。選0.79 以上的閾值對(duì)ImgDesTriple,觀(guān)察集合中剩余三元組,統(tǒng)計(jì)500 組圖像的ImgDesTriple中剩余三元組的數(shù)量。

        如表4 所示,當(dāng)閾值選擇在0.85 及以下時(shí),500 組圖像的ImgDesTriple中沒(méi)有出現(xiàn)少于兩個(gè)三元組的集合。當(dāng)閾值為0.87 時(shí),有10%圖像的ImgDesTriple集合中會(huì)少于2個(gè)三元組,不符合設(shè)定的篩選規(guī)則,因此最終將閾值限定為0.85。

        Table 4 The proportion of the set of different remaining triples to the total表4 剩余不同數(shù)量三元組的集合占總數(shù)的比例(%)

        4.4 實(shí)體鏈接

        4.4.1 評(píng)價(jià)標(biāo)準(zhǔn)

        TALN[24]和VCU[27]是在小規(guī)模知識(shí)圖譜融合中表現(xiàn)很好的系統(tǒng),具有較高的召回率,選擇VCU 作為T(mén)ALN 的對(duì)比實(shí)驗(yàn),測(cè)試兩個(gè)系統(tǒng)在計(jì)算機(jī)學(xué)科領(lǐng)域中尋找實(shí)體提及最佳鏈接點(diǎn)的性能。數(shù)據(jù)集選擇CMMKG 和CS-IMG 中除圖像外的全部數(shù)據(jù),隨機(jī)分成訓(xùn)練集和測(cè)試集。評(píng)價(jià)指標(biāo)為WuP、R、F1。WuP 為相似度度量,用來(lái)計(jì)算兩個(gè)詞的語(yǔ)義相似度。式(12)中,s1、s2表示兩個(gè)詞,lcs表示連接s1和s2的最短路徑。

        4.4.2 結(jié)果與分析

        由表5實(shí)驗(yàn)結(jié)果可知,TALN 的R和F1值均比VCU 高,可能是因?yàn)閂CU 在閾值的設(shè)定上有些不足,低于設(shè)定閾值即為下位詞,這就導(dǎo)致一些分?jǐn)?shù)極低的噪聲插入圖譜。雖然TALN 和VCU 中以實(shí)體、其詞性和文本描述作為輸入,但是TALN 將實(shí)體和其所有輸入轉(zhuǎn)化成向量之后,更多的考慮了句法、詞性和短語(yǔ)之間的聯(lián)系。而TALN-RunHeads的WuP 值更高,說(shuō)明在計(jì)算機(jī)學(xué)科領(lǐng)域中TALN-Run-Heads映射方法相對(duì)表現(xiàn)更好。

        Table 5 The results of two model test表5 兩個(gè)模型測(cè)試的結(jié)果

        4.5 三元組分類(lèi)任務(wù)評(píng)測(cè)實(shí)體鏈接規(guī)則

        4.5.1 評(píng)價(jià)標(biāo)準(zhǔn)

        為了驗(yàn)證在鏈接過(guò)程中是否出現(xiàn)噪聲,使用三元組分類(lèi)任務(wù)對(duì)結(jié)果進(jìn)行評(píng)測(cè)。三元組分類(lèi)任務(wù)目的是判定三元組(h,r,t)是否正確,其本質(zhì)是一個(gè)二分類(lèi)的任務(wù)。實(shí)驗(yàn)采用張曉明等[28]提出的可信度得分,通過(guò)其定義公式(13)和公式(14)計(jì)算能量函數(shù)后轉(zhuǎn)化為三元組的可信度得分,得到[0,1]區(qū)間的數(shù)值作為其可信度得分,0.5 以上的分?jǐn)?shù)被分為正確三元組。式(13)中,E(h,r,t)表示能量函數(shù);R(h,t)表示實(shí)體之間關(guān)聯(lián)強(qiáng)度;T(h,r,t)表示實(shí)體類(lèi)型評(píng)估結(jié)果;RRP(h,r,t)表示基于多步路徑信息計(jì)算的結(jié)果;λ1、λ2為超參數(shù)。

        向數(shù)據(jù)集CMMKG 中添加VELR 規(guī)則產(chǎn)生的0,100,300個(gè)三元組,分別表示為CMMKG、CMMKG-100、CMMKG-300。采用PTransE[29]、CKRL[30]、TransE[31]模型對(duì)進(jìn)行三元組分類(lèi)實(shí)驗(yàn)。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果,驗(yàn)證添加的三元組中是否存在噪聲以及是否會(huì)對(duì)整體準(zhǔn)確率產(chǎn)生影響。

        在此之前,需驗(yàn)證在三元組中摻雜噪聲會(huì)對(duì)分類(lèi)準(zhǔn)確率的影響有多大。在CMMKG-100 和CMMKG-300 的訓(xùn)練集中加入噪聲,其中噪聲比分別設(shè)置為新增數(shù)據(jù)的10%、30%、50%。

        4.5.2 結(jié)果與分析

        如表6 所示,當(dāng)在CMMKG-100 和CMMKG-300 加入10%噪聲時(shí),分類(lèi)準(zhǔn)確率沒(méi)有變化。說(shuō)明3 個(gè)模型在分類(lèi)任務(wù)上存在少量噪聲可能不會(huì)影響整體分類(lèi)準(zhǔn)確率。但是,當(dāng)加入30%噪聲和50%噪聲時(shí),準(zhǔn)確率都略有下降。這說(shuō)明隨著噪聲的增加,3 個(gè)模型在分類(lèi)的準(zhǔn)確率上會(huì)有所下降,同樣也證明了3 個(gè)模型在檢測(cè)噪聲方面有一定的能力和適用性。

        Table 6 Classification results of adding noise to CMMGG-100 and CMMGG-300表6 在CMMKG-100和 CMMKG-300中加入噪聲的分類(lèi)結(jié)果

        如表7 所示,CKRL 在三元組分類(lèi)任務(wù)上的表現(xiàn)最好,是因?yàn)镃KRL 中路徑信息的使用方法優(yōu)于PTransE,而TransE 在學(xué)習(xí)過(guò)程中沒(méi)有用到路徑之間的關(guān)系。但是3個(gè)模型對(duì)加入100 三元組的數(shù)據(jù)集進(jìn)行三元組分類(lèi)實(shí)驗(yàn),準(zhǔn)確率沒(méi)有變化,可能是因?yàn)樯倭康臄?shù)據(jù)變化不會(huì)影響3 個(gè)模型分類(lèi)的準(zhǔn)確率,該結(jié)論在上述實(shí)驗(yàn)中也被證明。而PTransE 和CKRL 在加入300 個(gè)后準(zhǔn)確率會(huì)提高0.1,是因?yàn)镻TransE 和CKRL 在分類(lèi)時(shí)采用了知識(shí)庫(kù)中豐富的內(nèi)部結(jié)構(gòu)信息,在加入較多三元組后路徑會(huì)更豐富,因此準(zhǔn)確率也相應(yīng)提高。由以上結(jié)論可以證明,使用提出的鏈接方法增加新三元組對(duì)整體三元組分類(lèi)的準(zhǔn)確性沒(méi)有影響,從側(cè)面證明本文方法的有效性。

        Table 7 Triplet classification results表7 三元組分類(lèi)結(jié)果

        選取由Sun 等[32]提出的視覺(jué)實(shí)體鏈接模型中的一個(gè)子任務(wù):視覺(jué)到視覺(jué)實(shí)體的鏈接(Visual to Visual Entity Linking,V2VEL)作為基線(xiàn)模型。在與上述實(shí)驗(yàn)相同的數(shù)據(jù)集和相同實(shí)驗(yàn)設(shè)置下,用V2VEL 完成圖像到CMMKG 的鏈接,之后用三元組分類(lèi)任務(wù)對(duì)結(jié)果進(jìn)行評(píng)測(cè)并與本文方法進(jìn)行比較。

        如表8 所示,本文所提方法在計(jì)算學(xué)科領(lǐng)域的實(shí)體鏈接表現(xiàn)結(jié)果比Baseline-V2VEL 好??赡苁且?yàn)閂2VEL 中僅用圖像視覺(jué)特征鏈接,此時(shí)會(huì)出現(xiàn)找不到最佳鏈接點(diǎn)或者最佳鏈接點(diǎn)與其相關(guān)性低的問(wèn)題,進(jìn)而影響鏈接準(zhǔn)確性。而本文方法考慮到該情況,為不同鏈接點(diǎn)設(shè)置了不同的鏈接規(guī)則,提高了鏈接準(zhǔn)確率。還可能是因?yàn)閂2VEL更專(zhuān)注于視覺(jué)人物數(shù)據(jù)集,面對(duì)計(jì)算機(jī)學(xué)科領(lǐng)域中一些概念性的圖像時(shí),視覺(jué)特征提取效果不好從而導(dǎo)致視覺(jué)實(shí)體鏈接效果表現(xiàn)不佳。由此結(jié)論表明,本文所提方法更適用于計(jì)算機(jī)學(xué)科領(lǐng)多模態(tài)實(shí)體鏈接。

        Table 8 Method comparison表8 方法比較

        4.6 結(jié)果展示

        如圖8 所示,虛線(xiàn)框?qū)?yīng)VELR 規(guī)則中的Rule 1、Rule 2。Rule 1中,AVL tree 的圖像鏈接到對(duì)應(yīng)實(shí)體,擴(kuò)展了balancing search tree 實(shí)體。在Rule 2 中,實(shí)體ordered sequence鏈接到知識(shí)圖譜中的實(shí)體Array,圖像作為ordered sequence的屬性值。

        Fig.8 Results presentation圖8 結(jié)果展示

        5 結(jié)語(yǔ)

        面向計(jì)算機(jī)學(xué)科領(lǐng)域提出了一種視覺(jué)實(shí)體鏈接規(guī)則VELR。在理論價(jià)值方面,為特定領(lǐng)域的實(shí)體鏈接提供了一種新思路。首先識(shí)別出圖像中的實(shí)體,然后對(duì)其文本描述進(jìn)行抽取篩選,最后利用提出的VELR 完成圖像鏈接和知識(shí)擴(kuò)展。對(duì)鏈接后產(chǎn)生的新知識(shí)進(jìn)行評(píng)測(cè),實(shí)驗(yàn)結(jié)果表明,通過(guò)對(duì)比有無(wú)噪音實(shí)驗(yàn)結(jié)果,證明了VELR 的有效性。在應(yīng)用價(jià)值方面,VELR 對(duì)計(jì)算機(jī)學(xué)科領(lǐng)域知識(shí)圖譜的更新和演化提供了一種新的有效方法,提高了計(jì)算機(jī)學(xué)科領(lǐng)域知識(shí)圖譜的可用性,對(duì)其他學(xué)科領(lǐng)域也具有借鑒意義。

        識(shí)別圖像視覺(jué)實(shí)體時(shí),YOLOV5 雖是一個(gè)準(zhǔn)確的輕量模型,但模型對(duì)標(biāo)注數(shù)據(jù)有依賴(lài)性,使其可能不具有泛化能力。為了解決該問(wèn)題,后續(xù)工作將從如下幾點(diǎn)入手:①?lài)L試融合多種目標(biāo)檢測(cè)模型,使其能識(shí)別多類(lèi)別圖像,增加模型泛化能力;②研究更加高效的圖像視覺(jué)實(shí)體識(shí)別模型,嘗試結(jié)合圖像文本描述準(zhǔn)確定位圖像中的目標(biāo)實(shí)體,提高目標(biāo)檢測(cè)精度,降低目標(biāo)檢測(cè)任務(wù)復(fù)雜性;③考慮包含多實(shí)體圖像的鏈接規(guī)則,增加多模態(tài)實(shí)體鏈接系統(tǒng)的功能。

        猜你喜歡
        三元組圖譜實(shí)體
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        關(guān)于余撓三元組的periodic-模
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        性色av无码一区二区三区人妻 | 在线精品首页中文字幕亚洲| 国产精品福利一区二区| 国产精品无码专区av在线播放| 综合久久给合久久狠狠狠97色| 狼色在线精品影视免费播放| 日本人妻三级在线观看| 久久亚洲国产精品五月天| 亚洲精品一区二区三区蜜臀| 国产亚洲熟妇在线视频| 亚洲妇熟xxxx妇色黄| 成人亚洲精品777777| 大肉大捧一进一出好爽视色大师| 亚洲欧洲久久久精品| 日本高清长片一区二区| 福利利视频在线观看免费| 无码人妻一区二区三区在线| 波多野结衣av手机在线观看 | 亚洲黄片久久| 国产精品自拍视频在线| 国产自国产自愉自愉免费24区 | 欧美mv日韩mv国产网站 | 成熟丰满熟妇高潮xxxxx视频| 日韩国产成人精品视频| 女同中文字幕在线观看| 一区二区三区人妻av| 亚洲va国产va天堂va久久| 国产乱沈阳女人高潮乱叫老| 国产综合一区二区三区av | 日本激情视频一区在线观看| 人妻精品久久一区二区三区| 久久久久国产精品| 无码av免费精品一区二区三区| 日本岛国大片不卡人妻| 欧美视频九九一区二区 | 成人av一区二区亚洲精| 一区二区三区中文字幕p站| 女人被狂躁到高潮视频免费网站| 欧美日韩亚洲一区二区精品| 一区二区三区视频免费观看在线| 午夜秒播久久精品麻豆|