亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        混合負(fù)采樣的知識(shí)圖譜嵌入

        2023-09-14 09:32:00奚超亮冷泳林
        關(guān)鍵詞:模型

        奚超亮,冷泳林

        (渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121000)

        0 引 言

        知識(shí)圖譜采用有向圖的方式描述客觀世界概念、實(shí)體及其關(guān)系。知識(shí)圖譜技術(shù)作為人工智能三大主要技術(shù)之一,在2012年由谷歌公司提出,但其知識(shí)的描述和表示方法可以追溯到1960年的語義網(wǎng),經(jīng)過一系列演變,形成今天的知識(shí)圖譜。目前,一些有代表性的知識(shí)圖譜如Freebase[1]、OpenKN[2]、Wordnet[3]、Probase[4]等從大量數(shù)據(jù)資源中抽取、組織和管理知識(shí),為個(gè)性化推薦[5]、智能搜索與回答、內(nèi)容分發(fā)提供強(qiáng)有力的知識(shí)支撐,推動(dòng)人工智能各應(yīng)用領(lǐng)域的快速發(fā)展。

        隨著知識(shí)圖譜規(guī)模的不斷擴(kuò)大,知識(shí)圖譜中的不完整數(shù)據(jù)也在增加,導(dǎo)致知識(shí)圖譜質(zhì)量不斷下降。知識(shí)圖譜的自動(dòng)補(bǔ)全技術(shù)是提高知識(shí)圖譜質(zhì)量的一種有效手段。近年來,知識(shí)圖譜利用自然語言的表示學(xué)習(xí)技術(shù)將實(shí)體關(guān)系映射到低維稠密向量空間,實(shí)現(xiàn)了知識(shí)的表示學(xué)習(xí)[6],推動(dòng)了知識(shí)圖譜補(bǔ)全及鏈路預(yù)測技術(shù)的發(fā)展。其中,以TransE[7]為主的翻譯模型最為普遍,TransE模型通過設(shè)置全局帶參得分函數(shù)來定義實(shí)體與關(guān)系之間的嵌入表示,并且基于邊界的訓(xùn)練目標(biāo)來懲罰負(fù)樣本,最終將知識(shí)庫中的實(shí)體和關(guān)系映射到低維向量空間。此類知識(shí)圖譜嵌入表示模型存在一個(gè)共性問題,原因是基于隨機(jī)抽取的負(fù)采樣方式不能很好地生成高質(zhì)量的負(fù)樣本,進(jìn)而影響了訓(xùn)練模型的質(zhì)量。Trans_SnS模型[8]提出了基于實(shí)體相似性的負(fù)采樣方法,但該方法中使用的K-means聚類并不能有效確定聚類中心點(diǎn)的數(shù)量,并且沒有很好地處理稀疏點(diǎn),將稀疏數(shù)據(jù)劃分到了錯(cuò)誤的聚類中,導(dǎo)致稀疏數(shù)據(jù)負(fù)采樣的質(zhì)量較低。

        通過對實(shí)體相似性負(fù)采樣的進(jìn)一步研究,該文采用基于密度的聚類算法DBSCAN[9]對相似性負(fù)采樣方法進(jìn)行優(yōu)化,同時(shí)對DBSCAN中的eps聚類半徑采取了自適應(yīng)優(yōu)化,并且結(jié)合SMOTE[10]思想對聚類中的離群樣本點(diǎn)進(jìn)行過采樣,擬合相似實(shí)體點(diǎn),來提高負(fù)樣本的質(zhì)量,最后將上述負(fù)采樣方法同TransE模型結(jié)合得到TransE_DNS模型。實(shí)驗(yàn)選取了以下公開數(shù)據(jù)集(WN11,WN18,FB15K,FB13),分別在鏈路預(yù)測和三元組分類任務(wù)中對該模型進(jìn)行評估,實(shí)驗(yàn)效果均獲得了提升。

        1 相關(guān)研究

        1.1 翻譯模型

        知識(shí)圖譜的嵌入表示方法中以翻譯表示模型最為先進(jìn)。2013年Bordes等人[11]提出了TransE模型,該模型把三元組關(guān)系看作頭實(shí)體到尾實(shí)體的一種翻譯操作,即三元組的頭、尾和關(guān)系向量應(yīng)滿足h+r≈t。TransE模型因其參數(shù)少、時(shí)間復(fù)雜度低等優(yōu)點(diǎn)實(shí)現(xiàn)了在大規(guī)模稀疏知識(shí)圖譜上較好的預(yù)測,也成為后續(xù)Trans系列模型的基礎(chǔ)。2014年Wang等人[12]提出了TransH模型,通過把實(shí)體映射到關(guān)系所在的超平面上,實(shí)現(xiàn)了同一實(shí)體在不同關(guān)系上的不同向量表示,更好地解決了TransE在一對多,多對一和多對多關(guān)系上的嵌入表示問題。隨后,Lin等人[13]提出的TransR模型認(rèn)為關(guān)系和實(shí)體之間存在差異性,采用不同的向量空間分別映射關(guān)系和實(shí)體,然后通過一個(gè)投影矩陣完成從關(guān)系空間向?qū)嶓w空間的映射。雖然TransR對復(fù)雜關(guān)系建模效果很好,但其復(fù)雜度較高,很難應(yīng)用于大規(guī)模知識(shí)圖譜的表示。Ji等人[14]提出的TransD使用兩個(gè)向量來表示實(shí)體,其中一個(gè)向量表示其含義,另一個(gè)向量用于構(gòu)造實(shí)體到關(guān)系向量空間的映射矩陣,由于其動(dòng)態(tài)地構(gòu)建投影矩陣,相對于TransR大大減少了參數(shù)量和計(jì)算量。Ji等人[15]提出的TranSparse模型主要解決知識(shí)圖譜中普遍存在的異構(gòu)性和不平衡性問題。該模型提出了一種自適應(yīng)稀疏矩陣實(shí)現(xiàn)對不同關(guān)系的投影,有效解決了大規(guī)模知識(shí)圖譜的嵌入表示問題。Xiao等人[16]提出了TransA模型在TransE模型基礎(chǔ)上更換度量函數(shù),為實(shí)體和關(guān)系的每個(gè)維度添加權(quán)重來提升模型的表示能力。Hong等人[17]提出了一種結(jié)合實(shí)體領(lǐng)域信息的模型CombiNe,該模型通過統(tǒng)計(jì)方法TF-IDF,從實(shí)體的領(lǐng)域當(dāng)中抽取重要實(shí)體鄰居,通過短接聯(lián)合表示的方式,提高了基于擴(kuò)展信息的知識(shí)表示模型的性能。

        以上模型主要是針對損失函數(shù)進(jìn)行改進(jìn),但都忽略了負(fù)采樣方式對模型效果的影響,該文主要通過改良負(fù)采樣的方式,提高負(fù)采樣的質(zhì)量,來提升模型的效果。

        1.2 負(fù)采樣方法

        Trans系列的翻譯模型在訓(xùn)練過程中通常采用均勻采樣和伯努利采樣。其中,均勻采樣方法是通過均勻的隨機(jī)替換樣本頭尾節(jié)點(diǎn)來生成負(fù)樣本。由于數(shù)據(jù)集中的樣本存在一對多和多對一的關(guān)系,導(dǎo)致均勻采樣方法更容易生成假樣本。伯努利采樣針對三元組一對多的關(guān)系,使用更大概率替換頭節(jié)點(diǎn);反之,以更大概率替換尾節(jié)點(diǎn)。這種方法大大降低了生成假樣本的可能性,彌補(bǔ)了均勻采樣的缺點(diǎn)。以上兩種采樣方式在替換頭尾節(jié)點(diǎn)時(shí)都采用隨機(jī)替換的方式,優(yōu)勢在于降低了訓(xùn)練的時(shí)間復(fù)雜度。但是隨著訓(xùn)練的進(jìn)行,生成負(fù)樣本質(zhì)量過低,導(dǎo)致得分函數(shù)在此類低質(zhì)量樣本上得分較低,從而導(dǎo)致訓(xùn)練過程中梯度清零。

        為提高負(fù)采樣質(zhì)量,近年來出現(xiàn)了以生成對抗網(wǎng)絡(luò)、聚類模型為基礎(chǔ)的負(fù)采樣方法[18]。生成對抗網(wǎng)絡(luò)的負(fù)采樣方式以KBGAN[19]為首,選擇基于平移距離的KRL模型作為負(fù)樣本生成器和基于語義匹配的KRL模型作為對抗訓(xùn)練的鑒別器,生成器在一個(gè)候選負(fù)集合上產(chǎn)生一個(gè)概率分布,并選擇概率最高的一個(gè)輸入鑒別器。該鑒別器使正、負(fù)樣本之間的邊際損失最小化,提高了負(fù)采樣的質(zhì)量,學(xué)習(xí)最終的嵌入向量。

        由于知識(shí)圖譜嵌入中的負(fù)采樣屬于離散域的輸出,KBGAN并不能直接使用梯度下降策略,而是采用了強(qiáng)化學(xué)習(xí)策略進(jìn)行訓(xùn)練,使生成器產(chǎn)生離散化負(fù)例,這種方式容易使訓(xùn)練模型不穩(wěn)定。同時(shí)生成對抗模型的采樣過程時(shí)間復(fù)雜度較大,不利于訓(xùn)練大規(guī)模的知識(shí)圖譜。

        2018年Wang提出了IGAN[20],將錯(cuò)誤的正三元組輸入神經(jīng)網(wǎng)絡(luò),添加Softmax計(jì)算整個(gè)實(shí)體集的概率分布,通過鑒別器來得到較高質(zhì)量的負(fù)三元組。

        聚類采樣Trans_SNS基于實(shí)體相似性負(fù)采樣方法來提高負(fù)樣本的質(zhì)量,該模型使用K-means對實(shí)體進(jìn)行聚類,利用聚類內(nèi)部實(shí)體具有高度相似性,生成高質(zhì)量負(fù)樣本,進(jìn)而提高TransE模型的性能,但該模型無法確定聚類中心點(diǎn)的數(shù)量。除此之外,當(dāng)面對大規(guī)模稀疏知識(shí)圖譜時(shí),固定數(shù)量的聚類使一些離群點(diǎn)生成低質(zhì)量的負(fù)樣本,從而影響模型的效果。

        2 知識(shí)圖譜嵌入的負(fù)采樣優(yōu)化

        2.1 基于實(shí)體向量的相似性分析

        TransE模型將知識(shí)圖譜中的實(shí)體與關(guān)系嵌入到同一個(gè)向量空間中,其中每個(gè)三元組的頭尾實(shí)體和關(guān)系之間滿足h+r≈t的約束。如圖1中Stephen Curry和Seth Curry同時(shí)屬于NBA里的現(xiàn)役球員,那么在向量空間中,將Stephen Curry和Seth Curry作為頭實(shí)體h,尾實(shí)體t是NBA,那么它們的向量表示趨近于相等。但由于Stephen Curry和Seth Curry分別代言Nike和Armour,這又讓他們的向量表示存在一定的區(qū)別。當(dāng)實(shí)體間擁有更多相同約束時(shí),它們的向量表示就越相似。如Seth Curry與Durant都是NBA球員,且同時(shí)效力Brooklyn俱樂部,因此Seth Curry與Durant這兩個(gè)實(shí)體的向量表示更相似。反之,實(shí)體間約束越少,那么他們在向量空間中的距離越遠(yuǎn),相似性越低。

        圖1 知識(shí)圖譜局部關(guān)系

        此外,當(dāng)兩個(gè)實(shí)體間沒有直接約束關(guān)系時(shí),如實(shí)體Ohioan 和Washington,他們分別是Seth Curry與Durant兩個(gè)球員的出生地,沒有直接聯(lián)系。根據(jù)上文,Seth Curry與Durant擁有較多的相同約束,那么他們相似性較高。同時(shí)Ohioan和Washington分別作為兩個(gè)球員的出生地,與Brooklyn隊(duì)和NBA都具有相同的間接聯(lián)系。PhilKnight出生于Oregon并且PhilKnight作為NIKE的老板,既不在NBA也不在Brooklyn隊(duì)。因此,筆者認(rèn)為相較于Oregon,Washington與Ohioan因具有較多的間接約束在向量空間中具有一定的相似性。

        綜上所述,在向量空間中,擁有較多相同約束條件的實(shí)體,他們之間的距離一定是較近的。擁有較多相同間接約束條件的實(shí)體,存在一些與他們有較多共同約束條件的實(shí)體點(diǎn),而這些實(shí)體點(diǎn)相互之間又擁有較多的共同約束。因此,這些實(shí)體之間的聯(lián)系也是較為緊密的,反之則較遠(yuǎn)。

        綜上,在實(shí)體向量空間中,相互之間直接距離較近的實(shí)體點(diǎn),他們的語義一定相似;間接聯(lián)系較多的實(shí)體點(diǎn)之間存在著隱關(guān)系,同樣也具有較高的相似性。

        2.2 DNS負(fù)采樣方法

        負(fù)例樣本的質(zhì)量影響知識(shí)圖譜的嵌入表示,高質(zhì)量的負(fù)例樣本應(yīng)與被替換實(shí)體具有較高的相似性。為了得到高質(zhì)量負(fù)例樣本,提出了基于密度聚類的負(fù)采樣算法(DBSCAN Negative Sample,DNS)。DNS選擇不受聚類中心點(diǎn)數(shù)量限制的DBSCAN算法將知識(shí)圖譜中的實(shí)體按照緊密程度進(jìn)行聚類,以此限定負(fù)例樣本的選取范圍。DBSCAN通過鄰域半徑eps所給定的區(qū)域來劃分實(shí)體聚類:

        Neps(x)={y∈X:dist(x,y)≤eps}

        (1)

        式中,y表示實(shí)體點(diǎn),X表示實(shí)體集,dist(x,y)≤eps判斷x,y之間的距離是否小于eps,這里選用歐氏距離來判定。

        DBSCAN的聚類數(shù)量由聚類的鄰域半徑eps和聚類內(nèi)最小包含點(diǎn)數(shù)minpts決定。eps越小,聚類精度越高,聚類內(nèi)部產(chǎn)生的負(fù)樣本質(zhì)量也越高。但過高的聚類精度也會(huì)產(chǎn)生更多的離群點(diǎn),從而降低聚類中樣本的數(shù)量,引起模型過擬合。因此,DNS算法通過自適應(yīng)方式尋找合適的eps,并設(shè)置了離群點(diǎn)數(shù)量的閾值不超過總訓(xùn)練集樣本的四分之一。

        同時(shí),面對大型知識(shí)圖譜的稀疏性問題,DNS將向量空間中遠(yuǎn)離聚類的正樣本,通過過采樣的方式,生成相似度較高的負(fù)樣本。并且針對過采樣產(chǎn)生的假負(fù)樣本影響模型修正的問題,通過隨機(jī)選取部分真實(shí)樣本,然后在真實(shí)樣本中選擇與假負(fù)樣本相似的樣本進(jìn)行替換,來保證負(fù)樣本采樣的質(zhì)量。算法1給出了DNS負(fù)采樣方法的算法描述。

        算法1:DNS

        輸入:訓(xùn)練集S(h,r,t),聚類最小包含點(diǎn)數(shù)minpts,過采樣樣本數(shù)量overCount,閾值T,訓(xùn)練次數(shù)epoch

        1:初始化:S'←[]

        2:if (epoch/T)%2!=1 then

        3:eps←0.1//初始化聚類半徑

        4:overCount ←0//離群點(diǎn)數(shù)量

        5: prev←0//前一次聚類數(shù)量

        6:pres←DBSCAN( eps ,minpts)//當(dāng)前聚類數(shù)量

        7:while pres>prev and overCount

        8:do prev ← pres

        9: classific←DBSCAN(eps,minpts) //DBSCAN聚類

        10:pres←get_class_num(classific) //讀取聚類數(shù)量

        11:outCount←get_outCount_num(classific) //讀取離群點(diǎn)數(shù)量

        12:eps←update(eps,pres)//更新聚類鄰域半徑

        13:end

        14:for each (h,r,t) inS(h,r,t)

        15:if classific[(h,r,t)]!= -1 then//如果樣本在聚類中

        16:cluster←Sample(h,r,t)//取出同聚類的樣本點(diǎn)集合

        17:neg←Instead(cluster)//替換頭或尾節(jié)點(diǎn),構(gòu)造負(fù)樣本

        18:else//如果樣本為離群點(diǎn)

        19:overSample ←CircleSmote(overcount,eps) //生成過采樣樣本集合

        20:NegativeSample←NearSample(overSample) //選擇與過采樣樣本較相似的真實(shí)樣本

        21:neg←Instead( NegativeSample)//替換頭或尾節(jié)點(diǎn),構(gòu)造負(fù)樣本

        22: end if

        23: end for

        算法1的第2行根據(jù)閾值T和epoch決定了重新聚類的迭代次數(shù)。第3至13行是尋找樣本參數(shù)eps和生成聚類的過程。算法首先設(shè)定一個(gè)較低的eps,然后根據(jù)eps和輸入的參數(shù)minpts進(jìn)行一次聚類,從而得到當(dāng)前聚類數(shù)量pres。當(dāng)pres大于prev時(shí),根據(jù)當(dāng)前eps和minpts進(jìn)行聚類,并得到當(dāng)前聚類數(shù)量pres和離群點(diǎn)數(shù)量outCount。最后,對eps進(jìn)行更新。初始每次迭代,eps累加0.1,當(dāng)pres大于3時(shí),累加改為0.03。第16至18行表示當(dāng)需要負(fù)采樣的樣本點(diǎn)的h或t位于向量空間的某個(gè)聚類中,則在該聚類中隨機(jī)抽取一個(gè)實(shí)體向量替換成h'或t'。

        傳統(tǒng)的以SMOTE為主的過采樣算法,都是基于K近鄰隨機(jī)選取若干樣本點(diǎn),通過少數(shù)類樣本與近鄰樣本點(diǎn)的連線,在線上合成少數(shù)類樣本點(diǎn)。但SMOTE算法是通過遍歷所有樣本點(diǎn)到少數(shù)類樣本點(diǎn)的距離來選定K近鄰,這種做法用在大規(guī)模的知識(shí)圖譜上效率過低。DNS改進(jìn)了過采樣算法來適用于大規(guī)模的知識(shí)圖譜,第19至22行給出了離群點(diǎn)采樣方法。對于不在聚類中的離群點(diǎn),首先人工合成離群點(diǎn)的同類點(diǎn)(△1, △2,…,△n),將離群Outliers視為圓心,將多數(shù)類樣本的領(lǐng)域半徑eps視為Outliers的鄰域半徑構(gòu)造多個(gè)圓形區(qū)域,并在每個(gè)區(qū)域內(nèi)進(jìn)行隨機(jī)過采樣。之后隨機(jī)抽選過采樣樣本點(diǎn),尋找除離群點(diǎn)外,最接近該過采樣樣本點(diǎn)的真實(shí)樣本點(diǎn)(▽1, ▽2,…,▽n)作為負(fù)樣本,如圖2所示。

        圖2 離群點(diǎn)過采樣

        為了避免在尋找真實(shí)樣本時(shí)遍歷實(shí)體集合,算法在每個(gè)聚類中隨機(jī)抽取兩個(gè)真實(shí)樣本,生成一個(gè)較小的樣本集合。將抽選的過采樣樣本與該集合中的真實(shí)樣本進(jìn)行比較,尋找一個(gè)最相似的真實(shí)樣本作為負(fù)樣本。

        2.3 TransE_DNS模型

        該文以知識(shí)圖譜嵌入模型TransE為基礎(chǔ),同時(shí)結(jié)合DNS負(fù)采樣算法,提出了TransE_DNS訓(xùn)練模型。

        在模型中,給定知識(shí)圖譜G=(E,R),其中E={e1,e2,…,en}表示知識(shí)圖譜中的實(shí)體集合,R={r1,r2,…,rm}表示知識(shí)圖譜中的關(guān)系集合,n和m分別表示實(shí)體與關(guān)系的數(shù)量。設(shè)得分函數(shù)為:

        fr(h,t)=‖h+r-t‖L1/L2,h,t∈E,r∈R

        (2)

        fr(h,t)用來衡量三元組h+r與t之間的距離,可以用L1或L2范數(shù)計(jì)算。如果三元組是正確的,則得分函數(shù)中h+r與t得分較低,反之,表示三元組是錯(cuò)誤的。因此,定義TransE_DNS模型的損失函數(shù)為:

        fr(h'+r,t'),0)

        (3)

        其中,γ為邊界值表示正負(fù)樣本之間的間距,(h,r,t)是知識(shí)圖譜中的真實(shí)樣本,(h',r,t')是負(fù)樣本,h'和t'為替換的頭尾實(shí)體。當(dāng)fr(h,t)+γ-fr(h'+r,t')大于0時(shí),損失函數(shù)L取原值,否則取0,目標(biāo)是使得最相近的正負(fù)例樣本距離最大化。該文利用Adam適應(yīng)性矩估計(jì)最小化損失函數(shù)。

        算法2描述了Trans_DNS模型的完整訓(xùn)練過程。在訓(xùn)練過程中,DNS負(fù)采樣每迭代T次epoch后進(jìn)行一次聚類。

        算法2:Trans_DNS

        輸入:訓(xùn)練集S(h,r,t),實(shí)體集E,關(guān)系集R,邊界值γ,嵌入維度K,學(xué)習(xí)率α,聚類最小包含點(diǎn)數(shù)minpts,過采樣樣本數(shù)量 overCount,閾值T

        輸出:實(shí)體向量,關(guān)系向量

        1:初始化參數(shù):

        3:r←r/‖r‖ //r∈R

        5:e←e/‖e‖ //e∈E

        6:loop

        7:Sbatch←sample(S,b) //從S中抽取大小為b的mini-batch

        8:Tbatch←?

        9: for (h,r,t)∈Sbatchdo

        10:if (epoch/T)%2!=1 then

        12:end if

        //從負(fù)樣本集合中抽取負(fù)樣本

        14:Tbatch←Tbatch∪{((h,r,t),(h',r,t'))}

        15:end for

        //更新實(shí)體向量與關(guān)系向量

        17:end loop

        第1至6行使實(shí)體集合中的e和關(guān)系集合中的r隨機(jī)生成高維的實(shí)體和關(guān)系向量。

        第7至15行表示從訓(xùn)練集S中抽取一個(gè)大小為b的mini-batch集合,根據(jù)當(dāng)前的epoch和閾值T來判斷是否通過DNS負(fù)采樣生成負(fù)采樣集合S'。

        第16行表示先將正樣本與生成的負(fù)樣本帶入到損失函數(shù)中,使用adam優(yōu)化最小化損失函數(shù),更新實(shí)體向量與關(guān)系向量。

        3 實(shí)驗(yàn)與分析

        使用多個(gè)數(shù)據(jù)集,分別進(jìn)行了鏈路預(yù)測和三元組分類的實(shí)驗(yàn),從不同角度驗(yàn)證Trans_DNS模型的有效性。

        3.1 數(shù)據(jù)集設(shè)置

        選用知識(shí)工程中廣泛使用的兩個(gè)數(shù)據(jù)集Freebase和WoreNet。Freebase中包含了非常多的話題和類型知識(shí),對知識(shí)圖譜工程的相關(guān)研究具有重要的導(dǎo)向作用,實(shí)驗(yàn)選擇Freebase數(shù)據(jù)集的兩個(gè)子集FB15K和FB13,其中FB15K是一個(gè)包含大規(guī)模常識(shí)性知識(shí)的知識(shí)圖譜,該圖譜中含有對稱關(guān)系、非對稱關(guān)系和反轉(zhuǎn)關(guān)系。WordNet是一個(gè)描述詞匯之間關(guān)聯(lián)特點(diǎn)的數(shù)據(jù)集,選擇了WN11和WN18兩個(gè)子集作為實(shí)驗(yàn)數(shù)據(jù)集,其中子集WN18被用于各種知識(shí)工程任務(wù)中。數(shù)據(jù)集的詳細(xì)信息如表1所示。

        表1 實(shí)驗(yàn)中的數(shù)據(jù)集

        3.2 鏈路預(yù)測

        鏈路預(yù)測是一種根據(jù)知識(shí)圖譜中的已存在實(shí)體去預(yù)測缺失事實(shí)的任務(wù),它是一種有前途、廣泛研究且旨在完成知識(shí)圖譜補(bǔ)全的任務(wù)。對于確認(rèn)的三元組(h,r,t),其主要目的是預(yù)測缺失的h或t。

        在這個(gè)過程中,除了缺失的h或t,其余實(shí)體被視為候補(bǔ)實(shí)體。利用候補(bǔ)實(shí)體替換三元組中的h或t,生成候補(bǔ)三元組,并計(jì)算出其與測試三元組的得分。最后,根據(jù)候補(bǔ)三元組的得分進(jìn)行升序排列。本組實(shí)驗(yàn)選用了FB15K和WN18作為數(shù)據(jù)集,將MeanRank和Hits@10作為評價(jià)指標(biāo)。MeanRank表示測試集中三元組匹配到正確結(jié)果的平均排序位次,Hits@10表示根據(jù)得分序列,判斷測試三元組的正確答案排在序列前10位次的占比。實(shí)際上,不完整的三元組補(bǔ)全后可能與已經(jīng)存在的三元組重復(fù),這會(huì)影響三元組的排序值。過濾掉這類三元組的操作稱為Filter,未過濾這類三元組則稱為Raw。經(jīng)過各種模型的測試,Filter的實(shí)驗(yàn)效果通常比Raw更好,能得到更好的MeanRank和Hits@10。

        在實(shí)驗(yàn)中,為了得到模型最佳的參數(shù),對參數(shù)的設(shè)置進(jìn)行了多次嘗試。主要對以下參數(shù)進(jìn)行設(shè)置和選擇:訓(xùn)練周期epoch的取值范圍設(shè)在{1 000,1 500,2 000},adam的學(xué)習(xí)率α在{0.001,0.003,0.005,0.01,0.02}范圍內(nèi),邊界值γ在{1,2,2.5,3,3.5,4,4.5,5}范圍內(nèi),嵌入維度n在{50,100,150,200}范圍內(nèi),批處理β在{1 200,3 000,4 800,10 000}范圍內(nèi),聚類最小包含點(diǎn)數(shù)M在{5,10,20,25,50}范圍內(nèi),過采樣樣本數(shù)量O在{2,3,4,5,6}范圍內(nèi),閾值T在{20,50,100}范圍內(nèi)。三元組得分計(jì)算均采用L1范數(shù)進(jìn)行計(jì)算。

        經(jīng)過多次實(shí)驗(yàn),WN18和FB15K兩組數(shù)據(jù)集的參數(shù)設(shè)置如表2所示。

        表2 鏈路預(yù)測參數(shù)設(shè)置

        鏈路預(yù)測結(jié)果如表3所示,因設(shè)備環(huán)境與參數(shù)等問題,對照實(shí)驗(yàn)達(dá)不到原文獻(xiàn)的模型性能,因此直接采用原文獻(xiàn)的實(shí)驗(yàn)結(jié)果,加粗部分為文中模型與表中模型對比下得到的最優(yōu)解。從表中可以看出,文中模型在WN18數(shù)據(jù)集的MeanRank上得到了最優(yōu)解,Hits@10略低于表中最佳結(jié)果。從FB15K數(shù)據(jù)集的結(jié)果上看,在MeanRank(unif)下得到了最優(yōu)解,在MeanRank(bern)下與最優(yōu)解接近,Hits@10與最佳效果仍有一定差距。實(shí)驗(yàn)結(jié)果表明,文中模型在針對關(guān)系復(fù)雜的FB15K數(shù)據(jù)集時(shí),雖然能得到不錯(cuò)的平均排序得分,但正確實(shí)體排在前10的概率并不算高。筆者認(rèn)為主要是以下兩個(gè)原因:其一是因?yàn)門ransE-DNS在DNS負(fù)采樣時(shí),雖然針對離群點(diǎn),巧妙地通過過采樣的方式構(gòu)造相似實(shí)體點(diǎn),尋找除離群點(diǎn)外,與之接近的真實(shí)樣本點(diǎn)。但在這個(gè)過程中,因模型效率問題,不能遍歷整個(gè)實(shí)體空間,只通過在每個(gè)聚類中隨機(jī)抽選去進(jìn)行比較。這導(dǎo)致可能會(huì)選擇到一個(gè)與過采樣樣本點(diǎn)不夠相似的真實(shí)樣本點(diǎn),同樣這個(gè)點(diǎn)與離群點(diǎn)的相似度也很低;另一個(gè)原因是:龐大的實(shí)體向量空間內(nèi)一定具有聚類密度的差異性,目前并不能很好地處理這種差異,所以雖然可以得到較高的MeanRank,但Hits@10的精度不夠高。

        表3 鏈路預(yù)測實(shí)驗(yàn)結(jié)果

        3.3 三元組分類

        三元組分類用于驗(yàn)證Trans_DNS模型正確區(qū)分正負(fù)例三元組的性能。實(shí)驗(yàn)選擇了WN11、FB13和FB15K三個(gè)數(shù)據(jù)集,其中由Socher[21]等提供的WN11和FB13測試集包含了正負(fù)例三元組。而FB15K中的測試集只有正例三元組,于是按照FB13負(fù)例三元組的生成方式,為FB15 K構(gòu)造了負(fù)例三元組。

        在三元組分類中,數(shù)據(jù)集中每個(gè)關(guān)系r都設(shè)置了閾值θr。對于給定的三元組,如果其得分小于θr,被歸為正例,反之則歸為負(fù)例。關(guān)系閾值θr由驗(yàn)證集獲得最大分類精度時(shí)的閾值決定。

        三元組分類的參數(shù)如表4所示,其中WN11和FB15K在經(jīng)過多次實(shí)驗(yàn)后,均采用了鏈路預(yù)測任務(wù)的參數(shù)。FB13根據(jù)鏈路預(yù)測中參數(shù)的選擇范圍進(jìn)行了多次實(shí)驗(yàn),并得到了最優(yōu)參數(shù)。

        表4 三元組分類任務(wù)參數(shù)設(shè)置

        三元組分類實(shí)驗(yàn)結(jié)果如表5所示,從表中可以得到TransE-DNS(bern)在FB13上得到了最優(yōu)解,且在WN11 和FB15K上的性能優(yōu)于大部分文獻(xiàn)中的模型??傮w來看,在三元組分類的實(shí)驗(yàn)中,Trans_DNS得到了不錯(cuò)的實(shí)驗(yàn)結(jié)果,證明了DNS負(fù)采樣優(yōu)化了模型區(qū)分正負(fù)三元組的能力。

        表5 三元組分類實(shí)驗(yàn)結(jié)果

        4 結(jié)束語

        傳統(tǒng)的知識(shí)圖譜嵌入方法為了提升模型的訓(xùn)練速度,沒有過多的從負(fù)采樣的角度出發(fā)去優(yōu)化模型,導(dǎo)致了大量的低質(zhì)量負(fù)樣本,對模型的訓(xùn)練沒有幫助,最終影響了模型的性能。針對這個(gè)問題,該文從實(shí)體的相似度出發(fā),先采用DBSCAN聚類的方式對大部分在向量空間中聯(lián)系緊密的點(diǎn)進(jìn)行聚類,再針對離群點(diǎn)采用過采樣的方式生成假樣本,抽選與其接近的真實(shí)樣本點(diǎn),解決了數(shù)據(jù)稀疏所導(dǎo)致的負(fù)采樣效果不理想的問題。不足之處在于,沒有處理好實(shí)體向量空間的局部密度差異性,這會(huì)導(dǎo)致整體的聚類效果變差。

        未來將會(huì)嘗試把DNS負(fù)采樣擴(kuò)展到其他知識(shí)表示模型中。同時(shí),下一步的想法是,如何提取實(shí)體與關(guān)系之間更多深層次非線性特征,并采用多模態(tài)的聚類方式,強(qiáng)化實(shí)體點(diǎn)分類的精度,進(jìn)一步提高負(fù)采樣的質(zhì)量,提升知識(shí)圖譜嵌入模型的性能。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        天堂中文а√在线| 亚洲黄色官网在线观看| av人妻在线一区二区三区| 亚洲精品国产一二三区| 野花社区视频在线观看| 亚洲成a人片在线观看久| 精品国产亚洲av麻豆尤物| 久久精品国产亚洲av网站 | 中文字幕一区二区三区在线看一区| 自拍偷自拍亚洲一区二区| 色播亚洲视频在线观看| 欧美亚洲综合另类| 日本在线中文字幕一区| 国内久久婷婷六月综合欲色啪| 中文字幕乱偷无码av先锋蜜桃| 色综合88| 综合图区亚洲偷自拍熟女| 日韩精品综合一本久道在线视频| 蜜桃麻豆www久久囤产精品| 中文AV怡红院| 91亚洲夫妻视频网站| 极品美女扒开粉嫩小泬图片| 久久亚洲私人国产精品| 国产久视频| 日本精品一区二区三区试看| 亚洲av日韩综合一区久热| 亚洲国产区男人本色| 亚洲精品中文字幕乱码二区| 日本亚洲视频一区二区三区| av无码人妻中文字幕| 中文字幕Aⅴ人妻一区二区苍井空 亚洲中文字幕久久精品蜜桃 | 黑人上司粗大拔不出来电影| 久久无码精品精品古装毛片| 亚洲国产中文字幕九色| 久久久亚洲欧洲日产国码二区| 精品成人乱色一区二区| 亚洲αv在线精品糸列| 日韩人妻中文字幕专区| 亚洲成av人片在线观看ww| 婷婷色国产精品视频一区| av在线入口一区二区|