亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于聚類方法的負(fù)樣本生成器研究與實(shí)現(xiàn)

2024-06-06 00:00:00溫欣丁怡澤屈克將丁建新王海濤王建華王天

科技創(chuàng)新與應(yīng)用 2024年16期

基金項目：國家重點(diǎn)研發(fā)計劃資助（2019YFC0312003）

第一作者簡介：溫欣（1978-），男，碩士，工程師。研究方向為油氣勘探開發(fā)業(yè)務(wù)工業(yè)互聯(lián)網(wǎng)建設(shè)、人工智能技術(shù)行業(yè)應(yīng)用和相關(guān)領(lǐng)域數(shù)字化轉(zhuǎn)型。

*通信作者：王天（1999-），男，碩士研究生。研究方向為知識圖譜。

DOI：10.19981/j.CN23-1581/G3.2024.16.001

摘" 要：知識圖譜嵌入的目標(biāo)是為知識圖譜中的實(shí)體和關(guān)系生成低維連續(xù)的特征向量，以便計算機(jī)能夠通過數(shù)學(xué)運(yùn)算來挖掘知識的潛在語義，并將其應(yīng)用于三元組補(bǔ)全、實(shí)體分類和實(shí)體解析等下游任務(wù)。翻譯模型（Trans）是一種簡單而有效的知識圖譜嵌入方法，其采用負(fù)采樣的方法來提高知識圖譜嵌入的準(zhǔn)確性。然而，傳統(tǒng)的負(fù)采樣方法采用隨機(jī)負(fù)采樣，容易生成低質(zhì)量的負(fù)三元組，從而導(dǎo)致實(shí)體和關(guān)系的嵌入向量訓(xùn)練不準(zhǔn)確。針對這個問題，該文提出基于Canopy和K-means方法的相似實(shí)體負(fù)樣本生成器（Negative Sampling of Similar Entities，NSSE），用于生成高質(zhì)量的負(fù)樣本。實(shí)驗結(jié)果表明，使用NSSE的翻譯模型相比原有模型在嵌入向量生成方面取得更好的效果。

關(guān)鍵詞：知識圖譜嵌入；翻譯模型；負(fù)采樣；相似實(shí)體；聚類方法

中圖分類號：TP18" " " "文獻(xiàn)標(biāo)志碼：A" " " " " 文章編號：2095-2945（2024）16-0001-06

Abstract： The goal of knowledge graph embedding is to generate low-dimensional continuous feature vectors for entities and relationships in knowledge graph， so that computers can mine the potential semantics of knowledge through mathematical operations. It is applied to downstream tasks such as triple completion， entity classification and entity parsing. The translation model （Trans） is a simple and effective method for embedding knowledge graph， which uses negative sampling method to improve the accuracy of knowledge graph embedding. However， the traditional negative sampling method uses random negative sampling， which is easy to generate low-quality negative triple， which leads to inaccurate training of embedded vectors of entities and relations. To solve this problem， a Negative Sampling of Similar Entities （NSSE） based on Canopy and K-means method is proposed to generate high quality negative samples. The experimental results show that the translation model using NSSE achieves better results in embedding vector generation than the original model.

Keywords： knowledge graph embedding; translation model; negative sampling; similar entities; clustering algorithm

知識圖譜[1]是一種常見的知識組織形式，其中實(shí)體以節(jié)點(diǎn)表示，實(shí)體之間的關(guān)系以邊表示[2]。因此，大部分知識可以用三元組（實(shí)體1，關(guān)系，實(shí)體2）的形式來表示[3]。盡管三元組表示方法可以有效地表示結(jié)構(gòu)化數(shù)據(jù)，但對于計算機(jī)而言，難以區(qū)分實(shí)體和關(guān)系之間的差異[4]。因此，學(xué)者們提出了one-hot表示法[5]，將實(shí)體（或關(guān)系）表示為向量形式。然而，這種方法存在維度過高和無法處理相似實(shí)體向量的問題，從而導(dǎo)致計算困難。為了解決這些問題，近年來知識圖譜嵌入（Knowledge Graph Embedding，KGE）[6]成為研究的熱點(diǎn)，其核心思想是通過一定的規(guī)則來學(xué)習(xí)和調(diào)整實(shí)體與關(guān)系向量，將其表示為連續(xù)的低維向量，使數(shù)值運(yùn)算具有意義，使知識可以進(jìn)行計算和推理，并同時降低計算復(fù)雜度。知識圖譜嵌入可以應(yīng)用于知識圖譜補(bǔ)全（鏈接預(yù)測）[7]、三元組分類[8]、實(shí)體分類[9]和實(shí)體解析[10]等下游任務(wù)。

翻譯模型，即TransE模型[11]及其相關(guān)的Trans系列模型[12-14]，是一類簡單而有效的知識圖譜嵌入模型。翻譯模型在訓(xùn)練過程中使用的損失函數(shù)由正三元組得分、負(fù)三元組得分和邊界值構(gòu)成。當(dāng)正負(fù)三元組得分的差值超過邊界值時，損失函數(shù)值將降至最低，模型停止更新。

在現(xiàn)有的翻譯模型中，負(fù)采樣方法大多采用隨機(jī)負(fù)采樣，即從知識庫中隨機(jī)選擇替換實(shí)體作為負(fù)樣本。隨機(jī)負(fù)采樣可以縮短訓(xùn)練時間、降低模型復(fù)雜度，但在訓(xùn)練過程中會產(chǎn)生大量低質(zhì)量的負(fù)樣本。

如圖1所示，通過隨機(jī)采樣替換實(shí)體“煤油”，可能得到替換實(shí)體“瀝青”，也可能得到替換實(shí)體“煤炭”。如果使用前者作為負(fù)樣本，由于正負(fù)實(shí)體的相似度差距較大，正負(fù)三元組的得分也會相差很大，模型的損失函數(shù)值會變得很低，從而終止學(xué)習(xí)，但此時模型尚未充分學(xué)習(xí)和調(diào)整。而使用相似度差距較小的實(shí)體“瀝青”時，由于正負(fù)三元組的得分差異不大，損失函數(shù)值仍未達(dá)到要求，這會促使模型繼續(xù)學(xué)習(xí)和調(diào)整，直至達(dá)到要求。

圖1" 隨機(jī)負(fù)采樣產(chǎn)生的不同質(zhì)量組

實(shí)體聚類是一種將相似實(shí)體歸為同一類別的技術(shù)，其可以基于實(shí)體的嵌入向量進(jìn)行計算和判斷，圖2為實(shí)體聚類示意圖。通過對嵌入向量進(jìn)行聚類，可以將具有相似語義的實(shí)體放置在相同的聚類簇中。在負(fù)采樣過程中，可以選擇與正樣本實(shí)體同屬一個聚類簇的實(shí)體作為替換實(shí)體，以生成高質(zhì)量的負(fù)樣本，并增強(qiáng)翻譯模型的訓(xùn)練效果。實(shí)體聚類的研究比較成熟，常見的方法包括K-means算法[15]和Canopy算法[16]。

K-means算法是一種無監(jiān)督聚類算法，通過計算實(shí)體向量在空間中的距離，將其劃分為k個簇。同一簇內(nèi)的實(shí)體向量之間具有較近的空間距離，相似的實(shí)體通常具有相近的空間表示。K-means聚類可以幫助發(fā)現(xiàn)具有相似屬性或緊密聯(lián)系的實(shí)體。然而，K-means算法的主要問題是如何得到合適的k值。

圖2" 實(shí)體聚類示意圖

Canopy算法可以根據(jù)空間中點(diǎn)之間的距離進(jìn)行聚類。在聚類過程中，首先選擇一個隨機(jī)向量，然后計算其與其他向量之間的距離，并根據(jù)交叉驗證確定2個閾值T1和T2。根據(jù)這2個閾值，將所有向量劃分到3個區(qū)間中，建立向量之間的強(qiáng)關(guān)系和弱關(guān)系。然后，對每個區(qū)間中的向量進(jìn)行相同的操作，逐步將空間中的向量根據(jù)空間距離劃分到不同的聚類中，最終得到比較適合的聚類數(shù)量。然而，Canopy算法的實(shí)體聚類精度相對較低，劃分效果較粗糙。

除了獲取相似實(shí)體外，實(shí)體的類別信息對于實(shí)體之間的關(guān)系也具有一定的適應(yīng)性。在三元組中，關(guān)系通常會限制頭實(shí)體和尾實(shí)體的類別。如圖3所示，關(guān)系“地理位置”限制了頭實(shí)體應(yīng)屬于“地理概念”類別，尾實(shí)體應(yīng)屬于“國家”類別。這與負(fù)采樣時限制替換實(shí)體的類別是相適應(yīng)的。利用實(shí)體類型信息生成的負(fù)三元組（例如，（長江，位于，中國））具有較高的質(zhì)量，而隨機(jī)采樣生成的負(fù)三元組（例如，（計算機(jī)，位于，中國））則明顯質(zhì)量較低。

這種利用實(shí)體類別信息進(jìn)行負(fù)采樣的方法可以提高負(fù)樣本的質(zhì)量，并有助于實(shí)現(xiàn)更準(zhǔn)確的知識圖譜嵌入。通過限制替換實(shí)體的類別與正樣本實(shí)體相匹配，可以生成更符合關(guān)系限制的負(fù)樣本，從而更好地訓(xùn)練和更新實(shí)體與關(guān)系的嵌入向量。

綜上所述，為了解決翻譯模型負(fù)采樣質(zhì)量低和實(shí)體聚類的局限性，本文提出了一種相似實(shí)體負(fù)樣本生成器（Negative Sampling of Similar Entities，NSSE），采用Canopy和K-means混合方法，旨在生成高質(zhì)量的負(fù)樣本。實(shí)驗結(jié)果表明，使用NSSE的知識圖譜嵌入模型相較于原始模型，在嵌入效果上取得了更好的結(jié)果。

1" 研究方法

相似實(shí)體負(fù)樣本生成器主要由2個模塊組成：相似實(shí)體聚類模塊和實(shí)體類別過濾模塊。這2個模塊在下文進(jìn)行詳細(xì)介紹。NSSE的負(fù)樣本生成步驟如圖4所示，下文以替換頭實(shí)體為例說明。

對于給定的事實(shí)三元組（h，r，t），首先將該三元組輸入翻譯模型以生成實(shí)體和關(guān)系的初始向量表示。然后，將這些向量輸入到NSSE中，利用Canopy算法和K-means算法進(jìn)行聚類操作，形成不同的聚類簇。接下來，選擇與頭實(shí)體h所在的簇，并從該簇中篩選出與h具有相同實(shí)體類別的實(shí)體h′作為h的替換實(shí)體，生成負(fù)樣本（h′，r，t）。

NSSE生成算法如下（以替換頭實(shí)體為例）。

輸入：事實(shí)三元組（ｈ，ｒ，ｔ），實(shí)體向量集Ｅ＝｛ｅｉ，ｉ＝１，２，３，…，ｎ｝，實(shí)體類別信息。

輸出：負(fù)樣本三元組（ｈ＇，ｒ，ｔ）。

1）利用Ｃａｎｏｐｙ算法與Ｋ－ｍｅａｎｓ算法對知識圖譜的實(shí)體向量ｅｉ進(jìn)行聚類，得到實(shí)體聚類簇的集合Ｃｌｕｓｔｅｒ＝｛ｃｊ，ｊ＝１，２，３，…，ｋ｝。

2）對ｈ所在聚類簇中的實(shí)體ｃｊ進(jìn)行實(shí)體類別篩選，得到與ｈ同類別的實(shí)體集Ｈ＇。

3）從Ｈ＇中隨機(jī)選取１個實(shí)體作為ｈ的替換實(shí)體ｈ＇。

4）返回負(fù)樣本三元組（ｈ＇，ｒ，ｔ）。

NSSE通過實(shí)體聚類和實(shí)體類別過濾的方式，篩選出與原實(shí)體相似的實(shí)體，然后將這些相似實(shí)體替換原實(shí)體，生成負(fù)樣本三元組。相較于隨機(jī)負(fù)采樣方法，NSSE生成的負(fù)樣本三元組具有更接近原樣本的得分，這有助于促進(jìn)訓(xùn)練的充分學(xué)習(xí)和更新。相較于翻譯模型原有的隨機(jī)負(fù)樣本生成方法，NSSE選擇原實(shí)體的相似實(shí)體作為負(fù)樣本的替換實(shí)體，從而促進(jìn)實(shí)體與關(guān)系向量的充分學(xué)習(xí)和更新。

1.1" 實(shí)體聚類模塊

為了進(jìn)行實(shí)體聚類，首先需要獲取實(shí)體向量。由于本文是對翻譯模型的負(fù)采樣進(jìn)行改進(jìn)，因此選擇模型訓(xùn)練過程中的中間向量作為實(shí)體聚類的輸入。然后使用Canopy算法對實(shí)體向量集進(jìn)行聚類。Canopy算法能夠快速進(jìn)行聚類并得到最優(yōu)的簇數(shù)k和聚類中心ai，但實(shí)體聚類的精度較低，劃分效果較為粗糙。因此，Canopy算法僅用于獲取實(shí)體簇的簇數(shù)k值和初始聚類中心ai。最后，將k值和ai作為輸入，使用K-means算法根據(jù)實(shí)體向量在空間中的距離進(jìn)行相似性聚類。

該實(shí)體聚類模塊的目標(biāo)是將知識圖譜中的n個實(shí)體根據(jù)其向量在空間中的位置劃分到k個不同的簇中。每個簇中的實(shí)體向量在空間中具有較短的距離，因此實(shí)體之間也具有較高的相似度。

對于給定的三元組（h，r，t），在進(jìn)行負(fù)樣本實(shí)體替換時（假設(shè)替換頭實(shí)體h），首先需要找到h所在的簇ci。然后，在簇ci中優(yōu)先選擇其他實(shí)體h′作為替換實(shí)體，即h′需要滿足h∈ci且h′∈ci。

在一定的訓(xùn)練輪次之后，實(shí)體與關(guān)系向量會進(jìn)行更新，因此需要利用這些更新后的實(shí)體與關(guān)系向量重新進(jìn)行相似實(shí)體聚類，并更新聚類結(jié)果。這樣可以反映最新的實(shí)體相似性和聚類結(jié)構(gòu)，以便在后續(xù)的負(fù)樣本生成中選擇更準(zhǔn)確的相似實(shí)體作為替換實(shí)體。具體的實(shí)體聚類算法如下。

輸入：實(shí)體向量集E={ｅｉ，ｉ＝１，２，３，…，ｎ}，迭代次數(shù)M。

輸出：實(shí)體簇集合Cluster={ｃｊ，ｊ＝１，２，３，…，ｋ}。

1）利用 Canopy 算法，獲取最優(yōu)簇數(shù)k與初始聚類cj的聚類中心aj。

2）" for l = 1 to M

3） for i = 1 to N

4）" 計算ei到k個聚類中心的距離，并將其劃分到距離最小的聚類cj中。

5） end

6）重新計算每個聚類中心aj=■∑■e。

7） end

8）返回迭代后的實(shí)體簇集合 Cluster。

1.2" 實(shí)體類別過濾模塊

經(jīng)過1.1小節(jié)中的聚類過程，可以得到實(shí)體所屬的簇。然而，在訓(xùn)練的初期階段，實(shí)體與關(guān)系向量可能還沒有充分訓(xùn)練，因此實(shí)體向量在空間中的表示可能不夠準(zhǔn)確，這會影響到聚類的效果。

為了解決這個問題，在訓(xùn)練的早期階段就引入實(shí)體類別作為篩選條件，可以過濾掉那些質(zhì)量較低的替換實(shí)體，從而提高初期負(fù)樣本三元組的質(zhì)量。通過將實(shí)體類別作為額外的約束條件，可以確保替換實(shí)體與原實(shí)體在類別上保持一致，這有助于生成更高質(zhì)量的負(fù)樣本三元組。這樣的策略有助于加速模型的收斂，提高模型對實(shí)體間關(guān)系的表示能力。

以替換頭實(shí)體為例，在對三元組（h，r，t）進(jìn)行負(fù)樣本實(shí)體替換時，首先需要找到h所在的簇ci，然后獲取同一簇中其他實(shí)體的實(shí)體類別。如果這些實(shí)體類別與h的實(shí)體類別相同，則具備作為替換實(shí)體的條件。使用符號表示，替換實(shí)體h'需要滿足h′∈ciamp;h∈ci且h′∈typejamp;h∈typej。其中，ci表示某個簇，typej表示某個實(shí)體類別。

如果存在多個滿足條件的實(shí)體，即與原實(shí)體的簇類別和實(shí)體類別都相同，那么可以隨機(jī)選擇其中一個實(shí)體作為負(fù)樣本的替換實(shí)體。

需要注意的是，實(shí)體類別信息不是在訓(xùn)練過程中自動生成的，而是在訓(xùn)練之前獲取到的，并且在訓(xùn)練過程中不進(jìn)行更新。

2" 實(shí)驗結(jié)果

2.1" 實(shí)驗設(shè)置

本文的負(fù)采樣方法針對翻譯模型進(jìn)行了改進(jìn)，在實(shí)驗中使用經(jīng)典的翻譯模型TransE和TransH[12]進(jìn)行嵌入，并使用NSSE的負(fù)采樣方法替代了隨機(jī)采樣方法。為了進(jìn)行實(shí)體聚類，需要實(shí)體向量作為實(shí)體相似度的依據(jù)，因此實(shí)驗選擇了翻譯模型訓(xùn)練過程中的中間向量作為實(shí)體聚類的輸入。

實(shí)體聚類并不是一次性完成的，其需要持續(xù)進(jìn)行。由于中間向量通常在訓(xùn)練初期并不充分，因此每經(jīng)過50個epoch，使用當(dāng)前的實(shí)體向量重新進(jìn)行一次Canopy聚類和K-means聚類。在第一次聚類時，由于實(shí)體向量還沒有進(jìn)行充分訓(xùn)練，因此仍采用翻譯模型原有的隨機(jī)采樣方法進(jìn)行負(fù)采樣。

在實(shí)體類別篩選過程中，考慮到FB15K數(shù)據(jù)集中的實(shí)體實(shí)例與實(shí)體類別之間是多對多的關(guān)系，統(tǒng)計結(jié)果顯示每個實(shí)體平均擁有8個實(shí)體類別。因此，在實(shí)體類別篩選時，需要考慮實(shí)體的所有類別。具體而言，需要將與原實(shí)體不屬于任何一個類別的實(shí)體進(jìn)行過濾。即，對于實(shí)體h∈M={typem，typen，…}和h′∈N={typei，typej，…}，如果M∩N=？覫，則h′會被過濾掉。

在TransE的訓(xùn)練中，選用了文獻(xiàn)[16]中的最佳參數(shù)，包括嵌入維度k=50，學(xué)習(xí)率λ=0.001，損失函數(shù)中的閾值參數(shù)γ=1.0。而在TransH的訓(xùn)練中，選擇了文獻(xiàn)[17]中的最佳參數(shù)。在“unif”替換策略下，嵌入維度k=50，學(xué)習(xí)率λ=0.005，閾值參數(shù)γ=0.5，參數(shù)B=1 200，參數(shù)C=0.015 625。在“bern”替換策略下，嵌入維度k=100，學(xué)習(xí)率λ=0.005，閾值參數(shù)γ=0.25，參數(shù)B=4 800，參數(shù)C=1.0。

在實(shí)驗中，每經(jīng)過100個epoch對于鏈接預(yù)測指標(biāo)進(jìn)行一次評估。

2.2" 評估指標(biāo)

本節(jié)實(shí)驗主要評估NSSE負(fù)樣本生成器對TransE與TransH的性能提升，通過鏈接預(yù)測的結(jié)果體現(xiàn)。鏈接預(yù)測通常使用Hit@10與MeanRank指標(biāo)進(jìn)行評估。具體而言，假設(shè)知識庫中有n個實(shí)體，對于圖譜中的事實(shí)三元組（h，r，t），將頭實(shí)體h替換成知識庫中的其他實(shí)體，這樣共生成了n-1個新三元組。同樣的，替換尾實(shí)體為知識庫中的其他實(shí)體，共產(chǎn)生n-1個新三元組。因此，在關(guān)系不變的情況下，兩類替換共計生成了2n-2個新三元組。按照翻譯模型的得分函數(shù)，可以為原有三元組與新生成的三元組進(jìn)行評分，之后將這2n-2個新三元組與原三元組的得分按照從高到低進(jìn)行排序，將會得到正確三元組在所有三元組中的排名rank■。對于知識圖譜中的每個事實(shí)三元組都進(jìn)行這樣的替換與排名，并將這些事實(shí)三元組的排名進(jìn)行加和與平均，統(tǒng)計事實(shí)三元組的平均排名，即MeanRank，如式（1）所示

MeanRank=■，" （1）

式中：x表示知識圖譜中事實(shí)三元組的數(shù)量；rank■表示每個三元組的排名。MeanRank的數(shù)值越低說明事實(shí)三元組的排名越靠前，鏈接預(yù)測效果越好，實(shí)體與關(guān)系的表示越好。統(tǒng)計所有事實(shí)三元組的排名處在前10的比例，就得到排名前十率，即Hit@10，如式（2）與式（3）所示

lsTop10i=1，ranki≤100，rankigt;10 ，（2）

Hit@10=■，（3）

式中：x表示知識圖譜中事實(shí)三元組的數(shù)量；lsTop10i表示三元組i的排名是否處于前十，若是則為1；若不是則為0。Hit@10的數(shù)值越高，說明有越多的事實(shí)三元組排名靠前，鏈接預(yù)測效果越好，實(shí)體與關(guān)系的表示越好。

這2個指標(biāo)的依據(jù)是：事實(shí)三元組是正確的三元組，其得分與排名應(yīng)該優(yōu)于不正確的三元組，越符合這一點(diǎn)，則說明知識圖譜嵌入效果越好。按照知識圖譜嵌入實(shí)驗的標(biāo)準(zhǔn)，在進(jìn)行實(shí)驗時對兩類指標(biāo)同時進(jìn)行評估，一類是在統(tǒng)計事實(shí)三元組的排名時，過濾掉知識圖譜中不存在但實(shí)際正確的三元組，只對剩余部分的三元組進(jìn)行評估，即MeanRank（filter）與Hit@10（filter）；另一類是對知識圖譜原有全部的三元組進(jìn)行評估，即MeanRank（raw）與Hit@10（raw）。

2.3" 鏈接預(yù)測對比

本小節(jié)對NSSE對TransE與TransH的提升效果進(jìn)行評估。本文使用NSSE-TransE、NSSE-TransH表示NSSE與TransE、TransH結(jié)合后的模型，新模型中使用NSSE替換了原有的隨機(jī)負(fù)采樣方式。TransH針對頭實(shí)體與尾實(shí)體的對應(yīng)關(guān)系進(jìn)行了“unif”與“bern”2種實(shí)驗?！皍nif”與“bern”的區(qū)別在于：“unif”是隨機(jī)選頭實(shí)體或尾實(shí)體進(jìn)行替換，而“bern”則是根據(jù)頭實(shí)體與尾實(shí)體的對應(yīng)關(guān)系進(jìn)行選擇。本節(jié)使用TransH（unif）與TransH（bern）表示使用“unif”與“bern”2種替換方式的TransH模型，使用NSSE-TransH（unif）與NSSETransH（bern）表示NSSE與上述2種TransH結(jié)合而形成的新模型，新模型中同樣使用NSSE替換了原有的隨機(jī)負(fù)采樣方式。

從表1中可以看出，NSSE-TransE的MeanRank（raw）與MeanRank（filter）的值低于TransE的值，這表明NSSE-TransE中正確的三元組排名更靠前，嵌入效果更好；NSSE-TransE的Hit@10（raw）與Hit@10（filter）值高于TransE，這表明NSSE-TransE中正確的三元組排名更靠前，嵌入效果更好。4個指標(biāo)上的性能都要優(yōu)于TransE，這是符合預(yù)期的。

表1" TransE與NSSE-TransE鏈接預(yù)測結(jié)果對比（unif）

從表2中可以看出，NSSE-TransH（bern）的MeanRank（raw）與MeanRank（filter）的值低于TransH（bern）的值，NSSE-TransH（bern）的Hit@10（raw）與Hit@10（filter）值高于TransH（bern）的值；從表3中可以看出，NSSE-TransH（unif）的NＳＳＥ－ＴｒａｎｓＨ（ｕｎｉｆ）的ＭｅａｎＲａｎｋ（ｒａｗ）與ＭｅａｎＲａｎｋ（ｆｉｌｔｅｒ）的值低于TransH（unif）的值，NSSE-TransH（unif）的Hit@10（raw）與Hit@10（filter）值高于TransH（unif）的值。這表明不論是在“unif”上還是“bern”上，使用NSSE負(fù)采樣的方法在4個指標(biāo)上均優(yōu)于TransH，這是由于NSSE是針對替換實(shí)體本身的，無論頭實(shí)體還是尾實(shí)體，替換實(shí)體的選取策略是相同的，因此在“unif”與“bern”都具有較好的效果，是符合預(yù)期的。

表2" TransH與NSSE-TransH鏈接預(yù)測結(jié)果對比（bern）

表3" TransH（unif）與NSSE-TransH（unif）鏈接預(yù)測結(jié)果對比

通過對比與分析，本文提出的NSSE與TransE、TransH（unif）、TransH（bern）結(jié)合之后，4個評估指標(biāo)都優(yōu)于原有模型，這證明NSSE負(fù)樣本生成器對原有模型的嵌入效果起到了提升的作用，具有一定的先進(jìn)性。

3" 結(jié)論

本文通過實(shí)驗證明了基于聚類方法的負(fù)采樣生成器（NSSE）對于翻譯模型的負(fù)采樣效果的提升，這為之后的知識圖譜嵌入負(fù)采樣的研究提供了思路。但NSSE對實(shí)體類別信息的質(zhì)量要求較高，同時并不是每個知識圖譜都包含實(shí)體類別信息。如果缺少實(shí)體類別信息或?qū)嶓w類別劃分不準(zhǔn)確，則會導(dǎo)致在訓(xùn)練初期實(shí)體聚類的效果較差。因此，針對上述問題，未來可以嘗試在使用NSSE中加入高質(zhì)量實(shí)體類別劃分的算法，這將是未來的研究內(nèi)容。

參考文獻(xiàn)：

[1] JI S， PAN S， CAMBRIA E， et al. A survey on knowledge graphs： Representation， acquisition， and applications[J]. IEEE transactions on neural networks and learning systems， 2021，33（2）：494-514.

[2] BENGIO Y， COURVILLE A， VINCENT P. Representation Learning： A Review and New Perspectives[J]. IEEE transactions on pattern analysis and machine intelligence，2013，35（8）：1798-1828.

[3] WANG Q， MAO Z， WANG B， et al. Knowledge graph embedding： a survey of approaches and applications[J]. IEEE Transactions on Knowledge and Data Engineering，2017，29（12）：2724-2743.

[4] CA I H， ZHENG V W， CHANG C C. A comprehensive survey of graph embedding： problems， techniques and applications[J].IEEE Transactions on Knowledge and Data Engineering，2018，30（9）：1616-1637.

[5] GOLSON S. One-hot state machine design for FPGAs[C]// Proc. 3rd Annual PLD Design Conference amp; Exhibit.1993，1（3）.

[6] CAO Z， XU Q， YANG Z， et al. Geometry interaction knowledge graph embeddings[C]//Proceedings of the AAAI Conference on Artificial Intelligence，2022，36（5）：5521-5529.

[7] SHEN T， ZHANG F， CHENG J. A comprehensive overview of knowledge graph completion[J]. Knowledge-Based Systems，2022：109597.

[8] LI J， FEI H， LIU J， et al. Unified named entity recognition as word-word relation classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence，2022，36（10）： 10965-10973.

[9] WANG Y， ZHANG C， LI K. A review on method entities in the academic literature： extraction， evaluation， and application[J]. Scientometrics，2022，127（5）：2479-2520.

[10] YASUNAGA M， BOSSELUT A， REN H， et al. Deep bidirectional language-knowledge graph pretraining[J]. Advances in Neural Information Processing Systems，2022， 35：37309-37323.

[11] BORDES A， USUNIER N， GARCIA-DURAN A， et al. Translating embeddings for modeling multi-relational data[C]//Neural Information Processing Systems（NIPS），2013：1-9.

[12] WANG Z， ZHANG J， FENG J， et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the AAAI conference on artificial intelligence，2014，28（1）.

[13] LIN Y， LIU Z， SUN M， et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the AAAI conference on artificial intelligence，2015，29（1）.

[14] JI G， HE S， XU L， et al. Knowledge graph embedding via dynamic mapping matrix[C]//Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th international joint conference on natural language processing（volume1：Long papers），2015：687-696.

[15] KRISHNA K， MURTY M N. Genetic K-means algorithm[J]. IEEE Transactions on Systems， Man， and Cybernetics， Part B （Cybernetics），1999，29（3）：433-439.

[16] NORMAN J M， CAMPBELL G S. Canopy structure[M]//Plant physiological ecology： field methods and instrumentation. Dordrecht： Springer Netherlands，1989： 301-325.

[17] HAYASHI K， SHIMBO M. On the equivalence of holographic and complex embeddings for link prediction[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics （Volume 2： Short Papers）. Association for Computational Linguistics，2017.Moon C， Jones P， Samatova N F.

科技創(chuàng)新與應(yīng)用2024年16期

科技創(chuàng)新與應(yīng)用的其它文章: 電力行業(yè)預(yù)制式全氟己酮滅火系統(tǒng)現(xiàn)場應(yīng)用研究; 糧食平方倉KP1型厚多孔磚砌體施工工藝及控制要點(diǎn); 燃?xì)夤艿离S橋敷設(shè)安全措施總結(jié); 城市高壓交流輸電線路對電磁環(huán)境的影響研究; 核火箭發(fā)動機(jī)技術(shù)特點(diǎn)研究及應(yīng)用前景展望; 單樁豎向靜載試驗異常在某工程中的處理及應(yīng)用分析