亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多信息加權(quán)融合實體對齊算法

        2021-07-16 08:03:04馬建紅劉雙耀
        計算機(jī)應(yīng)用與軟件 2021年7期
        關(guān)鍵詞:數(shù)據(jù)源特征向量結(jié)構(gòu)化

        馬建紅 劉雙耀 楊 珺

        (河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院 天津 300401)

        0 引 言

        近年來,知識圖譜[1]一直是各領(lǐng)域研究的熱點,知識圖譜的構(gòu)建能夠在一定程度上促進(jìn)創(chuàng)新的發(fā)展,構(gòu)建完整的知識圖譜需要通過融合多個異構(gòu)數(shù)據(jù)源來解決單一數(shù)據(jù)源知識涵蓋不足、屬性缺失等問題。因此多源異構(gòu)知識庫的融合問題,便成為知識圖譜發(fā)展過程中的研究熱點,其中實體對齊是異構(gòu)數(shù)據(jù)源融合的關(guān)鍵步驟,即發(fā)現(xiàn)兩個或多個數(shù)據(jù)源中指向現(xiàn)實中同一物質(zhì)的實體對[2]。由于不同數(shù)據(jù)源本體的異構(gòu)性,導(dǎo)致知識的分類結(jié)構(gòu)、表述規(guī)范存在一定的差異,如何解決這些差異,并完成多個數(shù)據(jù)源實體的對齊任務(wù)成為了實體對齊算法的難點。

        數(shù)據(jù)源中實體普遍存在“一詞多義”和“一義多詞”等問題,如“氧氣”可以代表化學(xué)元素、歌曲名稱、電影名稱、手機(jī)應(yīng)用等多種物質(zhì);物理領(lǐng)域“磁通量”這個實體在不同的百科網(wǎng)站有不同的名稱,在百度百科中命名為“磁通量”,在互動百科中命名為“磁通”。因此僅通過實體的名稱屬性難以確定兩個實體是否為現(xiàn)實中同一實體,需要借助有效的實體對齊算法來判斷兩個實體是否為現(xiàn)實中同一實體,從而完成異構(gòu)數(shù)據(jù)源的知識融合任務(wù)。

        1 實體對齊算法

        實體對齊算法基本分為兩個方向,基于實體相似度理論[3]的實體對齊算法和基于表示學(xué)習(xí)[4]的實體對齊算法。文獻(xiàn)[5]提出了一種實體屬性與上下文主題特征相結(jié)合的實體對齊算法,該算法以人物類和影視類百科數(shù)據(jù)為測試集取得了不錯的實驗效果,但針對不具備完整上下文信息的數(shù)據(jù)表現(xiàn)不佳。文獻(xiàn)[6]提出了一種基于網(wǎng)絡(luò)語義標(biāo)簽的中文知識庫實體對齊算法,在綜合計算多種標(biāo)簽相似度的情況下取得了較好的對齊效果,其優(yōu)點是充分利用了百科網(wǎng)站的分類標(biāo)簽,解決了實體屬性信息缺失、摘要缺失的問題,但存在過度依賴實體標(biāo)簽的問題。文獻(xiàn)[7]針對異構(gòu)數(shù)據(jù)源提出了HistSim和DisNGram兩種選擇算法,HistSim利用實體對齊的歷史數(shù)據(jù)計算實體對相似度,修剪不匹配的實體,DisNGram算法通過字符級別相似性度量來選擇候選對齊實體。文獻(xiàn)[8]針對大規(guī)模數(shù)據(jù)提出了一種基于貪心算法的實體間對齊關(guān)系的推斷方法SiGMa,該方法組合字符串、屬性和結(jié)構(gòu)信息以貪婪的局部搜索方式發(fā)現(xiàn)可對齊的實體。文獻(xiàn)[9]提出一種基于知識圖譜嵌入的Bootstrapping實體對齊算法,通過迭代標(biāo)注出可能對齊的實體,生成新數(shù)據(jù)加入知識嵌入的模型中進(jìn)行訓(xùn)練,綜合利用圖譜全局信息進(jìn)行實體對齊。

        本文提出一種結(jié)合動態(tài)規(guī)劃求解最小編輯距離及引入Doc2vec[10]模型挖掘文本語義特征的實體對齊算法。該算法主要分為兩個部分,第一部分是對實體結(jié)構(gòu)化信息進(jìn)行數(shù)據(jù)規(guī)范化處理,制定統(tǒng)一描述框架,并通過最小編輯距離求解結(jié)構(gòu)化屬性相似度;第二部分是通過Doc2vec模型對已經(jīng)去除停用詞和分詞的非結(jié)構(gòu)化文本進(jìn)行訓(xùn)練,提取包含其語義信息的特征向量,并通過余弦相似度進(jìn)行相似度求解。最終通過權(quán)值調(diào)整,綜合結(jié)構(gòu)化屬性相似度及非結(jié)構(gòu)化文本相似度求解實體綜合相似度進(jìn)行實體對齊判斷。同時設(shè)置對比實驗對本文算法進(jìn)行驗證,實驗表明,本文算法在準(zhǔn)確率和遷移性上均有所提高。

        2 多信息加權(quán)融合實體對齊框架

        本文所解決的實體對齊問題主要針對百科網(wǎng)站及專業(yè)化學(xué)網(wǎng)站等數(shù)據(jù)源,通過設(shè)計網(wǎng)絡(luò)爬蟲爬取各數(shù)據(jù)源中實體的名稱、簡介、信息表、正文和標(biāo)簽等信息作為實驗數(shù)據(jù)。

        (1) 通過數(shù)據(jù)統(tǒng)計算法對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,制定統(tǒng)一的知識表述規(guī)范,同時構(gòu)建專業(yè)名詞詞典,用于訓(xùn)練分詞工具及擴(kuò)展知識庫。

        (2) 針對數(shù)據(jù)預(yù)處理后的結(jié)構(gòu)化屬性引入動態(tài)規(guī)劃最小編輯距離求解其結(jié)構(gòu)化屬性相似度。

        (3) 利用Doc2vec模型深度挖掘非結(jié)構(gòu)化文本語義信息,生成包含文本語義信息的特征向量,并求解余弦相似度獲取非結(jié)構(gòu)化文本相似度。

        (4) 通過權(quán)值調(diào)整,融合結(jié)構(gòu)化屬性相似度及非結(jié)構(gòu)化文本相似度,獲取實體綜合相似度生成候選集合。

        (5) 設(shè)定閾值進(jìn)行實體對齊判斷,輸出可對齊實體集合。

        多信息加權(quán)融合實體對齊框架如圖1所示。

        圖1 多信息加權(quán)融合實體對齊框架

        2.1 研究思路

        (1) 通過對多個數(shù)據(jù)源的本體分析,制定統(tǒng)一的資源描述框架,用于融合后的數(shù)據(jù)存儲。構(gòu)建包含五萬余條專業(yè)名詞的領(lǐng)域詞典,用于實現(xiàn)數(shù)據(jù)擴(kuò)充和訓(xùn)練分詞工具解決分詞過程中專業(yè)名詞強(qiáng)拆分等問題,提高實體對齊算法的實用性。

        (2) 針對實體結(jié)構(gòu)化屬性及非結(jié)構(gòu)化文本,分別采用動態(tài)規(guī)劃最小編輯距離和Doc2vec模型深度挖掘包含文本結(jié)構(gòu)信息及語義信息的特征向量求解其相似度,最終加權(quán)平均融合實體多信息,獲取實體綜合相似度,提高實體對齊算法的準(zhǔn)確性。

        2.2 數(shù)據(jù)預(yù)處理

        2.2.1制定統(tǒng)一描述框架

        各個數(shù)據(jù)源中實體屬性信息包含了實體所擁有的所有屬性及屬性值等信息,但是由于數(shù)據(jù)源的本體異構(gòu)性導(dǎo)致實體存在相同屬性不同表達(dá)方式、相同屬性值不同表述規(guī)范等問題,如百科中“分子量”就存在“分子量”“分子質(zhì)量”“相對分子質(zhì)量”等多種表達(dá)方式,同時相同的物質(zhì)分子量值存在“16”“16g/mol”“16g·mol-1”等多種表達(dá)方式,這種問題會降低模型所求取的實體相似度,從而影響實體對齊的準(zhǔn)確率。因此本文通過數(shù)據(jù)統(tǒng)計將從多數(shù)據(jù)源所爬取實體的所有屬性及屬性值的表示方式進(jìn)行整合,結(jié)合眾包及人工審核的方式,選取化學(xué)領(lǐng)域中常用的屬性及屬性值表示方式為模板,構(gòu)建了統(tǒng)一的知識庫表述規(guī)范。

        2.2.2創(chuàng)建領(lǐng)域詞典輔助分詞

        通過數(shù)據(jù)統(tǒng)計及眾包分析,將所有百科網(wǎng)頁中化學(xué)資源實體的名稱及別名進(jìn)行篩選、分類,同時爬取專業(yè)化學(xué)網(wǎng)站的化學(xué)詞條名稱,構(gòu)建了包含52 124條化學(xué)實體名稱的化學(xué)領(lǐng)域詞典。

        本文采用jieba分詞工具對非結(jié)構(gòu)化文本進(jìn)行分詞,但現(xiàn)有的jieba分詞工具無法識別專業(yè)領(lǐng)域的新型名詞,會產(chǎn)生強(qiáng)拆分問題,例如:“硝基丙烷”會被拆分為“硝基”“丙烷”;“甲苯磺酰氯”會被拆分為“甲苯”“磺酰氯”等,這樣會嚴(yán)重影響訓(xùn)練模型的結(jié)果。因此,將整理的化學(xué)領(lǐng)域詞典引入jieba分詞工具進(jìn)行訓(xùn)練,解決專業(yè)名詞強(qiáng)拆分問題,最終完成對非結(jié)構(gòu)化文本信息的分詞工作,保證分詞的準(zhǔn)確性。

        Doc2vec模型是一種用于句向量訓(xùn)練的模型,在輸入層增添了一個新的句子向量Paragraph,并在同一個句子的若干次訓(xùn)練中是共享的,克服了詞袋模型中忽略詞序的缺點。由于Doc2vec模型需綜合考慮語句中各詞的前后信息,因此在去除停用詞階段僅去除正文中的標(biāo)點符號及各類中英文符號。

        2.3 最小編輯距離求解結(jié)構(gòu)化屬性相似度

        2.3.1最小編輯距離

        字符串的最小編輯距離是形容字符串Str1轉(zhuǎn)換為字符串Str2的最少操作數(shù),字符的操作包含插入、刪除、替換三種,通過對字符串中字符的操作,使兩個字符串相同,則最少的操作數(shù)為兩個字符串的最小編輯距離[11],兩個字符串的最小編輯距離越小證明兩個字符串越相似,相同字符串的最小編輯距離為0。

        將兩個句子Str1與Str2當(dāng)作兩個字符串,假設(shè)Str1與Str2的長度分別為m和n,兩者的編輯距離則可以表示為edit[m][n],則對句子進(jìn)行操作時包含以下幾種情況。

        1)Str1與Str2末尾字符相同情況下不需要進(jìn)行任何操作,則滿足條件edit[m][n]=edit[m-1][n-1]。

        2)Str1與Str2末尾字符不相同情況下則需要對兩者之一的末尾字符進(jìn)行相應(yīng)操作,并計數(shù)加1,具體操作如下:

        (1) 對Str1或Str2的末尾字符進(jìn)行替換操作,使之相等,則此時edit[m][n]=edit[m-1][n-1]+1。

        (2) 刪除Str1末尾的字符,使Str1與Str2相等,則此時edit[m][n]=edit[m-1][n]+1。

        (3) 刪除Str2末尾的字符,使Str2與Str1相等, 則此時edit[m][n]=edit[m][n-1] + 1。

        (4) 在Str1的末尾添加Str2的末尾字符,使Str1與Str2相等,則此時Str1的長度變?yōu)閙+1,但Str1和Str2的末尾字符已經(jīng)相等,因此只需要比較Str1的前m個字符與Str2的前n-1個字符,滿足edit[m][n]=edit[m][n-1]+1。

        (5) 在Str2的末尾添加Str1的末尾字符,使Str2和Str1相等,此時的情況與(4)相同,滿足edit[m][n]=edit[m-1][n]+1。

        3) 特殊情況,當(dāng)Str1為空時,edit[0][n]=n;當(dāng)Str2為空時,edit[m][0]=m。

        根據(jù)以上情況可以得到求解最小編輯距離的動態(tài)規(guī)劃方程為:

        edit[m][n]=

        (1)

        其中flag計算式表示為:

        (2)

        因此可以通過動態(tài)規(guī)劃方法求取兩個句子的最小編輯距離edit(Str1,Str2),同時規(guī)定兩個句子之間的最小編輯距離與最長句子長度的比值為兩句子相似度。

        2.3.2結(jié)構(gòu)化屬性相似度求解

        通過數(shù)據(jù)預(yù)處理,實體E的結(jié)構(gòu)化屬性已經(jīng)規(guī)范化,相同屬性及屬性值的表達(dá)形式及表述規(guī)范都有了極大的相似度,因此可以通過最小編輯距離來比較高效地判斷兩個屬性對是否為同一屬性以及屬性值是否相同。定義實體屬性S1與S2的最小編輯距離為edit(S1,S2),長度分別表示為len(S1)和len(S2),則實體屬性S1與S2的相似度Sim(S1,S2)計算式為:

        (3)

        定義數(shù)據(jù)源A中實體Ea的m個結(jié)構(gòu)化屬性為Pa={Pa1,Pa2,…,Pam},對應(yīng)的屬性值為Va={Va1,Va2,…,Vam};

        定義數(shù)據(jù)源B中實體Eb的n個結(jié)構(gòu)化屬性為Pb={Pb1,Pb2,…,Pbn},對應(yīng)的屬性值為Vb={Vb1,Vb2,…,Vbn};

        實體Ea與實體Eb的t個公共屬性集合CP=Pa∩Pb;

        通過式(4)分別計算公共屬性集合CP中t個屬性的相似度SimCP(Pai,Pbi),其中edit(Vai,Vbi)表示實體Ea與實體Eb第i個公共屬性的最小編輯距離,len(Vai)和len(Vbi)分別表示實體Ea與實體Eb第i個公共屬性的長度。

        (4)

        最終定義wi為實體第i個結(jié)構(gòu)化屬性的權(quán)值,則通過式(5)求取實體Ea與實體Eb最終的結(jié)構(gòu)化屬性相似度SimZ(Ea,Eb)。

        (5)

        2.4 Doc2vec模型求解非結(jié)構(gòu)化文本相似度

        待對齊的實體除了包含結(jié)構(gòu)化屬性信息外還包含大量的非結(jié)構(gòu)化文本信息,這些非結(jié)構(gòu)化文本信息也包含大量的實體特性,如果實體的結(jié)構(gòu)化屬性稀疏或缺失,則難以依靠僅有結(jié)構(gòu)化屬性進(jìn)行相似度求解,充分利用非結(jié)構(gòu)化文本信息的特性,可以達(dá)到更好的實體對齊效果[12]。在非結(jié)構(gòu)化文本的相似度求解過程中主要分為兩個步驟,第一步是通過Doc2vec模型對已經(jīng)預(yù)處理的非結(jié)構(gòu)化文本進(jìn)行聯(lián)合訓(xùn)練,生成包含文本語義信息的特征向量;第二步是獲取訓(xùn)練后實體各個非結(jié)構(gòu)化屬性的特征向量并迭代求解其余弦相似度。

        2.4.1Doc2vec模型

        Doc2vec模型是一種非監(jiān)督式算法,可獲得短語、句子和文章等文本的向量表達(dá),Doc2vec模型主要包含“句向量的分布記憶模型(PV-DM)”和“分布詞袋模型(PV-DBOW)”兩種訓(xùn)練模式[13]。

        如圖2所示,在句向量的分布記憶模型(PV-DM)中每一個段文本用唯一的句向量來表示,存儲在Paragraph矩陣的每一列中,同時每一個詞用詞向量來表示并存儲在矩陣Word的某一列中,每次從一句話中滑動采樣固定長度的詞,取其中一個詞作預(yù)測詞,其他的作輸入詞。輸入詞對應(yīng)的詞向量Wordi和本句話對應(yīng)的句向量Paragraph作為輸入層的輸入,將本句話的向量和本次采樣的詞向量相加求平均或者累加構(gòu)成一個新的向量X,進(jìn)而使用這個向量X預(yù)測此次窗口內(nèi)的預(yù)測詞Word4。

        圖2 句向量的分布記憶模型(PV-DM)原理圖

        句向量的分布記憶模型(PV-DM)從固定長度的句子中采用滑動窗口取樣,通過隨機(jī)梯度下降的方法訓(xùn)練句向量和詞向量,在此過程中通過反向傳播獲得梯度,并針對每一個隨機(jī)句子去更新模型參數(shù),同時在預(yù)測階段通過梯度上升方式獲取一個新句子的句向量[14]。在這個模型里通過前后詞語向量的首尾相連或求均值來預(yù)測新增詞語,則最終生成的句向量可表示從當(dāng)前上下文得來的信息,可以被當(dāng)作包含句子語義信息的特征向量。

        如圖3所示,分布詞袋模型(PV-DBOW)這種方式不把上下文中的詞作為輸入,而是強(qiáng)制這個模型在輸出過程中從句子中隨機(jī)抽取詞來進(jìn)行預(yù)測[15]。即在每次迭代的時候,從文本中采樣得到一個窗口,再從這個窗口中隨機(jī)采樣一個單詞作為預(yù)測任務(wù),讓模型去預(yù)測,輸入就是句向量Paragraph。實際上,其意義在于從每一個隨機(jī)梯度下降的循環(huán)中,抽取一個文本窗口,然后從該文本窗口中抽取一個詞,最終通過一個分類任務(wù)得到句向量。

        圖3 分布詞袋模型(PV-DBOW)原理圖

        2.4.2獲取非結(jié)構(gòu)化文本語義特征向量

        Word2vec模型只是基于詞的維度進(jìn)行“語義分析”,并不具有上下文句子“語義分析”的功能。而Doc2vec模型是對Word2vec模型的改進(jìn),在訓(xùn)練過程中增加了一個段向量,通過在已有上下文和段向量的基礎(chǔ)上預(yù)測單詞存在的概率。因此Doc2vec模型的訓(xùn)練過程是對文本語義的挖掘過程,最終生成的文本表征向量包含了文本的語義信息。

        將兩個數(shù)據(jù)源中所有實體的非結(jié)構(gòu)化文本屬性進(jìn)行編號,并放入同一個文件進(jìn)行存儲,以換行符進(jìn)行分割。使用參數(shù)化的Doc2vec模型進(jìn)行句向量訓(xùn)練,設(shè)置處理的滑動窗口大小為8個單詞,將每個句向量的維度設(shè)置為100維,并從訓(xùn)練結(jié)果中提取每個非結(jié)構(gòu)化文本屬性的句向量表示,生成特征向量文檔[16-19]。

        2.4.3非結(jié)構(gòu)化文本相似度求解

        定義數(shù)據(jù)源A中實體Ea的m個非結(jié)構(gòu)化文本屬性為Fa={Fa1,Fa2,…,Fam};對應(yīng)的特征向量為Va={Va1,Va2,…,Vam}。

        定義數(shù)據(jù)源B中實體Eb的n個非結(jié)構(gòu)化文本屬性為Fb={Fb1,Fb2,…,Fbn};對應(yīng)的特征向量為Vb={Vb1,Vb2,…,Vbn}。

        提取每個待對齊實體對的非結(jié)構(gòu)化文本屬性特征向量V,將實體Ea的每個非結(jié)構(gòu)化文本屬性特征向量Va分別與實體Eb的n個非結(jié)構(gòu)化文本屬性特征向量Vb進(jìn)行余弦相似度求解,|Vai|和|Vbi|表示特征向量Vai和Vbi的模長,則實體對間每個非結(jié)構(gòu)化屬性相似度Sim(Fai,Fbi)的計算式表示為:

        (6)

        設(shè)置相似度閾值為0.4,選取相似度最高屬性對,若相似度大于閾值0.4,則歸為相似屬性,記錄相似度,循環(huán)比較后最終得到的t個相似屬性對,則通過式(7)求取實體Ea與實體Eb的非結(jié)構(gòu)化文本相似度SimF(Ea,Eb)。

        (7)

        2.5 實體對齊判斷

        當(dāng)通過動態(tài)規(guī)劃最小編輯距離及Doc2vec模型訓(xùn)練語義特征向量等方法完成了待對齊實體對的結(jié)構(gòu)化屬性相似度SimZ(Ea,Eb)及非結(jié)構(gòu)化文本相似度SimF(Ea,Eb)的求解后,定義w1、w2分別為結(jié)構(gòu)化屬性及非結(jié)構(gòu)化文本所占的權(quán)值,最終通過式(8)對實體Ea、Eb的結(jié)構(gòu)化屬性相似度SimZ(Ea,Eb)及非結(jié)構(gòu)化屬性相似度SimF(Ea,Eb)進(jìn)行權(quán)值歸一獲取實體綜合相似度SimE(Ea,Eb)。

        SimE(Ea,Eb)=w1·SimZ(Ea,Eb)+w2·SimF(Ea,Eb)

        (8)

        針對數(shù)據(jù)源A中的每個實體Ea通過SimE(Ea,Eb)值對數(shù)據(jù)源B中的實體Eb進(jìn)行降序排序,生成最優(yōu)候選序列,選取相似度最高且大于設(shè)定閾值的實體Eb當(dāng)作可對齊實體。

        3 實驗與結(jié)果分析

        3.1 實驗數(shù)據(jù)集描述

        百度百科及互動百科包含豐富的實體資源及較為完整的屬性信息,因此為了驗證本文算法的有效性,本文分別從百度百科及互動百科中隨機(jī)抽取了部分化學(xué)領(lǐng)域?qū)嶓w,抽取的實體信息包含實體名稱、實體摘要、實體信息表、實體正文等,同時通過數(shù)據(jù)統(tǒng)計及人工標(biāo)注的方法形成了一定數(shù)量的測試集,具體數(shù)據(jù)量如表1所示。

        表1 實驗數(shù)據(jù)集

        3.2 評價指標(biāo)

        實驗采用評價指標(biāo)為準(zhǔn)確率P、召回率R、綜合指標(biāo)F1值,其定義如下:

        (1) 準(zhǔn)確率計算式表示為:

        P=NT/(NT+NF)

        (9)

        式中:NT為實驗對齊結(jié)果中正確對齊的實體對數(shù)目;NF為實驗對齊結(jié)果中錯誤對齊的實體對數(shù)目。

        (2) 召回率計算式表示為:

        R=NT/NA

        (10)

        式中:NA為測試集中存在的可對齊實體對數(shù)目。

        (3) 綜合指標(biāo)F1值計算式表示為:

        F1=2PR/(P+R)

        (11)

        準(zhǔn)確率表示通過本文實體對齊算法后所得到正確對齊結(jié)果的準(zhǔn)確程度;召回率表示通過本文實體對齊算法后得到的準(zhǔn)確對齊實體數(shù)占測試集中所有可準(zhǔn)確對齊實體的比率;F1值為衡量準(zhǔn)確率與召回率的綜合指標(biāo)。

        3.3 實驗設(shè)置

        (1) 權(quán)值w1、w2。本文中實體對齊算法是將實體結(jié)構(gòu)化屬性相似度與非結(jié)構(gòu)化文本相似度通過權(quán)值融合,求解實體綜合相似度,并生成可對齊實體候選集合,判斷實體對齊結(jié)果。因此在權(quán)值確定過程中人工抽取500對可對齊數(shù)據(jù),分別采取結(jié)構(gòu)化屬性權(quán)值與非結(jié)構(gòu)化文本權(quán)值w1:w2由大到小進(jìn)行測試實驗,以平均相似度高低為評價指標(biāo),結(jié)果如圖4所示。

        圖4 w1、w2實驗結(jié)果

        由于實驗數(shù)據(jù)是人工整理的可對齊數(shù)據(jù),因此500對實驗數(shù)據(jù)的平均相似度越高則權(quán)值比例越符合要求。實驗結(jié)果表明結(jié)構(gòu)化屬性與非結(jié)構(gòu)文本權(quán)值w1:w2調(diào)節(jié)為7 ∶3時最合適。將w1、w2代入式(8)可計算實體Ea和Eb的綜合相似度SimE(Ea,Eb)。

        (2) 相似度上界u、下界d、中間界限w。經(jīng)過對多批數(shù)據(jù)集的實驗結(jié)果總結(jié),實體綜合相似度SimE大于0.9的實體對可認(rèn)定為一定可對齊實體,實體對相似度小于0.3的實體對可認(rèn)定為一定不可對齊實體。因此設(shè)置相似度上界u為0.9,相似度下界d設(shè)置為0.3。

        在實體對齊實驗中實體綜合相似度SimE需要在0.3與0.9之間取相似度閾值w,實體綜合相似度小于w的認(rèn)定為不可對齊實體,相似度大于w的認(rèn)定為可對齊實體,w的取值直接影響實驗結(jié)果的準(zhǔn)確率、召回率及F1值。具體結(jié)果如圖5所示。根據(jù)實驗結(jié)果分析可得出如下結(jié)論,所取的相似度閾值w越大,實驗結(jié)果的準(zhǔn)確率越高,召回率越低,反之所取的相似度閾值w越小,實驗結(jié)果的準(zhǔn)確率越低,召回率越高。F1值是評價準(zhǔn)確率和召回率的綜合指標(biāo),因此相似度閾值的取值應(yīng)根據(jù)F1值進(jìn)行選取,由圖5可知當(dāng)相似度閾值取在0.5與0.6之間的時候F1值達(dá)到峰值,實驗中取w為0.55。

        圖5 w取值實驗結(jié)果圖

        3.4 實驗結(jié)果

        確定好模型及參數(shù)后,在整理好的實驗數(shù)據(jù)集上進(jìn)行測試,實驗結(jié)果如表2所示,表中分別列出了百度百科及互動百科部分實體名稱及通過多信息加權(quán)融合實體對齊算法求取的相似度,以及實體對齊結(jié)果。實驗結(jié)果可以驗證在預(yù)先設(shè)定的相似度閾值w為0.55情況下,多信息加權(quán)融合實體對齊算法可以獲得很好的對齊效果。

        表2 實體對齊結(jié)果

        3.5 對比實驗

        為了進(jìn)一步驗證本文算法(MED+Doc2vec)的有效性,設(shè)置了如下對比實驗,對比實驗結(jié)果如表3所示。

        表3 對比實驗及結(jié)果

        (1) MED+Doc2vec。采用最小編輯距離(MED)求解結(jié)構(gòu)化屬性相似度,Doc2vec模型挖掘非結(jié)構(gòu)化文本語義信息,生成包含語義信息的特征向量,求解相似度,除召回率略低于LCS-LDA方法,準(zhǔn)確率及F1值較其他方法均有提高。綜合各項評價指標(biāo),可驗證本文算法的有效性。

        (2) MED+Word2vec。采用最小編輯距離(MED)求解結(jié)構(gòu)化屬性相似度,Word2vec模型訓(xùn)練特征詞向量,采用向量拼接方法獲取非結(jié)構(gòu)化文本特征向量,計算非結(jié)構(gòu)化文本相似度,最終綜合求解實體相似度判斷對齊結(jié)果。由于Word2vec模型主要是針對詞向量進(jìn)行訓(xùn)練,只考慮詞的前后信息,經(jīng)過拼接形成的句向量無法完全體現(xiàn)句子的語義信息導(dǎo)致準(zhǔn)確率較低。

        (3) LCS+LDA。采用最長公共子序列(LCS)求解結(jié)構(gòu)化屬性相似度,LDA提取非結(jié)構(gòu)化文本主題詞,構(gòu)建特征向量,計算非結(jié)構(gòu)化文本相似度,最終綜合求解實體相似度判斷對齊結(jié)果。由于LDA是一種詞袋模型,主要通過提取的主題詞進(jìn)行向量建模,導(dǎo)致特征向量不能完全體現(xiàn)句子的完整信息造成準(zhǔn)確率略低于本文算法。

        (4) LCS+TF-IDF。采用最長公共子序列(LCS)求解結(jié)構(gòu)化屬性相似度,TF-IDF提取非結(jié)構(gòu)化文本特征,構(gòu)建特征向量,計算非結(jié)構(gòu)化文本相似度,最終綜合求解實體相似度判斷對齊結(jié)果。由于TF-IDF僅考慮句子中出現(xiàn)詞的詞頻特征,導(dǎo)致無法充分體現(xiàn)句子的語義信息,造成實驗準(zhǔn)確率較低。

        通過對比實驗結(jié)果可得多信息加權(quán)融合實體對齊算法除召回率略低于LCS+LDA實體對齊算法外,準(zhǔn)確率及F1值較其他實體對齊算法均有明顯提高。召回率略低于LCS+LDA實體對齊算法是實驗數(shù)據(jù)中實體信息的缺失導(dǎo)致的,由于Doc2vec模型更注重通過詞語順序挖掘句子的語義信息,因此相比于LDA模型更加依賴信息的完整程度。但綜合多項評價指標(biāo)及最終實驗結(jié)果,多信息加權(quán)融合實體對齊算法在準(zhǔn)確率及實用性上均表現(xiàn)更佳。

        4 結(jié) 語

        為了解決多源異構(gòu)數(shù)據(jù)庫融合過程中實體對齊的問題,本文針對現(xiàn)有實體對齊算法的不足之處,提出一種多信息加權(quán)融合的實體對齊算法。通過動態(tài)規(guī)劃最小編輯距離求解實體結(jié)構(gòu)化屬性相似度,結(jié)合Doc2vec模型深度挖掘非結(jié)構(gòu)化文本語義信息,并求解包含語義信息的特征向量相似度,最終通過權(quán)值調(diào)節(jié),融合結(jié)構(gòu)化及非結(jié)構(gòu)化屬性相似度,獲得實體綜合相似度完成實體對齊任務(wù)。以百度百科及互動百科化學(xué)領(lǐng)域?qū)嶓w為數(shù)據(jù)集進(jìn)行了實驗驗證,并通過與多種實體對齊算法的比較,有效驗證了多信息加權(quán)融合實體對齊算法的有效性。

        后續(xù)的研究將進(jìn)一步對算法進(jìn)行優(yōu)化調(diào)整,并將本文算法應(yīng)用于多種不同領(lǐng)域進(jìn)行實驗驗證,同時深入研究大規(guī)模數(shù)據(jù)環(huán)境下實體對齊算法的效率問題,這對異構(gòu)數(shù)據(jù)源的融合及完整知識圖譜的構(gòu)建有非常重要的意義。

        猜你喜歡
        數(shù)據(jù)源特征向量結(jié)構(gòu)化
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        一類特殊矩陣特征向量的求法
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        人妻无码在线免费| 国产特级毛片aaaaaa视频| 最新高清无码专区| 久久国产亚洲精品超碰热| 日韩国产有码精品一区二在线| 美妇炮灰被狂躁爽到高潮h| 久久99国产精一区二区三区 | 国产精品毛片va一区二区三区| 无码综合天天久久综合网| 国产在线精品福利大全| 在线观看国产激情免费视频| 每日更新在线观看av| 东方aⅴ免费观看久久av| 国产视频在线一区二区三区四区| 最好的99精品色视频大全在线| 日韩人妻熟女中文字幕a美景之屋 国产suv精品一区二区四 | 亚洲第一无码精品久久| 国产成人亚洲综合二区| 欧美嫩交一区二区三区| 亚洲永久无码7777kkk| 亚洲无线码一区在线观看| 久久精品国产亚洲综合av| 国产免费爽爽视频在线观看| 久久麻豆精品国产99国产精| 日本道免费一区日韩精品| av素人中文字幕在线观看| 精品无码一区在线观看| 美女爽好多水快进来视频| 精品成人av人一区二区三区| 蜜臀av无码人妻精品| 国产精品美女| 男女视频网站免费精品播放| 极品少妇xxxx精品少妇偷拍| 最近日本中文字幕免费完整 | 中国娇小与黑人巨大交| 最近中文字幕视频高清| 久久久久久AV无码成人| 91国产精品自拍在线观看| 国产乱码一二三区精品| 老色鬼永久精品网站| 男男做h嗯啊高潮涩涩|