黃廷磊 張偉莉,3 梁 霄 付 琨
(1中科院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100190)(2中國(guó)科學(xué)院電子學(xué)研究所, 北京 100190)(3中國(guó)科學(xué)院大學(xué), 北京 100049)
數(shù)據(jù)驅(qū)動(dòng)的細(xì)粒度中文屬性對(duì)齊方法
黃廷磊1,2張偉莉1,2,3梁 霄1,2付 琨1,2
(1中科院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100190)(2中國(guó)科學(xué)院電子學(xué)研究所, 北京 100190)(3中國(guó)科學(xué)院大學(xué), 北京 100049)
為提高中文開(kāi)源數(shù)據(jù)集間屬性關(guān)系識(shí)別的準(zhǔn)確率,提出一種數(shù)據(jù)驅(qū)動(dòng)的細(xì)粒度對(duì)齊方法,綜合利用屬性的擴(kuò)展、定義域等對(duì)屬性間的同義、包含、相關(guān)等關(guān)系進(jìn)行統(tǒng)一識(shí)別.方法首先利用統(tǒng)計(jì)理論確定屬性的數(shù)據(jù)類型,并給出類型感知的屬性相似度計(jì)算方法.在此基礎(chǔ)上,將屬性關(guān)系識(shí)別建模為多分類問(wèn)題,抽取有效特征對(duì)不同關(guān)系進(jìn)行描述并用于隨機(jī)森林模型的構(gòu)建.實(shí)驗(yàn)結(jié)果表明,該方法中屬性數(shù)據(jù)類型判別的準(zhǔn)確率達(dá)94.6%,最終對(duì)同義、包含、相關(guān)關(guān)系識(shí)別的F1值分別為71.3%,57.3%及59.9%.相比只關(guān)注同義屬性的傳統(tǒng)方法,細(xì)粒度屬性對(duì)齊方法不僅提高了同義屬性識(shí)別的準(zhǔn)確性,而且可識(shí)別出相互包含和相關(guān)的屬性,證明了其在中文開(kāi)源數(shù)據(jù)集上的有效性.
中文屬性對(duì)齊;屬性數(shù)據(jù)類型判別;屬性相似度;異構(gòu)數(shù)據(jù)集成;知識(shí)圖譜構(gòu)建
開(kāi)放鏈接數(shù)據(jù)項(xiàng)目(linking open data,LOD)的出現(xiàn)促進(jìn)了大規(guī)模語(yǔ)義數(shù)據(jù)的發(fā)布與互聯(lián),LOD云圖中來(lái)自不同數(shù)據(jù)集、不同領(lǐng)域的大量結(jié)構(gòu)化信息,對(duì)基于知識(shí)的應(yīng)用產(chǎn)生了很大影響[1].鑒于鏈接數(shù)據(jù)的重要價(jià)值,國(guó)內(nèi)學(xué)者構(gòu)建了zhishi.me[2]、XLore[3]、zhishi.schema[4]、CN-DBpedia等多種中文知識(shí)圖譜[5],并成立了OpenKG.CN知識(shí)圖譜社區(qū),以推動(dòng)中文數(shù)據(jù)的開(kāi)放與互聯(lián)[6].
在構(gòu)建中文知識(shí)圖譜以及鏈接不同知識(shí)庫(kù)的過(guò)程中,需要對(duì)異構(gòu)數(shù)據(jù)集間的概念、實(shí)體、屬性等進(jìn)行對(duì)齊與融合[5-7],以提高圖譜的數(shù)據(jù)質(zhì)量,增強(qiáng)知識(shí)庫(kù)之間的互聯(lián)互通.其中,屬性對(duì)齊旨在識(shí)別來(lái)自單一或多數(shù)據(jù)集的屬性之間存在的對(duì)應(yīng)關(guān)系[8],其結(jié)果將直接影響圖譜中事實(shí)三元組的質(zhì)量,以及實(shí)體對(duì)齊[9]、語(yǔ)義檢索[1]等的效果.與概念和實(shí)體相比,屬性的名稱富于變化[10-11],同義與多義情況更普遍,且屬性名的字面含義與實(shí)際使用中的意義可能不一致[12];此外,在很多數(shù)據(jù)集中,屬性的結(jié)構(gòu)信息較缺乏[12],這些都導(dǎo)致屬性對(duì)齊具有更大的挑戰(zhàn)性.
屬性對(duì)齊是模式匹配[13]或本體對(duì)齊[8,14]的一部分,傳統(tǒng)方法大多依賴屬性描述文本[11]、本體結(jié)構(gòu)[15]、語(yǔ)義原語(yǔ)[14]等,但這些信息在中文原始數(shù)據(jù)(如百科)以及部分知識(shí)庫(kù)中不存在或不完整[16].數(shù)據(jù)驅(qū)動(dòng)的方法[17-18]建立在屬性的實(shí)例數(shù)據(jù)上,可在一定程度上解決上述問(wèn)題[12].例如,Gunaratna等[1]和Zhang等[12]利用三元組間的重疊識(shí)別LOD中的同義屬性,后者給出了屬性對(duì)齊的無(wú)監(jiān)督框架.Liu等[19]則將屬性對(duì)齊轉(zhuǎn)化為屬性函數(shù)的相似性計(jì)算問(wèn)題.此外,Adar等[20]進(jìn)行了跨語(yǔ)言的維基百科信息框?qū)傩詫?duì)齊,Wang等[21]對(duì)檢索返回的知識(shí)卡片中的屬性進(jìn)行融合.然而,很多方法只關(guān)注同義屬性的識(shí)別,較少考慮屬性間的其他關(guān)系;少部分進(jìn)行子屬性識(shí)別的方法[9]也主要適用于成熟的LOD數(shù)據(jù)集.
本文提出一種數(shù)據(jù)驅(qū)動(dòng)的細(xì)粒度屬性對(duì)齊方法,通過(guò)使用統(tǒng)計(jì)理論確定屬性的數(shù)據(jù)類型并給出類型感知的屬性相似性測(cè)度,以提高算法對(duì)不規(guī)范數(shù)據(jù)的適應(yīng)性;將屬性對(duì)齊建模為多分類問(wèn)題,使用監(jiān)督學(xué)習(xí)的方法識(shí)別屬性間的同義、包含、相關(guān)等細(xì)粒度關(guān)系,提高屬性語(yǔ)義關(guān)系判別的準(zhǔn)確率和全面性.
根據(jù)OWL(web ontology language)的規(guī)范,Web中的資源可用一系列形如〈主語(yǔ),謂語(yǔ),賓語(yǔ)〉的三元組描述,其三要素依次對(duì)應(yīng)實(shí)體、屬性和屬性值.其中實(shí)體可被劃分到不同的類別(概念),如人、動(dòng)物等;屬性可分為數(shù)值型和對(duì)象型屬性,前者的屬性值為文本,而后者的屬性值是實(shí)體.一個(gè)屬性可出現(xiàn)在多個(gè)三元組中,其中的實(shí)體-屬性值對(duì)構(gòu)成的集合為該屬性的擴(kuò)展,擴(kuò)展中所有實(shí)體的概念構(gòu)成屬性的定義域.
記〈e,p,l〉為數(shù)據(jù)集D中的三元組,Ep為屬性p的擴(kuò)展中實(shí)體的集合,Mp為p的定義域;Le,p表示給定實(shí)體e和屬性p時(shí)的屬性值集合,若Le,p只包含一個(gè)元素,則p為函數(shù)型屬性,如“生日”,否則為非函數(shù)型屬性,如“父母”.
1.1 屬性數(shù)據(jù)類型
定義1(屬性數(shù)據(jù)類型) 一個(gè)屬性所有屬性值的數(shù)據(jù)類型構(gòu)成的集合,稱為該屬性的數(shù)據(jù)類型.即給定屬性p,其數(shù)據(jù)類型為
Tp={tle∈Ep,l∈Le,p}
(1)
式中,tl代表屬性值l的數(shù)據(jù)類型,為進(jìn)行區(qū)分,下文稱其為基本類型.
考慮6種基本類型,即數(shù)值型、數(shù)值范圍型、時(shí)間型、時(shí)間范圍型、字符串型以及對(duì)象型,將這6種類型構(gòu)成的全集記為U.由定義1知,屬性的數(shù)據(jù)類型是U的子集,因?yàn)閷?duì)某些多義屬性而言,其不同義項(xiàng)可能對(duì)應(yīng)不同類型.例如“出生”可代表“出生日期”或“出生地點(diǎn)”,第1個(gè)義項(xiàng)的屬性值是時(shí)間型,第2個(gè)則是字符串型.
1.2 細(xì)粒度關(guān)系
參考zhishi.schema[4],考慮屬性間的如下幾種細(xì)粒度關(guān)系:
1) 同義關(guān)系.若2個(gè)屬性的擴(kuò)展相同,則它們同義,如“生日”與“出生日期”.
2) 包含關(guān)系.若一個(gè)屬性的擴(kuò)展是另一個(gè)的真子集,則前者是子屬性,后者是父屬性.如“父親”是“父母”的子屬性.
3) 相關(guān)關(guān)系.若2個(gè)屬性既不同義也不包含,但具有較高的語(yǔ)義相關(guān)性,則稱其相關(guān),如“導(dǎo)演”與“編劇”.
4) 無(wú)關(guān).不存在上述3種關(guān)系的其他情況.
其中,同義和包含關(guān)系的定義引自O(shè)WL,用來(lái)描述理想情況,可用于指導(dǎo)真實(shí)數(shù)據(jù)集的對(duì)齊;相關(guān)關(guān)系則根據(jù)實(shí)際情況抽象得到,是一種相對(duì)較弱的關(guān)系[4].
1.3 細(xì)粒度屬性對(duì)齊
圖1舉例說(shuō)明了細(xì)粒度屬性對(duì)齊的目標(biāo)及基本流程.
圖1 細(xì)粒度屬性對(duì)齊示例
2.1 算法描述
細(xì)粒度屬性對(duì)齊方法主要包括屬性數(shù)據(jù)類型判別、屬性相似性計(jì)算、特征生成與關(guān)系分類等部分,具體過(guò)程如算法1所示.
算法1 細(xì)粒度屬性對(duì)齊算法
輸入:φ=(Γ1,Γ2,Emap,Cmap),標(biāo)注集Slabel;
//屬性數(shù)據(jù)類型判別
forDin [D1,D2] do
forp∈Ddo
τ←?;
foreinEpdo
forlinLe,pdo
τ.append(tl);
Tp1←filter(τ);
Flabel←?,Funlabel←?;
forp1∈D1do
forp2∈D2do
//屬性相似性計(jì)算
σ←?;
fore∈Ep1∩Ep2do
σ.append(sL(Le,p1,Le,p2));
sp(p1,p2)←aggregate(σ);
//特征生成
if (p1,p2) inSlabelthen
Flabel.append(features(p1,p2));
else
Funlabel.append(features(p1,p2));
//屬性關(guān)系分類
hφ←classifier.fit(Flabel,Slabel);
O←hφ.predict(Funlabel);
end
2.2 屬性數(shù)據(jù)類型判別
2.2.1 確定屬性值的基本類型
定義2(原子文本) 若某個(gè)文本僅包含一種基本類型的值,則稱其為原子文本.
例如,“2016年8月”是時(shí)間型的原子文本,而“1402年(老大學(xué))”同時(shí)包含時(shí)間值和字符串值,因而不是原子文本.
任意屬性值l可看作由n(n≥1)個(gè)原子文本ai(1≤i≤n)拼接而成,其基本類型通常與其中幾個(gè)關(guān)鍵原子文本的類型保持一致.考慮到關(guān)鍵原子文本占整個(gè)屬性值的長(zhǎng)度比例通常較大,故使用下式判斷l(xiāng)的基本類型:
(2)
式中,I為指示函數(shù),tai=t時(shí)為1,否則為0;glen為求文本長(zhǎng)度的函數(shù).
2.2.2 確定屬性的數(shù)據(jù)類型
給定屬性p,其數(shù)據(jù)類型可由式(1)確定.但由于原始數(shù)據(jù)在表達(dá)上的多樣性和不規(guī)范性,基本類型的判別結(jié)果可能存在錯(cuò)誤,故將式(1)修改為
(3)
即統(tǒng)計(jì)各類型的比例,比例低于閾值θ的判斷為噪聲,對(duì)其進(jìn)行舍棄以提高最終結(jié)果的準(zhǔn)確性.
2.3 相似度計(jì)算
若2個(gè)屬性常被用于描述相同的實(shí)體,且描述相同實(shí)體時(shí)其屬性值有較高的語(yǔ)義相似度,則2個(gè)屬性可能相似.據(jù)此,給出屬性p1和p2相似性測(cè)度的計(jì)算公式:
(4)
為計(jì)算屬性值的相似性,首先對(duì)集合Le,p1進(jìn)行預(yù)處理.對(duì)?l∈Le,p1,選取其中基本類型與p1的數(shù)據(jù)類型一致的原子文本,構(gòu)成關(guān)鍵原子文本集合代替l,以去除非關(guān)鍵部分可能帶來(lái)的干擾.例如“創(chuàng)建年份”是時(shí)間型屬性,則其屬性值“1402年(老大學(xué)),1582年(新大學(xué))”的關(guān)鍵原子文本集合為{“1402年”, “1582年”}.
合并Le,p1中所有屬性值的關(guān)鍵原子文本集合,得到集合A1.對(duì)Le,p2進(jìn)行同樣處理得到A2,并基于最佳匹配集[19]計(jì)算A1和A2的相似性.圖2舉例說(shuō)明了確定最佳匹配集的基本流程.
圖2 最佳匹配集的確定示例
記A1和A2的最佳匹配集為BA1,A2,則屬性值的相似性為
(5)
式中,sa為2個(gè)原子文本的相似性測(cè)度,其計(jì)算方法隨文本的基本類型而變化:① 若2個(gè)值均為數(shù)值或均為時(shí)間值,計(jì)算基于相對(duì)誤差的相似性[21];② 若均為字符串,計(jì)算TF-IDF余弦相似性[11];③ 若均為數(shù)值范圍,計(jì)算對(duì)應(yīng)邊界數(shù)值相似性的均值,若為數(shù)值和數(shù)值范圍,則計(jì)算前者與后者邊界數(shù)值相似性的最大值,時(shí)間范圍同理;④ 若均為對(duì)象型,則2個(gè)值完全相同時(shí)相似度為1,否則為0;⑤ 其余情況簡(jiǎn)化為字符串處理.
2.4 特征生成
由于特征的選取對(duì)分類效果有重要影響,因此本節(jié)主要給出關(guān)系識(shí)別所用特征.
2.4.1 針對(duì)所有關(guān)系
屬性的相似性是關(guān)系識(shí)別的基礎(chǔ),故有特征
f1=sp(p1,p2)
2.4.2 針對(duì)相關(guān)關(guān)系
此外,相關(guān)屬性的屬性值通常會(huì)有一部分是完全不同的,因此有
f4較大說(shuō)明p1與p2的關(guān)系較弱,可能只存在相關(guān)關(guān)系,甚至無(wú)關(guān).
2.4.3 針對(duì)包含關(guān)系
Suchanek等[9]提出PARIS方法,并指出父屬性的使用場(chǎng)景通常比子屬性廣泛,計(jì)算2個(gè)擴(kuò)展交集的大小與各擴(kuò)展大小之比,比例越小越可能是父屬性.該測(cè)度定義在實(shí)體與屬性值層面,當(dāng)2個(gè)數(shù)據(jù)集的屬性分布不平衡時(shí)效果不穩(wěn)定[12].而概念定義于更抽象的層面,屬性不平衡分布對(duì)其影響較小,故將PARIS中的測(cè)度遷移到概念層,給出基于定義域的特征
式中,Mp1為p1的定義域;ce為實(shí)體e所屬的概念;f6為f5的加權(quán)表示,各概念的權(quán)重正比于該概念下包含當(dāng)前屬性的實(shí)體數(shù)目.
此外,多義屬性可能是父屬性,例如“出生”是“出生時(shí)間”和“出生地點(diǎn)”的父屬性.從數(shù)據(jù)類型的角度考慮,即子屬性的數(shù)據(jù)類型可能是父屬性數(shù)據(jù)類型的子集,則有
f7=I(Tp1?Tp2),f8=I(Tp1?Tp2)
最后,屬性值集合的包含關(guān)系也可表征屬性間的包含關(guān)系,由此可給出如下特征:
該值較大表明p1可能是p2的子屬性.
3.1 數(shù)據(jù)集
選取中文維基百科(Dw)和百度百科(Db)作為數(shù)據(jù)集.下載2016年3月的中文維基dumps文件,同時(shí)期抓取約123萬(wàn)個(gè)百度百科的實(shí)體頁(yè)面.利用頁(yè)面的信息框生成三元組,并預(yù)處理屬性值,將其中由分隔符連接的并列值分割為多個(gè)屬性值,相應(yīng)地更新三元組,規(guī)范非函數(shù)型屬性.最終從Dw和Db中解析得到約112萬(wàn)和655萬(wàn)個(gè)三元組.相同概念的映射通過(guò)人工標(biāo)注得到.維基的分類體系較龐大,因此只選其中較上層(如深度不超過(guò)3)的概念與百度百科中的概念進(jìn)行人工對(duì)齊.之后使用文獻(xiàn)[22]中的組合規(guī)則,綜合考慮實(shí)體的標(biāo)題、內(nèi)容、類別等信息獲取相同實(shí)體的映射.
從2個(gè)百科中分別隨機(jī)選取300個(gè)屬性,人工標(biāo)注各屬性的數(shù)據(jù)類型,所得數(shù)據(jù)集的樣本分布情況如表1所示,其中復(fù)雜數(shù)據(jù)類型包含多種基本類型.
表1 屬性數(shù)據(jù)類型判別數(shù)據(jù)集的樣本分布情況
使用2.3節(jié)的方法計(jì)算任意屬性對(duì)(p1,p2)(p1∈Dw,p2∈Db)的相似性,選取相似性大于零的屬性對(duì)進(jìn)行屬性關(guān)系的標(biāo)注.包含關(guān)系又分為“父-子”和“子-父”2種,若(p1,p2)被標(biāo)注為“父-子”,則將(p2,p1)標(biāo)記為“子-父”,反之亦然,以擴(kuò)展標(biāo)注數(shù)據(jù).為避免數(shù)據(jù)不平衡,僅從初始標(biāo)注結(jié)果中隨機(jī)選取部分無(wú)關(guān)屬性對(duì).最終得到屬性對(duì)齊的標(biāo)注數(shù)據(jù)集,相應(yīng)的分布情況如表2所示.
表2 屬性對(duì)齊數(shù)據(jù)集的樣本分布情況
3.2 屬性數(shù)據(jù)類型判別
將屬性數(shù)據(jù)類型判別的數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集(80%)和測(cè)試集,改變閾值θ時(shí)在訓(xùn)練集上的宏平均準(zhǔn)確率(P)、召回率(R)和綜合指標(biāo)(F1)如圖3所示.
圖3 訓(xùn)練集上的宏平均測(cè)度隨閾值θ的變化情況
取使F1最大的值為最優(yōu)閾值,即θ=0.24.此時(shí)本文方法在測(cè)試集上的宏平均準(zhǔn)確率、召回率和F1值分別為94.6%,92.8%和93.3%.分析發(fā)現(xiàn),即使有部分屬性值表達(dá)不規(guī)范,本文方法的識(shí)別準(zhǔn)確率仍較高,因其基于統(tǒng)計(jì)理論,可過(guò)濾小概率噪聲.以下情況可能帶來(lái)誤判:① 屬性值稀疏,缺乏統(tǒng)計(jì)基礎(chǔ);② 屬性較復(fù)雜,數(shù)據(jù)類型超出定義范圍,如維基百科屬性“生日出生地點(diǎn)”.但整體來(lái)看,本文方法仍有較高準(zhǔn)確率,在不規(guī)范開(kāi)源中文數(shù)據(jù)集上的魯棒性較好.
3.3 細(xì)粒度屬性對(duì)齊
將屬性對(duì)齊的數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集(80%)和測(cè)試集.為確定細(xì)粒度屬性對(duì)齊方法(fine-grained property alignment,FIGPA)的分類模型,選擇邏輯回歸(LR)、支持向量機(jī)(SVM)、決策樹(shù)(DT)和隨機(jī)森林(RF)4種分類模型.各模型在測(cè)試集上的效果如表3所示.可以看出,隨機(jī)森林模型效果相對(duì)最好,因此選其為FIGPA的分類模型.
表3 FIGPA使用不同分類模型的F1值對(duì)比 %
將FIGPA與其他3種方法進(jìn)行對(duì)比.方法1(SUPV-EA)來(lái)源于文獻(xiàn)[12]中的同義屬性對(duì)識(shí)別方法(簡(jiǎn)寫(xiě)為EA).EA關(guān)注不完善本體中的屬性對(duì)齊,并且使用數(shù)據(jù)驅(qū)動(dòng)方法,在適用場(chǎng)景、方法選擇上與FIGPA類似.但EA在選擇相似性閾值時(shí)使用無(wú)監(jiān)督算法,為保證公平性,可在測(cè)試集上多次實(shí)驗(yàn)選取閾值,則修改后的SUPV-EA方法是有監(jiān)督的.方法2(SIMP-PARIS)使用PARIS中判斷子屬性的概率測(cè)度識(shí)別屬性間的同義和包含關(guān)系.與FIGPA只利用初始的相同實(shí)體映射完成屬性對(duì)齊類似,SIMP-PARIS也只進(jìn)行一次迭代,并利用在測(cè)試集上實(shí)驗(yàn)選取的閾值對(duì)結(jié)果進(jìn)行劃分.方法3(BI-IA)來(lái)源于文獻(xiàn)[20],利用二分類模型識(shí)別跨語(yǔ)言的同義信息框?qū)傩?與FIGPA同為監(jiān)督學(xué)習(xí)的方法.BI-IA使用了文獻(xiàn)[20]中除翻譯特征(6維)之外的其他特征(19維),同樣選擇隨機(jī)森林模型作為分類模型.
為適應(yīng)各方法的分類能力,對(duì)屬性對(duì)齊的數(shù)據(jù)集做相應(yīng)調(diào)整:對(duì)SUPV-EA和BI-IA,將數(shù)據(jù)集中相關(guān)與包含屬性的標(biāo)簽調(diào)整為無(wú)關(guān),對(duì)SIMP-PARIS則將相關(guān)屬性標(biāo)記為無(wú)關(guān).利用訓(xùn)練集訓(xùn)練BI-IA的模型,并確定SUPV-EA和SIMP-PARIS的閾值.各方法在測(cè)試集上的性能如表4所示,其中FIGPA和BI-IA的結(jié)果為10次實(shí)驗(yàn)的平均值.
表4 不同屬性對(duì)齊方法的性能比較 %
根據(jù)表4,本文方法對(duì)同義和相關(guān)關(guān)系識(shí)別的F1值分別為71.3%和57.3%,對(duì)“父-子”和“子-父”包含關(guān)系識(shí)別的平均F1值為59.9%.與SUPV-EA和BI-IA相比,FIGPA可區(qū)分出相關(guān)及包含的屬性,一定程度上避免了這2種關(guān)系被錯(cuò)分為同義關(guān)系,從而提高了同義屬性識(shí)別的準(zhǔn)確率;與SIMP-PARIS相比,FIGPA為包含關(guān)系生成更細(xì)致的特征表示,降低了屬性不平衡分布的影響.綜上,本文方法在開(kāi)源中文數(shù)據(jù)集的細(xì)粒度屬性對(duì)齊上有良好表現(xiàn).
為驗(yàn)證各特征的作用,將所有特征分為3組,每次去掉一組后重新訓(xùn)練模型,預(yù)測(cè)結(jié)果與使用所有特征時(shí)的差值如表5所示,其中負(fù)值代表F1值降低,正值則代表提高.可看到,移除任一組特征,模型總體性能均會(huì)降低,以f1的影響最為明顯,因?yàn)橄嗨贫葘?duì)于不同關(guān)系有較強(qiáng)的區(qū)分作用.去除f2~f4對(duì)相關(guān)關(guān)系影響較大,f5~f9對(duì)包含關(guān)系識(shí)別較重要,證明了特征的有效性.
表5 移除不同特征后F1值的變化
1) 利用統(tǒng)計(jì)理論確定屬性的數(shù)據(jù)類型,在不規(guī)范數(shù)據(jù)集上準(zhǔn)確率可達(dá)94.6%.
2) 基于數(shù)據(jù)類型信息,給出類型感知的屬性相似性測(cè)度.
3) 將細(xì)粒度屬性關(guān)系識(shí)別建模為多分類問(wèn)題,提取包括相似度、數(shù)據(jù)類型、定義域等在內(nèi)的特征表示各語(yǔ)義關(guān)系的特點(diǎn),在中文百科數(shù)據(jù)集上,本文方法對(duì)同義、包含、相關(guān)關(guān)系識(shí)別的F1值分別為71.3%,57.3%及59.9%.
4) 數(shù)據(jù)驅(qū)動(dòng)的細(xì)粒度屬性對(duì)齊方法與傳統(tǒng)方法相比,不僅提高了同義屬性識(shí)別的準(zhǔn)確性,而且可有效發(fā)現(xiàn)包含、相關(guān)等屬性,因而更適用于數(shù)據(jù)表達(dá)靈活、屬性關(guān)系復(fù)雜的開(kāi)源中文數(shù)據(jù)集.
下一步研究將針對(duì)相關(guān)和包含關(guān)系添加更多有效特征,提高這2種屬性關(guān)系的識(shí)別效果.
References)
[1]Gunaratna K, Thirunarayan K, Jain P, et al. A statistical and schema independent approach to identify equivalent properties on linked data[C]//I-Semantics2013, 9thInternationalConferenceonSemanticSystems. Graz, Austria, 2013: 33-40. DOI: 10.1145/2506182.2506187.
[2]Niu X, Sun X, Wang H, et al. Zhishi.me-weaving Chinese linking open data[C]//10thInternationalSemanticWebConference. Bonn, Germany, 2011: 205-220. DOI: 10.1007/978-3-642-25093-4_14.
[3]Wang Z C, Wang Z G, Li J Z, et al. Knowledge extraction from Chinese wiki encyclopedias[J].JournalofZhejiangUniversityScienceC, 2012, 13(4): 268-280. DOI: 10.1631/jzus.C1101008.
[4]Wang H, Wu T, Qi G, et al. On publishing Chinese linked open schema[C]//13thInternationalSemanticWebConference. Riva del Garda, Italy, 2014: 293-308. DOI:10.1007/978-3-319-11964-9_19.
[5]徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(4):589-606. DOI: 10.3969/j.issn.1001-0548.2016.04.012. Xu Zenglin, Sheng Yongpan, He Lirong, et al. Review on knowledge graph techniques[J].JournalofUniversityofElectronicScienceandTechnologyofChina, 2016, 45(4): 589-606. DOI: 10.3969/j.issn.1001-0548.2016.04.012. (in Chinese)
[6]漆桂林,高桓,吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程,2017,3(1):4-25. Qi Guilin, Gao Huan, Wu Tianxing. The research advances of knowledge graph[J].TechnologyIntelligenceEngineering, 2017, 3(1): 4-25. (in Chinese)
[7]Qiu L, Yu J, Pu Q, et al. Knowledge entity learning and representation for ontology matching based on deep neural networks[J].ClusterComputing, 2017, 20(2): 969-977. DOI: 10.1007/s10586-017-0844-1.
[8]Shvaiko P, Euzenat J. Ontology matching: State of the art and future challenges[J].IEEETransactionsonKnowledge&DataEngineering, 2013, 25(1): 158-176. DOI: 10.1109/TKDE.2011.253.
[9]Suchanek F M, Abiteboul S, Senellart P. PARIS: Probabilistic alignment of relations, instances, and schema[J].ProceedingsoftheVLDBEndowment, 2011, 5(3): 157-168. DOI: 10.14778/2078331.2078332.
[10]Cheatham M, Hitzler P. The properties of property alignment[C]//9thInternationalConferenceonOntologyMatching. Riva del Garda, Italy, 2014: 13-24.
[11]Cheatham M, Hitzler P. String similarity metrics for ontology alignment[C]//12thInternationalSemanticWebConference. Sydney, Australia, 2013: 294-309. DOI:10.1007/978-3-642-41338-4_19.
[12]Zhang Z, Gentile A L, Blomqvist E, et al. An unsupervised data-driven method to discover equivalent relations in large linked datasets[J].SemanticWeb, 2017, 8(2): 197-223.
[13]王峰,李小平,王茜.基于形式概念分析的模式匹配算法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,39(1):34-39. Wang Feng, Li Xiaoping, Wang Qian. Formal concept analysis based schema matching[J].JournalofSoutheastUniversity(NaturalScienceEdition), 2009, 39(1): 34-39. (in Chinese)
[14]Jean-Mary Y R, Shironoshita E P, Kabuka M R. Ontology matching with semantic verification[J].WebSemanticsScienceServicesandAgentsontheWorldWideWeb, 2009, 7(3): 235-251. DOI: 10.1016/j.websem.2009.04.001.
[15]Seddiqui M H, Aono M. An efficient and scalable algorithm for segmented alignment of ontologies of arbitrary size[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb, 2009, 7(4): 344-356. DOI: 10.1016/j.websem.2009.09.001.
[16]Ruan T, Dong X, Wang H, et al. Evaluating and comparing web-scale extracted knowledge bases in Chinese and English[C]//5thJointInternationalConference,JIST2015. Yichang, China, 2015: 167-184. DOI: 10.1007/978-3-319-31676-5_12.
[17]Li J, Tang J, Li Y, et al. RiMOM: A dynamic multistrategy ontology alignment framework[J].IEEETransactionsonKnowledge&DataEngineering, 2009, 21(8): 1218-1232. DOI: 10.1109/TKDE.2008.202.
[18]Fu L, Wang H, Jin W, et al. Towards better understanding and utilizing relations in DBpedia[J].WebIntelligence&AgentSystems, 2012, 10(3): 291-303. DOI: 10.3233/WIA-2012-0247.
[19]Liu Y, Chen S H, Chen J G G. Property alignment of linked data based on similarity between functions[J].InternationalJournalofDatabaseTheory&Application, 2015, 8(4): 191-206. DOI: 10.14257/ijdta.2015.8.4.20.
[20]Adar E, Skinner M, Weld D S. Information arbitrage across multi-lingual Wikipedia[C]//ProceedingsoftheSecondACMInternationalConferenceonWebSearchandDataMining. Barcelona, Spain, 2009: 94-103. DOI: 10.1145/1498759.1498813.
[21]Wang H, Fang Z, Zhang L, et al. Effective online knowledge graph fusion[C]//14thInternationalSemanticWebConference. Bethlehem, PA, USA, 2015: 286-302. DOI:10.1007/978-3-319-25007-6_17.
[22]胡芳槐.基于多種數(shù)據(jù)集的中文知識(shí)圖譜構(gòu)建方法研究[D].上海:華東理工大學(xué)信息科學(xué)與工程學(xué)院,2015.
Data-driven method for fine-grained property alignment between Chinese open datasets
Huang Tinglei1,2Zhang Weili1,2,3Liang Xiao1,2Fu Kun1,2
(1CAS Key Laboratory of Technology in Geo-spatial Information Processing and Application System, Beijing 100190, China) (2Institute of Electronics, Chinese Academy of Sciences, Beijing 100190, China) (3University of Chinese Academy of Sciences, Beijing 100049, China)
In order to improve the performance of property alignment between heterogeneous Chinese open datasets, a data-driven method for fine-grained alignment is proposed, which exploits the extension and domain information of properties to find equivalence, subsumption and relevance relations between properties in a unified way. First, the data types of properties are determined utilizing statistical theory, and a type-aware metric is given to calculate the similarity of properties. Based on that, the property relation recognition is modeled as a multi-classification problem, and effective features are generated to represent different property relationships and construct the random forest classifier. The experimental results show that, the proposed method can reach a precision of 94.6% in determining data types of properties, and the finalF1measures in recognizing equivalent, subsumptive and relevant properties are 71.3%, 57.3% and 59.9%, respectively. Compared with the traditional approaches that only focus on equivalent properties, the fine-grained property alignment method can improve the precision in recognizing equivalent properties, and recognize subsumptive and relevant properties, proving its effectiveness on Chinese open datasets.
Chinese property alignment; property data type determination; similarity of properties; heterogeneous data integration; construction of knowledge graphs
10.3969/j.issn.1001-0505.2017.04.006
2016-11-15. 作者簡(jiǎn)介: 黃廷磊(1971—),男,博士,教授,博士生導(dǎo)師,tlhuang@mail.ie.ac.cn.
國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)資助項(xiàng)目(2012AA011005).
黃廷磊,張偉莉,梁霄,等.數(shù)據(jù)驅(qū)動(dòng)的細(xì)粒度中文屬性對(duì)齊方法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,47(4):660-666.
10.3969/j.issn.1001-0505.2017.04.006.
TP182
A
1001-0505(2017)04-0660-07