碎片化家譜數(shù)據(jù)的融合技術(shù)?

2021-11-09 05:51:58吳信東卜晨陽

軟件學(xué)報 2021年9期

關(guān)鍵詞：家譜實體語義

吳信東,李嬌,周鵬,卜晨陽

1(大數(shù)據(jù)知識工程教育部重點實驗室(合肥工業(yè)大學(xué)),安徽合肥 230009)

2(合肥工業(yè)大學(xué) 計算機與信息學(xué)院,安徽合肥 2 30601)

3(合肥工業(yè)大學(xué) 大知識科學(xué)研究院,安徽合肥 2 30009)

4(明略科技集團,北京 100 102)

5(安徽大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,安徽合肥 2 30601)

隨著互聯(lián)網(wǎng)、云計算等技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)空間中的數(shù)據(jù)以不可預(yù)計的速度增長,信息社會進入了大數(shù)據(jù)時代[1].除了大數(shù)據(jù)的“5V”特征外,數(shù)據(jù)碎片化已成為大數(shù)據(jù)處理中不可忽視的問題.如何有效地融合這些碎片化數(shù)據(jù),從多源異構(gòu)的碎片化數(shù)據(jù)中獲取整個大數(shù)據(jù)集合的全局?jǐn)?shù)據(jù)特征,繼而從海量碎片化數(shù)據(jù)中提取出有價值的信息,已成為學(xué)術(shù)界的研究重點和熱點.

在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)的多源異構(gòu)性,來自不同數(shù)據(jù)源的碎片化數(shù)據(jù)往往具有不同的數(shù)據(jù)結(jié)構(gòu)和形式.碎片化數(shù)據(jù)融合的首要挑戰(zhàn)就是:如何從這些多源異構(gòu)的數(shù)據(jù)中抽取出真正有價值的信息,使用合適的處理機制對碎片化數(shù)據(jù)進行提取和分析.另外,碎片化數(shù)據(jù)融合并不只是簡單地將數(shù)據(jù)“拼湊”在一起,而是通過分析碎片化數(shù)據(jù)之間的內(nèi)在聯(lián)系,得到新的、完整的數(shù)據(jù).此外,經(jīng)過融合后的數(shù)據(jù)通常具有復(fù)雜的語義關(guān)系,為此,我們需要尋找一種標(biāo)準(zhǔn)化的數(shù)據(jù)表示方式對其進行存儲與表示.故而,碎片化數(shù)據(jù)融合極具挑戰(zhàn)性[2].本文以碎片化家譜數(shù)據(jù)融合為例,詳細闡述了數(shù)據(jù)融合過程中存在的問題和解決方案.

家譜資料的數(shù)字化使得網(wǎng)絡(luò)中的家譜數(shù)據(jù)資源不斷增多,是典型的碎片化數(shù)據(jù).家譜與正史、地方志并列為我國歷史研究的三大基石之一[3],它不僅記錄族人最基本的世系狀況,還記錄族人的姓氏源流、族規(guī)家訓(xùn)等內(nèi)容,涉及歷史、人口、經(jīng)濟等多門學(xué)科[4],具有重要的學(xué)術(shù)價值和史料價值[5].從這些多源分散的家譜數(shù)據(jù)開始,使用大數(shù)據(jù)技術(shù)及手段對其進行碎片化重組及融合,有利于對家譜中歷史、經(jīng)濟等復(fù)雜信息的研究與分析,深度揭示家譜大數(shù)據(jù)中尚未發(fā)現(xiàn)的或難以處理的問題,增強人民群眾對尋根問祖的需求,增加海外華僑對祖國的認(rèn)同感,實現(xiàn)大數(shù)據(jù)技術(shù)與人文社會科學(xué)研究的“雙贏”[6,7].

現(xiàn)有的專門針對家譜數(shù)據(jù)的研究較少,且大多數(shù)都側(cè)重于對家譜數(shù)據(jù)的存儲研究[8?11],缺少對家譜數(shù)據(jù)融合及知識挖掘與推理方面的研究.其主要原因在于:一方面,大量的家譜數(shù)據(jù)屬于傳統(tǒng)數(shù)據(jù)資源,在大數(shù)據(jù)時代,這些數(shù)據(jù)必須與其他數(shù)據(jù)進行有效整合才能更易于被用戶使用,比如電子化、網(wǎng)絡(luò)化等,因此往往需要面對著非常巨大的處理成本和轉(zhuǎn)換成本[12];另一方面,家譜大數(shù)據(jù)真正難以對付的挑戰(zhàn)來自于數(shù)據(jù)類型多樣、數(shù)據(jù)多源異構(gòu)的特征和數(shù)據(jù)的不確定性[13].

針對碎片化大數(shù)據(jù)的分析和應(yīng)用,吳信東等人提出了一種大數(shù)據(jù)知識工程模型BigKE[2],該模型采用一種三層次的知識建模方法:首先,對多源異構(gòu)數(shù)據(jù)中的碎片化知識進行建模;然后,使用知識圖譜對碎片化知識進行非線性融合;最后,以用戶需求為導(dǎo)向,提供具有個性化和實時使用價值的知識服務(wù)[14].BigKE 考慮到大數(shù)據(jù)的異構(gòu)和自治特征,對大數(shù)據(jù)挖掘形成的知識圖譜提出了個性化服務(wù)的導(dǎo)航,更有利于和具體的應(yīng)用實例結(jié)合.

在大數(shù)據(jù)知識工程BigKE 的技術(shù)框架下,吳信東團隊推出了面向所有華人姓氏的家譜系統(tǒng)——華譜系統(tǒng)(華譜系統(tǒng)網(wǎng)址:http://zhonghuapu.com).華譜系統(tǒng)通過對家譜數(shù)據(jù)進行碎片化知識融合,旨在為用戶提供姓氏的起源、姓氏的變遷、姓氏間關(guān)聯(lián)等信息.目前,華譜系統(tǒng)中人物數(shù)量已超過1587 萬,姓氏數(shù)目已超過720,數(shù)據(jù)源超過500 個.系統(tǒng)數(shù)據(jù)量還在與日俱增.

在華譜系統(tǒng)中碎片化家譜數(shù)據(jù)融合過程的基礎(chǔ)上,結(jié)合HAO 模型[15],本文提出一個針對碎片化數(shù)據(jù)的融合框架 FDF-HAO(fragmented da ta fusion framework with human i ntelligence,a rtificial i ntelligence and organizational intelligence).該框架從碎片化數(shù)據(jù)開始,通過HI(人類智能)、AI(人工智能)和OI(組織智能)三者的交互和協(xié)同,實現(xiàn)多源異構(gòu)的碎片化數(shù)據(jù)的融合,最后形成一個由實體和各種關(guān)系鏈接而成的網(wǎng)狀知識庫,即家譜人物知識圖譜.人類智能指領(lǐng)域?qū)＜覀兯峁┑膶＜抑R.人工智能指機器完成的智能工作,如自然語言處理技術(shù)、機器學(xué)習(xí)算法等.組織智能涵蓋了一個組織的全部知識能力[15],在本文中指家譜領(lǐng)域內(nèi)的領(lǐng)域規(guī)范或行業(yè)標(biāo)準(zhǔn).

本文提出的FDF-HAO 融合框架具有以下幾個特點.

(1)通過HI、AI 和OI 三者的交互和協(xié)作,為大規(guī)模、異構(gòu)、多源的碎片化數(shù)據(jù)融合提供智能支持;

(2)通過對家譜數(shù)據(jù)語義和語法特征的觀察與分析,基于HI 和OI 提供的專家知識和數(shù)據(jù)標(biāo)準(zhǔn),在框架內(nèi)提出了新的針對家譜數(shù)據(jù)的數(shù)據(jù)抽取方法;

(3)在HI 的協(xié)作下,采用了一個面向家譜人物的無監(jiān)督實體對齊算法,能夠準(zhǔn)確高效地從海量家譜數(shù)據(jù)中識別出相同人物;

(4)結(jié)合OI 制定一套多源異構(gòu)家譜人物屬性的沖突解決機制,能夠簡單高效地從多個沖突值中選擇真值;

(5)根據(jù)家譜數(shù)據(jù)的特點,在HI 和OI 的智能支持下,設(shè)計了一個面向家譜領(lǐng)域的屬性融合算法,能夠從多源、碎片化的數(shù)據(jù)中凝練出實體的統(tǒng)一的、準(zhǔn)確的、有用的描述.

本文第1 節(jié)對相關(guān)工作進行闡述.第2 節(jié)對本文提出的碎片化數(shù)據(jù)融合框架FDF-HAO 進行詳細描述.第3節(jié)舉例驗證本文提出框架的有效性,并對框架中采用的關(guān)鍵技術(shù)與同類技術(shù)進行性能對比分析.第4 節(jié)對碎片化數(shù)據(jù)融合過程中仍存在的挑戰(zhàn)進行闡述,并對其應(yīng)用前景進行展望.第5 節(jié)對全文做總結(jié).

1 相關(guān)工作

1.1 數(shù)據(jù)抽取

數(shù)據(jù)抽取的主要任務(wù)是從大量結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中準(zhǔn)確、快速地抽取實體、關(guān)系以及實體屬性等結(jié)構(gòu)化信息[16].根據(jù)所需抽取信息的種類,數(shù)據(jù)抽取可分為3 個模塊:實體抽取、關(guān)系抽取、屬性抽取.

1.1.1 實體抽取

實體抽取,也稱為命名實體識別(name entity rec ognition,簡稱NER),指識別文本中具有特定意義的實體,主要包括人名、組織機構(gòu)名、地名等[17].早期對實體抽取的方法主要是基于規(guī)則的方法,即人工構(gòu)建規(guī)則,再從文本中尋找匹配這些規(guī)則的字符串.例如,Rau[18]采用啟發(fā)式算法與人工編寫規(guī)則相結(jié)合的方法,從財經(jīng)新聞中自動抽取公司名稱,實現(xiàn)了不錯的效果.但是,人工制定這些規(guī)則需要耗費大量時間和精力,而且規(guī)則對領(lǐng)域知識的依賴性較高,當(dāng)領(lǐng)域差別很大時,制定的規(guī)則無法重用,可擴展性較差.

后來,隨著機器學(xué)習(xí)在NLP 領(lǐng)域的興起,人們開始嘗試使用機器學(xué)習(xí)方法解決實體抽取問題.機器學(xué)習(xí)方法是指從樣本數(shù)據(jù)集合中統(tǒng)計出相關(guān)特征和參數(shù),以此建立識別模型[19].Lai 等人[20]結(jié)合統(tǒng)計原理和條件隨機場模型,對專利中的化學(xué)名稱進行識別,在不同數(shù)據(jù)集上的F值均高于70%.Hwang 等人[21]通過分析學(xué)術(shù)期刊摘要中同時出現(xiàn)在特定詞語周圍的特定詞語之間的搭配關(guān)系,建立了一個實體識別模型.Akkasi 等人[22]利用條件隨機場模型為命名實體識別創(chuàng)建各種基線分類器,然后結(jié)合粒子群優(yōu)化算法和貝葉斯方法對分類器進行選擇和有效組合.實驗表明,該方法選擇的分類器集成性能優(yōu)于單一的最優(yōu)分類器,也優(yōu)于采用其他常用選擇/組合策略形成的兩個語料庫的集成性能.

近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)成為機器學(xué)習(xí)領(lǐng)域新的熱潮,一些學(xué)者開始將深度學(xué)習(xí)技術(shù)應(yīng)用在NER 問題上,以求進一步提高NER 的效果[23].Peng 等人[24]借鑒LSTM 在自動分詞上得到較好的結(jié)果,提出一種LSTM 與CRF 相結(jié)合的模型.結(jié)果顯示,該方法的F值比之前的方法高了將近5%.Qiu 等人[25]提出了一種基于條件隨機域的殘差擴張卷積神經(jīng)網(wǎng)絡(luò)(RD-CNN-CRF),使模型在計算上具有異步性,大大加快了訓(xùn)練周期,實現(xiàn)了中文臨床命名實體識別.

1.1.2 關(guān)系抽取

實體和實體之間存在著語義關(guān)系,當(dāng)兩個實體出現(xiàn)在同一個句子或同一段落里時,上下文環(huán)境就決定了兩個實體間的語義關(guān)系,通過關(guān)系將實體聯(lián)系起來,才能夠形成網(wǎng)狀的知識結(jié)構(gòu)[26].

經(jīng)典的實體關(guān)系抽取方法主要分為有監(jiān)督、半監(jiān)督、弱監(jiān)督和無監(jiān)督這4 類.有監(jiān)督的實體關(guān)系抽取主要分為基于特征和基于核函數(shù)的方法[27].甘麗新等人[28]通過將2 個實體各自的依存句法關(guān)系進行組合,獲取依存句法關(guān)系組合特征,利用依存句法分析和詞性標(biāo)注選擇最近句法依賴動詞特征,使用支持向量機實現(xiàn)了實體關(guān)系的抽取.但是有監(jiān)督方法需要大量的標(biāo)注數(shù)據(jù),浪費時間和精力.因此,人們繼而提出了基于半監(jiān)督、弱監(jiān)督和無監(jiān)督的關(guān)系抽取方法.陳立瑋等人[29]針對弱監(jiān)督學(xué)習(xí)中標(biāo)注數(shù)據(jù)不完全可靠的情況,提出基于booststrapping思想的協(xié)同訓(xùn)練方法來對弱監(jiān)督關(guān)系抽取模型進行強化,并且對預(yù)測關(guān)系時的協(xié)同策略進行了詳細分析.Hasegawa 等人[30]提出了一個無監(jiān)督的關(guān)系抽取方法,其核心思想是,根據(jù)命名實體之間的上下文詞的相似性對命名實體進行聚類.

隨著近年來深度學(xué)習(xí)的崛起,學(xué)者們逐漸將深度學(xué)習(xí)應(yīng)用到關(guān)系抽取任務(wù)中,主要基礎(chǔ)方法有CNN,RNN,LSTM 等.Leng 等人[31]提出了一種改進的疊加去噪自動編碼器的深度學(xué)習(xí)模型,用于提取不同命名實體之間的關(guān)系.Ji 等人[32]充分利用知識庫的有監(jiān)督信息,在PCNN 和注意力機制的基礎(chǔ)上實現(xiàn)了關(guān)系的抽取.

1.1.3 屬性抽取

屬性抽取是指在無序信息文本中將關(guān)注實體的屬性特征進行集中的提取,可以觀察和總結(jié)出此實體關(guān)于此屬性的價值信息.目前,針對人物屬性的抽取研究逐漸增多,并通過不斷改進研究方法,抽取工作已取得不錯的成果.

屬性抽取當(dāng)前的研究熱點是對半結(jié)構(gòu)化數(shù)據(jù)的信息抽取.然而,有大量的實體屬性信息隱藏在非結(jié)構(gòu)化數(shù)據(jù)中,如何從海量非結(jié)構(gòu)化數(shù)據(jù)中抽取實體屬性是值得關(guān)注的問題.對于非結(jié)構(gòu)化數(shù)據(jù)的屬性抽取,目前有兩種解決方案:一種是通過自動抽取半結(jié)構(gòu)化數(shù)據(jù)中的實體屬性,生成訓(xùn)練語料庫,用于實體屬性標(biāo)注模型,然后將其應(yīng)用在非結(jié)構(gòu)化數(shù)據(jù)的實體屬性抽取中[33];另一種方案是采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性與屬性值之間的關(guān)系模式,實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的屬性抽取.實際上,實體屬性值附近一般都存在一些用于限制和界定該屬性值含義的關(guān)鍵詞,因此可以利用這些關(guān)鍵詞來定位實體屬性值,進行屬性抽取[34].

1.2 數(shù)據(jù)融合

數(shù)據(jù)融合主要是指整合表示同一個現(xiàn)實世界對象的多個數(shù)據(jù)源和知識描述,形成統(tǒng)一的、準(zhǔn)確的、有用的描述的過程[35],其過程可分為實體對齊、沖突消解、屬性融合.

1.2.1 實體對齊

在真實語言環(huán)境中,經(jīng)常會遇到同一實體指稱項對應(yīng)著多個不同實體的情況.例如,“李娜”這個姓名可以對應(yīng)于作為歌手的李娜,也可以對應(yīng)于作為網(wǎng)球運動員的李娜.另一種情況同樣存在,即不同實體指稱項對應(yīng)于同一實體.例如,“孔子”“孔丘”“孔仲尼”等姓名都代表同一個人物“孔子”.因此,實體對齊問題應(yīng)運而生.實體對齊[36]是判斷相同或不同數(shù)據(jù)集中的兩個實體是否指向真實世界同一對象的過程.

最初,實體對齊方法主要基于文本相似性函數(shù)對實體進行特征匹配.但這種方法僅考慮實體的上下文語義信息,忽略了實體之間存在的“共現(xiàn)”關(guān)系.1969年,Fellegi 和Sunter[37]提出一種基于傳統(tǒng)概率模型的實體對齊方法,通過將基于屬性相似性評分的實體匹配問題轉(zhuǎn)化為分類問題,建立了這個問題的概率模型.這種模型是實體對齊領(lǐng)域的重要方法,迄今為止,仍然有大量的實體對齊方面的工作建立在這種方法之上.

隨著機器學(xué)習(xí)的興起,很多機器學(xué)習(xí)方法也逐漸應(yīng)用到實體對齊領(lǐng)域,并取得了巨大的進展.機器學(xué)習(xí)方法主要將實體對齊問題看作是二元分類問題,根據(jù)是否使用標(biāo)注數(shù)據(jù),可以分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類.Chen 等人[38]結(jié)合兩種監(jiān)督學(xué)習(xí)的方法,將多種基礎(chǔ)實體對齊系統(tǒng)和上下文特征映射起來,形成統(tǒng)一的聚類決策模型.

但是在大規(guī)模數(shù)據(jù)的情況下,實體對齊過程中的訓(xùn)練數(shù)據(jù)是較難獲取的,往往需要耗費大量的時間和精力去對數(shù)據(jù)進行標(biāo)注.Guan 等人[39]提出了一種自學(xué)習(xí)的實體對齊方法,充分利用了實體屬性中包含的語義信息,迭代查找語義對齊的實體對.

在實體對齊過程中,候選實體對的生成對結(jié)果的正確性起著十分重要的作用.通常來說,為了發(fā)現(xiàn)所有的候選實體對,需要將一個知識庫中的所有實體與另一個知識庫中的所有實體進行比較,這將導(dǎo)致算法的計算復(fù)雜度隨著數(shù)據(jù)規(guī)模二次增長.

1.2.2 沖突消解

檢測出碎片化數(shù)據(jù)中的相同實體后,我們需要對相同的實體的信息進行融合,將同一實體的所有屬性信息合并成一條完整的實體描述信息.但在融合過程中,不同數(shù)據(jù)源中同一實體的信息可能會因為錯誤、丟失、數(shù)據(jù)過期等原因出現(xiàn)沖突的情況[40].因此,我們需要在各數(shù)據(jù)源提供的值中,選擇與真實世界相一致的值,即數(shù)據(jù)的真值.這個過程我們稱之為數(shù)據(jù)沖突消解[41].

數(shù)據(jù)沖突消解方法層出不窮,現(xiàn)有的數(shù)據(jù)沖突消解方法大都通過關(guān)系擴展的方式實現(xiàn),并定義了若干沖突消解策略和沖突消解函數(shù)[36].但這類方法在適應(yīng)性和準(zhǔn)確性方面分別存在著一定的不足,難以適應(yīng)大規(guī)模數(shù)據(jù)的沖突消解任務(wù).另外,還有一些沖突消解策略是從多個沖突值中選擇真值.Yin 等人[42]基于一些啟發(fā)式規(guī)則提出了一個解決數(shù)據(jù)沖突問題迭代計算的準(zhǔn)則,設(shè)計出了TruthFinder 算法.但這種方法僅考慮數(shù)據(jù)源和數(shù)據(jù)值之間的關(guān)系,沒有考慮到數(shù)據(jù)源之間的依賴關(guān)系,這在一定程度上會對最終結(jié)果造成不利影響.Lyu 等人[43]提出一種無監(jiān)督的沖突消解模型,利用數(shù)據(jù)源-數(shù)據(jù)源和數(shù)據(jù)源-數(shù)據(jù)值之間的關(guān)系構(gòu)造一個異構(gòu)網(wǎng)絡(luò),并將其嵌入至一個低維空間中,自動地發(fā)現(xiàn)數(shù)據(jù)的真值.

另外,現(xiàn)有沖突消解方法主要是對所有屬性的數(shù)據(jù)沖突問題采取同等對待的方式.但這些方法并沒有考慮不同屬性的沖突程度可能不同,也沒有考慮不同屬性間的相互影響,這在一定程度上也會導(dǎo)致沖突消解的準(zhǔn)確率降低.

1.2.3 屬性融合

在對不同數(shù)據(jù)源的實體信息進行融合時,我們發(fā)現(xiàn)這些數(shù)據(jù)源的信息中,存在名稱不同含義相同或名稱相同含義不同的屬性.因此,我們需要對實體的屬性進行判斷,把名稱不同但含義相同的屬性進行合并,或者把名稱相同卻含義不同的屬性進行拆分,從而獲得更準(zhǔn)確、更豐富的屬性信息.這個過程我們稱之為屬性融合.

現(xiàn)有的屬性融合的方法包括基于相似距離計算的方法、基于統(tǒng)計語言模型的方法和基于詞典匹配的方法等,主要通過建立模型等方式對實體屬性進行相似度計算.2014年,Jakub 等人[44]通過比較數(shù)據(jù)集的特征和聚集屬性信息來計算兩個屬性的最小距離,再通過KNN 算法實現(xiàn)屬性對齊.該方法能夠在沒有丟失重要信息的前提下實現(xiàn)屬性對齊,能夠預(yù)測個人屬性和對齊屬性的距離.

2 碎片化數(shù)據(jù)融合框架

本節(jié)先闡述碎片化數(shù)據(jù)融合框架的主要結(jié)構(gòu),然后以華譜系統(tǒng)中碎片化家譜數(shù)據(jù)融合為例,詳細介紹碎片化數(shù)據(jù)融合框架中家譜數(shù)據(jù)在每層的處理過程和解決方案,以驗證本文提出的碎片化數(shù)據(jù)融合框架的有效性.

2.1 概述

本文提出了一個碎片化數(shù)據(jù)融合框架FDF-HAO,通過HI、AI 和OI 三者的交互和協(xié)同,為多源異構(gòu)碎片化數(shù)據(jù)的融合過程提供智能支持.該框架在HAO 智能的技術(shù)背景下,以碎片化數(shù)據(jù)為起點,通過數(shù)據(jù)獲取、數(shù)據(jù)抽取、數(shù)據(jù)規(guī)范和數(shù)據(jù)融合這4 個模塊的處理,最后形成一個由實體和各種關(guān)系鏈接而成的網(wǎng)狀知識庫,即知識圖譜.框架圖如圖1所示.碎片化數(shù)據(jù)融合過程可分為以下4 個部分.

(1)數(shù)據(jù)獲取層.數(shù)據(jù)獲取層的主要功能是使用爬蟲技術(shù)(AI)從互聯(lián)網(wǎng)中獲取不同來源和形式的數(shù)據(jù).不同數(shù)據(jù)源所涉及的數(shù)據(jù)類型有很多種,如文本文件、表格文件、網(wǎng)頁數(shù)據(jù)等.因此,數(shù)據(jù)獲取層中獲取的碎片化數(shù)據(jù)具有多源、異構(gòu)的特點;

(2)數(shù)據(jù)抽取層.為了實現(xiàn)數(shù)據(jù)的統(tǒng)一存儲,數(shù)據(jù)抽取層從底層多源異構(gòu)的碎片化數(shù)據(jù)中提取出有價值的信息,其關(guān)鍵在于結(jié)合HI 和OI,采用自然語言處理技術(shù)(AI),通過對自然語言的詞法、句法的分析,實現(xiàn)實體、關(guān)系、屬性的抽取;

(3)數(shù)據(jù)規(guī)范層.數(shù)據(jù)規(guī)范層的主要功能是:在OI 提供的數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)下,將從數(shù)據(jù)抽取層中提取的信息標(biāo)準(zhǔn)化、規(guī)范化,以避免因語義異構(gòu)性引起的數(shù)據(jù)沖突等問題;

(4)數(shù)據(jù)融合層.數(shù)據(jù)融合層是碎片化數(shù)據(jù)融合框架的核心,在HI 和OI 的智能支持下,使用機器學(xué)習(xí)技術(shù)(AI)將數(shù)據(jù)規(guī)范層中標(biāo)準(zhǔn)化后的數(shù)據(jù)進行實體對齊、沖突解決和屬性融合,形成以關(guān)系為有向邊的數(shù)據(jù)網(wǎng)絡(luò),為后期的高級知識應(yīng)用和服務(wù)提供數(shù)據(jù)基礎(chǔ).

Fig.1 FDF-HAO framework圖1 FDF-HAO 框架結(jié)構(gòu)圖

2.2 數(shù)據(jù)獲取層

首先,在數(shù)據(jù)獲取層中,主要是從互聯(lián)網(wǎng)中采集多源、異構(gòu)、碎片化的家譜數(shù)據(jù).本文使用爬蟲技術(shù)(AI),在利用webcollector(https://github.com/CrawlScript/WebCollector)爬蟲框架的基礎(chǔ)上,實現(xiàn)對網(wǎng)絡(luò)中家譜數(shù)據(jù)的獲取.家譜數(shù)據(jù)源主要為上海圖書館、百度文庫、豆丁網(wǎng)等網(wǎng)站.數(shù)據(jù)獲取層主要包括以下3 個過程.

(1)確定網(wǎng)頁地址(URL)

通常情況下,傳入爬蟲的是網(wǎng)站的主頁,即用戶最先瀏覽的主頁,而后根據(jù)不同的需求在主頁相關(guān)的網(wǎng)頁之間進行切換.確定網(wǎng)頁地址有兩種方式:a)通過獲取網(wǎng)站主頁中的超鏈接,確定需要爬取數(shù)據(jù)的網(wǎng)頁地址;b)尋找網(wǎng)站中各網(wǎng)頁地址的規(guī)律,通過代碼自動生成網(wǎng)頁地址.

(2)解析網(wǎng)頁文件

觀察爬取后的數(shù)據(jù)及其格式,通過程序?qū)?shù)據(jù)進行解析,過濾無用數(shù)據(jù),提取所需要的信息.

(3)存儲數(shù)據(jù)

根據(jù)爬取數(shù)據(jù)的格式,為其選擇合適的存儲方式,一般可以存儲為TXT,WORD 等格式的文件.

2.3 數(shù)據(jù)抽取層

本節(jié)首先對家譜數(shù)據(jù)的文本特點進行總結(jié)與分析,然后介紹本文在家譜數(shù)據(jù)特點的基礎(chǔ)上所設(shè)計的家譜數(shù)據(jù)抽取方法.

2.3.1 家譜數(shù)據(jù)文本特點

家譜數(shù)據(jù)的形式主要有表格、文本、網(wǎng)頁這3 種,其中,文本是家譜中較常見的數(shù)據(jù)類型.而與傳統(tǒng)的文本相比,家譜數(shù)據(jù)中的文本不管是結(jié)構(gòu)還是語言,都具有其獨特性.

(1)碎片化特征

隨著家譜文獻的數(shù)字化,互聯(lián)網(wǎng)中的家譜數(shù)據(jù)逐漸增多,海量的家譜數(shù)據(jù)堪稱人文社科領(lǐng)域的大數(shù)據(jù).由于大數(shù)據(jù)的特征——海量、多源、異構(gòu)、碎片化,針對家譜數(shù)據(jù)的信息抽取任務(wù)存在著巨大的挑戰(zhàn).

(2)結(jié)構(gòu)特點

家譜數(shù)據(jù)中的文本通常以“世系圖+人物描述”形式記錄人物信息:“世系圖”為樹形結(jié)構(gòu),記載男性人物親屬關(guān)系,該部分可用于人物姓名及關(guān)系抽取;“人物描述”為一段記敘性文字,記載該人物屬性信息及其人物關(guān)系,該部分是人物信息抽取的關(guān)鍵部分.家譜數(shù)據(jù)的這兩部分結(jié)構(gòu)中的內(nèi)容可用于交叉驗證人物姓名及關(guān)系抽取的正確性.

(3)語言特點

與傳統(tǒng)的文本數(shù)據(jù)相比,家譜數(shù)據(jù)使用的語言有其獨有的特點:a)包含大量繁體字及生僻字;b)經(jīng)常使用一些偏文言文的詞匯和語法,如“妣”“適”等;c)同一份家譜中,人物的描述性信息通常具有相同的模式.

家譜中的人物信息隱藏在文本數(shù)據(jù)中,計算機很難自動對其進行處理.因此,自然語言處理、數(shù)據(jù)抽取等技術(shù)在家譜數(shù)據(jù)的挖掘和推理中將發(fā)揮重要的作用.同時,家譜數(shù)據(jù)的碎片化特征、結(jié)構(gòu)特點和語言特點給這些技術(shù)在家譜領(lǐng)域內(nèi)的應(yīng)用帶來新的機遇和挑戰(zhàn),其挑戰(zhàn)主要在于家譜的用詞語法和行文風(fēng)格與開放領(lǐng)域文本或其他領(lǐng)域文本截然不同.因此,已有的自然語言處理工具如分詞、依存句法分析等在家譜數(shù)據(jù)上都有可能失效.同時,通過充分利用家譜數(shù)據(jù)的特點,如家譜數(shù)據(jù)中較強的模式化表達習(xí)慣、語言精練準(zhǔn)確無歧義等,可以使得處理難度大為降低,并利用結(jié)構(gòu)之間的聯(lián)系進行信息歸納和推理.

2.3.2 家譜數(shù)據(jù)抽取方法

家譜數(shù)據(jù)多是以自然語言描述的非結(jié)構(gòu)化文本,并且包含大量領(lǐng)域內(nèi)特有詞匯及語法,與機器語言之間存在巨大鴻溝,導(dǎo)致用計算機直接處理和分析家譜數(shù)據(jù)的效率較低,也影響了分析結(jié)果的質(zhì)量.通過對家譜數(shù)據(jù)的觀察,我們發(fā)現(xiàn):家譜數(shù)據(jù)在行文和布局上具有一定的結(jié)構(gòu)和規(guī)律,但不同家譜的行文方式和布局結(jié)構(gòu)又不盡相同.對于具有一定結(jié)構(gòu)的家譜數(shù)據(jù)來說,采用基于啟發(fā)式規(guī)則的方法進行數(shù)據(jù)抽取最為簡單高效.但面對大量不同種類不同結(jié)構(gòu)的家譜數(shù)據(jù),如果對每一份家譜均編寫一套相應(yīng)的規(guī)則,將耗費大量的人力物力,在實際應(yīng)用中,實用性非常低,不具有通用性.因此,本文提出一種基于HAO 模型的通用家譜信息抽取方法,在OI 提供的家譜領(lǐng)域規(guī)范的標(biāo)準(zhǔn)下,利用HI 和AI 的協(xié)同作用,對家譜數(shù)據(jù)進行信息抽取.由上一小節(jié)中對家譜數(shù)據(jù)的分析可知,家譜數(shù)據(jù)中的文本通常以“世系圖+人物描述”形式記錄人物信息.因此,我們分別對“世系圖”及“人物描述”中的信息進行抽取,在經(jīng)過專家(HI)確認(rèn)后的“世系圖”數(shù)據(jù)抽取結(jié)果的協(xié)助下,對“人物描述”中所包含的人物屬性信息和人物間關(guān)系進行抽取.

(1)“世系圖”數(shù)據(jù)抽取

“世系圖”以樹形結(jié)構(gòu)記載家譜中男性人物的親屬關(guān)系.我們可以通過計算機讀取家譜中的“世系圖”部分,從中抽取家譜人物姓名.但是計算機無法自動區(qū)分家譜中的“世系圖”和“人物描述”,因此,本文通過與HI 的交互,為計算機提供少量信息,確定家譜中“世系圖”所處范圍.之后,計算機自動抽取“世系圖”中的人物姓名.另外,我們將抽取出的家譜人物姓名作為有監(jiān)督數(shù)據(jù),構(gòu)建家譜領(lǐng)域人名詞典,以便提高NLP 工具對家譜進行分析處理的精確性.

(2)“人物描述”數(shù)據(jù)抽取

“人物描述”中蘊含著豐富的人物信息,包括人物姓名、屬性及關(guān)系.通過對家譜數(shù)據(jù)的觀察,我們發(fā)現(xiàn):在“人物描述”中,每個家譜人物的描述信息獨立成一段或多段;并且每份家譜以固定的模式化語句對人物屬性信息和人物間關(guān)系進行介紹.

首先,HI 即領(lǐng)域?qū)＜覀兺ㄟ^對家譜數(shù)據(jù)的觀察與分析,根據(jù)家譜文本描述的前后語義關(guān)系,結(jié)合對語境的理解,對家譜數(shù)據(jù)的語言模式進行總結(jié),構(gòu)建家譜領(lǐng)域全局知識庫,為計算機提供家譜領(lǐng)域外部語義知識.由于家譜語法結(jié)構(gòu)復(fù)雜,信息不一,表1 為簡化后的家譜語言模式.其中,N 表示人物姓名,FN 表示父親姓名,P N 表示配偶姓名,SN 表示兒子姓名,XX 為屬性信息.

Table 1 Language schema表1 語言模式

由于不同家譜具有不同的語言模式,本文使用HanLP 漢語語言處理工具[45]提取家譜數(shù)據(jù)的淺層詞法特征,對家譜數(shù)據(jù)進行分詞、命名實體識別和詞性標(biāo)注.但由于家譜的用詞語法和行文風(fēng)格與開放領(lǐng)域文本不同,為了保證Hanlp 分析結(jié)果的準(zhǔn)確性,我們需要對家譜中特殊的用詞進行總結(jié),構(gòu)建家譜領(lǐng)域詞典,為Hanlp 提供家譜領(lǐng)域語義支持.

從表1 中可以看出:人物之間關(guān)系和屬性的描述具有一定的規(guī)律性,不同種類信息附近通常有固定的、具有語義信息的關(guān)鍵詞.因此,在對家譜進行分析處理后,根據(jù)分析后的詞語詞性及詞語附近關(guān)鍵詞,在全局知識庫提供的語義知識的協(xié)助下,判斷當(dāng)前待處理家譜所對應(yīng)的語言模式,對家譜進行初步的信息抽取,并自動構(gòu)建適用于當(dāng)前家譜的局部規(guī)則庫.例如,在關(guān)鍵詞“配”“妣”“娶”后的詞性為“人物姓名”的詞語一般為人物配偶姓名,關(guān)鍵詞“字”后的詞性為“名詞”的詞語一般為人物屬性“字”的屬性值.

之后,我們根據(jù)上一步中構(gòu)建的局部規(guī)則庫,對少部分家譜數(shù)據(jù)進行抽取,將結(jié)果反饋給用戶:若用戶確定當(dāng)前抽取結(jié)果正確,則采用現(xiàn)有局部規(guī)則庫;若用戶對抽取結(jié)果不滿意,則用戶對數(shù)據(jù)進行標(biāo)注,并將標(biāo)注信息返回至計算機.計算機根據(jù)用戶標(biāo)注信息與原抽取結(jié)果的差異,對局部規(guī)則庫中的規(guī)則進行修正.

另外,由于家譜領(lǐng)域的特殊性,家譜文本中通常蘊含著一些隱性的人物信息.為了確保數(shù)據(jù)抽取的全面性和準(zhǔn)確性,我們根據(jù)OI 提供的領(lǐng)域知識,抽取家譜中的隱性信息,對抽取結(jié)果進行擴充.例如,利用人物屬性“輩份”添加隱性父子關(guān)系:若存在人物集合P={p1,p2,…,pm}的輩份為n,且輩份為n?1 的人物僅有一個,記為人物B,則我們可以認(rèn)為,人物B為人物集合P的父親.

2.4 數(shù)據(jù)規(guī)范層

數(shù)據(jù)規(guī)范層的主要功能是將數(shù)據(jù)抽取層中抽取到的信息用一個統(tǒng)一的標(biāo)準(zhǔn)規(guī)范化,將這些數(shù)據(jù)轉(zhuǎn)換為一種統(tǒng)一的描述,則有利于消除信息的語義異構(gòu)性.但不同領(lǐng)域通常具有不同的數(shù)據(jù)規(guī)范標(biāo)準(zhǔn).本文提出在OI 提供的領(lǐng)域數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)的基礎(chǔ)上,制定數(shù)據(jù)規(guī)范原則,具體原則如下.

(1)化“繁”為“簡”原則

對于中文數(shù)據(jù),經(jīng)常會出現(xiàn)繁體字信息.為了數(shù)據(jù)的統(tǒng)一性,我們需要將所有的繁體字轉(zhuǎn)換為簡體字進行存儲.目前有許多開源工具類可以進行中文繁簡體的轉(zhuǎn)換,如ZHConverter(https://github.com/program-in-chinese/zhconverter),OpenCC(https://github.com/BYVoid/OpenCC),OpenCC4j(https://github.com/houbb/opencc4j)等.

(2)標(biāo)準(zhǔn)化原則

對于數(shù)據(jù)源中存在的表述不一致性問題,我們?yōu)椴煌臄?shù)據(jù)類型制定一個統(tǒng)一的標(biāo)準(zhǔn),將數(shù)據(jù)標(biāo)準(zhǔn)化.人物屬性信息值的數(shù)據(jù)類型主要有三類:字符串類型、數(shù)值類型和時間類型數(shù)據(jù).我們分別為這三類數(shù)據(jù)制定一個標(biāo)準(zhǔn).

?對于數(shù)值類型數(shù)據(jù),以阿拉伯?dāng)?shù)字為統(tǒng)一標(biāo)準(zhǔn).如果同一人物屬性的兩個事實內(nèi)容等價,僅是數(shù)值表示方式不同,則我們統(tǒng)一選擇以阿拉伯?dāng)?shù)字表示的數(shù)據(jù).假設(shè)有兩條來自不同數(shù)據(jù)源的同一人物的信息:“張三享年七十二歲”和“張三享年72 歲”.采用該條融合規(guī)則后,以“72 歲”作為人物“張三”的享年;

?對于字符串類型數(shù)據(jù),會存在縮寫詞、簡稱等表示方式,以名稱的全稱為統(tǒng)一標(biāo)準(zhǔn).名稱的縮寫、簡稱等形式可能與另一名稱的縮寫或簡稱重合,造成歧義.例如,“南大”一詞,可能指代“南京大學(xué)”,也可能指代“南昌大學(xué)”.因此,為了保證融合結(jié)果的清晰明確,在進行融合時,我們選擇名稱的全稱或較為完整的數(shù)據(jù);

?對于時間數(shù)據(jù),在家譜中時間大多數(shù)以字符串型數(shù)據(jù)存在,如“開皇十八年二月二十二日”“順治乙酉年八月十二日”等.我們需要將這類數(shù)據(jù)轉(zhuǎn)換成常見的數(shù)據(jù)類型,即“yyyy年mm月dd日”.鑒于家譜領(lǐng)域數(shù)據(jù)的特殊性,我們根據(jù)OI 提供的家譜領(lǐng)域數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),人工構(gòu)建外部語義知識庫,對特殊屬性值進行規(guī)范化.例如:對于上述提及的時間屬性,人工構(gòu)建古代皇帝年號時間表(見表2)和中國古代紀(jì)年表(見表3),計算標(biāo)準(zhǔn)化后的日期.

Table 2 Years of ancient emperors表2 古代皇帝年號時間表

Table 3 Chronology of ancient China表3 中國古代紀(jì)年表

2.5 數(shù)據(jù)融合層

數(shù)據(jù)融合層是數(shù)據(jù)融合框架中的核心層,為數(shù)據(jù)應(yīng)用層的接口和服務(wù)提供數(shù)據(jù)基礎(chǔ).數(shù)據(jù)融合層通過使用機器學(xué)習(xí)技術(shù)(AI),將上一層規(guī)范后的數(shù)據(jù)融合成一個統(tǒng)一、互聯(lián)的數(shù)據(jù)網(wǎng)絡(luò),具體過程可分為以下3 個部分.

(1)實體對齊,找出不同數(shù)據(jù)源中的相同實體,以便進行下一步的融合;

(2)沖突消解,解決不同數(shù)據(jù)源中對于同一實體的數(shù)據(jù)沖突問題;

(3)屬性融合,通過對不同數(shù)據(jù)源中實體屬性的融合,從多源、碎片化的數(shù)據(jù)中凝練出實體的統(tǒng)一的準(zhǔn)確的描述.

2.5.1 家譜人物對齊

對于海量多源的家譜數(shù)據(jù),如果我們對其中的人物做人工標(biāo)注,將耗費大量的精力.因此,本文使用無監(jiān)督的方法對家譜中存在的相同人物進行識別.無監(jiān)督的實體對齊方法的主要思想是,利用相似性等特征將實體聚類到同一類別中[36].

在對大量家譜數(shù)據(jù)進行研究與分析的基礎(chǔ)上,HI 構(gòu)建家譜領(lǐng)域內(nèi)候選實體對生成規(guī)則庫,組成候選實體對,之后,利用基于相似性的無監(jiān)督實體對齊算法(AI)判斷候選實體對中的人物是否相同.實體對齊算法可以分成兩個子模塊:候選實體對生成和候選實體對相似度計算.

(1)候選實體對生成

在該模塊,檢測出兩份家譜中所有可能相同的人物,組成候選實體對.為了提高召回率并且盡可能全面地檢測出人物的候選實體,我們在對家譜數(shù)據(jù)分析后,總結(jié)出在家譜數(shù)據(jù)中存在相同人物的情況,如下所示.

?兩個人物姓和名完全相同.同名人物為相同人物是家譜數(shù)據(jù)中最常見的情況;

?兩個人物姓相同,名部分相同.家譜中的人物姓名通常由“姓+輩份+名”組成,但有時人物姓名僅為“姓+名”.例如,“吳自忠”的輩份為“自”,則“吳忠”可能也指代“吳自忠”;

?兩個人物姓相同,一人的名與另一人的字或號完全相同.在一些家譜中,會存在以人物的字或號表示人物的情況.例如,唐朝詩人“李白”字“太白”,因此“李太白”也指代“李白”;

?兩個人物姓不同,名完全相同.隨著時間的推移,“姓氏改易”現(xiàn)象經(jīng)常發(fā)生.皇室賜姓、家族遷徙、人物過繼等情況均會導(dǎo)致姓氏的變化.因此,同一人物在不同時期可能具有不同的姓氏,出現(xiàn)同名不同姓的情況;

?兩個人物相同,則其后代極有可能相同.如果我們已經(jīng)確定兩份家譜中的人物相同,那么其后代也有很大可能為相同人物.

HI 將上述總結(jié)出的家譜數(shù)據(jù)相同人物的特點轉(zhuǎn)換成計算機能夠讀取的語言,設(shè)計一組簡單有效的候選實體生成規(guī)則,使用基于規(guī)則的候選實體生成方法為每個待判斷的人物生成一系列候選實體,組成候選實體對.該方法不僅能充分考慮到所有可能性的發(fā)生,提供較為全面的候選實體對,保證了結(jié)果的召回率,還大大降低了實體對齊的計算復(fù)雜度.

(2)候選實體對相似度計算

在這一模塊中,我們采用無監(jiān)督的基于相似性的實體對齊方法(AI),通過計算候選實體對之間的相似度,判斷候選實體對中的兩個實體是否指代真實世界中的同一個實體.根據(jù)對家譜人物數(shù)據(jù)的語義信息與特征的觀察與分析,我們將候選實體對之間的人物相似度分為語義相似度和關(guān)系相似度兩部分.

a)語義相似度

人物的語義信息是判斷人物是否相同的重要依據(jù).語義相似度用來測量人物之間語義信息的相似度.給定兩個待判斷的人物ei和ej,p={p1,p2,…,pn}為人物相同屬性的集合.我們通過兩個人物之間相同屬性的屬性值相似度來計算兩個人物之間的語義相似度,語義相似度計算公式如下:

其中,p={p1,p2,…,pn}表示人物相同屬性的集合;Lpi(ei,ej)表示第i個屬性pi的字符串相似度,計算方法選擇較為常用的Levenshtein 編輯距離[46];ω為每個屬性相似度的權(quán)重.這里.我們認(rèn)為每個屬性的重要程度相同,即每個屬性的權(quán)重相同,若屬性的個數(shù)為n,則屬性權(quán)重為1/n.

b)關(guān)系相似度

家譜數(shù)據(jù)中,每個人物除了具有語義信息以外,人物與人物之間還擁有大量的親屬關(guān)系.人物之間關(guān)系的相似度,也是判斷人物是否相同的一個重要依據(jù).本文采用基于Jaccard 相關(guān)系數(shù)[47]的關(guān)系相似度計算方法.給定兩個待判斷的人物ei和ej,其關(guān)系相似度計算公式如下:

其中,R(ei)代表人物ei的親屬關(guān)系,|R(ei)∩R(ej)|表示人物ei和ej相同的人物關(guān)系數(shù)量,|R(ei)∪R(ej)|表示人物ei和ej所擁有的人物關(guān)系數(shù)量總和.判斷人物ei和ej的關(guān)系是否相同時,為了便于比較,如果人物的對應(yīng)關(guān)系人物的姓名相同,則我們認(rèn)為人物ei和ej的關(guān)系相同.

綜上所述,候選實體對相似度的計算公式如下:

其中,γ和δ分別為語義相似度和關(guān)系相似度的權(quán)重,用來平衡二者在人物相似度測量中的重要程度.通過對家譜數(shù)據(jù)的觀察發(fā)現(xiàn):在家譜人物的對齊中,人物的關(guān)系相似度比語義相似度更重要,更能反映兩個人物是否為同一個人.舉例來說,如果兩個人物的父親和兒子的姓名均相同,無需考慮人物的屬性,就基本可以判斷這兩個人物為同一個人.并且,家譜數(shù)據(jù)中人物的屬性信息會存在稀疏性的情況,此時人物的語義相似度對家譜人物的對齊貢獻度較小.因此,考慮家譜數(shù)據(jù)的實際情況,我們適當(dāng)增加關(guān)系相似度的權(quán)重δ.具體的權(quán)重設(shè)置如下:a)如果家譜數(shù)據(jù)的屬性稀疏,即屬性的個數(shù)小于5,則γ=0.2,δ=0.8;b)如果家譜數(shù)據(jù)的屬性充足,即屬性的個數(shù)大于等于5,則γ=0.4,δ=0.6.本文設(shè)置一個閾值S,若相似度分?jǐn)?shù)Sim(ei,ej)大于閾值S,則說明兩個人物相同.

2.5.2 家譜數(shù)據(jù)沖突消解

針對家譜數(shù)據(jù)沖突問題,充分考慮到家譜領(lǐng)域特性、分布數(shù)據(jù)源中的表述不完整性、數(shù)據(jù)本身可能存在的不一致等,對這些問題進行分析、處理,在OI 對家譜數(shù)據(jù)真值進行審核和確認(rèn)后,本文將家譜人物屬性分為兩類——單真值屬性和多真值屬性,并對不同類別的屬性采用不同的沖突消解機制.

(1)單真值屬性

對于單真值屬性,如人物的性別、出生日期、過世日期等,有且僅有一個真值.多數(shù)投票規(guī)則是指:若某一個值是多數(shù)信息源都投票贊成的,則認(rèn)為這個值有更大的代表性[48].通常來說,對同一實體屬性,出現(xiàn)次數(shù)最多的事實往往是準(zhǔn)確的:

(2)多真值屬性

對于多真值屬性,如人物的描述信息,如人物簡介、成就等,沒有標(biāo)準(zhǔn)的正確描述,人物的職業(yè)、官職等信息由于時間的推移,會存在多個不同的真值.因此我們認(rèn)為:如果同一實體屬性ea的事實的內(nèi)容是相互補充的,則它們合并后具有更高的準(zhǔn)確性.為了保證最終融合結(jié)果的全面性,采用合并原則,將多數(shù)據(jù)源的不同描述信息整合后生成一個更為完整的信息:

2.5.3 家譜數(shù)據(jù)屬性融合

通過對大量家譜數(shù)據(jù)的研究與分析,我們發(fā)現(xiàn),家譜人物屬性中主要存在以下兩種特殊情況.

a)屬性名稱不同、含義相同.隨著時間的推移,古代人物的一些屬性可能逐漸演變?yōu)榫哂鞋F(xiàn)代特色的屬性,存在“屬性演變”的情況.例如,古代人物的“官職”屬性與現(xiàn)代人物的“職務(wù)”屬性名稱不同卻具有相同的含義;

b)屬性名稱相同、含義不同.例如時間屬性,時間屬性有農(nóng)歷和公歷之分:我國古代傳統(tǒng)歷法為農(nóng)歷,1912年后開始漸漸使用公歷.因此,家譜記載此年之前的時間通常為農(nóng)歷,而后的時間通常為公歷.

對于上述情況,現(xiàn)有的單純依靠計算機的屬性融合方法均難以解決.考慮到家譜數(shù)據(jù)的特殊性,為了保證融合結(jié)果的正確性,根據(jù)OI 提供的家譜數(shù)據(jù)格式標(biāo)準(zhǔn),HI 即領(lǐng)域?qū)＜覀冡槍易V領(lǐng)域內(nèi)對數(shù)據(jù)的特性及家譜人物屬性的需求,人工構(gòu)建屬性語義知識庫,使用一種基于啟發(fā)式的方法進行家譜人物屬性融合,具體過程見算法1.

算法1.屬性融合算法.

輸入:屬性集合PRO,屬性拆分規(guī)則庫split_rules,等價屬性知識庫equal_rules,人物屬性集合PER_PRO;

輸出:融合后的屬性集合PRO.

本文構(gòu)建的家譜屬性語義知識庫包括:

(1)屬性拆分規(guī)則庫:主要針對屬性名稱相同卻含義不同的屬性.例如:時間屬性有公歷和農(nóng)歷之分,若屬性值中包含表2 和表3 中“年號”或“古代紀(jì)年”中的值,則該時間屬性為農(nóng)歷時間,在屬性名字前添加“農(nóng)歷”二字后進行存儲;反之,則為公歷時間并添加“公歷”二字.在數(shù)據(jù)規(guī)范層中,我們已經(jīng)對農(nóng)歷時間進行星號標(biāo)記,因此可以直接為帶有(*)標(biāo)記屬性值的屬性名稱添加“農(nóng)歷”二字;

(2)等價屬性知識庫:主要針對屬性名稱不同卻含義相同的屬性.根據(jù)專家(HI)提供的領(lǐng)域知識,考慮到“屬性演變”情況,對等價的屬性進行整理并記錄,并為其規(guī)定一個標(biāo)準(zhǔn)屬性名稱.例如“官職”?“職務(wù)(?)”,“職務(wù)”為標(biāo)準(zhǔn)屬性名稱,其等價屬性最終均映射為“職務(wù)”屬性.

3 結(jié)果展示及對比分析

3.1 結(jié)果展示

(1)數(shù)據(jù)獲取層結(jié)果

本文選取4 份家譜數(shù)據(jù)為例,展示其運行結(jié)果.文本是家譜數(shù)據(jù)中較為常見的數(shù)據(jù)類型,因此本文選取的家譜示例均為文本格式.在家譜文本數(shù)據(jù)中,每個人物的描述信息獨立成段,如圖2(a)~圖2(d)所示.由于家譜數(shù)據(jù)篇幅較長,本文僅截取家譜部分內(nèi)容以供展示.

Fig.2 Genealogy data圖2 家譜數(shù)據(jù)示例

(2)數(shù)據(jù)抽取層結(jié)果

獲取家譜數(shù)據(jù)后,將數(shù)據(jù)送入數(shù)據(jù)抽取層,進行信息抽取.為了方便查看,將數(shù)據(jù)抽取結(jié)果以表格形式展示,如表4(a)~表4(d)所示.每一行為一條人物信息,每一列分別為人物的屬性.由表4(a)~表4(d)中可以看出:在數(shù)據(jù)抽取層中,除一些人物基礎(chǔ)屬性如“姓名”“性別”外,不同家譜中能抽取出的人物屬性不盡相同.例如,表4(c)中人物具有“出生地”屬性,表4(d)中人物具有“字”“號”和“官職”等屬性.

另外,由表4(a)~表4(d)可見:本文提出的基于HAO 模型的通用家譜信息抽取方法,在HI 和OI 的協(xié)助下,實現(xiàn)對語義的理解,從而較為有效地對家譜數(shù)據(jù)中的人物屬性和關(guān)系進行抽取,能保證數(shù)據(jù)抽取結(jié)果的正確性.

Table 4 (a)Results of data extraction in Fig.2(a)表4 (a)圖2(a)展示內(nèi)容的數(shù)據(jù)抽取結(jié)果

Table 4 (b)Results of data extraction in Fig.2(b)表4 (b)圖2(b)展示內(nèi)容的數(shù)據(jù)抽取結(jié)果

Table 4 (c)Results of data extraction in Fig.2(c)表4 (c)圖2(c)展示內(nèi)容的數(shù)據(jù)抽取結(jié)果

Table 4 (d)Results of data extraction in Fig.2(d)表4 (d)圖2(d)展示內(nèi)容的數(shù)據(jù)抽取結(jié)果

(1)數(shù)據(jù)規(guī)范層結(jié)果

以表4(d)中“順治乙酉年八月十二日”為例,經(jīng)過分析可知:“順治”為中國古代皇帝年號,“乙酉年”為中國古代紀(jì)年,一甲子(60年)為一個循環(huán).為了將其轉(zhuǎn)換為標(biāo)準(zhǔn)日期格式,表2 為古代皇帝年號表,表3 為中國古代紀(jì)年表.由表2 可知,“順治乙酉年”在1644年~1661年之間.由表3 可知,“順治乙酉年”與1825年的差是60 的整數(shù)倍.因此,“順治乙酉年”為1645年,“順治乙酉年八月十二日”應(yīng)標(biāo)準(zhǔn)化為“1645年8月20日”.對于如“開皇十八年十二月二十二日”這種形式的日期,在年號的基礎(chǔ)上加上相應(yīng)年份數(shù)即可.因此,“開皇十八年十二月二十二日”可轉(zhuǎn)換為“598年12月22日”.另外,對轉(zhuǎn)換后的日期進行十字星號標(biāo)記(?),以便于下一層的數(shù)據(jù)融合.表4(d)規(guī)范化后的結(jié)果如表5所示.表4(a)~表4(c)在數(shù)據(jù)規(guī)范層中的輸出結(jié)果不變.

由表5 可見,本文提出的數(shù)據(jù)規(guī)范方法能夠簡單有效地將家譜中的人物屬性值轉(zhuǎn)換為統(tǒng)一的描述,特別是家譜中較難處理的時間類型數(shù)據(jù),為下一步家譜數(shù)據(jù)的融合提供了便利.

Table 5 Results of data specification表5 數(shù)據(jù)規(guī)范結(jié)果

(2)數(shù)據(jù)融合層結(jié)果

a)實體對齊

以表4(a)中編號為2 的人物“黃帝”(記為“(a)2”)為例,根據(jù)上述提到的候選實體對生成的情況,為該人物在表4(b)~表4(d)中選取候選實體.生成的候選實體對為〈“(a)2”,“(b)2”〉,〈“(a)2”,“(c)2”〉,〈“(b)2”,“(c)2”〉.然后,對每個候選實體對使用第3.4.1 節(jié)中的公式(3)進行相似度計算.當(dāng)γ和δ分別取0.4 和0.6、閾值設(shè)為0.5 時,結(jié)果如表6所示.最終結(jié)果表明,表4(a)中編號為2 的人物“黃帝”與表4(b)、表4(c)中的人物“黃帝”為同一人.

根據(jù)家譜內(nèi)容,我們可以看出:本文所提的實體對齊算法最終識別結(jié)果,即表4(a)~表4(c)中的人物“黃帝”均為同一人,是與現(xiàn)實世界一致的.這一結(jié)果表明,本文所提的實體對齊算法在實體為家譜人物時的對齊結(jié)果是準(zhǔn)確有效的.

Table 6 Results of entity alignment表6 實體對齊相似度結(jié)果

b)沖突消解

觀察我們識別出的相同人物“黃帝”的屬性信息,發(fā)現(xiàn)表(a)中人物“黃帝”的過世日期與表4(b)和表4(c)不同.根據(jù)我們制定的沖突消解機制,過世日期為單真值屬性,利用公式(4)得出,“黃帝”的屬性過世日期的真值為“公元前2598年”.由此看出,我們可以根據(jù)本文提出的數(shù)據(jù)沖突機制,簡單高效地解決不同來源的數(shù)據(jù)中出現(xiàn)的數(shù)據(jù)沖突問題.

c)屬性融合

根據(jù)第3.4.3 節(jié)中描述的屬性融合過程,讀取屬性拆分規(guī)則庫,對時間屬性“出生日期”“過世日期”進行拆分,拆分結(jié)果為“農(nóng)歷出生日期”“農(nóng)歷過世日期”“公歷出生日期”和“公歷過世日期”.另外,讀取等價屬性知識庫,我們可知“官職”屬性和“職務(wù)”屬性等價,因此將“官職”映射為“職務(wù)”.

表7 展示了本文選取的4 份家譜數(shù)據(jù)的數(shù)據(jù)融合結(jié)果,從結(jié)果可以看出:我們能夠?qū)⒉煌瑏碓吹乃槠易V數(shù)據(jù)中的人物進行融合,凝練出一套的關(guān)于家譜人物的統(tǒng)一描述,進而表明本文提出的碎片化數(shù)據(jù)融合框架FDF-HAO 在技術(shù)上的可行性和有效性.最終家譜人物數(shù)據(jù)的屬性集合除了表7 所展示的屬性外,還包括“曾用名”“世”“輩份”“家庭排行”“住址”等屬性.

Table 7 Results of data fusion表7 數(shù)據(jù)融合結(jié)果

接下表

3.2 結(jié)果分析

本小節(jié)將碎片化數(shù)據(jù)融合框架FDF-HAO 中數(shù)據(jù)抽取層和數(shù)據(jù)融合層所采用的技術(shù)與同類技術(shù)的進行對比和分析.

3.2.1 數(shù)據(jù)抽取層

我們將本文所采用的信息抽取方法與目前較為成熟的開源信息抽取工具DSNFs[49]和Jiagu[50]進行對比.以圖2(b)展示的家譜為例,表8 展示各方法對人物“黃帝”的相關(guān)抽取結(jié)果.

Table 8 Data extraction results by different methods表8 數(shù)據(jù)抽取對比結(jié)果

由表8 可以看出:我們的方法在家譜數(shù)據(jù)上能夠準(zhǔn)確全面地抽取出人物間關(guān)系和人物屬性,DSNFs 僅能抽取部分信息,而Jiagu 未能抽取到人物信息.其原因在于:DSNFs 和Jiagu 均是在依存句法分析的基礎(chǔ)上對實體和關(guān)系進行抽取,這類方法受限于中文分詞等NLP 技術(shù)的性能,適用于文本句法結(jié)構(gòu)簡單、NLP 技術(shù)能對文本進行有效分析和處理的情況下.但家譜數(shù)據(jù)的用詞語法與我們常用的文本不同,行文風(fēng)格偏向古文,甚至一些家譜不包含完整的語句.由于家譜數(shù)據(jù)的文本特點,現(xiàn)有主流信息抽取工具通常很難有效地對家譜文本中不同成分的結(jié)構(gòu)關(guān)系進行提取.為此,我們的方法針對家譜數(shù)據(jù)特點進行設(shè)計,通過分析家譜中的淺層詞法特征,在OI 提供的領(lǐng)域知識下,結(jié)合專家(HI)對家譜數(shù)據(jù)的分析,能夠有效地對家譜信息進行抽取.

3.2.2 數(shù)據(jù)融合層

數(shù)據(jù)融合層中最為關(guān)鍵的一步為家譜人物對齊,下文對家譜人物對齊方法進行對比分析.鑒于家譜人物對齊過程分為兩部分——候選實體對生成和候選實體對對齊,本文將從這兩部分對算法的性能進行對比分析.

(1)候選實體對生成方法

目前,實體對齊算法中,候選實體對生成的方法通常為基于字符串相似度和基于詞典的方法.基于字符串相似度的方法容易產(chǎn)生大量不能對齊的候選實體,導(dǎo)致后續(xù)算法的計算復(fù)雜度增加.基于詞典的方法需要人工構(gòu)建詞典,從詞典中尋找所有可能對齊的實體.而構(gòu)建詞典的過程將耗費大量人力物力.本文通過對家譜數(shù)據(jù)的分析,制定了一套家譜領(lǐng)域內(nèi)候選實體對生成規(guī)則,采用基于規(guī)則的方法為待對齊實體生成候選實體.優(yōu)點在于:一方面能夠保證候選實體集合中包含可以對齊的實體,即保證了結(jié)果的召回率;另一方面,也避免了不能對齊的候選實體數(shù)目過多,降低了后續(xù)計算的復(fù)雜度.

(2)候選實體對對齊方法

在缺乏訓(xùn)練數(shù)據(jù)的情況下,除本文使用的基于相似性的實體對齊方法外,還可以采用基于詞嵌入的方法,將實體及其上下文轉(zhuǎn)換為詞向量進行相似度計算.但詞向量的訓(xùn)練過程通常需要大規(guī)模語料庫或少量種子數(shù)據(jù),生成詞向量的好壞依賴于語料庫或種子數(shù)據(jù)的質(zhì)量[51,52].這類方法適用于語料庫或標(biāo)記數(shù)據(jù)質(zhì)量較為成熟、訓(xùn)練出的詞向量效果好、能很好地表示實體語義信息的情況下.而家譜數(shù)據(jù)領(lǐng)域性較強,缺乏適合的語料庫.在家譜中,判斷兩個人物是否相同的依據(jù)就是實體之間的屬性及關(guān)系是否相同.本文采用的基于相似性的實體對齊方法,考慮了實體的屬性及實體間關(guān)系的相似性,相較于其他實體對齊方法,能夠根據(jù)家譜領(lǐng)域特點,簡單高效地計算家譜領(lǐng)域內(nèi)實體之間的相似性.

4 碎片化數(shù)據(jù)融合的挑戰(zhàn)和前景

面向多源異構(gòu)的碎片化家譜數(shù)據(jù),本文提出的碎片化數(shù)據(jù)融合框架能夠?qū)ζ溥M行有效融合,但仍存在一些挑戰(zhàn).

?挑戰(zhàn)1:數(shù)據(jù)的多模態(tài)性

在大數(shù)據(jù)時代,碎片化數(shù)據(jù)以文本、圖片、視頻、音頻等不同模態(tài)存在.我們在處理這些數(shù)據(jù)時,需要對其中包含的內(nèi)容進行識別、提取并存儲.但由于不同模態(tài)數(shù)據(jù)之間的結(jié)構(gòu)差異巨大,沒有統(tǒng)一的數(shù)據(jù)表示形式和統(tǒng)一的邏輯結(jié)構(gòu),這使得多模態(tài)數(shù)據(jù)的融合具有一定的挑戰(zhàn)性.另外,互聯(lián)網(wǎng)中的多模態(tài)數(shù)據(jù)如圖片、視頻等存在著模糊、有噪聲等情況,因此,多模態(tài)數(shù)據(jù)的信息抽取精度無法得到保證,從而對多模態(tài)數(shù)據(jù)的融合精度造成一定的負面影響.

?挑戰(zhàn)2:數(shù)據(jù)的不確定性

數(shù)據(jù)真?zhèn)坞y辨是數(shù)據(jù)處理及應(yīng)用的最大挑戰(zhàn)[12].海量多源的碎片化數(shù)據(jù),使我們的研究獲得了前所未有的大規(guī)模樣本,但也帶來了更多錯誤的、不完整的數(shù)據(jù).數(shù)據(jù)質(zhì)量良莠不齊,不同來源的數(shù)據(jù)值可能存在沖突、缺失、描述模糊等情況.為了從海量多源的碎片化數(shù)據(jù)中準(zhǔn)確地找出真實確定的數(shù)據(jù),需要利用數(shù)據(jù)處理方法對數(shù)據(jù)、數(shù)據(jù)源等信息進行建模求解.但對于一些數(shù)據(jù),即使最好的數(shù)據(jù)處理方法也難以消除其固有的不可預(yù)測性.例如在家譜領(lǐng)域內(nèi),一份家譜中的同一人物在不同版本中存在姓名不同的情況.根據(jù)家譜內(nèi)容,我們無法確定造成不同的原因是人物的姓名更改還是書寫時的筆誤,因此該人物的姓名具有無法消除的不確定性.

?挑戰(zhàn)3:數(shù)據(jù)的單源小體量性

碎片化數(shù)據(jù)最顯著的特征就是單源小體量性.來自單個數(shù)據(jù)源的碎片化數(shù)據(jù)通常內(nèi)容較短,包含的信息不充足,數(shù)據(jù)具有較高的稀疏性.因此,在對碎片化數(shù)據(jù)進行信息抽取和融合時,大多需要借助外部語義知識庫中的語義信息.這種方法雖然能提高算法的精確度,但對外部知識庫依賴度較高.當(dāng)出現(xiàn)知識庫中不存在的信息時,需要對知識庫進行及時地更新,否則將無法提取新的信息.

?挑戰(zhàn)4:數(shù)據(jù)的語義異構(gòu)性

不同數(shù)據(jù)源的碎片化數(shù)據(jù)在語義表述上存在一定的差異性,相同含義的詞匯具有不同的表述,我們將之稱為語義異構(gòu).數(shù)據(jù)的語義異構(gòu)性可能會造成來自不同數(shù)據(jù)源的碎片化數(shù)據(jù)無法相互融合,進而導(dǎo)致數(shù)據(jù)共享、重用無法進行,因此我們必須考慮消除碎片化數(shù)據(jù)之間的語義異構(gòu)性.通常來說,我們采用將不同數(shù)據(jù)源的數(shù)據(jù)映射到同一套概念體系即本體的方法來解決語義異構(gòu).但是本體的構(gòu)建本身就是一個工作量大的任務(wù).另外,大數(shù)據(jù)時代中數(shù)據(jù)的不斷更新也會帶來一些新的概念,這就需要一個合適的機制對本體進行不斷地更新和維護.

碎片化數(shù)據(jù)融合在多源數(shù)據(jù)分析和大知識融合領(lǐng)域具有廣泛的研究和利用前景,下面我們分析幾個應(yīng)用場景.

?應(yīng)用場景1:同姓家譜的知識擴充以及跨姓家譜的知識挖掘和推理.

碎片化家譜數(shù)據(jù)融合有利于同姓家譜的合并與擴充.通過對已有的同姓家譜進行關(guān)聯(lián)計算和合并計算,實現(xiàn)家譜的補齊和擴充,擴展知識網(wǎng)絡(luò).例如,假設(shè)存在兩份同姓家譜A和B,經(jīng)過計算發(fā)現(xiàn)二者之間存在關(guān)聯(lián):家譜A記錄某家族P從第1 世~第20 世的人物信息,家譜B記錄同一家族P從第10 世~第30 世的人物信息.合并家譜A和B,我們可以得到一份全新的、更為完整的家譜C,記錄家族P從第1 世~第30 世的人物信息.另外,碎片化家譜數(shù)據(jù)融合也為跨姓家譜的知識挖掘和推理提供了數(shù)據(jù)支撐.通過對不同姓氏家譜的人物進行對比和分析,尋找跨姓家譜之間的相同人物,以該人物為紐帶,建立家譜之間的關(guān)聯(lián),挖掘其中潛藏的姓氏起源、姓氏演變等信息.從家譜數(shù)據(jù)庫中已有的數(shù)據(jù)出發(fā),經(jīng)過計算機推理,建立人物之間的新關(guān)聯(lián),從而拓展和豐富知識網(wǎng)絡(luò),推理人物間的愛恨情仇,為用戶解決尋根溯源等問題.

?應(yīng)用場景2:社交網(wǎng)絡(luò)信息分析.

社交網(wǎng)絡(luò)用戶數(shù)量龐大,微博、推特、豆瓣等常見的社交平臺上每天產(chǎn)生大量的圖片、文字及音頻信息.這些碎片化社交數(shù)據(jù)中隱藏著許多有用的信息,包括用戶的日常瑣事、興趣愛好、熱點事件的發(fā)展過程等等.通過對碎片化社交數(shù)據(jù)的融合,以用戶為中心,構(gòu)建用戶社交知識圖譜,預(yù)測用戶之間潛在的聯(lián)系,為其提供好友推薦、信息推送等個性化社交服務(wù).

5 總結(jié)

本文在HI、AI 和OI 三者的交互和協(xié)同下,提出了一個碎片化數(shù)據(jù)融合框架FDF-HAO,并論述了碎片化數(shù)據(jù)融合框架的層次結(jié)構(gòu),詳細介紹了每一層的作用、所需要解決的問題和使用的技術(shù).其中,數(shù)據(jù)獲取層使用爬蟲技術(shù)(AI),從互聯(lián)網(wǎng)中各數(shù)據(jù)源獲取碎片化數(shù)據(jù),包括文本文件、表格文件、網(wǎng)頁文件等;數(shù)據(jù)抽取層通過自然語言處理技術(shù)(AI),在HI 和OI 的交互和協(xié)作下,從這些多源異構(gòu)的碎片化數(shù)據(jù)中提取實體、屬性及關(guān)系;數(shù)據(jù)規(guī)范層根據(jù)OI 提供的領(lǐng)域數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),負責(zé)將數(shù)據(jù)抽取層中抽取的信息進行規(guī)范化和標(biāo)準(zhǔn)化,消除了數(shù)據(jù)的語義異構(gòu)性;數(shù)據(jù)融合層是實現(xiàn)數(shù)據(jù)融合的核心層,領(lǐng)域?qū)＜覀?HI)在OI 的協(xié)作下構(gòu)建外部語義知識庫,為數(shù)據(jù)融合提供智能支持,然后通過實體對齊技術(shù)(AI)識別出碎片化數(shù)據(jù)中的相同實體,再通過沖突消解機制(AI)從沖突數(shù)據(jù)中尋找數(shù)據(jù)的真值,最后通過屬性融合(AI)凝練出實體的統(tǒng)一的、準(zhǔn)確的、有用的描述,進而完成數(shù)據(jù)的融合,形成知識庫.

與已有的特定領(lǐng)域知識圖譜構(gòu)建相似,本文是在現(xiàn)有的知識圖譜構(gòu)建技術(shù)的基礎(chǔ)上,通過對數(shù)據(jù)的觀察和分析,對技術(shù)進行優(yōu)化和改進.但不同之處在于:本文結(jié)合HAO 智能模型,通過HI、AI 和OI 三者的交互和協(xié)作,為海量多源異構(gòu)的碎片化數(shù)據(jù)融合提供了智能支持,能夠解決一些僅依靠計算機無法解決的問題.另外,本文結(jié)合家譜領(lǐng)域特征,將家譜領(lǐng)域知識貫穿于碎片化家譜數(shù)據(jù)融合的過程中,對各階段結(jié)果進行約束和改進,有效地提高了數(shù)據(jù)融合結(jié)果的準(zhǔn)確性和全面性.

本文以華譜系統(tǒng)中碎片化家譜數(shù)據(jù)融合過程為例,詳細介紹所提框架在每層中的具體處理思路和方案,為解決碎片化數(shù)據(jù)融合問題和中文知識圖譜構(gòu)建問題提供了一個新思路,即:在現(xiàn)有成熟模型和方法的基礎(chǔ)上,結(jié)合HAO 智能模型,為中文知識圖譜構(gòu)建提供智能支持,以便更好地提高數(shù)據(jù)的準(zhǔn)確性和可用性.另外,本文在框架內(nèi)各層次中提出的方法也具有一定的通用性,對其他領(lǐng)域的中文知識圖譜構(gòu)建可能具有一定的借鑒意義.

目前,關(guān)于碎片化數(shù)據(jù)融合的研究尚處于初步階段,仍存在著許多困難和挑戰(zhàn).本文通過對碎片化數(shù)據(jù)融合過程進行高度抽象和建模,提出了FDF-HAO 框架,若將該框架遷移到其他領(lǐng)域,需根據(jù)領(lǐng)域數(shù)據(jù)特點調(diào)整FDFHAO 框架的各部分具體實現(xiàn),存在一定的難度.例如在復(fù)雜的社交網(wǎng)絡(luò)場景中,包含著以用戶為中心的不同維度、不同領(lǐng)域的碎片化社交數(shù)據(jù).但是隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)平臺更新?lián)Q代,網(wǎng)絡(luò)詞匯層出不窮,網(wǎng)絡(luò)信息多元多樣,社交網(wǎng)絡(luò)數(shù)據(jù)在自然語言理解和分析方面上具有很大的挑戰(zhàn)性,這為社交網(wǎng)絡(luò)數(shù)據(jù)的信息抽取和融合增加了一定的難度.同樣,在網(wǎng)頁數(shù)據(jù)中也包含著大量涉及以人物為中心的人物生平、經(jīng)歷、傳記、新聞等碎片化數(shù)據(jù).然而在不同網(wǎng)絡(luò)平臺中,數(shù)據(jù)的描述方式和內(nèi)容側(cè)重點不同,并且存在著大量的數(shù)據(jù)不確定性、語義異構(gòu)性等問題,因此給現(xiàn)有的數(shù)據(jù)融合研究帶來了很大的挑戰(zhàn).在后續(xù)的研究中,我們將首先繼續(xù)優(yōu)化本文提出的FDF-HAO 框架;接著,研究將該框架分別應(yīng)用于融合碎片化的社交網(wǎng)絡(luò)數(shù)據(jù)和互聯(lián)網(wǎng)中碎片化的網(wǎng)頁數(shù)據(jù);最后,以構(gòu)建整合的人物知識圖譜為目標(biāo),將家譜、社交網(wǎng)絡(luò)、網(wǎng)頁這3 個維度的碎片化數(shù)據(jù)進行融合,從親屬關(guān)系、社交關(guān)系、人物生平等多個維度構(gòu)建更加完善的人物知識圖譜,從而為用戶提供更好的大知識服務(wù).

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放