吳信東,李 嬌,周 鵬,卜晨陽(yáng)
1(大數(shù)據(jù)知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),安徽 合肥 230009)
2(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 2 30601)
3(合肥工業(yè)大學(xué) 大知識(shí)科學(xué)研究院,安徽 合肥 2 30009)
4(明略科技集團(tuán),北京 100 102)
5(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 2 30601)
隨著互聯(lián)網(wǎng)、云計(jì)算等技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)空間中的數(shù)據(jù)以不可預(yù)計(jì)的速度增長(zhǎng),信息社會(huì)進(jìn)入了大數(shù)據(jù)時(shí)代[1].除了大數(shù)據(jù)的“5V”特征外,數(shù)據(jù)碎片化已成為大數(shù)據(jù)處理中不可忽視的問(wèn)題.如何有效地融合這些碎片化數(shù)據(jù),從多源異構(gòu)的碎片化數(shù)據(jù)中獲取整個(gè)大數(shù)據(jù)集合的全局?jǐn)?shù)據(jù)特征,繼而從海量碎片化數(shù)據(jù)中提取出有價(jià)值的信息,已成為學(xué)術(shù)界的研究重點(diǎn)和熱點(diǎn).
在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)的多源異構(gòu)性,來(lái)自不同數(shù)據(jù)源的碎片化數(shù)據(jù)往往具有不同的數(shù)據(jù)結(jié)構(gòu)和形式.碎片化數(shù)據(jù)融合的首要挑戰(zhàn)就是:如何從這些多源異構(gòu)的數(shù)據(jù)中抽取出真正有價(jià)值的信息,使用合適的處理機(jī)制對(duì)碎片化數(shù)據(jù)進(jìn)行提取和分析.另外,碎片化數(shù)據(jù)融合并不只是簡(jiǎn)單地將數(shù)據(jù)“拼湊”在一起,而是通過(guò)分析碎片化數(shù)據(jù)之間的內(nèi)在聯(lián)系,得到新的、完整的數(shù)據(jù).此外,經(jīng)過(guò)融合后的數(shù)據(jù)通常具有復(fù)雜的語(yǔ)義關(guān)系,為此,我們需要尋找一種標(biāo)準(zhǔn)化的數(shù)據(jù)表示方式對(duì)其進(jìn)行存儲(chǔ)與表示.故而,碎片化數(shù)據(jù)融合極具挑戰(zhàn)性[2].本文以碎片化家譜數(shù)據(jù)融合為例,詳細(xì)闡述了數(shù)據(jù)融合過(guò)程中存在的問(wèn)題和解決方案.
家譜資料的數(shù)字化使得網(wǎng)絡(luò)中的家譜數(shù)據(jù)資源不斷增多,是典型的碎片化數(shù)據(jù).家譜與正史、地方志并列為我國(guó)歷史研究的三大基石之一[3],它不僅記錄族人最基本的世系狀況,還記錄族人的姓氏源流、族規(guī)家訓(xùn)等內(nèi)容,涉及歷史、人口、經(jīng)濟(jì)等多門學(xué)科[4],具有重要的學(xué)術(shù)價(jià)值和史料價(jià)值[5].從這些多源分散的家譜數(shù)據(jù)開始,使用大數(shù)據(jù)技術(shù)及手段對(duì)其進(jìn)行碎片化重組及融合,有利于對(duì)家譜中歷史、經(jīng)濟(jì)等復(fù)雜信息的研究與分析,深度揭示家譜大數(shù)據(jù)中尚未發(fā)現(xiàn)的或難以處理的問(wèn)題,增強(qiáng)人民群眾對(duì)尋根問(wèn)祖的需求,增加海外華僑對(duì)祖國(guó)的認(rèn)同感,實(shí)現(xiàn)大數(shù)據(jù)技術(shù)與人文社會(huì)科學(xué)研究的“雙贏”[6,7].
現(xiàn)有的專門針對(duì)家譜數(shù)據(jù)的研究較少,且大多數(shù)都側(cè)重于對(duì)家譜數(shù)據(jù)的存儲(chǔ)研究[8?11],缺少對(duì)家譜數(shù)據(jù)融合及知識(shí)挖掘與推理方面的研究.其主要原因在于:一方面,大量的家譜數(shù)據(jù)屬于傳統(tǒng)數(shù)據(jù)資源,在大數(shù)據(jù)時(shí)代,這些數(shù)據(jù)必須與其他數(shù)據(jù)進(jìn)行有效整合才能更易于被用戶使用,比如電子化、網(wǎng)絡(luò)化等,因此往往需要面對(duì)著非常巨大的處理成本和轉(zhuǎn)換成本[12];另一方面,家譜大數(shù)據(jù)真正難以對(duì)付的挑戰(zhàn)來(lái)自于數(shù)據(jù)類型多樣、數(shù)據(jù)多源異構(gòu)的特征和數(shù)據(jù)的不確定性[13].
針對(duì)碎片化大數(shù)據(jù)的分析和應(yīng)用,吳信東等人提出了一種大數(shù)據(jù)知識(shí)工程模型BigKE[2],該模型采用一種三層次的知識(shí)建模方法:首先,對(duì)多源異構(gòu)數(shù)據(jù)中的碎片化知識(shí)進(jìn)行建模;然后,使用知識(shí)圖譜對(duì)碎片化知識(shí)進(jìn)行非線性融合;最后,以用戶需求為導(dǎo)向,提供具有個(gè)性化和實(shí)時(shí)使用價(jià)值的知識(shí)服務(wù)[14].BigKE 考慮到大數(shù)據(jù)的異構(gòu)和自治特征,對(duì)大數(shù)據(jù)挖掘形成的知識(shí)圖譜提出了個(gè)性化服務(wù)的導(dǎo)航,更有利于和具體的應(yīng)用實(shí)例結(jié)合.
在大數(shù)據(jù)知識(shí)工程BigKE 的技術(shù)框架下,吳信東團(tuán)隊(duì)推出了面向所有華人姓氏的家譜系統(tǒng)——華譜系統(tǒng)(華譜系統(tǒng)網(wǎng)址:http://zhonghuapu.com).華譜系統(tǒng)通過(guò)對(duì)家譜數(shù)據(jù)進(jìn)行碎片化知識(shí)融合,旨在為用戶提供姓氏的起源、姓氏的變遷、姓氏間關(guān)聯(lián)等信息.目前,華譜系統(tǒng)中人物數(shù)量已超過(guò)1587 萬(wàn),姓氏數(shù)目已超過(guò)720,數(shù)據(jù)源超過(guò)500 個(gè).系統(tǒng)數(shù)據(jù)量還在與日俱增.
在華譜系統(tǒng)中碎片化家譜數(shù)據(jù)融合過(guò)程的基礎(chǔ)上,結(jié)合HAO 模型[15],本文提出一個(gè)針對(duì)碎片化數(shù)據(jù)的融合框架 FDF-HAO(fragmented da ta fusion framework with human i ntelligence,a rtificial i ntelligence and organizational intelligence).該框架從碎片化數(shù)據(jù)開始,通過(guò)HI(人類智能)、AI(人工智能)和OI(組織智能)三者的交互和協(xié)同,實(shí)現(xiàn)多源異構(gòu)的碎片化數(shù)據(jù)的融合,最后形成一個(gè)由實(shí)體和各種關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫(kù),即家譜人物知識(shí)圖譜.人類智能指領(lǐng)域?qū)<覀兯峁┑膶<抑R(shí).人工智能指機(jī)器完成的智能工作,如自然語(yǔ)言處理技術(shù)、機(jī)器學(xué)習(xí)算法等.組織智能涵蓋了一個(gè)組織的全部知識(shí)能力[15],在本文中指家譜領(lǐng)域內(nèi)的領(lǐng)域規(guī)范或行業(yè)標(biāo)準(zhǔn).
本文提出的FDF-HAO 融合框架具有以下幾個(gè)特點(diǎn).
(1)通過(guò)HI、AI 和OI 三者的交互和協(xié)作,為大規(guī)模、異構(gòu)、多源的碎片化數(shù)據(jù)融合提供智能支持;
(2)通過(guò)對(duì)家譜數(shù)據(jù)語(yǔ)義和語(yǔ)法特征的觀察與分析,基于HI 和OI 提供的專家知識(shí)和數(shù)據(jù)標(biāo)準(zhǔn),在框架內(nèi)提出了新的針對(duì)家譜數(shù)據(jù)的數(shù)據(jù)抽取方法;
(3)在HI 的協(xié)作下,采用了一個(gè)面向家譜人物的無(wú)監(jiān)督實(shí)體對(duì)齊算法,能夠準(zhǔn)確高效地從海量家譜數(shù)據(jù)中識(shí)別出相同人物;
(4)結(jié)合OI 制定一套多源異構(gòu)家譜人物屬性的沖突解決機(jī)制,能夠簡(jiǎn)單高效地從多個(gè)沖突值中選擇真值;
(5)根據(jù)家譜數(shù)據(jù)的特點(diǎn),在HI 和OI 的智能支持下,設(shè)計(jì)了一個(gè)面向家譜領(lǐng)域的屬性融合算法,能夠從多源、碎片化的數(shù)據(jù)中凝練出實(shí)體的統(tǒng)一的、準(zhǔn)確的、有用的描述.
本文第1 節(jié)對(duì)相關(guān)工作進(jìn)行闡述.第2 節(jié)對(duì)本文提出的碎片化數(shù)據(jù)融合框架FDF-HAO 進(jìn)行詳細(xì)描述.第3節(jié)舉例驗(yàn)證本文提出框架的有效性,并對(duì)框架中采用的關(guān)鍵技術(shù)與同類技術(shù)進(jìn)行性能對(duì)比分析.第4 節(jié)對(duì)碎片化數(shù)據(jù)融合過(guò)程中仍存在的挑戰(zhàn)進(jìn)行闡述,并對(duì)其應(yīng)用前景進(jìn)行展望.第5 節(jié)對(duì)全文做總結(jié).
數(shù)據(jù)抽取的主要任務(wù)是從大量結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中準(zhǔn)確、快速地抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息[16].根據(jù)所需抽取信息的種類,數(shù)據(jù)抽取可分為3 個(gè)模塊:實(shí)體抽取、關(guān)系抽取、屬性抽取.
1.1.1 實(shí)體抽取
實(shí)體抽取,也稱為命名實(shí)體識(shí)別(name entity rec ognition,簡(jiǎn)稱NER),指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、組織機(jī)構(gòu)名、地名等[17].早期對(duì)實(shí)體抽取的方法主要是基于規(guī)則的方法,即人工構(gòu)建規(guī)則,再?gòu)奈谋局袑ふ移ヅ溥@些規(guī)則的字符串.例如,Rau[18]采用啟發(fā)式算法與人工編寫規(guī)則相結(jié)合的方法,從財(cái)經(jīng)新聞中自動(dòng)抽取公司名稱,實(shí)現(xiàn)了不錯(cuò)的效果.但是,人工制定這些規(guī)則需要耗費(fèi)大量時(shí)間和精力,而且規(guī)則對(duì)領(lǐng)域知識(shí)的依賴性較高,當(dāng)領(lǐng)域差別很大時(shí),制定的規(guī)則無(wú)法重用,可擴(kuò)展性較差.
后來(lái),隨著機(jī)器學(xué)習(xí)在NLP 領(lǐng)域的興起,人們開始嘗試使用機(jī)器學(xué)習(xí)方法解決實(shí)體抽取問(wèn)題.機(jī)器學(xué)習(xí)方法是指從樣本數(shù)據(jù)集合中統(tǒng)計(jì)出相關(guān)特征和參數(shù),以此建立識(shí)別模型[19].Lai 等人[20]結(jié)合統(tǒng)計(jì)原理和條件隨機(jī)場(chǎng)模型,對(duì)專利中的化學(xué)名稱進(jìn)行識(shí)別,在不同數(shù)據(jù)集上的F值均高于70%.Hwang 等人[21]通過(guò)分析學(xué)術(shù)期刊摘要中同時(shí)出現(xiàn)在特定詞語(yǔ)周圍的特定詞語(yǔ)之間的搭配關(guān)系,建立了一個(gè)實(shí)體識(shí)別模型.Akkasi 等人[22]利用條件隨機(jī)場(chǎng)模型為命名實(shí)體識(shí)別創(chuàng)建各種基線分類器,然后結(jié)合粒子群優(yōu)化算法和貝葉斯方法對(duì)分類器進(jìn)行選擇和有效組合.實(shí)驗(yàn)表明,該方法選擇的分類器集成性能優(yōu)于單一的最優(yōu)分類器,也優(yōu)于采用其他常用選擇/組合策略形成的兩個(gè)語(yǔ)料庫(kù)的集成性能.
近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)成為機(jī)器學(xué)習(xí)領(lǐng)域新的熱潮,一些學(xué)者開始將深度學(xué)習(xí)技術(shù)應(yīng)用在NER 問(wèn)題上,以求進(jìn)一步提高NER 的效果[23].Peng 等人[24]借鑒LSTM 在自動(dòng)分詞上得到較好的結(jié)果,提出一種LSTM 與CRF 相結(jié)合的模型.結(jié)果顯示,該方法的F值比之前的方法高了將近5%.Qiu 等人[25]提出了一種基于條件隨機(jī)域的殘差擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)(RD-CNN-CRF),使模型在計(jì)算上具有異步性,大大加快了訓(xùn)練周期,實(shí)現(xiàn)了中文臨床命名實(shí)體識(shí)別.
1.1.2 關(guān)系抽取
實(shí)體和實(shí)體之間存在著語(yǔ)義關(guān)系,當(dāng)兩個(gè)實(shí)體出現(xiàn)在同一個(gè)句子或同一段落里時(shí),上下文環(huán)境就決定了兩個(gè)實(shí)體間的語(yǔ)義關(guān)系,通過(guò)關(guān)系將實(shí)體聯(lián)系起來(lái),才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu)[26].
經(jīng)典的實(shí)體關(guān)系抽取方法主要分為有監(jiān)督、半監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督這4 類.有監(jiān)督的實(shí)體關(guān)系抽取主要分為基于特征和基于核函數(shù)的方法[27].甘麗新等人[28]通過(guò)將2 個(gè)實(shí)體各自的依存句法關(guān)系進(jìn)行組合,獲取依存句法關(guān)系組合特征,利用依存句法分析和詞性標(biāo)注選擇最近句法依賴動(dòng)詞特征,使用支持向量機(jī)實(shí)現(xiàn)了實(shí)體關(guān)系的抽取.但是有監(jiān)督方法需要大量的標(biāo)注數(shù)據(jù),浪費(fèi)時(shí)間和精力.因此,人們繼而提出了基于半監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督的關(guān)系抽取方法.陳立瑋等人[29]針對(duì)弱監(jiān)督學(xué)習(xí)中標(biāo)注數(shù)據(jù)不完全可靠的情況,提出基于booststrapping思想的協(xié)同訓(xùn)練方法來(lái)對(duì)弱監(jiān)督關(guān)系抽取模型進(jìn)行強(qiáng)化,并且對(duì)預(yù)測(cè)關(guān)系時(shí)的協(xié)同策略進(jìn)行了詳細(xì)分析.Hasegawa 等人[30]提出了一個(gè)無(wú)監(jiān)督的關(guān)系抽取方法,其核心思想是,根據(jù)命名實(shí)體之間的上下文詞的相似性對(duì)命名實(shí)體進(jìn)行聚類.
隨著近年來(lái)深度學(xué)習(xí)的崛起,學(xué)者們逐漸將深度學(xué)習(xí)應(yīng)用到關(guān)系抽取任務(wù)中,主要基礎(chǔ)方法有CNN,RNN,LSTM 等.Leng 等人[31]提出了一種改進(jìn)的疊加去噪自動(dòng)編碼器的深度學(xué)習(xí)模型,用于提取不同命名實(shí)體之間的關(guān)系.Ji 等人[32]充分利用知識(shí)庫(kù)的有監(jiān)督信息,在PCNN 和注意力機(jī)制的基礎(chǔ)上實(shí)現(xiàn)了關(guān)系的抽取.
1.1.3 屬性抽取
屬性抽取是指在無(wú)序信息文本中將關(guān)注實(shí)體的屬性特征進(jìn)行集中的提取,可以觀察和總結(jié)出此實(shí)體關(guān)于此屬性的價(jià)值信息.目前,針對(duì)人物屬性的抽取研究逐漸增多,并通過(guò)不斷改進(jìn)研究方法,抽取工作已取得不錯(cuò)的成果.
屬性抽取當(dāng)前的研究熱點(diǎn)是對(duì)半結(jié)構(gòu)化數(shù)據(jù)的信息抽取.然而,有大量的實(shí)體屬性信息隱藏在非結(jié)構(gòu)化數(shù)據(jù)中,如何從海量非結(jié)構(gòu)化數(shù)據(jù)中抽取實(shí)體屬性是值得關(guān)注的問(wèn)題.對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的屬性抽取,目前有兩種解決方案:一種是通過(guò)自動(dòng)抽取半結(jié)構(gòu)化數(shù)據(jù)中的實(shí)體屬性,生成訓(xùn)練語(yǔ)料庫(kù),用于實(shí)體屬性標(biāo)注模型,然后將其應(yīng)用在非結(jié)構(gòu)化數(shù)據(jù)的實(shí)體屬性抽取中[33];另一種方案是采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性與屬性值之間的關(guān)系模式,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的屬性抽取.實(shí)際上,實(shí)體屬性值附近一般都存在一些用于限制和界定該屬性值含義的關(guān)鍵詞,因此可以利用這些關(guān)鍵詞來(lái)定位實(shí)體屬性值,進(jìn)行屬性抽取[34].
數(shù)據(jù)融合主要是指整合表示同一個(gè)現(xiàn)實(shí)世界對(duì)象的多個(gè)數(shù)據(jù)源和知識(shí)描述,形成統(tǒng)一的、準(zhǔn)確的、有用的描述的過(guò)程[35],其過(guò)程可分為實(shí)體對(duì)齊、沖突消解、屬性融合.
1.2.1 實(shí)體對(duì)齊
在真實(shí)語(yǔ)言環(huán)境中,經(jīng)常會(huì)遇到同一實(shí)體指稱項(xiàng)對(duì)應(yīng)著多個(gè)不同實(shí)體的情況.例如,“李娜”這個(gè)姓名可以對(duì)應(yīng)于作為歌手的李娜,也可以對(duì)應(yīng)于作為網(wǎng)球運(yùn)動(dòng)員的李娜.另一種情況同樣存在,即不同實(shí)體指稱項(xiàng)對(duì)應(yīng)于同一實(shí)體.例如,“孔子”“孔丘”“孔仲尼”等姓名都代表同一個(gè)人物“孔子”.因此,實(shí)體對(duì)齊問(wèn)題應(yīng)運(yùn)而生.實(shí)體對(duì)齊[36]是判斷相同或不同數(shù)據(jù)集中的兩個(gè)實(shí)體是否指向真實(shí)世界同一對(duì)象的過(guò)程.
最初,實(shí)體對(duì)齊方法主要基于文本相似性函數(shù)對(duì)實(shí)體進(jìn)行特征匹配.但這種方法僅考慮實(shí)體的上下文語(yǔ)義信息,忽略了實(shí)體之間存在的“共現(xiàn)”關(guān)系.1969年,Fellegi 和Sunter[37]提出一種基于傳統(tǒng)概率模型的實(shí)體對(duì)齊方法,通過(guò)將基于屬性相似性評(píng)分的實(shí)體匹配問(wèn)題轉(zhuǎn)化為分類問(wèn)題,建立了這個(gè)問(wèn)題的概率模型.這種模型是實(shí)體對(duì)齊領(lǐng)域的重要方法,迄今為止,仍然有大量的實(shí)體對(duì)齊方面的工作建立在這種方法之上.
隨著機(jī)器學(xué)習(xí)的興起,很多機(jī)器學(xué)習(xí)方法也逐漸應(yīng)用到實(shí)體對(duì)齊領(lǐng)域,并取得了巨大的進(jìn)展.機(jī)器學(xué)習(xí)方法主要將實(shí)體對(duì)齊問(wèn)題看作是二元分類問(wèn)題,根據(jù)是否使用標(biāo)注數(shù)據(jù),可以分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類.Chen 等人[38]結(jié)合兩種監(jiān)督學(xué)習(xí)的方法,將多種基礎(chǔ)實(shí)體對(duì)齊系統(tǒng)和上下文特征映射起來(lái),形成統(tǒng)一的聚類決策模型.
但是在大規(guī)模數(shù)據(jù)的情況下,實(shí)體對(duì)齊過(guò)程中的訓(xùn)練數(shù)據(jù)是較難獲取的,往往需要耗費(fèi)大量的時(shí)間和精力去對(duì)數(shù)據(jù)進(jìn)行標(biāo)注.Guan 等人[39]提出了一種自學(xué)習(xí)的實(shí)體對(duì)齊方法,充分利用了實(shí)體屬性中包含的語(yǔ)義信息,迭代查找語(yǔ)義對(duì)齊的實(shí)體對(duì).
在實(shí)體對(duì)齊過(guò)程中,候選實(shí)體對(duì)的生成對(duì)結(jié)果的正確性起著十分重要的作用.通常來(lái)說(shuō),為了發(fā)現(xiàn)所有的候選實(shí)體對(duì),需要將一個(gè)知識(shí)庫(kù)中的所有實(shí)體與另一個(gè)知識(shí)庫(kù)中的所有實(shí)體進(jìn)行比較,這將導(dǎo)致算法的計(jì)算復(fù)雜度隨著數(shù)據(jù)規(guī)模二次增長(zhǎng).
1.2.2 沖突消解
檢測(cè)出碎片化數(shù)據(jù)中的相同實(shí)體后,我們需要對(duì)相同的實(shí)體的信息進(jìn)行融合,將同一實(shí)體的所有屬性信息合并成一條完整的實(shí)體描述信息.但在融合過(guò)程中,不同數(shù)據(jù)源中同一實(shí)體的信息可能會(huì)因?yàn)殄e(cuò)誤、丟失、數(shù)據(jù)過(guò)期等原因出現(xiàn)沖突的情況[40].因此,我們需要在各數(shù)據(jù)源提供的值中,選擇與真實(shí)世界相一致的值,即數(shù)據(jù)的真值.這個(gè)過(guò)程我們稱之為數(shù)據(jù)沖突消解[41].
數(shù)據(jù)沖突消解方法層出不窮,現(xiàn)有的數(shù)據(jù)沖突消解方法大都通過(guò)關(guān)系擴(kuò)展的方式實(shí)現(xiàn),并定義了若干沖突消解策略和沖突消解函數(shù)[36].但這類方法在適應(yīng)性和準(zhǔn)確性方面分別存在著一定的不足,難以適應(yīng)大規(guī)模數(shù)據(jù)的沖突消解任務(wù).另外,還有一些沖突消解策略是從多個(gè)沖突值中選擇真值.Yin 等人[42]基于一些啟發(fā)式規(guī)則提出了一個(gè)解決數(shù)據(jù)沖突問(wèn)題迭代計(jì)算的準(zhǔn)則,設(shè)計(jì)出了TruthFinder 算法.但這種方法僅考慮數(shù)據(jù)源和數(shù)據(jù)值之間的關(guān)系,沒(méi)有考慮到數(shù)據(jù)源之間的依賴關(guān)系,這在一定程度上會(huì)對(duì)最終結(jié)果造成不利影響.Lyu 等人[43]提出一種無(wú)監(jiān)督的沖突消解模型,利用數(shù)據(jù)源-數(shù)據(jù)源和數(shù)據(jù)源-數(shù)據(jù)值之間的關(guān)系構(gòu)造一個(gè)異構(gòu)網(wǎng)絡(luò),并將其嵌入至一個(gè)低維空間中,自動(dòng)地發(fā)現(xiàn)數(shù)據(jù)的真值.
另外,現(xiàn)有沖突消解方法主要是對(duì)所有屬性的數(shù)據(jù)沖突問(wèn)題采取同等對(duì)待的方式.但這些方法并沒(méi)有考慮不同屬性的沖突程度可能不同,也沒(méi)有考慮不同屬性間的相互影響,這在一定程度上也會(huì)導(dǎo)致沖突消解的準(zhǔn)確率降低.
1.2.3 屬性融合
在對(duì)不同數(shù)據(jù)源的實(shí)體信息進(jìn)行融合時(shí),我們發(fā)現(xiàn)這些數(shù)據(jù)源的信息中,存在名稱不同含義相同或名稱相同含義不同的屬性.因此,我們需要對(duì)實(shí)體的屬性進(jìn)行判斷,把名稱不同但含義相同的屬性進(jìn)行合并,或者把名稱相同卻含義不同的屬性進(jìn)行拆分,從而獲得更準(zhǔn)確、更豐富的屬性信息.這個(gè)過(guò)程我們稱之為屬性融合.
現(xiàn)有的屬性融合的方法包括基于相似距離計(jì)算的方法、基于統(tǒng)計(jì)語(yǔ)言模型的方法和基于詞典匹配的方法等,主要通過(guò)建立模型等方式對(duì)實(shí)體屬性進(jìn)行相似度計(jì)算.2014年,Jakub 等人[44]通過(guò)比較數(shù)據(jù)集的特征和聚集屬性信息來(lái)計(jì)算兩個(gè)屬性的最小距離,再通過(guò)KNN 算法實(shí)現(xiàn)屬性對(duì)齊.該方法能夠在沒(méi)有丟失重要信息的前提下實(shí)現(xiàn)屬性對(duì)齊,能夠預(yù)測(cè)個(gè)人屬性和對(duì)齊屬性的距離.
本節(jié)先闡述碎片化數(shù)據(jù)融合框架的主要結(jié)構(gòu),然后以華譜系統(tǒng)中碎片化家譜數(shù)據(jù)融合為例,詳細(xì)介紹碎片化數(shù)據(jù)融合框架中家譜數(shù)據(jù)在每層的處理過(guò)程和解決方案,以驗(yàn)證本文提出的碎片化數(shù)據(jù)融合框架的有效性.
本文提出了一個(gè)碎片化數(shù)據(jù)融合框架FDF-HAO,通過(guò)HI、AI 和OI 三者的交互和協(xié)同,為多源異構(gòu)碎片化數(shù)據(jù)的融合過(guò)程提供智能支持.該框架在HAO 智能的技術(shù)背景下,以碎片化數(shù)據(jù)為起點(diǎn),通過(guò)數(shù)據(jù)獲取、數(shù)據(jù)抽取、數(shù)據(jù)規(guī)范和數(shù)據(jù)融合這4 個(gè)模塊的處理,最后形成一個(gè)由實(shí)體和各種關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫(kù),即知識(shí)圖譜.框架圖如圖1所示.碎片化數(shù)據(jù)融合過(guò)程可分為以下4 個(gè)部分.
(1)數(shù)據(jù)獲取層.數(shù)據(jù)獲取層的主要功能是使用爬蟲技術(shù)(AI)從互聯(lián)網(wǎng)中獲取不同來(lái)源和形式的數(shù)據(jù).不同數(shù)據(jù)源所涉及的數(shù)據(jù)類型有很多種,如文本文件、表格文件、網(wǎng)頁(yè)數(shù)據(jù)等.因此,數(shù)據(jù)獲取層中獲取的碎片化數(shù)據(jù)具有多源、異構(gòu)的特點(diǎn);
(2)數(shù)據(jù)抽取層.為了實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一存儲(chǔ),數(shù)據(jù)抽取層從底層多源異構(gòu)的碎片化數(shù)據(jù)中提取出有價(jià)值的信息,其關(guān)鍵在于結(jié)合HI 和OI,采用自然語(yǔ)言處理技術(shù)(AI),通過(guò)對(duì)自然語(yǔ)言的詞法、句法的分析,實(shí)現(xiàn)實(shí)體、關(guān)系、屬性的抽取;
(3)數(shù)據(jù)規(guī)范層.數(shù)據(jù)規(guī)范層的主要功能是:在OI 提供的數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)下,將從數(shù)據(jù)抽取層中提取的信息標(biāo)準(zhǔn)化、規(guī)范化,以避免因語(yǔ)義異構(gòu)性引起的數(shù)據(jù)沖突等問(wèn)題;
(4)數(shù)據(jù)融合層.數(shù)據(jù)融合層是碎片化數(shù)據(jù)融合框架的核心,在HI 和OI 的智能支持下,使用機(jī)器學(xué)習(xí)技術(shù)(AI)將數(shù)據(jù)規(guī)范層中標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行實(shí)體對(duì)齊、沖突解決和屬性融合,形成以關(guān)系為有向邊的數(shù)據(jù)網(wǎng)絡(luò),為后期的高級(jí)知識(shí)應(yīng)用和服務(wù)提供數(shù)據(jù)基礎(chǔ).
Fig.1 FDF-HAO framework圖1 FDF-HAO 框架結(jié)構(gòu)圖
首先,在數(shù)據(jù)獲取層中,主要是從互聯(lián)網(wǎng)中采集多源、異構(gòu)、碎片化的家譜數(shù)據(jù).本文使用爬蟲技術(shù)(AI),在利用webcollector(https://github.com/CrawlScript/WebCollector)爬蟲框架的基礎(chǔ)上,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)中家譜數(shù)據(jù)的獲取.家譜數(shù)據(jù)源主要為上海圖書館、百度文庫(kù)、豆丁網(wǎng)等網(wǎng)站.數(shù)據(jù)獲取層主要包括以下3 個(gè)過(guò)程.
(1)確定網(wǎng)頁(yè)地址(URL)
通常情況下,傳入爬蟲的是網(wǎng)站的主頁(yè),即用戶最先瀏覽的主頁(yè),而后根據(jù)不同的需求在主頁(yè)相關(guān)的網(wǎng)頁(yè)之間進(jìn)行切換.確定網(wǎng)頁(yè)地址有兩種方式:a)通過(guò)獲取網(wǎng)站主頁(yè)中的超鏈接,確定需要爬取數(shù)據(jù)的網(wǎng)頁(yè)地址;b)尋找網(wǎng)站中各網(wǎng)頁(yè)地址的規(guī)律,通過(guò)代碼自動(dòng)生成網(wǎng)頁(yè)地址.
(2)解析網(wǎng)頁(yè)文件
觀察爬取后的數(shù)據(jù)及其格式,通過(guò)程序?qū)?shù)據(jù)進(jìn)行解析,過(guò)濾無(wú)用數(shù)據(jù),提取所需要的信息.
(3)存儲(chǔ)數(shù)據(jù)
根據(jù)爬取數(shù)據(jù)的格式,為其選擇合適的存儲(chǔ)方式,一般可以存儲(chǔ)為TXT,WORD 等格式的文件.
本節(jié)首先對(duì)家譜數(shù)據(jù)的文本特點(diǎn)進(jìn)行總結(jié)與分析,然后介紹本文在家譜數(shù)據(jù)特點(diǎn)的基礎(chǔ)上所設(shè)計(jì)的家譜數(shù)據(jù)抽取方法.
2.3.1 家譜數(shù)據(jù)文本特點(diǎn)
家譜數(shù)據(jù)的形式主要有表格、文本、網(wǎng)頁(yè)這3 種,其中,文本是家譜中較常見(jiàn)的數(shù)據(jù)類型.而與傳統(tǒng)的文本相比,家譜數(shù)據(jù)中的文本不管是結(jié)構(gòu)還是語(yǔ)言,都具有其獨(dú)特性.
(1)碎片化特征
隨著家譜文獻(xiàn)的數(shù)字化,互聯(lián)網(wǎng)中的家譜數(shù)據(jù)逐漸增多,海量的家譜數(shù)據(jù)堪稱人文社科領(lǐng)域的大數(shù)據(jù).由于大數(shù)據(jù)的特征——海量、多源、異構(gòu)、碎片化,針對(duì)家譜數(shù)據(jù)的信息抽取任務(wù)存在著巨大的挑戰(zhàn).
(2)結(jié)構(gòu)特點(diǎn)
家譜數(shù)據(jù)中的文本通常以“世系圖+人物描述”形式記錄人物信息:“世系圖”為樹形結(jié)構(gòu),記載男性人物親屬關(guān)系,該部分可用于人物姓名及關(guān)系抽取;“人物描述”為一段記敘性文字,記載該人物屬性信息及其人物關(guān)系,該部分是人物信息抽取的關(guān)鍵部分.家譜數(shù)據(jù)的這兩部分結(jié)構(gòu)中的內(nèi)容可用于交叉驗(yàn)證人物姓名及關(guān)系抽取的正確性.
(3)語(yǔ)言特點(diǎn)
與傳統(tǒng)的文本數(shù)據(jù)相比,家譜數(shù)據(jù)使用的語(yǔ)言有其獨(dú)有的特點(diǎn):a)包含大量繁體字及生僻字;b)經(jīng)常使用一些偏文言文的詞匯和語(yǔ)法,如“妣”“適”等;c)同一份家譜中,人物的描述性信息通常具有相同的模式.
家譜中的人物信息隱藏在文本數(shù)據(jù)中,計(jì)算機(jī)很難自動(dòng)對(duì)其進(jìn)行處理.因此,自然語(yǔ)言處理、數(shù)據(jù)抽取等技術(shù)在家譜數(shù)據(jù)的挖掘和推理中將發(fā)揮重要的作用.同時(shí),家譜數(shù)據(jù)的碎片化特征、結(jié)構(gòu)特點(diǎn)和語(yǔ)言特點(diǎn)給這些技術(shù)在家譜領(lǐng)域內(nèi)的應(yīng)用帶來(lái)新的機(jī)遇和挑戰(zhàn),其挑戰(zhàn)主要在于家譜的用詞語(yǔ)法和行文風(fēng)格與開放領(lǐng)域文本或其他領(lǐng)域文本截然不同.因此,已有的自然語(yǔ)言處理工具如分詞、依存句法分析等在家譜數(shù)據(jù)上都有可能失效.同時(shí),通過(guò)充分利用家譜數(shù)據(jù)的特點(diǎn),如家譜數(shù)據(jù)中較強(qiáng)的模式化表達(dá)習(xí)慣、語(yǔ)言精練準(zhǔn)確無(wú)歧義等,可以使得處理難度大為降低,并利用結(jié)構(gòu)之間的聯(lián)系進(jìn)行信息歸納和推理.
2.3.2 家譜數(shù)據(jù)抽取方法
家譜數(shù)據(jù)多是以自然語(yǔ)言描述的非結(jié)構(gòu)化文本,并且包含大量領(lǐng)域內(nèi)特有詞匯及語(yǔ)法,與機(jī)器語(yǔ)言之間存在巨大鴻溝,導(dǎo)致用計(jì)算機(jī)直接處理和分析家譜數(shù)據(jù)的效率較低,也影響了分析結(jié)果的質(zhì)量.通過(guò)對(duì)家譜數(shù)據(jù)的觀察,我們發(fā)現(xiàn):家譜數(shù)據(jù)在行文和布局上具有一定的結(jié)構(gòu)和規(guī)律,但不同家譜的行文方式和布局結(jié)構(gòu)又不盡相同.對(duì)于具有一定結(jié)構(gòu)的家譜數(shù)據(jù)來(lái)說(shuō),采用基于啟發(fā)式規(guī)則的方法進(jìn)行數(shù)據(jù)抽取最為簡(jiǎn)單高效.但面對(duì)大量不同種類不同結(jié)構(gòu)的家譜數(shù)據(jù),如果對(duì)每一份家譜均編寫一套相應(yīng)的規(guī)則,將耗費(fèi)大量的人力物力,在實(shí)際應(yīng)用中,實(shí)用性非常低,不具有通用性.因此,本文提出一種基于HAO 模型的通用家譜信息抽取方法,在OI 提供的家譜領(lǐng)域規(guī)范的標(biāo)準(zhǔn)下,利用HI 和AI 的協(xié)同作用,對(duì)家譜數(shù)據(jù)進(jìn)行信息抽取.由上一小節(jié)中對(duì)家譜數(shù)據(jù)的分析可知,家譜數(shù)據(jù)中的文本通常以“世系圖+人物描述”形式記錄人物信息.因此,我們分別對(duì)“世系圖”及“人物描述”中的信息進(jìn)行抽取,在經(jīng)過(guò)專家(HI)確認(rèn)后的“世系圖”數(shù)據(jù)抽取結(jié)果的協(xié)助下,對(duì)“人物描述”中所包含的人物屬性信息和人物間關(guān)系進(jìn)行抽取.
(1)“世系圖”數(shù)據(jù)抽取
“世系圖”以樹形結(jié)構(gòu)記載家譜中男性人物的親屬關(guān)系.我們可以通過(guò)計(jì)算機(jī)讀取家譜中的“世系圖”部分,從中抽取家譜人物姓名.但是計(jì)算機(jī)無(wú)法自動(dòng)區(qū)分家譜中的“世系圖”和“人物描述”,因此,本文通過(guò)與HI 的交互,為計(jì)算機(jī)提供少量信息,確定家譜中“世系圖”所處范圍.之后,計(jì)算機(jī)自動(dòng)抽取“世系圖”中的人物姓名.另外,我們將抽取出的家譜人物姓名作為有監(jiān)督數(shù)據(jù),構(gòu)建家譜領(lǐng)域人名詞典,以便提高NLP 工具對(duì)家譜進(jìn)行分析處理的精確性.
(2)“人物描述”數(shù)據(jù)抽取
“人物描述”中蘊(yùn)含著豐富的人物信息,包括人物姓名、屬性及關(guān)系.通過(guò)對(duì)家譜數(shù)據(jù)的觀察,我們發(fā)現(xiàn):在“人物描述”中,每個(gè)家譜人物的描述信息獨(dú)立成一段或多段;并且每份家譜以固定的模式化語(yǔ)句對(duì)人物屬性信息和人物間關(guān)系進(jìn)行介紹.
首先,HI 即領(lǐng)域?qū)<覀兺ㄟ^(guò)對(duì)家譜數(shù)據(jù)的觀察與分析,根據(jù)家譜文本描述的前后語(yǔ)義關(guān)系,結(jié)合對(duì)語(yǔ)境的理解,對(duì)家譜數(shù)據(jù)的語(yǔ)言模式進(jìn)行總結(jié),構(gòu)建家譜領(lǐng)域全局知識(shí)庫(kù),為計(jì)算機(jī)提供家譜領(lǐng)域外部語(yǔ)義知識(shí).由于家譜語(yǔ)法結(jié)構(gòu)復(fù)雜,信息不一,表1 為簡(jiǎn)化后的家譜語(yǔ)言模式.其中,N 表示人物姓名,FN 表示父親姓名,P N 表示配偶姓名,SN 表示兒子姓名,XX 為屬性信息.
Table 1 Language schema表1 語(yǔ)言模式
由于不同家譜具有不同的語(yǔ)言模式,本文使用HanLP 漢語(yǔ)語(yǔ)言處理工具[45]提取家譜數(shù)據(jù)的淺層詞法特征,對(duì)家譜數(shù)據(jù)進(jìn)行分詞、命名實(shí)體識(shí)別和詞性標(biāo)注.但由于家譜的用詞語(yǔ)法和行文風(fēng)格與開放領(lǐng)域文本不同,為了保證Hanlp 分析結(jié)果的準(zhǔn)確性,我們需要對(duì)家譜中特殊的用詞進(jìn)行總結(jié),構(gòu)建家譜領(lǐng)域詞典,為Hanlp 提供家譜領(lǐng)域語(yǔ)義支持.
從表1 中可以看出:人物之間關(guān)系和屬性的描述具有一定的規(guī)律性,不同種類信息附近通常有固定的、具有語(yǔ)義信息的關(guān)鍵詞.因此,在對(duì)家譜進(jìn)行分析處理后,根據(jù)分析后的詞語(yǔ)詞性及詞語(yǔ)附近關(guān)鍵詞,在全局知識(shí)庫(kù)提供的語(yǔ)義知識(shí)的協(xié)助下,判斷當(dāng)前待處理家譜所對(duì)應(yīng)的語(yǔ)言模式,對(duì)家譜進(jìn)行初步的信息抽取,并自動(dòng)構(gòu)建適用于當(dāng)前家譜的局部規(guī)則庫(kù).例如,在關(guān)鍵詞“配”“妣”“娶”后的詞性為“人物姓名”的詞語(yǔ)一般為人物配偶姓名,關(guān)鍵詞“字”后的詞性為“名詞”的詞語(yǔ)一般為人物屬性“字”的屬性值.
之后,我們根據(jù)上一步中構(gòu)建的局部規(guī)則庫(kù),對(duì)少部分家譜數(shù)據(jù)進(jìn)行抽取,將結(jié)果反饋給用戶:若用戶確定當(dāng)前抽取結(jié)果正確,則采用現(xiàn)有局部規(guī)則庫(kù);若用戶對(duì)抽取結(jié)果不滿意,則用戶對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,并將標(biāo)注信息返回至計(jì)算機(jī).計(jì)算機(jī)根據(jù)用戶標(biāo)注信息與原抽取結(jié)果的差異,對(duì)局部規(guī)則庫(kù)中的規(guī)則進(jìn)行修正.
另外,由于家譜領(lǐng)域的特殊性,家譜文本中通常蘊(yùn)含著一些隱性的人物信息.為了確保數(shù)據(jù)抽取的全面性和準(zhǔn)確性,我們根據(jù)OI 提供的領(lǐng)域知識(shí),抽取家譜中的隱性信息,對(duì)抽取結(jié)果進(jìn)行擴(kuò)充.例如,利用人物屬性“輩份”添加隱性父子關(guān)系:若存在人物集合P={p1,p2,…,pm}的輩份為n,且輩份為n?1 的人物僅有一個(gè),記為人物B,則我們可以認(rèn)為,人物B為人物集合P的父親.
數(shù)據(jù)規(guī)范層的主要功能是將數(shù)據(jù)抽取層中抽取到的信息用一個(gè)統(tǒng)一的標(biāo)準(zhǔn)規(guī)范化,將這些數(shù)據(jù)轉(zhuǎn)換為一種統(tǒng)一的描述,則有利于消除信息的語(yǔ)義異構(gòu)性.但不同領(lǐng)域通常具有不同的數(shù)據(jù)規(guī)范標(biāo)準(zhǔn).本文提出在OI 提供的領(lǐng)域數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)的基礎(chǔ)上,制定數(shù)據(jù)規(guī)范原則,具體原則如下.
(1)化“繁”為“簡(jiǎn)”原則
對(duì)于中文數(shù)據(jù),經(jīng)常會(huì)出現(xiàn)繁體字信息.為了數(shù)據(jù)的統(tǒng)一性,我們需要將所有的繁體字轉(zhuǎn)換為簡(jiǎn)體字進(jìn)行存儲(chǔ).目前有許多開源工具類可以進(jìn)行中文繁簡(jiǎn)體的轉(zhuǎn)換,如ZHConverter(https://github.com/program-in-chinese/zhconverter),OpenCC(https://github.com/BYVoid/OpenCC),OpenCC4j(https://github.com/houbb/opencc4j)等.
(2)標(biāo)準(zhǔn)化原則
對(duì)于數(shù)據(jù)源中存在的表述不一致性問(wèn)題,我們?yōu)椴煌臄?shù)據(jù)類型制定一個(gè)統(tǒng)一的標(biāo)準(zhǔn),將數(shù)據(jù)標(biāo)準(zhǔn)化.人物屬性信息值的數(shù)據(jù)類型主要有三類:字符串類型、數(shù)值類型和時(shí)間類型數(shù)據(jù).我們分別為這三類數(shù)據(jù)制定一個(gè)標(biāo)準(zhǔn).
?對(duì)于數(shù)值類型數(shù)據(jù),以阿拉伯?dāng)?shù)字為統(tǒng)一標(biāo)準(zhǔn).如果同一人物屬性的兩個(gè)事實(shí)內(nèi)容等價(jià),僅是數(shù)值表示方式不同,則我們統(tǒng)一選擇以阿拉伯?dāng)?shù)字表示的數(shù)據(jù).假設(shè)有兩條來(lái)自不同數(shù)據(jù)源的同一人物的信息:“張三享年七十二歲”和“張三享年72 歲”.采用該條融合規(guī)則后,以“72 歲”作為人物“張三”的享年;
?對(duì)于字符串類型數(shù)據(jù),會(huì)存在縮寫詞、簡(jiǎn)稱等表示方式,以名稱的全稱為統(tǒng)一標(biāo)準(zhǔn).名稱的縮寫、簡(jiǎn)稱等形式可能與另一名稱的縮寫或簡(jiǎn)稱重合,造成歧義.例如,“南大”一詞,可能指代“南京大學(xué)”,也可能指代“南昌大學(xué)”.因此,為了保證融合結(jié)果的清晰明確,在進(jìn)行融合時(shí),我們選擇名稱的全稱或較為完整的數(shù)據(jù);
?對(duì)于時(shí)間數(shù)據(jù),在家譜中時(shí)間大多數(shù)以字符串型數(shù)據(jù)存在,如“開皇十八年二月二十二日”“順治乙酉年八月十二日”等.我們需要將這類數(shù)據(jù)轉(zhuǎn)換成常見(jiàn)的數(shù)據(jù)類型,即“yyyy年mm月dd日”.鑒于家譜領(lǐng)域數(shù)據(jù)的特殊性,我們根據(jù)OI 提供的家譜領(lǐng)域數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),人工構(gòu)建外部語(yǔ)義知識(shí)庫(kù),對(duì)特殊屬性值進(jìn)行規(guī)范化.例如:對(duì)于上述提及的時(shí)間屬性,人工構(gòu)建古代皇帝年號(hào)時(shí)間表(見(jiàn)表2)和中國(guó)古代紀(jì)年表(見(jiàn)表3),計(jì)算標(biāo)準(zhǔn)化后的日期.
Table 2 Years of ancient emperors表2 古代皇帝年號(hào)時(shí)間表
Table 3 Chronology of ancient China表3 中國(guó)古代紀(jì)年表
數(shù)據(jù)融合層是數(shù)據(jù)融合框架中的核心層,為數(shù)據(jù)應(yīng)用層的接口和服務(wù)提供數(shù)據(jù)基礎(chǔ).數(shù)據(jù)融合層通過(guò)使用機(jī)器學(xué)習(xí)技術(shù)(AI),將上一層規(guī)范后的數(shù)據(jù)融合成一個(gè)統(tǒng)一、互聯(lián)的數(shù)據(jù)網(wǎng)絡(luò),具體過(guò)程可分為以下3 個(gè)部分.
(1)實(shí)體對(duì)齊,找出不同數(shù)據(jù)源中的相同實(shí)體,以便進(jìn)行下一步的融合;
(2)沖突消解,解決不同數(shù)據(jù)源中對(duì)于同一實(shí)體的數(shù)據(jù)沖突問(wèn)題;
(3)屬性融合,通過(guò)對(duì)不同數(shù)據(jù)源中實(shí)體屬性的融合,從多源、碎片化的數(shù)據(jù)中凝練出實(shí)體的統(tǒng)一的準(zhǔn)確的描述.
2.5.1 家譜人物對(duì)齊
對(duì)于海量多源的家譜數(shù)據(jù),如果我們對(duì)其中的人物做人工標(biāo)注,將耗費(fèi)大量的精力.因此,本文使用無(wú)監(jiān)督的方法對(duì)家譜中存在的相同人物進(jìn)行識(shí)別.無(wú)監(jiān)督的實(shí)體對(duì)齊方法的主要思想是,利用相似性等特征將實(shí)體聚類到同一類別中[36].
在對(duì)大量家譜數(shù)據(jù)進(jìn)行研究與分析的基礎(chǔ)上,HI 構(gòu)建家譜領(lǐng)域內(nèi)候選實(shí)體對(duì)生成規(guī)則庫(kù),組成候選實(shí)體對(duì),之后,利用基于相似性的無(wú)監(jiān)督實(shí)體對(duì)齊算法(AI)判斷候選實(shí)體對(duì)中的人物是否相同.實(shí)體對(duì)齊算法可以分成兩個(gè)子模塊:候選實(shí)體對(duì)生成和候選實(shí)體對(duì)相似度計(jì)算.
(1)候選實(shí)體對(duì)生成
在該模塊,檢測(cè)出兩份家譜中所有可能相同的人物,組成候選實(shí)體對(duì).為了提高召回率并且盡可能全面地檢測(cè)出人物的候選實(shí)體,我們?cè)趯?duì)家譜數(shù)據(jù)分析后,總結(jié)出在家譜數(shù)據(jù)中存在相同人物的情況,如下所示.
?兩個(gè)人物姓和名完全相同.同名人物為相同人物是家譜數(shù)據(jù)中最常見(jiàn)的情況;
?兩個(gè)人物姓相同,名部分相同.家譜中的人物姓名通常由“姓+輩份+名”組成,但有時(shí)人物姓名僅為“姓+名”.例如,“吳自忠”的輩份為“自”,則“吳忠”可能也指代“吳自忠”;
?兩個(gè)人物姓相同,一人的名與另一人的字或號(hào)完全相同.在一些家譜中,會(huì)存在以人物的字或號(hào)表示人物的情況.例如,唐朝詩(shī)人“李白”字“太白”,因此“李太白”也指代“李白”;
?兩個(gè)人物姓不同,名完全相同.隨著時(shí)間的推移,“姓氏改易”現(xiàn)象經(jīng)常發(fā)生.皇室賜姓、家族遷徙、人物過(guò)繼等情況均會(huì)導(dǎo)致姓氏的變化.因此,同一人物在不同時(shí)期可能具有不同的姓氏,出現(xiàn)同名不同姓的情況;
?兩個(gè)人物相同,則其后代極有可能相同.如果我們已經(jīng)確定兩份家譜中的人物相同,那么其后代也有很大可能為相同人物.
HI 將上述總結(jié)出的家譜數(shù)據(jù)相同人物的特點(diǎn)轉(zhuǎn)換成計(jì)算機(jī)能夠讀取的語(yǔ)言,設(shè)計(jì)一組簡(jiǎn)單有效的候選實(shí)體生成規(guī)則,使用基于規(guī)則的候選實(shí)體生成方法為每個(gè)待判斷的人物生成一系列候選實(shí)體,組成候選實(shí)體對(duì).該方法不僅能充分考慮到所有可能性的發(fā)生,提供較為全面的候選實(shí)體對(duì),保證了結(jié)果的召回率,還大大降低了實(shí)體對(duì)齊的計(jì)算復(fù)雜度.
(2)候選實(shí)體對(duì)相似度計(jì)算
在這一模塊中,我們采用無(wú)監(jiān)督的基于相似性的實(shí)體對(duì)齊方法(AI),通過(guò)計(jì)算候選實(shí)體對(duì)之間的相似度,判斷候選實(shí)體對(duì)中的兩個(gè)實(shí)體是否指代真實(shí)世界中的同一個(gè)實(shí)體.根據(jù)對(duì)家譜人物數(shù)據(jù)的語(yǔ)義信息與特征的觀察與分析,我們將候選實(shí)體對(duì)之間的人物相似度分為語(yǔ)義相似度和關(guān)系相似度兩部分.
a)語(yǔ)義相似度
人物的語(yǔ)義信息是判斷人物是否相同的重要依據(jù).語(yǔ)義相似度用來(lái)測(cè)量人物之間語(yǔ)義信息的相似度.給定兩個(gè)待判斷的人物ei和ej,p={p1,p2,…,pn}為人物相同屬性的集合.我們通過(guò)兩個(gè)人物之間相同屬性的屬性值相似度來(lái)計(jì)算兩個(gè)人物之間的語(yǔ)義相似度,語(yǔ)義相似度計(jì)算公式如下:
其中,p={p1,p2,…,pn}表示人物相同屬性的集合;Lpi(ei,ej)表示第i個(gè)屬性pi的字符串相似度,計(jì)算方法選擇較為常用的Levenshtein 編輯距離[46];ω為每個(gè)屬性相似度的權(quán)重.這里.我們認(rèn)為每個(gè)屬性的重要程度相同,即每個(gè)屬性的權(quán)重相同,若屬性的個(gè)數(shù)為n,則屬性權(quán)重為1/n.
b)關(guān)系相似度
家譜數(shù)據(jù)中,每個(gè)人物除了具有語(yǔ)義信息以外,人物與人物之間還擁有大量的親屬關(guān)系.人物之間關(guān)系的相似度,也是判斷人物是否相同的一個(gè)重要依據(jù).本文采用基于Jaccard 相關(guān)系數(shù)[47]的關(guān)系相似度計(jì)算方法.給定兩個(gè)待判斷的人物ei和ej,其關(guān)系相似度計(jì)算公式如下:
其中,R(ei)代表人物ei的親屬關(guān)系,|R(ei)∩R(ej)|表示人物ei和ej相同的人物關(guān)系數(shù)量,|R(ei)∪R(ej)|表示人物ei和ej所擁有的人物關(guān)系數(shù)量總和.判斷人物ei和ej的關(guān)系是否相同時(shí),為了便于比較,如果人物的對(duì)應(yīng)關(guān)系人物的姓名相同,則我們認(rèn)為人物ei和ej的關(guān)系相同.
綜上所述,候選實(shí)體對(duì)相似度的計(jì)算公式如下:
其中,γ和δ分別為語(yǔ)義相似度和關(guān)系相似度的權(quán)重,用來(lái)平衡二者在人物相似度測(cè)量中的重要程度.通過(guò)對(duì)家譜數(shù)據(jù)的觀察發(fā)現(xiàn):在家譜人物的對(duì)齊中,人物的關(guān)系相似度比語(yǔ)義相似度更重要,更能反映兩個(gè)人物是否為同一個(gè)人.舉例來(lái)說(shuō),如果兩個(gè)人物的父親和兒子的姓名均相同,無(wú)需考慮人物的屬性,就基本可以判斷這兩個(gè)人物為同一個(gè)人.并且,家譜數(shù)據(jù)中人物的屬性信息會(huì)存在稀疏性的情況,此時(shí)人物的語(yǔ)義相似度對(duì)家譜人物的對(duì)齊貢獻(xiàn)度較小.因此,考慮家譜數(shù)據(jù)的實(shí)際情況,我們適當(dāng)增加關(guān)系相似度的權(quán)重δ.具體的權(quán)重設(shè)置如下:a)如果家譜數(shù)據(jù)的屬性稀疏,即屬性的個(gè)數(shù)小于5,則γ=0.2,δ=0.8;b)如果家譜數(shù)據(jù)的屬性充足,即屬性的個(gè)數(shù)大于等于5,則γ=0.4,δ=0.6.本文設(shè)置一個(gè)閾值S,若相似度分?jǐn)?shù)Sim(ei,ej)大于閾值S,則說(shuō)明兩個(gè)人物相同.
2.5.2 家譜數(shù)據(jù)沖突消解
針對(duì)家譜數(shù)據(jù)沖突問(wèn)題,充分考慮到家譜領(lǐng)域特性、分布數(shù)據(jù)源中的表述不完整性、數(shù)據(jù)本身可能存在的不一致等,對(duì)這些問(wèn)題進(jìn)行分析、處理,在OI 對(duì)家譜數(shù)據(jù)真值進(jìn)行審核和確認(rèn)后,本文將家譜人物屬性分為兩類——單真值屬性和多真值屬性,并對(duì)不同類別的屬性采用不同的沖突消解機(jī)制.
(1)單真值屬性
對(duì)于單真值屬性,如人物的性別、出生日期、過(guò)世日期等,有且僅有一個(gè)真值.多數(shù)投票規(guī)則是指:若某一個(gè)值是多數(shù)信息源都投票贊成的,則認(rèn)為這個(gè)值有更大的代表性[48].通常來(lái)說(shuō),對(duì)同一實(shí)體屬性,出現(xiàn)次數(shù)最多的事實(shí)往往是準(zhǔn)確的:
Ma
(2)多真值屬性
對(duì)于多真值屬性,如人物的描述信息,如人物簡(jiǎn)介、成就等,沒(méi)有標(biāo)準(zhǔn)的正確描述,人物的職業(yè)、官職等信息由于時(shí)間的推移,會(huì)存在多個(gè)不同的真值.因此我們認(rèn)為:如果同一實(shí)體屬性ea的事實(shí)的內(nèi)容是相互補(bǔ)充的,則它們合并后具有更高的準(zhǔn)確性.為了保證最終融合結(jié)果的全面性,采用合并原則,將多數(shù)據(jù)源的不同描述信息整合后生成一個(gè)更為完整的信息:
2.5.3 家譜數(shù)據(jù)屬性融合
通過(guò)對(duì)大量家譜數(shù)據(jù)的研究與分析,我們發(fā)現(xiàn),家譜人物屬性中主要存在以下兩種特殊情況.
a)屬性名稱不同、含義相同.隨著時(shí)間的推移,古代人物的一些屬性可能逐漸演變?yōu)榫哂鞋F(xiàn)代特色的屬性,存在“屬性演變”的情況.例如,古代人物的“官職”屬性與現(xiàn)代人物的“職務(wù)”屬性名稱不同卻具有相同的含義;
b)屬性名稱相同、含義不同.例如時(shí)間屬性,時(shí)間屬性有農(nóng)歷和公歷之分:我國(guó)古代傳統(tǒng)歷法為農(nóng)歷,1912年后開始漸漸使用公歷.因此,家譜記載此年之前的時(shí)間通常為農(nóng)歷,而后的時(shí)間通常為公歷.
對(duì)于上述情況,現(xiàn)有的單純依靠計(jì)算機(jī)的屬性融合方法均難以解決.考慮到家譜數(shù)據(jù)的特殊性,為了保證融合結(jié)果的正確性,根據(jù)OI 提供的家譜數(shù)據(jù)格式標(biāo)準(zhǔn),HI 即領(lǐng)域?qū)<覀冡槍?duì)家譜領(lǐng)域內(nèi)對(duì)數(shù)據(jù)的特性及家譜人物屬性的需求,人工構(gòu)建屬性語(yǔ)義知識(shí)庫(kù),使用一種基于啟發(fā)式的方法進(jìn)行家譜人物屬性融合,具體過(guò)程見(jiàn)算法1.
算法1.屬性融合算法.
輸入:屬性集合PRO,屬性拆分規(guī)則庫(kù)split_rules,等價(jià)屬性知識(shí)庫(kù)equal_rules,人物屬性集合PER_PRO;
輸出:融合后的屬性集合PRO.
本文構(gòu)建的家譜屬性語(yǔ)義知識(shí)庫(kù)包括:
(1)屬性拆分規(guī)則庫(kù):主要針對(duì)屬性名稱相同卻含義不同的屬性.例如:時(shí)間屬性有公歷和農(nóng)歷之分,若屬性值中包含表2 和表3 中“年號(hào)”或“古代紀(jì)年”中的值,則該時(shí)間屬性為農(nóng)歷時(shí)間,在屬性名字前添加“農(nóng)歷”二字后進(jìn)行存儲(chǔ);反之,則為公歷時(shí)間并添加“公歷”二字.在數(shù)據(jù)規(guī)范層中,我們已經(jīng)對(duì)農(nóng)歷時(shí)間進(jìn)行星號(hào)標(biāo)記,因此可以直接為帶有(*)標(biāo)記屬性值的屬性名稱添加“農(nóng)歷”二字;
(2)等價(jià)屬性知識(shí)庫(kù):主要針對(duì)屬性名稱不同卻含義相同的屬性.根據(jù)專家(HI)提供的領(lǐng)域知識(shí),考慮到“屬性演變”情況,對(duì)等價(jià)的屬性進(jìn)行整理并記錄,并為其規(guī)定一個(gè)標(biāo)準(zhǔn)屬性名稱.例如“官職”?“職務(wù)(?)”,“職務(wù)”為標(biāo)準(zhǔn)屬性名稱,其等價(jià)屬性最終均映射為“職務(wù)”屬性.
(1)數(shù)據(jù)獲取層結(jié)果
本文選取4 份家譜數(shù)據(jù)為例,展示其運(yùn)行結(jié)果.文本是家譜數(shù)據(jù)中較為常見(jiàn)的數(shù)據(jù)類型,因此本文選取的家譜示例均為文本格式.在家譜文本數(shù)據(jù)中,每個(gè)人物的描述信息獨(dú)立成段,如圖2(a)~圖2(d)所示.由于家譜數(shù)據(jù)篇幅較長(zhǎng),本文僅截取家譜部分內(nèi)容以供展示.
Fig.2 Genealogy data圖2 家譜數(shù)據(jù)示例
(2)數(shù)據(jù)抽取層結(jié)果
獲取家譜數(shù)據(jù)后,將數(shù)據(jù)送入數(shù)據(jù)抽取層,進(jìn)行信息抽取.為了方便查看,將數(shù)據(jù)抽取結(jié)果以表格形式展示,如表4(a)~表4(d)所示.每一行為一條人物信息,每一列分別為人物的屬性.由表4(a)~表4(d)中可以看出:在數(shù)據(jù)抽取層中,除一些人物基礎(chǔ)屬性如“姓名”“性別”外,不同家譜中能抽取出的人物屬性不盡相同.例如,表4(c)中人物具有“出生地”屬性,表4(d)中人物具有“字”“號(hào)”和“官職”等屬性.
另外,由表4(a)~表4(d)可見(jiàn):本文提出的基于HAO 模型的通用家譜信息抽取方法,在HI 和OI 的協(xié)助下,實(shí)現(xiàn)對(duì)語(yǔ)義的理解,從而較為有效地對(duì)家譜數(shù)據(jù)中的人物屬性和關(guān)系進(jìn)行抽取,能保證數(shù)據(jù)抽取結(jié)果的正確性.
Table 4 (a)Results of data extraction in Fig.2(a)表4 (a)圖2(a)展示內(nèi)容的數(shù)據(jù)抽取結(jié)果
Table 4 (b)Results of data extraction in Fig.2(b)表4 (b)圖2(b)展示內(nèi)容的數(shù)據(jù)抽取結(jié)果
Table 4 (c)Results of data extraction in Fig.2(c)表4 (c)圖2(c)展示內(nèi)容的數(shù)據(jù)抽取結(jié)果
Table 4 (d)Results of data extraction in Fig.2(d)表4 (d)圖2(d)展示內(nèi)容的數(shù)據(jù)抽取結(jié)果
(1)數(shù)據(jù)規(guī)范層結(jié)果
以表4(d)中“順治乙酉年八月十二日”為例,經(jīng)過(guò)分析可知:“順治”為中國(guó)古代皇帝年號(hào),“乙酉年”為中國(guó)古代紀(jì)年,一甲子(60年)為一個(gè)循環(huán).為了將其轉(zhuǎn)換為標(biāo)準(zhǔn)日期格式,表2 為古代皇帝年號(hào)表,表3 為中國(guó)古代紀(jì)年表.由表2 可知,“順治乙酉年”在1644年~1661年之間.由表3 可知,“順治乙酉年”與1825年的差是60 的整數(shù)倍.因此,“順治乙酉年”為1645年,“順治乙酉年八月十二日”應(yīng)標(biāo)準(zhǔn)化為“1645年8月20日”.對(duì)于如“開皇十八年十二月二十二日”這種形式的日期,在年號(hào)的基礎(chǔ)上加上相應(yīng)年份數(shù)即可.因此,“開皇十八年十二月二十二日”可轉(zhuǎn)換為“598年12月22日”.另外,對(duì)轉(zhuǎn)換后的日期進(jìn)行十字星號(hào)標(biāo)記(?),以便于下一層的數(shù)據(jù)融合.表4(d)規(guī)范化后的結(jié)果如表5所示.表4(a)~表4(c)在數(shù)據(jù)規(guī)范層中的輸出結(jié)果不變.
由表5 可見(jiàn),本文提出的數(shù)據(jù)規(guī)范方法能夠簡(jiǎn)單有效地將家譜中的人物屬性值轉(zhuǎn)換為統(tǒng)一的描述,特別是家譜中較難處理的時(shí)間類型數(shù)據(jù),為下一步家譜數(shù)據(jù)的融合提供了便利.
Table 5 Results of data specification表5 數(shù)據(jù)規(guī)范結(jié)果
(2)數(shù)據(jù)融合層結(jié)果
a)實(shí)體對(duì)齊
以表4(a)中編號(hào)為2 的人物“黃帝”(記為“(a)2”)為例,根據(jù)上述提到的候選實(shí)體對(duì)生成的情況,為該人物在表4(b)~表4(d)中選取候選實(shí)體.生成的候選實(shí)體對(duì)為〈“(a)2”,“(b)2”〉,〈“(a)2”,“(c)2”〉,〈“(b)2”,“(c)2”〉.然后,對(duì)每個(gè)候選實(shí)體對(duì)使用第3.4.1 節(jié)中的公式(3)進(jìn)行相似度計(jì)算.當(dāng)γ和δ分別取0.4 和0.6、閾值設(shè)為0.5 時(shí),結(jié)果如表6所示.最終結(jié)果表明,表4(a)中編號(hào)為2 的人物“黃帝”與表4(b)、表4(c)中的人物“黃帝”為同一人.
根據(jù)家譜內(nèi)容,我們可以看出:本文所提的實(shí)體對(duì)齊算法最終識(shí)別結(jié)果,即表4(a)~表4(c)中的人物“黃帝”均為同一人,是與現(xiàn)實(shí)世界一致的.這一結(jié)果表明,本文所提的實(shí)體對(duì)齊算法在實(shí)體為家譜人物時(shí)的對(duì)齊結(jié)果是準(zhǔn)確有效的.
Table 6 Results of entity alignment表6 實(shí)體對(duì)齊相似度結(jié)果
b)沖突消解
觀察我們識(shí)別出的相同人物“黃帝”的屬性信息,發(fā)現(xiàn)表(a)中人物“黃帝”的過(guò)世日期與表4(b)和表4(c)不同.根據(jù)我們制定的沖突消解機(jī)制,過(guò)世日期為單真值屬性,利用公式(4)得出,“黃帝”的屬性過(guò)世日期的真值為“公元前2598年”.由此看出,我們可以根據(jù)本文提出的數(shù)據(jù)沖突機(jī)制,簡(jiǎn)單高效地解決不同來(lái)源的數(shù)據(jù)中出現(xiàn)的數(shù)據(jù)沖突問(wèn)題.
c)屬性融合
根據(jù)第3.4.3 節(jié)中描述的屬性融合過(guò)程,讀取屬性拆分規(guī)則庫(kù),對(duì)時(shí)間屬性“出生日期”“過(guò)世日期”進(jìn)行拆分,拆分結(jié)果為“農(nóng)歷出生日期”“農(nóng)歷過(guò)世日期”“公歷出生日期”和“公歷過(guò)世日期”.另外,讀取等價(jià)屬性知識(shí)庫(kù),我們可知“官職”屬性和“職務(wù)”屬性等價(jià),因此將“官職”映射為“職務(wù)”.
表7 展示了本文選取的4 份家譜數(shù)據(jù)的數(shù)據(jù)融合結(jié)果,從結(jié)果可以看出:我們能夠?qū)⒉煌瑏?lái)源的碎片化家譜數(shù)據(jù)中的人物進(jìn)行融合,凝練出一套的關(guān)于家譜人物的統(tǒng)一描述,進(jìn)而表明本文提出的碎片化數(shù)據(jù)融合框架FDF-HAO 在技術(shù)上的可行性和有效性.最終家譜人物數(shù)據(jù)的屬性集合除了表7 所展示的屬性外,還包括“曾用名”“世”“輩份”“家庭排行”“住址”等屬性.
Table 7 Results of data fusion表7 數(shù)據(jù)融合結(jié)果
接下表
本小節(jié)將碎片化數(shù)據(jù)融合框架FDF-HAO 中數(shù)據(jù)抽取層和數(shù)據(jù)融合層所采用的技術(shù)與同類技術(shù)的進(jìn)行對(duì)比和分析.
3.2.1 數(shù)據(jù)抽取層
我們將本文所采用的信息抽取方法與目前較為成熟的開源信息抽取工具DSNFs[49]和Jiagu[50]進(jìn)行對(duì)比.以圖2(b)展示的家譜為例,表8 展示各方法對(duì)人物“黃帝”的相關(guān)抽取結(jié)果.
Table 8 Data extraction results by different methods表8 數(shù)據(jù)抽取對(duì)比結(jié)果
由表8 可以看出:我們的方法在家譜數(shù)據(jù)上能夠準(zhǔn)確全面地抽取出人物間關(guān)系和人物屬性,DSNFs 僅能抽取部分信息,而Jiagu 未能抽取到人物信息.其原因在于:DSNFs 和Jiagu 均是在依存句法分析的基礎(chǔ)上對(duì)實(shí)體和關(guān)系進(jìn)行抽取,這類方法受限于中文分詞等NLP 技術(shù)的性能,適用于文本句法結(jié)構(gòu)簡(jiǎn)單、NLP 技術(shù)能對(duì)文本進(jìn)行有效分析和處理的情況下.但家譜數(shù)據(jù)的用詞語(yǔ)法與我們常用的文本不同,行文風(fēng)格偏向古文,甚至一些家譜不包含完整的語(yǔ)句.由于家譜數(shù)據(jù)的文本特點(diǎn),現(xiàn)有主流信息抽取工具通常很難有效地對(duì)家譜文本中不同成分的結(jié)構(gòu)關(guān)系進(jìn)行提取.為此,我們的方法針對(duì)家譜數(shù)據(jù)特點(diǎn)進(jìn)行設(shè)計(jì),通過(guò)分析家譜中的淺層詞法特征,在OI 提供的領(lǐng)域知識(shí)下,結(jié)合專家(HI)對(duì)家譜數(shù)據(jù)的分析,能夠有效地對(duì)家譜信息進(jìn)行抽取.
3.2.2 數(shù)據(jù)融合層
數(shù)據(jù)融合層中最為關(guān)鍵的一步為家譜人物對(duì)齊,下文對(duì)家譜人物對(duì)齊方法進(jìn)行對(duì)比分析.鑒于家譜人物對(duì)齊過(guò)程分為兩部分——候選實(shí)體對(duì)生成和候選實(shí)體對(duì)對(duì)齊,本文將從這兩部分對(duì)算法的性能進(jìn)行對(duì)比分析.
(1)候選實(shí)體對(duì)生成方法
目前,實(shí)體對(duì)齊算法中,候選實(shí)體對(duì)生成的方法通常為基于字符串相似度和基于詞典的方法.基于字符串相似度的方法容易產(chǎn)生大量不能對(duì)齊的候選實(shí)體,導(dǎo)致后續(xù)算法的計(jì)算復(fù)雜度增加.基于詞典的方法需要人工構(gòu)建詞典,從詞典中尋找所有可能對(duì)齊的實(shí)體.而構(gòu)建詞典的過(guò)程將耗費(fèi)大量人力物力.本文通過(guò)對(duì)家譜數(shù)據(jù)的分析,制定了一套家譜領(lǐng)域內(nèi)候選實(shí)體對(duì)生成規(guī)則,采用基于規(guī)則的方法為待對(duì)齊實(shí)體生成候選實(shí)體.優(yōu)點(diǎn)在于:一方面能夠保證候選實(shí)體集合中包含可以對(duì)齊的實(shí)體,即保證了結(jié)果的召回率;另一方面,也避免了不能對(duì)齊的候選實(shí)體數(shù)目過(guò)多,降低了后續(xù)計(jì)算的復(fù)雜度.
(2)候選實(shí)體對(duì)對(duì)齊方法
在缺乏訓(xùn)練數(shù)據(jù)的情況下,除本文使用的基于相似性的實(shí)體對(duì)齊方法外,還可以采用基于詞嵌入的方法,將實(shí)體及其上下文轉(zhuǎn)換為詞向量進(jìn)行相似度計(jì)算.但詞向量的訓(xùn)練過(guò)程通常需要大規(guī)模語(yǔ)料庫(kù)或少量種子數(shù)據(jù),生成詞向量的好壞依賴于語(yǔ)料庫(kù)或種子數(shù)據(jù)的質(zhì)量[51,52].這類方法適用于語(yǔ)料庫(kù)或標(biāo)記數(shù)據(jù)質(zhì)量較為成熟、訓(xùn)練出的詞向量效果好、能很好地表示實(shí)體語(yǔ)義信息的情況下.而家譜數(shù)據(jù)領(lǐng)域性較強(qiáng),缺乏適合的語(yǔ)料庫(kù).在家譜中,判斷兩個(gè)人物是否相同的依據(jù)就是實(shí)體之間的屬性及關(guān)系是否相同.本文采用的基于相似性的實(shí)體對(duì)齊方法,考慮了實(shí)體的屬性及實(shí)體間關(guān)系的相似性,相較于其他實(shí)體對(duì)齊方法,能夠根據(jù)家譜領(lǐng)域特點(diǎn),簡(jiǎn)單高效地計(jì)算家譜領(lǐng)域內(nèi)實(shí)體之間的相似性.
面向多源異構(gòu)的碎片化家譜數(shù)據(jù),本文提出的碎片化數(shù)據(jù)融合框架能夠?qū)ζ溥M(jìn)行有效融合,但仍存在一些挑戰(zhàn).
?挑戰(zhàn)1:數(shù)據(jù)的多模態(tài)性
在大數(shù)據(jù)時(shí)代,碎片化數(shù)據(jù)以文本、圖片、視頻、音頻等不同模態(tài)存在.我們?cè)谔幚磉@些數(shù)據(jù)時(shí),需要對(duì)其中包含的內(nèi)容進(jìn)行識(shí)別、提取并存儲(chǔ).但由于不同模態(tài)數(shù)據(jù)之間的結(jié)構(gòu)差異巨大,沒(méi)有統(tǒng)一的數(shù)據(jù)表示形式和統(tǒng)一的邏輯結(jié)構(gòu),這使得多模態(tài)數(shù)據(jù)的融合具有一定的挑戰(zhàn)性.另外,互聯(lián)網(wǎng)中的多模態(tài)數(shù)據(jù)如圖片、視頻等存在著模糊、有噪聲等情況,因此,多模態(tài)數(shù)據(jù)的信息抽取精度無(wú)法得到保證,從而對(duì)多模態(tài)數(shù)據(jù)的融合精度造成一定的負(fù)面影響.
?挑戰(zhàn)2:數(shù)據(jù)的不確定性
數(shù)據(jù)真?zhèn)坞y辨是數(shù)據(jù)處理及應(yīng)用的最大挑戰(zhàn)[12].海量多源的碎片化數(shù)據(jù),使我們的研究獲得了前所未有的大規(guī)模樣本,但也帶來(lái)了更多錯(cuò)誤的、不完整的數(shù)據(jù).數(shù)據(jù)質(zhì)量良莠不齊,不同來(lái)源的數(shù)據(jù)值可能存在沖突、缺失、描述模糊等情況.為了從海量多源的碎片化數(shù)據(jù)中準(zhǔn)確地找出真實(shí)確定的數(shù)據(jù),需要利用數(shù)據(jù)處理方法對(duì)數(shù)據(jù)、數(shù)據(jù)源等信息進(jìn)行建模求解.但對(duì)于一些數(shù)據(jù),即使最好的數(shù)據(jù)處理方法也難以消除其固有的不可預(yù)測(cè)性.例如在家譜領(lǐng)域內(nèi),一份家譜中的同一人物在不同版本中存在姓名不同的情況.根據(jù)家譜內(nèi)容,我們無(wú)法確定造成不同的原因是人物的姓名更改還是書寫時(shí)的筆誤,因此該人物的姓名具有無(wú)法消除的不確定性.
?挑戰(zhàn)3:數(shù)據(jù)的單源小體量性
碎片化數(shù)據(jù)最顯著的特征就是單源小體量性.來(lái)自單個(gè)數(shù)據(jù)源的碎片化數(shù)據(jù)通常內(nèi)容較短,包含的信息不充足,數(shù)據(jù)具有較高的稀疏性.因此,在對(duì)碎片化數(shù)據(jù)進(jìn)行信息抽取和融合時(shí),大多需要借助外部語(yǔ)義知識(shí)庫(kù)中的語(yǔ)義信息.這種方法雖然能提高算法的精確度,但對(duì)外部知識(shí)庫(kù)依賴度較高.當(dāng)出現(xiàn)知識(shí)庫(kù)中不存在的信息時(shí),需要對(duì)知識(shí)庫(kù)進(jìn)行及時(shí)地更新,否則將無(wú)法提取新的信息.
?挑戰(zhàn)4:數(shù)據(jù)的語(yǔ)義異構(gòu)性
不同數(shù)據(jù)源的碎片化數(shù)據(jù)在語(yǔ)義表述上存在一定的差異性,相同含義的詞匯具有不同的表述,我們將之稱為語(yǔ)義異構(gòu).數(shù)據(jù)的語(yǔ)義異構(gòu)性可能會(huì)造成來(lái)自不同數(shù)據(jù)源的碎片化數(shù)據(jù)無(wú)法相互融合,進(jìn)而導(dǎo)致數(shù)據(jù)共享、重用無(wú)法進(jìn)行,因此我們必須考慮消除碎片化數(shù)據(jù)之間的語(yǔ)義異構(gòu)性.通常來(lái)說(shuō),我們采用將不同數(shù)據(jù)源的數(shù)據(jù)映射到同一套概念體系即本體的方法來(lái)解決語(yǔ)義異構(gòu).但是本體的構(gòu)建本身就是一個(gè)工作量大的任務(wù).另外,大數(shù)據(jù)時(shí)代中數(shù)據(jù)的不斷更新也會(huì)帶來(lái)一些新的概念,這就需要一個(gè)合適的機(jī)制對(duì)本體進(jìn)行不斷地更新和維護(hù).
碎片化數(shù)據(jù)融合在多源數(shù)據(jù)分析和大知識(shí)融合領(lǐng)域具有廣泛的研究和利用前景,下面我們分析幾個(gè)應(yīng)用場(chǎng)景.
?應(yīng)用場(chǎng)景1:同姓家譜的知識(shí)擴(kuò)充以及跨姓家譜的知識(shí)挖掘和推理.
碎片化家譜數(shù)據(jù)融合有利于同姓家譜的合并與擴(kuò)充.通過(guò)對(duì)已有的同姓家譜進(jìn)行關(guān)聯(lián)計(jì)算和合并計(jì)算,實(shí)現(xiàn)家譜的補(bǔ)齊和擴(kuò)充,擴(kuò)展知識(shí)網(wǎng)絡(luò).例如,假設(shè)存在兩份同姓家譜A和B,經(jīng)過(guò)計(jì)算發(fā)現(xiàn)二者之間存在關(guān)聯(lián):家譜A記錄某家族P從第1 世~第20 世的人物信息,家譜B記錄同一家族P從第10 世~第30 世的人物信息.合并家譜A和B,我們可以得到一份全新的、更為完整的家譜C,記錄家族P從第1 世~第30 世的人物信息.另外,碎片化家譜數(shù)據(jù)融合也為跨姓家譜的知識(shí)挖掘和推理提供了數(shù)據(jù)支撐.通過(guò)對(duì)不同姓氏家譜的人物進(jìn)行對(duì)比和分析,尋找跨姓家譜之間的相同人物,以該人物為紐帶,建立家譜之間的關(guān)聯(lián),挖掘其中潛藏的姓氏起源、姓氏演變等信息.從家譜數(shù)據(jù)庫(kù)中已有的數(shù)據(jù)出發(fā),經(jīng)過(guò)計(jì)算機(jī)推理,建立人物之間的新關(guān)聯(lián),從而拓展和豐富知識(shí)網(wǎng)絡(luò),推理人物間的愛(ài)恨情仇,為用戶解決尋根溯源等問(wèn)題.
?應(yīng)用場(chǎng)景2:社交網(wǎng)絡(luò)信息分析.
社交網(wǎng)絡(luò)用戶數(shù)量龐大,微博、推特、豆瓣等常見(jiàn)的社交平臺(tái)上每天產(chǎn)生大量的圖片、文字及音頻信息.這些碎片化社交數(shù)據(jù)中隱藏著許多有用的信息,包括用戶的日常瑣事、興趣愛(ài)好、熱點(diǎn)事件的發(fā)展過(guò)程等等.通過(guò)對(duì)碎片化社交數(shù)據(jù)的融合,以用戶為中心,構(gòu)建用戶社交知識(shí)圖譜,預(yù)測(cè)用戶之間潛在的聯(lián)系,為其提供好友推薦、信息推送等個(gè)性化社交服務(wù).
本文在HI、AI 和OI 三者的交互和協(xié)同下,提出了一個(gè)碎片化數(shù)據(jù)融合框架FDF-HAO,并論述了碎片化數(shù)據(jù)融合框架的層次結(jié)構(gòu),詳細(xì)介紹了每一層的作用、所需要解決的問(wèn)題和使用的技術(shù).其中,數(shù)據(jù)獲取層使用爬蟲技術(shù)(AI),從互聯(lián)網(wǎng)中各數(shù)據(jù)源獲取碎片化數(shù)據(jù),包括文本文件、表格文件、網(wǎng)頁(yè)文件等;數(shù)據(jù)抽取層通過(guò)自然語(yǔ)言處理技術(shù)(AI),在HI 和OI 的交互和協(xié)作下,從這些多源異構(gòu)的碎片化數(shù)據(jù)中提取實(shí)體、屬性及關(guān)系;數(shù)據(jù)規(guī)范層根據(jù)OI 提供的領(lǐng)域數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),負(fù)責(zé)將數(shù)據(jù)抽取層中抽取的信息進(jìn)行規(guī)范化和標(biāo)準(zhǔn)化,消除了數(shù)據(jù)的語(yǔ)義異構(gòu)性;數(shù)據(jù)融合層是實(shí)現(xiàn)數(shù)據(jù)融合的核心層,領(lǐng)域?qū)<覀?HI)在OI 的協(xié)作下構(gòu)建外部語(yǔ)義知識(shí)庫(kù),為數(shù)據(jù)融合提供智能支持,然后通過(guò)實(shí)體對(duì)齊技術(shù)(AI)識(shí)別出碎片化數(shù)據(jù)中的相同實(shí)體,再通過(guò)沖突消解機(jī)制(AI)從沖突數(shù)據(jù)中尋找數(shù)據(jù)的真值,最后通過(guò)屬性融合(AI)凝練出實(shí)體的統(tǒng)一的、準(zhǔn)確的、有用的描述,進(jìn)而完成數(shù)據(jù)的融合,形成知識(shí)庫(kù).
與已有的特定領(lǐng)域知識(shí)圖譜構(gòu)建相似,本文是在現(xiàn)有的知識(shí)圖譜構(gòu)建技術(shù)的基礎(chǔ)上,通過(guò)對(duì)數(shù)據(jù)的觀察和分析,對(duì)技術(shù)進(jìn)行優(yōu)化和改進(jìn).但不同之處在于:本文結(jié)合HAO 智能模型,通過(guò)HI、AI 和OI 三者的交互和協(xié)作,為海量多源異構(gòu)的碎片化數(shù)據(jù)融合提供了智能支持,能夠解決一些僅依靠計(jì)算機(jī)無(wú)法解決的問(wèn)題.另外,本文結(jié)合家譜領(lǐng)域特征,將家譜領(lǐng)域知識(shí)貫穿于碎片化家譜數(shù)據(jù)融合的過(guò)程中,對(duì)各階段結(jié)果進(jìn)行約束和改進(jìn),有效地提高了數(shù)據(jù)融合結(jié)果的準(zhǔn)確性和全面性.
本文以華譜系統(tǒng)中碎片化家譜數(shù)據(jù)融合過(guò)程為例,詳細(xì)介紹所提框架在每層中的具體處理思路和方案,為解決碎片化數(shù)據(jù)融合問(wèn)題和中文知識(shí)圖譜構(gòu)建問(wèn)題提供了一個(gè)新思路,即:在現(xiàn)有成熟模型和方法的基礎(chǔ)上,結(jié)合HAO 智能模型,為中文知識(shí)圖譜構(gòu)建提供智能支持,以便更好地提高數(shù)據(jù)的準(zhǔn)確性和可用性.另外,本文在框架內(nèi)各層次中提出的方法也具有一定的通用性,對(duì)其他領(lǐng)域的中文知識(shí)圖譜構(gòu)建可能具有一定的借鑒意義.
目前,關(guān)于碎片化數(shù)據(jù)融合的研究尚處于初步階段,仍存在著許多困難和挑戰(zhàn).本文通過(guò)對(duì)碎片化數(shù)據(jù)融合過(guò)程進(jìn)行高度抽象和建模,提出了FDF-HAO 框架,若將該框架遷移到其他領(lǐng)域,需根據(jù)領(lǐng)域數(shù)據(jù)特點(diǎn)調(diào)整FDFHAO 框架的各部分具體實(shí)現(xiàn),存在一定的難度.例如在復(fù)雜的社交網(wǎng)絡(luò)場(chǎng)景中,包含著以用戶為中心的不同維度、不同領(lǐng)域的碎片化社交數(shù)據(jù).但是隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)平臺(tái)更新?lián)Q代,網(wǎng)絡(luò)詞匯層出不窮,網(wǎng)絡(luò)信息多元多樣,社交網(wǎng)絡(luò)數(shù)據(jù)在自然語(yǔ)言理解和分析方面上具有很大的挑戰(zhàn)性,這為社交網(wǎng)絡(luò)數(shù)據(jù)的信息抽取和融合增加了一定的難度.同樣,在網(wǎng)頁(yè)數(shù)據(jù)中也包含著大量涉及以人物為中心的人物生平、經(jīng)歷、傳記、新聞等碎片化數(shù)據(jù).然而在不同網(wǎng)絡(luò)平臺(tái)中,數(shù)據(jù)的描述方式和內(nèi)容側(cè)重點(diǎn)不同,并且存在著大量的數(shù)據(jù)不確定性、語(yǔ)義異構(gòu)性等問(wèn)題,因此給現(xiàn)有的數(shù)據(jù)融合研究帶來(lái)了很大的挑戰(zhàn).在后續(xù)的研究中,我們將首先繼續(xù)優(yōu)化本文提出的FDF-HAO 框架;接著,研究將該框架分別應(yīng)用于融合碎片化的社交網(wǎng)絡(luò)數(shù)據(jù)和互聯(lián)網(wǎng)中碎片化的網(wǎng)頁(yè)數(shù)據(jù);最后,以構(gòu)建整合的人物知識(shí)圖譜為目標(biāo),將家譜、社交網(wǎng)絡(luò)、網(wǎng)頁(yè)這3 個(gè)維度的碎片化數(shù)據(jù)進(jìn)行融合,從親屬關(guān)系、社交關(guān)系、人物生平等多個(gè)維度構(gòu)建更加完善的人物知識(shí)圖譜,從而為用戶提供更好的大知識(shí)服務(wù).