梁楊,丁長(zhǎng)松,蔡雄
多源環(huán)境下中藥實(shí)體統(tǒng)一視圖構(gòu)建策略
梁楊1,2,3,丁長(zhǎng)松1,2,蔡雄4
1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410208;2.湖南省中醫(yī)藥大數(shù)據(jù)分析實(shí)驗(yàn)室,湖南 長(zhǎng)沙 410208;3.中南大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410000;4.湖南中醫(yī)藥大學(xué)科技創(chuàng)新中心,湖南 長(zhǎng)沙 410208
針對(duì)大數(shù)據(jù)環(huán)境下跨數(shù)據(jù)源查詢面臨的中藥實(shí)體呈現(xiàn)多視圖,且中藥實(shí)體在各數(shù)據(jù)源中表現(xiàn)出屬性不完整、多模態(tài)、差異性等問題,提出面向多源數(shù)據(jù)的中藥實(shí)體統(tǒng)一視圖的構(gòu)建策略?;趯?shí)體屬性間的相互關(guān)系,構(gòu)建實(shí)體多視圖融合整體架構(gòu),并對(duì)實(shí)體和屬性等關(guān)鍵元素進(jìn)行抽象化表示;以用戶需求為約束提出基于詞向量的相關(guān)度計(jì)算方法,采用Skip-gram模型訓(xùn)練出表征實(shí)體屬性的詞向量;提出基于歐氏距離和Jaccard系數(shù)的相關(guān)度算法,并以此為依據(jù)進(jìn)行實(shí)體融合。共訓(xùn)練完成屬性詞向量6116個(gè),其中有效詞向量230個(gè),以400對(duì)不同源中藥實(shí)體作為測(cè)試集,分別采用AFCDS、FF和WVCC方法進(jìn)行實(shí)體融合實(shí)驗(yàn),其融合準(zhǔn)確率依次為92.20%、88.47%和94.24%?;谠~向量的實(shí)體融合策略有效可行,能充分利用屬性間的有效信息,自適應(yīng)性強(qiáng),實(shí)體融合準(zhǔn)確率較高,可為解決多源實(shí)體融合問題提供新的研究思路。
大數(shù)據(jù);多源數(shù)據(jù);實(shí)體融合;詞向量;相關(guān)度
大數(shù)據(jù)時(shí)代背景下,中藥實(shí)體往往分散存儲(chǔ)于多個(gè)數(shù)據(jù)源中,從海量而混雜的數(shù)據(jù)中精確地提取出高利用價(jià)值的中藥信息日趨迫切[1]。然而,數(shù)據(jù)結(jié)構(gòu)差異大、來源廣、價(jià)值密度低、更新實(shí)時(shí)等問題,給中藥實(shí)體的規(guī)范和查詢帶來巨大挑戰(zhàn),中藥實(shí)體統(tǒng)一視圖建立的價(jià)值就在于從眾多分散、異構(gòu)的數(shù)據(jù)源中挖掘出隱含的、有價(jià)值的信息。中藥實(shí)體統(tǒng)一視圖構(gòu)建的關(guān)鍵是識(shí)別相似實(shí)體,相似是指多個(gè)實(shí)體表象(命名不同的實(shí)體)指向現(xiàn)實(shí)世界中同一真實(shí)實(shí)體[2]。筆者基于實(shí)體間共有屬性的相似度,采用實(shí)體相關(guān)度來度量實(shí)體間的相似程度,識(shí)別和聚合屬于同一中藥實(shí)體的實(shí)體表象。針對(duì)此類問題,眾多國(guó)內(nèi)外學(xué)者采用多種語義技術(shù)進(jìn)行了相關(guān)研究?;趯?duì)象屬性的分類算法把對(duì)象作為多維向量,其每個(gè)屬性作為向量維度,可以計(jì)算兩對(duì)象間的距離。而分?jǐn)?shù)層融合方法可通過某種規(guī)則減少類內(nèi)距離,增大類間距離,從而實(shí)現(xiàn)分?jǐn)?shù)層融合識(shí)別,是最常用的融合方式。但分?jǐn)?shù)層融合沒有考慮對(duì)象之間的關(guān)聯(lián)性,也不能很好區(qū)分類內(nèi)和類間的數(shù)據(jù)[3]。針對(duì)很多分類模型沒有考慮問題所在領(lǐng)域知識(shí)而造成分類效果不理想的問題,彭京等[4]提出了一種基于概念相似度的數(shù)據(jù)分類方法,該方法將屬性矢量化,數(shù)據(jù)記錄作為屬性矢量的和,將數(shù)據(jù)間相關(guān)度計(jì)算轉(zhuǎn)換為屬性矢量及其相互投影的公式,從而得到任意兩條數(shù)據(jù)的相關(guān)度。本體匹配方法能夠發(fā)現(xiàn)本體語義相關(guān)實(shí)體之間的對(duì)應(yīng)關(guān)系,近年來基于該方法的語義相關(guān)度研究取得了顯著進(jìn)展[5]。因此,本研究在多源異構(gòu)環(huán)境下,通過基于詞向量的相關(guān)度計(jì)算(word vector-based correlation calculation,WVCC)方法實(shí)現(xiàn)多源實(shí)體的有效融合,提出多源環(huán)境下實(shí)體統(tǒng)一視圖的構(gòu)建策略,為中藥實(shí)體規(guī)范化提供參考。
數(shù)據(jù)來自《中藥學(xué)》[6]、《中藥大辭典》[7]、《中華本草》[8]、《全國(guó)中草藥匯編》[9]、藥智數(shù)據(jù)(http://db. yaozh.com)、中藥查詢網(wǎng)(http://www.zhongyoo.com)。利用以上多源異構(gòu)數(shù)據(jù)作為訓(xùn)練和測(cè)試對(duì)象,在預(yù)處理過程中構(gòu)建常用中藥分類樣本數(shù)據(jù)集,見表1。
每種藥物作為一個(gè)實(shí)體,包含性、味、歸經(jīng)、功效、適應(yīng)癥、用量(最小用量和最大用量)、注意事項(xiàng)等屬性信息,且一種藥物可有多種功效。以三七為例,其實(shí)體屬性見表2。
表1 常用中藥分類樣本數(shù)據(jù)集
名稱別名類別 性 味歸經(jīng)功效 一枝黃花大葉七星劍,一枝香解表藥涼辛苦肝膽疏風(fēng)清熱,消腫解毒 生地干地黃,芐,生地,熟地,地髓,陽精,細(xì)生地,懷生地,鮮生地,原生地,懷慶地黃,還元大品清熱解毒藥涼甘苦心肝腎滋陰養(yǎng)血,溫中下氣 關(guān)木通馬木通,苦木,丁香,丁翁利水滲濕藥寒苦小腸,心,膀胱清熱利尿,通經(jīng)下乳 巴豆巴豆霜,七開,八百力攻下藥熱辛胃,大腸瀉寒積,通關(guān)竅,逐痰行水,殺蟲 白果銀杏仁,靈眼止咳化痰藥平甘苦澀肺腎斂肺氣,定喘咳,止瀉 木天蓼葛棗,馬棗子,天蓼祛風(fēng)濕藥溫辛肝腎心祛風(fēng)除濕,通經(jīng)益氣 川椒花椒,大椒溫里藥溫辛脾胃腎溫中散寒,除濕止痛,殺蟲,解魚腥毒 沉香沉水香理氣藥溫辛苦腎脾胃降氣溫中,暖腎納氣 谷芽稻芽消導(dǎo)藥微溫甘脾胃健脾開胃,消食和中 ………………… 名稱適應(yīng)癥最小用量/g最大用量/g注意事項(xiàng) 一枝黃花感冒頭痛,黃疸,小兒驚風(fēng) 915不宜久煎,不宜久服 生地胎動(dòng)不安,月經(jīng)不調(diào),崩漏,吐血1018泄瀉者慎服 關(guān)木通口舌生瘡,小便赤痛,閉經(jīng),膀胱炎,肝硬化腹水,心力衰竭水腫 1.5 5服用過量會(huì)引起腎衰竭 巴豆胸腹脹滿,水腫,冷積凝滯,痰滿閉塞 0.15 0.3無寒實(shí)積滯、孕婦及體虛者忌服 白果哮喘,痰咳,遺精,帶下,支氣管炎,肺結(jié)核,梅尼埃病 510有實(shí)邪者忌服 木天蓼經(jīng)閉,風(fēng)濕病,久痢,白癜風(fēng),積聚1530 川椒嘔吐,腹痛泄瀉,蟲病,風(fēng)寒濕痹,腳氣病 3 8陰虛火旺者忌服,孕婦慎服 沉香嘔吐,脘腹脹滿,腰膝虛冷,男子精冷 1.5 3陰虛火旺,氣虛下陷者慎服 谷芽泄瀉,不思飲食,腹脹1018 ……………
表2 三七實(shí)體屬性示例
序號(hào)屬性屬性元素/取值 1名稱三七 2別名田七,金不換,山漆,田漆,血參,昭參,田三七,旱三七,猴三七,剪口七,人參三七,猴頭三七 3類別化瘀止血藥 4性溫 5味甘,微苦 6歸經(jīng)肝胃,大腸,心 7功效散瘀消腫,止痛通脈 8適應(yīng)癥吐血,跌仆瘀血,心絞痛 9最小用量/g4.5 10最大用量/g9 11注意事項(xiàng)孕婦忌服
為評(píng)估多源環(huán)境下中藥實(shí)體統(tǒng)一視圖構(gòu)建策略的性能表現(xiàn),實(shí)驗(yàn)平臺(tái)采用真實(shí)的大數(shù)據(jù)集群環(huán)境,集群共6個(gè)節(jié)點(diǎn),包含1個(gè)NameNode節(jié)點(diǎn)和5個(gè)DataNode節(jié)點(diǎn),其軟硬件詳細(xì)配置信息見表3。
表3 實(shí)驗(yàn)平臺(tái)詳細(xì)軟硬件配置信息
序號(hào)名稱詳細(xì)描述 1NamenodeDell OptiPlex 7040,4*CPU Intel Core i5-6500,Memory 8GB DDR4,Disk 1TB 7200rpm 2DatanodeDell Vostro 3470-R1328R,4*CPU Intel Core i3-7100,Memory 4GB DDR4,Disk 1TB 7200rpm 3SoftwareOS CentOS V6.4,Apache Hadoop V2.7.1 4IDEEclipse V4.5.2,PyCharm V2018.2.1
本研究主要針對(duì)多源異構(gòu)的中藥實(shí)體進(jìn)行有條件融合,實(shí)體通常以多視圖存儲(chǔ)于多個(gè)數(shù)據(jù)源中,可有多個(gè)屬性用以描述實(shí)體的內(nèi)在特征。為統(tǒng)一表示多源異構(gòu)環(huán)境下數(shù)據(jù)源、實(shí)體及實(shí)體屬性,每個(gè)中藥實(shí)體主要信息包含名稱和屬性兩部分,則數(shù)據(jù)源可以表示為:
={,} (1)
式中,={1,2,…,n}表示某一數(shù)據(jù)源即多個(gè)實(shí)體的集合,={1,2,…,n}表示實(shí)體名稱的集合,={1,2,…,n}表示實(shí)體屬性的集合,表示該數(shù)據(jù)源中實(shí)體的個(gè)數(shù),第個(gè)實(shí)體i分別對(duì)應(yīng)實(shí)體名稱i和實(shí)體屬性i,特別地,中藥實(shí)體屬性i本質(zhì)上是一個(gè)多維的屬性向量,構(gòu)成i的所有屬性元素在數(shù)據(jù)預(yù)處理階段根據(jù)設(shè)定的格式順序進(jìn)行初排序,實(shí)體屬性向量i為:
i={i1,i2,…,im} (2)
式中,ii表示第個(gè)實(shí)體的第個(gè)屬性元素(屬性值),為實(shí)體屬性向量i維數(shù),不同數(shù)據(jù)源中參與比較的實(shí)體其初始屬性向量的值可能不同。
由于中藥多源異構(gòu)的數(shù)據(jù)庫涉及深層次且不統(tǒng)一的語法和語義信息,要高效準(zhǔn)確地篩選出表示真實(shí)世界同一對(duì)象的不同名實(shí)體并進(jìn)行合并和歸類,處理難度大、復(fù)雜性高、結(jié)構(gòu)化程度低[10-11]。因此,本研究通過對(duì)多源環(huán)境下實(shí)體的各屬性進(jìn)行相關(guān)度分析,最終實(shí)現(xiàn)實(shí)體多視圖融合。主要流程為:①爬取來自不同數(shù)據(jù)源的有效數(shù)據(jù),構(gòu)建原始數(shù)據(jù)集;②對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,主要包括分詞、無效信息過濾、數(shù)據(jù)清洗、屬性詞排序、文件存儲(chǔ)等操作;③根據(jù)本文定義的數(shù)據(jù)詞典將屬性特征向量化并基于Skip-gram模型訓(xùn)練其特征詞向量;④根據(jù)本文提出的基于詞向量的相關(guān)度計(jì)算策略分別進(jìn)行屬性相關(guān)度和實(shí)體相關(guān)度的計(jì)算,通過設(shè)定合適閾值,對(duì)相關(guān)度滿足條件的所有實(shí)體對(duì)進(jìn)行實(shí)體信息的聚類融合;⑤建立統(tǒng)一視圖并輸出結(jié)果。見圖1。
圖1 多源環(huán)境下實(shí)體多視圖融合框架圖
在提取了實(shí)體并經(jīng)過數(shù)據(jù)預(yù)處理過程獲取到對(duì)應(yīng)的屬性向量后,需要通過計(jì)算屬性相關(guān)度的方法對(duì)實(shí)體進(jìn)行融合[12]。為此,本研究提出基于詞向量的屬性相關(guān)度計(jì)算策略。由于初始屬性向量的屬性元素最初全部以文本形式表示,并且每個(gè)屬性向量維度可能各不相同,為有效度量文本間的相似性,需要根據(jù)向量空間模型(vector space model,VSM)的思想把文本屬性轉(zhuǎn)化成計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),即中文文本轉(zhuǎn)化為數(shù)值特征,則兩個(gè)或多個(gè)實(shí)體文本屬性向量相關(guān)度的問題可以通過計(jì)算向量之間的相似性來解決。
詞向量是一種基于大量未標(biāo)注的語料學(xué)習(xí)而來的低維分布式實(shí)數(shù)向量,充分挖掘了同義詞之間的共現(xiàn)關(guān)系[13]。通過對(duì)上下文分析挖掘,詞向量中每個(gè)值都具有一定代表性,都能表示一定的語義和語法特征?;诖?,結(jié)合中藥實(shí)體屬性的特點(diǎn)和詞向量的優(yōu)勢(shì),提出一種基于詞向量的相關(guān)度計(jì)算方法,該方法首先訓(xùn)練把每個(gè)文本屬性映射為語義層面的特征詞向量,接著引入Jaccard系數(shù)計(jì)算各詞向量間的相似度,高于設(shè)定閾值者作為共現(xiàn)部分,最終計(jì)算整個(gè)屬性向量的相似度。
1.5.1 基于Skip-gram模型訓(xùn)練特征詞向量
針對(duì)傳統(tǒng)的詞向量表示方法中存在的諸如無法表達(dá)詞與詞之間的關(guān)系、特征離散稀疏性、維度災(zāi)難等問題,采用Mikolov等[14]提出的基于Hierarchical Softmax構(gòu)造的Skip-gram模型訓(xùn)練特征詞向量,該模型根據(jù)上下文關(guān)系定義了詞的向量,關(guān)聯(lián)度高的詞有更近的距離,能夠表現(xiàn)數(shù)據(jù)的內(nèi)在特征。Skip-gram模型本質(zhì)上是一個(gè)改進(jìn)的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層、投影層和輸出層,見圖2。
圖2 Skip-gram模型
Skip-Gram模型比較適用于大規(guī)模數(shù)據(jù)集,模型輸入()是一個(gè)特定的詞向量,而輸出是對(duì)應(yīng)的上下文詞向量,輸出的詞向量個(gè)數(shù)由算法設(shè)定的窗口大?。╳indow size)決定。
在樣本訓(xùn)練過程中,設(shè)給定的詞序列為:1,2,…,n,需要被最大化的目標(biāo)函數(shù)見公式(3)。
式中,數(shù)據(jù)詞典={|=i,∈[1,n]},()表示當(dāng)前詞的上下文窗口,通常窗口大小為5~10,視具體情況設(shè)定,(|)是對(duì)應(yīng)詞向量u和w的層次Softmax回歸值。
基于以上研究,Skip-gram模型訓(xùn)練參數(shù)較少,簡(jiǎn)單而高效,最終能夠通過詞向量之間的相似度表示屬性在語義層面的相似度。
1.5.2 基于歐氏距離和Jaccard系數(shù)的相關(guān)度計(jì)算
1.5.2.1 屬性之間的相關(guān)度
實(shí)體所包含的各屬性根據(jù)Skip-gram模型訓(xùn)練得到對(duì)應(yīng)的詞向量,本研究通過歐氏距離計(jì)算2個(gè)特征詞向量的相似度,衡量不同數(shù)據(jù)源實(shí)體屬性的相關(guān)度。
在多維數(shù)據(jù)空間結(jié)構(gòu)中,2個(gè)空間向量歐氏距離的大小可以反映其相似程度,其數(shù)值越小,表示2個(gè)向量越相近,亦說明2個(gè)屬性越相關(guān)[15-16]。歐氏距離的定義見公式(4)。
Dist(ii,jj)=‖ii-jj‖2(4)
式中,ii、jj分別是屬性ii、jj對(duì)應(yīng)的特征詞向量。由于訓(xùn)練后的詞向量考慮了豐富的屬性特征及向量中各元素之間的關(guān)聯(lián)性,因此采用歐氏距離能夠簡(jiǎn)單高效地表征2個(gè)向量之間的累積差異,并準(zhǔn)確反映出2個(gè)詞向量之間的相似性,亦即2個(gè)屬性的相關(guān)度。
為方便相似度的計(jì)算和表達(dá),限定歐氏距離的取值范圍,對(duì)式(4)表示的歐氏距離進(jìn)行歸一化處理,得到屬性相關(guān)度計(jì)算公式,見公式(5)。
式中,δ(ii,jj)表示屬性ii、jj的相關(guān)度,取值范圍為[0,1]。顯然,當(dāng)δ(ii,jj)值越接近于1,屬性ii、jj之間相關(guān)度越大;δ(ii,jj)值越趨近于0,屬性ii、jj之間差別越大。
1.5.2.2 實(shí)體之間的相關(guān)度
由于實(shí)體屬性向量可以唯一表征一個(gè)特定的實(shí)體,因此實(shí)體之間的相關(guān)度等價(jià)于實(shí)體屬性向量之間的相關(guān)度。根據(jù)公式(2),實(shí)體屬性向量由多個(gè)屬性構(gòu)成,若2個(gè)實(shí)體屬性向量中相同或相近的部分越多,即共現(xiàn)屬性越多,那么其相關(guān)度就越大?;诖?,本研究引入Jaccard系數(shù)衡量實(shí)體屬性向量間的相關(guān)度。從數(shù)學(xué)的角度,樣本交集個(gè)數(shù)和樣本并集個(gè)數(shù)的比值稱為Jaccard系數(shù)。類似地,在實(shí)體屬性向量的比較過程中,共現(xiàn)屬性相對(duì)于所有屬性所占的比例可以反映出2個(gè)屬性向量間的相關(guān)度。具體形式見公式(6)。
式中,i∩j表示屬性向量i和j的共現(xiàn)屬性,等同于交集部分,i∪j表示屬性向量i和j包含的所有不重復(fù)屬性,等同于并集部分,則(i,j)可以代表屬性向量i和j的相關(guān)度。
基于以上分析,設(shè)計(jì)基于歐氏距離和Jaccard系數(shù)的相關(guān)度算法1,其偽代碼如下。
輸入:任意2個(gè)實(shí)體屬性向量i={i1,i2,…,im},j={j1,j2,…,jn}
輸出:實(shí)體屬性向量i,j的相關(guān)度
Step 1:分別將實(shí)體屬性向量i={i1,i2,…,im},j={j1,j2,…,jn}對(duì)應(yīng)轉(zhuǎn)換成由特征詞向量構(gòu)成的屬性向量i={i1,i2,…,im},j={j1,j2,…,jn},初始化詞向量比較次數(shù)(i,j)=0;
Step 3:把由Step 2中每個(gè)詞向量ii得出的最大匹配度Rev(ii,j)與屬性相關(guān)度閾值作比較,≥則將ii歸為i和j的交集部分,否則將ii標(biāo)記為獨(dú)立不相關(guān)屬性,并令Rev(ii,j)=0;每次比較后令(i,j)=(i,j)+1;
Step 4:同理,交換i和j,重復(fù)Step 2和Step 3的操作;
Step 5:綜上,根據(jù)公式(6)得出任意2個(gè)實(shí)體屬性向量i、j相關(guān)度計(jì)算公式:
該式的分子是任意2個(gè)實(shí)體屬性向量i、j的共現(xiàn)屬性即i、j的交集,分母是i、j的并集,代表所有不重復(fù)的共現(xiàn)屬性和非共現(xiàn)屬性,因此,Rev(i,j)取值范圍為[0,1];
Step 6:最后將實(shí)體屬性向量i,j的相關(guān)度Rev(i,j)與屬性向量相關(guān)度閾值λ進(jìn)行比較,≥λ則表示兩者相關(guān),可以進(jìn)行實(shí)體融合,否則表示不相關(guān),兩者指向不同的實(shí)體;
Step 7:返回i,j的相關(guān)度Rev(i,j)。
采用《中藥學(xué)》[6]電子版教材作為屬性詞向量的訓(xùn)練集(中文字符數(shù)約61萬),訓(xùn)練完成詞向量6116個(gè),其中有效屬性詞向量230個(gè),每個(gè)詞向量維度為200維。部分屬性元素對(duì)應(yīng)的詞向量訓(xùn)練結(jié)果見表4。
表4 部分屬性元素對(duì)應(yīng)詞向量
屬性元素對(duì)應(yīng)詞向量(200維) 苦(-0.330 246 0,0.023 602 5,-0.053 613 1,0.071 510 9,…,-0.357 792 0,-0.040 185 4,0.063 908 3) 寒(0.027 702 1,0.028 034 0,-0.285 268 0,-0.022 379 2,…,-0.308 720 0,-0.049 867 3,0.074 089 0) 熱(-0.054 055 9,0.107 347 0,-0.142 854 0,-0.024 864 0,…,-0.218 180 0,-0.073 299 0,-0.022 821 1) 胃(0.061 085 1,0.049 659 8,-0.303 895 0,-0.126 678 0,…,-0.227 320 0,0.043 255 8,0.024 517 9) 肺(0.106 635 0,0.031 042 5,-0.215 672 0,-0.098 925 0,…,-0.288 672 0,-0.057 018 8,0.022 042 8) 肝(0.175 962 0,-0.087 078 2,-0.214 995 0,-0.048 901 3,…,-0.181 404 0,0.058 498 8,0.043 795 4) 高血壓(0.035 183 0,0.023 626 3,0.016 806 3,0.133 913 0,…,0.119 485 0,-0.059 232 4,0.055 066 8) 牙痛(0.083 277 5,0.009 955 7,-0.061 582 4,0.034 277 6,…,-0.053 500 2,-0.037 828 7,0.008 046 1) 頭痛(0.129 037 0,0.005 470 4,-0.127 878 0,0.028 358 7,…,-0.103 271 0,-0.074 404 9,0.069 649 3) 中風(fēng)(0.069 706 1,0.009 521 96,-0.068 872 2,0.039 171 7,…,-0.021 983 4,-0.035 233 3,0.022 805 9) ……
基于公式(4)、(5)和計(jì)算出的屬性詞向量,首先選擇不同數(shù)據(jù)源中的實(shí)體進(jìn)行屬性相關(guān)度計(jì)算,根據(jù)公式(2)所示實(shí)體表示方法,以羅布麻={甘,苦,心,肝,腎,清熱降火,強(qiáng)心利尿,心臟病,高血壓,神經(jīng)衰弱,腎炎水腫,感冒,高血脂,心悸失眠,浮腫尿少,6克,9克},茶葉花={苦,涼,肝,腎,降火利尿,降血壓,高血壓,肝炎,腎炎水腫,高血脂,失眠,6克,12克}為例,部分屬性相關(guān)度計(jì)算結(jié)果見表5。
根據(jù)以上對(duì)實(shí)體間屬性相關(guān)度的統(tǒng)計(jì)情況,令屬性相關(guān)度閾值為0.7,≥者認(rèn)為是2個(gè)實(shí)體間的相關(guān)屬性,基于算法1進(jìn)一步計(jì)算多源異構(gòu)實(shí)體間的相關(guān)度,用<數(shù)據(jù)源,實(shí)體>二元組形式表示某一數(shù)據(jù)源中的某一實(shí)體,部分實(shí)體相關(guān)度計(jì)算結(jié)果見表6。
基于實(shí)驗(yàn)結(jié)果,選取400對(duì)不同源實(shí)體,分別采用3種不同的實(shí)體融合方法進(jìn)行相關(guān)度計(jì)算。其中,基于分類距離分?jǐn)?shù)的自適應(yīng)融合(adaptive fusion based classification distance score,AFCDS)算法將匹配分?jǐn)?shù)與閾值之間的距離分?jǐn)?shù)作為融合分?jǐn)?shù)指標(biāo),不僅攜帶分類置信度的類別信息,也包含匹配分?jǐn)?shù)與分類閾值之間的距離信息,并通過信息熵定義關(guān)聯(lián)系數(shù)和特征權(quán)重系數(shù)[17]。特征融合(feature fusion,F(xiàn)F)方法從目標(biāo)實(shí)體中提取數(shù)據(jù)或特征進(jìn)行融合,將2個(gè)源特征向量組合成1個(gè)更完整、更具識(shí)別度的統(tǒng)一向量,如果2個(gè)輸入向量的維度不同,則在低維向量的相應(yīng)位置用零填充[18]。本研究基于詞向量計(jì)算不同實(shí)體及實(shí)體屬性間的相關(guān)度,與以上2種方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果見表7。
表5 不同實(shí)體間部分屬性的相關(guān)度
<實(shí)體1,屬性元素><實(shí)體2,屬性元素>相關(guān)度 <羅布麻,甘><茶葉花,苦>0.502 173 <羅布麻,甘><茶葉花,涼>0.491 540 <羅布麻,苦><茶葉花,苦>1 <羅布麻,苦><茶葉花,涼>0.426 137 <羅布麻,心><茶葉花,肝>0.531 024 <羅布麻,心><茶葉花,腎>0.395 120 <羅布麻,肝><茶葉花,肝>1 <羅布麻,腎><茶葉花,腎>1 <羅布麻,清熱降火><茶葉花,降火利尿>0.713 215 <羅布麻,清熱降火><茶葉花,降血壓>0.692 140 <羅布麻,強(qiáng)心利尿><茶葉花,降火利尿>0.835 214 <羅布麻,心臟病><茶葉花,高血壓>0.635 260 <羅布麻,心臟病><茶葉花,肝炎>0.573 010 <羅布麻,高血壓><茶葉花,高血壓>1 <羅布麻,高血壓><茶葉花,肝炎>0.599 269 <羅布麻,神經(jīng)衰弱><茶葉花,失眠>0.859 848 <羅布麻,浮腫尿少><茶葉花,腎炎水腫>0.812 143 ………
表6 不同數(shù)據(jù)源間部分實(shí)體的相關(guān)度
<數(shù)據(jù)源1,實(shí)體> <數(shù)據(jù)源2,實(shí)體>相關(guān)度 <中藥大辭典,羅布麻><中華本草,茶葉花>0.957 306 <全國(guó)中草藥匯編,藜蘆><中藥大辭典,山蔥>0.871 354 <中藥大辭典,天茄子>
表7 不同實(shí)體融合方法實(shí)驗(yàn)結(jié)果比較
方法計(jì)算正確的強(qiáng)相 關(guān)實(shí)體/對(duì)中藥數(shù)據(jù)庫有記 載的實(shí)體/對(duì)實(shí)體融合準(zhǔn) 確率/% AFCDS27229592.20 FF26129588.47 WVCC27829594.24
實(shí)體是指真實(shí)世界中客觀存在并可相互區(qū)分的對(duì)象或事物,是代表特定事實(shí)信息的重要語義單位。屬性則是實(shí)體具備的某一特性,一個(gè)實(shí)體由若干個(gè)屬性來描述。如“半夏”“青蒿”“三七”等屬于中藥類別的實(shí)體,其對(duì)應(yīng)的性味歸經(jīng)、功效作用、藥材性狀、藥理作用等是中藥實(shí)體的屬性。
然而,不同來源但含義相同的中藥實(shí)體往往具有多個(gè)名稱,以“半夏”為例,就有“三葉半夏”“三步跳”“麻芋子”“水芋”“地巴豆”“水玉”“地文”“老和尚頭”“泛石子”“地珠半夏”等近20種別名。為判斷多源環(huán)境下的實(shí)體是否指向同一個(gè)真實(shí)的對(duì)象,本研究提出構(gòu)建多源實(shí)體的統(tǒng)一視圖,通過將相關(guān)度高的實(shí)體進(jìn)行屬性合并和名稱等價(jià)標(biāo)記等處理,實(shí)現(xiàn)多源實(shí)體的信息融合和聚集,從而形成更準(zhǔn)確、更完整的實(shí)體統(tǒng)一視圖。
為構(gòu)建多源環(huán)境下中藥實(shí)體統(tǒng)一視圖,本研究提出分別對(duì)實(shí)體屬性相關(guān)度和實(shí)體間相關(guān)度進(jìn)行量化計(jì)算,并對(duì)常見的實(shí)體屬性進(jìn)行統(tǒng)計(jì)和整理。由表1、表2可以看出,某一中藥實(shí)體由不同的屬性取值組合表示,同一中藥實(shí)體在不同數(shù)據(jù)源中可能存在不同名或?qū)傩圆灰恢碌葐栴}。為解決此類問題,本實(shí)驗(yàn)中實(shí)體屬性向量不包含“名稱”和“別名”,某一數(shù)據(jù)源中任一中藥實(shí)體i可以表示為i={i1,i2,…,im},ii表示第個(gè)實(shí)體的第個(gè)屬性元素,每個(gè)屬性元素可用Skip-gram模型訓(xùn)練出的詞向量來等效表示。
對(duì)于存儲(chǔ)在多個(gè)數(shù)據(jù)源中的實(shí)體,通常存在屬性表述不同但本質(zhì)接近的情況,本研究稱這類實(shí)體為強(qiáng)相關(guān)實(shí)體,否則稱為不相關(guān)實(shí)體。根據(jù)多源實(shí)體相關(guān)度實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,令實(shí)體相關(guān)度閾值λ為0.85,則實(shí)體相關(guān)度≥λ的2個(gè)實(shí)體可以認(rèn)定為強(qiáng)相關(guān)實(shí)體,能夠進(jìn)行實(shí)體屬性融合,從而構(gòu)建該實(shí)體的統(tǒng)一視圖。
本研究結(jié)果顯示,WVCC方法實(shí)體融合準(zhǔn)確率達(dá)到94.24%,與基于分類距離分?jǐn)?shù)的自適應(yīng)融合識(shí)別方法、分?jǐn)?shù)層融合方法等常見算法相比,其實(shí)體融合準(zhǔn)確率較高,為多源環(huán)境下實(shí)體融合提供了一種可靠、新穎的解決策略。
綜上所述,為解決大數(shù)據(jù)環(huán)境中跨數(shù)據(jù)源查詢面臨的實(shí)體呈現(xiàn)多視圖而導(dǎo)致的數(shù)據(jù)不規(guī)范、查詢低效、信息缺失等一系列問題,本研究提出了多源環(huán)境下實(shí)體統(tǒng)一視圖的構(gòu)建策略,首先設(shè)計(jì)實(shí)體融合架構(gòu)圖,接著對(duì)實(shí)體和屬性進(jìn)行數(shù)學(xué)抽象,然后提出基于詞向量的相關(guān)度計(jì)算方法,該方法主要分為基于Skip-gram模型特征詞向量的訓(xùn)練、基于歐氏距離和Jaccard系數(shù)的相關(guān)度計(jì)算等階段,最終實(shí)現(xiàn)不同源實(shí)體的準(zhǔn)確融合。實(shí)驗(yàn)結(jié)果表明,本研究提出的實(shí)體統(tǒng)一視圖構(gòu)建策略有效可行,實(shí)體融合準(zhǔn)確率高,并在查詢對(duì)象完整性及查詢時(shí)間開銷方面都有較好表現(xiàn),進(jìn)一步擴(kuò)大標(biāo)準(zhǔn)訓(xùn)練集的規(guī)模、改進(jìn)數(shù)據(jù)融合算法是下一步的研究方向。
[1] 于靜,劉燕兵,張宇,等.大規(guī)模圖數(shù)據(jù)匹配技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):391-409.
[2] 孟小峰,杜治娟.大數(shù)據(jù)融合研究:?jiǎn)栴}與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):231-246.
[3] 張瑤,李蜀瑜,湯玥.大數(shù)據(jù)下的多源異構(gòu)知識(shí)融合算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(9):12-16.
[4] 彭京,唐常杰,元昌安,等.一種基于概念相似度的數(shù)據(jù)分類方法[J].軟件學(xué)報(bào),2007,18(2):311-322.
[5] SHVAIKO P, EUZENAT J. Ontology matching:state of the art and future challenges[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(1):158-176.
[6] 高學(xué)敏,鐘贛生.中藥學(xué)[M].2版.北京:人民衛(wèi)生出版社,2013.
[7] 南京中醫(yī)藥大學(xué).中藥大辭典[M].2版.上海:上??茖W(xué)技術(shù)出版社, 2006.
[8] 國(guó)家中醫(yī)藥管理局《中華本草》編委會(huì).中華本草[M].上海:上海科學(xué)技術(shù)出版社,1999.
[9] 王國(guó)強(qiáng).全國(guó)中草藥匯編[M].3版.北京:人民衛(wèi)生出版社,2014.
[10] LI G L, HE J, DENG D, et al. Efficient similarity join and search on multi-attribute data[C]//ACM SIGMOD International Conference on Management of Data. ACM,2015:1137-1151.
[11] SELLAMI R, DEFUDE B. Complex queries optimization and evaluation over relational and NoSQL data stores in cloud environments[J]. IEEE Transactions on Big Data,2018,4(2):217-230.
[12] RONALD Y, FRED P, PAUL E. Multiple attribute similarity hypermatching[J]. Soft Computing,2018,22(8):2463-2469.
[13] 張群,王紅軍,王倫文.一種結(jié)合上下文語義的短文本聚類算法[J].計(jì)算機(jī)科學(xué),2016,43(S2):443-446,450.
[14] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[C]//1st International Conference on Learning Representations(ICLR 2013),2013:1-12.
[15] DRAISMA J, HOROBET E, OTTAVIANI G, et al. The Euclidean distance degree of an algebraic variety[J]. Foundations of Computational Mathematics,2016,16(1):99-149.
[16] PAPADAKIS G, KOUTRIKA G, PALPANAS T, et al. Meta-blocking:Taking entity resolution to the next level[J]. IEEE Transactions on Knowledge and Data Engineering,2014,26(8):1946-1960.
[17] 張露,王華彬,陶亮,等.基于分類距離分?jǐn)?shù)的自適應(yīng)多模態(tài)生物特征融合[J].計(jì)算機(jī)研究與發(fā)展,2018,55(1):151-162.
[18] HAGHIGHAT M, ABDEL-MOTTALEB M, ALHALABI W. Discriminant correlation analysis:real-time feature level fusion for multimodal biometric recognition[J]. IEEE Transactions on Information Forensics and Security,2016,11(9):1984-1996.
Construction Strategy for Unified View of TCM Entities in Multi-source Environment
LIANG Yang1,2,3, DING Changsong1,2, CAI Xiong4
To propose a construction strategy of unified view of TCM entities for multi-source data targeting the fact that TCM entities are faced with multi-data query with multiple views in the big data environment, and that TCM entities exhibit incomplete attributes, multi-modality, and differences in each data source.Based on the interrelationship between entity attributes, an entity multi-view fusion overall architecture was constructed, and abstract representations of key elements such as entities and attributes were carried out. A word vector-based correlation calculation method was proposed based on user requirements. The Skip-gram model was used to train word vectors that characterize entity attributes. A correlation algorithm based on Euclidean distance and Jaccard coefficient was proposed, and the entity fusion was based on this.The experiment trained a total of 6116 attribute word vectors, including 230 effective word vectors. 400 pairs of heterologous TCM entities were used as test sets, and the entity fusion experiments were carried out by AFCDS, FF and WVCC respectively. The fusion accuracy was 92.20%, 88.47% and 94.24%.The entity fusion strategy based on word vector is effective and feasible, and can make full use of the effective information between attributes. It has strong adaptability and high accuracy of entity fusion, and can provide new ideas for solving the problem of multi-source entity fusion.
big data; multi-source data; entity fusion; word vector; correlation
R28;R2-05
A
1005-5304(2020)09-108-07
10.3969/j.issn.1005-5304.201906116
國(guó)家重點(diǎn)研發(fā)計(jì)劃(2017YFC1703306);湖南省教育廳科學(xué)研究項(xiàng)目(19C1391);湖南省重點(diǎn)研發(fā)計(jì)劃(2017SK2111);湖南省教育廳重點(diǎn)項(xiàng)目(18A227);湖南省自然科學(xué)基金(2018JJ2301);湖南省中醫(yī)藥科研計(jì)劃重點(diǎn)課題(2020002);湖南中醫(yī)藥大學(xué)電子科學(xué)與技術(shù)學(xué)科開放基金(2018DK04)
丁長(zhǎng)松,E-mail:dinghongzhe@yeah.net
(2019-06-09)
(2019-07-05;編輯:陳靜)