錢衛(wèi)寧,孫晨,程文亮,周傲英
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院, 上海 200062
面向圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測的知識圖譜統(tǒng)計特征分析
錢衛(wèi)寧,孫晨,程文亮,周傲英
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院, 上海 200062
近年來,圖結(jié)構(gòu)數(shù)據(jù)在信息安全、科學(xué)研究、互聯(lián)網(wǎng)服務(wù)等各個領(lǐng)域被廣泛采用,圖數(shù)據(jù)管理系統(tǒng)也隨之快速發(fā)展。然而,當(dāng)前最主要的圖數(shù)據(jù)管理系統(tǒng)評測基準(zhǔn)都是面向社交網(wǎng)絡(luò)服務(wù)和分析應(yīng)用而設(shè)計和開發(fā)的。通過對知識圖譜(know ledgegraph)這一類快速發(fā)展的圖結(jié)構(gòu)數(shù)據(jù)的統(tǒng)計特征進(jìn)行分析,并和社交網(wǎng)絡(luò)進(jìn)行比較,展示知識圖譜和社交網(wǎng)絡(luò)的顯著區(qū)別,以此說明現(xiàn)有圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測無法滿足知識圖譜管理的需要,進(jìn)一步展望圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測的需求和發(fā)展。
基準(zhǔn)評測;圖數(shù)據(jù);知識圖譜;統(tǒng)計特征
近年來學(xué)術(shù)界和工業(yè)界都見證了大規(guī)模知識圖譜構(gòu)建和應(yīng)用的高漲熱情。知識圖譜已成為如擴展查詢[1]、問答系統(tǒng)[2]這樣的大規(guī)模Web應(yīng)用的核心模塊。例如,谷歌知識圖譜中就包含了超過5億個實體以及35億條事實,用來完善谷歌搜索引擎的搜索結(jié)果①https:// googleblog.blogspot.com/2012/05/ introducingknowledgegraph-thingsnot.html。然而,面對如此龐大的知識圖譜數(shù)據(jù),如何對它進(jìn)行有效的管理就成了一個很重要的問題。盡管已經(jīng)存在一些技術(shù),比如使用具有特定索引的關(guān)系數(shù)據(jù)庫管理系統(tǒng)或構(gòu)建本地圖數(shù)據(jù)管理系統(tǒng),但大規(guī)模圖數(shù)據(jù)的管理仍是一個研究難點和熱點[3]。因此,需要專門的圖數(shù)據(jù)管理評測基準(zhǔn)來更好地理解知識圖譜的構(gòu)建與應(yīng)用,并幫助用戶選擇合適的系統(tǒng)或技術(shù)。
目前已有的圖數(shù)據(jù)管理基準(zhǔn)評測主要是針對社交網(wǎng)絡(luò)圖譜管理應(yīng)用而設(shè)計的。例如,F(xiàn)acebook 的LinkBenck[4]、LDBC的SNB (social network benchmark)[5]以及之前的研究工作BSMA[6]等。但需要注意的是,知識圖譜與社交網(wǎng)絡(luò)之間的本質(zhì)區(qū)別在于知識圖譜中的頂點節(jié)點和邊都是用大量豐富的屬性或語義標(biāo)簽標(biāo)注過的,具有屬性和語義標(biāo)簽,而在社交網(wǎng)絡(luò)中這樣的頂點和邊卻很少。所以,認(rèn)為現(xiàn)有的面向社交網(wǎng)絡(luò)的評測基準(zhǔn)在對于知識圖譜數(shù)據(jù)的管理問題中是不適用的。況且知識圖譜和社交網(wǎng)絡(luò)的應(yīng)用場景不同,導(dǎo)致它們的查詢負(fù)載也不相同。
本文將從描述知識圖譜結(jié)構(gòu)的統(tǒng)計特征這一特定視角,分析知識圖譜管理基準(zhǔn)評測的要求。通過對真實社交網(wǎng)絡(luò)和知識圖譜進(jìn)行統(tǒng)計特征分析,研究兩者之間的差異。
本文的貢獻(xiàn)如下。
● 為特征化圖譜結(jié)構(gòu)引入了4類分布特征指標(biāo),對知識圖譜進(jìn)行了定量和定性的分析,并分析展示了它們在知識圖譜的管理數(shù)據(jù)中的意義。
● 本文對4個知識圖譜和2個社交網(wǎng)絡(luò)進(jìn)行了深入的分析。其中,知識圖譜既包含了通用領(lǐng)域的知識圖譜,也包含專門領(lǐng)域的知識圖譜。通過實證,盡管展示了這些圖數(shù)據(jù)在某些特定的結(jié)構(gòu)特征上具有相似性,如頂點度數(shù)的冪律分布,但在其他特征上卻具有明顯的差異。同時本文也將差異存在的原因進(jìn)行了詳細(xì)分析。
● 分析了知識圖譜評測基準(zhǔn)中種子數(shù)據(jù)集以及數(shù)據(jù)生成器的一些要求,并分析了已有的社交網(wǎng)絡(luò)數(shù)據(jù)生成器不能滿足面向知識圖譜數(shù)據(jù)管理的評測基準(zhǔn)需要的原因。
本文分析2個社交網(wǎng)絡(luò)和4個知識圖譜數(shù)據(jù)集,簡介如下。
社交網(wǎng)絡(luò):新浪微博是中國最重要的社交媒體服務(wù)之一。使用獲取自新浪微博的兩個關(guān)注關(guān)系圖數(shù)據(jù)集。第一個數(shù)據(jù)集是從整個用戶集中隨機獲取200000個用戶構(gòu)建的關(guān)注關(guān)系子圖SNRand。它包含了超過5000000個用戶間關(guān)注關(guān)系。第二個數(shù)據(jù)集挑選了200000個最活躍的用戶后所構(gòu)建的關(guān)注關(guān)系子圖SNRank。它包含了超過36000000個關(guān)注關(guān)系。需要注意的是,SNRand接近于真實的社交網(wǎng)絡(luò)數(shù)據(jù),SNRank則接近很多對熱點事件和用戶進(jìn)行分析的社交媒體分析應(yīng)用中所處理的數(shù)據(jù)。
WordNet[7]:它是由美國普林斯頓大學(xué)設(shè)計開發(fā)的基于認(rèn)知語言學(xué)的英語詞典。其中名詞、動詞、形容詞和副詞等各自被組織成一個由同義詞詞集構(gòu)成的網(wǎng)絡(luò),每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也由各種關(guān)系連接。在實驗中直接利用WordNet,其中單詞或概念構(gòu)成了節(jié)點,而語義關(guān)系則作為邊。
YAGO2[8]:YAGO2是一個繼承綜合了Wikipedia、WordNet 和GeoNames,經(jīng)過擴展后得到的大型語義知識圖譜。從中生成了3個子圖,依次命名為YagoTax、YagoFact 和YagoWiki。其中YagoTax是YAGO2的分類知識,包含了子類實體之間的從屬關(guān)系(subclassof)、上下位關(guān)系(isA)關(guān)系等;YagoFact則包含了YAGO2的所有事實關(guān)系,代表了事實性知識;YagoWiki包含了YAGO2中包含的Wikipedia頁面之間的超鏈接關(guān)系,反映了Wikipedia的內(nèi)在超鏈接結(jié)構(gòu)。
DBpedia[9]:DBpedia是一個從Wikipedia中抽取得到的多語言知識庫,其英文版本描述了4580000個實體和2795個不同屬性。基于DBpedia中所有事實性知識構(gòu)造了數(shù)據(jù)集DBpediaFact。
EKG:EKG(enterprise knowledge graph)是根據(jù)上海證劵交易所上市公司公報構(gòu)建的特定領(lǐng)域知識圖譜,包括企業(yè)和企業(yè)之間以及企業(yè)和人之間的assignment、hold、subcompany、changename、manager、cooperate、merge 7種關(guān)系,共包含51853個實體和430973個關(guān)系。
知識圖譜和社交網(wǎng)絡(luò)都可以用有向圖G=(V,E)表示,其中V是節(jié)點的集合,表征實體或用戶,E是有向邊的集合,表征語義關(guān)系。主要考量關(guān)于圖的4個分布特征,具體如下。
● 度數(shù)分布:圖G的度數(shù)分布是p(d)=nd/|V|,其中,nd表示度數(shù)為d的節(jié)點數(shù),|V|表示G中所有的節(jié)點數(shù)。在大多數(shù)圖中,度數(shù)服從冪律分布,即p(d)∝L(d)d-α,其中,α>1且L(d)是一個慢變函數(shù)。本文中將分別研究入度和出度。
● 跳數(shù)分布:對于圖G中的路徑P={v1,v2,…,vh}而言,其長度被定義為Hops(P)=h–2,其中,h表示P中的節(jié)點數(shù)。跳數(shù)分布反映了圖中的連通代價。
● 連通分支的分布:強連通分支中任意兩個節(jié)點間相互可以到達(dá),弱連通分支則是在忽略邊的方向后任意兩個節(jié)點間可以連通。連通分支反映了圖的連通性。
● 聚類系數(shù)的分布:一個節(jié)點vi的聚集系數(shù)[10]的定義為Ci=|{ejk∶vj,vk∈Ni,ejk∈E}|/ [|Ni|(|Ni|-1)],其中,ejk是vj和vk之間的邊(j≠k),而Ni是vi的鄰居節(jié)點的集合。聚集系數(shù)衡量的是節(jié)點聚集的趨勢。
利用工具SNAP[11]計算了4個知識圖譜與2個社交網(wǎng)絡(luò)的統(tǒng)計特征?;诓煌哪繕?biāo)將圖譜分為3組進(jìn)行分析:為了研究同一知識圖譜的不同部分,比較了YAGO2的3個子圖;為了研究不同知識圖譜之間的差異性,考量了4類知識圖譜并對它們進(jìn)行橫向?qū)Ρ?;還將知識圖譜與社交網(wǎng)絡(luò)作對比,并解釋其間的區(qū)別及存在的原因。
圖1展示了所有知識圖譜以及社交網(wǎng)絡(luò)的節(jié)點入度和出度。所有數(shù)據(jù)集的入度分布都接近于冪律分布(如圖1(a)所示)。除了SNRank,這些冪律分布的指數(shù)α都在(1.8,2.4)附近。SNRank與其他數(shù)據(jù)集明顯不同,它的初始部分明顯偏離冪律,直到入度增加至560左右才服從冪律分布。這是因為SNRank中只包含最活躍的社交網(wǎng)絡(luò)用戶,因此和其他數(shù)據(jù)集之間有明顯偏差。
圖1 知識圖譜與社交網(wǎng)絡(luò)節(jié)點度數(shù)分布
出度分布(如圖1(b)所示)不同,可以看出,不僅知識圖譜與社交網(wǎng)絡(luò)間,甚至知識圖譜之間也存在著明顯的區(qū)別。3個YAGO2子圖的出度分布具有顯著不同。所有的分布最初都偏離冪律且彼此間不同,分布的下降率也變化很廣,指數(shù)參數(shù)α波動于1.4~8.4。需要注意,YagoTax作為這些知識圖譜數(shù)據(jù)集中唯一的層次狀數(shù)據(jù),其分布與其他知識圖譜數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù)都有著明顯的區(qū)別。
圖2 知識圖譜與社交網(wǎng)絡(luò)節(jié)點間距離分布與圖直徑
圖2展示了這些圖數(shù)據(jù)的節(jié)點間距離分布,均呈現(xiàn)為S型。為了使數(shù)據(jù)適合于某些曲線,引入Sigmoid函數(shù)f(x)=a/(1+eb-cx)即可對圖2(a)的數(shù)據(jù)進(jìn)行準(zhǔn)確建模。YagoTax和WordNet的直徑,即任意一對節(jié)點間的最大跳數(shù),普遍比其他數(shù)據(jù)集都大。而SNRand和SNRank的直徑最小,近似于6,這正符合社交網(wǎng)絡(luò)中的六度分隔現(xiàn)象[10]。另一個有趣的發(fā)現(xiàn)是,當(dāng)跳數(shù)由2增加至3時,所有的分布都會產(chǎn)生爆炸式增長。還有一個有趣的現(xiàn)象是除YagoTax以外,所有數(shù)據(jù)集的直徑和數(shù)據(jù)集節(jié)點個數(shù)的log值之間呈線性下降關(guān)系。這表明,這些數(shù)據(jù)集在節(jié)點間距離的分布上相似。
圖3 知識圖譜與社交網(wǎng)絡(luò)連通分支規(guī)模分布
圖3展示了連通分支的分布。除了YagoTax,知識圖譜的強、弱連通分支分布都服從冪律分布。這是因為YagoTax是一棵擁有大量非連通葉子節(jié)點的扁平的樹。在SNRand和SNRank這樣的社交網(wǎng)絡(luò)中,只有一個最大的強連通分支和一小部分的孤立點。知識圖譜的強、弱連通分支的冪律分布顯示知識圖譜中的節(jié)點在小范圍內(nèi)聚集,而社交網(wǎng)絡(luò)中的節(jié)點則被組織為一個大的強連通分支。
圖4展示了平均聚類系數(shù)(average clustering coefficient,ACC)的分布。計算ACC時,將圖視為無向圖且度數(shù)視為出度與入度的總和。圖4顯示除了SNRank以外,其他的圖在最初都傾向于呈現(xiàn)冪律分布,而SNRank則隨著x的增大曲線發(fā)生偏離。社交網(wǎng)絡(luò)的ACC一般高于知識圖譜,這也反映了知識圖譜的局部聚集屬性不如社交網(wǎng)絡(luò)。
進(jìn)一步將EKG包含的7種關(guān)系分為7個子圖。子圖的節(jié)點度數(shù)分布如圖5所示。從中可以看到,“manager”這一關(guān)系的出度分布在指數(shù)標(biāo)度上部分呈鐘形。這說明,即使去除了分類層次等具有樹形或?qū)哟螤畹牟糠?,知識圖譜的各部分的分布仍然有較大區(qū)別。
圖4 知識圖譜與社交網(wǎng)絡(luò)節(jié)點聚類系數(shù)分布
進(jìn)一步分析7個子圖的節(jié)點間距離分布,如圖6所示,可以看到,“manager”關(guān)系不同于其他子圖,而“hold”和“merge”又不同于其余4個子圖。這進(jìn)一步說明了知識圖譜各部分之間存在較大區(qū)別。
這7個子圖并非在所有統(tǒng)計特征上都不相同。如圖7所示,在連通分支規(guī)模分布方面,這些子圖相互間差別較小。同樣,如圖8所示,除“changename”這一關(guān)系聚類系數(shù)較高以外,剩余6個子圖的聚簇特性相近。
圖5 企業(yè)知識圖譜各關(guān)系子圖的節(jié)點度數(shù)分布
圖6 企業(yè)知識圖譜各關(guān)系子圖的節(jié)點間距離分布
面向知識圖譜管理的評測基準(zhǔn)的制定需要建立在對知識圖譜的統(tǒng)計特征詳細(xì)分析的基礎(chǔ)上。在對復(fù)雜網(wǎng)絡(luò)的研究中,已經(jīng)提出了很多結(jié)構(gòu)度量標(biāo)準(zhǔn)和分布統(tǒng)計來對圖的統(tǒng)計特征建模。這些統(tǒng)計度量包括節(jié)點度數(shù)、跳數(shù)、直徑等。
研究人員已花費了大量精力來分析大規(guī)模圖譜的結(jié)構(gòu)化屬性。Broder等人就通過一系列的圖結(jié)構(gòu)度量指標(biāo)(如直徑、節(jié)點、度等)來研究網(wǎng)絡(luò)[12]。在社交網(wǎng)絡(luò)方面,Kumar等人通過研究Flickr以及Yahoo! 360的動態(tài)時距圖的結(jié)構(gòu)屬性諸如直徑、度、社區(qū)規(guī)模等指標(biāo)來研究其演變[13]。Boccaletti等人則調(diào)研了復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)和動態(tài)變化[14]。筆者曾對包括EKG的一個早期版本的4個知識圖譜和2個社交網(wǎng)絡(luò)進(jìn)行統(tǒng)計特征分析[15]。隨著EKG的完善和規(guī)模增長,本文進(jìn)一步拓展了原有的分析。
與此同時,大型圖譜大規(guī)模圖譜分析系統(tǒng)也在近年來得以迅速發(fā)展。Lancichinetti等人提出了關(guān)于節(jié)點度數(shù)和社區(qū)規(guī)模的具有分布不均勻性的圖數(shù)據(jù)評測基準(zhǔn)[16]。而在社交網(wǎng)絡(luò)評測基準(zhǔn)方面,LinkBench在對Facebook的社交網(wǎng)絡(luò)工作負(fù)載進(jìn)行特征分析的基礎(chǔ)上實現(xiàn)了評測基準(zhǔn)[4]。LDBC的社交網(wǎng)絡(luò)評測基準(zhǔn)(SNB)對一個類似于Facebook的綜合社交網(wǎng)絡(luò)進(jìn)行了建模,它也是第一個基于瓶頸分析的LDBC評測基準(zhǔn),準(zhǔn)確刻畫了負(fù)載處理上的技術(shù)挑戰(zhàn)[5]。BSMA是另一個社交媒體數(shù)據(jù)分析評測基準(zhǔn),旨在提供面向新浪微博分析的評測基準(zhǔn)[6,17]。
圖7 企業(yè)知識圖譜各關(guān)系子圖的連通分支分布
圖8 企業(yè)知識圖譜各關(guān)系子圖的節(jié)點聚類系數(shù)分布
本文分析了4個知識圖譜和2個社交網(wǎng)絡(luò)的統(tǒng)計特征。通過對它們的深入分析后可得出如下結(jié)論。
首先,知識圖譜與社交網(wǎng)絡(luò)在節(jié)點度數(shù)分布、節(jié)點間距離和網(wǎng)絡(luò)直徑、連通分支規(guī)模分布、節(jié)點聚簇程度等方面都不相同。因此,現(xiàn)有的社交網(wǎng)絡(luò)數(shù)據(jù)以及相關(guān)的數(shù)據(jù)生成器所產(chǎn)生的模擬數(shù)據(jù)集都不能被用來模擬知識圖譜數(shù)據(jù)。
其次,與社交網(wǎng)絡(luò)相比,知識圖譜更為復(fù)雜。這體現(xiàn)在兩個方面。一方面,知識圖譜的節(jié)點和邊上的屬性和標(biāo)簽在查詢處理、分析處理時占有重要地位,且屬性值和標(biāo)簽值多樣;另一方面,在不同屬性和標(biāo)簽類別所決定的子圖之間,各個統(tǒng)計特征差別巨大。這其中既有概念層次和本體這樣的抽象知識的圖結(jié)構(gòu)與實體間聯(lián)系這樣的事實知識的圖結(jié)構(gòu)的顯著區(qū)別,也有不同類別的實體間聯(lián)系子圖之間的區(qū)別。因此,單純地用多個同構(gòu)網(wǎng)絡(luò)疊加的方式是無法構(gòu)造出類似于知識圖譜的復(fù)雜結(jié)構(gòu)的。
第三,不同知識圖譜之間仍然具有一定的相似性。在本文研究的4類統(tǒng)計分布特征上,各個知識圖譜的事實部分顯示出較大的相似性。因此,面向知識圖譜應(yīng)用,設(shè)計、開發(fā)圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測是有意義,也是可能的。
本文的工作仍剛起步。一方面,本文的統(tǒng)計分析只對單一子圖進(jìn)行,并未對知識圖譜各子圖間的聯(lián)系進(jìn)行分析;另一方面,本文只研究了最基本的4類分布特征。但本文的分析結(jié)果和結(jié)論對于設(shè)計評測基準(zhǔn),特別是其中的數(shù)據(jù)生成器,仍然具有明確的指導(dǎo)意義。
從本文的分析結(jié)果可知,面向知識圖譜應(yīng)用的圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測的數(shù)據(jù)生成器應(yīng)能夠生成分布上多樣的大規(guī)模異構(gòu)圖數(shù)據(jù),以彌補現(xiàn)有圖數(shù)據(jù)生成器的不足。
[1] DALTON J, DIETZ L, ALLAN J.Entity query feature expansion using knowledge base links[C]//International ACM Sigir Conference on Research and Development in Information Retrieval, July 6-11, 2014, Gold Coast, QLD, Australia.New York: ACM Press, 2014: 365-374.
[2] JOSHI M, SAWANT U, CHAKRABARTI S.Knowledge graph and corpus driven segmentation and answer inference for telegraphic entity-seeking queries[C]// Conference on Empirical Methods in Natural Language Processing, October 25-29, 2014, Doha, Qatar.[S.l.:s.n.], 2014: 1104-1114.
[3] RAJARAMAN A, ULLMAN J D.Mining of massive datasets[M].New York: Cambridge University Press, 2011.
[4] ARMSTRONG T G, PONNEKANTI V, BORTHAKUR D, et al.Linkbench: A database benchmark based on the facebook social graph[C]//ACM SIGMOD International Conference on Management of Data, June 22-27, 2013, New York, USA.New York: ACM Press, 2013: 1185-1196.
[5] ERLING O, AVERBUCH A, LARRIBAPEY J, et al.The ldbc social network benchmark: Interactive workload[C]// ACM SIGMOD International Conference on Management of Data, May 31-June 4, 2015, Melbourne, Victoria, Australia.New York: ACM Press, 2015: 619-630.
[6] MA H, WEI J, QIAN W, et al.On benchmarking online social media analytical queries[C]//International Workshop on Graph Data Management Experiences and Systems, June 23, 2013, New York, USA.[S.l.:s.n.], 2013: 1-7.
[7] FELLBAUM C.WordNet: an electronic lexical database[M].Massachusetts: MIT Press, 1998.
[8] H O F FA R T J, S U C H A N E K F M, BERBERICH K, et al.Yago2: a spatially and temporally enhanced knowledge base from Wikipedia[J].Artificial Intelligence, 2013(194): 28-61.
[9] LEHMANN J, ISELE R, JAKOB M, et al.Dbpedia: a large-scale, multilingual knowledge base extracted from Wikipedia[J].Semantic Web Journal, 2015, 6(2): 167-195.
[10] WATTS D, STROGATZ S.Collective dynamics of ‘small-world’ networks[J].Nature, 1998, 393(6684): 440-442.
[11] LESKOVEC J, SOSIC R.SNAP: a general purpose network analysis and graph mining library[J].ACM Transactions on Intelligent Systems and Technology, 2016, 8(1): 1-20.
[12] BRODER A, KUMAR R, MAGHOUL F, et al.Graph structure in the web[J].ComputerNetworks, 2000, 33(1-6): 309-320.
[13] KUMAR R, NOVAK J, TOMKINS A.Structure and evolution of online social networks[M].New York: Springer, 2006: 337-357.
[14] BOCCALETTI S, LATORA V, MORENO Y, et al.Complex networks: structure and dynamics[J].Phys Rep, 2006, 424(4-5): 175-308.
[15] CHENG W, WANG C, XIAO B, et al.On statistical characteristics of reallife knowledge graphs[C]//The Workshop on Big Data Benchmarks, Performance, Optimization, and Emerging Hardware, September 4, 2015, Hawaii, USA.[S.l.:s.n.], 2015: 261-267.
[16] LANCICHINETTI A, FORTUNATO S, RADICCHI F.Benchmark graphs for testing community detection algorithms[J].Physical Review E Statistical Nonlinear and Soft Matter Physics, 2008, 78(2): 561-570.
[17] 錢衛(wèi)寧, 夏帆, 周敏奇, 等.大數(shù)據(jù)管理系統(tǒng)評測基準(zhǔn)的挑戰(zhàn)與研究進(jìn)展[J].大數(shù)據(jù),2015, 1(1): 82-96.QIAN W N, XIA F, ZHOU M Q, et al.Challenges and progress of big data management system benchmarks[J].Big Data Research, 2015, 1(1): 82-96.
Statistical characteristics analysis of knowledge graphs for benchmarking graph database management systems
QIAN Weining, SUN Chen, CHENG Wenliang, ZHOU Aoying
Institute for Data Science and Engineering, East China Normal University, Shanghai 200062, China
Recently, graph data has been widely used in domains such as information security, scientific research, internet services, etc., that stimulates the fast development of graph data management systems.However, existing benchmarks for graph databases are all designed for applications that manage and analyze social networks.The statistical characteristics of knowledge graphs were analyzed, and compared with two social networks.It was showed that knowledge graphs, as an important and fast growing kind of graph data, were significantly different from social networks.Therefore, existing social network based benchmarks were not suitable for applications that deal with knowledge graphs.Furthermore, the requirements for a new benchmark were analyzed.
benchmark, graph data, knowledge graph, statistical measurement
TP31
A
10.11959/j.issn.2096-0271.2016049
錢衛(wèi)寧(1976-),男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院教授、博士生導(dǎo)師,主要研究方向為互聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)管理、大數(shù)據(jù)管理系統(tǒng)評測基準(zhǔn)、社交媒體數(shù)據(jù)分析、知識圖譜構(gòu)建與應(yīng)用等。
孫晨(1995-),女,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院碩士生,主要研究方向為知識圖譜構(gòu)建。
程文亮(1989-),男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院碩士生,主要研究方向為數(shù)據(jù)挖掘與知識發(fā)現(xiàn)。
周傲英(1965-),男,華東師范大學(xué)副校長,長江學(xué)者特聘教授,數(shù)據(jù)科學(xué)與工程研究院院長,主要研究方向為Web數(shù)據(jù)管理、數(shù)據(jù)密集型計算、內(nèi)存集群計算、分布事務(wù)處理、大數(shù)據(jù)基準(zhǔn)測試和性能優(yōu)化。
2016-08-10
國家自然科學(xué)基金資助項目(No.61432006)
Foundation Item: The National Natural Science Foundation of China (No.61432006)