亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖數(shù)據(jù)庫(kù)的電影知識(shí)圖譜應(yīng)用研究

        2016-09-20 07:22:38陸曉華張宇錢進(jìn)四川大學(xué)計(jì)算機(jī)學(xué)院成都60065成都航空職業(yè)技術(shù)學(xué)院成都60065重慶市通信服務(wù)產(chǎn)業(yè)有限公司移動(dòng)服務(wù)分公司重慶40400
        現(xiàn)代計(jì)算機(jī) 2016年7期
        關(guān)鍵詞:命名圖譜實(shí)體

        陸曉華,張宇,錢進(jìn)(.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 60065;.成都航空職業(yè)技術(shù)學(xué)院,成都 60065;.重慶市通信服務(wù)產(chǎn)業(yè)有限公司移動(dòng)服務(wù)分公司,重慶 40400)

        基于圖數(shù)據(jù)庫(kù)的電影知識(shí)圖譜應(yīng)用研究

        陸曉華1,張宇2,錢進(jìn)3
        (1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.成都航空職業(yè)技術(shù)學(xué)院,成都610065;3.重慶市通信服務(wù)產(chǎn)業(yè)有限公司移動(dòng)服務(wù)分公司,重慶404100)

        0 引言

        知識(shí)圖譜,也被稱為科學(xué)知識(shí)圖譜、知識(shí)域可視化或知識(shí)域映射地圖,是顯示科學(xué)知識(shí)的發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的的一系列各種不同的圖形。它用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系[1]。

        具體來說,知識(shí)圖譜是把應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,用可視化的圖譜形象地展示學(xué)科的核心框架、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)的多學(xué)科融合的一種研究方法。它把復(fù)雜的知識(shí)領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制而顯示出來,揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律,為學(xué)科研究提供切實(shí)的、有價(jià)值的參考[1]。

        近些年,隨著大數(shù)據(jù)時(shí)代的到來,知識(shí)圖譜已經(jīng)在其他領(lǐng)域有所應(yīng)用。Google早在2012年就發(fā)布了“知識(shí)圖譜”,利用知識(shí)圖譜將Google的搜索結(jié)果進(jìn)行知識(shí)系統(tǒng)化。當(dāng)用戶在搜索某一關(guān)鍵詞時(shí),Google就會(huì)在搜索結(jié)果的右邊給出該關(guān)鍵詞相關(guān)的信息,極大地方便了人們對(duì)信息的搜索。2013年2月,百度也推出了自己的知識(shí)圖譜。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎,知識(shí)圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語(yǔ)義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。例如在百度的搜索框里輸入“馬云”的時(shí)候,搜索結(jié)果頁(yè)面的右側(cè)還會(huì)出現(xiàn)與“馬云”相關(guān)的人物,如圖1(a)所示;另外,對(duì)于包含邏輯關(guān)系的搜索語(yǔ)句例如 “馬云妻子”,百度能準(zhǔn)確返回他的妻子“張瑛”,如圖1(b)所示。這就說明搜索引擎通過知識(shí)圖譜真正理解了用戶的意圖。

        知識(shí)圖譜的構(gòu)建主要包括知識(shí)單元的構(gòu)建、知識(shí)單元間關(guān)系的構(gòu)建和知識(shí)的可視化三個(gè)部分。其中前兩個(gè)部分是構(gòu)建知識(shí)圖譜的最基本任務(wù)。以往的知識(shí)圖譜研究多基于文獻(xiàn)來進(jìn)行研究,將關(guān)鍵詞、摘要等結(jié)構(gòu)化信息可以直接作為知識(shí)單元進(jìn)行構(gòu)建。而大數(shù)據(jù)概念的興起,將研究者的目光集中到互聯(lián)網(wǎng)的海量數(shù)據(jù)上來。這其中的信息多為非結(jié)構(gòu)化的文本,而且還含有大量雜訊,要對(duì)這些信息進(jìn)行語(yǔ)義分析,提取出能用于可視化知識(shí)圖譜的知識(shí)單元并抽取出知識(shí)單元之間的關(guān)系就相當(dāng)復(fù)雜了。另外,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)經(jīng)歷幾十年的發(fā)展,雖然具備較高的安全性和數(shù)據(jù)一致性,能夠依賴簡(jiǎn)單的數(shù)據(jù)結(jié)構(gòu)表達(dá)豐富的語(yǔ)義信息,但是對(duì)于知識(shí)圖譜這樣連接相對(duì)豐富,查詢復(fù)雜的數(shù)據(jù)結(jié)構(gòu),效率上考慮已經(jīng)不適用了。在本文中,將對(duì)IMDB數(shù)據(jù)進(jìn)行抓取并抽取出命名實(shí)體和實(shí)體關(guān)系,并通過Neo4j圖數(shù)據(jù)庫(kù)建立一個(gè)電影知識(shí)圖譜。

        圖1 百度搜索知識(shí)圖譜應(yīng)用

        1 知識(shí)圖譜構(gòu)建流程

        知識(shí)圖譜的構(gòu)建流程[2]通常包含下面幾個(gè)重要的環(huán)節(jié):構(gòu)建知識(shí)單元、單元關(guān)系抽取以及結(jié)構(gòu)化展示。在實(shí)現(xiàn)上,流程通常如圖2所示。通常我們把數(shù)據(jù)獲取和數(shù)據(jù)清洗歸結(jié)為數(shù)據(jù)準(zhǔn)備階段。構(gòu)建知識(shí)單元的操作主要為提取文本中的命名實(shí)體信息;單元關(guān)系抽取主要是抽取出上一步提取出的命名實(shí)體之間的關(guān)系;結(jié)構(gòu)化展示即為利用數(shù)據(jù)可視化技術(shù)對(duì)提取出的實(shí)體和關(guān)系進(jìn)行可視化處理。

        在實(shí)現(xiàn)上,構(gòu)建知識(shí)圖譜通常首先會(huì)從維基百科、百度百科等資源中提取所需內(nèi)容。本文的系統(tǒng)使用的電影及電影人數(shù)據(jù)來自于IMBD網(wǎng)站。利用爬蟲技術(shù)從互聯(lián)網(wǎng)空間中抓取的文本包含HTML標(biāo)簽等雜訊,需要進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)準(zhǔn)備完成之后,我們通過統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法提取文本中的命名實(shí)體,繼而通過特殊的正則模式匹配找出實(shí)體之間的關(guān)系,并將其持久化為csv文件。最后,我們將所有命名實(shí)體及實(shí)體關(guān)系導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù),以供數(shù)據(jù)可視化及知識(shí)圖譜內(nèi)部聯(lián)系的查詢。

        1.1數(shù)據(jù)來源

        基于目前的研究和技術(shù),通常的知識(shí)圖譜具有以下幾種類型[3]:(1)領(lǐng)域無關(guān)的知識(shí)圖譜;(2)特定領(lǐng)域的知識(shí)圖譜;(3)跨語(yǔ)言的知識(shí)圖譜。其中特定領(lǐng)域的知識(shí)圖譜,雖然內(nèi)容不及領(lǐng)域無關(guān)知識(shí)圖譜廣泛,但是能夠囊括特定領(lǐng)域中的知識(shí)內(nèi)容,更具有針對(duì)性,所以在特定領(lǐng)域中具有很好的應(yīng)用。例如,宜信將知識(shí)圖譜技術(shù)成功應(yīng)用在互聯(lián)網(wǎng)金融領(lǐng)域,創(chuàng)立了全球首個(gè)基于金融知識(shí)圖譜的金融云平臺(tái),為客戶提供個(gè)性化的金融服務(wù),取得了很好的效果。

        知識(shí)圖譜類型的多樣化導(dǎo)致了知識(shí)圖譜構(gòu)建方法的多樣化,一般來說,根據(jù)知識(shí)圖譜數(shù)據(jù)來源劃分,又可以將知識(shí)圖譜構(gòu)建的方法分為基于網(wǎng)絡(luò)百科資源的知識(shí)圖譜構(gòu)建方法、基于結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法、基于半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法和基于非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法。

        本文的系統(tǒng)數(shù)據(jù)采集自IMDB(互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù))電影資料庫(kù)。IMDB是一個(gè)關(guān)于電影、電影演員、電視節(jié)目、電視明星、電子游戲和電影制作小組的在線數(shù)據(jù)庫(kù)。它是目前全球互聯(lián)網(wǎng)中最大的一個(gè)電影資料庫(kù),里面包括了幾乎所有的電影,以及1982年以后的電視劇集。我們通過IMDB的電影及演員介紹頁(yè)面釆集各類實(shí)體信息,如圖3所示分別為IMDB電影頁(yè)面和演員頁(yè)面。通過對(duì)頁(yè)面標(biāo)簽的正則匹配,我們可以提取出電影中的演職人員名單及其對(duì)應(yīng)的角色;同樣,對(duì)于演員頁(yè)面可以提取出其參與拍攝的電影及其飾演的角色。由此,我們可以得到演員-飾演-角色的關(guān)系。另外,對(duì)于電影而言,還可以抽取出例如電影分級(jí)、發(fā)行時(shí)間、發(fā)行公司、電影類型、電影評(píng)分等屬性;同樣,演員還有身高、生日、性別等人物屬性。

        圖2 知識(shí)圖譜構(gòu)建流程

        圖3 IMBD電影及人物頁(yè)面

        1.2命名實(shí)體識(shí)別

        知識(shí)圖譜構(gòu)建流程中的知識(shí)單元構(gòu)建通常是指提取文本中命名實(shí)體的識(shí)別。命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER),又稱作“專名識(shí)別”,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。命名實(shí)體識(shí)別技術(shù)是信息抽取、信息檢索、機(jī)器翻譯、問答系統(tǒng)等多種自然語(yǔ)言處理技術(shù)必不可少的組成部分。

        基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體提取方法通常包括:隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵 (Maxmium Entropy,ME)、支持向量機(jī)(Support Vector Machine,SVM)、條件隨機(jī)場(chǎng) (Conditional Ran-dom Fields,CRF)[4]。在這4種學(xué)習(xí)方法中,最大熵模型結(jié)構(gòu)緊湊,具有較好的通用性,主要缺點(diǎn)是訓(xùn)練時(shí)間復(fù)雜性非常高,有時(shí)甚至導(dǎo)致訓(xùn)練代價(jià)難以承受,另外由于需要明確的歸一化計(jì)算,導(dǎo)致開銷比較大。而條件隨機(jī)場(chǎng)為命名實(shí)體識(shí)別提供了一個(gè)特征靈活、全局最優(yōu)的標(biāo)注框架,但同時(shí)存在收斂速度慢、訓(xùn)練時(shí)間長(zhǎng)的問題。一般說來,最大熵和支持向量機(jī)在正確率上要比隱馬爾可夫模型高一些,但是隱馬爾可夫模型在訓(xùn)練和識(shí)別時(shí)的速度要快一些,主要是由于在利用Viterbi算法求解命名實(shí)體類別序列的效率較高。隱馬爾可夫模型更適用于一些對(duì)實(shí)時(shí)性有要求以及像信息檢索這樣需要處理大量文本的應(yīng)用,如短文本命名實(shí)體識(shí)別。

        在本文的系統(tǒng)實(shí)現(xiàn)中,我們的命名實(shí)體提取使用的是NLTK[10]庫(kù)中的最大熵算法。命名實(shí)體提取示例如圖4(a)所示。NLTK的命名實(shí)體識(shí)別使用的是MaxEnt分類器,其工作時(shí)有兩個(gè)原則:①總是試圖保持均勻分布(即最大化熵);②保持其統(tǒng)計(jì)概率與經(jīng)驗(yàn)數(shù)據(jù)一致。NLTK提供了一個(gè)持久化的pickle文件,即為通過手動(dòng)標(biāo)記語(yǔ)料庫(kù)訓(xùn)練出的MaxEnt分類器實(shí)例。

        1.3實(shí)體關(guān)系抽取

        在知識(shí)圖譜構(gòu)建過程中,單元關(guān)系抽取通常在命名實(shí)體提取之后進(jìn)行,就是提取出命名實(shí)體之間的聯(lián)系。基于目前的研究,已經(jīng)有許多關(guān)系實(shí)體關(guān)系抽取方法被應(yīng)用在各種實(shí)驗(yàn)系統(tǒng)當(dāng)中。這些方法所遵循的技術(shù)方法基本可以歸納為:基于模式匹配的關(guān)系抽取、基于詞典驅(qū)動(dòng)的關(guān)系抽取、基于機(jī)器學(xué)習(xí)的關(guān)系抽取、基于Ontology的關(guān)系抽取以及混合抽取方法[5]。

        在關(guān)系抽取研究領(lǐng)域,普遍使用基于模式匹配的關(guān)系抽取方法。這種抽取方法通過運(yùn)用語(yǔ)言學(xué)知識(shí),在執(zhí)行抽取任務(wù)之前,構(gòu)造出若干基于語(yǔ)詞、基于詞性或基于語(yǔ)義的模式集合并存儲(chǔ)起來。當(dāng)進(jìn)行關(guān)系抽取時(shí),將經(jīng)過預(yù)處理的語(yǔ)句片段與模式集合中的模式進(jìn)行匹配。一旦匹配成功,就可以認(rèn)為該語(yǔ)句片段具有對(duì)應(yīng)模式的關(guān)系屬性。

        圖4 

        在本文的系統(tǒng)中,一旦我們提取出命名實(shí)體,就可以基于模式匹配提取出它們之間的關(guān)系。如前所述,我們通常會(huì)尋找指定類型的命名實(shí)體之間的關(guān)系。進(jìn)行這一任務(wù)的方法之一是首先尋找所有 (X,α,Y)形式的三元組,其中X和Y是指定類型的命名實(shí)體,α表示X和Y之間關(guān)系的字符串。NLTK提供了特殊的正則匹配方式,可以方便對(duì)詞性、命名實(shí)體類別等進(jìn)行模式匹配,提取出我們感興趣的元組。圖4(b)示例演示了使用NLTK抽取組織-地名關(guān)系的過程。同樣,我們可以使用NLTK編寫各種模式匹配抽取出人-人、人-電影之間的關(guān)系。

        2 圖數(shù)據(jù)庫(kù)設(shè)計(jì)

        在數(shù)據(jù)存儲(chǔ)領(lǐng)域,關(guān)系模型曾經(jīng)是數(shù)據(jù)存儲(chǔ)的主流,近年來逐漸被NoSQL數(shù)據(jù)庫(kù)取代。NoSQL,泛指非關(guān)系型的數(shù)據(jù)庫(kù),通常分為鍵值(Key-Value)存儲(chǔ)數(shù)據(jù)庫(kù)、列存儲(chǔ)數(shù)據(jù)庫(kù)、文檔型數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)。圖5(a)是來自db-engines網(wǎng)站的統(tǒng)計(jì)數(shù)據(jù),展示了2013年以來各類數(shù)據(jù)庫(kù)系統(tǒng)的使用情況,其中,圖數(shù)據(jù)庫(kù)的使用率上漲了5倍多。

        圖形數(shù)據(jù)庫(kù)中每個(gè)對(duì)象是一個(gè)節(jié)點(diǎn),而對(duì)象之間的關(guān)系是一條邊。相對(duì)于關(guān)系數(shù)據(jù)庫(kù)來說,圖形數(shù)據(jù)庫(kù)善于處理大量復(fù)雜、互連接、低結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)變化迅速,需要頻繁的查詢——在關(guān)系數(shù)據(jù)庫(kù)中,由于這些查詢會(huì)導(dǎo)致大量的表連接,從而導(dǎo)致性能問題,而且在設(shè)計(jì)使用上也不方便。圖形數(shù)據(jù)庫(kù)適合用于社交網(wǎng)絡(luò),推薦系統(tǒng)等專注于構(gòu)建關(guān)系圖譜的系統(tǒng)。圖數(shù)據(jù)庫(kù)用圖來存儲(chǔ)數(shù)據(jù),是最接近高性能的一種用于存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)方式之一。

        知識(shí)圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),它的存儲(chǔ)方式主要有兩種形式:RDF存儲(chǔ)格式和圖數(shù)據(jù)庫(kù)[6]。圖數(shù)據(jù)庫(kù)的代表有 Neo4J、Titan、OrientDB、DEX、AllegroGraph、GraphDB等。圖5(b)展示了目前比較流行的基于圖存儲(chǔ)的數(shù)據(jù)庫(kù)性能情況?;赟 Jouili的研究,Neo4j[7]在存儲(chǔ)查詢等方面性能均優(yōu)于其他圖數(shù)據(jù)庫(kù),在工業(yè)上具有廣泛的應(yīng)用[8]。

        通常,現(xiàn)實(shí)生活中的實(shí)體和關(guān)系普遍都比較復(fù)雜當(dāng)然,而且常常查詢涉及到1度以上的關(guān)聯(lián)查詢,如果使用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)知識(shí)圖譜會(huì)形成性能瓶頸。對(duì)于復(fù)雜的關(guān)系網(wǎng)絡(luò),基于圖數(shù)據(jù)庫(kù)存儲(chǔ)優(yōu)勢(shì)非常明顯。首先,在關(guān)聯(lián)查詢的效率上會(huì)比傳統(tǒng)的存儲(chǔ)方式有顯著的提高。當(dāng)涉及到2~3度的關(guān)聯(lián)查詢時(shí),基于知識(shí)圖譜的查詢效率會(huì)比關(guān)系型數(shù)據(jù)庫(kù)高出幾千倍甚至幾百萬倍。其次,基于圖的存儲(chǔ)在設(shè)計(jì)上會(huì)非常靈活,一般只需要局部的改動(dòng)即可。例如我們有一個(gè)新的數(shù)據(jù)源,我們只需要在已有的圖譜上插入就可以。與此相反,關(guān)系型存儲(chǔ)方式靈活性方面就比較差,它所有的Schema都是提前定義好的,如果后續(xù)要改變,它的代價(jià)就非常高。最后,把實(shí)體和關(guān)系存儲(chǔ)在圖數(shù)據(jù)結(jié)構(gòu)是一種符合整個(gè)故事邏輯的最好的方式。

        在本文的系統(tǒng)中,我們?cè)O(shè)計(jì)的節(jié)點(diǎn)主要有兩種類型,分為Movie和Person類型,而關(guān)系類型主要有4種,分別為:ACTED_IN、DIRECTED、PRODUCED、WROTE。具體的,Movie還有電影分級(jí)、發(fā)行時(shí)間、發(fā)行公司、電影類型、電影評(píng)分等屬性;而Person也有身高、生日、性別等屬性。此外,所有的關(guān)系都是有向邊,例如ACTED_IN就是一條有Person指向Movie的邊,其屬性是演員在該電影中飾演的角色名。

        3 系統(tǒng)實(shí)現(xiàn)及實(shí)驗(yàn)結(jié)果

        圖5 

        本文的系統(tǒng)主要使用Python實(shí)現(xiàn),主要分為3個(gè)模塊:數(shù)據(jù)采集模塊、數(shù)據(jù)提取模塊以及Neo4j圖數(shù)據(jù)庫(kù)導(dǎo)入模塊。數(shù)據(jù)采集模塊主要是通過Python的url-lib2庫(kù)爬取相關(guān)的IMDB網(wǎng)頁(yè),然后使用BeautifulSoup庫(kù)清洗掉網(wǎng)頁(yè)中的HTML標(biāo)簽,這樣得到的純文本數(shù)據(jù)以供后面的數(shù)據(jù)提取工作。命名實(shí)體的識(shí)別和實(shí)體關(guān)系的提取主要是通過Python的NLTK庫(kù)實(shí)現(xiàn)。我們將識(shí)別出的命名實(shí)體及關(guān)系分別存儲(chǔ)為csv文件,以方便后續(xù)導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù)。在最新版本的Neo4j系統(tǒng)中,提供了一個(gè)大規(guī)模并行的可伸縮csv導(dǎo)入工具,該工具為Neo4j目錄./bin/neo4j-import。在使用neo4jimport時(shí),需要將待導(dǎo)入的csv文件表頭定制為指定格式——顯示地節(jié)點(diǎn)指定 ID和 LABEL以及邊的START_ID和END_ID等。

        本文所構(gòu)建的電影知識(shí)圖譜示意如圖6所示,其中,(a)圖為全量數(shù)據(jù)可視化之后的局部截圖,(b)為隨機(jī)查詢的25條邊視圖以及它們之間的聯(lián)系;(c)為隨機(jī)查詢的25個(gè)節(jié)點(diǎn)視圖以及它們之間的聯(lián)系。從我們構(gòu)建的電影知識(shí)圖譜,可以非常容易地分析電影節(jié)點(diǎn)及電影人節(jié)點(diǎn),以及它們之間的關(guān)系,推理出演員之間是否認(rèn)識(shí)或者間接認(rèn)識(shí),從而推斷出是否存在合作的可能等。

        Neo4j系統(tǒng)提供了名為Cypher的查詢語(yǔ)言。Cypher是一種可以對(duì)圖形數(shù)據(jù)庫(kù)進(jìn)行查詢和更新的圖形查詢語(yǔ)言,它類似于關(guān)系數(shù)據(jù)庫(kù)的SQL語(yǔ)言。Cypher的語(yǔ)法并不復(fù)雜,但是它的功能卻非常強(qiáng)大,它可以實(shí)現(xiàn)SQL難以實(shí)現(xiàn)的功能。在本文的知識(shí)圖譜中,我們可以通過編寫Cypher查詢語(yǔ)句,探索數(shù)據(jù)內(nèi)部的關(guān)系。例如,六度分割理論中曾指出任何兩個(gè)人之間所間隔的人不會(huì)超過六個(gè)。只要數(shù)據(jù)足夠完整,釆用Cypher可以很容易地找到任何兩個(gè)人之間是通過哪些人聯(lián)系起來的,而這一點(diǎn)是SQL很難實(shí)現(xiàn)的。

        程序1所示的Cypher語(yǔ)句,可以查詢Kevin Bacon 和Meg Ryan之間到最短路徑,如圖8(a)所示:Kevin Bacon和 Tom Cruise合作出演過電影 A Few Good Men;而Tom Cruise和Meg Ryan通過Top Gun結(jié)識(shí)。

        相似地程序2所示的查詢語(yǔ)句,可以查詢到Tom Hanks和Tom Cruise兩位演員之間相距1跳的聯(lián)系。查詢結(jié)果如圖8(b)所示。

        圖6 電影知識(shí)圖譜示例

        知識(shí)圖譜的另一個(gè)應(yīng)用是可以用于推薦系統(tǒng)。這其中,最著名的就是 Taher H.Haveliwala設(shè)計(jì)的PersonalRank算法[9]:在計(jì)算所有節(jié)點(diǎn)相對(duì)于用戶u的相關(guān)度時(shí),PersonalRank算法從用戶u對(duì)應(yīng)的節(jié)點(diǎn)開始游走,每到一個(gè)節(jié)點(diǎn)都以1-d的概率停止游走并從u重新開始,或者以d的概率繼續(xù)游走,從當(dāng)前節(jié)點(diǎn)指向的節(jié)點(diǎn)中按照均勻分布隨機(jī)選擇一個(gè)節(jié)點(diǎn)往下游走。這樣經(jīng)過很多輪游走之后,每個(gè)頂點(diǎn)被訪問到的概率也會(huì)收斂趨于穩(wěn)定,這個(gè)穩(wěn)定的概率就可用進(jìn)行排名。在本文的系統(tǒng)中,我們可以編寫簡(jiǎn)單的Cypher語(yǔ)句給Tom Hanks推薦好友,推薦結(jié)果如表1所示。

        基于Neo4j圖數(shù)據(jù)構(gòu)建的電影知識(shí)圖譜系統(tǒng),具有界面友好,查詢方便,應(yīng)用廣泛的特點(diǎn),在工業(yè)上具有廣闊的前景。本文雖然提出了基于圖數(shù)據(jù)庫(kù)的電影知識(shí)圖譜研究實(shí)現(xiàn),然而系統(tǒng)中還存在著許多不足和可以提高的地方。首先,我們只是提供了有限類型的邊和點(diǎn)節(jié)點(diǎn);此外,僅僅提供了基于Cypher的查詢功能,還未集成相關(guān)的圖算法。后續(xù)工作中我們將結(jié)合Spark GraphX[11],運(yùn)用圖算法進(jìn)行大規(guī)模的知識(shí)圖譜分析,進(jìn)而可以方便的實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)、用戶影響力、人群劃分等功能。

        表1 Tom Hanks推薦結(jié)果

        圖8 Cypher查詢示例

        [1]秦長(zhǎng)江,侯漢清.知識(shí)圖譜——信息管理與知識(shí)管理的新領(lǐng)域[J].大學(xué)圖書館學(xué)報(bào),2009(1):30-37,96.

        [2]金貴陽(yáng),呂福在,項(xiàng)占琴.基于知識(shí)圖譜和語(yǔ)義網(wǎng)技術(shù)的企業(yè)信息集成方法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2014(02):250-255. [3]梁秀娟.科學(xué)知識(shí)圖譜研究綜述[J].圖書館雜志,2009(6):58-62.

        [4]孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(6):42-47.

        [5]徐健,張智雄,吳振新.實(shí)體關(guān)系抽取的技術(shù)方法綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2008(8):18-23.

        [6]Abreu D D,Flores A,Palma G,et al.Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data[J]. Cold,2013.

        [7]Webber J.A Programmatic Introduction to Neo4j[J].Addison Wesley Pub Co Inc,2012:217-218.

        [8]Jouili S,Vansteenberghe V.An Empirical Comparison of Graph Databases[C].2013 International Conference on Social Computing.IEEE Computer Society,2013:708-715.

        [9]Haveliwala T H.Topic-Sensitive PageRank:a Context-Sensitive Ranking Algorithm for Web Search[J].Knowledge&Data Engineering IEEE Transactions on,2003,15(4):784-796.

        [10]Loper E,Bird S.NLTK:The Natural Language Toolkit[C].Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics-Volume 1.Association for Computational Linguistics, 2002:63-70.

        [11]Xin R S,Gonzalez J E,Franklin M J,et al.GraphX:a Resilient Distributed Graph System on Spark[C].First International Workshop on Graph Data Management Experiences&Systems.ACM,2013:1-6.

        張宇(1962-),教授,研究方向?yàn)槟J阶R(shí)別,

        錢進(jìn),工程師,研究方向?yàn)橥ㄐ艂鬏?/p>

        Knowledge Graph;Graph Database;Neo4j

        Implementation of Movie Knowledge Graph Based on Graph Database

        LU Xiao-hua1,ZHANG Yu2,QIAN Jin3
        (1.College of Computer Science Sichuan University,Chengdu 610065 2.Chengdu Aeronautic Polytechnic,Chengdu 610065;3.Chongqing Communcation Industry Services Co.Ltd.,Chongqing 404100)

        1007-1423(2016)07-0076-08

        10.3969/j.issn.1007-1423.2016.07.018

        陸曉華(1988-),男,江蘇蘇州人,碩士,研究方向?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺

        2015-01-12

        2016-02-25

        知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)和邊組成,其本質(zhì)上屬于語(yǔ)義網(wǎng)絡(luò)。近年來,伴隨著大數(shù)據(jù)概念的提出,知識(shí)圖譜已經(jīng)成為是當(dāng)前的研究熱點(diǎn)。由于非結(jié)構(gòu)化文本的知識(shí)提取和數(shù)據(jù)可視化這兩方面的技術(shù)難點(diǎn),目前知識(shí)圖譜應(yīng)用主要局限于搜索引擎和問答系統(tǒng)等方面。著眼于電影知識(shí)圖譜的設(shè)計(jì)與實(shí)現(xiàn),通過引入圖數(shù)據(jù)庫(kù)Neo4j,為知識(shí)圖譜的實(shí)現(xiàn)提供一種新的思路。

        知識(shí)圖譜;圖數(shù)據(jù)庫(kù);Neo4j

        Knowledge graph is a graph-based data structure,consisting of nodes and edges,and it is essentially a semantic network.In recent years, along with the proposed concept of big data,knowledge graph has become the current research focus.As technical difficulties of knowl-edge extraction of unstructured text and data visualization,the current applications of knowledge graph mainly limited in the aspects of search engine and Q/A system.Focuses on the design and implementation of movie knowledge graph,by the introduction of the Neo4j graph database,provides a new way of thinking for the realization of knowledge graph.

        猜你喜歡
        命名圖譜實(shí)體
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        日本视频在线播放一区二区| 日产精品久久久久久久| 国产高清在线精品一区αpp| av免费看网站在线观看| 国产一区二区三区视频在线观看| 五月丁香六月综合缴清无码| 少妇厨房愉情理伦片免费| 国产精品视频免费的| 最好的99精品色视频大全在线| 日韩精品熟妇一区二区三区| 首页 综合国产 亚洲 丝袜| 国产婷婷丁香久久综合| 亚洲av高清资源在线观看三区| 亚洲av毛片在线网站| 影音先锋中文字幕无码资源站| 亚洲网站地址一地址二| 国产网友自拍亚洲av| 日韩免费精品在线观看| 免费va国产高清大片在线| chinese国产乱在线观看| 少妇一级aa一区二区三区片| 加勒比精品视频在线播放| 午夜福利一区二区三区在线观看| 欧美成人久久久免费播放| 亚洲一区二区三区在线更新| 婷婷色国产精品视频二区| 少妇下蹲露大唇无遮挡| 国产精品亚洲专区在线播放| 一本到亚洲av日韩av在线天堂| 欧洲熟妇色xxxx欧美老妇软件| 免费观看又污又黄的网站 | 精品日韩在线观看视频| 人人鲁人人莫人人爱精品| 亚洲av成人综合网| 国产成人自拍视频在线免费| 国产情侣自拍在线视频| 手机看片福利一区二区三区| 亚洲精品天堂av免费看| av网站不卡的av在线| 一边做一边喷17p亚洲乱妇50p| 成人免费xxxxx在线视频|