亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識社區(qū)環(huán)境下的DBpedia研究

        2013-08-21 08:36:38
        圖書館 2013年4期
        關(guān)鍵詞:維基百科結(jié)構(gòu)化頁面

        (北京大學(xué)信息管理系 北京 100871)

        知識社區(qū)的概念源于知識管理。網(wǎng)絡(luò)環(huán)境下,知識社區(qū)可理解為:由于部分人對某個主題的共同興趣和知識獲取、交流需求而聚集起來,并基于網(wǎng)絡(luò)創(chuàng)造和分享知識的平臺。維基百科作為開放、自由、免費、共享的多語言網(wǎng)絡(luò)百科全書,由全球網(wǎng)民共同編寫,正是知識社區(qū)的產(chǎn)物。然而維基百科的條目多以自然語言描述,只支持文本檢索而不支持結(jié)構(gòu)化檢索,也無法跨頁面進行檢索,導(dǎo)致其中雖然蘊含海量信息,卻無法被深度挖掘利用。

        語義網(wǎng)作為萬維網(wǎng)的延伸,利用XML、RDF、本體、OWL等技術(shù),使其中的信息都具有定義完好的含義,通過機器可“理解”的語義,讓計算機擁有一定的推理能力和自動處理大規(guī)模數(shù)據(jù)的能力。因此,利用語義網(wǎng)技術(shù)挖掘維基百科內(nèi)容的項目不斷展開,DBpedia就是其中一項。

        1 DBpedia簡介

        DBpedia由柏林自由大學(xué)和萊比錫大學(xué)的研究人員發(fā)起,與OpenLink Software公司合作,致力于從維基百科的結(jié)構(gòu)化和半結(jié)構(gòu)化信息中抽取數(shù)據(jù)并生成RDF三元組,將其組織后形成龐大的數(shù)據(jù)集,與外部的關(guān)聯(lián)數(shù)據(jù)連接,提供給人們使用。〔1〕該項目也被“互聯(lián)網(wǎng)之父”蒂姆·伯納斯·李盛贊為關(guān)聯(lián)數(shù)據(jù)工程中最知名的項目之一。

        2007年2月,DBpedia數(shù)據(jù)集開始開放下載,之后每隔約半年時間都會有更新。最新的版本為2012年8月發(fā)布的DBpedia3.8,該版本數(shù)據(jù)集中描述了超過377萬個資源,其中235萬個資源使用統(tǒng)一的DBpedia本體進行描述,包括76.4萬個人物,57.3萬個地點,11.2萬張音樂專輯,7.2萬部電影,1.8萬種視頻游戲,19.2萬個組織機構(gòu)(包括4.5 萬家公司、4.2萬所學(xué)校),20.2萬個生物物種和5500種疾病。DB-pedia用111種不同的語言以RDF三元組的形式為上述資源做了摘要和詳細的描述,其中有800萬條指向圖片的鏈接、2440萬條指向其他Web頁面的鏈接、2720萬條指向其他RDF 數(shù)據(jù)集的鏈接?!?〕

        DBpedia的目標(biāo)是從維基百科中抽取結(jié)構(gòu)化信息并開放下載,與其他數(shù)據(jù)集互聯(lián)而形成知識網(wǎng)絡(luò)。如今該目標(biāo)正在逐步實現(xiàn),由于DBpedia的跨領(lǐng)域、多語言等特征,DB-pedia自發(fā)布后便與諸多數(shù)據(jù)集互聯(lián),成為關(guān)聯(lián)數(shù)據(jù)網(wǎng)的核心?;谠摂?shù)據(jù)集的應(yīng)用也愈來愈多,漸漸滲入社會生活各個方面。

        2 知識社區(qū)環(huán)境下DBpedia的信息組織

        2.1 基于維基百科的信息抽取

        信息抽取是指從文本中抽取出用戶感興趣的信息,包括實體、事實等,并以結(jié)構(gòu)化的形式存儲起來,即將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為語義信息?!?〕維基百科中蘊含大量的信息,單靠人力不可能完成對其內(nèi)容的抽取整理,因此必須依賴大規(guī)模的人機協(xié)同進行處理。

        DBpedia通過知識抽取框架(DBpedia Knowledge Extraction Framework)抽取維基百科中的標(biāo)簽、摘要、語言鏈接、圖片等數(shù)據(jù)項,該框架的技術(shù)基礎(chǔ)由項目組提供,普通參與者亦可改進和完善。知識抽取框架從維基百科中抽取信息主要采用兩種方式,其一是利用維基百科的數(shù)據(jù)庫轉(zhuǎn)儲文件,將其關(guān)系數(shù)據(jù)表格中存儲的關(guān)系直接轉(zhuǎn)換為RDF三元組;其二是利用維基百科的文章內(nèi)容及信息盒模版抽取RDF三元組?!?〕從維基百科的文章內(nèi)容中抽取信息時,既可以從部分非結(jié)構(gòu)化的文本中抽取,也可以從半結(jié)構(gòu)化的部分及條目內(nèi)部的鏈接結(jié)構(gòu)中抽取。其中主要的信息抽取來源如下圖:

        圖示抽取源所含的信息都有較高的挖掘價值,且易于抽取,將這些信息抽取整理后能夠進行更深層次的挖掘,從而得到更多有價值的信息。

        目前DBpedia支持定時抽取和實時抽取兩種抽取模式,前者以一個月為周期,后者可以動態(tài)監(jiān)測維基百科頁面,當(dāng)數(shù)據(jù)內(nèi)容有變化時,編輯者只需在維基百科中進行數(shù)據(jù)修改,就可以同步到DBpedia中。

        圖1 DBpedia從維基百科抽取數(shù)據(jù)的信息源圖解〔5〕

        表2 DBpedia從維基百科抽取數(shù)據(jù)的信息源詳解

        2.2 DBpedia中的資源描述和組織

        用RDF描述事物的基本思想是:將一切可以在萬維網(wǎng)上標(biāo)識的事物(具體的或抽象的,存在的或不存在的)統(tǒng)稱為“資源”;用URI(統(tǒng)一資源標(biāo)識符)表示資源;用屬性和屬性值描述資源,其中屬性值可以包含URI,屬性也是一種資源?!?〕

        維基百科中的每個條目在DBpedia中都擁有唯一的URI,與其頁面鏈接地址相對應(yīng),形式為http://DBpedia.org/resource/Name,其中Name部分是從該資源的英文版維基百科的鏈接地址 http://en.wikipedia.org/wiki/Name中抽取的。這種方式使得該資源直接與英文版維基百科的條目頁面聯(lián)系起來?!?〕

        DBpedia中的每個資源都有標(biāo)簽、英文短摘要和英文長摘要、相應(yīng)的維基百科頁面鏈接和描述該資源的圖片鏈接等屬性。除了以上基本屬性外,不同類型的資源通過不同的屬性描述,這些屬性不僅限于DBpedia所定義的,還可以引用其他本體或數(shù)據(jù)集中定義的,如FOAF、dc、RDF以及owl等。引用外部定義屬性的優(yōu)勢可以彌補DBpedia屬性定義的不足,更加完善地描述資源;缺陷在于,多處引用容易造成屬性的重復(fù),進而造成數(shù)據(jù)冗余。由于DBpedia涉及的資源多種多樣,如何對某一類資源引用合適的外部屬性也是DBpedia需要解決的問題。

        通過精確細致的屬性描述資源后,用戶查詢時得到的不再是整個頁面,而是精確的答案。通過設(shè)定規(guī)則,為后續(xù)的自動推理和進一步數(shù)據(jù)挖掘提供了極大的便利。在DBpedia中,用RDF描述得到的實體通過本體和分類體系進行組織。DBpedia數(shù)據(jù)集的本體庫是從維基百科信息盒中抽取并組織而成的,包括170個類和720個屬性,是個淺層的分類體系。但該分類并不完善,因此DBpedia還使用了另外三種分類方法對資源進行組織,分別是:維基百科分類方法、YAGO分類方法和UMBE分類方法?!?〕

        維基百科的分類體系包含了415000個類目,該體系支持協(xié)同擴展并可以持續(xù)更新。但由于其編輯維護者為長尾用戶,在分類體系的設(shè)置上權(quán)威性欠缺,類目的等級關(guān)系以及橫向關(guān)系揭示方面也不完善。YAGO分類體系包含286000個類目,其特點是類目劃分較深、較精確。UMBEL是一個輕型本體,包括20000個類目,該本體是為鏈接Web中的內(nèi)容和數(shù)據(jù)而創(chuàng)建。

        2.3 DBpedia的信息獲取途徑

        2.3.1 SPARQL 端點檢索

        SPARQL是一種面向RDF數(shù)據(jù)模型的查詢語言和數(shù)據(jù)訪問協(xié)議,用于訪問任何可以映射到RDF模型的數(shù)據(jù)資源。為了實現(xiàn)對DBpedia的查詢,開發(fā)者提供了SPARQL終端,用戶可以利用SPARQL語言在http://DBpedia.org/sparql進行檢索,直接得到相應(yīng)的數(shù)據(jù)。例如查詢某條河流的長度,系統(tǒng)會直接返回其長度作為答案,而不是返回河流相關(guān)頁面再讓用戶到其中篩選信息。用戶也可以檢索較復(fù)雜的問題,例如“從1990至1920年期間出生在北京的姓李的女作家”這個問題,經(jīng)過正確的SPARQL語言組織后,系統(tǒng)即可匹配并返回結(jié)果。

        然而鑒于大多數(shù)用戶并不熟悉SPARQL語言,因此該系統(tǒng)的友好易用性欠缺。為了使普通用戶也能夠在DBpedia上進行查詢,可以借助一些工具如 Auto SPARQL,用戶只需鍵入所要查詢的關(guān)鍵詞并指定所查找的屬性,檢索工具會自動轉(zhuǎn)換為SPARQL語言并將結(jié)果反饋給用戶。

        2.3.2 關(guān)聯(lián)數(shù)據(jù)接口

        關(guān)聯(lián)數(shù)據(jù)在2007年提出,目的是構(gòu)建計算機能理解的語義數(shù)據(jù)網(wǎng)絡(luò),而不僅僅是人能讀懂的文檔網(wǎng)絡(luò),也就是把文檔的網(wǎng)絡(luò)變成數(shù)據(jù)的網(wǎng)絡(luò),基于此構(gòu)建更智能的應(yīng)用?!?〕DBpedia自與其他數(shù)據(jù)集互聯(lián)以來,由于其跨領(lǐng)域的特點而處在關(guān)聯(lián)數(shù)據(jù)網(wǎng)的核心?;诟鱾€數(shù)據(jù)集間的互聯(lián),用戶在數(shù)據(jù)集之間游歷,一旦涉及DBpedia中的數(shù)據(jù),自然會通接口進入其中。

        在2007年,加入關(guān)聯(lián)數(shù)據(jù)網(wǎng)的數(shù)據(jù)集共有16個,其中10個數(shù)據(jù)集與DBpedia相連接。到2011年,加入關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)集增長更迅速,而DBpedia儼然已經(jīng)成為整個關(guān)聯(lián)數(shù)據(jù)網(wǎng)中的核心。用戶可以通過大其他數(shù)據(jù)集進入DBpedia,也可通過DBpedia連接到其他數(shù)據(jù)集,DBpedia作為關(guān)聯(lián)數(shù)據(jù)中轉(zhuǎn)站的特征也更明顯。

        2.3.3 下載RDF文件包

        DBpedia的數(shù)據(jù)集是對公眾開放并可以免費下載的,DB-pedia的下載頁面列出了DBpedia的所有版本,并標(biāo)出各版本的最后修改時間及其大小,用戶點擊相應(yīng)的版本即可進入下載頁面。在最新的DBpedia3.8中,共提供了111種語言版本的數(shù)據(jù)集,每個數(shù)據(jù)集中有不同的數(shù)據(jù)包,列出相應(yīng)語言的標(biāo)簽信息、映射關(guān)系信息以及維基百科信息盒中屬性等數(shù)據(jù)包供用戶下載,用戶可根據(jù)自己的需求有選擇地下載或全部下載。

        3 DBpedia的特點

        3.1 協(xié)同編輯

        知識社區(qū)環(huán)境下,DBpedia的一大特點就是協(xié)同編輯,由眾多的用戶共同完成數(shù)據(jù)集創(chuàng)建和維護。在數(shù)據(jù)集的建設(shè)過程中,除了數(shù)據(jù)源于維基百科,是大眾共同編輯的成果外,其知識抽取框架、映射關(guān)系定義、本體維護等技術(shù)也并非項目組獨立的成果,而是在項目組提供的基礎(chǔ)框架上,經(jīng)過許多人參與并貢獻智慧后的成果。DBpedia能夠成為大規(guī)模、跨領(lǐng)域、多語言的知識庫,與其協(xié)同編輯的基本特征密不可分。

        3.2 數(shù)據(jù)結(jié)構(gòu)化

        DBpedia區(qū)別于維基百科之處在于其數(shù)據(jù)描述的結(jié)構(gòu)化,即用以描述資源的每個屬性都是經(jīng)過定義的,可被機器理解。描述資源的RDF三元組形式為“資源—屬性—屬性值”,以屬性作為資源和屬性值之間的聯(lián)系,通過簡單的三元組結(jié)構(gòu)實現(xiàn)良好的組織,便于后續(xù)的數(shù)據(jù)利用。在有良好結(jié)構(gòu)的數(shù)據(jù)基礎(chǔ)上,通過定義一定的規(guī)則,可以實現(xiàn)機器自動推理。推理是使用預(yù)先定義的規(guī)則基于知識庫中存儲的事實信息獲得額外的、潛在的知識。例如,預(yù)先定義“擁有相同父母的兩個男性為兄弟”,那么在描述資源時,如果A和B的父母關(guān)系的屬性值相同,則可以自動得出A和B是兄弟的結(jié)論,并自動將A的兄弟關(guān)系屬性值賦值為資源B,B的兄弟關(guān)系屬性值賦值為資源A,從而建立聯(lián)系。同時,如果定義了出生年份更早則為兄長的規(guī)則,那么就可以根據(jù)兩者的出生年份自動得出其長幼順序。

        3.3 大規(guī)模人機協(xié)同知識處理

        在基于語義Web的知識處理過程中,人機協(xié)同知識處理強調(diào)人與計算機的分工與合作,通過人對知識處理前端控制,降低計算機知識處理的難度,在人與計算機之間尋找最佳的協(xié)同狀態(tài)?!?0〕DBpedia從維基百科中抽取海量數(shù)據(jù),是個規(guī)模龐大的工程,單靠人力無法實現(xiàn),必須借助機器的協(xié)助。然而機器本身智能程度有限,知識抽取框架的建設(shè)、知識間的映射關(guān)系的定義均需要發(fā)揮人的智慧,而機器可以據(jù)此自動完成重復(fù)性的工作,從而發(fā)揮了計算機對結(jié)構(gòu)化程度較高的數(shù)據(jù)的重復(fù)操作能力。

        維基百科的數(shù)據(jù)是不定期更新的,在預(yù)先定義出檢測和驗證規(guī)則后,DBpedia可以按照一定的時間間隔、有針對性地檢測對應(yīng)的內(nèi)容,如果有數(shù)據(jù)變化,則更新入數(shù)據(jù)集中。維基百科中的數(shù)據(jù)更新,則是依靠無數(shù)的編輯者進行的,通過人與機器的協(xié)同處理,完成數(shù)據(jù)集的更新和維護。

        3.4 跨領(lǐng)域知識庫

        DBpedia所描述的數(shù)百萬個資源中,內(nèi)容涉及人類社會生活中所能涉及的幾乎所有領(lǐng)域,目前涉及人物、地點、音樂、電影、游戲、組織機構(gòu)、生物物種、疾病等多個方面,這些屬于不同類別的實體又是相互關(guān)聯(lián)的。即DBpedia所描述的實體不僅跨越多個領(lǐng)域,并且在這些領(lǐng)域之間建立了聯(lián)系,隨著其技術(shù)的日漸完備和規(guī)模的不斷擴大以及越來越多志愿者的參與和貢獻,DBpedia所能涵蓋的范圍勢必會延伸至越來越多的角落,并不斷在各個實體間建立聯(lián)系,最終形成一張知識網(wǎng)絡(luò)。DBpedia的這一特征使得它與其他的領(lǐng)域本體和目前發(fā)布的數(shù)據(jù)集都有了交集并與之相連,從而成為關(guān)聯(lián)數(shù)據(jù)的核心,成為不同數(shù)據(jù)集之間鏈接的中轉(zhuǎn)站。在日后的相關(guān)應(yīng)用開發(fā)和數(shù)據(jù)深度挖掘中,它的中轉(zhuǎn)站功能將不可忽視。

        4 基于DBpedia的應(yīng)用

        4.1 為語義網(wǎng)應(yīng)用服務(wù)提供數(shù)據(jù)支持

        DBpedia的數(shù)據(jù)集可以授權(quán)給第三方使用,從而簡單、快速地衍生出眾多創(chuàng)新性應(yīng)用,被美國科技媒體Read Write Web評為2009年最佳的語義網(wǎng)應(yīng)用服務(wù)。

        目前基于DBpedia開發(fā)的應(yīng)用中比較典型的是DBpedia Mobile。DBpedia Mobile是一個基于DBpedia中的地理位置數(shù)據(jù)作為導(dǎo)航的客戶端服務(wù)?;诂F(xiàn)有的GPS定位功能,用戶可以搜索、發(fā)布和標(biāo)注某個地點的信息,并查看其它用戶對周圍環(huán)境的標(biāo)注。由于DBpedia與其他數(shù)據(jù)集互聯(lián),用戶有可能因此而進入一個更細致、針對性更強的數(shù)據(jù)集,從而得到更全面的信息。當(dāng)然,僅靠DBpedia不可能完全滿足用戶的需求,只有越來越多的數(shù)據(jù)集發(fā)布并加入關(guān)聯(lián)數(shù)據(jù)網(wǎng),才可以在該網(wǎng)絡(luò)中實現(xiàn)無縫隙游歷。

        DBpedia的數(shù)據(jù)也可以整合入Web頁面中,例如從DBpedia查詢得到一個數(shù)據(jù)表后,可以通過客戶端將此數(shù)據(jù)表嵌入到用戶的頁面中并實現(xiàn)動態(tài)更新。目前正在進行的與之相關(guān)的應(yīng)用是BBC interlinking project,該項目在DBpedia數(shù)據(jù)集和BBC的海量新聞信息間建立聯(lián)系。例如,當(dāng)BBC中出現(xiàn)關(guān)于某個音樂家的新聞時,BBC可以基于DBpedia提供該音樂家的基本信息如圖片、個人資料、所發(fā)布的音樂專輯等。此外,BBC的新聞也可以通過DBpedia與對應(yīng)的維基百科頁面進行互聯(lián),例如當(dāng)BBC中有關(guān)于某個城市的新聞,維基百科中對應(yīng)城市的詞條頁面則可嵌入該新聞,讓用戶在查看詞條的同時了解其最新信息。

        DBpedia的海量數(shù)據(jù)也值得發(fā)掘,從而創(chuàng)造出更多知識。例如DBpedia Relationship Finder就是典型的基于DBpedia的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)系統(tǒng),它可以通過DBpedia計算在英文維基百科中描述的兩個事物之間的語義距離?!?1〕

        4.2 對維基百科的查詢

        DBpedia的結(jié)構(gòu)化數(shù)據(jù)源于維基百科,因此可以提供更準(zhǔn)確和更直接的維基百科搜索,用以更好地發(fā)掘其中的資源。目前檢索界面如下:

        圖2 基于DBpedia的維基百科結(jié)構(gòu)化查詢界面

        該檢索界面主要包含四個模塊:用于自由檢索的文本檢索框(圖中①)、用于結(jié)構(gòu)化檢索的部分(圖中②)、用于剔除檢索限定條件的部分(圖中③)、用于呈現(xiàn)檢索結(jié)果的結(jié)果顯示部分(圖中④)。用戶可以直接在文本檢索框中進行檢索,也可通過結(jié)構(gòu)化檢索部分進行篩選,并不斷限定條件壓縮范圍,直至最后得出檢索結(jié)果。

        當(dāng)用戶有明確的檢索詞時,可以在文本檢索框中輸入檢索詞自由匹配,系統(tǒng)會判斷檢索對象的屬性并在左側(cè)的結(jié)構(gòu)化檢索部分予以調(diào)整,方便用戶的后續(xù)甄選。例如檢索“Beijing”一詞,搜索結(jié)果包括與“beijing”相關(guān)的人物、地點、機構(gòu)、組織等多種資源。此時,左側(cè)結(jié)構(gòu)化檢索部分會陳列出人物、地點等相關(guān)的屬性供篩選,用戶可以做更為細致和精確的條件限定,從而縮小檢索范圍。檢索得到的結(jié)果按照被引用次數(shù)、詞條質(zhì)量等綜合排序,列表中會展示詞條的縮略圖、題名、英文摘要。在用戶沒有明確的檢索詞時,可通過層層篩選接近目標(biāo),例如檢索“1960至1975年之間出生在北京的藝術(shù)家”,可在左側(cè)的結(jié)構(gòu)化檢索框中選定目標(biāo)類型為person,甚至更精確地選擇artist,系統(tǒng)經(jīng)篩選后列出與artist相關(guān)的屬性,用戶只需限定出生地和出生時間即可得到想要的結(jié)果集合。

        5 DBpedia的意義

        5.1 基于知識社區(qū)建立大規(guī)模知識庫

        DBpedia的數(shù)據(jù)抽取和更新依賴于Wiki這個協(xié)作共創(chuàng)的系統(tǒng),該系統(tǒng)下眾多的長尾用戶所創(chuàng)造的知識涵蓋各個領(lǐng)域。其中內(nèi)容包羅萬象,經(jīng)過發(fā)展積累后,規(guī)模已非常龐大,并在不斷發(fā)展。DBpedia從中抽取有用信息并整理為知識庫后,不僅得到了大規(guī)模的數(shù)據(jù),同時利用分類、本體以及內(nèi)部互鏈等形式揭示了知識間的關(guān)系。DBpedia不僅具有大規(guī)模、跨領(lǐng)域、多語言的特征,其中的數(shù)據(jù)也是客觀公正、及時更新的。每個用戶既是讀者,也是監(jiān)督者和糾錯者,一旦發(fā)現(xiàn)數(shù)據(jù)更新不及時,或觀點有失偏頗、內(nèi)容不準(zhǔn)確,都可以基于維基百科進行討論和修改。

        5.2 多元應(yīng)用為社會提供便利

        DBpedia的出現(xiàn)為人們開發(fā)各種應(yīng)用提供了便利,如前所述的DBpedia Mobile等項目已開創(chuàng)了良好的先例。在信息技術(shù)飛速發(fā)展的今天,各種各樣的技術(shù)應(yīng)用繽紛呈現(xiàn),使得人們的社會生活越來越便利。DBpedia中的數(shù)據(jù)涵蓋社會生活中的方方面面,依托這個龐大數(shù)據(jù)集的支撐,勢必能夠有更多應(yīng)用出現(xiàn)。目前國外已經(jīng)有許多政府和組織機構(gòu)發(fā)布了相關(guān)的數(shù)據(jù)集,涉及地理、媒體、出版物、政府信息、生物科學(xué)等諸多方面,依托這些數(shù)據(jù)集的支撐和作為中介的DBpedia,可以開發(fā)涵蓋各個領(lǐng)域的應(yīng)用,例如可以綜合正在建設(shè)的中藥本體和DBpedia可以開發(fā)簡單實用的中藥小百科,供日常使用。

        5.3 推動語義網(wǎng)發(fā)展

        語義網(wǎng)自從被提出后,在國際上已掀起了一輪研發(fā)熱潮,它的提出也為信息組織的發(fā)展提供了新的方向,其三大核心技術(shù)XML(S)、RDF(S)、Ontology也不斷完善,為語義網(wǎng)的發(fā)展提供了有力支持。除了技術(shù)保證,語義網(wǎng)的發(fā)展還需要數(shù)據(jù)作為支撐,才能在實踐中發(fā)現(xiàn)缺陷并彌補和完善。目前的領(lǐng)域本體建設(shè)中,由于所能接觸的數(shù)據(jù)源大多規(guī)模小、數(shù)據(jù)少、數(shù)據(jù)更新不及時且涉及的領(lǐng)域狹窄,給語義網(wǎng)技術(shù)的大規(guī)模應(yīng)用造成了不便。DBpedia的出現(xiàn)結(jié)合了維基百科這一超大規(guī)模數(shù)據(jù)源和語義網(wǎng)的優(yōu)勢,為本體和RDF等提供了數(shù)據(jù)支持。而基于DBpedia和其他數(shù)據(jù)集的應(yīng)用的逐漸問世也必將使人們更加清晰地認識到語義網(wǎng)的先進之處與便利性,從而推動語義網(wǎng)的普及和發(fā)展。

        6 結(jié)語

        DBpedia在本體、網(wǎng)絡(luò)資源分類、文本知識抽取、信息資源描述、網(wǎng)絡(luò)信息傳播等諸多方面都有涉及,作為一個跨領(lǐng)域多語言的大規(guī)模知識庫,其在數(shù)據(jù)挖掘、語義網(wǎng)發(fā)展等方面都有著重要的意義。同時,作為知識社區(qū)環(huán)境下的產(chǎn)物,除了具有組織和傳播知識的功能外,其維基精神也有極其深遠的文化影響。希望在以后的學(xué)習(xí)和研究中能夠?qū)ζ溆懈钊氲牧私夂头治觯瑥亩剿鬟@個新的知識庫在網(wǎng)絡(luò)信息資源的組織傳播等諸多方面的功能和意義。

        雖然DBpedia有諸多優(yōu)點,目前還是存在一些問題,例如數(shù)據(jù)抽取的來源還未覆蓋詞條正文,而正文才是信息量最大最全面的部分,這需要從自然語言中抽取結(jié)構(gòu)化數(shù)據(jù)的技術(shù)支撐。此外,信息盒的覆蓋率與質(zhì)量、不同語言版本間的內(nèi)容出入等問題,需要從維基百科和DBpedia兩個方面進行探索。

        1.Wikipedia:DBpedia.〔2013-03-01〕.http://en.wikipedia.org/wiki/DBpedia

        2.DBpedia blog.〔2013-03-01〕.http://blog.DBpedia.org/

        3.金海.語義網(wǎng)數(shù)據(jù)管理技術(shù)及應(yīng)用.北京:科學(xué)出版社,2010:75

        4.劉巧玲.維基百科上的語義搜索.上海交通大學(xué)計算機應(yīng)用技術(shù)專業(yè)碩士論文,2009

        5.圖片引自:Anja Jentzsch.DBpedia-Extracting structured data from Wikipedia,Presentation at Semantic Web In Bibliotheken(SWIB2009),Cologne,Germany,November 2009

        6.戴維民等.語義網(wǎng)信息組織技術(shù)與方法.上海:學(xué)林出版社,2008:11

        7.Christian Bizer,Jens Lehmann,Georgi Kobilarov,et al.DBpedia-A Crystallization Point for the Web of Data.Journal of Web Semantics:Science,Services and Agents on the World Wide Web,Issue 7,2009

        8.Christian Bizer,Jens Lehmann,etc.DBpedia-A Crystallization Point for the Web of Data.Journal of Web Semantics:Science,Services and Agents on the World Wide Web,Issue 7,Pages 154-165,2009

        9.譚潔清.關(guān)聯(lián)數(shù)據(jù)的簡介與進展.信息與電腦,2011(1):103-106

        10.朝樂門.基于語義Web的人機協(xié)同知識處理研究.圖書情報工作,2009(24):115-119

        11.朝樂門,張勇,邢春曉.DBpedia及其典型應(yīng)用.現(xiàn)代圖書情報技術(shù),2011(3):80-87

        猜你喜歡
        維基百科結(jié)構(gòu)化頁面
        大狗熊在睡覺
        維基百科影響司法
        英語世界(2023年10期)2023-11-17 09:18:46
        刷新生活的頁面
        維基百科青年
        英語文摘(2021年8期)2021-11-02 07:17:46
        促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        計算機教育(2020年5期)2020-07-24 08:53:00
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        計算機工程(2015年8期)2015-07-03 12:20:35
        APP
        基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
        IBM的監(jiān)視
        意林(2014年2期)2014-02-11 11:09:17
        日韩av最新在线地址| 中文字幕日韩三级片| 久久久亚洲精品一区二区三区| 天天躁日日躁狠狠很躁| 高清国产国产精品三级国产av| 亚洲不卡高清av网站| 国产成人精品无码一区二区三区| 国产丝袜在线精品丝袜| 亚洲免费av电影一区二区三区| 国产精品久久1024| av毛片在线播放网址| 中文字幕有码在线亚洲| 91三级在线观看免费| 呦系列视频一区二区三区| 久久综合亚洲色一区二区三区| 无码精品人妻一区二区三区人妻斩| 亚洲αⅴ无码乱码在线观看性色| 久久99热精品免费观看麻豆| 一道之本加勒比热东京| 亚洲精品国产成人片| 免费成人在线电影| 女人夜夜春高潮爽a∨片传媒| 国产一区二区三区国产精品| 我也色自拍俺也色自拍| 男女男精品视频网站免费看| 亚洲欧美乱综合图片区小说区 | 一道本久久综合久久鬼色| 久久国产免费观看精品3| 日日av拍夜夜添久久免费| 久久午夜无码鲁丝片直播午夜精品| 国产一区二区白浆在线观看| 性人久久久久| 精品久久欧美熟妇www| 欧美亚洲韩国国产综合五月天| 亚洲女同性恋在线播放专区| 蜜桃视频在线观看免费亚洲| 18禁真人抽搐一进一出在线| 久久精品人人做人人综合| 一区二区韩国福利网站| 97久久国产精品成人观看| 尤物精品国产亚洲亚洲av麻豆|