亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關聯(lián)數據云圖中出版類數據集特點分析

        2016-03-21 02:36:49賈君枝寇蕾蕾
        國家圖書館學刊 2016年1期

        賈君枝 寇蕾蕾

        ?

        關聯(lián)數據云圖中出版類數據集特點分析

        賈君枝 寇蕾蕾

        摘 要出版類數據集作為關聯(lián)開放數據(LOD)云圖中的重要數據集合,成為繼社交網絡類、政府類數據集之后增速最快的一類,受到了廣泛關注。論文旨在通過對LOD云圖中出版類數據的深入分析,從已發(fā)布的數據集、關聯(lián)應用、詞表使用、元數據信息等最佳實踐角度入手,探索國外關聯(lián)開放數據的服務模式,進而為我國發(fā)展關聯(lián)開放數據提供參考。圖4。表7。參考文獻19。

        關鍵詞出版類 數據集 關聯(lián)開放數據

        1 導言

        萬維網之父Tim Berners-Lee在2006年第一次提出關聯(lián)數據(Linked Data)概念時,即采用RDF數據模型,利用URI(統(tǒng)一資源標識符)命名數據實體,通過HTTP協(xié)議揭示并獲取數據,同時強調數據的相互關聯(lián)。其目的是構建一張計算機能理解的語義數據網,以便在此基礎上構建更智能的應用?;诟玫貞藐P聯(lián)數據的需求, Chris Bizer等在2007年5月向W3C SWEO(語義網教育和宣傳小組)提交了LOD(Linked Open Data)項目申請,該項目旨在號召人們將現有數據發(fā)布成關聯(lián)數據,并將不同數據源互聯(lián)起來,以可視化圖形的方式將互聯(lián)的關聯(lián)數據集展現出來,通過鏈接現存、分散的數據來創(chuàng)造知識,開展數據整合服務,實現數據的增值。在過去的幾年中,越來越多的數據提供者和網絡應用開發(fā)者將各自的數據發(fā)布到網絡上,并與其它數據源關聯(lián)在一起,形成了一個巨大的數據網絡。截至2014年4月,世界各機構已經基于LOD標準發(fā)布了數千個數據集,包含數千億個RDF三元組。相比于2011年,數據集數量增長了將近一倍,其中描述不同實體的常用詞表顯著增加,但提供的起源和授權元數據較少。依據datahub.io類目標準,LOD數據分為八大類別,包括媒體類、政府類、出版類、生命科學類、地理類、社交網絡類、跨領域及用戶生成內容。媒體類包含提供電影、音樂、電視和廣播節(jié)目及印刷媒體信息的數據集,如紐約時報、BBC廣播節(jié)目;政府類包含由聯(lián)邦或地方政府發(fā)布的關聯(lián)數據,其中包括許多統(tǒng)計性數據集;出版類包含館藏資源、科學出版物及會議信息、大學讀物列表、知識組織工具等相關數據集;地理類包含涉及地理實體、地緣邊界、熱點地區(qū)信息的數據集;生命科學類包括生物和生物化學信息、藥物相關數據、以及有關物種及其棲息地信息的數據集;跨領域類包含基于語言資源、產品數據等基礎知識的數據集;用戶生成內容包含從由較大用戶群體組成的門戶網站所收集數據的數據集。其中出版類數據集增長迅速,成為繼社交網絡類、政府類之后增速最快的一類,受到了廣泛關注。出版類數據的來源機構包括出版單位、圖書館、博物館、檔案館以及高校等,這些機構積極參與數據的開放互聯(lián)運動,推動了數據的發(fā)布、獲取、相互關聯(lián),提高了關聯(lián)數據的質量。本文旨在通過對LOD中出版類數據的深入分析,探索國外關聯(lián)開放數據的服務模式,進而為我國發(fā)展關聯(lián)開放數據提供參考。

        2 出版類數據集歸類

        LOD云圖中共有1014個數據集[1],其中出版類共有96個,所占百分比為9.47%。在出版類中,按照數據內容可將數據集劃分為四類:館藏資源、科學出版物和會議信息、大學信息及讀物列表、知識組織工具。對出版類數據集的詳細分類,有助于用戶清晰地了解資源分布情況,準確定位信息。

        2. 1 館藏資源數據集

        館藏資源數據集是對文化機構中的館藏資源進行描述,主要包含圖書館、博物館、檔案館以及其它信息機構的數據集。通過對館藏資源的語義描述和鏈接來實現資源內容的充分揭示及關聯(lián)關系的規(guī)范表達,進而為文化機構中數據的深度聚合與知識發(fā)現提供服務。如表1,館藏資源占出版類資源的24%,以德國國家圖書館關聯(lián)數據(DNB)為例,目前已包含192,556,756個RDF三元組[2],數據間可相互引用,且其在LOD中也被許多數據集鏈接。從形式來看,其應用格式包括rdf和xml。

        表1 出版類中館藏資源數據集

        2. 2 科學出版物和會議信息數據集

        科學出版物和會議信息數據集主要提供了與科學出版物和會議信息相關的數據集(如表2)。該數據集占比18%,為科學研究的開展提供了豐富的來源信息。會議信息數據集中,以關聯(lián)數據會議(Colinda)為例,其提供了會議的地點、時間等基本信息,包含從2003年至2013年大約15, 000個會議的信息,并與地理、維基百科及計算機科學等會議建立關聯(lián)[3]。同時以可視化圖形的形式展現出來,便于用戶獲取各種類型會議的信息。

        表2 出版類中科學出版物和會議資源數據集

        2. 3 大學信息及讀物列表數據集

        大學信息及讀物列表數據集包含了各大學發(fā)布的關于人、部門、設施、課程、贈款和出版物等以關聯(lián)數據形式出現的信息,能夠幫助學生全面了解學校概況,發(fā)現不同課程、不同知識之間的相互關系,便于學生學習(如表3)。該數據集占比30%,居于出版類數據集的首位。以曼徹斯特大學閱讀書目為例[4],其提供了曼徹斯特大學圖書館的檢索界面,用戶可以查看資源列表、學科模塊以及相關課程,并可通過定制方式快速查詢到自己感興趣的閱讀書目。

        2. 4 知識組織工具數據集

        這部分數據集包含了主題詞表、本體、分類表、元數據等知識組織工具,可以被其它數據集引用(如表4)。該數據集占比29%。其中數據量最大的當屬美國國會圖書館標題表(LCSH),它包含7,332,816個RDF三元組,自1898年以來一直被用于對國會圖書館的資源進行編目[5]。LCSH關聯(lián)數據服務內容包含國會圖書館標題表、主題和形式的細分信息、體裁/形式標題詞表、兒童(AC)標題詞表及創(chuàng)建規(guī)范記錄所需的驗證字符串[6]。

        表3 出版類中大學信息及讀物列表數據集

        表4 出版類中知識組織工具數據集

        3 出版類中的關聯(lián)應用實踐分析

        關聯(lián)是關聯(lián)數據的核心[7]。關聯(lián)的最佳實踐是鼓勵數據發(fā)布機構在數據集間設置RDF鏈接,借助RDF鏈接數據提供者可以將自己的數據集與整個數據網絡建立連接,通過遵循RDF鏈路能夠發(fā)現額外有用的數據,從而起到導航的作用。總體而言,LOD中56. 11%的數據集至少和一個數據集建立了RDF鏈接。為便于分析數據集間的關聯(lián)情況,如果不同數據集的資源之間至少存在一個RDF鏈接,我們就認為這兩個數據集間建立了連接[8]。

        3. 1 出版類中數據集的出入度

        “度數”一詞來源于數學用語,就一個節(jié)點而言,靠近相鄰節(jié)點的頭部端點的數量稱為該節(jié)點的入度,靠近相鄰節(jié)點的尾部端點的數量稱為該節(jié)點的出度。針對關聯(lián)數據環(huán)境中的某一個數據集,入度是指LOD中指向該數據集的RDF鏈接數,出度是指指向LOD中其他數據集的RDF鏈接數。度數能夠很好地反映整體連接情況,入度值反映了該數據集被其他數據集利用的重要程度,出度值反映了該數據集對其他數據集的需求程度[9]。數據集的出入度值越高,表明鏈接越緊密;反之,數據集的出入度值越低,表明鏈接越稀疏。在LOD入度排名前十的數據集類別中,出版類位于社交網絡類及跨領域類之后,排名第三。如圖1所示,出版類96個數據集中,入度值大于10(包含10)的數據集只有6個,占比6. 25%;其余數據集的入度值分布在0—10之間,占比93. 75%。而在社交網絡類的520個數據集中,入度值大于10(包含10)的數據集有63個,占比12. 12%;入度值在0—10之間有457個,占比87. 88%。與社交網絡類相比,出版類入度值在10以上的數據集所占比例較低,入度值在0—10之間的數據集所占比例較高。

        圖1 出版類、社交網絡類數據集的入度分布情況

        在LOD出度排名前十的數據集類別中,出版類僅次于社交網絡類,排名第二。如圖2所示,在出版類的96個數據集中,出度值在20以上的數據集只有2個,占比2. 08%;其余數據集出度值處在0—20之間,占比97. 92%。而在社交網絡類的520個數據集中,出度值大于20(包含20)的數據集有26個,占比5%;出度值在0—20之間的數據集有494個,占比95%。與社交網絡類相比,出版類出度值大于20的數據集比例較低,出度值在0—20之間的數據集比例較高??傮w而言,除了社交網絡類,與LOD中其他類別相比,出版類出入度值較高,這表明出版類在整個LOD中占有重要的地位。但出版類中只有少量的數據集被高度鏈接,而大部分數據集只是稀疏鏈接,這也與LOD的整體連接情況相符。

        圖2 出版類、社交網絡類數據集的出度分布情況

        出版類數據集中出入度值較高的數據集如表5所示,可以看出,出度值最高的數據集是社會書簽共享系統(tǒng)(BibSonomy)[10],允許用戶添加標簽來提高數據訪問能力;語義網會議(data.semanticweb. org)提供語義網相關會議的數據(如論文、報告、人),其出入度值都高,表明語義網已受到許多機構的關注。

        表5 出版類中出入度值排名前十的數據集

        3. 2 出版類中使用的連接謂詞

        連接謂詞能夠將類和類、屬性和屬性關聯(lián)起來?;趯ο笾g的關聯(lián)關系,計算機可以進行有效地推理,進而實現不同數據集間的語義關聯(lián)[11]。圖3列出了出版類資源使用RDF鏈接時用到頻率最高的3個連接謂詞,這與LOD整體連接謂詞使用情況相符。owl:sameAs是最常用的連接謂詞,表明“兩個URI引用實際上指向同一事物”[12]。由于在出版類中存在許多等價的URIs,因此使用owl:sameAs屬性能有效地實現數據的集成,有效地聚合指向同一事物對象的所有數據。dct:language定義了語言屬性,通過該屬性將不同語言的數據集建立關聯(lián),實現了跨語言的數據操作。rdfs:seeAlso表示對主題資源提供額外的信息,將圍繞某一對象的所有相關屬性建立鏈接,實現數據的集中展示[13]。

        圖3 出版類中使用頻率最高的三個連接謂詞

        3. 3 出版類中使用的詞匯表

        關聯(lián)數據利用詞匯表的詞匯,須通過定義屬性及屬性值來體現其語義特征。如果詞表中的詞匯出現在數據集中三元組的謂語位置,或者出現在rdf:type三元組的賓語位置,則認為該詞表被數據集所用[5]。

        3. 3. 1 常用詞表

        關聯(lián)數據中,一些被廣泛使用的詞表有助于建立不同數據集間的聯(lián)系,實現數據的互操作。在LOD的1014個數據集中,超過5%的數據集都會用到常用詞表。其中foaf、rdfs、dcterms、owl等是許多主題領域的數據集最常用到的詞表。此外,存在這樣一種趨勢:越來越多的數據集開始使用常用詞表[14]。從表6可以看出,出版類經常用到的詞表既有rdfs、owl等描述語言,也有dcterms、foaf、bibo等元數據詞表。其中,83%的數據集使用了都柏林核心詞表dcterms;用于描述人物、活動及其關系的foaf詞表也被76%的數據集使用;41. 67%的數據集使用了bibo書目本體,它提供了描述引文和書目參考文獻的主要概念和屬性。skos詞表及資源清單(resourcelist)用于創(chuàng)建大學讀物列表。

        3. 3. 2 專有詞表的使用

        由于常用詞表并不能提供在網上發(fā)布數據集完整內容所需要的所有術語,因此還需要使用一些專有詞表。專有詞表是指僅被一個數據集使用的詞表[14]。需要注意的是,如果數據發(fā)布機構使用專有詞表,那么這種詞表應在RDF模式或OWL定義下是可參引的。專有詞表術語定義了除常用詞表中術語之外的其它術語,應包含指向常用詞表的RDF鏈接,以便更容易地對其進行解釋。參引度是指詞表中可參引術語的數量占詞表中所有術語的數量比例[15]。其值分布在0—1之間,參引值為0代表不參引,值在0—1之間代表部分參引,值為1代表完全參引。其中,部分參引的原因可能是意外使用詞表中未定義術語或對詞表中已經棄用的術語沒有做出恰當的標記。從圖4中可以看出,出版類共使用了54個專有詞表,其中有12個專有詞表的術語為完全參引,5個是部分參引,其余的均沒有參引能力。由此可見,在出版類使用的專有詞表中,它們的參引能力并不是很強,而根據上述描述可知,專有詞表術語在RDF模式或OWL定義下的可參引,有助于更準確地解釋詞表中的術語,便于知識聚合和發(fā)現。

        表6 出版類中常用詞表使用情況

        圖4 出版類專有詞表術語的參引能力

        4 采用的元數據信息

        元數據是描述信息資源的特征和屬性的結構化數據[16],可以深入地揭示資源,便于資源發(fā)現。關聯(lián)數據通過提供授權信息等元數據,能夠確保數據自由共享,規(guī)范關聯(lián)數據陳述?;ヂ?lián)數據集詞表(VoID),是一個表達RDF數據集元數據信息的詞表,它提供了對整個數據集的描述,可以作為溝通數據發(fā)布機構和用戶之間的橋梁[17]。VoID涵蓋的元數據內容包括通用元數據、元數據存取、結構化元數據、數據集間的連接等信息。

        4. 1 數據集的VoID詞表獲取

        每產生一個數據集,相應地就會產生一個VoID詞表。用戶通過其提供的元數據信息,可以在短時間內定位到自己所需信息,實現高效檢索。因此,數據集的VoID詞表獲取至關重要。由于數據集是一個包含多個RDF文檔的集合,因此可以通過給定文檔的URI來獲得數據集的VoID描述[18],具體方式包括:通過使用thevoid:inDataset屬性將RDF文檔反向鏈接(back-link)到VoID詞表;通過在數據集的URI后添加/. well-known/void屬性來獲取數據集的VoID描述。出版類中有17個數據集通過VoID文件來提供數據集的元數據信息,其中,6個通過back-link、3個通過添加well-known(知名信息)的方式來獲取VoID詞表,見表7。

        4. 2 VoID文件的內容

        4. 2. 1 通用元數據

        通用元數據是指從各個數據集中抽取的各類元數據的共性要素,具備通用可擴展的特征,如包括數據集的標題及描述、授權、主題等信息,可以幫助數據集的潛在用戶決定是否使用該數據集來滿足其檢索需求,其通常遵循都柏林核心元數據標準。通常情況下,數據集的標題、描述等信息較為完備,但授權信息提供較少。出版類中,通過搜索三元組謂詞部分包含“l(fā)icense”或“right”的字符串,發(fā)現僅有4個數據集提供授權信息,見表7。數據發(fā)布機構提供明確的授權信息,可以使用戶明確使用條件,同時提供人類和機器可讀的許可協(xié)議,允許數據的復制、傳播、修改和再創(chuàng)作,減少版權問題,使數據可以更自由地共享[19]。總體來說,出版類中提供授權信息的數據集相對較少,應積極鼓勵數據發(fā)布機構提供授權數據,為語義網的發(fā)展提供一個良好的知識共享平臺。

        4. 2. 2 元數據存取方式

        VoID詞表定義了獲取數據集RDF三元組的訪問方式,包括SPARQL端點、RDF數據轉儲等。RDF數據轉儲是指當數據集的內容過大或需要很長時間壓縮時,通過創(chuàng)建一個僅包含數據集元數據的轉儲文件對數據集進行備份[17]。SPARQL端點通過使用void:sparqlEndpoint屬性來訪問元數據。在轉儲方法中,通過使用void:dataDump屬性將RDF轉儲文件與數據集建立關聯(lián)。出版類有3個數據集通過SPARQL端點、1個數據集通過RDF數據轉儲的方式訪問元數據,見表7。

        表7 出版類中使用VoID詞表提供的元數據信息

        5 討論

        LOD在全球范圍內實現語義網方面發(fā)揮著重要的作用,它促使人們發(fā)布用于連接和發(fā)現重要信息的數據集,并且將網絡精簡為一個單一的互聯(lián)化的數據空間,最大程度地開放數據資產,促進數據關聯(lián)應用,挖掘數據的價值。由于目前我國對關聯(lián)數據云圖LOD的研究相對較少,本文通過從數據集歸類、關聯(lián)、詞表使用、元數據信息等方面對LOD中出版類數據集的基本情況進行了細致的解釋說明,以期為我國出版類數據的關聯(lián)數據化提供參考。然而,我們發(fā)現,LOD中出版類數據集還并不完善,如數據集間關聯(lián)度不高、許多數據集的內容無法開放獲取等,這也是

        LOD云圖中其他類數據集共同存在的問題。鑒于此,研究者還需要圍繞此方面的問題做進一步討論。

        參考文獻

        1Schmachtenberg M,et al. State of the LOD Cloud 2014[EB/OL].[2015-06-18].http://linkeddatacatalog.dws.informatik.uni-mannheim. de/state/#toc0/.

        2German National Library. CATALOGUE OF THE GERMAN NATIONAL LIBRARY[EB/OL].[2015 - 05 - 19]. http://www. dnb. de/SharedDocs/Downloads/EN/DNB/service/linkedDataModellierungTiteldaten.pdf.

        3Selver Softic. COLINDA-Conference Link Data [EB/OL].[2015-03-10].http://datahub.io/dataset/colinda.

        4Manchester Metropolitan University.Course reading lists[EB/OL].[2015-04-16].http://lists.lib. mmu.ac.uk/index.html.

        5Library of Congress. Library of Congress Subject Headings[EB/OL].[2015-05-11].http://datahub.io/dataset/lcsh.

        6Library of Congress. Library of Congress Online Catalog[EB/OL].[2015 - 05 - 22]. http://catalog.loc.gov/.

        7Mika P,et al. The Semantic Web-ISWC 2014 [J].Lecture Notes in Computer Science,2014,8796:66-81.

        8Bizer C,et al. Linked Data—The Story So Far [J]. International Journal on Semantic Web&Information Systems,2009,5(3):1-22.

        9Rodriguez M A. A Graph Analysis of the Linked Data Cloud[J].Corr,2009(4):2-5.

        10 BibSonomy Developer Team.A blue social bookmark and publication sharing system[EB/OL].[2015-05-30].http://www.bibsonomy.org/.

        11Gottron T,et al. Analysis of schema structures in the Linked Open Data graph based on unique subject URIs,pay-level domains,and vocabulary usage[J].Distributed&Parallel Databases,2015 (4):515-520.

        12 Bizer C,et al.How to publish Linked Data on the Web[EB/OL].[2015 - 04 - 08]. http://www4.wiwiss. fu - berlin. de/bizer/pub/Linked-DataTutorial/.

        13Ricci F,et al. Linking Search Results,Bibliographical Ontologies and Linked Open Data Resources[J].Communication in Computer and Information Science,2013,390:62-65.

        14肖瓏,趙亮.中文元數據概論與實例[M].北京:北京圖書館出版社,2007:32.

        15沈志宏,等.OpenCSDB:關聯(lián)數據在科學數據庫中的應用研究[J].中國圖書館學報,2012 (5).

        16歐石燕.面向關聯(lián)數據的語義數字圖書館資源描述與組織框架設計與實現[J].中國圖書館學報,2012(6).

        17 W3C.Describing Linked Datasets with the VoID Vocabulary W3C Interest Group Note 03 March 2011[EB/OL].[2015-05-27].http://www. w3.org/TR/void/.

        18 W3C. Cool URIs for the Semantic Web[EB/OL].[2015-06-12].http://www.w3.org/TR/2008/NOTE-cooluris-20081203/.

        19 W3C.Resource Description Framework(RDF):Concepts and Abstract Syntax[EB/OL].[2015 -05-29].http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/.

        (賈君枝 教授 山西大學經濟與管理學院,寇蕾蕾 山西大學經濟與管理學院情報學專業(yè)2014級碩士研究生)

        The Characteristic Analysis of Publication Datasets in Linked Open Data Cloud

        Jia Junzhi Kou Leilei

        Abstract:As an important dataset of Linked Open Data(LOD)cloud, publication datasets have become an fastest-growing category after social web and government, and received a widespread attention. This paper aims at exploring foreign linked open data service mode and providing reference for the development of China's linked open data through deeply analyzing the best practices of publishing resources, such as published datasets, interlinking, usage of vocabulary, and adoption of metadata. 4 figs. 7 tabs. 19 refs.

        Keywords:Publication;Dataset;Linked Open Data

        收稿日期:2015-07-28

        国产三级av在线播放| 国内免费自拍9偷1拍| 激情免费视频一区二区三区| 婷婷亚洲国产成人精品性色| 亚洲阿v天堂网2021| 粉嫩国产白浆在线播放| 91亚洲精品久久久蜜桃| 国产一级黄色性生活片| 久久亚洲国产高清av一级| av网站免费观看入口| 久久综合久久综合久久| av网站不卡的av在线| 蜜桃av人妻精品一区二区三区| 人妻精品在线手机观看| 日韩精品人成在线播放| 无码小电影在线观看网站免费| 国产无遮挡又爽又刺激的视频老师| 国语对白做受xxxxx在线| 无遮挡边摸边吃奶边做视频免费| 国产精品天天狠天天看| 国产精品久久久久久久久免费观看 | 久久综合另类激情人妖| 国产午夜视频一区二区三区| 久久综合噜噜激激的五月天| 日日噜噜夜夜狠狠va视频v| 亚洲av日韩av天堂久久| 边啃奶头边躁狠狠躁| 免费人成视频x8x8| 亚洲A∨无码国产精品久久网| 亚洲AV乱码毛片在线播放| 在线观看中文字幕一区二区三区| 日韩中文字幕久久久老色批| 日本视频一区二区三区一| 美女网站免费观看视频| 男女猛烈xx00免费视频试看| 免费看久久妇女高潮a| 一区二区三区国产高潮| 亚洲大片一区二区三区四区| 久久99人妖视频国产| 无码喷潮a片无码高潮| 亚洲国产精品无码专区影院|