宋丹輝
(河南科技大學(xué)圖書館,洛陽 471023)
開放引文語料庫實踐案例及啟示*
宋丹輝
(河南科技大學(xué)圖書館,洛陽 471023)
開放引文數(shù)據(jù)作為一種新的開放關(guān)聯(lián)數(shù)據(jù),在國外已取得長足發(fā)展,而在國內(nèi)還未開始建設(shè)。為縮小差距,本文以國外已發(fā)揮重要作用的開放引文項目為學(xué)習(xí)案例,深入分析其在數(shù)據(jù)規(guī)模、技術(shù)路線、元數(shù)據(jù)模型和工作流程方面的建設(shè)與實踐,詳細(xì)闡述其在解決引文數(shù)據(jù)不易獲取、不一致、語義缺乏等問題的方法與特征,并從發(fā)展理念、關(guān)鍵步驟等方面總結(jié)經(jīng)驗,以期為我國引文數(shù)據(jù)開放關(guān)聯(lián)建設(shè)提供建議。
引文數(shù)據(jù);開放關(guān)聯(lián);開放引文語料庫
引文數(shù)據(jù)是學(xué)術(shù)交流的重要元素,也是引文分析的基礎(chǔ),但來源受限,大多存儲在Web of Science、Scopus等少數(shù)幾個商業(yè)引文數(shù)據(jù)庫中,較難免費獲取。Web of Science由美國科學(xué)家尤金·加菲爾德于1964年創(chuàng)建的科學(xué)引文索引發(fā)展而來,其主要商業(yè)對手是Scopus。二者都具有覆蓋學(xué)科范圍廣、文獻(xiàn)類型多樣、引文數(shù)據(jù)豐富的特點。為訪問其中資源,用戶需花費巨額經(jīng)費,還要遵守嚴(yán)格的保密協(xié)議。一些免費資源平臺如Google Scholar、Microsoft Academic Search、百度學(xué)術(shù)、必應(yīng)學(xué)術(shù)等,雖然支持文獻(xiàn)引用統(tǒng)計、生成不同格式引文,或通過軟件導(dǎo)出等,但都制定有嚴(yán)格的使用條款,用戶無法進(jìn)行大規(guī)模引文數(shù)據(jù)采集,從而無法自動構(gòu)建引文網(wǎng)絡(luò),開展計量、評價或智能化分析等研究[1-2]。
針對上述問題,業(yè)界提出兩種不同的解決方案:一是引文數(shù)據(jù)開放存取。隨著一系列研究報告及政府公文的發(fā)布,推行開放存取政策已成為業(yè)界共識,學(xué)者也將研究重點逐漸聚焦到實施效果上。實踐表明,將論文和數(shù)據(jù)以開放存取方式發(fā)布會提升其引用次數(shù)和學(xué)術(shù)影響力[3-6]。鑒于此,有學(xué)者嘗試引文數(shù)據(jù)的開放存取[7],以便于科研人員順利追蹤引用軌跡、深入開展科研工作,并促進(jìn)在線論文的發(fā)現(xiàn)、討論和引用。二是把引文數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),借助URI規(guī)范,通過HTTP/URI機(jī)制鏈接到以RDF/XML編碼的相關(guān)數(shù)據(jù)對象,從而實現(xiàn)富鏈接和富語義效果,這不僅有助于發(fā)現(xiàn)高被引論文、糾正錯誤引文數(shù)據(jù),還有助于開發(fā)新的智能應(yīng)用。
隨著開放存取運動及科學(xué)數(shù)據(jù)管理研究的不斷發(fā)展和深入,開放引文逐漸得到越來越多的關(guān)注,開放引文數(shù)據(jù)庫也逐漸受到科研人員的重視,如開放引文項目(Open Citations Project,OCP)[8]和Dryad數(shù)據(jù)庫[9]。前者由英國聯(lián)合信息系統(tǒng)委員會資助,于2010年啟動,旨在改變?nèi)驅(qū)W術(shù)交流和學(xué)術(shù)出版的現(xiàn)狀,促進(jìn)引文數(shù)據(jù)開放。該項目遵循CC協(xié)議,并以RDF格式出版書目引用信息,使得人們能夠自由查看、研究、重用及豐富引文數(shù)據(jù),不受任何限制地遍歷引文鏈接。后者由美國國家科學(xué)基金會資助,于2008年9月啟動,旨在存放優(yōu)質(zhì)數(shù)據(jù)資源,并促使科技文獻(xiàn)中的數(shù)據(jù)發(fā)現(xiàn)和再利用。Dryad數(shù)據(jù)庫通過聯(lián)合學(xué)術(shù)團(tuán)體、出版社、研究機(jī)構(gòu)、教育機(jī)構(gòu)、基金資助機(jī)構(gòu)等構(gòu)建學(xué)術(shù)交流體系,以促進(jìn)學(xué)術(shù)文獻(xiàn)中基礎(chǔ)科研數(shù)據(jù)的保護(hù)和再利用。目前,Dryad雖然已被許多主流期刊采納,但其特色主要體現(xiàn)在規(guī)范數(shù)據(jù)引用格式上,相較于OCP的主要成果——開放引文語料庫(Open Citations Corpus,OCC),其在數(shù)據(jù)關(guān)聯(lián)方面還存在很大差距[10]。此外,英國南安普頓大學(xué)、美國康奈爾大學(xué)及arXiv網(wǎng)站也于1999—2002年共同開展了“開放引文計劃”,但由于各種原因目前已經(jīng)無法使用。
截至目前,鮮有文獻(xiàn)針對“開放引文項目”的技術(shù)路線、工作流程等進(jìn)行研究。鑒于此,本文以O(shè)CP為切入點,討論引文數(shù)據(jù)開放關(guān)聯(lián)過程中面臨的問題、可能的解決方案,并總結(jié)經(jīng)驗教訓(xùn),以期為我國引文數(shù)據(jù)開放關(guān)聯(lián)提供參考。
引文數(shù)據(jù)是書目數(shù)據(jù)的子集,書目數(shù)據(jù)開放關(guān)聯(lián)的成功經(jīng)驗可以為引文數(shù)據(jù)提供參考,基于開放獲取和關(guān)聯(lián)數(shù)據(jù)進(jìn)行引文數(shù)據(jù)開放關(guān)聯(lián)的探索逐漸提上日程,主要的開放引文項目代表是OCP,其主要成果為OCC[11]。OCC遵循CC協(xié)議,提供從學(xué)術(shù)文獻(xiàn)中抽取的、用語義出版和引用本體(Semantic Publishing and Referencing Ontologies,SPAR)描述的、與OCC元數(shù)據(jù)模型一致的、準(zhǔn)確的書目引用信息,用戶可自由地對這些書目信息進(jìn)行構(gòu)建、拓展、豐富和重用,不受任何知識產(chǎn)權(quán)或數(shù)據(jù)庫法律的限制。
2.1 OCC的規(guī)模
OCC于2011年發(fā)布第一版,實現(xiàn)對OA-PMC(PubM-ed Central Open Access)中204 637篇論文引文數(shù)據(jù)的開放關(guān)聯(lián),包括6 325 178條指向3 373 961篇論文的引文記錄。該語料庫的規(guī)模雖然不大,但基本涵蓋1950—2010年生物醫(yī)學(xué)文獻(xiàn)索引中20%的內(nèi)容,包括已在PubMed發(fā)表的生物醫(yī)學(xué)領(lǐng)域的全部高被引論文。
隨著OA-PMC館藏數(shù)量的不斷增加(截至2014年12月,館藏資源數(shù)量已經(jīng)是創(chuàng)建時的2倍),以及arXiv preprint server中引文數(shù)據(jù)的導(dǎo)入(在生物醫(yī)學(xué)等基礎(chǔ)上,增加了數(shù)學(xué)等學(xué)科的引文數(shù)據(jù)),OCC的覆蓋范圍也逐漸得到擴(kuò)展,下一步將增加CiteSeerX、CitEc(Citations in Economics)等免費數(shù)據(jù)庫的引文數(shù)據(jù)。截至2014年12月,CiteSeerX已積累近1 350萬條引文記錄,CitEc已積累1 354萬余條引文記錄。這3個數(shù)據(jù)庫累計覆蓋約198萬篇論文的引文數(shù)據(jù),但相對于科技文獻(xiàn)總量而言,該數(shù)據(jù)量并不算大,OCC仍有很長的路要走。目前,OCC的工作人員正修改數(shù)據(jù)模型,加強(qiáng)基礎(chǔ)設(shè)施建設(shè),以進(jìn)一步擴(kuò)大覆蓋范圍。
2.2 OCC的技術(shù)路線
現(xiàn)有期刊的引文數(shù)據(jù)主要通過CrossRef收割,出版商將論文引文數(shù)據(jù)提交至CrossRef,支持免費引用關(guān)聯(lián)服務(wù)。然而,CrossRef的使用條款是通過元數(shù)據(jù)描述的,且這些引文數(shù)據(jù)默認(rèn)是不公開的,僅能在符合出版商使用條款的條件下通過元數(shù)據(jù)搜索服務(wù)獲取。對于過刊而言,若想實現(xiàn)引文數(shù)據(jù)的開放獲取,出版商必須專門向CrossRef發(fā)郵件說明。這種方法雖然簡單直接,無成本,但整個進(jìn)度受工作人員回復(fù)時間限制。總之,引文數(shù)據(jù)開放獲取的操作效率太低,引入智能化自動處理技術(shù)才是根本解決之道[12]。
為解決上述問題,OCC設(shè)定5個逐次遞進(jìn)的任務(wù):(1)創(chuàng)建語義基礎(chǔ)設(shè)施,開發(fā)或重用能夠滿足學(xué)術(shù)創(chuàng)作和出版需求的、支持以RDF格式描述科技文獻(xiàn)書目數(shù)據(jù)、引文數(shù)據(jù)的語義模型,如本體或RDFS(Resource Description Framework Schema)詞匯表;(2)開發(fā)注釋工具,允許作者基于上述語義模型用恰當(dāng)?shù)恼Z義聲明對文檔進(jìn)行語義增強(qiáng);(3)擴(kuò)展上述書目實體和書目引用的語義處理設(shè)施,以解決數(shù)據(jù)實體和數(shù)據(jù)引用問題;(4)通過具體實例示范本體應(yīng)用于現(xiàn)實數(shù)據(jù)的具體過程,創(chuàng)建科研數(shù)據(jù)與書目實體的引用關(guān)系,及描述書目實體與科研數(shù)據(jù)間引用關(guān)系的RDF元數(shù)據(jù);(5)將OA-PMC中所有論文的引文數(shù)據(jù)轉(zhuǎn)化為RDF格式,并以開放關(guān)聯(lián)數(shù)據(jù)的格式發(fā)布在OCC上,以便第三方組織免費開展創(chuàng)新性使用[13]。
2.3 OCC的元數(shù)據(jù)模型
為描述并關(guān)聯(lián)OCC的各類書目實體,OCC構(gòu)建專門的元數(shù)據(jù)模型,如圖1所示。OCC元數(shù)據(jù)模型主要包括6類書目實體:bibliographic resources(fabio:Expression)、resource embodiments(fabio:Manifestation)、bibliographic entries(biro:BibliographicReference)、responsible agents(foaf:Agent)、agent roles(pro:RoleInTime)、identifiers(datacite:Identifier)。其中核心類為“fabio:Expression”,具備“title”“subtitle”“PublicationYear”“edition”等屬性,描述其題目、出版年和版本等信息,其通過“frbr:part”與“biro:BibliographicReference”建立關(guān)聯(lián);“biro:BibliographicReference”又通過“biro:references”與“fabio:Expression”的關(guān)聯(lián),實現(xiàn)反饋,描述論文與參考文獻(xiàn)的關(guān)系;通過“datacite:hasIdentifier”與“datacite:Identifier”建立關(guān)聯(lián),描述論文及其引用數(shù)據(jù)的關(guān)系;通過“pro:isDocumentContextFor”與“pro:RoleInTime”建立關(guān)聯(lián),而“pro:RoleInTime”通過“pro:isHeldBy”與“foaf:Agent”關(guān)聯(lián),描述論文是由代理機(jī)構(gòu)采用某種創(chuàng)作方式產(chǎn)生;通過“fabr:endeavour”與“fabio:Manifestation”建立關(guān)聯(lián),描述內(nèi)容表達(dá)與實體表現(xiàn)的關(guān)系[14]。
圖1 OCC元數(shù)據(jù)模型中的主要本體實體[14]
OCC由若干個子數(shù)據(jù)集構(gòu)成,每個子集對應(yīng)一類書目實體,其中每個實體都被賦予唯一的URL(具體由“https://w3id.org/oc/corpus/”+“實體類名首字母縮寫”+“/”+“子集內(nèi)唯一序列碼”構(gòu)成),如“https://w3id.org/oc/corpus/be/537”代表“bibliographic entries”子集中第537個書目實體,可通過內(nèi)容協(xié)商機(jī)制以HTML、RDF/XML、Turtle或JSON-LD等多種格式下載[15]。描述這些實體的來源信息元數(shù)據(jù)用PROV-O本體和PROV-DC擴(kuò)展來表達(dá)。
為更好地對術(shù)語進(jìn)行管理,相關(guān)術(shù)語都收集在開放引用本體(Open Citations Ontology,OCO)中,其是一個用于分組存放從若干現(xiàn)有本體中抽取出來的、互為補(bǔ)充的、書目實體元素的專屬空間,以便為OCC提供描述性元數(shù)據(jù)。
2.4 OCC抓取實例數(shù)據(jù)的流程
如圖2所示,在OCC中對具體引用數(shù)據(jù)的抓取工作主要由BEE(Bibliographic Entries Extractor)和SPACIN(SPAR Citation Indexer)實現(xiàn),程序代碼可從OCC的GitHub軟件存儲庫中下載。具體步驟為:(1)解析PMC論文的XML來源文檔;(2)利用DOI和書目實體生成JSON文檔;(3)對于每個引證或被引資源,若檢測到相關(guān)ID(DOI、PMID或PMCID),則進(jìn)一步確認(rèn)該資源是否存在,若存在,則直接進(jìn)行第5步;(4)若資源不存在,則從記錄中抽取可能的IDs,并檢索ORCID和CrossRef;(5)創(chuàng)建新的元數(shù)據(jù)資源,若CrossRef返回信息,則所有相關(guān)元數(shù)據(jù)都可以使用,否則只采納基礎(chǔ)元數(shù)據(jù)(IDs和記錄);(6)將所有聲明加載至三元組存儲庫,并將其加入文檔系統(tǒng)中以便將來恢復(fù)數(shù)據(jù)[16]。
BEE主要負(fù)責(zé)為每篇論文創(chuàng)建JSON文檔。針對PMC中的每篇論文,BEE從可訪問的XML來源文檔中抽取該論文的所有元數(shù)據(jù)信息(包括所有可獲取的唯一標(biāo)識符,如DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等)和參考文獻(xiàn)信息(包括通過唯一標(biāo)識符獲取的信息),并將所有數(shù)據(jù)加入最終的JSON文檔中。此外,JSON文檔也包含數(shù)據(jù)出處、提供者、OCC維護(hù)者等信息。
SPACIN主要負(fù)責(zé)處理BEE生成的JSON文檔,并通過Crossref API和ORCID API檢索附加的有關(guān)引證或被引文檔的元數(shù)據(jù)信息。這些API也可以通過檢索到的唯一標(biāo)識符(如DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等)來辨別書目資源和責(zé)任者。一旦檢索到相關(guān)元數(shù)據(jù),便可創(chuàng)建對應(yīng)的RDF聲明(若相關(guān)RDF聲明已經(jīng)存在,則重用便可),并以JSON-LD格式存儲到文件系統(tǒng)和OCC三元組存儲庫中。此外,考慮到空間和性能因素,三元組存儲庫幾乎包含維護(hù)實體的所有數(shù)據(jù),除來源數(shù)據(jù)和數(shù)據(jù)集自身描述信息外,二者只能通過HTTP協(xié)議訪問。
圖2 OCC抓取實例數(shù)據(jù)的流程[16]
OCC抓取實例數(shù)據(jù)的整個流程是連續(xù)不斷的,直到不再加載新的JSON文檔為止。因此,OCC實例是隨時間動態(tài)增長的,容易通過調(diào)整配置、與更多不同來源REST APIs交互來擴(kuò)展PMC以外的論文,進(jìn)而收集更多元數(shù)據(jù)和參考文獻(xiàn)的信息。目前,OCC由博洛尼亞大學(xué)的計算機(jī)科學(xué)與工程學(xué)院來維護(hù),用戶可通過一個SPARQL查詢端點和一個支持?jǐn)?shù)據(jù)消費的瀏覽界面來訪問。自2016年7月以來,該機(jī)構(gòu)已經(jīng)完成PMC中科技論文參考文獻(xiàn)列表的抓取、處理與發(fā)布工作。自2016年9月,所有抓取到的數(shù)據(jù)均能以數(shù)據(jù)集方式下載。
作為免費引文庫,OCC打破現(xiàn)有科技文獻(xiàn)引文數(shù)據(jù)的商業(yè)束縛,針對引文數(shù)據(jù)可獲取性差、準(zhǔn)確性不高、缺乏語義信息等問題提供一系列解決方案,改變了在數(shù)字化科研基礎(chǔ)設(shè)施中的傳統(tǒng)形象,成為引文數(shù)據(jù)開放關(guān)聯(lián)的最佳實踐。
3.1 通過數(shù)據(jù)收割協(xié)議提高引文數(shù)據(jù)的可獲取性
OCC的最終目標(biāo)是匯集世界范圍的科技文獻(xiàn)以及藝術(shù)領(lǐng)域、人文學(xué)科領(lǐng)域的引文數(shù)據(jù)。但目前大多數(shù)出版商都把引文數(shù)據(jù)設(shè)為付費內(nèi)容,受版權(quán)保護(hù)。在OCC的引領(lǐng)下,已有Nature等少數(shù)幾家出版商把書目和引文數(shù)據(jù)開放共享。
針對現(xiàn)有引文庫的商業(yè)壟斷及半開放性控制,OCC與部分期刊出版商(如牛津大學(xué)出版社、麻省理工學(xué)院出版社等)就引文數(shù)據(jù)的日常收割問題簽訂合作協(xié)議,并計劃進(jìn)一步整合收割數(shù)據(jù),以清晰展現(xiàn)論文間、論文與數(shù)據(jù)庫的引用關(guān)系,拓展作者、機(jī)構(gòu)、基金、論文間的多維語義關(guān)系。OCC將允許用戶免費瀏覽多種來源的引文數(shù)據(jù),包括傳統(tǒng)學(xué)術(shù)出版物及其他數(shù)據(jù)論文等,但所有引文數(shù)據(jù)都會標(biāo)明來源[15]。
基于開放獲取的引文數(shù)據(jù),OCC計劃開發(fā)多種智能化分析服務(wù),如分面搜索和瀏覽工具、建議和趨勢識別服務(wù)以及基于時間的可視化服務(wù)等,其中部分服務(wù)已在OCC原型系統(tǒng)中實現(xiàn)。隨著覆蓋范圍的不斷擴(kuò)大,OCC在計算引用評價指標(biāo)有用性方面也將不斷提升。
3.2 借助外部權(quán)威數(shù)據(jù)源糾正引文數(shù)據(jù)的不一致問題
受數(shù)據(jù)庫自身收錄文獻(xiàn)類型、數(shù)量或范圍的影響,不同引文庫引文數(shù)據(jù)相差較大,計算機(jī)領(lǐng)域更為明顯,同一篇論文在Google Scholar的引用次數(shù)會遠(yuǎn)高于其他數(shù)據(jù)源。由于計算機(jī)領(lǐng)域很多重要成果以會議論文方式出版,而Google Scholar對會議論文的收錄及標(biāo)引最完整,因此,既使其準(zhǔn)確性低于其他引文庫,計算機(jī)領(lǐng)域?qū)W者也更傾向于使用Google Scholar查詢論文的引用次數(shù)。但Google Scholar不允許非訂購用戶對其進(jìn)行檢索,并以定義的格式返回結(jié)果,這大幅降低了其在構(gòu)建引文網(wǎng)絡(luò)中的影響與地位[17]。
此外,引文數(shù)據(jù)在準(zhǔn)確性方面也存在一定問題。據(jù)不完全統(tǒng)計,在已出版文獻(xiàn)的引文數(shù)據(jù)中,存在不同程度的錯誤(約1%),如弄錯論文題目或作者姓名中的符號,缺少介詞,年代、卷期號、頁碼,或DOI等書寫錯誤。為降低錯誤引文數(shù)據(jù)的數(shù)量,OCC開始借助外部資源提供的權(quán)威書目記錄來糾正引文數(shù)據(jù)庫中的錯誤,同時也提供引文數(shù)據(jù)在線檢錯服務(wù)[18]。
3.3 通過SPAR本體增強(qiáng)引文數(shù)據(jù)的語義性
傳統(tǒng)的引文分析法只考慮在題錄數(shù)據(jù)中列出的參考文獻(xiàn),關(guān)注文獻(xiàn)間存在的引用關(guān)系,缺乏對引用行為的語義描述,包括引用功能(引文對施引文獻(xiàn)的作用,如背景、基礎(chǔ)、比較等)、觀點傾向(否定或批判性引用會降低引文的價值)、引用頻率(文獻(xiàn)被引頻次越高,其學(xué)術(shù)貢獻(xiàn)越大)、引用位置(在方法、實驗、結(jié)論等部分的引文通常比引言、研究現(xiàn)狀或背景等部分的引文對于施引文獻(xiàn)的學(xué)術(shù)價值更大)、施引文獻(xiàn)的類型(如研究論文、技術(shù)論文、理論概念、案例分析、文獻(xiàn)綜述或一般性評論,因類型不同,其引用的價值也不同)等,這使得引用文獻(xiàn)對于施引文獻(xiàn)的具體貢獻(xiàn)以及重要性無法準(zhǔn)確展現(xiàn),引用文獻(xiàn)的相關(guān)信息如標(biāo)題、關(guān)鍵詞、摘要、作者、機(jī)構(gòu)等不能被正確、全面地理解,從而造成不同知識源間融合和互聯(lián)的困難[10,19,20,21,22]。
針對上述問題,OCC通過引入描述學(xué)術(shù)交流、出版和引用信息的結(jié)構(gòu)化領(lǐng)域本體SPAR,實現(xiàn)文獻(xiàn)元數(shù)據(jù)和引文數(shù)據(jù)的自動化處理與互操作。如表1所示,SPAR由8個(FaBiO、CiTO、BiRO、C4O、DoCO、PRO、PSO和PWO)覆蓋整個學(xué)術(shù)出版過程的通用本體構(gòu)成,基本整合了出版與引用相關(guān)的所有屬性。前4個本體主要用于描述書目對象、書目記錄、參考文獻(xiàn)列表、引用角色、引文記錄、引文背景等;后4個本體主要為組織文檔內(nèi)容組件、出版角色、出版狀態(tài)及出版流程提供結(jié)構(gòu)化的控制詞表。8個本體既可單獨使用,也可以聯(lián)成一體并用,各本體通過OWL2.0進(jìn)行編碼[22]。其中,CiTO主要通過在RDF語句中嵌入修辭性質(zhì)的元數(shù)據(jù)來描述科技文獻(xiàn)中不同參考文獻(xiàn)的引用角色。實現(xiàn)該過程的工具為CiTO參考注釋工具,其支持以自然語言和受控術(shù)語兩種方式描述參考文獻(xiàn)的語義特征[23]。
表1 SPAR中8個本體的功能
從上述對OCC的分析看出,實現(xiàn)引文數(shù)據(jù)開放關(guān)聯(lián)的關(guān)鍵點主要有以下內(nèi)容。第一,盡可能爭取出版商的支持,通過簽署收割協(xié)議或者倡導(dǎo)開放獲取行動為抓取書目資源及相關(guān)引文數(shù)據(jù)提供法律保障;同時,采用CC協(xié)議發(fā)布關(guān)聯(lián)化后的引文數(shù)據(jù),支持用戶對引文關(guān)聯(lián)數(shù)據(jù)的自由使用,實現(xiàn)創(chuàng)建OCC的初衷。第二,構(gòu)建元數(shù)據(jù)模型,篩選核心實體,確定主要屬性元素,明確不同實體間的關(guān)聯(lián)關(guān)系,并為每個實體賦予唯一命名域,制定實例的命名規(guī)則,這是抓取實例數(shù)據(jù)的前提。通過元數(shù)據(jù)模型搭建書目資源內(nèi)容表達(dá)、參考文獻(xiàn)、載體表現(xiàn)、唯一標(biāo)識符、代理及代理角色等實體(在實際應(yīng)用中,根據(jù)具體需求,也可以擴(kuò)展機(jī)構(gòu)、項目、相關(guān)數(shù)據(jù)集等其他實體)的關(guān)聯(lián)框架。第三,通過自動化程序提高實例數(shù)據(jù)的抓取效率,既包括從XML文檔中抽取盡可能多的引文數(shù)據(jù),轉(zhuǎn)化為JSON格式存儲,從源頭上把大量非結(jié)構(gòu)化信息變成結(jié)構(gòu)化信息;也包括充分利用DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等唯一標(biāo)識符盡可能擴(kuò)展引文信息,并用元數(shù)據(jù)元素作為謂詞揭示這些信息與書目資源的各種語義關(guān)聯(lián),為后續(xù)知識推理及知識發(fā)現(xiàn)奠定基礎(chǔ)。第四,利用SPAR本體為引文信息添加引用類型、引用角色等語義標(biāo)簽,實現(xiàn)對引用單元的語義標(biāo)注,為用戶理解引用內(nèi)涵及科學(xué)引文分析奠定基礎(chǔ)。第五,建立與相關(guān)人員、機(jī)構(gòu)、項目、事件、知識資源、數(shù)據(jù)庫集等外部關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),多維度展示相關(guān)領(lǐng)域的隱性知識體系結(jié)構(gòu),豐富語義內(nèi)容,實例間的關(guān)聯(lián)關(guān)系通過類屬性來揭示。
總之,OCC融匯了對書目資源內(nèi)外部特征、引文數(shù)據(jù)的挖掘以及多維度知識關(guān)聯(lián)的構(gòu)建,同時關(guān)聯(lián)了外部數(shù)據(jù)集,形成“從來源數(shù)據(jù)抓取書目及引文數(shù)據(jù)-擴(kuò)展元數(shù)據(jù)-語義標(biāo)注-知識關(guān)聯(lián)”的工作流程,并以此為基礎(chǔ)實現(xiàn)引文數(shù)據(jù)的開放共享。
我國機(jī)構(gòu)數(shù)據(jù)庫、學(xué)科數(shù)據(jù)庫數(shù)量眾多,也制定了相應(yīng)的引文數(shù)據(jù)開放獲取管理政策,但對于如何實施引文數(shù)據(jù)的開放獲取計劃,如何與出版商合作促進(jìn)引文數(shù)據(jù)的開放與語義關(guān)聯(lián),還有待進(jìn)一步探究。我國的圖書情報服務(wù)機(jī)構(gòu)應(yīng)抓住機(jī)遇,制定可動態(tài)調(diào)整的引文分析發(fā)展戰(zhàn)略,整合專業(yè)機(jī)構(gòu)技術(shù)力量,與有關(guān)圖情機(jī)構(gòu)開展合作研究;同時,還要與計算機(jī)、網(wǎng)絡(luò)技術(shù)人員合作,積極探索將引文數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)的方式方法,為我國引文數(shù)據(jù)的開放關(guān)聯(lián)提供參考。
[1]ROUSSEAU R,LIU Y.Interestingness and the essence of citation[J].Journal of Documentation,2013,69(4):580-589.
[2]CHADEGANI A A,SALEHI H,YUNUS M M,et al.A comparison between two main academic literature collections: Web of Science and Scopus Databases[J].Asian Social Science,2013,9(5):18-26.
[3]National Steering Committee on Open Access Policy.National principles for open access policy statement[J].Growth Hormone &Igf Research,2015,25(1):28-33.
[4]SWAN A.The open access citation advantage: studies and results to date[J].Journal of Geophysical Research Atmospheres,2010,112(FO2S06):195-225.
[5]PIWOWAR H A,DAY R S,FRIDSMA D B.Sharing detailed research data is associated with increased citation rate[J].Plos One,2007,2(3):e308.
[6]PIWOWAR H A,VISION T J.Data reuse and the open data citation advantage[J].Peerj,2013,1(3):e175.
[7]Dalmeet Singh Chawla.Now free:citation data from 14 million papers, and more might come[EB/OL].[2017-04-06].http://www.sciencemag.org/news/2017/04/now-free-citation-data-14-millionpapers-and-more-might-come.
[8]Open Citation Corpus(OCC)[EB/OL].[2017-04-06].http://opencitations.org.
[9]Dryad Digital Repository[EB/OL].[2017-04-06].http://datadryad.org/.
[10]林芳芳,趙輝.美國Dryad數(shù)據(jù)庫共享政策及啟示[J].中國科技資源導(dǎo)刊,2015,47(6):48-52,94.
[11]PERONI S, DUTTON A,GRAY T, et al.Setting our bibliographic references free: towards open citation data[J].Journal of Documentation,2015,71(2):253-277.
[12]CrossRef metadata best practice to support key performance indicators(KPIs)for funding agencies[EB/OL].[2016-11-05].http://fundref.crossref.org/docs/funder_kpi_metadata_best_practice.html.
[13]SHOTTON D.Open citations[J].Nature,2013,502(7471):295-297.
[14]PERONI S,SHOTTON D.Metadata for the OpenCitations Corpus[EB/OL].(2016-07-07)[2016-11-05].https://dx.doi.org/10.6084/m9. fi gshare.3443876.
[15]FALCO R,GANGEMI A,SILVIO P,et al.Modelling OWL ontologies with Graffoo[C]//In the Semantic Web:ESWC 2014 Satellite Events.Springer,2014,8798:320-325.
[16]PERONI S,SHOTTON D,VITALI F.Freedom for bibliographic references:OpenCitations arise[EB/OL].[2016-11-05].https://w3id.org/oc/paper/occ-lisc2016.html.
[17]FRANCESCHET M.A comparison of bibliometric indicators for computer science scholars and journals on Web of Science and Google Scholar[J].Scientometrics,2010,83(1):243-258.
[18]SHOTTON D.Semantic publishing:the coming revolution in scienti fi c journal publishing[J].Learned Publishing,2009,22(2):85-94.
[19]PRIEM J.Scholarship:Beyond the paper[J].Nature,2013,495(7442):437-440.
[20]CIANCARINI P,IORIO A D,NUZZOLESE A G, et al. Characterising citations in scholarly articles:an experiment[C]//International Workshop on Arti fi cial Intelligence and Cognition.[S.1.]:[s.n],2013.
[21]TEUFEL S,SIDDHARTHAN A,DAN T.An annotation scheme for citation function[C]//Proceedings of Sigdial Workshop on Discourse & Dialogue.[S.1.]:[s.n],2006.
[22]BERGSTROM C T,WEST J D, WISEMAN M A.The eigenfactor(TM)metrics[J].Journal of Neuroscience the Of fi cial Journal of the Society for Neuroscience,2008,28(45):11433-11434.
[23]PERONI S, SHOTTON D. FaBiO and CiTO: ontologies for describing bibliographic resources and citations[J].Web Semantics Science Services & Agents on the World Wide Web,2012,17(17):33-43.
作者簡介
宋丹輝,女,1983年生,博士,館員,研究方向:知識組織、知識服務(wù),E-mail:hkdsongdh@163.com。
The Open Citation Corpus Practice Case and Its Enlightenment
SONG DanHui
( Library of Henan University of Science and Technology, Luoyang 471023, China)
As a new kind of linked data, the open citation data has already made substantial progress abroad, but has not yet to start at home. To shorten the gap,this paper chooses Open Citation Project which has played an important role in academic communication system as learning case. The author not only analysis the construction achievements and practices of its scale, technical route, the metadata model and working process in-depth, but also elaborates the methods and features in solving the problems of not easy to obtain, inconsistent, and semantic absence in citation dates. Moreover, summarizes the lessons to learn in aspects of development idea, key procedures, in order to provide sightedness suggestions to the construction of linked open citation data at home.
Citation Information; Openness and Relevance; Open Citations Corpus
G230
10.3772/j.issn.1673-2286.2017.07.009
2017-04-08)
* 本研究得到國家社會科學(xué)基金青年項目“基于引文內(nèi)容標(biāo)注的引文數(shù)據(jù)開放關(guān)聯(lián)模型及發(fā)布流程研究”(編號:17CTQ005)資助。