德國(guó)開放研究知識(shí)圖譜的構(gòu)建與應(yīng)用

2022-12-06 06:31:48李紅芹

新世紀(jì)圖書館 2022年10期

關(guān)鍵詞：信息研究

李紅芹翟軍

0 引言

伴隨著信息技術(shù)的發(fā)展，科學(xué)出版物的數(shù)字訪問(wèn)得到了提高，但科學(xué)研究的基本原則沒(méi)有變，文獻(xiàn)仍是主要的交流形式。內(nèi)容方面，科學(xué)文獻(xiàn)基本上是學(xué)術(shù)交流的唯一內(nèi)容，實(shí)驗(yàn)數(shù)據(jù)、軟件和其他資料大多未提供。

現(xiàn)階段，以文獻(xiàn)為中心的科學(xué)研究能力已經(jīng)發(fā)揮到了極致，但在科學(xué)文獻(xiàn)檢索的全面性與高效性、同行評(píng)審的科學(xué)性和科學(xué)試驗(yàn)的可重復(fù)性方面面臨著極大的考驗(yàn)。美國(guó)國(guó)家科學(xué)基金會(huì)的統(tǒng)計(jì)報(bào)告顯示：2004年至2014年間，科學(xué)文獻(xiàn)幾乎翻了一番[1]。2018年全球發(fā)表的科學(xué)論文已達(dá)2 555 959篇，2008年至2018年間，每年增長(zhǎng)約4%。2018年，中國(guó)超過(guò)美國(guó)和歐洲，成為全球最大的科研論文生產(chǎn)國(guó)。作為科研人員，要想弄清楚研究問(wèn)題相關(guān)的所有論文、全局把握研究動(dòng)態(tài)變得越來(lái)越困難，而文獻(xiàn)檢索的不全面可能導(dǎo)致科研的重復(fù)和低效。同樣的，作為評(píng)審人員，要想公正評(píng)價(jià)評(píng)審文章，也需借助文獻(xiàn)檢索，對(duì)研究?jī)?nèi)容和已有研究成果全局把握。如此之快的發(fā)文增速導(dǎo)致尋找評(píng)審員和管理高質(zhì)量的同行評(píng)審過(guò)程很難。由此帶來(lái)的連鎖反應(yīng)就是原稿修訂時(shí)間和反饋周期不斷延長(zhǎng)，文章發(fā)表期限被延期，進(jìn)而出現(xiàn)研究成果在發(fā)表過(guò)程中變得過(guò)期無(wú)效[2]，而科研人員始終無(wú)法獲取最新研究動(dòng)態(tài)。針對(duì)科學(xué)試驗(yàn)的可重復(fù)性，《自然》雜志對(duì)1576名不同領(lǐng)域的科研人員進(jìn)行了在線網(wǎng)絡(luò)調(diào)查，52%的被調(diào)查者認(rèn)為試驗(yàn)可重復(fù)性是一個(gè)比較大的問(wèn)題，超過(guò)70%的被調(diào)查者有過(guò)重復(fù)別人的試驗(yàn)失敗的經(jīng)歷。當(dāng)然，不同領(lǐng)域的情況也不相同，心理學(xué)和腫瘤生物學(xué)文獻(xiàn)的可重復(fù)性分別只有40%和10%[3]。計(jì)算機(jī)科學(xué)正在通過(guò)使用開源軟件、發(fā)布源代碼并允許他人使用來(lái)提高可重復(fù)性?？茖W(xué)試驗(yàn)的可重復(fù)性危機(jī)降低了科研的進(jìn)展效率。

科學(xué)文獻(xiàn)檢索低效的根源在于基于文獻(xiàn)的科學(xué)研究機(jī)制不允許清晰地識(shí)別概念及其關(guān)系?？蒲泄ぷ髡咄ㄟ^(guò)關(guān)鍵字查找所需文獻(xiàn)，但機(jī)器無(wú)法識(shí)別隱藏在文獻(xiàn)中的概念、術(shù)語(yǔ)和研究方法，科研工作者需要花費(fèi)大量的時(shí)間來(lái)進(jìn)行文獻(xiàn)檢索，從成百上千甚至成千上萬(wàn)篇文獻(xiàn)中找到與研究?jī)?nèi)容直接相關(guān)的文獻(xiàn)，然后通過(guò)閱讀在頭腦中建立自己的知識(shí)圖譜，在此基礎(chǔ)上與之互動(dòng)。由此可見，基于關(guān)鍵字的信息檢索無(wú)法滿足數(shù)字時(shí)代科學(xué)研究的要求，解決這個(gè)問(wèn)題的關(guān)鍵是如何借助機(jī)器實(shí)現(xiàn)文獻(xiàn)的高效檢索。

知識(shí)圖譜可以將文獻(xiàn)中隱含的信息結(jié)構(gòu)明確表示且直接可用，通過(guò)表達(dá)和表示結(jié)構(gòu)化、互連和語(yǔ)義豐富的信息，實(shí)現(xiàn)將以文獻(xiàn)為中心的科學(xué)研究信息流轉(zhuǎn)換成基于知識(shí)的信息流[4]，使得科學(xué)信息和搜索結(jié)果無(wú)縫互聯(lián)，研究結(jié)果直接可比且易使用，更好地滿足科研工作者的信息需求。當(dāng)前，科學(xué)研究生態(tài)系統(tǒng)中的一些可用基礎(chǔ)設(shè)施已經(jīng)使用知識(shí)圖譜來(lái)增強(qiáng)其服務(wù)，如學(xué)術(shù)搜索引擎。微軟學(xué)術(shù)知識(shí)圖（Microsoft Academic Knowledge Graph）[5]或文獻(xiàn)圖（Literature Graph）采用基于元數(shù)據(jù)的圖結(jié)構(gòu)將基于引用、共享作者、地點(diǎn)和關(guān)鍵字的研究文章鏈接起來(lái)。國(guó)外學(xué)術(shù)交流社區(qū)已啟動(dòng)的關(guān)系密切的項(xiàng)目包括：RESEARCH GRAPH旨在鏈接研究對(duì)象，尤其是發(fā)表物、數(shù)據(jù)集、研究人員檔案[6]；OpenAIRE[7]計(jì)劃將研究文章與數(shù)據(jù)集、源代碼、軟件和演示視頻等研究資料相鏈接；學(xué)術(shù)鏈接交換Scholix項(xiàng)目[8]旨在將學(xué)術(shù)文獻(xiàn)和發(fā)布者、數(shù)據(jù)存儲(chǔ)者、基礎(chǔ)設(shè)施如DataCite、Crossref和openAIRE等鏈接信息標(biāo)準(zhǔn)化。國(guó)內(nèi)，白如江等定義了科學(xué)事件的實(shí)體及其關(guān)系，構(gòu)建了科學(xué)事件知識(shí)圖譜[9]，研究重點(diǎn)是放在文獻(xiàn)的發(fā)布信息上，沒(méi)有深入到文獻(xiàn)內(nèi)容，如研究問(wèn)題、研究方法、研究結(jié)果等。王月等提出了構(gòu)建科研數(shù)字資源平臺(tái)的整體架構(gòu)及其技術(shù)路線，將科研活動(dòng)中產(chǎn)生的各種資源，包括文本、圖像、音視頻、模型和實(shí)驗(yàn)數(shù)據(jù)等放到平臺(tái)上，為科學(xué)研究發(fā)展提供數(shù)據(jù)支撐[10]。然而，目前知識(shí)圖譜在科學(xué)研究中的應(yīng)用仍局限于百科全書式的事實(shí)信息描述，許多工作集中在書目元數(shù)據(jù)表示和管理，對(duì)學(xué)術(shù)文獻(xiàn)中的科學(xué)信息交流的形式化表示關(guān)注較少。本文以德國(guó)開放研究知識(shí)圖譜為例，介紹如何在開放研究中構(gòu)建知識(shí)圖譜。

1 開放研究知識(shí)圖譜的定義

LISA E和WOLFRAM W討論了“知識(shí)圖譜”這一術(shù)語(yǔ)，并基于當(dāng)前科學(xué)研究工作的分析提出了“知識(shí)圖譜獲取并集成信息到本體中，并應(yīng)用推理機(jī)得到新的知識(shí)”[11]的定義并將之應(yīng)用于科學(xué)研究中，認(rèn)為“科學(xué)知識(shí)圖譜獲取和集成科學(xué)知識(shí)庫(kù)中的信息，并應(yīng)用推理機(jī)或其他計(jì)算方法來(lái)獲取新信息?！笨茖W(xué)知識(shí)圖譜不僅包含書目元數(shù)據(jù)（如作者、會(huì)議、參考文獻(xiàn)），同時(shí)也包含了學(xué)術(shù)貢獻(xiàn)的語(yǔ)義描述（如研究問(wèn)題、方法、解決方案、實(shí)現(xiàn)、評(píng)估）。另外，科學(xué)知識(shí)圖譜的構(gòu)建采用了眾包的方法，通過(guò)啟動(dòng)一個(gè)開源軟件項(xiàng)目創(chuàng)建科學(xué)知識(shí)圖譜的原型，然后將模型放到開源社區(qū)使其開放可獲取，允許科研工作者、圖書管理員、評(píng)審員等自行加載文獻(xiàn)信息到知識(shí)圖譜，建立自己的研究與其他研究方法的鏈接。JARADEH等的研究[12]表明，作者愿意為他們的研究文章的描述貢獻(xiàn)相關(guān)服務(wù)。由于項(xiàng)目是開放可獲取的，以眾包的方式完成圖譜的填充，因此這個(gè)知識(shí)圖譜被稱為開放研究知識(shí)圖譜（Open Research Knowledge Graph，ORKG）[13]。開放研究知識(shí)圖譜以開放和透明的方式提供、交換和鏈接科學(xué)知識(shí)，是以機(jī)器可操作的方式表示、管理和探索學(xué)術(shù)知識(shí)的基礎(chǔ)設(shè)施。早在2013年，我國(guó)學(xué)者曾建勛就曾提出構(gòu)建開放式知識(shí)鏈接服務(wù)體系，認(rèn)為其將成為下一步知識(shí)服務(wù)的關(guān)鍵業(yè)務(wù)，可實(shí)現(xiàn)全球不同類型知識(shí)資源的無(wú)縫、開放的鏈接。

2 德國(guó)開放研究知識(shí)圖譜的構(gòu)建

德國(guó)開放研究知識(shí)圖譜由漢諾威萊布尼茲大學(xué)的數(shù)據(jù)科學(xué)和數(shù)字圖書館教授、TIBLeibniz信息科學(xué)和技術(shù)中心主任SOREN A博士主持。SOREN A博士因其研究工作“科學(xué)圖譜——基于知識(shí)圖譜的學(xué)術(shù)交流表示、擴(kuò)充和探索”獲得了歐洲研究委員會(huì)（ERC）的鞏固基金支持。項(xiàng)目設(shè)在萊布尼茨“數(shù)據(jù)科學(xué)與開放知識(shí)”聯(lián)合實(shí)驗(yàn)室，由漢諾威萊布尼茲大學(xué)第三研究中心、TIB（Technische Informationsbibliothek）和 InfAI（Institut für Angewandte Informatik）合作完成。研究周期為五年，從2019年5月1日至2024年4月30日?，F(xiàn)有的科學(xué)研究知識(shí)圖譜側(cè)重于特定領(lǐng)域、管理元數(shù)據(jù)和搜索文獻(xiàn)的插件。項(xiàng)目組設(shè)計(jì)的知識(shí)圖譜愿景是通過(guò)文獻(xiàn)內(nèi)容的深度語(yǔ)義表示實(shí)現(xiàn)文獻(xiàn)間的鏈接，從而支持進(jìn)一步的探索。項(xiàng)目的目標(biāo)是開發(fā)一個(gè)新的模型，通過(guò)語(yǔ)義豐富、相互關(guān)聯(lián)的知識(shí)圖譜來(lái)表達(dá)和鏈接學(xué)術(shù)貢獻(xiàn)和相關(guān)的研究資料，以基于知識(shí)的方式來(lái)表示、分析、增強(qiáng)和開發(fā)科學(xué)研究。

2.1 開放研究知識(shí)圖譜的體系結(jié)構(gòu)

體系結(jié)構(gòu)涉及多個(gè)方面，從定義數(shù)據(jù)模型，呈現(xiàn)資源，到通過(guò)API展示系統(tǒng)。基于ORKG的需求，項(xiàng)目組將體系結(jié)構(gòu)分為前端和后端兩大部分，具體如圖1所示。

圖1 ORKG體系結(jié)構(gòu)[14]

后端采用層次結(jié)構(gòu)，包括應(yīng)用程序?qū)?，領(lǐng)域?qū)雍统志脤覽14-16]。作為體系結(jié)構(gòu)的最底層，持久層負(fù)責(zé)存儲(chǔ)數(shù)據(jù)。知識(shí)圖譜存儲(chǔ)需要實(shí)現(xiàn)能夠隨著時(shí)間的推移實(shí)現(xiàn)知識(shí)圖譜的演化（如添加新的知識(shí)類型），并以高效的方式訪問(wèn)圖譜中的知識(shí)。持久層抽象數(shù)據(jù)存儲(chǔ)通過(guò)LPG、三元組存儲(chǔ)和關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)實(shí)現(xiàn)，每種技術(shù)都有特定的用途。所有插入到知識(shí)圖中的數(shù)據(jù)將通過(guò)對(duì)特定存儲(chǔ)技術(shù)不敏感的持久層進(jìn)行持久化。領(lǐng)域?qū)影⒅R(shí)圖譜的領(lǐng)域模型（如陳述、資源和文本），身份驗(yàn)證，以及授權(quán)組件。需要注意的是，版本控制和溯源信息也是領(lǐng)域模型的一部分，溯源信息包括創(chuàng)作時(shí)間和作者，如一個(gè)實(shí)體何時(shí)由誰(shuí)創(chuàng)建，以便跟蹤存儲(chǔ)數(shù)據(jù)的變化。身份驗(yàn)證允許用戶使用單獨(dú)的工作單簽名進(jìn)入ORKG，如ORCID，減少輸入障礙，促進(jìn)合作。授權(quán)組件可實(shí)現(xiàn)復(fù)雜的角色管理，ORKG通過(guò)角色管理可實(shí)現(xiàn)各類用戶的授權(quán)。應(yīng)用層提供了與外部世界交流的端口，方便用戶界面訪問(wèn)知識(shí)圖譜中的信息。REST API通過(guò)連接學(xué)術(shù)知識(shí)貢獻(xiàn)，引用和探索的特征和服務(wù)，為前端知識(shí)圖譜可視化提供數(shù)據(jù)支持。ORKG還可通過(guò)REST API發(fā)送HTTP請(qǐng)求進(jìn)行數(shù)據(jù)的修改和查詢，從而允許其他應(yīng)用與數(shù)據(jù)庫(kù)交流。其他可能的適配器包括SPARQL端點(diǎn)和GraphQL接口。業(yè)務(wù)邏輯的RDF導(dǎo)入和導(dǎo)出支持LPG和三元組存儲(chǔ)之間的數(shù)據(jù)同步，使得SPARQL和推理有效，處理查詢、更新并在數(shù)據(jù)庫(kù)中創(chuàng)建內(nèi)容的請(qǐng)求。

前端用戶界面負(fù)責(zé)查詢和顯示知識(shí)圖的數(shù)據(jù)，項(xiàng)目組借鑒WikiData項(xiàng)目——基于中心社區(qū)創(chuàng)建的Wikipedia數(shù)據(jù)管理平臺(tái)的設(shè)計(jì)經(jīng)驗(yàn)，目標(biāo)是為用戶提供一個(gè)向?qū)В糜谥笇?dǎo)用戶創(chuàng)建以圖形為基礎(chǔ)的研究貢獻(xiàn)表示，支持靈活性，可由用戶自定義域特定的交互。用戶界面設(shè)計(jì)的關(guān)鍵要求包括：（1）易用性，允許使用者在不了解系統(tǒng)需求的情況下使用系統(tǒng)；（2）動(dòng)態(tài)性，允許用戶最大程度控制數(shù)據(jù)引用，對(duì)所選學(xué)術(shù)數(shù)據(jù)進(jìn)行調(diào)整；（3）查詢便捷性，知識(shí)圖譜不需要注冊(cè)即可查詢。

2.2 開放研究知識(shí)圖譜的知識(shí)構(gòu)建

根據(jù)JEFF Z.P等[17]提出的大型組織開發(fā)知識(shí)圖譜的生命周期，知識(shí)構(gòu)建包括需求分析、知識(shí)建模和知識(shí)填充三個(gè)方面。

2.2.1 ORKG需求分析

需求分析是設(shè)計(jì)決策和方法選擇的基礎(chǔ)，項(xiàng)目組遵循設(shè)計(jì)科學(xué)研究（DSR）方法論[18]，通過(guò)研究系統(tǒng)文獻(xiàn)綜述指南[19]，采訪計(jì)算機(jī)科學(xué)和環(huán)境科學(xué)領(lǐng)域的軟件工程師和研究人員，設(shè)計(jì)構(gòu)建ORKG的方法，最后由ORKG團(tuán)隊(duì)成員對(duì)提出的需求和方法進(jìn)行了評(píng)審[20]。項(xiàng)目組通過(guò)識(shí)別用例（如文獻(xiàn)回顧、剽竊檢測(cè)、同行評(píng)議）和利益相關(guān)者（如科研人員、圖書管理員、評(píng)審員、公眾）展開分析，具體需求如圖2所示[20]。

圖2 ORKG需求分析

圖2中的ORKG具體需求包括：（1）為了滿足研究人員能夠搜索或?yàn)g覽到關(guān)心的研究領(lǐng)域，支持研究人員獲得研究領(lǐng)域的最新概況，系統(tǒng)應(yīng)以結(jié)構(gòu)化的方式維護(hù)此類調(diào)查。（2）研究人員在對(duì)相關(guān)工作提出相關(guān)研究文章查詢，進(jìn)行細(xì)粒度或廣泛的搜索時(shí)，系統(tǒng)最好支持自然語(yǔ)言查詢方式，通過(guò)語(yǔ)義搜索和問(wèn)答引擎返回一組相關(guān)文章。（3）在以文件為核心的學(xué)術(shù)交流中，給定一組相關(guān)文章來(lái)評(píng)估研究者是否感興趣時(shí)，需基于語(yǔ)義描述特性的分面深入方法以結(jié)構(gòu)化的方式向研究人員展示文章中最重要的區(qū)域，如研究問(wèn)題、采用的方法或材料，或研究結(jié)果，將使研究人員能夠快速篩選和放大最相關(guān)的文獻(xiàn)。（4）為了解決特定的研究問(wèn)題，系統(tǒng)應(yīng)支持研究人員從研究文章中提取詳細(xì)信息并在表格中顯示提取表單和文章的提取信息。（5）當(dāng)研究者專注于某一特定文章時(shí)，系統(tǒng)應(yīng)推薦更多相關(guān)文章，例如解決相同研究問(wèn)題或采用類似方法的文章。（6）系統(tǒng)在幫助研究人員深入理解研究文獻(xiàn)時(shí)，應(yīng)將文獻(xiàn)與會(huì)議視頻、演示文稿、源代碼、數(shù)據(jù)集等鏈接起來(lái)，并適當(dāng)?shù)乜梢暬Ｎ谋径温湟部梢韵嗷ユ溄?，如維基百科中的方法解釋、算法或公式的源代碼。（7）系統(tǒng)應(yīng)提供搜索鏈接，以再現(xiàn)研究結(jié)果所需的所有事實(shí)，如數(shù)據(jù)集、源代碼、虛擬研究環(huán)境、研究材料等。

2.2.2 ORKG知識(shí)建模

如LISA E和WOLFRAM W[11]所述，本體是知識(shí)圖譜的核心元素，作為圖譜輸入而獲得的所有信息都集成到了圖譜背后潛在的本體網(wǎng)絡(luò)中。因此，本體是科學(xué)研究形式化的基礎(chǔ)和核心要素。本體設(shè)計(jì)主要從領(lǐng)域?qū)I(yè)化和粒度兩方面考慮：領(lǐng)域?qū)I(yè)化從本體中的概念應(yīng)該如何具體化出發(fā)，采用領(lǐng)域無(wú)關(guān)還是領(lǐng)域特定的本體設(shè)計(jì)方法[21]；本體的粒度則是從學(xué)術(shù)知識(shí)概念化需要哪種粒度考慮本體設(shè)計(jì)。

盡管已經(jīng)有一些覆蓋科學(xué)研究過(guò)程的本體論研究，然而，對(duì)于一些基本問(wèn)題，如“學(xué)術(shù)交流的內(nèi)容是什么”“研究貢獻(xiàn)的重要組成部分是什么”，這類很難回答，也很難形式化。因此，項(xiàng)目組決定將“研究貢獻(xiàn)”作為本體論的頂級(jí)，定義詳細(xì)的知識(shí)工程流程，用于開發(fā)可用于科學(xué)圖譜基礎(chǔ)結(jié)構(gòu)以支持存儲(chǔ)查找信息的領(lǐng)域本體論?！把芯控暙I(xiàn)”（Research Contribution）是ORKG的核心對(duì)象，與研究問(wèn)題（Research Problem）、研究方法（Research Method）和研究結(jié)果（Research Result）相關(guān)。當(dāng)前，對(duì)于這些資源的描述不做限制，用戶可以采用任何的第三方詞匯來(lái)描述問(wèn)題、方法和結(jié)果。此外，為了支持溯源和論述，項(xiàng)目組計(jì)劃重用PROV本體和文檔組件本體[22]。

2.2.3 ORKG知識(shí)填充

知識(shí)填充需考慮三個(gè)方面的問(wèn)題：一是實(shí)例數(shù)據(jù)的選??；二是如何實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換；三是數(shù)據(jù)鏈接。

實(shí)例數(shù)據(jù)選取從覆蓋范圍和質(zhì)量?jī)煞矫婵紤]：實(shí)例數(shù)據(jù)的覆蓋范圍是指給定一個(gè)本體，在多大程度上能將研究文獻(xiàn)中的所有可能實(shí)例都用知識(shí)圖譜表示？如果所有實(shí)例都存在，那么該本體的實(shí)例數(shù)據(jù)將具有很高的覆蓋率。實(shí)例數(shù)據(jù)的質(zhì)量是指給定一個(gè)本體，對(duì)應(yīng)的實(shí)例需要什么質(zhì)量？高質(zhì)量的知識(shí)圖譜中，所有實(shí)例都應(yīng)符合本體論，并適當(dāng)反映研究文獻(xiàn)的內(nèi)容。

知識(shí)圖譜的填充通常需要集成多種異構(gòu)數(shù)據(jù)源，常用方法是使用聲明性映射建立數(shù)據(jù)源和本體間的關(guān)系。然而，創(chuàng)建映射不是一項(xiàng)簡(jiǎn)單的任務(wù)，通常由專家執(zhí)行。為了簡(jiǎn)化映射創(chuàng)建，項(xiàng)目組采用了在科學(xué)界常用的工具——電子表格，以確定語(yǔ)言獨(dú)立的映射規(guī)則。使用者可以在不知道任何映射語(yǔ)言的情況下創(chuàng)建規(guī)則，電子表格緊湊的結(jié)構(gòu)允許快速可視化所有規(guī)則。項(xiàng)目組通過(guò)一個(gè)真實(shí)的用例Bio2RDF項(xiàng)目，驗(yàn)證了電子表格有助于映射創(chuàng)建和啟用映射規(guī)則的編輯和可視化[23]。

數(shù)據(jù)鏈接方面，為了使用其他元數(shù)據(jù)豐富ORKG數(shù)據(jù)，可以從其他源加載或鏈接數(shù)據(jù)，如 DataCite、Crossref、WikiData。數(shù)據(jù)鏈接的關(guān)鍵是有連接點(diǎn)，如DOI，ORCID等。

2.2.4 知識(shí)圖譜構(gòu)建方法

通過(guò)分析ORKG的需求、知識(shí)建模和知識(shí)填充方法，可得出ORKG適用的構(gòu)建方法，分析過(guò)程如表1。表1上半部分討論了ORKG需求在本體的領(lǐng)域?qū)I(yè)化和粒度，實(shí)例數(shù)據(jù)的覆蓋率和質(zhì)量四個(gè)維度方面的具體要求，并根據(jù)實(shí)際要求分成了高、中、低三個(gè)層次。下半部分對(duì)每種需求的手動(dòng)和自動(dòng)構(gòu)建過(guò)程進(jìn)行了考察，檢查構(gòu)建過(guò)程的每個(gè)步驟是否適用于需求?！癤”表示步驟適用于需求；“（X）”表示步驟不適合需求，應(yīng)采用人工監(jiān)督。

表1 ORKG功能性需求與非功能性需求之間的對(duì)應(yīng)關(guān)系及其構(gòu)建方法[20]

下面從具體需求來(lái)展開分析。（1）提取相關(guān)信息并獲取研究領(lǐng)域概述：從相關(guān)研究文章中提取的數(shù)據(jù)是異構(gòu)的，高度依賴于研究者的意圖和研究問(wèn)題。因此，本體必須是特定領(lǐng)域和細(xì)粒度的，以提供各種可能的理想信息。此外，所提供的信息必須是高質(zhì)量的。覆蓋率要求較低，對(duì)于研究人員來(lái)說(shuō)，在圖譜中缺少某些問(wèn)題的信息是可以容忍的。（2）獲得深入理解并再現(xiàn)結(jié)果：為這些需求提供的信息必須是高質(zhì)量的（如到數(shù)據(jù)集、源代碼、視頻、文章的準(zhǔn)確鏈接）。用于表示相關(guān)資料的本體可以獨(dú)立于領(lǐng)域，覆蓋率要求低，缺少某些信息是可以容忍的。（3）發(fā)現(xiàn)相關(guān)工作并獲得推薦文章：在搜索相關(guān)工作時(shí)，一定不能漏掉相關(guān)文章。先前的研究表明，超過(guò)一半的搜索引擎存在著較高的靈敏度和生態(tài)科學(xué)度。通過(guò)搜索知識(shí)圖譜改進(jìn)搜索結(jié)果的級(jí)別，因此，發(fā)現(xiàn)相關(guān)工作需求應(yīng)具有較高的覆蓋率，且具有較高的細(xì)粒度。由于研究者無(wú)法忍受研究結(jié)果的不完善性，低質(zhì)量的信息實(shí)例數(shù)據(jù)是可接受的。此外由于潛在的特征表示，本體可以與領(lǐng)域無(wú)關(guān)。即本體的特征表示、細(xì)粒度的科學(xué)實(shí)體和非完美的推薦是可以容忍的。（4）評(píng)估相關(guān)性：為了幫助研究人員根據(jù)自己的需要評(píng)估文章的相關(guān)性，系統(tǒng)應(yīng)突出文章中最基本的信息，以便快速獲得概述。所提供信息的覆蓋范圍和質(zhì)量不能太低，否則可能會(huì)影響用戶的判斷。然而，它可能是次優(yōu)的，當(dāng)一些突出顯示的信息不是必需的或當(dāng)一些重要信息丟失時(shí)，研究人員是可接受的。表示基本信息的本體應(yīng)該是特定領(lǐng)域的。

基于上述分析，項(xiàng)目組將需求分為兩組：第一組要求高質(zhì)量和高領(lǐng)域?qū)I(yè)化，但對(duì)覆蓋率要求很低（表1中的提取相關(guān)信息、研究領(lǐng)域概述、深度理解和再現(xiàn)結(jié)果）；第二組要求高覆蓋率，但對(duì)質(zhì)量和領(lǐng)域?qū)I(yè)化的要求很低（表1中的發(fā)現(xiàn)相關(guān)工作、獲取推薦文章和評(píng)估相關(guān)性）。

具體構(gòu)建方法上，完全人工控制的時(shí)間太長(zhǎng)，自動(dòng)化程序不能達(dá)到必要的覆蓋范圍和精度。而且，圖書館員和信息科學(xué)家缺乏領(lǐng)域?qū)I(yè)知識(shí)，領(lǐng)域?qū)＜胰狈χR(shí)表示方面的知識(shí)。為了把各種策略結(jié)合起來(lái)，充分發(fā)揮各自優(yōu)勢(shì)來(lái)容忍和彌補(bǔ)各自的不足，項(xiàng)目組設(shè)計(jì)了表1下半部分的分析表格。經(jīng)過(guò)分析，項(xiàng)目組認(rèn)為第一組適合手工管理，第二組適合自動(dòng)管理，通過(guò)在用戶界面中提供建議來(lái)補(bǔ)充手動(dòng)管理。

手工管理的本體設(shè)計(jì)需要特定領(lǐng)域的細(xì)粒度的本體。項(xiàng)目組建議開發(fā)新的或重用的本體，以滿足各自的用例和特定的領(lǐng)域，可以在社區(qū)的幫助下發(fā)展，采用元建模，通過(guò)模板的元模型定義具體的模板，然后將其實(shí)例化。手工管理的知識(shí)圖譜填充需要借助用戶界面來(lái)實(shí)現(xiàn)手動(dòng)填充，適當(dāng)和簡(jiǎn)單的用戶界面對(duì)于高效和方便的訪問(wèn)是必要的。具體過(guò)程包括：（1）術(shù)語(yǔ)管理（例如特定研究領(lǐng)域）；（2）通過(guò)定義相關(guān)模板來(lái)方便填充研究文章的語(yǔ)義內(nèi)容；（3）通過(guò)選擇研究文獻(xiàn)對(duì)應(yīng)的模板和填寫文獻(xiàn)的信息將相關(guān)研究文章分配給研究領(lǐng)域；（4）維護(hù)研究領(lǐng)域概述。此外，系統(tǒng)還提供API以支持第三方應(yīng)用程序的填充，例如：（1）提交文獻(xiàn)的門戶網(wǎng)站，如easychair.org；（2）作者創(chuàng)作時(shí)使用的軟件；（3）虛擬研究環(huán)境[24]，用于在實(shí)驗(yàn)和數(shù)據(jù)分析期間存儲(chǔ)評(píng)估結(jié)果以及與數(shù)據(jù)集和源代碼的鏈接等。

自動(dòng)管理的本體設(shè)計(jì)可開發(fā)或重用相當(dāng)簡(jiǎn)單且與領(lǐng)域無(wú)關(guān)的本體，其中知識(shí)圖譜填充可以使用多種方法完成自動(dòng)填充，其中實(shí)體和關(guān)系提取方法有助于用高覆蓋率填充細(xì)粒度的知識(shí)圖譜；實(shí)體鏈接方法可以將文本中的實(shí)體鏈接；科學(xué)文本的語(yǔ)句分類方法可以從語(yǔ)句層面提取相關(guān)信息。為了半自動(dòng)地支持模板填寫，還可以為研究文章抽取相關(guān)模板并預(yù)先填寫相關(guān)信息。對(duì)于預(yù)填充，可以使用諸如用于排行榜構(gòu)建的自然語(yǔ)言推理或端到端問(wèn)答的方法。此外，系統(tǒng)還支持為某些科學(xué)領(lǐng)域開發(fā)的外部信息提取器，以提取特定類型的信息。

3 德國(guó)開放研究知識(shí)圖譜的應(yīng)用

知識(shí)應(yīng)用通過(guò)提供各種各樣的組件，使終端用戶更容易訪問(wèn)存儲(chǔ)在圖譜中的知識(shí)，從而提高知識(shí)圖譜的利用率和服務(wù)效果。ORKG提供了基本的搜索服務(wù)，可按照論文、研究問(wèn)題、作者、比較、資源、地方、謂詞實(shí)現(xiàn)分類檢索，并提供檢索結(jié)果的按類顯示。下面介紹ORKG的特色應(yīng)用。

3.1 比較研究貢獻(xiàn)

在進(jìn)行科學(xué)研究時(shí)，尋找和比較文獻(xiàn)是一項(xiàng)重要活動(dòng)。自動(dòng)比較研究文獻(xiàn)是ORKG的主要特性之一。ORKG利用圖譜中存儲(chǔ)的文獻(xiàn)信息及其研究貢獻(xiàn)，基于結(jié)構(gòu)化和可比較的描述，可實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)中針對(duì)特定問(wèn)題的貢獻(xiàn)比較。例如，利用計(jì)算機(jī)科學(xué)中排序算法的最佳、平均、最壞情況性能進(jìn)行比較研究。比較研究貢獻(xiàn)提供了有關(guān)數(shù)十或數(shù)百篇文獻(xiàn)中的再搜索問(wèn)題的關(guān)鍵信息的概述，是一種有價(jià)值的工具。

ORKG將比較研究貢獻(xiàn)任務(wù)分解為四個(gè)子任務(wù)[25]：（1）選擇比較候選。有兩種不同的方法來(lái)選擇比較資源，第一種自動(dòng)選擇基于相似性的比較資源，貢獻(xiàn)相似度是發(fā)現(xiàn)或推薦可比較的貢獻(xiàn)的關(guān)鍵特性[26]；第二種方法是人工添加資源。使用者可以利用右上方的“Add to comparison”功能人工添加資源。（2）選擇相關(guān)陳述。選擇上一步驟中返回的與用于比較的資源相關(guān)的陳述，陳述被傳遞性地選定，以匹配主體和客體。執(zhí)行搜索，直到達(dá)到預(yù)定義的最大傳遞深度。規(guī)律是屬性被嵌入的深度越深，比較的相關(guān)性越低。（3）映射屬性。文獻(xiàn)中經(jīng)常會(huì)出現(xiàn)用不同的屬性描述相同概念的情況，ORKG通過(guò)FastText[27]來(lái)確定屬性的相似性，映射屬性的執(zhí)行結(jié)果是返回每個(gè)比較資源的陳述列表。（4）可視化比較。以人類可理解的形式展示數(shù)據(jù)，其中表單是最適合可視化比較的。另外，可視化比較還需考慮哪些屬性應(yīng)該顯示或考慮結(jié)果表現(xiàn)的可能形式。由于使用了基于相似性的屬性匹配和預(yù)定義閾值，用戶能夠啟用或禁用屬性，獲得關(guān)于屬性來(lái)源的反饋，實(shí)現(xiàn)手動(dòng)修正系統(tǒng)問(wèn)題，獲得更好的用戶體驗(yàn)。項(xiàng)目組使用了不同數(shù)量的論文來(lái)測(cè)試系統(tǒng)，獲取單篇文章的相關(guān)研究貢獻(xiàn)是60ms，表明ORKG可以處理大量的學(xué)術(shù)知識(shí)。下文展示了ORKG比較研究貢獻(xiàn)在COVID-19中的應(yīng)用。

2020年4月24日至26日，由生物化學(xué)、神經(jīng)科學(xué)領(lǐng)域?qū)＜摇④浖_發(fā)、人工智能和自然語(yǔ)言處理專家組成的“TIB ORKG”參加了歐盟委員會(huì)舉辦的EUvsVirus泛歐黑客馬拉松，挑戰(zhàn)計(jì)劃是“開放研究知識(shí)圖譜中的COVID-19生物測(cè)定”[28]，目標(biāo)是“允許科學(xué)家使用他們的注釋生物測(cè)定輕松搜索相似的測(cè)定，并基于相似的特征比較數(shù)據(jù)存儲(chǔ)中各種生物測(cè)定?！盩IB ORKG的研究成果如圖3所示。

圖3 基于關(guān)鍵特性和價(jià)值的COVID-19生物測(cè)定的結(jié)構(gòu)化比較[28]

參與比較的文獻(xiàn)有6篇，比較屬性包括保存日期、試驗(yàn)方式、試驗(yàn)方法、是否是實(shí)證分析等20個(gè)，如前所述，研究人員可以根據(jù)研究需求選擇參與比較的屬性，還可增加新的貢獻(xiàn)參與比較。這些屬性在非結(jié)構(gòu)化文檔中都是隱藏在內(nèi)容中，需要研究人員自己閱讀挖掘的，通過(guò)ORKG不但可以直觀顯示，還可與其他文獻(xiàn)進(jìn)行比較。研究貢獻(xiàn)可以輸出為PDF、CSV、RDF、LaTex格式，滿足研究人員多方面的使用需求。可以轉(zhuǎn)置比較表，可以共享比較鏈接，還可以發(fā)布遵循FAIR原則（Findable可查找、Accessible可訪問(wèn)、Interoperable可互操作、Reusable可重復(fù)使用）的比較[29]：已發(fā)布的比較將向其他用戶公開，比較的狀態(tài)被保存并創(chuàng)建一個(gè)持久鏈接。比較貢獻(xiàn)的設(shè)計(jì)充分體現(xiàn)了ORKG易用性、動(dòng)態(tài)性的設(shè)計(jì)思想。除此之外，ALLARD O等人還利用ORKG展示了如何組織COVID-19基本繁殖數(shù)[30]。

3.2 圖形可視化

圖形視圖是一個(gè)用于圖形數(shù)據(jù)可視化探索的高級(jí)用戶界面，提供了一種與知識(shí)圖譜內(nèi)容交互的方式，它包含一系列使高度結(jié)構(gòu)化圖形數(shù)據(jù)的探索直觀的強(qiáng)大功能。由于ORKG是一個(gè)知識(shí)圖譜，因此文獻(xiàn)和研究貢獻(xiàn)描述可以可視化為一個(gè)圖。點(diǎn)擊圖3中的文章名，即可瀏覽文章，并進(jìn)行圖形可視化，如圖4所示。

圖4 ORKG圖形可視化

ORKG圖形可視化以文獻(xiàn)為中心，研究貢獻(xiàn)和基本信息作為其下級(jí)節(jié)點(diǎn)展示，可通過(guò)Depth設(shè)置顯示深度，圖形在屏幕上自動(dòng)優(yōu)化排列。節(jié)點(diǎn)可以很容易地展開、折疊或移除。此外，用戶還可在圖中搜索信息。圖4中顯示的文獻(xiàn)是利用SEIR模型估計(jì)的COVID-19在中國(guó)各個(gè)省份的具體發(fā)展情況，每個(gè)省份的研究數(shù)據(jù)作為一個(gè)研究貢獻(xiàn)，因此研究貢獻(xiàn)包含31個(gè)[31]。每個(gè)研究貢獻(xiàn)的描述包括研究方法、研究問(wèn)題、研究日期、數(shù)據(jù)來(lái)源、地點(diǎn)、估計(jì)的案例數(shù)、報(bào)告的案例數(shù)，這些之前被隱藏在非結(jié)構(gòu)化文章中的信息以可視化形式展現(xiàn)出來(lái)，用戶不需下載即可獲取文章內(nèi)的重點(diǎn)信息。

3.3 知識(shí)的可再現(xiàn)性

除了生命科學(xué)領(lǐng)域，ORKG在地球科學(xué)領(lǐng)域也得到了積極應(yīng)用，并在文獻(xiàn)的可再現(xiàn)性方面取得了研究進(jìn)展[32]。Matti研究小組將他們的數(shù)據(jù)分析從本地計(jì)算環(huán)境（研究人員的工作站）轉(zhuǎn)移到D4Science虛擬研究環(huán)境（VRE）中。VRE使研究人員能夠集中精力分析數(shù)據(jù)，從而解決科學(xué)問(wèn)題，而基礎(chǔ)設(shè)施則負(fù)責(zé)其他一切。（1）將數(shù)據(jù)加載到計(jì)算環(huán)境中以進(jìn)行后續(xù)分析；（2）根據(jù)相關(guān)詞匯表示數(shù)據(jù)及其在分析中導(dǎo)出的語(yǔ)義；（3）系統(tǒng)地獲取基礎(chǔ)設(shè)施中的衍生數(shù)據(jù)，并將其登記在目錄中[33]。圖5顯示了Matti看到的Jupyter notebook，用來(lái)決定事件是否在給定的日期和地點(diǎn)發(fā)生，并描述事件的屬性。它演示了如何將數(shù)據(jù)分析作為一種基于Web的服務(wù)公開給研究人員，同時(shí)在可互操作的研究基礎(chǔ)設(shè)施上建立科學(xué)數(shù)據(jù)分析的未來(lái)原型。

圖5 JupyterLab提供的支持?jǐn)?shù)據(jù)分析的Jupyter notebook[33]

3.4 QA問(wèn)答

從科學(xué)文獻(xiàn)中檢索答案是一項(xiàng)復(fù)雜的任務(wù)。人工檢索學(xué)術(shù)問(wèn)題是麻煩的、耗時(shí)的。因此，需要一種自動(dòng)回答有關(guān)科學(xué)內(nèi)容問(wèn)題。ORKG設(shè)計(jì)了一個(gè)名為JarvisQA的問(wèn)答系統(tǒng)，它可以回答自然語(yǔ)言中關(guān)于學(xué)術(shù)知識(shí)圖譜的表格視圖的問(wèn)題，具體的表格視圖包含來(lái)自科學(xué)文獻(xiàn)的研究貢獻(xiàn)信息，從而幫助研究者、圖書管理員和普通用戶以比傳統(tǒng)信息檢索方法更高的準(zhǔn)確率查詢答案[34]。

JarvisQA系統(tǒng)由Table2Text（T2T）轉(zhuǎn)換器和QA核心引擎組成。T2T轉(zhuǎn)換器將表格信息轉(zhuǎn)換為文本描述（僅表示表中包含的信息，而不是文章的整個(gè)原始文本）。QA核心引擎使用T2T轉(zhuǎn)換器提供的上下文（表格的文本描述）對(duì)問(wèn)題進(jìn)行推理，并嘗試回答問(wèn)題。圖6展示了結(jié)構(gòu)化學(xué)術(shù)貢獻(xiàn)描述的表格比較視圖。此外，還顯示了與比較表內(nèi)容相關(guān)的三個(gè)問(wèn)題。問(wèn)題的答案隱式或顯式地提供在表格中。JarvisQA可以回答不同類型的問(wèn)題。對(duì)于第一個(gè)問(wèn)題，答案與問(wèn)題直接相關(guān)。對(duì)于第二個(gè)問(wèn)題，系統(tǒng)首先在表中查找“knowledge representation”，然后從中找到查找出現(xiàn)頻率最多的值。對(duì)于第三個(gè)問(wèn)題，首先在表格中找到另一條信息（即JarvisQA必須首先在表格中找到“RASH”），然后將搜索范圍縮小到該篇論文以找到正確答案。

圖6 ORKG問(wèn)答系統(tǒng)——JarvisQA運(yùn)行效果圖[34]

項(xiàng)目組還通過(guò)實(shí)證研究驗(yàn)證了JarvisQA的效果，JarvisQA在精確性、召回率和F1評(píng)分方面優(yōu)于其他基線，但其代價(jià)是執(zhí)行時(shí)間和內(nèi)存要求更高。此外，JarvisQA還不能回答所有類型的問(wèn)題，答案僅限于表中的信息（抽取法），在處理跨表信息提取、回答正確/錯(cuò)誤的問(wèn)題時(shí)會(huì)遇到困難。

3.5 REST API

數(shù)據(jù)通過(guò)發(fā)送HTTP請(qǐng)求查詢，返回JSON格式的結(jié)果[35]，這允許其他應(yīng)用與數(shù)據(jù)庫(kù)交流，以超越項(xiàng)目組預(yù)期的方式處理數(shù)據(jù)。這種分離也可能導(dǎo)致項(xiàng)目在開發(fā)中有更多的靈活性。REST API遵守標(biāo)準(zhǔn)的HTTP和REST約定，當(dāng)前已經(jīng)實(shí)現(xiàn)的操作包括GET（獲取資源）和POST（創(chuàng)建資源），具體操作見表2。

表2 ORKG的REST API操作

REST API操作的對(duì)象包括Statements（陳述）、Classes（類）、Resources（資源）、Predicates（謂詞）、Literals（文本）五類。其中，Statements表示知識(shí)圖譜中的一種語(yǔ)句，類似于RDF三元組。與真實(shí)語(yǔ)句類似，由主體、謂詞和客體組成。主體和客體表示圖中的節(jié)點(diǎn)，由資源構(gòu)成，客體也可以是文本值，謂詞表示圖中的邊（關(guān)系）。資源和謂詞由ID標(biāo)識(shí)，陳述可以通過(guò)ID引用，以便存儲(chǔ)和檢索它們的溯源信息。陳述的操作包括所有陳述的列表（list）、根據(jù)ID查找陳述（fetch）、查找與給定主體相關(guān)的陳述（lookup statements by subject）、查找與給定謂詞相關(guān)的陳述（lookup statements by predicate）、創(chuàng)建陳述（create）。Classes表示知識(shí)圖譜中的概念，可附加到資源，以指示資源所屬的類。類的操作包括所有類的列表（list）、根據(jù)ID查找類（fetch）、查找給定標(biāo)簽對(duì)應(yīng)的類（lookup a class by label）、創(chuàng)建類（create）。Resources表示知識(shí)圖譜中的節(jié)點(diǎn)，可以作為陳述的主體或客體。資源的操作包括所有資源的列表（list）、根據(jù)ID查找資源（fetch）、查找給定標(biāo)簽對(duì)應(yīng)的資源（lookup a resource by label）、創(chuàng)建資源（create）。Predicates表示知識(shí)圖譜中的邊（節(jié)點(diǎn)之間的關(guān)系），謂詞的操作包括所有謂詞的列表（list）、根據(jù)ID查找謂詞（fetch）、查找給定標(biāo)簽對(duì)應(yīng)的謂詞（lookup a resource by label）、創(chuàng)建謂詞（create）。Literals表示知識(shí)圖譜中的節(jié)點(diǎn)，可以作為客體，文本的操作包括所有文本的列表（list）、根據(jù)ID查找文本（fetch）、查找給定標(biāo)簽對(duì)應(yīng)的文本（lookup a resource by label）、創(chuàng)建文本（create）。

4 結(jié)語(yǔ)

科學(xué)研究水平是綜合國(guó)力的重要組成部分，國(guó)務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》指出，應(yīng)積極推進(jìn)科學(xué)數(shù)據(jù)的開發(fā)利用和開放共享。當(dāng)前，建立開放、共享、高效的科學(xué)數(shù)據(jù)平臺(tái)已成為國(guó)內(nèi)外加強(qiáng)科學(xué)數(shù)據(jù)應(yīng)用效率和提高科研能力的研究熱點(diǎn)。多國(guó)已經(jīng)建立科學(xué)數(shù)據(jù)服務(wù)平臺(tái)并展開了合作。如國(guó)際虛擬天文臺(tái)聯(lián)盟、美國(guó)國(guó)家地理數(shù)據(jù)中心、日本社會(huì)科學(xué)數(shù)據(jù)存檔中心、我國(guó)的國(guó)家科技管理信息系統(tǒng)公共服務(wù)平臺(tái)等。開放研究知識(shí)圖譜為科學(xué)數(shù)據(jù)平臺(tái)的建設(shè)提供借鑒。此外，現(xiàn)有的學(xué)術(shù)交流激勵(lì)措施（如引文、h/i-10索引、影響因子）都是以文獻(xiàn)為中心，顯然我們需要基于科學(xué)知識(shí)圖譜的貢獻(xiàn)的激勵(lì)模型。以知識(shí)圖譜為中心的評(píng)估方法是對(duì)學(xué)術(shù)貢獻(xiàn)進(jìn)行更準(zhǔn)確評(píng)估的機(jī)會(huì)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放