羅鵬程,王繼民,聶 磊
(1. 北京大學(xué)信息管理系,北京 100871;2. 北京大學(xué)圖書館,北京 100871;3. 北京外國語大學(xué)區(qū)域與全球治理高等研究院,北京 100089)
大數(shù)據(jù)時代,科學(xué)數(shù)據(jù)的開放共享受到各方高度重視,“數(shù)據(jù)爆炸”問題正在顯現(xiàn)。2018 年,國務(wù)院發(fā)布《科學(xué)數(shù)據(jù)管理辦法》,明確了“開放為常態(tài)、不開放為例外”的科學(xué)數(shù)據(jù)共享原則[1]。隨后,陜西[2]、湖北[3]、江蘇[4]等十余省份陸續(xù)發(fā)布科學(xué)數(shù)據(jù)管理實施細(xì)則。國際上,美國國家科學(xué)基金會(National Science Foundation)要求項目申請時必須提交數(shù)據(jù)管理計劃[5],澳大利亞推出國家數(shù)據(jù)服務(wù)[6],歐盟建設(shè)開放科學(xué)云[7]。各類研究機構(gòu)也積極建設(shè)數(shù)據(jù)倉儲,共享科學(xué)數(shù)據(jù),如哈佛大學(xué)Dat‐averse、中國科學(xué)院科學(xué)數(shù)據(jù)云。在這一背景下,科學(xué)數(shù)據(jù)正不斷積累。據(jù)DataCite 統(tǒng)計,截至2021年10 月,科學(xué)數(shù)據(jù)集的數(shù)量達(dá)到1000 多萬;據(jù)Google 統(tǒng)計,互聯(lián)網(wǎng)上數(shù)據(jù)集的數(shù)量已從2016 年的50 萬快速增長到2020 年的2800 萬[8]。隨著科學(xué)研究轉(zhuǎn)向數(shù)據(jù)密集型范式,許多學(xué)科對數(shù)據(jù)的需求十分強烈,基于共享的科學(xué)數(shù)據(jù)可支撐高質(zhì)量研究成果產(chǎn)出[9],并且研究者越來越愿意共享和復(fù)用科學(xué)數(shù)據(jù)[10-11]。目前,科學(xué)數(shù)據(jù)集分散在眾多異構(gòu)的數(shù)據(jù)倉儲之中,各數(shù)據(jù)倉儲的元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)內(nèi)容存在較大差異。面對海量、多源、異構(gòu)的開放科學(xué)數(shù)據(jù)集,如何高效地從中發(fā)現(xiàn)符合需求的有效數(shù)據(jù)正成為研究者面臨的重要問題。
目前,科學(xué)數(shù)據(jù)集檢索相關(guān)研究問題已受到許多學(xué)科領(lǐng)域的廣泛關(guān)注。在圖書館學(xué)、情報學(xué)領(lǐng)域,研究者關(guān)注數(shù)據(jù)檢索行為[12-14],DataCite、加拿大研究圖書館協(xié)會分別推出了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺DataCite Search、Federated Research Data Re‐pository(FRDR)。在計算機領(lǐng)域,2018 年信息檢索 頂 級 會 議SIGIR (Special Interest Group on Infor‐mation Retrieval)和交叉綜合領(lǐng)域頂級會議WWW(The Web Conference) 專門組織了數(shù)據(jù)搜索研討會[15-16],Google Dataset Search 負(fù) 責(zé) 人Noy 受 邀 在2020 年數(shù)據(jù)庫頂級會議之一SIGMOD 中作主旨報告[17]。在醫(yī)學(xué)領(lǐng)域,美國國立衛(wèi)生研究院資助成立了生物醫(yī)學(xué)和醫(yī)療保健數(shù)據(jù)發(fā)現(xiàn)索引生態(tài)系統(tǒng)聯(lián)盟(biomedical and healthcare data discovery index ecosys‐tem,bioCADDIE),由該聯(lián)盟開發(fā)推出了數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺DataMed[18]。在社會科學(xué)領(lǐng)域,德國GESIS - Leibniz-Institut für Sozialwissenschaften (萊布尼茲社會科學(xué)研究所)面向社會和經(jīng)濟科學(xué)推出了gesisDataSearch[19]。從2019 年開始,卡耐基梅隆大學(xué)還組織“面向數(shù)據(jù)發(fā)現(xiàn)與復(fù)用的人工智能研討會”,推動人工智能技術(shù)在數(shù)據(jù)發(fā)現(xiàn)與復(fù)用中的應(yīng)用[20]。近年來商業(yè)性數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺也陸續(xù)推出,如Data Citation Index(DCI)、Elsevier DataS‐earch 等。
科學(xué)數(shù)據(jù)是國家重要的戰(zhàn)略資源,目前國內(nèi)對科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺的研究和應(yīng)用不足,阻礙了科學(xué)數(shù)據(jù)價值的釋放。本文以對互聯(lián)網(wǎng)上多源、異構(gòu)、海量的開放科學(xué)數(shù)據(jù)集進行統(tǒng)一檢索的發(fā)現(xiàn)平臺為研究對象,對相關(guān)研究和應(yīng)用進展進行梳理和總結(jié),以期為進一步的研究和應(yīng)用實踐提供參考。
本文將科學(xué)數(shù)據(jù)與研究數(shù)據(jù)視為同義詞,即面向研究分析目的而收集、觀察或創(chuàng)建的數(shù)據(jù),用于支持研究結(jié)論[21]。因此,本文所指科學(xué)數(shù)據(jù)不僅涵蓋自然科學(xué)和工程技術(shù),也包括社會科學(xué)、人文與藝術(shù)等學(xué)科。數(shù)據(jù)集是為特定目的而組織在一起的相關(guān)數(shù)據(jù)的集合[22],科學(xué)數(shù)據(jù)集則是指為研究分析目的而收集、觀察或創(chuàng)建的相關(guān)數(shù)據(jù)的集合。本文中“開放科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)”是指針對互聯(lián)網(wǎng)上多源、異構(gòu)、海量的開放科學(xué)數(shù)據(jù)集進行采集和組織,為用戶提供統(tǒng)一的檢索入口,幫助用戶高效地發(fā)現(xiàn)所需要的數(shù)據(jù)。圖1 給出了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺的功能示意。通過發(fā)現(xiàn)系統(tǒng)自動從眾多數(shù)據(jù)倉儲中采集數(shù)據(jù),為用戶提供統(tǒng)一的檢索入口,避免了用戶到每個倉儲中檢索所耗費的時間。
圖1 科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺功能示意
本文以“科學(xué)數(shù)據(jù)集發(fā)現(xiàn)”“scientific dataset discovery”作為查詢語句,并使用“研究”替換查詢中的“科學(xué)”,使用“檢索”“搜索”替換“發(fā)現(xiàn)”,使用“research”替換“scientific”,使用“re‐trieval”“search”替換“discovery”。根據(jù)以上各種同義詞替換策略的組合在中國知網(wǎng)、萬方數(shù)據(jù)庫和Web of Science 核心集中進行題名、關(guān)鍵詞等字段的檢索。通過以上查詢獲得的文獻(xiàn)數(shù)量不多,為此本文還對檢索條件進行放寬,去掉查詢中的“科學(xué)”“研究”“scientific”“research”,或者使用“數(shù)據(jù)”“data”分別替換“數(shù)據(jù)集”“dataset”。從檢索到的1000 多篇文獻(xiàn)中篩選出與科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺、科學(xué)數(shù)據(jù)集檢索相關(guān)性較高的論文41 篇。同時,本課題組對科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺進行了長時間的廣泛調(diào)研,在谷歌及谷歌學(xué)術(shù)中檢索與具體發(fā)現(xiàn)平臺相關(guān)的論文、報告、博客、網(wǎng)頁等。最終,本文共匯集77 篇核心論文進行綜述。此外,還納入了對相關(guān)內(nèi)容進行補充的擴展性論文、報告、博客、網(wǎng)頁等。
國際上,已有許多科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺陸續(xù)推出[23]。根據(jù)現(xiàn)有科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺的構(gòu)建模塊[18-19,24],將相關(guān)主要研究問題分為四類:數(shù)據(jù)集采集、數(shù)據(jù)集組織、數(shù)據(jù)集檢索、檢索結(jié)果綜合排序,如圖2 所示。本文將以該框架為基礎(chǔ)來組織全文內(nèi)容。
圖2 科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺相關(guān)的研究問題
①數(shù)據(jù)集采集。互聯(lián)網(wǎng)中資源數(shù)量龐大,種類繁雜,科學(xué)數(shù)據(jù)集在其中占比極小。如何從海量、分散的互聯(lián)網(wǎng)資源中采集所需數(shù)據(jù)集,是對科學(xué)數(shù)據(jù)集進行統(tǒng)一發(fā)現(xiàn)的前提。②數(shù)據(jù)集組織。通過采集得到海量科學(xué)數(shù)據(jù)集的元數(shù)據(jù),然而元數(shù)據(jù)標(biāo)準(zhǔn)眾多,質(zhì)量參差不齊,需要對不同來源的元數(shù)據(jù)進行融合統(tǒng)一,對元數(shù)據(jù)質(zhì)量進行評估,并在此基礎(chǔ)上補充和豐富元數(shù)據(jù)內(nèi)容。③數(shù)據(jù)集檢索。數(shù)據(jù)集作為一種新的信息對象,其檢索特征有別于傳統(tǒng)文獻(xiàn)和網(wǎng)頁搜索,相應(yīng)檢索方法正處于研究探索階段。④檢索結(jié)果綜合排序。依據(jù)檢索模型獲得的數(shù)據(jù)集,通常按照主題相關(guān)性排序呈現(xiàn)給用戶,然而研究表明用戶對檢索結(jié)果做出相關(guān)性判斷時會考慮數(shù)據(jù)質(zhì)量等諸多因素[12]。本文第3~6 節(jié)將分別對數(shù)據(jù)集采集、組織、檢索和綜合排序相關(guān)研究進行梳理和述評。
數(shù)據(jù)集主要由元數(shù)據(jù)和數(shù)據(jù)內(nèi)容組成,由于數(shù)據(jù)內(nèi)容較大,且可能存在訪問限制,通常采集的數(shù)據(jù)均為元數(shù)據(jù)。
依據(jù)采集策略的不同,本文將現(xiàn)有科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺的采集方法分為三類:數(shù)據(jù)倉儲向發(fā)現(xiàn)平臺主動推送元數(shù)據(jù),發(fā)現(xiàn)平臺全網(wǎng)掃描并篩選數(shù)據(jù)集類型網(wǎng)頁,發(fā)現(xiàn)平臺定向采集數(shù)據(jù)倉儲元數(shù)據(jù)。
(1)數(shù)據(jù)倉儲向發(fā)現(xiàn)平臺主動推送元數(shù)據(jù):由發(fā)現(xiàn)系統(tǒng)提供統(tǒng)一的API(application programming interface)接口,各科學(xué)數(shù)據(jù)倉儲在新增或更新數(shù)據(jù)集時,通過API 接口將元數(shù)據(jù)推送給發(fā)現(xiàn)系統(tǒng)。目前,這種數(shù)據(jù)采集方式僅在DataCite Search 中實現(xiàn)。DataCite 是科學(xué)數(shù)據(jù)領(lǐng)域最大的DOI (digital object identifier)注冊代理機構(gòu),各個數(shù)據(jù)倉儲在注冊DOI 時,需要按照DataCite Metadata Schema[25]的要求提交元數(shù)據(jù)。因此,DataCite Search 通過數(shù)據(jù)倉儲主動推送的方式采集了大量科學(xué)數(shù)據(jù)集元數(shù)據(jù)。
(2) 發(fā)現(xiàn)平臺全網(wǎng)掃描并篩選數(shù)據(jù)集類型網(wǎng)頁:由網(wǎng)頁制作者依據(jù)特定標(biāo)準(zhǔn)對頁面內(nèi)容進行描述,并將描述元數(shù)據(jù)嵌入頁面;發(fā)現(xiàn)系統(tǒng)采集網(wǎng)絡(luò)中的頁面,從網(wǎng)頁中解析元數(shù)據(jù),并篩選出數(shù)據(jù)集類型的網(wǎng)頁。目前,這種數(shù)據(jù)采集方式僅在Google Dataset Search 中實現(xiàn),主要依靠網(wǎng)頁制作者在頁面中嵌入的schema.org 或DCAT (data catalog vocabu‐lary)標(biāo)記數(shù)據(jù)識別數(shù)據(jù)集頁面。schema.org 由谷歌等搜索引擎公司建立,用于描述網(wǎng)頁資源,幫助搜索引擎更好地理解頁面內(nèi)容。2013 年,schema.org增加了Dataset 類型用于描述數(shù)據(jù)集頁面[26]。DCAT是W3C(World Wide Web Consortium)于2014 年發(fā)布的推薦標(biāo)準(zhǔn),它是一個RDF(resource description framework)詞匯表,其目的在于促進Web 上發(fā)布的數(shù)據(jù)目錄之間的互操作性[27]。Google Dataset Search 依托谷歌強大的通用網(wǎng)頁爬蟲平臺采集網(wǎng)頁,解析頁面中嵌入的元數(shù)據(jù),從中篩選出使用schema.org 的Dataset 和DataCatalog,以 及DCAT 描述的元數(shù)據(jù),構(gòu)成谷歌數(shù)據(jù)集搜索的基礎(chǔ)[24]。
(3)發(fā)現(xiàn)平臺定向采集數(shù)據(jù)倉儲元數(shù)據(jù):由數(shù)據(jù)倉儲提供元數(shù)據(jù)收割協(xié)議,發(fā)現(xiàn)系統(tǒng)評估、選擇符合需求的數(shù)據(jù)倉儲,并通過收割協(xié)議采集元數(shù)據(jù)。目前,這種數(shù)據(jù)采集方式應(yīng)用最多,如DCI、DataMed、gesisDataSearch、Mercury 等。在 定 向 數(shù)據(jù)采集中,發(fā)現(xiàn)系統(tǒng)需要依據(jù)一定的標(biāo)準(zhǔn)遴選數(shù)據(jù)倉儲。DCI 考慮了多種定性、定量因素來對倉儲進行綜合評價,包括倉儲持久性和穩(wěn)定性、資助情況、作者身份的多樣性等,并且要求提供英文元數(shù)據(jù)[28]。DataMed 則以標(biāo)準(zhǔn)、互操作性、可持續(xù)性、整體質(zhì)量、用戶需求等作為數(shù)據(jù)倉儲的選擇標(biāo)準(zhǔn)[29]。此外,F(xiàn)AIRsharing 和DataCite 面向期刊論文支撐數(shù)據(jù)存儲制定倉儲評價標(biāo)準(zhǔn)[30-31],這些標(biāo)準(zhǔn)對發(fā)現(xiàn)系統(tǒng)選擇數(shù)據(jù)倉儲具有參考價值。在數(shù)據(jù)倉儲選定后,需要依據(jù)收割協(xié)議采集數(shù)據(jù)。最常用的收割協(xié)議為OAI-PMH(Open Archives Initiative Protocol for Meta‐data Harvesting),例如,DCI[32]、FRDR(Federated Re‐search Data Repository)[33]、gesisDataSearch[19]、Mer‐cury[34]均采用該協(xié)議采集元數(shù)據(jù)。除了OAI-PMH外,一些發(fā)現(xiàn)系統(tǒng)會提供多種數(shù)據(jù)收割方式,例如,Research Data Australia提供直接收割、OAI-PMH收割、OGC CSW(Open Geospatial Consortium Catalogue Ser‐vice for the Web) 收 割、 CKAN (Comprehensive Knowledge Archive Network)收割四種方式[35]。
不同數(shù)據(jù)采集方法各有特點,適用于不同場景和應(yīng)用需求。表1 從采集效率、及時性、數(shù)據(jù)覆蓋率、自動化程度、實現(xiàn)難度和應(yīng)用數(shù)量六個角度給出了三種采集方法的對比情況。
表1 三種數(shù)據(jù)集采集方法對比
對于數(shù)據(jù)倉儲主動推送的方法,通常會在數(shù)據(jù)集新增或更新時,由數(shù)據(jù)倉儲按照統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),向發(fā)現(xiàn)系統(tǒng)推送元數(shù)據(jù)。因此,它具有采集效率高、數(shù)據(jù)更新及時、自動化程度高的優(yōu)勢。然而,通常情況下發(fā)現(xiàn)系統(tǒng)提供方對數(shù)據(jù)倉儲提供方?jīng)]有約束力,無法要求所有數(shù)據(jù)倉儲都為發(fā)現(xiàn)系統(tǒng)推送元數(shù)據(jù)。因此,這種數(shù)據(jù)采集方式很難實現(xiàn),實踐中的應(yīng)用數(shù)量很少。對于數(shù)據(jù)覆蓋率,以Data‐Cite Search 為例,其中注冊倉儲數(shù)量達(dá)到2000 多個,覆蓋了許多有影響力的科學(xué)數(shù)據(jù)倉儲,但并非所有倉儲都會注冊DOI,數(shù)據(jù)覆蓋率適中。
對于發(fā)現(xiàn)系統(tǒng)全網(wǎng)掃描的方法,由于需要采集海量互聯(lián)網(wǎng)頁面,而科學(xué)數(shù)據(jù)集頁面僅占其中很小比例,并且網(wǎng)頁抓取有一定的時間周期。因此,它具有實現(xiàn)難度大、采集效率低、更新有時延的特點,在實踐中的應(yīng)用數(shù)量很少,通常僅適合擁有海量Web 資源庫的大型搜索引擎公司。這種數(shù)據(jù)采集方法基于爬蟲獲取數(shù)據(jù),面對的元數(shù)據(jù)格式相對單一,自動化程度高。過去,采用schema.org 和DCAT描述頁面的數(shù)據(jù)倉儲較少,例如,Khalsa 等[36]在2017 年的調(diào)查顯示,僅有13%的科學(xué)數(shù)據(jù)倉儲使用了schema.org。不過現(xiàn)在已有越來越多的倉儲提供schema.org 和DCAT 元數(shù)據(jù),以Google Dataset Search為例,2020 年其收錄數(shù)據(jù)倉儲3700 多個[8],高于其他類型的發(fā)現(xiàn)平臺,具有相對較高的數(shù)據(jù)覆蓋率。
對于發(fā)現(xiàn)系統(tǒng)定向采集的方法,通常按照一定時間間隔采集指定數(shù)據(jù)倉儲,其采集效率適中,有一定時延。由于數(shù)據(jù)采集過程中涉及數(shù)據(jù)倉儲的評價與選擇,新增倉儲會因為數(shù)據(jù)收割協(xié)議和元數(shù)據(jù)標(biāo)準(zhǔn)的不同,需要人工參與采集程序的修改,如DataMed 新增數(shù)據(jù)攝入插件(ingest consumer)需要半天到數(shù)天的開發(fā)時間[18],因而其自動化程度不夠高。定向采集的數(shù)據(jù)倉儲通常限定在一定范圍內(nèi)(如特定的國家、學(xué)科),倉儲數(shù)量偏向于中小規(guī)模,通常從數(shù)十個到上千個不等。相比于前兩種采集方法,定向采集實現(xiàn)相對容易,采集效率適中,在實踐中應(yīng)用得最為廣泛。
數(shù)據(jù)集的組織主要通過元數(shù)據(jù)實現(xiàn),現(xiàn)有研究和應(yīng)用主要關(guān)注多源元數(shù)據(jù)的融合,以及科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量分析與元數(shù)據(jù)信息豐富等研究問題。
科學(xué)數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)眾多,包括通用元數(shù)據(jù)標(biāo)準(zhǔn)、學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)等數(shù)十種[37]。面對繁雜的元數(shù)據(jù)格式,發(fā)現(xiàn)系統(tǒng)需要設(shè)計一個統(tǒng)一的元數(shù)據(jù)模型,將不同來源的元數(shù)據(jù)進行融合。目前,主要有兩種實現(xiàn)方法:僅考慮通用信息的多源元數(shù)據(jù)融合,以及同時考慮通用和學(xué)科特有信息的多源元數(shù)據(jù)融合。
1)僅考慮通用信息的多源元數(shù)據(jù)融合
不同元數(shù)據(jù)標(biāo)準(zhǔn)雖然各有特色,但都具有標(biāo)題、創(chuàng)建者等通用信息。因此,最簡單的多源元數(shù)據(jù)融合方法,便是將不同來源的元數(shù)據(jù)映射到一個通用的元數(shù)據(jù)模型。目前,絕大多數(shù)通用科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺均采用該方法。例如,DataCite Search 的元數(shù)據(jù)模型為DataCite Metadata Schema[25],Google Dataset Search 的元數(shù)據(jù)模型與schema.org 的Dataset 元數(shù)據(jù)類似[24],英國Research Data Discovery Service 的元數(shù)據(jù)模型與DataCite Metadata Schema 相似[38-39],Research Data Australia 的元數(shù)據(jù)模型為RIFCS(registry interchange format - collections and servic‐es)[40],它們均為通用元數(shù)據(jù)模型。此外,一些面向特定學(xué)科的發(fā)現(xiàn)系統(tǒng)也會采用通用元數(shù)據(jù)模型。例如,gesisDataSearch 使用Dublin Core(DC)作為它的元數(shù)據(jù)模型[19]。
基于通用元數(shù)據(jù)模型的融合方法的優(yōu)點在于其復(fù)雜度低,映射規(guī)則簡單,易于實現(xiàn),但是存在學(xué)科特有信息丟失的問題。L?ffler 等[41]對生物多樣性領(lǐng)域研究者的數(shù)據(jù)需求進行分析發(fā)現(xiàn),通用元數(shù)據(jù)標(biāo)準(zhǔn)對用戶需求的覆蓋度較低,而學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)能更全面地覆蓋用戶需求。因此,僅考慮通用信息的多源元數(shù)據(jù)融合方法在滿足學(xué)科個性化數(shù)據(jù)需求上存在一定的困難。
2)同時考慮通用和學(xué)科特有信息的多源元數(shù)據(jù)融合
為了保留更多信息,一些發(fā)現(xiàn)系統(tǒng)在設(shè)計元數(shù)據(jù)模型時會納入學(xué)科特有信息。加拿大FRDR 以DC 為基礎(chǔ)進行多源元數(shù)據(jù)的融合,制定了不同元數(shù)據(jù)標(biāo)準(zhǔn)到DC 的映射方案[42]。任何無法映射到DC的字段,將保留原始的元數(shù)據(jù)信息,這些特有的元數(shù)據(jù)也會被索引,并可做出定制化的搜索[33]。DataMed構(gòu)建了DATS(data tag suite)元數(shù)據(jù)模型,該模型包括核心元素和擴展元素兩個部分。核心元素較為通用,適用于任何類型數(shù)據(jù)集的描述;擴展元素用于特定學(xué)科數(shù)據(jù)集的描述,目前DATS 包括一個初始的面向生命、環(huán)境、生物醫(yī)學(xué)領(lǐng)域的擴展元數(shù)據(jù)集合[43]。
引入學(xué)科特有信息的多源元數(shù)據(jù)融合方法的優(yōu)點在于其可保留更多信息,有助于滿足學(xué)科用戶個性化的數(shù)據(jù)檢索需求,提升檢索效果。由于考慮了學(xué)科因素,會導(dǎo)致映射規(guī)則增多,模型復(fù)雜度上升,系統(tǒng)實現(xiàn)和維護難度加大。因此,該多源元數(shù)據(jù)融和方法通常在面向特定領(lǐng)域的科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺中應(yīng)用。
元數(shù)據(jù)是當(dāng)前科學(xué)數(shù)據(jù)集檢索最主要的依據(jù),其質(zhì)量的高低直接影響到數(shù)據(jù)集的發(fā)現(xiàn)效果。已有大量研究對科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量進行了分析,并在此基礎(chǔ)上探索如何利用各種技術(shù)手段和外部資源來豐富數(shù)據(jù)集的元數(shù)據(jù)信息。
1)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量
與傳統(tǒng)文獻(xiàn)信息的組織主要通過專業(yè)人員來對資源進行描述不同,科學(xué)數(shù)據(jù)倉庫中的元數(shù)據(jù)主要由用戶提供。由于缺乏控制,元數(shù)據(jù)普遍存在質(zhì)量問 題。對Dryad[44-45]、BioSample[46]、BioSamples[46]、Gene Expression Omnibus[47]等科學(xué)數(shù)據(jù)倉儲的分析發(fā)現(xiàn),元數(shù)據(jù)存在錯誤、不一致、不規(guī)范等問題;一些平臺還允許用戶自定義元數(shù)據(jù)信息,使得元數(shù)據(jù)字段字存在重復(fù)、不一致等問題[46]。發(fā)現(xiàn)系統(tǒng)采集的元數(shù)據(jù)來自科學(xué)數(shù)據(jù)倉儲,由于來源倉儲的元數(shù)據(jù)存在缺失等質(zhì)量問題,導(dǎo)致發(fā)現(xiàn)系統(tǒng)獲取的元數(shù)據(jù)質(zhì)量不高。對DataONE (data observation net‐work for earth) 分析發(fā)現(xiàn),其元數(shù)據(jù)字段在標(biāo)識、發(fā)現(xiàn)、評價、獲取、集成五個方面的完整度均在70%左右或以下[48]。一些發(fā)現(xiàn)系統(tǒng)采集的元數(shù)據(jù)格式并非科學(xué)數(shù)據(jù)倉儲底層使用的元數(shù)據(jù)模型,由于元數(shù)據(jù)格式轉(zhuǎn)換等問題,采集的元數(shù)據(jù)質(zhì)量降低。例如,Google Dataset Search 采集的元數(shù)據(jù)存在“可能出錯的地方都會出錯”的問題[24],DataCite 大量推薦和可選的元數(shù)據(jù)字段缺失嚴(yán)重[49]。
在構(gòu)建科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺時,由于元數(shù)據(jù)存在錯誤、不規(guī)范等問題,需要對其進行大量清洗和規(guī)范化,發(fā)現(xiàn)元數(shù)據(jù)中頻繁出現(xiàn)的模式,制定相應(yīng)規(guī)則來消減錯誤。例如,Google Dataset Search從schema.org 元數(shù)據(jù)的多個字段中提取文件格式、下載地址、DOI 標(biāo)識符,對不同格式的日期進行規(guī)范化[24]。由于元數(shù)據(jù)存在信息缺失的問題,需要利用各種手段和外部資源來對其進行補充,豐富數(shù)據(jù)集的描述信息。
2)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)豐富
目前研究和應(yīng)用中對元數(shù)據(jù)豐富的探索主要包括:提取元數(shù)據(jù)中的重要實體、獲取數(shù)據(jù)集的關(guān)聯(lián)文獻(xiàn)、利用外部資源來補充數(shù)據(jù)集信息等。
數(shù)據(jù)集元數(shù)據(jù)中包含一些重要實體,通過提取這些實體,可為后續(xù)數(shù)據(jù)集檢索功能優(yōu)化奠定基礎(chǔ)。Lafia 等[50]從標(biāo)題、描述和關(guān)鍵詞中識別主題詞和地理位置,并將識別的實體鏈接到美國國會圖書館規(guī)范主題詞和DBpedia 地理位置中。gesisDataSe‐arch 從元數(shù)據(jù)中識別出命名實體,并使用Open‐StreetMap 來確定地名實體的坐標(biāo)位置[19]。DataMed擁有生物醫(yī)學(xué)命名實體識別模塊,用于為每個數(shù)據(jù)集提取一些語義概念集合[18]。將元數(shù)據(jù)中的重要實體提取出來,并關(guān)聯(lián)到外部的語義概念資源庫,可為后續(xù)基于概念、地理位置進行檢索提供必要信息。
數(shù)據(jù)集的關(guān)聯(lián)文獻(xiàn)可用于描述數(shù)據(jù)集的使用環(huán)境,關(guān)聯(lián)文獻(xiàn)的文本信息可提供更多檢索點,同時關(guān)聯(lián)文獻(xiàn)也可用于評估數(shù)據(jù)集的價值。目前,數(shù)據(jù)集關(guān)聯(lián)文獻(xiàn)的獲取主要包括兩種方法:通過DOI 來識別文獻(xiàn)對數(shù)據(jù)集的引用,以及通過文獻(xiàn)全文挖掘識別數(shù)據(jù)集標(biāo)題和鏈接地址。基于DOI 的方法較為準(zhǔn)確可靠,在實際應(yīng)用中使用較多。例如,Google Dataset Search 通過DOI 實現(xiàn)了數(shù)據(jù)集與谷歌學(xué)術(shù)中的文獻(xiàn)的關(guān)聯(lián)[51],DataCite 通過在文獻(xiàn)全文中搜索匹配DOI 來實現(xiàn)與數(shù)據(jù)集的關(guān)聯(lián)[52]。由于數(shù)據(jù)引用不規(guī)范,文獻(xiàn)中大量的數(shù)據(jù)引用并沒有DOI,而主要通過數(shù)據(jù)集標(biāo)題、URL(uniform resource locator)地址等實現(xiàn)引用。通過對文獻(xiàn)全文進行分析挖掘,可提取該引用信息。Ghavimi 等[53]通過人工參與數(shù)據(jù)集標(biāo)題與文獻(xiàn)全文中句子的匹配與判斷,半自動地提取對數(shù)據(jù)集的引用。Lu 等[54]利用機器學(xué)習(xí)分類方法,以及數(shù)據(jù)集標(biāo)題與URL 鏈接在不同文獻(xiàn)中的共現(xiàn)情況,來識別數(shù)據(jù)集標(biāo)題及其對應(yīng)的鏈接。由于通過文獻(xiàn)全文挖掘識別數(shù)據(jù)集關(guān)聯(lián)文獻(xiàn)的方法不能實現(xiàn)完全準(zhǔn)確,其在實踐中應(yīng)用較少。
此外,一些研究者還探索了利用外部資源來補充數(shù)據(jù)集信息。由于數(shù)據(jù)集的描述信息中可能會缺失研究領(lǐng)域等重要信息,而這些信息可能在來源數(shù)據(jù)倉儲的“關(guān)于”頁面中存在,因此Karisani 等[55]利用該信息補充對數(shù)據(jù)集的描述。Wei 等[56-57]從生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集中識別出連接到基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus)的序列記錄,收集序列記錄的摘要、標(biāo)題、總體設(shè)計三個字段的信息用于豐富數(shù)據(jù)集的描述。Singhal 等[58-59]使用數(shù)據(jù)集標(biāo)題在學(xué)術(shù)搜索引擎中進行檢索,將檢索出的文獻(xiàn)標(biāo)題、主題詞作為數(shù)據(jù)集的擴展上下文信息。
在多源元數(shù)據(jù)融合方面,由于采集的元數(shù)據(jù)都主要映射到一個數(shù)據(jù)通用元數(shù)據(jù)模型,導(dǎo)致很多數(shù)據(jù)集的發(fā)現(xiàn)平臺無法提供更加精細(xì)的檢索功能。例如,除了查詢詞檢索外,DataCite Search 僅有注冊年、資源類型、隸屬機構(gòu)三個字段的篩選功能。同時,映射過程中學(xué)科特有信息的丟失,會影響查詢匹配的效果。雖然DATS 構(gòu)建了包含通用和學(xué)科領(lǐng)域信息的元數(shù)據(jù)模型,但目前只有特定學(xué)科的擴展信息,本質(zhì)上仍是領(lǐng)域元數(shù)據(jù)模型。因此,有必要對現(xiàn)有各個學(xué)科領(lǐng)域的元數(shù)據(jù)模型進行分析,建立一個通用的、能涵蓋各學(xué)科領(lǐng)域的統(tǒng)一元數(shù)據(jù)模型。在模型構(gòu)建中,除了考慮國際上主流的元數(shù)據(jù)標(biāo)準(zhǔn),也應(yīng)將國內(nèi)相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)(如中國科學(xué)院制定的生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)、土壤科學(xué)數(shù)據(jù)元數(shù)據(jù)等標(biāo)準(zhǔn)[60])作為重點進行考慮。
在元數(shù)據(jù)質(zhì)量與豐富方面,現(xiàn)有研究主要通過人工統(tǒng)計分析來發(fā)現(xiàn)元數(shù)據(jù)中存在的質(zhì)量問題,有必要建立一個面向科學(xué)數(shù)據(jù)集發(fā)現(xiàn)平臺的元數(shù)據(jù)質(zhì)量評價體系及自動化評價方法,對采集到的元數(shù)據(jù)質(zhì)量進行評估,并用于檢索排序中(優(yōu)質(zhì)數(shù)據(jù)集可能會有更豐富的描述信息)。在數(shù)據(jù)集和文獻(xiàn)關(guān)聯(lián)識別中,現(xiàn)有應(yīng)用主要通過DOI 來識別關(guān)聯(lián)關(guān)系,但絕大多數(shù)論文對數(shù)據(jù)集的引用缺乏DOI 信息。目前通過文獻(xiàn)全文來挖掘識別數(shù)據(jù)集引用的研究還很少,相關(guān)研究也僅在特定學(xué)科的小批量數(shù)據(jù)集上進行方法探索,識別精準(zhǔn)度不夠高。此外,當(dāng)前發(fā)現(xiàn)系統(tǒng)都只采集數(shù)據(jù)集的元數(shù)據(jù),缺乏對數(shù)據(jù)集內(nèi)容的挖掘利用。據(jù)本課題組調(diào)研,目前僅Chen 等[61-62]利用機器學(xué)習(xí)方法從數(shù)據(jù)集中表格數(shù)據(jù)內(nèi)容生成模式標(biāo)簽,用來補充元數(shù)據(jù)信息。事實上,數(shù)據(jù)集本身也包含豐富的信息,如數(shù)據(jù)文件名稱、說明文檔、數(shù)據(jù)內(nèi)容等,這些信息能夠被部分采集到(如文件名稱、說明文檔),把這些信息補充到元數(shù)據(jù)中,將有利于數(shù)據(jù)集的檢索匹配。
目前,數(shù)據(jù)集檢索相關(guān)研究主要在傳統(tǒng)信息檢索模型的基礎(chǔ)上,通過查詢擴展來提高召回率,通過相應(yīng)排序優(yōu)化算法來提高檢索精度。
自然語言中普遍存在同義詞、近義詞、概念包含等關(guān)系,而數(shù)據(jù)集檢索中的用戶查詢很短[63-65],通常不會包含其信息需求的所有詞匯表達(dá)。為了提高科學(xué)數(shù)據(jù)集檢索的召回率,已有大量研究對查詢擴展方法進行了探索,包括基于本體的查詢擴展、基于搜索結(jié)果的查詢擴展、基于詞向量的查詢擴展,如表2 所示。
1)基于本體的查詢擴展
本體資源庫中的同一概念的不同表達(dá)、上下位概念等關(guān)系可以對用戶查詢進行有效擴充。目前,基于本體的查詢擴展主要應(yīng)用在面向特定學(xué)科的數(shù)據(jù)集檢索研究中。例如,儀表領(lǐng)域[66]、林業(yè)領(lǐng)域[67]、生物醫(yī)學(xué)領(lǐng)域[18,55-57,68-70]、社會科學(xué)領(lǐng)域[71]、生態(tài)學(xué)領(lǐng)域[72]。一些科學(xué)領(lǐng)域在長期的數(shù)據(jù)管理實踐中,會更傾向于使用領(lǐng)域敘詞表中的詞匯描述數(shù)據(jù)集,這使得通過領(lǐng)域本體可以更好地檢索數(shù)據(jù)集。例如,Porter[73]對生態(tài)學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)進行分析,發(fā)現(xiàn)相比于一般的關(guān)鍵詞,在LTER(long-term eco‐logical research)敘詞表中的詞能夠更好地檢索數(shù)據(jù)集。此外,多語言版本的本體資源還能實現(xiàn)跨語言檢索,例如,Vanderbilt 等[72]使用EnvThes 檢索多語種的生態(tài)學(xué)數(shù)據(jù)集。目前,基于本體的查詢擴展方法在一些學(xué)科領(lǐng)域數(shù)據(jù)集的發(fā)現(xiàn)平臺中已有應(yīng)用,如DataMed[18]。由于本體的研制成本高,缺乏足夠精細(xì)和覆蓋面的通用本體資源,限制了該方法在通用數(shù)據(jù)集搜索中的應(yīng)用。
2)基于搜索結(jié)果的查詢擴展
搜索結(jié)果中會包含一些與查詢相關(guān)的詞匯,這些相關(guān)詞匯可用于查詢擴展。目前該類方法主要利用兩類搜索結(jié)果:一類是來自外部檢索系統(tǒng)的搜索結(jié)果,例如,Karisani 等[55]使用商業(yè)垂直搜索引擎獲取的維基百科和NCBI (National Center for Bio‐technology Information)網(wǎng)站檢索結(jié)果中的詞來擴展查詢,Wei 等[56-57]基于谷歌檢索的結(jié)果來擴展查詢;另一類是來自內(nèi)部數(shù)據(jù)集檢索系統(tǒng)的搜索結(jié)果,這類方法也被稱為偽相關(guān)反饋,主要使用檢索結(jié)果中的文本內(nèi)容來擴展查詢[55,69,74]。由于數(shù)據(jù)集檢索中包含時間、地理位置的查詢的占比高[64-65,75],一些學(xué)科領(lǐng)域數(shù)據(jù)集的時空信息對于相關(guān)性判斷十分重要。為此,Takeuchi 等[76-77]提出了基于時間和空間的偽相關(guān)反饋方法,來獲取與初始數(shù)據(jù)集檢索結(jié)果具有相似時空分布的數(shù)據(jù)集。與本體查詢擴展方法相比,基于搜索結(jié)果的查詢擴展不依賴于人工構(gòu)造的資源庫,能夠適應(yīng)不同的應(yīng)用領(lǐng)域。但檢索結(jié)果具有一定數(shù)量的噪聲詞,會降低其查詢擴展的質(zhì)量。
3)基于詞向量的查詢擴展
詞向量能夠表達(dá)詞匯之間的語義關(guān)系,已有研究者將其應(yīng)用于科學(xué)數(shù)據(jù)集檢索的查詢擴展之中。例 如, Teodoro 等[78]、 Wang 等[79]基 于word2vec,Scerri 等[70]、Cieslewicz 等[74]基于fastText 訓(xùn)練 獲 得詞向量對查詢進行擴展。詞向量可以基于不同語料文本訓(xùn)練得到,如數(shù)據(jù)集的元數(shù)據(jù)、科學(xué)文獻(xiàn)數(shù)據(jù),不同語料訓(xùn)練得到的詞向量會影響查詢擴展的效果。Teodoro 等[78]在bioCADDIE、 PMC (PubMed Cen‐tral)、Medline 三個語料上訓(xùn)練word2vec,結(jié)果顯示在Medline 上訓(xùn)練的詞向量效果最優(yōu)。此外,通過不同模型獲得的詞向量,質(zhì)量也有所不同,Scerri等[70]和 Cieslewicz 等[74]研 究 發(fā) 現(xiàn) fastText 較word2vec、GloVe 具有更優(yōu)的效果。與本體方法相比,基于詞向量的查詢擴展方法能夠適應(yīng)不同的應(yīng)用領(lǐng)域,只要提供足夠的領(lǐng)域文本,便可以自動獲取高質(zhì)量的詞向量。
表2 查詢擴展方法
為了提高科學(xué)數(shù)據(jù)集檢索的精度,一些研究將檢索過程分為兩個階段。在第一階段,使用BM25等高效的檢索方法獲取候選的相關(guān)數(shù)據(jù)集,這一階段通常會進行查詢擴展,以提高召回率。在第二階段,取第一階段排名靠前的數(shù)據(jù)集,使用更加精細(xì)的方法對數(shù)據(jù)集的相關(guān)性重新評分。目前,第二階段檢索結(jié)果排序優(yōu)化主要包括兩類方法。一類是基于啟發(fā)式規(guī)則計算數(shù)據(jù)集的相關(guān)性,例如,Teodoro等[78]對查詢和數(shù)據(jù)集自動分類,將與查詢類別相同的數(shù)據(jù)集的得分進行提升;Wang 等[79]統(tǒng)計數(shù)據(jù)集元數(shù)據(jù)中與查詢具有相同實體的數(shù)量,將實體數(shù)量多的數(shù)據(jù)集得分進行提升;Wei 等[56-57]考慮查詢中不同詞的重要性,使用偽順序依賴模型(pseudo se‐quential dependence,PSD)對數(shù)據(jù)集的相關(guān)性重新評分。另一類是使用機器學(xué)習(xí)方法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)排序規(guī)則,例如,Karisani等[55]基于手工制定的特征,使用MART(multiple additive regression trees) 學(xué)習(xí)排序算法對檢索結(jié)果重新排序。目前,由于科學(xué)數(shù)據(jù)集檢索領(lǐng)域缺乏大規(guī)模的標(biāo)注數(shù)據(jù),學(xué)習(xí)排序方法效果不佳,而基于啟發(fā)式規(guī)則的檢索結(jié)果優(yōu)化方法不需要訓(xùn)練數(shù)據(jù),因而研究中應(yīng)用得相對較多。此外,一些研究還利用代數(shù)的方法來提升檢索效果,例如,劉春蔚等[80]利用潛在語義索引來檢索數(shù)據(jù)集。
現(xiàn)有科學(xué)數(shù)據(jù)集檢索系統(tǒng)主要依賴傳統(tǒng)信息檢索模型,對科學(xué)數(shù)據(jù)本身特性的挖掘不夠。在科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺中,DataMed[18]、gesisDataS‐earch[19]、DataCite Search[81]基 于ElasticSearch,Else‐vier DataSearch[82]、Mercury[83]基于Solr 實現(xiàn)數(shù)據(jù)集搜索,相應(yīng)的檢索模型基本都為經(jīng)典的向量空間模型、概率模型等。在科學(xué)數(shù)據(jù)集檢索方法研究中,也都主要在傳統(tǒng)信息檢索模型的基礎(chǔ)上,通過查詢擴展等方法來優(yōu)化檢索結(jié)果。相關(guān)用戶研究表明,科學(xué)數(shù)據(jù)集檢索與文獻(xiàn)和網(wǎng)頁檢索存在差異[84-86]。例如,查詢詞非常短[63-65,75],包含更高比例的數(shù)字、時間、地理位置等信息[64-65,75],元數(shù)據(jù)和數(shù)據(jù)內(nèi)容在查詢匹配中都具有重要的作用[87]。目前,科學(xué)數(shù)據(jù)集的檢索主要基于元數(shù)據(jù)文本匹配,對查詢中時間、空間等特性關(guān)注度不高。
查詢詞不一定能有效地表達(dá)用戶數(shù)據(jù)需求,目前僅少量研究對非關(guān)鍵詞檢索模型進行了探索。對于一些科學(xué)領(lǐng)域,使用數(shù)據(jù)范圍(如水溫、時間、空間范圍)能更好地表達(dá)用戶需求。Megler 等[88-90]構(gòu)建了Data Near Hear 系統(tǒng),使用基于距離的指標(biāo)來衡量查詢范圍和數(shù)據(jù)集范圍的相似度,據(jù)此來檢索排序海岸帶觀察數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)集檢索系統(tǒng)主要基于倒排索引來檢索匹配元數(shù)據(jù)文本,對其他數(shù)據(jù)結(jié)構(gòu)檢索的探索較少。Zhang 等[91]研究探索了適合不同類型查詢(字符串、數(shù)字)的最優(yōu)數(shù)據(jù)結(jié)構(gòu)(如哈希表、Trie、自平衡搜索樹等)。對于特定學(xué)科領(lǐng)域,科學(xué)數(shù)據(jù)的同質(zhì)性更高,用戶學(xué)科個性化數(shù)據(jù)需求更多,因而有必要尋找更適合學(xué)科用戶需求的信息檢索模式,提高數(shù)據(jù)集檢索的效果。
測評數(shù)據(jù)對于檢索模型的比較和發(fā)展具有重要的作用,現(xiàn)有科學(xué)數(shù)據(jù)集檢索研究領(lǐng)域缺乏高質(zhì)量、大規(guī)模的測評數(shù)據(jù)。據(jù)本課題組調(diào)研,目前僅bioCADDIE 組織了生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集檢索挑戰(zhàn)賽[92],并公開其數(shù)據(jù)集[93],但是該數(shù)據(jù)集的標(biāo)注數(shù)量非常有限。當(dāng)前,深度學(xué)習(xí)方法在文檔檢索領(lǐng)域有較多的研究和應(yīng)用,如BERT (bidirectional en‐coder representation from transformers)排序模型取得了比傳統(tǒng)檢索方法更優(yōu)的效果。由于深度學(xué)習(xí)模型需要大規(guī)模標(biāo)注數(shù)據(jù),現(xiàn)有測評數(shù)據(jù)集無法滿足深度學(xué)習(xí)模型的訓(xùn)練要求。因此,需要進一步加強科學(xué)數(shù)據(jù)集檢索領(lǐng)域高質(zhì)量、大規(guī)模測評數(shù)據(jù)的建設(shè),豐富通用領(lǐng)域、各個學(xué)科領(lǐng)域可用的測評數(shù)據(jù)集。
在第5 節(jié)中,檢索結(jié)果排序主要依據(jù)數(shù)據(jù)集與用戶查詢的主題相關(guān)性,已有研究表明,用戶會基于許多因素對科學(xué)數(shù)據(jù)集的相關(guān)性進行判斷。本節(jié)將對科學(xué)數(shù)據(jù)集檢索綜合排序中的相關(guān)性判據(jù)(relevance criteria)及排序方法研究進行梳理和總結(jié)。
對于科學(xué)數(shù)據(jù)集檢索系統(tǒng)返回的結(jié)果,用戶會根據(jù)一定的評價標(biāo)準(zhǔn)來判斷其是否滿足需求。目前,國內(nèi)外已有學(xué)者對科學(xué)數(shù)據(jù)集檢索中的用戶相關(guān)性判據(jù)進行了探索,表3 給出了現(xiàn)有研究中提及較多的相關(guān)性判據(jù)。
在這些判據(jù)中,主題相關(guān)性最為重要[94-95]。用戶主要通過數(shù)據(jù)集元數(shù)據(jù)中的標(biāo)題、摘要、關(guān)鍵詞等信息來判斷數(shù)據(jù)集是否主題相關(guān),部分用戶會在查看數(shù)據(jù)內(nèi)容后做出最終判斷。除主題相關(guān)性外,數(shù)據(jù)集的可獲得性、質(zhì)量、權(quán)威性也被國內(nèi)相關(guān)研究提及較多[12,94-102]。科學(xué)數(shù)據(jù)集的開放程度不一,如果數(shù)據(jù)無法或者難以獲取,即使主題相關(guān)性很高對用戶來說也不具有價值。Gregory 等[101]通過用戶調(diào)查發(fā)現(xiàn),73%的用戶認(rèn)為易于獲取重要或者非常重要,趙華等[94]通過用戶訪談發(fā)現(xiàn)可獲取性的重要性僅次于主題相關(guān)性??茖W(xué)數(shù)據(jù)本身的準(zhǔn)確度和有效性直接影響到研究結(jié)論,因而數(shù)據(jù)集的質(zhì)量對于相關(guān)性判斷非常重要。張貴蘭等[97]通過訪談發(fā)現(xiàn),數(shù)據(jù)集質(zhì)量出現(xiàn)的頻次位于第二位,僅次于主題性;而通過問卷調(diào)查發(fā)現(xiàn)質(zhì)量的重要性排名第一。權(quán)威性在數(shù)據(jù)集相關(guān)性判斷中也具有重要的地位,它本質(zhì)上反映的也是數(shù)據(jù)集的質(zhì)量,來自高權(quán)威性作者和機構(gòu)的數(shù)據(jù)集,能使用戶相信其具有較高的質(zhì)量[102]。Gregory 等[101]通過用戶調(diào)查發(fā)現(xiàn),71%的用戶認(rèn)為數(shù)據(jù)來源的聲譽重要或非常重要。張貴蘭等[97]通過問卷調(diào)查發(fā)現(xiàn),權(quán)威性的重要程度排名第三,僅次于質(zhì)量和主題性。除以上相關(guān)性指標(biāo)外,時效性、可理解性、新穎性、便利性、規(guī)范性、可用性、全面性等指標(biāo)在研究中也有較多的提及。此外,用戶相關(guān)判斷依據(jù)會隨著學(xué)科特點而變化,Gregory 等[12]研究發(fā)現(xiàn)天文學(xué)、地球和環(huán)境科學(xué)、生物醫(yī)學(xué)、田野考古、社會科學(xué)的相關(guān)性判據(jù)都有所不同。
目前,科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺中的檢索結(jié)果主要基于主題相關(guān)性排序,對科學(xué)數(shù)據(jù)集的綜合排序方法的研究還比較少,僅在少量相關(guān)性判據(jù)上進行了研究和應(yīng)用探索。在數(shù)據(jù)集質(zhì)量方面,Google Dataset Search 在檢索結(jié)果排序中引入了元數(shù)據(jù)質(zhì)量因素[24]。在數(shù)據(jù)集權(quán)威性方面,藤常延等[103]引入HITS(hyperlink-induced topic search)算法,黎建輝等[104]和騰常延[105]引入PageRank 算法來衡量數(shù)據(jù)集的重要性。Google Dataset Search 引入數(shù)據(jù)集所在網(wǎng)頁的重要性對檢索結(jié)果進行排序[24]。在數(shù)據(jù)集的可獲取性方面,Research Data Australia 和Google Datas‐et Search 分別提供了獲?。ㄩ_放、有條件開放、受限)、使用授權(quán)(允許商業(yè)用途、不允許商業(yè)用途)的分面篩選功能。
此外,一些研究利用計量方法對數(shù)據(jù)集質(zhì)量進行評價,這對于科學(xué)數(shù)據(jù)集的綜合排序也有參考價值。傳統(tǒng)圖書情報學(xué)領(lǐng)域?qū)ξ墨I(xiàn)等學(xué)術(shù)成果質(zhì)量的評價主要采用基于引用的指標(biāo),DCI 中可提供科學(xué)數(shù)據(jù)集的引用量。然而,當(dāng)前科學(xué)數(shù)據(jù)引用不規(guī)范,數(shù)據(jù)集引用量極低。因此,一些研究探索利用替代計量指標(biāo)來對數(shù)據(jù)集的質(zhì)量進行測度。李龍飛等[106]通過獲取地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺中的使用數(shù)據(jù)來測度科學(xué)數(shù)據(jù)集的價值。在國外,加州數(shù)字圖書館、公共科學(xué)圖書館(Public Library of Sci‐ence,PLoS)、地球數(shù)據(jù)觀測網(wǎng)構(gòu)建了Making Data Count 服務(wù),通過基于PLoS 的文章級計量工具,為科學(xué)數(shù)據(jù)集提供來自CiteULike、Twitter 等13 個數(shù)據(jù)源的替代計量指標(biāo)[107]。
表3 相關(guān)性判據(jù)
現(xiàn)有研究對科學(xué)數(shù)據(jù)集檢索結(jié)果綜合排序中的相關(guān)性判據(jù)進行了較多探索,但是缺乏對相關(guān)性判據(jù)量化方法的研究。目前,Google Dataset Search 在數(shù)據(jù)集排序中引入網(wǎng)頁重要性排序指標(biāo),但是數(shù)據(jù)集所在頁面常位于“長尾”部分且缺乏相互鏈接,排序差異通常不具有意義[24]。DCI 雖然包含數(shù)據(jù)集的被引情況,但當(dāng)前科學(xué)數(shù)據(jù)引用不規(guī)范,絕大多數(shù)數(shù)據(jù)集都不具有引用量。替代計量指標(biāo)數(shù)據(jù)的收集難度大,現(xiàn)有研究還處于初步探索階段。前述相關(guān)研究主要是在數(shù)據(jù)集的質(zhì)量和權(quán)威性方面進行探索,其他如時效性、可用性等大量非主題相關(guān)性判據(jù)還缺乏關(guān)注。因此,需要進一步加強相關(guān)性判據(jù)的量化方法研究。
現(xiàn)有研究對用戶相關(guān)性判據(jù)的探索都主要采用用戶問卷調(diào)查、訪談等方式獲取數(shù)據(jù),這些研究方法有助于得到可能影響排序的相關(guān)性指標(biāo),但是不能準(zhǔn)確、可靠地分析出相應(yīng)指標(biāo)如何影響檢索結(jié)果排序的質(zhì)量。對檢索結(jié)果綜合排序的研究,需要以實際應(yīng)用系統(tǒng)真實的用戶需求和用戶交互的詳細(xì)日志為基礎(chǔ),通過控制變量,能更準(zhǔn)確有效地分析出各相關(guān)性判據(jù)對檢索效果的影響。由于研究者很難接觸到發(fā)現(xiàn)平臺的后臺數(shù)據(jù),因此還需要加強公開可用的科學(xué)數(shù)據(jù)集搜索日志數(shù)據(jù)集的建設(shè),以促進研究者對真實用戶行為和相關(guān)性判據(jù)的深入分析。
隨著開放科學(xué)和開放獲取運動的發(fā)展,科學(xué)數(shù)據(jù)的共享與復(fù)用受到重視,互聯(lián)網(wǎng)上科學(xué)數(shù)據(jù)集的數(shù)量迅速增長。為了幫助研究者從多源、異構(gòu)、海量的科學(xué)數(shù)據(jù)中快速地發(fā)現(xiàn)所需數(shù)據(jù),科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺應(yīng)運而生。本文對國內(nèi)外科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺相關(guān)研究與應(yīng)用實踐進行了廣泛調(diào)研,依據(jù)現(xiàn)有發(fā)現(xiàn)平臺的構(gòu)建模塊,分別從數(shù)據(jù)集采集、數(shù)據(jù)集組織、數(shù)據(jù)集檢索、檢索結(jié)果綜合排序四個方面總結(jié)現(xiàn)有研究進展??傮w來看,現(xiàn)有研究已經(jīng)對科學(xué)數(shù)據(jù)集采集、組織、檢索和排序方法進行了廣泛的研究,有效地推動了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺的建設(shè)。
歐美發(fā)達(dá)國家非常注重科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺的構(gòu)建,已經(jīng)建立了一批研究原型和應(yīng)用系統(tǒng),包括:涵蓋多個國家、多個學(xué)科領(lǐng)域的通用發(fā)現(xiàn)平臺,如DataCite Search、Data Citation Index、Else‐vier DataSearch、Google Dataset Search;面向特定國家的發(fā)現(xiàn)平臺,如澳大利亞Research Data Australia、加拿大Federated Research Data Repository、英國Re‐search Data Discovery Service;面向特定學(xué)科的發(fā)現(xiàn)平臺,如生物醫(yī)學(xué)DataMed、社會科學(xué)gesisDataSeach、地球與環(huán)境科學(xué)DataONE。國內(nèi)對科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺的研究相對匱乏,實踐應(yīng)用中也缺少收錄范圍足夠廣的發(fā)現(xiàn)平臺,僅有中國科技資源共享網(wǎng)、中國科學(xué)院科學(xué)數(shù)據(jù)云提供數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)服務(wù)。前者僅收錄受國家資助的20 個理工科數(shù)據(jù)倉儲,后者為機構(gòu)級的發(fā)現(xiàn)平臺。因此,我國還應(yīng)繼續(xù)加強科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺的建設(shè)力度。