亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        學(xué)者身份管理系統(tǒng)元數(shù)據(jù)分布規(guī)律研究

        2021-03-15 07:52:24莉,陳
        情報(bào)學(xué)報(bào) 2021年2期
        關(guān)鍵詞:學(xué)者身份管理系統(tǒng)

        司 莉,陳 辰

        (武漢大學(xué)信息管理學(xué)院,武漢 430072)

        1 引 言

        近年來(lái),研究人員在權(quán)威文檔和標(biāo)識(shí)符系統(tǒng)中進(jìn)行注冊(cè),越來(lái)越成為一種趨勢(shì),這些系統(tǒng)包括規(guī)范中樞系統(tǒng)(如LC/NACO 和VIAF)、ID 中樞系統(tǒng)(如ISNI 和ORCID)、研究和協(xié)作中樞系統(tǒng)(如nanoHBU)、主題作者ID 系統(tǒng)(如AuthorClaim)、研究人員畫(huà)像系統(tǒng)(如Google Scholar 和LinkedIn、VIVO)、研究信息管理系統(tǒng)(CRIS)、參考管理系統(tǒng)(如Mendeley)、國(guó)家研究門(mén)戶(如荷蘭的NAR‐CIS)、主題倉(cāng)儲(chǔ)(如arXiv)、在線百科全書(shū)(如Wikipedia)[1]。除此之外,研究網(wǎng)絡(luò)工具(research networking software,RNS)、學(xué)者檔案、學(xué)者概要系統(tǒng)、個(gè)人信息管理系統(tǒng)、個(gè)人在線資料、學(xué)者信息倉(cāng)儲(chǔ)和身份管理系統(tǒng)等也包括在內(nèi),本文將這些系統(tǒng)統(tǒng)稱(chēng)為“身份管理系統(tǒng)”。

        同一個(gè)學(xué)者可在多個(gè)系統(tǒng)中進(jìn)行表示和注冊(cè),這些系統(tǒng)的元數(shù)據(jù)元素不盡相同,出現(xiàn)學(xué)者信息的分散化和碎片化現(xiàn)象,這給共享、重用和聚合來(lái)自不同系統(tǒng)的數(shù)據(jù),滿足學(xué)者及機(jī)構(gòu)影響力評(píng)價(jià)帶來(lái)較大的困難[2]。由于當(dāng)前各個(gè)系統(tǒng)缺乏有效的共享工作流,不同系統(tǒng)對(duì)同一實(shí)體進(jìn)行重復(fù)信息收集和創(chuàng)建工作,因此促進(jìn)各個(gè)系統(tǒng)間的元數(shù)據(jù)共享和復(fù)用,是提高身份管理數(shù)據(jù)利用效率,滿足學(xué)者學(xué)術(shù)影響力評(píng)價(jià)需求的必然要求[3]。

        通過(guò)對(duì)各個(gè)系統(tǒng)的元數(shù)據(jù)結(jié)構(gòu)和元素值進(jìn)行比較研究,可了解系統(tǒng)的功能差異及重疊部分,為實(shí)施身份管理策略及數(shù)據(jù)復(fù)用提供參考[4]。目前,有許多關(guān)于學(xué)者在身份管理系統(tǒng)中的分布特點(diǎn)的研究,從元數(shù)據(jù)層面探討身份管理系統(tǒng)的研究仍然缺乏。本研究的主要目標(biāo)是探討中國(guó)學(xué)者在身份管理系統(tǒng)中的元數(shù)據(jù)分布規(guī)律,為實(shí)施元數(shù)據(jù)增強(qiáng)和復(fù)用與各系統(tǒng)的互操作提供有益的參考。

        2 相關(guān)研究

        2.1 關(guān)于學(xué)者在身份管理系統(tǒng)中的分布及元數(shù)據(jù)使用研究

        圖書(shū)館及其他文化機(jī)構(gòu)、版權(quán)管理組織和學(xué)術(shù)機(jī)構(gòu)等創(chuàng)建了一些不同的身份管理系統(tǒng),研究者對(duì)學(xué)者在這些系統(tǒng)中的分布進(jìn)行調(diào)查與識(shí)別,結(jié)果發(fā)現(xiàn)學(xué)者分布呈現(xiàn)明顯的人口統(tǒng)計(jì)(如職稱(chēng)、性別和年齡等)和學(xué)科分布特點(diǎn)[5-8]。

        Panigabutra-Roberts[9]對(duì)LC/NAF、VIAF、ISNI、ORCID、Scopus、ResearchGate 等系統(tǒng)進(jìn)行元數(shù)據(jù)使用分析,識(shí)別出描述研究人員和作品的頂層元數(shù)據(jù),并據(jù)此設(shè)計(jì)了應(yīng)用于美國(guó)田納西大學(xué)教職員工和研究生的元數(shù)據(jù)概要文件。Ortega[10]通過(guò)從Re‐searchGate、Academia.edu 和Mendeley、微軟學(xué)術(shù)搜索和谷歌學(xué)者中獲取作者元數(shù)據(jù),探討了社會(huì)和使用指標(biāo)(altmetrics)與文獻(xiàn)計(jì)量指標(biāo)之間的聯(lián)系。Lee 等[11]根據(jù)在RIM 中的參與度,將129 名調(diào)查樣本分為讀者、個(gè)人記錄管理人員和社區(qū)成員三類(lèi)群體,通過(guò)統(tǒng)計(jì)不同群體在ResearchGate 中的元數(shù)據(jù)使用頻率,發(fā)現(xiàn)不同群體的大部分概要文件至少使用了來(lái)自人員、出版物和研究主題類(lèi)別的一個(gè)元素,且不同群體使用的元數(shù)據(jù)元素具有不同特點(diǎn)。Stvilia 等[12]基于Lee 等[11]的元數(shù)據(jù)使用分析結(jié)果,定義了面向不同群體的元數(shù)據(jù)概要文件,讀者組的概要文件擁有最少的元數(shù)據(jù)元素,而社區(qū)成員組的概要文件擁有最多的元數(shù)據(jù)元素。

        2.2 關(guān)于學(xué)者身份管理系統(tǒng)的元數(shù)據(jù)共享研究

        學(xué)者身份管理系統(tǒng)的元數(shù)據(jù)共享對(duì)于減少數(shù)據(jù)重復(fù)建設(shè)工作,支持元數(shù)據(jù)的擴(kuò)展、迭代增強(qiáng)、重用和開(kāi)放交換具有重要作用[13]。數(shù)據(jù)質(zhì)量是影響元數(shù)據(jù)共享和重用的主要因素。例如,VIAF 和ISNI采取大規(guī)模集中聚合模式實(shí)現(xiàn)規(guī)范記錄及其他身份數(shù)據(jù)的共享,在進(jìn)行數(shù)據(jù)來(lái)源匹配時(shí),Angjeli 等[14]發(fā)現(xiàn)質(zhì)量較差、稀疏或未區(qū)分的記錄影響了匹配效果。此外,在對(duì)ORCID 和Scopus 等系統(tǒng)進(jìn)行分布式鏈接時(shí),Bilder[15]發(fā)現(xiàn)由于受到元數(shù)據(jù)不完整等質(zhì)量問(wèn)題影響,兩個(gè)系統(tǒng)并沒(méi)有大規(guī)模構(gòu)建Same‐As 關(guān)系。

        對(duì)于同一身份實(shí)體元數(shù)據(jù)的共享方式,NACO指出,可通過(guò)將一文件完全合并到另一個(gè)文件、從一個(gè)文件指向另一個(gè)文件(如MARC024 字段和ORCID 指向到ResearcherID 的鏈接)、通過(guò)SameAs語(yǔ)句進(jìn)行聚合等方式實(shí)現(xiàn)[16]。在元數(shù)據(jù)共享的技術(shù)方面,Shi 等[17]認(rèn)為,對(duì)元數(shù)據(jù)進(jìn)行上下文過(guò)濾,需要能夠集成來(lái)自身份源元數(shù)據(jù)的技術(shù),而關(guān)聯(lián)數(shù)據(jù)使用URI 作為實(shí)體的標(biāo)識(shí)符,并指定了數(shù)據(jù)元素之間的語(yǔ)義關(guān)聯(lián)Web,支持跨多個(gè)數(shù)據(jù)源進(jìn)行互操作,是適合支持元數(shù)據(jù)共享和語(yǔ)義增強(qiáng)的技術(shù)。對(duì)元數(shù)據(jù)共享的基礎(chǔ)設(shè)施方面,合作編目計(jì)劃(Pro‐gram for Cooperative Cataloging,PCC)認(rèn)為,應(yīng)該利用現(xiàn)有的結(jié)構(gòu)和協(xié)議來(lái)確保圖書(shū)館和其他網(wǎng)絡(luò)數(shù)據(jù)提供者之間更好地集成[18]。Ilik[19]則受航空業(yè)使用的實(shí)時(shí)交換和數(shù)據(jù)驗(yàn)證系統(tǒng)啟發(fā),提出用于作者信息實(shí)時(shí)交換的系統(tǒng)架構(gòu),將其稱(chēng)為全球分布系統(tǒng)(Global Distribution system,GDS),該系統(tǒng)將由分散中心組成,所有利益相關(guān)方(如出版商、供應(yīng)商、OCLC、圖書(shū)館和其他利益相關(guān)者)都能夠參與交換/核實(shí)作者的信息。

        目前,研究主要集中3 個(gè)方面:一是對(duì)相關(guān)身份管理系統(tǒng)進(jìn)行元數(shù)據(jù)使用評(píng)估,但尚缺乏對(duì)不同系統(tǒng)的元數(shù)據(jù)進(jìn)行比較研究;二是研究多集中于對(duì)身份管理系統(tǒng)的共享方式、技術(shù)及其基礎(chǔ)設(shè)施等方面,但尚缺乏從學(xué)者層次上研究不同系統(tǒng)的元數(shù)據(jù)結(jié)構(gòu)及信息分布差異問(wèn)題;三是研究多針對(duì)國(guó)外學(xué)者,尚缺乏針對(duì)中國(guó)學(xué)者在身份管理系統(tǒng)中的分布研究。

        本研究主要基于統(tǒng)計(jì)學(xué)分析方法,對(duì)中國(guó)學(xué)者在身份管理系統(tǒng)中的識(shí)別情況進(jìn)行分析,在此基礎(chǔ)上,結(jié)合詞頻分析、共現(xiàn)分析、相關(guān)分析和主成分分析方法對(duì)不同身份管理系統(tǒng)的元數(shù)據(jù)分布進(jìn)行度量,通過(guò)挖掘元數(shù)據(jù)結(jié)構(gòu)表現(xiàn)特點(diǎn),提取不同系統(tǒng)的元數(shù)據(jù)信息貢獻(xiàn)量,為制定有效的元數(shù)據(jù)復(fù)用和增強(qiáng)策略提供參考。

        3 研究設(shè)計(jì)

        3.1 確立數(shù)據(jù)樣本

        首先,根據(jù)六大系部(人文科學(xué)、社會(huì)科學(xué)、理學(xué)、工學(xué)、信息科學(xué)和醫(yī)學(xué)部)在武漢大學(xué)機(jī)構(gòu)知識(shí)庫(kù)中的2018 年的發(fā)文規(guī)模確定相應(yīng)比例的人數(shù),然后根據(jù)“機(jī)構(gòu)單位”進(jìn)行限定瀏覽,獲取該系部中排列最前的文章的學(xué)者,共選擇100 名武漢大學(xué)的在職教師作為分析樣本。

        其次,從武漢大學(xué)官網(wǎng)及學(xué)者個(gè)人實(shí)驗(yàn)室主頁(yè)等獲取該學(xué)者較為權(quán)威的簡(jiǎn)介信息,以核實(shí)和確認(rèn)在系統(tǒng)中的身份。

        最后,確定身份管理系統(tǒng)樣本,其選擇標(biāo)準(zhǔn)為:系統(tǒng)與中國(guó)學(xué)者密切相關(guān),且保證中國(guó)學(xué)者在該系統(tǒng)具有較多數(shù)量的分布,同時(shí)結(jié)合不同的語(yǔ)言類(lèi)型、注冊(cè)類(lèi)型、構(gòu)建方式以及開(kāi)放程度,選擇以下5 個(gè)身份管理系統(tǒng)作為調(diào)查樣本。

        ①中文名稱(chēng)規(guī)范聯(lián)合數(shù)據(jù)庫(kù)檢索系統(tǒng)(Chinese Name Authority Joint Database Search System,CNAJDSS),是由中文名稱(chēng)規(guī)范聯(lián)合協(xié)調(diào)委員會(huì)(Cooperative Committee for Chinese Name Authority,

        CCCNA)于2009 年創(chuàng)建,各成員機(jī)構(gòu)共享圖書(shū)館名稱(chēng)規(guī)范文檔的一站式檢索系統(tǒng)。②百度學(xué)者(Baidu Scholar,BS) 主頁(yè),是百度學(xué)術(shù)推出的一項(xiàng)服務(wù),目前已經(jīng)上線了包含400 多萬(wàn)個(gè)中國(guó)學(xué)者主頁(yè)。③開(kāi)放研究者與貢獻(xiàn)者身份識(shí)別碼(Open Researcher and Contributor Identifier,ORCID),是由國(guó)際上的學(xué)術(shù)出版商、國(guó)家圖書(shū)館、專(zhuān)業(yè)協(xié)會(huì)等推動(dòng)的項(xiàng)目,其目標(biāo)是建立“研究人員和貢獻(xiàn)者”的集中注冊(cè)表。④Scopus Author ID(簡(jiǎn)稱(chēng)ScopusID),是愛(ài)思唯爾出版集團(tuán)為其摘要/索引服務(wù)中的作者生成唯一標(biāo)識(shí)符,并生成作者身份概要的系統(tǒng)。⑤Publons Researcher Profiles 是科睿唯安(Clarivate Analytics)的個(gè)人資料管理工具,其為研究者生成唯一標(biāo)識(shí)符,并創(chuàng)建個(gè)人公共簡(jiǎn)介,可全面跟蹤學(xué)者的出版物、引文指標(biāo)、同行評(píng)議和編輯歷史。以上各系統(tǒng)的特點(diǎn)表現(xiàn)如表1 所示。

        表1 身份管理系統(tǒng)及其特點(diǎn)

        3.2 元數(shù)據(jù)指標(biāo)采集和分類(lèi)

        3.2.1 元素集的識(shí)別

        根據(jù)系統(tǒng)指定的元數(shù)據(jù)模型進(jìn)行元素集采集,如果系統(tǒng)沒(méi)有發(fā)布元數(shù)據(jù)模型,則采集單個(gè)樣本在概要文件中的元數(shù)據(jù)集。在該過(guò)程中,對(duì)系統(tǒng)中部分非結(jié)構(gòu)化信息進(jìn)行了人工提取,如CNAJDSS 中的標(biāo)目附注項(xiàng)、ORCID 和Publons 傳記中的有關(guān)職稱(chēng)、學(xué)科領(lǐng)域、機(jī)構(gòu)從屬關(guān)系、籍貫等信息,共識(shí)別出33 個(gè)元素集。

        3.2.2 元素集歸類(lèi)框架

        本研究定義了一個(gè)框架用以對(duì)識(shí)別出的元數(shù)據(jù)進(jìn)行分類(lèi),該框架涉及識(shí)別信息、學(xué)術(shù)CV、影響力評(píng)價(jià)指標(biāo)、社會(huì)網(wǎng)絡(luò)及計(jì)量分析五大類(lèi),具體內(nèi)容如下。

        (1)識(shí)別信息(或個(gè)人資料):是指對(duì)消除學(xué)者歧義具有重要鑒別意義的元素,如姓名、性別、職稱(chēng)/職位、日期(生卒)、人員或記錄ID 等。

        (2)學(xué)術(shù)CV:是為了突出個(gè)人學(xué)術(shù)專(zhuān)業(yè)背景而展示的信息,包括基金項(xiàng)目、獲獎(jiǎng)、出版物列表和出版物來(lái)源。

        (3)影響力評(píng)價(jià)指標(biāo):分為書(shū)目計(jì)量指標(biāo)和替代計(jì)量指標(biāo),前者主要包括較為傳統(tǒng)的出版物數(shù)量、總被引頻次、H 指數(shù)、G 指數(shù)和同行評(píng)審(peer review);后者主要包括頁(yè)面瀏覽/搜索次數(shù)和關(guān)注者/跟隨者。

        (4)社會(huì)網(wǎng)絡(luò):主要包括合作者、合作機(jī)構(gòu)和允許分享的功能元素。

        (5)計(jì)量分析:基于系統(tǒng)平臺(tái)數(shù)據(jù)而提供的附加功能,如出版物等的分析,以確定重要的數(shù)量趨勢(shì)和主題概念的元素。

        4 結(jié)果與討論

        4.1 學(xué)者在身份管理系統(tǒng)中的分布統(tǒng)計(jì)

        4.1.1 學(xué)者在不同類(lèi)型系統(tǒng)的分布特點(diǎn)

        本研究統(tǒng)計(jì)結(jié)果顯示:100 名學(xué)者在5 個(gè)系統(tǒng)中的分布頻次并不一致,從多到少依次是BS(81人)、 ScopusID (79 人)、 ORCID (43 人)、CNAJDSS(41 人)、Publons(18 人)。其中有4 人沒(méi)有在任何系統(tǒng)中進(jìn)行表示。

        (1)從學(xué)者在國(guó)內(nèi)外系統(tǒng)的占有分布上看,學(xué)者在國(guó)內(nèi)外相似系統(tǒng)的占有率上較為平衡,如關(guān)注論文作者的BS 和ScopusID 的數(shù)量差為2,注重人名消歧的CNAJDSS 與ORCID 數(shù)量差為2。但從整體上看,學(xué)者在ORCID 和Publons 等系統(tǒng)上的占有率不到一半,由此可見(jiàn),中國(guó)學(xué)者在身份管理系統(tǒng)中的顯示度還有待提高。包括期刊編輯在內(nèi)的學(xué)術(shù)交流社區(qū)成員,呼吁中國(guó)學(xué)者通過(guò)積極注冊(cè)O(shè)RCID、ResearchGate、Google Scholar 和Loop 等系統(tǒng),以提高中國(guó)學(xué)者在國(guó)際科學(xué)界的顯示度[20]。

        (2)從學(xué)者在新興與傳統(tǒng)的身份管理系統(tǒng)上的分布看,在傳統(tǒng)的規(guī)范文檔占有率少于新興的唯一標(biāo)識(shí)符系統(tǒng)(Publons 除外)。CNAJDSS 主要針對(duì)專(zhuān)著作者進(jìn)行人名規(guī)范,在本樣本數(shù)據(jù)中,人名占有率不到一半,已不能滿足不斷擴(kuò)大的規(guī)范控制對(duì)象的需要。未來(lái)應(yīng)結(jié)合利用新興標(biāo)識(shí)符系統(tǒng)制定身份管理的策略,進(jìn)一步探索規(guī)范控制向標(biāo)識(shí)符管理領(lǐng)域轉(zhuǎn)型的方式和路徑[21]。

        (3)從學(xué)者在自動(dòng)化和手工管理維護(hù)系統(tǒng)的分布上看,依靠機(jī)器挖掘的自動(dòng)化方式創(chuàng)建學(xué)者身份系統(tǒng)的數(shù)量多于依靠由專(zhuān)業(yè)人員手工管理的系統(tǒng),如百度學(xué)者和ScopusID 的數(shù)量明顯多于其他系統(tǒng)。由專(zhuān)業(yè)人員進(jìn)行系統(tǒng)維護(hù),數(shù)據(jù)質(zhì)量高,但是費(fèi)時(shí)費(fèi)力且不可擴(kuò)展的[22]。由機(jī)器自動(dòng)收集、聚合、攝入、挖掘研究身份信息,可擴(kuò)展性強(qiáng),但仍然需要人工干預(yù)以確保其質(zhì)量。人工和機(jī)器方式結(jié)合才能達(dá)到較為理想的身份管理效果。

        4.1.2 學(xué)者在身份管理系統(tǒng)中的重疊共現(xiàn)特點(diǎn)

        同一學(xué)者可同時(shí)在多個(gè)系統(tǒng)中進(jìn)行表示和分布,呈現(xiàn)明顯的系統(tǒng)重疊特點(diǎn)。統(tǒng)計(jì)結(jié)果顯示,同一學(xué)者同時(shí)出現(xiàn)在3 個(gè)系統(tǒng)中的人數(shù)最多(32 人),其次是2 個(gè)系統(tǒng)(25 人)、4 個(gè)系統(tǒng)(23 人)、1 個(gè)系統(tǒng)(14 人)、5 個(gè)系統(tǒng)(2 人)。學(xué)者在系統(tǒng)中的數(shù)量分布情況如圖1 所示。以同時(shí)占有3 個(gè)系統(tǒng)的學(xué)者為例進(jìn)行說(shuō)明,在BS/ORCID/Scopus 中同時(shí)分布 的 為10 人,CANJDSS/BS/ORCID 為1 人,CAN‐JDSS/BS/Scopus 為16 人,CANJDSS/ORCID/Scopus為1 人,ORCID/Scopus/Publons 為4 人,總共32 人。

        圖1 學(xué)者在系統(tǒng)中的分布情況

        為了解哪些系統(tǒng)更可能擁有同一學(xué)者的身份信息,本文從學(xué)者分布層面分析不同系統(tǒng)中的共現(xiàn)關(guān)系。首先,通過(guò)統(tǒng)計(jì)兩兩系統(tǒng)擁有同一學(xué)者的共現(xiàn)頻次,并制作共現(xiàn)矩陣;然后,通過(guò)社會(huì)網(wǎng)絡(luò)分析工具Ucinet,繪制共現(xiàn)圖譜,圖譜如圖2 所示,通過(guò)此圖可直觀了解學(xué)者在兩兩系統(tǒng)中的重疊和緊密程度。

        圖2 學(xué)者系統(tǒng)分布共現(xiàn)圖

        在圖2 中,節(jié)點(diǎn)表示學(xué)者在各個(gè)系統(tǒng)的占有數(shù)量,節(jié)點(diǎn)越大,表示占有數(shù)量越多,連線表示同一學(xué)者在各個(gè)系統(tǒng)的共現(xiàn)關(guān)系,連線越粗表示共現(xiàn)頻次越高。從圖2 可見(jiàn),Scopus 和百度學(xué)術(shù)的共現(xiàn)頻次最高,說(shuō)明BS 和Scopus 主要關(guān)注期刊論文作者,因此,具有較高的重疊率。Publons 與其他系統(tǒng)的關(guān)聯(lián)都不強(qiáng),尤其是與CNAJDSS 的共現(xiàn)頻次極低。這與Publons 擁有中國(guó)學(xué)者的數(shù)量不高有關(guān)系,而且2 個(gè)系統(tǒng)關(guān)注的學(xué)科領(lǐng)域和范圍有一定差別,規(guī)范文檔主要針對(duì)在人文社科領(lǐng)域的專(zhuān)著作者,Publons 中的作者多為自然科學(xué)領(lǐng)域發(fā)表研究成果的作者,所以重疊概率較低。

        表2 系統(tǒng)元素分類(lèi)分布情況

        4.2 身份管理系統(tǒng)中元數(shù)據(jù)結(jié)構(gòu)的比較分析

        本研究通過(guò)對(duì)身份管理系統(tǒng)使用的元素集(元數(shù)據(jù)結(jié)構(gòu))進(jìn)行對(duì)比分析,可了解各個(gè)系統(tǒng)元素集特點(diǎn)及其功能差異,為系統(tǒng)數(shù)據(jù)增強(qiáng)和重用提供參考。

        4.2.1 各系統(tǒng)元素集的分布

        本文對(duì)采集的系統(tǒng)元素集依照第3.2.2 節(jié)提出的分類(lèi)框架進(jìn)行歸類(lèi),其具體分布情況如表2 所示。

        4.2.2 各系統(tǒng)元素值出現(xiàn)頻率

        基于學(xué)者層面的元素值頻率統(tǒng)計(jì),可了解系統(tǒng)元數(shù)據(jù)的一致性和完整性程度。圖3 是通過(guò)熱圖制作工具Heml 繪制的,數(shù)據(jù)變量值為各個(gè)元素值的出現(xiàn)頻率,具體計(jì)算方式為

        例如,學(xué)者在CNAJDSS 中的出現(xiàn)頻次為41 人,而在這41 人的規(guī)范記錄中,性別字段的出現(xiàn)頻次為10,則性別字段值出現(xiàn)頻率為

        圖3 中的顏色由黃到紅依次漸變,表示頻率由低到高,深紅色表示頻率為1 的字段值。顏色越深說(shuō)明該元素值頻率越高,其字段值出現(xiàn)越多,元素填充越完整,其信息缺失越少。

        圖3 元數(shù)據(jù)字段值熱圖(彩圖請(qǐng)見(jiàn)http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

        從單個(gè)系統(tǒng)元數(shù)據(jù)的縱向比較上看,即使在同一個(gè)集合中,元素值出現(xiàn)頻率也有所不同。系統(tǒng)的數(shù)據(jù)維護(hù)方式影響元數(shù)據(jù)值的完整性和一致性,依靠機(jī)器自動(dòng)填充數(shù)據(jù)的系統(tǒng)顏色趨于一致,且顏色較深,說(shuō)明各個(gè)元數(shù)據(jù)值出現(xiàn)頻次一致,而且填充完整(如BS 和ScopusID);而依賴(lài)人工去填充和維護(hù)數(shù)據(jù)的系統(tǒng),顏色深淺不一,淺色元素較多,說(shuō)明元素值出現(xiàn)頻次并不平衡,且缺失值較多(如規(guī)范文檔、Publons 和ORCID)。而ORCID 中出現(xiàn)了較多的空白或接近空白的記錄,這些記錄給人員識(shí)別、系統(tǒng)互操作和數(shù)據(jù)關(guān)聯(lián)帶來(lái)很大的困難。

        4.2.3 各系統(tǒng)元數(shù)據(jù)結(jié)構(gòu)的相似度

        從多個(gè)系統(tǒng)元數(shù)據(jù)的橫向比較上看,各個(gè)系統(tǒng)包含的信息元素集并不一致。通過(guò)Kendall 協(xié)調(diào)系數(shù)計(jì)算相似度,可進(jìn)一步描述各系統(tǒng)元數(shù)據(jù)變量之間的一致性程度,從而為數(shù)據(jù)復(fù)用和關(guān)聯(lián)提供參考。身份管理系統(tǒng)的元數(shù)據(jù)結(jié)構(gòu)相似度如表3 所示。

        表3 身份管理系統(tǒng)的元數(shù)據(jù)結(jié)構(gòu)相似度

        在表3 中,斜體加粗的數(shù)字為顯著性相關(guān)。其中,CNAJDSS 與ORCID 在元素集結(jié)構(gòu)上較為相似,其信息主要集中在人名識(shí)別方面,而且信息分別由圖書(shū)館專(zhuān)業(yè)人員和學(xué)者本人進(jìn)行維護(hù),可信度較高。BS 與Scopus 和Publons 在元數(shù)據(jù)結(jié)構(gòu)上較為相關(guān),其中與Scopus 的相似系數(shù)最高,其信息主要集中在學(xué)術(shù)CV、影響力評(píng)價(jià)指標(biāo)和計(jì)量分析功能元素等方面。Publons 和Scopus 則都側(cè)重于書(shū)目計(jì)量指標(biāo),而B(niǎo)S 在書(shū)目和替代計(jì)量指標(biāo)方面都有涉及。Scopus 中書(shū)目計(jì)量分析指標(biāo)中包括主題趨勢(shì)預(yù)測(cè),而其他系統(tǒng)則沒(méi)有涉及。

        此外,BS 與CNAJDSS 和ORCID 呈現(xiàn)負(fù)相關(guān),并且與CNAJDSS 的相關(guān)系數(shù)最低,說(shuō)明元數(shù)據(jù)結(jié)構(gòu)存在較大的差異,各自形成信息流孤島,但另一方面可以說(shuō)明2 個(gè)系統(tǒng)具有較強(qiáng)的元數(shù)據(jù)互補(bǔ)能力。

        Publons 與BS、Scopus 和ORCID 都較為相關(guān),并且與Scopus 的相關(guān)系數(shù)最高。從總體上看,雖然Publons 在學(xué)者出現(xiàn)頻次以及與其他系統(tǒng)的共現(xiàn)頻次都不突出,但是從元數(shù)據(jù)結(jié)構(gòu)上看,其與多個(gè)系統(tǒng)都較為相關(guān),因此,在進(jìn)行系統(tǒng)數(shù)據(jù)關(guān)聯(lián)時(shí),可參考Publons 元素集進(jìn)行模型開(kāi)發(fā)和設(shè)計(jì),以最大限度滿足和容納不同系統(tǒng)的元素。

        4.3 身份管理系統(tǒng)中的元素值共現(xiàn)及主成分分析

        學(xué)者在身份管理系統(tǒng)中的分布以及系統(tǒng)元數(shù)據(jù)的出現(xiàn)頻率,將影響各個(gè)系統(tǒng)元數(shù)據(jù)的共現(xiàn)關(guān)系。本文基于對(duì)元素共現(xiàn)關(guān)系統(tǒng)計(jì),進(jìn)一步進(jìn)行主成分分析,獲得統(tǒng)計(jì)學(xué)意義上包含更多信息的指標(biāo),為有針對(duì)性的信息復(fù)用和取舍提供參考。

        4.3.1 元素值共現(xiàn)分析

        首先,統(tǒng)計(jì)每位學(xué)者在各個(gè)系統(tǒng)中的元素值出現(xiàn)頻次,構(gòu)建元素值-學(xué)者矩陣;其次,統(tǒng)計(jì)兩兩元素值在同一學(xué)者中的共現(xiàn)頻次,構(gòu)建元素值共現(xiàn)矩陣。圖4 為各個(gè)系統(tǒng)元素值的共現(xiàn)圖譜。

        從單一系統(tǒng)內(nèi)部的元素值共現(xiàn)關(guān)系看:呈現(xiàn)明顯的共現(xiàn)相關(guān)規(guī)律,但各個(gè)系統(tǒng)的元素值共現(xiàn)范圍并不相同。其中,BS 和Scopus 各系統(tǒng)內(nèi)部的大部分元素共現(xiàn)頻次較高,而其他3 個(gè)系統(tǒng)內(nèi)部的共現(xiàn)頻次呈現(xiàn)明顯的差異,元素共現(xiàn)范圍從大到小依次是CNAJDSS、Publons 和ORCID。在CNAJDSS 內(nèi)部,共現(xiàn)頻次較多的元素為姓名、個(gè)人/記錄ID、其他名稱(chēng)形式、出版物列表、出生日期、研究領(lǐng)域/學(xué)科類(lèi)別/關(guān)鍵詞,其他元素則表現(xiàn)稀疏和不穩(wěn)定;在ORCID 和Publons 內(nèi)部,除了“姓名”和“個(gè)人/記錄ID”共現(xiàn)頻次較高外,其他元素都較低。

        從不同系統(tǒng)之間的元素值共現(xiàn)關(guān)系比較看:呈現(xiàn)不同的共現(xiàn)特點(diǎn),其中大部分系統(tǒng)之間都有不同數(shù)量的共現(xiàn)元素,而Publons 與CNAJDSS 的共現(xiàn)元素則呈現(xiàn)大部分缺失,2 個(gè)系統(tǒng)無(wú)論在學(xué)者層面,還是元數(shù)據(jù)結(jié)構(gòu)、元素值層面,都呈現(xiàn)較弱的共現(xiàn)關(guān)系。

        4.3.2 主成分分析

        本研究通過(guò)分析各個(gè)身份管理系統(tǒng)不同元素指標(biāo)的主成分,可檢測(cè)最重要和信息量最大的指標(biāo),從而為制定身份數(shù)據(jù)復(fù)用策略提供參考。具體分析過(guò)程為:①基于系統(tǒng)元素共現(xiàn)矩陣,進(jìn)行相關(guān)系數(shù)的轉(zhuǎn)換,得到元素相似矩陣;②將相似矩陣導(dǎo)入SPSS,進(jìn)行主成分分析(principal component analy‐sis,PCA);③設(shè)置主成分分析相關(guān)參數(shù),最后得到2 個(gè)成分分組,其累積方差約為98.4%,如表4 所示,基本覆蓋了大部分信息。

        各個(gè)元素對(duì)2 個(gè)分組的方差貢獻(xiàn)率情況如表5所示。

        1)總體貢獻(xiàn)率

        本研究通過(guò)提取對(duì)各成分的貢獻(xiàn)率在0.9 以上的系統(tǒng)元素,可發(fā)現(xiàn)第一組成分(F1) 與由BS、Scopus 和部分CNAJDSS 組成的信息具有較高的載荷,內(nèi)容涉及學(xué)術(shù)CV、影響力評(píng)價(jià)指標(biāo)、社會(huì)網(wǎng)絡(luò)關(guān)系、計(jì)量分析元素等。3 個(gè)系統(tǒng)總方差解釋累積率為70.8%(表4),其中,BS 和Scopus 中所有元素對(duì)第一組成分都有較高且一致的貢獻(xiàn)率,而CNAJDSS 則只有較少信息元素對(duì)該成分具有較高貢獻(xiàn),主要為“國(guó)籍、其他網(wǎng)站信息和榮譽(yù)獎(jiǎng)項(xiàng)”三類(lèi)。第二組成分(F2)與Publons 部分元素組成的信息具有較高的載荷,內(nèi)容涉及個(gè)人識(shí)別信息和學(xué)術(shù)CV,其中貢獻(xiàn)率較高的元素為“其他標(biāo)識(shí)符、照片、歷史機(jī)構(gòu)、其他網(wǎng)站信息、獎(jiǎng)項(xiàng)、總成果數(shù)、H 指數(shù)、出版物列表”。通過(guò)主成分分析得到的2 個(gè)分組可以發(fā)現(xiàn),并非所有身份系統(tǒng)的元素指標(biāo)均具有很強(qiáng)的相關(guān)性,而是包含不同的信息量。

        從統(tǒng)計(jì)結(jié)果可以看出,ORCID 在2 個(gè)分組中都沒(méi)有具有較高的信息貢獻(xiàn)率,是信息量最少的系統(tǒng),因此,在進(jìn)行身份信息提取和復(fù)用時(shí),要慎重將其作為替代資源。

        2)通用元素的貢獻(xiàn)率

        主成分分析還可以對(duì)各個(gè)系統(tǒng)相同元素的信息貢獻(xiàn)程度進(jìn)行測(cè)度,以幫助相關(guān)人員進(jìn)行信息復(fù)用取舍,同時(shí)避免重復(fù)數(shù)據(jù)的收集。表2 顯示,5 個(gè)系統(tǒng)共有的元素為姓名、個(gè)人/記錄唯一標(biāo)識(shí)符、研究領(lǐng)域/學(xué)科類(lèi)別/關(guān)鍵詞以及當(dāng)前附屬機(jī)構(gòu),其中,前兩者是各個(gè)系統(tǒng)必備元素,信息貢獻(xiàn)較為穩(wěn)定,而后兩者在各系統(tǒng)中的出現(xiàn)頻次表現(xiàn)不一,可利用因子分析對(duì)后兩者進(jìn)行信息量測(cè)度。

        為便于對(duì)因子意義進(jìn)行解釋?zhuān)瑢?duì)成分矩陣進(jìn)行因子旋轉(zhuǎn),構(gòu)造新的方差貢獻(xiàn)率。統(tǒng)計(jì)結(jié)果顯示,各個(gè)系統(tǒng)在“研究領(lǐng)域/學(xué)科類(lèi)別/關(guān)鍵詞”上的信息貢獻(xiàn)量分別為:CNAJDSS,0.941;BS,0.916;Scopus, 0.785; Publons, 0.436; ORCID, 0.222。在“附屬機(jī)構(gòu)”信息上的貢獻(xiàn)率為:CNAJDSS,0.936; BS, 0.916; Scopus, 0.785; ORCID,0.682;Publons,0.337。由此可見(jiàn),CNAJDSS 在研究主題以及附屬機(jī)構(gòu)信息共有元素的貢獻(xiàn)量最高,因此,在提取此類(lèi)信息時(shí),可將CNAJDSS 作為參考貢獻(xiàn)源,以獲得較多的信息量,避免重復(fù)數(shù)據(jù)的收集。而ORCID 和Publons 在兩種信息量的提取上具有較低的貢獻(xiàn),為此可避免將其作為替代資源,可結(jié)合實(shí)際減少此類(lèi)數(shù)據(jù)的提取工作。

        圖4 系統(tǒng)元素共現(xiàn)圖譜(彩圖請(qǐng)見(jiàn)http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

        表4 累積方差貢獻(xiàn)率

        表5 身份管理系統(tǒng)元素的PCA成分列表

        5 結(jié)論與展望

        學(xué)者身份管理系統(tǒng)處于復(fù)雜的信息流格局中,如何依據(jù)身份管理系統(tǒng)的元數(shù)據(jù)分布特點(diǎn)進(jìn)行有針對(duì)性的迭代增強(qiáng),從而構(gòu)建完整的“元數(shù)據(jù)生命周期”,是未來(lái)身份管理生態(tài)系統(tǒng)發(fā)展關(guān)鍵[21]。本研究通過(guò)分析中國(guó)學(xué)者在各類(lèi)身份管理系統(tǒng)分布特點(diǎn)的基礎(chǔ)上,進(jìn)一步評(píng)估系統(tǒng)元數(shù)據(jù)結(jié)構(gòu)和對(duì)身份信息的貢獻(xiàn)率,得出如下結(jié)論:

        (1)不同服務(wù)范圍、功能定位、數(shù)據(jù)維護(hù)方式的身份管理系統(tǒng),具有不同的學(xué)者分布特點(diǎn)和規(guī)律。同一學(xué)者擁有多個(gè)身份管理系統(tǒng)的概率高于只擁有一個(gè)系統(tǒng)的,且各個(gè)系統(tǒng)共現(xiàn)頻次不同,Sco‐pus 和百度學(xué)術(shù)的共現(xiàn)頻次最高,而Publons 與其他系統(tǒng)共現(xiàn)頻次都極低。

        (2)不同身份管理系統(tǒng)的元數(shù)據(jù)集結(jié)構(gòu)具有差異,從單個(gè)系統(tǒng)元數(shù)據(jù)集合縱向比較看,依靠機(jī)器自動(dòng)填充數(shù)據(jù)的系統(tǒng),其元數(shù)據(jù)較為完整和一致;而依賴(lài)人工填充數(shù)據(jù)的系統(tǒng),元素表現(xiàn)較為稀疏和不完整。從多個(gè)系統(tǒng)的橫向比較來(lái)看,其相似程度也具有不同的表現(xiàn)。

        (3)學(xué)者在身份管理系統(tǒng)中的分布,以及元數(shù)據(jù)集結(jié)構(gòu)影響元素值的共現(xiàn)關(guān)系,通過(guò)主成分分析法提取兩組公共因子,說(shuō)明并非所有身份系統(tǒng)的元素指標(biāo)均具有很強(qiáng)的相關(guān)性,而是呈現(xiàn)出2 個(gè)不同的成分分組。通過(guò)旋轉(zhuǎn)因子法對(duì)各系統(tǒng)相同/相似元素進(jìn)行貢獻(xiàn)測(cè)度,發(fā)現(xiàn)CNAJDSS 在“研究主題”和“附屬機(jī)構(gòu)信息”上貢獻(xiàn)水平突出。

        本研究的局限與展望:首先,由于有些系統(tǒng)沒(méi)有發(fā)布元數(shù)據(jù)服務(wù)模型,作者通過(guò)收集單個(gè)學(xué)者的概要文件來(lái)確定元數(shù)據(jù)集,可能影響元素收集的完整性。因此,本研究查看多個(gè)學(xué)者的概要文件,通過(guò)比較來(lái)不斷完善和補(bǔ)充元素集,可一定程度改善此問(wèn)題。其次,鑒于人名識(shí)別的復(fù)雜性,為保證信息識(shí)別的正確性,本研究選擇武漢大學(xué)的100 名樣本并采用人工方式進(jìn)行身份匹配,樣本數(shù)量可能限制了研究結(jié)果的普遍性,未來(lái)可在此基礎(chǔ)上擴(kuò)大數(shù)據(jù)樣本規(guī)模,并結(jié)合機(jī)器匹配算法進(jìn)行人名的識(shí)別分布研究,以期為身份數(shù)據(jù)的復(fù)用提供更多可操作性的建議。

        猜你喜歡
        學(xué)者身份管理系統(tǒng)
        基于James的院內(nèi)郵件管理系統(tǒng)的實(shí)現(xiàn)
        學(xué)者介紹
        學(xué)者簡(jiǎn)介
        學(xué)者介紹
        基于LED聯(lián)動(dòng)顯示的違停管理系統(tǒng)
        跟蹤導(dǎo)練(三)(5)
        海盾壓載水管理系統(tǒng)
        學(xué)者介紹
        他們的另一個(gè)身份,你知道嗎
        互換身份
        国产av熟女一区二区三区老牛| 亚洲精品无码久久久久| 国际无码精品| 永久免费的拍拍拍网站| 国产一区二区三区亚洲| 老子影院午夜伦不卡| 亚洲欧美日韩综合久久| 人妻少妇精品无码系列| 人妻少妇偷人精品一区二区| 色88久久久久高潮综合影院| 成人综合网亚洲伊人| www.久久av.com| 亚洲精品456在线播放狼人 | 国产内射视频免费观看| 精品人妻av区乱码色片| 亚洲欧美一区二区三区在线| 91精品国产91久久久无码95| 久久亚洲精品成人av观看| 午夜视频在线观看视频在线播放| 久久久久成人片免费观看蜜芽| 国产免费资源高清小视频在线观看| 亚洲天堂免费一二三四区| 国产在线视频91九色| 中出人妻中文字幕无码| 精品少妇大屁股白浆无码| 亚洲一区视频中文字幕| 国产精品天干天干| 中文字幕无码家庭乱欲| 99在线无码精品秘 入口九色| 人妖一区二区三区在线| 麻豆国产在线精品国偷产拍| 最新无码国产在线播放| 亚洲一区视频中文字幕| 国产精品白丝久久av网站| 免费国精产品自偷自偷免费看| 国产精品麻豆A在线播放| 国产女同va一区二区三区| 中文字幕天天躁日日躁狠狠躁免费| 国产va精品免费观看| 女优av性天堂网男人天堂| 日日天干夜夜狠狠爱|