亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        從WOS地址字段提取二級(jí)機(jī)構(gòu)數(shù)據(jù)的半自動(dòng)數(shù)據(jù)清洗方法

        2017-09-06 20:48:51何春建
        新世紀(jì)圖書(shū)館 2017年8期
        關(guān)鍵詞:科技查新

        何春建

        摘 要 各高校都需要統(tǒng)計(jì)本校各個(gè)二級(jí)機(jī)構(gòu)Web of Science (WOS)發(fā)文情況,論文提出一種基于正則表達(dá)式的半自動(dòng)數(shù)據(jù)清洗方法,可從WOS地址字段中提取出發(fā)文機(jī)構(gòu)排名、所屬二級(jí)機(jī)構(gòu)名稱(chēng)以及對(duì)應(yīng)作者群,并以2015年南京師范大學(xué)WOS發(fā)文統(tǒng)計(jì)為例,進(jìn)行實(shí)證研究,分析出各院系發(fā)文情況和作者發(fā)文情況。

        關(guān)鍵詞 二級(jí)機(jī)構(gòu) 正則表達(dá)式 數(shù)據(jù)清洗 WOS地址字段 科技查新

        分類(lèi)號(hào) G250.78

        DOI 10.16810/j.cnki.1672-514X.2017.08.012

        A Semi-automatic Data Cleaning Method for Extracting Secondary Institutions Data from WOS Address Field

        He Chunjian

        Abstract Chinese higher education institutions need to count the articles included in Web of Science (WOS) by their secondary institutions. This paper puts forward a semi-automatic data cleaning method based on regular expressions for extracting ranking of the dispatch agency, name of the secondary institutions and the corresponding authors from WOS address fields. At last, it takes the statistics of articles included in WOS of Nanjing Normal University in 2015 as an example to conduct an empirical study, and analyze the situation of the articles issued by various faculties and authors.Keywords Secondary institutions. Regular expression. Data cleaning. WOS address field. Sci-tech novelty search.

        0 引言

        Web of Science(WOS)不僅是世界范圍內(nèi)最權(quán)威的科技文獻(xiàn)索引工具之一, 也是科研評(píng)價(jià)的一種依據(jù)??蒲袡C(jī)構(gòu)被WOS收錄的發(fā)文總量及被引用次數(shù), 反映整個(gè)機(jī)構(gòu)的科研, 尤其是基礎(chǔ)研究的水平。各高校均需對(duì)本校WOS發(fā)文進(jìn)行統(tǒng)計(jì),這些WOS論文的收錄及被引情況是機(jī)構(gòu)內(nèi)部重要的考核指標(biāo)。而在統(tǒng)計(jì)這些WOS論文的時(shí)候,需要將檢出的所有文獻(xiàn)全部準(zhǔn)確地劃分到各個(gè)二級(jí)機(jī)構(gòu),最終歸屬到具體作者,以便主管部門(mén)全面了解各院系科研情況并統(tǒng)計(jì)考核教職工的科研工作。然而直接從WOS數(shù)據(jù)庫(kù)下載的數(shù)據(jù)中沒(méi)有專(zhuān)門(mén)的二級(jí)機(jī)構(gòu)字段。二級(jí)機(jī)構(gòu)的信息包含在地址字段中,所以需要對(duì)地址字段進(jìn)行數(shù)據(jù)清洗,以便準(zhǔn)確快速地獲取二級(jí)機(jī)構(gòu)的信息。

        梁桂英等[1]研究了如何構(gòu)建非特異性機(jī)構(gòu)論文檢索式,丁海德等[2]研究了地址信息著錄差異與錯(cuò)誤分析,苗艷榮、房文革[3-4]研究構(gòu)建合適的機(jī)構(gòu)檢索式,兼顧查準(zhǔn)率與查全率,這些文獻(xiàn)的焦點(diǎn)均是查準(zhǔn)查全一級(jí)機(jī)構(gòu)發(fā)文,沒(méi)有關(guān)注二級(jí)機(jī)構(gòu)。張晉輝等[5]提出一種SCI地址字段數(shù)據(jù)清洗方法,也不以二級(jí)機(jī)構(gòu)為研究對(duì)象。張紅燕、胡小洋等[6-7]提到了高校WOS發(fā)文的院系分布情況,但沒(méi)有提及是如何進(jìn)行文獻(xiàn)清洗的。劉賢玉[8]報(bào)道了一種快速統(tǒng)計(jì)學(xué)校中二級(jí)機(jī)構(gòu)學(xué)院論文的方法。本文通過(guò)分析、對(duì)比、擬選取WOS中的地址字段為研究對(duì)象,利用正則表達(dá)式對(duì)該字段進(jìn)行文本處理,清洗數(shù)據(jù)后可獲得二級(jí)機(jī)構(gòu)變名,再輔以人工識(shí)別將得到的二級(jí)機(jī)構(gòu)變名劃歸到具體的學(xué)院。本文不預(yù)設(shè)二級(jí)機(jī)構(gòu)的變名,不依賴(lài)于對(duì)作者的熟悉程度,最大程度地降低了人工排查的工作量,使得數(shù)據(jù)統(tǒng)計(jì)既快捷又準(zhǔn)確。

        1 數(shù)據(jù)收集與清洗方法

        1.1 數(shù)據(jù)收集

        檢索策略及方法: 在WOS數(shù)據(jù)庫(kù)的檢索頁(yè)面中的地址欄輸入“Nanjing normal univ”, 在日期范圍內(nèi)輸入“2015—2015”。選擇數(shù)據(jù)SCI-EXPANDED、SSCI、A&HCI、CPCI-S、 CPCI-SSH,檢索時(shí)間2016年1月10日,共計(jì)檢索出982條記錄。

        將檢索到的文獻(xiàn)記錄選擇“保存為其他文件格式”,選擇記錄內(nèi)容為“全記錄”,文件格式為“制表符分隔(win)”分批選擇“1-500”“501-982”,分批將檢索到的記錄下載并合并,獲得982條數(shù)據(jù)記錄,并以其中的地址字段(C1)為研究對(duì)象。

        1.2 數(shù)據(jù)清洗

        在2008年系統(tǒng)升級(jí)后,WOS數(shù)據(jù)庫(kù)的地址字段就比較規(guī)范,下面是其中一條典型的地址字段記錄:[Lu, Si-Yuan; Zhou, Xing-Xing; Zhang, Guang-Shuai] Nanjing Normal Univ, Sch Comp Sci & Technol, Nanjing 210023, Jiangsu, Peoples R China; [Wei, Ling] Shanghai Jiao Tong Univ, Sch Elect Informat & Elect Engn, Shanghai 200030, Peoples R China。

        WOS的地址字段可以歸納為下面的模型:[authors(N,1)] address(N,1); …[authors(N,x)] address(N,x); …[authors(N,Y)] address(N,Y); 其中authors(N,x)是第N條記錄的第x個(gè)作者群,address(N,x)是第N條記錄的第x個(gè)作者群的共同署名機(jī)構(gòu)。

        將得到的數(shù)據(jù)記錄中的C1字段復(fù)制到文本處理軟件Emeditor中,利用正則表達(dá)式,查找“; \[”,替換為“; /t[”。處理后的文本記錄可以表達(dá)為:[authors(N,1)] address(N,1);…[authors(N,x)] address(N,x);…[authors(N,Y)] address(N,Y); 再將處理后的數(shù)據(jù)復(fù)制到excel中,我們可以獲得第N條記錄中第x個(gè)作者群和機(jī)構(gòu)信息為C1(N,x)=[authors(N,x)] address(N,x);再對(duì)C1(N,x)分析,利用正則表達(dá)式,查找“] ”,并替換為“]/t”,進(jìn)而可以得到authors(N,x)以及相應(yīng)的address (N,x)。通過(guò)上述的文本處理和excel處理,就獲得了所有記錄的所有排序的署名作者群及相應(yīng)的署名作者機(jī)構(gòu)信息。

        在excel中對(duì)address(N, x) 字段分析,依次遍歷x=1…Y,判斷address(N, x)是否包含“nanjing normal univ”, 假設(shè)address(N, k)是第N條記錄中第一個(gè)包含“nanjing normal univ”的地址信息,記錄jg (N)=k,taget(N)= address(N, k),authors(N)= authors(N, k)。在進(jìn)行上述數(shù)據(jù)分析時(shí)發(fā)現(xiàn)有一條記錄的整個(gè)C1字段中不包含“nanjing normal univ”,經(jīng)研究發(fā)現(xiàn)這條記錄之所以被檢出,是因?yàn)樵谕ㄓ嵶髡咦侄危≧P)中出現(xiàn)了“nanjing normal univ”。如果是第M條記錄的CI字段中沒(méi)有出現(xiàn)nanjing normal univ,則假定jg (M)=0,taget(M)=null。將address(N,x), N=1…982,進(jìn)行遍歷處理,數(shù)據(jù)清洗后獲得三組數(shù)列jg (N)、taget(N)、authors(N)。jg (N)是南京師范大學(xué)(以下簡(jiǎn)稱(chēng)“我?!保┰诘贜篇論文的機(jī)構(gòu)排名,taget(N)是我校的具體署名地址信息,authors(N)是對(duì)應(yīng)的作者群。

        2 南京師范大學(xué)二級(jí)機(jī)構(gòu)及作者分析

        2.1 一級(jí)機(jī)構(gòu)分析

        對(duì)jg (N)分析可以了解982條記錄中不同署名排序的發(fā)文情況。我校發(fā)表的WOS論文中第一署名機(jī)構(gòu)發(fā)文573篇,占比58.4%,非第一作者機(jī)構(gòu)發(fā)文409篇。

        對(duì)非第一作者機(jī)構(gòu)的發(fā)文部分,再分析它們的address(N,1)即第一署名機(jī)構(gòu),可知我校與144家機(jī)構(gòu)合作,共發(fā)表論文419篇。其中發(fā)文1篇的97家,發(fā)文2-3篇的22家。發(fā)文4篇以上的25家機(jī)構(gòu)共計(jì)發(fā)文259篇,占南京師范大學(xué)非第一機(jī)構(gòu)合作論文數(shù)的61.8%,見(jiàn)表1。從表1可知我校的主要合作機(jī)構(gòu)以中科院和江蘇高校為主,省外合作以及國(guó)際合作的論文較少。

        2.2 二級(jí)機(jī)構(gòu)分析

        從taget(N)數(shù)列的獲取方法可知:如果我校有多個(gè)二級(jí)機(jī)構(gòu)同時(shí)參與該論文,只取排序靠前的那個(gè)二級(jí)機(jī)構(gòu)。將taget(N)數(shù)列在excel中利用分類(lèi)匯總顯示署名機(jī)構(gòu)共有467種不同寫(xiě)法,直接分析taget(N)數(shù)列工作量很大。taget(N)數(shù)列中包含了二級(jí)機(jī)構(gòu)的信息,可以把它們提取出來(lái)。

        首先來(lái)看一條典型的taget(N)的信息:“Nanjing Normal Univ, Sch Math Sci, Inst Math, Nanjing 210023, Jiangsu, Peoples R China”。從上述格式可以看出,署名機(jī)構(gòu)的一般格式中會(huì)包含“南京師范大學(xué),二級(jí)機(jī)構(gòu)名稱(chēng), 郵編,省, 國(guó)家”等信息。上述信息中我們關(guān)心的其實(shí)只有二級(jí)結(jié)構(gòu)名稱(chēng)如“Sch Math Sci”,通過(guò)這個(gè)信息我們就可以判斷這條記錄屬于南京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院。我校的二級(jí)機(jī)構(gòu)基本上是某學(xué)院、某系、某實(shí)驗(yàn)室、江蘇省某重點(diǎn)研究中心等,而這些二級(jí)機(jī)構(gòu)在taget(N)中大多以sch、coll、fac、inst、dept、lab、key、ctr、jiangsu開(kāi)頭,也有作者署名時(shí)書(shū)寫(xiě)不規(guī)范導(dǎo)致有少部分記錄的二級(jí)機(jī)構(gòu)名以sch、coll、fac、inst、dept、lab、ctr為結(jié)尾。利用這個(gè)規(guī)律,可通過(guò)對(duì)taget(N)的處理獲得對(duì)應(yīng)的二級(jí)機(jī)構(gòu)名稱(chēng)。

        將taget(N)數(shù)列復(fù)制到文本處理軟件“Emeditor”中,利用正則表達(dá)式,反復(fù)查找“(.*),[ ]?((coll|sch|dept|ctr|lab|inst|fac|Jiangsu |key)[^,]*)(.*)”,并替換為“\1\t\2\t\4”,通過(guò)這個(gè)步驟可以處理所有開(kāi)頭是coll、sch、dept、ctr、lab、inst、fac、key、Jiangsu的二級(jí)機(jī)構(gòu)名稱(chēng),再反復(fù)查找“(, )([^,]*(coll|sch|dept|ctr|lab|inst|fac)),”并替換為“\1\t\2\t”,通過(guò)這個(gè)步驟可以處理所有結(jié)尾是“coll、sch、dept、ctr、lab、inst、fac”的二級(jí)機(jī)構(gòu)。通過(guò)上述兩次查找替換可以把taget(N)數(shù)列中所有的二級(jí)機(jī)構(gòu)前后均加上制表符,再把處理后的數(shù)據(jù)復(fù)制到excel中,就可以獲得二級(jí)機(jī)構(gòu)數(shù)列inst(N),其中有49條記錄的inst(N)為空,是因?yàn)閠aget(N)中不包含任何二級(jí)機(jī)構(gòu)信息,其署名信息如:“Nanjing Normal Univ, Nanjing 210023, Jiangsu, Peoples R China”。

        將獲得的inst(N)數(shù)列在excel中匯總分析,非空的inst(N)共包含101種不同的二級(jí)機(jī)構(gòu)變名,共得到論文933篇。其中發(fā)文量前二十的我校二級(jí)機(jī)構(gòu)變名見(jiàn)表2,這二十個(gè)機(jī)構(gòu)變名合計(jì)發(fā)表論文761篇占全體記錄的77.5%。建立101種二級(jí)機(jī)構(gòu)變名與二級(jí)機(jī)構(gòu)名的映射表,利用建立的映射表通過(guò)excel的VLOOKUP函數(shù)可分析其中的930篇論文的二級(jí)機(jī)構(gòu)名。再將不能區(qū)分的3篇以及49篇inst(N)為空的記錄利用對(duì)應(yīng)的authors(N)字段進(jìn)行人工篩選,最后可將所有發(fā)文歸類(lèi)到各二級(jí)機(jī)構(gòu)。對(duì)RP字段采用相同的數(shù)據(jù)清洗方法可以分析出通訊作者、通訊作者署名機(jī)構(gòu)等信息,最后獲得南京師范大學(xué)各二級(jí)機(jī)構(gòu)的WOS發(fā)文情況,見(jiàn)表3。

        在對(duì)inst(N)分析的過(guò)程中發(fā)現(xiàn)僅生命科學(xué)學(xué)院對(duì)應(yīng)的機(jī)構(gòu)變名數(shù)就多達(dá)14種,包括“Coll Life Sci”“Sch Life Sci”“Dept Life Sci”等,建議由各二級(jí)機(jī)構(gòu)引導(dǎo)本單位作者規(guī)范署名,以方便將來(lái)的成果認(rèn)領(lǐng)。

        2.3 作者分析

        為了解我校哪些作者在WOS發(fā)文最多,需要將論文劃歸到具體作者。為避免一篇論文有多位作者認(rèn)領(lǐng),設(shè)計(jì)了如下的劃分方案:如果論文的通訊作者是我校作者A,則這篇論文歸作者A,如果有共同通訊作者則這篇論文歸共同通訊作者中排名靠前的那位;如果論文中我校作者雖非通訊作者但是第一作者,則這篇論文歸第一作者;如果我校作者既非通訊作者又非第一作者,則該論文歸論文中我校作者排序第一的作者。結(jié)合二級(jí)機(jī)構(gòu)信息初步區(qū)分本校同名作者,再按照劃分方案,可將所有982篇論文全部劃歸到具體作者,其中WOS發(fā)文數(shù)前十的作者見(jiàn)表4。

        3 結(jié)語(yǔ)

        本文利用正則表達(dá)式對(duì)WOS的地址字段進(jìn)行數(shù)據(jù)清洗,從C1字段提取出署名機(jī)構(gòu)排名、二級(jí)機(jī)構(gòu)以及對(duì)應(yīng)的作者群信息。以南京師范大學(xué)2015年的WOS發(fā)文的統(tǒng)計(jì)為例,展現(xiàn)如何獲得發(fā)文署名排序以及二級(jí)機(jī)構(gòu)發(fā)文一覽表,通過(guò)二級(jí)機(jī)構(gòu)和對(duì)應(yīng)的作者群信息,初步區(qū)分同校同名作者,將全校發(fā)文歸類(lèi)到具體的作者,為高校職能部門(mén)全面了解各二級(jí)機(jī)構(gòu)以及具體作者的科研情況提供基礎(chǔ)數(shù)據(jù)。統(tǒng)計(jì)過(guò)程中還獲得了各二級(jí)機(jī)構(gòu)的多種機(jī)構(gòu)變名,并建立機(jī)構(gòu)變名與二級(jí)機(jī)構(gòu)的衍射表方便將來(lái)的數(shù)據(jù)統(tǒng)計(jì)工作。本文以具體案例向讀者展示了WOS論文統(tǒng)計(jì)的數(shù)據(jù)清洗過(guò)程,希望對(duì)其他學(xué)校的論文統(tǒng)計(jì)工作有所助益。

        參考文獻(xiàn):

        [1]梁桂英,袁潤(rùn).基于Web of Science的非特異性機(jī)構(gòu)論文檢索模式構(gòu)建[J].情報(bào)雜志,2015(4):176-180.

        [2]丁海德,龐芳芳,李德成.SCI數(shù)據(jù)庫(kù)中地址信息著錄差異與錯(cuò)誤分析[J].現(xiàn)代情報(bào),2008(4):173-174.

        [3]苗艷榮.機(jī)構(gòu)檢索在不同數(shù)據(jù)庫(kù)中的檢索方法及技巧[J].高校圖書(shū)館工作, 2015(6):59-62.

        [4]房文革,王麗君,張紅.基于Web of Science的機(jī)構(gòu)檢索方法[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊, 2015(4):64-66.

        [5]張晉輝,劉清.基于推理機(jī)的SCI地址字段數(shù)據(jù)清洗方法設(shè)計(jì)[J].情報(bào)科學(xué), 2010(5):741-746.

        [6]張紅燕,董湧,邵晉蓉.基于SCI的寧夏大學(xué)科研論文產(chǎn)出統(tǒng)計(jì)與分析[J].寧夏大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2016(1):193-196.

        [7]胡小洋,游俊,趙燕.文獻(xiàn)計(jì)量分析:專(zhuān)業(yè)編輯的可選學(xué)術(shù)研究方向:以江漢大學(xué)1980年以來(lái)三大索引收錄論文的統(tǒng)計(jì)分析為例[J].江漢大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012(4):54-58.

        [8]劉賢玉,周小東.基于Web of Science快速統(tǒng)計(jì)學(xué)校(學(xué)院) 論文的技巧[J].圖書(shū)情報(bào)工作, 2013(S2):210-212.

        猜你喜歡
        科技查新
        運(yùn)用工業(yè)工程的方法優(yōu)化圖書(shū)館科技查新流程
        科技查新服務(wù)業(yè)變革優(yōu)化的動(dòng)力機(jī)制研究
        對(duì)提高科技查新工作質(zhì)量的幾點(diǎn)思考
        科技查新領(lǐng)域的信息化問(wèn)題研究
        中醫(yī)藥院校圖書(shū)館開(kāi)展科技查新工作的實(shí)踐與思考
        論科技查新工作人員的科學(xué)素養(yǎng)
        商(2016年20期)2016-07-04 14:09:25
        淺談醫(yī)學(xué)科技查新檔案信息資源的開(kāi)發(fā)利用
        科技視界(2016年12期)2016-05-25 08:18:53
        探析科技查新關(guān)鍵環(huán)節(jié)的審核
        科技視界(2016年10期)2016-04-26 10:13:37
        福建省本科高??萍疾樾路?wù)情況調(diào)查與分析
        灰色文獻(xiàn)在科技查新領(lǐng)域中的作用及案例分析
        国产一区二区三区毛片| 97成人碰碰久久人人超级碰oo| 亚洲乱码日产精品bd在线观看| 岛国熟女一区二区三区| 国产免费一区二区三区三| 三级国产自拍在线观看| 国产日产久久高清ww| 国产高清在线精品一区app| 成人精品视频一区二区三区尤物| 中国丰满熟妇av| 中文幕无线码中文字蜜桃| 91华人在线| 久久精品国产亚洲av沈先生 | 小妖精又紧又湿高潮h视频69| 国产成人无码一区二区三区在线| 日韩一区二区超清视频| 综合久久一区二区三区| 精品露脸熟女区一粉嫩av| 久热国产vs视频在线观看| 搡老熟女老女人一区二区| 国产美女在线精品亚洲二区| 亚洲精品国产精品系列| 日本免费视频一区二区三区| 美女露出自己的性感大胸一尤内衣| 精品淑女少妇av久久免费| 国产内射XXXXX在线| 国产人成在线成免费视频| 中文字幕亚洲综合久久综合| 亚洲成av人片天堂网| 99国产超薄丝袜足j在线播放| 亚洲国产天堂av成人在线播放| 色与欲影视天天看综合网| 欧美黑人粗暴多交高潮水最多| 两个人免费视频大全毛片| 亚洲av综合色区一区二区| 国产亚洲日本精品无码| 色窝窝免费播放视频在线| 亚洲色图在线视频免费观看| 国产乱人伦偷精品视频还看的| 午夜精品久久久久久久99热| 成年视频国产免费观看|