亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文獻計量分析中的數(shù)據(jù)準(zhǔn)備工作研究*

        2012-02-15 09:34:20沈艷紅江南大學(xué)圖書館江蘇無錫214122
        圖書館建設(shè) 2012年5期
        關(guān)鍵詞:查全率圖書館學(xué)檢索

        沈艷紅 張 娣 (江南大學(xué)圖書館 江蘇 無錫 214122)

        目前,大量學(xué)者利用文獻計量學(xué)的各種方法來進行學(xué)科情報分析,這些分析研究是非常有意義的。期刊刊發(fā)的文獻計量分析類論文,一般都會對數(shù)據(jù)準(zhǔn)備工作進行簡單的介紹。但是筆者發(fā)現(xiàn),不論是作者、編輯,還是讀者,對這部分內(nèi)容的重視程度都比較低,導(dǎo)致一部分文獻計量分析在數(shù)據(jù)準(zhǔn)備工作中出現(xiàn)了很大的偏差。

        1 數(shù)據(jù)準(zhǔn)備工作的具體內(nèi)容

        文獻計量分析研究的過程主要包括6個步驟:確定文獻計量分析目標(biāo)、制定分析方案并設(shè)計文獻計量指標(biāo)、進行數(shù)據(jù)準(zhǔn)備、分析指標(biāo)數(shù)據(jù)、形成分析報告、發(fā)布分析報告。其中,文獻計量分析中的數(shù)據(jù)準(zhǔn)備工作主要包括數(shù)據(jù)采集和數(shù)據(jù)清洗兩個方面。

        1.1 數(shù)據(jù)采集

        文獻計量分析中的數(shù)據(jù)采集是指選擇與文獻計量分析指標(biāo)配套的數(shù)據(jù)的過程。目前,文獻計量分析的數(shù)據(jù)采集主要有3種方法:①直接從數(shù)據(jù)庫商獲處取數(shù)據(jù)庫數(shù)據(jù)[1-4],其數(shù)據(jù)來源是CSSCI(Chinese Social Sciences Citation Index,中文社會科學(xué)引文索引)的后臺數(shù)據(jù)庫;②在數(shù)據(jù)庫商的網(wǎng)站上通過檢索得到檢索結(jié)果[5-7],其分別利用CNKI(中國知網(wǎng))、SCI(Science Citation Index,科學(xué)引文索引)、EI(The Engineering Index,工程索引)數(shù)據(jù)庫,通過檢索得到詳細(xì)記錄,然后復(fù)制檢索結(jié)果網(wǎng)頁上的相關(guān)內(nèi)容;③自動下載,通過程序構(gòu)造URL(Uniform Resource Locator,統(tǒng)一資源定位符),然后根據(jù)URL下載HTML(Hypertext Markup Language,超文本標(biāo)記語言)網(wǎng)頁文件,讀取下載的網(wǎng)頁文件且濾掉HTML的標(biāo)簽,根據(jù)字段名稱獲取數(shù)據(jù)記錄,如通過上述方法下載萬方學(xué)位論文數(shù)據(jù)庫某高校鏡像網(wǎng)站上的符合檢索要求的學(xué)位論文全部內(nèi)容[8]。其中,第1種方法需要研究人員與數(shù)據(jù)庫商有很好的協(xié)商與溝通,一般情況下只有數(shù)據(jù)庫所在單位的內(nèi)部人員才有開展的條件;第3種方法需要具有較高的技術(shù)水平才能實現(xiàn)。因此,目前使用最為廣泛的是第2種方法,但是這種方法對檢索者的檢索水平要求較高,很多計量分析類文獻的數(shù)據(jù)出現(xiàn)問題就是因為檢索人員對數(shù)據(jù)庫了解不夠。

        1.2 數(shù)據(jù)清洗

        數(shù)據(jù)清洗就是將來自不同數(shù)據(jù)源的不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式,去除錯誤記錄和重復(fù)記錄,補充遺漏記錄,以提高數(shù)據(jù)質(zhì)量的工作。數(shù)據(jù)清洗的原理主要是根據(jù)回溯思想,通過分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用現(xiàn)有的技術(shù)手段和方法檢測“臟數(shù)據(jù)”, 制訂數(shù)據(jù)清洗的方法、規(guī)則和策略并加以實施,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應(yīng)用要求的“干凈數(shù)據(jù)”。

        2 數(shù)據(jù)準(zhǔn)備工作的重要性:基于實證的闡述

        GIGO(Garbage In, Garbage out;垃圾進,垃圾出)理論指出,“無論系統(tǒng)的能力有多強,如果輸入數(shù)據(jù)是錯誤的,輸出結(jié)果必然也是錯誤的?!盵9]推而廣之,如果采用不正確、不完整、不一致、不可靠的數(shù)據(jù),不論我們運用多么強大的分析方法,也無法確保分析結(jié)果的正確、完整、一致、可靠。數(shù)據(jù)準(zhǔn)備工作作為文獻計量分析的基礎(chǔ),其質(zhì)量直接影響著分析結(jié)果的科學(xué)性、客觀性。然而,即便是從同一個數(shù)據(jù)庫中獲取數(shù)據(jù),也會因為數(shù)據(jù)采集和數(shù)據(jù)清洗時所運用方法的不同而導(dǎo)致所獲數(shù)據(jù)差異較大。這就要求文獻計量分析人員高度重視數(shù)據(jù)準(zhǔn)備工作,選用最合適、最有效的方法和手段,從而獲得最正確、完整、一致、可靠的數(shù)據(jù)。筆者以基于CNKI檢索圖書館學(xué)高被引論文為例,進行如下實證的闡述。

        2.1 方案1:某文所述檢索方法

        張詩博曾對國內(nèi)2004—2008年圖書館學(xué)研究高被引論文的被引用情況進行了統(tǒng)計分析,篩選出了圖書館學(xué)研究的重要期刊、多產(chǎn)作者和多產(chǎn)科研機構(gòu),同時對高被引論文的產(chǎn)出地區(qū)和研究主題進行了統(tǒng)計與分析,該研究對圖書館學(xué)的研究工作非常有借鑒意義[10]。張詩博的檢索方法是:選用CNKI的中國引文數(shù)據(jù)庫,確定檢索項為“被引題名”、檢索詞為“圖書館”、時間段為“2004—2008年”,得到2004—2008年國內(nèi)圖書館學(xué)研究的高被引論文20篇[10]。

        2.2 方案2:基于中國引文數(shù)據(jù)庫的分類檢索

        基于CNKI的中國引文數(shù)據(jù)庫檢索上述課題,筆者采用分類檢索方式,具體步驟如下:

        第1步:確定查詢范圍。在中國引文數(shù)據(jù)庫中點擊高級檢索,在檢索界面的左側(cè)查詢范圍中,首先清除默認(rèn)查詢范圍,然后點擊“電子技術(shù)及信息科學(xué)”;再次清除默認(rèn)的查詢范圍(包括無線電電子學(xué)等10個專題),然后點擊“圖書情報與數(shù)字圖書館”(該專題包括“圖書館學(xué)、圖書館事業(yè)”和“情報學(xué)、情報工作”),勾選“圖書館學(xué)、圖書館事業(yè)”。

        第2步:查詢范圍確定以后,在引文類型中選擇“期刊類型引文”。

        第3步:檢索結(jié)果的排序方式選擇“被引頻次”。

        第4步:根據(jù)自己的需要輸入發(fā)布時間。例如,要獲得2004年國內(nèi)圖書館學(xué)研究的高被引論文,發(fā)布時間就是2004—2004;如果要獲得2004—2008年圖書館學(xué)研究的高被引論文,發(fā)布時間為2004—2008。

        第5步:無需在檢索框中輸入檢索詞,直接點擊檢索就可以獲得2004—2008年該專題論文的被引情況。由于檢索結(jié)果按照被引頻次排序,用戶可以根據(jù)自己的需要獲取高被引論文。

        2.3 方案3:基于中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫的分類檢索

        基于中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫檢索上述課題,筆者采用分類檢索方式,具體步驟如下:

        第1步:確定查詢范圍。在CNKI首頁點擊“中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫”,進入該庫檢索界面;在檢索界面左側(cè)的“文獻分類目錄”中勾選“圖書館學(xué)、圖書館事業(yè)”這一專題。

        第2步:在“輸入檢索控制條件”下的期刊年期處選擇從2004年到2008年。

        第3步:無需輸入檢索詞,直接點擊“檢索文獻”。

        第4步:在“文獻排序瀏覽”處點擊“被引頻次”,使所得78 935條記錄按照被引頻次從高到低排序,用戶可以根據(jù)自己的需要獲取高被引論文。

        2.4 數(shù)據(jù)對比分析

        對比方案1和方案3所得的檢索結(jié)果發(fā)現(xiàn):方案1所獲得的前20篇論文,除了李國新的《圖書館權(quán)利的定位、實現(xiàn)與維護》一文漏檢外,均散落于使用方案3獲得的前40篇論文中。也就是說,方案1的查全率大約是方案3的50%,而基于如此不完備的數(shù)據(jù)所得的分析結(jié)果,其可信度值得懷疑。

        對比方案2和方案3所得的檢索結(jié)果發(fā)現(xiàn):方案3獲得的前20篇論文中,有5篇論文在方案2中并沒有被檢索出來,而利用方案2檢索得到的前20篇高被引論文,通過方案3均可以得到,只是因為檢索出了一些被方案2所漏掉的論文,部分論文的排名被往后推了,并且方案3所得文獻被引頻次普遍高于方案2所得文獻。這可能是因為中國引文數(shù)據(jù)庫的更新速度低于中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫的更新速度。也就是說,方案2的查全率是方案3的75%。顯然,通過方案3來獲得某一學(xué)科的高被引論文優(yōu)于前兩種方案。

        根據(jù)上述實例發(fā)現(xiàn),同樣以CNKI為數(shù)據(jù)源,采用不同的檢索方法來獲得圖書館學(xué)的高被引論文,其檢索結(jié)果最多可能相差50%。在文獻計量方法日益受到重視并得到廣泛使用的今天,我們不能只重視采用“什么樣”的方法“如何”分析數(shù)據(jù),更要重視我們分析的是“什么樣的數(shù)據(jù)”。文獻計量分析工作是否有意義,是建立在被分析的數(shù)據(jù)準(zhǔn)確、可靠的基礎(chǔ)之上的。因此,在進行文獻計量分析研究時,一定要重視數(shù)據(jù)準(zhǔn)備工作。

        3 數(shù)據(jù)準(zhǔn)備工作的幾個建議

        正確、完整、一致、可靠的數(shù)據(jù)是文獻計量分析的前提,但是如何才能做到這一點呢?筆者在長期的文獻計量分析工作中積累了一些經(jīng)驗,提出以下幾點建議。

        3.1 分析信息需求,選用合適的檢索方法。

        在進行檢索之前,研究者首先要分析自己的信息需求,然后根據(jù)自己的需求來選擇合適的檢索方法。正如上述案例所示,方案1所得檢索結(jié)果與信息需求之間有很大的差距,因為該方法所檢索到的是題名中包含“圖書館”一詞的高被引論文,而不是圖書館學(xué)領(lǐng)域中的高被引論文。要對圖書館學(xué)文獻的被引情況進行統(tǒng)計,應(yīng)采用分類檢索,這樣不論題名是否包含“圖書館”3個字,只要是圖書館學(xué)領(lǐng)域的學(xué)術(shù)論文都可以被檢索到,查全率才能得到保障。

        3.2 掌握數(shù)據(jù)庫的使用方法

        各數(shù)據(jù)庫由不同的開發(fā)商開發(fā),其檢索功能差別很大。用戶只有在了解數(shù)據(jù)庫的使用方法的基礎(chǔ)上,才能通過數(shù)據(jù)庫的檢索功能檢索到自己所需的信息。例如,在Web of Knowledge 中區(qū)分自引與他引,靠人工逐篇判斷極為費時費力,還容易出錯,但是如果了解該數(shù)據(jù)庫檢索功能,就可以利用“檢索結(jié)果分析”功能,對檢索到的施引文獻進行“作者分析”,然后排除本文作者,所得結(jié)果即他引數(shù)。

        3.3 盡量提高查全率,及時補充遺漏數(shù)據(jù)。

        當(dāng)前的檢索系統(tǒng)多是用自然語言組織的,這極大地方便了信息用戶的檢索。但在自然語言中,同一個概念或事物可以用很多不同的詞來表述。如果希望得到高的查全率,用戶在選取檢索詞的時候,必須從多種角度來考慮,如同義詞、近義詞、反義詞、上下位詞和檢索詞的易錯形式等[11]。

        得到檢索結(jié)果后不要急于進入分析階段,應(yīng)先查看數(shù)據(jù)是否合理、是否存在漏檢。例如,筆者利用CNKI的中國引文數(shù)據(jù)庫,在食品工業(yè)類中檢索圖書的被引情況,按照被引頻次從高到低排序后,統(tǒng)計構(gòu)成總被引量80%的高被引圖書,以構(gòu)成食品工業(yè)類的核心書目。但筆者發(fā)現(xiàn),其中沒有一種圖書是2005年以后出版的,這是為什么呢?考慮到中文學(xué)術(shù)性文獻的引用期大致為出版后2~5年,因此,筆者以年均被引5次作為一個補充指標(biāo),獲得近5年出版的圖書60種,將其納入核心圖書的范疇,得到一個較完整的核心書目[5]。

        3.4 刪除誤檢數(shù)據(jù)

        查全率和查準(zhǔn)率之間存在互逆關(guān)系,估算和補充漏檢數(shù)據(jù)的難度遠高于刪除誤檢數(shù)據(jù)。因此,研究者首先要保證的是查全率,貫徹“寧可誤檢,不可漏檢”的原則,在此基礎(chǔ)上對數(shù)據(jù)進行審核,刪除不符合要求的文獻。例如,丁玉東在統(tǒng)計1999—2008年EI收錄的燕山大學(xué)論文時,使用檢索式: ((yan shan univ*)WN AF)AND((qinhuangdao)WN AF))、((yanshan univ*)WN AF),兩個檢索式的時間限定在1999—2008年,共得到論文3 313篇,手動刪除誤檢論文41篇,得到符合要求的論文共3 272篇[7]。

        [1]李 平.我國民族學(xué)圖書學(xué)術(shù)影響力報告:基于CSSCI(2000-2007年)數(shù)據(jù)[J].西南民族大學(xué)學(xué)報:人文社會科學(xué)版, 2009(7):71-80.

        [2]許 鑫, 王 偉.我國文化學(xué)圖書學(xué)術(shù)影響力報告:基于CSSCI的分析[J].東岳論叢, 2009(7):14-21.

        [3]謝 靖.中國文學(xué)圖書學(xué)術(shù)影響力分析(國內(nèi)學(xué)術(shù)著作):基于CSSCI(2000-2007)[J].東岳論叢, 2009(10):59-66.

        [4]賈 潔.我國“圖書館、情報與文獻學(xué)”圖書學(xué)術(shù)影響力報告:基于CSSCI的分析[J].中國圖書館學(xué)報, 2010(2):56-69.

        [5]沈艷紅, 吳信嵐.基于中國引文數(shù)據(jù)庫的核心書目測定研究[J].現(xiàn)代情報, 2011(9):136-139.

        [6]沈艷紅, 彭奇志, 張逸新, 等.基于Web of Science的無線傳感網(wǎng)學(xué)術(shù)研究發(fā)展分析[J].現(xiàn)代情報, 2011(2):64-69.

        [7]丁玉東.1999~2008年EI收錄燕山大學(xué)論文統(tǒng)計分析[J].教學(xué)研究, 2010(3):43-46.

        [8]化柏林.文獻計量分析研究的分類與處理流程[J].情報科學(xué), 2007(9):1332-1336.

        [9]王永紅.定量專利分析的樣本選取與數(shù)據(jù)清洗[J].情報理論與實踐, 2007(1):93-96.

        [10]張詩博.2004-2008年國內(nèi)圖書館學(xué)研究高被引論文的統(tǒng)計與分析[J].情報科學(xué), 2011(3):387-390.

        [11]沈艷紅.信息檢索中檢索詞的選擇對查全率的影響[J].情報探索,2006(11):73-74.

        猜你喜歡
        查全率圖書館學(xué)檢索
        2023 年寧夏圖書館學(xué)會年會順利召開
        2019年第4-6期便捷檢索目錄
        海量圖書館檔案信息的快速檢索方法
        基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        中國圖書館學(xué)之當(dāng)下:反思與瞻望
        圖書館論壇(2014年9期)2014-03-11 18:48:08
        中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
        廣西圖書館學(xué)會2013年年會暨第31次科學(xué)討論會在貴港舉行
        圖書館界(2013年6期)2013-03-11 18:50:45
        廣西圖書館學(xué)會2012年年會暨第30次科學(xué)討論會在南寧舉行
        圖書館界(2013年1期)2013-03-11 18:50:04
        國際標(biāo)準(zhǔn)檢索
        国产日产桃色精品久久久| 亚洲国产成人AⅤ片在线观看| 亚洲色偷偷偷综合网另类小说| 亚洲中文字幕一区精品| 国产精品无码素人福利| 色偷偷久久一区二区三区| 亚洲欧美国产日产综合不卡| 午夜国产精品一区二区三区| 2021国产精品视频网站| 男男性恋免费视频网站| 国产系列丝袜熟女精品视频| 蜜桃人妻午夜精品一区二区三区| 亚洲av成人一区二区三区本码| 国产激情久久久久影院老熟女免费| 久久无码一二三四| 国产黄色看三级三级三级| 国产精品亚洲第一区二区三区 | 国产精品无码v在线观看| 欧美极品美女| 中文字幕一区,二区,三区| 亚洲av成熟国产一区二区| 日韩放荡少妇无码视频| 日韩h网站| 国产91精品清纯白嫩| 亚洲综合图色40p| 久久精品国产亚洲一区二区| 欧美亚洲另类自拍偷在线拍| 中文字幕一区二区黄色| 妺妺窝人体色www看美女| 久草视频这里有精品| 国产目拍亚洲精品二区| 无码人妻久久久一区二区三区| 特级婬片国产高清视频| 在线观看精品视频一区二区三区 | 亚洲AV无码久久久久调教| 久久伊人亚洲精品视频| 亚洲熟妇av日韩熟妇在线| 日韩欧美国产丝袜视频| 中文字幕亚洲乱码熟女1区2区| 深夜爽爽动态图无遮无挡| 国产免费又色又爽又黄软件|