亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向文獻建設需求的學科核心作者數據庫構建策略研究*

        2015-07-22 12:14:40朱軼婷中國民航大學圖書館天津300300
        圖書館 2015年5期
        關鍵詞:發(fā)文數據庫文獻

        朱軼婷(中國民航大學圖書館 天津 300300)

        ·館藏與出版論壇·

        面向文獻建設需求的學科核心作者數據庫構建策略研究*

        朱軼婷
        (中國民航大學圖書館天津300300)

        〔摘要〕以關系型數據庫為基礎,通過Web信息抽取技術從主流數據庫中采集基礎數據,利用數據挖掘技術進行數據整合、查重、消歧,然后根據發(fā)文量、h指數和hm指數綜合判定核心作者及作者排序,從而構建學科核心作者數據庫,為圖書采訪工作提供客觀數據支持。最后以飛行技術學科核心作者數據庫為例,說明數據庫的實際效果。

        〔關鍵詞〕核心作者h指數hm指數關系數據庫Web信息抽取

        1 構建學科核心作者數據庫的必要性

        當前,高等院校不斷加大力度推進專業(yè)結構優(yōu)化和重點學科建設工作。由此,對圖書館的文獻資源建設提出了更高的需求,即圖書館采購的學科文獻應該緊跟專業(yè)發(fā)展變化、切合教學科研需求。但是高校圖書館的傳統(tǒng)文獻采購方式往往是根據書商的供書目錄進行勾選、定購,在文獻采購到館前,采訪人員無法看到文獻的實際內容。即使在采購過程中征求相應學科專家的意見,也往往因為缺乏客觀依據,無法成功預測文獻的學術價值。而且,圖書館采訪人員很難深入了解學校的每一個重點學科,并且追蹤該重點學科的發(fā)展變化。因此,如果能有客觀數據輔助采訪人員判斷文獻質量和學術價值,將有助于提高文獻采購的客觀性和科學性。

        采訪人員在采購過程中,通過供書目錄可以掌握文獻的以下特征數據:①作者,即完成創(chuàng)作、編寫、編譯該文獻內容的個人或者團體;②出版信息,即出版社、出版年;③版本,即該文獻是初版還是再版,再版次數等;④語種,即該文獻的寫作語言;⑤載體信息,主要有該文獻的開本尺寸、頁碼、裝訂情況等;⑥價格。這些客觀性數據有助于判斷文獻的學術價值。比如,作者是否為該文獻涉及學科的專家學者或者權威研究機構,出版社是否為該學科的核心出版社,修訂并出版多次的文獻更被讀者認同等等。因此,采訪人員應該關注并利用這些特征數據,從而了解和確定選購文獻的學術價值,確保滿足學校和讀者提出的文獻需求。

        研究選擇文獻作者為切入點,通過構建學科核心作者數據庫,探索以信息技術手段輔助圖書館采訪人員提高學科文獻選購科學性、客觀性的新方法。

        2 構建學科核心作者數據庫的基礎

        2.1圖書情報學界關于核心作者的研究

        核心作者是指那些在(某)學科領域研究較深入、造詣較高、研究成果較多從而具有較大影響力的作者,對學科發(fā)展具有引領作用,不斷將研究水平推向新的高度。[1]圖書情報學界的學者們運用文獻計量學理論對核心作者作了很多深入研究。例如,方太強、周蓉等結合發(fā)文總數、被引次數、核心期刊發(fā)文數等因素,利用維普數據庫測定圖書情報學領域的核心作者;[2]趙基明等運用h指數方法,利用CSSCI引文數據庫1998-2006年的數據,測定《中國圖書館學報》的核心作者;[3]龔舒野運用發(fā)文量、h指數和hm指數方法,利用CNKI數據庫2001-2009年的數據,測定了《情報科學》的核心作者,并分析這些作者的年齡、職稱、地域等特征信息;[4]邱均平等運用發(fā)文量和h指數相結合的方法,利用CSSCI引文數據庫的數據測定圖書情報學領域近30年的核心作者。[5]

        亦有學者將核心作者的測定運用到實踐中,推進圖書館工作開展。例如,蘇志芳等運用發(fā)文量、h指數和主題研究連續(xù)數相結合的模糊綜合評判法,測定學科領域核心作者,并提出以核心作者為主要依據的中文社科圖書決策系統(tǒng);[6]蔡璐運用層次分析法測定高等教育學科的核心作者,作為判斷圖書學術價值的依據之一;[7]沈艷紅、吳信嵐等利用CNKI數據庫,確定食品學科的核心作者,作為制定采購該學科核心書目的依據之一。[8]

        這些研究與嘗試,探討了核心作者的不同測定方法,并以實證研究方法研究實際效用,為我們研究構建學科核心作者數據庫提供了文獻計量學方面的理論支持。

        2.2人物數據庫的研究現狀

        人物數據庫指利用信息技術記錄和管理人物信息,并且實現便捷查詢和數據共享的數據庫。核心作者數據庫也屬于人物數據庫范疇。

        在國外,比較有影響力的人物數據庫有英格蘭圣公會神職人員數據庫(The Clergy of Church of England Database)[9],該數據庫記錄了1540-1830年期間英國神職人員的任職、職務等信息;還有ASP世界歷史人物索引庫[10],該數據庫記錄了世界上歷史事件發(fā)生時所涉及的第一個人物,內容包括信件、日記、口述史與其他個人敘述等。

        在國內,有中國科學技術協(xié)會牽頭、北京理工大學圖書館主要承辦的老科學家學術成長資料數據庫,收集300位80歲以上的院士或96歲以上有突出貢獻的非院士科學家的資料;[11]也有各高校圖書館基于學科研究或特藏建設需求而建立的人物專題數據庫,如暨南大學圖書館的留學人物數據庫、嘉興學院圖書館的嘉興名人數據庫等等;還有公共圖書館建立的地方特色人物數據庫,如湖南圖書館的湖南近代人物資源庫、廣州圖書館的廣州人物數據庫等等。

        無論國外還是國內的人物數據庫,均重視建立設計完備、字段豐富的數據庫系統(tǒng),以便較好地匯集、組織和揭示人物信息;注意建立人物信息與文獻信息之間、異構信息之間的關聯(lián);嘗試運用知識地圖、本體論等理論方法,對人物信息中的知識進行深層次挖掘,以期提供針對性強的高層次知識服務。這些數據庫的有益嘗試,對我們研究構建核心作者數據庫提供了實踐支持。

        3 學科核心作者數據庫的構建設計

        構建學科核心作者數據庫的設計定位是挖掘、判定學科領域核心作者,將其提供給采訪人員作為訂購學科文獻的輔助決策依據。根據文獻計量學理論,判定學科領域核心作者需要一系列的基礎數據,因此構建學科核心作者數據庫的基本設計思路是通過網絡抽取從主流數據庫中獲取的基本數據,然后根據文獻計量學理論設計核心作者的判定算法,再結合云計算技術與元數據進行數據組織,儲存并揭示核心作者的信息,最后利用動態(tài)網頁開發(fā)技術將作者信息整合在一起,提供一個可視化的、便捷的數據呈現界面,方便采訪人員進行采購決策。

        3.1學科核心作者數據庫系統(tǒng)模型

        構建學科核心作者數據庫采用B/S架構,系統(tǒng)模型如圖1所示,細分為四層:資源層、指標層、數據層和應用層。

        資源層是獲取基礎數據的一層,屬于四層結構的最底層,是構建學科核心作者數據庫的數據基礎。根據文獻計量學理論,判定核心作者主要依靠發(fā)文量、被引頻次、h指數等等,但是這些數據很難直接獲取。因此在資源層,主要采集學科領域內所有作者的發(fā)文情況,如題目、刊名、關鍵詞、摘要、出版日期等等,以及作者的個人屬性數據,如單位、職稱、主要研究方向等。獲取方法以網絡Web抽取為主,輔助以人工抽取。數據來源為主流數據庫,如中國知網、萬方、維普等。

        指標層是完成核心作者判定的一層。首先對資源層的基礎數據進行查重整合,然后將發(fā)文情況的整合結果提供給計算算法,得出發(fā)文量、被引頻次、h指數等判定數據;再按照判定算法,給出核心作者的判定結果。如果某一作者被判定為核心作者,則將整合后的作者個人信息和判定數據一起儲存到數據層中。

        數據層是儲存學科核心作者數據的一層。在這一層中,依照元數據的標準,建立數據表,對核心作者的個人屬性數據進行靜態(tài)數據標引,對作者發(fā)文情況和判定結果進行動態(tài)元數據標引。運用數據關聯(lián)技術,將“作者——文獻——學科”關聯(lián)起來,為應用層的核心作者呈現和檢索提供了基礎。

        應用層是直接面對用戶的一層,主要提供人性化、便捷的Web交互界面。用戶分成兩類:普通采訪人員和管理員。針對普通采訪人員,應用層提供學科選擇、時間段選擇、核心作者瀏覽、核心作者檢索等服務,支持關聯(lián)作者發(fā)表文獻,以方便采訪人員進一步深入研究該核心作者;針對管理員,應用層提供數據維護、人工去重、專家判定等管理功能。

        3.2基礎數據采集和查重

        研究嘗試采用一種基于Agent的中文Web信息檢索平臺,模擬正常用戶訪問主流數據庫的流程,然后根據設定的檢索表達式,進行數據檢索,再把檢索結果返回。這種做法能夠規(guī)避大規(guī)模的人工檢索和數據整合,有效提高構建數據庫的效率。

        因為研究建設學科核心作者,所以在構筑檢索式時,以學科主題詞為檢索詞,生成相應的檢索表達式。通過檢索,可以直接采集以下數據:文章屬性相關數據——題名、刊名、出版年、卷、期、頁碼和摘要;文獻計量相關數據——單篇文章被引次數、下載次數;作者相關數據——姓名、單位、聯(lián)系地址。

        由于每個學科均有多個主題詞,因此由Agent平臺直接采集、返回的數據存在較多重復數據,因此在基礎數據傳遞給指標層、用于判定核心作者之前必須進行查重。一是要合并相同的文章,主要通過比對文章題名、刊名和出版年卷期數據等,二是對于作者姓名的查重和消岐。可借鑒香港中文大學圖書館的Chan和Yik[12]提出的用于機構知識庫的作者姓名規(guī)范的概念模型,建立作者信息規(guī)范表,賦予每個作者ID編號作為唯一標識,將作者ID號、姓名、機構名作為一個集合進行考察,經過匹配完成作者姓名的查重和消岐。建立每個作者的唯一標識,就是賦予每個作者唯一身份,還可以將采集到的文章屬性數據、文獻計量數據和指標數據映射到這個唯一標識上,避免因作者姓名引起的文章歸屬沖突,使發(fā)文量的計算更加準確。

        3.3學科核心作者的判定

        資源層的基礎數據經過整合、查重和消岐后,可以得到每一位作者的文獻計量學指標:發(fā)文量、總被引證篇(次)數、單篇被引證篇(次)數。發(fā)文量是指某一位作者總共發(fā)表了多少篇文章。在文獻計量領域,曾根據這一指標評判作者的學術成就,但是發(fā)文量指標僅能說明該作者是該領域中寫作活躍的作者,不能反映文章質量和該作者對該學科領域的影響力。同樣,被引證篇數也是文獻計量學評價作者學術水平的傳統(tǒng)指標之一,論文被引用的越多,說明其觀點和資料越被同行學者認可,論文作者的水平也越高,但被引次數同樣也存在不足,比如論文自引現象。綜合近幾年文獻計量學者的研究,較少根據單一指標判定核心作者,很多高質量的研究論文都是采用多個指標綜合評估、判定核心作者。因此,可根據基礎數據的采集情況和文獻計量學的研究成果,采用發(fā)文量、h指數和hm指數綜合判定學科核心作者。

        首先,根據發(fā)文量數據,運用普賴斯定律進行核心作者的初選。普賴斯受社會學的盧梭定律啟發(fā),經過研究后發(fā)現,在同一主題中,半數的論文由一群高生產能力作者撰寫,這一作者集合在數量上約等于全部作者總數的平方根,具體公式為:m≈其中,nmax是指發(fā)文量最多的作者的發(fā)文總數。也就是對于某一學科領域,只有發(fā)文量超過m的才能被列為高產作者,可以被初步選為候選核心作者。

        然后,運用h指數,進一步判定學科核心作者。h指數是美國統(tǒng)計物理學家Hirsh于2005年提出的,其核心思想是一位作者至多有h篇論文分別被引用了至少h次。h指數同時考察作者的發(fā)文數和引文數,并把這兩項指標合二為一,兼顧了作者文章的“量”與“質”。h指數可以根據作者的發(fā)文量和單篇被引次數計算得出,然后根據給定的閥值,在候選核心作者群中,確定學科核心作者。

        最后,運用hm指數對學科核心作者進行修正和序次建議。h指數在反映高質量論文上有很多優(yōu)勢,但是仍有不足。經過實踐,在同一學科中會出現很多學者的h指數相同的現象,在需要根據核心作者對圖書進行采購決策時,容易出現難以取舍的情況。因此,可以引入hm指數。hm指數是我國學者趙學梅提出,并已經經過實證研究證明可行[12]。hm指數引入修正因子,對h指數進行一次修正,公式為,其中N為該作者的總被引篇(次)數。通過hm指數的公式,可以看出:hm指數是一個介于h和2h之間的小數,且總被引次數越高,hm指數越接近h指數。也就是說,hm指數和h指數差值越小,該學者的影響力越大。除非某兩位學者的h指數和總被引次數完全相同,他們的hm指數才會相同。這樣經過h指數判定為核心作者的學者,在絕大多數情況下都會有一個自己獨特的hm指數,能夠給采訪人員更加準確的決策依據。

        3.4數據庫的數據結構表示

        學科核心作者數據庫雖然從邏輯上分為四層,但是采集、判定、呈現、檢索等應用全部圍繞數據展開。因此,在構建學科核心作者數據庫時,選擇關系型數據庫SQL Server為數據中心,向判定、檢索等上層應用傳遞資源層Agent采集的基礎數據,充分利用SQL Server服務器的并發(fā)和處理能力,將數據分析交給數據庫服務器的存儲過程,簡化了上層應用的設計復雜程度。

        因為以SQL Server數據庫為中心,所有的數據和對象均映射到數據庫中,數據結構的設計非常重要。根據學科核心作者數據庫的各類數據性質,可以分為兩大類:靜態(tài)數據和動態(tài)數據。靜態(tài)數據是指在數據庫的整體框架下,用戶能夠直接獲取、描述、標引的數據,如作者的個人屬性特征和單篇文章的特征數據。動態(tài)數據是指在數據庫的整體框架下,需要經過數據分析、演算才能得到的數據,如判定指標。根據這一分類,設計學科核心作者數據庫的數據結構如圖2所示。

        圖2 學科核心作者數據庫的數據結構

        4 應用分析

        考慮到航校學科建設的需要,可嘗試建立飛行技術專業(yè)學科核心作者數據庫。由于主要為中文圖書的采購決策提供依據,數據庫的基礎數據采集對象選擇中國知網數據庫。首先,采集近10年與飛行技術相關的文獻,共計2635篇。經過數據整合、查重、消岐后,得到341名作者的相關數據。其中最高產作者的發(fā)文量是28篇,根據普賴斯定律,確定候選核心作者的最低發(fā)文量為4篇,則滿足這一條件的候選核心作者為64名。

        通過計算h指數和hm指數,可以發(fā)現這些候選核心作者中h指數最高為11,最低為0??紤]到飛機技術學科屬于理工科,與圖書情報等社科學科不同,經咨詢專家,確定h指數為2及以上的作者為核心作者,共計36名。同時,計算這些作者的hm指數,給出作者排序,作者的排序可以為采訪人員進行圖書采購決策提供依據。

        5 結語

        學科核心作者數據庫的構建研究在國內尚處于起步階段,研究以關系數據庫為基礎,以發(fā)文量、h指數、hm指數等文獻計量學標準作為判定算法的依據,融合Web信息抽取、數據挖掘技術,形成學科核心作者數據庫的整套構建策略。學科核心作者數據庫的建立,以IT技術代替了人工數據整理,具有自動化、高效率的特點,可以為采訪人員的采購決策提供客觀性的數據支持,從而使采訪人員擺脫學科知識的局限,提高采訪工作的質量和效率。同時,學科核心作者數據庫的建設對于圖書館的特色館藏建設、專業(yè)特色數據庫建設和機構知識庫建設也有一定的幫助。

        (來稿時間:2014年12月)

        參考文獻:

        1.杜秀杰,葛趙青,劉楊等. 基于著者索引的高校學報核心作者群分析.編輯學報, 2006, 18(5):366 - 368

        2.方太強,周蓉,胡英等.我國圖書館學情報學核心作者分析.圖書情報工作,2005(1):69-73

        3.趙基明,舒明全等.基于CSSCI的《中國圖書館學報》h指數及核心作者測定.中國圖書館學報,2008(2):98-102

        4.龔舒野,基于h指數和hm指數的《情報科學》核心作者分析.情報科學,2013(1):82-85,95

        5.邱均平, 周春雷. 發(fā)文量和h 指數結合的高影響力作者評選方法研究. 圖書館論壇,2008(6):44 - 49

        6.蘇志芳,張建中,胡惠芳等.基于模糊綜合評判的中文社科圖書”核心作者”決策研究.圖書情報工作,2010(1):42-45,41

        7.蔡璐.基于學科分類的高校圖書館核心館藏規(guī)律的實證研究——以高等教育學科為例.圖書情報知識,2012(4):106-110

        8.沈艷紅,吳信嵐等.學科館員如何利用cnki開展采訪工作——以食品學科為例.圖書館,2012(3):105-106,109

        9.The Clergy of Church of England Database .[2014- 07-13]. http:/ /www.theclergydatabase. org. uk /index. html

        10.In the first person.[2014-07-14]. http: / /www. Inthefirstperson. com/firp /index.shtml

        11.王曉山.科技名人數字圖書館的實踐與探索——以老科學家學術成長資料數據庫建設為例.圖書情報工作,2013 (2S):79-82

        12.張學梅.hm指數——對h指數的修正.圖書情報工作,2007(10):116-118,16

        〔分類號〕G253

        〔作者簡介〕朱軼婷(1979-),女,碩士,中國民航大學圖書館副館長。

        *本文系中國民航大學校級科研項目“日本民航網絡資源典藏庫的構建與研究” (項目編號:2010kyh03)及中國民航大學2015年中央高?;究蒲许椖俊盎诖髷祿治龅亩囵^制文獻資源管理策略研究”(項目編號:31220157006)研究成果之一。

        Research on Building Strategy of Subject Core Author Database for the Demand of the Literature Construction

        Zhu Yiting
        (Library of Civil Aviation University of China )

        〔Abstract 〕Based on relational database, acquisition of basic data from the mainstream database through the web information extraction technology, data integration, checking, disambiguation by data mining technology, and then determining the core authors and authors sort according to the quantity of published articles, h-index and hm-index, finally, subject core author databases are constructed in this paper. The aim is that providing objective data support for the book acquisitioning work. Besides, in order to illustrate the practical effect of database, the paper also takes the subject core author database on flight technology as an example.

        〔Keyw ords 〕Core authorsH-indexHm-indexRelational databaseWeb information extraction

        猜你喜歡
        發(fā)文數據庫文獻
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        10條具體舉措! 山東發(fā)文做好返鄉(xiāng)留鄉(xiāng)農民工就地就近就業(yè)
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        校園拾趣
        爺孫趣事
        以牙還牙
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        數據庫
        財經(2017年2期)2017-03-10 14:35:35
        數據庫
        財經(2016年15期)2016-06-03 07:38:02
        中文字幕乱码亚洲无线| 亚洲精品无码成人a片| 蜜桃日本免费观看mv| 亚洲美女又黄又爽在线观看| 欧美韩国精品另类综合| 国产一区二区三区av观看| 丁香五月缴情在线| 日韩精品无码一本二本三本色| 真实国产乱啪福利露脸| 国产乱子伦视频一区二区三区| 一本久久a久久精品综合| 三级国产自拍在线观看| 无码人妻一区二区三区免费看| 国产人妻精品无码av在线| 少妇人妻偷人精品视频| 国产精品密播放国产免费看 | 亚洲一区二区三区熟妇| 成人免费无码视频在线网站| 精品淑女少妇av久久免费| 极品粉嫩嫩模大尺度无码| 久久亚洲精彩无码天堂| 加勒比东京热一区二区| 97午夜理论片影院在线播放| 高清无码一区二区在线观看吞精 | 国产伦码精品一区二区| 成人av在线免费播放| 性高朝久久久久久久3小时| 亚洲av无码久久精品蜜桃| 极品美女扒开粉嫩小泬| 久久久久久人妻一区精品| 中文国产乱码在线人妻一区二区| 99riav国产精品视频| 精品深夜av无码一区二区老年| 人妻丰满熟妇AV无码片| 亚洲乱码中文字幕综合| 91精品国产色综合久久| 国模雨珍浓密毛大尺度150p| 精品一区二区久久久久久久网站| 亚洲人成网站www| 喷水白浆视频在线观看| 欧美一区二区三区红桃小说|