〔摘 要〕采用H指數(shù)作為核心論文集的評(píng)價(jià)指標(biāo),對(duì)藥物基因組學(xué)國(guó)內(nèi)論文進(jìn)行研究和分析,建立了藥物基因組學(xué)核心論文集,同時(shí)通過(guò)灰色建模,建立了生物信息學(xué)國(guó)內(nèi)期刊論文數(shù)量預(yù)測(cè)模型,從論文質(zhì)量及數(shù)量的定量層面上揭示生物信息學(xué)在國(guó)內(nèi)的發(fā)展趨勢(shì)。
〔關(guān)鍵詞〕藥物基因組學(xué);生物信息學(xué);H指數(shù);Hirsch核心集;灰色理論
〔中圖分類(lèi)號(hào)〕G255.51;Q811.4 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)03-0159-03
伴隨生命科學(xué)“后基因組(post-genome)”時(shí)代的到來(lái),一門(mén)新興、充滿活力的交叉學(xué)科——生物信息學(xué)應(yīng)運(yùn)而生。生物信息學(xué)是指開(kāi)發(fā)和應(yīng)用數(shù)據(jù)分析、數(shù)據(jù)理論的方法、數(shù)學(xué)建模和計(jì)算機(jī)仿真技術(shù),用于生物學(xué)、行為學(xué)和社會(huì)群體系統(tǒng)研究的一門(mén)學(xué)科。生物信息學(xué)已經(jīng)成為現(xiàn)代生物學(xué)研究的核心方法之一。根據(jù)美國(guó)國(guó)立衛(wèi)生研究院的定義,生物信息學(xué)是“研究、開(kāi)發(fā)或者應(yīng)用計(jì)算工具和方法來(lái)擴(kuò)展對(duì)生物學(xué)、醫(yī)學(xué)、行為科學(xué)和衛(wèi)生數(shù)據(jù)的使用,包括獲取、存儲(chǔ)、組織、分析和可視化這些數(shù)據(jù)”。生物信息學(xué)的定義包含了雙重的意 義:一是管理好這些數(shù)據(jù),即對(duì)海量數(shù)據(jù)的收集、整理與檢索;二是使用好這些數(shù)據(jù),即從 中發(fā)現(xiàn)新的規(guī)律。本研究主要對(duì)生物信息學(xué)的國(guó)內(nèi)論文進(jìn)行評(píng)價(jià)研究和發(fā)展預(yù)測(cè)。從論文質(zhì) 量及數(shù)量的定量層面上揭示生物信息學(xué)在國(guó)內(nèi)的發(fā)展趨勢(shì)。
1 生物信息學(xué)核心論文評(píng)價(jià)
1.1 H指數(shù)相關(guān)定義
2005年美國(guó)加州大學(xué)圣迭哥分校的物理學(xué)家J.E.Hirsch教授[1]提出了一項(xiàng)旨在評(píng)價(jià)科學(xué)家個(gè)人績(jī)效的指標(biāo)——H指數(shù)。由于這項(xiàng)指標(biāo)測(cè)量的結(jié)果在一定程度上能夠解決傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)指標(biāo)在科學(xué)家個(gè)人績(jī)效評(píng)價(jià)中的局限性[2],因此,該指標(biāo)一問(wèn)世 ,立即引起人們的廣泛關(guān)注。
一位科學(xué)家的H指數(shù)為h的含義為該科學(xué)家的Np篇論文至少被引用了h次,其余的Np-h篇論文的被引頻次不超過(guò)h[3]。
從幾何的角度出發(fā),可以定義為:C(p)為第p篇論文的被引頻次,其分段內(nèi)插函數(shù)為C(x),也就是說(shuō),當(dāng)p=1,2,…時(shí),函數(shù)的連接點(diǎn)為(p,C(p))。因而h指數(shù)就可以被定義為直線y=x和內(nèi)插函數(shù)y=C(x)的交點(diǎn)。原始的H指數(shù)都是整數(shù),但是經(jīng)過(guò)整合以后的指數(shù)hp,則是一個(gè)真實(shí)的數(shù)據(jù)。值得注意的是hp是一個(gè)從觀察值中衍生而來(lái)的指數(shù)[4]。
隨著近兩年來(lái)研究的深入,學(xué)者Ronald Rousseau提出了“Hirsch核心集”的概念[6],即由排序在前h篇的論文組成的論文集合,稱為“Hirsch核心集”。同時(shí)提出在被引頻次相同時(shí)使用時(shí)間倒序排列方法,使得最近發(fā)表的論文比發(fā)表較早的論文成為“Hirsch核心集”的幾率更高。如表1中的H指數(shù)為8,因而前八篇論文為Hirsch核心論文,其中第六~ 八篇與第九篇的被引頻次相同,但是前者進(jìn)入了核心集,而后者就在核心集之外。由于在相 同的被引頻次之下,將論文倒時(shí)序排列,所以加大了最近發(fā)表的論文比發(fā)較早的論文成為“ Hirsch核心集”的幾率。此外,需要注意的是,如果論文列表最后一篇論文的序列號(hào)是R, 且其引文數(shù)C>R,則該科學(xué)家的H指數(shù)為R。
1.2 藥物基因組學(xué)核心論文集
本文以H指數(shù)進(jìn)行核心論文的確定,確定的核心論文稱之為“Hirsch核心集”。本研究以“藥物基因組”為主題詞,搜集了1995-2005年間的中國(guó)大陸期刊論文275篇,碩士論文11篇,博士論文10篇,會(huì)議論文11篇,電子預(yù)印件1篇,共計(jì)308篇。經(jīng)檢索、去重,198篇論文被錄用,部分?jǐn)?shù)據(jù)見(jiàn)表2。
2 生物信息學(xué)期刊論文數(shù)量預(yù)測(cè)
由圖1可見(jiàn),H指數(shù)為10,因而在藥物基因組學(xué)領(lǐng)域,被引頻次排列于前十位的論文為核心論文(見(jiàn)表3)。
自上個(gè)世紀(jì)90年代以來(lái)我國(guó)生物信息學(xué)發(fā)展迅速,期刊論文量從1995年的6篇增長(zhǎng)到2005年的1 498篇,11年增長(zhǎng)了近324倍。要想使該學(xué)科保持長(zhǎng)期、健康、快速的發(fā)展,就要對(duì)其發(fā)展?fàn)顩r和趨勢(shì)開(kāi)展研究,找出發(fā)展的客觀規(guī)律并對(duì)其發(fā)展做出科學(xué)預(yù)測(cè)?;疑A(yù)測(cè)方法是經(jīng)濟(jì)預(yù)測(cè)中一種非常有效的方法,它的主要特點(diǎn)是建立預(yù)測(cè)模型所需要的原始數(shù)據(jù)不多,容易采集,這種預(yù)測(cè)方法簡(jiǎn)便并具有較高的準(zhǔn)確性。
2.1 灰色預(yù)測(cè)模型
灰色理論認(rèn)為一切隨機(jī)量都是在一定范圍內(nèi)、一定時(shí)間段上變化的灰色量及灰色過(guò)程。數(shù)據(jù)處理不去尋找其統(tǒng)計(jì)規(guī)律和概率分布,而是對(duì)原始數(shù)據(jù)作一定處理后,使其成為有規(guī)律的時(shí)間序列數(shù)據(jù),在此基礎(chǔ)上建立數(shù)學(xué)模型。本研究采用基于累加生成數(shù)列的GM(1,1)模型。建模步驟如下[7]:
根據(jù)式(10)~式(14),計(jì)算得到:
C=0.343571498,P=0.9,預(yù)測(cè)模型精度介于一級(jí)(好)和二級(jí)(合格)之間。故此上述模型可以用于預(yù)測(cè)。
通過(guò)將t=11,12,13,14,15代入上述模型可以預(yù)測(cè)生物信息學(xué)未來(lái)5年內(nèi)期刊論文量(表4)。
由此可見(jiàn),到2009年生物信息學(xué)的期刊論文將達(dá)到1萬(wàn)篇。
參考文獻(xiàn)
[1]Hirsch J E.An index to quantify an individuals scientific research output[J].P Natl Acad Sci,2005,102(46):16569-16572.
[2]Meho L I,Spurgin K M.Ranking the research productivity of library and information science faculty and schools:an evaluation of data sources and research methods[J].J Am Soc Inform Sci Technol,2005,56(12):1314-1331.
[3]Ball P.Index aims for fair ranking of scientists h-index sums up publication record[J].Nature,2005,436(7053):900.
[4]Rousseau R.New developments related to the Hirsch index[EB/OL].http:∥eprints.rclis.org/archive/00006376/01/Hirschnewdevelopments.pdf,2006-12-08.
[5]Miller C W.Superiority of the h-index over the Impact Factor for Physics[EB/OL].2006-08-17.http:∥arxiv.org/PScache/physics/pdf/0608/0608183v1.pdf2006-11-29.
[6]Rousseau R.Hirseh指數(shù)研究的新進(jìn)展[J].科學(xué)探索,2006,1(4):23-25.
[7]鄧聚龍.灰理論基礎(chǔ)[M].武漢:華中科技大學(xué)出版社,2002.