許 丹,朱 斐
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
PubMed是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)開(kāi)發(fā)的用于檢索生物醫(yī)學(xué)文獻(xiàn)的搜索引擎。生物醫(yī)學(xué)因?yàn)楦幼⒅乩碚摲矫娴难芯慷鴱膫鹘y(tǒng)醫(yī)學(xué)中獨(dú)立出來(lái),它包含生物學(xué)、微生物學(xué)、化學(xué)、生物化學(xué)、生理學(xué)、動(dòng)物學(xué)等眾多領(lǐng)域。正是因?yàn)樯镝t(yī)學(xué)擁有龐大的研究領(lǐng)域,所以找到眾多領(lǐng)域中的熱點(diǎn)話題顯得至關(guān)重要。現(xiàn)在,雖然PubMed能夠方便高效地查找數(shù)據(jù),但還是不能直接得到熱點(diǎn)話題。
筆者所做的工作是找出2007年到2011年間生物醫(yī)學(xué)領(lǐng)域內(nèi)的關(guān)鍵詞,然后從中提煉出熱點(diǎn)話題。用E-utilities編寫(xiě)程序自動(dòng)搜索涉及每個(gè)關(guān)鍵詞的文獻(xiàn)數(shù)目并根據(jù)這些數(shù)據(jù)畫(huà)出表格進(jìn)行直觀的分析,最終得到生物醫(yī)學(xué)領(lǐng)域內(nèi)的十大熱點(diǎn)話題。一方面,這些熱點(diǎn)話題可以幫助其他研究人員了解生物醫(yī)學(xué)的主要研究方向;另一方面,也可以為普通人提供一個(gè)簡(jiǎn)單的了解生物醫(yī)學(xué)發(fā)展的方法。
許多研究人員在進(jìn)行類似的項(xiàng)目研究。Prakash M.Nadkami和 Chirag R.Parikh共同完成了一個(gè)應(yīng)用軟件,該應(yīng)用軟件能夠通過(guò)eUtils創(chuàng)建一個(gè)管道,連接特定領(lǐng)域的生物醫(yī)學(xué)文獻(xiàn),即使不會(huì)編程的用戶也能方便地使用該應(yīng)用。Weiss J.,Kirsner R.S.和Hu S.在PubMed和SCOPUS數(shù)據(jù)庫(kù)中搜索與皮膚癌有關(guān)的一些關(guān)鍵詞,結(jié)果發(fā)現(xiàn)美籍西班牙裔預(yù)防皮膚癌的主要方法。Thieu T.、Joshi S.、Warren S.和 Korkin D.介紹并比較了兩種新的方法,這兩種方法能判斷一個(gè)PubMed文獻(xiàn)中是否包含所給的特定的詞,其中一種方法是基于語(yǔ)言的,另一種是基于特征的。
《時(shí)代周刊》有一個(gè)名為“各式各樣的前十名”的欄目,里面有一整年大家討論最多的話題。其中有一個(gè)系列叫做“醫(yī)學(xué)十大突破點(diǎn)”,總結(jié)了從2007年到2011年每年的十大醫(yī)學(xué)突破點(diǎn)。筆者從這些突破點(diǎn)中總結(jié)歸納出關(guān)鍵詞(見(jiàn)表1),除去重復(fù)的詞,一共是34個(gè)關(guān)鍵詞。
表1 2007到2011每年的關(guān)鍵詞
E-utilities是PubMed提供的一系列接口,通過(guò)這些接口編程可以自動(dòng)從該數(shù)據(jù)庫(kù)中得到數(shù)據(jù)。為了得到這些數(shù)據(jù),程序需要將URL傳到NCBI,然后得到返回結(jié)果。程序可以用多種編程語(yǔ)言實(shí)現(xiàn),如Perl、Python、Java、C++ 等。選用 C#語(yǔ)言,將得到的關(guān)鍵詞寫(xiě)入文件,然后通過(guò)程序連接到數(shù)據(jù)庫(kù),依次得到文件中每個(gè)關(guān)鍵詞從2001到2011年的文獻(xiàn)數(shù)。在程序中定義了一個(gè)叫PubMedDownload的命名空間,里面包括一個(gè)名為 Download的類。函數(shù) get-FromPub承擔(dān)了大部分程序功能。
變量定義如下:
主要查找語(yǔ)句是:
esResult.Count即為所需要的文獻(xiàn)數(shù)。記錄所有關(guān)鍵詞的所有數(shù)據(jù)的表格為表2。
表2 2001到2011年各關(guān)鍵詞對(duì)應(yīng)文獻(xiàn)數(shù)及平均值
根據(jù)表2中的數(shù)據(jù),尤其是每個(gè)關(guān)鍵詞的平均值,可以總結(jié)出十大熱點(diǎn)話題。它們是Surgery、Age、Bacteria、Genome、Food、Inflammation、Neuron、Diabetes、Blood Test和 Stem Cell(見(jiàn)表3)。
表3 關(guān)鍵詞中提煉的十大熱點(diǎn)話題
不難發(fā)現(xiàn),它們中的一些是疾病如Diabetes、Surgery和 Inflammation,但大多數(shù)是一些研究領(lǐng)域如Age、Food、Stem Cell和 Blood Test等。為什么這些詞成為熱點(diǎn)話題并且擁有如此巨大的文獻(xiàn)數(shù)目呢?原因也許是很復(fù)雜的。在這里,僅給出筆者的一些看法。首先,這些領(lǐng)域都涉及成千上萬(wàn)的人,擁有龐大的研究對(duì)象群體。其次,這些領(lǐng)域都擁有悠久的研究歷史和廣闊的研究范圍。就拿糖尿病來(lái)說(shuō),目前全球大約有三億人受到該疾病的困擾與折磨,并且每年大約有四百萬(wàn)人因糖尿病而死去,所以糖尿病是威脅人類健康的重大疾病之一。另一個(gè)關(guān)于研究領(lǐng)域的例子是血液檢測(cè),它則是與每個(gè)人都息息相關(guān)。綜上所述,這些詞成為研究人員研究的熱門(mén)領(lǐng)域是有一定道理與依據(jù)的。
找出近年來(lái)生物醫(yī)學(xué)領(lǐng)域中的熱門(mén)話題對(duì)研究者來(lái)說(shuō)是很重要的。知道并了解熱點(diǎn)話題可以在一定程度上幫助研究者確定自己的研究方向,發(fā)現(xiàn)生物醫(yī)學(xué)里的最新的研究發(fā)展趨勢(shì)以及預(yù)測(cè)未來(lái)的研究的發(fā)展方向。
[1]歐榮.PubMed,ISI—Medline,Google Scholar檢索性能對(duì)比測(cè)評(píng)[J].醫(yī)學(xué)信息學(xué)雜志,2009,30(12):37-40.
[2]何蛟,崔雷,侯躍芳.面向主題詞/副主題詞的PubMed數(shù)據(jù)挖掘軟件[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2005,14(1):49-51.
[3]Prakash M Nadkarni,Chirag R Parikh.An eUtils toolset and its use for creating a pipeline to link genomics and proteomics analyses to domain-specific biomedical literature[J].Journal of Clinical Bioinformatics,2012,2(1):9.
[4]Chaussabel D.Biomedical literature mining:Challenges and solutions in the‘omics’era[J].Am.J.Pharmaco Genomics,2004,4(6):383-393.
[5]Thieu T,Joshi S,Warren S,et al.Literature mining of host-pathogen interactions:Comparing feature-based supervised learning and language-based approaches[J].Bioinformatics,2012,28(6):867-875.
[6]Botsis T,Nguyen M D,Woo E J,et al.Text mining for the vaccine adverse event reporting system:Medical text classification using informative feature selection[J].J.Am.Med.Inform.Assoc.,2011,18(5):631-638.
[7]熊筱晶.R語(yǔ)言在PubMed數(shù)據(jù)庫(kù)文獻(xiàn)檢索方面的應(yīng)用[J].醫(yī)學(xué)信息:上旬刊,2009,22(1):42-45.
[8]許昌泰.1947-2008年P(guān)ubMed中神經(jīng)遞質(zhì)相關(guān)文獻(xiàn)計(jì)量學(xué)分析[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2010,19(8):74-77.
[9]Li Hai-Yan,Cui Lei,Cui Meng.Hot topics in Chinese herbal drugs research documented in PubMed/MEDLINE by authors inside China and outside of China in the past 10 years:Based on co-word cluster analysis[J].The Journalof Alternative and Complementary Medicine,2009,15(7):779-785.
[10]李友仁,劉松巖,黃敏.PubMed檢索概述[J].醫(yī)學(xué)信息:上旬刊,2002,15(7):443-446.
[11]陳會(huì)果.數(shù)據(jù)挖掘技術(shù)淺析[J].科技創(chuàng)業(yè)月刊,2010,23(11):167-168.
[12]史書(shū)俠,楊華.中華眼科雜志2001至2004年載文分析[J].中華眼科雜志,2005,41(7):652-655.
[13]NCBI.E-utilities編程接口參數(shù)描述文檔[EB/OL].http://www.ncbi.nlm.nih.gov/entrez/query/static/esoap_help.html,2012-09-13.
[14]Time.時(shí)代周刊主頁(yè)[EB/OL].http://www.time.com,2012-09-13.