亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國際生物信息學(xué)研究的可視化分析

        2015-02-23 07:58:10李延暉
        生物信息學(xué) 2015年4期
        關(guān)鍵詞:信息學(xué)圖譜可視化

        游 鴿,李延暉,劉 向

        (華中師范大學(xué) 信息管理學(xué)院 , 武漢 430079)

        國際生物信息學(xué)研究的可視化分析

        游鴿,李延暉*,劉向

        (華中師范大學(xué) 信息管理學(xué)院 , 武漢 430079)

        摘要:利用當(dāng)前主流的信息可視化分析軟件CiteSpace對(duì)2005~2014年間SCI收錄的生物信息學(xué)的5種高影響力外文期刊所刊載論文的題錄數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和可視化分析,繪制該領(lǐng)域的關(guān)鍵詞共現(xiàn)、膨脹詞共現(xiàn)、經(jīng)典文獻(xiàn)共現(xiàn)、高被引文獻(xiàn)共現(xiàn)和關(guān)鍵節(jié)點(diǎn)文獻(xiàn)共現(xiàn)的網(wǎng)絡(luò)可視化圖譜,試圖揭示生物信息學(xué)領(lǐng)域的研究熱點(diǎn)、研究前沿以及知識(shí)基礎(chǔ),以期幫助研究人員了解該領(lǐng)域在國際范圍內(nèi)的研究態(tài)勢。

        關(guān)鍵詞:生物信息學(xué);CiteSpace;信息可視化;知識(shí)圖譜;研究前沿 是作者對(duì)文章核心研究內(nèi)容的精煉,學(xué)科領(lǐng)域里高頻次出現(xiàn)的關(guān)鍵詞可被視為該領(lǐng)域里的研究熱點(diǎn)[13]。在CiteSpace軟件界面選擇關(guān)鍵路徑探測算法(Pathfinder)——該算法經(jīng)過模型運(yùn)算來剪切網(wǎng)絡(luò)中大部分不重要的節(jié)點(diǎn)關(guān)聯(lián),只保留最重要的節(jié)點(diǎn)關(guān)聯(lián),同時(shí)讓所有的節(jié)點(diǎn)均保持不動(dòng),以便從最大程度上將原網(wǎng)絡(luò)簡化為一個(gè)最小值網(wǎng)絡(luò)[14, 15];網(wǎng)絡(luò)節(jié)點(diǎn)選為關(guān)鍵詞;數(shù)據(jù)抽取對(duì)象設(shè)為top30;設(shè)置TimeScaling的值為1(即將2005~2014年分成10個(gè)時(shí)段進(jìn)行處理)。運(yùn)行CiteSpace,得到生物信息學(xué)關(guān)鍵詞共現(xiàn)圖,見圖1。

        “生物信息學(xué)”是英文“Bioinformatics”的中文譯名,1991年美國學(xué)者Lim在其發(fā)表的文章首次使用該詞[1]。生物信息學(xué)是包含了生物信息的獲取、處理、儲(chǔ)存、分析和解釋等在內(nèi)的所有方面的一門交叉學(xué)科,它是綜合數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具進(jìn)行研究,目的在于了解和闡明大量生物信息學(xué)數(shù)據(jù)所包含的生物意義[2]。

        進(jìn)入21世紀(jì),生物信息學(xué)相關(guān)出版物井噴式增加,儼然成為當(dāng)下研究熱點(diǎn)領(lǐng)域之一。為了厘清生物信息學(xué)研究的發(fā)展脈絡(luò),盡快獲悉國際同行的研究動(dòng)向,國外多位學(xué)者對(duì)生物信息學(xué)領(lǐng)域的研究趨勢進(jìn)行了相應(yīng)的研究,比如:Ouzounis C A 運(yùn)用定性分析的方法對(duì)生物信息學(xué)的早期發(fā)展階段做了回顧[3]。Patra, SK 對(duì)PubMed數(shù)據(jù)庫中主題為生物信息學(xué)的研究文獻(xiàn)進(jìn)行了計(jì)量分析,試圖揭示該領(lǐng)域的演變歷程和發(fā)展趨勢[4]。Perez-Iratxeta C 對(duì)生物信息學(xué)的演化和發(fā)展趨勢做了研究,并將生物信息學(xué)定性為具有驚人增長動(dòng)力的新興學(xué)科[5]。Glanzel, W 對(duì)生物信息學(xué)領(lǐng)域的核心文獻(xiàn)的出版活動(dòng)和引文影響力進(jìn)行了比較分析[6]。Song M對(duì)PubMed數(shù)據(jù)庫中2000至2011年生物信息學(xué)領(lǐng)域的文獻(xiàn)與引文進(jìn)行了計(jì)量分析,并指出了該領(lǐng)域最有成效的作者、機(jī)構(gòu)、國家以及最流行的主題詞[7]。近些年,國內(nèi)也有多位學(xué)者從定性或定量多個(gè)視角對(duì)生物信息學(xué)領(lǐng)域的研究熱點(diǎn)進(jìn)行了相關(guān)研究,其中,王玉梅采用科學(xué)計(jì)量學(xué)和統(tǒng)計(jì)學(xué)方法對(duì)CBMdisk 生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫、中國期刊網(wǎng)2002年以前國內(nèi)正式發(fā)表的生物信息學(xué)文獻(xiàn)和首屆中國生物信息學(xué)會(huì)議論文進(jìn)行了統(tǒng)計(jì)分析,試圖發(fā)現(xiàn)該領(lǐng)域的演化路徑與發(fā)展趨勢[8]。宋茂海利用共詞分析的方法對(duì)生物信息學(xué)的關(guān)鍵詞進(jìn)行聚類分析,試圖探討該研究領(lǐng)域的學(xué)科分類和熱點(diǎn)內(nèi)容[9]。種樂熹和胡德華對(duì)發(fā)表在Nucleic Acids Research 期刊上有關(guān)生物信息學(xué)軟件研究的文獻(xiàn)做了可視化分析,試圖揭示了該領(lǐng)域的重要研究力量、知識(shí)基礎(chǔ)與研究熱點(diǎn)[10]。生物信息界進(jìn)行的類似回顧研究或?qū)ρ芯壳把睾蜔狳c(diǎn)的探測,不僅能較好的展示該學(xué)科領(lǐng)域某一時(shí)間內(nèi)的變化規(guī)律,還有助于該領(lǐng)域的學(xué)者們更快、更好地了解本研究領(lǐng)域的研究重點(diǎn)與發(fā)展趨勢。

        以美國科學(xué)情報(bào)研究所編輯出版的2014年自然科學(xué)版期刊引證報(bào)告為依據(jù),選取5種高影響力外文期刊在2005~2014年所刊載研究論文的題錄數(shù)據(jù)作為研究樣本,利用信息可視化軟件——CiteSpace,結(jié)合文獻(xiàn)計(jì)量的相關(guān)方法,從多方面對(duì)生物信息學(xué)的研究狀況、研究熱點(diǎn)和前沿進(jìn)行可視化分析,以期有益于我國生物信息學(xué)的研究工作。

        1 數(shù)據(jù)與方法

        1.1 數(shù)據(jù)來源

        期刊引用報(bào)告依據(jù)來自 ISI Web of Science 平臺(tái)中引文數(shù)據(jù),是一種獨(dú)特的多學(xué)科期刊評(píng)價(jià)工具。本文選取2014年自然科學(xué)版期刊引證報(bào)告中生物信息學(xué)專業(yè)目錄下綜合影響力較高和相關(guān)性較強(qiáng)的5種期刊作為數(shù)據(jù)來源,期刊名依次為Bioinformatics、BMC Bioinformatics、Briefings in Bioinformatics、PLoS Computational Biology、Nature Genetics,檢索數(shù)據(jù)庫選定為Web of Science TM核心合集,檢索期限設(shè)定為2005~2014,出版類型設(shè)定為article,共計(jì)檢索到18 789條符合條件的數(shù)據(jù)記錄(檢索時(shí)間:2015年11月4日),下載的方式設(shè)定為全紀(jì)錄(包含引用的參考文獻(xiàn))。

        1.2 研究工具和方法

        引文分析可視化是信息可視化的重要分支,在處理完海量的引文數(shù)據(jù)之后,利用信息可視化技術(shù)使人們更直觀地觀察瀏覽和理解信息,進(jìn)而找到數(shù)據(jù)中隱藏的規(guī)律和模式[11]。當(dāng)前開展引文分析多應(yīng)用統(tǒng)計(jì)學(xué)中的一些工具,如SPSS、Pajek等,但是其可視化的效果較為單調(diào),信息可視化工具CiteSpace軟件[12]正好彌補(bǔ)上述不足,并且它在時(shí)序分析和熱點(diǎn)凸顯上具有顯著的特征和優(yōu)勢。

        采用CiteSpace軟件,將18 789篇以全記錄形式保存的純文本題錄數(shù)據(jù)導(dǎo)入信息可視化軟件進(jìn)行相應(yīng)的分析處理,繪制關(guān)鍵詞共現(xiàn)、膨脹詞共現(xiàn)、經(jīng)典文獻(xiàn)共現(xiàn)、高被引文獻(xiàn)共現(xiàn)、關(guān)鍵節(jié)點(diǎn)文獻(xiàn)共現(xiàn)的網(wǎng)絡(luò)可視化圖譜,借此來揭示國際生物信息學(xué)領(lǐng)域的研究狀況和發(fā)展動(dòng)態(tài)。

        2研究熱點(diǎn)與研究前沿

        2.1 研究熱點(diǎn)探測

        圖1 生物信息學(xué)領(lǐng)域主要研究熱點(diǎn)知識(shí)圖譜Fig.1 Knowledge map of hot domains on bioinformatics

        圖1共有84個(gè)節(jié)點(diǎn),20條連接線,圖中每個(gè)圓形節(jié)點(diǎn)代表關(guān)鍵詞,節(jié)點(diǎn)及其標(biāo)簽大小與詞匯出現(xiàn)的頻次成正比,較大的節(jié)點(diǎn)可視為近十年國際生物信息學(xué)領(lǐng)域主要研究熱點(diǎn)主題,表1是近十年國際生物信息學(xué)領(lǐng)域研究熱點(diǎn)詞頻統(tǒng)計(jì)。通過詞藻聚類和主題分析得到國際生物信息學(xué)的研究熱點(diǎn)主要集中在基因組與遺傳學(xué)研究、蛋白組學(xué)研究、細(xì)胞與分子生物學(xué)研究、基因的數(shù)據(jù)挖掘分析、生物系統(tǒng)建模與仿真等五大領(lǐng)域,依次對(duì)應(yīng)圖1中#A、#B、#C、#D、#E五個(gè)子聚類。

        2.2 研究前沿分析

        研究某學(xué)科領(lǐng)域的研究前沿對(duì)該學(xué)科領(lǐng)域研究人員具有重要意義,可使研究者及時(shí)準(zhǔn)確地把握學(xué)科研究前沿和最新演化動(dòng)態(tài),還可預(yù)測學(xué)科發(fā)展的方向和未來需進(jìn)一步研究的熱點(diǎn)問題[16]。探測研究前沿可利用CiteSpace的膨脹詞探測算法,通過考察詞頻的時(shí)間分布,將其中頻次變化率高的名詞短語從主題詞中探測出來,依靠詞頻的變動(dòng)趨勢,而不僅僅是頻次的高低,來確定學(xué)科領(lǐng)域的研究前沿[17]。在軟件界面選擇膨脹詞探測算法;網(wǎng)絡(luò)節(jié)點(diǎn)選為膨脹詞;收據(jù)抽取對(duì)象設(shè)為top50;設(shè)置TimeScaling的值為1。運(yùn)行CiteSpace繪制出近十年國際生物信息學(xué)領(lǐng)域研究前沿與趨勢知識(shí)圖譜,見圖2。

        如圖2所示:該共引網(wǎng)絡(luò)是由427個(gè)節(jié)點(diǎn)、73條連線組成,圖中突變名詞短語頻次最高的是酵母(Saccharomyces-cerevisiae)、其次是序列比對(duì) (Sequence-alignment)、蛋白質(zhì)序列(Protein-sequence)、氨基酸(Amino-acids)、補(bǔ)充信息(Supplementary-information)、人類基因組(Human-genome)、基因表達(dá)譜(Gene-expression-profiles)、比值比(Odds-ratio)、序列相似性(Sequence-similarity)等。從圖2可看出國際生物信息學(xué)前沿主要有功能基因組與比較基因組學(xué)、蛋白質(zhì)結(jié)構(gòu)比對(duì)與預(yù)測、分子進(jìn)化分析、生物計(jì)算等領(lǐng)域:

        圖2  生物信息學(xué)領(lǐng)域研究前沿與趨勢知識(shí)圖譜Fig.2 Knowledge map of frontiers and trends on bioinformatics

        (1)表征功能基因組與比較基因組學(xué)作為生物信息學(xué)前沿的突變名詞短語包括序列比對(duì) (Sequence-alignment)、人類基因組(Human-genome)、基因表達(dá)譜(Gene-expression-profiles)、對(duì)比分析(Comparative-analysis)、對(duì)照基因組(Reference-genome)、多序列比對(duì)(Multiple-sequence-alignments)、基因組序列(Genomic-sequences)等。

        (2)表征蛋白質(zhì)結(jié)構(gòu)比對(duì)與預(yù)測作為生物信息學(xué)前沿的突變名詞短語包括蛋白質(zhì)序列(Protein-sequences)、氨基酸(Amino-acids)、氨基酸序列(Amino-acid-sequence)、蛋白質(zhì)值數(shù)據(jù)銀行(Protein-data-bank)、相互作用的蛋白質(zhì)(Interacting-proteins)、蛋白質(zhì)家族(Protein-family)等。

        (3)分子進(jìn)化分析作為生物信息學(xué)前沿的突變名詞短語包括酵母(Saccharomyces-cerevisiae)、補(bǔ)充信息(Supplementary-information)、比值比(Odds-ratio)、分子動(dòng)力模擬(Molecular-dynamics-simulations)、分子生物學(xué)(Molecular-biology)、擬南芥(Arabidopsis-thaliana)、共變異(Common-variants)、分子機(jī)制(Molecular-mechanism)等。

        (4)表征生物計(jì)算作為生物信息學(xué)前沿的突變名詞短語包括計(jì)算模型(Computational-model)、支持向量機(jī)(Support-vector-machines)、強(qiáng)大工具(Powerful-tool)、芯片技術(shù)(Microarray-technology)、統(tǒng)計(jì)效率(Statistical-power)、微陣列數(shù)據(jù)分析(Microarray-data-analysis)等。

        另外,從圖2中還可以發(fā)現(xiàn),近十年來生物信息學(xué)領(lǐng)域研究前沿還有如下內(nèi)容:生物途徑(Biological-pathways)、系統(tǒng)發(fā)育樹(Phylogenetic-tree )、Web應(yīng)用(Web-application)、生命科學(xué)(Life-sciences)、印跡分析(Blot-analysis)、人類疾病(Human-diseases)等。

        3知識(shí)基礎(chǔ)分析

        通過對(duì)知識(shí)基礎(chǔ)進(jìn)行分析,可使研究者更好地了解生物信息學(xué)的發(fā)展脈絡(luò)和研究基礎(chǔ)。知識(shí)基礎(chǔ)有助于進(jìn)一步指出研究前沿的本質(zhì),從文獻(xiàn)計(jì)量學(xué)的角度來看,引文形成了研究前沿,被引文獻(xiàn)生成了知識(shí)基礎(chǔ)[18]。開展學(xué)科領(lǐng)域知識(shí)基礎(chǔ)的分析包括對(duì)早期奠基性文獻(xiàn)分析以及對(duì)一組共被引頻次和中心性都比較高的關(guān)鍵文獻(xiàn)分析[19]。通過繪制近十年國際生物信息學(xué)領(lǐng)域文獻(xiàn)共被引網(wǎng)絡(luò),分別進(jìn)行時(shí)間、被引頻次和中心性三方面的分析,進(jìn)而明確生物信息學(xué)領(lǐng)域的知識(shí)基礎(chǔ)。

        3.1 早期經(jīng)典文獻(xiàn)

        早期奠基性文獻(xiàn)是科學(xué)領(lǐng)域后期發(fā)展的堅(jiān)實(shí)基礎(chǔ),通過對(duì)近十年國際生物信息學(xué)領(lǐng)域被引文獻(xiàn)進(jìn)行時(shí)間分析可得出該領(lǐng)域的早期奠基性文獻(xiàn)。設(shè)置參數(shù)運(yùn)行CiteSpace并選擇時(shí)間線(Timeline)視圖,得到近十年國際生物信息學(xué)領(lǐng)域早期奠基性文獻(xiàn)時(shí)間序列知識(shí)圖譜,見圖3。

        圖3 國際生物信息學(xué)早期奠基性文獻(xiàn)時(shí)間序列知識(shí)圖譜Fig.3 Time line knowledge map of early foundational literatures on international bioinformatics

        圖3顯示發(fā)表于1970~1999年間的9篇早期奠基性文獻(xiàn)。1970年,Needleman et al.發(fā)表了A general method applicable to the search for similarities in the amino acid sequence of two proteins一文,該文首次引入了一種利用計(jì)算機(jī)尋找兩種蛋白質(zhì)的氨基酸序列之間的相似性的自適應(yīng)方法,該方法可以判斷蛋白質(zhì)之間是否存在顯著同源性,并由此來追溯它們的進(jìn)化發(fā)展歷程[20]。1977年,Dempster et al在Maximum Likelihood from Incomplete Data via the EM Algorithm一文中提出了一種計(jì)算最大似然估計(jì)廣泛適用的算法——EM算法[21],后來該算法及其改進(jìn)型被廣泛用于生物計(jì)算中。1981年,Smith et al.發(fā)表了Identification of common molecular subsequences一文,該文指出如果我們假設(shè)連續(xù)子序列沒有內(nèi)部缺失或插入(片段),那么解決最大的同源套之間的子序列的序列識(shí)別這個(gè)問題將變得很簡單[22]。1983年,Kabsch et al發(fā)表Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features一文,該文對(duì)氨基酸序列與蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系進(jìn)行了分析,并針對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)制定了一系列簡單的用于氫鍵鍵合和幾何特征圖像識(shí)別處理的標(biāo)準(zhǔn)[23]。1990年,Altschul et al.發(fā)表Basic local alignment search tool一文,該文提出了一種被稱為基本局部比對(duì)搜索工具(BLAST)的快速序列比對(duì)方法,該工具可在DNA和蛋白質(zhì)序列數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)檢索、基序檢索以及基因鑒定搜索,并可對(duì)相似的長DNA序列的多個(gè)區(qū)域進(jìn)行比對(duì)分析[24]。1994年,Thompson et al.發(fā)表CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice一文,作者在常用的漸進(jìn)多序列比對(duì)方法基礎(chǔ)上提出了一種蛋白質(zhì)序列比對(duì)的新程序,它主要對(duì)權(quán)重的設(shè)置、氨基酸取代矩陣取向階段的設(shè)置等作了相應(yīng)的改進(jìn)[25]。1995年,Murzin et al 發(fā)表SCOP: a structural classification of proteins database for the investigation of sequences and structures一文,該文提出構(gòu)建一種蛋白質(zhì)結(jié)構(gòu)分類的數(shù)據(jù)庫——SCOP,這個(gè)數(shù)據(jù)庫將對(duì)已知結(jié)構(gòu)的蛋白質(zhì)的結(jié)構(gòu)和進(jìn)化關(guān)系進(jìn)行詳細(xì)而全面的介紹[26]。同年Benjamini et al 發(fā)表Controlling the false discovery rate: a practical and powerful approach to multiple testing一文,該文首次提出多重檢驗(yàn)要控制偽發(fā)現(xiàn)率(FDR)這一概念[27],后來FDR理論與方法被廣泛應(yīng)用于生物海量數(shù)據(jù)統(tǒng)計(jì)分析中。1997年,Altschul et al.發(fā)表了經(jīng)典著作Gapped BLAST and PSI-BLAST: A new generation of protein database search programs,作者提出一種運(yùn)行速度是BLAST三倍的程序——PSI-BLAST,并且該程序在探測生物學(xué)相關(guān)序列相似性時(shí)更加敏感,還可以用來發(fā)現(xiàn)一些新的和有趣的BRCT超家族的成員[28]。以上9篇早期奠基性文獻(xiàn)為近十年生物信息學(xué)領(lǐng)域的研究發(fā)展奠定了堅(jiān)實(shí)的理論與方法基礎(chǔ),并為其指明了相應(yīng)的研究方向,是近十年來生物信息學(xué)研究領(lǐng)域十分重要的知識(shí)基礎(chǔ)。

        3.2 高被引文獻(xiàn)

        通常,高頻被引文獻(xiàn)中傳遞的知識(shí)易在某一時(shí)間段內(nèi)獲得較多研究者的認(rèn)同,并且相關(guān)研究者往往將這些高被引文獻(xiàn)內(nèi)所包含的觀點(diǎn)、知識(shí)作為開展下一步研究的知識(shí)基礎(chǔ)。因此,高被引文獻(xiàn)對(duì)生物信息學(xué)領(lǐng)域研究具有重大的參考價(jià)值,是該領(lǐng)域相關(guān)研究的知識(shí)基礎(chǔ)。利用CiteSpace軟件,網(wǎng)絡(luò)節(jié)點(diǎn)選擇參考文獻(xiàn);以論文標(biāo)題、摘要和關(guān)鍵詞(包括描述詞和標(biāo)識(shí)符)作為前沿術(shù)語來源;將閥值設(shè)為top50;得到生物信息學(xué)研究領(lǐng)域文獻(xiàn)的共被引知識(shí)圖譜。

        圖4 國際生物信息學(xué)的文獻(xiàn)共被引知識(shí)圖譜Fig.4 Knowledge map of literatures co-citation on international bioinformatics

        圖4中節(jié)點(diǎn)的大小與節(jié)點(diǎn)相對(duì)應(yīng)的文獻(xiàn)被引頻次成正比,節(jié)點(diǎn)越大表明該文獻(xiàn)的被引頻次越高。選取共被引頻次不少于250的文獻(xiàn)作為近十年國際生物信息學(xué)領(lǐng)域的高被引文獻(xiàn)。通過對(duì)文獻(xiàn)被引頻次高低進(jìn)行分析后發(fā)現(xiàn)近十年國際生物信息學(xué)領(lǐng)域共有15篇高被引文獻(xiàn)。第一篇是Ashburner et al 于2000年發(fā)表的論文Gene ontology: Tool for the unification of biology,作者指出由于生物學(xué)中核心功能的基因很大一部分是由所有真核生物共享,所以知識(shí)共享這樣的蛋白質(zhì)在一個(gè)生物體的生物學(xué)作用往往可以轉(zhuǎn)移到其他生物體[29]。第二篇是Berman et al 于2000年發(fā)表的論文The protein data bank,該文介紹了一個(gè)用來研究生物大分子的結(jié)構(gòu)的數(shù)據(jù)庫——PDB,文中詳細(xì)介紹了PDB的建設(shè)目標(biāo),系統(tǒng)數(shù)據(jù)的沉積和訪問以及如何獲得進(jìn)一步的信息的方式,除此之外還為未來資源的發(fā)展制定了近期計(jì)劃[30]。第三篇是Subramanian et al 于2005年發(fā)表的論文Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles,作者在文中描述了一種解釋全基因組表達(dá)譜的分析方法——基因組富集分析(GSEA),并通過實(shí)證研究證明了該方法強(qiáng)大的適用性[31]。第四篇是Eisen于1998年發(fā)表的論文Cluster analysis and display of genome-wide expression patterns,該文使用標(biāo)準(zhǔn)統(tǒng)計(jì)學(xué)算法根據(jù)基因表達(dá)譜的相似性對(duì)DNA微陣列雜交的全基因組表達(dá)數(shù)據(jù)進(jìn)行了聚類分析,結(jié)果顯示人類與芽殖酵母在基因表達(dá)數(shù)據(jù)組聚類上有相似的趨勢[32]。第五篇是Gentleman et al.于2004年發(fā)表的論文Bioconductor: open software development for computational biology and bioinformatics,作者為計(jì)算生物學(xué)和生物信息學(xué)研發(fā)了一種開放式的軟件開發(fā)工具平臺(tái)——Bioconductor,該平臺(tái)為計(jì)算生物學(xué)和生物信息學(xué)的可擴(kuò)展的軟件協(xié)同開發(fā)創(chuàng)造了條件[33]。限于篇幅,我們僅對(duì)前面的五篇文獻(xiàn)做詳細(xì)的說明,第6~15篇[34-43]高被引文獻(xiàn)按共被引頻次從大到小排列于表2。

        表2 國際生物信息學(xué)第6~15篇高被引文獻(xiàn)(共被引頻次≥250)

        3.3 關(guān)鍵節(jié)點(diǎn)文獻(xiàn)

        文獻(xiàn)節(jié)點(diǎn)中介中心性高低可反映一篇文獻(xiàn)對(duì)學(xué)科研究領(lǐng)域的樞紐作用。開展生物信息學(xué)領(lǐng)域關(guān)鍵節(jié)點(diǎn)文獻(xiàn)的探測,可找出一定時(shí)間內(nèi)該學(xué)科領(lǐng)域知識(shí)演化網(wǎng)絡(luò)中的轉(zhuǎn)折點(diǎn),這些轉(zhuǎn)折點(diǎn)的節(jié)點(diǎn)中介中心性較高,處于不同知識(shí)聚類網(wǎng)絡(luò)的連接路徑上,可將其視為該學(xué)科交叉研究領(lǐng)域的重要知識(shí)基礎(chǔ)。中心性測量為發(fā)現(xiàn)學(xué)科研究領(lǐng)域的連接關(guān)鍵點(diǎn)(演化網(wǎng)絡(luò)中的轉(zhuǎn)折點(diǎn))提供了計(jì)算方法,CiteSpace將關(guān)鍵點(diǎn)的計(jì)算測量和可視屬性進(jìn)行合并,將中介中心性Centrality≥0.3的節(jié)點(diǎn)視為關(guān)鍵點(diǎn)。設(shè)置CiteSpace參數(shù),建閥值設(shè)為top30,運(yùn)行軟件繪制近十年生物信息學(xué)領(lǐng)域關(guān)鍵節(jié)點(diǎn)文獻(xiàn)的知識(shí)圖譜,見圖5。

        圖5 國際生物信息學(xué)關(guān)鍵節(jié)點(diǎn)文獻(xiàn)知識(shí)圖譜Fig.5 Knowledge map of core literatures on international bioinformatics

        分析圖5中節(jié)點(diǎn)的中介中心性發(fā)現(xiàn),近十年國際生物信息學(xué)領(lǐng)域關(guān)鍵節(jié)點(diǎn)(Centrality≥0.3)有8個(gè)。按照節(jié)點(diǎn)中介中心性大小進(jìn)行排序,本文將此8篇[44-51]關(guān)鍵節(jié)點(diǎn)文獻(xiàn)按照中介中心性大小依次排列如表3所示。

        表3 國際生物信息學(xué)領(lǐng)域高中心度文獻(xiàn)(Centrality≥0.3)

        4結(jié)論

        本文利用信息可視化計(jì)量研究方法,從多方面對(duì)國際上近十年生物信息學(xué)研究領(lǐng)域的研究熱點(diǎn)、研究前沿及其知識(shí)基礎(chǔ)進(jìn)行可視化分析和展示,得到如下結(jié)論:

        (1)通過繪制國際生物信息學(xué)領(lǐng)域的聚類視圖,生物信息學(xué)研究高頻詞匯主要有database、identification、expression、gene-expression、protein、prediction、sequence、algorithm等,并生成5大關(guān)鍵詞子聚類;進(jìn)一步對(duì)關(guān)鍵詞主題進(jìn)行分析得出近十年國際生物信息學(xué)領(lǐng)域的研究熱點(diǎn)分別是基因組與遺傳學(xué)研究、蛋白組學(xué)研究、細(xì)胞與分子生物學(xué)研究、基因的數(shù)據(jù)挖掘分析、生物系統(tǒng)建模與仿真等。

        (2)從探測研究前沿的角度出發(fā),得出近十年國際生物信息學(xué)領(lǐng)域研究前沿,主要有功能基因組與比較基因組學(xué)、蛋白質(zhì)結(jié)構(gòu)比對(duì)與預(yù)測、分子進(jìn)化分析、生物計(jì)算等領(lǐng)域。

        (3)通過繪制近十年國際生物信息學(xué)領(lǐng)域文獻(xiàn)共被引網(wǎng)絡(luò)知識(shí)圖譜,分別對(duì)被引文獻(xiàn)進(jìn)行時(shí)間、被引頻次和中介中心性三方面的分析,得出最近十年生物信息學(xué)領(lǐng)域由9篇早期奠基性文獻(xiàn)、15篇高被引文獻(xiàn)和8篇高中心性關(guān)鍵文獻(xiàn)構(gòu)成的知識(shí)基礎(chǔ)。

        參考文獻(xiàn)

        [1]CANTOR C R,LIM H A.Electrophoresis,Supercomputing and the Hu-man genomes[M].New Jersey :World Scientific Publishing Co,1991.

        [2]張春霆. 生物信息學(xué)的現(xiàn)狀與展望 [J].世界科技研究與發(fā)展,2000,22(6):17-20.

        ZHANG Chunting.The Current Status and The Prospect of Bioinformatics[J].World Sci-tech Research & Development,2000,22(6):17-20.

        [3]OUZOUNIS C A,VALENCIA A. Early bioinformatics: the birth of a discipline-a personal view[J]. Bioinformatics,2003,19(17):2176-2190.

        [4]PATRA S K, MISHRA S.Bibliometric study of bioinformatics literature[J].Scientometrics, 2006, 67(3): 477-489.

        [5]PEREZ-IRATXETA C,ANDRADE-NAVARRO M A,WREN J D.Evolving research trends in bioinformatics[J].Briefings in Bioinformatics,2007, 8(2): 88-95.

        [6]GL?NZEL W,JANSSENS F,THIJS B.A comparative analysis of publication activity and citation impact based on the core literature in bioinformatics[J].Scientometrics,2008,79(1):109-129.

        [7]SONG M,KIM S Y,ZHANG G,et al.Productivity and influence in bioinformatics:A bibliometric analysis using PubMed central[J].Journal of the Association for Information Science and Technology,2014, 65(2):352-371.

        [8]王玉梅, 王艷.基于文獻(xiàn)計(jì)量的我國生物信息學(xué)研究發(fā)展動(dòng)態(tài)[J].科技情報(bào)開發(fā)與經(jīng)濟(jì), 2002, 12(5):1-3.

        WANG Yumei,WANG Yan. Study on Developments and Tendency of Bio-information Science in Our Country Based on Literature Metrology[J].Sci-tech Information Development & Economy,2002,12(5): 1-3.

        [9]宋茂海, 李東方.基于共詞分析的國內(nèi)生物信息學(xué)熱點(diǎn)領(lǐng)域研究[J]. 生物信息學(xué), 2014, 12(1): 46-52.

        SONG Maohai, LI Dongfang. Hot spots analysis of China's bioinformatics based on co-word analysis method[J].Chinese Journal of Bioinformatics,2014,12(1): 46-52.

        [10]種樂熹,胡德華. 生物信息學(xué)軟件研究的可視化分析[J]. 生物信息學(xué),2015,13(1):54-67.

        ZHONG Lexi, HU Dehua. Visualizing analysis of bioinformatics software research[J].Chinese Journal of Bioinformatics,2015,13(1): 46-52.

        [11]李運(yùn)景,侯漢清,薛春香,等. 可視化同被引分析技術(shù)綜述[J]. 圖書情報(bào)工作,2008,11: 22-25.

        LI Yunjing,HOU Hanqing,XUE Chunxiang,et al. Study on the Key Techniques of Co-citation Visualization[J].Library and Information Service, 2008,11: 22-25.

        [12]CHEN C M.CiteSpace II:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3): 359-377.

        [13]趙蓉英,許麗敏. 文獻(xiàn)計(jì)量學(xué)發(fā)展演進(jìn)與研究前沿的知識(shí)圖譜探析[J]. 中國圖書館學(xué)報(bào),2010,05: 60-68.

        ZHAO Rongying, XU Limin.The Knowledge Map of the Evolution and Research Frontiers of the Bibliomertrics[J]. Journal of Library Science in China,2010,05:60-68.

        [14]CHEN C M.Visualising semantic spaces and author co-citation networks in digital libraries[J]. Information Processing & Management,1999,35(3):401-20.

        [15]CHEN C M, PAUL R J.Visualizing a knowledge domain's intellectual structure[J].Computer, 2001, 34:65-71.

        [16]邱均平,呂紅. 近五年國際圖書情報(bào)學(xué)研究熱點(diǎn)、前沿及其知識(shí)基礎(chǔ)——基于17種外文期刊知識(shí)圖譜的可視化分析 [J]. 圖書情報(bào)知識(shí),2013,03: 4-15.

        QIU Junping,Lü Hong.The Hot Domains,Research Fronts and Knowledge Base of International Library and Information Visua Analysis of 17 Journals’ Knowledge Map[J].Document Information & Knowledge, 2013, 03: 4-15.

        [17]欒春娟,侯海燕,王賢文. 國際科技政策研究熱點(diǎn)與前沿的可視化分析[J]. 科學(xué)學(xué)研究,2009,02: 240-243.

        LUAN Chunjuan,HOU Haiyan,WANG Xianwen.Visualization Analysis of the Hot Domains and the Research Edge in the Field of S&T Policy[J].Studies in Science of Science, 2009, 02: 240-243.

        [18]PERSSON O. The intellectual base and research fronts of JASIS 1986-1990 [J].Journal of the American Society for Information Science, 1994, 45(1): 31-38.

        [19]趙蓉英,王菊. 圖書館學(xué)知識(shí)圖譜分析[J].中國圖書館學(xué)報(bào),2011,37(2):40-50.

        ZHAO Rongying, WANG Ju. Knowledge mapping analysis of library science[J].Journal of Library Science in China, 2011, 37(2):40-50.

        [20]NEELEMAN S B, WUNSCH C D. A general method applicable to the search for similarities in the amino acid sequence of two proteins[J]. Journal of molecular biology, 1970, 48(3): 443-453.

        [21]DEMPSTER A P,LAIRD N M,RUBIN D B.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society. Series B (Methodological), 1977,39(1):1-38.

        [22]SMITH T F,WATERMAN M S.Identification of common molecular subsequences[J].Journal of Molecular Biology,1981,147(1):195-197.

        [23]KABSCH W, SANDER C. Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features[J]. Biopolymers, 1983, 22(12): 2577-2637.

        [24]ALTSCHUL S F,GISH W,MILLER W,MYERS E W,LIPAN D J. Basic local alignment search tool[J].Journal of Molecular Biology,1990,215(3):403-410.

        [25]THOMPSON J D, HIGGINS D G, GIBSON T J. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice [J]. Nucleic Acids Research,1994,22(22):4673-4680.

        [26]MURZIN A G,BRENNER S E,HUBBARD T.SCOP: a structural classification of proteins database for the investigation of sequences and structures[J]. Journal of Molecular Biology,1995,247(4):536-540.

        [27]BENJAMINI Y, HOCHBERG Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1995,57(1): 289-300.

        [28]ALTSCHUL S F, MADDEN T L, SCHAFFER A A, ZHANG J, ZHANG Z, MILLER W, et al. Gapped BLAST and PSI-BLAST:a new generation of protein database search programs [J]. Nucleic Acids Research,1997,25(17):3389-3402.

        [29]SHBURNER M,BALL C A,BLAKE J A,BOTSTEIN D,BUTLER H,CHERRY J M,et al.Gene ontology: Tool for the unification of biology [J]. Nature Genetics, 2000, 25(1): 25-29.

        [30]BERMAN H M, WESTBROOK J, FENG Z, et al.The protein data bank[J].Nucleic Acids Research,2000,28(1):235-242.

        [31]SUBRAMANIAN A, TAMAYO P, MOOTHA V K, et al.Gene set enrichment analysis:a knowledge-based approach for interpreting genome-wide expression profiles[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(43): 15545-15550.

        [32]EISEN M B, SPELLMAN P T, BROWN P O, et al.Cluster analysis and display of genome-wide expression patterns[J].Proceedings of the National Academy of Sciences, 1998, 95(25): 14863-14868.

        [33]GENTLEMAN R C, CAREY V J, BATES D M,et al. Bioconductor:open software development for computational biology and bioinformatics [J].Genome Biology, 2004, 5(10): R80.

        [34]SHANNON P, MARKIEL A, OZIER O, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks[J].Genome Research, 2003, 13(11): 2498-2504.

        [35]TUSHER V G,TIBSHIRANI R,CHU G.Significance analysis of microarrays applied to the ionizing radiation response[J].Proceedings of the National Academy of Sciences, 2001, 98(9): 5116-5121.

        [36]GOLUB T R, SLONIM D K, TAMAYO P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537.

        [37]PURCELL S, NEALE B, TODD-BROWN K, et al. PLINK: a tool set for whole-genome association and population-based linkage analyses[J]. The American Journal of Human Genetics, 2007, 81(3): 559-575.

        [38]KANEHISA M, GOTO S. KEGG: kyoto encyclopedia of genes and genomes[J]. Nucleic Acids Research, 2000, 28(1): 27-30.

        [39]SPELLMAN P T, SHERLOCK G, ZHANG M Q, et al. Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization[J]. Molecular Biology of the Cell, 1998, 9(12): 3273-3297.

        [40]EDGAR R C. MUSCLE: multiple sequence alignment with improved accuracy and speed[C]//Computational Systems Bioinformatics Conference, 2004. CSB 2004. Proceedings. 2004 IEEE. IEEE, 2004: 728-729..

        [41]BOLSTAD B M, IRIZARRY R A, ?STRAND M, et al. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias[J]. Bioinformatics, 2003, 19(2): 185-193.

        [42]KENT W J. BLAT—the BLAST-like alignment tool[J]. Genome Research, 2002, 12(4): 656-664.

        [43]BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

        [44]LANGMEAD B,TRAPNELL C,POP M,et al.Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome Biology, 2009, 10(3): R25.

        [45]MORTAZAVI A, WILLIAMS B A, MCCUE K, et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq[J]. Nature Methods, 2008, 5(7): 621-628.

        [46]TRAPNELL C,PACHTER L,SALZBERG S L.TopHat: discovering splice junctions with RNA-Seq[J].Bioinformatics, 2009, 25(9): 1105-1111.

        [47]ANDERS S,HUBER W.Differential expression analysis for sequence count data[J]. Genome Biology, 2010, 11(10): R106.

        [48]ROBINSON M D, MCCARTHY D J, SMYTH G K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data[J]. Bioinformatics, 2010, 26(1): 139-140.

        [49]WETTENHALL J M, SMYTH G K. limmaGUI: a graphical user interface for linear modeling of microarray data[J]. Bioinformatics, 2004, 20(18): 3705-3706.

        [50]TUSHER V G,TIBSHIRANI R,CHU G.Significance analysis of microarrays applied to the ionizing radiation response[J].Proceedings of the National Academy of Sciences, 2001, 98(9): 5116-5121.

        [51]LI H,HANDSAKER B,WYSOKER A, et al.The sequence alignment/map format and SAMtools[J].Bioinformatics,2009,25(16):2078-2079.

        Visualizing analysis of international bioinformatics research

        YOU Ge,LI Yanhui*,LIU Xiang

        (SchoolofInformationManagement,CentralChinaNormalUniversity,Wuhan430079,China)

        Abstract:The current well-known information visualization software CiteSpace was used for statistical analysis and visualization for papers published in 5 high-impact international SCI journals from 2005 to 2014 in the field of bioinformatics, draw the network visualization patterns of keyword co-occurrence, bursting word co-occurrence,classic literature co-occurrence,highly cited literature co-occurrence and core literatures co-occurrence to reveal hot research topics and knowledge base of international bioinformatics for helping researchers to understand the trend of the research.

        Keywords:Bioinformatics;CiteSpace;Information visualization;Knowledge mapping;Hot topics

        中圖分類號(hào):G350

        文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1672-5565(2015)04-257-09

        doi:10.3969/j.issn.1672-5565.2015.04.09

        作者簡介:游鴿,男,碩士研究生,研究方向:生物信息學(xué)與數(shù)據(jù)挖掘;E-mail:374005361@qq.com.*通信作者:李延暉,男,教授,博士生導(dǎo)師,研究方向:生物仿真與數(shù)據(jù)挖掘;E-mail:yhlee@mail.ccnu.edu.cn.

        收稿日期:2015-07-30;修回日期:2015-11-13.

        猜你喜歡
        信息學(xué)圖譜可視化
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        雞NRF1基因啟動(dòng)子區(qū)生物信息學(xué)分析
        繪一張成長圖譜
        基于CGAL和OpenGL的海底地形三維可視化
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        初論博物館信息學(xué)的形成
        中國博物館(2018年2期)2018-12-05 05:28:50
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        miRNA-148a在膀胱癌組織中的表達(dá)及生物信息學(xué)分析
        国产精品狼人久久影院软件介绍 | 一区二区三区婷婷中文字幕| 国产伦精品一区二区三区| 久久婷婷五月综合色奶水99啪| аⅴ资源天堂资源库在线| 澳门毛片精品一区二区三区| 99久久免费中文字幕精品| 国内揄拍国内精品人妻久久| 精品国产一二三产品区别在哪| 欧美日韩另类视频| 韩国免费一级a一片在线| 日本一区三区三区在线观看| 色www永久免费视频| 久久99国产亚洲高清观看韩国| 丰满人妻中文字幕乱码| 91久久国产香蕉视频| 久久久久无码精品国产app| 亚洲影院丰满少妇中文字幕无码| 国产av一区二区三区国产福利| 国内久久婷婷六月综合欲色啪| 日本高清h色视频在线观看| 亚洲av无码片在线播放| 亚洲国产综合久久精品| 一 级做人爱全视频在线看| 久久男人av资源网站无码| 高清国产亚洲va精品| 日韩精品免费在线视频一区| 亚洲乱码一区av春药高潮| 欧洲色综合| 青青草最新在线视频观看 | 最新日本久久中文字幕| 亚洲精品一区二区国产精华液| 亚洲精品无码久久久久av麻豆 | 久久成人麻豆午夜电影| 久久综合给合久久97色| 国产av一区二区三区性入口| 国产白丝无码视频在线观看| 美女裸体无遮挡免费视频国产| 丝袜美腿人妻第一版主| 欧美成人精品三级网站| 免费精品美女久久久久久久久久|