宋茂海,李東方
(1.第二軍醫(yī)大學基礎部生物信息學教研室,上海200433;2.第二軍醫(yī)大學基礎部計算機教研室,上海200433)
利用信息計量學對某一領域的論文進行統(tǒng)計分析,歸納出該學科的研究分類、結構與范式,對于規(guī)劃學科布局,促進學科發(fā)展,調整科研方向具有重要的參考價值[1]。共詞分析作為信息計量方法的一種,通過主題分析能直觀地揭示學科微觀結構,其原理是當兩個學科領域內的關鍵詞在一篇文獻中同時出現時,表明這兩個詞之間具有一定的內在關系,出現的次數越多,表明它們的關系越密切[2-3]。在此基礎上,利用因子分析、聚類分析和多維尺度分析等多元分析方法,按照關鍵詞之間的“距離”將某一領域內關鍵詞加以分類,從而揭示學科領域的發(fā)展與演進趨勢、課題研究的擴散與傳播關系[4-6]。本文采用共詞分析方法,通過分析期刊論文的關鍵詞,考察近十年來我國生物信息學的研究分類和發(fā)展趨勢[7]。
本文選擇中國知網學術期刊網絡出版總庫、中國重要會議論文全文數據庫、國際會議論文全文數據庫和中華醫(yī)學會/中國醫(yī)師協(xié)會全文期刊庫為數據源,以“關鍵詞”為檢索途徑,以“生物信息學”為檢索詞,采用“精確”檢索方式,共檢索到1998~2013年3月相關期刊論文5 707篇(去除無關鍵詞的論文及會議通知、征稿啟示等文獻),論文的年份分布見表1。
表1 1998~2013年3月生物信息學文獻年份分布Table 1 Distribution of bioinformatics articles between 1998 and 2013
關鍵詞作為一篇論文的元數據,是文章核心內容的濃縮和提煉。對5 707篇期刊論文進行數據統(tǒng)計,共提取關鍵詞27 402個。去除不參與后期分析的“生物信息”、“生物信息學”關鍵詞,合并“蛋白質組”、“蛋白質組學”,“miRNA”、“microRNA”等同義關鍵詞,按詞頻由高到低排序,選擇前40個關鍵詞作為分析對象(見表2)。這40個高頻關鍵詞共累計出現3 891次,占論文總數的68.2%,在一定程度上能體現國內生物信息學的研究現狀。
利用ROST數據挖掘軟件對40個關鍵詞進行兩兩共詞檢索,統(tǒng)計其在所有論文中同時出現的次數,形成一個40×40的共詞矩陣,對角線上的數值為該關鍵詞在所有論文中出現的次數,非對角線上的數值表示兩個關鍵詞共同出現在同一篇論文中的次數(見表3、表4)。
表2 1998~2013年生物信息學文獻高頻關鍵詞表Table 2 High frequency keywords sheet of bioinformatics between 1998 and 2013
表3 生物信息學文獻高頻關鍵詞共詞矩陣(部分)Table 3 Co-word matrix of bioinformatics high frequency keywords
為了消除頻次懸殊造成的影響,用Ochiia相似系數將共詞矩陣轉換成相關矩陣[8]。即將共詞矩陣中的每個數值都除以與之相對行列的兩個詞頻總數乘積的平方根。
表4 生物信息學文獻高頻關鍵詞相關矩陣(部分)Table 4 Correlation matrix of bioinformatics high frequency keywords
將相關矩陣的數據導入SPSS 19.0,進行多元統(tǒng)計分析,包括因子分析、聚類分析和多維尺度分析。
2.3.1 因子分析
因子分析通過研究眾多變量之間的內部依賴關系,探求觀測數據中的基本結構,并以最少的信息丟失將多個變量化為少數幾個綜合變量,原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。將表4的相關矩陣的數據導入SPSS,選擇主成分法(Principal components)進行因子分析得到各行的特征根、方差(見表5)和碎石圖(見圖1)。
通過因子矩陣的總方差表,可見有18個主成分被提取,這些主成分累積解釋全部信息的61.17%。從載荷因子分布情況來看,因子分析結果中的關鍵詞分布比較離散,若嚴格按照載荷因子大于1的條件分類,則類別將多達18個,不利于分析討論;若按圖1曲線的拐點位置來分類,則類別只有4個,也不便于展開討論。因此,綜合因子矩陣和碎石圖分析結果[9-10],結合其他高頻關鍵詞的特點,選取因子載荷大于1.3的主成分進行分類,可將40個關鍵詞歸為7類。
表5 生物信息學文獻相關矩陣的因子分析Table 5 Factor analysis of correlation matrix of bioinformatics
圖1 生物信息學文獻高頻關鍵詞碎石圖Fig.1 Scree plot of bioinformatics high frequency keywords
2.3.2 聚類分析
聚類分析是一組將研究對象分為相對同質的群組的統(tǒng)計分析技術,其基本思想是把相似程度較大的變量聚合為一類,把另外一些相似的變量聚合為另一類,關系密切的聚合到一個小的分類,關系疏遠的聚合到一個大的分類,直到把所有的變量都聚合完畢,最后再把整個分類系統(tǒng)畫成一張譜系圖,用它把所有變量間的親疏關系表示出來[11]。圖2是生物信息學高頻關鍵詞聚類分析樹形圖,顯示了各關鍵詞之間的關聯程度,上端0~25的代表各類之間的距離,越早被聚為一類的關鍵詞之間的距離越近,關聯越緊密。
圖2 生物信息學文獻高頻關鍵詞聚類分析樹形圖Fig.2 Cluster dendrogram of bioinformatics high frequency keywords
依據聚類過程同時參考因子分析結果,本研究所用的高頻關鍵詞可分為以下7類:
(1)蛋白質組學分析。蛋白質組學直接研究編碼基因翻譯出的蛋白質產物,比轉錄組學注釋基因組獲得的結果更直接。蛋白質特有的翻譯后處理現象使得蛋白質組學在提供基因表達產物、確認和校正編碼基因、解析翻譯后處理現象,以及發(fā)現新的編碼基因及其規(guī)律上擁有先天的優(yōu)勢[12]。
(2)系統(tǒng)生物學分析。系統(tǒng)生物學是研究基因和蛋白質的一種新方法,和傳統(tǒng)生物科學研究單個基因或者蛋白質不同,系統(tǒng)生物學研究的是生物信息(DNA、mRNA、蛋白質、功能蛋白、生物信息途徑、生物信息網絡)在所有水平上復雜的相互作用,重點考察這些生物信息是如何一起工作的[13]。
(3)功能基因組學分析?;蚪M學的研究已從建立高分辨遺傳、物理和轉錄圖譜為主的結構基因組學轉向功能基因組學。功能基因組學主要研究DNA序列變異性、基因組表達調控、模式生物體和生物信息平臺與數據庫構建[14]。
(4)microRNA研究分析。microRNA主要與靶mRNA分子的3’非編碼區(qū)的不完全互補序列結合,通過靶向降解mRNA或抑制mRNA翻譯,達到基因沉默的調控效果[15]。近年來,隨著測序技術的發(fā)展和多種分子生物學實驗手段的結合,越來越多的microRNA相繼被發(fā)現,相應的表達變化、作用機制等后續(xù)研究正在迅速興起。
(5)基因克隆表達分析?;蚩寺〖夹g把來自不同生物的基因同有自主復制能力的載體DNA在體外人工連接,構建成新的重組DNA,然后送入受體生物中去表達,從而產生遺傳物質和狀態(tài)的轉移和重新組合,再進行基因相關結構、功能的研究。
(6)電子克隆研究。電子克隆是利用生物信息學手段進行基因克隆的新方法,它借助計算機的高速運算能力,通過EST或基因組的序列組裝和拼接,利用RT-PCR方法快速獲得新基因,具有投入低、速度快、針對性強等優(yōu)點[16]。電子克隆技術成為基因工程中獲得新基因的重要手段,對開展人類基因功能的研究,在基因水平上預防疾病具有重要的意義和價值。
(7)基因的數據挖掘分析。高通量測序帶來了海量的核酸及蛋白質序列數據,人們很難直觀地解讀這些高維數據中的信息[17-18]。利用計算機科學及應用數學知識,通過降維、關聯分析、分類和識別等數據處理方法,更好地理解基因表達譜、預測基因功能、分子結構和優(yōu)化先導分子等。
2.3.3 多維尺度分析
多維尺度分析是一種通過二維空間展現關鍵詞之間的聯系,利用平面距離來反映關鍵詞之間的相似程度,同時又保留數據對象間原始關系的數據分析方法[19]。根據因子矩陣,利用SPSS進行多維尺度分析并加以整理得出多維尺度圖,如圖3所示。圖中,有高度相似性的點聚集到一起形成一類,并且越居中的關鍵詞與其他關鍵詞的聯系越多,在該領域中的地位越核心。
分析生物信息學高頻關鍵詞在多維尺度圖上的分布情況。其中,“蛋白質相互作用”關鍵詞靠近圖形中心,說明蛋白質組學是生物信息學研究的熱點方向。另外,系統(tǒng)生物學和比較基因組學、基因芯片、計算生物學研究仍將是今后的熱點和方向。
圖3 生物信息學文獻高頻關鍵詞多維尺度圖Fig.3 Multidimensional scale diagram of bioinformatics high frequency keywords
本文在提煉生物信息學期刊論文40個高頻關鍵詞的基礎上,運用共詞分析方法,通過因子分析,聚類分析和多維尺度分析,探討了生物信息學研究的結構、關注的熱點和研究趨勢,得出該領域研究頗受關注的7個類別。由于論文發(fā)表的時滯性,特別是國內和國外研究熱點的時滯性,單純通過關鍵詞列表進行統(tǒng)計分析存在一定的偏差。另外,有些新出現的關鍵詞,因出現頻次較低,未能引起共詞分析方法的“注意”,所以分析時還要結合時間序列,才能更精確地預測未來的研究熱點。
References)
[1] 邱均平.信息計量學(九):第九講文獻信息引證規(guī)律和引文分析法[J].情報理論與實踐,2001,24(3):236-240.QIU Junping.Bibliometrics(IX):Document Information Law Citations and Citation Analysis [J].Information Studies:Theory& Application,2001,24(3):236-240.
[2] 郭文姣,歐陽昭連,李陽,等.應用共詞分析法揭示生物醫(yī)學工程領域的研究主題[J].中國生物醫(yī)學工程學報,2012,31(4):545-551.GUO Wenjiao,OUYANG Zhaolian,LI Yang,et al.Revealing Theme Structure of Biomedical Engineering UsingCo-Word Analysis [J]. Chinese Journalof Biomedical Engineering,2012,31(4):545-551.
[3] 朱安青,周金元.我國科技查新研究熱點及趨勢分析——共詞分析視角[J].圖書情報研究,2009,2(4):45-49.ZHU Anqing,ZHOU Jinyuan.Co-Word Analysis of Sci-Tech Novelty Retrieval Research in China[J].Library &Information Studies,2009,2(4):45-49.
[4] LIN S M,MCCONNELL P,JOHNSON K F,et al.MedlineR:an open source library in R for Medline literature data mining[J].Bioinformatics,2004,20(18):3659-3661.
[5] KRALLINGER M,ERHARDT R A A,VALENCIA A.Text-mining approaches in molecular biology and biomedicine[J].Drug discovery today,2005,10(6):439-445.
[6] ZHANG J,JASTRAM I.A study of metadata element cooccurrence[J].Online Information Review,2006,30(4):428-453.
[7] 朱杰.生物信息學的研究現狀及其發(fā)展問題的探討[J],生物信息學,2005,3(4):185-188.ZHU Jie.Bioinformatics'Status in Quo and Its Development in the Future[J].China journal of Bioinformatics,2005,3(4):185-188.
[8] 許梅華.基于共詞分析的近年國內發(fā)展心理學研究熱點分析[J].現代情報,2010,30(8):171-175.XU Meihua. Hot Spots Analysis of China' s Developmental Psychology Based on Co-Words Analysis Method[J].Journal of Modern Information,2010,30(8):171-175.
[9] 張晗,韓爽,白星,等.利用遺傳算法確定醫(yī)學文獻的研究熱點[J].現代圖書情報技術,2011,(3):57-61.ZHANG Han,HAN Shuang,BAI Xing,et al.Application of Genetic Algorithm to Identify Hot Topics from Medical Literature[J].New Technology of Library and Information Service,2011,(3):57-61.
[10]刁雪濤,張小芳,宋潔,等.生物信息學研究進展[J].安徽農學通報,2008,14(22):160-162.DIAO Xuetao,ZHANG Xiaofang,SONG Jie,et al.Advances in Bioinformatics Research[J].Anhui Agriculture Science Bulletin,2008,14(22):160-162.
[11]曹利霞,葛淼,何進偉.主成分分析法評估地理分布對成年人肺順應性參考值的影響[J].第二軍醫(yī)大學學報,2009,30(1):35-39.CAO Lixia,GE Miao,HE Jinwei.Principal Component Analysis of Geographic Influence on Adult Lung Compliance[J].Academic Journal of Second Military Medical University,2009,30(1):35-39.
[12]張昆,王樂珩,遲浩,等.蛋白質基因組學:運用蛋白質組技術注釋基因組[J].生物化學與生物物理進展,2013,40(4):297-308.ZHANG Kun,WANG Leheng,CHI Hao,et al.Proteogenomics:Improving Genomes Annotation by Proteomics[J].Progress in Biochemistry and Biophysics,2013,40(4):297-308.
[13]資治科,孫之榮.系統(tǒng)生物學:面向系統(tǒng)的生物學研究[J].系統(tǒng)工程理論與實踐,2005,(2):47-55.ZI Zhike, SUN Zhirong. SystemsBiology:Systemoriented Biological Research[J].Systems Engineering-Theory& Practice,2005,(2):47-55.
[14] STEIN L.Genome annotation:from sequence tobiology[J].Nat Rev Genet,2001,2(7):493-503.
[15]趙海蘋,羅玉敏.微波 RNA-144的研究進展[J].首都醫(yī)科大學學報,2013,34(1):80-85.ZHAO Haiping,LUO Yumin.Progress in Studies of MicroRNA-144-Associated Diseases and Related Mechanism[J].Journal of Capital Medical University,2013,34(1):80-85.
[16]王冬冬,朱延明,李勇,等.電子克隆技術及其在植物基因工程中的應用[J].東北農業(yè)大學學報,2006,37(3):403-408.WANG Dongdong, ZHU Yanming, LI Yong, et al.Application of in Silico Cloning Technique in Plant Gene Engineering [J]. JournalofNortheastAgricultural University,2006,37(3):403-408.
[17]黃子夏,柯才煥,陳軍.大規(guī)模GO注釋的生物信息學流程[J].廈門大學學報(自然科學版),2012,51(1):139-143.HUANG Zixia,KE Caihuan,CHEN Jun.Bioinformatics Procedure of Large-Scale GO Annotation [J].Journal of Xiamen University(Natural Science),2012,51(1):139-143.
[18] BRENT M R.Genome annotation past,present and future:how to define an ORF at each locus.Genome Research.2005,15(12):1777-1786.
[19]趙守盈,呂紅云.多維尺度分析技術的特點及幾個基礎問題[J].中國考試,2010,(4):13-19.ZHAO Shouying,Lü Hongyun.The Characteristic and SeveralBasic Problem ofMultidimensionalScaling Analysis[J].China Examinations,2010,(4):13-19.