,
人類基因組計劃的提出和完成,全面改變了生命科學的面貌,開辟了基因組學發(fā)展的新紀元[1-2]。科學家開始融合信息科學、計算機科學以及數(shù)學等學科的理論和技術,整體研究一個生物系統(tǒng)中所有生物實體(Gene、Disease、Phenotype、Chemical Compound、Protein、Drug和Virus等)的構成,以及特定條件下這些生物實體間的相互關系。這些研究對于揭示細胞內(nèi)和細胞間的作用機理、疾病標靶基因的發(fā)現(xiàn)以及新藥的研制等具有重大意義。
隨著科技的不斷進步及基因組學的迅速發(fā)展,生物醫(yī)學領域海量的新生物實體不斷被科研人員發(fā)現(xiàn)[3-4],與這些生物實體相關的知識形成了大量與人類健康密切相關的科研成果。
這些成果大都以論文形式發(fā)表,并被數(shù)字化成電子文獻。由于這些文獻都是非結構化的自然語言,因此為了獲取研究所需的實體關系知識,科研人員需要花費大量的時間和精力來閱讀數(shù)量眾多的文獻。于是,一種新的需求應運而生,那就是如何從海量的生物文獻中迅速地找到生物實體之間可能存在的關系。
文獻搜索引擎可以幫助科研人員解決部分問題。在PubMed中,我們以“diabetes[MeSH Major Topic], drug*, gene*”為檢索式查詢了討論糖尿病、基因和藥物3種生物實體關系的所有文獻,返回3 473條摘要記錄。說明存在大量探討糖尿病、基因和藥物之間關系的文獻,但靠人工閱讀無法從大規(guī)模的文獻記錄中迅速獲取相關知識。
近年來,隨著數(shù)據(jù)挖掘技術的不斷發(fā)展,批量文本的自動化處理已成為現(xiàn)實,為生物實體的挖掘提供了新的契機。不過就國內(nèi)外相關研究仍僅局限于對海量文獻中生物醫(yī)學實體的識別[5-6]。最早的生物醫(yī)學實體識別方式是基于字典,如Proux等人于1998年第一次應用英語詞典對基因和蛋白質進行了識別[7]。
基于啟發(fā)式規(guī)則的方式是早期被廣泛使用的一種方法,F(xiàn)ukuda等最早利用基于規(guī)則的系統(tǒng)判定文獻中的蛋白質名稱[8];Tsuruoka等采用啟發(fā)式規(guī)則以最小化相關術語的歧義性和變化性,實現(xiàn)了術語名稱的標準化,從而提高了查找字典的效率[9]。
基于機器學習的方式則是目前主流的方法,它主要利用統(tǒng)計方法從大量數(shù)據(jù)中估算相關參數(shù)和特征進而建立識別模型,具有客觀、移植性好等特點[10]。
隨后,生物信息領域的科研人員開始嘗試以生物醫(yī)學實體共現(xiàn)的手段從大規(guī)模的生物文本中探測隱藏的關系,并取得了一定的效果[11-14]。這種方法假設同一篇文獻中出現(xiàn)的兩個生物醫(yī)學實體之間存在某種關系,如果兩個生物醫(yī)學實體同時出現(xiàn)于多篇文獻中,則二者之間存在關系的可信度增強。然而,這些研究僅局限于同種生物實體之間的關系(如蛋白質—蛋白質)或兩種不同生物實體之間的關系(基因—蛋白質)。
為了便于研究人員迅速獲取生物實體相關知識,一些發(fā)達國家投入大量的人力、物力和財力,以人工標注的方式構建相關生物實體關系知識庫。Nucleic Acids Research (NAR)期刊在每年一度的特刊中會對全球所有高質量的、有價值的生物實體關系知識庫進行分類和描述,現(xiàn)已介紹1 552個數(shù)據(jù)庫[15],其他數(shù)據(jù)庫集合還包括MetaBase[16]和Bioinformatics Links Collection[17]等。由于這些知識庫中的知識大都以結構化的方式存儲,故在一定程度上滿足了科研人員快速獲取知識的需求。但隨之產(chǎn)生的問題是數(shù)據(jù)生產(chǎn)耗費巨大,因而增長速度緩慢[18]。有研究表明,目前僅有20%的生物醫(yī)學知識以結構化的形式存儲于生物實體關系知識庫中,剩余的80%則為非結構化數(shù)據(jù),以自由文本的形式隱藏在科學文獻中[19-21],有待挖掘。
科學計量學關注的對象主要分為兩類:一類為宏觀特征,如作者、機構、國家、期刊等,它們用于評價文獻的非內(nèi)容特征;另一類為中觀特征,如關鍵詞、題目和參考文獻等,主要用于文獻主題的分析和評價。事實上,科研文獻中還存在一種微觀特征,即概念實體,專指科研文獻中出現(xiàn)的某一事物的概念或對象,例如文獻中所使用的某一理論的名稱、某一方法的名稱或本文所研究的生物實體。文獻中的概念實體對象也是科學計量學應關注的一種文獻特征(圖1)。
由于概念實體隱藏在科研文獻中,而早期數(shù)據(jù)挖掘技術不成熟,主要依靠手工標識的方式實現(xiàn)。因此方法的推廣性較差,相關研究也較少。如有學者以“研究理論”(theory)為對象,人工對信息科學研究和家庭治療研究領域文獻中使用的基本理論進行標識,進而分析這些理論被使用的情況[22-23]。雖然有關生物實體的研究已取得一些成果,但仍局限于生物實體的識別研究和基于共現(xiàn)關系的生物實體關系研究。因此,本文擬基于科學計量方法進行生物實體評價研究,即選取科研文獻中出現(xiàn)的生物實體為研究對象,利用科學計量方法對其影響力進行評估,以期對生物實體之間的關系進行分類和預測,將其所代表的知識快速準確地展現(xiàn)給科研人員,加速科研假說的生成,加快科學研究進程。生物實體評價研究的具體方案如下。
科研文獻中生物實體的有效識別是實現(xiàn)生物實體研究的前提。傳統(tǒng)的生物實體識別方法包括基于字典、基于啟發(fā)式規(guī)則和基于機器學習等方法?;谧值涞淖R別方法受字典本身的限制,會產(chǎn)生一些假陽性和假陰性數(shù)據(jù),需引入一些簡單的規(guī)則來輔助;基于規(guī)則的識別方法由于需要人工處理,推廣性較差;基于機器學習的方法對訓練語料的規(guī)模和質量依賴性較大。故可結合3種方法開展生物實體識別:以機器學習方法為主線,將字典特征形式整合至機器學習方法的第一步(生物實體特征選擇),接著進行機器學習的第二步(采用分類方法對生物實體進行分類),最后將基于啟發(fā)式規(guī)則的方法融入機器學習方法的后期處理中。
我們基于引文分析理論提出了概念實體的“引用”關系,其實質上是通過文獻之間的引用關系建立概念實體之間的聯(lián)系,即做出如下假設:如果文獻P1引用了文獻P2(P1→P2),P1中提及了實體K1和K2,P2中提及了實體K3和K4,則認為K1“引用”了K3和K4(K1→K3、K1→K4),K2“引用”了K3和K4(K2→K3、K2→K4)(圖2)。顯然,基于大數(shù)據(jù)建立的這種“引用”關系具有一定的必然性。
與生物實體共現(xiàn)網(wǎng)絡研究相似,通過網(wǎng)絡直徑、最小路徑、密度和最大Component等網(wǎng)絡宏觀指標可研究生物醫(yī)學實體“引用”網(wǎng)絡的拓撲特征;通過K-core、Clique等網(wǎng)絡中觀指標可挖掘生物醫(yī)學實體“引用”網(wǎng)絡的社團結構;通過中心度、PageRank等網(wǎng)絡微觀指標可分析生物醫(yī)學實體之間的相互關系。此外,通過生物實體“引用”網(wǎng)絡還可以跟蹤生物實體所代表知識的流動軌跡,探索生物醫(yī)學知識轉移和擴散的規(guī)律。
我們在前期的研究中,基于上述假設構建生物信息數(shù)據(jù)庫“引用”網(wǎng)絡[24]和生物醫(yī)學實體“引用”網(wǎng)絡(Gene、Disease和Drug)[25]。對前一個網(wǎng)絡的拓撲特征和主路徑分析發(fā)現(xiàn),通過引文建立的生物醫(yī)學信息數(shù)據(jù)庫之間的關聯(lián)有助于探索數(shù)據(jù)庫的使用規(guī)律;對后一個網(wǎng)絡中生物醫(yī)學實體按照中心度指標進行排序,發(fā)現(xiàn)該方法能夠檢測出絕大多數(shù)在Comparative Toxicogenomic Database數(shù)據(jù)庫中手工注釋的生物醫(yī)學實體關系。
圖2 通過文獻引用建立的生物實體"引用"關系
科學計量學所關注科研文獻中的宏觀特征和中觀特征大都以題錄形式儲存于文獻數(shù)據(jù)庫,其所代表的均為文獻的外顯知識,可免費獲取。由于概念實體大都蘊藏于文獻的全文之中,文獻的內(nèi)含知識只有通過文本挖掘方可獲取。此外,概念實體與文獻中觀特征最大的區(qū)別在于其專指性更強。對生物實體這一微觀特征對象的評價擴展了科學計量學的內(nèi)涵,有利于該學科理論的進一步發(fā)展和完善。
科學計量方法為生物實體等非結構化數(shù)據(jù)提供了一種“自上而下(Top-down)”的管理方式,即從海量文本入手分析,一方面幫助生物醫(yī)學科研人員快速準確地發(fā)現(xiàn)隱藏于文獻中的生物實體關系,通過合理假設、實驗驗證,大大節(jié)省知識發(fā)現(xiàn)的周期;另一方面對生物知識的流動、轉移、擴散和利用等規(guī)律進行深入探索。因而,生物實體評價開辟了知識管理方式研究的全新視角,并幫助生物醫(yī)學科研人員迅速、準確地獲取隱藏于海量科學文獻文本中的相關生物醫(yī)學知識,加快了科研假說的提出,從而進一步推動生物醫(yī)學相關學科的發(fā)展。