,, , ,
目前,癌癥已成為威脅人類健康最危險(xiǎn)的殺手之一。中國癌癥統(tǒng)計(jì)報(bào)告指出,2015年中國有429.2萬例新發(fā)腫瘤病例和281.4萬例死亡病例,且發(fā)病率和死亡率還在不斷上升,癌癥已經(jīng)成為最重要的健康問題之一[1],其相關(guān)領(lǐng)域的研究也受到了越來越廣泛的關(guān)注。癌癥和腫瘤基因圖譜(The Cancer Genome Atlas,TCGA)計(jì)劃的提出加速了高通量癌癥基因組數(shù)據(jù)資源的產(chǎn)生,面對大量非結(jié)構(gòu)化的數(shù)據(jù)資源,如何從中獲取有價(jià)值的信息和潛在的關(guān)系變得至關(guān)重要,從大規(guī)模自由文本中自動(dòng)獲取、挖掘有意義的知識(shí)是一項(xiàng)迫切的任務(wù)。雖然目前已經(jīng)有很多文本挖掘、命名實(shí)體識(shí)別的技術(shù)和工具,自動(dòng)識(shí)別也不再是問題,但這些工具和方法各有利弊,并不能完全滿足實(shí)際需要。
本文主要圍繞癌癥基因組數(shù)據(jù)資源、高通量癌癥基因組數(shù)據(jù)挖掘以及特異癌癥基因描述文本提取與命名實(shí)體識(shí)別展開。
癌癥的發(fā)生是由基因變異導(dǎo)致的,癌癥基因組數(shù)據(jù)的分析和利用成為解決癌癥問題的基礎(chǔ)[2]。癌癥基因組學(xué)計(jì)劃是一個(gè)公共項(xiàng)目,旨在發(fā)現(xiàn)全面的癌癥基因組測序數(shù)據(jù)集,以幫助提高癌癥診斷方法和治療標(biāo)準(zhǔn),并最終達(dá)到預(yù)防癌癥的目的[3]。目前,基于已有的數(shù)據(jù)集,研究者做了大量的分析和挖掘工作[4-7]。另外,為了幫助科研人員從高通量癌癥基因組數(shù)據(jù)中獲取有價(jià)值的信息,開展了大量癌癥基因組數(shù)據(jù)挖掘工具的研發(fā)。搜索引擎Zodiac利用貝葉斯圖形模型與似然模型相結(jié)合的分析方法,通過對高通量TCGA癌癥基因組數(shù)據(jù)的挖掘研究,從而返回特異基因及其拷貝數(shù)、基因表達(dá)、甲基化、蛋白質(zhì)表達(dá)等信息[8]。目前,Zodiac已包含大約2億個(gè)基因網(wǎng)絡(luò),所有相互作用網(wǎng)絡(luò)的統(tǒng)計(jì)推理都是基于癌癥基因組數(shù)據(jù),它可以幫助我們了解基因在腫瘤疾病中的作用及基因之間的相互作用等,進(jìn)而發(fā)現(xiàn)潛在的藥物靶標(biāo)、遺傳畸變等。
面對從高通量癌癥基因組學(xué)數(shù)據(jù)挖掘出來的特異基因和基因變異,需要借助文本描述和注釋,以幫助腫瘤研究人員解讀挖掘結(jié)果[9]。借助文本挖掘技術(shù)和已有的生物醫(yī)學(xué)主題詞表、數(shù)據(jù)庫等知識(shí)才能快速發(fā)現(xiàn)有價(jià)值的關(guān)鍵信息[10-11]。生物醫(yī)學(xué)文本挖掘是從無結(jié)構(gòu)化文本中定位出具有特定語義類型的片段(如疾病、基因、藥物命名實(shí)體識(shí)別),并且識(shí)別特定語義關(guān)系(如疾病的診斷基因標(biāo)志物),生物醫(yī)學(xué)文本挖掘技術(shù)包括文本檢索、命名實(shí)體識(shí)別、關(guān)系提取、文本摘要、問答系統(tǒng)等[12-13]。命名實(shí)體識(shí)別是指從文本中識(shí)別出專有名稱和特定類型的實(shí)體,如疾病和化學(xué)藥物的名稱等,命名實(shí)體識(shí)別技術(shù)是信息抽取、機(jī)器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分,也是本文采用的主要技術(shù)手段[14-15]。
2006年,美國啟動(dòng)了TCGA計(jì)劃,試圖通過基因組分析技術(shù),特別是采用大規(guī)模的基因組測序數(shù)據(jù),將人類全部癌癥的基因組變異圖譜繪制出來,并進(jìn)行系統(tǒng)分析,進(jìn)而發(fā)現(xiàn)新的診斷和治療方法。TCGA是以基因組為基礎(chǔ)的研究計(jì)劃,通過廣泛的合作,了解與病理機(jī)制相關(guān)的基因組變化,以及惡性腫瘤形成、生長、轉(zhuǎn)移等的生物學(xué)基礎(chǔ),加速對癌癥早期診斷及治療的步伐,有效防止癌癥的發(fā)生[16]。本文通過對本質(zhì)、特性以及基因之間的關(guān)聯(lián)關(guān)系等功能描述信息進(jìn)行研究,如發(fā)現(xiàn)有價(jià)值的潛在信息。
近年來,乳腺癌已經(jīng)成為困擾女性健康的重要因素,乳腺癌的發(fā)病人數(shù)和死亡人數(shù)都在不斷增加,引起了社會(huì)各界的廣泛關(guān)注。因此,如何盡快找到與乳腺癌相關(guān)的基因,并從中發(fā)現(xiàn)診斷、治療乳腺癌的方法非常迫切。Zodiac通過對高通量癌癥基因組學(xué)數(shù)據(jù)的分析研究,發(fā)現(xiàn)了一組與癌癥顯著相關(guān)的基因,并從TCGA相關(guān)的高通量開放數(shù)據(jù)庫中獲取到一系列權(quán)威的基因功能描述文本,其中包括乳腺癌相關(guān)的基因,如BCAR3、BEX2等。面對大量非結(jié)構(gòu)化的自由文本,通過系統(tǒng)的文本挖掘與注釋方法才能快速、有效地挖掘出對癌癥診斷和治療有意義的文本片段。本文從TCGA的高通量數(shù)據(jù)集中共獲取了11 821條癌癥相關(guān)基因數(shù)據(jù),包括基因名稱(Gene Name)和對該基因的功能描述(Gene Summary)。以乳腺癌相關(guān)的兩個(gè)基因BCAR3和BEX2為例,其基因功能描述文本分別如圖1和圖2所示,其中包含疾病名稱(breast cancer、glioma)及相關(guān)的藥物名稱(estrogen、tamoxifen)、基因名稱(gene3)和蛋白質(zhì)名稱(CDC48)等信息。
圖1 BCAR3 - 乳腺癌相關(guān)基因數(shù)據(jù)樣
圖2 BEX2 - 乳腺癌相關(guān)基因數(shù)據(jù)樣
以上述基因功能描述文本為數(shù)據(jù)集,從中進(jìn)行疾病、藥物命名實(shí)體等的分析和挖掘,以幫助癌癥研究者更好地發(fā)現(xiàn)診斷癌癥的方法和治療癌癥的藥物。
本文基于上述高通量癌癥基因組數(shù)據(jù)和生物醫(yī)學(xué)領(lǐng)域科技詞表、數(shù)據(jù)庫等,應(yīng)用生物醫(yī)學(xué)領(lǐng)域文本挖掘、分析等方法,準(zhǔn)確、高效地識(shí)別出關(guān)鍵的疾病和化學(xué)藥物信息,經(jīng)過規(guī)范化的分析處理來直觀、可視化地展示結(jié)果,從而極大地方便相關(guān)研究人員發(fā)現(xiàn)有價(jià)值的疾病、藥物以及基因之間的關(guān)系?;蚬δ苊枋鑫谋緮?shù)據(jù)的處理流程如圖3所示。
圖3 基因功能描述文本的數(shù)據(jù)處理流程
首先,從海量TCGA相關(guān)的癌癥基因組學(xué)數(shù)據(jù)中獲取到一系列基因功能描述文本,并通過疾病、藥物命名實(shí)體識(shí)別工具識(shí)別出有效的疾病、藥物命名實(shí)體;其次,針對疾病和藥物命名實(shí)體,分別通過規(guī)范化處理方法進(jìn)行處理;第三,利用語義分析和多角度的統(tǒng)計(jì)分析方法分別得到語義分析結(jié)果(實(shí)體類別)和統(tǒng)計(jì)分析結(jié)果(特征值、頻率)信息;最后,使用可視化的方法直觀展示上述分析結(jié)果。
目前,文本挖掘的開源工具有很多,但大多只適用于特定的應(yīng)用場景,且一般會(huì)有其獨(dú)特的格式要求,很難直接滿足特定需求。本文應(yīng)用生物醫(yī)學(xué)命名實(shí)體識(shí)別技術(shù)識(shí)別自由文本中基因相關(guān)的疾病和藥物[17-19],使用由美國國立醫(yī)學(xué)圖書館(NCBI)開發(fā)的命名實(shí)體識(shí)別工具[20-22],針對疾病和化學(xué)藥物的工具分別為DNorm-0.0.6和tmChemM1-0.0.2。以上述基因功能描述樣本BCAR3和BEX2為例,分別介紹疾病和藥物命名實(shí)體識(shí)別結(jié)果。
通過對上述癌癥基因文本數(shù)據(jù)集進(jìn)行疾病命名實(shí)體的識(shí)別,共識(shí)別出11 502個(gè)疾病實(shí)體?;駼CAR3和BEX2的疾病命名實(shí)體識(shí)別結(jié)果如圖4所示,每一行代表識(shí)別出的一個(gè)疾病實(shí)體,包含的信息有基因名稱(Official Symbol)、疾病在該基因文本中出現(xiàn)的起始位置(Start Position)和結(jié)束位置(End Position)、疾病術(shù)語(Disease Mention)、實(shí)體類型(Entity Type)和實(shí)體的概念I(lǐng)D(Concept ID)。
圖4 BCAR3、BEX2疾病命名實(shí)體識(shí)別結(jié)果
通過對上述癌癥基因文本數(shù)據(jù)集進(jìn)行藥物命名實(shí)體的識(shí)別,共識(shí)別出13 024個(gè)藥物實(shí)體。圖5表示基因BCAR3和BEX2的藥物命名實(shí)體識(shí)別結(jié)果。
圖5 BCAR3、BEX2藥物命名實(shí)體識(shí)別結(jié)果
由上述命名實(shí)體識(shí)別工具識(shí)別出的結(jié)果中存在大量冗余信息,缺乏去噪、規(guī)范化等處理,也未對各術(shù)語出現(xiàn)的頻率、關(guān)聯(lián)關(guān)系等進(jìn)行統(tǒng)計(jì)和分析,尚不能滿足項(xiàng)目和后續(xù)研究的需要。因此,為了得到更準(zhǔn)確、更有價(jià)值的疾病和藥物命名實(shí)體識(shí)別結(jié)果,有必要通過一系列后處理工作來完善結(jié)果。
對于疾病命名實(shí)體識(shí)別,我們對從上述大量基因描述文本中識(shí)別出所有疾病相關(guān)的術(shù)語進(jìn)行規(guī)范化處理,即映射至醫(yī)學(xué)主題詞表MeSH(Medical Subject Headings, https://www.nlm.nih.gov/mesh/ )。此外,我們還提供了相關(guān)疾病的特征信息,如術(shù)語的頻率、該術(shù)語總共出現(xiàn)在幾個(gè)基因描述文本中、術(shù)語是否與癌癥相關(guān)等。
具體處理步驟如下:如果縮略術(shù)語在基因描述文本中有全名,則將概念I(lǐng)D對應(yīng)的標(biāo)準(zhǔn)名稱賦予該術(shù)語,以保證結(jié)果中同一概念I(lǐng)D對應(yīng)的名稱全部一致,且都為標(biāo)準(zhǔn)名稱;如果在基因描述文本中找不到該縮略術(shù)語的全名,并且沒有相應(yīng)的概念I(lǐng)D信息或ID為-1,則刪除該術(shù)語對應(yīng)的結(jié)果;如果在基因描述文本中找不到該縮略術(shù)語的全名,但是中間結(jié)果中含有相應(yīng)的概念I(lǐng)D信息,則降低該術(shù)語的頻率;將所有概念I(lǐng)D為OMIM(Online Mendelian Inheritance in Man,http://omim.org/)的術(shù)語映射至MeSH詞表,并根據(jù)CTD疾病詞典將概念I(lǐng)D與全名進(jìn)行映射。經(jīng)過后處理,識(shí)別出的疾病術(shù)語均被映射到相應(yīng)的概念名稱(ConceptName)如圖6所示,疾病術(shù)語“Breast tumors”“breast cancers”“Breast cancer”“breast cancer”都被映射至“Breast Neoplasms”,“tumor”和“glioma”分別被映射到標(biāo)準(zhǔn)名稱“Neoplasms”和“Glioma”。
圖6 疾病全名映射
對于藥物命名實(shí)體識(shí)別,我們對從上述基因描述文本中識(shí)別出的所有藥物相關(guān)的術(shù)語進(jìn)行規(guī)范化處理映射至醫(yī)學(xué)主題詞表MeSH,同樣提供了如術(shù)語頻率、是否與藥物相關(guān)等特征信息。具體處理步驟如下:如果縮略術(shù)語在基因描述文本中有全名,則將概念I(lǐng)D對應(yīng)的標(biāo)準(zhǔn)名稱賦予該術(shù)語,以保證結(jié)果中同一概念I(lǐng)D對應(yīng)的名稱全部一致,且都為標(biāo)準(zhǔn)名稱;如果在基因描述文本中找不到該術(shù)語的全名,并且沒有相應(yīng)的概念I(lǐng)D信息或ID為-1,則刪除該術(shù)語對應(yīng)的結(jié)果;根據(jù)CTD藥物詞典,將概念I(lǐng)D與全名進(jìn)行映射。經(jīng)后處理,識(shí)別出的疾病術(shù)語均被映射到相應(yīng)的概念名稱(ConceptName)如圖7所示,藥物術(shù)語“estrogens”和“estrogen”被映射至“Estrogens”,“tamoxifen”和“tyrosine”分別被映射到標(biāo)準(zhǔn)名稱“Tamoxifen”和“tyrosine”。
圖7 藥物全名映射
標(biāo)簽云(tag cloud)是一種展示關(guān)鍵詞的新型可視化方法,可根據(jù)標(biāo)簽的權(quán)重大小區(qū)分其重要程度。一般來說權(quán)重越大的標(biāo)簽,在標(biāo)簽云中的字體就會(huì)越大、視覺效果會(huì)越好,也就會(huì)更容易被用戶所關(guān)注。標(biāo)簽的可視化屬性體現(xiàn)不同的權(quán)重程度,可以通過對云中標(biāo)簽可視化屬性的操作對用戶瀏覽產(chǎn)生一定的導(dǎo)向作用,把用戶的關(guān)注點(diǎn)吸引到熱門字段。本文使用了標(biāo)簽云生成工具對識(shí)別出的疾病和藥物命名實(shí)體進(jìn)行了可視化展示,并應(yīng)用于Zodiac系統(tǒng)中,為用戶提供更方便、更直觀的體驗(yàn)。在上述命名實(shí)體識(shí)別工具和后處理的基礎(chǔ)上,可根據(jù)不同實(shí)體出現(xiàn)的頻次高低決定其重要與否,選擇頻次較高的部分實(shí)體作為標(biāo)簽內(nèi)容,讓用戶能快速發(fā)現(xiàn)并了解熱門標(biāo)簽——與基因相關(guān)的疾病和藥物。
經(jīng)過疾病命名實(shí)體識(shí)別和規(guī)范化處理分析,我們首先獲取了每個(gè)基因功能描述文本中的所有疾病實(shí)體,并進(jìn)一步得出了實(shí)體所屬類別、是否與癌癥相關(guān)、出現(xiàn)的次數(shù)及頻率等,進(jìn)而得到規(guī)范化的疾病命名實(shí)體識(shí)別結(jié)果。最終結(jié)果中包含的具體信息有概念名稱(ConceptName)、概念I(lǐng)D(ConceptID)、基因名稱(GeneName)、術(shù)語(Mention)、所屬類別(Category)、是否癌癥相關(guān)(IsCancerRelated)、基因次數(shù)(GeneCount)、出現(xiàn)頻次(OverallFreq.)、詞頻(TF)。
其中,概念I(lǐng)D是從MeSH主題詞表中獲取的,并對同一ID所對應(yīng)的不同形式術(shù)語進(jìn)行規(guī)范化處理,得到統(tǒng)一的概念名稱;基因名稱是指疾病術(shù)語的出處所在;術(shù)語是實(shí)體在基因文本中的原始描述,含縮略詞、同義詞等,根據(jù)該實(shí)體的術(shù)語類型和所屬類別判斷是否與癌癥相關(guān),相關(guān)為“1”,不相關(guān)則為“0”;基因次數(shù)是計(jì)算該術(shù)語總共出現(xiàn)在了多少個(gè)基因文本中,可以在一定層面上說明該術(shù)語的重要程度;出現(xiàn)頻次則為該術(shù)語在所有的基因文本中總出現(xiàn)的次數(shù);詞頻的本義是指某一個(gè)詞在某文件中出現(xiàn)的次數(shù),是一種用于文本挖掘的常用技術(shù),用以評估一個(gè)詞語對于某一文本或文本集的重要程度,詞頻越高則越重要,本文中詞頻的計(jì)算則同時(shí)考慮了出現(xiàn)在某一文本中的所有實(shí)體的總數(shù)和包含該實(shí)體的文本個(gè)數(shù)這兩個(gè)因素,先計(jì)算每個(gè)基因文本中某術(shù)語出現(xiàn)的次數(shù)除以該基因中識(shí)別出的術(shù)語總數(shù),再將出現(xiàn)該術(shù)語的所有情況進(jìn)行相加,得到該概念的詞頻。如公式1所示,其中n為包含該實(shí)體的文本個(gè)數(shù),Nk為該術(shù)語在某一文本中出現(xiàn)的次數(shù),Sk為該術(shù)語所在文本中識(shí)別出的實(shí)體總數(shù)。
BCAR3和BEX2的處理結(jié)果如表1所示。其中,基因BCAR3 的功能描述文本中共識(shí)別出4個(gè)與癌癥相關(guān)的實(shí)體,且均為乳腺癌,能夠在一定程度上表明該基因與乳腺癌密切相關(guān),進(jìn)而方便癌癥研究者從中發(fā)現(xiàn)診斷和治療乳腺癌的有效方法?;駼EX2則包含三個(gè)不同的實(shí)體,且都與癌癥相關(guān),研究者可以從中探索三者之間是否存在潛在的關(guān)聯(lián)關(guān)系,同樣能夠?yàn)榉乐伟┌Y提供有力依據(jù)。另外,不同概念實(shí)體出現(xiàn)的頻次、頻率等結(jié)果也可能是研究者挖掘顯著基因和實(shí)體的關(guān)鍵信息。
表1 規(guī)范化處理得到的疾病命名實(shí)體識(shí)別結(jié)果
與疾病命名實(shí)體處理類似,我們得到的藥物相關(guān)結(jié)果包括概念名稱(ConceptName)、概念I(lǐng)D(ConceptID)、基因名稱(GeneName)、術(shù)語(Mention)、術(shù)語類型(MentionType)、藥物數(shù)據(jù)庫ID(DrugBankID)、是否與藥物相關(guān)(IsDrugRelated)、基因次數(shù)(GeneCount)、出現(xiàn)頻次(OverallFreq.)、詞頻(TF)。其中,藥物數(shù)據(jù)庫ID是記錄該術(shù)語在DrugBank中是否存在,存在則為“1”,不存在則為“-1”或“null”。表2為BCAR3和BEX2的藥物處理結(jié)果。
表2 規(guī)范化處理得到的藥物命名實(shí)體識(shí)別結(jié)果
從表2可看出,基因BCAR3 的功能描述文本中共識(shí)別出3種化學(xué)命名實(shí)體,其中Tamoxifen被DrugBank藥物數(shù)據(jù)庫所收錄,而Estrogens出現(xiàn)了7次。根據(jù)收錄情況和出現(xiàn)的次數(shù)來看,二者都極有可能與乳腺癌的診斷和治療有一定關(guān)聯(lián)。從基因BEX2中共識(shí)別出2種化學(xué)命名實(shí)體,即Tamoxifen和Estrogens,研究者也可以從中挖掘二者是否與乳腺癌存在潛在的關(guān)聯(lián)關(guān)系,為防治癌癥提供有力的依據(jù)。事實(shí)上,研究者們已經(jīng)證實(shí)了雌激素(Estrogens)在乳腺癌的發(fā)生和治療中均起著至關(guān)重要的作用[23-24]。另外,不同概念實(shí)體出現(xiàn)的頻次、頻率等結(jié)果也可能是研究者挖掘顯著基因和實(shí)體的關(guān)鍵信息。如tyrosine的“出現(xiàn)頻次”“基因次數(shù)”“詞頻”相對較高,可能與乳腺癌存在著一定的關(guān)聯(lián)關(guān)系。
本文圍繞高通量癌癥基因組學(xué)相關(guān)文本注釋的方法、技術(shù)和應(yīng)用等問題展開介紹,包括生物醫(yī)學(xué)文本挖掘的相關(guān)技術(shù),數(shù)據(jù)采集、命名實(shí)體識(shí)別、規(guī)范化處理、標(biāo)簽云等,并對疾病和藥物命名實(shí)體識(shí)別的結(jié)果進(jìn)行了規(guī)范化分析,同時(shí)針對乳腺癌相關(guān)的兩個(gè)樣例基因文本進(jìn)行了全面分析。
目前,國內(nèi)關(guān)于生物醫(yī)學(xué)文本挖掘方面的研究相對欠缺,該領(lǐng)域的方法還不夠成熟,沒有統(tǒng)一的標(biāo)準(zhǔn)和工具,針對不同的應(yīng)用場景必須進(jìn)行相應(yīng)的設(shè)計(jì)、調(diào)整。如對于英文生物醫(yī)學(xué)文本的挖掘,已有大量的研究成果,但無法直接用于中文的分詞、標(biāo)注、識(shí)別等,亟待進(jìn)一步地解決。接下來的研究中,我們將重點(diǎn)關(guān)注中文領(lǐng)域的生物醫(yī)學(xué)文本挖掘技術(shù)及標(biāo)準(zhǔn)化較高的方法和工具,進(jìn)一步提高生物醫(yī)學(xué)領(lǐng)域與國際同行間研究的可比性。