呂艷華,趙宏霞,李 琦,梁傲雪,于 琦
山西醫(yī)科大學管理學院,山西 030001
自閉癥譜系障礙是由于生物性神經系統(tǒng)發(fā)育障礙引起的疾病,主要癥狀有社會溝通能力障礙、興趣狹窄及重復行為特征[1]。目前自閉癥的發(fā)病機制和病因尚未完全明確,且尚無特效藥物,目前臨床治療藥物多為對癥治療藥物,如抗抑郁藥、抗精神病藥、鎮(zhèn)靜安眠藥,主要針對自閉癥癥狀的治療藥物僅有10 種[2]。聯(lián)合國數(shù)據(jù)顯示,截至目前,全球大概有超過7 000 萬人正遭受自閉癥的困擾[3]。面對龐大的自閉癥患病群體,尋找潛力藥物和特效藥物迫在眉睫。隨著計算機技術的發(fā)展及各種藥物數(shù)據(jù)庫的建立,基于基因藥物大數(shù)據(jù)的藥物預測成為重要的預測手段,利用計算機技術可以從現(xiàn)有的海量知識中進行隱性的知識關聯(lián),挖掘潛在的關系信息,為科研人員提供有價值的線索。本研究運用計算機技術抽取自閉癥相關文獻中的三元組并構建自閉癥藥物實體知識圖譜,深層次挖掘潛在的信息,發(fā)現(xiàn)自閉癥藥物治療潛力藥物,有助于完善應用三元組進行知識發(fā)現(xiàn)的理論,豐富自閉癥藥物治療手段,為藥物治療提供新思路。
藥物知識發(fā)現(xiàn)是生物醫(yī)學領域知識發(fā)現(xiàn)的一個分支研究,其本質是發(fā)現(xiàn)跨領域知識間隱性關聯(lián)的特定類型數(shù)據(jù)挖掘應用[4]。1986 年,Swanon[5-6]提出了非相關文獻知識發(fā)現(xiàn)方法,并利用該方法發(fā)現(xiàn)了魚油治療雷諾氏病和鎂治療偏頭痛的科學假設,且兩個假設后來分別被科學實驗所證實,當時采用的是人工閱讀MedLine 文章標題的方法。后來,Swanson[7]開發(fā)出了Arrowsmith,它是一種基于文獻的交互式知識發(fā)現(xiàn)系統(tǒng),輸入查詢詞查找整個MedLine 數(shù)據(jù)庫并收集標題或摘要中出現(xiàn)該詞的所有文章。這是基于對標題和短語的共現(xiàn)分析。之后他們采用Arrowsmith 來確定雌激素與阿爾茨海默病之間存在的聯(lián)系,結果表明雌激素的抗氧化活性可能與阿爾茨海默病有關[8]。但這種方法仍需要人工設置停用詞列表,并對Arrowsmith生成的許多虛假連接進行分類。到了21 世紀初,Hristovski等[9]提出了用于醫(yī)學領域的交互式發(fā)現(xiàn)支持系統(tǒng)BITOLA,術語和關系來自MedLine 數(shù)據(jù)庫和統(tǒng)一醫(yī)學語言系統(tǒng)(the Unified Medical Language System,UMLS),這種方法是基于關聯(lián)規(guī)則來發(fā)現(xiàn)醫(yī)學術語之間 的 關 系。2005 年,Hristovski 等[10]在BITOLA 中 整合了有關疾病染色體定位以及候選基因染色體定位的知識,使其更適合于發(fā)現(xiàn)疾病的候選基因。與此同時,Weeber 等[11]基于ULMS 開發(fā)了一個支持工具DAD,使用該系統(tǒng)來尋找藥物沙利度胺的潛在治療作用,結果顯示沙利度胺可能對急性胰腺炎、慢性丙型肝炎、幽門螺桿菌引起的胃炎和重癥肌無力有治療作用。但這些研究必須人工審查、閱讀大量的MedLine 引文,而且有大量的虛假關系需人工分類辨別,無法明確、科學地解釋發(fā)現(xiàn)的關系。2006 年,Hristovski 等[12]提出使用語義謂詞來進一步完善基于文獻的知識發(fā)現(xiàn)方法,初步試驗表明這種方法可以發(fā)現(xiàn)以前那些方法無法發(fā)現(xiàn)的新關聯(lián)。Ahlers 等[13]的研究進一步證明,采用語義謂詞進行知識發(fā)現(xiàn)減少了由人工審查的關系數(shù)量,并且對發(fā)現(xiàn)的結果更具解釋力,他們采用這種知識發(fā)現(xiàn)模式,發(fā)現(xiàn)了5 種在抗精神病藥物和癌癥之間提供聯(lián)系的生物分子:腦源性神經營養(yǎng)因子、肝臟細胞色素P4502D6(CYP2D6)、糖皮質激素受體、催乳素(PRL)和腫瘤壞死因子(TNF)??梢?,藥物知識發(fā)現(xiàn)經歷了從人工閱讀文章標題的共現(xiàn)分析到基于關聯(lián)規(guī)則的分析,再到加入語義謂詞,可見有效結合語義關系進行實體識別是提高藥物知識發(fā)現(xiàn)效率的趨勢和關鍵環(huán)節(jié)。
知識圖譜本質上是一種基于圖的語義網(wǎng)絡,表示不同實體之間的關系,通常以三元組“主語-謂語-賓語(subject-predicate-object,SPO)”的形式表示知識。知識圖譜具有強大的語義關聯(lián)能力、信息組織能力和知識融合能力,可以將實體及實體間的關系屬性進行細粒度的語義表示[14]。首先,它可以兼容實體間的語義關系與挖掘的特性,可以根據(jù)實際情況預設語義關系或對語義關系進行篩選,使其更符合實際研究情況,符合藥物知識發(fā)現(xiàn)的邏輯[14];其次,將文獻中的語義三元組向ULMS 中規(guī)范化的術語與語義關系進行映射,具有高標準、高效率與易解釋等優(yōu)點[4];而且可以運用復雜網(wǎng)絡和圖挖掘算法對其進行挖掘,實現(xiàn)細粒度、深層次、隱含的知識發(fā)現(xiàn)。目前,知識圖譜在問答系統(tǒng)[15]、推薦系統(tǒng)[16]、機器翻譯[17]等領域發(fā)揮了重要作用,在金融安全[18]、醫(yī)學診斷[19]、軍用[20]、電力[21]領域展示出很好的應用前景。知識圖譜在藥物發(fā)現(xiàn)領域的應用主要是用于發(fā)現(xiàn)藥物新的適應證,減少藥物不良反應等[14,22-24]。
綜上所述,基于三元組構建的知識圖譜在藥物知識發(fā)現(xiàn)領域的應用具有一定的依據(jù),對藥物再利用、藥物開發(fā)有一定的意義。在以往基于知識圖譜開展藥物知識發(fā)現(xiàn)研究的基礎上,本研究在知識發(fā)現(xiàn)全面性、挖掘方法先進性、結果有效性驗證方面進行了改進,使之更適用于藥物知識發(fā)現(xiàn)。首先,知識發(fā)現(xiàn)更全面,除共現(xiàn)關系外,采用Neo4j 數(shù)據(jù)庫描述實體間的關系,定義了實體間復雜的語義關系,并從語義層面深入分析了實體間的語義關系及其涵義;其次,挖掘方法更先進,采用了基于語義的路徑分析方法,并在路徑分析中增加了靶點與靶點之間的關系,更符合藥物知識發(fā)現(xiàn)邏輯;最后,采用臨床實驗數(shù)據(jù)庫(https://clinicaltrials.gov)對結果進行有效性驗證。
本研究使用SemRep、Metamap 工具從自閉癥相關文獻中識別自閉癥相關實體、屬性、語義關系,抽取三元組并對三元組清洗、歸類后儲存在Neo4j 圖數(shù)據(jù)庫中,采用路徑發(fā)現(xiàn)深入挖掘自閉癥重要藥物和潛力藥物。
本研究所需的實體、屬性及語義關系數(shù)據(jù)均來自PubMed 數(shù)據(jù)庫。檢索詞為“autism spectrum disorder”[MeSH],檢 索 時 限 為 建 庫 至2023 年2 月1 日,共 下 載40 662 條題錄數(shù)據(jù)。
采用基于ULMS 的工具SemRep、Metamap 進行自然語言處理和術語映射,對獲取的文獻記錄進行處理,對實體、語義關系、屬性等信息進行抽取,獲得實體在ULMS 超級詞表中的相應概念及概念間的語義類型和語義關系。SemRep、Matamap 可自動執(zhí)行分詞、語義分析、短語映射、語義謂詞歸一化、語義約束等操作。
基于40 662 條題錄數(shù)據(jù),共抽取到224 675 條SPO,結合Fiszman 等[25-26]提出的SPO 清洗原則和相關學者的研究,制定清洗流程:1)否定謂詞在本研究沒有意義,對否定謂詞進行剔除。如NEG_ADMINISTERED_TO,NEG_AFFECTS,NEG_ASSOCIATED_WITH,NEG_CAUSES,NEG_AUGMENTS 等。2)考慮到每篇文獻的貢獻相同,對SPO 進行合并,同1 篇文獻中重復出現(xiàn)的SPO 只計1 次。3)出現(xiàn)頻次太低的SPO 無統(tǒng)計意義,選擇出現(xiàn)頻次≥3 次的SPO。4)結合專業(yè)知識,篩選與本研究相關的有關疾病、靶點、藥物實體SPO,具體語義類型見表1。在數(shù)據(jù)存儲前對三元組進行清洗、歸類后人工復審、專家復審。篩選后共獲得6 883 條SPO,再經過人工復審、專家復審后得到5 140 條。
表1 實體類別-語義類型對照
使用Neo4j 數(shù)據(jù)庫進行知識存儲。Neo4j 數(shù)據(jù)庫是一種高性能的圖數(shù)據(jù)庫,可對數(shù)據(jù)進行創(chuàng)建、查詢、更新、刪除等操作,且操作靈活方便。本研究中將自閉癥相關藥物實體作為節(jié)點,標簽表示實體屬性,實體間的關系作為邊,以三元組的形式構建實體與實體間的關系。
采用路徑發(fā)現(xiàn)進行知識發(fā)現(xiàn)。通過定義實體屬性和關系構建推理規(guī)則,根據(jù)節(jié)點數(shù)量可產生不同長度的路徑;預定義開始實體和語義關系,設定路徑長度,到達藥物節(jié)點,實現(xiàn)藥物預測。此知識發(fā)現(xiàn)模式與Swanson 經典的ABC 發(fā)現(xiàn)模式一致,即如果AB 之間有直接關聯(lián),BC 之間有直接關聯(lián),那么AC 之間就被認為有隱含關聯(lián)。本研究在前期學者研究的基礎上,加入靶點與靶點之間的關聯(lián),有研究顯示靶點之間的共現(xiàn)同樣具有生物學意義,他們之間的共現(xiàn)關系有助于挖掘更深層次的生物學信息[27]。
本研究獲得的SPO 語義三元組包括了1 262 個頭實體、687 個尾實體、18 種實體關系。將每種實體和實體關系的頻次作為屬性加入圖譜中,用于藥物預測。實體間的語義關系見表2。
表2 自閉癥文獻三元組實體間的語義關系
在Neo4j 數(shù)據(jù)庫中使用Cypher 語句設定搜索條件,以疾病作為頭節(jié)點,基因或靶標作為中間節(jié)點,藥物為尾節(jié)點。根據(jù)實際情況選擇以下4 種實體作為路徑發(fā)現(xiàn)的疾病起點:C0004352 Autistic Disorder,C0524528 Pervasive Development Disorder,C1510586 Autism Spectrum Disorders/Autism Spectrum Disorder、C0236792 Asperger Syndrome。藥物知識發(fā)現(xiàn)路徑所依據(jù)的語義關系見圖1。
圖1 路徑中實體間的語義關系
基于上述“疾病-靶點-藥物”語義關系,本研究共采用3 條路徑進行藥物知識發(fā)現(xiàn)。1)路徑1:基于“疾病-靶標-藥物”路徑的知識發(fā)現(xiàn)。以自閉癥相關疾病實體為起點,靶標作為中間節(jié)點,藥物作為尾節(jié)點,設定疾病靶標、靶標藥物之間的語義關系,進行藥物知識發(fā)現(xiàn)。設定語句為match(p1:lable {tag: 'disease'})-[r1]-(p2: lable {tag: 'target'}) - [r2] - (p3: lable{tag: 'drug'})WHERE p1.id IN ["C1510586", "C0004352","C0524528","C0236792"]。測算結果見表3、圖2。2)路徑2:基于“疾病-靶標-靶標-藥物”路徑的知識發(fā)現(xiàn)。以自閉癥相關疾病實體為起點,考慮到靶點之間的相互作用,將2 個靶標作為中間節(jié)點,藥物作為尾節(jié)點,設定疾病與靶標、靶標與靶標、靶標與藥物之間的語義關系,進行藥物知識發(fā)現(xiàn)。設定語句為match(p1:lable{tag: 'disease'})-[r1]-(p2:lable {tag:'target'})-[r2]-(p3:lable{tag:'target'})-[r3]-(p4:lable{tag:'drug'}) WHERE p1.id IN["C1510586","C0004352","C0524528","C0236792"],r 為實體間的語義關系。測算結果見表3、圖2。3)路徑3:根據(jù)設定藥物、基因或靶標、疾病之間的語義關系進行知識發(fā)現(xiàn)。用單點起源路徑(single source shortest path)算法,以自閉癥相關疾病作為起點,到達圖中其他所有藥物實體的最短路徑?;谡Z義路徑1,發(fā)現(xiàn)了5 種自閉癥潛在藥物;基于語義路徑2,發(fā)現(xiàn)了6 種藥物;基于語義路徑3,發(fā)現(xiàn)了30 種藥物。見表3。
本研究對基于3 條“疾病-靶點-藥物”語義路徑發(fā)現(xiàn)41 種自閉癥藥物,刪除重復項后共得到32 種藥物,其中5 種藥物(褪黑素、丙戊酸、阿立哌唑、加蘭他敏、利培酮)目前已是Drugbank 中被批準通用的自閉癥治療藥物,其余27 種藥物可視為本研究基于語義路徑方法測算得出的潛力藥物(見表4)。
表4 基于“疾病-靶點-藥物”語義路徑的27 種自閉癥潛力藥物
根據(jù)藥物的解剖學、治療學及化學分類系統(tǒng)(ATC)藥物分類,本研究預測的潛力藥物主要分布在以下類別:5 種屬于神經系統(tǒng)精神安定藥、7 種屬于精神興奮藥,3 種屬于消化道及代謝藥物,1 種屬于呼吸系統(tǒng)藥物(見表5)。與已批準自閉癥治療藥物的ATC分類基本趨同。
表5 27 種潛力藥物在ATC 藥物分類及所屬類別
采用臨床實驗數(shù)據(jù)(https://clinicaltrials.gov)對研究結果中除了Drugbank 數(shù)據(jù)庫中已批準的治療自閉癥藥物aripiprazole(阿立哌唑)、melatonin(褪黑素)、valproic acid(丙戊酸)、galantamine(加蘭他敏)、利培酮(risperidone)外的27 種潛力藥物進行結果驗證。
催產素、哌醋甲酯、氟西汀在2017 年英國精神藥理學會發(fā)布的“Autism spectrum disorder:consensus guidelines on assessment,treatment and research from the British Association for Psychopharmacology”臨 床指南中被自閉癥的臨床治療用藥收錄;納曲酮在2016年蘇格蘭校際指南網(wǎng)絡公布的“Assessment,diagnosis and interventions for autism spectrum disorders”臨床指南中自閉癥臨床治療信息收錄;哌醋甲酯、氟西汀、氟哌啶醇、奧氮平、丁螺環(huán)酮在2020 年美國兒科學會“Identification, evaluation, and management of children with autism spectrum disorder”臨床報告中的自閉癥臨床治療信息收錄;促胰液素、鎂在2007 年蘇格蘭校際指南網(wǎng)絡公布的“Assessment,diagnosis and interventions for autism spectrum disorders”自閉癥藥物治療信息收錄。作用癥狀見表6??梢姡?7 種潛力藥物中,已有9種藥物在臨床中被用于自閉癥及其相關癥狀的治療,這在一定程度上體現(xiàn)出本研究所采用藥物發(fā)現(xiàn)方法的有效性和準確性,同時也說明基于語義路徑發(fā)現(xiàn)的其他藥物對于自閉癥治療研究具有較高的可參考價值。
表6 9 種潛力藥物在臨床診療指南中的作用癥狀
在27 種預測藥物中,除了上述9 種藥物外,另有10 種藥物均有學者正在研究他們與自閉癥治療的關系及作用,并提供了大量的臨床實驗證據(jù),進一步表明這些藥物可能為自閉癥治療研究具有較大潛力的藥物,研究人員可重點關注。見表7。
表7 19 種潛力藥物在臨床實驗數(shù)據(jù)庫中的驗證結果
預測的結果中除上述可以在臨床實驗數(shù)據(jù)庫中驗證的藥物外,clomipramine(氯米帕明)、ergocalciferol(麥角鈣化醇)、nitric oxide(一氧化氮)、resveratrol(白藜蘆醇)、dopamine hydrochloride(多巴胺)、loxapine(洛沙平)、acetaminophen(對乙酰氨基酚)、huperzine B(石杉堿乙)尚未查到其與自閉癥治療的臨床實驗數(shù)據(jù)。在PubMed 中查詢文獻發(fā)現(xiàn),藥物clomipramine(氯米帕明)、nitric oxide(一氧化氮)、resveratrol(白藜蘆醇)、dopamine hydrochloride(多巴胺)、loxapine(洛沙平)、acetaminophen(對乙酰氨基酚)在預測結果中出現(xiàn),用于少數(shù)或者個別病例臨床使用或動物實驗,尚未進入臨床實驗。ergocalciferol(麥角鈣化醇)、huperzine B(石杉堿乙)在預測結果中出現(xiàn),在PubMed 中未查到文獻其與自閉癥的關系,可能屬于未知關聯(lián)藥物,可進一步進行理論研究或實驗探究其與自閉癥潛在的關系,驗證其是否可用于自閉癥的治療。
本研究獲得自閉癥藥物相關三元組5 140 條,實體1 949 種,實體關系18 種,構建了自閉癥藥物知識圖譜,定義了自閉癥藥物實體間的語義關系,并分析了實體間的語義關系及語義涵義。采用路徑分析的知識發(fā)現(xiàn)方法,通過3 種路徑“疾病-靶標-藥物”“疾病-靶標-靶標-藥物”、單點起源路徑進行藥物知識發(fā)現(xiàn),發(fā)現(xiàn)藥物32 種;篩選出自閉癥潛力藥物27 種,采用臨床實驗數(shù)據(jù)庫(https://clinicaltrials.gov)對預測的藥物結果進行驗證分析,驗證了19 種藥物正處于臨床研究中,進一步驗證了本研究方法的有效性?;谝陨涎芯拷Y果和驗證分析,認為本研究方法可為藥物重定位提供一定的理論基礎,可以為傳統(tǒng)藥物發(fā)現(xiàn)提供新的思路,為以后的臨床實驗和研究提供決策支持。