徐博,吳翠,李卓俊,徐靚,巢志茂*(1.中國中醫(yī)科學院中藥研究所,北京 100700;2.國家中藥材產業(yè)技術體系貯藏與包裝崗位,北京 100700)
中藥及民族藥文化是中華民族智慧的結晶和經驗的積累,如今對中藥及民族藥的研究涉及本草考證、資源調查、種植采收、化學成分、藥理作用、臨床應用、產品開發(fā)等多個方面。隨著研究范圍的不斷擴大,大量的研究數據和結果不斷涌出。這些成果的傳播和共享對促進中藥學及民族藥學的發(fā)展具有重要的意義。近年來,隨著計算機數據庫技術的迅速發(fā)展及應用領域的推廣,數據庫構建技術應用于中藥及民族藥領域也成為了現實。鑒于數據庫具有共享性、靈活性、可控性、獨立性等優(yōu)勢,并且隨著數據庫技術的發(fā)展和完善,其應用已不再局限于信息的保存、查詢和管理[1],還可實現對科研數據的深入挖掘和分析,即通過分析數據庫中存儲的大量數據,發(fā)現數據背后隱藏的特征或規(guī)律,從而輔助科學研究和決策[2-3]。
調研發(fā)現,當前與中藥及民族藥相關的數據庫發(fā)展迅速,類型豐富多樣,具有廣闊的發(fā)展空間和應用價值,但也存在一些不足,如數據庫的建設缺少宏觀調控、各數據庫之間的信息無法有效共享、數據庫重復建設現象嚴重、缺少中醫(yī)藥與計算機專業(yè)知識兼?zhèn)涞膹秃闲腿瞬?、已構建的數據庫不能定期更新、利用率低等[4-5]。因此,如何使數據庫的價值最大化,仍需要長期的探索和完善。本文對現階段我國中藥及民族藥的數據庫現狀加以調研,對調研過程中發(fā)現的問題加以分析和討論,提出相應的建議與對策,以期為數據庫技術更好地助力中藥及民族藥的繼承與創(chuàng)新提供參考。
通過訪問中國科學院昆明植物研究所的標本數據館、中國中醫(yī)科學院中醫(yī)藥信息研究所的中醫(yī)藥科學數據中心、廣西中醫(yī)藥研究院信息中心及成都中醫(yī)藥大學等研究院所或高校建立的線上共享數據庫,并下載知網、萬方、維普數據庫中收載的與我國中藥及民族藥相關的數據庫文獻報道作為參考資料,總結中藥及民族藥相關數據庫的發(fā)展歷程、主要類型、建設技術問題及服務現狀,分析在數據庫中存在的問題并提出相應的對策或建議。
第一個被報道的中藥數據庫是日本的《中國產生藥數據庫》,于1984年建設完成,該數據庫主要用于生藥資源的研究,揭開了數據庫技術在中醫(yī)藥領域應用的序幕[6]。1997年,中國中醫(yī)科學院中醫(yī)藥信息研究所將研發(fā)的中藥理論數據庫、中藥方劑數據庫等在網絡上公開分享,初次實現了中藥數據庫信息資源的在線共享,數據庫技術在中醫(yī)藥領域的應用開創(chuàng)了一個新的平臺。目前,在我國已有20 余所中醫(yī)藥院校建立了具有中醫(yī)藥特色的數據庫,如北京中醫(yī)藥大學的道藏醫(yī)藥文獻數據庫、遼寧中醫(yī)藥大學的中醫(yī)古籍數據庫、廣西中醫(yī)藥大學的抗病毒中藥數據庫等[7]。隨著計算機互聯網技術的快速發(fā)展,數據庫的信息記錄形式從最初單純的文字發(fā)展到圖像、音頻、視頻等影像資料[8],表現形式豐富多樣,文獻庫、標本庫、圖書庫等各種類型的數據庫均已具備一定的規(guī)模,且發(fā)展迅速。
近年來,隨著大數據時代的到來,基于數據庫的數據挖掘技術也廣泛應用于中醫(yī)藥研究,如方劑配伍規(guī)律的研究、針對某種疾病的用藥規(guī)律研究等。并且隨著空間數據庫技術的發(fā)展,將數據挖掘技術應用于中藥及民族藥資源信息空間分布研究也有了突破。如有學者以甘草為例,利用空間分析和數據挖掘技術,對與甘草資源分布有關的地理生態(tài)因子進行空間相關性分析,總結甘草藥材資源與環(huán)境氣候的內在聯系,進一步擴大了數據挖掘技術的應用范圍[9]。
目前,民族藥的信息化發(fā)展也得到了國家的高度重視和社會的廣泛關注,一些民族醫(yī)藥研究機構投入了大量資源開展相關研究,并取得了一定的成果。如中國中醫(yī)科學院中醫(yī)藥信息研究所研制的包含藏藥、蒙藥、維吾爾藥、苗藥、傣藥、瑤藥在內的民族藥數據庫,為民族醫(yī)藥的信息化奠定了基礎。然而相比于中藥數據庫,由于歷史條件、地域分布、文化差異、傳統(tǒng)觀念等因素的制約及人才、政策、資金等因素的限制,民族藥信息的采集、整理、存儲及挖掘等信息化工作進展相對緩慢,發(fā)展相對滯后。
2.2.1 基礎數據庫 基礎數據庫是收載中藥及民族藥基礎信息的一類數據庫,數量多,內容豐富,收錄范圍廣,權威性強,??勺鳛閰⒖假Y料使用。當前收錄的基礎信息主要包括中文名稱、漢語拼音、拉丁學名、別名、基原、栽培(養(yǎng)殖)、采收加工、鑒別、化學成分、藥理作用、炮制方法、性味、功效、主治、配伍規(guī)律、用法用量、注意事項等。如中國中醫(yī)科學院中醫(yī)藥信息研究所參考《中國藥典》《中藥大辭典》等權威工具建立了中國中藥數據庫,廣西中醫(yī)藥研究院建立了以中藥、壯藥、瑤藥為特色的廣西中藥資源信息共享平臺,浙江中醫(yī)藥大學建立了《中藥大辭典》數據庫[10],廣州中醫(yī)藥大學建立了單味中藥數據庫以及江西中醫(yī)藥大學建立了民族藥資源信息數據庫與共享平臺等[11]。
2.2.2 標本類數據庫 藥材標本是科研、教學和科普的重要資料,溫度、濕度、氧氣等環(huán)境因素及時間、空間、經濟條件等對標本的長期保存提出了考驗。若將標本以數據庫的形式收載不僅可解決上述問題,還可實現中藥標本信息的網絡有效共享。對此,2004年中國中醫(yī)科學院中藥研究所與其他單位共同創(chuàng)建了中草藥和民族藥的標本數據庫,收載了大量臘葉標本信息,并建立了計算機管理系統(tǒng),隨后又逐步建立了藏藥、蒙藥、維藥等民族藥數據庫[12]。2006年成都中醫(yī)藥大學建立了以數據庫為核心的民族藥標本資料查詢系統(tǒng),提供了650 個品種的民族藥標本資源共享,包括臘葉標本、藥材標本、生藥圖片及標準藥材等[13]。亳州職業(yè)技術學院以中藥標本館的館藏中藥標本為主建立了網絡數據庫,實現了中藥標本的信息化管理和資源的有效共享[14]。目前,中國科學院昆明植物研究所的標本館數據庫中收載的標本數量達近14 000 種。更有專家學者從藥材資源的道地性出發(fā),建立了具有地方特色的數據庫,如陜西中醫(yī)學院結合秦嶺特有的中草藥資源建立了秦嶺中草藥標本館圖像數據庫[15]。
2.2.3 組分類數據庫 從植物中尋找活性成分和先導化合物是開發(fā)新藥的主要手段。我國豐富的藥用植物為創(chuàng)新藥物的研發(fā)提供了寶貴的資源。為此,天津藥物研究院收集整理了自1982年以來發(fā)現的植物活性成分,建立了相關數據庫,為新藥開發(fā)提供了信息寶庫[16]。此外,北京中醫(yī)藥大學專門針對活血化瘀類中藥建立了組分數據庫,希望通過組分數據分析和挖掘發(fā)現活血化瘀類中藥的組分特征或規(guī)律[17]。
2.2.4 指紋圖譜類數據庫 在中醫(yī)藥的現代化進程中,隨著高效液相色譜指紋圖譜、質譜指紋圖譜、核磁共振指紋圖譜等各項技術的成熟和完善,采用指紋圖譜技術控制中藥材的質量已成為發(fā)展趨勢。對此,石家莊經濟學院建立了中藥三維熒光指紋圖譜數據庫[18],沈陽藥科大學建立了中藥指紋圖譜在線專家系統(tǒng)[19-20]及五加科植物的多維指紋圖譜數據庫[21],清華大學設計了中藥材紅外圖譜數據庫[22]等,為指紋圖譜數據庫的發(fā)展提供了參考。
2.2.5 古籍文獻類數據庫 古籍作為我國中醫(yī)藥文化的有形資料,是古人智慧的結晶,意義重大,但這些古籍資料歷史悠久且數量浩瀚。隨著電子化時代的到來,將古籍通過數據庫的形式記錄并保存不僅符合經濟環(huán)保的發(fā)展理念,更有利于古籍內容的共享,可有效避免由于古籍的流失而導致信息失傳。對此中國中醫(yī)科學院中國醫(yī)史文獻研究所建立了民族醫(yī)藥古籍文獻書目數據庫,該數據庫囊括了藏醫(yī)、蒙醫(yī)、維吾爾醫(yī)和傣醫(yī)等千余部古籍文獻的相關信息,為研究民族藥的歷史創(chuàng)造了條件。廣西中醫(yī)藥研究院于2017年對館藏的明、清、民國等時期的珍貴古籍進行了電子化掃描及編目工作,出版了《廣西中醫(yī)藥研究院館藏中醫(yī)藥古籍目錄》,為充分利用珍貴的古籍資源提供了條件。但總體來看,與其他類型的數據庫相比,此類數據庫的數量相對較少,且收載的古籍數量有限。
2.2.6 其他類數據庫 除以上數據庫外,還有其他類型的數據庫。如上海中醫(yī)藥大學建立的中藥不良反應數據庫,整理了1960—2008年文獻中報道的不良反應,為不良反應的流行病學調查分析、中藥安全性評價、中藥不良反應方法學研究等提供了參考依據[23]。廣西中醫(yī)學院建立了中藥藥性數據庫[24]、南京中醫(yī)藥大學建立了中藥炮制學基本數據庫[25]、廣西中醫(yī)藥大學信息網絡中心建立了中藥葉形態(tài)-脈序圖譜鑒別法數據庫以及遼寧中醫(yī)藥大學建立了中藥藥物警戒數據庫等[26-27],這些數據庫從不同的角度和視野,豐富了中藥的數據庫類型。
2.3.1 數據的預處理 數據是組成數據庫的基本單元,中醫(yī)藥的數據具有信息量大、增長速度快、定量和精確性差、數據分散且復雜多變等特征。如對于中藥材而言,同物異名、同名異物的現象較為常見,又如中藥的毒性分為劇毒、有毒、無毒、大毒、小毒等,但并無準確的定量標準。因此,在建立數據庫時,對數據信息應制訂統(tǒng)一的規(guī)范標準和處置原則,以提高檢索的準確性。對于中藥及民族藥而言,數據信息大致分為兩類:一類是較為穩(wěn)定的信息,如中藥的性味歸經、功能主治等,這類數據認可度高,穩(wěn)定性強,建立標準、規(guī)范的數據處理方法簡便易行,體現了繼承的觀念;另一類是根據研究結果不斷更新的數據信息,如藥用植物中新發(fā)現的化學成分、藥理活性等,這類數據則反映了科學研究的最新進展,對前沿的科學研究至關重要,體現了發(fā)展的觀念[28]。
針對第一類較為穩(wěn)定的數據信息,現在主要采用“量子化”的處理方法[29]。所謂“量子”是指將中藥的信息細化成由若干漢字組成的不可再行細分的、具有相對獨立內涵和排他作用的最小信息單位。舉例來說,中藥的毒性通過“量子化”后,分解為無毒、小毒、有毒、大毒、劇毒5 個具體的量子。根據每味中藥的具體毒性大小,在無毒、小毒等的量子項下,進行True 與False 標定,這樣在每條中藥信息的毒性項下,都只顯示“0”或“1”,從而保證了數據結構的標準化與一致性[30],便于提高數據庫的信息處理速度,因此中醫(yī)藥信息的量子化是中藥及民族藥信息數字化、標準化和現代化的基礎。但是在“量子化”的過程中也會造成中藥數據信息的丟失,如以“毒性”為例,在無毒、小毒等5 個具體的量子之外,“微毒”這一預設之外的概念則無從定位。對于第二類不斷更新的數據信息,可采用全文或摘錄重點信息的形式,或根據用戶的具體需求量身設計實用的處理方法和數據庫表結構,在忠于原有數據的基礎上,統(tǒng)一整理數據信息,總結數據分布特點和規(guī)律,從而建立結構關聯清晰的數據庫。
2.3.2 數據庫的共享技術 調研過程中普遍存在的一個現象是,由于各個數據庫建設的時間、技術、背景、目的不同,且沒有統(tǒng)一的建設標準和使用規(guī)范,不同數據庫之間采用的管理系統(tǒng)、操作系統(tǒng)、開發(fā)工具不同,其數據的結構、類型和表現形式也各不相同,隨著數據庫數量的迅速增長,便形成一個巨大的異構數據庫環(huán)境,導致各數據庫之間信息無法共享,阻礙了數據庫的發(fā)展,也導致了數據庫構建資源的浪費。針對這些問題,希望能夠建立一個異構數據庫的信息共享平臺,實現不同數據庫之間的數據共享?;蛘咴O置一個新的標準界面,能夠在已有的信息系統(tǒng)基礎上建立一個互操作平臺,從而實現不同數據庫之間的互相操作和信息共享。這種方式不僅可以保持已有系統(tǒng)中的數據和應用程序,還允許新的系統(tǒng)加入,有利于信息資源的共享和更新。目前,以上兩種解決方案均已取得了一定的應用進展。
可擴展標記語言(extensible markup language,XML)是建立異構數據庫互操作技術標準的選擇之一[31]。該技術具有可擴展性、可移植性的優(yōu)勢,可集結不同來源的數據,提供多樣的搜索服務,實現互不兼容的系統(tǒng)間的數據傳輸,支持任何平臺使用任何語言在客戶端和服務器之間進行數據交換,從而實現異構數據資源的無縫集成和整合。如有學者根據XML 技術,構建了數據集成模型,通過設計中間件,解決了校園網不同應用系統(tǒng)中異構數據庫之間的數據集成與共享,為解決數據庫的共享問題提供了參考[32-33]。
2.4.1 教學 有學者認為,采用中藥數據庫教學對中藥專業(yè)學生學習理論知識有著巨大的應用前景,通過建立一個包括《中藥學》《方劑學》《中藥炮制學》《中藥鑒定學》《中藥化學》等基礎課程的教學數據庫,將各門課程系統(tǒng)、有機地結合,不僅打破了時間、空間的限制,節(jié)約了教學成本,更有助于學生全面理解和掌握基礎知識,融會貫通,避免孤立片面的學習[34-35]。但就目前而言,由于各高校數據庫采用的管理系統(tǒng)、操作系統(tǒng)及數據信息的結構、類型和表現形式等不同,數據庫之間信息資源的有效共享仍存在一定的困難,且目前多數院校建設的數據庫僅限于校園網內部用戶使用,校外用戶無法訪問,這就在一定程度上限制了各高校之間教學信息的交流,造成了教學資源的浪費。對此類現象,有學者提出構建教育“云平臺”的設想和初步探索,既可以通過平臺讓學生獲取豐富的電子資源,也可將有價值的資料上傳至云空間,從而實現資源的有效共享,為解決當前教育資源分布不均現象提供了可能[36]。
2.4.2 信息查詢、篩選 提供數據信息的檢索和查詢服務是數據庫最基本的功能,大眾可通過中醫(yī)養(yǎng)生數據庫獲取專業(yè)權威的養(yǎng)生保健知識,科研工作者可通過數據庫了解最前沿的研究動態(tài)。如今,數據庫還可用于有效信息的篩查和鑒別。如有學者建立了壯陽類中成藥和保健品中常見的非法添加化學成分的質譜數據庫,通過特征碎片離子快速篩查鑒別樣品中是否含有非法添加成分[37]。也有專家學者通過建立中藥化學數據庫篩選先導化合物,如以中藥化學數據庫為基礎,運用分子模擬技術或計算機輔助藥物設計方法篩選先導化合物[38]。目前這一技術已廣泛應用于中藥活性成分的篩選研究工作中。
2.4.3 數據挖掘 隨著大數據時代的到來,充分利用數據挖掘技術已是大勢所趨。如今,數據挖掘技術已廣泛應用于中醫(yī)藥文獻數據、中藥物質基礎、方劑配伍規(guī)律及中藥復方等方面的研究[39]。有學者在建立抗腫瘤藥物的中藥數據庫后,運用Apriori 算法挖掘分析了抗腫瘤中藥的藥性、功效及藥理之間的關系,為腫瘤的中藥治療提供了參考依據[40]。也有學者建立了治療圍絕經期綜合征的中藥復方數據庫,通過數據挖掘探索了治療圍絕經期綜合征的中藥復方用藥規(guī)律[41]。但是由于中藥及民族藥數據具有多樣性、復雜性、時效性,當前的數據挖掘技術主要用于發(fā)現數據表層的規(guī)律,缺乏對其內在機制的深入分析,且普遍存在樣本數據偏小、結果評價欠缺等問題[42],因此數據挖掘技術仍需不斷地發(fā)展和完善,開發(fā)出更適合中醫(yī)藥數據自身特征的數據挖掘方法,從而提升我國中醫(yī)藥數據的處理分析能力。
當前民族藥數據庫的建設遠遠落后于中藥數據庫,僅有少數的研究機構開發(fā)了一些民族藥數據庫,數據庫的內容和形式也不夠豐富全面,且受語言文化差異的影響,民族藥數據庫的建設難度較大。因此,從國家、政府層面,應加大對民族藥數據庫建設的支持力度,出臺相關的扶持政策,為民族藥數據庫的發(fā)展提供強有力的保障;站在科研工作者的角度,則應致力于民族藥數據庫的發(fā)展,尤其是在民族藥發(fā)展相對薄弱的環(huán)節(jié),如對藥用植物的鑒定等方向,更應迎難而上,為推動和加速民族藥數據庫的發(fā)展貢獻力量。民族藥數據庫的構建,還應吸取中藥數據庫建設方面的經驗教訓,尤其是在共享平臺和社會服務方面要立足長遠,面向未來。同時,各民族藥應在單獨、分散的建庫基礎上,制訂統(tǒng)一的標準,統(tǒng)籌進行數據庫的完善和發(fā)展。
由于數據庫在最初建設時缺少統(tǒng)籌規(guī)劃,主要由各研究機構自行開發(fā),數據的表示與存儲方式缺乏統(tǒng)一的標準,無法實現搜索軟件的統(tǒng)一性,且由于開發(fā)時缺少共享意識,各數據庫之間難以實現信息有效共享的融合和兼容,數據庫重復建設現象嚴重。針對中醫(yī)藥和民族醫(yī)藥的特色,應大力發(fā)展具有中醫(yī)藥特色的數據庫構建技術,統(tǒng)一數據庫的建設標準,實現對各個數據庫的集成共享,從而實現數據的挖掘,更好地服務于科研、服務于全社會。
中醫(yī)藥及民族藥數據庫的建設專業(yè)性強,不僅需要中醫(yī)藥的專業(yè)知識背景,更需要計算機專業(yè)技術的支持。當前數據庫的建設大多由中醫(yī)藥專業(yè)人員提出思路和需求,由網絡公司的計算機專業(yè)人才實施和操作。若能培養(yǎng)出一批中藥學與計算機專業(yè)知識和技術兼?zhèn)涞膹秃闲腿瞬?,建立一支穩(wěn)定的包括民族藥在內的中醫(yī)藥信息資源建設隊伍,則可使數據庫的建設更加順利,內容更加準確,信息更加全面。
中藥和民族藥數據庫的構建,在建設初期往往是有經費支持的,但是許多數據庫在建成后未能得到持續(xù)的資金支持,難以繼續(xù)發(fā)展而導致癱瘓或半癱瘓狀態(tài)。此外,數據庫建成后,未能很好地進行共享,未能充分地服務于社會,因此未能獲得相應的經濟效益,或取得的經濟效益不足以維持對數據庫的維護和更新。這也提示我們,在建設各類數據庫時,要將社會共享作為基本要求之一,提供足夠的、多方面的、多途徑的共享機制和共享平臺,從而維持數據庫的維護、擴充和發(fā)展。