梁昊,吳佳澤,段倫慧,彭清華,胡志希,6,周小青
1.湖南中醫(yī)藥大學(xué)中醫(yī)學(xué)院,長沙 410208
2.湖南中醫(yī)藥大學(xué)中西醫(yī)結(jié)合學(xué)院,長沙 410208
3.中國中醫(yī)藥信息學(xué)會中醫(yī)診斷信息分會,北京 100700
4.世界中醫(yī)藥學(xué)會聯(lián)合會中醫(yī)診斷學(xué)專業(yè)委員會,北京 100020
5.國際數(shù)字醫(yī)學(xué)會數(shù)字中醫(yī)藥分會,長沙 410208
6.中國中西醫(yī)結(jié)合學(xué)會標(biāo)準(zhǔn)化技術(shù)專業(yè)委員會,北京 100700
7.世界中醫(yī)藥學(xué)會聯(lián)合會翻譯專業(yè)委員會,北京 100020
為了促進中醫(yī)藥及民族醫(yī)藥的國際化,方便在學(xué)術(shù)科研、教育教學(xué)及經(jīng)濟貿(mào)易等領(lǐng)域的溝通交流,中國官方及中醫(yī)藥國際組織一直致力于中醫(yī)藥標(biāo)準(zhǔn)化和規(guī)范化。術(shù)語規(guī)范,尤其是中醫(yī)藥英語術(shù)語規(guī)范,是中醫(yī)藥標(biāo)準(zhǔn)化進程中最基礎(chǔ)、最亟待解決的問題[1]。得益于謝竹藩、帥學(xué)忠、李照國等前輩們的不懈努力,多部術(shù)語標(biāo)準(zhǔn)先后出版并廣泛傳播。人民衛(wèi)生出版社(PMPH)制定的《中醫(yī)英語術(shù)語(內(nèi)部草案)》、世界衛(wèi)生組織(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》和世界中醫(yī)藥學(xué)會聯(lián)合會(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》是當(dāng)前知曉度和應(yīng)用率最高的3 個術(shù)語標(biāo)準(zhǔn)[2-3]。然而,近幾年在閱讀文獻和教學(xué)中發(fā)現(xiàn),學(xué)生、中醫(yī)從業(yè)者、科研工作者對中醫(yī)術(shù)語標(biāo)準(zhǔn)的知曉度和使用頻率不高[4]。中英文的中醫(yī)/中西醫(yī)結(jié)合類學(xué)術(shù)期刊投稿指南鮮有要求投稿時注意術(shù)語規(guī)范或推薦使用已經(jīng)發(fā)布的術(shù)語標(biāo)準(zhǔn)。中醫(yī)學(xué)作為一個偏傳統(tǒng)的學(xué)科,尚缺乏標(biāo)準(zhǔn)化和規(guī)范化意識,在術(shù)語使用上較為隨意。究其原因,當(dāng)前這些術(shù)語大部分為紙質(zhì)版或電子書形式,不利于查找[5];另外,3 個標(biāo)準(zhǔn)也有差異,雖各有千秋,但也有一些局限性和片面性[6]。因此,我們基于以上術(shù)語標(biāo)準(zhǔn)建設(shè)中醫(yī)藥術(shù)語中英對照數(shù)據(jù)集,合并詞義相同的術(shù)語,研究術(shù)語差異和建立術(shù)語查詢系統(tǒng),為建立更權(quán)威、合理、全面的中醫(yī)藥術(shù)語數(shù)據(jù)庫打下基礎(chǔ)。
所有數(shù)據(jù)來源于人民衛(wèi)生出版社(PMPH)制定的《中醫(yī)英語術(shù)語(內(nèi)部草案)》、世界衛(wèi)生組織(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》[7]和世界中醫(yī)藥學(xué)會聯(lián)合會(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》[8]。獲得所有中醫(yī)術(shù)語的字段,并進行合并。
原始數(shù)據(jù)為WHO、PMPH、WFCMS 3 個標(biāo)準(zhǔn)的書籍或電子文檔。把原始數(shù)據(jù)通過OCR 和PDF轉(zhuǎn)化工具整理成規(guī)范的數(shù)據(jù)表(dataframe)格式,命名為WHO.csv、PMPH.csv、WFCMS.csv。將每個數(shù)據(jù)表每條記錄均以術(shù)語的中文簡體名稱作為唯一字段方便進行數(shù)據(jù)合并,使用Python 的pandas包對數(shù)據(jù)進行合并和清洗。最終合并的數(shù)據(jù)表字段為:ID、中文簡體、中文繁體、拼音、WHO 英文術(shù)語、PMPH 英文術(shù)語、WFCMS 英文術(shù)語、術(shù)語的英文解釋(基于WHO 標(biāo)準(zhǔn))、類別編碼、類別名稱。共整理數(shù)據(jù)16 189 條,其中WHO 術(shù)語3262 條,PMPH 術(shù)語6848 條,WFCMS 術(shù)語6079 條(圖1)。最終合并為8975 條。
圖1 數(shù)據(jù)采集和處理方法流程
為了便于進行歸類,我們基于《中華人民共和國國家標(biāo)準(zhǔn)GB/T 13745-2009 學(xué)科分類與代碼》[9]進行了更進一步分類(表1)。部分分類下沒有條目,是為了以后填充術(shù)語而暫時保留。文檔編碼為UTF-8,針對生僻字或數(shù)據(jù)合并后可能出現(xiàn)的亂碼,根據(jù)原始數(shù)據(jù)進行修正。每條數(shù)據(jù)的繁體中文和拼音均使用計算機自動生成,為了避免多音字錯誤,對一些常見多音字進行了拼音修正。對于某個標(biāo)準(zhǔn)中沒有的英文術(shù)語,保持該字段為空。只有WHO 標(biāo)準(zhǔn)提供了術(shù)語的英文解釋,對于WHO 中沒有的術(shù)語條目,術(shù)語的英文解釋字段為空。所有方名、藥名均為實體詞首字母大寫,所有簡寫均為大寫字母,所有穴位名均為大寫字母;其余英文術(shù)語均為小寫。數(shù)據(jù)集采集和處理由吳佳澤完成(7 年編程經(jīng)驗,在 GitHub 擁有 10 項開源項目,榮獲 Arctic Code Vault Contributor,https://github.com/BillEliot)。
表1 術(shù)語分類表
本數(shù)據(jù)集包含1 張數(shù)據(jù)表。表中有10 個字段,包括ID、中文簡體、中文繁體、拼音、WHO 英文術(shù)語、PMPH 英文術(shù)語、WFCMS 英文術(shù)語、術(shù)語的英文解釋、類別編碼、類別名稱。每個類別的數(shù)據(jù)量如表1。
以中醫(yī)術(shù)語“關(guān)格”為例,表2 全面展示了該術(shù)語的中英文術(shù)語名稱和英文解釋。歸類以類別編碼和類別名稱表示,可根據(jù)表1 歸類對應(yīng)。
表2 中醫(yī)藥術(shù)語中英對照數(shù)據(jù)集樣本展示
在通過Python 完成數(shù)據(jù)合并后,我們依靠人工核對的方式對數(shù)據(jù)進行修正。由2 人首先對數(shù)據(jù)對應(yīng)性問題進行核查,保證無串行、錯位等現(xiàn)象;然后對照源數(shù)據(jù)對數(shù)據(jù)轉(zhuǎn)化中出現(xiàn)的亂碼分別進行修復(fù);重點核對生僻字和多音字條目的拼音。對于源數(shù)據(jù)中本身就是亂碼,無法進行核實的,暫時保留,待以后通過其他途徑核查條目確認(rèn)后再進行修改。對于名稱不同,但意思相同的術(shù)語,暫不合并,全部視為不同記錄,予以保留。同時,以Vue.js+Django 為基礎(chǔ)框架搭建了在線檢索網(wǎng)站(https://medai.vip)。在網(wǎng)站中檢索術(shù)語時,若使用者發(fā)現(xiàn)錯誤的條目,可以直接點報錯(圖2),我們在系統(tǒng)后臺定期進行修正。質(zhì)控人員為梁昊(本科畢業(yè)于湖南中醫(yī)藥大學(xué)醫(yī)學(xué)英語專業(yè),從事中醫(yī)英譯工作10 年)和周小青(曾任世界中醫(yī)藥學(xué)會聯(lián)合會翻譯專業(yè)委員會副會長,長期從事中醫(yī)英譯工作)。
圖2 中醫(yī)術(shù)語中英對照查詢系統(tǒng)術(shù)語報錯演示
本數(shù)據(jù)集以csv 文件為存儲格式,使用者可以使用主流的數(shù)據(jù)管理及統(tǒng)計軟件來對數(shù)據(jù)進行修改和查看,尤其方便利用Python 和R 語言對術(shù)語進行文本分析和處理。同時,基于本數(shù)據(jù)集搭建了術(shù)語檢索系統(tǒng)(https://www.medai.vip),可以在該網(wǎng)站上隨時檢索術(shù)語。任何組織和個人可以以非商業(yè)目的使用本數(shù)據(jù)集,如搭建自己的術(shù)語庫或術(shù)語檢索系統(tǒng)。
國內(nèi)目前未見相似中英對照中醫(yī)術(shù)語數(shù)據(jù)集。隨著中醫(yī)在全球的發(fā)展,國家對發(fā)展中醫(yī)藥的支持,國外對中醫(yī)的了解需求日益增加。但由于種種原因的限制,不能及時查閱到中醫(yī)術(shù)語對應(yīng)的英文,導(dǎo)致國內(nèi)外中醫(yī)愛好者、學(xué)習(xí)者在學(xué)習(xí)交流的過程中,存在交流障礙,限制了中醫(yī)對外發(fā)展及中醫(yī)的對外交流。本數(shù)據(jù)集的公開,方便了中醫(yī)從業(yè)者查詢術(shù)語,促進了中醫(yī)術(shù)語的規(guī)范化應(yīng)用,有利于學(xué)術(shù)交流和中醫(yī)的繼承發(fā)揚。同時,標(biāo)準(zhǔn)化的術(shù)語也方便了中醫(yī)藥信息化建設(shè),尤其是在HIS、電子病歷系統(tǒng)、醫(yī)學(xué)數(shù)據(jù)分析系統(tǒng)中,讓數(shù)據(jù)更加整潔,避免產(chǎn)生垃圾數(shù)據(jù),減少不必要的數(shù)據(jù)清洗工作。與此同時,中醫(yī)藥領(lǐng)域開源的數(shù)據(jù)集稀少,不利于科學(xué)研究的開展和共享,本數(shù)據(jù)集的發(fā)布也是中醫(yī)藥開源模式的一次嘗試,希望同行能夠分享更多數(shù)據(jù)集,促進中醫(yī)藥的開放與發(fā)展。
中國科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2021年3期