亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中醫(yī)方劑數(shù)據(jù)庫(kù)文本挖掘數(shù)據(jù)預(yù)處理的嘗試

2015-12-05 03:29:54吳磊李舒

中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志 2015年3期

關(guān)鍵詞：數(shù)據(jù)挖掘中醫(yī)藥數(shù)據(jù)庫(kù)

吳磊，李舒

吳磊1，李舒2

1.遼寧中醫(yī)藥大學(xué)信息工程學(xué)院，遼寧沈陽(yáng) 110847；2.中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系，遼寧沈陽(yáng) 110001

目的針對(duì)中醫(yī)方劑數(shù)據(jù)挖掘需要提出一套以數(shù)據(jù)清洗為主的數(shù)據(jù)預(yù)處理方法，使數(shù)據(jù)規(guī)范、準(zhǔn)確和有序，利于后續(xù)處理。方法通過(guò)檢索技術(shù)，在方劑數(shù)據(jù)庫(kù)中獲取文本數(shù)據(jù)源，將非規(guī)范化的數(shù)據(jù)通過(guò)輔助詞群行處理、正則表達(dá)式替換、異名處理等步驟進(jìn)行清洗，改進(jìn)數(shù)據(jù)質(zhì)量。結(jié)果在中國(guó)方劑數(shù)據(jù)庫(kù)共檢索到1758條記錄，在方劑現(xiàn)代應(yīng)用數(shù)據(jù)庫(kù)共檢索到91條記錄。源文本數(shù)據(jù)經(jīng)預(yù)處理后共得到有效記錄6913味藥，可成功導(dǎo)入相關(guān)信息挖掘系統(tǒng)進(jìn)行方劑名稱(chēng)和中藥名詞的信息抽取。結(jié)論本方法適用于基于中醫(yī)方劑數(shù)據(jù)庫(kù)的文本挖掘和知識(shí)發(fā)現(xiàn)，可成功對(duì)源文本數(shù)據(jù)實(shí)施清洗，得到標(biāo)準(zhǔn)統(tǒng)一、無(wú)噪聲的數(shù)據(jù)，實(shí)現(xiàn)所需方藥信息的有效抽取，可為中醫(yī)方劑文本型數(shù)據(jù)信息分析與挖掘研究提供有益的借鑒。

中醫(yī)方劑；方劑數(shù)據(jù)庫(kù)；文本挖掘；數(shù)據(jù)預(yù)處理；數(shù)據(jù)清洗

近年來(lái)中醫(yī)藥信息化發(fā)展迅速，已構(gòu)建及完善了大量的中醫(yī)方劑數(shù)據(jù)庫(kù)，中醫(yī)方劑數(shù)據(jù)挖掘和文本挖掘方興未艾。雖然方劑數(shù)據(jù)庫(kù)是經(jīng)過(guò)一定校對(duì)勘誤后的結(jié)構(gòu)化數(shù)據(jù)庫(kù)，但庫(kù)中原始數(shù)據(jù)通常因年代跨度大，并保留了不同時(shí)期原方的信息特點(diǎn)，對(duì)方劑、藥物信息的表述準(zhǔn)確性及規(guī)范統(tǒng)一方面存在一些問(wèn)題，存在錯(cuò)誤的、冗余的、無(wú)效的和不一致的噪聲數(shù)據(jù)。因而直接抽取原生信息無(wú)法滿(mǎn)足數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的具體要求，需要對(duì)數(shù)據(jù)進(jìn)行必要的預(yù)處理，使之規(guī)范、準(zhǔn)確和有序，實(shí)現(xiàn)數(shù)據(jù)的正確表達(dá)和合理組織，達(dá)到數(shù)據(jù)挖掘的基本條件。

數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中極為重要的方面。數(shù)據(jù)挖掘過(guò)程的大部分工作都在數(shù)據(jù)預(yù)處理環(huán)節(jié)。根據(jù)統(tǒng)計(jì)，在一個(gè)完整的數(shù)據(jù)挖掘過(guò)程中，數(shù)據(jù)預(yù)處理占用約60%的時(shí)間，而后的挖掘工作僅占總工作量的10%左右[1]。數(shù)據(jù)清洗（data cleaning）是解決問(wèn)題數(shù)據(jù)的主要預(yù)處理過(guò)程，對(duì)確保數(shù)據(jù)質(zhì)量具有重要作用。本文以中醫(yī)治療中風(fēng)病方劑數(shù)據(jù)挖掘?yàn)槔?，探討一種以數(shù)據(jù)清洗為主的數(shù)據(jù)預(yù)處理方法，為后續(xù)配伍規(guī)律知識(shí)發(fā)現(xiàn)研究提供數(shù)據(jù)支持。

1 資料與方法

1.1 數(shù)據(jù)來(lái)源

由于本研究主要針對(duì)方劑名稱(chēng)和藥物名稱(chēng)進(jìn)行預(yù)處理，因此選用了兩個(gè)具備方劑和藥物名稱(chēng)的數(shù)據(jù)庫(kù)，即中國(guó)方劑數(shù)據(jù)庫(kù)和方劑現(xiàn)代應(yīng)用數(shù)據(jù)庫(kù)，均隸屬于中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所自1984年開(kāi)始進(jìn)行建設(shè)的中醫(yī)藥學(xué)大型數(shù)據(jù)庫(kù)群。

在中醫(yī)藥在線(xiàn)（http://www.cintcm.com/）的中醫(yī)藥多庫(kù)融合平臺(tái)（http://cowork.cintcm.com/ engine/windex.jsp）中，選擇方劑類(lèi)數(shù)據(jù)庫(kù)中的中國(guó)方劑數(shù)據(jù)庫(kù)和方劑現(xiàn)代應(yīng)用數(shù)據(jù)庫(kù)，字段選擇均用“主治”，模糊檢索，輸入“中風(fēng)”，年代不限，檢索時(shí)間為2013年11月27日。

1.2 研究方法與工具

1.2.1 基于輔助詞群的行處理工具文本行抽取和處理是文本數(shù)據(jù)預(yù)處理中的常用方法，而基于輔助詞群的方法可有效提升其靈活度。該方法是基于預(yù)先建立的包含輔助詞群的輔助文件，可對(duì)源文件實(shí)現(xiàn)抽取或去除包含輔助文件中詞群的行輸出；并可按給定的批量行號(hào)提取行。

本研究中的行處理由數(shù)字人文研究-內(nèi)容挖掘系統(tǒng)ROST CM實(shí)現(xiàn)。

1.2.2 正則表達(dá)式文本處理工具正則表達(dá)式是一種可以用于模式匹配和替換的規(guī)范，一個(gè)正則表達(dá)式就是由普通的字符以及特殊字符組成的文字模式，它用以描述在查找文字主體時(shí)待匹配的一個(gè)或多個(gè)字符串[2]。在很多文本編輯器或其他工具里，正則表達(dá)式通常被用來(lái)檢索和/或替換那些符合某個(gè)模式的文本內(nèi)容。

正則表達(dá)式可用來(lái)驗(yàn)證字符串是否符合指定特征并用來(lái)查找字符串，比查找固定字符串更加靈活方便；可以用來(lái)替換，比普通的替換更強(qiáng)大。例如表達(dá)式“ab+”描述的特征是一個(gè)“a”和任意個(gè)“b”，那么“ab”“abb”“abbbbbbbbbb”都符合這個(gè)特征。

本研究中的正則表達(dá)式處理由文本處理工具Textpro實(shí)現(xiàn)。

1.3 納入和排除標(biāo)準(zhǔn)

納入標(biāo)準(zhǔn)：以方劑主治病證中明確出現(xiàn)中風(fēng)、半身不遂、偏枯、癱瘓、神識(shí)昏蒙、言語(yǔ)蹇澀或不語(yǔ)、口眼歪斜及其同義詞或近義詞為主癥，篩選出主治這些主癥的方劑或其主治內(nèi)容所包含的信息與已知的中風(fēng)病病因病機(jī)符合的方劑。

排除標(biāo)準(zhǔn)：排除方劑所治癥狀可明確為其他因素（非中風(fēng)）所引起的偏枯、偏癱、口眼歪斜等，無(wú)主癥或主癥不符合，及屬于治療外感表證和類(lèi)中風(fēng)（中寒、中暑、中濕、痰厥等致半身不遂、偏枯癱瘓）的中風(fēng)方劑，如風(fēng)痹；外風(fēng)、風(fēng)濕/類(lèi)風(fēng)濕型產(chǎn)后中風(fēng)、小兒中風(fēng)；風(fēng)寒/傷寒中風(fēng)，破傷中風(fēng)，心肺中風(fēng)，脾胃中風(fēng)，肝臟中風(fēng)，中毒等。

2 結(jié)果與分析

中國(guó)方劑數(shù)據(jù)庫(kù)共檢索到1758條記錄，在方劑現(xiàn)代應(yīng)用數(shù)據(jù)庫(kù)共檢索到91條記錄。以“一般模板”進(jìn)行套錄，保存為HTML格式；再將源文件的HTML格式轉(zhuǎn)為ANSI編碼的TXT格式；最后來(lái)自?xún)蓚€(gè)數(shù)據(jù)庫(kù)的兩組文本合并。之后經(jīng)標(biāo)準(zhǔn)過(guò)濾并整理去重后，共得到有效記錄648條，重新編號(hào)后形成待處理源文本，其中取自中國(guó)方劑數(shù)據(jù)庫(kù)1號(hào)源文件的部分文本數(shù)據(jù)如圖1所示。

2.1 基于輔助詞群的文本行處理

為提取源數(shù)據(jù)中主要關(guān)注的方藥信息，使用ROST CM的基于輔助詞群的行抽取與處理方法對(duì)信息進(jìn)行清理，“方名”和“藥物組成”兩字段除外。輔助詞群設(shè)置為[別名][處方來(lái)源][劑型][功效][加減][主治][制備方法][用法用量][用藥禁忌][用法用量][各家論述][臨床應(yīng)用][備注][藥理作用]。經(jīng)過(guò)文本行處理后，源文件內(nèi)容轉(zhuǎn)為如下形式，如圖2所示。

2.2 基于正則表達(dá)式的文本處理

本研究中，因特殊制法和劑量信息暫不考慮，這些信息需要被屏蔽。文本源數(shù)據(jù)的特殊制法部分都采用了中文括號(hào)表示，故使用正則表達(dá)式替換操作，表達(dá)式設(shè)置為“（[^）]*）”（意為從一個(gè)開(kāi)括號(hào)到最近的閉括號(hào)）。該操作在支持REGEX的Textpro工具中進(jìn)行，如圖3所示。

如“何首烏1斤（赤、白色者各半，米泔浸3宿取出，用竹刀刮去皮，薄切，焙干）”，處理完形后，為“何首烏1斤(p)”。

對(duì)于劑量信息，首先刪除藥名后的“等”和“各等分”字符，如“川芎等”、“當(dāng)歸各等分”，去掉后為“川芎”“當(dāng)歸”；再使用自定義替換功能將中文劑量字符統(tǒng)一轉(zhuǎn)換為數(shù)字字符，如將“半兩”轉(zhuǎn)為“0.5兩”；最后再清除劑量和制法信息。具體做法為：使用正則表達(dá)式“d[^;]*;”（意為從一個(gè)數(shù)字字符到最近的英文分號(hào)），將其替換為英文分號(hào)，可將劑量信息去除。

圖1 中國(guó)方劑數(shù)據(jù)庫(kù)1號(hào)源文件的部分文本數(shù)據(jù)

圖2 文本行處理后結(jié)果

圖3 正則表達(dá)式處理

2.3 藥物名稱(chēng)不一致處理

源文本中的“藥物組成”字段為長(zhǎng)文本類(lèi)型，包括各種中草藥的名稱(chēng)，是非規(guī)范化的數(shù)據(jù)，存在不一致問(wèn)題。中藥品種眾多，名稱(chēng)復(fù)雜，因時(shí)代、地域不同而有別，常根據(jù)藥物的形態(tài)、產(chǎn)地、顏色、功效等特征來(lái)命名。因此源文本數(shù)據(jù)中同藥異名、同名異藥的現(xiàn)象十分普遍。例如僵蠶處方名有天蟲(chóng)、僵蟲(chóng)、白僵蟲(chóng)等多種名稱(chēng)，但均實(shí)屬同一藥物，應(yīng)都規(guī)范為僵蠶。

本研究的中藥異名問(wèn)題，主要參考《中藥學(xué)》[3]教材及《中藥大辭典》[4]進(jìn)行規(guī)范化處理。原則上將長(zhǎng)名轉(zhuǎn)為短名，如：明天麻轉(zhuǎn)為天麻，甘菊花轉(zhuǎn)為菊花等，如反之，則會(huì)出現(xiàn)如“甘甘菊花”的無(wú)效結(jié)果；但有些藥確要將短名化長(zhǎng)名，則需確認(rèn)源文本中藥名前后皆以英文分號(hào)結(jié)尾（無(wú)劑量等信息）：如將“芎”化為“川芎”，“白附”化為“白附子”。

依據(jù)參考書(shū)建立藥名轉(zhuǎn)換規(guī)范對(duì)照表，使用Textpro的自定義替換功能載入該表，對(duì)源文本數(shù)據(jù)批量處理，規(guī)范化藥名，如表1所示。

表1 Textpro載入的藥名轉(zhuǎn)換規(guī)范（部分）

對(duì)于“芎?”這類(lèi)特殊字符構(gòu)成形式，在部分系統(tǒng)處理完畢后出現(xiàn)未能匹配成功替換情況，可使用單獨(dú)替換功能重新處理一遍。

此外，源數(shù)據(jù)中某些藥物與現(xiàn)代中藥存在差別，有一些藥名≥2個(gè)中藥合并起來(lái)的簡(jiǎn)稱(chēng)，為了統(tǒng)一藥名，需要將其拆分開(kāi)來(lái)，如將蒼白術(shù)拆分為蒼術(shù)、白術(shù)。

源文本數(shù)據(jù)經(jīng)預(yù)處理后共得到有效記錄6913味藥，部分結(jié)果如圖4所示。

圖4 源文本數(shù)據(jù)預(yù)處理后結(jié)果

本研究表明，該預(yù)處理方法可成功地對(duì)源文本數(shù)據(jù)實(shí)施清洗，得到標(biāo)準(zhǔn)統(tǒng)一、無(wú)噪聲的數(shù)據(jù)，因此是有效的。結(jié)果數(shù)據(jù)可導(dǎo)入書(shū)目信息共現(xiàn)挖掘系統(tǒng)（BICOMB）[5]進(jìn)行方劑名稱(chēng)和中藥名詞的信息抽取，為進(jìn)一步進(jìn)行知識(shí)發(fā)現(xiàn)提供了有力的數(shù)據(jù)支撐。

3 小結(jié)

數(shù)據(jù)清洗就是通過(guò)各種措施，從準(zhǔn)確性、一致性、無(wú)冗余、符合應(yīng)用的需求等方面提高數(shù)據(jù)的質(zhì)量[6]，實(shí)質(zhì)是消除數(shù)據(jù)中的錯(cuò)誤和不一致。目前，中醫(yī)藥信息處理與分析中的數(shù)據(jù)預(yù)處理方法種類(lèi)繁多，本文試用一種定制的以數(shù)據(jù)清洗為主的數(shù)據(jù)預(yù)處理方法對(duì)非規(guī)范的原始數(shù)據(jù)進(jìn)行了有效的處理，是中醫(yī)藥數(shù)據(jù)挖掘和文本領(lǐng)域的一次有益嘗試，希望對(duì)后續(xù)研究起到拋磚引玉的作用，并推廣至其他中醫(yī)方劑類(lèi)文本型數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理中，為中醫(yī)方劑數(shù)據(jù)挖掘和文本挖掘研究提供新方法和技術(shù)手段。

[1] 魏琳.基于區(qū)間值聚類(lèi)的錐栗數(shù)據(jù)挖掘研究與分析[J].無(wú)線(xiàn)互聯(lián)科技, 2013(12):127-128,148.

[2] 喬磊,李存華,仲兆滿(mǎn),等.基于規(guī)則的人物信息抽取算法的研究[J].南京師大學(xué)報(bào):自然科學(xué)版,2012,35(4):134-139.

[3] 高學(xué)敏.中藥學(xué)[M].北京:中國(guó)中醫(yī)藥出版社,2007.

[4] 南京中醫(yī)藥大學(xué).中藥大辭典[M].2版.上海:上?？茖W(xué)技術(shù)出版社, 2006.

[5] 崔雷,劉偉,閆雷,等.文獻(xiàn)數(shù)據(jù)庫(kù)中書(shū)目信息共現(xiàn)挖掘系統(tǒng)的開(kāi)發(fā)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008(8):70-75.

[6] 崔雷.醫(yī)學(xué)數(shù)據(jù)挖掘[M].北京:高等教育出版社,2006:7.

An Attempt on Data Preprocessing for Text Mining in TCM Prescription Database

WU Lei1, LI Shu2

(1. Information Engineering College, Liaoning University of TCM, Shenyang Liaoning 110847, China;2. Department of Medical Informatics, China Medical University, Shenyang Liaoning 110001, China)

Objective To propose a set of data preprocessing method based on data cleaning for TCM prescription database; To make data more standard, accurate and orderly, and convenient for follow-up processing. Methods The text data source was retrieved from prescription databases by bibliographic searching techniques. Non-normalized data were processed through steps followed by auxiliary word group line processing, regular expression substitution, and synonyms processing, with a purpose to improve data quality. Results Totally 1758 effective records were retrieved from TCM prescription database, and 91 records were retrieved from prescription modern application database. 6913 effective Chinese herbal medicines were retrieved after preprocessing, which can be successfully imported into relevant information mining system, and information about prescription and herb names can be extracted. Conclusion This method is applicable for text mining and knowledge discovery in TCM prescription database. It can successfully implement data cleaning for source text data, get data with unified standard and without noise, and finally realize the effective extraction of prescription information, which can provide

for researches on analysis and mining of TCM prescription text data.

TCM prescriptions; prescription database; text mining; data preprocessing; data cleaning

10.3969/j.issn.2095-5707.2015.03.003

（2014-08-24；編輯：魏民）

遼寧省教育廳科研課題（L2012345）

吳磊，副教授，研究方向?yàn)橹嗅t(yī)藥信息學(xué)。E-mail: l.wu-sy@qq.com