亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Aho_Corasick算法的中醫(yī)藥數(shù)據(jù)清洗方法

        2022-03-21 21:39:09郭春麗紀(jì)樹(shù)峰林源黃海松王俐良
        計(jì)算機(jī)時(shí)代 2022年3期
        關(guān)鍵詞:大數(shù)據(jù)技術(shù)預(yù)處理中醫(yī)藥

        郭春麗 紀(jì)樹(shù)峰 林源 黃海松 王俐良

        摘? 要: 中醫(yī)藥經(jīng)過(guò)數(shù)千年的發(fā)展,積累了大量的各種類型的數(shù)據(jù)。很多研究人員利用大數(shù)據(jù)技術(shù),對(duì)方劑或藥品數(shù)據(jù)預(yù)處理后,使用相關(guān)算法挖掘和探尋疾病診療規(guī)律,為新藥研制、疾病診治、醫(yī)學(xué)科研提供科學(xué)的依據(jù)。但隨著方劑規(guī)模的增大,人工預(yù)處理的方式效率低且易出錯(cuò)。因此,文章提出一種基于Aho_Corasick算法的清洗方法,將藥物作為模式串,對(duì)方劑或藥品的藥物信息進(jìn)行識(shí)別,規(guī)范統(tǒng)一方劑中的藥物名稱,為后續(xù)挖掘工作提供高質(zhì)量的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示,準(zhǔn)確率達(dá)到95%以上,數(shù)據(jù)清洗效果明顯。

        關(guān)鍵詞: 中醫(yī)藥; 大數(shù)據(jù)技術(shù); Aho_Corasick算法; 預(yù)處理; 數(shù)據(jù)清洗

        中圖分類號(hào):TP3? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ?文章編號(hào):1006-8228(2022)03-77-04

        Abstract: Traditional Chinese Medicine (TCM) is accumulated a large number of various types of data after being thousands of years. Many researchers use big data technology to mine and explore the rules of disease diagnosis after preprocessing the data of prescription and/or drug, so as to provide scientific basis for new drug development, disease diagnosis and treatment, and medical research. However, with the increase of prescriptions' scale, it is inefficient and error-prone in the manual pre-process method. Therefore, a cleaning method based on Aho_Corasick algorithm is proposed in this paper. The drugs are used as pattern strings, and then their names are identified from prescriptions or TCM to make them a standard and uniform, so as to provide high-quality TCM data prepared for subsequent mining work. The experimental results show that the accuracy are more than 95%, and the data cleaning effect is obvious.

        Key words: TCM; big data technology; Aho_Corasick algorithm; pre-process; data cleaning

        0 引言

        中醫(yī)藥是我國(guó)傳統(tǒng)文化燦爛寶庫(kù)中的重要組成部分,蘊(yùn)藏了豐富的中醫(yī)經(jīng)驗(yàn)知識(shí)。很多研究者利用大數(shù)據(jù)技術(shù)從中醫(yī)藥挖掘藥物的配伍規(guī)律,為中醫(yī)藥的臨床推廣提供科學(xué)的量化依據(jù)。

        文獻(xiàn)[1]從4000余首經(jīng)典方劑中,根據(jù)中藥方劑特性構(gòu)建中藥網(wǎng)絡(luò)模型,從1577味中藥節(jié)點(diǎn)和97103條邊中挖掘出復(fù)雜網(wǎng)絡(luò)中配伍關(guān)系緊密、相似度較大的藥物群。文獻(xiàn)[2]利用國(guó)醫(yī)堂名老中醫(yī)治療肺癌的2666條處方數(shù)據(jù),處理方劑信息和藥物屬性信息,構(gòu)建中藥加權(quán)網(wǎng)絡(luò),找出核心藥物再進(jìn)行藥物社團(tuán)劃分。文獻(xiàn)[3]應(yīng)用關(guān)聯(lián)規(guī)則分析技術(shù),挖掘隱含在消渴病復(fù)方數(shù)據(jù)中的配伍規(guī)律。文獻(xiàn)[4]采用FP-Growth算法挖掘中藥方劑的隱藏信息,分析中藥的配伍規(guī)律和斗譜的編排,提高中藥調(diào)劑效率。以上研究使用的方劑數(shù)量不大,可人工處理驗(yàn)證。但對(duì)于海量的數(shù)據(jù),處理方劑等數(shù)據(jù)源里藥材名稱不規(guī)范、術(shù)語(yǔ)概念不統(tǒng)一的問(wèn)題[5],必須依賴于技術(shù)手段,確保中藥材的術(shù)語(yǔ)名稱統(tǒng)一,為后續(xù)數(shù)據(jù)挖掘做好準(zhǔn)備。

        本文采用Aho_Corasick算法根據(jù)《中華本草》、《中國(guó)藥典》等標(biāo)準(zhǔn)的中藥材名稱,按照數(shù)據(jù)一致性、完整性、正確性的規(guī)則,對(duì)中成藥的成分信息進(jìn)行清洗,為中醫(yī)藥挖掘提供高質(zhì)量的基礎(chǔ)數(shù)據(jù)。

        1 數(shù)據(jù)清洗的概念

        數(shù)據(jù)清洗是數(shù)據(jù)挖掘前對(duì)數(shù)據(jù)預(yù)處理的一關(guān)鍵環(huán)節(jié),是通過(guò)分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用現(xiàn)有的技術(shù)手段和方法去清洗“臟數(shù)據(jù)”,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量或應(yīng)用要求的數(shù)據(jù),從而提高數(shù)據(jù)集的數(shù)據(jù)質(zhì)量[6]。主要包括以下幾大類。

        ⑴ 重復(fù)數(shù)據(jù):相同屬性的值也相同,這樣的記錄被認(rèn)為是重復(fù)記錄,可通過(guò)合并或刪除重復(fù)記錄。

        ⑵ 缺失數(shù)據(jù):數(shù)據(jù)內(nèi)容殘缺不完整,比如關(guān)鍵屬性的值為NULL、空值或未知等。若不完整的數(shù)據(jù)用于挖掘,會(huì)影響抽取模式的正確性。

        ⑶ 錯(cuò)誤數(shù)據(jù):屬性的值不正確,比如中醫(yī)藥研究的是成分至少含有一種中藥材的中成藥、方劑等對(duì)象,對(duì)于成分全部為西藥的記錄被認(rèn)為是錯(cuò)誤數(shù)據(jù),可直接刪除。

        ⑷ 異常數(shù)據(jù):是指名稱不規(guī)范引起的沖突,比如處方中用的波蔻,經(jīng)查證,實(shí)為云南草寇的俗名[7]。這類情況較為普遍,一種中藥材有多個(gè)別名,需要對(duì)其規(guī)范統(tǒng)一。

        2 數(shù)據(jù)清洗的設(shè)計(jì)

        本文的中醫(yī)藥主要指藥廠生產(chǎn)的中成藥數(shù)據(jù),包含藥品名稱、成分、功效等信息,共有10679條數(shù)據(jù)。

        2.1 清洗的規(guī)則

        中成藥信息的數(shù)據(jù)挖掘,主要是分析中成藥成分里中藥材之間的關(guān)系。一條中成藥數(shù)據(jù)是一個(gè)record,數(shù)據(jù)的清洗集中在名稱name、成分elements這兩個(gè)屬性,針對(duì)這兩個(gè)屬性對(duì)重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、異常數(shù)據(jù)進(jìn)行判別。

        ⑴ record[i].name=record[j].name,則是重復(fù)數(shù)據(jù),作刪除處理。

        ⑵ record[i].name=‘’或record[i].elements=‘’,則是缺失數(shù)據(jù),作刪除處理。

        ⑶ elements不含有中藥材的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)。也就是說(shuō),從elements匹配出一個(gè)或多個(gè)中藥材的數(shù)據(jù)是正確數(shù)據(jù)。中藥材有標(biāo)準(zhǔn)的名稱,從網(wǎng)上爬取后存儲(chǔ)到數(shù)據(jù)庫(kù)中,主要有中藥材的標(biāo)準(zhǔn)名稱、別名、藥效、產(chǎn)區(qū)等信息,共有1759條記錄。如表1。

        對(duì)錯(cuò)誤數(shù)據(jù)的判別問(wèn)題簡(jiǎn)化為:

        輸入:文本串,即長(zhǎng)度為n的不規(guī)則字符串elements:T1,T2,T3,…,Tn。

        模式串,即k種中藥材P1,P2,……,Pk組成。

        過(guò)程:文本串的某個(gè)字符Tj([j≤n])與任意模式串對(duì)應(yīng)位置的字符p均不相同,則稱文本串Tj處發(fā)生了失配;若某個(gè)模式串Pi([i≤k])與文本串的一個(gè)子串相同,則模式串Pi匹配成功。

        輸出:匹配出所有的Pi構(gòu)成集合S,集合S[=?],則說(shuō)明elements中沒(méi)有中藥材,則作刪除處理;

        集合S[≠?],則說(shuō)明elements含有中藥材,則數(shù)據(jù)正常。

        另外,由于中藥材的名稱之間有包含關(guān)系,比如,人參、人參葉、人參蘆、貓人參、人參子是五種不同的中藥材,elements含有人參葉時(shí),會(huì)匹配出{人參葉,人參},對(duì)于這種清洗后造成的數(shù)據(jù)不準(zhǔn)確需要再進(jìn)一步處理。

        ⑷ name名稱不規(guī)范導(dǎo)致的異常數(shù)據(jù),不僅僅可以參照中藥材的別名,還需要有一些中藥材的業(yè)務(wù)知識(shí)。完成上面三種類型數(shù)據(jù)清洗后,再?gòu)那逑闯龅呐K數(shù)據(jù)里進(jìn)行人工核驗(yàn)。這種類型的數(shù)據(jù)量不多,暫不屬于本文的范疇。

        2.2 清洗的流程

        數(shù)據(jù)清洗的流程如圖1所示,具體過(guò)程如下。

        ⑴ 從中成藥原始數(shù)據(jù)中讀取每一條記錄。

        ⑵ 根據(jù)重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)的規(guī)則進(jìn)行判斷,若符合規(guī)則,則對(duì)記錄進(jìn)行刪除。

        ⑶ 匹配出中藥材。首先需要使用標(biāo)準(zhǔn)的中藥材名稱構(gòu)建模式集,中藥材名稱都是中文,這里考慮對(duì)中文的支持;其次,選用多模式匹配的算法,讀取每條中成藥記錄的成分信息,匹配出中藥材名稱。

        ⑷ 對(duì)匹配結(jié)果再次處理:對(duì)于少量有包含關(guān)系的中藥材名稱,匹配的結(jié)果不夠準(zhǔn)確。比如原成分信息中含有土茯苓,匹配的結(jié)果是{土茯苓、茯苓},這種需進(jìn)一步處理,即匹配后的中藥材有包含關(guān)系的,只取長(zhǎng)度較長(zhǎng)的中藥材,再把匹配的中藥材集合拼接成一個(gè)字符串作為該中成藥清洗后的成分信息。

        ⑸ 驗(yàn)證結(jié)果:用清洗后的數(shù)據(jù),與原始數(shù)據(jù)進(jìn)行比較,檢查驗(yàn)證清洗的效果。

        3 應(yīng)用實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)過(guò)程

        本文采用Aho_Corasick算法(簡(jiǎn)稱AC算法),它是將多個(gè)模式串構(gòu)建成有限狀態(tài)自動(dòng)機(jī),實(shí)現(xiàn)以此掃描文本串完成多個(gè)模式串的匹配,時(shí)間復(fù)雜度為[O(n)][8]。

        AC算法先建立一個(gè)初始狀態(tài) 0,逐一讀入每個(gè)模式串的每個(gè)字符,生成一個(gè)trie樹(shù)(二叉檢索樹(shù)),并進(jìn)一步線索化,生成一個(gè)有向圖。其中,有限狀態(tài)自動(dòng)機(jī)用三個(gè)函數(shù)來(lái)表示:goto函數(shù)、failure函數(shù)和output函數(shù)[9]。

        ⑴ goto函數(shù),也叫做轉(zhuǎn)移函數(shù),它的作用是在當(dāng)前狀態(tài)下輸入下一個(gè)要比較文本的字符后可以達(dá)到的下一個(gè)狀態(tài),此函數(shù)的生成需要掃描所有模式串的每個(gè)字符,時(shí)間復(fù)雜度隨著所有模式串的總長(zhǎng)度線性增加。

        ⑵ failure函數(shù),也叫做失效函數(shù),表示當(dāng)輸入的字符不匹配時(shí)應(yīng)該轉(zhuǎn)移到的下一個(gè)狀態(tài),它的生成時(shí)間與所有模式串的總長(zhǎng)度成正比。

        ⑶ output函數(shù),也叫做輸出函數(shù),是輸出匹配成功的模式串。

        清洗時(shí)發(fā)現(xiàn)中藥材名稱有一些是包含關(guān)系,比如表1中第四條記錄中的“炙甘草”與第五條記錄的“甘草,功效不同,它們屬于不同的中藥材。清洗時(shí),“炙甘草”被識(shí)別成為“甘草”和“炙甘草”兩種藥材,對(duì)數(shù)據(jù)造成二次“污染”。經(jīng)過(guò)識(shí)別統(tǒng)計(jì),331種中藥材存在和其他中藥材名稱有包含關(guān)系,如表2。

        這里采取以下策略進(jìn)行二次清洗:清洗后藥品成分信息中的多種中藥材,若名稱存在包含關(guān)系,則比較它們的長(zhǎng)度,保留長(zhǎng)度長(zhǎng)的中藥材,另一種作刪除處理。清洗前后的示例數(shù)據(jù)如表3。

        3.2 實(shí)驗(yàn)分析

        使用AC算法進(jìn)行清洗后,中成藥的總記錄數(shù)為7038條,正確數(shù)據(jù)與“臟數(shù)據(jù)”的比例分別為65.9%、34.1%,耗時(shí)2.5秒。

        對(duì)清洗結(jié)果進(jìn)行驗(yàn)證時(shí),采用召回率、正確率對(duì)清洗效果進(jìn)行衡量。

        清洗后的數(shù)據(jù),被正確判定為正例數(shù)a=7038,b=96,c=10679-7038=3641,其中96條數(shù)據(jù)是把成分含有“酒”或“醋”的數(shù)據(jù)錯(cuò)誤判斷為正例。比如藥品“燈盞花素”,成分信息是“燈盞花素.輔料為乙二胺四醋酸二鈉、維生素c”,雖然“醋”是屬于中藥材,但“醋”只是成分信息中的一個(gè)字眼,并不是真正使用到的中藥材;藥品“酒石酸美托洛爾膠囊”,成分信息是“本品主要成份為:酒石酸美托洛爾”,雖然“酒”屬于中藥材,但“酒”不是真正使用的中藥材。

        根據(jù)以上式子,最終計(jì)算得到r=65.91%,p=98.65%,f=79.02%??梢院苊黠@地看出清洗效果明顯,數(shù)據(jù)質(zhì)量顯著提高。

        4 結(jié)束語(yǔ)

        目前,很多研究重視數(shù)據(jù)挖掘的算法,對(duì)數(shù)據(jù)準(zhǔn)備工作研究的比較少。本文使用Aho_Corsick算法,以1759條藥物作為模式串,將中成藥的成分信息進(jìn)行識(shí)別,規(guī)范統(tǒng)一中成藥成分的藥物名稱,清洗準(zhǔn)確度高。

        下一步工作,可以再對(duì)中成藥的成分信息進(jìn)行挖掘,發(fā)現(xiàn)他們之間的配伍規(guī)律,為中醫(yī)藥事業(yè)的傳承提供更科學(xué)的數(shù)據(jù)參考。

        參考文獻(xiàn)(References):

        [1] 韓楠,喬少杰,李天瑞,等.面向復(fù)雜網(wǎng)絡(luò)的中藥方劑配伍規(guī)律挖掘算法[J].計(jì)算機(jī)科學(xué)與探索,2017,11(7):1159-1165

        [2] 何菊,戴彩艷,胡晨駿,等.基于屬性相似度的中藥加權(quán)網(wǎng)絡(luò)構(gòu)建及社團(tuán)劃分方法[J].中藥研究,2019,21(12):2746-2752

        [3] 姚美村,艾路,袁月梅,等消渴病復(fù)方配伍規(guī)律的關(guān)聯(lián)規(guī)則分析[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2002,25(6):48

        [4] 肖漢杰.基于數(shù)據(jù)挖掘的藥材并發(fā)關(guān)系和調(diào)劑效率提升研究[D].昆明:昆明理工大學(xué),2013

        [5] 賈李蓉,崔蒙.中醫(yī)藥科學(xué)數(shù)據(jù)研究進(jìn)展[J].南京中醫(yī)藥大學(xué)學(xué)報(bào),2012,28(5):495-497

        [6] 孔欽,葉長(zhǎng)青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(5):1-4

        [7] 王善法.中藥一物一名及處方調(diào)配[J].時(shí)珍國(guó)醫(yī)國(guó)藥,2000,11(2):153

        [8] Aho A V, Corasick M J. Efficient String Matching: An Aid to Bibliographic Search[J].Communications of the ACM,1975,18(6):333-340

        [9] 舒銀東.基于有限狀態(tài)自動(dòng)機(jī)的多模式匹配算法研究[D].合肥:合肥工業(yè)大學(xué),2011

        3761501908266

        猜你喜歡
        大數(shù)據(jù)技術(shù)預(yù)處理中醫(yī)藥
        中醫(yī)藥在惡性腫瘤防治中的應(yīng)用
        中醫(yī)藥在治療惡性腫瘤骨轉(zhuǎn)移中的應(yīng)用
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        從《中醫(yī)藥法》看直銷(xiāo)
        論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用
        高校檔案管理信息服務(wù)中大數(shù)據(jù)技術(shù)的應(yīng)用
        中醫(yī)藥立法:不是“管”而是“促”
        大數(shù)據(jù)技術(shù)在電氣工程中的應(yīng)用探討
        大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        欧亚精品无码永久免费视频| 亚洲av永久无码精品网站在线观看| 国产69精品久久久久999小说| 免费人成黄页网站在线观看国产| 高清av一区二区三区在线| 亚洲国产综合精品中久| 韩国三级大全久久网站| 99久久久无码国产精品秋霞网| 中文字幕乱码人妻一区二区三区 | 国产思思久99久精品| 日韩有码中文字幕在线视频| 性做久久久久久免费观看| 亚洲乱亚洲乱少妇无码99p| 四虎影永久在线观看精品| 国产高潮精品久久AV无码| 五月停停开心中文字幕| 久久精品人妻一区二三区| 国产私人尤物无码不卡| 欧美老妇与zozoz0交| 成人国产精品免费网站| 日韩少妇人妻精品中文字幕| 色视频综合无码一区二区三区| www国产无套内射com| 久久精品熟女不卡av高清| 日韩精品少妇专区人妻系列| 日韩在线一区二区三区中文字幕 | 欧美成人网视频| 中文字幕视频一区二区| 日韩中文字幕素人水野一区| 天天狠天天添日日拍| 亚洲日韩精品欧美一区二区一| 丰满熟妇人妻av无码区| 青青草原综合久久大伊人精品 | 男女主共患难日久生情的古言 | 亚洲影院天堂中文av色| 午夜视频免费观看一区二区| 中文字幕乱码在线人妻| 中文字幕一区二区三区人妻少妇| 一个人免费观看在线视频播放| 日本精品一区二区三区试看| 制服丝袜中文字幕在线|