亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文中醫(yī)本體自動(dòng)擴(kuò)展的定量研究

        2016-10-22 03:41:29王大禹李園白楊陽(yáng)崔蒙
        關(guān)鍵詞:中醫(yī)藥概念研究

        王大禹,李園白,楊陽(yáng),崔蒙

        中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700

        ·中醫(yī)藥信息研究·

        中文中醫(yī)本體自動(dòng)擴(kuò)展的定量研究

        王大禹,李園白,楊陽(yáng),崔蒙*

        中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700

        目的 對(duì)利用新的知識(shí)源自動(dòng)擴(kuò)展中文中醫(yī)本體進(jìn)行定量研究。方法 基于中醫(yī)醫(yī)療術(shù)語(yǔ)及術(shù)語(yǔ)間的關(guān)系構(gòu)建實(shí)驗(yàn)用的本體,利用中醫(yī)藥學(xué)術(shù)論文中提及的病例作為知識(shí)源擴(kuò)展本體,并用作測(cè)試集來(lái)評(píng)測(cè)本體擴(kuò)展前后的質(zhì)量。結(jié)果 包含 41 652個(gè)實(shí)例的本體可以通過(guò) 3000個(gè)診次的醫(yī)療信息擴(kuò)展,對(duì)真實(shí)臨床應(yīng)用出現(xiàn)的疾病名稱(chēng)的覆蓋率由 52.3%增至 72.4%,證候名稱(chēng)覆蓋率由 14.8%增至55.8%,藥物名稱(chēng)覆蓋率由 13.7%增至 54.8%,治法名稱(chēng)覆蓋率由 25.8%增至 77.2%。結(jié)論 利用學(xué)術(shù)論文中提及的病例作為新知識(shí)源來(lái)自動(dòng)擴(kuò)展本體可以顯著增加本體的覆蓋率。

        本體擴(kuò)展;中醫(yī)藥本體;中醫(yī)藥術(shù)語(yǔ)集

        一個(gè)本體包含的概念、實(shí)例及關(guān)系的數(shù)量決定了這個(gè)本體可以支持的智能算法的廣度和深度。如果一個(gè)實(shí)例在本體中找不到,那么本體對(duì)于這個(gè)實(shí)例的處理和計(jì)算就無(wú)法提供準(zhǔn)確支持。當(dāng)然,也可以考慮利用相似度計(jì)算找到本體中與被查詢(xún)實(shí)例最接近的實(shí)例,但是這種方法會(huì)引入其他知識(shí)資源(如同義詞詞典)或計(jì)算模型(如向量空間模型等相似度計(jì)算模型),本體無(wú)法獨(dú)立工作,產(chǎn)生依賴(lài)關(guān)系;同時(shí)也降低了準(zhǔn)確度,因?yàn)橄嗨贫扔?jì)算本身可能是不夠完善和準(zhǔn)確的。所以,構(gòu)建一個(gè)概念豐富、關(guān)系完整的本體對(duì)于解決復(fù)雜問(wèn)題是必備的。

        本體的構(gòu)建需要領(lǐng)域?qū)<业膮⑴c,并需要大量的手工工作,難以大規(guī)模構(gòu)建。在具有基本框架和內(nèi)容的本體上利用人工智能技術(shù)進(jìn)行擴(kuò)展是擴(kuò)建本體的一種辦法。中醫(yī)領(lǐng)域的本體擴(kuò)展對(duì)于醫(yī)學(xué)領(lǐng)域及其他領(lǐng)域的本體擴(kuò)展都具有指導(dǎo)意義。

        1 形式化定義

        本體的常用形式化定義有很多種,例如,本體可以形式化為五元組<C, R, F, A, ins>,其中C為本體中包含的概念(或類(lèi)別)的集合;R是關(guān)系的集合;F是一個(gè)函數(shù)的集合,其中每一個(gè)函數(shù)定義了一個(gè)或幾個(gè)概念通過(guò)某個(gè)關(guān)系 ri映射到唯一的一個(gè)概念;A是公理集;ins是實(shí)例集。為簡(jiǎn)化問(wèn)題,本文僅研究二元關(guān)系。例如,在本論文研究的本體中,對(duì)于三元組<加味術(shù)苓湯,呃逆,治療>,“加味術(shù)苓湯”和“呃逆”分別屬于“中藥”和“病癥”類(lèi)別下面的實(shí)例,“治療”是關(guān)系。EL和 ER分別表示存在二元關(guān)系的 2個(gè)實(shí)例,例如對(duì)于“治療”關(guān)系,EL是“加味術(shù)苓湯”,ER是“呃逆”,表示加味術(shù)苓湯可治療呃逆。

        一個(gè)從帶標(biāo)語(yǔ)料庫(kù)、結(jié)構(gòu)化文本或其他資源中抽取出的二元關(guān)系可用于本體擴(kuò)展,它與本體的關(guān)系取決于這個(gè)二元關(guān)系中的 2個(gè)實(shí)例和關(guān)系是否在原本體中。表1顯示了 6種情況,除了“不支持?jǐn)U展”這種情況,我們對(duì)其他5種情況(概念擴(kuò)展I、概念擴(kuò)展II、單純關(guān)系擴(kuò)展、關(guān)系及概念擴(kuò)展I、關(guān)系及概念擴(kuò)展II)逐一進(jìn)行定義。

        表1 二元關(guān)系擴(kuò)展本體分類(lèi)情況

        1.1 概念擴(kuò)展Ⅰ

        在這種情況下,新的二元關(guān)系(ELn, ERn, Rn)中有一個(gè)概念在本體中,假設(shè)概念 ELn在本體中,同時(shí)關(guān)系Rn也在本體中。新的二元關(guān)系把原本體中的某一個(gè)實(shí)例相關(guān)的一個(gè)關(guān)系擴(kuò)展到了一個(gè)新的實(shí)例。例如,“治療”關(guān)系是中醫(yī)本體中最基本的關(guān)系之一,對(duì)于一種常見(jiàn)的疾病,如果新的二元關(guān)系是一種新的藥物或組方可以治療這種疾病,就可以利用概念擴(kuò)展Ⅰ的方式對(duì)本體進(jìn)行擴(kuò)展。

        1.2 概念擴(kuò)展Ⅱ

        在這種情況下,新的三元組中的 2個(gè)實(shí)例ELn、ERn均不在本體中,而關(guān)系Rn在本體中,我們把這個(gè)二元關(guān)系加入本體。加入本體后如果不對(duì)本體內(nèi)部進(jìn)行操作,這個(gè)新的三元組中的 2個(gè)實(shí)例就是孤立的。仍以“治療”關(guān)系為例,如果發(fā)現(xiàn)某種新的藥物可以治療新的疾病,則符合概念擴(kuò)展Ⅱ的方式。

        1.3 單純關(guān)系擴(kuò)展

        在這種情況下,新的三元組中的 2個(gè)實(shí)例ELn、ERn均在本體中,而關(guān)系 Rn不在本體中,這意味著新三元組為本體中 2個(gè)已經(jīng)存在的實(shí)例發(fā)現(xiàn)了新的關(guān)系,我們需要判斷新的關(guān)系和原有關(guān)系是否存在從屬關(guān)系。如果存在從屬關(guān)系,例如,直接上位詞或相鄰層級(jí)的上位詞關(guān)系是上位詞關(guān)系的子集。在這種條件下,如果新發(fā)現(xiàn)的關(guān)系沒(méi)有為本體提供新的信息,則不作擴(kuò)展。例如,本體中已經(jīng)是直接上位詞關(guān)系,新發(fā)現(xiàn)的是上位詞關(guān)系,則不做擴(kuò)展。如果新發(fā)現(xiàn)的關(guān)系提供了更準(zhǔn)確的信息,例如本體中是上位詞關(guān)系,而新發(fā)現(xiàn)的是直接上位詞關(guān)系,則用新的關(guān)系代替原有關(guān)系。如果不存在從屬關(guān)系,則要檢查新關(guān)系和原有關(guān)系是否矛盾,或有條件限制。例如,2個(gè)人的關(guān)系可能在某個(gè)日期前是上下級(jí)關(guān)系,而在某個(gè)日期之后是匯報(bào)給同一個(gè)上司的同事關(guān)系?!吧舷录?jí)”和“同級(jí)”這2個(gè)關(guān)系在同一時(shí)間點(diǎn)是矛盾的,因此需要加入日期這個(gè)信息。很多情況下,2個(gè)關(guān)系是不矛盾的。例如,2個(gè)人的生物學(xué)父子關(guān)系會(huì)一直延續(xù),但在某個(gè)日期之后2個(gè)人增加了“同事”關(guān)系。這種情況下,增加日期信息會(huì)讓本體包含更多有用的信息。

        2.1.1 性別因素 楊霞等[10]對(duì)201例入住ICU的危重患者研究提示,男性發(fā)生率明顯高于女性,可能與女性忍耐性好于男性有關(guān);其中女性患者129例,發(fā)生例數(shù)25例,發(fā)生率為19.4%,男性患者72例,發(fā)生例數(shù)29例,發(fā)生率為40.3%(P <0.05)。

        1.4 關(guān)系及概念擴(kuò)展Ⅰ和Ⅱ

        在這種情況下,新的三元組中的關(guān)系Rn不在本體中,同時(shí)至少有 1個(gè)實(shí)例不在本體中,這時(shí)需要把新的三元組所表示的關(guān)系加入到本體中。

        1.5 本體的自完善

        本體擴(kuò)展應(yīng)尊重并符合原本體的建立標(biāo)準(zhǔn)。我們提出一些衡量本體內(nèi)部一致性的評(píng)測(cè)指標(biāo),并定義在我們的研究中本體需要達(dá)到的標(biāo)準(zhǔn)。如果原本體已經(jīng)達(dá)到了這樣的標(biāo)準(zhǔn),新添加的部分應(yīng)符合同樣的標(biāo)準(zhǔn)。如果原本體沒(méi)有達(dá)到這樣的標(biāo)準(zhǔn),則可以將原本體做自完善,使其符合定義的標(biāo)準(zhǔn);然后再保證新添加的部分符合同樣的標(biāo)準(zhǔn)。

        2 實(shí)驗(yàn)設(shè)計(jì)

        2.1 本體的構(gòu)建

        本研究使用中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所的病癥、臨床發(fā)現(xiàn)和處方三個(gè)分支結(jié)構(gòu)的術(shù)語(yǔ)集[1]及術(shù)語(yǔ)之間的二元關(guān)系來(lái)構(gòu)建本體。構(gòu)建后的本體包含41 652個(gè)實(shí)例,這些實(shí)例之間存在的二元關(guān)系及數(shù)量如表2所示。

        表2 本體中關(guān)系與實(shí)例數(shù)量的統(tǒng)計(jì)

        例如,“被…治療”和“治療”是一對(duì)反向的關(guān)系,本體中包含“被…治療”的二元關(guān)系有57 170個(gè),“治療”關(guān)系也有同樣的數(shù)量?!爸委煛标P(guān)系的EL有31 879個(gè),“被…治療”關(guān)系的EL有 2293個(gè),就是說(shuō)這個(gè)本體中“治療”關(guān)系左側(cè)的藥物或方法有31 879個(gè),而右側(cè)被治療的疾病或者證候有2293個(gè)。31 879個(gè)EL到2293個(gè)ER上的二元關(guān)系共有57 170個(gè)。

        本研究使用本所對(duì)近年中醫(yī)領(lǐng)域中文學(xué)術(shù)論文中病案的標(biāo)注[2],隨機(jī)抽取 4000個(gè)診次,抽取條件是每個(gè)診次包含如下完整的信息:疾病名稱(chēng)、證候、治法和用藥。例如,下面是一個(gè)診次的例子:

        疾病名稱(chēng):'咳嗽'

        證候:'風(fēng)熱之邪侵襲肺衛(wèi)$肺失清肅$衛(wèi)表失宣'

        治法:'祛風(fēng)$疏表$宣肺$止咳'

        用藥:'止嗽散加減'

        本研究把4000個(gè)診次信息隨機(jī)分成4組,每組1000個(gè)診次。對(duì) 4000個(gè)診次中疾病名稱(chēng)進(jìn)行統(tǒng)計(jì),并按照出現(xiàn)頻率由高到低排序,統(tǒng)計(jì)信息見(jiàn)表3??梢?jiàn)“眩暈”和“咳嗽”是出現(xiàn)頻率最高的2個(gè)疾病名稱(chēng),分別出現(xiàn)116次和92次。有兩個(gè)疾病名稱(chēng)分別出現(xiàn)53、51次,疾病種類(lèi)數(shù)為2。

        3 本體評(píng)測(cè)

        為了定量評(píng)估擴(kuò)展前和擴(kuò)展后本體的質(zhì)量,我們定義了一些適合評(píng)測(cè)研究中所使用的本體的指標(biāo),這些評(píng)估指標(biāo)也可以為其他本體質(zhì)量的評(píng)測(cè)提供一些幫助。

        表3 診次信息中出現(xiàn)頻率最高的疾病名稱(chēng)

        3.1 實(shí)例術(shù)語(yǔ)覆蓋率

        這類(lèi)指標(biāo)包括可重復(fù)覆蓋率(RC)和不重復(fù)覆蓋率(UC),它們反映一個(gè)本體對(duì)測(cè)試集中的疾病名稱(chēng)的覆蓋情況,即給出一個(gè)實(shí)例名稱(chēng),例如疾病名稱(chēng)或證候名稱(chēng),在本體中是否可以查詢(xún)到這個(gè)名稱(chēng)及相關(guān)知識(shí)。為了更好地呈現(xiàn)一個(gè)本體對(duì)真實(shí)應(yīng)用的支持程度,測(cè)試集中的疾病名稱(chēng)應(yīng)直接來(lái)源于各種應(yīng)用,例如醫(yī)案、病案或電子病歷。如果測(cè)試集中的疾病名稱(chēng)是真實(shí)的隨機(jī)采樣,疾病名稱(chēng)在測(cè)試集中是可以重復(fù)的,其所占比例代表實(shí)踐中的真實(shí)情況。有一些疾病是非常常見(jiàn)的,例如表 3中使用的病案中“眩暈”和“咳嗽”就是出現(xiàn)頻率最高的疾病名稱(chēng)。當(dāng)測(cè)試集中的疾病名稱(chēng)是可以重復(fù)的,一個(gè)本體包含這個(gè)測(cè)試集中的疾病的百分比被稱(chēng)為RC;如果一個(gè)測(cè)試集中的疾病名稱(chēng)都是不可重復(fù)的,則一個(gè)本體包含這個(gè)測(cè)試集中的疾病百分比被稱(chēng)為UC。顯然,“可重復(fù)覆蓋率”給常見(jiàn)疾病增加了對(duì)結(jié)果的影響;而“不重復(fù)覆蓋率”把所有疾病都賦予相同的權(quán)重。

        3.2 關(guān)系覆蓋率

        這類(lèi)指標(biāo)也包括可重復(fù)覆蓋率(RC)和不重復(fù)覆蓋率(UC),它們反映一個(gè)本體對(duì)測(cè)試集中的二元關(guān)系的覆蓋情況。只有測(cè)試集中某一個(gè)二元關(guān)系的 2個(gè)實(shí)例及關(guān)系都能在本體中找到,我們才確定本體覆蓋這樣一個(gè)二元關(guān)系。如果測(cè)試集中的二元關(guān)系來(lái)源于真實(shí)應(yīng)用,則可以有重復(fù)的,本體稱(chēng)這種測(cè)試集的覆蓋為RC;如果測(cè)試集中的二元關(guān)系都是不相同的,本體稱(chēng)這種測(cè)試集的覆蓋為UC。

        3.3 本體擴(kuò)展效果評(píng)測(cè)

        我們對(duì)構(gòu)建的本體分別使用1組、2組、3組診次中抽取的信息進(jìn)行擴(kuò)展,然后使用第 4組診次中抽取的信息作為測(cè)試集進(jìn)行評(píng)測(cè)。同時(shí)和原本體進(jìn)行比較。為了減少不同診次對(duì)實(shí)驗(yàn)結(jié)果的影響,我們借用N重交叉驗(yàn)證方法,把未擴(kuò)展的本體在4組診次上的疾病名稱(chēng)覆蓋率的平均值作為基準(zhǔn),即表4中“0”所在列。使用 1000個(gè)診次擴(kuò)展本體時(shí),如果用 A組診次作為知識(shí)源擴(kuò)展本體,會(huì)分別使用BCD其他3個(gè)組作為測(cè)試集,然后求平均值;再換B組作為知識(shí)源擴(kuò)展本體,用ACD其他3個(gè)組作為測(cè)試集。這樣把12個(gè)實(shí)驗(yàn)結(jié)果求平均值作為最終結(jié)果,即表4中“1000”所在列。使用2000個(gè)診次擴(kuò)展時(shí),也用任意 2個(gè)組擴(kuò)展本體后,分別在剩余的2個(gè)組上做測(cè)試,然后求平均值,也是 12個(gè)實(shí)驗(yàn)結(jié)果求平均值,即表 4中“2000”所在列。使用3000個(gè)診次擴(kuò)展本體時(shí),取3個(gè)組診次擴(kuò)展本體,然后在第四組上做測(cè)試,為 4個(gè)實(shí)驗(yàn)結(jié)果的平均值,即“3000”所在列。為了衡量覆蓋率隨診次增加的變化關(guān)系,使用最小二乘法對(duì)已知數(shù)據(jù)進(jìn)行最佳線(xiàn)性擬合,把使用的診次數(shù)量視為自變量,疾病名稱(chēng)覆蓋率視為函數(shù)值,把擬合后的直線(xiàn)斜率 k放大10 000倍后呈現(xiàn)在表4中“k×104”所在列中。

        表4 本體擴(kuò)展前后的實(shí)例術(shù)語(yǔ)覆蓋率

        4 結(jié)論

        本研究通過(guò)構(gòu)建本體和新知識(shí)源,并通過(guò)構(gòu)建測(cè)試集來(lái)定量研究本體擴(kuò)展后性能的提升。實(shí)驗(yàn)表明,包含 41 652個(gè)實(shí)例的本體通過(guò) 3000個(gè)診次(另有1000個(gè)診次是測(cè)試集,不使用)的醫(yī)療信息擴(kuò)展后,對(duì)真實(shí)臨床應(yīng)用出現(xiàn)的疾病名稱(chēng)的覆蓋率由52.3%增至72.4%,證候名稱(chēng)的覆蓋率由14.8%增至55.8%,藥物名稱(chēng)的覆蓋率由13.7%增至54.8%,治法名稱(chēng)的覆蓋率由25.8%增至77.2%。隨著用于擴(kuò)充本體的診次數(shù)量的增加,治法名稱(chēng)的覆蓋率增加最快,平均每增加1000診次,覆蓋率增加16%;疾病名稱(chēng)增加最慢,平均每增加 1000診次增加6.5%。

        目前研究?jī)H為初步工作,因此包含很多簡(jiǎn)化。例如,治療中藥物名稱(chēng)的匹配,只考慮藥物名稱(chēng),而且方劑名稱(chēng)后如果有“加味”及“加減”視為同一名稱(chēng)。另外,治法的匹配只考慮了精確匹配,沒(méi)有做進(jìn)一步的分析,如四字詞僅和自身做精確匹配,沒(méi)有和包含的二字術(shù)語(yǔ)匹配或計(jì)算相似度。例如“活血化瘀”在4000個(gè)診次中出現(xiàn)了81次,查找時(shí)沒(méi)有考慮“活血”或“化瘀”。而“活血”出現(xiàn)了389次,“化瘀”出現(xiàn)207次。如果考慮模糊匹配或相似度計(jì)算,可以更好地反映本體的質(zhì)量。

        5 討論與未來(lái)工作計(jì)劃

        本體的自動(dòng)、半自動(dòng)構(gòu)建和擴(kuò)展一直是國(guó)際上人工智能、知識(shí)管理領(lǐng)域的重要研究課題。很多智能的方法已經(jīng)出現(xiàn),例如基于語(yǔ)義的方法從語(yǔ)料中抽取概念來(lái)擴(kuò)展已有的本體的研究,其核心在于如何識(shí)別出候選的概念,這種方法已經(jīng)應(yīng)用于中醫(yī)領(lǐng)域的本體擴(kuò)展[3]。有的研究從網(wǎng)上的百科全書(shū)中抽取概念來(lái)構(gòu)建本體,例如使用維基百科的方法[4],在沒(méi)有標(biāo)注的語(yǔ)料庫(kù)中概念和實(shí)例是難以區(qū)分的,因此上述研究借助維基百科的定義和種類(lèi)標(biāo)記,借助N元組統(tǒng)計(jì)及自然語(yǔ)言處理的方法。也有一些研究嘗試使用原有本體,從中抽取概念再構(gòu)成新的本體[5]。因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)需要大量人工的工作,有研究人員[6]從文本中通過(guò)無(wú)指導(dǎo)的方式構(gòu)建特殊領(lǐng)域的本體,包含了同義詞、從屬、作用、屬性等語(yǔ)義及結(jié)構(gòu)明顯的關(guān)系。還有在已經(jīng)存在的本體上進(jìn)行計(jì)算,構(gòu)建新的本體。例如,有的研究在已經(jīng)存在的本體中自動(dòng)生成映射關(guān)系,通過(guò)抽取、匹配、合并技術(shù)來(lái)半自動(dòng)地構(gòu)建本體[7];有的研究利用術(shù)語(yǔ)在特殊領(lǐng)域及一般領(lǐng)域出現(xiàn)頻次的比較來(lái)抽取概念和關(guān)系,進(jìn)行半自動(dòng)的本體構(gòu)建[8]。國(guó)內(nèi)也有一些通用領(lǐng)域的研究[9-12]和特定領(lǐng)域的研究,例如生物醫(yī)學(xué)領(lǐng)域[13]、氣象領(lǐng)域[14]、農(nóng)業(yè)領(lǐng)域[15]等,這些研究使用了維基百科、科技文獻(xiàn)等資源來(lái)擴(kuò)展本體。

        上述研究的普遍不足之處在于缺少對(duì)擴(kuò)展前后或新構(gòu)建的本體的評(píng)測(cè),有的研究即使有評(píng)測(cè),卻沒(méi)有使用來(lái)源于實(shí)際應(yīng)用的測(cè)試集。本研究彌補(bǔ)了本體測(cè)評(píng)的問(wèn)題,并使用了來(lái)自真實(shí)應(yīng)用的診次信息構(gòu)建測(cè)試集。從 UC和 RC的差值上,我們發(fā)現(xiàn)藥物名稱(chēng)的差距最小而治法名稱(chēng)的差距最大,說(shuō)明絕大部分治法名稱(chēng)的術(shù)語(yǔ)容易反復(fù)出現(xiàn),而藥物名稱(chēng)不容易反復(fù)出現(xiàn)。從斜率 k上看,隨著診次的增加,治法名稱(chēng)覆蓋率最容易增加,而疾病名稱(chēng)不容易增加。說(shuō)明實(shí)際就診中常見(jiàn)病會(huì)經(jīng)常出現(xiàn),而中醫(yī)治法多元化的形勢(shì)明顯,與疾病名稱(chēng)相比,同樣的疾病在中醫(yī)診治中會(huì)使用不同的治法。通過(guò)藥物名稱(chēng)的 RC和 UC差異看,二者差異遠(yuǎn)大于疾病名稱(chēng)、治法和證候,說(shuō)明實(shí)際治療中醫(yī)生傾向于使用常用藥物。

        [1] 于彤,賈李蓉,劉靜,等.中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)研究綜述[J].中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志,2015,39(6):56-60.

        [2] 李園白,楊陽(yáng),朱曉博,等.基于文獻(xiàn)的“病-藥”關(guān)聯(lián)關(guān)系分析[J].中華中醫(yī)藥雜志,2014,29(1):253-255.

        [3] ZHOU LP, ZHANG DZ, CHEN X, et al. A method for semanticsbased conceptual expansion of ontology[C]// Association for Computing Machinery(ACM). Proceedings of the 2008 ACM symposium on Applied computing. New York,2008:1583-1587.

        [4] CUI GY, LU Q, LI WJ, et al. Mining Concepts from Wikipedia for Ontology Construction[C]// IEEE Computer Society. Proceedings of the 2009 IEEE/WIC/ACM international Joint Conference on Web intelligence and intelligent Agent Technology. Washington,2009:287-290.

        [5] BANU A, FATIMA SS, KHAN KUR. A re-usability approach to ontology construction[C]// Association for Computing Machinery(ACM). Proceedings of the Second International Conference on Computational Science, Engineering and Information Technology. New York,2012:189-193.

        [6] MUKHERJEE S, AJMERA J, JOSHI S. Unsupervised approach for shallow domain ontology construction from corpus[C]// Association for Computing Machinery(ACM). Proceedings of the 23rd International Conference on World Wide Web. New York,2014:349-350.

        [7] TOUMA R, ROMERO O, JOVANOVIC P. Supporting Data Integration Tasks with Semi-Automatic Ontology Construction[C]// Association for Computing Machinery(ACM). Proceedings of the ACM Eighteenth International Workshop on Data Warehousing and OLAP. New York,2015:89-98.

        [8] CARVALHEIRA LCC, GOMI ES. A method for semi-automatic creation of ontologies based on texts[C]// Proceedings of the 2007 conference on Advances in conceptual modeling:foundations and applications. Auckland,2007:150-159.

        [9] 侯鑫,張旭堂,金天國(guó),等.面向知識(shí)與信息管理的領(lǐng)域本體自動(dòng)構(gòu)建算法[J].計(jì)算機(jī)集成制造系統(tǒng),2011,17(1):159-170.

        [10] 楊靖.領(lǐng)域本體自動(dòng)構(gòu)建的關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008.

        [11] 程曉.面向半結(jié)構(gòu)化文本的領(lǐng)域本體自動(dòng)構(gòu)建研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009.

        [12] 盧文興,陳黎,朱洪波,等.基于本體翻譯的領(lǐng)域本體自動(dòng)構(gòu)建[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(9):3203-3207,3230.

        [13] 孫銳.生物醫(yī)學(xué)領(lǐng)域本體自動(dòng)構(gòu)建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2013.

        [14] 王磊,顧大權(quán),侯太平,等.基于維基百科的氣象本體的自動(dòng)構(gòu)建[J].計(jì)算機(jī)與現(xiàn)代化,2014(6):129-131,136.

        [15] 王超,李書(shū)琴,肖紅.基于文獻(xiàn)的農(nóng)業(yè)領(lǐng)域本體自動(dòng)構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(8):71-74.

        A Quantitative Study on Automatic Expansion of Chinese TCM Ontology

        WANG Da-yu, LI Yuan-bai, YANG Yang, CUI Meng*
        (Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medicine Science, Beijing 100700, China)

        Objective To conduct a quantitative study on the automatic expansion of Chinese TCM ontology with new knowledge sources. Methods The experimental Chinese TCM ontology was built based on TCM terms and relationships among different terms. Medical cases in TCM academic papers were set as knowledge sources for expansion of ontology. These cases were used as testing sets to evaluate the quality of the ontology before and after expansion. Results Ontology with 41,652 cases could be expanded through information in 3000 clinical visits. The coverage of this ontology on disease names in real clinical application increased from 52.3% to 72.4%, syndrome names from 14.8% to 55.8%, medicine names from 13.7% to 54.8%, and TCM therapy names from 25.8% into 77.2%. Conclusion Using medical cases in TCM acajemic papers as the new knowledge sources for automatic expansion of ontology can significantly increase ontology coverage.

        ontology expansion; TCM ontology; TCM terminology set

        R2-03

        A

        2095-5707(2016)05-0009-05

        王大禹,李園白,楊陽(yáng),等.中文中醫(yī)本體自動(dòng)擴(kuò)展的定量研究[J].中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志,2016,40(5):9-13. DOI: 10.3969/j.issn.2095-5707.2016.05.003

        2016-08-19)

        2016-09-08;編輯:魏民)

        國(guó)家科技部重大專(zhuān)項(xiàng)(2012ZX09304003-001);國(guó)家中醫(yī)藥管理局行業(yè)專(zhuān)項(xiàng)(201207001-21);科技部科技基礎(chǔ)性工作專(zhuān)項(xiàng)(2009FY120300);中國(guó)中醫(yī)科學(xué)院創(chuàng)新團(tuán)隊(duì)項(xiàng)目(PY1306);福建省2011中醫(yī)健康管理協(xié)同創(chuàng)新中心

        王大禹,博士后研究人員,研究方向?yàn)獒t(yī)學(xué)信息學(xué)。E-mail: sywdy@qq.com

        崔蒙,研究員,研究方向?yàn)橹嗅t(yī)藥信息學(xué)。

        E-mail: cm@mail.cintcm.ac.cn

        猜你喜歡
        中醫(yī)藥概念研究
        FMS與YBT相關(guān)性的實(shí)證研究
        Birdie Cup Coffee豐盛里概念店
        遼代千人邑研究述論
        中醫(yī)藥在惡性腫瘤防治中的應(yīng)用
        中醫(yī)藥在治療惡性腫瘤骨轉(zhuǎn)移中的應(yīng)用
        幾樣概念店
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        學(xué)習(xí)集合概念『四步走』
        聚焦集合的概念及應(yīng)用
        国产无套中出学生姝| 亚洲男人av天堂午夜在| 无码尹人久久相蕉无码| 国产97在线 | 免费| а中文在线天堂| 午夜a福利| 无码一区二区三区不卡AV| 白白青青视频在线免费观看| 伊人五月亚洲综合在线| 九九久久精品国产免费av| 性色av一二三天美传媒| 国产日产精品一区二区三区四区的特点| 日本一区午夜艳熟免费| 无码一区二区三区在| 国产目拍亚洲精品二区| 谷原希美中文字幕在线| 97人妻人人做人碰人人爽| 人妻少妇精品视频无码专区| 中文人成影院| 白白色青青草视频免费观看| 欧美午夜理伦三级在线观看| 国产日韩精品中文字无码| 欧美日韩a级a| 91久久精品一二三区色| 久久精品国产亚洲av久按摩| 波多野结衣在线播放| 亚洲亚洲人成综合网络| 亚洲AV无码久久久一区二不卡| 一区二区免费中文字幕| 精品一区二区在线观看免费视频| 成年女人黄小视频| 国产精自产拍久久久久久蜜| 99久久久国产精品丝袜| 国产精品日本一区二区三区在线 | 少妇人妻中文字幕在线| 亚洲国产精品成人久久久| 蜜臀av无码精品人妻色欲| 国产日b视频| 亚洲精品色播一区二区| 国产精品无码素人福利| 欧洲精品免费一区二区三区|