亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向中醫(yī)中藥的知識圖譜構(gòu)建

        2024-01-26 22:06:37張一翀郝泳濤
        電腦知識與技術(shù) 2023年35期
        關(guān)鍵詞:數(shù)據(jù)庫文本

        張一翀 郝泳濤

        摘要:中醫(yī)中藥蘊(yùn)藏著中華民族的無限智慧,具有很高的價值,然而其有效整合面臨阻礙。引入現(xiàn)代技術(shù),構(gòu)建中醫(yī)中藥本體,將中醫(yī)中藥信息知識化重構(gòu),有助于中醫(yī)中藥領(lǐng)域的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。本研究探討了構(gòu)建中醫(yī)中藥知識圖譜的方法和技術(shù),通過關(guān)鍵詞提取+人工干預(yù)的方式提取實(shí)體及關(guān)系,在降低人工成本的前提下提高識別準(zhǔn)確率,同時引入Neo4j圖數(shù)據(jù)庫,以構(gòu)建全面可視化的中醫(yī)中藥知識圖譜。

        關(guān)鍵詞: 知識圖譜;Neo4j;命名實(shí)體識別;知識抽?。恢嗅t(yī)中藥;跨學(xué)科研究

        中圖分類號:TP391? ? ? ? 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2023)35-0030-03

        開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)

        0 引言

        中醫(yī)藥(TCM) 代表了中華民族在健康、疾病管理和醫(yī)療治療領(lǐng)域所具有的獨(dú)特智慧[1]。中醫(yī)藥具有重要的學(xué)術(shù)和實(shí)際價值,擁有豐富的理論知識和臨床經(jīng)驗(yàn)。作為中國傳統(tǒng)醫(yī)學(xué)的重要組成部分,中醫(yī)藥已經(jīng)積累了數(shù)千年的豐富經(jīng)驗(yàn)和知識體系。然而,缺乏將中醫(yī)藥整合到現(xiàn)代醫(yī)療體系中的策略,阻礙了其知識和信息的有效利用[2]。

        鑒于計算機(jī)技術(shù)及其相關(guān)理論的進(jìn)步,利用現(xiàn)代技術(shù)對中醫(yī)藥知識進(jìn)行重構(gòu)和利用得到了認(rèn)可,并取得了實(shí)質(zhì)性成果。將計算機(jī)領(lǐng)域的先進(jìn)本體論理論和技術(shù)引入對中醫(yī)藥知識的組織研究,構(gòu)建了中藥本體。這一舉措實(shí)現(xiàn)了中藥信息的知識化重構(gòu),從而有助于在中醫(yī)藥領(lǐng)域進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)[3]。

        在大數(shù)據(jù)時代,知識圖譜(Knowledge Graph, KG) 成為知識管理和應(yīng)用的重要資源,在語義檢索、知識推理、決策制定、問題解答、系統(tǒng)推薦等多個領(lǐng)域發(fā)揮關(guān)鍵作用,提高知識問答、決策支持、可視化分析等功能[4]。2012年,谷歌引入了KG的概念,并將其應(yīng)用于搜索引擎,隨后KG被應(yīng)用于多個領(lǐng)域。研究領(lǐng)域有很多通用知識圖譜、大型公共知識庫[5]。本文研究的中醫(yī)中藥知識圖譜屬于領(lǐng)域知識圖譜中的一類。中醫(yī)中藥知識圖譜是對中醫(yī)中藥領(lǐng)域的概念、實(shí)體和關(guān)系進(jìn)行建模和表示的一種結(jié)構(gòu)化的知識庫,它可以幫助醫(yī)生、研究人員和患者更好地理解并利用中醫(yī)中藥知識。

        構(gòu)建中醫(yī)中藥知識圖譜的主要目標(biāo)是通過對中醫(yī)中藥相關(guān)的實(shí)體、關(guān)系和屬性進(jìn)行結(jié)構(gòu)化表示和鏈接,從而形成一個全面、準(zhǔn)確的中醫(yī)中藥知識網(wǎng)絡(luò)。這種知識圖譜有助于醫(yī)生進(jìn)行疾病的辨證施治、輔助臨床決策,并為中醫(yī)研究提供豐富的數(shù)據(jù)支持。此外,中醫(yī)中藥知識圖譜還可以促進(jìn)中醫(yī)與現(xiàn)代醫(yī)學(xué)的融合,為跨學(xué)科醫(yī)學(xué)研究和應(yīng)用開辟新的可能性。

        盡管在構(gòu)建中醫(yī)中藥知識圖譜方面已經(jīng)有了一些研究工作,但仍然存在挑戰(zhàn)。首先,中醫(yī)中藥領(lǐng)域的知識具有復(fù)雜性、多樣性和模糊性,如何準(zhǔn)確地表示和連接這些知識是一個關(guān)鍵問題。其次,中醫(yī)中藥的知識體系龐大且分散,如何有效地收集、整合和存儲中醫(yī)中藥知識是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。此外,中醫(yī)中藥知識的更新和演進(jìn)是一個持續(xù)的過程,如何保持中醫(yī)中藥知識圖譜的時效性和可更新性也是一個重要問題。

        因此,本文旨在深入探討構(gòu)建中醫(yī)中藥知識圖譜的方法和技術(shù),以應(yīng)對中醫(yī)中藥知識在表示、關(guān)聯(lián)和存儲等關(guān)鍵領(lǐng)域面臨的挑戰(zhàn),基于圖數(shù)據(jù)庫構(gòu)建全面可視化的中醫(yī)中藥知識圖譜,為中醫(yī)中藥領(lǐng)域的醫(yī)療實(shí)踐、研究和教育提供有力支持,促進(jìn)中醫(yī)知識的傳承和創(chuàng)新。

        1 算法實(shí)現(xiàn)

        中醫(yī)中藥知識圖譜的構(gòu)建過程如圖1所示,主要步驟為:知識采集、知識抽取、知識存儲。

        1.1 數(shù)據(jù)收集及數(shù)據(jù)清洗

        根據(jù)數(shù)據(jù)存儲的形式,數(shù)據(jù)源可分為3類:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。在中醫(yī)中藥知識圖譜的構(gòu)建過程中,本文的數(shù)據(jù)來源主要為半結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁中的表格、列表等)、非結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁中的純文本數(shù)據(jù)等)。本文的半結(jié)構(gòu)化數(shù)據(jù)主要來源為百度百科;非結(jié)構(gòu)化數(shù)據(jù)主要來源于互聯(lián)網(wǎng)上中醫(yī)中藥相關(guān)網(wǎng)頁的數(shù)據(jù),例如中醫(yī)中藥網(wǎng)。筆者以爬蟲的形式獲取需要的中醫(yī)中藥相關(guān)的文本數(shù)據(jù),并將其保存為txt文本。

        對于半結(jié)構(gòu)化數(shù)據(jù)的提取過程如下:根據(jù)給定的初始頁面,利用類似廣度優(yōu)先的方式爬取網(wǎng)頁中可點(diǎn)擊的頁面信息,并將獲取的頁面進(jìn)行關(guān)鍵數(shù)據(jù)提取,提取頁面中InfoBox中的內(nèi)容,將其中的basicInfo-item name和basicInfo-item value按照對應(yīng)關(guān)系存放到Excel文件中。

        對于非結(jié)構(gòu)化的文本數(shù)據(jù),筆者選擇結(jié)構(gòu)性較強(qiáng)的數(shù)據(jù),根據(jù)網(wǎng)頁格式編寫對應(yīng)的抓取規(guī)則,收集需要的頁面信息,將其保存為txt文本,用于后續(xù)的知識抽取操作。

        獲取的數(shù)據(jù)還需要進(jìn)行數(shù)據(jù)清洗操作,本文根據(jù)一些篩選條件刪除數(shù)據(jù)中的異常值等,為后續(xù)的知識抽取操作做準(zhǔn)備。

        1.2 知識抽取

        知識抽取是構(gòu)建知識圖譜中比較重要的一步,從收集的數(shù)據(jù)中提取結(jié)構(gòu)化的信息,如命名實(shí)體、實(shí)體屬性及實(shí)體關(guān)系。

        1) 命名實(shí)體識別

        命名實(shí)體識別是指從文本中識別命名實(shí)體,是信息抽取的基礎(chǔ)。命名實(shí)體識別的結(jié)果會直接影響實(shí)體關(guān)系抽取和屬性抽取的結(jié)果。

        在命名實(shí)體識別的算法過程中,首先將獲取的數(shù)據(jù)進(jìn)行分類,將其根據(jù)不同數(shù)據(jù)類別進(jìn)行劃分。然后,針對每個類別,采用關(guān)鍵詞匹配算法進(jìn)行初步實(shí)體提取。這一階段的關(guān)鍵是通過分割文本,判斷是否包含預(yù)定義的關(guān)鍵詞、短語或模式。這些關(guān)鍵詞可以是特定實(shí)體類型的名稱、屬性、上下文相關(guān)詞匯等。通過匹配和比較,算法能夠快速識別出可能的實(shí)體候選項(xiàng)。

        隨后,在大致實(shí)體提取的基礎(chǔ)上,引入人工干預(yù)的二次判別。在這一步中,經(jīng)過初步提取的實(shí)體被提交給人工操作者。人工操作者可以根據(jù)領(lǐng)域知識和語境,對提取出的實(shí)體進(jìn)行再次驗(yàn)證和篩選。通過這一環(huán)節(jié)的人工干預(yù),能夠排除虛假識別、糾正誤判等問題,提高實(shí)體識別的精度和可信度。

        這個算法的設(shè)計目標(biāo)是在保證高效性和自動化的基礎(chǔ)上,結(jié)合關(guān)鍵詞匹配和人工判別的方法,實(shí)現(xiàn)對命名實(shí)體的準(zhǔn)確識別。通過將計算機(jī)的快速識別能力與人工識別的高準(zhǔn)確率結(jié)合起來,使算法能夠有效應(yīng)對不同領(lǐng)域和復(fù)雜語境下的實(shí)體識別挑戰(zhàn),從而為后續(xù)的信息提取和分析提供可靠的數(shù)據(jù)基礎(chǔ)。

        2) 實(shí)體規(guī)范化

        由于爬取的數(shù)據(jù)來自不同網(wǎng)站,使用同一實(shí)體可能會存在不同的術(shù)語。因此需要進(jìn)行實(shí)體規(guī)范化將原始術(shù)語映射到標(biāo)準(zhǔn)術(shù)語,并通過繼承標(biāo)準(zhǔn)術(shù)語來進(jìn)一步創(chuàng)建實(shí)體。

        本文面向中醫(yī)中藥領(lǐng)域,通過查閱資料,制定了實(shí)體關(guān)系識別模型中的實(shí)體類型及標(biāo)識,共有8種:疾病、癥狀、藥物、方藥、飲食、器官、治則治法、病因病機(jī),如表1所示。

        3) 實(shí)體關(guān)系抽取

        實(shí)體關(guān)系抽取作為信息抽取的重要任務(wù),是指在實(shí)體識別的基礎(chǔ)上,從非結(jié)構(gòu)化文本中抽取出預(yù)先定義的實(shí)體關(guān)系。實(shí)體對的關(guān)系可被形式化描述為關(guān)系三元組[e1, r, e2],其中,e1和e2是實(shí)體,r屬于目標(biāo)關(guān)系集R{r1 , r2 , r3 , ..., ri}。關(guān)系抽取的任務(wù)是從自然語言文本中抽取出關(guān)系三元組[e1, r, e2],從而提取文本信息[6]。在實(shí)體抽取部分,根據(jù)上一步命名實(shí)體識別中對數(shù)據(jù)的分類,初步判斷句子中所包含的實(shí)體間關(guān)系,然后再通過人工干預(yù)的方式,進(jìn)一步確認(rèn)不同實(shí)體間的關(guān)系。

        本文涉及的各實(shí)體間的關(guān)系類型有8種:表現(xiàn)、類別、治療、服用、組成、食療、誘發(fā)、涉及,如表2所示。本文按照實(shí)體在文中的出現(xiàn)順序確定主客體,即先出現(xiàn)的為主體,后出現(xiàn)的為客體。

        4) 屬性抽取

        屬性抽取是指從文本中提取實(shí)體的相關(guān)屬性或特征的任務(wù)。本文的屬性提取主要是源于百度百科及中醫(yī)中藥網(wǎng)上的半結(jié)構(gòu)化數(shù)據(jù)。如圖2所示,其中左邊是提取到的數(shù)據(jù),右邊是處理后的結(jié)果。其中格式為:實(shí)體-屬性類型->屬性值

        圖2(a)圖是提取InfoBox中的信息,主要包括信息框中“basicInfo-name”和“basicInfo-value”兩部分,中間用“:”分割。圖2(b)圖是將從InfoBox中提取出來的數(shù)據(jù)處理后的屬性三元組,形式為(實(shí)體1-關(guān)系->實(shí)體2) 。

        1.3 數(shù)據(jù)存儲

        本文對數(shù)據(jù)處理后得到的規(guī)范化結(jié)果以三元組的形式存儲,筆者選擇Neo4j圖數(shù)據(jù)庫來存儲數(shù)據(jù)。其中圖中的節(jié)點(diǎn)表示中醫(yī)中藥實(shí)體,關(guān)系三元組中的關(guān)系用圖中的邊來表示,通過從一個節(jié)點(diǎn)指向另一個節(jié)點(diǎn)之間的邊來表明兩個節(jié)點(diǎn)間存在某種關(guān)系,其中邊由主體指向客體;屬性三元組則會以<實(shí)體,屬性類別,屬性>的形式存儲到圖數(shù)據(jù)庫中。

        2 實(shí)驗(yàn)結(jié)果及分析

        2.1 知識抽取

        通過對收集的數(shù)據(jù)進(jìn)行提取,本文共提到實(shí)體總數(shù)為:17 124個,關(guān)系總數(shù)為:22 138個,其中表3展示的是各類型實(shí)體數(shù)量,表4展示了各類型關(guān)系的數(shù)量。

        2.2 數(shù)據(jù)可視化存儲

        通過上述實(shí)驗(yàn),可以得到中醫(yī)中藥知識圖譜中包含的實(shí)體及各實(shí)體間的關(guān)系。本文將從數(shù)據(jù)中獲得的實(shí)體和關(guān)系存儲在Neo4j圖數(shù)據(jù)庫中。圖3是以“肝火犯肺型咳嗽”為例,展示了圖數(shù)據(jù)庫中的一小部分知識圖譜,不同顏色的圓圈代表的是不同實(shí)體,箭頭上的文字表示兩實(shí)體間的關(guān)系,箭頭由主體指向客體。

        3 結(jié)論

        本文展示了中醫(yī)中藥知識圖譜的構(gòu)造過程。首先介紹了數(shù)據(jù)的獲取,然后給出了如何從獲取的數(shù)據(jù)中得到實(shí)體及實(shí)體間的關(guān)系,通過關(guān)鍵詞匹配算法+人工干預(yù)的方式,在降低人工工作量的前提下,提高了數(shù)據(jù)的準(zhǔn)確性。最后,使用Neo4j圖數(shù)據(jù)庫存儲數(shù)據(jù),對數(shù)據(jù)進(jìn)行可視化展示。

        在未來的工作中,筆者將不斷優(yōu)化知識提取過程,提高數(shù)據(jù)提取的準(zhǔn)確性,同時不斷更新數(shù)據(jù)庫,繼續(xù)完善數(shù)據(jù)庫,將數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大。

        參考文獻(xiàn):

        [1] 孫曉生,邢巖.構(gòu)建中國特色的健康管理體系:“治未病” 健康工程建設(shè)構(gòu)想[J].廣州中醫(yī)藥大學(xué)學(xué)報,2010,27(5):517-519.

        [2] 楊茗茜,袁東超,倪菲,等.《素問》脾藏象理論相關(guān)咳類疾病知識本體探究[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2021,27(2):199-202.

        [3] 劉耀,段慧明,穗志方.非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的數(shù)據(jù)基礎(chǔ)研究:以中醫(yī)藥古文獻(xiàn)語言知識庫的構(gòu)建為例[J].情報雜志,2006,25(9):104-107.

        [4] 黃煜俊.基于深度學(xué)習(xí)的裁判文書知識圖譜構(gòu)建研究[D].武漢:湖北工業(yè)大學(xué),2020.

        [5] CHENG B J,ZHANG J,LIU H,et al.Research on medical knowledge graph for stroke[J].Journal of Healthcare Engineering,2021,2021:5531327.

        [6] 鄂海紅,張文靜,肖思琪,等.深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J].軟件學(xué)報,2019,30(6): 1793?1818.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        數(shù)據(jù)庫文本
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        av在线一区二区精品| 中文av字幕一区二区三区| 精品一区二区三区老熟女少妇| 精品国产av一区二区三区| 日韩精品亚洲一区二区| 亚洲精品久久久久久久不卡四虎| 欧美大肥婆大肥bbbbb| 久久国产精久久精产国| 亚洲AV色无码乱码在线观看| 国产成人自产拍免费视频| 少妇被爽到自拍高潮在线观看| 亚洲黄色av一区二区三区| 天天碰免费上传视频| 国产午夜影视大全免费观看| 精品中文字幕制服中文| 日韩精品成人无码AV片| 国产亚洲一区二区三区成人| 日本一区二区三区光视频| 国产无遮挡aaa片爽爽| 337人体做爰大胆视频| 亚洲一区二区三区久久不卡| 国产诱惑人的视频在线观看| 又色又爽又黄的视频软件app| 蜜桃av噜噜一区二区三区| 亚洲午夜精品久久久久久抢| 天堂影院久久精品国产午夜18禁| 国产精品偷窥熟女精品视频| 国精产品一区一区三区有限公司杨 | 女优一区二区三区在线观看| 精品乱码一区内射人妻无码| 大肉大捧一进一出好爽视色大师 | 日韩人妻精品中文字幕专区| 国产成人精品综合在线观看| 少妇极品熟妇人妻无码| 国产美女av一区二区三区| 美女狂喷白浆网站视频在线观看 | 97成人碰碰久久人人超级碰oo| 久热香蕉av在线爽青青| 中文字幕人妻av四季| 国产av国片精品jk制服| 久久久久久久99精品国产片|