亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SNOMED-CT的醫(yī)療術語語義相似度計算方法

        2021-02-16 00:40:10呂曉云
        天津理工大學學報 2021年6期
        關鍵詞:脫敏計算公式術語

        戴 敏,朱 森,呂曉云

        (天津理工大學計算機科學與工程學院,天津 300384)

        醫(yī)療物聯(lián)網(wǎng)(internet of medical things,IoMT)技術的發(fā)展推進了醫(yī)療服務、醫(yī)療保健的普及和發(fā)展。許多基于IoMT的工具、軟件和設施已用于遠程健康跟蹤、身體恢復鍛煉、慢性病人群和老年人群的護理[1-2]。當健康數(shù)據(jù)關聯(lián)到具體的個體時,若處理不當,可能會引發(fā)嚴重的用戶隱私曝光問題。

        在醫(yī)學領域內已經(jīng)制定了關于隱私保護的正式條例,如《健康保險攜帶和責任法案》規(guī)定了在醫(yī)療文件允許發(fā)布之前應刪除個人可識別信息[3]。美國許多州和聯(lián)邦法律也規(guī)定,在向第三方發(fā)布醫(yī)療記錄之前,必須對艾滋病狀況、藥物或乙醇濫用以及精神健康狀況等因素進行脫敏[3-5]。

        醫(yī)療文本中很多文本術語在語義上都是相關的,單純刪除或涂黑敏感術語(如艾滋?。┛赡軙岣邼撛诠粽叩木X性,并且未處理的語義相關術語(如免疫系統(tǒng)、流感和無保護的性行為)可能會增大敏感術語被揭露的風險[6]。因此,如何用語義泛化的形式來處理敏感術語,以及如何發(fā)現(xiàn)和處理語義相關術語成為了醫(yī)療文本脫敏工作的重點[7]。

        文獻[8]提出了一種基于信息量(information content,IC)的醫(yī)療文本自動脫敏方法,該方法不僅對敏感術語進行脫敏,還檢測了語義相關的術語。該方法以搜索引擎必應(https://cn.bing.com)鏈接的資源來計算IC值以確定敏感詞,并利用知識庫將其泛化為通用術語。但互聯(lián)網(wǎng)中的數(shù)據(jù)存在流動性的特點[9],特定醫(yī)療數(shù)據(jù)在搜索引擎中所鏈接的資源的稀疏性受階段性流行病和社會輿論指向的影響。另外,依照數(shù)據(jù)稀疏性來判斷術語敏感與否,可能會使一些非常用的非敏感術語被識別為敏感術語。

        醫(yī)學術語系統(tǒng)命名法-臨床術語(systematized nomenclature of medicine-clinical terms,SNOMEDCT)作為世界上最全面的臨床醫(yī)療術語,在國際上的臨床醫(yī)學數(shù)據(jù)分析的研究中應用極為廣泛[10-12]。因其收錄的大量醫(yī)學概念及詳細的分類結構,已被許多科研工作者用作醫(yī)療文本脫敏的知識庫[13-14]。本文在分析SNOMED-CT結構的基礎上,提出了一種基于SNOMED-CT的語義相似度計算方法,該方法可以有效地應用于醫(yī)療文本的語義脫敏。

        1 SNOMED-CT結構分析

        SNOMED-CT是目前最為全面的國際標準醫(yī)學術語系統(tǒng),包含30多萬個醫(yī)學概念和130多萬個關系[15]。因具備完整、穩(wěn)固的語義基礎和結構化的術語表達形式,被醫(yī)學領域許多信息模型指定為標準編碼系統(tǒng),在國際醫(yī)療與健康領域中有著廣泛地應用。

        SNOMED-CT概念模型由概念、描述和關系組成,并采取統(tǒng)一的數(shù)字標識符來唯一地表示各個概念、描述和關系,SNOMED-CT的邏輯結構如圖1所示,其中概念關系可分為2大類。

        第1類是繼承關系(“IS_A”關系),又稱“上下位關系”或“父子關系”,從縱向上連接語義上具有包含與被包含關系的概念。IS_A關系是SNOMED-CT建立概念分類層級體系的基礎,眾多語義上具有包含與被包含的概念基于IS_A關系縱向聚合,形成了SNOMED-CT中不同的概念分類層級體系。除了頂級的“根概念”——“SNOMED Concept”外,每個概念均至少有一個IS_A關系與上位概念相關聯(lián)。

        第2類是“概念模型屬性”關系,從橫向上連接兩個概念并確定概念間的語義關系[16]。如圖1中的“肺炎—肺結構”、“氣管支氣管炎—氣管支氣管結構”等都是概念模型屬性關系。SNOMED-CT實際運用了60種概念模型屬性,形成了數(shù)十萬條的橫向語義關聯(lián)關系。

        圖1 SNOMED-CT的邏輯結構Fig.1 Logical structure of SNOMED-CT

        2 語義相似度計算方法

        結合SNOMED-CT的結構特點,本文利用SNOMED-CT中的2類概念關系來計算醫(yī)療術語的語義相似度,即計算2個概念的語義相似度時考慮2個因素:概念的具體化程度和語義距離。

        2.1 具體化程度

        在如圖1所示的SNOMED-CT的邏輯結構中,概念所在的層次(深度),即概念節(jié)點與根節(jié)點之間的縱向關系距離(即“IS_A”關系數(shù)量),代表了概念描述內容的具體化程度。每一層都是對上層概念的具體化,也是對下層概念的泛化,故深度越大,具體化程度越高。設c1和c2是SNOMED-CT中的2個概念,則這2個概念節(jié)點的具體化程度可表示為:

        式中,h代表c1和c22個概念節(jié)點的最小公共祖先的深度。最小公共祖先的深度越大,概念的具體化程度越高,反之亦成立。

        2.2 語義距離

        在SNOMED-CT的邏輯結構中,概念節(jié)點之間的橫向關系距離(即“概念模型屬性”關系數(shù)量)代表了2個概念之間的語義距離。設c1和c2是SNOMED-CT中的2個概念,可以用兩個概念節(jié)點之間的最短路徑長度描述2個概念的語義距離,其公式為:

        式中,d是概念節(jié)點c1和c2之間的最短路徑。

        由此可見,兩個概念節(jié)點之間的最短路徑距離越大,它們之間的語義距離就越大,反之亦成立。

        2.3 術語相似度的計算公式

        綜合考慮SNOMED-CT中2個概念間的2類關系,2個概念的相似度計算公式為:

        由于一個單詞可能具有多種概念含義,本文用與單詞相關的概念的相似度最大值來描述單詞之間的語義相似度。設單詞q1具有多個概念(c11,c12,…,c1a),單詞q2具有多個概念(c21,c22,…,c2b),則2個單詞q1,q2間的語義相似度的計算公式為:

        一篇醫(yī)療文本中包含若干醫(yī)療術語,每個醫(yī)療術語通常由若干單詞組成。假設術語p1包含多個單詞(q11,q12,…,q1m),術語p2包含多個單詞(q21,q22,…,q2n),則2個術語之間的語義相似性的計算公式為:

        3 實驗及結果分析

        本文實驗數(shù)據(jù)為從維基百科(Wikipedia)選擇的6類共42篇醫(yī)療文本,這些文本分別從醫(yī)學角度描述了性傳播疾病、艾滋病毒、艾滋病、精神障礙和藥物濫用。為了評估本文方法的有效性,以2名醫(yī)療專家對各文本進行手動脫敏的結果為參照標準,從脫敏精度和實用度兩方面對本文方法與基于IC的脫敏方法進行了比較。

        3.1 脫敏精度評估

        本文用3個指標來評價脫敏的精度,分別是精準度(precision)、召回率(recall)和F-度量(Fmeasure,F(xiàn)mea)。

        精準度用來描述自動脫敏方法識別出敏感術語的準確率,其計算公式為:

        式中,A代表自動脫敏識別出的敏感術語,B代表手動脫敏識別出的敏感詞。Ppre越高,表明自動脫敏識別敏感術語的準確率越高。

        召回率用來描述自動脫敏方法對文本中敏感術語的識別率,其計算公式為:

        Prec越高,說明敏感術語的識別率越高。在文本脫敏過程中,Prec通常比Ppre更重要,若Prec過低,則意味著有更多敏感術語未被識別出來,文本披露隱私風險越高。

        Fmea用Ppre和Prec的諧波均值來表示脫敏的準確性,其計算公式為:

        用本文方法與基于IC的方法分別對6類文本進行脫敏實驗,表1所示為精度實驗結果的對比。

        表1 精度實驗結果的對比Tab.1 Comparison of accuracy test results

        由表1可知,與基于IC的方法相比,采用本文方法對上述6類醫(yī)療文本進行脫敏,精準度、召回率和F-度量的平均性能分別提高了5.92%、3.13%和4.97%。

        3.2 實用性評估

        實用性代表了文本脫敏后的實用程度,即信息量的保留程度。本文采用文獻[8]提出的基于IC的評估方式評估脫敏后文本相對于原文本所保留的實用性。

        某術語t所包含的信息量可用其CIC值表示,其計算公式為:

        式中,p(t)為t在知識庫中出現(xiàn)的概率,這里以搜索引擎百度所鏈接的資源作為評估知識庫。CIC(t)越高,意味著t包含著更多的信息量。

        一篇文本的信息量為該文本所包含術語提供的信息量的總和,假設文本D包含多個術語(t1,t2,…,tn),則其信息量的計算公式為:

        式中,ti為文本中所包含的術語。

        文本脫敏后的實用性保留程度Putility的計算公式為:

        式中,D為脫敏前的文本,D′為脫敏后的文本。

        采用對比本文提出的方法與基于IC的方法脫敏后的文本的實用性進行分析,表2所示為實用性對比實驗結果。

        表2 實用性對比實驗結果Tab.2 Experiment results of practicability comparison

        由表2可知,與基于IC的方法相比,采用本文提出的方法脫敏后文章的實用性平均提高了5.65%。

        4 結論

        本文在深入分析SNOMED-CT知識庫結構的基礎上,提出利用該知識庫中2類概念關系計算醫(yī)療術語的語義相似度計算方法,并將該方法用于醫(yī)療文本的脫敏。對從Wikipedia上選取的6類共42篇醫(yī)療文本進行脫敏提出的實驗,結果表明,與基于IC的脫敏方法相比,本文提出的方法在脫敏精度和實用度方面都有一定幅度的提高,適用于以SNOMED-CT作為知識庫的醫(yī)療文本敏感詞識別和脫敏。

        猜你喜歡
        脫敏計算公式術語
        電機溫升計算公式的推導和應用
        防爆電機(2022年4期)2022-08-17 05:59:50
        激光聯(lián)合脫敏劑治療牙本質過敏癥
        過敏體質與脫敏治療
        2019離職補償金計算公式一覽表
        讓青春脫敏
        幸福(2017年18期)2018-01-03 06:34:42
        Nd:YAG激光作用下牙本質脫敏機制的研究
        采用初等代數(shù)推導路基計算公式的探討
        關于節(jié)能評估中n值計算公式及修正
        有感于幾個術語的定名與應用
        從術語學基本模型的演變看術語學的發(fā)展趨勢
        精品人妻潮喷久久久又裸又黄 | 日本视频一区二区三区观看| 亚洲无av在线中文字幕| 18分钟处破好疼哭视频在线观看 | 99国产精品无码| 免费一级毛片麻豆精品| 亚洲香蕉av一区二区蜜桃| 手机在线看片国产人妻| 强奷乱码中文字幕| 日韩无码无播放器视频| 亚洲在线一区二区三区四区| 在线观看一区二区中文字幕| 欧美三级不卡在线观看| 天码av无码一区二区三区四区 | 亚洲区日韩精品中文字幕| 最新国内视频免费自拍一区| 男人天堂网2017| 国产高清在线精品一区| 女同av在线观看网站| 我的美艳丝袜美腿情缘| 日日摸日日碰人妻无码| 欧美日韩不卡视频合集| 国产精品亚洲A∨无码遮挡| 日本综合视频一区二区| 鲁丝片一区二区三区免费| AV无码最在线播放| 黄色网页在线观看一区二区三区| 中国老熟女露脸老女人| 免费a级毛片无码| 国产免费AV片在线看| 一区二区三区视频偷拍| 三级全黄裸体| 色窝窝免费播放视频在线| 国产免费午夜福利蜜芽无码| 激情五月开心五月麻豆| 国产成熟人妻换╳╳╳╳ | 亚洲精品视频1区2区| 男男啪啪激烈高潮cc漫画免费| 久久波多野结衣av| 亚洲精品美女中文字幕久久| 美女高潮黄又色高清视频免费|