亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本相似度的康復(fù)量表ICF映射研究

        2022-04-24 03:21:22厐絪鄭建立
        軟件導(dǎo)刊 2022年4期
        關(guān)鍵詞:類目準(zhǔn)確率編碼

        厐絪,鄭建立

        (上海理工大學(xué)醫(yī)療器械與食品學(xué)院,上海 200093)

        0 引言

        隨著我國(guó)人口老齡化進(jìn)程的不斷加速,社會(huì)對(duì)老年康復(fù)醫(yī)療的需求持續(xù)增長(zhǎng)。然而我國(guó)康復(fù)產(chǎn)業(yè)起步較晚,康復(fù)資源十分緊缺,且存在康復(fù)信息化不足的問題??祻?fù)量表是康復(fù)信息的重要部分,是目前評(píng)估患者功能狀況的主要手段,但數(shù)據(jù)種類繁雜。2001年5月22日,世界衛(wèi)生組織(World Health Organization,WHO)在第54屆世界衛(wèi)生大會(huì)上頒布了國(guó)際功能、殘疾和健康分類(International Classification of Functioning,Disability and Health,ICF),其是用于人類健康功能分類的標(biāo)準(zhǔn)化框架,可與康復(fù)量表聯(lián)合應(yīng)用。2017年,WHO在“康復(fù)2030”國(guó)際大會(huì)上呼吁各國(guó)運(yùn)用ICF收集康復(fù)服務(wù)信息,加強(qiáng)健康信息系統(tǒng)建設(shè)。2020年,我國(guó)康復(fù)領(lǐng)域?qū)<姨岢鰳?gòu)建ICF的康復(fù)大數(shù)據(jù)平臺(tái),利用平臺(tái)記錄、存儲(chǔ)、統(tǒng)計(jì)和呈現(xiàn)被評(píng)定者的功能數(shù)據(jù)??梢?,康復(fù)信息管理正在得到重視,利用ICF構(gòu)建康復(fù)信息平臺(tái)是未來趨勢(shì)。

        目前,關(guān)于ICF的應(yīng)用已有許多相關(guān)研究。例如,Cieza等首次提出將康復(fù)量表與ICF進(jìn)行鏈接,并提出基于量表概念提取的手動(dòng)鏈接方法;Prodinger等將健康功能信息轉(zhuǎn)化為ICF編碼的標(biāo)準(zhǔn)化報(bào)告,運(yùn)用Cieza提出的鏈接方法實(shí)現(xiàn)概念等價(jià),運(yùn)用Rasch模型實(shí)現(xiàn)評(píng)分等價(jià);Tuechler等利用448個(gè)研究樣本,開發(fā)了基于機(jī)器學(xué)習(xí)的隨機(jī)森林學(xué)習(xí)模型的翻譯工具,旨在由患者報(bào)告結(jié)局測(cè)量工具(Patient-Reported Outcome Measures,PROM)中收集的健康信息自動(dòng)鏈接到ICF分類;林楓等以ICF為框架,運(yùn)用ASP.NET、JavaScript、CSS和HTML等技術(shù)開發(fā)了基于康復(fù)科業(yè)務(wù)流程的康復(fù)信息化管理平臺(tái)。此外,為解決ICF因類目繁多(1 495條類目)而應(yīng)用困難的問題,WHO、國(guó)際物理醫(yī)學(xué)與康復(fù)醫(yī)學(xué)學(xué)會(huì)(International Society of Physical and Rehabilitation Medicine,ISPRM)、德國(guó)慕尼黑大學(xué)健康與康復(fù)科學(xué)研究所的ICF研究分中心等共同開發(fā)了ICF核心分類組合(ICFCore Sets)。

        目前多數(shù)研究是基于一定規(guī)則在信息平臺(tái)應(yīng)用ICF,鮮有根據(jù)康復(fù)量表的文本語(yǔ)義將其自動(dòng)映射為ICF分類的研究。因此,本文以康復(fù)量表與標(biāo)準(zhǔn)ICF分類聯(lián)合應(yīng)用為思路,運(yùn)用文本相似度算法—詞移距離算法(Word Mover’s Distance,WMD),將腦卒中相關(guān)的康復(fù)量表映射為相應(yīng)的ICF編碼組合,并以ICF核心分類組合中的腦卒中綜合版作為標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),以期為康復(fù)師使用康復(fù)量表時(shí)推薦合適的ICF編碼。

        1 ICF分類簡(jiǎn)介

        ICF提供了有關(guān)人類健康功能及其受限情況的描述,其將健康功能分為6個(gè)類別:身體功能(Body Functions)、身體結(jié)構(gòu)(Body Structures)、活動(dòng)和參與(Activities and Participation)、環(huán)境因素(Environment Factors)以及個(gè)人因素(Personal Factors)。ICF描述了類別之間的聯(lián)系與鑒別要素,使得人類健康功能之間的關(guān)系得以清晰表達(dá)。

        ICF運(yùn)用字母、數(shù)字編碼系統(tǒng)表示各類目(Categories),字母b、s、d、e分別代表身體功能、身體結(jié)構(gòu)、活動(dòng)和參與、環(huán)境因素。字母之后的數(shù)字從左到右分別代表一級(jí)(1位數(shù)字)、二級(jí)(3位數(shù)字)、三級(jí)(4位數(shù)字)和四級(jí)水平類目(5位數(shù)字),具體示例如表1所示。此外,ICF需要限定值才算完整,限定值類似于量表評(píng)分,表示健康水平或出現(xiàn)問題的嚴(yán)重程度,如b7302.1表示單側(cè)身體肌肉力量輕度損傷。本文不考慮限定值,僅考慮編碼。

        ICF共有1 495條類目,分類詳盡,應(yīng)用起來十分繁瑣。ICF核心分類組合在一定程度上改善了上述問題,其運(yùn)用嚴(yán)格的多維科學(xué)方法,按照人在不同時(shí)期(急性期、亞急性期以及慢性期)的特定健康狀況(如腦卒中、孤獨(dú)癥)對(duì)ICF進(jìn)行分組。ICF核心分類組合共計(jì)86個(gè),包括3個(gè)基本ICF組合:通用組合、功能障礙組合、環(huán)境因素的最小組合,以及4類疾病分組:肌肉骨骼系統(tǒng)疾病、心肺疾病、神經(jīng)系統(tǒng)疾病、其他疾病,每類疾病分組下包括具體疾病的綜合版和簡(jiǎn)要版ICF核心分類組合。

        Table 1 Examples of ICF category codes at different levels表1 不同水平ICF分類編碼示例

        2 WMD算法

        WMD是Kusner等于2015年提出的基于詞向量計(jì)算文本文檔之間距離的算法,是搬土距離(Earth Mover’s Distance,EMD)的一個(gè)應(yīng)用實(shí)例。EMD是Rubner等于1998年提出的解決線性規(guī)劃中運(yùn)輸問題的算法,被廣泛應(yīng)用于圖像和語(yǔ)音信號(hào)處理領(lǐng)域。EMD反映了通過移動(dòng)分布質(zhì)量將一個(gè)分布轉(zhuǎn)換為另一個(gè)分布所必須進(jìn)行的最小工作量。相應(yīng)的,WMD計(jì)算的即為一個(gè)詞轉(zhuǎn)換為另一個(gè)詞所必需的最小代價(jià)。

        WMD的思想是求解兩個(gè)文本文檔之間的最短距離。在兩個(gè)文本文檔去除停用詞后,將其表示為加權(quán)詞向量的點(diǎn)云,其中權(quán)是通過最優(yōu)化算法得出。文本文檔A與B之間的距離為文檔A中所有詞與文檔B中所有詞完全匹配所需要移動(dòng)的最小累積距離,即加權(quán)詞向量點(diǎn)云之間的最小距離。圖1為WMD算法的示意圖,粗體字為去除停用詞后剩下的詞。

        Fig.1 Illustration of WMD圖1 WMD示意圖

        WMD算法具有以下幾個(gè)特性:①?zèng)]有超參數(shù),易于理解和使用;②具有高度可解釋性,兩個(gè)文檔之間的距離可以分解并解釋為幾個(gè)單詞之間的稀疏距離;③包括Word2vec空間的詞向量編碼,具有較高的檢索準(zhǔn)確性;④是一種基于文檔之間的非監(jiān)督算法。

        WMD算法采用歸一化詞袋模型(Normalized Bag-ofwords,nBOW)的向量d∈R描述文檔。其中,詞

        i

        在文檔中出現(xiàn)的次數(shù)表示為

        c

        ,刪除與類別無關(guān)的停用詞后,則向量d中的元素

        d

        可表示為:

        WMD算法的目標(biāo)是將詞間距離的計(jì)算擴(kuò)展為文檔間距離的計(jì)算。在詞向量中,通常采用歐式距離表達(dá)詞間距離。因此,WMD也采用歐式距離表達(dá)詞間距離,即詞

        i

        與詞

        j

        的歐式距離為:

        Fig.2 WMD algorithm diagram圖2 WMD算法示意圖

        3 實(shí)驗(yàn)方法與結(jié)果分析

        3.1 康復(fù)量表ICF映射研究思路

        在中文環(huán)境下選取康復(fù)量表中的描述性文字以及ICF類目的相關(guān)中文文本,對(duì)這兩部分文本分別進(jìn)行預(yù)處理,運(yùn)用WMD算法進(jìn)行量表?xiàng)l目文本與ICF類目文本之間的匹配,其中量表文本為被匹配對(duì)象,ICF編碼為匹配結(jié)果。進(jìn)行文本匹配時(shí),選取WMD距離最小的ICF類目文本對(duì)應(yīng)的編碼作為單項(xiàng)量表?xiàng)l目的匹配項(xiàng),并以ICF核心分類組合中的腦卒中綜合版為標(biāo)準(zhǔn),對(duì)匹配結(jié)果進(jìn)行評(píng)估。康復(fù)量表映射為ICF的流程如圖3所示。

        Fig.3 Process of mapping rehabilitation scales to ICF圖3 康復(fù)量表的ICF映射流程

        3.2 實(shí)驗(yàn)數(shù)據(jù)

        ICF文本數(shù)據(jù)來自WHO發(fā)布的ICF瀏覽器中文版、Bioportal上的ICF本體文件。ICF核心分類組合的腦卒中綜合版編碼數(shù)據(jù)來自ICF Research Branch??祻?fù)量表文本數(shù)據(jù)來自《康復(fù)醫(yī)學(xué)》《康復(fù)評(píng)定常用量表》中關(guān)于腦卒中的6個(gè)康復(fù)量表,分別為格拉斯哥昏迷量表、美國(guó)國(guó)立衛(wèi)生研究院卒中量表(NIHSS量表)、Brunnstrom運(yùn)動(dòng)功能評(píng)定量表、簡(jiǎn)化Fugl-Meyer評(píng)定量表、Berg平衡量表以及改良Barthel指數(shù)評(píng)分量表。停用詞表來自于GitHub上的公開項(xiàng)目。中文詞向量來自于Li等訓(xùn)練的SGNS(Skip-Gram with Negative Sampling)中文詞向量。

        3.3 數(shù)據(jù)處理

        (1)文本獲取。ICF文本以及ICF核心分類組合編碼數(shù)據(jù)來自網(wǎng)頁(yè),存在不需要的HTML標(biāo)簽。采用網(wǎng)絡(luò)爬蟲技術(shù),使用Python語(yǔ)言編寫的Requests請(qǐng)求庫(kù)、Beautiful Soup、Pyquery解析庫(kù)提取文本和編碼數(shù)據(jù)。

        (2)構(gòu)建擴(kuò)展詞、停用詞表。向擴(kuò)展詞表中加入康復(fù)醫(yī)學(xué)領(lǐng)域的專業(yè)詞匯,如“腦白質(zhì)”“腘繩肌”等。向停用詞表中加入不影響文本匹配任務(wù)的詞語(yǔ),如“確實(shí)”“缺少”“原因”等。

        (3)中文分詞。在中文環(huán)境下,詞與詞之間沒有顯式分隔符,而WMD算法運(yùn)用詞向量計(jì)算詞間距離,因此需要對(duì)文本進(jìn)行中文分詞。支持Python語(yǔ)言的分詞工具包括HanLP、結(jié)巴(jieba)分詞、LTP等,本文選用jieba分詞。

        (4)去停用詞。停用詞是自然語(yǔ)言中最常見的詞,但這些詞可能不會(huì)為文本含義增加太多價(jià)值。停用詞一般是標(biāo)點(diǎn)符號(hào)、連詞或代詞等,本文采用“3.2”項(xiàng)提及的停用詞表去停用詞。

        (5)詞向量L范數(shù)正則化(L-Normalization)。Wilson等認(rèn)為詞嵌入的應(yīng)用本質(zhì)是得到詞嵌入之間的關(guān)系,如詞嵌入之間的余弦值或距離。詞嵌入的大多數(shù)應(yīng)用是以探索詞嵌入之間關(guān)系的方式解決詞與詞之間相似度計(jì)算和其他關(guān)系的問題,而使用正則化的詞向量可以提高算法解決這些問題的性能。因此,本文對(duì)中文詞向量進(jìn)行L范數(shù)正則化。

        3.4 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

        采用Python 3.6編寫實(shí)驗(yàn)代碼,使用Gensim模塊實(shí)現(xiàn)WMD算法;硬件環(huán)境為Intel Xeon Gold 6132,操作系統(tǒng)為Red Hat 4.8.5-16。

        運(yùn)用準(zhǔn)確率(Accuracy)評(píng)估方法性能,計(jì)算公式為:

        式中,

        A

        為準(zhǔn)確率;

        n

        為匹配正確的量表?xiàng)l目數(shù)量,表示量表中有

        n

        個(gè)條目映射的ICF編碼是腦卒中綜合版編碼組合的成員;

        N

        為該量表的條目總數(shù)。

        腦卒中綜合版的類目數(shù)量為130,精確匹配難度較大,因此分別進(jìn)行top-1與top-5的準(zhǔn)確率評(píng)價(jià)。其中,top-1準(zhǔn)確率為距離最小候選答案為正確答案的比率,top-5準(zhǔn)確率為距離最小的前5個(gè)候選答案包含正確答案的條目所占的比率。為更直觀地體現(xiàn)top-5的評(píng)價(jià)性能,增加top-5的平均準(zhǔn)確數(shù)這一指標(biāo),用于檢驗(yàn)量表中平均每個(gè)條目的正確答案數(shù)量,表示為:

        此外,文本匹配時(shí)需忽略定義過于寬泛的一級(jí)類目,只匹配ICF二級(jí)及以上類目,并將二級(jí)以上類目歸為對(duì)應(yīng)的二級(jí)類目,如b1100歸為b110。在實(shí)際應(yīng)用中,二級(jí)水平的精度已經(jīng)足夠。

        3.5 實(shí)驗(yàn)結(jié)果分析

        采用WMD算法對(duì)康復(fù)量表?xiàng)l目和ICF類目中的中文文本進(jìn)行匹配,檢驗(yàn)匹配的ICF類目編碼是否為腦卒中綜合版編碼組合的成員。映射結(jié)果如表2所示,實(shí)驗(yàn)性能參數(shù)如表3所示。

        Table2 Experimental results of rehabilitation scales mapping to ICF表2 康復(fù)量表ICF映射的實(shí)驗(yàn)結(jié)果

        由表2-表3可以看出,各個(gè)量表top-1準(zhǔn)確率均大于0.6,平均值為0.9;top-5準(zhǔn)確率均為1,平均準(zhǔn)確數(shù)均≥3,即前5個(gè)候選編碼中,平均有3個(gè)為正確答案。實(shí)驗(yàn)結(jié)果表明,top-1需要精準(zhǔn)匹配,top-5范圍較top-1廣,更符合本文推薦ICF編碼的需求。

        Table3 Experimental performance表3 實(shí)驗(yàn)性能

        表4展示了top-5文本匹配的示例,即1個(gè)量表?xiàng)l目對(duì)應(yīng)5個(gè)候選ICF編碼。從語(yǔ)義來看,該條目評(píng)估的是患者能否在一定時(shí)間內(nèi)自主持續(xù)站立。詞移距離在前3位的b740、b730和b735描述的是肌肉耐力、肌肉力量、肌張力等內(nèi)容,與該條目的語(yǔ)義和主旨相關(guān),說明本文方法在top-5模式下具有較好的語(yǔ)義相關(guān)性。

        Table 4 Examples of top-5 text matching表4 top-5文本匹配示例

        4 結(jié)語(yǔ)

        本文提出運(yùn)用非監(jiān)督的文本相似度算法WMD,以公開的6個(gè)腦卒中康復(fù)量表和ICF中文文本數(shù)據(jù)為研究對(duì)象,結(jié)合詞向量對(duì)康復(fù)量表?xiàng)l目和ICF類目進(jìn)行文本匹配。在匹配結(jié)果中選取詞移距離最小的top-1和top-5編碼,并以ICF核心分類組合的腦卒中綜合版為標(biāo)準(zhǔn),進(jìn)行準(zhǔn)確率與準(zhǔn)確數(shù)的評(píng)價(jià)。實(shí)驗(yàn)結(jié)果顯示,腦卒中綜合版的top-5準(zhǔn)確率較高,表明利用文本相似度推薦編碼的方法能夠有效運(yùn)用于ICF編碼的映射問題中。該方法為康復(fù)師在臨床上便捷高效地利用ICF編碼提供了新思路。然而,本研究存在一定的局限性,由于缺乏ICF實(shí)際應(yīng)用數(shù)據(jù),該方法僅適用于輔助篩選ICF編碼,尚不能精準(zhǔn)運(yùn)用于實(shí)際臨床。在后續(xù)研究中,可以嘗試引入專業(yè)人士的標(biāo)注數(shù)據(jù)作為參考依據(jù),以提高ICF映射的準(zhǔn)確性。

        猜你喜歡
        類目準(zhǔn)確率編碼
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        本期練習(xí)題類目參考答案及提示
        《全元詩(shī)》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        《中圖法》第5版交替類目研究綜述
        久久久无码中文字幕久...| 国产午夜视频高清在线观看 | 亚洲人妻御姐中文字幕| 一区二区三区四区四色av| 国产女人乱码一区二区三区| 国产精品视频亚洲二区| 成人艳情一二三区| 四虎成人精品国产永久免费无码| 欧美精品亚洲精品日韩专区| 在线播放免费播放av片| 中文乱码人妻系列一区二区| 久久精品韩国日本国产| 久久国产精品国语对白| 国产精品亚洲专区无码不卡| 久久久久国产精品| 中文无码一区二区不卡αv| 亚洲国产成人久久综合一区77| 91精品国产高清久久久久| 免费人成黄页在线观看国产| 久久亚洲春色中文字幕久久| 男女男精品视频网站免费看| 草色噜噜噜av在线观看香蕉| 日韩精品一区二区三区中文| 一区二区三区国产亚洲网站| 国产a三级久久精品| 大白屁股流白浆一区二区三区| 亚洲香蕉久久一区二区| 国产精品久久久免费精品| 久久精品国产亚洲av麻豆长发| 无码精品日韩中文字幕| 中文精品久久久久中文| 国产一区精品二区三区四区| 国产在线高清理伦片a| av综合网男人的天堂| 亚洲欧洲日产国码高潮αv| 欧美色图50p| 青青草视频网站免费看| 日本系列有码字幕中文字幕| 亚洲2022国产成人精品无码区| 色天使综合婷婷国产日韩av| 粉嫩少妇内射浓精videos|