亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文本相似度的康復(fù)量表ICF映射研究

2022-04-24 03:21:22厐絪鄭建立

軟件導(dǎo)刊 2022年4期

厐絪，鄭建立

（上海理工大學(xué)醫(yī)療器械與食品學(xué)院，上海 200093）

0 引言

隨著我國(guó)人口老齡化進(jìn)程的不斷加速，社會(huì)對(duì)老年康復(fù)醫(yī)療的需求持續(xù)增長(zhǎng)。然而我國(guó)康復(fù)產(chǎn)業(yè)起步較晚，康復(fù)資源十分緊缺，且存在康復(fù)信息化不足的問題?？祻?fù)量表是康復(fù)信息的重要部分，是目前評(píng)估患者功能狀況的主要手段，但數(shù)據(jù)種類繁雜。2001年5月22日，世界衛(wèi)生組織（World Health Organization，WHO）在第54屆世界衛(wèi)生大會(huì)上頒布了國(guó)際功能、殘疾和健康分類（International Classification of Functioning，Disability and Health，ICF），其是用于人類健康功能分類的標(biāo)準(zhǔn)化框架，可與康復(fù)量表聯(lián)合應(yīng)用。2017年，WHO在“康復(fù)2030”國(guó)際大會(huì)上呼吁各國(guó)運(yùn)用ICF收集康復(fù)服務(wù)信息，加強(qiáng)健康信息系統(tǒng)建設(shè)。2020年，我國(guó)康復(fù)領(lǐng)域?qū)＜姨岢鰳?gòu)建ICF的康復(fù)大數(shù)據(jù)平臺(tái)，利用平臺(tái)記錄、存儲(chǔ)、統(tǒng)計(jì)和呈現(xiàn)被評(píng)定者的功能數(shù)據(jù)?？梢?，康復(fù)信息管理正在得到重視，利用ICF構(gòu)建康復(fù)信息平臺(tái)是未來趨勢(shì)。

目前，關(guān)于ICF的應(yīng)用已有許多相關(guān)研究。例如，Cieza等首次提出將康復(fù)量表與ICF進(jìn)行鏈接，并提出基于量表概念提取的手動(dòng)鏈接方法；Prodinger等將健康功能信息轉(zhuǎn)化為ICF編碼的標(biāo)準(zhǔn)化報(bào)告，運(yùn)用Cieza提出的鏈接方法實(shí)現(xiàn)概念等價(jià)，運(yùn)用Rasch模型實(shí)現(xiàn)評(píng)分等價(jià)；Tuechler等利用448個(gè)研究樣本，開發(fā)了基于機(jī)器學(xué)習(xí)的隨機(jī)森林學(xué)習(xí)模型的翻譯工具，旨在由患者報(bào)告結(jié)局測(cè)量工具（Patient-Reported Outcome Measures，PROM）中收集的健康信息自動(dòng)鏈接到ICF分類；林楓等以ICF為框架，運(yùn)用ASP.NET、JavaScript、CSS和HTML等技術(shù)開發(fā)了基于康復(fù)科業(yè)務(wù)流程的康復(fù)信息化管理平臺(tái)。此外，為解決ICF因類目繁多（1 495條類目）而應(yīng)用困難的問題，WHO、國(guó)際物理醫(yī)學(xué)與康復(fù)醫(yī)學(xué)學(xué)會(huì)（International Society of Physical and Rehabilitation Medicine，ISPRM）、德國(guó)慕尼黑大學(xué)健康與康復(fù)科學(xué)研究所的ICF研究分中心等共同開發(fā)了ICF核心分類組合（ICFCore Sets）。

目前多數(shù)研究是基于一定規(guī)則在信息平臺(tái)應(yīng)用ICF，鮮有根據(jù)康復(fù)量表的文本語(yǔ)義將其自動(dòng)映射為ICF分類的研究。因此，本文以康復(fù)量表與標(biāo)準(zhǔn)ICF分類聯(lián)合應(yīng)用為思路，運(yùn)用文本相似度算法—詞移距離算法（Word Mover’s Distance，WMD），將腦卒中相關(guān)的康復(fù)量表映射為相應(yīng)的ICF編碼組合，并以ICF核心分類組合中的腦卒中綜合版作為標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià)，以期為康復(fù)師使用康復(fù)量表時(shí)推薦合適的ICF編碼。

1 ICF分類簡(jiǎn)介

ICF提供了有關(guān)人類健康功能及其受限情況的描述，其將健康功能分為6個(gè)類別：身體功能（Body Functions）、身體結(jié)構(gòu)（Body Structures）、活動(dòng)和參與（Activities and Participation）、環(huán)境因素（Environment Factors）以及個(gè)人因素（Personal Factors）。ICF描述了類別之間的聯(lián)系與鑒別要素，使得人類健康功能之間的關(guān)系得以清晰表達(dá)。

ICF運(yùn)用字母、數(shù)字編碼系統(tǒng)表示各類目（Categories），字母b、s、d、e分別代表身體功能、身體結(jié)構(gòu)、活動(dòng)和參與、環(huán)境因素。字母之后的數(shù)字從左到右分別代表一級(jí)（1位數(shù)字）、二級(jí)（3位數(shù)字）、三級(jí)（4位數(shù)字）和四級(jí)水平類目（5位數(shù)字），具體示例如表1所示。此外，ICF需要限定值才算完整，限定值類似于量表評(píng)分，表示健康水平或出現(xiàn)問題的嚴(yán)重程度，如b7302.1表示單側(cè)身體肌肉力量輕度損傷。本文不考慮限定值，僅考慮編碼。

ICF共有1 495條類目，分類詳盡，應(yīng)用起來十分繁瑣。ICF核心分類組合在一定程度上改善了上述問題，其運(yùn)用嚴(yán)格的多維科學(xué)方法，按照人在不同時(shí)期（急性期、亞急性期以及慢性期）的特定健康狀況（如腦卒中、孤獨(dú)癥）對(duì)ICF進(jìn)行分組。ICF核心分類組合共計(jì)86個(gè)，包括3個(gè)基本ICF組合：通用組合、功能障礙組合、環(huán)境因素的最小組合，以及4類疾病分組：肌肉骨骼系統(tǒng)疾病、心肺疾病、神經(jīng)系統(tǒng)疾病、其他疾病，每類疾病分組下包括具體疾病的綜合版和簡(jiǎn)要版ICF核心分類組合。

Table 1 Examples of ICF category codes at different levels表1 不同水平ICF分類編碼示例

2 WMD算法

WMD是Kusner等于2015年提出的基于詞向量計(jì)算文本文檔之間距離的算法，是搬土距離（Earth Mover’s Distance，EMD）的一個(gè)應(yīng)用實(shí)例。EMD是Rubner等于1998年提出的解決線性規(guī)劃中運(yùn)輸問題的算法，被廣泛應(yīng)用于圖像和語(yǔ)音信號(hào)處理領(lǐng)域。EMD反映了通過移動(dòng)分布質(zhì)量將一個(gè)分布轉(zhuǎn)換為另一個(gè)分布所必須進(jìn)行的最小工作量。相應(yīng)的，WMD計(jì)算的即為一個(gè)詞轉(zhuǎn)換為另一個(gè)詞所必需的最小代價(jià)。

WMD的思想是求解兩個(gè)文本文檔之間的最短距離。在兩個(gè)文本文檔去除停用詞后，將其表示為加權(quán)詞向量的點(diǎn)云，其中權(quán)是通過最優(yōu)化算法得出。文本文檔A與B之間的距離為文檔A中所有詞與文檔B中所有詞完全匹配所需要移動(dòng)的最小累積距離，即加權(quán)詞向量點(diǎn)云之間的最小距離。圖1為WMD算法的示意圖，粗體字為去除停用詞后剩下的詞。

Fig.1 Illustration of WMD圖1 WMD示意圖

WMD算法具有以下幾個(gè)特性：①?zèng)]有超參數(shù)，易于理解和使用；②具有高度可解釋性，兩個(gè)文檔之間的距離可以分解并解釋為幾個(gè)單詞之間的稀疏距離；③包括Word2vec空間的詞向量編碼，具有較高的檢索準(zhǔn)確性；④是一種基于文檔之間的非監(jiān)督算法。

WMD算法采用歸一化詞袋模型（Normalized Bag-ofwords，nBOW）的向量d∈R描述文檔。其中，詞

在文檔中出現(xiàn)的次數(shù)表示為

，刪除與類別無關(guān)的停用詞后，則向量d中的元素

可表示為：

WMD算法的目標(biāo)是將詞間距離的計(jì)算擴(kuò)展為文檔間距離的計(jì)算。在詞向量中，通常采用歐式距離表達(dá)詞間距離。因此，WMD也采用歐式距離表達(dá)詞間距離，即詞

與詞

的歐式距離為：

Fig.2 WMD algorithm diagram圖2 WMD算法示意圖

3 實(shí)驗(yàn)方法與結(jié)果分析

3.1 康復(fù)量表ICF映射研究思路

在中文環(huán)境下選取康復(fù)量表中的描述性文字以及ICF類目的相關(guān)中文文本，對(duì)這兩部分文本分別進(jìn)行預(yù)處理，運(yùn)用WMD算法進(jìn)行量表?xiàng)l目文本與ICF類目文本之間的匹配，其中量表文本為被匹配對(duì)象，ICF編碼為匹配結(jié)果。進(jìn)行文本匹配時(shí)，選取WMD距離最小的ICF類目文本對(duì)應(yīng)的編碼作為單項(xiàng)量表?xiàng)l目的匹配項(xiàng)，并以ICF核心分類組合中的腦卒中綜合版為標(biāo)準(zhǔn)，對(duì)匹配結(jié)果進(jìn)行評(píng)估。康復(fù)量表映射為ICF的流程如圖3所示。

Fig.3 Process of mapping rehabilitation scales to ICF圖3 康復(fù)量表的ICF映射流程

3.2 實(shí)驗(yàn)數(shù)據(jù)

ICF文本數(shù)據(jù)來自WHO發(fā)布的ICF瀏覽器中文版、Bioportal上的ICF本體文件。ICF核心分類組合的腦卒中綜合版編碼數(shù)據(jù)來自ICF Research Branch?？祻?fù)量表文本數(shù)據(jù)來自《康復(fù)醫(yī)學(xué)》《康復(fù)評(píng)定常用量表》中關(guān)于腦卒中的6個(gè)康復(fù)量表，分別為格拉斯哥昏迷量表、美國(guó)國(guó)立衛(wèi)生研究院卒中量表（NIHSS量表）、Brunnstrom運(yùn)動(dòng)功能評(píng)定量表、簡(jiǎn)化Fugl-Meyer評(píng)定量表、Berg平衡量表以及改良Barthel指數(shù)評(píng)分量表。停用詞表來自于GitHub上的公開項(xiàng)目。中文詞向量來自于Li等訓(xùn)練的SGNS（Skip-Gram with Negative Sampling）中文詞向量。

3.3 數(shù)據(jù)處理

（1）文本獲取。ICF文本以及ICF核心分類組合編碼數(shù)據(jù)來自網(wǎng)頁(yè)，存在不需要的HTML標(biāo)簽。采用網(wǎng)絡(luò)爬蟲技術(shù)，使用Python語(yǔ)言編寫的Requests請(qǐng)求庫(kù)、Beautiful Soup、Pyquery解析庫(kù)提取文本和編碼數(shù)據(jù)。

（2）構(gòu)建擴(kuò)展詞、停用詞表。向擴(kuò)展詞表中加入康復(fù)醫(yī)學(xué)領(lǐng)域的專業(yè)詞匯，如“腦白質(zhì)”“腘繩肌”等。向停用詞表中加入不影響文本匹配任務(wù)的詞語(yǔ)，如“確實(shí)”“缺少”“原因”等。

（3）中文分詞。在中文環(huán)境下，詞與詞之間沒有顯式分隔符，而WMD算法運(yùn)用詞向量計(jì)算詞間距離，因此需要對(duì)文本進(jìn)行中文分詞。支持Python語(yǔ)言的分詞工具包括HanLP、結(jié)巴（jieba）分詞、LTP等，本文選用jieba分詞。

（4）去停用詞。停用詞是自然語(yǔ)言中最常見的詞，但這些詞可能不會(huì)為文本含義增加太多價(jià)值。停用詞一般是標(biāo)點(diǎn)符號(hào)、連詞或代詞等，本文采用“3.2”項(xiàng)提及的停用詞表去停用詞。

（5）詞向量L范數(shù)正則化（L-Normalization）。Wilson等認(rèn)為詞嵌入的應(yīng)用本質(zhì)是得到詞嵌入之間的關(guān)系，如詞嵌入之間的余弦值或距離。詞嵌入的大多數(shù)應(yīng)用是以探索詞嵌入之間關(guān)系的方式解決詞與詞之間相似度計(jì)算和其他關(guān)系的問題，而使用正則化的詞向量可以提高算法解決這些問題的性能。因此，本文對(duì)中文詞向量進(jìn)行L范數(shù)正則化。

3.4 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

采用Python 3.6編寫實(shí)驗(yàn)代碼，使用Gensim模塊實(shí)現(xiàn)WMD算法；硬件環(huán)境為Intel Xeon Gold 6132，操作系統(tǒng)為Red Hat 4.8.5-16。

運(yùn)用準(zhǔn)確率（Accuracy）評(píng)估方法性能，計(jì)算公式為：

式中，

為準(zhǔn)確率；

為匹配正確的量表?xiàng)l目數(shù)量，表示量表中有

個(gè)條目映射的ICF編碼是腦卒中綜合版編碼組合的成員；

為該量表的條目總數(shù)。

腦卒中綜合版的類目數(shù)量為130，精確匹配難度較大，因此分別進(jìn)行top-1與top-5的準(zhǔn)確率評(píng)價(jià)。其中，top-1準(zhǔn)確率為距離最小候選答案為正確答案的比率，top-5準(zhǔn)確率為距離最小的前5個(gè)候選答案包含正確答案的條目所占的比率。為更直觀地體現(xiàn)top-5的評(píng)價(jià)性能，增加top-5的平均準(zhǔn)確數(shù)這一指標(biāo)，用于檢驗(yàn)量表中平均每個(gè)條目的正確答案數(shù)量，表示為：

此外，文本匹配時(shí)需忽略定義過于寬泛的一級(jí)類目，只匹配ICF二級(jí)及以上類目，并將二級(jí)以上類目歸為對(duì)應(yīng)的二級(jí)類目，如b1100歸為b110。在實(shí)際應(yīng)用中，二級(jí)水平的精度已經(jīng)足夠。

3.5 實(shí)驗(yàn)結(jié)果分析

采用WMD算法對(duì)康復(fù)量表?xiàng)l目和ICF類目中的中文文本進(jìn)行匹配，檢驗(yàn)匹配的ICF類目編碼是否為腦卒中綜合版編碼組合的成員。映射結(jié)果如表2所示，實(shí)驗(yàn)性能參數(shù)如表3所示。

Table2 Experimental results of rehabilitation scales mapping to ICF表2 康復(fù)量表ICF映射的實(shí)驗(yàn)結(jié)果

由表2-表3可以看出，各個(gè)量表top-1準(zhǔn)確率均大于0.6，平均值為0.9；top-5準(zhǔn)確率均為1，平均準(zhǔn)確數(shù)均≥3，即前5個(gè)候選編碼中，平均有3個(gè)為正確答案。實(shí)驗(yàn)結(jié)果表明，top-1需要精準(zhǔn)匹配，top-5范圍較top-1廣，更符合本文推薦ICF編碼的需求。

Table3 Experimental performance表3 實(shí)驗(yàn)性能

表4展示了top-5文本匹配的示例，即1個(gè)量表?xiàng)l目對(duì)應(yīng)5個(gè)候選ICF編碼。從語(yǔ)義來看，該條目評(píng)估的是患者能否在一定時(shí)間內(nèi)自主持續(xù)站立。詞移距離在前3位的b740、b730和b735描述的是肌肉耐力、肌肉力量、肌張力等內(nèi)容，與該條目的語(yǔ)義和主旨相關(guān)，說明本文方法在top-5模式下具有較好的語(yǔ)義相關(guān)性。

Table 4 Examples of top-5 text matching表4 top-5文本匹配示例

4 結(jié)語(yǔ)

本文提出運(yùn)用非監(jiān)督的文本相似度算法WMD，以公開的6個(gè)腦卒中康復(fù)量表和ICF中文文本數(shù)據(jù)為研究對(duì)象，結(jié)合詞向量對(duì)康復(fù)量表?xiàng)l目和ICF類目進(jìn)行文本匹配。在匹配結(jié)果中選取詞移距離最小的top-1和top-5編碼，并以ICF核心分類組合的腦卒中綜合版為標(biāo)準(zhǔn)，進(jìn)行準(zhǔn)確率與準(zhǔn)確數(shù)的評(píng)價(jià)。實(shí)驗(yàn)結(jié)果顯示，腦卒中綜合版的top-5準(zhǔn)確率較高，表明利用文本相似度推薦編碼的方法能夠有效運(yùn)用于ICF編碼的映射問題中。該方法為康復(fù)師在臨床上便捷高效地利用ICF編碼提供了新思路。然而，本研究存在一定的局限性，由于缺乏ICF實(shí)際應(yīng)用數(shù)據(jù)，該方法僅適用于輔助篩選ICF編碼，尚不能精準(zhǔn)運(yùn)用于實(shí)際臨床。在后續(xù)研究中，可以嘗試引入專業(yè)人士的標(biāo)注數(shù)據(jù)作為參考依據(jù)，以提高ICF映射的準(zhǔn)確性。