鄭景文
廣東省農(nóng)墾中心醫(yī)院病案室,廣東湛江 524002
國家衛(wèi)健委曾指出,各醫(yī)療單位應(yīng)設(shè)置統(tǒng)一的疾病與手術(shù)編碼, 其中疾病診斷名稱屬于主要的醫(yī)療數(shù)據(jù),保證疾病與手術(shù)編碼相對應(yīng),能夠為后續(xù)科研工作提供更多準確的信息[1-2]。以往,診斷名稱數(shù)據(jù)標準化期間,主要是對數(shù)據(jù)進行糾正, 若未能按照標準化進行書寫,將成為人工搜索的問題診斷名稱,從而難以在名稱庫內(nèi)尋找到對應(yīng)的名稱,進一步增加消耗時長[3-4]。 若能夠通過相關(guān)措施予以幫助,能明顯減少人工搜索的時長,達到提升工作效率的目的[5]。隨著研究持續(xù)深入,臨床發(fā)現(xiàn)文本相似度計算方法效果顯著,在增強診斷名稱數(shù)據(jù)標準化期間的人工判斷效率上效果突出。 但相關(guān)文獻較少,該研究選擇2020 年3 月—2021 年8 月使用的23 681條診斷名稱文本數(shù)據(jù),探討文本相似度計算方法在提高診斷名稱數(shù)據(jù)標準化過程中人工判斷效率的價值,現(xiàn)報道如下。
按照國家標準的疾病分類與代碼上存在編碼的診斷名稱,按疾病名稱進行排序,并對其ID 進行標記,選擇使用的23 681 條診斷名稱文本數(shù)據(jù)。 將其中標點符號及英文字母均定義成漢字等同的字符,但應(yīng)區(qū)分全半角及大小寫,獲得診斷名稱特點,字符長度均值(8.58±2.36)個,統(tǒng)計與診斷名稱字符長度相同的字符個數(shù),針對少于6 個字符長度者計算其最大值。
(1)余弦相似度:計算向量夾角的余弦值,可評價個體之間的差別,若余弦值越鄰近1,夾角度數(shù)越趨于0,提示向量相似。 在標準化工作上,通過編輯距離預(yù)測文本的相似程度,利用ICD 的三位及四位碼實施診斷類別的文本分類計算,應(yīng)采用余弦相似度計算,診斷類別分類計算時可繼續(xù)使用,從而降低編程工程量。
(2)文本向量生成:①漢語短文本的文本向量以單字與單字組合、詞嵌入、分詞等,該次試驗挑選單字與單字組合的方式;②逆文本頻率指數(shù)加權(quán):逆文本頻率指數(shù)在數(shù)據(jù)搜索期間,文本向量通過該方式表達,計算名稱拆分后的單字與字組的逆文本頻率指數(shù),最后將逆文本頻率指數(shù)乘頻數(shù),成為第二類文本向量的計算值。
觀察診斷名稱的字組長度與數(shù)量,并分析文本相似度計算結(jié)果,最后計算字組組合模式的文本向量的相似度及字組組合模式下文本向量的相似度。
診斷名稱長度為8.58 個字符,獲得9 字組長度,經(jīng)觀察發(fā)現(xiàn)3 字組后,字組暫停增長,但5 字組逐漸減低,從而得知9 字組長度未達50 萬維, 選擇計算機進行處理,見表1。
表1 診斷名稱的字組長度與數(shù)量
通過余弦相似度的計算,選擇頻數(shù)向量成為非標準數(shù)據(jù), 而標準數(shù)據(jù)選擇頻數(shù)逆文本頻率指數(shù)加權(quán)的向量,最終將數(shù)據(jù)標準化。利用疾病診斷名稱相似的文本,發(fā)現(xiàn)文本向量存在較大差別, 其自身即為相似度最大值。通過字組組合的方式,測定不同文本向量,選擇高血壓進行舉例,見表2。
表2 文本相似度計算結(jié)果分析
字組組合模式的文本向量相似度最大值,見表3。
表3 字組組合模式的文本向量的相似度
各類字組組合模式下存在356 條名稱,其中390 次相似度最大值并不是其本身。 對于不同的情況實施分析,字組組合模式Ⅰ不一致,Ⅱ~Ⅸ模式一致,記成0、1、1、1、1、1、1、1、1,見表4。
表4 字組組合模式下文本向量的相似度
針對規(guī)范診斷名稱而言,多采取文本相似度方式進行計算,同時對比臨床診斷與數(shù)據(jù)庫中名稱,最后得到標準化的診斷名稱,有助于減少人工搜索時長,明顯改善工作效率[6-8]。 對此該文進行分析,利用余弦相似度計算文本相似度,并通過單字與單字組合的窮舉分詞及頻數(shù)、逆文本頻率指數(shù)加權(quán)形成文本向量,模仿數(shù)據(jù)標準化過程, 選擇余弦相似度測定多個文本向量的計算結(jié)果,結(jié)果發(fā)現(xiàn)相似診斷名稱文本的向量相似度的一致率呈現(xiàn)升高趨勢。 其中2、3 字組的標準化工作需引起重視, 經(jīng)過標準庫與待校對數(shù)據(jù)將其轉(zhuǎn)換為羅馬數(shù)字;而4 字組的診斷名稱出現(xiàn)差異的次數(shù)較少,可能與診斷名稱上字符空格有關(guān),使得計算期間非標準診斷名稱無法與標準名稱相匹配, 針對此可在Excel 中采取TRIM 函數(shù)清除[9-11]。 最后選入5~9 長度字組表征文本向量的效果與1~4 字組差別明顯。
由于相似度計算作為常見的統(tǒng)計方式,其結(jié)果的準確性存在一定上限, 修改規(guī)則的方式具有重要意義,特別是關(guān)于伴與不伴文字,其實際診斷名稱還存在前后左右上下等問題,因此,精準表達可明顯提升效率[12-15]。 此前關(guān)于醫(yī)療數(shù)據(jù)的標準化對專業(yè)知識的要求極高,對此應(yīng)積極開展培訓(xùn),并鼓勵專業(yè)人員參與,另外高效率的數(shù)據(jù)計算需要文本計算的幫助,尤其是特殊場合中修改算法也應(yīng)得到醫(yī)護人員的積極配合。 由此可見,為醫(yī)護人員選擇操作簡便的計算方式至關(guān)重要,此時選擇以字組拆分頻數(shù)逆文本頻率指數(shù)加權(quán)的計算方式[16-17]。 另外醫(yī)療數(shù)據(jù)的信息質(zhì)量對科研成果質(zhì)量可能存在一定干擾,但診斷名稱數(shù)據(jù)的標準化較為復(fù)雜,同時作為人機交互,并表現(xiàn)成螺旋上升的過程,因此,將醫(yī)療專業(yè)知識與計算機算法相融合,并不斷調(diào)整,才可保證科研質(zhì)量的準確性[18-19]。
綜上所述,文本相似度計算方法能夠提升診斷名稱數(shù)據(jù)標準化,并促進人工判斷效率改善。