黃佳 劉翔宇
摘? 要:針對(duì)當(dāng)前醫(yī)療器械分類仍然采用人工分類方式,費(fèi)時(shí)費(fèi)力的問(wèn)題,提出一種基于機(jī)器學(xué)習(xí)的醫(yī)療器械分類與預(yù)測(cè)方法,通過(guò)引入機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域的經(jīng)典算法,以新版《醫(yī)療器械分類目錄》為標(biāo)準(zhǔn),提取醫(yī)療器械產(chǎn)品注冊(cè)證的關(guān)鍵信息作為語(yǔ)料庫(kù),實(shí)現(xiàn)對(duì)醫(yī)療器械的產(chǎn)品類別劃分,達(dá)到真正意義上的醫(yī)療器械自動(dòng)分類,為各級(jí)醫(yī)療機(jī)構(gòu)的醫(yī)療器械分類管理信息化奠定基礎(chǔ),提供借鑒和啟示。
關(guān)鍵詞:醫(yī)療器械;機(jī)器學(xué)習(xí);自動(dòng)分類;分類管理;信息化
中圖分類號(hào):R197.39? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? 文章編號(hào):2095-2945(2024)05-0028-04
Abstract: The current manual classification method for medical devices is still time-consuming and labor-intensive. In order to address this issue, a medical device classification and prediction method based on machine learning is proposed. By introducing classic algorithms in the fields of machine learning and natural language processing, and using the new version of the "Medical Device Classification Catalog" as the standard, the key information from the medical device product registration certificate is extract as the corpus to classify medical devices into product categories, so the true automatic classification of medical devices is achieved, which lays the foundation and provides reference and inspiration for the informatization of medical device classification management in medical institutions at all levels.
Keywords: medical device; machine learning; automatic classification; classified management; informatization
醫(yī)療器械具有產(chǎn)品多樣化、學(xué)科跨度大、復(fù)雜程度高等特點(diǎn),涉及機(jī)械、電子、臨床醫(yī)學(xué)、生命科學(xué)和材料等諸多學(xué)科門(mén)類,既具有很強(qiáng)的專業(yè)性,又具有跨專業(yè)、跨學(xué)科的綜合性,故對(duì)其進(jìn)行科學(xué)高效的分類是有效實(shí)施監(jiān)管、合理配置資源的關(guān)鍵所在[1]。但隨著各類數(shù)字化、智能化的醫(yī)療器械涌入醫(yī)院,傳統(tǒng)采用人工分類的管理運(yùn)行方式已經(jīng)變得捉襟見(jiàn)肘,如何利用信息技術(shù)手段對(duì)其進(jìn)行分門(mén)別類的管理,為領(lǐng)導(dǎo)者、決策者掌握醫(yī)院醫(yī)療器械總體情況、編制發(fā)展規(guī)劃與配置方案,管理部門(mén)制定年度采購(gòu)計(jì)劃提供快捷而準(zhǔn)確的信息數(shù)據(jù)成為當(dāng)務(wù)之急[2]。
自2018年8月1日開(kāi)始實(shí)施的新版《醫(yī)療器械分類目錄》[3]以工程技術(shù)與應(yīng)用領(lǐng)域?yàn)橹骶€,側(cè)重于從醫(yī)療器械的產(chǎn)品功能和臨床使用的角度劃分產(chǎn)品品類歸屬,形成了包括《01有源手術(shù)器械》《02無(wú)源手術(shù)器械》《03神經(jīng)和血管手術(shù)器械》《05放射治療器械》《06醫(yī)用成像器械》在內(nèi)的22個(gè)產(chǎn)品管理類別,框架設(shè)置更合理、層級(jí)結(jié)構(gòu)更清晰,在實(shí)際管理工作中更加具有指導(dǎo)性和可操作性,也為自動(dòng)分類提供了科學(xué)指導(dǎo)和實(shí)踐依據(jù)[4]。
醫(yī)療器械注冊(cè)證是指醫(yī)療器械產(chǎn)品的合法身份證[5],包括產(chǎn)品名稱、注冊(cè)證編號(hào)等重要信息。醫(yī)療器械注冊(cè)證編號(hào)由6個(gè)部分組成,基本編排方式為:×1械注×2××××3×4××5××××6,其中×1為注冊(cè)審批部門(mén)所在地的簡(jiǎn)稱;×2為注冊(cè)形式;××××3為首次注冊(cè)年份;×4為產(chǎn)品管理類別;××5為產(chǎn)品分類編碼;××××6為首次注冊(cè)流水號(hào)[6]。由此可見(jiàn),通過(guò)注冊(cè)證信息可以建立起產(chǎn)品名稱與產(chǎn)品管理類別的對(duì)應(yīng)關(guān)系,并由此為自動(dòng)分類提供必備材料。
近年來(lái),研究人員利用大量數(shù)據(jù)“訓(xùn)練”機(jī)器,讓機(jī)器自己去學(xué)習(xí),然后對(duì)世界上的某件事情做出決定或預(yù)測(cè),這一類方法被稱為機(jī)器學(xué)習(xí)[7]。在機(jī)器學(xué)習(xí)中,文本分類是最常見(jiàn)的問(wèn)題,也是應(yīng)用最為廣泛的領(lǐng)域之一,在新聞分類、輿情監(jiān)測(cè)、智能分診、商業(yè)決策和垃圾郵件過(guò)濾等眾多領(lǐng)域都有著重要應(yīng)用[8]。因此,拋棄以往手工分類的管理方式,引入機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域的經(jīng)典算法,以新版《醫(yī)療器械分類目錄》為標(biāo)準(zhǔn),依據(jù)醫(yī)療器械注冊(cè)證的關(guān)鍵信息對(duì)醫(yī)療器械進(jìn)行產(chǎn)品類別劃分,從而實(shí)現(xiàn)醫(yī)療器械自動(dòng)分類與預(yù)測(cè),是本文研究的主要課題。
1? 材料與研究方法
1.1? 數(shù)據(jù)收集
本文以境內(nèi)醫(yī)療器械為主要研究對(duì)象,為了獲得足夠大的研究樣本量,從國(guó)家藥品監(jiān)督管理局網(wǎng)站公開(kāi)的醫(yī)療器械數(shù)據(jù)查詢欄目中,下載境內(nèi)二類以上醫(yī)療器械注冊(cè)條目信息90 249條作為原始數(shù)據(jù)集,各個(gè)數(shù)據(jù)條目包括了產(chǎn)品名稱、產(chǎn)品分類編碼、產(chǎn)品管理類別等有助于自動(dòng)分類的關(guān)鍵信息,文本數(shù)據(jù)示例見(jiàn)表1。
新版《醫(yī)療器械分類目錄》以“總局關(guān)于發(fā)布醫(yī)療器械分類目錄的公告(2017年第104號(hào))”中的附件為準(zhǔn),從國(guó)家藥品監(jiān)督管理局網(wǎng)站下載可得,新版《醫(yī)療器械分類目錄》提供了22個(gè)完整的產(chǎn)品分類編碼,以及與之對(duì)應(yīng)的6 609個(gè)典型產(chǎn)品名稱舉例。
1.2? 數(shù)據(jù)處理及算法研究
本文的原始數(shù)據(jù)集采用新版《醫(yī)療器械分類目錄》與國(guó)家藥品監(jiān)督管理局網(wǎng)站公開(kāi)的醫(yī)療器械注冊(cè)條目信息共計(jì)9萬(wàn)余條。如圖1所示,原始數(shù)據(jù)集在經(jīng)過(guò)數(shù)據(jù)預(yù)處理、分詞和去停用詞、文本向量化、文本特征提取后,將按照4∶1的比例劃分為訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,并提供給Scikit-learn(簡(jiǎn)稱sklearn)機(jī)器學(xué)習(xí)庫(kù)中的svm模塊、naive_bayes模塊,以及neighbors模塊構(gòu)建的支持向量機(jī)(SVM)、樸素貝葉斯、K近鄰(KNN)3種分類器進(jìn)行模型訓(xùn)練及類別預(yù)測(cè),同時(shí)返回評(píng)估算法與分類模型的關(guān)鍵性能指標(biāo)進(jìn)行模型效果對(duì)比驗(yàn)證。
2? 實(shí)驗(yàn)結(jié)果與分析
2.1? 數(shù)據(jù)預(yù)處理
在使用數(shù)據(jù)之前,有必要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。本文使用Python語(yǔ)言進(jìn)行編程實(shí)現(xiàn)境內(nèi)醫(yī)療器械注冊(cè)條目數(shù)據(jù)的預(yù)處理工作,包括拆分原始數(shù)據(jù),提取有用信息,處理缺失值、異常值并制作訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集。如注冊(cè)條目數(shù)據(jù)“數(shù)字乳腺X射線攝影系統(tǒng) (上海聯(lián)影醫(yī)療科技股份有限公司 滬械注準(zhǔn)20192060485)”,將該條目進(jìn)行拆分,可獲得產(chǎn)品名稱為“數(shù)字乳腺X射線攝影系統(tǒng)”,首次注冊(cè)年份為“2019”,產(chǎn)品管理類別為“2”類,產(chǎn)品分類編碼為“06”,對(duì)應(yīng)新版《醫(yī)療器械分類目錄》中22個(gè)產(chǎn)品分類編碼下的“06 醫(yī)用成像器械”,與品名舉例中的“乳腺X射線機(jī)、數(shù)字化乳腺X射線機(jī)”高度相似。
2.2? 分詞和過(guò)濾
中文不同于英文,英文是以詞為單位的,詞與詞之間以空格分隔,而中文則是以字為單位,須要使用專門(mén)的分詞工具將中文字符序列通過(guò)分詞劃分為逐個(gè)的詞語(yǔ),以作為文本向量化和計(jì)算機(jī)算術(shù)運(yùn)算的基礎(chǔ)[9]。jieba庫(kù)是一款優(yōu)秀的Python第三方中文分詞庫(kù),通過(guò)jieba庫(kù)可完成中文分詞這一過(guò)程。與此同時(shí),將產(chǎn)品名稱中一些非語(yǔ)義特征的字母和數(shù)字符號(hào)過(guò)濾可提高中文匹配的準(zhǔn)確度,而且可以節(jié)省計(jì)算機(jī)的內(nèi)存空間和計(jì)算時(shí)間?!皵?shù)字乳腺X射線攝影系統(tǒng)”和“醫(yī)用血管造影X射線系統(tǒng)”在經(jīng)過(guò)jieba精確分詞模式處理后,可分為[‘?dāng)?shù)字,‘乳腺,‘X射線,‘?dāng)z影,‘系統(tǒng)]、[‘醫(yī)用,‘血管,‘造影,‘X射線,‘系統(tǒng)]。
2.3? 文本向量化
經(jīng)過(guò)數(shù)據(jù)清洗、中文分詞、去除停用詞之后得到的文本數(shù)據(jù)是中文詞語(yǔ)的集合,對(duì)于這種詞語(yǔ)數(shù)據(jù)集,計(jì)算機(jī)不能直接識(shí)別和處理,因此需要使用向量空間模型將詞匯映射到向量空間中進(jìn)行數(shù)值化表示,同時(shí)數(shù)值型數(shù)據(jù)也可以提升計(jì)算機(jī)分析處理的運(yùn)算速度。如果整個(gè)醫(yī)療器械詞語(yǔ)字典由{‘X射線,‘乳腺,‘醫(yī)用,‘?dāng)z影,‘?dāng)?shù)字,‘系統(tǒng),‘血管,‘造影}組成,若想要向量化文本“數(shù)字乳腺X射線攝影系統(tǒng)”,其在分詞后可以轉(zhuǎn)換為以下向量:(1,1,0,1,1,1,0,0)。
2.4? 文本特征提取
在向量空間模型中,為了區(qū)別文本的特征,需要對(duì)文本中的核心字詞進(jìn)行特征提取,并將其作為文本分類的主要依據(jù)。因此,本文引入了TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文件頻率)算法進(jìn)行文本特征提取。TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù),其本質(zhì)是一種統(tǒng)計(jì)方法,可以用來(lái)衡量字詞對(duì)于文本的重要程度。該方法的基本原理是:根據(jù)某個(gè)詞語(yǔ)在某篇文章中出現(xiàn)的頻率以及該詞在語(yǔ)料庫(kù)中出現(xiàn)的頻率來(lái)綜合評(píng)估該詞對(duì)分類的影響,詞的重要性僅與上述的2個(gè)頻率值有關(guān)。通過(guò)引入TF、IDF 2個(gè)指標(biāo),能使特征詞權(quán)重計(jì)算結(jié)果更加精確,文本分類準(zhǔn)確性更高。經(jīng)過(guò)TF-IDF特征提取后,文本“數(shù)字乳腺X射線攝影系統(tǒng)”的向量化表示(1,1,0,1,1,1,0,0),可以進(jìn)一步轉(zhuǎn)化為(0.355 200 09,0.499 221 33,0,0.499 221 33,0.499 221 33, 0.355 200 09,0,0)。
2.5? 分類器構(gòu)建及模型驗(yàn)證
由上文所述,選擇使用向量空間模型和TF-IDF算法的目的,就是為了使醫(yī)療器械文本特征向量可以使用分類算法進(jìn)行類別劃分,因此選擇何種分類算法將會(huì)直接決定分類與預(yù)測(cè)結(jié)果的優(yōu)劣。
在中文短文本分類領(lǐng)域,常用的分類方法有K近鄰算法(KNN)、樸素貝葉斯算法、支持向量機(jī)算法(SVM)和決策樹(shù)算法等[10]。其中,KNN算法是一種應(yīng)用于數(shù)據(jù)分類和預(yù)測(cè)的分類算法,它的基本原理是對(duì)于一個(gè)指定的預(yù)測(cè)樣本,KNN分類模型會(huì)從訓(xùn)練數(shù)據(jù)集中找到與其距離最近的k個(gè)樣本,如果k個(gè)最近鄰樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。KNN算法既可以處理二分類任務(wù),又可以處理多分類任務(wù)[11]。樸素貝葉斯是建立在概率統(tǒng)計(jì)基礎(chǔ)上的一種分類模型,該模型主要基于貝葉斯定理和特征條件獨(dú)立性假設(shè)來(lái)實(shí)現(xiàn)分類。算法的第一步是得到文本中每個(gè)詞屬于某一類別的概率,然后根據(jù)條件獨(dú)立性假設(shè),可計(jì)算出文本屬于某一類別的概率,或者某一類概率最高。樸素貝葉斯算法具備非??斓挠?xùn)練和預(yù)測(cè)速度,適用于實(shí)時(shí)分類任務(wù)[12]。SVM算法是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類算法,它可以根據(jù)有限的樣本數(shù)據(jù),結(jié)合結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,將原低維空間中的非線性問(wèn)題變換為高維空間中的線性問(wèn)題來(lái)進(jìn)行計(jì)算,并最終得出分類結(jié)果。SVM算法在小樣本、非線性及高維分類問(wèn)題中具有獨(dú)特優(yōu)勢(shì)[13]。
本文主要選取了機(jī)器學(xué)習(xí)的3種經(jīng)典算法(KNN算法、樸素貝葉斯算法、SVM算法)進(jìn)行文本分類測(cè)試,并通過(guò)實(shí)驗(yàn)比較這3種算法的分類效果。本實(shí)驗(yàn)采用基于Python語(yǔ)言的sklearn機(jī)器學(xué)習(xí)算法庫(kù),使用sklearn庫(kù)中naive_bayes模塊、neighbors模塊以及svm模塊構(gòu)建的3種分類器進(jìn)行模型訓(xùn)練及類別預(yù)測(cè),同時(shí)返回評(píng)估算法與分類模型的關(guān)鍵性能指標(biāo)——準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和綜合評(píng)價(jià)指標(biāo)(F1-Measure)。其中,準(zhǔn)確率是對(duì)模型預(yù)測(cè)的正確數(shù)量所占總預(yù)測(cè)數(shù)量的比例進(jìn)行評(píng)估的一項(xiàng)指標(biāo);精確率表示分類后的某個(gè)類別中正確分類的樣本占該類樣本的比例;召回率表示分類模型正確分類的樣本數(shù)占該類別總樣本數(shù)的比例;綜合評(píng)價(jià)指標(biāo)是精確率和召回率的加權(quán)調(diào)和平均,常用于評(píng)價(jià)不同分類模型的優(yōu)劣。樸素貝葉斯、SVM和KNN 3種算法的對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表2,其中最優(yōu)指標(biāo)加粗表示。
從整體的實(shí)驗(yàn)結(jié)果來(lái)看,SVM算法的整體分類準(zhǔn)確率達(dá)到86.2%,綜合評(píng)價(jià)指標(biāo)也達(dá)到最高的84.1%,其中精確率高達(dá)90.2%,在本數(shù)據(jù)集上表現(xiàn)出較好的分類效果。樸素貝葉斯算法的分類表現(xiàn)整體優(yōu)于KNN算法,召回率達(dá)到最高的82.6%,但是分類效果與SVM算法仍然存在差距。
3? 結(jié)束語(yǔ)
醫(yī)療器械具有多學(xué)科交叉、知識(shí)密集型等特點(diǎn),產(chǎn)品繁多,組成迥異,風(fēng)險(xiǎn)跨度大,從最簡(jiǎn)單的檢查手套、紗布、繃帶,到高技術(shù)含量的直線加速器、磁共振、CT等,都屬于醫(yī)療器械的范疇。科學(xué)合理地對(duì)其進(jìn)行分類編碼是醫(yī)療器械精細(xì)化管理的基石,發(fā)揮著舉足輕重的作用。針對(duì)產(chǎn)生的大量醫(yī)療器械名目數(shù)據(jù),人工分類存在效率低、成本高、專業(yè)難度大等問(wèn)題,所以需要機(jī)器替代人工來(lái)進(jìn)行分類。
本文為解決傳統(tǒng)的醫(yī)療器械人工分類費(fèi)時(shí)又費(fèi)力的問(wèn)題,以新版《醫(yī)療器械分類目錄》為標(biāo)準(zhǔn),提取醫(yī)療器械注冊(cè)證的關(guān)鍵信息作為語(yǔ)料庫(kù),分別采用樸素貝葉斯算法、SVM算法、KNN算法進(jìn)行了醫(yī)療器械自動(dòng)分類實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果的對(duì)比分析來(lái)看,SVM算法的總體表現(xiàn)更為優(yōu)秀,在精確率方面有著最高的數(shù)值,能夠有效地處理產(chǎn)品名稱描述的文本分類問(wèn)題,可達(dá)到較好的醫(yī)療器械分類效果。KNN算法在整體分類上的表現(xiàn)欠佳。樸素貝葉斯算法的表現(xiàn)相對(duì)好于KNN算法,但是仍與SVM算法有一定的差距。
參考文獻(xiàn):
[1] 華長(zhǎng)江,許鳴,張亮.醫(yī)療設(shè)備的分類管理研究[J].醫(yī)療衛(wèi)生裝備,2014,35(10):133-135.
[2] 李文兵,王學(xué)軍.醫(yī)療器械分類編碼在醫(yī)院固定資產(chǎn)管理中的應(yīng)用[J].醫(yī)療衛(wèi)生裝備,2015,36(7):130-133.
[3] 母瑞紅,余新華.新版《醫(yī)療器械分類目錄》使用時(shí)應(yīng)注意的問(wèn)題和建議[J].中國(guó)醫(yī)療器械信息,2019,25(19):23-24,129.
[4] 侯羿,李子木,房琦,等.新版《醫(yī)療器械分類目錄》在醫(yī)療器械招標(biāo)采購(gòu)工作中的應(yīng)用[J].醫(yī)療衛(wèi)生裝備,2021,42(4):85-88.
[5] 李非.我國(guó)醫(yī)療器械注冊(cè)管理體系研究[D].沈陽(yáng):沈陽(yáng)藥科大學(xué),2019.
[6] 王蘭明.中國(guó)醫(yī)療器械注冊(cè)管理工作的現(xiàn)狀與思考[J].中國(guó)醫(yī)療器械信息,2012,18(11):28-34,39.
[7] MARC G, GENTON. Classes of kernels for machine learning: a statistics perspective[J].Journal of Machine Learning Research, 2002,2(2):299-312.
[8] WANG B K, HUANG Y F, YANG W X, et al. Short text classification based on strong feature thesaurus[J].Journal of Zhejiang University-Science C(Computers & Electronics),2012,13(9):649-659.
[9] 何莘,王琬蕪.自然語(yǔ)言檢索中的中文分詞技術(shù)研究進(jìn)展及應(yīng)用[J].情報(bào)科學(xué),2008(5):787-791.
[10] 劉碩,王庚潤(rùn),李英樂(lè),等.中文短文本分類技術(shù)研究綜述[J].信息工程大學(xué)學(xué)報(bào),2021,22(3):304-312.
[11] 耿麗娟,李星毅.用于大數(shù)據(jù)分類的KNN算法研究[J].計(jì)算機(jī)應(yīng)用研究,2014,31(5):1342-1344,1373.
[12] 賀鳴,孫建軍,成穎.基于樸素貝葉斯的文本分類研究綜述[J].情報(bào)科學(xué),2016,34(7):147-154.
[13] 丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-10.