吳洪渝
摘要:目前,我國的醫(yī)療資源嚴重的分配不均勻。我國共有醫(yī)療衛(wèi)生機構(gòu)989,403個,其中基層醫(yī)療衛(wèi)生機構(gòu)占據(jù)了總體的9成以上,而醫(yī)院僅有不到3萬個,比例不足3%。并且如今就醫(yī)的趨勢進一步向三甲醫(yī)院集中。根據(jù)統(tǒng)計,在因為癌癥死亡的人數(shù)之中,肺癌也是目前世界上死亡率最高的癌癥之一,并且這個數(shù)字還在不斷的上升。肺癌有一個最主要的特征就是存在肺結(jié)節(jié)。如果能在早期發(fā)現(xiàn)肺結(jié)節(jié)的話,早期癌癥的治愈率超過90%,手術(shù)后3-5天就可以出院,并發(fā)癥少,而且手術(shù)費用低廉只要28000元左右。但是由于當今針對肺癌早期診斷效果非常不佳,通常患者被診斷出肺癌的時候都已經(jīng)為時已晚,正常的患者往往只能存活5年的時間。但是在這個過程之中會產(chǎn)生大量的CT圖片,會大大增加醫(yī)生的工作壓力,在這種情況之下,如何提高就醫(yī)的效率以及更加合理的利用醫(yī)療資源成為了炙手可熱的問題。本文提出一種,基于深度學習的肺結(jié)節(jié)檢測方案,能夠合理的利用CT片,并且有效的減輕醫(yī)生的負擔,同時也讓患者更加明了自身的病情。
關(guān)鍵詞:圖像識別;卷積神經(jīng)網(wǎng)絡(luò);深度學習;檢測方案
1 前言
隨著人工智能技術(shù)的發(fā)展,人工智能在生活中的各個方面的應用越來越多。可以說現(xiàn)在的人工智能技術(shù)取得了很大的發(fā)展,在某些領(lǐng)域已經(jīng)超過人類的水平,比如說圍棋。人工智能在醫(yī)療領(lǐng)域上的應用也逐漸增多。在醫(yī)療方面也不例外,目前主要分為“AI與影像輔助診斷”、“AI與藥物開發(fā)”和“AI與醫(yī)療機器人”三個研究方向,在國內(nèi),阿里、騰訊、百度、科大訊飛、華大基因都在利用人工智能技術(shù)在醫(yī)療領(lǐng)域做一些相關(guān)的開發(fā),比如2018年騰訊開啟的“騰訊尋影”,2017年阿里在糖尿病這一領(lǐng)域的AI等不同領(lǐng)域的醫(yī)療AI。但是目前AI在整個大環(huán)境下都是處于一種研發(fā)和測試的狀態(tài)下,暫時還沒有在各大醫(yī)院中盛行。一旦做到可以商用的地步,那對于整個醫(yī)療體系來說,都是一個翻天覆地的改革。
2 正文
2.1產(chǎn)品功能概述
在本文中,我們提出的肺結(jié)節(jié)檢測AI中包括的功能主要有:對標記數(shù)據(jù)進行解析讀取、對卷積神經(jīng)網(wǎng)絡(luò)模型進行訓練、模型對讀取CT片、對CT片進行識別并且標注和根據(jù)計算的結(jié)果給出一定的建議以及治療方案。該模型的訓練數(shù)據(jù)集來自LIDC-IDRI,該數(shù)據(jù)集是由美國癌癥研究所(National Cancer Institute)收集并且公開的。數(shù)據(jù)集里面含有胸部CT圖片、X光片(以512*512分辨率的形式存儲)以及專家標注的病變的結(jié)果,結(jié)果以xml的形式進行儲存。利用專家的標注,將病變的數(shù)據(jù)提取出來,作為模型的初始訓練數(shù)據(jù)。在生活中,醫(yī)生只需要將患者的CT圖像輸入到該模型中,就能夠得到標注結(jié)果之后的圖片。這樣會讓醫(yī)生檢驗這張CT片的時候,會格外注意這些有標注的位置。在早期,由于數(shù)據(jù)的來源比較單一。會出現(xiàn)一些誤檢的情況,醫(yī)生在確定之后,可以對其進行標準,作為下一次模型訓練得數(shù)據(jù)。從而使得模型的正確率越來越高。
2.2產(chǎn)品原理
①醫(yī)學影像輸入到模型之中;
②模型對每一個切分單位進行識別;
③根據(jù)識別結(jié)果對圖片進行標注;
④生成醫(yī)療報告;
2.3關(guān)鍵技術(shù)
2.3.1圖像邊緣填充算法
在整個產(chǎn)品的開發(fā)過程中,首先應該先對圖片進行灰度化、二值化處理。然后根據(jù)數(shù)據(jù)集中的標注,對xml文件進行解析,獲取到病變結(jié)節(jié)的一些主要的屬性。比如圖片的Id號、坐標、半徑。根據(jù)統(tǒng)計病變結(jié)節(jié)在半徑為28像素以下的占總的病變數(shù)目的95%,所以這里以28*28的分辨率為一個單位進行處理。在病變結(jié)節(jié)的半徑大于28像素的時候,選擇以縮放的形式對其進行處理。因為專家在數(shù)據(jù)集中只標注了病變結(jié)節(jié)的輪廓,導致要對輪廓進行填充,根據(jù)邊緣填充算法實現(xiàn)填充。
2.3.2掃描式匹配算法
在對一張圖片進行識別的時候,在模型中是將CT片或者X光片切割成許許多多的28*28為一個單位的圖片。然后把每一張分割之后的圖片作為輸入,利用之前訓練好的卷積神經(jīng)網(wǎng)絡(luò)進行計算。將分類為病變結(jié)節(jié)的圖片保存為圖片的編號、病變結(jié)節(jié)的中心位置、病變結(jié)節(jié)的半徑等信息。之后再我們利用縮放技術(shù)進行更大像素的切割和匹配。
2.3.3 DBSCAN分類聚類算法
DBCSAN(Density-Based Spatial Clustering of Application with Noise)算法是一種非常經(jīng)典的分類聚類算法,它是基于密度來進行分類聚類的。在該產(chǎn)品中,我們在上述技術(shù)之后得到的只是一個病變位置的大概區(qū)域,是以28*28為一個基本單位的范圍。產(chǎn)品中想將病變結(jié)節(jié)很好的提取出來,選用了DBSCAN算法。圖片經(jīng)過二值化的處理,只存在為0和1的色素。根據(jù)九宮格的原理對密度進行設(shè)置,最終提取出結(jié)節(jié)形態(tài),并在原圖中進行展示。
3模型的正確率和產(chǎn)品正確率的檢驗
因為神經(jīng)網(wǎng)絡(luò)的學習能力非常之強,在項目中,總共提取了50000多張正樣本以及等量的負樣本。對整個網(wǎng)絡(luò)重復訓練5次,模型的正確率能夠達到95%以上。但是在實際檢測新的CT圖片時候,10張中存在2、3張出現(xiàn)誤檢,正確率大概為70%-75%,這樣的正確率肯定是不能夠用以商用的。可能存在過擬合的問題,正在籌劃與醫(yī)學院進行合作。從而以更加專業(yè)的知識,對模型進行改進。
參考文獻:
[1]周兵 CT影像中肺結(jié)節(jié)檢測與識別方法的研究 電子科技大學
[2]基于密度的分類聚類算法DBSCAN.https://blog.csdn.net/google19890102/article/details/37656733
[3]LIDC-IDRI數(shù)據(jù)集以及說明.https://wiki.cancerimagingar chive.net