王素英 張慧芝 丁華新*
(寧波市臨床病理診斷中心,浙江 寧波 315000)
近年來,使用數(shù)字掃描儀創(chuàng)建病理組織的切片圖像(全切片數(shù)字化成像,Whole Slide Image, WSI),使病理醫(yī)生的閱片可以不受顯微鏡的限制,極大地提高了病理教學(xué)、病例討論等方面的效率,也使得遠(yuǎn)程會(huì)診、開發(fā)病理人工智能等成為可能,全切片數(shù)字化成像(WSI)的使用因此越來越廣泛。但是在使用過程中,也產(chǎn)生了一些問題,比如在載玻片的制備過程中,不可避免地會(huì)出現(xiàn)一些偽影(折疊、氣泡、劃痕、壓縮等)[1]、染色不均、染色劑濃度差異和染色劑批次更換造成的差異;在載玻片的掃描過程中,不同的設(shè)備商可能采用不同的掃描方式進(jìn)行載玻片的數(shù)字化,掃描儀的不同選擇也可能會(huì)影響圖像的質(zhì)量,出現(xiàn)圖片模糊、對(duì)比度低等情況[2]。造成差異的來源可能是不同因素或多種因素疊加,從而導(dǎo)致數(shù)字病理圖像的呈現(xiàn)不同的實(shí)質(zhì)性差異,這種差異制約了WSI 的臨床病理應(yīng)用。
從臨床上看,由于制片掃片質(zhì)量原因而被舍棄的載玻片在很大程度上拖累了臨床病理工作流程,因?yàn)檫@些載玻片均需要重新制作或重新掃描,從而導(dǎo)致延長(zhǎng)病理診斷的時(shí)間,造成人力、物力的浪費(fèi),也會(huì)加重病人的醫(yī)療費(fèi)用[3,4]。從研究角度看,以偽影為代表的諸多噪聲會(huì)對(duì)疾病檢測(cè)、診斷和預(yù)后等任務(wù)的分類器的開發(fā)和驗(yàn)證造成不利的影響,這一點(diǎn)對(duì)于基于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)來說尤為明顯[5,6]。目前,大多數(shù)臨床和研究應(yīng)用的質(zhì)量控制都是通過手動(dòng)執(zhí)行的,這使得數(shù)字圖片質(zhì)量控制過程主觀、費(fèi)時(shí)、費(fèi)力且容易出錯(cuò)。因此,我們研究了一種自動(dòng)化的數(shù)字病理圖像質(zhì)量控制方法,通過一系列的數(shù)字圖像處理技術(shù),針對(duì)病理圖像的存在的噪聲進(jìn)行識(shí)別和剔除,從而達(dá)到對(duì)病理圖像的自動(dòng)化質(zhì)量控制的目的,大大提高了病理工作者的工作效率,也為基于病理圖像的醫(yī)學(xué)研究提供可靠的數(shù)據(jù)源保障。
圖像分割是自動(dòng)識(shí)別圖像中目標(biāo)的基礎(chǔ),由于數(shù)字病理圖像本身的組織特征復(fù)雜而豐富,噪點(diǎn)和模糊呈現(xiàn)的形式多樣,因此一般的分割流程難以是有效分割出病理圖像中的可用組織區(qū)域。本文的將多種圖像預(yù)處理方法和分割方法相結(jié)合,形成一套完整的質(zhì)量控制流程,所包含的處理模塊流程如圖1 所示。
圖1 質(zhì)量控制流程圖
首先,應(yīng)用數(shù)字掃描儀掃面制作完畢的玻璃切片,讀取數(shù)字病理圖像,然后進(jìn)行病理組織區(qū)域提取。由于內(nèi)存的限制,一般難以直接處理具有數(shù)億像素規(guī)模的WSI,即使能處理,也是一項(xiàng)非常耗時(shí)、繁瑣的工作,為了快速獲得初步的WSI 組織區(qū)域,本文利用圖像處理中的多分辨率金字塔結(jié)構(gòu)[7]和OTSU 算法[8]提取WSI 中的組織區(qū)域。具體做法如下:首先利用Openslide 對(duì)WSI進(jìn)行下采樣獲得低分辨率下的數(shù)字病理圖像,由于在HSV 顏色空間中分析顏色值分布更加方便,因此我們將病理圖像從RGB顏色空間轉(zhuǎn)換為HSV 顏色空間;然后利用基于Otsu’s 的閾值分割方法生成二進(jìn)制的分割掩碼,并通過適當(dāng)?shù)男螒B(tài)學(xué)操作以獲得最佳的分割掩碼;最后再利用多級(jí)映射將分割掩碼還原到WSI 上,從而提取出對(duì)應(yīng)的組織區(qū)域,流程如圖2 所示。
圖2 基于多級(jí)映射的WSI 組織區(qū)域提取流程
污跡區(qū)域的檢測(cè)內(nèi)容主要包括裂痕、褶皺、層疊、氣泡、劃痕、壓縮等噪聲。對(duì)上一步獲得的組織區(qū)域進(jìn)行Canny 邊緣檢測(cè)[9],獲得污跡的邊緣輪廓;然后在污跡輪廓內(nèi)做填充,并與原始的組織區(qū)域做交集運(yùn)算,獲得剔除污跡的組織區(qū)域。
由于沒有準(zhǔn)確對(duì)焦造成病理圖像產(chǎn)生模糊區(qū)域,通常處理模糊區(qū)域一般使用聚焦評(píng)價(jià)函數(shù)以獲得圖像的模糊狀態(tài)的分布情況。常見的聚集評(píng)價(jià)算子有以下幾種:
灰度方差算子, 方差用來描述一組數(shù)據(jù)偏離平均值的程度。一幅聚焦清晰的圖像要比一幅離焦的圖像有更豐富的灰度變換,即方差結(jié)果越大[10,11]。所以用圖像的灰度變化的平均程度即方差來衡量圖像的聚集程度。
梯度算子,聚焦清晰的圖像具有很強(qiáng)的邊緣特征信息,由于梯度算子 ?f(x,y)具有各項(xiàng)同性和旋轉(zhuǎn)不變性,可以把圖像中各異走向別的邊緣和線條突出,聚焦程度越高,圖像邊緣銳化程度越高,所以圖像的聚焦程度也可以用灰度梯度來評(píng)價(jià),公式如下:
其中Wn×n是(x,y)像素點(diǎn)為中心,大小為n× n 的正方形鄰域,f(x,y)是像素點(diǎn)(x,y)的灰度值。
上述的聚焦評(píng)價(jià)算子均是以一階導(dǎo)數(shù)為基礎(chǔ)的梯度函數(shù),本文為了得到更加準(zhǔn)確的模糊區(qū)域,采用以二階導(dǎo)數(shù)為基礎(chǔ)的拉普拉斯算子,其原因是二階導(dǎo)數(shù)相比于一階導(dǎo)數(shù)能夠進(jìn)一步放大函數(shù)值的變化,對(duì)高頻分量的提取更加準(zhǔn)確[12]。由于在拉普拉斯算子的原始形式中,對(duì)x 方向和對(duì)y 方向的二階偏導(dǎo)數(shù)會(huì)存在符號(hào)相反,相互抵消的現(xiàn)象,從而使得圖像的聚焦產(chǎn)生偏差。因此選用改進(jìn)的拉普拉斯算子進(jìn)行計(jì)算,其計(jì)算公式如下:
根據(jù)改進(jìn)拉普拉斯算子計(jì)算出模糊區(qū)域狀態(tài)的熱力散點(diǎn)分布圖,從而按照熱力圖閾值過濾出大于閾值的模糊區(qū)域分布,并對(duì)其進(jìn)行高斯濾波,獲取模糊區(qū)域的掩碼。最后將原始組織區(qū)域與模糊區(qū)域掩碼取差集,即可獲得可用組織區(qū)域。
本研究采用任意的兩張WSI 作為測(cè)試對(duì)象,測(cè)試結(jié)果如圖3 所示。
圖3 測(cè)試結(jié)果
從測(cè)試結(jié)果來看,無(wú)論是污跡區(qū)域還是模糊區(qū)域,本文中所研究的病理圖像的質(zhì)量控制方法能夠很好的剔除噪聲區(qū)域,只保留有效可用的組織區(qū)域,從而驗(yàn)證了本自動(dòng)化的數(shù)字病理圖像質(zhì)量控制方法的有效性和可行性。
WSI 是數(shù)字病理學(xué)領(lǐng)域研究的基礎(chǔ),WSI 的質(zhì)量控制是數(shù)字病理發(fā)展的重要一環(huán)。本文介紹的自動(dòng)化數(shù)字病理圖像質(zhì)量控制方法,首先讀取數(shù)字病理圖像。利用圖像處理中的多分辨率金字塔結(jié)構(gòu)和OTSU 算法提取WSI 中的組織區(qū)域。檢測(cè)污跡區(qū)域,利用Canny 邊緣檢測(cè)獲得污跡的邊緣輪廓,填充污跡輪廓內(nèi),與原始的組織區(qū)域做交集運(yùn)算,獲得剔除污跡的組織區(qū)域。采用以二階導(dǎo)數(shù)為基礎(chǔ)的拉普拉斯算子檢測(cè)模糊區(qū)域,計(jì)算出模糊區(qū)域狀態(tài)的熱力散點(diǎn)分布圖,按照熱力圖閾值過濾出大于閾值的模糊區(qū)域分布,對(duì)其進(jìn)行高斯濾波,獲取模糊區(qū)域的掩碼,最后將原始組織區(qū)域與模糊區(qū)域掩碼取差集,最終利用分割掩碼進(jìn)行多次差集運(yùn)算,獲得有效可用的組織區(qū)域。通過兩次實(shí)驗(yàn)結(jié)果,驗(yàn)證了本文質(zhì)量控制方法的正確性和可行性,有助于提高病理醫(yī)生的診斷效率以及提供了可靠有效的高質(zhì)量數(shù)字病理圖像。