劉博文
(鄭州市第七中學(xué),河南鄭州,450000)
五十多年來,物體識(shí)別與檢測(cè)技術(shù)取得了突飛猛進(jìn)的進(jìn)步,這主要得益于國際競(jìng)賽PASCAL VOC競(jìng)賽的舉行。近幾年,該競(jìng)賽在國際社會(huì)的影響力越來越大,參賽團(tuán)隊(duì)也越來越多,參賽者也更為多樣化,他們的成果對(duì)之前的相關(guān)技術(shù)進(jìn)行了很大程度上的改進(jìn)與加深,這樣我們的各種算法便得到了優(yōu)化,更準(zhǔn)確也更簡潔,速度精度都得到了一定程度上的提升,為人類科學(xué)作出了巨大貢獻(xiàn)。我們的目標(biāo)檢測(cè)技術(shù)也依賴于該競(jìng)賽快速進(jìn)步。
PASCAL VOC競(jìng)賽主要運(yùn)用基于詞包模型的物體分類算法。
所謂詞袋模型(Bag of Words, BOW),就是拿一張圖像的主要特征來描述這張圖像。形象地說,我們要事先準(zhǔn)備一套“字典”,里面包含眾多的基本圖像元素,比如:“一把椅子”、“一輛車”、“一臺(tái)電視機(jī)”等等,然后我們處理一張輸入圖片時(shí),就照應(yīng)著“字典”上的基本圖像元素來對(duì)它的特征進(jìn)行簡潔量化地描述,用數(shù)學(xué)公式方法可以如下表述:
記“字典”中的元素“豬”為q,“羊”為w,“?!睘閑,“狗”為r等等,接下來輸入一張有2頭牛、一條狗的圖片A,那么根據(jù)圖A具有的基本圖像元素可以將其特征這樣表達(dá):
由于“字典”是固定的,所以就可以利用簡單的公式來表達(dá)一副圖片的意義了,也可以運(yùn)用向量的相關(guān)運(yùn)算比較多幅圖片的相似程度,作用多樣,應(yīng)用廣泛。但是由于詞袋模型只是考慮了某元素“是否出現(xiàn)”與“出現(xiàn)數(shù)量”而不考慮“出現(xiàn)在哪”,所以存在很多局限性。比如,我們輸入了一張尾巴長在牛頭上的牛的圖片,經(jīng)過“字典”處理篩選時(shí),可以識(shí)別出牛的各部位從而認(rèn)為這是牛,但這明顯不符合一頭牛的傳統(tǒng)概念,因此這種方法存在諸多缺陷。
基于深度學(xué)習(xí)的物體檢測(cè)方法目前已經(jīng)取得了極大的進(jìn)展,它來源于人們對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究,主要模擬人類大腦的工作機(jī)制進(jìn)行學(xué)習(xí)分析[1]。2006年,自Hinton等人發(fā)表一篇論文開始,深度學(xué)習(xí)逐漸走進(jìn)了人們的視野,目前已經(jīng)在業(yè)界獲得了極大的關(guān)注。近些年來,深度學(xué)習(xí)取得了顯著的進(jìn)步,成為現(xiàn)在目標(biāo)檢測(cè)領(lǐng)域最常用的方法[2]。本次有關(guān)VR手術(shù)的創(chuàng)新,特別是病變部位的識(shí)別檢測(cè)將用到這一模型,下文將詳加敘述。
主要對(duì)基于深度學(xué)習(xí)的圖像檢測(cè)儀器RCNN、Fast RCNN、Faster RCNN的工作方式原理展開敘述。
Region CNN(RCNN)首先利用深度學(xué)習(xí)進(jìn)行物體檢測(cè)[3]。RCNN的運(yùn)行需要訓(xùn)練深度網(wǎng)絡(luò)進(jìn)行特征提取,一般會(huì)提供兩個(gè)訓(xùn)練庫:一個(gè)較大的識(shí)別庫和一個(gè)較小的檢測(cè)庫。識(shí)別庫可以對(duì)RCNN進(jìn)行預(yù)訓(xùn)練,調(diào)節(jié)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的權(quán)重,即初步修改w、b等的數(shù)值,之后用檢測(cè)庫調(diào)優(yōu)參數(shù)w、b并進(jìn)行檢測(cè)。主要訓(xùn)練過程如下:
準(zhǔn)備大量同類與不同類的較為典型圖片輸入RCNN儀器[4],進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)后,卷積層中多重的卷積核會(huì)將圖片進(jìn)行多通道卷積,然后將提取的像素輸入池化層進(jìn)行主要特征的提取。接下來提取到的像素信息會(huì)輸入全連接層,調(diào)試權(quán)重。由于全連接層的存在,每個(gè)元素間均有連接、交集使得卷積神經(jīng)網(wǎng)絡(luò)可以考慮到所有的主要特征像素。因此全連接層不可或缺,在RCNN的卷積神經(jīng)網(wǎng)絡(luò)中扮演著十分重要的角色[5]。為了保證這一步驟的準(zhǔn)確性,我們要從檢測(cè)庫中挑選輸入盡量多的圖片進(jìn)行訓(xùn)練調(diào)試其權(quán)重。主要訓(xùn)練過程如下文所述:
輸入一張圖片,卷積層按照一定大小和步長對(duì)其進(jìn)行多通道卷積,輸出經(jīng)輕度處理后的像素,然后池化層按照既定大小提取每個(gè)區(qū)域內(nèi)的有著最顯著特征的像素,然后進(jìn)行拼接重組、輸出,輸入全連接層。在這里,方格狀的像素集合會(huì)被拉成長條狀的像素集合,并與隱藏層次序相連運(yùn)算,這里的計(jì)算就會(huì)有權(quán)重w、b的參與。全連接層實(shí)例如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
RCNN雖說是物體識(shí)別檢測(cè)領(lǐng)域的里程碑式的發(fā)現(xiàn),但卻存在速度方面的巨大缺陷,其原因顯而易見:在獲取候選框時(shí),我們是把所有隨機(jī)生成的數(shù)千個(gè)小圖像方框都輸入進(jìn)了深度網(wǎng)絡(luò)中進(jìn)行運(yùn)算即特征提取,然后才能進(jìn)行分類。這樣子我們就會(huì)有許多重復(fù)的計(jì)算,再加上我們使用RCNN時(shí)要將候選區(qū)域resize到同一大小輸入CNN,便導(dǎo)致了計(jì)算速率的緩慢。
作為改正,2015年Ross B.Girshick提出了深度學(xué)習(xí)目標(biāo)檢測(cè)算法Fast RCNN,將原RCNN算法提速了100倍左右。主要改進(jìn)措施:
(1)本來需要對(duì)數(shù)千個(gè)隨機(jī)區(qū)域進(jìn)行運(yùn)算的RCNN改進(jìn)為Fast RCNN后只需要對(duì)原圖進(jìn)行一次運(yùn)算即可選定候選區(qū)域,這種提速效果不言而喻。
(2)全連接層的輸入必須是同一尺度大小的候選區(qū)域,因此RCNN要事先統(tǒng)一諸多候選區(qū)域的 大小。ROI Pooling可以把不同大小的輸入映射到一個(gè)固定尺度的特征向量,然后再進(jìn)行分類。
有了這些改進(jìn),物體的識(shí)別與檢測(cè)上升到了新的高度。
Fast RCNN雖然速率已經(jīng)達(dá)到了一個(gè)較高水平,但仍有進(jìn)步改進(jìn)的空間。因此,我們提出了Faster RCNN。Faster RCNN,顧名思義,是更快的RCNN,由任少卿等人于2016年提出,是目前最快最先進(jìn)的RCNN系列目標(biāo)識(shí)別與檢測(cè)儀器。由于Fast RCNN存在著需要找出所有的候選框、選擇性搜索等影響速度的步驟,人們想出了這樣的一個(gè)解決方法: Region Proposal Network(RPN)將選取候選框的任務(wù)也由神經(jīng)網(wǎng)絡(luò)來計(jì)算解決,功能強(qiáng)大。要使它來工作,我們必須要將其放在最后一個(gè)卷積層的后面,并直接訓(xùn)練得到候選區(qū)域。那RPN究竟具體是怎么工作呢?
(1)在feature map上滑動(dòng)窗口;
(2)建一個(gè)神經(jīng)網(wǎng)絡(luò)用于物體分類+框位置的回歸;
(3)滑動(dòng)窗口的位置提供了物體的大體位置信息;
(4)框的回歸提供了框更精確的位置。
說明:整個(gè)過程需要多個(gè)loss損失函數(shù)來解決問題。
首先,我們要事先準(zhǔn)備大量病變器官與完好器官的典型圖像,然后將其輸入到Faster RCNN中,用loss損失函數(shù)不斷訓(xùn)練與調(diào)試權(quán)重w與b的值,直到可以準(zhǔn)確判斷出病變部位并將其完整框出為止。然后將檢測(cè)結(jié)果中檢測(cè)到疾病部位切割出來然后對(duì)這個(gè)部位再進(jìn)行一次圖像分類徹底確定其疾病類型。由于該設(shè)備用于醫(yī)學(xué)領(lǐng)域,與人們的身體安全生命健康聯(lián)系緊密,一有不慎就會(huì)錯(cuò)過最佳治療時(shí)機(jī),因此我們要準(zhǔn)備盡可能典型與數(shù)量巨大的圖片進(jìn)行調(diào)試。訓(xùn)練完成后,我們可以將儀器拉入病房做現(xiàn)場(chǎng)的實(shí)驗(yàn)檢測(cè),然后再通過醫(yī)生的視覺判斷及實(shí)際的診斷結(jié)果來評(píng)判該儀器是否能準(zhǔn)確判斷病變部位的位置。如果可以,即可生產(chǎn)實(shí)戰(zhàn);如果不行,則說明在選出的訓(xùn)練圖片不夠典型或者硬件存在問題,那我們還需要進(jìn)行維修與重試,直到通過檢測(cè)為止。
以Fsater RCNN為主導(dǎo)的識(shí)別檢測(cè)系統(tǒng)能在醫(yī)生輸入一張病人的人體器官圖像后進(jìn)行人類的感官不能進(jìn)行的通過計(jì)算實(shí)現(xiàn)的感知,可以在較為混亂的人體器官內(nèi)部環(huán)境進(jìn)行精準(zhǔn)的識(shí)別,框出病變部位,較醫(yī)生的判別準(zhǔn)確率60%左右有一個(gè)極大的提升,不僅提高了醫(yī)生的診斷準(zhǔn)確性,更是提高了醫(yī)生診斷的速度,很是適應(yīng)現(xiàn)今社會(huì)的快節(jié)奏,再加上中國是一個(gè)人口大國,“患多醫(yī)少”問題在各城市地區(qū)均十分嚴(yán)重,那么這樣一個(gè)識(shí)別技術(shù)就會(huì)在這樣的一個(gè)社會(huì)現(xiàn)狀中大放光彩,顯現(xiàn)科學(xué)的力量與對(duì)社會(huì)的重要性,落實(shí)理論科學(xué)變?yōu)閷?shí)際的、腳踏實(shí)地的方略。綜上,該技術(shù)的運(yùn)用有著顯著的意義。
在利用目標(biāo)檢測(cè)技術(shù)進(jìn)行診斷的領(lǐng)域目前還沒有太多歷史與經(jīng)驗(yàn)。最開始2007年胡洪濤等人利用BP神經(jīng)網(wǎng)絡(luò)對(duì)病變部位圖像進(jìn)行識(shí)別,主要是根據(jù)食道癌的已有樣本圖像來對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;2008年Kage A等人設(shè)計(jì)了一款計(jì)算機(jī)輔助診斷食道癌的系統(tǒng),主要是根據(jù)已被標(biāo)記、分類的感興趣區(qū)域提取的特征向量構(gòu)成的數(shù)據(jù)庫來識(shí)別分類食道癌。最近的2016年孔喜梅等人采用主成分分析法提取特征。可以說,在利用人工智能、深度學(xué)習(xí)方面的知識(shí)來進(jìn)行醫(yī)療診斷技術(shù)的發(fā)展還有巨大的空間,急需著人們進(jìn)行創(chuàng)新。
所謂醫(yī)療、救助,就是要首先發(fā)現(xiàn)、識(shí)別出需要治療的地方即發(fā)病的部位,尤其是表露在局部身體部位上的病癥,才能進(jìn)行下一步的診斷與治療。診斷治療方面目標(biāo)檢測(cè)技術(shù)可能并不能發(fā)揮出它的作用,但是在發(fā)現(xiàn)病癥這一方面卻絕對(duì)有著巨大的發(fā)展空間。醫(yī)學(xué)的發(fā)展,不就是要從最基礎(chǔ)的地方,即檢測(cè)病變部位發(fā)展起嗎?而要完全解決發(fā)現(xiàn)病癥這一方面的問題,僅僅依賴傳統(tǒng)的機(jī)器拍照醫(yī)生根據(jù)經(jīng)驗(yàn)的微自動(dòng)化識(shí)別是遠(yuǎn)遠(yuǎn)不夠的,科學(xué)技術(shù)才是最嚴(yán)謹(jǐn)?shù)摹N阌怪靡?,物體識(shí)別與檢測(cè)技術(shù)應(yīng)該甚至必須要在醫(yī)療領(lǐng)域走得越來越遠(yuǎn)才能符合人們?nèi)找嬖鲩L的對(duì)身體健康和快節(jié)奏生活的需要。更為具體地說,在手術(shù)、臨床醫(yī)學(xué)這種更加需要高精度、高安全性、高嚴(yán)謹(jǐn)?shù)墓ぷ髦校矬w識(shí)別與檢測(cè)技術(shù)顯得尤為重要,基于VR的手術(shù)輔助設(shè)備和本技術(shù)也是再搭不過了,這也是我們本次創(chuàng)新的原因之一。不管從什么方面上來講,物體識(shí)別與檢測(cè)技術(shù)在醫(yī)療方面的應(yīng)用前景都是十分廣闊的,以后也必將成為社會(huì)上的一大熱門研究方向。
那么本技術(shù)這樣的應(yīng)用有沒有什么缺陷呢?肯定是有的,任何人造技術(shù)設(shè)備都會(huì)存在缺陷。目標(biāo)檢測(cè)技術(shù)用于基于VR的手術(shù)輔助設(shè)備主要的缺陷就是它的準(zhǔn)確性還達(dá)不到一定的高度,而且由于病原體存在著分化變異等特征不穩(wěn)定的狀況,我們并不能單單只拿幾萬張或者幾百萬張之前發(fā)現(xiàn)過的病癥樣貌圖像進(jìn)行訓(xùn)練就能很好地發(fā)現(xiàn)所有人體的病變部位,畢竟病原體分化變異的同時(shí)可能會(huì)出現(xiàn)一種全新的病變部位的樣貌,或者一種人類從未發(fā)現(xiàn)過的病原體感染的病變部位也是全新樣貌的,這幾種情況下我們的技術(shù)并不能發(fā)現(xiàn)并標(biāo)出異常,而這是由我們數(shù)據(jù)庫是既定的導(dǎo)致的缺陷,很難去改正,這就需要科研工作者的進(jìn)一步改進(jìn)改善了。總而言之,利用物體識(shí)別與檢測(cè)技術(shù)進(jìn)行病變部位的識(shí)別從而運(yùn)用到基于VR的手術(shù)輔助設(shè)備雖然意義重大、前景曠闊,但仍存在許多缺陷,需要我們?nèi)タ朔?/p>