吳 堅(jiān)
(聯(lián)勤保障部隊(duì)第九〇四醫(yī)院,江蘇 無(wú)錫 214000)
隨著信息技術(shù)的飛速發(fā)展,醫(yī)學(xué)領(lǐng)域的數(shù)字化影像技術(shù)也得到了很大的提升,醫(yī)學(xué)圖像的使用和管理對(duì)于醫(yī)學(xué)方面的研究十分重要?,F(xiàn)有的圖像檢索技術(shù),主要通過關(guān)鍵字進(jìn)行檢索,存在一定的檢索缺陷,無(wú)法準(zhǔn)確的反映圖像的信息。隨著信息技術(shù)的發(fā)展,圖像檢索技術(shù)在醫(yī)學(xué)領(lǐng)域也得到了有效應(yīng)用,如醫(yī)學(xué)教學(xué)、輔助醫(yī)學(xué)斷診以及醫(yī)學(xué)資料管理等領(lǐng)域應(yīng)用到檢索技術(shù)?;贐/S的醫(yī)學(xué)圖像檢索,在實(shí)際的應(yīng)用中無(wú)法更好的滿足圖像實(shí)時(shí)要求。因此,為了提高醫(yī)學(xué)圖像的檢索效率,提出一種基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng),采用不同的算法提取醫(yī)學(xué)示例,使用函數(shù)提取醫(yī)學(xué)圖像特征,并在圖像特征庫(kù)中進(jìn)行匹配,得到最優(yōu)的檢索結(jié)果?;谠萍夹g(shù)的醫(yī)學(xué)圖像檢索系統(tǒng)具有較強(qiáng)的并行處理能力,可以將復(fù)雜的任務(wù)進(jìn)行分解,通過分配子任務(wù)完成工作節(jié)點(diǎn),為醫(yī)學(xué)圖像檢索提供新的發(fā)展方向。
很早之前,醫(yī)學(xué)圖像檢索的研究就有,當(dāng)時(shí)的科技并不發(fā)達(dá),研究出根據(jù)文本信息圖像檢索技術(shù),利用文本信息描述圖像的特征。20世紀(jì)90年代,出現(xiàn)了新的檢索技術(shù),新的檢索技術(shù)是根據(jù)對(duì)圖像的內(nèi)容語(yǔ)義,比如顏色,紋理,布局等信息進(jìn)行檢索和分析的圖像檢索技術(shù)。因此我們也可以知道關(guān)于圖像信息的檢索技術(shù)經(jīng)歷了從圖像特征文本描述到圖像視覺特征再到圖像語(yǔ)義特征3個(gè)階段。
根據(jù)文本的檢索方式是最早期圖像檢索的方式,就是通過在百度或其他的搜索引擎中把圖像的特征描述的關(guān)鍵字來輸入進(jìn)去,檢索出相關(guān)的圖像,這就是根據(jù)文本的圖像檢索。這個(gè)最簡(jiǎn)單的方式現(xiàn)在還在使用,但是隨著圖像數(shù)據(jù)的數(shù)量越來越多,缺點(diǎn)也暴露出來了,因以前的計(jì)算機(jī)技術(shù)和人工智能技術(shù)都不發(fā)達(dá),沒辦法自動(dòng)對(duì)圖像進(jìn)行標(biāo)注,需要人工標(biāo)注,這樣一來,工作量就太大,需要的人手也超多,而且這種人工標(biāo)注這種方式帶有人的主觀性,有偏差,每個(gè)人的眼光和理解都不同,看到相同的圖像會(huì)有不一樣的見解,因此用標(biāo)注的關(guān)鍵字來檢索就容易產(chǎn)生錯(cuò)誤匹配,還有很多顏色和特征是人無(wú)法用文本客觀描述出來的,所以人們就開始進(jìn)一步研究更方便的圖像檢索技術(shù)。
20世紀(jì)90年代時(shí),學(xué)者就想到了既然可以用根據(jù)文本來進(jìn)行圖像檢索技術(shù),那為什么不能直接用圖像內(nèi)容來進(jìn)行圖像的檢索工作,經(jīng)過深入研究探討,最終研究出根據(jù)內(nèi)容進(jìn)行圖像檢索的技術(shù)。
根據(jù)內(nèi)容的圖像檢索技術(shù)和根據(jù)文本的圖像檢索技術(shù)不同,文本的檢索是一種準(zhǔn)確的檢索方式,而根據(jù)內(nèi)容的檢索是近似匹配的檢索,這種方式比文本好,有效的避免了人工標(biāo)注的主觀因素,也避免了大量人工的工作,檢索特征都是在線上自動(dòng)進(jìn)行的。
根據(jù)圖像的內(nèi)容直接提取出圖像內(nèi)容的眼睛能看到特征,根據(jù)這些提取出來的特征進(jìn)行檢索,在圖像數(shù)據(jù)庫(kù)中搜索到和之相對(duì)應(yīng)的圖像。提出的特征也有不同,分為根據(jù)顏色特征的檢索,根據(jù)紋理特征的檢索、根據(jù)形狀的檢索和根據(jù)空間關(guān)系的檢索等。根據(jù)這些視覺特征獲得所依據(jù)的圖像內(nèi)容又可以分為局部特征圖像檢索和全部特征圖像檢索。這種檢索技術(shù)也在廣泛的應(yīng)用在電腦技術(shù)上,很多搜索引擎軟件上都使用了該技術(shù)。但是根據(jù)內(nèi)容的圖像檢索技術(shù)也存在著一些問題,這種圖像檢索技術(shù)也是提取到的特征是底層特征,無(wú)法和人們的高層語(yǔ)義所對(duì)應(yīng),不能準(zhǔn)確反映圖像的具體,后因?yàn)檫@些問題,研究人員在搜索方案中增加了人工檢查,進(jìn)一步的調(diào)整檢索過程,以求的最好的檢索效果。但是這種方式也很是繁瑣,難以取得更大的進(jìn)步,所以醫(yī)學(xué)學(xué)者們也一直根據(jù)這些問題進(jìn)行深入研究。
醫(yī)學(xué)學(xué)者們?yōu)榱丝朔鶕?jù)簡(jiǎn)單視覺特征的圖像檢索方式的不足,研究出來了一種優(yōu)于之前的檢索技術(shù)的新技術(shù),此為根據(jù)語(yǔ)義圖像檢索技術(shù),這種檢索方式內(nèi)含了傳統(tǒng)的圖像檢索技術(shù)和自然語(yǔ)言處理技術(shù)。在之前的檢索系統(tǒng)中添加了底層特征轉(zhuǎn)化為高層語(yǔ)義的技術(shù),高層語(yǔ)義就是在底層語(yǔ)義的基礎(chǔ)上更深?yuàn)W,涉及知識(shí)領(lǐng)域更多的語(yǔ)義,這樣就能在不改變匹配方式和現(xiàn)有的圖像特征庫(kù)的情況下,實(shí)現(xiàn)根據(jù)語(yǔ)義的圖像檢索新技術(shù)。這種新技術(shù)就達(dá)到了最大限度減少高層豐富語(yǔ)義和圖像簡(jiǎn)單的視覺特征之間的語(yǔ)義鴻溝的目的。
云技術(shù)是一種新型的技術(shù),是由于之前的圖像檢索技術(shù)總是有各種各樣的問題,而現(xiàn)在的社會(huì)一直在進(jìn)步,科技也在進(jìn)步,人的要求也隨著越來越高,圖像庫(kù)信息也越來越多,現(xiàn)有的技術(shù)很難簡(jiǎn)單完美的解決問題,所以研究出來了基于云技術(shù)的圖像檢索技術(shù)。云技術(shù)作為一種計(jì)算形式,是將共享的軟硬件資源按照特定的形式提供給計(jì)算機(jī)中相關(guān)的設(shè)備,其運(yùn)作方式獨(dú)特,云技術(shù)作為一種新型的IT服務(wù)模式,通過互聯(lián)網(wǎng)虛擬化資源,采用Hadoop框架,進(jìn)行大規(guī)模的數(shù)據(jù)分布式計(jì)算,使用JAVA進(jìn)行程序開發(fā)。分布式并行程序的運(yùn)行,需要依靠大量節(jié)點(diǎn)完成海量數(shù)據(jù)的計(jì)算,不會(huì)出現(xiàn)容錯(cuò)處理以及平衡負(fù)載的問題。Hadoop的組成框架圖如圖1所示。
圖1 Hadoop組成結(jié)構(gòu)圖Fig.1 Composition structure diagram of Hadoop
HDFS即分布式系統(tǒng),HDFS分布式系統(tǒng)是數(shù)據(jù)集中群存儲(chǔ)的關(guān)鍵,可以滿足硬件的使用需求,保證硬件的良好運(yùn)行。分布式系統(tǒng)通過分割文件,將其存儲(chǔ)在不同的DataNode上,還可以復(fù)制很多份存儲(chǔ)于不同的DataNode上,都是設(shè)計(jì)用來安署在廉價(jià)的硬件上,有著很高容錯(cuò)性的特點(diǎn),它提供高存量來訪問應(yīng)用程序的數(shù)據(jù),適合有著特大數(shù)據(jù)集的應(yīng)用程序。
MapReduce并行模型是谷歌公司在2004年公布的一種大規(guī)模數(shù)據(jù)處理模型。這種模型提供了一個(gè)有著強(qiáng)大功能但是使用簡(jiǎn)單的接口,大量數(shù)據(jù)的計(jì)算任務(wù)都可以通過這個(gè)接口自動(dòng)進(jìn)行分布執(zhí)行和并發(fā)。隨著研發(fā)深入,開發(fā)出了許多數(shù)據(jù)計(jì)算模式,這些計(jì)算模式都可以滿足快速處理大量數(shù)據(jù)的要求,主要含蓋倒排索引,web文本,web請(qǐng)求日志,文檔抓取,的圖結(jié)構(gòu)的各種表達(dá)形式等,但是這種模式只能在單機(jī)環(huán)境下處理,不能在理想的時(shí)間處理完成,所以才有了這個(gè)MapReduce模型的出現(xiàn),帶來了新的契機(jī)。編寫MapReduce這個(gè)程序主要是通過兩個(gè)函數(shù),Map和Reduce函數(shù),Map函數(shù)要面臨的是沒有相關(guān)關(guān)系的數(shù)據(jù),分別對(duì)每個(gè)數(shù)據(jù)進(jìn)行分析處理,提取到鍵值,分配給每個(gè)節(jié)點(diǎn),實(shí)行并行模式的處理,經(jīng)過Shuffle階段后,在Reduce階段可以得出整理好的數(shù)據(jù)。最后通過Reduce程序把處理的結(jié)果匯總,在這些基礎(chǔ)上可以在進(jìn)一步數(shù)據(jù)處理得到想要的結(jié)果。
HBase系統(tǒng)作為一個(gè)分布式數(shù)據(jù)庫(kù)系統(tǒng),HBase與平常接觸到的數(shù)據(jù)庫(kù)都有明顯的差異,不同在于HBase可以應(yīng)用在非結(jié)構(gòu)化數(shù)據(jù)庫(kù)存儲(chǔ)中,這和基于行的模式有明顯不同,是基于列的模式之上,HBase與谷歌設(shè)計(jì)非分布式數(shù)據(jù)庫(kù)Bigtable有很多相似的數(shù)據(jù)模型。這個(gè)數(shù)據(jù)模型中用戶的數(shù)據(jù)行存儲(chǔ)在一個(gè)具有稀疏性的表里,每個(gè)數(shù)據(jù)行都有很多不一樣的功能鍵,可以根據(jù)自定義相應(yīng)所需要的列,HBase就可以滿足用戶的隨機(jī)訪問,并實(shí)現(xiàn)實(shí)時(shí)讀寫大數(shù)據(jù)的功能。
(1)Hbaseclient。HBaseclient是通過HBase RPC遠(yuǎn)程操作的,調(diào)用協(xié)議機(jī)制分別進(jìn)行管理類;
(2)Zookeeper。zookeeper中的Quorum存 儲(chǔ) 著root表和hmaster的地址,同時(shí),為了方便讓hmaster實(shí)時(shí)了解到HRegion Server的狀態(tài)是否良好,HRegion Server將注冊(cè)到zookeeper中,使用Ephemeral的方式注冊(cè);
(3)Hmaster。hmaster主要的任務(wù)是管理region和table。為了保證至少有一個(gè)master任務(wù)在運(yùn)作,多個(gè)hmaster可以同時(shí)啟動(dòng),需要調(diào)用zookeeper的master機(jī)制;
(4)HRegion Server。HRegion Server是 最 核 心的部分,主要負(fù)責(zé)響應(yīng)用戶請(qǐng)求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù),是最核心模塊,每個(gè)HStore對(duì)應(yīng)了table中的一個(gè)Column Family的存儲(chǔ)。
根據(jù)云技術(shù)與的圖像檢索系統(tǒng)設(shè)計(jì)主要是為了對(duì)Hadoop平臺(tái)上的大量醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行準(zhǔn)確且快速的檢索,但是經(jīng)過調(diào)查和分析國(guó)內(nèi)外醫(yī)學(xué)文獻(xiàn),發(fā)現(xiàn)現(xiàn)今社會(huì)的研究依然還是存在許多問題,一是,由于硬件條件的約束,傳統(tǒng)數(shù)據(jù)庫(kù)存儲(chǔ)大量數(shù)據(jù)還是有很大的成本問題,并且隨著大量的數(shù)據(jù)圖像存入,還有可能造成崩潰;二是,單機(jī)的檢索環(huán)境速度都不能達(dá)到用戶的實(shí)時(shí)使用需求;三是用戶的各種各樣的需求在當(dāng)前的系統(tǒng)中每次單個(gè)特征檢索的算法中很難滿足;四是,傳統(tǒng)根據(jù)內(nèi)容的醫(yī)學(xué)圖像檢索系統(tǒng)都是按順對(duì)圖像庫(kù)的圖像進(jìn)行遍歷,分別運(yùn)算每個(gè)圖像之間的相似度,沒有適合的索引,就使得系統(tǒng)檢索性能很低。針對(duì)以上等問題,大多數(shù)醫(yī)學(xué)者的需求,我們來做這個(gè)新技術(shù)的研發(fā)與實(shí)現(xiàn)。
當(dāng)分布式存儲(chǔ)系統(tǒng)的數(shù)據(jù)集特別大時(shí),掃描檢索就非常的耗時(shí),消耗時(shí)間長(zhǎng)。因此,為了減少檢索時(shí)間,提高檢索效率,可以使用MapReduce計(jì)算模型對(duì)醫(yī)學(xué)圖像檢索進(jìn)行計(jì)算,構(gòu)架圖如圖2所示。
圖2 醫(yī)學(xué)圖像檢索購(gòu)價(jià)圖Fig.2 Purchasing price chart of medical image retrieval
檢索步驟分為6個(gè)步驟,分別如下:
(1)收集醫(yī)學(xué)圖像,提取圖像特征;
(2)上交檢索記錄,提取檢索圖像中的LBP特征與Brushlet特征;
(3)匹配醫(yī)學(xué)圖像,并輸出鍵值;
(4)根據(jù)相似度,將鍵值輸入到map中進(jìn)行排序;
(5)將收集的鍵值進(jìn)行整理,并寫入HDFS中;
(6)輸出結(jié)果,得到最終醫(yī)學(xué)檢索結(jié)果。
基于云技術(shù)的醫(yī)學(xué)圖像檢索工作流程圖如圖3所示。
圖3 云技術(shù)的醫(yī)學(xué)圖像檢索工作流程圖Fig.3 Workflow diagram of medical image retrieval based on cloud technology
使用的是Linux操作系統(tǒng),Hadoop官方軟件,windo server2013鏡像作為DNS服務(wù)器和FTP服務(wù)器,安裝iava程序運(yùn)行環(huán)境。
本測(cè)試中設(shè)計(jì)了30個(gè)測(cè)試案例,每個(gè)測(cè)試者都必須要完成這30個(gè)測(cè)試,測(cè)試案例包括了系統(tǒng)的各種基本功能,其中10個(gè)案例為兩圖關(guān)系的檢索,7個(gè)案例為3圖關(guān)系的檢索,剩下的案例都是單圖檢索,圖與圖之間都是可以選擇并、交、差或位置關(guān)系。通常為了簡(jiǎn)單方便,都是使用系統(tǒng)默認(rèn)算法,聚類使用FCM算法。實(shí)驗(yàn)所要檢索的目標(biāo)大概有3個(gè)類別的圖片,卡通人物,加菲貓、史努比、美猴王,真實(shí)物體,氣球、花瓶、建筑;標(biāo)志性建筑,金字塔、故宮、長(zhǎng)城,場(chǎng)景:草原、大海、沙漠。這些案例都是選取的不同年齡段,不同專業(yè)的10名學(xué)生來測(cè)試的。
MRR功能是關(guān)注搜索引擎檢索到的有關(guān)圖片是不是排在最終結(jié)果的列表前面,簡(jiǎn)稱就是平均排序倒數(shù)。這個(gè)方法是計(jì)算每一個(gè)查詢的第一個(gè)有關(guān)圖片位置的倒數(shù),后將求出所有倒數(shù)值得平均值。
MAP則是求每個(gè)有關(guān)圖片檢索出的準(zhǔn)確率的平均值,這是對(duì)準(zhǔn)確率求了兩次平均,是MAP把系統(tǒng)在全部相關(guān)結(jié)果上單值指標(biāo)。系統(tǒng)檢索出來的有關(guān)圖片靠前,MAP就越高,沒有返回則準(zhǔn)確率為0%。
本系統(tǒng)在搜索結(jié)果中,把用戶所要的圖片都是能排在前列,準(zhǔn)確率也很高,都是高效準(zhǔn)確的索引分不開的,從圖4就可以看出這MAP、MRR指數(shù)的比較:
圖4 MAP、MRR指數(shù)的比較Fig.4 Comparison of MAP and Mrr Index
通過對(duì)單機(jī)環(huán)境和云平臺(tái)的對(duì)比,證明了實(shí)驗(yàn)的有效性,用戶可以根據(jù)不同的測(cè)試方法滿足自身不同的需求,從而達(dá)到自由查詢的目的。
本研究雖然取得了一定的研究結(jié)果,但是此系統(tǒng)依然還有很多地方需要完善,需要大量的測(cè)試,另外在設(shè)計(jì)MapReduce對(duì)圖像進(jìn)行處理時(shí),缺乏了對(duì)于架構(gòu)性能的分析。MapReduce如果是對(duì)于一般的小圖像文件會(huì)增加運(yùn)行作業(yè)必要的尋址次數(shù),會(huì)對(duì)整個(gè)系統(tǒng)性能造成影響,所以它處理數(shù)據(jù)的速度要和云平臺(tái)的傳輸速度達(dá)到同步。根據(jù)以上的問題和研究現(xiàn)狀,還需進(jìn)一步研究,學(xué)習(xí)醫(yī)學(xué)圖像檢索算法,但是本文沒有對(duì)醫(yī)學(xué)圖像的提取圖像特征方法進(jìn)行深入研究,可以在提取特征方法上多加研究以求提高檢索準(zhǔn)確度和效率,深入研究醫(yī)學(xué)圖像的各種索引機(jī)制,優(yōu)化索引機(jī)制,準(zhǔn)確開展云技術(shù)圖像檢索系統(tǒng)索引機(jī)制的研究,改進(jìn)系統(tǒng)設(shè)計(jì),使得基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng)性能更加突出。