吳堅
摘 要:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,涉及到的圖像數(shù)據(jù)信息越來越大,范圍越來越廣,研究者對圖像檢索技術(shù)有了新想法。針對檢索效率問題,提出了一種基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng)設(shè)計,使用并行處理能力云技術(shù),將任務(wù)分解到不同的工作節(jié)點中,從而完成醫(yī)學(xué)圖像的檢索。通過仿真實驗得出,使用云技術(shù)進行醫(yī)學(xué)圖像檢索,可以極大地提高圖像檢索的效率,對于醫(yī)學(xué)圖像的發(fā)展具有重要幫助。
關(guān)鍵詞:醫(yī)學(xué)圖像;檢索;云技術(shù);索引機制
中圖分類號:TP181;TP 391.41 文獻標(biāo)識碼:A 文章編號:1001-5922(2022)04-0138-04
Abstract: With the rapid development of network technology, the image data information involved is becoming larger and wider. Researchers have new ideas on image retrieval technology. Aiming at the problem of retrieval efficiency, a design of medical image retrieval system based on cloud technology is proposed. The parallel processing capability cloud technology is used to decompose the tasks into different work nodes, so as to complete the medical image retrieval. The simulation results show that using cloud technology for medical image retrieval can greatly improve the efficiency of image retrieval and is of great help to the development of medical images.
Key words:? medical image; retrieval; cloud technology; index mechanism
隨著信息技術(shù)的飛速發(fā)展,醫(yī)學(xué)領(lǐng)域的數(shù)字化影像技術(shù)也得到了很大的提升,醫(yī)學(xué)圖像的使用和管理對于醫(yī)學(xué)方面的研究十分重要?,F(xiàn)有的圖像檢索技術(shù),主要通過關(guān)鍵字進行檢索,存在一定的檢索缺陷,無法準(zhǔn)確的反映圖像的信息。隨著信息技術(shù)的發(fā)展,圖像檢索技術(shù)在醫(yī)學(xué)領(lǐng)域也得到了有效應(yīng)用,如醫(yī)學(xué)教學(xué)、輔助醫(yī)學(xué)斷診以及醫(yī)學(xué)資料管理等領(lǐng)域應(yīng)用到檢索技術(shù)?;贐/S的醫(yī)學(xué)圖像檢索,在實際的應(yīng)用中無法更好的滿足圖像實時要求[1]。因此,為了提高醫(yī)學(xué)圖像的檢索效率,提出一種基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng),采用不同的算法提取醫(yī)學(xué)示例,使用函數(shù)提取醫(yī)學(xué)圖像特征,并在圖像特征庫中進行匹配,得到最優(yōu)的檢索結(jié)果。基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng)具有較強的并行處理能力,可以將復(fù)雜的任務(wù)進行分解,通過分配子任務(wù)完成工作節(jié)點,為醫(yī)學(xué)圖像檢索提供新的發(fā)展方向。
1 傳統(tǒng)圖像檢索類型
很早之前,醫(yī)學(xué)圖像檢索的研究就有,當(dāng)時的科技并不發(fā)達,研究出根據(jù)文本信息圖像檢索技術(shù),利用文本信息描述圖像的特征。20世紀(jì)90年代,出現(xiàn)了新的檢索技術(shù),新的檢索技術(shù)是根據(jù)對圖像的內(nèi)容語義,比如顏色,紋理,布局等信息進行檢索和分析的圖像檢索技術(shù)。因此我們也可以知道關(guān)于圖像信息的檢索技術(shù)經(jīng)歷了從圖像特征文本描述到圖像視覺特征再到圖像語義特征3個階段[2]。
1.1 根據(jù)文本的圖像檢索技術(shù)
根據(jù)文本的檢索方式是最早期圖像檢索的方式,就是通過在百度或其他的搜索引擎中把圖像的特征描述的關(guān)鍵字來輸入進去,檢索出相關(guān)的圖像,這就是根據(jù)文本的圖像檢索。這個最簡單的方式現(xiàn)在還在使用,但是隨著圖像數(shù)據(jù)的數(shù)量越來越多,缺點也暴露出來了,因以前的計算機技術(shù)和人工智能技術(shù)都不發(fā)達,沒辦法自動對圖像進行標(biāo)注,需要人工標(biāo)注,這樣一來,工作量就太大,需要的人手也超多,而且這種人工標(biāo)注這種方式帶有人的主觀性,有偏差,每個人的眼光和理解都不同,看到相同的圖像會有不一樣的見解,因此用標(biāo)注的關(guān)鍵字來檢索就容易產(chǎn)生錯誤匹配,還有很多顏色和特征是人無法用文本客觀描述出來的,所以人們就開始進一步研究更方便的圖像檢索技術(shù)[3]。
1.2 根據(jù)內(nèi)容的圖像檢索技術(shù)
20世紀(jì)90年代時,學(xué)者就想到了既然可以用根據(jù)文本來進行圖像檢索技術(shù),那為什么不能直接用圖像內(nèi)容來進行圖像的檢索工作,經(jīng)過深入研究探討,最終研究出根據(jù)內(nèi)容進行圖像檢索的技術(shù)。
根據(jù)內(nèi)容的圖像檢索技術(shù)和根據(jù)文本的圖像檢索技術(shù)不同,文本的檢索是一種準(zhǔn)確的檢索方式,而根據(jù)內(nèi)容的檢索是近似匹配的檢索,這種方式比文本好,有效的避免了人工標(biāo)注的主觀因素,也避免了大量人工的工作,檢索特征都是在線上自動進行的。
根據(jù)圖像的內(nèi)容直接提取出圖像內(nèi)容的眼睛能看到特征,根據(jù)這些提取出來的特征進行檢索,在圖像數(shù)據(jù)庫中搜索到和之相對應(yīng)的圖像。提出的特征也有不同,分為根據(jù)顏色特征的檢索,根據(jù)紋理特征的檢索、根據(jù)形狀的檢索和根據(jù)空間關(guān)系的檢索等。根據(jù)這些視覺特征獲得所依據(jù)的圖像內(nèi)容又可以分為局部特征圖像檢索和全部特征圖像檢索。這種檢索技術(shù)也在廣泛的應(yīng)用在電腦技術(shù)上,很多搜索引擎軟件上都使用了該技術(shù)[4]。但是根據(jù)內(nèi)容的圖像檢索技術(shù)也存在著一些問題,這種圖像檢索技術(shù)也是提取到的特征是底層特征,無法和人們的高層語義所對應(yīng),不能準(zhǔn)確反映圖像的具體,后因為這些問題,研究人員在搜索方案中增加了人工檢查,進一步的調(diào)整檢索過程,以求的最好的檢索效果。但是這種方式也很是繁瑣,難以取得更大的進步,所以醫(yī)學(xué)學(xué)者們也一直根據(jù)這些問題進行深入研究。
1.3 根據(jù)語義的圖像檢索技術(shù)
醫(yī)學(xué)學(xué)者們?yōu)榱丝朔鶕?jù)簡單視覺特征的圖像檢索方式的不足,研究出來了一種優(yōu)于之前的檢索技術(shù)的新技術(shù),此為根據(jù)語義圖像檢索技術(shù),這種檢索方式內(nèi)含了傳統(tǒng)的圖像檢索技術(shù)和自然語言處理技術(shù)。在之前的檢索系統(tǒng)中添加了底層特征轉(zhuǎn)化為高層語義的技術(shù),高層語義就是在底層語義的基礎(chǔ)上更深奧,涉及知識領(lǐng)域更多的語義,這樣就能在不改變匹配方式和現(xiàn)有的圖像特征庫的情況下,實現(xiàn)根據(jù)語義的圖像檢索新技術(shù)。這種新技術(shù)就達到了最大限度減少高層豐富語義和圖像簡單的視覺特征之間的語義鴻溝的目的。
2 云技術(shù)概念
云技術(shù)是一種新型的技術(shù),是由于之前的圖像檢索技術(shù)總是有各種各樣的問題,而現(xiàn)在的社會一直在進步,科技也在進步,人的要求也隨著越來越高,圖像庫信息也越來越多,現(xiàn)有的技術(shù)很難簡單完美的解決問題,所以研究出來了基于云技術(shù)的圖像檢索技術(shù)。云技術(shù)作為一種計算形式,是將共享的軟硬件資源按照特定的形式提供給計算機中相關(guān)的設(shè)備,其運作方式獨特,云技術(shù)作為一種新型的IT服務(wù)模式,通過互聯(lián)網(wǎng)虛擬化資源,采用Hadoop框架,進行大規(guī)模的數(shù)據(jù)分布式計算,使用JAVA進行程序開發(fā)。分布式并行程序的運行,需要依靠大量節(jié)點完成海量數(shù)據(jù)的計算,不會出現(xiàn)容錯處理以及平衡負(fù)載的問題。Hadoop的組成框架圖如圖1所示。
2.1 HDFS
HDFS即分布式系統(tǒng),HDFS分布式系統(tǒng)是數(shù)據(jù)集中群存儲的關(guān)鍵,可以滿足硬件的使用需求,保證硬件的良好運行。分布式系統(tǒng)通過分割文件,將其存儲在不同的DataNode上,還可以復(fù)制很多份存儲于不同的DataNode上,都是設(shè)計用來安署在廉價的硬件上,有著很高容錯性的特點,它提供高存量來訪問應(yīng)用程序的數(shù)據(jù),適合有著特大數(shù)據(jù)集的應(yīng)用程序[5]。
2.2 MapReduce
MapReduce并行模型是谷歌公司在2004年公布的一種大規(guī)模數(shù)據(jù)處理模型。這種模型提供了一個有著強大功能但是使用簡單的接口,大量數(shù)據(jù)的計算任務(wù)都可以通過這個接口自動進行分布執(zhí)行和并發(fā)。隨著研發(fā)深入,開發(fā)出了許多數(shù)據(jù)計算模式,這些計算模式都可以滿足快速處理大量數(shù)據(jù)的要求,主要含蓋倒排索引,web文本,web請求日志,文檔抓取,的圖結(jié)構(gòu)的各種表達形式等,但是這種模式只能在單機環(huán)境下處理,不能在理想的時間處理完成,所以才有了這個MapReduce模型的出現(xiàn),帶來了新的契機。編寫MapReduce這個程序主要是通過兩個函數(shù),Map和Reduce函數(shù),Map函數(shù)要面臨的是沒有相關(guān)關(guān)系的數(shù)據(jù),分別對每個數(shù)據(jù)進行分析處理,提取到鍵值,分配給每個節(jié)點,實行并行模式的處理,經(jīng)過Shuffle階段后,在Reduce階段可以得出整理好的數(shù)據(jù)。最后通過Reduce程序把處理的結(jié)果匯總,在這些基礎(chǔ)上可以在進一步數(shù)據(jù)處理得到想要的結(jié)果。
2.3 HBase
HBase系統(tǒng)作為一個分布式數(shù)據(jù)庫系統(tǒng),HBase與平常接觸到的數(shù)據(jù)庫都有明顯的差異,不同在于HBase可以應(yīng)用在非結(jié)構(gòu)化數(shù)據(jù)庫存儲中,這和基于行的模式有明顯不同,是基于列的模式之上,HBase與谷歌設(shè)計非分布式數(shù)據(jù)庫Bigtable有很多相似的數(shù)據(jù)模型。這個數(shù)據(jù)模型中用戶的數(shù)據(jù)行存儲在一個具有稀疏性的表里,每個數(shù)據(jù)行都有很多不一樣的功能鍵,可以根據(jù)自定義相應(yīng)所需要的列,HBase就可以滿足用戶的隨機訪問,并實現(xiàn)實時讀寫大數(shù)據(jù)的功能。
(1)Hbaseclient。HBaseclient是通過HBase RPC遠(yuǎn)程操作的,調(diào)用協(xié)議機制分別進行管理類;
(2)Zookeeper。zookeeper中的Quorum存儲著root表和hmaster的地址,同時,為了方便讓hmaster實時了解到HRegion Server的狀態(tài)是否良好,HRegion Server將注冊到zookeeper中,使用Ephemeral的方式注冊;
(3)Hmaster。hmaster主要的任務(wù)是管理region和table。為了保證至少有一個master任務(wù)在運作,多個hmaster可以同時啟動,需要調(diào)用zookeeper的master機制;
(4)HRegion Server。HRegion Server是最核心的部分,主要負(fù)責(zé)響應(yīng)用戶請求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù),是最核心模塊,每個HStore對應(yīng)了table中的一個Column Family的存儲[6]。
3 基于云技術(shù)的圖像檢索系統(tǒng)設(shè)計
根據(jù)云技術(shù)與的圖像檢索系統(tǒng)設(shè)計主要是為了對Hadoop平臺上的大量醫(yī)學(xué)圖像數(shù)據(jù)進行準(zhǔn)確且快速的檢索,但是經(jīng)過調(diào)查和分析國內(nèi)外醫(yī)學(xué)文獻,發(fā)現(xiàn)現(xiàn)今社會的研究依然還是存在許多問題,一是,由于硬件條件的約束,傳統(tǒng)數(shù)據(jù)庫存儲大量數(shù)據(jù)還是有很大的成本問題,并且隨著大量的數(shù)據(jù)圖像存入,還有可能造成崩潰;二是,單機的檢索環(huán)境速度都不能達到用戶的實時使用需求;三是用戶的各種各樣的需求在當(dāng)前的系統(tǒng)中每次單個特征檢索的算法中很難滿足;四是,傳統(tǒng)根據(jù)內(nèi)容的醫(yī)學(xué)圖像檢索系統(tǒng)都是按順對圖像庫的圖像進行遍歷,分別運算每個圖像之間的相似度,沒有適合的索引,就使得系統(tǒng)檢索性能很低。針對以上等問題,大多數(shù)醫(yī)學(xué)者的需求,我們來做這個新技術(shù)的研發(fā)與實現(xiàn)。
當(dāng)分布式存儲系統(tǒng)的數(shù)據(jù)集特別大時,掃描檢索就非常的耗時,消耗時間長。因此,為了減少檢索時間,提高檢索效率,可以使用MapReduce計算模型對醫(yī)學(xué)圖像檢索進行計算,構(gòu)架圖如圖2所示。
檢索步驟分為6個步驟,分別如下:
(1)收集醫(yī)學(xué)圖像,提取圖像特征;
(2)上交檢索記錄,提取檢索圖像中的LBP特征與Brushlet特征;
(3)匹配醫(yī)學(xué)圖像,并輸出鍵值;
(4)根據(jù)相似度,將鍵值輸入到map中進行排序;
(5)將收集的鍵值進行整理,并寫入HDFS中;
(6)輸出結(jié)果,得到最終醫(yī)學(xué)檢索結(jié)果。
基于云技術(shù)的醫(yī)學(xué)圖像檢索工作流程圖如圖3所示。
4 基于云技術(shù)的圖像檢索系統(tǒng)實現(xiàn)
4.1 實驗環(huán)境
使用的是Linux操作系統(tǒng),Hadoop官方軟件,windo server2013鏡像作為DNS服務(wù)器和FTP服務(wù)器,安裝iava程序運行環(huán)境[7]。
4.2 系統(tǒng)測試
本測試中設(shè)計了30個測試案例,每個測試者都必須要完成這30個測試,測試案例包括了系統(tǒng)的各種基本功能,其中10個案例為兩圖關(guān)系的檢索,7個案例為3圖關(guān)系的檢索,剩下的案例都是單圖檢索,圖與圖之間都是可以選擇并、交、差或位置關(guān)系。通常為了簡單方便,都是使用系統(tǒng)默認(rèn)算法,聚類使用FCM算法。實驗所要檢索的目標(biāo)大概有3個類別的圖片,卡通人物,加菲貓、史努比、美猴王,真實物體,氣球、花瓶、建筑;標(biāo)志性建筑,金字塔、故宮、長城,場景:草原、大海、沙漠。這些案例都是選取的不同年齡段,不同專業(yè)的10名學(xué)生來測試的。
MRR功能是關(guān)注搜索引擎檢索到的有關(guān)圖片是不是排在最終結(jié)果的列表前面,簡稱就是平均排序倒數(shù)。這個方法是計算每一個查詢的第一個有關(guān)圖片位置的倒數(shù),后將求出所有倒數(shù)值得平均值。
MAP則是求每個有關(guān)圖片檢索出的準(zhǔn)確率的平均值,這是對準(zhǔn)確率求了兩次平均,是MAP把系統(tǒng)在全部相關(guān)結(jié)果上單值指標(biāo)。系統(tǒng)檢索出來的有關(guān)圖片靠前,MAP就越高,沒有返回則準(zhǔn)確率為0%。
本系統(tǒng)在搜索結(jié)果中,把用戶所要的圖片都是能排在前列,準(zhǔn)確率也很高,都是高效準(zhǔn)確的索引分不開的,從圖4就可以看出這MAP、MRR指數(shù)的比較:
通過對單機環(huán)境和云平臺的對比,證明了實驗的有效性,用戶可以根據(jù)不同的測試方法滿足自身不同的需求,從而達到自由查詢的目的[8]。
5 結(jié)語
本研究雖然取得了一定的研究結(jié)果,但是此系統(tǒng)依然還有很多地方需要完善,需要大量的測試,另外在設(shè)計MapReduce對圖像進行處理時,缺乏了對于架構(gòu)性能的分析。MapReduce如果是對于一般的小圖像文件會增加運行作業(yè)必要的尋址次數(shù),會對整個系統(tǒng)性能造成影響,所以它處理數(shù)據(jù)的速度要和云平臺的傳輸速度達到同步。根據(jù)以上的問題和研究現(xiàn)狀,還需進一步研究,學(xué)習(xí)醫(yī)學(xué)圖像檢索算法,但是本文沒有對醫(yī)學(xué)圖像的提取圖像特征方法進行深入研究,可以在提取特征方法上多加研究以求提高檢索準(zhǔn)確度和效率,深入研究醫(yī)學(xué)圖像的各種索引機制,優(yōu)化索引機制,準(zhǔn)確開展云技術(shù)圖像檢索系統(tǒng)索引機制的研究,改進系統(tǒng)設(shè)計,使得基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng)性能更加突出。
【參考文獻】
[1] 郝娟.Hadoop云平臺下基于內(nèi)容的醫(yī)學(xué)圖像檢索技術(shù)研究[D].包頭:內(nèi)蒙古科技大學(xué),2016.
[2] 孫書.醫(yī)學(xué)圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)[D].沈陽:東北大學(xué),2013.
[3] 范敏,徐勝才.基于云計算的醫(yī)學(xué)圖像檢索系統(tǒng)[J].計算機工程與應(yīng)用,2013(21):123-127.
[4] 何芳.云計算平臺下海量圖像索引系統(tǒng)的研究與實現(xiàn)[D].西安:西安電子科技大學(xué),2012.
[5] 曹生才.基于內(nèi)容的醫(yī)學(xué)圖像檢索技術(shù)研究與應(yīng)用[D].成都:電子科技大學(xué),2016.
[6] 李封,趙薇.基于內(nèi)容的醫(yī)學(xué)圖像檢索技術(shù)的研究[J].機械設(shè)計與制造,2009(12):28-30.
[7] 何靜.解析建筑工程中絕熱節(jié)能環(huán)保材料的應(yīng)用及發(fā)展前景[J].粘接,2019,40(7):53-55.
[8] 吳佳.墻體修復(fù)綠色建筑材料粘接加固性能成本控制[J].粘接,2020,41(1):120-124.