亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Hadoop平臺下基于內(nèi)容的醫(yī)學(xué)圖像檢索

        2017-03-23 21:42:12郝娟呂曉琪溫秀梅谷宇黃顯武
        現(xiàn)代電子技術(shù) 2017年4期

        郝娟+呂曉琪+溫秀梅+谷宇+黃顯武

        摘 要: 針對海量醫(yī)學(xué)圖像存儲及檢索效率低的問題,該文提出利用Hadoop平臺分別實(shí)現(xiàn)大量醫(yī)學(xué)圖像的分布式存儲以及并行處理模式下的基于內(nèi)容的醫(yī)學(xué)圖像檢索。利用HIPI圖像處理接口將醫(yī)學(xué)圖像上傳到分布式文件系統(tǒng)(HDFS)中;然后,分別提取圖像的形狀以及紋理特征,并將其特征向量存儲到HDFS中;最后,利用MapReduce模型實(shí)現(xiàn)并行式檢索并將圖像檢索結(jié)果按照相似度大小進(jìn)行排序及顯示。實(shí)驗(yàn)結(jié)果表明,在Hadoop云平臺下大量醫(yī)學(xué)圖像的存儲效率以及檢索效率較高,且圖像數(shù)量越多效率優(yōu)勢越明顯。

        關(guān)鍵詞: Hadoop平臺; 分布式存儲; 并行處理; 醫(yī)學(xué)圖像檢索

        中圖分類號: TN911.73?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)04?0115?05

        Content?based medical image retrieval by means of Hadoop platform

        HAO Juan1,2, L? Xiaoqi1, WEN Xiumei2, GU Yu1, HUANG Xianwu1

        (1. School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, China;

        2. School of Information Engineering, Hebei University of Architecture, Zhangjiakou 075000, China)

        Abstract: Since the storage and retrieval efficiency of massive medical images is low, the Hadoop platform is used to realize the distributed storage of the massive medical images and content?based medical image retrieve in the parallel processing mode respectively. The Hadoop image processing interface (HIPI) is adopted to upload the medical images to the Hadoop distributed file system (HDFS). The shape and texture features of the images are extracted respectively, and their feature vectors are stored in HDFS. The MapReduce model is employed to realize the parallel retrieval, and sort and display the image retrieval results according to their similarity. The experimental results show that the efficiency of the massive medical images storage and retrieval by means of Hadoop cloud platform is high, and the efficiency advantage is significantly obvious with the increase of the image quantity.

        Keywords: Hadoop platform; distributed storage; parallel processing; medical image retrieval

        0 引 言

        傳統(tǒng)的基于文本的醫(yī)學(xué)圖像檢索方法需要人工對圖像添加文本描述,再利用文本檢索系統(tǒng)對圖像進(jìn)行檢索,因其檢索過程比較復(fù)雜、時效性較低且準(zhǔn)確率不高被淘汰,而基于內(nèi)容的醫(yī)學(xué)檢索(Content?based Medical Image Retrieval,CBMIR)[1]是運(yùn)用圖像自身特征進(jìn)行檢索,自身特征一般包括顏色、紋理、形狀等,因其檢索準(zhǔn)確性較高被廣泛采用。由于醫(yī)學(xué)圖像大多是灰度圖像,因此顏色特征在醫(yī)學(xué)圖像檢索中作用不明顯;紋理特征是圖像的重要信息,可反映圖像中同質(zhì)現(xiàn)象的視覺特征,體現(xiàn)物體表面共有的內(nèi)在屬性,包含物體表面結(jié)構(gòu)組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系;形狀特征也是圖像的一個重要特征并且此特征具有穩(wěn)定性,基于形狀特征的醫(yī)學(xué)圖像檢索[2]可非常直觀地區(qū)別圖像。目前,基于內(nèi)容的醫(yī)學(xué)圖像檢索技術(shù)已經(jīng)取得了重大突破,但是,由于不同類型的圖像具有不同的屬性特征,通過單一的圖像特征進(jìn)行檢索,其通用性較差,結(jié)果不夠理想,再加上用傳統(tǒng)的單機(jī)串行處理模式面對大規(guī)模的醫(yī)學(xué)圖像數(shù)據(jù)時已出現(xiàn)進(jìn)程瓶頸。本文利用不同特征之間的互補(bǔ)優(yōu)勢,結(jié)合醫(yī)學(xué)圖像形狀特征與紋理特征,并運(yùn)用與大數(shù)據(jù)處理密切相關(guān)的具有分布式、并行處理能力的Hadoop云計(jì)算平臺,實(shí)現(xiàn)大量的醫(yī)學(xué)圖像檢索,從而提高檢索的時效性與準(zhǔn)確性。

        1 Hadoop平臺

        Hadoop[3]由Apache基金會開發(fā),是在分布式服務(wù)器集群上存儲海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的一種方法。Apache Hadoop軟件庫是一個框架,其設(shè)計(jì)規(guī)??梢詮膯畏?wù)器擴(kuò)展到幾千臺服務(wù)器。不依賴于硬件,具有高效性。Hadoop的體系結(jié)構(gòu)主要通過HDFS(Hadoop Distributed File System)來實(shí)現(xiàn)對分布式存儲的底層支持,并通過MapReduce來實(shí)現(xiàn)對分布式并行運(yùn)算的程序支持。

        1.1 HDFS

        HDFS[4]是一個高度容錯性的系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。一個集群是由一個NameNode和若干個DataNode組成。NameNode管理著文件系統(tǒng)的Namespace,維護(hù)著文件系統(tǒng)樹(filesystem tree)以及文件樹中所有的文件和文件夾的元數(shù)據(jù)(metadata),并且記錄著每個文件中各個塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息,但當(dāng)這些信息在系統(tǒng)中重新啟動時會從數(shù)據(jù)節(jié)點(diǎn)重建,因此并不是永久存儲這些信息。DataNode是文件系統(tǒng)的工作節(jié)點(diǎn),它們根據(jù)客戶端或者是NameNode的調(diào)度存儲和檢索數(shù)據(jù),并且定期向NameNode發(fā)送它們所存儲的塊(block)的列表。

        1.2 MapReduce

        MapReduce[5]是一種并行編程模式,支持大型集群上執(zhí)行分布式應(yīng)用,具有很好的容錯性和負(fù)載均衡等優(yōu)點(diǎn)。MapReduce運(yùn)用分而治之的思想將計(jì)算過程抽象為兩個函數(shù):Map函數(shù)和Reduce函數(shù)。其中Map函數(shù)將總?cè)蝿?wù)分解為多個任務(wù)進(jìn)行并行計(jì)算,Reduce函數(shù)負(fù)責(zé)將分解后多個任務(wù)進(jìn)行中間結(jié)果的匯總,再做進(jìn)一步的處理得到結(jié)果。

        2 Hadoop模式下的醫(yī)學(xué)圖像檢索

        Hadoop平臺下的醫(yī)學(xué)圖像檢索技術(shù)[6?7]打破了圖像數(shù)據(jù)存儲空間受單一服務(wù)器容量限制的瓶頸,醫(yī)生可以在具有更大存儲能力的云服務(wù)平臺下檢索所需要的影像數(shù)據(jù)。檢索過程利用MapReduce并行編程模型通過分解和規(guī)約的方式來快速實(shí)現(xiàn)。總之,本文在Hadoop云平臺下實(shí)現(xiàn),醫(yī)學(xué)圖像檢索系統(tǒng)采用HDFS分布式文件系統(tǒng)存儲以及MapReduce并行式檢索結(jié)構(gòu)下多特征融合的檢索算法,以提高檢索準(zhǔn)確性和時效性。

        2.1 HDFS的醫(yī)學(xué)圖像存儲

        Hadoop平臺默認(rèn)是用來處理大數(shù)據(jù)的文本文件,與醫(yī)學(xué)圖像和處理大不相同,并且Hadoop本身沒有默認(rèn)的圖像處理接口。因此,本課題使用了由弗吉尼亞大學(xué)的Chris Sweeney等人編寫的HIPI接口[8]。HIPI是Hadoop平臺下MapReduce模式的一個大型的圖像處理和計(jì)算機(jī)視覺庫,為在Hadoop平臺下進(jìn)行圖像處理提供接口。另外,Hadoop默認(rèn)處理的數(shù)據(jù)塊大小為64 MB,而常見的DICOM醫(yī)學(xué)影像大小約為512 KB。為了避免造成內(nèi)存空間的浪費(fèi)與損耗,本文將每個病人每次檢查所拍攝的一百多張醫(yī)學(xué)圖像借助HIPI中的HipiImageBundle類、FloatImage類和CullMapper類等合并成一個單獨(dú)的hib格式文件,再存儲到HDFS中。圖像存儲過程將圖片遍歷,合并為一個hib文件,生成SF?DICOM.hib和SF?DICOM.hib.dat。該方法實(shí)現(xiàn)部分代碼如下:

        public static void ReadAllFile() throws IOException {

        Configuration conf=new Configuration();

        HipiImageBundle

        Hib=new HipiImageBundle(new Path

        ("hdfs://172.21.70.73:9000/input/SF?DICOM.hib"),conf);

        hib.open(AbstractImageBundle.FILE_MODE_WRITE,true);

        File f = null;

        f = new File("/home/hadoop/input/SF-DICOM/");

        File[] files = f.listFiles();

        List list = new ArrayList();

        for (File file : files) {

        FileInputStream fis=new FileInputStream(file);

        hib.addImage(fis,ImageType.DICOM_IMAGE); }

        2.2 MapReduce的醫(yī)學(xué)圖像檢索

        為了減少檢索圖像的時間并提高檢索效率,本研究利用了MapReduce模型來對圖像的檢索進(jìn)行并行計(jì)算。檢索過程包括對圖像特征的提取,以及建立索引并將檢索結(jié)果返回給用戶,其算法流程如下:

        (1) 提取醫(yī)學(xué)圖像庫中的圖像特征并存儲在分布式文件HDFS中;

        (2) 用戶提交醫(yī)學(xué)圖像檢索請求,并提取待檢索圖像的紋理特征以及形狀特征;

        (3) 系統(tǒng)響應(yīng)檢索請求上傳至Hadoop云平臺進(jìn)行任務(wù)分解,發(fā)送至各個節(jié)點(diǎn)進(jìn)行并行工作;

        (4) 為Map函數(shù)中的key/value鍵值對賦值為<相似度,圖像ID>,在此階段將待檢測圖像與圖像庫中的圖像進(jìn)行特征相似度匹配,并輸出鍵值對;

        (5) 根據(jù)相似度的大小進(jìn)行排序,并按照鍵值對的形式輸入給Reduce;

        (6) Reduce函數(shù)收集所有鍵值對,再重新進(jìn)行排序,并把前12個鍵值對,存儲到HDFS中;

        (7) 最后將結(jié)果進(jìn)行歸納將檢索到的圖像按照相似度反饋給用戶,得到最終結(jié)果。

        MapReduce的具體處理流程如圖1所示。

        2.2.1 醫(yī)學(xué)特征提取以及匹配

        以上運(yùn)用了MapReduce并行模式進(jìn)行運(yùn)算能提高檢索效率,為了提高檢索的準(zhǔn)確性,在基于內(nèi)容的醫(yī)學(xué)圖像檢索中提取算法的選擇也相當(dāng)重要。本文選擇了基于區(qū)域的形狀特征:Hu不變矩[9]進(jìn)行圖像特征的提取。因?yàn)橛貌蛔兙乇磉_(dá)圖像的形狀特征可以不受圖像的縮放、平移和旋轉(zhuǎn)的影響,對噪聲也不敏感;因此該方法在描述目標(biāo)的形狀特征中也被廣泛應(yīng)用。對于二維離散數(shù)字圖像,其階普通矩如式(1)以及相應(yīng)的階中心矩為:

        (1)

        (2)

        式中:;和分別是圖像的高度和寬度;和分別代表圖像在水平方向和垂直方向的重心。

        當(dāng)圖像發(fā)生變化時,也會發(fā)生變化,而則雖具有平移不變性但失去了旋轉(zhuǎn)不變性,因此需要對中心矩進(jìn)行歸一,使其同時具有平移,旋轉(zhuǎn)和比例不變性。歸一中心矩如下:

        (3)

        另外,在此基礎(chǔ)上利用二階和三階歸一中心矩構(gòu)造7個不變矩作為特征向量,如式(4)所示。

        (4)

        2.2.2 醫(yī)學(xué)圖像紋理特征提取

        紋理特征體現(xiàn)圖像的底層特征,在醫(yī)學(xué)圖像分析中占有很重要的地位。其中,小波變換算法是一種重要的基于變換的紋理特征提取方法。

        小波變換算法是法國科學(xué)家Mallat提出的,該算法不但具有時域和頻域的局部化分析的能力[10],而且對圖像進(jìn)行紋理分析時品質(zhì)因數(shù)都恒定不變。小波變換能做多分辨率分析,紋理尺寸大小不一、對比度有強(qiáng)有弱時,用小波變換的方法提取紋理特征具有很大的優(yōu)勢。對于醫(yī)學(xué)圖像檢索而言,獲取圖像要對其進(jìn)行預(yù)處理,一般情況下3層的小波分解已經(jīng)能夠滿足要求,3層分解可以得到10個子圖,各個子帶小波系數(shù)的均值和標(biāo)準(zhǔn)差可以對各個子圖的特征進(jìn)行描述,其均值如式(5)所示,標(biāo)準(zhǔn)差如式(6)所示,其中,,,,…,,代表圖像的紋理特征。

        (5)

        (6)

        式中,和分別表示子圖像的高度和寬度,。由于特征向量的物理意義和取值范圍不同,為了防止檢索過程中產(chǎn)生偏差,也為了便于處理與分析數(shù)據(jù),本文在此基礎(chǔ)上選擇高斯歸一化的方法對特征向量進(jìn)行了歸一化。特征向量記為,經(jīng)過高斯歸一可以得出,如下:

        (7)

        還需要平移變換將特征值最終落在[0,1]區(qū)間上,如下:

        (8)

        2.3 相似度測量

        歐氏距離[11]是在圖像檢索中一種常見的距離度量方式,距離越小表示相似度越高。此方法計(jì)算簡單,復(fù)雜度較低,物理意義也很明確。本文在兩種特征之間的距離測量方式中都用此測量方法,如式(9)所示:

        (9)

        另外,考慮到不同維對相似度的影響不同的問題,本文在普通的歐氏距離基礎(chǔ)上進(jìn)行了加權(quán)優(yōu)化,如式(10)所示:

        (10)

        式中:和分別代表查詢圖像和圖像的第分量;為權(quán)重。最終兩幅圖像之間的距離為:

        (11)

        式中:;和分別是紋理特征和形狀特征之間的距離??筛鶕?jù)權(quán)重得出最終的相似距離,本文取值均為0.5。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)環(huán)境

        本實(shí)驗(yàn)是在Linux操作系統(tǒng)下,使用Hadoop?0.20.0平臺,利用了HIPI圖像接口,在Eclipse開發(fā)環(huán)境下,搭建了由一個主節(jié)點(diǎn)(NameNode)和三個工作節(jié)點(diǎn)(DataNode)組成的Hadoop偽分布式系統(tǒng)。運(yùn)用Java語言編寫程序?qū)崿F(xiàn)MapReduce并行模式的醫(yī)學(xué)圖像檢索。本實(shí)驗(yàn)在單機(jī)模式以及不同的節(jié)點(diǎn)數(shù)的Hadoop云平臺環(huán)境下對比了圖像的存儲效率、圖像檢索效率,并對最終的檢索結(jié)果進(jìn)行顯示與分析。

        3.2 存儲效率對比

        本文在第一個實(shí)驗(yàn)中,完成在單機(jī)環(huán)境下以及不同節(jié)點(diǎn)數(shù)的情況下上傳不同數(shù)量的醫(yī)學(xué)圖像到HDFS分布式文件系統(tǒng)中,并進(jìn)行存儲時間的對比,對比關(guān)系如圖2所示。

        由圖2可以得出,當(dāng)圖像數(shù)量較少,只有1萬~2萬張醫(yī)學(xué)圖像時,四種情況下實(shí)驗(yàn)所需存儲時間相差不大,本文實(shí)驗(yàn)環(huán)境下的存儲體現(xiàn)不出優(yōu)勢,甚至隨著節(jié)點(diǎn)數(shù)的增多,所需存儲時間相對越多,這是因?yàn)樵谏蟼鬟^程中進(jìn)行節(jié)點(diǎn)任務(wù)的分配需要額外時間;但是,隨著圖像數(shù)量的增多,節(jié)點(diǎn)數(shù)越多該系統(tǒng)的存儲性能優(yōu)勢越來越明顯,系統(tǒng)進(jìn)行分配任務(wù)的時間不會影響到大量圖像存儲的上傳速度。另外,由圖2可以看出,圖像數(shù)量成倍增加時,在單機(jī)環(huán)境下存儲時間也基本是按照比例成倍增加,而在不同節(jié)點(diǎn)數(shù)的環(huán)境下隨著圖像數(shù)量成倍增加,節(jié)點(diǎn)數(shù)越多曲線越趨于平緩,時間的增長幅度越小,即所需存儲時間就越少??傊?,數(shù)據(jù)量越大在本實(shí)驗(yàn)配置環(huán)境下的存儲高效性越明顯。

        3.3 檢索效率對比

        第二組實(shí)驗(yàn)是進(jìn)行醫(yī)學(xué)圖像檢索效率的對比,通過對不同數(shù)量的醫(yī)學(xué)圖像庫進(jìn)行檢索,比較在單機(jī)模式下與本實(shí)驗(yàn)所搭建的不同節(jié)點(diǎn)的分布式環(huán)境下進(jìn)行檢索時間的對比,其對比關(guān)系如圖3所示。

        由圖3可以看出,當(dāng)圖像數(shù)量少于2萬張時,工作節(jié)點(diǎn)數(shù)的多少對檢索時間影響不大,但當(dāng)圖像數(shù)量大于2萬時,單機(jī)環(huán)境下的檢索時間隨著圖像數(shù)量成倍增長也基本按相應(yīng)的倍數(shù)增加;而在本實(shí)驗(yàn)所搭建的環(huán)境下,雖然圖像數(shù)量成倍增長,但是節(jié)點(diǎn)數(shù)的增多使得增長幅度變小,也即檢索時效性增強(qiáng);總之,對于大量醫(yī)學(xué)圖像進(jìn)行檢索,節(jié)點(diǎn)數(shù)越多,檢索效率越高,系統(tǒng)性能越好。

        3.4 實(shí)驗(yàn)結(jié)果分析

        將本實(shí)驗(yàn)環(huán)境下多特征融合算法與傳統(tǒng)Hadoop環(huán)境下單特征檢索結(jié)果進(jìn)行對比,檢索結(jié)果見圖4和圖5。

        本組實(shí)驗(yàn)選取了2萬張作為待檢測圖像,由圖4、圖5可以看出本系統(tǒng)檢索結(jié)果更加準(zhǔn)確,且檢索效率提高,達(dá)到了實(shí)驗(yàn)預(yù)期,能滿足客觀需求。

        4 結(jié) 語

        本文實(shí)現(xiàn)了一種Hadoop云平臺下基于內(nèi)容的海量醫(yī)學(xué)圖像檢索,利用云平臺的分布式、并行處理能力,將大量醫(yī)學(xué)圖像數(shù)據(jù)集檢索的任務(wù)進(jìn)行并行式處理,利用Hadoop的核心框架分布式文件系統(tǒng)HDFS進(jìn)行分布式存儲和MapReduce編程模式進(jìn)行并行式檢索,各個節(jié)點(diǎn)之間相互配合。

        實(shí)驗(yàn)中選取不同數(shù)量級的圖像數(shù)據(jù)進(jìn)行測試,并在存儲效率以及檢索效率方面與傳統(tǒng)單機(jī)環(huán)境的圖像檢索系統(tǒng)進(jìn)行對比驗(yàn)證,實(shí)驗(yàn)表明本系統(tǒng)與傳統(tǒng)單機(jī)環(huán)境檢索系統(tǒng)相比,有效提高了大量醫(yī)學(xué)圖像存儲以及檢索的效率。

        參考文獻(xiàn)

        [1] 沈曄,李敏丹,夏順仁.基于內(nèi)容的醫(yī)學(xué)圖像檢索技術(shù)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2010(4):569?578.

        [2] 付瑋,曾接賢.基于形狀特征的圖像檢索技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,17(11):228?232.

        [3] ARMBRUST M, FOX A, GRIFFITH R, et al. A view of cloud computing [J]. Communications of the ACM, 2010, 53(4): 50?58.

        [4] 黃曉云.基于HDFS的云存儲服務(wù)系統(tǒng)研究[D].大連:大連海事大學(xué),2010.

        [5] MCKENNA A, HANNA M E, SIVACHENKO A, et al. The genome analysis toolkit: a MapReduce framework for analyzing next?generation DNA sequencing data [J]. Genome research, 2010, 20(9): 1297?1303.

        [6] 韓法旺.基于云計(jì)算模式的圖像檢索研究[J].情報(bào)科學(xué),2011(10):1534?1538.

        [7] 陳洪.基于云計(jì)算的大規(guī)模圖像檢索后臺處理系統(tǒng)實(shí)現(xiàn)[D].成都:西南交通大學(xué),2013.

        [8] SWEENEY C, LIU L, ARIETTA S, et al. HIPI: a Hadoop image processing interface for image?based MapReduce tasks [J]. Journal of Chris University of Virginia, 2011: 231?235.

        [9] 黃勇,王崇駿,王亮,等.基于形狀不變矩的圖像檢索算法的研究[J].計(jì)算機(jī)應(yīng)用研究,2004,21(7):256?257.

        [10] 宋余慶,劉博,謝軍.基于Gabor小波變換的醫(yī)學(xué)圖像紋理特征分類[J].計(jì)算機(jī)工程,2010,36(11):200?202.

        [11] 杜陽.基于貝葉斯分類器的最小歐氏距離圖像檢索相關(guān)反饋及DSP實(shí)現(xiàn)[D].長春:吉林大學(xué),2006.

        性感人妻一区二区三区| 成人免费777777被爆出| 日韩精品在线观看在线| 亚州无吗一区二区三区| 99久久婷婷国产一区| 亚洲av乱码一区二区三区林ゆな | 精品一品国产午夜福利视频| 日本精品一区二区三区在线视频| 成人xx免费无码| 亚洲激情人体艺术视频| 亚洲午夜看片无码| 国产精品亚洲一区二区极品| 91精品人妻一区二区三区蜜臀| 亚洲精品国产精品系列| 中文字幕亚洲视频三区| 亚洲人妻御姐中文字幕| 今井夏帆在线中文字幕| 国产的自拍av免费的在线观看| 极品尤物精品在线观看| 漂亮人妻洗澡被公强 日日躁| 日本边添边摸边做边爱喷水| 日本特黄特色特爽大片| 久激情内射婷内射蜜桃人妖| 婷婷五月综合丁香在线| 熟妇人妻中文av无码| 美女污污网站| 国产亚洲欧美另类第一页| 经典女同一区二区三区| 麻豆av在线免费观看精品 | 国产精品久久一区二区蜜桃| 熟女中文字幕一区二区三区| 99久久精品免费看国产| 黑人大荫道bbwbbb高潮潮喷| 美丽人妻被按摩中出中文字幕 | 人妻少妇精品一区二区三区| 亚洲图文一区二区三区四区| 亚洲av免费不卡在线观看| 亚洲av色欲色欲www| 18成人片黄网站www| 国产无套露脸| 亚洲成a人网站在线看|