亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自定義的LIRe和HBase的海量醫(yī)學圖像檢索

        2016-06-20 07:54:56呂曉琪任國印
        電視技術 2016年5期

        郝 娟,呂曉琪,趙 瑛,任國印,張 明

        (內(nèi)蒙古科技大學 信息工程學院,內(nèi)蒙古 包頭 014010)

        ?

        基于自定義的LIRe和HBase的海量醫(yī)學圖像檢索

        郝娟,呂曉琪,趙瑛,任國印,張明

        (內(nèi)蒙古科技大學 信息工程學院,內(nèi)蒙古 包頭014010)

        摘要:為了解決海量醫(yī)學圖像檢索效率低的問題,提出一種自定義的LIRe和HBase相結合的方案。首先,將醫(yī)學圖像上傳到HDFS;然后,通過自定義LIRe框架分別提取海量醫(yī)學圖像的形狀以及紋理特征并將特征向量及圖像的絕對路徑存儲到HBase中。最后,利用MapReduce模型以及圖像特征索引工具LIRe方便地對醫(yī)學圖像特征建立索引進行特征匹配實現(xiàn)檢索。實驗結果證明,自定義的LIRe提高了檢索準確性,相比將醫(yī)學圖像以及特征向量均存儲在HDFS中,也提高了檢索效率。

        關鍵詞:LIRe;HDFS;MapReduce;HBase;醫(yī)學圖像檢索

        近年來,醫(yī)學影像技術迅速發(fā)展,大量醫(yī)學影像數(shù)據(jù)隨之產(chǎn)生,這些數(shù)據(jù)為醫(yī)生臨床診斷以及治療方案的制定提供了客觀依據(jù),在科研活動中也有十分重要的地位。然而,如何在與日俱增的醫(yī)學圖像數(shù)據(jù)中進行快速且準確的檢索,是醫(yī)學工作者們必須面臨和解決的一個重要問題。目前國內(nèi)外關于基于內(nèi)容的醫(yī)學圖像檢索技術(Content-based Medical Image Retrieval,CBMIR)[1]的研究基本都是在單機環(huán)境下進行,當今大規(guī)模醫(yī)學影像數(shù)據(jù)使得該串行模式的醫(yī)學圖像檢索技術已出現(xiàn)進程瓶頸,不能滿足客觀需求。

        Hadoop[2]平臺的出現(xiàn)為解決這一問題提供了全新思路,隨后學者們也開始在Hadoop平臺下進行了醫(yī)學圖像檢索技術的相關研究。其中有基于Hadoop的海量醫(yī)學圖像檢索系統(tǒng)[3],將醫(yī)學圖像以及圖像特征均存儲于分布式文件系統(tǒng)HDFS (Hadoop Distributed File System)[4],然后采用MapReduce[5]模型進行匹配,縮短了檢索時間,提高圖像檢索速度。隨后,也有學者提出基于海量醫(yī)學影像數(shù)據(jù)處理過程中的優(yōu)化方法[6],文中分析了Hadoop處理海量小文件的不足,研究了醫(yī)學圖像DICOM文件格式。提出了對DICOM小文件合并方案,設計形成了一種SF-DICOM新文件格式,實驗驗證了該方法的有效性。然而,HDFS只能提供一種快速訪問特定數(shù)據(jù)條目的機制,不能隨著數(shù)量集的增長有很好的擴展,而HBase[7]的主要優(yōu)勢就是快速隨機訪問。

        為提高檢索效率,本文結合HDFS和HBase的最優(yōu)功能,提出將DICOM圖像上傳到HDFS后,利用HBase存儲其特征向量以及圖像在HDFS中的存儲路徑從而保證快速檢索;另外,在特征提取以及建立索引實現(xiàn)檢索的過程中運用基于Lucene[8]的圖像特征索引工具LIRe(Lucene Image Retrieval)[9]并結合MaReduce并行模型,設計實現(xiàn)了結合自定義的LIRe和Hadoop的基于內(nèi)容的海量醫(yī)學圖像檢索。實驗結果證明,有效提高了海量醫(yī)學圖像檢索的準確性與時效性。

        1背景知識

        1.1Hadoop技術

        Hadoop是Apache軟件基金會下的一個用Java語言實現(xiàn)的開源軟件框架,并且作為一個能夠開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺,為大數(shù)據(jù)集處理的應用開發(fā)提供便捷。Hadoop開源框架中最核心的設計是分布式文件系統(tǒng)HDFS和并行式編程模型MapReduce。

        1.1.1HDFS分布式文件系統(tǒng)

        HDFS分布式文件系統(tǒng)具有高容錯性[10],其體系結構由一個NameNode主節(jié)點和若干個DataNode子節(jié)點組成。其中NameNode主節(jié)點的主要作用有: 1)管理文件系統(tǒng)的命名空間(NameSpace),維護整個文件系統(tǒng)的目錄樹及文件的索引目錄;2)記錄文件中各個塊的DataNode信息,記錄在每次系統(tǒng)重啟通過NameNode主節(jié)點獲取元數(shù)據(jù)信息,并通過與DataNode的交互實現(xiàn)訪問整個文件系統(tǒng)。DataNode子節(jié)點的作用有: 1)存儲并檢索數(shù)據(jù)塊,受客戶端或NameNode調(diào)度;2)定期向NameNode發(fā)送所存儲的文件塊(Block)信息。

        1.1.2MapReduce并行編程模型

        MapReduce[11]是Google公司于2004年提出的一種用于大規(guī)模數(shù)據(jù)處理的并行編程模型。它提供了一個簡單且具有強大功能的接口,通過這個接口,大量數(shù)據(jù)的計算任務可以自動地進行并發(fā)和分布執(zhí)行。編寫MapReduce程序,其編寫過程要實現(xiàn)兩個函數(shù):Map函數(shù)和Reduce函數(shù)。其中Map函數(shù)中面對的是互不相關的數(shù)據(jù)并且要對每個數(shù)據(jù)進行分析,從中提取出key和value的值,然后分配給各個節(jié)點,實現(xiàn)并行模式的處理,Map經(jīng)過Shuffle階段之后,在Reduce階段得出歸納好的數(shù)據(jù)。最后,通過Reduce程序匯總處理后的結果。在此基礎上可以做進一步的數(shù)據(jù)處理以得到理想結果。HDFS的體系結構如圖1所示。

        圖1 HDFS體系結構

        1.2HBase分布式數(shù)據(jù)庫

        HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,HBase能夠利用HDFS的分布式處理模式,并從Hadoop的MapReduce程序模型中獲益[12],能融合key/value存儲模式所具有的實時查詢能力,以及通過MapReduce進行批處理的能力。Hbase在海量數(shù)據(jù)查詢中表現(xiàn)出強大優(yōu)勢,且HBase更適合存儲非結構化數(shù)據(jù)。

        1.3LIRe

        Lucene平臺是一個全文檢索的開源的Java庫,LIRe (Lucene Image Retrieval)是在Lucene基礎上開發(fā)的。提供了用于基于內(nèi)容的圖像檢索的API,可以實現(xiàn)對圖像的特征提取和建立索引[13]。LIRe一方面實現(xiàn)了對圖像的特征提取,另一方面克服了傳統(tǒng)基于數(shù)據(jù)庫線性查找不方便的問題。LIRe中封裝實現(xiàn)的圖像特征有:1)RGB和HSV空間的顏色直方圖;2)MPEG-7的顏色特征;3)Tamura紋理特征;4)顏色和邊緣的方向性描述符;5)模糊顏色和紋理直方圖;6)顏色關聯(lián)圖;7)尺度不變特征變換。LIRe在實現(xiàn)特征提取和建立索引的同時還具有高度的擴展性,用戶可以根據(jù)圖像類型自定義特征提取方法。

        2結合LIRe和Hadoop實現(xiàn)醫(yī)學圖像檢索

        Lucene封裝了索引和查詢的底層細節(jié),用戶只需使用Lucene提供的API方便靈活地構建檢索系統(tǒng)。Hadoop平臺下的醫(yī)學圖像檢索技術打破了圖像數(shù)據(jù)存儲空間受單一服務器容量限制的瓶頸,醫(yī)生可以在具有更大存儲能力的Hadoop平臺下檢索所需要的影像數(shù)據(jù)。所以本文通過LIRe提取特征建立索引并利用HBase存儲醫(yī)學圖像特征向量,運用MapReduce快速完成檢索任務。

        本文結合LIRe和Hadoop實現(xiàn)的醫(yī)學圖像檢索系統(tǒng)框架如圖2所示。

        圖2 系統(tǒng)框架圖

        2.1醫(yī)學圖像特征提取及存儲

        本課題根據(jù)醫(yī)學圖像特征對LIRe進行了自定義封裝,選擇了基于區(qū)域的形狀特征——Hu不變矩[14]進行醫(yī)學圖像特征的提取,因為用不變矩表達圖像的形狀特征可以不受圖像的縮放、平移和旋轉的影響,對噪聲也不敏感。在紋理特征提取過程中采用灰度共生矩和tamura紋理特征融合的方法[15],提取了灰度共生矩陣的5個特征向量(能量、墑、相關、慣性矩、局部平穩(wěn))以及tamura的兩個特征向量 (粗糙度、對比度)共同構成擁有7個特征向量以增強區(qū)分度。

        Hadoop中HDFS默認處理的數(shù)據(jù)塊大小為64 Mbyte,而常見的DICOM醫(yī)學影像大小約為512 kbyte左右,為了處理海量圖像數(shù)據(jù),每次都要合并成一個序列化文件,這樣會影響系統(tǒng)的性能。因此,本文利用分布式數(shù)據(jù)庫(HBase)對超大規(guī)模數(shù)據(jù)集進行隨機讀寫操作,將提取的醫(yī)學圖像的形狀和紋理特征向量以及圖像在HDFS的存儲路徑ID存儲在HBase中。

        由于圖像數(shù)量較多時,圖像特征的提取時間會比較長,本文需要調(diào)用一個MapReduceJob來實現(xiàn),其特征提取以及存儲過程如下:

        1) 將醫(yī)學圖像上傳到分布式文件系統(tǒng)HDFS中;

        2) 讀取HDFS中的1幅圖像作為Map函數(shù)的輸入;

        3) 用自定義的LIRe框架,提取圖像的形狀特征以及紋理特征并建立索引;

        4) 將圖像在HDFS中的存儲路徑ID以及特征向量存儲到分布式數(shù)據(jù)庫HBase中;

        5) 將不符合檢索要求的醫(yī)學圖像作為Reduce函數(shù)的輸入,收集其ID后輸出到分布式文件系統(tǒng)HDFS中。

        2.2醫(yī)學圖像檢索

        由于數(shù)據(jù)量比較大,為了減少檢索圖像的時間并提高檢索效率,本文采用MapReduce模型來對圖像的檢索進行并行計算。在MapReduce的整個過程當中,其基本流程如下:

        1) 用戶提交醫(yī)學圖像檢索請求,并提取待檢索圖像的紋理特征以及形狀特征將其存儲到分布式數(shù)據(jù)庫HBase中;

        2) 系統(tǒng)響應檢索請求上傳至Hadoop平臺為Map分配任務,發(fā)送至各個節(jié)點并行工作;

        3) 采用加權歐氏距離的方法對圖像特征進行相似度測量,為Map函數(shù)中的key/value鍵值對賦值為<相似度,圖像ID>,并輸出鍵值對;

        4) 根據(jù)相似度的大小進行排序,按照鍵值對的形式輸入給Reduce;

        5) Reduce函數(shù)收集所有鍵值對,進行排序,并把前12個鍵值對存儲到HBase中;

        6) 最后將結果進行歸納將檢索到的相似圖像按照相似度大小反饋給用戶,得到最終結果。

        其中Map函數(shù)以及Reduce函數(shù)的定義如圖3所示。

        圖3 Map函數(shù)及Reduce函數(shù)設計

        3實驗結果及分析

        3.1實驗環(huán)境

        本實驗操作系統(tǒng)為ubuntu 14.04 64 bit操作系統(tǒng)下,配置了Hadoop-0.20.0平臺,開發(fā)環(huán)境為eclipse,搭建了有5個節(jié)點組成的偽分布式系統(tǒng)。計算機處理器為Inter(R) Core(TM) i7-3770 CPU @ 3.40 GHz,內(nèi)存為8 Gbyte,硬盤為1 Tbyte。

        3.2實驗分析

        本文實驗數(shù)據(jù)均來自內(nèi)蒙古包頭市第一附屬醫(yī)院,通過自定義LIRe框架實現(xiàn)提取醫(yī)學圖像特征以及建立索引,設計HBase數(shù)據(jù)庫并實現(xiàn)圖像特征向量以及圖像ID的存儲,用MapReduce實現(xiàn)醫(yī)學圖像檢索。通過與未自定義LIRe與單機以及存儲HDFS進行對比,部分實驗運行結果如圖4~圖7所示。

        圖4 未自定義LIRe的單機環(huán)境下的醫(yī)學圖像檢索結果(截圖)

        圖5 自定義LIRe的單機環(huán)境下的醫(yī)學圖像檢索結果(截圖)

        圖6 基于HDFS存儲與LIRe結合的醫(yī)學圖像檢索結果(截圖)

        圖7 基于HBase存儲與LIRe結合的醫(yī)學圖像檢索結果(截圖)

        經(jīng)過多次檢索實驗,選取最能代表平均檢索時間的4次檢索結果進行顯示與討論,本組實驗選取的圖像集大小是1 Tbyte,由以上4幅圖可以看出以下幾點:1)由圖4與圖5、圖6、圖7相比,檢索結果不同,未自定義LIRe中在紋理特征中只選擇了Tamura紋理特征,包括粗糙度(Coarseness),對比度(Contrast)和方向度(Directionality)3個向量。形狀特征選取了尺度不變特征變換(Scale-invariant feature transform , SIFT)。顯然本文自定義LIRe后的檢索結果更符合客觀需求。 2)圖4與圖5均是在單機環(huán)境下進行,檢索時間基本相同。3)圖5、圖6、圖7因為選用了自定義的LIRe,其檢索結果相同且符合客觀需求,但是很明顯檢索時間從21.849 s到10.363 s再到本文4.867 s,提高了檢索效率。

        另外,本文還做了不同數(shù)量級的醫(yī)學圖像檢索實驗,主要分析對比了基于自定義的LIRe,在單機環(huán)境以及醫(yī)學圖像特征和圖像ID存儲位置不同的檢索效率對比如圖8所示,檢測結果與待檢測圖像之間的距離如表1所示。

        圖8 檢索效率對比

        圖像名稱NO7541NO3518NO2146NO1457距離00.2330.3280.388圖像名稱NO354NO11NO5428NO2145距離0.4050.4820.5440.563圖像名稱NO256NO8463NO5NO75距離0.5890.6900.7050.721

        表1中,圖像庫中圖像與待檢測圖像之間的距離由小到大排列,距離越小表示相似度越高。從檢索結果可以看出,本試驗系統(tǒng)檢索準確性較高、實效性較強,能夠滿足臨床診斷的客觀需求。

        4結束語

        本文結合自定義的LIRe以及Hadoop平臺實現(xiàn)了海量醫(yī)學圖像檢索,利用Hadoop的核心框架分布式文件系統(tǒng)HDFS先將圖像上傳,并將圖像在HDFS中的路徑以及圖像特征向量存儲到HBase中,運用MapReduce編程模式進行并行式檢索,各個節(jié)點之間相互配合。設計實現(xiàn)了Hadoop平臺下更高效的基于內(nèi)容的醫(yī)學圖像檢索系統(tǒng)。最終實驗結果證明,本系統(tǒng)均有效提高了海量醫(yī)學圖像檢索的準確性以及檢索效率,能滿足臨床需求。

        參考文獻:

        [1]MüLLER H, MICHOUX N, BANDON D, et al. A review of content-based image retrieval systems in medical applications—clinical benefits and future directions[J]. International journal of medical informatics, 2004, 73(1): 1-23.

        [2]懷特. Hadoop權威指南[M]. 北京: 清華大學出版社, 2015.

        [3]范敏,徐勝才.基Hadoop的海量醫(yī)學圖像檢索系統(tǒng)[J].計算機應用,2013,33(12):3345-3349.

        [4]BORTHAKUR D. The hadoop distributed file system: Architecture and design[J]. Hadoop project website, 2007, (11):1 - 10.

        [5]劉剛. Hadoop應用開發(fā)技術詳解[M].北京: 機械工業(yè)出版社, 2014.

        [6]王燕楠. 基于Hadoop的海量醫(yī)學影像數(shù)據(jù)處理過程中的優(yōu)化方法研究 [D].北京:首都師范大學.2014.

        [7]CARSTOIU D, CERNIAN A, OLTEANU A. Hadoop Hbase-0.20.2 performance evaluation[C]// Proc. 2010 4th International Conference on New Trends in Information Science and Service Science (NISS).[S.l.]:IEEE, 2010:84-87.

        [8]PEIN R P, LU J, WOLFGANG R. An extensible query language for content based image retrieval based on Lucene[C]// Proc. the 8th IEEE International Conference on Computer and Information Technology. [S.l.]:IEEE, 2008: 179-184.

        [9]LUX M, CHATZICHRISTOFIS S A. Lire: lucene image retrieval: an extensible java CBIR library[C]// Proc. the 16th ACM international conference on Multimedia. [S.l.]:ACM, 2008:1085-1088.

        [10]LI P J, CHEN G J, GUO W M. A distributed storage architecture for regional medical image sharing and cooperation based on HDFS [J].Journal of southern medical university, 2011, 31(3): 495-498.

        [11]LEE H, KIM M, HER J, et al. Implementation of MapReduce-based image conversion module in cloud computing environment[C]//2012 International Conference on Information Networking (ICOIN) . [S.l.]:IEEE, 2012: 234-238.

        [12]楊曼, 何鵬, 齊懷琴,等. 基于Map/Reduce的海量視頻圖像檢索系統(tǒng)設計[J]. 電視技術, 2015, 39(4):33-36.

        [13]DONG F L, WEI C, GEN P C. Research and application of the image search algorithm based on LIRE[C]// 2012 2nd International Conference on Computer Science and Network Technology (ICCSNT).[S.l.]:IEEE,2012: 811-815.

        [14]呂曉琪, 王新剛, 賈東征. 基于醫(yī)學圖像多特征的蟻群聚類檢索技術研究[J]. 計算機工程與設計, 2014, 35(6): 2078-2083.

        [15]WANG Z Z, YONG J. Texture analysis and classification with linear regression model based on wavelet transform.[J]. IEEE transactions on image processing, 2008, 17(8):1421-1430.

        郝娟(1989— ),女,碩士,主要研究方向為醫(yī)學圖像處理和云計算;

        呂曉琪(1963— ),教授,博導,本文通信作者,主要研究方向為醫(yī)學圖像處理和云計算;

        趙瑛,女,博士后,講師,碩士生導師,主要研究方向視覺功能修復、智能信息處理、圖像處理與應用;

        任國印(1985— ),碩士,講師,主要研究方向為醫(yī)學圖像處理;

        張明(1985— ),碩士,講師,主要研究方向為醫(yī)學圖像處理。

        責任編輯:閆雯雯

        Massive medical image retrieval based on customized LIRe and HBase

        HAO Juan,Lü Xiaoqi,ZHAO Ying,REN Guoyin,ZHANG Ming

        (SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,InnerMongoliaBaotou014010,China)

        Abstract:In order to solve the problem of the low retrieval efficiency of massive medical images, a method combining customized LIRe and HBase is proposed. Firstly, upload the medical images to the Hadoop distributed file system. Afterwards, extract images' shape and texture features by customized LIRe framework then store the feature vectors and the absolute path of image in HBase. Finally, use MapReduce parallel programming model and image feature index tools LIRe to bulid index and implement retrieval. The experimental results show that customized LIRe improve the retrieval accuracy and the massive medical image retrieval efficiency is higher than that medical images and feature vectors stored in HDFS.

        Key words:LIRe; HDFS; MapReduce; HBase; medical image retrieval

        中圖分類號:TP391

        文獻標志碼:A

        DOI:10.16280/j.videoe.2016.05.025

        基金項目:國家自然科學基金項目(61179019;61261028);內(nèi)蒙古自治區(qū)自然基金項目(2014MS0828);內(nèi)蒙古科技大學創(chuàng)新基金項目(2014QDL045)

        作者簡介:

        收稿日期:2015-07-28

        文獻引用格式:郝娟,呂曉琪,趙瑛,等. 基于自定義的LIRe和HBase的海量醫(yī)學圖像檢索[J].電視技術,2016,40(5):116-120.

        HAO J,Lü X Q,ZHAO Y,et al. Massive medical image retrieval based on customized LIRe and HBase [J].Video engineering,2016,40(5):116-120.

        欧美国产一区二区三区激情无套 | 欧美精品一级| 毛片av在线尤物一区二区| 亚洲国产av一区二区三区| 亚洲欧美一区二区成人片| 久久亚洲精品ab无码播放| 国产成人福利在线视频不卡| 丝袜美腿在线播放一区二区| 亚洲av色欲色欲www| 亚洲综合色自拍一区| 日本高清不在线一区二区色| 粉色蜜桃视频完整版免费观看在线 | 一区二区三区中文字幕在线观看| 女人张开腿让男人桶爽| 99热久久精里都是精品6| 白白色免费视频一区二区| 亚洲精品中文字幕一二三| 亚洲精品国精品久久99热| 中文无码制服丝袜人妻av| 国内精品久久久久影院蜜芽| 日本a爱视频二区三区| 国产免费艾彩sm调教视频| 成人国产午夜在线视频| 国产内射视频在线观看| 日韩精品熟女中文字幕| 欧美日韩色另类综合| 国产自产c区| 日本一区二区免费看片| 中国老太婆bb无套内射| 亚洲国产成人精品女人久久久| 精品国产自拍在线视频| 视频在线观看国产自拍| 国产精品国产三级国av在线观看| 亚洲中文字幕无码久久2018| 邻居少妇太爽在线观看| 大ji巴好深好爽又大又粗视频| 九九久久精品国产| 国产一区二区三区免费主播| 国产精品国产三级国产av中文| 99久久久精品免费观看国产| 伊人狠狠色j香婷婷综合|