亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動端體檢報告影像識別及數(shù)據(jù)分析應用研究

        2018-03-20 09:10:29孟彩霞魏榮娟
        計算機技術(shù)與發(fā)展 2018年3期
        關鍵詞:報告用戶

        孟彩霞,魏榮娟

        (西安郵電大學 計算機學院,陜西 西安 710000)

        0 引 言

        隨著經(jīng)濟的發(fā)展及人民生活水平的提高,人們對自身健康越來越重視。當前我國人口老齡化和亞健康問題是受到廣泛關注的社會熱點問題。有報告顯示,截至2015年底,我國60歲以上老年人口已達2.22億,占總?cè)丝诘?6.15%[1];另一方面,中國內(nèi)地城市白領中有76%處于亞健康狀態(tài)[2]。健康體檢是了解受檢者健康狀況、早期發(fā)現(xiàn)疾病線索和健康隱患的重要方式,對老齡化和亞健康人群是非常必要的。目前城市中體檢的理念已經(jīng)深入人心,很多單位和個人每年都會進行相應的體檢,目前已經(jīng)出現(xiàn)很多運營成功的商業(yè)化健康體檢機構(gòu),如愛康國賓體檢中心、百歲啦、普惠體檢中心等。

        體檢數(shù)據(jù)的管理與應用具有重要的社會和經(jīng)濟價值。體檢結(jié)果的電子數(shù)據(jù)儲存在體檢機構(gòu),交給客戶的是紙質(zhì)版的打印報告。顯然紙質(zhì)報告具有不易保管、易丟失和破損等缺點,常年累積的體檢報告還占用空間,不便于管理。另一方面,用戶體檢是一個長期行為,如果采用數(shù)據(jù)分析技術(shù)從用戶多年體檢數(shù)據(jù)中發(fā)掘出有用的信息用于指導個體健康極具應用價值。

        移動互聯(lián)網(wǎng)和移動智能終端的發(fā)展與普及推動了基于移動端的個人醫(yī)療健康管理應用的開發(fā)。文中對移動端進行健康體檢報告影像識別及數(shù)據(jù)分析的方法進行了研究,將文字識別功能移植于智能手機上,利用手機便捷的照相機功能,獲取病歷報告的圖像文件并識別,快速存儲紙質(zhì)介質(zhì)信息;針對個人歷史體檢數(shù)據(jù)進行管理及數(shù)據(jù)分析和可視化并給用戶提供相關的建議,指導個人健康生活。該研究工作具有重要的社會意義和應用價值。

        1 系統(tǒng)需求與設計

        1.1 需求分析

        文字識別功能的主要技術(shù)為OCR(optical character recognition)[3]。目前OCR技術(shù)應用己經(jīng)相當成熟,市場上出現(xiàn)了不少相關OCR文字識別的應用軟件,著名的有國外的Abbyy、國內(nèi)的漢王等,但大部分軟件都只應用在計算機平臺上或嵌入到掃描設備中,便捷性太低,加上掃描圖像的繁瑣,不能滿足隨時識別文字并記錄的需求。OCR技術(shù)在移動醫(yī)療領域的應用更是處于探索階段,針對病歷報告識別的軟件屈指可數(shù),僅有的幾款軟件如珍立拍、病歷夾等,均存在識別版面不全、字符識別率低、識別結(jié)果易受環(huán)境影響、軟件功能單一等問題?;谝苿佣说膫€人醫(yī)療健康管理系統(tǒng)可以解決傳統(tǒng)大型掃描設備使用步驟繁雜和移動不便等窘境,及時存儲個人醫(yī)療數(shù)據(jù),發(fā)現(xiàn)潛在疾病風險,給移動生活和健康管理提供了極大的便利。

        1.2 功能模塊設計

        基于移動端個人醫(yī)療健康管理系統(tǒng)框架如圖1所示。

        圖1 系統(tǒng)框架

        系統(tǒng)主要分為5個模塊:影像生成模塊、圖像處理模塊、字符識別模塊、文字編輯模塊和數(shù)據(jù)分析模塊,具體如下:

        (1)影像生成模塊。用戶通過注冊登錄客戶端進行圖像采集,運用打開手機上的攝像頭,對各種紙質(zhì)病歷報告、體檢報告進行拍照,或是通過在已有的手機圖片庫中進行選擇,獲取需要處理的圖片。

        (2)圖像處理模塊。對獲取到的圖像文件進行圖像處理,主要具有去噪、圖像增強、圖像旋轉(zhuǎn)等功能,目的是提高文字識別率。

        (3)字符識別模塊。是系統(tǒng)的關鍵部分,對后續(xù)數(shù)據(jù)分析結(jié)果有直接影響。字符識別模塊主要對獲取的字符進行“翻譯”,根據(jù)病歷報告的分布特點首先進行行分割的字段“閱讀”,再對每個字段內(nèi)的單個字符進行列切割的逐字辨認、單字“翻譯”。

        (4)文字編輯模塊。主要對OCR識別后的字符進行修改和編輯。系統(tǒng)自動查找可疑字,對認為有誤的字符可以由用戶進行文字編輯,實現(xiàn)人工校正功能。

        (5)數(shù)據(jù)分析模塊。使用OCR算法識別關鍵信息并儲存到數(shù)據(jù)庫中,通過識別結(jié)果對用戶歷年的個體數(shù)據(jù)進行管理和分析,給出直觀的可視化圖形,幫助用戶發(fā)現(xiàn)疾病潛在風險并提出健康小建議。

        2 OCR技術(shù)的實現(xiàn)

        2.1 圖像預處理

        文中方法的第一步是移動端拍攝體檢報告的預處理。預處理步驟包括采用平均法[4]進行彩色圖像灰度化、中值濾波[5]去噪、最大類間方差法(Otsu算法[6])進行二值化。病歷報告中存在著大量表格線(見圖2(a)),影響文字識別結(jié)果。對于有表格內(nèi)容的識別處理操作有兩種:一是表格線中內(nèi)容先提取,再進行識別;二是對表格線進行消隱,再對純文本進行識別[7]。文中使用的體檢報告表格線和表中字符基本無粘連,字符跨表現(xiàn)象少,所以采用第二種方法進行處理。

        要實現(xiàn)表格線檢測,首先要進行直線檢測,傳統(tǒng)的直線檢測法有Hough直線檢測算法[8]、投影法[9]等。由于Hough直線檢測過程中容易丟失某些線段的端點和長度信息,投影法又難以分割開表格線交叉處的直線,因此文中采用投影法結(jié)合經(jīng)驗閾值判斷的方法進行表格線檢測,采用二值化圖像賦值法進行表格線的消隱。算法思路是首先對圖像進行行投影,得到該圖的水平投影直方圖(見圖2(b)),圖中有數(shù)個明顯的波峰分別對應了報告單中的數(shù)條橫向表格線,但由于橫豎表格線之間有交叉,造成尖峰波峰之間有較小較寬像素的連接,因此,需要找個合適的分割位置對波峰進行切斷操作,也即對表格線邊界進行判斷。

        圖2 表格線及其投影

        表格線邊界判斷步驟如下:

        Step1:求出所有波峰(包括尖峰和較寬峰)的平均高度avgRow,尋找到最高波峰高度值maxRow;

        Step2:對平均高度avgRow放大一定的倍數(shù)T1,當表格線像素點的高度大于T1倍平均高度時,即為波峰的一個極大點,記錄其位置,找到所有尖峰位置Row(i)=T1*avgRow。其中T1為經(jīng)驗閾值,初始值為T1=maxRow/avgRow。實驗中可以對T1進行適當調(diào)整,直到找到所有的尖峰高度值;

        Step3:根據(jù)實驗及經(jīng)驗知識可知,體檢報告表格線交叉處像素點累計個數(shù)一般為個(十)位數(shù),所以沿著每個尖峰最高位置Row(i)分別向上、向下遍歷尋找到最后一個個(十)位數(shù)為止,即為潛在表格線邊界位置topR(i)和bottomR(i);

        Step4:以topR(i)和bottomR(i)為行掃描上下邊界,進行二值圖像的賦值,將所有像素賦值0,使目標像素點變?yōu)楸尘跋袼攸c,即實現(xiàn)行表格線的消除。

        經(jīng)過行表格線消除后的列表格線已經(jīng)清晰地分開,可直接利用投影賦值法進行消除。

        2.2 字符識別

        2.2.1 字段切割

        體檢報告單中文字信息排版不規(guī)則,文字塊相隔間距較大,為了便于將識別結(jié)果的相應體檢項目、測量結(jié)果及單位存入數(shù)據(jù)分析數(shù)據(jù)庫中,首先做一個字段分割處理,步驟如下:

        Step1:通過行投影法對圖像進行投影及行分割。

        Step2:通過垂直投影法對每行進行列投影,以每個波峰的左右邊界為起始點,分別向左、右T2個長度進行遍歷,若T2個連續(xù)位置均無像素點,則此波峰左、右邊界即為字段左、右邊界,根據(jù)邊界進行字段列切割;若左(右)邊界T2個長度內(nèi)有任意一個像素點存在,則跳到下一個波峰的左(右)邊界,繼續(xù)遍歷尋找,直到找到要求的邊界為止。這里T2為經(jīng)驗值,文中取T2=15,切割結(jié)果如圖3所示。

        圖3 字段切割示例圖

        2.2.2 字符切割及歸一化

        當前字符切分技術(shù)主要有以下幾種方法[10-11]:基于圖像分析的切分、基于識別的切分、綜合切分及整體識別切分,文中采用投影法結(jié)合經(jīng)驗值的試切分方法對文字進行切割。針對切割后的每一個字段重新進行投影分割,對于少量不能被正確分割出來的字符,如圖4中的“mo”,采用基于識別的切分方法,給予1/2,2/3……一系列經(jīng)驗值的切分位置進行試切分,送入模板庫進行匹配,最終找到切分位置并識別出結(jié)果。

        由于切割后的字符大小不一,為了便于和字模庫中的字模進行匹配,需要進行歸一化處理。常用的歸一化方法主要有兩種:分裂合并歸一化與插值變換歸一化[12]。文中的字符經(jīng)過分割后像素偏小,需要對圖像進行放大,所以選用第二種方法,采用三次卷積插值算法[13],將字符尺寸歸一化到48×48點陣,便于與字模數(shù)據(jù)庫進行比對,提高識別率。

        圖4 字符歸一化結(jié)果

        2.2.3 字符識別

        目前,用于字符識別的算法主要有基于模板匹配的字符識別算法[14]、特征統(tǒng)計匹配法[15]和基于神經(jīng)網(wǎng)絡的字符識別算法[16]。特征統(tǒng)計匹配法是提取待識別模式的一組統(tǒng)計特征,通過按一定準則確定的決策函數(shù)進行分類判別。在字符識別中常用的特征方法是網(wǎng)格特征匹配法。但是實際應用中,由于外部原因常會出現(xiàn)字符模糊、傾斜等情況,影響識別效果。因而,此方法實際應用效果不理想,魯棒性不強。模板匹配方法體現(xiàn)的是字符的整體特征,它比特征統(tǒng)計匹配法更有效。由于醫(yī)療體檢報告字體是印刷體,結(jié)構(gòu)標準,所以采用模板匹配法進行識別。文中實驗方案暫時不考慮分類器方法[17],原因是分類器方法涉及到大量的訓練,針對手寫字符、變體字符及多字體識別時比較有效。

        為了保證識別結(jié)果的正確性,系統(tǒng)做了兩方面的保證:一是識別結(jié)果提供人工校正的編輯接口;二是對比數(shù)據(jù)庫的建立。系統(tǒng)中預先已經(jīng)建立了一個常用醫(yī)學符號單位庫,數(shù)據(jù)庫中的內(nèi)容包含了所有預先識別的醫(yī)學名稱、單位、符號等字集,方便識別結(jié)果進入庫中進行字符串比對,確保識別結(jié)果的正確性及權(quán)威性。

        2.3 數(shù)據(jù)分析及可視化

        數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息并形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。在實用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當行動。實驗中,數(shù)據(jù)分析模塊采用描述性統(tǒng)計方法[18]進行,對不同用戶的歷史體檢報告進行了識別,對同一用戶不同時期的體檢數(shù)據(jù)進行了統(tǒng)計和簡單分析,畫出不同項目的識別結(jié)果對比可視化圖形,根據(jù)分析結(jié)果給出健康建議。

        3 系統(tǒng)測試

        3.1 測試環(huán)境

        (1)數(shù)據(jù)來源。

        選用了某大學10位教師在某商業(yè)體檢公司中近三年體檢紙質(zhì)報告作為研究對象(已獲得本人同意)。實驗中分析了體檢報告中的基本信息表、身高體重血壓表、血常規(guī)表和生化檢驗表,分不同時期(以近期5個時間段為準)共計160(10×3×5+10)張測試樣本數(shù)據(jù)集。

        (2)實驗數(shù)據(jù)。

        (A)圖像數(shù)據(jù)庫。

        收集160張標準體檢報告單,對每張報告單采用高清像素(蘋果800w)、普通像素(華為1 300w)和劣質(zhì)像素(天語800w)的三級拍照模式,在每一級模式下又采用自然光、白熾燈兩種不同的光照進行拍照,樣本總庫達到320(160×2)張樣本圖像,完成圖像數(shù)據(jù)庫的建立。

        (B)字模數(shù)據(jù)庫。

        采集國家標準漢字6 763個(國標一、二級字庫),英文字母52個(大、小寫),醫(yī)學特殊符號100個,數(shù)字10個(0~9),累計6 925個字符,采用自己編寫的字模提取工具軟件,構(gòu)建英文、數(shù)字、漢字及醫(yī)學特殊符號字模數(shù)據(jù)庫。

        (C)數(shù)據(jù)分析庫。

        統(tǒng)計常用體檢報告醫(yī)學單位符號50個,存入標準單位庫D_Stand表中;從手機客戶端錄入用戶的ID號、姓名、密碼,從基本信息表識別后的結(jié)果中提取用戶的姓名、性別、年齡、手機號碼、工作單位、體檢日期,構(gòu)建客戶信息表D_Users;從身高體重血壓表識別結(jié)果中提取身高、體重、血壓等構(gòu)建身高體重血壓表D_HWB;從生化檢驗表識別結(jié)果中提取總膽紅素、血蛋白等數(shù)據(jù),構(gòu)建生化檢驗表D_Bioc;從血常規(guī)報告識別結(jié)果中提取白細胞數(shù)、淋巴細胞比值等數(shù)據(jù),構(gòu)建血常規(guī)表D_Blood,完成數(shù)據(jù)分析庫的建立。

        (3)實驗環(huán)境。

        所有實驗使用的系統(tǒng)軟硬件環(huán)境均相同。CPU為Intel(R)? Core(TM)? i5-4210M雙核(64位處理器),2.59 GHz,內(nèi)存4 G;操作系統(tǒng)為Windows? 10中文版(64位系統(tǒng));實驗程序用Matlab? R2010b編寫;原型APP系統(tǒng)的開發(fā)系統(tǒng)是Android 4.4.2版本。

        3.2 實驗結(jié)果與分析

        實驗結(jié)果分為兩部分,一是識別正確率:計算每一幅圖像中文字和符號的識別正確率,最后求出平均值,即為體檢報告整體識別率。具體做法是:針對每幅圖像,事先編輯一個文本文件,儲存各個字符正確的識別結(jié)果,最后將經(jīng)過算法識別的結(jié)果和這個文件相比較,計算出最終的識別正確率,如表1所示。二是數(shù)據(jù)分析結(jié)果,畫出不同項目的識別結(jié)果對比可視化圖形(見圖5),給出參考健康建議。

        表1 體檢報告識別結(jié)果

        圖5 APP部分界面展示

        此外,在上述算法基礎上,文中的一個重要工作是開發(fā)了原型APP系統(tǒng)(圖5),系統(tǒng)界面簡潔、使用方便,幫助用戶及時存儲自己的疾病信息,了解自身健康狀態(tài),使用戶的生活更健康、有質(zhì)量。

        4 結(jié)束語

        基于移動端個人醫(yī)療健康管理系統(tǒng),用戶只需要一款簡單的手機,就能輕松實現(xiàn)快速存儲病歷信息,了解健康狀況,通過系統(tǒng)建議引導自身健康生活。系統(tǒng)使用方便,應用前景廣闊。

        該研究雖取得了一些有益的成果,但仍存在以下缺點和不足:針對傾斜角度太大的病歷報告識別效果不好;實驗用戶數(shù)據(jù)庫數(shù)據(jù)太少,能挖掘的信息較少。下一步的研究方向是多種因素干擾下的病歷報告識別及通過此APP累積大量用戶的數(shù)據(jù),可以采用數(shù)據(jù)挖掘以及機器學習的算法建立用戶健康模型,對個體健康提供相應的建議與指導。

        [1] 張錦莉.當前農(nóng)村養(yǎng)老保障問題探析[J].人大建設,2016(12):48-50.

        [2] 許魯平.健康類電視節(jié)目的公信力研究[D].濟南:山東師范大學,2014.

        [3] SHAH P,KARAMCHANDANI S,NADKAR T,et al.OCR-based chassis-number recognition using artificial neural networks[C]//IEEE international conference on vehicular electronics and safety.[s.l.]:IEEE,2009:31-34.

        [4] 張 鳳.街景影像的文字識別[D].北京:北京建筑工程學院,2012.

        [5] 洪 濤,梁偉建,盧玉鳳.標牌粘連字符自適應定位分割重建與識別[J].中國圖象圖形學報,2014,19(6):886-895.

        [6] OTSU N.A threshold selection method from gray level histograms[J].IEEE Transactions on Systems Man & Cybernetics,1979,9(1):62-66.

        [7] 謝 亮.表格識別預處理技術(shù)與表格字符提取算法的研究[D].廣州:中山大學,2005.

        [8] 滕今朝,邱 杰.利用Hough變換實現(xiàn)直線的快速精確檢測[J].中國圖象圖形學報,2008,13(2):234-237.

        [9] 劉 昱.印刷體表格識別的研究[D].哈爾濱:哈爾濱工程大學,2013.

        [10] CASEY R G,LECOLINET E.A survey of methods and strategies in character segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1996,18(7):690-706.

        [11] LU Y.On the segmentation of touching characters[C]//International conference on document analysis and recognition.[s.l.]:IEEE,1993:440-443.

        [12] 萬金娥,袁保社,谷 朝,等.基于字符歸一化雙投影互相關性匹配識別算法[J].計算機應用,2013,33(3):645-647.

        [13] 王 帥,馮 晉.基于三次卷積插值的貝葉斯濾波方法研究[J].系統(tǒng)科學與數(shù)學,2015,35(2):170-180.

        [14] 陳麗芳,劉 淵,須文波.改進的歸一互相關法的灰度圖像模板匹配方法[J].計算機工程與應用,2011,47(26):181-183.

        [15] 羅輝武,唐遠炎,王 翊,等.基于結(jié)構(gòu)特征和灰度特征的車牌字符識別方法[J].計算機科學,2011,38(11):267-270.

        [16] 楊天長.基于神經(jīng)網(wǎng)絡的文字識別技術(shù)研究及應用[D].北京:北方工業(yè)大學,2013.

        [17] 陳 文,張恩陽,趙 勇.基于多分類器協(xié)同學習的卷積神經(jīng)網(wǎng)絡訓練算法[J].計算機科學,2016,43(9):223-226.

        [18] 王 曼.醫(yī)學論文統(tǒng)計描述性數(shù)據(jù)審核的問題與方法[J].中國科技期刊研究,2015,26(4):359-362.

        猜你喜歡
        報告用戶
        一圖看懂十九大報告
        報告
        南風窗(2016年26期)2016-12-24 21:48:09
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        報告
        南風窗(2015年22期)2015-09-10 07:22:44
        報告
        南風窗(2015年14期)2015-09-10 07:22:44
        報告
        南風窗(2015年7期)2015-04-03 01:21:48
        Camera360:拍出5億用戶
        100萬用戶
        午夜无码国产理论在线| 精品国产精品久久一区免费| 日本一区二区不卡二区| 婷婷精品国产亚洲av麻豆不片| 真人做爰片免费观看播放| 国产成人+亚洲欧洲+综合| 一区二区三区国产在线网站视频| 成人综合激情自拍视频在线观看| 一本色道久久亚洲加勒比| 美女脱了内裤张开腿让男人桶网站 | 高清在线有码日韩中文字幕| 午夜dy888国产精品影院| 军人粗大的内捧猛烈进出视频| 日子2020一区二区免费视频| 视频二区 无码中出| 中文字幕熟女激情50路| 亚洲国产精品久久精品| 一性一交一口添一摸视频| 亚洲国产一区二区三区网| 久久久婷婷综合亚洲av| 黄色国产一区二区99| 亚洲av无码一区二区三区天堂古代 | 亚洲国产色婷婷久久精品| 人妻少妇中文字幕乱码| 亚洲久热无码av中文字幕| 欧美丝袜秘书在线一区| 少妇被粗大的猛进69视频| 又大又粗欧美黑人aaaaa片| 亚洲欧美日韩综合久久| 久久久亚洲精品午夜福利| 老熟妇嗷嗷叫91九色| 色窝窝无码一区二区三区| 女女女女bbbbbb毛片在线| 亚洲欧洲美洲无码精品va| 一区二区三区国产色综合| 亚洲av中文无码乱人伦在线播放| 欧美a级在线现免费观看| 亚洲av成人无网码天堂 | 亚洲欧美国产国产综合一区| 久久久久欧洲AV成人无码国产| 国产一区二区三区探花|