亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        病例文字識(shí)別與提取方法綜述

        2020-12-22 10:36:54田紅楠
        關(guān)鍵詞:實(shí)體文字神經(jīng)網(wǎng)絡(luò)

        袁 偉, 郭 欣, 田紅楠

        (1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院, 天津 300130;2.國(guó)家康復(fù)輔具研究中心秦皇島研究院, 河北 秦皇島 066000)

        0 引言

        病例識(shí)別說(shuō)到底就是識(shí)別其中的文字信息, 早期文字識(shí)別[1]的處理方法有模板匹配,幾何特征[2]等,但是以上方法的識(shí)別率都不是很高,而且費(fèi)時(shí)費(fèi)力。

        文字識(shí)別作為圖像方面的熱點(diǎn)問(wèn)題, 引來(lái)許多學(xué)者不斷的為此研究和創(chuàng)新。 隨著信息化時(shí)代的全面開展,OCR 技術(shù)在國(guó)內(nèi)各行各業(yè)開始應(yīng)用, 比如文檔識(shí)別,路牌識(shí)別[3]等?,F(xiàn)在基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的文字識(shí)別與提取得到了很好地應(yīng)用,因?yàn)槠涮卣魈崛『?jiǎn)單,并且學(xué)習(xí)性強(qiáng),易于訓(xùn)練。在這方面做的研究包括:Utkarsh Porwal[4]等提出了DBN 來(lái)捕獲數(shù)據(jù)分布,通過(guò)使用幾個(gè)隱藏層在不同抽象級(jí)別表示數(shù)據(jù)實(shí)現(xiàn)脫機(jī)手寫文本識(shí)別。孫巍巍[5]提出了一種基于深度信念網(wǎng)絡(luò)融合模型對(duì)手寫漢字識(shí)別的方法。 浙江大學(xué)黃攀[6]提出了基于CNN 和BiRNN 的結(jié)合上下文的圖像編碼方法與基于ARSG 的文字解碼方法。劉水麗[7]等人論述了基于深度學(xué)習(xí)的文字識(shí)別技術(shù)的性能優(yōu)勢(shì)以及應(yīng)用場(chǎng)景,并和傳統(tǒng)的技術(shù)做了對(duì)比。 在圖像檢索研究方面,馬冬梅[8]提出了一種基于深度學(xué)習(xí)中隱層神經(jīng)網(wǎng)絡(luò)的圖像檢索系統(tǒng)。 Zeinab Akhbari 等人利用模糊理論[9]對(duì)彩色圖像進(jìn)行文本檢測(cè)的一種改進(jìn)方法,應(yīng)用于車牌識(shí)別、宣傳片和視頻幀中的文本識(shí)別、彩色信封的標(biāo)題識(shí)別和地址識(shí)別。

        1 基于深度學(xué)習(xí)的文字檢測(cè)技術(shù)

        1.1 文字檢測(cè)網(wǎng)絡(luò)

        (1)Faster RCNN 網(wǎng)絡(luò)。Faster RCNN[10]網(wǎng)絡(luò)基于VGG16,支持任意大小圖片的輸入, 主要由conv layers,RPN,Roi Pooling,Classifier 四層組成。 在結(jié)構(gòu)上, 它已經(jīng)將特征提取,候選區(qū)域提取,regression 回歸,classification 分類都集成在了一個(gè)網(wǎng)絡(luò)中,它引入了RPN 網(wǎng)絡(luò),用于生成候選區(qū)域。 Faster RCNN 由于集成在了一個(gè)網(wǎng)絡(luò)中,因此在檢測(cè)的速度上有了明顯的提高。

        (2)CPTN 網(wǎng)絡(luò)。 CPTN[11]是一種基于目標(biāo)檢測(cè)方法的文本檢測(cè)模型, 是目前主流的文本檢測(cè)算法,CTPN 算法是在Faster RCNN 基礎(chǔ)上改進(jìn)而來(lái), 加入了LSTM 層,CTPN 與CNN、LSTM 結(jié)合, 可以檢測(cè)出復(fù)雜場(chǎng)景中的橫向分布的文字位置。 其中CNN 采用VGG16 作為預(yù)訓(xùn)練模型進(jìn)行底層特征提取,LSTM 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文字的序列特征,有助于文本檢測(cè)。它的優(yōu)點(diǎn)是可以很好的預(yù)測(cè)文本水平位置, 缺點(diǎn)是對(duì)于預(yù)測(cè)豎直方向及旋轉(zhuǎn)方向的文本會(huì)很困難。

        (3)RRPN 網(wǎng)絡(luò)。RRPN[12],旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò),其實(shí)也是在Faster R-CNN 的基礎(chǔ)上,引入了RPN,相較于CPTN算法只能檢測(cè)水平方向的文本, 此網(wǎng)絡(luò)可以檢測(cè)旋轉(zhuǎn)方向的文本, 即任意方向, 通過(guò)調(diào)整角度信息進(jìn)行邊框回歸,使其更加適合文本區(qū)域。

        (4)EAST 網(wǎng)絡(luò)。 EAST[13]網(wǎng)絡(luò)是一個(gè)高效和準(zhǔn)確的場(chǎng)景文本檢測(cè)網(wǎng)絡(luò), 它可以直接預(yù)測(cè)圖像中任意方向和矩形形狀的文本或文本行,它有兩個(gè)階段的任務(wù)。第一個(gè)階段是基于全卷積網(wǎng)絡(luò)(FCN)模型,來(lái)預(yù)測(cè)生成文本框;第二個(gè)階段是對(duì)生成的文本預(yù)測(cè)框 (可以是旋轉(zhuǎn)矩形或矩形)經(jīng)過(guò)非極大值抑制以產(chǎn)生最終結(jié)果。 EAST 的優(yōu)點(diǎn)是放棄了不必要的中間步驟,進(jìn)行端到端的訓(xùn)練和優(yōu)化。

        表1 對(duì)幾種文本檢測(cè)網(wǎng)絡(luò)進(jìn)行了對(duì)比分析。

        表1 通用文本檢測(cè)網(wǎng)絡(luò)對(duì)比

        2 基于深度學(xué)習(xí)的文字識(shí)別技術(shù)

        2.1 文字識(shí)別網(wǎng)絡(luò)

        (1)CRNN 網(wǎng)絡(luò)。 CRNN 主要用于端到端地對(duì)不定長(zhǎng)的文本序列進(jìn)行識(shí)別,它是在CPTN 的基礎(chǔ)上,將CPTN網(wǎng)絡(luò)檢測(cè)到的文字, 送入到CRNN 卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,提取特征。 CRNN 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含三部分,分別為:①卷積層CNN,提取輸入圖像的特征序列;②循環(huán)層RNN,從卷積層得到的特征序列,使用RNN 對(duì)其進(jìn)行預(yù)測(cè),得到預(yù)測(cè)標(biāo)簽的分布;③轉(zhuǎn)錄層CTC,循環(huán)層獲取的預(yù)測(cè)標(biāo)簽通過(guò)CTC 變成最終的標(biāo)簽序列。 最難的還是在于第三步,CTC 轉(zhuǎn)錄。

        CTC 主要用于序列解碼,將RNN 層所做的預(yù)測(cè)轉(zhuǎn)換成標(biāo)簽序列。

        (2)RARE 網(wǎng)絡(luò)。RARE[14]網(wǎng)絡(luò)由STN(空間變形網(wǎng)絡(luò))和SRN(序列識(shí)別網(wǎng)絡(luò))組成。 STN 網(wǎng)絡(luò)起到了變形矯正的作用,通過(guò)STN 對(duì)圖像進(jìn)行矯正,之后通過(guò)SRN 對(duì)文本進(jìn)行識(shí)別。 因此RARE 網(wǎng)絡(luò)在處理變形的文本時(shí)候效果會(huì)很好。但是由于使用了tanh 激活函數(shù),導(dǎo)致收斂速度較慢。

        圖1 RARE 網(wǎng)絡(luò)結(jié)構(gòu)圖

        (3)ESIR 網(wǎng)絡(luò)。ESIR[15]是一種端到端場(chǎng)景文本識(shí)別網(wǎng)絡(luò),它提出了一種新穎的文本姿態(tài)估計(jì)網(wǎng)絡(luò),該網(wǎng)絡(luò)包括兩部分,一個(gè)是采用迭代的文本校正網(wǎng)絡(luò),另一個(gè)是序列識(shí)別網(wǎng)絡(luò)。 其中場(chǎng)景文本扭曲會(huì)被更正到一個(gè)正面平行視圖。 此外,ESIR 還不需要參數(shù)初始化,訓(xùn)練只需要場(chǎng)景文本圖像和文字注解。 但是ES 它在圖形變換時(shí),會(huì)進(jìn)行雙線性插值,容易導(dǎo)致丟失關(guān)鍵像素信息。

        (4)FAN 網(wǎng)絡(luò)。FAN[16]網(wǎng)絡(luò),解決了在一些復(fù)雜的或者質(zhì)量低的圖像中的文字識(shí)別效果不太好的情況, 因?yàn)楝F(xiàn)有的基于注意力的方法效果非常差。FAN 網(wǎng)絡(luò)包括AN 和FN 兩個(gè)主要部分。 AN 和現(xiàn)有的基于注意力的方法一致,F(xiàn)N 是用來(lái)檢測(cè)AN 的注意力區(qū)域是否與圖像中目標(biāo)字符的位置對(duì)齊,然后自動(dòng)的跳轉(zhuǎn)這個(gè)注意點(diǎn),所以它識(shí)別的圖像文本更加準(zhǔn)確。 但是注意力機(jī)制的對(duì)齊若產(chǎn)生錯(cuò)誤,就會(huì)疊加。

        表2 對(duì)幾種文本檢測(cè)網(wǎng)絡(luò)進(jìn)行了對(duì)比分析。

        表2 文本識(shí)別網(wǎng)絡(luò)對(duì)比

        3 信息提取

        經(jīng)過(guò)文字識(shí)別之后,就需要提取關(guān)鍵信息,涉及的關(guān)鍵技術(shù)有實(shí)體抽取、關(guān)系抽取和屬性抽取。

        3.1 實(shí)體抽取

        實(shí)體抽取也就是命名實(shí)體識(shí)別NER[17]方法,此方法的任務(wù)[18]是識(shí)別文檔中表示個(gè)人姓名、組織名稱、地點(diǎn)名稱、時(shí)間和數(shù)量等的短語(yǔ)。 命名實(shí)體識(shí)別方法主要分為三類:

        (1)基于規(guī)則和詞典的方法。 它是由手工編寫而來(lái),人為設(shè)定的規(guī)則。 但是不同的領(lǐng)域內(nèi)的實(shí)體都有著不一樣的規(guī)則,因此當(dāng)此方法用在不同的領(lǐng)域時(shí)就需要改動(dòng),例如醫(yī)學(xué)領(lǐng)域就有著自己特定的實(shí)體, 因此基于特定領(lǐng)域的規(guī)則往往是不通用的,所以這種方法是耗時(shí)耗力的。如果規(guī)則能較好的反映實(shí)體關(guān)系時(shí), 基于規(guī)則和詞典的方法還是較為方便的。

        (2)基于統(tǒng)計(jì)的學(xué)習(xí)方法?;诮y(tǒng)計(jì)的學(xué)習(xí)方法主要有最大熵、支持向量機(jī)、條件隨機(jī)場(chǎng)CRF,隱馬爾可夫模型等。

        它是基于分類和序列標(biāo)注的方法,利用大規(guī)模語(yǔ)料來(lái)進(jìn)行學(xué)習(xí),進(jìn)而標(biāo)注出模型,通過(guò)語(yǔ)料內(nèi)容進(jìn)行統(tǒng)計(jì)和分析,從其中發(fā)現(xiàn)出特征。 語(yǔ)料的標(biāo)注不需要很多的專業(yè)知識(shí),并且它優(yōu)于基于規(guī)則的方法的一點(diǎn)就是在其他領(lǐng)域使用時(shí),可以不用在做很多繁瑣的工作,可以直接使用。

        但是它對(duì)語(yǔ)料庫(kù)的依賴很大, 但是評(píng)估命名實(shí)體識(shí)別系統(tǒng)的大規(guī)模通用語(yǔ)料庫(kù)又比較少, 所以不是最好的方法。

        (3)基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法。無(wú)論是基于規(guī)則和詞典還是基于統(tǒng)計(jì)的學(xué)習(xí)方法, 都需要大量的人工處理數(shù)據(jù)。傳統(tǒng)的基于統(tǒng)計(jì)的方法需要很多的領(lǐng)域知識(shí),而基于深度學(xué)習(xí)的方法可以從輸入中獲取信息并學(xué)習(xí)。 深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)[19-20]也可以有效的處理很多自然語(yǔ)言任務(wù)的模型,同時(shí)不需要人工預(yù)處理數(shù)據(jù),此種方法對(duì)序列標(biāo)注的處理是類似NER 的,采用端到端的識(shí)別方法,不需要基于規(guī)則和詞典方法中所要求的領(lǐng)域資源, 其可以自動(dòng)學(xué)習(xí)和提取特征。 蔡成章[21]基于深度學(xué)習(xí)的命名實(shí)體識(shí)別技術(shù), 完成了對(duì)醫(yī)學(xué)文本中的實(shí)體名詞的識(shí)別與提取,從而達(dá)到電子病歷的后結(jié)構(gòu)化目的。楊紅梅提出的基于Bi-LSTM[22]與CRF[23]的實(shí)體識(shí)別模型,抽取了入院記錄和出院小結(jié)的醫(yī)學(xué)命名實(shí)體,解決了RNN 解決不了的長(zhǎng)時(shí)依賴的問(wèn)題。

        因此, 基于深度學(xué)習(xí)的命名實(shí)體識(shí)別對(duì)病例的識(shí)別提取要優(yōu)于前兩種方法。但是目前還是存在問(wèn)題的,如重疊的實(shí)體關(guān)系還做的不是很好。 表3 提供了幾種方法的優(yōu)缺點(diǎn)。

        表3 命名實(shí)體識(shí)別方法對(duì)比

        3.2 關(guān)系抽取

        語(yǔ)料經(jīng)過(guò)上一步之后,得到的命名實(shí)體達(dá)不到要求,它得到的僅僅是一些離散的實(shí)體, 因此為了得到語(yǔ)義信息,需要我們提取出實(shí)體之間的關(guān)系,通過(guò)關(guān)系將這些實(shí)體聯(lián)系起來(lái)。研究關(guān)系抽取技術(shù)的目的,就是為了解決怎樣從語(yǔ)料中得到實(shí)體間的關(guān)系。

        3.3 屬性抽取

        屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息.針對(duì)病例來(lái)說(shuō),可以從每一張病例信息中的到其名字,性別,診斷癥狀,損傷部位,治療方案等關(guān)鍵信息,而此技術(shù)就是從如此多的數(shù)據(jù)中匯集這些信息。

        4 結(jié)束語(yǔ)

        本文首先介紹了病例文字識(shí)別的相關(guān)背景以及應(yīng)用方向, 其次概括了在文字檢測(cè)時(shí)近幾年所用到的網(wǎng)絡(luò)模型,對(duì)它們進(jìn)行了綜合性的分析比較,之后又概括了文字識(shí)別所用到的網(wǎng)絡(luò)模型,并對(duì)他們進(jìn)行了綜合分析,最后對(duì)信息提取時(shí)所用到的方法進(jìn)行了概括分析。 作為信息化的時(shí)代,文字識(shí)別技術(shù)已經(jīng)涉及到生活中的方方面面,未來(lái)的生活一定離不開文字識(shí)別技術(shù), 文字識(shí)別對(duì)于語(yǔ)義的理解與檢索很重要。 但是盡管目前的識(shí)別技術(shù)已經(jīng)很先進(jìn), 但文字識(shí)別仍然是有技術(shù)難點(diǎn)的, 比如被遮蔽的,標(biāo)注有問(wèn)題的文字等如何進(jìn)行更好的識(shí)別,還是需要繼續(xù)深入研究。

        猜你喜歡
        實(shí)體文字神經(jīng)網(wǎng)絡(luò)
        文字的前世今生
        熱愛(ài)與堅(jiān)持
        當(dāng)我在文字中投宿
        文苑(2020年12期)2020-04-13 00:55:10
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        亚洲人成精品久久久久| 粗大的内捧猛烈进出小视频 | 精品国产福利久久久| 亚洲一区二区三区综合网| 国产国语按摩对白av在线观看| 成人亚洲精品777777| 亚洲色大成网站www尤物| 无码无在线观看| 久久精品中文字幕有码| 青青青爽在线视频观看| 老熟女多次高潮露脸视频| 日本一区二区三本视频在线观看| av在线天堂国产一区| 好吊妞无缓冲视频观看 | 久久AV中文一区二区三区 | 亚洲国产成人精品女人久久久| 亚洲欧洲无码精品ⅤA| 三上悠亚亚洲精品一区| 一二三四日本中文在线| 亚洲国产精品自拍一区| 熟女少妇丰满一区二区| 日韩精品视频久久一区二区| 亚洲国产日韩欧美一区二区三区| 亚洲欧洲日韩免费无码h| 美女性色av一区二区三区| 欧美成人午夜免费影院手机在线看| 欧美巨大xxxx做受l| 日韩人妻无码精品系列专区无遮| 开心激情视频亚洲老熟女| 色欲av蜜桃一区二区三| 99精品一区二区三区免费视频| av免费在线观看在线观看| 亚洲国产日韩a在线乱码| 婷婷丁香五月中文字幕| 第九色区Aⅴ天堂| 亚洲一区二区三区中文字幕网| 无码不卡av东京热毛片| 91热久久免费精品99| 成人男性视频在线观看| 女同同成片av免费观看| 99re6在线视频精品免费下载|