亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        腫瘤電子病歷數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究

        2020-08-12 02:32:56剛,姜寧,劉
        關(guān)鍵詞:分詞病歷詞典

        童 剛,姜 寧,劉 煥

        (青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)

        0 引 言

        數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索其中重要信息的過程。在醫(yī)學(xué)中,醫(yī)療診斷的方法及選擇模式尤其重要,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在此便于醫(yī)生對(duì)疾病進(jìn)行診斷,從而在醫(yī)療科研方面提供了科學(xué)依據(jù)[1]。隨著醫(yī)療信息系統(tǒng)的發(fā)展,醫(yī)院的數(shù)據(jù)庫信息在醫(yī)療分類診斷上變得更加重要,如何有效利用這些信息進(jìn)行分類挖掘是很多研究者的工作重心。冠心病是目前威脅人類身體健康的一項(xiàng)重大疾病,利用當(dāng)今流行的數(shù)據(jù)挖掘技術(shù)提煉出冠心病積累的臨床信息資料中的有用信息,并通過神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分類診斷,診斷的精確率已經(jīng)高達(dá)90%[2]。除此之外,在其他相關(guān)疾病診斷中,此類技術(shù)的應(yīng)用也達(dá)到了預(yù)期效果。Chen等[3]在提取規(guī)則方面,運(yùn)用了決策樹算法,然后采用CBR技術(shù)修改過往問題的解決流程,并應(yīng)用到腫瘤疾病的新情況中進(jìn)行診斷。Murate等[4]將神經(jīng)網(wǎng)絡(luò)算法及支持向量機(jī)算法應(yīng)用在早期前列腺疾病的診斷中。Anand等[5]在疾病的診斷分類中,將病人的醫(yī)學(xué)數(shù)據(jù)通過混合人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分析,在分類精度上有所提高。Huang Z等[6]提出了增強(qiáng)迭代次數(shù)的分類算法,對(duì)處理急性冠脈綜合征患者心臟不良事件失衡問題有顯著效果。肖勤[7]在建立乳腺X線分類模型上選用決策樹算法,在分類診斷上取得了很好的效果。Feng等[8]在慢性胃炎中的分類診斷中應(yīng)用了信息熵決策樹算法。劉綠[9]將一些分類算法進(jìn)行了性能對(duì)比,結(jié)果顯示決策樹的綜合性能最佳。許騰[10]在甲狀腺疾病的分析研究中,將紋理及超聲圖像進(jìn)行了融合運(yùn)用。于霄[11]創(chuàng)建了基于分類算法的醫(yī)療服務(wù)系統(tǒng),并彌補(bǔ)了決策樹本身存在的過擬合問題。

        1 腫瘤電子病歷的分類挖掘?qū)嶒?yàn)

        電子病歷中包含的醫(yī)療信息十分豐富。對(duì)其數(shù)據(jù)的有效處理和利用,是一項(xiàng)非常有意義的工作。通過數(shù)據(jù)預(yù)處理等[12]可部分消除數(shù)據(jù)中的噪聲和不完整性,實(shí)現(xiàn)數(shù)據(jù)的規(guī)范化和有效壓縮,從而使數(shù)據(jù)的再處理更加有效。最終將非結(jié)構(gòu)化的電子病歷文本數(shù)據(jù)轉(zhuǎn)換成可直接挖掘利用的結(jié)構(gòu)化數(shù)據(jù)。在電子病歷中,病程記錄是其重要組成部分,病程記錄中包含了大量可供挖掘的患者就診信息及過往病史信息,因此病程記錄可以作為數(shù)據(jù)抽取的關(guān)鍵。首次病程記錄的內(nèi)容結(jié)構(gòu)如圖1所示。

        圖1 首次病程記錄的內(nèi)容結(jié)構(gòu)

        數(shù)據(jù)抽取又叫信息抽取,是數(shù)據(jù)預(yù)處理技術(shù)中的關(guān)鍵?;谀壳暗膶?shí)體抽取模型的優(yōu)劣性并結(jié)合研究數(shù)據(jù)的特點(diǎn),文中采用了基于條件隨機(jī)場(chǎng)的多特征融合的醫(yī)療實(shí)體識(shí)別方法[13-14]。具體識(shí)別流程如圖2所示。

        如圖2所示,首先將原始語料庫進(jìn)行相應(yīng)的中文分詞和標(biāo)注處理后,變?yōu)橛?xùn)練語料,再將訓(xùn)練語料分詞進(jìn)行同樣的處理形成訓(xùn)練模型。其次將測(cè)試語料輸入到訓(xùn)練模型中進(jìn)行實(shí)體識(shí)別。最后將識(shí)別后形成的結(jié)果按照一定的方法規(guī)則進(jìn)行評(píng)測(cè),得到評(píng)測(cè)結(jié)果來檢驗(yàn)整體模型的科學(xué)性。

        圖2 基于條件隨機(jī)場(chǎng)的實(shí)體識(shí)別方法框架

        2 挖掘?qū)嶒?yàn)重點(diǎn)探究

        中文分詞被視為最基礎(chǔ)的問題,中文分詞常用的方法有三種:基于詞典的分詞、基于統(tǒng)計(jì)的分詞、基于理解的分詞。根據(jù)電子病歷中醫(yī)療術(shù)語較多的特點(diǎn),采用基于詞典的分詞算法[15],即將分字符串中的詞,按照一定的標(biāo)準(zhǔn)和規(guī)則與詞典中的詞進(jìn)行比對(duì),若可以在詞典中找到該字符串,則匹配成功。若找不到,則按照一定的算法策略繼續(xù)匹配。基于詞典的分詞算法中逆向最大匹配法的分詞精確率較高,缺點(diǎn)是分詞速度較慢[16]。為解決這個(gè)問題,結(jié)合電子病歷數(shù)據(jù)的表達(dá)特點(diǎn)提出了改進(jìn)后的逆向最大匹配算法,在分詞速度上有明顯提高。

        逆向最大匹配算法的思想如下:事先設(shè)置一個(gè)n值,然后從最后一個(gè)字開始向前截取n個(gè)字,先把這n個(gè)字與詞典進(jìn)行匹配,看能否找到匹配的詞語,若匹配成功,即識(shí)別出一個(gè)詞。若不能,則刪除這n個(gè)字最左邊的字,然后再把這n-1個(gè)字與詞典繼續(xù)匹配直到匹配成功,或者前n-1個(gè)字都沒匹配成功,那就把第n個(gè)字當(dāng)成一個(gè)獨(dú)立的詞,然后再向前移動(dòng)分出來的詞的長度,再截取n個(gè)字直到全部分好詞為止。

        改進(jìn)后的算法思想:

        (1)將分字符串中的詞A與詞典中的詞B進(jìn)行對(duì)比,如果詞典B中沒有A,則選擇逆向最大匹配法進(jìn)行分詞。

        (2)如果詞典B中有A,將A前后位置的詞分別與A進(jìn)行組詞,將新組成的分詞與詞典B進(jìn)行比對(duì):若有一個(gè)存在于詞典B中,將A和新匹配的詞一起作為一個(gè)分詞,并在此處將字符串分為兩段,最后再利用逆向最大匹配算法將這兩段進(jìn)行分詞;若兩個(gè)詞都存在于詞典B中,采用最大概率分詞法進(jìn)行確定;若在詞典B中兩個(gè)詞均無法找到,那么以A為切點(diǎn)將字符串分成前后兩段,再采用逆向最大匹配算法進(jìn)行分詞。

        改進(jìn)后的算法流程如圖3所示。

        圖3 改進(jìn)后的逆向最大匹配算法流程

        電子病歷的語言表達(dá)中會(huì)有很多單用詞如“和”“到”“若”“及”等,對(duì)這些單用詞進(jìn)行切分,不僅提高了分詞效率和準(zhǔn)確率,還不影響最終結(jié)果。因此將類似的這類單用詞組建成一個(gè)新的詞典,同時(shí)找出一些癥狀專有名詞和疾病判斷詞也放入新詞典中。最后判斷待分字符串中是否有新詞典中的詞,若有則在此處分詞,對(duì)切分后的每個(gè)詞,再繼續(xù)分詞。利用傳統(tǒng)的逆向最大匹配算法及改進(jìn)后逆向最大匹配算法分別對(duì)電子病歷部分內(nèi)容進(jìn)行分詞的對(duì)比結(jié)果如表1所示。

        表1 逆向最大匹配算法改進(jìn)前后分詞結(jié)果比對(duì)

        利用數(shù)據(jù)抽取中常用的P值、R值、F值三個(gè)評(píng)價(jià)指標(biāo)加上分詞速度對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比評(píng)測(cè)[17],評(píng)測(cè)結(jié)果如表2所示。

        表2 逆向最大匹配算法改進(jìn)前后性能比對(duì)

        按照改進(jìn)之后的逆向最大匹配分詞法對(duì)電子病歷分詞后,經(jīng)過標(biāo)注處理及相應(yīng)的特征選擇后,得到初步的數(shù)據(jù)抽取結(jié)果,再對(duì)其進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)歸約等操作完成整個(gè)的數(shù)據(jù)預(yù)處理,圖4為預(yù)處理之后的部分截圖。

        圖4 預(yù)處理之后的腫瘤疾病數(shù)據(jù)集部分截圖

        3 分類算法的選取

        挖掘?qū)嶒?yàn)過程中的關(guān)鍵問題在于挖掘算法的選取,針對(duì)醫(yī)療數(shù)據(jù)自身的獨(dú)特性,篩選出合適的算法進(jìn)而實(shí)現(xiàn)輔助診斷變得更加重要。然而不同的數(shù)據(jù)挖掘算法具有不同的特性[18],通過其特性對(duì)比發(fā)現(xiàn),在分類選取方面,C4.5算法和BP神經(jīng)網(wǎng)絡(luò)效果最佳[19]。C4.5算法的基點(diǎn)是ID3算法,具備ID3算法的優(yōu)點(diǎn),在屬性選擇上用信息增益率進(jìn)行選擇,由于屬性選擇時(shí)會(huì)優(yōu)先選擇取值多的屬性,C4.5算法有效解決了這類問題。不僅可以將連續(xù)屬性離散化處理,還能夠處理一些不完整數(shù)據(jù)。BP神經(jīng)網(wǎng)絡(luò)的主要特點(diǎn)是信號(hào)和誤差按照相反方向進(jìn)行傳播。信號(hào)傳播過程中,信號(hào)從輸入層進(jìn)入隱藏層,最后到達(dá)輸出層,下一層的信號(hào)狀態(tài)只由上一層影響。如果最后輸出的信號(hào)并不是期望信號(hào),則進(jìn)入誤差的反向傳播過程。再根據(jù)誤差進(jìn)行調(diào)整權(quán)值和偏向,最后使得輸出信號(hào)不斷逼近期望輸出。因此BP神經(jīng)網(wǎng)絡(luò)具有高度自學(xué)習(xí)和自適應(yīng)的能力。下面對(duì)這兩種算法進(jìn)行分類挖掘?qū)嶒?yàn)。

        3.1 C4.5分類實(shí)驗(yàn)

        預(yù)處理后得到的數(shù)據(jù)集使用C4.5算法進(jìn)行挖掘?qū)嶒?yàn),采用十折交叉驗(yàn)證法測(cè)試算法的準(zhǔn)確性[20]。

        運(yùn)行結(jié)果如圖5所示。

        圖5 C4.5算法疾病分類效果

        實(shí)驗(yàn)結(jié)果表明,C4.5算法分類結(jié)果性能:分類正確率約為86%,錯(cuò)誤率約為14%,建模時(shí)間為129 s。

        3.2 BP神經(jīng)網(wǎng)絡(luò)分類實(shí)驗(yàn)

        BP神經(jīng)網(wǎng)絡(luò)算法具有實(shí)現(xiàn)任何復(fù)雜非線性映射的功能且可以進(jìn)行復(fù)雜的數(shù)學(xué)運(yùn)算[21]。它還具有一定的推廣、概括、自學(xué)習(xí)等能力。在實(shí)際應(yīng)用中,多數(shù)神經(jīng)網(wǎng)絡(luò)模型都采用BP神經(jīng)網(wǎng)絡(luò)的變化形式,在分類挖掘應(yīng)用方面有較好的實(shí)驗(yàn)效果。運(yùn)行結(jié)果如圖6所示。

        圖6 BP神經(jīng)網(wǎng)絡(luò)算法疾病分類效果

        由以上效果圖可以看到BP神經(jīng)網(wǎng)絡(luò)算法的分類精確率約為88%,錯(cuò)誤率約為12%,建模時(shí)間為398 s。

        3.3 實(shí)驗(yàn)結(jié)果對(duì)比

        C4.5與BP神經(jīng)網(wǎng)絡(luò)在腫瘤病歷數(shù)據(jù)上的實(shí)驗(yàn)對(duì)比如表3所示。

        表3 分類實(shí)驗(yàn)精度性能對(duì)比

        通過以上分析可以得出結(jié)論,BP神經(jīng)網(wǎng)絡(luò)算法在分類的精確率上略高于C4.5算法,但是其運(yùn)行時(shí)間效率要比C4.5算法慢3倍。綜合來看,兩種算法的精確率相差較小,但是C4.5算法的運(yùn)算效率卻遠(yuǎn)遠(yuǎn)超過BP神經(jīng)網(wǎng)絡(luò)算法,因此C4.5算法具有較高的綜合性能,更適用于腫瘤電子病歷的分類挖掘。

        4 結(jié)束語

        腫瘤電子病歷挖掘過程中包含兩個(gè)重要環(huán)節(jié):中文分詞及算法選取,針對(duì)中文分詞,文中結(jié)合腫瘤電子病歷的表達(dá)特點(diǎn),采用了一種基于特定字詞切分的方法對(duì)最大逆向匹配分詞算法進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法不僅提高了分詞效率同時(shí)在分詞精確度上也有明顯提高。在算法選取階段,對(duì)比了分類領(lǐng)域中性能較高的兩種算法:C4.5和BP神經(jīng)網(wǎng)絡(luò)算法,經(jīng)對(duì)比之后發(fā)現(xiàn)C4.5算法的綜合性能要高于BP神經(jīng)網(wǎng)絡(luò),因此選用C4.5算法作為腫瘤電子病歷的分類挖掘算法。通過以上研究,可以實(shí)現(xiàn)利用數(shù)據(jù)挖掘技術(shù)輔助醫(yī)生進(jìn)行疾病診斷的目的,能夠提高腫瘤疾病診斷的精確率及效率,進(jìn)而提高腫瘤疾病的治愈率。

        猜你喜歡
        分詞病歷詞典
        強(qiáng)迫癥病歷簿
        趣味(語文)(2021年9期)2022-01-18 05:52:42
        “大數(shù)的認(rèn)識(shí)”的診斷病歷
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        結(jié)巴分詞在詞云中的應(yīng)用
        評(píng)《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        值得重視的分詞的特殊用法
        為何要公開全部病歷?
        村醫(yī)未寫病歷,誰之過?
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        亚洲成在人线久久综合| 亚洲色图视频在线播放| 日本伦理视频一区二区| 一区二区三区视频在线观看免费 | 午夜探花在线观看| 日韩精品人妻中文字幕有码| 精品久久中文字幕系列| 不卡av电影在线| 精品人体无码一区二区三区| 日日躁欧美老妇| 中文资源在线一区二区三区av| av色欲无码人妻中文字幕| 99精品视频在线观看| 国产香蕉尹人在线视频你懂的| 国产不卡在线观看视频| 国产午夜福利久久精品| 国产人妖视频一区二区| 精品视频在线观看一区二区有 | 亚洲精品午夜久久久九九| 国产精品51麻豆cm传媒| 国产精品九九九无码喷水| 一区二区三区在线观看视频| 久久天天躁狠狠躁夜夜av浪潮| 九九99久久精品国产| 美女超薄透明丝袜美腿| av一区二区三区综合网站| 国产亚洲成av人片在线观看| 免费又黄又爽又猛的毛片| 无遮挡粉嫩小泬| 24小时免费在线观看av| 777亚洲精品乱码久久久久久| 国产AV无码一区精品天堂| 精品国产亚洲av久一区二区三区| 九九影院理论片私人影院| 亚洲av中文无码字幕色三| 亚洲 美腿 欧美 偷拍| 中文字幕在线看精品乱码| 亚洲av麻豆aⅴ无码电影| 国产免费人成视频在线播放播| 五月婷婷开心五月播五月| 人妻中文字幕无码系列|