亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)清洗技術(shù)在DICOM格式醫(yī)學(xué)圖像質(zhì)控中的應(yīng)用

        2019-01-17 02:38:46郝燁唐橋紅李佳戈王浩孟祥峰任海萍
        中國(guó)醫(yī)療設(shè)備 2018年12期
        關(guān)鍵詞:信息質(zhì)量

        郝燁,唐橋紅,李佳戈,王浩,孟祥峰,任海萍

        中國(guó)食品藥品檢定研究院 光機(jī)電室,北京 100050

        引言

        人工智能的發(fā)展[1-2]對(duì)數(shù)據(jù)集提出了強(qiáng)烈的需求,推動(dòng)了醫(yī)學(xué)數(shù)據(jù)的大規(guī)模開(kāi)發(fā)。由于不同機(jī)構(gòu)、組織自發(fā)的數(shù)據(jù)采集和信息錄入缺乏可比性,數(shù)據(jù)采集過(guò)程中容易引入不唯一、不完整、不正確的不可用數(shù)據(jù)[3]。為了保證數(shù)據(jù)質(zhì)量,有必要在數(shù)據(jù)錄用前對(duì)數(shù)據(jù)進(jìn)行預(yù)篩選或預(yù)評(píng)價(jià),其中的關(guān)鍵步驟之一是使用數(shù)據(jù)清洗技術(shù)剔除不可用數(shù)據(jù)。由于醫(yī)學(xué)數(shù)據(jù)的形式極其豐富,數(shù)據(jù)清洗技術(shù)需要針對(duì)不同數(shù)據(jù)類(lèi)型和不同問(wèn)題進(jìn)行開(kāi)發(fā)[4]。

        除了數(shù)據(jù)質(zhì)量之外,患者隱私保護(hù)也是數(shù)據(jù)清洗關(guān)注的重點(diǎn)內(nèi)容。國(guó)內(nèi)外法規(guī)對(duì)于患者隱私保護(hù)的要求均非常嚴(yán)格,不僅關(guān)系到醫(yī)療器械研發(fā)、臨床研究的合規(guī)性,也影響生產(chǎn)、經(jīng)營(yíng)與研究的合法性,而醫(yī)學(xué)數(shù)據(jù)難免記錄患者隱私信息,這需要進(jìn)行有效的脫敏與確認(rèn)。

        在眾多醫(yī)學(xué)數(shù)據(jù)格式之中,醫(yī)學(xué)數(shù)字圖像通訊協(xié)議(Digital Imaging and Communications in Medicine,DICOM)格式在數(shù)據(jù)清洗方面具有代表意義,是本文研究的重點(diǎn)。DICOM標(biāo)準(zhǔn)是廣泛應(yīng)用于放射醫(yī)療領(lǐng)域(X射線、CT、核磁共振、超聲等)的醫(yī)學(xué)圖像國(guó)際標(biāo)準(zhǔn),是醫(yī)學(xué)成像設(shè)備中部署最廣泛的標(biāo)準(zhǔn)之一。現(xiàn)階段,大部分醫(yī)學(xué)圖像數(shù)據(jù)的分析及應(yīng)用都建立在DICOM標(biāo)準(zhǔn)基礎(chǔ)上[5],針對(duì)DICOM圖像的數(shù)據(jù)清洗技術(shù)是對(duì)醫(yī)學(xué)圖像進(jìn)行數(shù)據(jù)分析及應(yīng)用的基礎(chǔ)。本文介紹了對(duì)DICOM格式的CT圖像進(jìn)行預(yù)處理和清洗的流程設(shè)計(jì)和實(shí)踐經(jīng)驗(yàn),包含倫理確認(rèn)、數(shù)據(jù)質(zhì)量的確認(rèn)和隱私保護(hù)等內(nèi)容,以期引起對(duì)清洗環(huán)節(jié)的重視,并對(duì)相關(guān)醫(yī)學(xué)圖像數(shù)據(jù)的管理和質(zhì)控工作起到借鑒和規(guī)范作用。

        1 背景介紹

        1.1 患者隱私保護(hù)相關(guān)法規(guī)

        數(shù)據(jù)清洗技術(shù)在生物醫(yī)學(xué)領(lǐng)域中的應(yīng)用與其他環(huán)境中有所不同,主要是醫(yī)學(xué)圖像不同于其他信息,其中涉及患者隱私等諸多倫理問(wèn)題。因此,開(kāi)展基于醫(yī)學(xué)圖像的數(shù)據(jù)研究和分析必須首先關(guān)注數(shù)據(jù)是否脫敏,是否符合相關(guān)法律和條例規(guī)定。我國(guó)目前尚無(wú)成熟法案專(zhuān)門(mén)規(guī)定患者隱私相關(guān)內(nèi)容,但是在原衛(wèi)生部、原國(guó)家食品藥品監(jiān)督管理局、原國(guó)家中醫(yī)藥管理局2012年聯(lián)合公布的《醫(yī)療機(jī)構(gòu)從業(yè)人員行為規(guī)范》[6]中明確說(shuō)明了“尊重患者隱私權(quán)”等。

        在國(guó)際上,1995年歐盟通過(guò)了《個(gè)人數(shù)據(jù)保護(hù)指令》針對(duì)個(gè)人數(shù)據(jù)采取統(tǒng)一立法模式,后來(lái)被2018年5月25日生效的《通用數(shù)據(jù)保護(hù)條例》取代?!锻ㄓ脭?shù)據(jù)保護(hù)條例》對(duì)個(gè)人數(shù)據(jù)、與健康相關(guān)的數(shù)據(jù)等概念都給出了明確定義,并對(duì)公共健康領(lǐng)域內(nèi)如何在保護(hù)數(shù)據(jù)主體權(quán)益的情況下開(kāi)展研究作出了詳細(xì)說(shuō)明。

        為了保障患者隱私問(wèn)題,促進(jìn)國(guó)家在醫(yī)療健康信息安全方面電子傳輸?shù)慕y(tǒng)一標(biāo)準(zhǔn),美國(guó)國(guó)會(huì)在1996年頒布了 《健康保險(xiǎn)可攜帶性與責(zé)任法案》(Health Insurance Portability and Accountability Act,HIPAA)[7],旨在為各種醫(yī)療機(jī)構(gòu)及商業(yè)合作者提供病人隱私保護(hù)方面的行動(dòng)指南。法案中規(guī)定,對(duì)于去除特定標(biāo)識(shí)的健康信息數(shù)據(jù)便可以自由使用不受限制[8-9]?;贖IPAA法案及國(guó)內(nèi)外相關(guān)規(guī)范中的隱私規(guī)定,我們?cè)跀?shù)據(jù)清洗時(shí)對(duì)患者ID 等可能被用來(lái)識(shí)別到個(gè)人的隱私信息進(jìn)行了提取和查驗(yàn),以保證數(shù)據(jù)的合規(guī)性。

        1.2 DICOM標(biāo)準(zhǔn)介紹

        DICOM標(biāo)準(zhǔn),是美國(guó)放射聯(lián)合會(huì)和美國(guó)國(guó)家電子制造商協(xié)會(huì)聯(lián)合制定的[10],目的是為了解決由于醫(yī)療設(shè)備廠家不同帶來(lái)的通訊困難等問(wèn)題?,F(xiàn)在國(guó)際通用的DICOM標(biāo)準(zhǔn)是3.0版本,于1993年正式發(fā)布。

        DICOM標(biāo)準(zhǔn)詳細(xì)規(guī)定了傳輸醫(yī)學(xué)影像及其相關(guān)信息的交換方法和交換格式。DICOM的文件組織是按照患者、研究、序列和圖像四個(gè)層次進(jìn)行的[11]。在DICOM文件中最基本的單元是數(shù)據(jù)元素。DICOM數(shù)據(jù)元素主要由四部分組成:標(biāo)簽、數(shù)據(jù)描述、數(shù)據(jù)長(zhǎng)度和數(shù)據(jù)域[12]。DICOM中對(duì)應(yīng)的所有數(shù)據(jù)元素都可以通過(guò)標(biāo)簽來(lái)唯一標(biāo)識(shí),DICOM中人為將標(biāo)簽分為兩個(gè)部分:組號(hào)和元素。標(biāo)簽和元素的對(duì)應(yīng)關(guān)系可以通過(guò)查閱標(biāo)準(zhǔn)來(lái)描述。數(shù)據(jù)描述用以說(shuō)明數(shù)據(jù)對(duì)應(yīng)的類(lèi)型,數(shù)據(jù)長(zhǎng)度指明數(shù)據(jù)的字節(jié)數(shù),數(shù)據(jù)域則包含了該數(shù)據(jù)元素的數(shù)據(jù)。數(shù)據(jù)具體格式如圖1所示。

        圖1 DICOM數(shù)據(jù)的具體格式

        在DICOM格式的CT圖像中,許多數(shù)據(jù)信息都可以在文件頭中表示,共包含四級(jí)屬性,患者、檢查、序列、圖像。比如:患者信息主要包含患者姓名、患者ID等個(gè)人信息,檢查信息主要包含該檢查的ID、時(shí)間、類(lèi)型、部位等信息,序列信息主要包含該圖像序列的識(shí)別碼、圖像方位、層間距、層厚等信息,圖像信息主要包含圖像的標(biāo)識(shí)碼及圖像采樣率等基本信息。

        在針對(duì)DICOM文件頭的數(shù)據(jù)清洗過(guò)程中,主要是讀取患者數(shù)據(jù)確定數(shù)據(jù)是否完成脫敏,是否合規(guī);讀取檢查和序列的識(shí)別碼確定圖像的唯一性,通過(guò)圖像的標(biāo)識(shí)碼判定圖像是否連續(xù)完整,此外,通過(guò)讀取層厚、層間距等信息基本可以確定圖像的質(zhì)量并加以篩選。涉及的主要Tag見(jiàn)圖2。

        圖2 DICOM文件數(shù)據(jù)清洗中關(guān)鍵標(biāo)簽及釋義

        2 數(shù)據(jù)清洗方法與應(yīng)用

        2.1 清洗目標(biāo)的設(shè)定

        數(shù)據(jù)清洗首先應(yīng)設(shè)立清洗目標(biāo),明確數(shù)據(jù)的完整性、有效性和正確性如何體現(xiàn)[13]。在醫(yī)學(xué)影像領(lǐng)域,數(shù)據(jù)清洗的常見(jiàn)目標(biāo)包括以下幾點(diǎn):① 對(duì)圖像的可讀性、唯一性進(jìn)行篩選,去除不完整、不唯一的圖像;② 對(duì)質(zhì)量差的或者不滿足臨床診斷要求的圖像進(jìn)行剔除,比如全黑圖像或者層間距過(guò)大或過(guò)小的圖像;③ 對(duì)患者隱私信息進(jìn)行提取和檢查,確保圖像的合規(guī)性。

        2.2 清洗方案設(shè)計(jì)

        數(shù)據(jù)清洗一般來(lái)講就是根據(jù)清洗目標(biāo),去除各種不合規(guī)或質(zhì)量不達(dá)標(biāo)數(shù)據(jù)[14]的過(guò)程。簡(jiǎn)單來(lái)講,數(shù)據(jù)清洗過(guò)程可分為以下幾個(gè)步驟:① 對(duì)倫理批準(zhǔn)情況進(jìn)行確認(rèn);② 針對(duì)要避免的數(shù)據(jù)質(zhì)量風(fēng)險(xiǎn)明確清洗規(guī)則;③ 根據(jù)數(shù)據(jù)情況及清洗規(guī)則,制定清洗流程;④ 對(duì)清洗流程進(jìn)行評(píng)估與驗(yàn)證;⑤ 輸入原始數(shù)據(jù),完成清洗;⑥ 清洗后的數(shù)據(jù)審核及確認(rèn)。

        將數(shù)據(jù)清洗技術(shù)應(yīng)用于DICOM格式醫(yī)學(xué)影像時(shí),除了考慮最基本的DICOM圖像的合規(guī)性、可讀性、連續(xù)性、唯一性等基本指標(biāo)外,還應(yīng)該根據(jù)數(shù)據(jù)集建設(shè)的需求,對(duì)DICOM 3.0格式的醫(yī)學(xué)圖像質(zhì)量進(jìn)行細(xì)化規(guī)定。

        2.3 應(yīng)用實(shí)例

        以下用肺結(jié)節(jié)醫(yī)學(xué)影像數(shù)據(jù)集為例,介紹圖像清洗的具體操作。

        參照國(guó)際競(jìng)賽和研究經(jīng)驗(yàn)[15],肺結(jié)節(jié)產(chǎn)品研發(fā)使用的醫(yī)學(xué)影像數(shù)據(jù)集經(jīng)常采用DICOM 3.0格式的肺部CT圖像,為了提升數(shù)據(jù)質(zhì)量,數(shù)據(jù)清洗過(guò)程中除了保證數(shù)據(jù)的合規(guī)性、可讀性、連續(xù)性和唯一性等基本指標(biāo)外,還應(yīng)重點(diǎn)考慮CT圖像層間距和層厚的協(xié)調(diào)關(guān)系,避免出現(xiàn)太大非掃描區(qū)域,導(dǎo)致信息不完整。根據(jù)低劑量螺旋CT肺癌篩查專(zhuān)家共識(shí),重建層厚≤0.625 mm的設(shè)備可以無(wú)間隔重建,對(duì)于重建層厚介于0.625~1.20 mm之間,重建間隔≤層厚的80%[16];在肺亞實(shí)性結(jié)節(jié)的影像處理中,根據(jù)肺亞實(shí)性結(jié)節(jié)影像處理專(zhuān)家共識(shí),對(duì)層厚<1 mm的設(shè)備可以無(wú)間隔連續(xù)重建,對(duì)掃描層厚>1 mm,重建間隔選擇準(zhǔn)直層厚的50%~80%,以免漏診或者誤判[17]??紤]肺結(jié)節(jié)數(shù)據(jù)集的數(shù)據(jù)和設(shè)備來(lái)源的多樣性問(wèn)題,建議在清洗規(guī)則中將層間距/層厚的范圍限定在[0.6, 1],以便為后續(xù)的數(shù)據(jù)分析提供高質(zhì)量的數(shù)據(jù)。

        根據(jù)上述分析,將肺結(jié)節(jié)醫(yī)學(xué)影像數(shù)據(jù)集的數(shù)據(jù)清洗流程設(shè)計(jì),見(jiàn)圖3。

        2.3.1 清洗方案的實(shí)施

        本次肺結(jié)節(jié)醫(yī)學(xué)影像數(shù)據(jù)的清洗工作具體實(shí)施步驟如下:

        第一步,對(duì)原始數(shù)據(jù)進(jìn)行倫理批件人工審核,篩除未經(jīng)倫理批準(zhǔn)的數(shù)據(jù),以確保數(shù)據(jù)來(lái)源的合規(guī)性。

        第二步,依照上述清洗流程圖編寫(xiě)清洗程序,將人工審核倫理通過(guò)的數(shù)據(jù)應(yīng)用清洗程序進(jìn)行清洗,以確認(rèn)數(shù)據(jù)真實(shí)唯一可用,排除無(wú)法讀取、不完整的數(shù)據(jù)、無(wú)使用價(jià)值的數(shù)據(jù)和重復(fù)數(shù)據(jù)。

        第三步,脫敏的檢查,在第二步中如果出現(xiàn)敏感信息非空白的數(shù)據(jù),需要人工審核信息是否脫敏(包括原始圖像、頭文件、附加信息中涉及患者隱私的任何信息或字段)并剔除未脫敏數(shù)據(jù)。

        圖3 肺結(jié)節(jié)醫(yī)學(xué)影像數(shù)據(jù)集數(shù)據(jù)清洗流程圖

        第四步,將清洗后的數(shù)據(jù)質(zhì)量問(wèn)題歸類(lèi)輸出,人工溯源到原始數(shù)據(jù)逐一審核確認(rèn)。

        本次數(shù)據(jù)清洗共發(fā)現(xiàn)4大類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題,通過(guò)人工溯源的方式將原始數(shù)據(jù)對(duì)應(yīng)的質(zhì)量問(wèn)題一一核對(duì)確認(rèn),發(fā)現(xiàn)人工溯源一致性為100%,這說(shuō)明依照上述步驟進(jìn)行數(shù)據(jù)清洗的方法準(zhǔn)確有效,既可以快速準(zhǔn)確發(fā)現(xiàn)數(shù)據(jù)問(wèn)題,完成數(shù)據(jù)清洗工作,同時(shí)也節(jié)省了大量的人力和時(shí)間成本。

        2.3.2 清洗結(jié)果及數(shù)據(jù)質(zhì)量問(wèn)題分析

        在本次數(shù)據(jù)清洗中,以數(shù)據(jù)質(zhì)量總體通過(guò)率作為最終的定量指標(biāo),其定義是通過(guò)倫理審核、脫敏審核、數(shù)據(jù)清洗之后的數(shù)據(jù)量除以清洗或?qū)徍饲暗臄?shù)據(jù)總量。肺結(jié)節(jié)醫(yī)學(xué)影像數(shù)據(jù)集的指標(biāo),數(shù)據(jù)質(zhì)量總體通過(guò)率、倫理通過(guò)率、清洗通過(guò)率、脫敏通過(guò)率分別為96%、100%、96%、99%。

        本次數(shù)據(jù)清洗發(fā)現(xiàn)了以下幾類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題:

        (1)存在不唯一數(shù)據(jù)。清洗過(guò)程發(fā)現(xiàn)了與現(xiàn)有的公開(kāi)數(shù)據(jù)庫(kù)存在重合的重復(fù)圖像,這說(shuō)明提供數(shù)據(jù)的機(jī)構(gòu)在數(shù)據(jù)管理方面存在問(wèn)題,或者由于其他原因?qū)е鹿_(kāi)數(shù)據(jù)集的數(shù)據(jù)混入國(guó)內(nèi)臨床數(shù)據(jù)。

        (2)存在不滿足特定要求的數(shù)據(jù):例如規(guī)定CT圖像的層間距層厚比值的可用區(qū)間為[0.6, 1]時(shí),篩除了一批間距過(guò)大甚至不連續(xù)的圖像,例如圖4所示的例子,相鄰兩張圖像由于間距過(guò)大,在輪廓上無(wú)法匹配,也無(wú)法進(jìn)行肺結(jié)節(jié)的標(biāo)注。

        圖4 層間距大于層厚的兩張連續(xù)掃描的CT圖像

        (3)存在不完整圖像、不可讀圖像、純色圖像、圖像缺損、序列缺層、立體區(qū)域不連續(xù)等多種情況,暴露出數(shù)據(jù)質(zhì)量上的種種缺陷。

        (4)存在未脫敏數(shù)據(jù):部分被剔除的醫(yī)學(xué)影像在圖像或頭文件中顯示非脫敏的患者信息,有泄露患者信息的風(fēng)險(xiǎn),說(shuō)明患者隱私保護(hù)的措施目前尚不完備。

        上述問(wèn)題的產(chǎn)生,根源要從DICOM 3.0標(biāo)準(zhǔn)的執(zhí)行角度分析。DICOM 3.0標(biāo)準(zhǔn)雖然對(duì)數(shù)據(jù)交換格式和協(xié)議做了清楚的規(guī)定,但是并未規(guī)定數(shù)據(jù)存儲(chǔ)的具體要求,在具體應(yīng)用中,這部分由使用者自行決定。在CT等醫(yī)學(xué)影像領(lǐng)域,由于行業(yè)管理的規(guī)范性不足以及不同的醫(yī)師操作習(xí)慣不同,導(dǎo)致最終的DICOM數(shù)據(jù)格式不統(tǒng)一。因此會(huì)出現(xiàn)不完整、不唯一、不合要求的數(shù)據(jù),數(shù)據(jù)質(zhì)量參差不齊。這些問(wèn)題在數(shù)據(jù)清洗中應(yīng)及時(shí)被發(fā)現(xiàn)并加以矯正。

        由于數(shù)據(jù)的收集、傳輸、存儲(chǔ)過(guò)程中都會(huì)存在引入不可用數(shù)據(jù)的風(fēng)險(xiǎn),建議從以下幾個(gè)方面控制數(shù)據(jù)質(zhì)量,提升清洗效果:① 數(shù)據(jù)管理人員應(yīng)當(dāng)加強(qiáng)對(duì)數(shù)據(jù)來(lái)源的追溯,充分隔離公開(kāi)數(shù)據(jù)集、驗(yàn)證集和測(cè)試集,避免數(shù)據(jù)污染;② 充分考慮數(shù)據(jù)的特殊要求并在數(shù)據(jù)清洗時(shí)提出針對(duì)性清洗規(guī)則,通過(guò)數(shù)據(jù)清洗將不滿足規(guī)則的數(shù)據(jù)篩除,可以很好提升整體數(shù)據(jù)質(zhì)量。

        3 總結(jié)

        為了保證數(shù)據(jù)多樣性,醫(yī)學(xué)影像數(shù)據(jù)集中的數(shù)據(jù)來(lái)源往往途徑較多,加上醫(yī)學(xué)圖像數(shù)據(jù)的處理方式很難統(tǒng)一,容易產(chǎn)生不可用或者質(zhì)量不過(guò)關(guān)的數(shù)據(jù),這對(duì)下一步的數(shù)據(jù)使用造成了障礙。本文從DICOM數(shù)據(jù)格式標(biāo)準(zhǔn)和相關(guān)法規(guī)出發(fā),明確了數(shù)據(jù)清洗的目標(biāo),設(shè)計(jì)了數(shù)據(jù)清洗流程,進(jìn)行了實(shí)踐檢驗(yàn),并且在應(yīng)用中發(fā)現(xiàn)了不同機(jī)構(gòu)的數(shù)據(jù)集存在的共性質(zhì)量隱患,本研究可在數(shù)據(jù)收集階段加強(qiáng)數(shù)據(jù)的質(zhì)量控制,對(duì)提高基于DICOM格式的醫(yī)學(xué)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量提供幫助,同時(shí)本文工作也為其他醫(yī)學(xué)數(shù)據(jù)清洗工作提供了借鑒思路。

        猜你喜歡
        信息質(zhì)量
        “質(zhì)量”知識(shí)鞏固
        質(zhì)量守恒定律考什么
        做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
        關(guān)于質(zhì)量的快速Q(mào)&A
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        質(zhì)量投訴超六成
        展會(huì)信息
        石器時(shí)代與質(zhì)量的最初萌芽
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        久久久久久久波多野结衣高潮| 中文字幕a区一区三区| 亚洲综合一区二区三区久久| 亚洲成av人片一区二区密柚| 亚洲av片一区二区三区| 中文文精品字幕一区二区| 日韩精品有码中文字幕在线| 国产成人综合精品一区二区| 真实国产精品vr专区| 又污又黄又无遮挡的网站| 国产一区二区三区免费精品| 亚洲日本一区二区在线| 又爽又黄又无遮挡网站| 亚洲精品久久久久高潮| 日韩精品中文字幕 一区| 国产精品成人av一区二区三区| 成人做受黄大片| 狠狠噜天天噜日日噜| 国产亚洲三级在线视频| 久久久中文字幕日韩精品| 色综合久久久久久久久久| 久久青草伊人精品| 粗一硬一长一进一爽一a视频| 水蜜桃在线观看一区二区| 中年熟妇的大黑p| 日韩最新在线不卡av| 日本淫片一区二区三区| 极品少妇hdxx麻豆hdxx| 无遮挡边吃摸边吃奶边做| 国产无遮挡又黄又爽无VIP| 青青草成人免费在线视频| 色综合久久88色综合天天| 日本免费一区尤物| 久久天堂精品一区专区av| 国产精品一区二区性色| 日本不卡一区二区三区在线| 精品国偷自产在线不卡短视频| sm免费人成虐漫画网站| 亚洲最大av网站在线观看| 色综合久久丁香婷婷| 亚洲综合在线一区二区三区|