亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        降低數(shù)據(jù)稀疏性的多維時序序列時間戳對齊方法

        2022-04-28 14:10:12李廣盛鄭建立車霞靜
        智能計算機與應用 2022年4期
        關鍵詞:分類模型

        李廣盛,鄭建立,車霞靜

        (1上海理工大學 健康科學與工程學院,上海 200093;2上海交通大學附屬仁濟醫(yī)院,上海 200127)

        0 引 言

        在過去的二十年中,時間序列分類(time series classification,TSC)被認為是數(shù)據(jù)挖掘中最具挑戰(zhàn)性的問題之一。隨著時間數(shù)據(jù)可用性的增加,自2015年以來已有數(shù)百種TSC算法被提出。由于時間序列數(shù)據(jù)的自然時序性,幾乎每一個需要某種人類認知過程的任務中都會出現(xiàn)時間序列數(shù)據(jù)。時間序列廣泛存在各類研究工作中,包括電子健康記錄、人類活動識別到聲學場景分類和網(wǎng)絡安全等領域。但由于種種原因,如收集錯誤、故意損壞、醫(yī)療事件、節(jié)省成本、設備異常等,往往會不可避免地出現(xiàn)丟失觀測數(shù)據(jù)和不規(guī)則采樣等現(xiàn)象,使得時序序列數(shù)據(jù)稀疏性大大增加,阻礙了分類任務的開展。

        針對時序序列中缺失問題,從不同的解決方法來看,主要可以分為2類。一是以專家知識為基礎進行手工填補和重采樣;二是利用深度學習等方法實現(xiàn)端到端的數(shù)據(jù)填補及分類。前者主要利用專家知識,根據(jù)時序序列數(shù)據(jù)的觀測變量等信息進行缺失值的填補和修正,后者利用深度學習強大的抽象表征能力和擬合能力來實現(xiàn)數(shù)據(jù)的填補和分類[11-14]。

        基于專家知識的方法盡管可解釋性較強,但是卻費時費力;而基于深度學習方法在原始數(shù)據(jù)集上直接填補盡管能夠取得不錯的效果,但是卻忽視了不規(guī)則采樣等問題。此外,數(shù)據(jù)集中可能存在部分數(shù)據(jù)缺失率過高,使得模型無法抽取其潛在信息,模型的填補效果大打折扣。本文提出一種基于數(shù)據(jù)集中自帶的時間戳數(shù)據(jù),通過數(shù)據(jù)時間戳對齊和下采樣方法,在多個公開數(shù)據(jù)集以及私有數(shù)據(jù)集和近年來提出的深度學習時序序列分類算法上的實驗表明,該方法能夠在基本不損失模型效果的同時,有效減小數(shù)據(jù)集的稀疏規(guī)模和模型訓練時間。

        1 相關方法

        在本節(jié)中,本文先給出多維時序序列的相關定義,之后將相關方法分為時間戳對齊和基于分布密度的下采樣兩步講述,具體流程示意圖如圖1所示。

        圖1 時間戳對齊和下采樣流程示意圖Fig.1 Schematic diagram of time stamp alignment and downsampling process

        1.1 多維時序序列的定義

        1.2 時間戳對齊

        由于數(shù)據(jù)集的不規(guī)則采樣,導致雖然數(shù)據(jù)采樣點的時間跨度非常大,但是數(shù)據(jù)點的個數(shù)卻非常少,具體到每一個樣本更是不盡相同。例如在Physionet數(shù)據(jù)集中,總共有48×60 min,共2 880個數(shù)據(jù)可采樣點。但事實上該數(shù)據(jù)集中最大樣本的數(shù)據(jù)采樣點個數(shù)只有249,而最小樣本的數(shù)據(jù)采樣點個數(shù)只有1??紤]到深度學習模型在訓練時一般采用小批量(mini-batch)做法,因此需要在較短的樣本尾部填充無意義的屏蔽值(mask value),使模型的輸入等長。但是這樣的對齊在RNN模型中是有缺陷的,RNN模型的每一個時刻輸入是mini-batch在時間維上的切片,上述做法會使得切片中包含的不同樣本數(shù)據(jù)點沒有對齊,即樣本的t時刻的數(shù)據(jù)和樣本的t時刻數(shù)據(jù)同時輸入RNN模型,這樣會導致模型效果欠佳。因此,需要做數(shù)據(jù)對齊。

        首先本文根據(jù)時間戳的最小粒度和其時間跨度,構建一個具有最長數(shù)據(jù)點長度的無值背景板,再根據(jù)原始數(shù)據(jù)對應的時間戳將每一個數(shù)據(jù)點嵌入其中,這樣就得到了一個完整的所有樣本數(shù)據(jù)點都對齊了的數(shù)據(jù)集,實現(xiàn)了數(shù)據(jù)點的物理位置和邏輯位置的統(tǒng)一。根據(jù)上述做法,Physionet數(shù)據(jù)集的維度從原始的3 994×203×41,最終則轉換成了3 994×2 881×41。

        1.3 基于數(shù)據(jù)分布密度的下采樣

        在將數(shù)據(jù)對齊后,數(shù)據(jù)集的稀疏性會進一步擴大,需要做進一步的處理來減小數(shù)據(jù)集的稀疏性。本文定義在時間軸上的數(shù)據(jù)集分布密度函數(shù),具體如下:

        根據(jù)定義可知,當()較小時,說明樣本在對應時間戳∈[tt)中分布較少,該區(qū)間的稀疏性較大。本文通過求解該區(qū)間所有觀測變量的均值來替代該稀疏區(qū)域,實現(xiàn)數(shù)據(jù)稀疏性的減小,計算公式如下:

        其中,t可用如下數(shù)學公式計算得出:

        圖2給出了Physionet數(shù)據(jù)集原始和預處理后的數(shù)據(jù)密度分布圖像。從圖2中可以明顯看出,經(jīng)過預處理的數(shù)據(jù)在時間軸上的分布密度顯著提升,并且基本保留原始分布密度的分布趨勢。

        圖2 Physionet數(shù)據(jù)集數(shù)據(jù)分布密度Fig.2 Data distribution density of Physionet data set

        在經(jīng)過預處理后,Physionet數(shù)據(jù)集大小從經(jīng)過時間戳對齊后的3 994×2 881×41轉換成了3 994×100×41。對比該數(shù)據(jù)集原始的大小可以發(fā)現(xiàn),經(jīng)過處理后的Physionet數(shù)據(jù)集的大小是原來的0.493倍,顯著減少了數(shù)據(jù)集的尺寸。

        2 實驗結果

        2.1 數(shù)據(jù)集

        Physionet challenge 2012是physionet.org在2012年舉辦的一個多維時序序列分類和回歸比賽。該比賽使用的數(shù)據(jù)是12 000名因心臟病、內科、外科等原因而住院的ICU病人的記錄,包括白蛋白(Albumin)、堿性磷酸酶(ALP)、谷丙轉氨酶(ALT)等36個觀測變量和年齡、身高、體重等6個一般描述符,共42個變量。除一般描述符外,囿于病人身體狀態(tài)差以及醫(yī)療設備工作性質等原因,在36個觀測變量中有很多缺失值,且每一個觀測的時間間隔也不相同。數(shù)據(jù)集中給出了每一個觀測的相關時間戳,該時間戳的分度值是分鐘,即時間的最小粒度為每分鐘。該挑戰(zhàn)賽設立了5個分類任務和一個回歸任務。本文主要使用的是其中的死亡預測任務,即預測病人在48 h后是否死亡。這也是下文涉及的算法在提出時被使用到的任務。

        MIMIC-III Clinical DataBase是一個大型的公開數(shù)據(jù)庫,其中包括了2001年至2012年期間在美國BIDMC醫(yī)療中心重癥監(jiān)護病房住院的超過4萬名患者的已確認的健康相關數(shù)據(jù)。該數(shù)據(jù)庫包括人口統(tǒng)計信息、在床邊進行的生命體征觀測、實驗室檢測結果、程序、藥物、護理記錄、影像報告和死亡率等記錄。通過數(shù)據(jù)挖掘、信息提取等手段,從該數(shù)據(jù)庫中提取了份存在大量缺失值和不規(guī)則采樣的ICU住院病人48 h內的時序序列數(shù)據(jù)、對應的時間戳和死亡預測標簽。該數(shù)據(jù)一共有12個觀測變量,包括血氧飽和度(SpO2)、心率(HR)、呼吸速率(RR)、收縮壓(SBP)等。和Physionet一樣,本文也是使用其作為分類任務。

        腎移植術后數(shù)據(jù)集是來自某三甲醫(yī)院腎移植科的931名腎移植患者術后生理檢查的數(shù)據(jù)集,其中包括血常規(guī)、尿常規(guī)和血藥濃度等共87個觀測變量。該數(shù)據(jù)集的時間戳較為特殊,以腎移植手術當天為第零天,手術后所做檢查的時間戳都為正整數(shù),手術前所做檢查的時間戳皆為負整數(shù),時間戳的單位長度為一天。一般腎移植患者術后需住院幾周,因此,數(shù)據(jù)在第零天周圍分布比較密集。之后因病人經(jīng)濟原因、個人意愿以及地域等因素,使得病人做生理檢查次數(shù)較少、檢查范圍不全,從而導致數(shù)據(jù)分布十分稀疏且不規(guī)則。該數(shù)據(jù)集的標簽分為感染、排異和正常三個類型,分別描述了病人腎移植術后自身免疫力水平低、高、正常對移植腎的影響。

        圖3給出了上述3個數(shù)據(jù)集原始缺失率和經(jīng)過下采樣后的缺失率。從圖3中可以發(fā)現(xiàn),腎移植數(shù)據(jù)集缺失率較另外2個數(shù)據(jù)集缺失率更高,下采樣效果不明顯,但是對于Physionet數(shù)據(jù)集和MIMIC-III數(shù)據(jù)集,下采樣均有效降低了數(shù)據(jù)集的缺失率。

        圖3 3個數(shù)據(jù)集下采樣前后缺失率對比圖Fig.3 Comparison of missing rates among three data sets with and without downsampling

        2.2 相關分類算法

        GRUD,全稱GRU-deacy。文獻[12]通過分析缺失值的類型給出了2個缺失模式,分別是:固定缺失值模式和衰減收斂缺失值模式。其中,固定缺失值模式指某個觀測變量的缺失值和該觀測變量最早的記錄值相同;衰減收斂缺失值模式指觀測變量在經(jīng)過較長時間變化后逐漸收斂,如MIMIC-III中SpO2等觀測變量。研究中根據(jù)這2種缺失值模式提出了填補函數(shù),并將填補過程嵌入普通GRU模型,構建了一個端到端的對具有缺失值和不規(guī)則采樣的多維時序序列進行分類的深度學習算法,在原始Physionet數(shù)據(jù)集實驗表明,該算法能夠有效地實現(xiàn)對病人死亡與否的預測,其達到了0.831,是一個強有力的基線。

        Interp-net通過構建了一個插值網(wǎng)絡來捕獲輸入數(shù)據(jù)的平滑趨勢、瞬態(tài)和觀測強度信息共三個維度的信息,以適應使用稀疏和不規(guī)則采樣數(shù)據(jù)作為有監(jiān)督學習輸入的復雜性,從而得到一個規(guī)則間隔和無缺失值的輸出,在此基礎上將利用預測網(wǎng)絡計算出最后的分類結果。與GRUD不同的是,該模型完全是模塊化的,其插值網(wǎng)絡和預測網(wǎng)絡是分開的。在原始MIMIC-III數(shù)據(jù)集上達到了0.853。

        2.3 結果

        由于3個數(shù)據(jù)集標簽分布并不均勻,因此本文采用ROC曲線下面積來衡量模型的效果。的計算方法同時考慮了分類器對于正例和負例的分類能力,在樣本不平衡的情況下,依然能夠對分類器做出合理的評價。實驗中將數(shù)據(jù)集分為訓練集、驗證集、測試集,其比例為0.64:0.16:0.2。模型超參數(shù)均為模型研發(fā)者提供的默認值,其中,Physionet數(shù)據(jù)集和腎移植數(shù)據(jù)集的批次大小為128,MIMIC-III批次大小為256。

        表1顯示了上述模型在3個原始數(shù)據(jù)集和預處理后訓練的最終效果。從表1中可以看出,模型在經(jīng)過預處理的數(shù)據(jù)集上的效果幾乎同模型在原始數(shù)據(jù)集上效果相同,損耗在0.003。

        表1 GRUD、Interp-net模型在Physionet、MIMIC-III、腎移植數(shù)據(jù)集上AUC效果表Tab.1 AUC effect table of GRUD and Interp-net models on Physionet,MIMIC-III,and kidney transplantation data sets

        本文還對比了上述模型在這2類數(shù)據(jù)集上訓練所需時間,所有訓練內容都在一張Nvidia Tesla P40顯卡上進行。實驗結果見表2,單位為hour/epoch。從表2中可以明顯看出模型在經(jīng)過預處理的數(shù)據(jù)集上達到收斂點的時間較短,能夠有效地縮短模型的訓練時間:在相同模型情況下,經(jīng)過處理后的數(shù)據(jù)集的訓練時間與原始數(shù)據(jù)集訓練時間相比,平均減少了42.1%。尤需指出的是,腎移植數(shù)據(jù)集在GRUD算法上則減少了50%。

        表2 GRUD、Interp-net模型在Physionet、MIMIC-III、腎移植數(shù)據(jù)集上訓練時間表Tab.2 Training schedule of GRUD and Interp-net models on Physionet,MIMIC-III,and kidney transplantation datasetshour·epoch-1

        3 結束語

        本文提出了一種新的多維時序序列預處理方法。首先利用數(shù)據(jù)集自帶的時間戳,實現(xiàn)原始數(shù)據(jù)在時間刻度上的對齊;然后通過觀察數(shù)據(jù)集在時間軸上的分布密度來縮小分布密度較低的區(qū)間,最終得到一個規(guī)則采樣且數(shù)據(jù)稀疏性大大減少的新數(shù)據(jù)集。實驗結果顯示與原始數(shù)據(jù)集相比,在基本不損失模型效果的情況下,該方法顯著減小了模型訓練所需要的時間。但是,該方法不夠自動化,仍需要手動選擇需要縮小的區(qū)間。因此,性能上更為優(yōu)越的自動化是未來探索的方向。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        亚洲av中文无码字幕色三| 国产成年人毛片在线99| 在线亚洲高清揄拍自拍一品区| 99精品国产高清一区二区麻豆| 国产精品白浆一区二区免费看| 久久亚洲精品成人av观看 | 综合图区亚洲另类偷窥| 天堂…在线最新版资源| 精品一区二区av天堂| 亚洲在中文字幕乱码熟女| 国产精品一区二区三久久不卡| 影音先锋女人av鲁色资源网久久| 欧美在线播放一区二区| 一区二区日本影院在线观看| 国产亚洲自拍日本亚洲 | 国产乱人伦av在线麻豆a| 中文字幕无码日韩专区免费 | 免费久久久一本精品久久区| 色一情一区二区三区四区| 日韩在线看片| 91亚洲夫妻视频网站| 欧洲美熟女乱av亚洲一区| 最新国产乱人伦偷精品免费网站| 亚洲九九九| 免费看av网站在线亚洲| 未满十八勿入av网免费| 最近日韩激情中文字幕| 国产美女高潮流的白浆久久| 久久人妻av无码中文专区| 精品国产一区二区三区av 性色| 欧美激情精品久久999| 91九色播放在线观看| 国产精品www夜色视频| 精品国内自产拍在线视频| 亚洲伊人伊成久久人综合| 日本边添边摸边做边爱喷水| 人人妻人人爽人人做夜欢视频九色 | 亚洲一区二区高清精品| 国产91精品一区二区麻豆亚洲| 亚洲国产精品一区二区www| 国产欧美成人|