龔華東
WSARE(What’s Strange About Recent Events)的中文譯名叫異常模式探測法。是用于針對生物孔博襲擊與傳染病爆發(fā)的監(jiān)測與早期預(yù)警領(lǐng)域[1]。在美國已經(jīng)被納入美國實(shí)時暴發(fā)監(jiān)測系統(tǒng)(RODS system)。該統(tǒng)計模型對于探測傳染病或者是癥候群的聚集性具有很重要的應(yīng)用價值,但是由于在解決其算法優(yōu)化和維度的拓展方面存在一定的困難,一種基于歷史數(shù)據(jù)基線的WSARS算法被應(yīng)用于賓夕法尼亞州和猶他州的急診病例監(jiān)控[2]。另一種是基于貝葉斯網(wǎng)絡(luò)基線的WSARE算法被美國的公共衛(wèi)生部門與以色列國家疾病預(yù)防控制中心所使用。WSARE作為一種融合了包括規(guī)則算法、貝葉斯網(wǎng)絡(luò)、隨機(jī)化檢驗(yàn)等多種思想的聚集性探測算法,具有強(qiáng)大的實(shí)用性。在2004年我國首次建立了傳染病疫情信息網(wǎng)絡(luò)直報系統(tǒng),本研究旨在探討WSARE算法對我國該系統(tǒng)數(shù)據(jù)的適用性,及對傳染病暴發(fā)早期預(yù)警的應(yīng)用價值。
1.1 基本原理 WSARE算法是基于歷史數(shù)據(jù)和貝葉斯網(wǎng)絡(luò)的基線,兩者的區(qū)別在于基線分布的建立,歷史數(shù)據(jù)基線是以歷史數(shù)據(jù)選定天數(shù)作為基線,而后者是從構(gòu)建的貝葉斯網(wǎng)絡(luò)中抽樣構(gòu)造基線后,再建立基線分布后,對最近發(fā)生的事件進(jìn)行搜索,用基線和最近數(shù)據(jù)集尋找最佳得分規(guī)則,再隨機(jī)檢驗(yàn)估計最佳規(guī)則的P值,從而得到有意義的P值及規(guī)則作為預(yù)警信號。
1.2 一般資料 對于傳染病的數(shù)據(jù)來源我們選擇了2010年廣州市番禺區(qū)細(xì)菌性痢疾患者數(shù)據(jù),通過核查,排除干擾性數(shù)據(jù)與資料記載不完備的數(shù)據(jù)外,得到的細(xì)菌性痢疾數(shù)據(jù)38例,選擇數(shù)據(jù)中的性別、年齡、詳細(xì)地址、發(fā)病日期、職業(yè)等作為變量。轉(zhuǎn)換變量名稱為,時間變量、空間變量、患者性別、年齡、職業(yè)。其中,將“發(fā)病時間”作為時間變量納入分析,患者住址作為空間變量,年齡經(jīng)過分層納入分析。
1.3 參數(shù)設(shè)置與方法 將2008~2009年的細(xì)菌性痢疾數(shù)據(jù)作為歷史基線數(shù)據(jù),對2010年進(jìn)行逐日模擬實(shí)時預(yù)警分析。采用歷史數(shù)據(jù)基線的WSARE算法考慮到細(xì)菌性痢疾的潛伏期為2周,所以基線的設(shè)置時間為每2周,所以基線時間的間隔就確定為2周,而基線時間長度為4周。而采用貝葉斯網(wǎng)絡(luò)的基線的WSARE算法中將參數(shù)“day-of-week”“season”作為環(huán)境變量。
采用基于歷史數(shù)據(jù)基線的WSARE算法模擬探測結(jié)果如表1。隨機(jī)化檢驗(yàn)α=0.05。探測到全年異常增高共19次,其中發(fā)現(xiàn)雙特征變量聯(lián)合異常增高情況6次,單特征變量異常增高情況13次。見表1。
采用基于貝葉斯網(wǎng)絡(luò)基線的WSARE算法模擬探測結(jié)果。表2探測到全年異常增高共51次,其中發(fā)現(xiàn)雙特征變量聯(lián)合異常增高情況27次,單特征變量異常增高情況24次。
表1 歷史數(shù)據(jù)基線分析表
表2 貝葉斯網(wǎng)絡(luò)基線的WSARE算法模擬探測結(jié)果
兩種方法均發(fā)出預(yù)警信號的天數(shù)共7次,其中有4次預(yù)警信號的特征變量值相同。由此可見對于異常增加較為明顯的狀況下,即便采用基線選取的方法不同,依然能夠發(fā)現(xiàn)存在的明顯差異,同時也說明這類預(yù)警信號通常具有較強(qiáng)的現(xiàn)實(shí)意義。
作為一種早期預(yù)警系統(tǒng),對于算法的正確性的要求是高的。WSARE算法是通過對“最近事件”與基線分布的區(qū)隔是否有顯著的差異,來探查發(fā)病的異常增高,并及時的發(fā)出預(yù)警信號。但是預(yù)警信號不等同于流行病學(xué)意義上的“暴發(fā)”[3],因此對于預(yù)警信號需要進(jìn)一步的現(xiàn)場調(diào)查與確認(rèn)和在流行病學(xué)上的評估分析。
根據(jù)本研究的結(jié)果顯示,預(yù)警信號與實(shí)際存在差距需要引進(jìn)預(yù)警信號的分級辦法,對于不同意義的預(yù)警信號,編列強(qiáng)度等級,并做好相關(guān)的預(yù)案。用“藍(lán)、黃、紅、黑”四個等級強(qiáng)度表示在流行病學(xué)上相對應(yīng)的級別[4]。對于高級別的預(yù)警信號,當(dāng)采取立即核實(shí)名排除誤報的可能,組織專業(yè)的流行病學(xué)專家到現(xiàn)場調(diào)查與實(shí)驗(yàn)室檢測,對存在真實(shí)的傳染病暴發(fā)地應(yīng)立即啟動傳染病應(yīng)急預(yù)案,進(jìn)行干預(yù)防治工作。
在變量的選擇方面,可以根據(jù)研究方向的側(cè)重點(diǎn)與病種的特性進(jìn)行技術(shù)性的調(diào)整。在貝葉斯網(wǎng)絡(luò)基線的算法中在去除作為探測因素的反映變量還可以將環(huán)境變量作為反映變量的變異納入分析中,在本研究中,環(huán)境變量參數(shù)設(shè)置上納入有星期數(shù)、季節(jié)、氣候、食品與水環(huán)境、藥物可及性等[5]。但是由于變量的增加會導(dǎo)致基線所需要的數(shù)據(jù)量與運(yùn)算時間的增加。這就要求在數(shù)據(jù)的真實(shí)性與運(yùn)算耗時的選擇上,根據(jù)研究課題的方向性做取舍。
在對于WSARE運(yùn)算的應(yīng)用角度來看,Wong等人在通過模擬數(shù)據(jù)研究發(fā)現(xiàn),WSARE算法在多元分類資料異常情況探測中,對于單因素方法上更為有效,他的優(yōu)勢在于能識別不同特征變量組合所構(gòu)成的異常組群,無需對特定組合進(jìn)行監(jiān)測。在時效性與精確性方面的優(yōu)勢也是明顯對于監(jiān)測傳染病的網(wǎng)絡(luò)直報系統(tǒng)中對于數(shù)據(jù)的檢測與預(yù)警具有良好的前瞻性應(yīng)用前景。而貝葉斯網(wǎng)絡(luò)基線的算法是以長期的歷史數(shù)據(jù)構(gòu)造貝葉斯網(wǎng)絡(luò),他的特點(diǎn)是納入環(huán)境屬性,考慮了季節(jié)等時間趨勢因素,在對于長期監(jiān)測預(yù)警,如對法定傳染病、慢性疾病監(jiān)測等,采用該算法具有明顯優(yōu)勢。根據(jù)本研究結(jié)果顯示,對于實(shí)時監(jiān)測預(yù)警可結(jié)合兩種算法的結(jié)果,以綜合考慮長期和短期的波動異常。
[1]Stoto MA,Schonlau,M,Mariano LT.Syndromic surveillance:Is it worth the effort[J].Chance,2008,18(2):21-24.
[2]Reingold A.If syndromic surveillance is the answer.what is the question[J].Biosecur Bioterror,2009,10(8):79-83.
[3]Kulldorff M.Prospective time-periodic geographical disease surveillance using a scan statistic[J].J R Stat Soc A Stat Soc,2009,172(11):69-71.
[4]Kulldorff M.Syndromic surveillance without denominator data:the spacetime permutation scan statistic for disease outbreak detection[J].PLOS Med,2009,2:219-223.
[5]殷菲,馮子健,李曉松,等.前瞻性時空掃描統(tǒng)計量在傳染病早期預(yù)警中的應(yīng)用[J].中華預(yù)防醫(yī)學(xué)雜志,2009,41(2):121-123.