林允照 張海松 林朦朦
當(dāng)前,全球使用手機及互聯(lián)網(wǎng)等現(xiàn)代通訊設(shè)備用戶數(shù)已達(dá)數(shù)10億。據(jù)文獻(xiàn)[1]報道,2013年全球已有68億部手機,27億在線用戶,其中有20億移動上網(wǎng)用戶,50%用戶會上社交媒體網(wǎng)站。而大量電子數(shù)據(jù)與健康密切相關(guān),每天產(chǎn)生的數(shù)據(jù)多達(dá)10萬億GB,這些信息擁有巨大及潛在的研究應(yīng)用價值,對公共衛(wèi)生機構(gòu)、衛(wèi)生工作者、公眾、私有企業(yè)都將有所助益。從這些海量數(shù)據(jù)中提取有意義且與健康相關(guān)的信息是現(xiàn)今研究的熱點,全球已有許多成功案例,如Bengtsson等[2]利用手機電話網(wǎng)絡(luò)追蹤海地地震后人口行為學(xué)表現(xiàn);Ginsberg等[3]利用谷歌搜索引擎和Twitter軟件對流感實時活動水平進(jìn)行監(jiān)測;Salathe′等[4]利用在線社交網(wǎng)站了解公眾接種疫苗的情緒反應(yīng),進(jìn)而作為傳染病進(jìn)展及控制依據(jù)。
在數(shù)字化時代背景下,數(shù)字流行病學(xué)(Digital Epidemiology)應(yīng)運而生,Gunther[5]于2004年在美國預(yù)防醫(yī)學(xué)雜志提出數(shù)字流行病學(xué)概念,并將其定義為:它是研究電子數(shù)據(jù)分布及其決定因素的一門學(xué)科。他認(rèn)為電子數(shù)據(jù)具有如下特征:①數(shù)據(jù)產(chǎn)生于公眾網(wǎng)絡(luò),如博客、網(wǎng)站、查詢和導(dǎo)航信息等;②能夠公開訪問;③來源于無特定結(jié)構(gòu)文本。數(shù)字流行病學(xué)是一個新興研究領(lǐng)域,它能整合互聯(lián)網(wǎng)上與人們健康相關(guān)的電子數(shù)據(jù),并對其進(jìn)行計量學(xué)分析,最終呈現(xiàn)出數(shù)據(jù)定性及定量趨勢。本文旨在通過對國內(nèi)外文獻(xiàn)復(fù)習(xí),進(jìn)一步探索數(shù)字流行病學(xué)及其在公共衛(wèi)生中的應(yīng)用前景。
公共衛(wèi)生監(jiān)測是公衛(wèi)領(lǐng)域中的重要基礎(chǔ)性工作,突發(fā)公共衛(wèi)生事件存在高度不確定性、大規(guī)模性和復(fù)雜性等特點,這給公衛(wèi)決策以及相關(guān)救援、管理工作帶來了困難。隨著互聯(lián)網(wǎng)的快速發(fā)展,以互聯(lián)網(wǎng)為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù),為實現(xiàn)疾病和公衛(wèi)領(lǐng)域突發(fā)事件的監(jiān)測提供了新途徑[6]。通過對社交網(wǎng)絡(luò)、聊天室、博客、網(wǎng)絡(luò)搜索記錄及在線新聞媒體等數(shù)據(jù)庫的搜索,再利用當(dāng)前先進(jìn)計算機技術(shù),對網(wǎng)絡(luò)信息進(jìn)行整合分析,能夠提升疾病監(jiān)測準(zhǔn)確性。同時,由于數(shù)據(jù)產(chǎn)生具有實時性,不存在地理條件限制,可以提高監(jiān)測時效性[7]。基于互聯(lián)網(wǎng)監(jiān)測工具能實現(xiàn)公衛(wèi)系統(tǒng)各個團(tuán)體之間的信息放射性流通,有效避免了傳統(tǒng)線型公衛(wèi)監(jiān)測所帶來的信息滯后性,進(jìn)而能及時掌握公衛(wèi)事件進(jìn)展并制定應(yīng)對方案[8]。
數(shù)字化監(jiān)測系統(tǒng)是指通過自動化流程,于每小時或每天內(nèi),將系統(tǒng)所收集的資料進(jìn)行組織、整合、過濾和可視化處理,并實現(xiàn)信息在線傳播,最終促進(jìn)全球公共威脅事件的早期預(yù)警。例如谷歌公司在H1N1暴發(fā)之前,通過谷歌搜索引擎了解網(wǎng)民流感信息搜索情況,內(nèi)容涉及紙巾、感冒藥、維生素C及流感相關(guān)性詞條。谷歌公司在后臺對上述數(shù)據(jù)進(jìn)行處理,預(yù)測實際流感暴發(fā)時間。結(jié)果表明,預(yù)測暴發(fā)時間比實際暴發(fā)時間提早了2周~3周[9]。谷歌在傳染性疾病方面的成功預(yù)測,實際上是數(shù)字流行病學(xué)在公衛(wèi)領(lǐng)域應(yīng)用的早期雛形,具有重大衛(wèi)生價值。因為提前預(yù)測某疾病暴發(fā)性趨勢,可幫助政府機構(gòu)以前瞻性眼光應(yīng)對突發(fā)事件,統(tǒng)籌布局,盡可能降低疾病對公眾造成威脅。另外,世界公共衛(wèi)生智能網(wǎng)(Global Public Health Intelligence Network,GPHIN)是由加拿大公共衛(wèi)生局與WHO在1997年一同合作研發(fā)的疫情監(jiān)測平臺[10],其每隔15min便會利用設(shè)備自帶的強大搜索引擎對全世界新聞網(wǎng)站進(jìn)行信息采集,并篩選出與監(jiān)測主題相關(guān)條目,實時發(fā)現(xiàn)或追蹤某重大疫情事件。這些靈活的監(jiān)測方案使信息收集方式更具分布式,可達(dá)到流感疫情的高時間分辨率和空間分辨率,并可外推至其他疾病的公共監(jiān)測。
隨著全球化進(jìn)程加速,人口流動性加快,各種社會經(jīng)濟活動也日趨頻繁,這導(dǎo)致突發(fā)事件發(fā)生率亦隨之攀升,例如2003年在我國發(fā)生卻影響全世界的SARS疫情,2004年暴發(fā)的豬流感,2008年三聚氰胺毒奶粉事件及2012年H7N9流感等。而快速收集公衛(wèi)信息資源,并及時將數(shù)據(jù)資源轉(zhuǎn)化為信息優(yōu)勢,準(zhǔn)確處理信息及響應(yīng)決策,就可在早期有效干預(yù)突發(fā)事件,并為衛(wèi)生行政部門應(yīng)對措施提供合理選擇。因此,信息技術(shù)的發(fā)展在突發(fā)事件處理中發(fā)揮了極其關(guān)鍵的作用。應(yīng)急決策支持系統(tǒng)(Emergency Decision Support System,EDSS)[11]是近年來發(fā)展起來的一種綜合性、整體性、系統(tǒng)性的危機管理應(yīng)用系統(tǒng)。它綜合應(yīng)用計算機、網(wǎng)絡(luò)、通信、多媒體、數(shù)據(jù)挖掘等技術(shù),為突發(fā)事件監(jiān)測和響應(yīng)提供數(shù)據(jù)存儲及管理服務(wù),能準(zhǔn)確采集、傳輸、存儲、處理和分析電子信息,進(jìn)而迅速作出應(yīng)對突發(fā)事件的決策響應(yīng)[12]。當(dāng)前,EDSS已成為應(yīng)急研究領(lǐng)域的重點方向,該系統(tǒng)能利用既往程序及經(jīng)驗,借助網(wǎng)絡(luò)海量信息資源收集,由計算機自動生成應(yīng)急決策方案,幫助決策者組織調(diào)度各方面力量,最大限度保障人民群眾生命財產(chǎn)安全,促進(jìn)決策科學(xué)化。另外,新媒體是一個良好的監(jiān)測媒介和平臺,它能實時監(jiān)測公衛(wèi)事件,還能即時掌握人群對重大公衛(wèi)事件的關(guān)注度及防疫需求。再加上互聯(lián)網(wǎng)受眾和傳播主體更為分散,形成速度更快,內(nèi)容更豐富,能借助互聯(lián)網(wǎng)將應(yīng)對策略進(jìn)行即時性、互動性、豐富性播散,滾雪球優(yōu)勢突出,應(yīng)急成效更為滿意[13]。
公眾在面對某些重大災(zāi)難性事件時,會表現(xiàn)出不同程度恐懼、緊張、焦慮。而公眾往往會借助社交網(wǎng)絡(luò)或即時通訊軟件進(jìn)行負(fù)性情感宣泄,這就為其健康行為監(jiān)測提供了極其豐富的數(shù)據(jù)源[14]。例如網(wǎng)民在流感暴發(fā)期間,在推特、微博等網(wǎng)頁上更新自己即時狀態(tài),內(nèi)容涉及情緒、認(rèn)知、行為,這能作為網(wǎng)民在某一時間內(nèi)健康行為變化的原始資料[15]。顧華等[16]曾從新浪微博及百度搜索指數(shù)中了解浙江省H7N9流行期間公眾健康行為表現(xiàn),并提出流感暴發(fā)后3天內(nèi)是政策制定及實施的關(guān)鍵時間點。另外,數(shù)字流行病學(xué)不僅僅局限于公眾在互聯(lián)網(wǎng)上留下的信息,通過電子終端產(chǎn)品(手機、電話)人為收集的數(shù)據(jù)也在監(jiān)測范圍之內(nèi)。Marloes等[17]利用互聯(lián)網(wǎng)在線調(diào)查方式,了解荷蘭出現(xiàn)個案H1N1感染病例對公眾認(rèn)知風(fēng)險及健康行為的影響,結(jié)果發(fā)現(xiàn),公眾出現(xiàn)焦慮的嚴(yán)重程度與現(xiàn)實流感報道病例數(shù)呈正相關(guān);隨著認(rèn)知風(fēng)險的提高,公眾對衛(wèi)生決策依從性亦逐漸提高。由多倫多公共衛(wèi)生實驗室研發(fā)了一款概念證明型軟件,稱之為“infovigil”[18],其可對互聯(lián)網(wǎng)和社會媒體中的數(shù)據(jù)進(jìn)行識別、歸檔,進(jìn)而分析與健康相關(guān)的信息,了解公眾對某個具體事件的行為、態(tài)度、認(rèn)知水平,起到遠(yuǎn)期追蹤監(jiān)測作用。該軟件可將網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行可視化分析處理,進(jìn)而實現(xiàn)數(shù)據(jù)定性及定量分析。舉例來說,“infovigil”軟件在網(wǎng)絡(luò)監(jiān)測中曾用于研究公眾“笑臉”與“哭臉”比值情況;其中“笑臉”和“哭臉”均由研究者定義概念,確定搜索關(guān)鍵詞,計算相應(yīng)數(shù)據(jù)流之間的比值,以曲線圖方式予以表示。最終,“infovigil”軟件較為準(zhǔn)確地預(yù)測出H1N1流感暴發(fā)時間。
21世紀(jì),隨著人們生活壓力水平的提高,抑郁癥、2型糖尿病、心血管疾病和肺部疾病等慢性病逐漸成為重大健康問題,而上述疾病與患者高危行為密切相關(guān)。這些風(fēng)險因素包括藥物濫用、吸煙、不良飲食習(xí)慣及運動缺乏等,通??稍诨疾∪后w中可發(fā)現(xiàn)共性行為。上述不良行為已潛移默化成為患者生活中的一部分,如何在短時間內(nèi)改變其原有認(rèn)知觀念,并接受衛(wèi)生干預(yù)策略,是一個極具挑戰(zhàn)性的難題,而數(shù)字流行病學(xué)在健康促進(jìn)方面卻大有可為。由于網(wǎng)絡(luò)媒體交互性存在,通過分析不同人群的健康問題,聯(lián)合不同信息工具使用情況及在各種社交媒體中的活躍度,可有針對性地投放健康教育和干預(yù)信息,通過將健康教育內(nèi)容公布在多個主流門戶網(wǎng)站或通訊軟件上,在特定時間內(nèi)比較各網(wǎng)站瀏覽量及轉(zhuǎn)載量,利用計算機處理技術(shù)結(jié)合流行病學(xué)方法,評出在整個數(shù)據(jù)圈內(nèi)影響力最廣門戶網(wǎng)站[19]。公共衛(wèi)生機構(gòu)可在該網(wǎng)站上發(fā)布有關(guān)信息,進(jìn)而使健康營銷行為影響力擴大化,最大程度改變患者認(rèn)知水平,避免醫(yī)療資源浪費。另外,《大數(shù)據(jù)》的作者 Mayer-Schonberger曾指出[20],“現(xiàn)在能夠通過電子終端產(chǎn)品實時了解自身心率及呼吸,還能通過UP腕帶監(jiān)測作用了解自己入睡及清醒時間,使自己每天保持在較佳身心狀態(tài)。這些過去只有大的研究室才能調(diào)查獲得的數(shù)據(jù),現(xiàn)在只需要100美元的UP腕帶就能實現(xiàn)個體化健康管理。”隨后,各種商業(yè)化、電子化、便攜式感應(yīng)器逐步被開發(fā),如睡眠測量儀Zeo、Bodymedia、健康感應(yīng)器fitbit、智能感應(yīng)手表Basis等。哈佛醫(yī)學(xué)院和執(zhí)業(yè)醫(yī)師協(xié)會一同創(chuàng)辦的Healthrageous公司,不僅成功制造了數(shù)字跟蹤記錄設(shè)備,如血壓計、無線計步器、體重秤等,而且還創(chuàng)造了數(shù)據(jù)信息網(wǎng)絡(luò)平臺[21],便于用戶實時上傳數(shù)據(jù)至互聯(lián)網(wǎng)記錄健康動態(tài),這在一定程度上類似于個人健康檔案。而這些數(shù)據(jù)具有高增長性、長期保存性、時空性等特點,臨床醫(yī)生可整合多名同質(zhì)慢性病患者的臨床數(shù)據(jù),并運用數(shù)字流行病學(xué)方法進(jìn)行分析,為與生活方式有關(guān)的醫(yī)學(xué)研究提供了堅實的數(shù)據(jù)基礎(chǔ),大大提升醫(yī)療效率,并提高全民健康水平。
數(shù)字流行病學(xué)的監(jiān)測系統(tǒng)是一個復(fù)雜的綜合應(yīng)用體系,涵蓋網(wǎng)絡(luò)信息挖掘、網(wǎng)絡(luò)信息處理、海量數(shù)據(jù)存儲管理技術(shù)以及Agent技術(shù)等多方面關(guān)鍵技術(shù),是集多種高新技術(shù)于一體的智能信息處理系統(tǒng)[22]。
網(wǎng)絡(luò)信息挖掘是指通過數(shù)據(jù)挖掘技術(shù)、原理從網(wǎng)頁內(nèi)容、網(wǎng)頁之間結(jié)構(gòu)及用戶訪問信息中挖掘具有規(guī)律性及潛在意義信息,進(jìn)而提高網(wǎng)絡(luò)數(shù)據(jù)利用率[23]。根據(jù)網(wǎng)絡(luò)信息來源及挖掘分析的對象不同[24],可分為挖掘信息內(nèi)容、挖掘信息結(jié)構(gòu)及信息使用挖掘。當(dāng)前應(yīng)用較廣的技術(shù)為語義分析,該技術(shù)是指在分析句法結(jié)構(gòu)和每個詞義基礎(chǔ)上,推出能反映該句意義的形式化表達(dá)。通過語義分析,可以理解人類自然語言,并深人獲取推理,從而抽取出自然語句背后的語義信息,使計算機與人類能無障礙溝通[25]。整個語義信息提取的過程,主要包括語法處理、語句過濾、語句主干提取、句型識別、語義提取和語義信息生成6個過程[26]。
以往人們獲得數(shù)據(jù)的方式主要依靠抽樣,即先用統(tǒng)計學(xué)方法獲得數(shù)據(jù)樣本,再將數(shù)據(jù)存儲并進(jìn)行分析,這類通常為結(jié)構(gòu)性數(shù)據(jù),可直接進(jìn)行分類和統(tǒng)計,簡單且清晰。但大多數(shù)網(wǎng)絡(luò)信息為非結(jié)構(gòu)性數(shù)據(jù),不能用一個字段對應(yīng)起來,例如音頻、視頻、圖片、地理信息、時間信息等。但在大數(shù)據(jù)時代,依托云計算,對大量非結(jié)構(gòu)性及半結(jié)構(gòu)性數(shù)據(jù)進(jìn)行解讀將成為可能,而這類數(shù)據(jù)更能洞察計算機用戶習(xí)慣,描述其行為特征,并為最終決策提供依據(jù)[27]。網(wǎng)絡(luò)信息抽取是將分布于互聯(lián)網(wǎng)上滿足特定主題需求的數(shù)據(jù)提取出來,并采取更為清晰化結(jié)構(gòu)表示,為后續(xù)信息進(jìn)一步分析提供規(guī)范化數(shù)據(jù)來源[28]。對于突發(fā)事件信息的監(jiān)測和處理,必須全面監(jiān)控海量互聯(lián)網(wǎng)信息,從中找到突發(fā)事件相關(guān)主題網(wǎng)頁并行相應(yīng)處理。當(dāng)前,按照抽取信息技術(shù)工作原理不同,可劃分為基于包裝器的信息抽取方案[29](經(jīng)典軟件包括WIEN、Softmealy、Stalker等)、基于HTML結(jié)構(gòu)的信息抽取方案(經(jīng)典軟件包括XWRAP和RoadRunner)及基于視覺特性的信息抽取方案(經(jīng)典軟件包括VIPS)。
海量數(shù)據(jù)存儲管理越發(fā)受到各行業(yè)的關(guān)注和重視。①分級存儲是最具有影響力的存儲策略,其在幾乎不降低存儲成本的同時,依舊保持著較高的存儲效率,是極具性價比的存儲方案[30]。②數(shù)據(jù)自動化歸檔技術(shù)是海量存儲管理系統(tǒng)關(guān)鍵技術(shù),尤其適用于衛(wèi)星數(shù)據(jù),將其按相關(guān)要求處理后可及時入庫歸檔,一般設(shè)計為后臺服務(wù)進(jìn)程,開機即啟動,7×24小時隨服務(wù)器運行[31]。③海量數(shù)據(jù)存儲管理系統(tǒng)通常還包括對外提供數(shù)據(jù)服務(wù)功能,這也是數(shù)據(jù)存儲管理系統(tǒng)發(fā)揮價值的關(guān)鍵所在,提供服務(wù)方式一般包括API調(diào)用訂單服務(wù)實時推送等[32]。
Agent技術(shù)可根據(jù)用戶需求,利用某些特定網(wǎng)上功能和檢索方式達(dá)到最快捷的個性化信息檢索目的。信息檢索智能Agent的機理是用戶將自己信息需求提交給信息檢索智能Agent,檢索智能Agent啟動信息檢索程序,分析和理解用戶信息需求,自動進(jìn)入相應(yīng)網(wǎng)站并與服務(wù)器對話,檢索、分析和處理Web頁面,并且對檢索結(jié)果按照用戶思維方式展開優(yōu)化[33]。Agent實際上是以適應(yīng)互聯(lián)網(wǎng)環(huán)境而設(shè)計的一種能按照信息用戶特點和思維方式自動檢索Web頁面、信息資源的智能系統(tǒng)[34]。
數(shù)字流行病學(xué)屬于流行病學(xué)范疇[35],包括如下幾方面。①它屬于流行病學(xué)下面的一個分支,可以利用傳統(tǒng)流行病學(xué)方法,對電子數(shù)據(jù)分布進(jìn)行描述性分析。②數(shù)字流行病學(xué)最根本的目的是為公共衛(wèi)生決策服務(wù),這與流行病學(xué)目的相似。③流行病學(xué)研究對象為人,數(shù)字流行病學(xué)雖然是對電子數(shù)據(jù)的研究,但數(shù)據(jù)歸根結(jié)底是由公眾產(chǎn)生,故人群仍是研究核心。而從人口學(xué)角度考慮,數(shù)字流行病學(xué)具備傳統(tǒng)流行病學(xué)無法替代的優(yōu)勢[36],包括如下幾方面。①樣本數(shù)量更大、更廣泛,可實現(xiàn)大規(guī)模式全人群調(diào)查。②公眾在互聯(lián)網(wǎng)上接受信息到內(nèi)化感知的時間更快,體現(xiàn)出高效性,為公共決策信息的普及制造了可能性。③數(shù)字流行病學(xué)可對特定公眾健康行為、態(tài)度、意識進(jìn)行實時監(jiān)測,并能預(yù)測其未來結(jié)局或轉(zhuǎn)歸。傳統(tǒng)的流行病學(xué)與數(shù)字流行病學(xué)關(guān)聯(lián)性及優(yōu)勢體現(xiàn)見圖1。
圖1 傳統(tǒng)流行病學(xué)與數(shù)字流行病學(xué)關(guān)聯(lián)性及優(yōu)勢體現(xiàn)
圖1 進(jìn)一步揭示了流行病學(xué)(一門研究疾病分布及影響因素的學(xué)科)與數(shù)字流行病學(xué)(一門研究數(shù)據(jù)分布及影響因素的學(xué)科)的關(guān)系。傳統(tǒng)流行病學(xué)數(shù)據(jù)來源主要是針對特定人群的資料收集,并通過統(tǒng)計學(xué)方法分析,得出某一結(jié)論,再將結(jié)果呈報給公共健康專家或政策制定者,最終得出衛(wèi)生決策。衛(wèi)生決策一方面可直接影響人群行為、態(tài)度及健康狀況;另一方面可通過網(wǎng)絡(luò)媒體活動使其影響力得以擴大化。這是傳統(tǒng)流行病學(xué)常用思路,不過整個周期往往是一個耗時過程。例如想要探究某健康飲食習(xí)慣是否成功影響人群行為及認(rèn)知水平,通常需數(shù)月或數(shù)年累積效應(yīng)才能獲取結(jié)果[37]。而隨著互聯(lián)網(wǎng)時代的到來,人群行為、態(tài)度及健康狀況會隨著網(wǎng)絡(luò)信息的出現(xiàn)產(chǎn)生瞬間改變,這便是數(shù)字流行病學(xué)所體現(xiàn)的高效性。數(shù)據(jù)律動性是數(shù)字流行病學(xué)的內(nèi)在屬性,是指電子數(shù)據(jù)隨著某特定主題熱度變化情況而呈現(xiàn)波動性改變[38]。例如當(dāng)人群中出現(xiàn)大面積流感暴發(fā)時,健康網(wǎng)站的日點擊量將會上升,流感相關(guān)信息的搜索量將會增多,網(wǎng)友在QQ或微博中發(fā)表即時狀態(tài),如“我今天感冒了”等的頻率將會增多,與流感相關(guān)書籍的銷量將會增加等[39]。上述情形均是流感到來期間公眾所表現(xiàn)出恐懼心理的另一種代替性形式。實際上,恐懼行為的波動變化與現(xiàn)實中流感疫情變化呈現(xiàn)相關(guān)性效應(yīng),所以,通過對電子數(shù)據(jù)監(jiān)測可間接了解人群健康狀況。
數(shù)字流行病學(xué)的出現(xiàn)在當(dāng)今“互聯(lián)網(wǎng)+”的大數(shù)據(jù)背景下無疑是一場及時雨,它就像一座金庫,能夠引領(lǐng)科研學(xué)者探究未知的寶藏。通過數(shù)據(jù)挖掘技術(shù)全面檢索互聯(lián)網(wǎng)信息并結(jié)合語義分析,可獲取目的數(shù)據(jù)源,并對其進(jìn)行深入剖析,探究數(shù)據(jù)的內(nèi)在性變化趨勢,為衛(wèi)生領(lǐng)域決策的制定提供依據(jù)[40]。國內(nèi)關(guān)于數(shù)字流行病學(xué)的研究尚處于起步階段,這為其在公共衛(wèi)生領(lǐng)域的應(yīng)用提供了廣闊前景。數(shù)據(jù)流行病學(xué)帶來了以下幾方面革命性構(gòu)想[41]:①從抽樣調(diào)查到全人群調(diào)查;②從因果關(guān)系到相關(guān)關(guān)系;③從數(shù)據(jù)收集誠信轉(zhuǎn)變?yōu)槭褂谜邆惱淼赖聠栴};④在流行病學(xué)領(lǐng)域,數(shù)據(jù)分析師將成為未來炙手可熱的新興人才。
當(dāng)然,數(shù)字流行病學(xué)也面臨著一系列挑戰(zhàn),包括如下幾方面。①計算機技術(shù):計算機技術(shù)是數(shù)字流行病學(xué)所面臨的最大困難[42]。因為對大量的電子數(shù)據(jù)進(jìn)行收集、儲存、分析,需要建立大型基礎(chǔ)設(shè)備、相應(yīng)軟件及復(fù)雜程序語言。其中基礎(chǔ)設(shè)備需具備高帶寬、低延遲計算機網(wǎng)絡(luò),以達(dá)到大量信息存儲功能。通過對計算機云技術(shù)創(chuàng)新發(fā)展,達(dá)到較為經(jīng)濟的資源存儲及自動計算功能。②人口代表性不高:代表性不高是數(shù)字流行病學(xué)面臨的又一挑戰(zhàn)[43]。因為,時常上網(wǎng)沖浪人群的人口學(xué)特征趨向于年輕化、高學(xué)歷及高收入。這可能導(dǎo)致與傳統(tǒng)流行病學(xué)類似的偏倚現(xiàn)象出現(xiàn)。當(dāng)然,如果根據(jù)具體情況實施具體分析,則可有效降低偏倚。例如H1N1暴發(fā)期間,由于受影響人群以年輕人居多,因此,實施數(shù)字流行病學(xué)調(diào)研可收到事半功倍的效果。若想要研究罹患阿爾茨海默癥的老年人的行為及認(rèn)知狀況,則數(shù)字流行病學(xué)顯得不大適合[44]。③電子數(shù)據(jù)加工:電子數(shù)據(jù)之間的組合、分類、抽取、重新分布等內(nèi)容亦是當(dāng)前需要面對的主要挑戰(zhàn)之一,數(shù)據(jù)成功加工與否直接影響后續(xù)趨勢分析的開展,因此,探索一套科學(xué)、高效的數(shù)據(jù)處理指南是數(shù)字流行病學(xué)的基石[45]。
數(shù)字流行病學(xué)的發(fā)展應(yīng)結(jié)合我國具體國情,并需深入研究百度或其他中文搜索引擎,改進(jìn)計算機軟件算法,并學(xué)習(xí)先進(jìn)的監(jiān)測技術(shù),盡快建設(shè)傳染病疫情監(jiān)測體系,擴大預(yù)警監(jiān)測范圍,使之不僅局限于疫情常規(guī)監(jiān)測,更是涉及公眾健康、行為及認(rèn)知水平的監(jiān)測。
總而言之,“互聯(lián)網(wǎng)+”背景時代下的大數(shù)據(jù)將開啟一次重大的時代轉(zhuǎn)型,并給公共衛(wèi)生領(lǐng)域帶來顛覆性影響。