趙艷秋
成本降低與時間縮短,給基因在臨床醫(yī)療和健康領域的進一步深入應用和普及帶來曙光。
最近,第11屆國際基因組學大會(ICG)公布了歷時6個月的全球公開競賽結果。
一家從2009年起開展基因檢測臨床轉化研究的初創(chuàng)企業(yè)在“數據壓縮”和“計算加速”兩個項目上刷新世界紀錄。這家名為人和未來生物科技的公司從全球300多家參賽團隊中脫穎而出獲得冠軍,并保持最低的計算成本。
“數據壓縮”和“計算加速”是對基因數據進行處理分析過程中兩個根本性的難題。它們的突破,給基因在臨床醫(yī)療和健康領域的進一步深入應用和普及帶來曙光。
上云的難處
去年起,主流基因數據生產企業(yè)開始面臨數據爆發(fā)式增長的狀況。這些自建計算集群來存儲和處理數據的企業(yè)開始考慮數據上云,并且形成了行業(yè)趨勢。
“云的架構能保證我們獲得很高的數據安全性和穩(wěn)定性。如果我們自己做本地存儲,通常要把數據備兩份甚至三份,肯定不如在云上做存儲好。”人和未來首席技術官宋卓說。
不過,數據上云過程也遇到棘手問題:龐大的基因數據怎么搬上云?要耗多少時間和成本?上云后,基因數據這類大規(guī)模分析項目,根本不是靠簡簡單單地堆砌機器就能完成高效的計算分析。
“云上計算節(jié)點之間有I/O。當你布的節(jié)點越多,I/O之間的數據傳輸就越多。如果你不精細控制,就會形成一大堵“I/O墻”,計算性能大幅下降。這正是基因行業(yè)面臨的兩大難題,也是大賽設定這個比賽題目的根源。
人和未來已經花了兩年時間來突破這兩大難關。他們開發(fā)了“無損壓縮”基因數據的新方法,實現了數據快速上云和存儲?!拔覀儼阉袎嚎s算法都重新梳理了一遍,找到最好的壓縮方式,并在工程技術上做了針對CPU指令集層面的優(yōu)化”。
在這次大賽上,人和未來將200G測試數據無損壓縮到原來的1/15大小,數據傳輸存儲效率自然會大幅提升。
針對數據上云后的計算難題,人和未來基于AWS公有云上的EC2和S3存儲和計算基礎服務,自主研發(fā)構建了數據分發(fā)、調控和存儲體系,繞過I/O墻。
“我們18分鐘完成了對400GB人類全基因組數據的處理。這個級別的數據在單臺高性能服務器上分析計算要花30個小時以上,目前世界范圍內已報道的云上分布式計算的最好成績是1小時50分鐘。”宋卓說。這是一個質的變化,行業(yè)人士對此感到很振奮。
人和未來也希望把在過去兩年所研發(fā)的計算加速和數據挖掘的應用工具和解決方案,提供給健康信息領域的專業(yè)機構。
“這將是一個封裝好的,可以跑在任何云上的解決方案?!彼巫空f。當然,最先選擇基于AWS公有云研發(fā),是因為AWS提供了目前市場上最穩(wěn)定、豐富和靈活的云計算資源。“在AWS上能夠選擇的計算節(jié)點類型是最多的,這讓我們可以根據不同任務類型,選擇最高性價比的機器”。而當分析項目從十幾臺機器到幾百臺,每上一個層次規(guī)模都會觸發(fā)不同問題,需要AWS較為成熟的支持。
巧用“競價”
這次參賽,人和未來的基因數據處理和分析費用為16美元,將全基因組計算帶入“百元時代”。
對于降低成本的秘訣,宋卓介紹,通常購買云服務,付費方式有兩種:一種是按需付費;一種是預付費,一次性先購買一年的服務,成本約是按需付費的六、七折。但是AWS除此以外還提供了SPOT Instance——競價型實例。AWS將閑置的資源用競價方式釋放出來,價格通常是按需服務的1/10,非常低。
“我們一次用幾百個節(jié)點,相對是規(guī)模比較大的。我們與AWS一線人員交流,他們會告訴我們,在全球的范圍內,哪些區(qū)域的SPOT Instance價格比較低,在哪個時間段內競價不會大幅波動?!彼巫空f。
人和未來在此次競賽中巧用競價模式,最終只花了16美元。
成本降低與時間縮短推動了基因檢測技術的實際應用,極具現實意義。2011年前后,基于基因檢測技術的的無創(chuàng)唐篩(唐氏兒篩查)被引入臨床。與傳統(tǒng)羊水穿刺相比,它準確率高且無創(chuàng)?,F在,全國每年有100萬以上的孕婦選擇無創(chuàng)唐篩。它的終端價格是2000元,基本為人們所接受。
目前,人和未來與三甲醫(yī)院臨床疾病和腫瘤相關科室、健康體檢和健康管理機構以及保險公司合作,開發(fā)相應的檢測產品。不過,基因技術要在臨床的各種應用中得到普及,需要成本的進一步下降。
宋卓透露,除了后端的分析計算成本外,前端通過基因測序儀生成數據的價格目前仍比較昂貴。如果前端測序價格能進一步降低,就會催生出更多數據?!拔夜烙?,測序價格從現在的1000美元降到500美元,基因檢測將更深刻的影響社會的醫(yī)療和健康產業(yè)。這需要兩三年時間?!彼f。到那時,更多的基因檢測將會在臨床和大健康行業(yè)得到更多應用。