張燕 廣州工商學(xué)院
生物信息學(xué)是一門交叉學(xué)科,綜合了數(shù)學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、生物學(xué)等學(xué)科。隨著海量基因組數(shù)據(jù)的誕生,如何深入挖掘這些數(shù)據(jù)所蘊(yùn)含的信息是一個(gè)亟待解決的問題。然而這些數(shù)據(jù)難以識別,數(shù)量過多,所涉及的處理與分析步驟多且繁瑣,傳統(tǒng)的數(shù)據(jù)處理方法無法使用,因此需要更高能力的數(shù)據(jù)計(jì)算分析和存儲(chǔ)能力。而云計(jì)算有高速計(jì)算能力、超大存儲(chǔ)量及應(yīng)用特點(diǎn),因此通過云存儲(chǔ)漸漸成為生物計(jì)算發(fā)展的趨勢。
基因組數(shù)據(jù)持有者廣泛而安全地使用數(shù)據(jù)是發(fā)揮數(shù)據(jù)價(jià)值、提供基于數(shù)據(jù)的作用的前提條件。現(xiàn)實(shí)中,有很多方式致力于解決此問題,如STATA,SPSS等基礎(chǔ)軟件,后出現(xiàn)了貝葉斯網(wǎng)絡(luò)、聚類分析等統(tǒng)計(jì)學(xué)方法。然而隨著基因組數(shù)據(jù)高通量的增長,準(zhǔn)確運(yùn)用數(shù)據(jù)、從而發(fā)現(xiàn)數(shù)據(jù)信息的復(fù)雜性也在不在增加,如何有效處理實(shí)驗(yàn)中產(chǎn)生的海量數(shù)據(jù)引起了研究者們的廣泛注意。人們清楚地認(rèn)識到對這些海量數(shù)據(jù)進(jìn)行簡單處理是遠(yuǎn)遠(yuǎn)不夠的,必須有更有效的方法才能獲取更有價(jià)值的信息。本項(xiàng)目力圖解決分析海量數(shù)據(jù)時(shí)存在的問題,符合大數(shù)據(jù)時(shí)代的發(fā)展趨勢,有助于推動(dòng)大數(shù)據(jù)分析技術(shù)的發(fā)展,具有現(xiàn)實(shí)意義。
通過對研究內(nèi)容和關(guān)鍵問題的分析,本項(xiàng)目提出了相應(yīng)的研究方法和技術(shù)路線。對于大數(shù)據(jù)環(huán)境下的基因組數(shù)據(jù),本項(xiàng)目引入云計(jì)算平臺(tái),通過該平臺(tái)分析基因組數(shù)據(jù)的相互關(guān)系,并預(yù)測。云計(jì)算平臺(tái)這幾年發(fā)展非常迅速,適合分析高通量數(shù)據(jù)。通過較成熟的理論基礎(chǔ)與技術(shù)平臺(tái)結(jié)合,可以得出準(zhǔn)確結(jié)論。
基于國內(nèi)外文獻(xiàn)研究分析,2018年初開始研讀相關(guān)文獻(xiàn),了解最新研究成果。且課題組成員具備完成課題的能力:團(tuán)隊(duì)成員結(jié)構(gòu)合理,其中包括科研、教學(xué)經(jīng)驗(yàn)豐富的教師;學(xué)歷層次高,絕大部分為碩士以上學(xué)歷;科研能力強(qiáng),大部分成員主持或參與過科研項(xiàng)目,且發(fā)表了高質(zhì)量的科研論文。
云計(jì)算從提出到今天已經(jīng)有10多年的歷史,現(xiàn)在平臺(tái)建設(shè)日漸成熟,尤其隨著數(shù)據(jù)數(shù)量越來越繁多,種類越來越繁多,云計(jì)算已經(jīng)成為一種不可或缺的重要方式。
經(jīng)濟(jì)效益方面,則有以下幾種情況:
(1)準(zhǔn)確、安全、有效地通過云計(jì)算平臺(tái)處理好基因組間的相互關(guān)系,可以進(jìn)一步推進(jìn)生物、醫(yī)學(xué)的發(fā)展,彌合基因組的關(guān)系預(yù)測在技術(shù)上的鴻溝。
(2)有效處理基因組的關(guān)系(基因測序)帶來了商業(yè)價(jià)值,提高了經(jīng)濟(jì)效益。本項(xiàng)目基于經(jīng)濟(jì)學(xué)的研究思路,使得基因關(guān)系更容易走向商業(yè)。在本領(lǐng)域有很多成功的例子:例如,2011年,華盛頓大學(xué)里26臺(tái)基因測序儀器中的一臺(tái),以及一臺(tái)超級計(jì)算機(jī),經(jīng)過幾周晝夜不停地運(yùn)行,準(zhǔn)確找出了沃特曼(一名白血病患者)的病因——一個(gè)正?;騀LT3表達(dá)過于活躍,刺激了沃特曼癌細(xì)胞的快速生長增殖;并找到一種可以抑制基因表達(dá)的新藥。這使得沃特曼成為第一個(gè)用此藥治療白血病的病人,且病情好轉(zhuǎn)。再例如,蓮的兩個(gè)子類:熱帶蓮(清邁野蓮)和溫帶蓮(中湖野生蓮),它們有不同地理來源(由太平洋分開),但保持相同染色體數(shù)目。通過基因組測序分析二者之間的關(guān)系,對了解蓮的基因多樣性和親緣關(guān)系,以及對種質(zhì)資源的育種和非原位保存有重要意義。因此,基于本項(xiàng)目的新的安全有效的基因測序必定帶來新的商業(yè)機(jī)會(huì)。
(3)有助于大數(shù)據(jù)戰(zhàn)略,帶來社會(huì)效益。大數(shù)據(jù)是建設(shè)智慧城市的基礎(chǔ),然而只有對大數(shù)據(jù)在“集大成”的基礎(chǔ)上重組分析,數(shù)據(jù)的價(jià)值才能不斷放大,成為“智慧”。
至于風(fēng)險(xiǎn)分析,由于基因組數(shù)據(jù)量多,導(dǎo)致可能選取不準(zhǔn)確,從而影響實(shí)驗(yàn)結(jié)果。
要達(dá)到的主要經(jīng)濟(jì)、技術(shù)指標(biāo)為:準(zhǔn)確對高通量基因組數(shù)據(jù)進(jìn)行測序分析并預(yù)測,及時(shí)應(yīng)用到白血病、乳腺癌等疾病的臨床診斷中,使得該技術(shù)及早造福社會(huì),帶來經(jīng)濟(jì)效益。
云計(jì)算所具有的高速計(jì)算能力、高存儲(chǔ)量及使用特點(diǎn)很好地滿足了這些需求,因此融合云計(jì)算漸漸成為生物計(jì)算發(fā)展的趨勢[5]。本文介紹了云存儲(chǔ)基因組數(shù)據(jù)的可行性研究。