孫 洋 張 輝
我們在前期文章中,針對蛋白質結構生物多樣性的基礎特征,建立了蛋白質結構與圖像的聯(lián)接關系,其中涉及設計深度學習模型、建立模型訓練數(shù)據(jù)庫、驗證數(shù)據(jù)庫、設計及研發(fā)相關算法和軟件系統(tǒng)。根據(jù)蛋白質的序列特征,對數(shù)據(jù)進行合理標注,形成蛋白質序列與微觀藝術的基本關系,實現(xiàn)蛋白質與藝術創(chuàng)作、圖像融合的跨領域合并。以蛋白質編碼為基本數(shù)據(jù)輸入,并增加模型訓練過程控制參數(shù),以控制整個模型的訓練過程,減小無序搜索范圍并控制訓練結果。利用目標分布的增值差衡量蛋白質編碼與圖像編碼的差異,逐步實現(xiàn)圖像編碼與蛋白質編碼形式、意義的統(tǒng)一,并生成數(shù)據(jù)分類標簽。其蛋白質微觀藝術的創(chuàng)新點為:采用目前比較新的熱門技術生成式對抗網(wǎng)絡為基礎,開發(fā)實現(xiàn)蛋白質與音樂作品間跨界融合的模型和算法;依據(jù)多樣的氨基酸頻譜及多種分析方法,得到了氨基酸頻譜和特定圖像頻譜,研究了氨基酸振動頻譜與圖像頻譜之間的映射關系并建立映射模型,設計可行的圖像變換濾波器;面向廣義應用問題,設計多模態(tài)可變自動編碼機作為整個模型的輸入與輸出,實現(xiàn)處理異構數(shù)據(jù)的多樣性的深度模型;通過生命科學到音樂、人工智能的跨界融合,可形成新的交叉學科,促進對生命奧秘的探索并加深對音樂的理解和感知。
在生命科學領域,AI技術開啟無法替代的數(shù)據(jù)分析地位,蛋白質作為生命體的重要組成,具有序列的多樣性和功能結構的復雜性。進行蛋白質表征的方式主要由蛋白質的氨基酸序列以及空間構象等,是否可通過其他形式進行蛋白質的表征并提升蛋白質的可視化效果,正成為人們研究的熱點。本文提供一種基于AI技術繪制毒株蛋白質二維譜的方法,將毒株蛋白質以二維譜的形式進行表征,在增加蛋白質可視化效果的同時,還將不同的毒株蛋白質與不同的音樂對應,并從視覺和聽覺兩個方面輔助蛋白質的分析研究。其技術流程如圖1所示:
圖1 基于AI技術繪制蛋白質二維譜流程圖
通常蛋白質的基本組成元素是二十種氨基酸,音樂的基本組成單位是七個音階,二者雖然基本元素數(shù)量不同,但仍可以通過映射方法進行基本元素之間的匹配。蛋白質在二十種氨基酸按照不同排列組合形成一級結構的基礎上,還可以通過共價鍵、非共價鍵構建多種空間構象,形成形狀、功能多變的生物大分子。而音樂在不同音階排列組合的基礎上,可形成基本旋律曲調,再融入節(jié)奏、和聲、力度、調式、曲式、織體以及音色的綜合調節(jié),即形成具有不同特色的風格和旋律,給人以不同的感官體驗。其中蛋白質樣本的一級結構、二級結構、音樂風格約束以及蛋白質序列約束等均可作為輸入數(shù)據(jù),見圖2。
圖2 基于生成式對抗網(wǎng)絡構建的蛋白質生成二維譜模型
本模型在生成式對抗模型基礎上,以蛋白質生成二維譜及特定風格音樂為研究對象,設計蛋白質到音樂的生成模型,包括:二維譜生成器G1、音樂生成判別器D1、音樂風格判別器D2、蛋白質逆生成器F1以及蛋白質判別器D3,輸入蛋白質一級、二級結構X1,音樂風格約束C以及蛋白質序列約束L,即可生成二維譜,輸出音樂作品,其流程如圖3所示。
圖3 生成二維譜及輸出音樂作品流程圖
而對于上述蛋白質生成二維譜模型的訓練過程如圖4所示:
圖4 蛋白質生成二維譜模型的訓練過程
以NC045512 nucleocapsid phosphoprotein 序列片段為例做二維呈現(xiàn)分析,整段音樂由五個聲部構成,其中一個聲部為打擊樂音色,五個聲部以相同的節(jié)奏節(jié)拍、不同音色、不同的旋律進行方向形成非重復的旋律進行。在四個具有音高的旋律聲部中,呈現(xiàn)出兩種不同的結合關系:重復關系與鏡像倒影關系。其中紅色旋律聲部與藍色旋律聲部以八度的變化重復開始,其后一直保持八度距離的重復,兩小節(jié)后藍色聲部向下方進行,形成十五度音程關系的重復,并于第七小節(jié)恢復八度重復關系。另一對旋律為黃色聲部與黑色聲部,這兩個聲部呈現(xiàn)出非嚴格的鏡像關系,兩個旋律均以相似的橫向音程關系形成反向的倒影進行。打擊樂聲部運用了三種音色,伴隨相同的節(jié)奏節(jié)拍形成色彩性的結合。
圖5 NC045512 nucleocapsid phosphoprotein片段二維呈現(xiàn)
微觀藝術作品呈現(xiàn)研究的重點在于建立蛋白質空間構象結構圖的基礎上,將其模塊化處理并建立起整體鑒賞與模塊賞析之間的關系。通過前面建立的基于AI深度學習的蛋白質印象藝術(基于GAN的圖像轉換和生成)的網(wǎng)絡結構和基于AI深度學習的蛋白質全景畫(基于GAN的圖像合成)的網(wǎng)絡結構,進行了蛋白質繪畫的創(chuàng)設,藝術化地呈現(xiàn)了蛋白質的復雜結構。如下圖片即是采用這些高技術手段并加之創(chuàng)作者的藝術創(chuàng)作靈感而成的,它們被由色彩單調到色彩豐富、由孤立蛋白質到復合并注入人文情感的蛋白質群,形成了蛋白質繪畫作品集,其多樣性呈現(xiàn)打開了微觀藝術的一扇窗口。
圖6 中軸對稱式-小鼠肝穹核蛋白復合體_4v60_k(1)
圖7 不對稱式-人體免疫T細胞蛋白_3w3L_d
圖8 環(huán)對稱式-生物分子伴侶蛋白_1aon_f
微觀藝術的人文情感化處理:大腸桿菌伴侶蛋白通過消耗ATP來協(xié)助蛋白質折疊。它們作為多亞基蛋白質組件存在,包括背靠背堆疊的亞單元環(huán)(Chaperonins assist protein folding with the consumption of ATP.They exist as multi-subunit protein assemblies comprising rings of subunits stacked back to back.In Escherichia coli)。
圖9-1 中軸不對稱蛋白的不同著色處理
圖9-2 中軸不對稱蛋白的不同著色處理
圖9-3 中軸不對稱蛋白的不同著色處理
圖9-4 中軸不對稱蛋白的不同著色處理
生命本身的精彩遠遠超過人們的想象。在探索科學奧秘的同時,生命大分子蛋白質正以另外一種方式展現(xiàn)其無限的魅力。生命科學與藝術的交叉融合可以成為大科學體系的一部分。在生物信息學研究中,蛋白質繪畫是重要的技術手段。喬治·梅森大學(George Mason University)的研究人員發(fā)現(xiàn)了兩種蛋白質的確切位置,這些蛋白質負責將癌細胞隱藏在免疫系統(tǒng)之外。與現(xiàn)有的靜脈內治療劑相比,該發(fā)現(xiàn)提供了開發(fā)新的癌癥免疫治療藥物的新穎方法,該藥物可以丸劑形式給藥。這項發(fā)現(xiàn)是由美國國家癌癥研究所創(chuàng)新基金資助的內部研發(fā)的蛋白質繪畫技術得以實現(xiàn)的。這項令人印象深刻的技術(IMAT,分子分析技術程序)具有改變藥物發(fā)現(xiàn)過程的潛力。
不同藝術形式對生命大分子的表達也將帶來不同的感受,從視覺到聽覺再到科學的理性分析,能夠更加全面、立體地體會生命的意義。利用結構映射的神經(jīng)網(wǎng)絡提取模式建立新的藝術表達方法,既為生命科學掃平大眾心里的認知障礙,也為藝術創(chuàng)作提供源源不斷的靈感和素材。這一過程可為藝術作品的創(chuàng)作、甄別、修繕帶來新的視角,為生命科學的大眾化傳播打開新的途徑。
下面是在AI輔助下所創(chuàng)設的由蛋白質繪畫和蛋白質序列音樂所構成的視聽同體化微觀藝術作品,以展示科學研究的全新技術手段以及生命信息的藝術呈現(xiàn)。圖10-1是內嵌式微型紅外感應播放器照片,這種紐扣式的微型播放器可后置在圖10-2—圖10-5蛋白質繪畫相框的某處,對靠近的人體紅外線反應靈敏,具有集系統(tǒng)監(jiān)測與控制應用于一體的功能。當觀賞蛋白質繪畫作品的人靠近某一作品時,即可聽到微弱的、對應該作品的蛋白質音樂。
圖10-5
圖10-1 內嵌式微型紅外感應播放器
圖10-2
圖10-3
圖10-4
復雜多變是現(xiàn)代社會的結構和發(fā)展的表現(xiàn)特征,與問題產(chǎn)生的多種根源密切關聯(lián),問題的經(jīng)驗式解決辦法不斷失效,變革傳統(tǒng)思維范式和框架成為突破口。嘗試將藝術融入科學、技術、工程時,各種學科、專業(yè)、行業(yè)之間的壁壘將被打破,創(chuàng)新思想和創(chuàng)造能力得以開發(fā)和拓展。在大環(huán)境影響和時代發(fā)展需求下,藝術和科學的結合已成為必然的趨勢。比如對蛋白質序列、結構與音樂在表現(xiàn)形式上的特點,基于AI技術實現(xiàn)了由蛋白質結構生成二維樂譜的方法,從而建立起蛋白質序列與音樂的一一對應關系,以輔助蛋白質的分析研究。該方法將蛋白質以二維譜的方式進行表達后,在進行蛋白質的研究時,既可通過二維譜從視覺上直觀看到不同蛋白質的區(qū)別之處,也可將二維譜演奏成音樂,從聽覺上感知不同蛋白質帶來的聽覺感受,為蛋白質的研究提供了全新的方式方法。