顏 陽,鄭清炳,張東旭,李少偉,葛勝祥,張 軍,夏寧邵
(廈門大學(xué)公共衛(wèi)生學(xué)院,福建廈門361102)
冷凍電鏡技術(shù)是一種著名的結(jié)構(gòu)生物學(xué)分析方法.相比于同樣被廣泛使用的兩種結(jié)構(gòu)生物學(xué)的研究手段:X射線和核磁共振,冷凍電鏡技術(shù)具有不需要結(jié)晶、解析范圍廣、能夠捕捉生物分子動(dòng)態(tài)變化等優(yōu)點(diǎn)[1].冷凍電鏡技術(shù)在近些年來發(fā)展迅速,廣泛應(yīng)用于生物大分子結(jié)構(gòu)重構(gòu)[2],其中包括非洲豬瘟病毒[3]以及部分新型冠狀病毒相關(guān)蛋白質(zhì)[4]的重構(gòu).盡管冷凍技術(shù)能夠在一定程度上保護(hù)樣品,但在高計(jì)量的電子輻射下,樣本仍然無法承受[5],導(dǎo)致冷凍電鏡拍攝得到的圖像信噪比極低.Frank等[6]通過單顆粒分析(single particle analysis,SPA)方法很大程度上克服了冷凍電鏡低信噪比的問題[7].之后伴隨著拍攝技術(shù)[8]、制樣方法、重構(gòu)軟件的進(jìn)步[9],SPA的重構(gòu)分辨率不斷進(jìn)步,甚至達(dá)到了原子級(jí)別的分辨率[10].
SPA的一個(gè)重要步驟是單顆粒圖像聚類:通過將挖取后的目標(biāo)顆粒圖像根據(jù)投影角的不同分成不同的簇實(shí)現(xiàn).早期算法直接利用聚類平均圖生成三維初始模型,聚類效果會(huì)直接影響三維初始模型的質(zhì)量[11].當(dāng)前聚類的主要意義在于幫助挑選出完整的、有價(jià)值的顆粒,拋棄誤選的雜質(zhì).同時(shí)通過聚類平均圖可以在二維初步觀測(cè)顆?;拘螒B(tài),得到對(duì)稱性等形態(tài)信息,為接下來進(jìn)行的步驟提供參考.
由于噪聲干擾過大、顆粒異構(gòu)多樣、數(shù)據(jù)量過大等原因,設(shè)計(jì)用于冷凍電鏡圖像的聚類算法是一個(gè)很大的挑戰(zhàn).早期由于計(jì)算資源的限制,電鏡顆粒聚類算法首先使用對(duì)應(yīng)分析(correspondence analysis,CA)、主成分分析(principal component analysis,PCA)等方法對(duì)圖像進(jìn)行降維處理,之后使用層次聚類法聚類[12],此類方法需要對(duì)圖像先進(jìn)行全局校準(zhǔn)(使二維旋轉(zhuǎn)角相同),該過程占用計(jì)算資源較大,會(huì)限制參與聚類顆粒數(shù)量.之后Sigworth[13]提出了基于最大似然法的聚類算法應(yīng)用于電鏡圖像,該方法被Scheres等[14]進(jìn)一步擴(kuò)展后稱之為ML2D算法.ML2D是最廣泛使用的電鏡圖像聚類算法之一,已經(jīng)被整合到電鏡圖像處理軟件Xmipp[15]和Relion[16]上.
隨著人工智能的迅猛發(fā)展,許多研究者將深度學(xué)習(xí)技術(shù)應(yīng)用到電鏡顆粒的聚類任務(wù)上來,但需要預(yù)訓(xùn)練.例如,自編碼器[17](autoencoders,AE)具有能夠利用低層次的特征形成更加高級(jí)的抽象特征的優(yōu)勢(shì)[18],因此,迭代式基于變分AE的多參考對(duì)齊模型(IterVM)[19]和級(jí)聯(lián)降噪AE(CDAE)[20]算法均先通過預(yù)訓(xùn)練AE提取圖像特征,之后再利用這些特征聚類.另外,IterVM使用迭代過程中產(chǎn)生的類平均圖訓(xùn)練聚類模型,若過程中聚類精確度較差則會(huì)很大程度影響模型的訓(xùn)練;CDAE需要事先準(zhǔn)備的加噪仿真數(shù)據(jù)集進(jìn)行模型預(yù)訓(xùn)練,在實(shí)際應(yīng)用中難以滿足該條件.
為了提高冷凍電鏡單顆粒圖像聚類精度,簡(jiǎn)化流程,本研究提出了一種基于對(duì)比學(xué)習(xí)的無監(jiān)督電鏡圖像聚類算法:CL-Clustering.該算法不需要帶標(biāo)簽的數(shù)據(jù)集或者人工合成數(shù)據(jù)集對(duì)模型預(yù)訓(xùn)練,且不需要聚類迭代過程中的二維校準(zhǔn)處理,聚類精度高并能夠高效處理大規(guī)模冷凍電鏡圖像數(shù)據(jù).
圖1 編碼器網(wǎng)絡(luò)架構(gòu)Fig.1Architecture of encoder network
CL-Clustering算法流程可分為三步:
1) 將數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理.根據(jù)自然環(huán)境同一投影角拍攝到的顆粒圖像(即應(yīng)聚為同一類的圖像)的差異性,有針對(duì)性的對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理.該步驟對(duì)同一圖像分別進(jìn)行相互獨(dú)立的兩次數(shù)據(jù)增強(qiáng),此時(shí)同一圖像兩次數(shù)據(jù)增強(qiáng)得到的圖像類似于兩張真實(shí)環(huán)境應(yīng)聚為同一類的圖像;
2) 利用對(duì)比學(xué)習(xí)訓(xùn)練基于殘差網(wǎng)絡(luò)的電鏡特征編碼器,該過程中同一圖像的數(shù)據(jù)增強(qiáng)在特征空間被拉近,訓(xùn)練完成后將原始數(shù)據(jù)集輸入到編碼器得到圖像特征;
3) 使用K-means++將提取后的特征進(jìn)行聚類,由于數(shù)據(jù)增強(qiáng)中包括圖像隨機(jī)旋轉(zhuǎn)與翻折,提取后特征具有旋轉(zhuǎn)不變性,因此可以避免在聚類時(shí)考慮對(duì)比過程中圖像二維旋轉(zhuǎn)差異,只需要在生成類平均圖時(shí)統(tǒng)一校準(zhǔn)即可.
上述步驟中,數(shù)據(jù)增強(qiáng)和模型訓(xùn)練時(shí)數(shù)據(jù)集被等分為多個(gè)批次(batch)處理,模型訓(xùn)練完成后再統(tǒng)一將所有圖像編碼得到特征并聚類.可以看出,CL-Clustering算法直接使用需要聚類的數(shù)據(jù)集訓(xùn)練模型,不需要使用任何帶人工標(biāo)簽的數(shù)據(jù)集或人工合成數(shù)據(jù)集對(duì)模型進(jìn)行預(yù)訓(xùn)練,同時(shí)利用對(duì)比學(xué)習(xí)訓(xùn)練得到的編碼器提取的特征維度低且在特征空間區(qū)分度強(qiáng),可以同時(shí)對(duì)大量數(shù)據(jù)進(jìn)行聚類且聚類結(jié)果穩(wěn)定.
在冷凍電鏡單顆粒圖像的聚類任務(wù)中,原圖像受噪聲污染非常嚴(yán)重,因此直接對(duì)原圖像進(jìn)行聚類得到的精度非常低,同時(shí)直接使用原圖像運(yùn)算量過大,因此本研究先提取圖像特征后進(jìn)行聚類計(jì)算.
本文使用的電鏡特征編碼器如圖1所示.主干網(wǎng)絡(luò)基于殘差網(wǎng)絡(luò)[21](ResNet18)搭建.傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過卷積層和下采樣層的不斷堆疊搭建,殘差網(wǎng)絡(luò)通過引入捷徑分支(shortcut)有效解決了傳統(tǒng)CNN梯度消失/爆炸問題以及退化問題.本文使用的殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主干網(wǎng)絡(luò)包括17個(gè)卷積層(conv)和一個(gè)全連接層(FC),在經(jīng)過預(yù)處理(圖中前兩層)后,每?jī)蓚€(gè)卷積層之間使用捷徑分支連接,為了維度匹配,其中三個(gè)捷徑分支添加一個(gè)卷積層對(duì)數(shù)據(jù)降維.模型使用Relu激活函數(shù),同時(shí)在每個(gè)卷積層后使用批標(biāo)準(zhǔn)化處理,能夠加速網(wǎng)絡(luò)的收斂并提升準(zhǔn)確率.經(jīng)過主干網(wǎng)絡(luò)處理后,使用兩層全連接層得到128維特征zi,該特征將進(jìn)一步用于對(duì)比學(xué)習(xí).
聚類任務(wù)中,需要將同一投影角的冷凍電鏡圖像分為一類,除了信噪比極低這個(gè)因素外,這個(gè)過程中還存在以下難點(diǎn):1) 同一投影角下冷凍電鏡顆粒圖像會(huì)在二維空間隨機(jī)旋轉(zhuǎn),如果在聚類過程中考慮該旋轉(zhuǎn),在數(shù)據(jù)量較大時(shí)將會(huì)占用大量計(jì)算資源,因此殘差網(wǎng)絡(luò)編碼器提取的特征需要具有旋轉(zhuǎn)不變性,這樣可以在聚類時(shí)避免二維旋轉(zhuǎn)角的校準(zhǔn),只需直接對(duì)顆粒進(jìn)行聚類;2) 由于顆粒挑選和挖取過程中存在一定誤差,難以保證顆粒正好在圖像居中位置,可能存在顆粒在圖像中朝某方向的整體偏移,聚類時(shí)要使投影角相同但存在偏移的顆粒聚為一類;3) 同一投影角的顆粒之間可能存在微小形變,同樣要使這類顆粒能順利聚為一類.為了解決以上難點(diǎn),通過數(shù)據(jù)增強(qiáng)配合對(duì)比學(xué)習(xí)訓(xùn)練讓深度學(xué)習(xí)模型在編碼中忽略二維旋轉(zhuǎn)翻折、像素分布差異、顆粒(同一投影)微小形變、噪聲這些與顆粒投影角無關(guān)的圖像信息,提取反映投影角的顆粒形態(tài)特征這一有用信息,達(dá)到編碼器對(duì)同一投影角得到的不同圖像編碼盡量相似的目的.
對(duì)比學(xué)習(xí)過程中,模型將學(xué)習(xí)同一圖像的不同數(shù)據(jù)增強(qiáng)的相似點(diǎn),數(shù)據(jù)增強(qiáng)的形式將會(huì)決定對(duì)比學(xué)習(xí)得到的信息的質(zhì)量[22].根據(jù)電鏡圖像特點(diǎn),選擇對(duì)冷凍電鏡單顆粒圖像應(yīng)用以下數(shù)據(jù)增強(qiáng)形式:1) 二維空間隨機(jī)旋轉(zhuǎn)0°~180°;2) 以50%的概率隨機(jī)左右翻轉(zhuǎn)整幅圖像;3) 標(biāo)準(zhǔn)化處理,具體方式為
(1)
4) 對(duì)圖像進(jìn)行隨機(jī)大小和長(zhǎng)寬比的裁剪,相對(duì)于原圖,裁剪后圖像大小比例范圍為0.3~1.0,長(zhǎng)寬比范圍為0.9~1.1.具體步驟如圖2所示,在原圖像范圍內(nèi)隨機(jī)選定一塊矩形區(qū)域,矩形的大小和長(zhǎng)寬比隨機(jī)在預(yù)設(shè)范圍內(nèi)選擇,裁剪下該區(qū)域,再將該區(qū)域縮放到和原圖一樣的大小,該過程中顆粒形變的幅度在隨機(jī)范圍內(nèi)變化,其中有些時(shí)候明顯大于現(xiàn)實(shí)可能存在的情況,這是為了幫助深度學(xué)習(xí)模型提取更豐富尺度的特征,并提升模型的泛化性.以上步驟中,標(biāo)準(zhǔn)化是為了加快模型收斂速度、減少圖像像素值分布差異對(duì)模型的干擾,隨機(jī)地旋轉(zhuǎn)、翻折主要是為了模擬同一投影角的圖像二維旋轉(zhuǎn)、翻折,隨機(jī)裁剪主要是為了減弱背景(或噪聲)因子的權(quán)重且使模型面對(duì)缺失信息不敏感.以上所有數(shù)據(jù)強(qiáng)化步驟都有助于提高模型的穩(wěn)定性和魯棒性.
圖2 圖像的隨機(jī)裁剪Fig.2Random crop of image
對(duì)所有圖像進(jìn)行以上所有數(shù)據(jù)強(qiáng)化步驟,強(qiáng)化過程用函數(shù)g表示,則有:
(2)
圖3 單顆粒冷凍電鏡圖像數(shù)據(jù)增強(qiáng)效果圖Fig.3Augmentation of single particle cryo-electron microscopy images
本研究使用對(duì)比學(xué)習(xí)[23]訓(xùn)練特征編碼器,其中,訓(xùn)練目標(biāo)為:同類圖像經(jīng)過神經(jīng)網(wǎng)絡(luò)輸出的特征盡可能的相似,不同類圖像神經(jīng)網(wǎng)絡(luò)輸出的特征盡可能的不同.在該設(shè)定下,特征空間中同一圖像的不同增強(qiáng)圖像的距離將會(huì)被拉近,不同圖像的增強(qiáng)圖像的距離將會(huì)被拉遠(yuǎn).值得注意的是,非同一圖像數(shù)據(jù)增強(qiáng)的圖像也可能是同類圖像,但概率很低,對(duì)整體訓(xùn)練效果影響很小.神經(jīng)網(wǎng)絡(luò)對(duì)特征的提取表示函數(shù)為:
(3)
其中,fEC為電鏡特征編碼器函數(shù),zi為通過編碼器提取的特征.使用余弦相似度計(jì)算特征之間的距離:
(4)
(5)
(6)
1) 在Z中隨機(jī)挑選zi作為第一個(gè)類中心C1.
2) 利用輪盤賭選擇法依次隨機(jī)選出盡可能分散的k個(gè)類中心.具體地,若當(dāng)前已選出k個(gè)類中心,則根據(jù)式(7)計(jì)算特征zj被隨機(jī)選為下一個(gè)類中心的概率:
p(zj)=
(7)
其中,Di(zj)表示特征zj與被選為第i個(gè)類中心的特征zi的矩陣歐式距離.式(7)的分子表示求特征zj與已選中類中心的矩陣歐式距離,并找出最小值,使離已有類中心越近的特征被選為下一個(gè)類中心的概率越小.分母表示所有特征zj與已選中類中心的最小歐式距離之和,起到歸一化的作用.
4) 對(duì)每個(gè)特征zi,計(jì)算其與第k個(gè)類中心的距離Dk(zi),如式(8)所示,將該特征劃分到距離最近的類中心所屬類中:
(8)
其中,L(zi)表示特征zi的標(biāo)簽.
5) 在所有特征得到類標(biāo)簽后如式(9)所示重新確定每一類的類中心:
(9)
其中Nk為被劃分到第k類的特征數(shù)目.
6) 重復(fù)步驟4)以及步驟5)直到類標(biāo)簽保持不變或者達(dá)到最大迭代次數(shù).聚類完成后,根據(jù)所有特征的類標(biāo)簽可以得到所有圖像的類歸屬.
為了測(cè)試CL-Clustering算法的性能,本研究利用歐洲電子顯微鏡數(shù)據(jù)庫[25]公開的3個(gè)高分辨率電鏡三維重構(gòu)顆粒模型生成具有標(biāo)簽的仿真單顆粒冷凍電鏡圖像數(shù)據(jù)集,分別為0.42 nm分辨率的熱休克蛋白(GroEL,EMD-5001)[26]、0.26 nm分辨率的β半乳糖苷酶(EMD-6840)[27]以及0.36 nm的間隙連接蛋白(INX-6,EMD-9973)[28].這3種顆粒中EMD-5001對(duì)稱性為D7,EMD-6840的對(duì)稱性為D2,EMD-9973對(duì)稱性為C8,三者基礎(chǔ)形狀、分辨率以及對(duì)稱性有較大差別,可以較全面評(píng)價(jià)目標(biāo)算法的性能.3種顆粒三維展示圖如圖4所示.
圖4 用于數(shù)據(jù)生成的三種單顆粒結(jié)構(gòu)Fig.4Three single-particle structures for datasets generation
對(duì)于每個(gè)結(jié)構(gòu),隨機(jī)選取10個(gè)不同投影角的投影(其中會(huì)考慮結(jié)構(gòu)的對(duì)稱性,避免因?qū)ΨQ性出現(xiàn)投影角不同而投影相同的情況);對(duì)于每個(gè)投影使其在二維空間旋轉(zhuǎn),每旋轉(zhuǎn)1度生成一個(gè)圖像,圖像大小為128 × 128.每個(gè)投影生成的360張圖像標(biāo)記為同一類的圖像.對(duì)每個(gè)生成圖像添加離焦值(defocus)為1.5~2.0 μm的襯底轉(zhuǎn)換函數(shù)CTF(加速電壓300 keV,球差2.7 mm,相位襯度比7%)以及高斯噪聲,得到信噪比分別為0.10和0.05的兩套加噪圖像,其中信噪比通過圖像方差除以添加噪聲的方差獲得.通過以上步驟,每個(gè)顆粒得到2×3×10×360=21 600張仿真圖像,總共獲得了3×21 600=64 800張帶類別標(biāo)簽的仿真圖像用于算法評(píng)價(jià).圖5展示了仿真圖像的示意圖.在仿真數(shù)據(jù)集實(shí)驗(yàn)中,一次實(shí)驗(yàn)使用一套相同顆粒且信噪比相同的3 600張圖像進(jìn)行編碼器訓(xùn)練、特征提取、特征聚類.
(i)行為添加CTF后的投影圖像; (ii)行為信噪比為0.10的仿真電鏡圖像; (iii)行為信噪比為0.05的加噪仿真電鏡圖像.圖5 生成單顆粒冷凍電鏡圖像Fig.5Generated cryo-electron microscopy images of single-particle
評(píng)價(jià)目標(biāo)算法在仿真數(shù)據(jù)集上的性能有兩個(gè)指標(biāo),分別是聚類準(zhǔn)確度和歸一化互信息量,下文中二者用A與I表示.聚類準(zhǔn)確度用于計(jì)算正確的預(yù)測(cè)標(biāo)簽占整個(gè)數(shù)據(jù)集的比例,計(jì)算如式(10)所示:
(10)
其中,Ltrue為真實(shí)標(biāo)簽,Lpred(xi)為算法預(yù)測(cè)xi的標(biāo)簽,T表示預(yù)測(cè)標(biāo)簽到真實(shí)標(biāo)簽的最佳映射.
歸一化互信息I用來計(jì)算聚類預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽的相似度[29].其計(jì)算方法如式(11)所示:
(11)
其中,X、Y為標(biāo)簽集合,X={Lpred},Y={Ltrue},P(i,j) 表示標(biāo)簽為i和j的數(shù)據(jù)的交集出現(xiàn)的概率,H(X)和H(Y)分別為X、Y的熵.I的值在0到1之間,越接近1表示算法預(yù)測(cè)標(biāo)簽越接近真實(shí)標(biāo)簽.
現(xiàn)實(shí)世界拍攝的冷凍電鏡圖像噪聲比仿真圖像更加復(fù)雜,除了信噪比極低外,還存在雜質(zhì)、破損顆粒干擾聚類.為了進(jìn)一步評(píng)價(jià)算法性能,本研究使用了T20S蛋白酶體真實(shí)拍攝的冷凍電鏡圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).選擇EMPIAR-10025數(shù)據(jù)集[30]中包含的20張?jiān)寂臄z圖像的子集,這些圖像經(jīng)過了運(yùn)動(dòng)補(bǔ)償以及對(duì)比度傳遞函數(shù)校準(zhǔn)處理,經(jīng)過顆粒挑選以及顆粒挖取后總共得到15 552張冷凍電鏡單顆粒圖像用于真實(shí)數(shù)據(jù)集聚類實(shí)驗(yàn).
以上實(shí)驗(yàn)中使用的模型基于PyTorch 1.9.0框架編寫完成,模型在配有NVIDIA RTX 2080Ti GPU以及Intel Xeon Bronze 3204 CPU的服務(wù)器上訓(xùn)練,并開展后續(xù)對(duì)照實(shí)驗(yàn).訓(xùn)練過程中,采用了圖像隨機(jī)旋轉(zhuǎn)(0°~180°)、隨機(jī)翻折(50%概率)、標(biāo)準(zhǔn)化、隨機(jī)裁剪(大小比例范圍為0.3~1.0,長(zhǎng)寬比范圍為0.9~1.1)的數(shù)據(jù)增強(qiáng)方式,模型訓(xùn)練中使用的批大小為60,利用1.1節(jié)中的編碼器提取圖像特征并根據(jù)式(6)計(jì)算損失函數(shù),優(yōu)化算法為隨機(jī)梯度下降(stochastic gradient descent,SGD),循環(huán)100輪.仿真數(shù)據(jù)集和真實(shí)數(shù)據(jù)集選用相同的訓(xùn)練方式和參數(shù).
本研究使用了PCA+K-means算法以及ML2D算法作為對(duì)照.PCA+K-means算法[31]是一個(gè)被廣泛應(yīng)用到各種領(lǐng)域的聚類算法,并已經(jīng)被整合到冷凍電鏡圖像處理軟件Spider[32].該算法使用PCA對(duì)原圖像進(jìn)行降維,之后使用K-means對(duì)降維后的特征進(jìn)行聚類.ML2D[14]算法是基于最大似然法的軟分類算法,同時(shí)包括對(duì)噪聲的建模,是使用最廣泛的冷凍電鏡單顆粒圖像聚類算法之一,實(shí)驗(yàn)中使用Xmipp調(diào)用ML2D實(shí)現(xiàn)聚類.以A和I為指標(biāo),CL-Clustering算法以及兩種對(duì)照算法聚類效果評(píng)價(jià)如表1所示.整體上CL-Clustering算法在兩項(xiàng)指標(biāo)上優(yōu)于PCA+K-means算法以及ML2D算法.
得到聚類標(biāo)簽后,為了便于直觀評(píng)價(jià)聚類效果,根據(jù)聚類標(biāo)簽將分為同一類的圖像進(jìn)行二維校準(zhǔn)處理,之后對(duì)校準(zhǔn)后的圖像取平均圖.對(duì)于效果好的聚類,生成平均圖時(shí)其疊加的噪聲將會(huì)相互抵消,平均圖信噪比將會(huì)大大高于原始圖像并顯示出原顆粒的形態(tài)信息.圖6展示了利用PCA+K-means算法(對(duì)應(yīng)(i)行)、ML2D算法(對(duì)應(yīng)(ii)行)以及CL-Clustering算法(對(duì)應(yīng)(ii)行)聚類標(biāo)簽生成的類平均圖.通過觀察可以發(fā)現(xiàn)利用PCA+K-means算法聚類標(biāo)簽生成的類平均圖相比原顆粒結(jié)構(gòu)失真較為嚴(yán)重;利用ML2D算法聚類標(biāo)簽生成的類平均圖個(gè)別類信
表1 聚類效果對(duì)比
噪比很低;利用CL-Clustering算法得到的標(biāo)簽生成的類平均圖擁有更多的顆粒細(xì)節(jié)信息,并且顆粒形態(tài)與圖4所示的用來生成仿真數(shù)據(jù)集的高精度三維顆粒結(jié)構(gòu)高度相似.
圖6 聚類平均圖Fig.6Clustering average images
圖7 T20S蛋白酶體聚類平均圖對(duì)比Fig.7Comparison of clustering averages of T20S proteasome
表2為三種算法占用的計(jì)算時(shí)間.其中CL-Clustering算法統(tǒng)計(jì)時(shí)長(zhǎng)時(shí)包括了模型訓(xùn)練時(shí)間(100輪).ML2D占用時(shí)間最長(zhǎng),CL-Clustering次之,PCA+K-means占用時(shí)間最短,但其性能表現(xiàn)較差.
表2 三種算法計(jì)算占用時(shí)間
本部分使用T20S蛋白酶體真實(shí)拍攝的冷凍電鏡圖像數(shù)據(jù)進(jìn)行實(shí)驗(yàn),模型的參數(shù)設(shè)置和訓(xùn)練步驟與仿真數(shù)據(jù)集的實(shí)驗(yàn)相同.分別使用CL-Clustering以及ML2D算法對(duì)15 552張冷凍電鏡單顆粒圖像進(jìn)行聚類實(shí)驗(yàn),實(shí)驗(yàn)中所有圖像都參與CL-Clustering編碼器的訓(xùn)練,類數(shù)都設(shè)定為50.兩種算法得到的聚類平均圖如圖7所示,CL-Clustering得到了更豐富投影角的類平均圖.根據(jù)CL-Clustering類平均圖(圖7(a))的清晰度挑選33個(gè)類(按由左到右、由上到下的順序,包含顆粒數(shù)目為:296, 232, 335, 367, 334, 254, 322, 377, 301, 310, 340, 292, 353, 325, 301, 322, 278, 258, 279, 295, 320, 336, 245, 315, 328, 316, 283, 350, 224, 294, 317, 304, 320)共計(jì)10 123個(gè)顆粒進(jìn)行三維重構(gòu);根據(jù)ML2D聚類平均圖(圖7(b))的清晰度挑選15個(gè)類(按由左到右、由上到下的順序,包含顆粒數(shù)目為:1 129, 513, 670, 153, 1 588, 956, 280, 128, 852, 451, 187, 1 255, 729, 262, 257)共計(jì)9 410個(gè)顆粒進(jìn)行三維重構(gòu).
由于真實(shí)數(shù)據(jù)集投影角未知,即真實(shí)數(shù)據(jù)集沒有標(biāo)簽,無法使用A、I等指標(biāo)定量評(píng)價(jià)聚類效果,因此在該實(shí)驗(yàn)中模擬現(xiàn)實(shí)世界電鏡聚類算法應(yīng)用場(chǎng)景,在聚類完成后根據(jù)聚類平均圖挑選顆粒,使用挑選后的顆粒進(jìn)行三維重構(gòu),根據(jù)重構(gòu)效果評(píng)價(jià)聚類算法效果.
圖8為根據(jù)兩種算法聚類平均圖(圖7)挑選的顆粒進(jìn)行三維重構(gòu)得到的結(jié)構(gòu).三維重構(gòu)分為兩個(gè)步驟,分別為初始模型的構(gòu)建以及三維精修,結(jié)果對(duì)應(yīng)圖8的第一行和第二行.精修后得到結(jié)構(gòu)的分辨率根據(jù)傅里葉殼相關(guān)函數(shù)[33]計(jì)算得到.實(shí)驗(yàn)中使用的初始模型的構(gòu)建以及三維精修算法為Relion集成的方法[34],其中初始模型構(gòu)建時(shí)設(shè)置的對(duì)稱性為C1,三維精修時(shí)設(shè)置的對(duì)稱性為D7.如圖8所示,CL-Clustering挑選顆粒在經(jīng)過兩步三維重構(gòu)處理后生成了高分辨率(0.352 nm)的三維生物分子結(jié)構(gòu),該結(jié)構(gòu)與圖7得到的類平均圖相匹配.作為對(duì)照,ML2D挑選顆粒重構(gòu)得到了0.357 nm分辨率的三維生物分子結(jié)構(gòu),二者結(jié)構(gòu)高度相似.
圖8 T20S蛋白酶體三維重構(gòu)結(jié)果對(duì)比Fig.8Comparison of reconstruction result of T20S proteasome
本研究針對(duì)單顆粒冷凍電鏡圖像的特點(diǎn),提出了基于對(duì)比學(xué)習(xí)的深度學(xué)習(xí)聚類算法CL-Clustering.該算法根據(jù)電鏡圖像特點(diǎn)選擇圖像增強(qiáng)方式,同時(shí)使用了對(duì)比學(xué)習(xí)訓(xùn)練編碼器,使訓(xùn)練得到的編碼器能夠提取有利于聚類的圖像特征,同時(shí)讓聚類過程免于二維校準(zhǔn).為了評(píng)價(jià)目標(biāo)算法,本研究構(gòu)建了帶有標(biāo)簽的仿真冷凍電鏡單顆粒圖像數(shù)據(jù)集,同時(shí)使用真實(shí)拍攝的冷凍電鏡圖像測(cè)試目標(biāo)方法.在仿真數(shù)據(jù)集以及真實(shí)數(shù)據(jù)集上,CL-Clustering都展現(xiàn)出了優(yōu)秀的性能.
未來該研究仍有許多可以改進(jìn)的地方:1) 嘗試使用性能更加優(yōu)越的主干網(wǎng)絡(luò);2) 對(duì)于對(duì)稱性較高的蛋白質(zhì)分子,非同類圖像的數(shù)據(jù)增強(qiáng)屬于同類圖像的概率會(huì)更大,會(huì)影響算法精度,可以嘗試在訓(xùn)練過程中引入聚類,迭代進(jìn)行模型訓(xùn)練與特征聚類,根據(jù)聚類結(jié)果動(dòng)態(tài)修正損失函數(shù)的計(jì)算,使編碼器的訓(xùn)練過程盡量規(guī)避該現(xiàn)象;3) 使用更多類型的真實(shí)電鏡圖像數(shù)據(jù)集評(píng)價(jià)目標(biāo)聚類算法;4)相比較聚類,三維分類對(duì)重構(gòu)的影響更大.鑒于CL-Clustering的類平均圖擁有更好的類別覆蓋性,可以嘗試從中提取輔助三維分類的信息,比如由平均圖采樣重構(gòu)出子結(jié)構(gòu)再結(jié)合三維PCA[35]之類的方法分析顆粒的三維異構(gòu)性.
廈門大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年6期