亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用Transformer的組合聚類算法在蛋白質(zhì)數(shù)據(jù)分析中的應(yīng)用

        2024-12-31 00:00:00陳祥龍,李海軍,趙福軍,袁媛
        無線互聯(lián)科技 2024年14期
        關(guān)鍵詞:灰狼降維聚類

        摘要:該研究將Transformer模型適配于蛋白質(zhì)特征降維場景,通過其特有的自注意力機(jī)制,賦予模型對長程依賴關(guān)系的較好建模性能,同時(shí),多頭注意力設(shè)計(jì)使得模型能夠從不同角度捕獲特征間的相互作用,進(jìn)一步提升降維結(jié)果的表達(dá)力和魯棒性。文章提出了一種新型的GRKM組合聚類算法,在原始K-means算法中引入了灰狼優(yōu)化算法(Grey Wolf Optimization Algorithm)確定聚類的K值,以隨機(jī)游走算法(Random Walk)確定初始聚類中心,以馬氏距離(Markov Distance)來衡量樣本間的相似性。研究中,對5種具有代表性的蛋白質(zhì)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證,得到了改進(jìn)后算法在輪廓系數(shù)以及DB指數(shù)等方面相較于改進(jìn)前都有較大提升的結(jié)論。最終的結(jié)果分析選取APP蛋白質(zhì)數(shù)據(jù),將蛋白質(zhì)聚為8類,探討了各類別的生物功能,在解釋性方面也取得了較為明顯的效果。所提算法為深入理解蛋白質(zhì)功能、發(fā)現(xiàn)潛在生物標(biāo)志物以及指導(dǎo)藥物設(shè)計(jì)等實(shí)際應(yīng)用提供了參考工具。

        關(guān)鍵詞:蛋白質(zhì)序列;Transformer模型;聚類算法;馬氏距離;隨機(jī)游走;灰狼優(yōu)化算法

        中圖分類號(hào):TP301.6文獻(xiàn)標(biāo)志碼:A

        0引言

        隨著生命科學(xué)的迅猛發(fā)展,蛋白質(zhì)序列分析已成為揭示生物功能、解析分子機(jī)制、推動(dòng)精準(zhǔn)醫(yī)療等領(lǐng)域的關(guān)鍵手段。蛋白質(zhì)序列蘊(yùn)含豐富的結(jié)構(gòu)信息和功能屬性,然而,其龐大的數(shù)據(jù)量與復(fù)雜的內(nèi)在規(guī)律對高效且精確的數(shù)據(jù)挖掘方法提出了嚴(yán)苛要求。聚類算法作為一種無監(jiān)督學(xué)習(xí)方法,旨在通過相似性度量將大量蛋白質(zhì)序列自動(dòng)劃分為若干具有相似性質(zhì)的簇,為后續(xù)的生物信息學(xué)研究提供結(jié)構(gòu)化視角和簡化模型。盡管傳統(tǒng)的聚類算法已在蛋白質(zhì)序列分析中發(fā)揮了重要作用,但面對日益增長的數(shù)據(jù)復(fù)雜性和多樣化的生物學(xué)問題,其在處理大規(guī)模數(shù)據(jù)、識(shí)別細(xì)微模式、保持簇間分離度等方面仍存在一定的局限性。因此,開發(fā)并應(yīng)用改進(jìn)的聚類算法以提升蛋白質(zhì)序列分析的精度與效率,成為當(dāng)前聚類算法應(yīng)用的重要課題。

        2020年,楊寧[1]使用蚱蜢群模糊聚類對蛋白質(zhì)序列進(jìn)行分析,還利用超參數(shù)構(gòu)建深度神經(jīng)網(wǎng)絡(luò),用于預(yù)測未知蛋白質(zhì)功能;2010年,黃旭等[2]使用近鄰傳播算法,并在文獻(xiàn)[3]中對算法記性改進(jìn),增加了基于能量的聚類距離加權(quán)策略;2019年,曹延姍[4]比較了14種高斯混合模型對蛋白質(zhì)聚類結(jié)果的影響;2021年,王藝皓等[5]提出了一種改進(jìn)型PseACC方法,融合了自相關(guān)系數(shù)法、熵密度法,構(gòu)造了一種全新的蛋白質(zhì)序列表征模型。盡管上述方法在特定數(shù)據(jù)集上展現(xiàn)出良好的性能,但在處理大規(guī)模、高維度且含有噪聲的蛋白質(zhì)組學(xué)數(shù)據(jù)時(shí),如何保持算法的高效性和穩(wěn)健性,避免過擬合或欠擬合,仍然是一個(gè)需要關(guān)注的技術(shù)難點(diǎn)?,F(xiàn)有方法在蛋白質(zhì)功能預(yù)測上,尤其是對于罕見或新穎蛋白質(zhì)功能的挖掘方面,其泛化能力和預(yù)測精度仍有提升空間。

        1算法實(shí)現(xiàn)

        1.1One-hot編碼

        One-hot編碼是一種將離散的氨基酸序列轉(zhuǎn)化為數(shù)值型向量表示的方法。One-hot編碼的核心思想是為每個(gè)氨基酸類別分配一個(gè)唯一的二進(jìn)制向量,向量中只有一個(gè)元素為1(對應(yīng)該氨基酸類別),其余元素均為0。因此,任意長度的蛋白質(zhì)序列就可以轉(zhuǎn)化為一個(gè)二維矩陣,其中每一行對應(yīng)一個(gè)氨基酸的位置,每一列代表一種氨基酸類別。

        1.2Transformer模型架構(gòu)

        Transformer模型是一種基于自注意力機(jī)制的深度學(xué)習(xí)架構(gòu),其能夠并行處理輸入序列中的所有元素,克服了循環(huán)神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)在處理長序列時(shí)存在的瓶頸和依賴性問題[6]。

        文章中Transformer模型主要包含2個(gè)部分:編碼器和解碼器。編碼器由多個(gè)相同的層堆疊而成,每層包含2個(gè)子層:多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)。自注意力機(jī)制允許模型在處理序列中的某個(gè)位置時(shí),根據(jù)整個(gè)序列的信息動(dòng)態(tài)地分配關(guān)注權(quán)重。其通過3個(gè)向量(Query、Key、Value)的計(jì)算來實(shí)現(xiàn),每個(gè)向量都由輸入序列的同一位置通過不同的線性變換生成。計(jì)算過程包括:(1)計(jì)算注意力分?jǐn)?shù),通過查詢向量與鍵向量的點(diǎn)積(或加權(quán)形式),根據(jù)Sigmod函數(shù)歸一化,得到每個(gè)位置對其他位置的關(guān)注度分布;(2)使用上述得分作為權(quán)重,對值向量進(jìn)行加權(quán)求和,從而得到每個(gè)位置的上下文感知表示。多頭注意力則是將自注意力機(jī)制并行地運(yùn)行多次,每次使用不同的線性變換參數(shù)[6]。

        前饋神經(jīng)網(wǎng)絡(luò)是一個(gè)簡單的全連接神經(jīng)網(wǎng)絡(luò),包含2層,中間使用ReLU激活函數(shù)。其作用是對自注意力子層輸出的特征進(jìn)行非線性變換,進(jìn)一步提取抽象特征。計(jì)算過程如式(1)所示。

        FFN(x)=max(0,xW1+b1)W2+b2(1)

        所包含的2個(gè)全連接層分別為W1、b1和W2、b2。

        另外,由于Transformer沒有循環(huán)或卷積結(jié)構(gòu)來捕獲序列的位置信息,所提出的算法在輸入序列的embedding上附加一個(gè)位置編碼,使用周期函數(shù)(正弦和余弦函數(shù))的線性組合,函數(shù)的頻率和輸入序列長度有關(guān),確保不同位置的編碼在向量空間中具有區(qū)分性。編碼器的流程如圖1所示。

        解碼器使用簡單的2層全連接網(wǎng)絡(luò),并配合ReLU和Sigmod激活函數(shù)將編碼器提取的特征向量恢復(fù)到原始輸入數(shù)據(jù)的形狀,從而和原始真實(shí)數(shù)據(jù)進(jìn)行交叉熵?fù)p失函數(shù)的計(jì)算,如式(2)所示。

        L=-[ylogp+(1-y)log(1-p)](2)

        其中,y是真實(shí)的原始數(shù)據(jù),p是解碼器重構(gòu)的數(shù)據(jù)。

        文章實(shí)驗(yàn)訓(xùn)練將經(jīng)過One-hot編碼后的蛋白質(zhì)高維數(shù)據(jù)輸入Transformer模型,設(shè)編碼器輸出維度為3,學(xué)習(xí)率為0.001,訓(xùn)練輪數(shù)為200,注意力頭數(shù)量為8,最終得到的模型loss值為0.0018,并將編碼器提取的三維特征向量用來進(jìn)行后續(xù)的聚類。

        1.3改進(jìn)的K-means聚類算法

        K-means算法在應(yīng)對形態(tài)非球形且分布不均勻的數(shù)據(jù)集時(shí)暴露出局限性[7]。為了克服這一問題,文章引入馬氏距離作為新的距離度量標(biāo)準(zhǔn)。馬氏距離的優(yōu)勢在于其充分考量了數(shù)據(jù)集中各特征間的相關(guān)性,適用于處理高維數(shù)據(jù)場景。通過構(gòu)建協(xié)方差矩陣,不僅能夠揭示各變量間變化的相關(guān)程度及其方向性,還能將這些特征關(guān)聯(lián)信息整合到距離計(jì)算公式中,從而對數(shù)據(jù)點(diǎn)間相似度提供更為精準(zhǔn)的刻畫。在K-means算法的實(shí)際迭代步驟中,文章進(jìn)一步將馬氏距離應(yīng)用到簇心更新策略中,以此來優(yōu)化聚類中心的位置決策,進(jìn)而增強(qiáng)聚類結(jié)果的整體精確度。馬氏距離的計(jì)算公式如式(3)所示。

        d(x,y)=(x-y)TC-1(x-y)(3)

        其中,x和y是n維列向量,C是協(xié)方差矩陣的逆矩陣。

        文章還創(chuàng)新性地運(yùn)用了灰狼優(yōu)化算法[8]對K-means算法的k值進(jìn)行自動(dòng)優(yōu)化,傳統(tǒng)的聚類中通常使用的是手肘圖法?;依莾?yōu)化算法相較于其他諸如螢火蟲算法[9]、蟻群算法[10]及粒子群優(yōu)化算法[11]等同類方法,在解決高維度、非線性優(yōu)化任務(wù)時(shí),展現(xiàn)出更優(yōu)的快速收斂特性,能高效逼近全局最優(yōu)解。借助灰狼優(yōu)化算法的框架與機(jī)制,動(dòng)態(tài)調(diào)整k值以尋求最佳的簇劃分。具體而言,依據(jù)灰狼個(gè)體在搜索空間中的狀態(tài)變化及其模擬的捕獵行為模式,算法系統(tǒng)地探尋k值空間,旨在發(fā)現(xiàn)能使聚類效能最大化的簇?cái)?shù)目,從而顯著提升聚類分析的整體表現(xiàn)。算法1偽代碼如圖2所示。

        圖中:第1行的GREY-WOLF-OPTIMIZER-K函數(shù)用于模擬灰狼迭代過程,函數(shù)輸入分別是data數(shù)據(jù)、numwolves灰狼數(shù)量以及numiterations迭代次數(shù);lowerbound設(shè)置最小簇?cái)?shù)為2,upperbound設(shè)置最大簇?cái)?shù)為10;第4行進(jìn)行灰狼初始化,分別賦值給alpha,beta,delta進(jìn)行迭代,迭代過程中將最優(yōu)賦值給alpha,次優(yōu)賦值給beta,次次優(yōu)賦值給delta;第24行對灰狼的位置進(jìn)行更新;第25行計(jì)算所有灰狼個(gè)體的適應(yīng)度值;第32行的OBJECTIVEFUNCTION函數(shù)用于根據(jù)灰狼每一次迭代出的聚類簇?cái)?shù)求解對應(yīng)的輪廓系數(shù)。使用灰狼優(yōu)化算法查找最優(yōu)距離簇?cái)?shù)的算法時(shí)間復(fù)雜度為O(numiterations×numwolves×D),空間復(fù)雜度為O(numwolves×D),其中D是輸入數(shù)據(jù)的維度。

        K-means算法通常依賴于隨機(jī)選取初始聚類中心,然而這種方法易導(dǎo)致聚類結(jié)果的變異性較大。鑒于此,文章對算法進(jìn)行了改良,引入隨機(jī)游走算法[12]來增強(qiáng)初始聚類中心定位的全局探索能力。在算法啟動(dòng)階段,運(yùn)用隨機(jī)游走策略遍歷解空間,旨在發(fā)掘更具優(yōu)勢的初始簇心設(shè)定,從根本上提升聚類輸出的穩(wěn)健性和質(zhì)量,尤其當(dāng)處理含有大量噪聲或結(jié)構(gòu)復(fù)雜的數(shù)據(jù)集時(shí),改進(jìn)后的算法展現(xiàn)出更高的抗干擾能力和適應(yīng)性。隨機(jī)游走算法可由式(4)表示。

        Xt=Xt-1+Zt(4)

        當(dāng)前時(shí)刻t的位置是前一時(shí)刻t-1的位置與噪聲z之和,文章假設(shè)噪聲是正態(tài)分布的(均值為0,方差為1)。

        算法2偽代碼如圖3所示。圖中:第1行的NE WCLUSTER為聚類的主函數(shù),輸入分別為data數(shù)據(jù)、k聚類簇?cái)?shù)、n最大迭代次數(shù);第2行使用隨機(jī)游走算法確定初始聚類中心clustercenter;第6行開始迭代;第9行求解數(shù)據(jù)點(diǎn)距離各個(gè)簇心的馬氏距離;第11、12行將數(shù)據(jù)點(diǎn)分配到距離最近的簇;第15、16行通過求平均值的方式更新簇心位置;第23行的GETMAHALANOBIS函數(shù)輸入為x和y,用來求解樣本間的馬氏距離;第32行的RANDOMWALKCLU STERCENTERS函數(shù)輸入為data數(shù)據(jù),numclusters簇心數(shù)量,maxsteps最大步數(shù),用來進(jìn)行隨機(jī)游走確定初始聚類中心。

        馬氏距離算法的時(shí)間復(fù)雜度為O(n2×d2),空間復(fù)雜度為O(d2),其中,n是樣本數(shù)量,d是數(shù)據(jù)維度;隨機(jī)游走算法的時(shí)間復(fù)雜度為O(1),空間復(fù)雜度為O(d),其中,d是數(shù)據(jù)維度;K-means算法的時(shí)間復(fù)雜度為O(n×k×T),空間復(fù)雜度為O(n+k×d),其中,n是樣本數(shù)量,d是數(shù)據(jù)維度,k是聚類簇?cái)?shù),T是最大迭代次數(shù)。綜上,最終整體算法時(shí)間復(fù)雜為O(n2×d2),空間復(fù)雜度為O(n+k×d)。

        改進(jìn)后的K-means算法整體流程如圖4所示。

        2評價(jià)指標(biāo)與對比實(shí)驗(yàn)

        2.1聚類數(shù)據(jù)選擇與數(shù)據(jù)預(yù)處理

        2.1.1聚類數(shù)據(jù)集選擇

        文章從Universal Protein蛋白質(zhì)數(shù)據(jù)庫中下載5種蛋白質(zhì)的氨基酸序列數(shù)據(jù),其是目前國際上最廣泛使用的蛋白質(zhì)數(shù)據(jù)庫,包含了豐富的蛋白質(zhì)一級和二級信息。5種蛋白質(zhì)數(shù)據(jù)的下載鏈接如下。

        (1)APP蛋白質(zhì):https://www.uniprot.org/uniprotkb?query=APP,其中包含了226696個(gè)蛋白質(zhì)序列。

        (2)CRP蛋白質(zhì):https://www.uniprot.org/uniprotkb?query=CRP,其中包含了220784個(gè)蛋白質(zhì)序列。

        (3)HP蛋白質(zhì):https://www.uniprot.org/uniprotkb?query=HP,其中包含了1849846個(gè)蛋白質(zhì)序列。

        (4)CP蛋白質(zhì):https://www.uniprot.org/uniprotkb?query=CP,其中包含了1482428個(gè)蛋白質(zhì)序列。

        (5)MPP蛋白質(zhì):https://www.uniprot.org/uniprotkb?query=MPP,其中包含了529382個(gè)蛋白質(zhì)序列。

        2.1.2數(shù)據(jù)預(yù)處理

        (1)One-hot編碼。

        文章使用One-hot編碼將蛋白質(zhì)氨基酸序列轉(zhuǎn)換為0和1組成的矩陣數(shù)據(jù)。

        (2)數(shù)據(jù)補(bǔ)齊。

        由于每個(gè)蛋白質(zhì)的氨基酸序列長短不一,文章經(jīng)過One-hot編碼轉(zhuǎn)換后造成矩陣每一行的長度不一致,從而影響Transformer的降維過程,因此需要按照最長的序列長度進(jìn)行補(bǔ)齊操作,將短序列后面缺少的部分都添補(bǔ)為0。

        (3)噪聲去除。

        為了消除數(shù)據(jù)集中噪聲數(shù)據(jù)對聚類結(jié)果的影響,文章采用均值濾波來剔除噪聲。該方法首先設(shè)定一個(gè)均值濾波窗口大??;然后,計(jì)算窗口內(nèi)部所有數(shù)據(jù)的平均值,并將這個(gè)均值替代窗口中心點(diǎn)位置的數(shù)據(jù);最后,讓窗口順序向后平移一個(gè)單位,形成連續(xù)且部分重疊的窗口結(jié)構(gòu)。文章在處理邊界數(shù)據(jù)時(shí)不進(jìn)行改變,即窗口中心值兩側(cè)的數(shù)據(jù)依然保留其原始數(shù)值。

        2.2評價(jià)指標(biāo)

        使用Transformer降維和改進(jìn)的聚類算法后,對APP、CRP、HP、CP和MPP 5種蛋白質(zhì)數(shù)據(jù)進(jìn)行評價(jià),所得5個(gè)評價(jià)指標(biāo)結(jié)果如表1所示。5個(gè)評價(jià)指標(biāo)解釋如下。

        (1)輪廓系數(shù):輪廓系數(shù)用于衡量樣本的聚類緊密度和間隔度,其取值范圍為[-1, 1],其值越接近1表示聚類效果越好。

        (2)DB指數(shù):DB指數(shù)的表示形式為分子是2個(gè)簇內(nèi)樣本平均距離之和,分母是2簇的中心距離。該指數(shù)越小說明簇內(nèi)樣本點(diǎn)更緊密,簇間隔越遠(yuǎn),聚類效果越好[13]。

        (3)簇內(nèi)平方和:簇內(nèi)平方和表示每個(gè)簇內(nèi)部數(shù)據(jù)點(diǎn)到該簇質(zhì)心的距離平方和,其值越小表示每一簇?cái)?shù)據(jù)點(diǎn)越緊密,聚類效果越好。

        (4)簇間平方和:簇間平方和是所有簇中心點(diǎn)與整個(gè)數(shù)據(jù)集中心點(diǎn)之間距離平方和的加權(quán)和,用于評估聚類后數(shù)據(jù)簇與簇之間的分離程度。其值越大表示簇間分離度越高,聚類效果越好。

        (5)時(shí)間:該指標(biāo)指從讀取降維后的數(shù)據(jù)到聚類出結(jié)果所需的時(shí)間,單位為s。

        由表1可知,改進(jìn)后的算法輪廓系數(shù)穩(wěn)定在0.52~0.65,DB指數(shù)穩(wěn)定在0.45~0.70,其中聚類時(shí)間受到數(shù)據(jù)集樣本數(shù)量的影響,會(huì)產(chǎn)生波動(dòng)。

        2.3對比實(shí)驗(yàn)

        文章采用5種蛋白質(zhì)數(shù)據(jù),并進(jìn)行實(shí)驗(yàn)得到了對應(yīng)的聚類結(jié)果,選取具有代表性的APP蛋白質(zhì)數(shù)據(jù)聚類結(jié)果作為實(shí)驗(yàn)效果對比。圖5為Transformer降維+改進(jìn)后的聚類算法得到的聚類結(jié)果。由圖可知:使用灰狼優(yōu)化算法確定最佳聚類簇?cái)?shù)為8,因此數(shù)據(jù)被聚為8類,各簇之間界線明顯,簇內(nèi)聚合度高,離群點(diǎn)數(shù)量少,每簇的數(shù)據(jù)點(diǎn)數(shù)量分布相對均勻,所提方法能夠很好地進(jìn)行聚類。

        使用PCA降維和改進(jìn)的聚類算法后,對APP、CRP、HP、CP和MPP 5種蛋白質(zhì)數(shù)據(jù)進(jìn)行評價(jià),所得5個(gè)評價(jià)指標(biāo)結(jié)果如表2所示。由表2可知,PCA降維+改進(jìn)后的聚類算法的輪廓系數(shù)在0.22~0.25,明顯低于Transformer降維+改進(jìn)后的聚類算法;DB指數(shù)在0.82~1.18,也高于Transformer降維,但是在時(shí)間上PCA降維后的聚類要略快于Transformer降維后的聚類。PCA降維+改進(jìn)的聚類算法的聚類結(jié)果如圖6所示。由圖6可知,同樣使用灰狼優(yōu)化算法確定最佳聚類簇?cái)?shù)為8,因此數(shù)據(jù)被聚為8類,PCA降維后的數(shù)據(jù)并不能很好地保留原始數(shù)據(jù)特征,導(dǎo)致聚類結(jié)果產(chǎn)生很多的離群點(diǎn),并且每簇的數(shù)據(jù)點(diǎn)數(shù)量差距較大,不能正確聚類。

        Transformer降維+傳統(tǒng)K-means聚類算法后,對APP、CRP、HP、CP和MPP 5種蛋白質(zhì)數(shù)據(jù)進(jìn)行評價(jià),所得5個(gè)評價(jià)指標(biāo)結(jié)果如表3所示。由表3可知:Transformer降維+傳統(tǒng)K-means聚類算法的輪廓系數(shù)在0.23~0.31,明顯低于Transformer降維+改進(jìn)后的聚類算法;DB指數(shù)在1.05~1.12,也高于改進(jìn)后的聚類算法,但是時(shí)間上傳統(tǒng)K-means聚類算法聚類速度要明顯快于改進(jìn)后的聚類算法。

        傳統(tǒng)K-means聚類算法的分析結(jié)果由圖7所示。由圖7可知:手肘點(diǎn)在5的位置,因此文章將Transformer降維后的數(shù)據(jù)聚為5類。Transformer降維+傳統(tǒng)K-means聚類算法的聚類結(jié)果如圖8所示。由圖8可知:數(shù)據(jù)被聚為5類,由于使用了Transformer降維,降維后的數(shù)據(jù)保留了原始數(shù)據(jù)的特征,每一簇只有很少的離群點(diǎn),但是各簇之間的界線不夠明確,簇與簇之間有相互疊加的部分,聚類效果不佳。

        3種算法在5種數(shù)據(jù)集上的指標(biāo)變化情況如圖9所示。為了清晰展示折線走勢,將PCA降維+改進(jìn)后的聚類算法的簇內(nèi)平方和縮小100倍以及簇間平方和縮小1000倍。由圖可知,Transformer降維+改進(jìn)后的聚類算法的輪廓系數(shù)在5種蛋白質(zhì)數(shù)據(jù)集上均為最高,DB指數(shù)均為最低,但是在聚類時(shí)間上,改進(jìn)后的算法最慢。因此,研究者計(jì)劃進(jìn)一步改進(jìn)算法,降低算法的復(fù)雜度,減少聚類所需時(shí)間。

        3蛋白質(zhì)聚類結(jié)果分析

        本章同樣選取具有代表性的APP蛋白質(zhì)數(shù)據(jù)作為聚類輸入;由于數(shù)據(jù)量龐大,這里僅選取數(shù)據(jù)集中3301個(gè)蛋白質(zhì)序列來做聚類分析。

        聚類后的每一類部分結(jié)果,如圖10所示。第1類蛋白質(zhì),如H3BCT0、H3BGI6和H3CSP9,主要參與細(xì)胞內(nèi)膜性運(yùn)輸系統(tǒng)[14],特別是在晚期高爾基體/反面高爾基網(wǎng)絡(luò)和內(nèi)體中,其介導(dǎo)囊泡的形成、識(shí)別并分揀特定跨膜蛋白,確保這些蛋白正確地被運(yùn)送到溶酶體及溶酶體相關(guān)器官以及在神經(jīng)元極化過程中發(fā)揮作用。第2類蛋白質(zhì),如H3DFU0、H6BNV0和H6C3Y2,主要參與細(xì)胞內(nèi)膜蛋白的選擇、集中和囊泡介導(dǎo)的運(yùn)輸過程,它們通過與囊泡蛋白、脂質(zhì)、貨物分子的多重相互作用,確保細(xì)胞內(nèi)物質(zhì)運(yùn)輸?shù)木_性和效率,并可能涉及某些病毒的生命周期。第3類蛋白質(zhì),如H3BFL8、H3BFL9和H3DA01,可通過阻斷淀粉樣前體蛋白與α-和β-分泌酶的接觸來減少APP的加工,并參與TNF誘導(dǎo)的細(xì)胞死亡和神經(jīng)元分化過程。第4類蛋白質(zhì),如H3B9Y0、H3GDD8和H3GDM7,參與向溶酶體及溶酶體相關(guān)器官分揀特定跨膜蛋白,并與BLOC-1復(fù)合體協(xié)作,確保貨物進(jìn)入細(xì)胞體組裝的囊泡中,進(jìn)而輸送至軸突和神經(jīng)末梢。第5類蛋白質(zhì),如H3D7I0、H3DBX3和H3DEJ4,參與從內(nèi)質(zhì)網(wǎng)經(jīng)高爾基體至反面高爾基網(wǎng)絡(luò)的生物合成蛋白運(yùn)輸,對于高爾基膜泡出芽及帶二賴氨酸標(biāo)簽蛋白從高爾基體到內(nèi)質(zhì)網(wǎng)的逆向運(yùn)輸至關(guān)重要。第6類蛋白質(zhì),如H3GMV1、H3GSM2和H3H1Z0,通過水解和代謝纖維素和其他基于葡萄糖的多糖[15],參與真菌和植物細(xì)胞壁成分(如β-葡聚糖)的降解。第7類蛋白質(zhì),如H3BIY9、H3GDD7和H3GHR8,參與多種多肽(如血管舒張劑緩激肽)的代謝,促進(jìn)多肽降解并可能調(diào)節(jié)血壓等生理過程。第8類蛋白質(zhì),如H3BCT1、H3GJ53和H3H1Y9,對網(wǎng)格蛋白依賴的內(nèi)吞作用及跨高爾基體網(wǎng)絡(luò)和早期內(nèi)體的蛋白質(zhì)分揀起關(guān)鍵作用[16],可能參與某些病毒的成熟過程,結(jié)合含多磷酸磷脂酰肌醇的脂質(zhì)以定位復(fù)合體于膜上,識(shí)別多種內(nèi)吞信號(hào)模體和分揀信號(hào)以實(shí)現(xiàn)有效貨物選擇。

        各類蛋白質(zhì)數(shù)量統(tǒng)計(jì)結(jié)果如圖11所示,各類蛋白質(zhì)占比如圖12所示。結(jié)合圖11、12可知,在8類蛋白質(zhì)中,第1類蛋白質(zhì)數(shù)量最多,占比為21.84%,由此可得參與細(xì)胞內(nèi)膜性運(yùn)輸系統(tǒng)的蛋白質(zhì)數(shù)量較多;第2類蛋白質(zhì)數(shù)量最少,占比僅為4.48%,這類蛋白質(zhì)可能涉及某些病毒的生命周期因此數(shù)量較少;第6類和第7類蛋白質(zhì)數(shù)量占比相接近,2類蛋白質(zhì)都參與代謝和降解的過程。

        4結(jié)語

        為了解決PCA主成分分析對蛋白質(zhì)數(shù)據(jù)降維后不能保持原有數(shù)據(jù)特征的問題,文章提出使用Transformer模型作為編碼器來對原始數(shù)據(jù)進(jìn)行降維從而提取數(shù)據(jù)特征,將數(shù)據(jù)降為三維。為了避免原始K-means聚類算法聚類簇?cái)?shù)由人為事先設(shè)定的問題,文章提出在算法中加入灰狼優(yōu)化算法來確定最佳聚類簇?cái)?shù)。由于原始K-means聚類算法的初始簇心是隨機(jī)產(chǎn)生的,具有局部性,文章使用隨機(jī)游走算法來產(chǎn)生初始簇心,使得初始簇心更具有全局性。鑒于歐氏距離在處理數(shù)據(jù)時(shí)易受各維度尺度差異與量綱影響的局限性,文章選擇采用馬氏距離替代,以此來度量數(shù)據(jù)點(diǎn)之間的距離,并作為分類算法的基礎(chǔ)。

        通過在5個(gè)蛋白質(zhì)數(shù)據(jù)集上進(jìn)行試驗(yàn),得出Transformer降維+改進(jìn)后的聚類算法在輪廓系數(shù)以及DB指數(shù)上都優(yōu)于PCA降維+改進(jìn)后的聚類算法和Transformer降維+傳統(tǒng)K-means聚類算法的結(jié)論。改進(jìn)算法對蛋白質(zhì)數(shù)據(jù)進(jìn)行聚類后,簇內(nèi)聚合度高,簇間差異性大,有助于研究者快速歸納出未知蛋白質(zhì)(尤其是缺乏充分實(shí)驗(yàn)數(shù)據(jù)的新發(fā)現(xiàn)蛋白質(zhì))的功能線索,輔助功能注釋;有助于研究者通過聚類找出與特定生物過程或疾病密切相關(guān)的蛋白質(zhì)簇,指導(dǎo)藥物開發(fā)者鎖定潛在的藥物靶標(biāo)。

        改進(jìn)后的算法在聚類時(shí)間上欠佳,未來研究計(jì)劃進(jìn)一步降低算法復(fù)雜度,提升算法的聚類速度;結(jié)合更先進(jìn)的模型來對數(shù)據(jù)進(jìn)行降維以及嵌入更優(yōu)的聚類方法。文章提出了一個(gè)聚類速度快、泛化性好、聚類準(zhǔn)確率高的聚類算法,其能夠落地實(shí)施,為人類蛋白質(zhì)研究作出一份貢獻(xiàn)。

        參考文獻(xiàn)

        [1]楊寧.基于蚱蜢群模糊聚類的蛋白質(zhì)特征提取與功能預(yù)測研究[D].合肥:安徽農(nóng)業(yè)大學(xué),2020.

        [2]黃旭,呂強(qiáng),楊凌云,等.近鄰傳播聚類算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2010(11):154-157.

        [3]黃旭,呂強(qiáng),吳進(jìn)珍,等.基于能量的蛋白質(zhì)結(jié)構(gòu)聚類距離加權(quán)策略[J].計(jì)算機(jī)工程,2010(21):173-174,177.

        [4]曹延姍.基于模型的聚類在蛋白質(zhì)分類研究中的應(yīng)用[D].昆明:云南財(cái)經(jīng)大學(xué),2019.

        [5]王藝皓,丁洪偉,李波,等.基于聚類與特征融合的蛋白質(zhì)亞細(xì)胞定位預(yù)測[J].計(jì)算機(jī)科學(xué),2021(3):206-213.

        [6]VASWANI A, SHAZEER N, PARMAR N, et al. 31st Conference on Neural Information Processing Systems on Attention is All You Need,December 10-16,2017[C]. Long Beach: NIPS, 2017.

        [7]董文靜.K-means算法綜述[J].信息與電腦(理論版),2021(11):76-78.

        [8]晏福.灰狼優(yōu)化算法的改進(jìn)研究[D].哈爾濱:哈爾濱工程大學(xué),2020.

        [9]程美英,倪志偉,朱旭輝.螢火蟲優(yōu)化算法理論研究綜述[J].計(jì)算機(jī)科學(xué),2015(4):19-24.

        [10]呂琳,尉永清,任敏,等.基于蟻群優(yōu)化算法的凝聚型層次聚類[J].計(jì)算機(jī)應(yīng)用研究,2017(1):114-117.

        [11]蔣建峰,孫金霞,尤瀾濤.基于粒子群優(yōu)化算法的無線傳感網(wǎng)絡(luò)安全分簇策略[J].計(jì)算機(jī)科學(xué),2021(增刊2):452-455,470.

        [12]占志文,劉君.基于隨機(jī)游走的密度峰值聚類算法[J].南昌大學(xué)學(xué)報(bào)(工科版),2022(2):183-191.

        [13]陶洋,鄧行,楊飛躍,等.基于DTW距離度量的層次聚類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2019(1):116-121.

        [14]曹禹,夏瑩.細(xì)胞內(nèi)膜系統(tǒng)的跨膜分子運(yùn)輸[J].科學(xué)通報(bào),2016(25):2762-2766.

        [15]尤少林.Klebsiella sp發(fā)酵木質(zhì)纖維素水解液合成生物氫的代謝途徑優(yōu)化[D].蕪湖:安徽工程大學(xué),2020.

        [16]趙雅惠,吳旻,林福呈,等.內(nèi)體分揀轉(zhuǎn)運(yùn)復(fù)合體的組成及其功能研究[J].中國細(xì)胞生物學(xué)學(xué)報(bào),2017(2):215-222.

        (編輯王永超編輯)

        Application of combinatorial clustering algorithm in protein data analysis using Transformer

        CHEN" Xianglong1,2, LI" Haijun1,2*, ZHAO" Fujun1,2, YUAN" Yuan1,2

        (1.School of Information and Intelligent Engineering, University of Sanya, Sanya 572022, China; 2.Academician Guoliang Chen Team Innovation Center, University of Sanya, Sanya 572022, China)

        Abstract:" In this study, the Transformer model is adapted to the protein feature dimensionality reduction scenario, which endows the model with better modeling performance for long-range dependencies through its unique self-attention mechanism, and at the same time, the multi-attention design enables the model to capture the interactions between features from different perspectives, which further enhances the expressiveness and robustness of the dimensionality reduction results. A novel GRKM combinatorial clustering algorithm is studied and experimented, which introduces a Grey Wolf Optimization Algorithm into the original K-means algorithm to determine the K value of the clusters, and a Random Walk algorithm to determine the initial cluster centers, and the Markov Distance to measure the similarity between samples. In the study, five representative protein datasets are experimentally validated, and it is concluded that the improved algorithm has a substantial improvement in the profile coefficient as well as DB index compared with the pre-improved one. The final result analysis selects APP protein data, clusters the proteins into eight categories, explores the biological functions of each category, and achieves more obvious results in terms of interpretability. The algorithm in this paper provides a reference tool for practical applications such as in-depth understanding of protein function, discovering potential biomarkers, and guiding drug design.

        Key words: protein sequence; Transformer model; clustering algorithm; Markov Distance; Random Walk; Grey Wolf Optimization Algorithm

        猜你喜歡
        灰狼降維聚類
        混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
        車主之友(2022年4期)2022-08-27 00:57:12
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        谷谷雞和小灰狼
        灰狼的大大噴嚏
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        灰狼和老虎
        快樂語文(2016年15期)2016-11-07 09:46:31
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        灰狼的幸福
        讀寫算(中)(2015年6期)2015-02-27 08:47:14
        拋物化Navier-Stokes方程的降維仿真模型
        中国a级毛片免费观看| 宅男亚洲伊人久久大香线蕉| 国产丝袜美女| 亚洲乱亚洲乱少妇无码99p| 免费国产99久久久香蕉| 久久亚洲精品中文字幕蜜潮| 日韩亚洲中文有码视频| 国产成人精品一区二区不卡| 亚洲国产精品久久久天堂不卡海量 | 大香蕉青青草视频在线| 亚洲欧美v国产一区二区| 亚洲国产精品久久久久秋霞影院| 中文字幕一区二区三区人妻精品| 少妇我被躁爽到高潮在线影片| 国产成人无码专区| 欧美日韩中文国产一区发布 | 成人久久久久久久久久久| 国产精品99久久久精品免费观看| 操老熟妇老女人一区二区| 男人天堂网2017| 四川老熟女下面又黑又肥| 就国产av一区二区三区天堂| 国产专区亚洲专区久久| 久久精品女人天堂av免费观看| 少妇极品熟妇人妻无码| 美腿丝袜av在线播放| 国产黑色丝袜在线看片| 久久久久国产一区二区| 午夜短无码| 精品精品国产一区二区性色av| 天堂国产一区二区三区| 欧美z0zo人禽交欧美人禽交| 91亚洲最新国语中文字幕| 免费国产在线视频自拍白浆| 欧美最猛性xxxxx免费| 亚洲一区二区三区久久不卡| av高潮一区二区三区| 国产伦精品免编号公布| 亚洲一区视频在线| 国产高清大片一级黄色| 人妻洗澡被强公日日澡电影|