亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于KMeans聚類的微生物群落結(jié)構研究

        2018-02-01 11:36:57王俠林賀建峰
        軟件導刊 2018年1期
        關鍵詞:方法

        王俠林+賀建峰

        摘要:

        隨著宏基因組學的不斷發(fā)展,揭示了微生物菌群在研究中的重要作用。采用K-Means聚類算法對來源于北平頂猴陰道微生物群落OTUs數(shù)據(jù)集的27個樣本進行研究,并與PCA主成分分析法進行對比。K-Means聚類將OTUs數(shù)據(jù)集分成4個Cluster,而PCA將OTUs數(shù)據(jù)集劃分成5個Cluster。此外,結(jié)合樣本的元數(shù)據(jù)-pH,發(fā)現(xiàn)樣本間的pH值相似性更能與K-Means聚類的分類保持一致。相較于PCA主成分析方法,K-Means聚類能更精確地對OTUs數(shù)據(jù)集進行分類。

        關鍵詞:

        K-Means聚類;PCA主成分分析法;微生物群落結(jié)構;OTUs數(shù)據(jù)集

        DOIDOI:10.11907/rjdk.172732

        中圖分類號:TP319

        文獻標識碼:A文章編號文章編號:1672-7800(2018)001-0146-03

        Abstract:The development of macrogeome has shown that microbial flora plays an important role in the research and development of many aspects. A total of 27 samples from the OTUs data collection of the microbiological community of the North Mongolian monkey were studied by K-Means clustering algorithm and compared with the PCA principal component analysis method. K-Means clustering divides the OTUs data set into four clusters. Interestingly, PCA divides the OTUs data set into five clusters. In addition, combining the sample metadata-pH, it is found that the pH similarity between the samples is more consistent with the classification of K-Means clustering.K-Means clustering classifies the OTUs data sets more accurately than the PCA principal analysis method.

        Key Words:K-Means clustering; principal component analysis; microbial community structure; OTUs data set

        0引言

        微生物群落的種群多樣性一直是微生物生態(tài)學和環(huán)境學科研究的重點。近年來,微生物群落結(jié)構成為了研究熱點。群落結(jié)構決定了生態(tài)功能的特性和強弱,因此群落結(jié)構的高穩(wěn)定性是實現(xiàn)生態(tài)功能的重要因素,群落結(jié)構變化也是標記環(huán)境變化的重要指標[1-4]。通過對目標微生物的群落結(jié)構和多樣性進行解析并研究其動態(tài)變化,可為挖掘群落功能信息、優(yōu)化群落結(jié)構與調(diào)節(jié)群落功能提供可靠依據(jù)。

        自新一代高通量測序技術2005年問世以來,以其數(shù)字化信號、高數(shù)據(jù)通量、高準確率以及信息量豐富等優(yōu)點,被廣泛應用于微生物菌群研究中[3-6]。本次研究的菌群數(shù)據(jù)集具有OTUs(Operational Taxonomic Unit)數(shù)量多、數(shù)據(jù)量大、樣本信息復雜以及具有一定稀疏性等特點,且微生物群落數(shù)據(jù)特性與文本分析的變化模式類似。因此,本文提出一種非監(jiān)督學習算法K-Means聚類算法對微生物群落進行研究。

        目前,在微生物群落研究中,PCA主成分分析法也是一種常用方法。PCA 主成分分析法是把多指標轉(zhuǎn)化為少數(shù)幾個綜合指標,使其盡可能多地保留原始變量信息,且彼此不相關[7-8]。但處理結(jié)果具有一定模糊性,不能很好地抓住數(shù)據(jù)的真實子空間結(jié)構,當遮擋幅值較大時,效果較差。而K-Means聚類算法是一種非監(jiān)督學習的硬聚類算法[9],是典型的基于原型的目標函數(shù)聚類方法的代表。它是以數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標函數(shù),利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則,主要采用誤差平方和準則函數(shù)作為聚類準則函數(shù),以歐式距離作為相似度測度,具有計算速度快、操作簡單、時間復雜度近似線性的特點,適合挖掘大規(guī)模數(shù)據(jù)集,且對大數(shù)據(jù)集分析有較高效率以及可伸縮性[10]。因此,本文采用K-Means聚類分析不同來源或不同時期的微生物群落,并與PCA方法進行對比,使該方法能夠進一步運用于微生物研究。

        1材料與方法

        1.1數(shù)據(jù)來源

        本次數(shù)據(jù)集來源于兩個成年雌性北平頂猴個體PMA和PMB的陰道菌群數(shù)據(jù),共27個樣本。其中,PMA含有13個時間點數(shù)據(jù),PMB含有14個時間點數(shù)據(jù)[11]。

        1.2K-Means聚類原理

        K-Means聚類[12-13]也稱為K-平均或K-均值,是一種使用最廣泛的聚類算法。它是將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本均值作為該聚類的代表點,算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同類別,使評價聚類性能的準則函數(shù)達到最優(yōu),從而使生成的每個聚類類內(nèi)緊湊,類間獨立。劃分聚類方法對數(shù)據(jù)集進行聚類時包括如下3個要點:

        (1)選定某種距離作為數(shù)據(jù)樣本間的相似性度量。由于K-Means聚類算法不適合處理離散型屬性,而對于連續(xù)型屬性比較適合。因此,在計算數(shù)據(jù)樣本之間的距離時,可以根據(jù)實際需要選擇歐式距離、曼哈頓距離或者明考斯距離中的一種作為算法的相似性度量[14],其中最常用的是歐式距離。endprint

        (3)根據(jù)一個簇中對象的平均值進行相似度計算,步驟為:①將所有對象隨機分配到k個非空的簇中;②然后計算每個簇的平均值,并用該平均值代表相應的簇;③根據(jù)每個對象與各個簇中心的距離,分配給最近的簇;④最后轉(zhuǎn)到②,重新計算每個簇的平均值。該過程不斷重復,直到滿足某個準則函數(shù)才停止。

        K-Means聚類的具體算法步驟[17]為:①為每個聚類確定一個初始聚類中心,共有k個初始聚類中心;②將樣本集中的樣本按照最小距離原則分配到最鄰近聚類;③使用每個聚類中的樣本均值作為新的聚類中心;④重復步驟②、③,直到聚類中心不再變化;⑤結(jié)束,得到k個聚類。

        2分析結(jié)果

        2.1K-Means聚類結(jié)果

        利用K-Means聚類對北平頂猴OTUs數(shù)據(jù)集的27個樣本進行分析,并通過MEV軟件進行計算處理,最終將OTUs數(shù)據(jù)集分成了4類(見圖1)。圖1(a)、(b)、(c)、(d)分別表示K-Means聚類的4個Cluster。每行表示每個OTUs在不同樣本中的相對豐度,每列表示每個樣本中OTUs的相對豐度。

        由圖1可以看出,樣本PMA05、PMB05、PMB13對第1個分類影響最大;PMA01、PMB08對第2個分類影響最大;PMA12、PMA14對第3個分類影響最大;PMA09-11對第4個分類影響最大。表1展示了K-Means的詳細聚類結(jié)果。

        2.2PCA-主成分分析法

        以OTUs數(shù)據(jù)集為評價單元,對其指標數(shù)據(jù)進行標準化處理后作為樣本,利用SPSS 23.0對其進行主成分分析。按照成分因子達到80%~85%即可提取為主成分因子的原則,提取前5個因子作為主成分因子(見表2)。

        主成分分析法提取的公共因子,每一載荷量表示主成分與對應變量的相關系數(shù)(見表3)。由表3可以看出,公共因子1載荷量較大的樣本是PMA01-02、PMA04、PMA11-13、PMB01-02、PMB08-09、PMB16;公共因子2載荷量較大的樣本是PMA05、PMB04-06、PMB12-15;公共因子3載荷量較大的樣本是PMA03、PMA14、PMA16;公共因子4載荷量較大的樣本是PMA09;公共因子5載荷量較大的樣本是PMA08。

        計算OTU數(shù)據(jù)集各樣本綜合得分(見圖 2)。

        2.3NPTM-pH值

        NPTM-pH值是所在樣本的pH值,如圖3所示。

        根據(jù)pH值的相似性將OTUs數(shù)據(jù)集分為4類,分別用4種不同顏色表示。由圖3可以看出,K-Means聚類的分類結(jié)果與樣本pH值的相似性保持一致。

        3結(jié)語

        本文基于K-Means聚類對微生物群落結(jié)構進行了研究,K-Means聚類將OTUs數(shù)據(jù)集的27個樣本分成4個Cluster,PCA主成分分析將該樣本分成5個Cluster。結(jié)合樣本元數(shù)據(jù),發(fā)現(xiàn)K-Means聚類的分析結(jié)果能更好地與pH值的相似性保持一致,說明K-Means聚類更能精確地對OTUs數(shù)據(jù)集進行分類。兩種方法評價結(jié)果的差異主要與兩種方法所確定的權重差異、結(jié)果數(shù)據(jù)處理差異、方法理論差異等有關,同時與標準化處理方法的差異也有一定關系。但綜合考慮來看,K-Means聚類相對于PCA方法更能有效地區(qū)分微生物群落結(jié)構樣本。

        參考文獻:

        [1]HUMAN MICROBIOME PROJECT C. Structure, function and diversity of the healthy human microbiome[J]. Nature,2016,486:207-214.

        [2]HUMAN MICROBIOME PROJECT C. A framework for human microbiome research[J]. Nature,2016,486:215-221.

        [3]曹鵬,賀紀正.微生物生態(tài)學理論框架[J].生態(tài)學報,2015(22):7263-7273.

        [4]車玉伶,王慧,胡洪營,等.微生物群落結(jié)構和多樣性解析技術研究進展[J].生態(tài)環(huán)境,2005(1):127-133.

        [5]孫志濱.LDA模型的研究及其在推薦系統(tǒng)中的應用[D].杭州:浙江大學,2016.

        [6]盛華芳.基于BIPES分析微生物群落的生物信息學方法的建立[D].廣州:南方醫(yī)科大學,2012.

        [7]CHENG FAN LI, YANG YANG DAI,JUN JUAN ZHAO, et al. Remote sensing monitoring of volcanic Ash clouds based on PCA metho[J]. Acta Geophysica,2015,63(2):1-19.

        [8]POTEMRA T A. The empirical connection of riometer absorption to solar protons during PCA events[J]. Radio Science,2016,7(5):571-577.

        [9]Anna Kijewska,Anna Bluszcz. Research of varying levels of greenhouse gas emissions in European countries using the K-Means method[J]. Atmospheric Pollution Research,2016.

        [10]TAKASHI ONODA,MIHO SAKAI,SEIJI YAMADA. Careful seeding method based on independent components analysis for K-Means clustering[J]. Journal of Emerging Technologies in Web Intelligence,2012,4(1):112-115.endprint

        [11]ZHU L, LEI AH, ZHENG HY, et al. Longitudinal analysis reveals characteristically high proportions of bacterial vaginosis-associated bacteria and temporal variability of vaginal microbiota in northern pig-tailed macaques (Macaca leonina)[J]. Zoological Research,2015,36(5):285-98.

        [12]VINCENT COHENADDAD, PHILIP N KLEIN, CLAIRE MATHIEU. Local search yields approximation schemes for K-Means and k-median in Euclidean and minor-free metrics[J]. Foundations of Computer Science,2016:353-364.

        [13]SHAHRIVARI S, JALILI S. Single-pass and linear-time K-Means clustering based on MapReduce[J]. Information Systems,2016,60(C):1-12.

        [14]COHENADDAD V, KLEIN P N, MATHIEU C. Local search yields approximation schemes for K-Means and K-Median in euclidean and minor-free metrics[C].Foundations of Computer Science,2016:353-364.

        [15]SHI Z, SONG W, TAHERI S. Improved LMD, permutation entropy and optimized K-Means to fault diagnosis for roller bearings[J]. Entropy,2016,18(3):70.

        [16]HAMIDA E B, JAVED M A. Channel-aware ECDSA signature verification of basic safety messages with K-Means clustering in VANETs[C].IEEE, International Conference on Advanced Information Networking and Applications. IEEE,2016:603-610.

        [17]AHMADIAN S, NOROUZI-FARD A, SVENSSON O, et al. Better guarantees for K-Means and euclidean K-Median by primal-dual algorithms[J]. Sciencewise,2016.

        (責任編輯:黃?。〆ndprint

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學教學改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學反應多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學習方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        欧美最猛性xxxx| 亚洲大尺度动作在线观看一区 | av网站免费线看| 国内精品久久久久影院蜜芽| 亚洲中文字幕一区精品| 精品国产一区二区三区2021| 野花社区视频www官网| 国产精品福利小视频| 亚洲天堂av中文字幕| 国产高清成人在线观看视频| 国产精一品亚洲二区在线播放| 日韩av在线毛片| 日韩字幕无线乱码免费| 亚洲av福利院在线观看| 色婷婷综合久久久久中文| 国内精品国产三级国产av另类| 九九久久精品一区二区三区av| 日本边添边摸边做边爱喷水 | 国产内射性高湖| 嗯啊 不要 啊啊在线日韩a| 亚洲av色福利天堂久久入口| 好吊妞无缓冲视频观看| 欧美人与动人物牲交免费观看| 色人阁第四色视频合集网| 邻居人妻的肉欲满足中文字幕 | 日韩精品人妻系列无码专区免费| 538亚洲欧美国产日韩在线精品| 免费精品人妻一区二区三区| 免费无码av一区二区| 高清无码一区二区在线观看吞精| 国产内射视频免费观看| 18禁裸体动漫美女无遮挡网站 | 久久精品熟女亚洲av麻| 亚洲熟女乱色综合亚洲图片| 国产成人av在线影院无毒| 激情亚洲不卡一区二区| 丁香美女社区| 国产伦精品一区二区三区视| 国产三级三级精品久久| 国产免费又色又爽粗视频| 国产人在线成免费视频|