亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘方法在生物實(shí)驗(yàn)數(shù)據(jù)上的應(yīng)用

        2018-09-22 05:39:16辛月振孫貝貝夏盛瑜
        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)分類誤差

        辛月振,孫貝貝,夏盛瑜

        (中國(guó)石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)

        0 引 言

        隨著大規(guī)模生物實(shí)驗(yàn)技術(shù)的發(fā)展和數(shù)據(jù)累積,如何處理數(shù)據(jù),從全局和系統(tǒng)水平研究和分析生物學(xué)系統(tǒng),揭示其發(fā)展規(guī)律已成為一個(gè)新的研究熱點(diǎn)。傳統(tǒng)生物數(shù)據(jù)分析方法受限于其處理能力與時(shí)間復(fù)雜度,已逐漸不適用于當(dāng)前的生物數(shù)據(jù)分析。將計(jì)算機(jī)技術(shù)與生物實(shí)驗(yàn)相結(jié)合,采用生物信息學(xué)的思想與方法成為目前生物數(shù)據(jù)處理的新途徑[1]。

        近年來,機(jī)器學(xué)習(xí)方法已應(yīng)用于生物數(shù)據(jù)處理。在生物數(shù)據(jù)處理領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)挖掘算法已應(yīng)用于產(chǎn)量的優(yōu)化[2],特別是在培養(yǎng)條件的優(yōu)化方面。張梅等利用BP神經(jīng)網(wǎng)絡(luò)優(yōu)化杜鵑花黃酮的提取工藝[3]。Khaouane L等利用神經(jīng)網(wǎng)絡(luò)和粒子群優(yōu)化算法尋找最優(yōu)截短側(cè)耳素培養(yǎng)條件[4]。最近,隨著生物數(shù)據(jù)的增加,數(shù)據(jù)分類思想也應(yīng)用于生物數(shù)據(jù)處理方面[5-7]。分類的概念是在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上使用分類函數(shù),或者構(gòu)造一個(gè)分類模型(即通常稱之為分類器)。函數(shù)或模型可以將數(shù)據(jù)庫(kù)中的數(shù)據(jù)記錄映射到給定的類別,它可以應(yīng)用于數(shù)據(jù)預(yù)測(cè)。在文獻(xiàn)[8]中,應(yīng)用在這些實(shí)驗(yàn)中收集的數(shù)據(jù),以統(tǒng)計(jì)方法建立數(shù)學(xué)模型來預(yù)測(cè)桑黃產(chǎn)黃酮產(chǎn)量,并取得了較好的效果。但在這個(gè)過程中,發(fā)現(xiàn)統(tǒng)計(jì)方法在處理生物實(shí)驗(yàn)數(shù)據(jù)具有模型建立依賴先驗(yàn)知識(shí),數(shù)據(jù)受誤差樣本擾動(dòng)大,信息易丟失等缺點(diǎn)。因此,文中采用分類算法對(duì)整個(gè)樣本集進(jìn)行高產(chǎn)和低產(chǎn)的數(shù)據(jù)分類,取得了良好的分類精度。在高產(chǎn)數(shù)據(jù)集的基礎(chǔ)上,采用BP神經(jīng)網(wǎng)絡(luò)和遺傳算法對(duì)產(chǎn)量進(jìn)行優(yōu)化。最終得出了最優(yōu)產(chǎn)量與實(shí)驗(yàn)條件。

        1 數(shù)據(jù)采集與分類

        1.1 數(shù)據(jù)采集

        首先從生物單因素試驗(yàn)中采集數(shù)據(jù)。文中所采集的實(shí)驗(yàn)數(shù)據(jù)來源于桑黃實(shí)驗(yàn)室發(fā)酵實(shí)驗(yàn)[9],包括接種量、PH值、初始液量、溫度、種齡、發(fā)酵時(shí)間和轉(zhuǎn)速等參數(shù)。共獲取了90組實(shí)驗(yàn)數(shù)據(jù)。

        1.2 數(shù)據(jù)分類

        將數(shù)據(jù)集劃分為高產(chǎn)量數(shù)據(jù)集和低產(chǎn)量數(shù)據(jù)集兩部分。由之前的生物數(shù)據(jù)處理經(jīng)驗(yàn),來自生物實(shí)驗(yàn)的數(shù)據(jù)具有不同實(shí)驗(yàn)梯度數(shù)據(jù)相似度高、實(shí)驗(yàn)梯度有限等特點(diǎn)。傳統(tǒng)的預(yù)測(cè)方法在整個(gè)數(shù)據(jù)集中很難取得好的結(jié)果。所以文中使用分類的方法,針對(duì)高產(chǎn)的數(shù)據(jù),增加分類數(shù)據(jù)集中的樣本差。選擇分類時(shí)必須考慮到兩個(gè)關(guān)鍵因素。

        第一,保持兩個(gè)數(shù)據(jù)集之間的平衡。較大的不平衡可能導(dǎo)致分類器中更多的偏差[10]。類別數(shù)據(jù)不均衡是分類任務(wù)中一個(gè)典型存在的問題。簡(jiǎn)而言之,即數(shù)據(jù)集中,每個(gè)類別下的樣本數(shù)目相差很大。例如,在一個(gè)二分類問題中,共有100個(gè)樣本(100行數(shù)據(jù),每一行數(shù)據(jù)為一個(gè)樣本的表征),其中80個(gè)樣本屬于class1,其余的20個(gè)樣本屬于class2,class1∶class2=80∶20=4∶1,這便屬于類別不均衡。如果使用這種模型,分類器就不能找到高產(chǎn)因子,也不能為BP神經(jīng)網(wǎng)絡(luò)建立訓(xùn)練數(shù)據(jù)集。

        第二,高產(chǎn)數(shù)據(jù)集和低產(chǎn)數(shù)據(jù)集必須覆蓋所有單因素實(shí)驗(yàn)的實(shí)驗(yàn)條件。文中考慮兩種分類策略:第一個(gè),取黃酮類化合物產(chǎn)量的中位數(shù)作為分類邊界(在實(shí)驗(yàn)數(shù)據(jù)中是1 100 μg/ml),這樣獲得了數(shù)目相同的高產(chǎn)和低產(chǎn)數(shù)據(jù)集。通過大量實(shí)驗(yàn),證明在此分類邊界下分類效果是可以接受的。但是這種方法將會(huì)使某些單因素實(shí)驗(yàn)因素完全劃分為某低產(chǎn)類或高產(chǎn)類當(dāng)中;另一個(gè)策略是在每一組單變量實(shí)驗(yàn)中選擇一個(gè)邊界。保持每個(gè)單因素實(shí)驗(yàn)數(shù)據(jù)在兩個(gè)不同的類中,并且盡量使兩個(gè)類別中的元素?cái)?shù)量盡可能接近。結(jié)合上述條件,選擇黃酮產(chǎn)量為1 273 μg/ml作為邊界條件。在這個(gè)邊界條件下,得到20組高產(chǎn)量數(shù)據(jù)和30組低產(chǎn)量數(shù)據(jù)。

        分類結(jié)果如表1所示。

        表1 分類準(zhǔn)確率(邏輯回歸)

        2 模型建立

        BP(back propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)之一[11]。

        基本BP算法包括信號(hào)的前向傳播和誤差的反向傳播兩個(gè)過程。即計(jì)算誤差輸出時(shí)按從輸入到輸出的方向進(jìn)行,而調(diào)整權(quán)值和閾值則從輸出到輸入的方向進(jìn)行[12]。

        2.1 正向傳遞子過程

        現(xiàn)在設(shè)節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的權(quán)值為wij,節(jié)點(diǎn)j的閾值為bj,每個(gè)節(jié)點(diǎn)的輸出值為xj,而每個(gè)節(jié)點(diǎn)的輸出值是根據(jù)上層所有節(jié)點(diǎn)的輸出值、當(dāng)前節(jié)點(diǎn)與上一層所有節(jié)點(diǎn)的權(quán)值和當(dāng)前節(jié)點(diǎn)的閾值還有激活函數(shù)來實(shí)現(xiàn)的。具體計(jì)算方法如下:

        (1)

        xj=f(Sj)

        (2)

        其中,f為激活函數(shù),一般選取S型函數(shù)或者線性函數(shù)。

        2.2 反向傳遞子過程

        反向傳遞是將輸出誤差通過隱含層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層所有單元,以從各層獲得的誤差信號(hào)作為調(diào)整各單元權(quán)值的依據(jù)。通過調(diào)整輸入節(jié)點(diǎn)與隱層節(jié)點(diǎn)的連接強(qiáng)度和隱層節(jié)點(diǎn)與輸出節(jié)點(diǎn)的連接強(qiáng)度以及閾值,誤差沿梯度方向下降,經(jīng)過反復(fù)學(xué)習(xí)訓(xùn)練,確定與最小誤差相對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù)(權(quán)值和閾值),訓(xùn)練即告停止。

        假設(shè)輸出層的所有結(jié)果為dj,誤差函數(shù)如下:

        (3)

        其中,E(w,b)為當(dāng)前位置的梯度。

        由經(jīng)驗(yàn)公式可以確定隱含層節(jié)點(diǎn)數(shù)目,如下:

        (4)

        其中,h為隱含層節(jié)點(diǎn)數(shù)目;m為輸入層節(jié)點(diǎn)數(shù)目;n為輸出層節(jié)點(diǎn)數(shù)目;a為1-10之間的調(diào)節(jié)常數(shù)。經(jīng)過反復(fù)試驗(yàn)確定中間層節(jié)點(diǎn)數(shù)為9。

        每個(gè)隱層傳遞函數(shù)設(shè)置為“tansig”(雙極性S函數(shù))、“l(fā)ogsig”(單極性S函數(shù))。訓(xùn)練方法設(shè)定為“trainlm”。trainlm是指L-M優(yōu)化算法[13]。

        Sigmod函數(shù)如下:

        (5)

        每次選擇15組數(shù)據(jù)進(jìn)行建模,選擇5組數(shù)據(jù)進(jìn)行驗(yàn)證。訓(xùn)練次數(shù)設(shè)定為1 000,訓(xùn)練收斂誤差設(shè)定為0.000 01。重復(fù)7次實(shí)驗(yàn)的結(jié)果如表2所示。平均誤差為133.53,誤差百分比為8.7%。誤差值如圖1所示,誤差百分比如圖2所示??梢耘袛嗄P腿〉昧撕芎玫男Ч?。

        表2 BP預(yù)測(cè)結(jié)果

        圖1 誤差值

        圖2 誤差百分比

        3 實(shí)驗(yàn)仿真與尋優(yōu)

        文中采用遺傳算法(genetic algorithm,GA)來優(yōu)化產(chǎn)量。GA是模擬達(dá)爾文生物進(jìn)化論中自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計(jì)算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法[14]。GA是從代表問題可能潛在的解集的一個(gè)種群(population)開始,而一個(gè)種群則由經(jīng)過基因(gene)編碼的一定數(shù)目個(gè)體(individual)組成。每個(gè)個(gè)體實(shí)際上是染色體(chromosome)帶有特征的實(shí)體。染色體作為遺傳物質(zhì)的主要載體,即多個(gè)基因的集合,其內(nèi)部表現(xiàn)(即基因型)是某種基因組合,決定了個(gè)體的形狀的外部表現(xiàn)[15]。因此,在一開始需要實(shí)現(xiàn)從表現(xiàn)型到基因型的映射即編碼工作。由于仿照基因編碼的工作很復(fù)雜,往往進(jìn)行簡(jiǎn)化,如二進(jìn)制編碼。遺傳算法過程如圖3所示。

        圖3 遺傳算法流程

        設(shè)置GA算法的參數(shù)如下:種群大小設(shè)置為300,染色體大小設(shè)置為6,交叉速率設(shè)置為1,變異率設(shè)置為0.01。提取BP神經(jīng)網(wǎng)絡(luò)的隱藏閾值作為GA算法的適應(yīng)度函數(shù)。在大約30到500次迭代之后,GA過程返回最佳個(gè)體。訓(xùn)練過程如圖3所示。重復(fù)測(cè)試7次,結(jié)果如表3所示??梢钥吹?,得到的收益比實(shí)際收益略有增加。

        表3 7次實(shí)驗(yàn)預(yù)測(cè)結(jié)果

        4 結(jié)束語(yǔ)

        利用桑黃實(shí)驗(yàn)數(shù)據(jù)作為載體,提出了一種利用計(jì)算機(jī)技術(shù)處理生物實(shí)驗(yàn)數(shù)據(jù)的方法。實(shí)驗(yàn)結(jié)果表明,模型預(yù)測(cè)的最優(yōu)條件與生物實(shí)驗(yàn)結(jié)果一致,證明該方法對(duì)培養(yǎng)條件優(yōu)化具有良好的可預(yù)測(cè)性。機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的算法在處理大數(shù)量的生物數(shù)據(jù)具有獨(dú)特優(yōu)勢(shì),是生物信息學(xué)潛在的發(fā)展方向[16-17]。

        猜你喜歡
        神經(jīng)網(wǎng)絡(luò)分類誤差
        分類算一算
        角接觸球軸承接觸角誤差控制
        哈爾濱軸承(2020年2期)2020-11-06 09:22:26
        Beidou, le système de navigation par satellite compatible et interopérable
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        分類討論求坐標(biāo)
        壓力容器制造誤差探究
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        九十億分之一的“生死”誤差
        山東青年(2016年2期)2016-02-28 14:25:41
        亚洲二区三区在线播放| 伊人蕉久中文字幕无码专区| 国产精品11p| 偷拍激情视频一区二区| 人妖一区二区三区在线| 久久天天躁狠狠躁夜夜躁2014| 亚洲精品永久在线观看| 亚洲日产国无码| 成人影院在线观看视频免费| 欧美69久成人做爰视频| 久久国产成人午夜av影院| 亚洲中文字幕不卡无码| 精华国产一区二区三区| 欧美性猛交xxxx三人| 亚洲av之男人的天堂| 一区二区三区中文字幕有码| 亚洲精品有码日本久久久| 国精产品推荐视频| 精品国产一区二区三区AV小说| 国内精品久久人妻互换| 成熟人妻换xxxx| 国产成人a级毛片| 无码综合天天久久综合网| 中字亚洲国产精品一区二区| 亚洲精品大全中文字幕| 久久久久亚洲av片无码| 国产精品丝袜黑色高跟鞋| 成年毛片18成年毛片| 东京热日本av在线观看| 少妇性荡欲视频| 尤物yw无码网站进入| 日韩成人精品一区二区三区| 国产一级二级三级在线观看视频| 国产精品久久久久久婷婷| 亚洲AV成人无码久久精品在| 精品熟女av中文字幕| 一二区成人影院电影网| 国产nv精品你懂得| 麻豆激情视频在线观看| 亚洲国产精品综合久久网络 | 无遮挡粉嫩小泬|