亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的蛋白質(zhì)疏水性分析的研究

        2017-12-27 05:54:24周斯涵劉月蘭
        關(guān)鍵詞:水性分類器向量

        周斯涵,劉月蘭

        (哈爾濱師范大學(xué))

        0 引言

        驗(yàn)證蛋白質(zhì)的親疏水性對(duì)蛋白質(zhì)的穩(wěn)定性、構(gòu)象和蛋白質(zhì)功能具有重要意義.多年來(lái),科學(xué)工作者為測(cè)定蛋白質(zhì)的親疏水性做了多方面的研究,目前,研究者多用ExPASy的Protparam[1]用來(lái)預(yù)測(cè)蛋白質(zhì),但是仍未出現(xiàn)一種比較精確的預(yù)測(cè)方法.

        機(jī)器學(xué)習(xí)[2](Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科.該文基于機(jī)器學(xué)習(xí)中的四種分類算法,設(shè)計(jì)出四種分類器,并將四種分類器整合,得到最優(yōu)解.可將多個(gè)含有親疏水性特征值的蛋白質(zhì)作為一個(gè)數(shù)據(jù)集輸入到分類器中.分類器利用該數(shù)據(jù)集進(jìn)行自我訓(xùn)練與學(xué)習(xí),最終準(zhǔn)確預(yù)測(cè)出蛋白質(zhì)的疏水性.

        1 算法與過(guò)程

        1.1 數(shù)據(jù)獲取

        通過(guò)Python編程語(yǔ)言編寫數(shù)據(jù)挖掘方法,利用Enterz與包含正則表達(dá)式的re模塊,實(shí)現(xiàn)自動(dòng)從美國(guó)NCBI數(shù)據(jù)庫(kù)獲取指定ID號(hào)的多個(gè)蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù),并以蛋白質(zhì)名、序列數(shù)據(jù)存入可指定位置的本地文檔,部分源代碼如下所示:

        def get_protein_sequence(protein_id):

        handle=Entrez.efetch(db="protein",id=str(protein_id),rettype="genbank", email="")

        record=handle.read()

        protein_name=re.findall(r'

        (.+?)

        protein_sequence=re.findall(r'

        (.+?)

        ',str(record))

        for n in range(100000,200000):

        line=get_protein_sequence(n)

        line=str(line)

        line=line.replace(',',' ')

        print line

        f.write(line+' ')

        f.flush()

        f.close()

        return protein_name,protein_sequence

        def get_term(database_name,Term):

        handle=Entrez.esearch(db=str(database_name),term=str(Term),email="")

        record=Entrez.read(handle)

        return record['Count']

        def browse_record(m,n,record):

        return record["IdList"][m:n]

        1.2 類型轉(zhuǎn)換與特征值分配

        蛋白質(zhì)的親疏水性的鑒定是一個(gè)二分類問(wèn)題,故將親水性蛋白質(zhì)(hydrophilic protein)的特征值定為-1,疏水性蛋白質(zhì)(lyophobic protein)設(shè)為1.

        由于分類算法中的輸入數(shù)據(jù)集必須為數(shù)值型數(shù)據(jù),故將蛋白質(zhì)序列數(shù)據(jù)中各個(gè)氨基酸根據(jù)表1中的疏水性參數(shù)[9]進(jìn)行轉(zhuǎn)化.

        如glutamate--ammonia ligase (EC 6.3.1.2) - kidney bean中的氨基酸序列可轉(zhuǎn)化為如下數(shù)組:[-3.5, -1.6,-1.3,4.2 4.2,-0.7, -0.8, 3.8,3.8, 1.8, -3.5, -0.7,-0.8,3.8,3.8,-0.9,-3.5,-1.6,-0.7,3.8,-3.5,1.8,-3.5,1.8,3.8,1.8,1.8,-3.5,-3.9,3.8,1.8,3.8,-3.9, 4.2].

        表1 氨基酸疏水性參數(shù)

        將從美國(guó)NCBI數(shù)據(jù)庫(kù)中隨機(jī)獲取的500個(gè)來(lái)自不同物種的非等長(zhǎng)蛋白質(zhì)序列匹配相應(yīng)的參數(shù)值與特征值,作為訓(xùn)練數(shù)據(jù)集輸入到分類器中,分類器通過(guò)算法進(jìn)行學(xué)習(xí)后,達(dá)到對(duì)未知親疏水性的蛋白質(zhì)進(jìn)行自動(dòng)分類.

        1.3 分類器算法

        1.3.1 支持向量機(jī)(Support Vector Machine)算法

        支持向量機(jī)[3](Support Vector Machine,SVM)算法是由所屬于AT&TBell實(shí)驗(yàn)室的V.Vapnik等人所提出的一種新的機(jī)器學(xué)習(xí)算法.支持向量機(jī)目前已經(jīng)用在了基因分類、目標(biāo)識(shí)別、函數(shù)回歸、函數(shù)逼近、時(shí)間序列預(yù)測(cè)及數(shù)據(jù)壓縮、數(shù)據(jù)挖掘等各個(gè)領(lǐng)域中.

        SVM的主體思想[4]是針對(duì)二分類問(wèn)題,找到一個(gè)能分成兩部分訓(xùn)練樣本點(diǎn)的超平面,達(dá)到保證最小的分類錯(cuò)誤率.在線性可分的情況下,有一個(gè)或多個(gè)超平面能讓訓(xùn)練樣本全部分開(kāi),支持向量機(jī)算法的目的就是為了找到其中最優(yōu)的超平面.

        SVM的基本模型:設(shè)輸入樣本集合{a[n]} ∈Rn由兩部分點(diǎn)組成, 如果a[n]屬于第一部分,則y[n] = 1 , 如果x[n]屬于第二部分,則y[n] = -1 , 有訓(xùn)練樣本的集合{a[n] ,b[n]} ,n= 1 ,2,3 , …,n,求最優(yōu)分類面ka-p=0,滿足:b[n](wa[i] -p) >= 1;并使得2*h= 2/‖k‖最大,即min‖k‖*‖k‖/2.

        根據(jù)對(duì)偶理論,可以通過(guò)解該問(wèn)題的對(duì)偶問(wèn)得到最優(yōu)解,對(duì)偶問(wèn)題為:

        max∑α[n] - 1/2 ∑α[n]*α[m]*b[n]*b[m]*a[n]*a[m]

        0≤α[n]≤C*∑α[n]*b[m]=0.

        其中a[n] ·a[m]表示這兩個(gè)向量的內(nèi)積,當(dāng)對(duì)于線性不可分的情況,用核內(nèi)積K(a[n],a[m])(通過(guò)核函數(shù)映射到高維空間中對(duì)應(yīng)向量的內(nèi)積)代替a[n] ·a[m].根據(jù)對(duì)偶問(wèn)題的解α,求得k,p,得到最優(yōu)分類面.

        SVM 模型求解 :當(dāng)向量維數(shù)較大且訓(xùn)練樣本向量比較多時(shí),上述的對(duì)偶問(wèn)題是一個(gè)大型矩陣的問(wèn)題,用一般的矩陣求逆的方法不管是在時(shí)間復(fù)雜度上還是在空間復(fù)雜度上都是非常不可取的.序貫最小優(yōu)化(sequential minimal optimization,簡(jiǎn)稱SMO)算法是目前解決大量數(shù)據(jù)下支持向量機(jī)訓(xùn)練問(wèn)題的一種比較有效的方法.

        SMO[6]算法的大致步驟為:

        (1)將m向量分為兩個(gè)集合,工作集a,固定集b,即:m= {a,b}.

        (2)每次對(duì)a求解單個(gè)較小的二次規(guī)劃時(shí),使b中的值不變.

        (3)每次迭代選擇不同的a和b,每次解出一個(gè)小規(guī)模的優(yōu)化問(wèn)題,都是在原來(lái)的基礎(chǔ)上向最后的解集前進(jìn).

        (4)在每次迭代后,檢查結(jié)果.當(dāng)滿足優(yōu)化條件時(shí),便得到了優(yōu)化問(wèn)題的解,該算法結(jié)束.

        將該算法封裝成一個(gè)易于調(diào)用的函數(shù),其部分源代碼如下所示:

        def SVM(test_protein):

        model=SVC()

        model.fit(dataset.data,dataset.label)

        svm_result=model.predict([dataset.To_staticlist(dataset.Delplace(test_protein))])

        sum_result.append(svm_result[0])

        1.3.2 決策樹(shù)(Decision Tree)算法

        決策樹(shù)[5]也是經(jīng)常使用的數(shù)據(jù)挖掘算法,決策樹(shù)分類器就像判斷模塊和終止塊組成的流程圖,構(gòu)造決策樹(shù)的過(guò)程就是尋找有決定性作用的特征,根據(jù)其決定性大小的程度來(lái)構(gòu)建一個(gè)倒立的樹(shù),將最大決定性作用的特征作為根節(jié)點(diǎn),之后遞歸尋找各個(gè)分支下子集里其次要決定性作用的特征,直到子集中所有的數(shù)據(jù)都屬于同一類別.故建立決策樹(shù)的過(guò)程實(shí)際上就是依據(jù)數(shù)據(jù)的特征將數(shù)據(jù)集進(jìn)行分類的遞歸過(guò)程.

        決策樹(shù)的基本構(gòu)造步驟如下;

        (1)Create node M

        (2)if訓(xùn)練集為NULL,在返回node M標(biāo)記為False

        (3)if訓(xùn)練集中所有數(shù)據(jù)都屬于同一個(gè)類,則用此類別標(biāo)記node M

        (4)如果候選的屬性為空,則返回M作為葉節(jié)點(diǎn),標(biāo)記為訓(xùn)練集中最普通的類;

        (5)for each 候選屬性 Att_List

        (6)if 候選屬性是連續(xù)的

        (7)then對(duì)該屬性進(jìn)行離散化

        (8)選擇候選屬性Att_List中具有最高信息增益率的屬性A

        (9)標(biāo)記node M為屬性A

        (10)for each 屬性A的統(tǒng)一值a

        (11)由節(jié)點(diǎn)M長(zhǎng)出一個(gè)條件為A=d的分支

        (12)設(shè)置S是訓(xùn)練集中A=d的訓(xùn)練樣本的集合

        (13)if S==NULL

        (14)加上一個(gè)樹(shù)葉,標(biāo)記為訓(xùn)練集中最普通的類

        (15)else加上一個(gè)返回的點(diǎn)

        將上述算法封裝成一個(gè)易被調(diào)用的函數(shù),其部分源代碼如下所示:

        def Decision_Tree(test_protein):

        model = DecisionTreeClassifier()

        model.fit(dataset.data,dataset.label)

        tree_result=model.predict([dataset.To_staticlist(dataset.Delplace(test_protein))])

        sum_result.append(tree_result[0])

        1.3.3 邏輯回歸(Logistic Regression)算法

        邏輯回歸[7]是機(jī)器學(xué)習(xí)中一種常見(jiàn)的分類方法,主要用于二分類問(wèn)題,利用Logistic函數(shù),自變量取值范圍為(-INF, INF),自變量的取值范圍為(0,1),函數(shù)形式為:

        因?yàn)長(zhǎng)ogistic函數(shù)的定義域是(-INF, +INF),而值域?yàn)?0, 1),所有最基本的LR分類器適合于對(duì)二分類(類0,類1)目標(biāo)進(jìn)行分類.Logistic 函數(shù)是“S”形圖案的函數(shù),如圖1所示.

        圖1 Logistic 函數(shù)

        (1)

        函數(shù)hθ(X)的值表示結(jié)果為1的概率(特征屬于y=1的概率)所以對(duì)于輸入x分類結(jié)果類別1和類別0的概率如式(2)所示:

        P(y=1|x;θ)=hθ(x)

        P(y=0|x;θ)=1-hθ(x)

        (2)

        當(dāng)要判別一個(gè)新來(lái)的特征屬于哪個(gè)類時(shí),按式(3)求出一個(gè)z值:

        (3)

        (x1,x2,…,xn是某樣本數(shù)據(jù)的各個(gè)特征,維度為n)

        進(jìn)一步求出hθ(X),當(dāng)其大于0.5時(shí),就是y=1的類,相反則屬于y=0的類.(假設(shè)統(tǒng)計(jì)樣本是均勻分布的,設(shè)閾值為0.5).

        Logistic算法也可以用于多分類問(wèn)題,但是二分類的更較常用.因此實(shí)際中最常用的就是二分類的Logistic算法.LR分類器適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型數(shù)據(jù).其優(yōu)點(diǎn)是計(jì)算代價(jià)不高,易于理解和實(shí)現(xiàn);其缺點(diǎn)是容易欠擬合,分類精度可能不高.

        將上述算法封裝成一個(gè)函數(shù),其部分源代碼如下所示:

        def Logistic_Regression(test_protein):

        model=LogisticRegression()

        model.fit(dataset.data,dataset.label)

        logic_result=model.predict([dataset.To_staticlist(dataset.Delplace(test_protein))])

        sum_result.append(logic_result[0])

        1.3.4 K近鄰(K-Nearest Neighbor)算法

        KNN[8](K Nearest Neighbors,K近鄰)是一種基于實(shí)例的監(jiān)督學(xué)習(xí)算法,利用計(jì)算訓(xùn)練集和新數(shù)據(jù)集特征值之間的距離,然后選取k(k>=1)個(gè)距離最近的鄰居進(jìn)行回歸或者分類判斷.當(dāng)k=1,新數(shù)據(jù)就會(huì)被簡(jiǎn)單分配給其相鄰的類.KNN算法的過(guò)程為:

        (1)選取一個(gè)計(jì)算距離的方式, 利用所有的數(shù)據(jù)特征來(lái)計(jì)算新數(shù)據(jù)集與已知類別數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的距離.

        (2)依照距離,遞增排序,選擇和當(dāng)前距離最進(jìn)的k個(gè)點(diǎn).

        (3)對(duì)于離散的分類問(wèn)題,對(duì)返回k個(gè)點(diǎn)出現(xiàn)頻率最多的類別進(jìn)行預(yù)測(cè)分類;對(duì)于回歸則返回k個(gè)點(diǎn)的加權(quán)值用作預(yù)測(cè)值.

        將上述算法封裝成一個(gè)函數(shù),其部分源代碼如下所示:

        def KNN(test_protein):

        model=KNeighborsClassifier(n_neighbors=10)

        model.fit(dataset.data,dataset.label)

        knn_result=model.predict([dataset.To_staticlist(dataset.Delplace(test_protein))])

        sum_result.append(knn_result[0])

        2 結(jié)果與分析

        2.1 算法結(jié)果

        根據(jù)上述算法,開(kāi)發(fā)出名為protein verify的軟件,可從本地打開(kāi)包含氨基酸序列的文本文檔作為輸入數(shù)據(jù)寫入軟件,其輸入格式具有很強(qiáng)的健壯性,可對(duì)輸入數(shù)據(jù)進(jìn)行增刪更改,輸入數(shù)據(jù)無(wú)格式要求,可包含空格數(shù)字,對(duì)輸入序列大小寫無(wú)要求.該軟件界面如圖2所示.

        圖2 protein verify軟件界面

        軟件功能如下:

        (1)open按鈕;可從本機(jī)打開(kāi)存有蛋白質(zhì)一級(jí)序列的文檔,打開(kāi)后序列呈現(xiàn)在文本框內(nèi).

        (2)Save按鈕:對(duì)打開(kāi)后的序列進(jìn)行增刪更改后可保存到本地.

        (3)verify按鈕;即可對(duì)該蛋白質(zhì)做出親疏水性鑒定.其查詢結(jié)果與預(yù)測(cè)準(zhǔn)確率如圖3所示.

        圖3 查詢結(jié)果顯示

        2.2 準(zhǔn)確率分析

        通過(guò)以上四種分類器算法的集成,隨機(jī)選擇多個(gè)蛋白質(zhì)進(jìn)行軟件測(cè)試,利用圖4所示的計(jì)算方法得出表2的預(yù)測(cè)準(zhǔn)確率:

        True Positive(TP):被模型預(yù)測(cè)為正的正樣本

        True Negative(TN):被模型預(yù)測(cè)為負(fù)的負(fù)樣本

        False Positive(FP):被模型預(yù)測(cè)為正的負(fù)樣本

        False Negative(FN):被模型預(yù)測(cè)為負(fù)的正樣本

        True Positive Rate(TPR)

        TPR = TP/(TP + FN)正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)

        True Negative Rate(TNR) TNR = TN/(TN + FP)負(fù)樣本預(yù)測(cè)結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)

        False Positive Rate(FPR) FPR = FP/(FP + TN)被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù))

        False Negative Rate( FNR)FNR = FN/(TP + FN)被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)

        圖4 概率計(jì)算方法

        Precision:正確預(yù)測(cè)的概率

        F1-Score:precision和recall的調(diào)和平均數(shù)

        Recall(真陽(yáng)性率):正確識(shí)別的概率

        Support:訓(xùn)練集樣本容量

        表2 Classification report

        2.3 結(jié)論

        經(jīng)過(guò)實(shí)驗(yàn),該算法可將多個(gè)含有親疏水性特征值的蛋白質(zhì)作為一個(gè)數(shù)據(jù)集輸入到分類器中.分類器利用該數(shù)據(jù)集進(jìn)行自我訓(xùn)練與學(xué)習(xí),最終準(zhǔn)確預(yù)測(cè)出蛋白質(zhì)的疏水性.

        該算法可作為蛋白質(zhì)疏水性分析預(yù)測(cè)的有力工具,在生物信息領(lǐng)域中得到廣泛的應(yīng)用.

        猜你喜歡
        水性分類器向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        水性與常性
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        新型鞋用水性聚氨酯膠研發(fā)成功
        基于Ni2+氧化性和磷酸酯緩蝕性制備水性鋁顏料
        肉体裸交137日本大胆摄影| 极品新娘高清在线观看| 日韩精品久久午夜夜伦鲁鲁| 国产爆乳美女娇喘呻吟| 国产成人啪精品视频免费软件| 亚洲av日韩aⅴ永久无码| 日本成人在线不卡一区二区三区| 亚洲av高清一区二区在线观看 | 在线观看中文字幕一区二区三区 | 亚洲日韩一区二区一无码| 中文字幕在线免费 | 无码 制服 丝袜 国产 另类 | 中文字幕一区二区av| 亚洲最大av网站在线观看| 丰满多毛少妇做爰视频| 午夜一区二区三区在线视频| 亚洲精品岛国av一区二区| 2020无码专区人妻系列日韩| 老熟女多次高潮露脸视频| 午夜一区二区三区av| 亚洲av日韩一卡二卡| 曰本大码熟中文字幕| 亚洲性啪啪无码AV天堂| 久久精品亚洲熟女九色| 8x国产精品视频| 久久免费的精品国产v∧| 国产91在线|亚洲| 中文国产乱码在线人妻一区二区 | 国产亚洲中文字幕一区| 无码人妻丰满熟妇啪啪网站| 欧韩视频一区二区无码| 日本高清一区二区在线观看| 高级会所技师自拍视频在线| a级国产乱理伦片在线播放| 精品国产一区二区三区亚洲人| 中文字幕东京热一区二区人妻少妇| 久爱www人成免费网站| 亚洲人成网站在线观看播放| 精品日产一区2区三区| 国产自拍精品一区在线观看| 久久99久久99精品免观看|