吳紅梅,牛 耘
(南京航空航天大學 計算機科學與技術學院,江蘇 南京 210016)
基于特征加權的蛋白質交互識別
吳紅梅,牛 耘
(南京航空航天大學 計算機科學與技術學院,江蘇 南京 210016)
在以單詞為特征的模型中,如果特征單詞在不同類別中的使用情況存在明顯差異,那么它對分類有著很重要的影響。因此文中基于大規(guī)模語料庫,研究不同的特征加權方法對PPI識別的影響。首先,通過搜索醫(yī)學文獻數(shù)據(jù)庫建立蛋白質對的簽名檔,以單詞作為描述蛋白質對關系的特征,構建向量空間模型;然后,選擇不同的加權方法描述單詞重要性;最后,以K近鄰和SVM分類方法構建分類器判斷蛋白質對是否存在交互關系。實驗結果表明,根據(jù)特征向量單詞的重要性進行加權,PPI識別精確度、召回率和準確率有了明顯的提高。
蛋白質交互;大規(guī)模語料;特征加權;K近鄰;支持向量機
蛋白質是組成細胞最重要的成分,是生命的物質基礎,是生命活動的主要承擔者。蛋白質交互(Protein-ProteinInteraction,PPI)是生物學研究的重要內(nèi)容,也是解決大量醫(yī)學難題的關鍵信息。因此,為了構建蛋白質交互網(wǎng)絡,生物醫(yī)學領域的專家從醫(yī)學文獻中手工整理信息以統(tǒng)一的格式錄入數(shù)據(jù)庫,構建了HPRD[1]、IntAct[2]、MINT[3]等數(shù)據(jù)庫。
然而,隨著生物醫(yī)學的發(fā)展,越來越多的蛋白質交互關系被發(fā)現(xiàn),記載這些蛋白質交互信息的醫(yī)學文獻也隨之急劇增多,手工收集PPI信息的方式也難以滿足需求。為了幫助生物醫(yī)學領域的專家從文獻中獲取有效的信息,基于自然語言處理的蛋白質交互識別已成為一項重要的研究內(nèi)容。
目前,常用于從醫(yī)學文獻中識別PPI信息的技術主要包括:基于同現(xiàn)的方法[4]、基于規(guī)則的方法[5]和基于機器學習的方法[6-7]?;谕F(xiàn)的方法通過統(tǒng)計兩個蛋白質的共現(xiàn)次數(shù)來判斷蛋白質對之間的關系,這種方法只能抽取頻繁出現(xiàn)的模式,識別結果召回率較高而精確度較低[8]。基于規(guī)則的方法通過建立一些模式規(guī)則來匹配可能出現(xiàn)的PPI關系,雖然提高了精確度但召回率較低。然而,由于PPI關系模式的多樣性,預定義的規(guī)則不可能包含所有的PPI關系模式,并且手工建立規(guī)則需要巨大的開銷[9]。例如,F(xiàn)undel等[10]提出的規(guī)則是基于句子句法規(guī)則結構中的依賴關系。Temkin等[11]利用帶語法產(chǎn)生規(guī)則的句子分析器來識別PPI。這些系統(tǒng)著眼于分析整個句子的句法特點,充分揭示句中成分之間的關系,能夠獲得更高的準確率,但需要更高的計算能力和時間復雜度。
近年來,越來越多的PPI識別技術采用基于機器學習的方法,主要包括兩大類:基于特征的方法和基于核函數(shù)的方法?;谔卣鞯姆椒ㄖ饕菑臉俗⒂薪换リP系的蛋白質對的句子中抽取重要特征,例如詞匯、語法和語義特征建立模型,進而判斷蛋白質對之間是否存在交互關系[12-13]?;诤撕瘮?shù)的方法通過對句子結構的深入分析來構建核函數(shù)。HausslerD[14]提出了針對離散結構的卷積核;LodhiH等[15]將特征空間特定長度詞語子序列的內(nèi)積作為核函數(shù)的計算方式,提出了字符串核;BunescuRC等[16]提出了最短依賴路徑核,將句子以樹的形式表示,用兩個實體之間的最短路徑表示實體之間的關系。
然而,目前的機器學習方法主要以單個句子為依據(jù),從句子的句法、語法以及依賴關系等方面進行研究。這些方法能很好地從句子層面對蛋白質交互關系進行描述及判斷,但是這種以句子為依據(jù)的判斷方法也存在著局限性。由于語法的復雜性和交互關系描述的間接性,僅僅依賴單個句子中的信息進行交互關系分析,往往難以得到準確的判斷。
因此針對以上問題,文獻[17-18]提出了基于大規(guī)模語料庫的PPI自動識別方法,將PPI自動識別問題轉化為文本分類問題,能夠更充分利用文本的上下文信息挖掘更多蛋白質對交互識別的影響因素。然而,這個工作對所選擇特征單詞的重要性研究不足,因此文中研究不同的特征單詞重要性計算方法,通過向量加權方法研究特征單詞加權對蛋白質對識別的影響。實驗結果表明,根據(jù)特征單詞進行加權后明顯提高了PPI識別精確度、召回率和準確率。
有交互關系的描述常用到一些單詞,而這些單詞在無交互關系的蛋白質對的關系描述中卻很少出現(xiàn),例如,interact、bind。因此,加強這部分單詞的作用有助于PPI識別。文中以特征加權的方法,著重研究特征單詞權重對PPI識別的影響,具體步驟如下:
首先,從醫(yī)學文獻中收集包含目標蛋白質對的句子,以對應的句子集合作為該目標蛋白質對的簽名檔;然后,從簽名檔中提取特征,采取一定策略評估特征重要性,對特征加權,構建向量空間模型;最后,采用KNN和SVM這兩種分類算法對蛋白質對進行分類,判斷蛋白質對是否存在交互關系。
2.1 獲取簽名檔
生物醫(yī)學文本數(shù)據(jù)庫PubMed[19]是建立蛋白質交互網(wǎng)絡的重要信息來源?,F(xiàn)有的PPI識別工作都是建立在對PubMed一個子集上的分析。PubMed數(shù)據(jù)庫由美國國立醫(yī)學圖書館建立,收錄了全球70多個國家及地區(qū)出版的3 400余種生物醫(yī)學期刊上所發(fā)表的論文,已收錄超過2 100萬篇生物醫(yī)學文獻,提供生物醫(yī)學方面論文以及摘要的搜索。但是,PubMed數(shù)據(jù)庫未提供直接搜索句子的接口,所以文中分以下兩步來獲取包含目標蛋白質對的句子:
(1)在PubMed數(shù)據(jù)庫中獲取同時含有目標蛋白質protein1和protein2的文獻摘要;
(2)在第一步得到的文獻摘要中找出同時包含protein1和protein2的句子。
因此,每個蛋白質對都會有一個句子集合與之對應,形成蛋白質對的簽名檔。在建好簽名檔之后,就可以利用上下文信息分析蛋白質對是否存在交互關系。
2.2 向量空間模型—特征提取
從簽名檔中提取特征,采取一定策略評估特征的重要性,對特征進行加權處理。文獻[17]中選擇了單詞、短語結構特征和依賴關系作為特征,實驗結果表明只以單詞為特征的識別結果較好。
因此,文中將簽名檔中所有的句子去除停止詞、單字符單詞和數(shù)字,選擇至少在25篇簽名檔中出現(xiàn)的單詞作為特征。最終得到了4 867個特征,用這些特征單詞標注蛋白質,構建向量空間模型。
2.3 向量空間模型—特征加權
在蛋白質對簽名檔中,常用于描述有交互關系的單詞較少用于描述無交互關系。因此,通過特征加權的方法,著重研究這部分單詞的重要性。選擇了信息檢索(Information Retrieval)和情感分析(Sentiment Analysis)中的權重計算方法,并設計了新的加權方法,研究特征加權對PPI識別的影響,具體見表1。
表1 權重公式
注:N表示蛋白質對總數(shù);N+表示有交互關系蛋白質對數(shù);N-表示無交互關系蛋白質對數(shù);a表示出現(xiàn)特征i的有交互關系蛋白質對的簽名檔數(shù);c表示出現(xiàn)特征i的無交互關系蛋白質對的簽名檔數(shù)。
表1中,tp(termpresence)表示二值權重(0/1),即特征單詞出現(xiàn)權值為1,不出現(xiàn)權值為0。實驗中,以tp權重公式的實驗結果為基準。idf(inversedocumentfrequency)是信息檢索中較為常見的權重公式,是一個詞語普遍重要性的度量。dsidf和dbidf是PaltoglouG[21]等對idf的一種改進。
在這兩個公式中,當有交互蛋白質對和無交互蛋白質對的簽名檔的數(shù)量相近時,而含有某個特征單詞的有交互蛋白質對的簽名檔數(shù)多于無交互蛋白質對簽名檔數(shù),那么這個特征單詞的權重較大。這兩種權值計算公式比較適合特征單詞在不同類別文檔中分布差異很大的語料集上使用。
在特征單詞分布分析過程中發(fā)現(xiàn),有交互蛋白質對和無交互關系蛋白質對的簽名檔數(shù)量相近。而對一些特征單詞而言,包含它的有交互關系蛋白質對的簽名檔的數(shù)量是無交互關系簽名檔數(shù)量的數(shù)十倍。筆者認為這些單詞對于識別有交互蛋白質很重要,因此,提出了power這一權重公式,著重研究特征單詞對有交互關系蛋白質對的識別的影響。根據(jù)公式power,若含有某個特征單詞的有交互關系的蛋白質對的簽名檔數(shù)較多,無交互關系的蛋白質對的簽名檔數(shù)較少,則它的權重較大。
2.4 分類算法
文中采用KNN和SVM這兩種分類算法構建分類器?;谙嗨菩缘腒NN分類器中,以余弦相似度作為衡量標準。
2.4.1K近鄰分類
(1)
余弦值越大,蛋白質對相似度就越高;反之,蛋白質對相似度越低。
得到蛋白質對實例的相似性之后,基于相似性采用K近鄰分類(KNN)算法對蛋白質對進行分類。查詢訓練數(shù)據(jù)中與目標蛋白質對最相似的K個蛋白質對實例。這K個實例中哪種類別的實例多,就將目標蛋白質對分為哪一類。在此算法中,若多個實例與目標蛋白質對的距離一樣,則這個實例類別取這些實例中占多數(shù)的類別。
2.4.2SVM分類
SVM已被大量實驗證實為一種非常有效的分類算法,是基于機器學習的蛋白質交互關系識別所采用的重要分類模型。文中采用LIBSVM[22]建立蛋白質交互識別的分類器。
3.1 實驗數(shù)據(jù)及設置
將有交互關系的蛋白質對作為正類樣例,無交互關系的蛋白質對作為負類樣例。正類蛋白質對來源于由專家手工收集信息建立的PPI數(shù)據(jù)庫HPRD,從中抽取在PubMed數(shù)據(jù)庫中存在的蛋白質對作為有交互關系的蛋白質對訓練集,共1 420對。而對于負類,文中根據(jù)HPRD中包含的蛋白質采用隨機組合的方法產(chǎn)生負類蛋白質對(刪除HPRD已包含的蛋白質對),最后只保留那些被PubMed數(shù)據(jù)庫中文獻記載的蛋白質對作為無交互蛋白質對的訓練集,共有1 353對。因此,實驗數(shù)據(jù)集中共包含2 773對蛋白質對。
SVM分類算法識別過程中,采用五折交叉驗證,將正類蛋白質對和負類蛋白質對平均分成五份,分別從正類和負類中取出一份組合作為測試集,其余四份組合作為訓練集。KNN算法識別過程中,采用留一交叉驗證法(leave-one-out)進行測試,即將一個蛋白質對作為測試樣例,其余2 772對作為訓練樣例。在以KNN算法為分類算法的實驗中,tp在K值為7時取得了最好的結果。所以,在其余的權重公式識別過程中將K值設置為7,將它們的識別結果與tp的識別結果進行比較。
3.2 實驗結果及分析
分類結果見表2和表3。
表2 KNN分類結果 %
從表2可以發(fā)現(xiàn),以idf為權重公式的PPI識別結果與tp相比未有提升。以dbidf和dsidf這兩種方法為權重公式的PPI識別結果提升較明顯,正類、負類的F值和準確率有近3%~5%的提升。筆者設計的權重公式取得了最高的正類的召回率,正類的召回率比tp提升了5.5%,正類F值也有一定的提升。采用dbidf、dsidf和power這三種加權方法的KNN分類算法,蛋白質交互關系的識別結果都有了一定的提升。這說明,特征單詞在正類和負類蛋白質對簽名檔有很大的差別,對蛋白質對交互關系識別起到很大的幫助。
表3 SVM分類結果 %
從表3中發(fā)現(xiàn),idf、dbidf和dsidf這三種方法的識別結果較tp沒有明顯提升。而筆者設計的權重公式正類精確度達到了92.7%,比tp提高了18.9%。負類蛋白質對的F值比tp提高了7%,并且總體分類準確率較tp提高了3.3%。這說明,采用power為權重公式的分類器能有效識別有交互關系的蛋白質對,被誤分的負類蛋白質對較少。在需要準確識別有交互蛋白質對的系統(tǒng)中,提出的方法能夠起到很好的效果。
在簽名檔集中,正類和負類蛋白質對的簽名檔的數(shù)量相近,一些特征在正類蛋白質對的簽名檔中較常出現(xiàn),在負類蛋白質對的簽名檔中較少出現(xiàn)。這些特征單詞有助于識別有交互關系的蛋白質對,因此,采用的dbidf、dsidf和power這三種公式賦予了這些單詞較大的權重,使正類蛋白質對的特征向量能明顯區(qū)別于負類蛋白質對的特征向量,提高蛋白質對交互關系的識別。在正類和負類簽名檔中分布存在明顯差異的單詞對于蛋白質對交互關系識別有著很大的作用,給這部分單詞賦予一個較大的權值,有助于識別有交互關系的蛋白質對。
區(qū)別于其他基于單句的機器學習方法,文中直接以蛋白質對為研究對象,根據(jù)現(xiàn)有的PPI數(shù)據(jù)庫構建大規(guī)模語料庫為依據(jù)提取特征,用特征向量表示蛋白質對的關系。根據(jù)特征單詞在正類和負類蛋白質對簽名檔中分布的差異,采用不同的權值計算公式研究特征詞語的重要性。最后,采用K近鄰和SVM分類算法構建分類器,通過文本分類的方法識別目標兩個蛋白質對之間是否存在依賴關系。
大量的蛋白質對交互關系信息隱藏在文獻中,而基于大規(guī)模語料庫的PPI識別能充分利用已有的PPI數(shù)據(jù),無需進行額外的人工標注,識別結果可直接用于PPI網(wǎng)絡的構建。文中著重研究特征詞語的重要性,從實驗結果可以發(fā)現(xiàn),根據(jù)特征單詞在不同類別文檔中出現(xiàn)的差異,對特征向量根據(jù)特征詞語重要性進行加權后,PPI的識別結果有了明顯提升。
[1]PrasadTSK,GoelR,KandasamyK,etal.Humanproteinreferencedatabase-2009update[J].NucleicAcidsResearch,2009,37:767-772.
[2]KerrienS,Alam-FaruqueY,ArandaB,etal.IntAct-opensourceresourceformolecularinteractiondata[J].NucleicAcidsResearch,2007,35:561-565.
[3]CeolA,AryamontriAC,LicataL,etal.MINT,themolecularinteractiondatabase:2009update[J].NucleicAcidsResearch,2010,38:532-539.
[4]BunescuR,MooneyR,RamaniA,etal.Integratingco-occurrencestatisticswithinformationextractionforrobustretrievalofproteininteractionsfromMedline[C]//Proceedingsoftheworkshoponlinkingnaturallanguageprocessingandbiology:towardsdeeperbiologicalliteratureanalysis.[s.l.]:AssociationforComputationalLinguistics,2006:49-56.
[5]KoikeA,KobayashiY,TakagiT.Kinasepathwaydatabase:anintegratedprotein-kinaseandNLP-basedprotein-interactionresource[J].GenomeResearch,2003,13:1231-1243.
[6] 楊志豪,洪 莉,林鴻飛,等.基于支持向量機的生物醫(yī)學文獻蛋白質關系抽取[J].智能系統(tǒng)學報,2008,3(4):361-369.
[7] 崔寶今,林鴻飛,張 霄.基于半監(jiān)督學習的蛋白質關系抽取研究[J].山東大學學報:工學版,2009,39(3):16-21.
[8]GrimesGR,WenTQ,MewissenM,etal.PDQWizard:automatedprioritizationandcharacterizationofgeneandproteinlistsusingbiomedicalliterature[J].Bioinformatics,2006,22(16):2055-2057.
[9]AnaniadouS,KellDB,TsujiiJ.Textmininganditspotentialapplicationsinsystemsbiology[J].TrendsinBiotechnology,2006,24(12):571-579.
[10]FundelK,KüffnerR,ZimmerR.RelEx-relationextractionusingdependencyparsetrees[J].Bioinformatics,2007,23(3):365-371.
[11]TemkinJM,GilderMR.Extractionofproteininteractioninformationfromunstructuredtextusingacontext-freegrammar[J].Bioinformatics,2003,19(16):2046-2053.
[12]QianW,FuC,ChengH.Semi-supervisedmethodforextractionofprotein-proteininteractionsusinghybridmodel[C]//Proceedingsofthe2013thirdinternationalconferenceonintelligentsystemdesignandengineeringapplications.[s.l.]:IEEEComputerSociety,2013:1268-1271.
[13] Niu Y,Otasek D,Jurisica I.Evaluation of linguistic features useful in extraction of interactions from PubMed;application to annotating known,high-throughput and predicted interactions in I2D[J].Bioinformatics,2010,26(1):111-119.
[14] Haussler D.Convolution kernels on discrete structures[R].California:University of California at Santa Cruz,1999.
[15] Lodhi H,Saunders C,Shawe-Taylor J,et al.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.
[16] Bunescu R C,Mooney R J.A shortest path dependency kernel for relation extraction[C]//Proceedings of the conference on human language technology and empirical methods in natural language processing.[s.l.]:Association for Computational Linguistics,2005:724-731.
[17] 封二英,牛 耘,魏 歐,等.基于關系相似性的蛋白質交互自動識別[J].計算機科學,2013,40(6):229-232.
[18] 封二英,牛 耘,魏 歐.基于大規(guī)模文本的蛋白質交互關系自動提取[J].計算機應用,2012,32(S1):147-150.
[19] U.S.National Library of Medicine.PubMed[EB/OL].2011.http://www.ncbi.nlm.nih.gov/pubmed/.
[20] Sparck J K.A statistical interpretation of term specificity and its application in retrieval[J].Journal of Documentation,1972,28(1):11-21.
[21] Paltoglou G,Thelwall M.A study of information retrieval weighting schemes for sentiment analysis[C]//Proceedings of the 48th annual meeting of the association for computational linguistics.[s.l.]:Association for Computational Linguistics,2010:1386-1395.
[22] Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems & Technology,2007,2(3):389-396.
Identification of Protein-protein Interaction Based on Feature Weighted
WU Hong-mei,NIU Yun
(School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
In a model characterized by word,if the use of feature word in different categories exists obvious differences,it will have a very important impact on classification.Based on a large-scale corpus,study the effects of different methods of feature weighting on protein-protein interaction identification.Firstly,the signature of a protein pair is obtained by searching large scale biomedical text.Taking the words as the features which describe the relationship between the protein pair,construct Vector Space Model (SVM).Then,select different weighting methods to describe the importance of words.Finally,KnearestneighborandSVMclassifierareappliedtoidentifyPPIs.Accordingtotheexperimentalresults,PPIrecognitionaccuracyandrecallandprecisionhavebeensignificantlyimprovedwhenthefeaturevectorsareweighted.
protein-protein interaction;large-scale corpus;feature weighted;Knearestneighbor;SVM
2015-05-10
2015-08-13
時間:2016-01-26
國家自然科學基金資助項目(61202132,61170043)作者簡介:吳紅梅(1991-),女,碩士研究生,研究方向為自然語言處理;牛 耘,博士,副教授,CCF會員,研究方向為自然語言處理。
http://www.cnki.net/kcms/detail/61.1450.TP.20160126.1517.026.html
TP
A
1673-629X(2016)02-0114-04
10.3969/j.issn.1673-629X.2016.02.026