范仕豪
摘要:本文收集生長激素結合蛋白序列信息數(shù)據(jù)集,將其分為訓練集和測試集兩部分。使用TF-IDF,One-hot和PCA方法提取訓練集中的特征向量,構建決策樹,梯度提升樹,隨機森林這三種預測模型,以及對這三種模型的預測性能,計算評價指標。根據(jù)特征重要性進行特征篩選,剔除掉重要性較低的特征,保留特征重要性高的特征構建預測模型,再次計算評價指標進行比較。通過比較得出,得出使用PCA方法提取特征,進行特征篩選后構建的梯度提升樹預測模型性能最好,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。
關鍵詞:生長激素結合蛋白;機器學習;特征篩選;TF-IDF;One-Hot;PCA;決策樹;梯度提升樹;隨機森林
引言:隨著現(xiàn)代人工智能技術的不斷發(fā)展,機器學習作為當前人工智能的主要技術之一,不斷產生突破性進展,我們可以把機器學習運用到各種領域,比如我們進出學校時的師生人臉識別系統(tǒng)[1],無人駕駛汽車的上路駕駛系統(tǒng)[2],家里的各種智能掃地機器人和各類智能家居,也可以精細到生物醫(yī)學分子研究和醫(yī)學影像,習近平總書記強調,“人工智能是新一輪科技革命和產業(yè)變革的重要驅動力量,加快發(fā)展新一代人工智能是事關我國能否抓住新一輪科技革命和產業(yè)變革機遇的戰(zhàn)略問題”,因此為蛋白質識別的研究帶來新的可能和機遇。
本文主要講述如何利用已有獲得的生長激素結合蛋白序列信息,進行數(shù)據(jù)挖掘信息,使用不同的方法提取特征向量,再分別對根據(jù)其特征的重要性進行篩選特征,構建決策樹,梯度提升樹,隨機森林算法構建預測模型,在測試集上進行模型評估,計算不同特征提取方法下得到的預測模型的評價指標,并對其進行比較和分析。
1 數(shù)據(jù)集的收集
用收集到的原始生長激素結合蛋白序列信息全部數(shù)據(jù)集分為兩類,一類是訓練集,用來進行不同方法下的特征提取和構建預測模型,另一部分是測試集,在測試集上進行預測模型的評估,計算預測模型的評價指標。其中得到訓練集的正樣本和負樣本分別有123個,測試集的正樣本和負樣本分別有31個。
2 特征提取方法
2.1? One-Hot
獨熱編碼(One-Hot Encoding),也被稱為一位有效編碼,其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼分析處理,每個寄存器位都代表一個獨立的狀態(tài),并且不論何時,其中只有一位有效,即只有一位是1,剩下的位都是0。獨熱編碼是利用0和1表示一些參數(shù),使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼。
2.2? TF-IDF
“詞頻——逆向文件頻率”(Term Frequency - Inverse Document Frequency,簡稱TF-IDF),是一種統(tǒng)計方法,用來評判某個字對于一個文件集或一個語料庫中的其中一份文件的重要度,這種方法廣泛用于機器識別和文本挖掘技術中,是一種于咨詢檢索與咨詢勘探的常用加權技術,某個字的重要度會與它在文件中出現(xiàn)的次數(shù)成正比,也同時會與它在語料庫中出現(xiàn)的頻率成反比。得到的特征向量命名為:
['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']
2.3 PCA
主成分分析(principal components analysis,簡稱PCA)是一種較為經典的數(shù)據(jù)降維方法。它的基本思想是從一組特征中計算出一組按照重要性的大小從大到小依次排列的新特征,它們是原有特征的線性組合,并且新特征之間不相關, 我們計算出原有特征在新特征上的映射值即為新的降維后的樣本。也就是說PCA的目標是用一組正交向量來對原特征進行變換得到新特征,新特征是原有特征的線性組合。
通過PCA算法能夠對原有20維的較長特征向量進行壓縮,得到一個簡單的四維特征向量:
3 對模型的評價
我們對預測模型的評價標準要用到這四個數(shù)據(jù),在常用的評價預測二分類模型性能有四個指標,分別是準確率(accuracy),召回率(recall),精確率(precision),平衡F1分數(shù)(F1-Score)其表達式分別如下:
3.1 決策樹預測模型評價
測試集對決策樹預測模型進行測試,當使用One-Hot方法提取特征時,決策樹預測模型評價指標precision為0.39,recall為0.40,f1-score為0.38,accuracy為0.40。當使用TF-IDF方法提取特征時,precision為0.48,recall為0.48,f1-score為0.47,accuracy為0.48。使用PCA方法提取特征時,precision為0.65,recall為0.63,f1-score為0.62,accuracy為0.62。
通過評價指標可以看出,預測模型的性能并不好。因此考慮對特征向量進行處理,剔除一些冗余特征。
在One-Hot方法和TF-IDF方法提取特征向量時,各個特征的重要性如下表:
根據(jù)特征的重要性進行篩選,篩選特征閾值為0.1,剔除特征重要性小于0.1的特征,兩種方法分別保留[‘C’ , ’L’ , ’W’ , ’ Y ’]和[‘F’ , ’M’ , ’Q’ , ’ W ’]。
使用PCA提取特征向量時,得到各個特征的重要性如下表:
根據(jù)特征的重要性進行篩選,篩選特征閾值為0.1,剔除特征重要性小于0.1的特征,得到一個新的特征向量,保留[‘X2’ , ’X3’ , ’X4’ ]。
對進行剔除冗余特征后的特征向量重新構建決策樹模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.61,recall為0.58,f1-score為0.55,accuracy為0.58。當使用TF-IDF方法提取特征時,precision為0.52,recall為0.52,f1-score為0.48,accuracy為0.52。使用PCA提取特征時,precision為0.66,recall為0.60,f1-score為0.55,accuracy為0.60。
可以得出,在進行特征篩選,剔除冗余特征后構建的決策樹模型,性能明顯得到了優(yōu)化,評價指標也有所提高。
3.2 隨機森林預測模型評價
使用測試集對隨機森林預測模型進行測試,當使用One-Hot方法提取特征時,評價指標precision為0.63,recall為0.63,f1-score為0.63,accuracy為0.63。當使用TF-IDF方法提取特征時,precision為0.52,recall為0.52,f1-score為0.50,accuracy為0.52。使用PCA提取特征時,precision為0.64,recall為0.63,f1-score為0.62,accuracy為0.63。
根據(jù)特征向量的特征重要性進行特征篩選,在隨機森林中,使用One-Hot方法和TF-IDF方法提取特征的特征重要性如下表:
篩選特征閾值為0.05,剔除掉特征重要性低于0.05的特征,兩種方法下分別保留[‘A’ , ’F’ , ’H’ , ’ I ’ , ‘L’ , ‘N’ , ‘W’]和[‘C’ , ’E’ , ’F’ , ’ H ’ , ‘I’ , ‘R’ , ‘V’ , ‘W’]
使用PCA方法提取特征向量,各個特征的重要性如下表:
篩選特征閾值為0.2,剔除掉特征重要性低于0.2的特征,保留[‘X2’ , ’X3’]
對進行剔除冗余特征后的特征向量重新構建隨機森林模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.65,recall為0.65,f1-score為0.64,accuracy為0.65。當使用TF-IDF方法提取特征時,precision為0.55,recall為0.55,f1-score為0.55,accuracy為0.55。使用PCA提取特征時,precision為0.64,recall為0.63,f1-score為0.62,accuracy為0.63。
可以得出,在進行特征篩選,剔除冗余特征后構建的隨機森林模型,性能明顯得到了優(yōu)化,評價指標也有所提高。
3.3梯度提升樹預測模型評價
使用測試集對梯度提升樹預測模型進行測試,當使用One-Hot方法提取特征時,評價指標precision為0.52,recall為0.52,f1-score為0.52,accuracy為0.52。當使用TF-IDF方法提取特征時,precision為0.66,recall為0.65,f1-score為0.64,accuracy為0.62。使用PCA提取特征時,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。
根據(jù)特征向量的特征重要性進行特征篩選,在梯度提升樹預測模型中,使用One-Hot和TF-IDF方法提取特征的特征重要性如下表:
One-Hot方法下篩選特征閾值為0.05,剔除掉特征重要性低于0.1的特征,保留[‘L’ , ’N’ ],使用TF-IDF方法篩選特征閾值為0.05,剔除掉特征重要性低于0.05的特征,保留[‘C’ , ’E’ , ’F’ , ’ H ’ , ’L’ , ’M’ , ‘N’ , ’P’ , ’Q’ , ‘R’ , ‘W’]
使用PCA方法提取特征向量,各個特征的重要性如下表:
由表可得,’X1’特征重要性明顯小于其他幾種特征,但當剔除掉’X1’特征時,梯度提升樹預測模型性能反而降低了,所以’X1’不屬于冗余特征,不作剔除處理。
對進行剔除冗余特征后的特征向量重新構建梯度提升樹模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.61,recall為0.61,f1-score為0.61,accuracy為0.61。當使用TF-IDF方法提取特征時,precision為0.71,recall為0.71,f1-score為0.71,accuracy為0.71。使用PCA提取特征時,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。
可以得出,在進行特征篩選,剔除冗余特征后構建的梯度提升樹預測模型,性能明顯得到了優(yōu)化,評價指標也有所提高。
4 結論
通過對獲得的生長激素結合蛋白序列信息數(shù)據(jù)集進行分類得到構建預測模型的訓練集和用來判斷預測模型性能優(yōu)劣,計算評價指標的測試集,對訓練集數(shù)據(jù)使用One-Hot,TF-IDF,PCA三種方法提取特征向量。再用決策樹,梯度提升樹,隨機森林這幾種算法進行構建預測模型。在測試集上對三種預測模型進行評估,得到預測指標。本文還對已提取的特征向量中的冗長特征進行處理,剔除掉特征重要性低的特征,根據(jù)保留剩下的特征再次構建三種預測模型,再次在測試集上進行預測模型的評估,計算評價指標,發(fā)現(xiàn)預測模型性能明顯得到的提高。最終得出結論,在預測生長激素結合蛋白這種二分類問題時,使用PCA方法提取特征向量,構建的梯度提升樹預測模型性能最好。
參考文獻
[1]韋大歡.基于疫情防控下人臉識別在宿舍管理系統(tǒng)中的應用[J].現(xiàn)代計算機,2022,28(03):82-86.
[2]黃東風.人工智能在汽車駕駛技術領域的應用與發(fā)展[J].時代汽車,2022(01):42-43.