段聰聰 柴世一
【摘 要】本文基于python來(lái)進(jìn)行對(duì)kaggle數(shù)據(jù)集庫(kù)中的數(shù)據(jù)集來(lái)進(jìn)行數(shù)據(jù)分析,在這個(gè)大數(shù)據(jù)時(shí)代,我們的生活早已成為一個(gè)數(shù)據(jù)化的生活,文章的目的是在于用現(xiàn)有的計(jì)算機(jī)科學(xué)技術(shù)來(lái)預(yù)示通過(guò)數(shù)據(jù)分析來(lái)進(jìn)行預(yù)判的可行性。
【關(guān)鍵詞】python程序設(shè)計(jì)與開(kāi)發(fā);數(shù)據(jù)分析;特征選擇
中圖分類(lèi)號(hào): TP311.13文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)08-0106-001
DOI:10.19694/j.cnki.issn2095-2457.2019.08.044
【Abstract】This paper is based on Python to analyze the data set in kaggle databases.In this big data era, our life has already become a data life. The purpose of this paper is to use the existing computer science technology to predict the feasibility of data analysis.
【Key words】Python Programming and development;Data analysis;Feature selection
1 簡(jiǎn)介
數(shù)據(jù)集名稱(chēng)為iris.csv,該數(shù)據(jù)由kaggle網(wǎng)站獲取而來(lái),數(shù)據(jù)集的規(guī)模為150*6,總計(jì)150條數(shù)據(jù),數(shù)據(jù)信息分為6列,列屬性名分別為Id,SepaLength,SepalWidth,PetalLength,PetalWidth,Species.
我們希望利用python語(yǔ)言對(duì)數(shù)據(jù)集中的特征來(lái)進(jìn)行分析,最后可以根據(jù)分析結(jié)果來(lái)較為準(zhǔn)確的根據(jù)鳶尾花四個(gè)屬性判斷出其所屬類(lèi)別。
2 數(shù)據(jù)處理
查看數(shù)據(jù)集
Id顯示為整數(shù)類(lèi)型,之后的是個(gè)花瓣花萼長(zhǎng)寬均為小數(shù)點(diǎn)后一位的小數(shù)類(lèi)型,而Species則為字符串類(lèi)型,對(duì)應(yīng)著某一行數(shù)據(jù)所屬鳶尾花的類(lèi)別
從數(shù)據(jù)集中可看出
花萼長(zhǎng)度最小值4.30, 最大值7.90, 均值5.84, 中位數(shù)5.80, 右偏
花萼寬度最小值2.00, 最大值4.40, 均值3.05, 中位數(shù)3.00, 右偏
花瓣長(zhǎng)度最小值1.00, 最大值6.90, 均值3.76, 中位數(shù)4.35, 左偏
花瓣寬度最小值0.10, 最大值2.50, 均值1.20, 中位數(shù)1.30, 左偏
按中位數(shù)來(lái)度量:花萼長(zhǎng)度大于花瓣長(zhǎng)度大于花萼寬度大于花瓣寬度
當(dāng)該條數(shù)據(jù)鳶尾花類(lèi)別為setosa時(shí),我們讓它在圖中的點(diǎn)的顏色為紅色,versicolor為綠色,virginica為藍(lán)色。通過(guò)這樣的設(shè)置可以在散點(diǎn)圖中明顯的看出三種種類(lèi)鳶尾花與屬性之間的關(guān)系??紤]到有四種屬性,我們讓他們來(lái)兩兩相交,選擇了四組屬性來(lái)進(jìn)行測(cè)試:分別是品種與花萼長(zhǎng)度寬度,品種與花瓣長(zhǎng)度寬度,品種與花瓣寬度花萼寬度,品種與花瓣長(zhǎng)度花萼長(zhǎng)度,這是四組具有參考價(jià)值的屬性值。
實(shí)驗(yàn)結(jié)果顯示山鳶尾的屬性值和雜色鳶尾,維吉尼亞鳶尾范圍有明顯的差距,而雜色鳶尾和維吉尼亞鳶尾存在屬性值范圍的重疊。
接下來(lái)我們想對(duì)于鳶尾花三種種類(lèi)的四個(gè)屬性的值范圍有一個(gè)較為直觀的顯示,于是我們采用繪制四個(gè)圖形的方式來(lái)進(jìn)行顯示,以ID為X軸(因?yàn)樵跀?shù)據(jù)集中ID屬性的值前50個(gè)、中間50個(gè)、最后50個(gè)分別代表不同的鳶尾花),以四個(gè)屬性為Y軸,最后以不同的顏色來(lái)明確區(qū)分三種鳶尾花的四個(gè)屬性值的范圍。
使用seaborn模塊的relplot方法來(lái)繪制圖形,函數(shù)中的kind屬性值設(shè)置為line表示我們要繪制的是折線圖。然后傳入X和Y軸的參數(shù)以及數(shù)據(jù)集對(duì)象。
實(shí)驗(yàn)結(jié)果顯示在花瓣長(zhǎng)度和寬度上,山鳶尾的屬性范圍與其他兩種鳶尾花的屬性范圍有非常明顯的區(qū)分,處于一個(gè)較小的范圍內(nèi),花瓣與分辨山鳶尾有較強(qiáng)的相關(guān)性。而在花萼的折線圖中我們看出,雜色鳶尾和維吉尼亞鳶尾沒(méi)有很好的區(qū)分出,這表示,花萼不能很好作為參數(shù)來(lái)區(qū)分他們,相比較而言,花瓣的屬性值更有利于區(qū)分他們。
首先我們將數(shù)據(jù)集按照8:2的比例隨機(jī)分為訓(xùn)練集, 測(cè)試集。我們使用SVM模型來(lái)對(duì)數(shù)據(jù)集進(jìn)行一個(gè)預(yù)測(cè)。
由此可見(jiàn),該數(shù)據(jù)集根據(jù)SVM模型來(lái)判斷種類(lèi),正確率高達(dá)100%,可見(jiàn),鳶尾花的種類(lèi)和其四個(gè)屬性值之間存在著一定的相關(guān)性,到了這一步我們也可以做出結(jié)論,的確可以根據(jù)鳶尾花的四個(gè)屬性判斷其種類(lèi),我們所建立的SVM模型也證實(shí)了這一點(diǎn)。
為了驗(yàn)證上一步的準(zhǔn)確性,我們想用兩個(gè)模型進(jìn)行驗(yàn)證結(jié)論,在構(gòu)建決策樹(shù)模型后的準(zhǔn)確率也是100%,我們可以得出結(jié)論:可以通過(guò)鳶尾花的四個(gè)屬性值來(lái)判斷其種類(lèi)。
3 分析結(jié)果
回到我們最初的目標(biāo),我們希望通過(guò)鳶尾花的四個(gè)屬性值來(lái)判別其種類(lèi),我們通過(guò)散點(diǎn)圖來(lái)進(jìn)行可視化分析,根據(jù)四種屬性的交叉顯示,我們得出,鳶尾花的類(lèi)別與屬性之間存在一定的關(guān)系且山鳶尾的屬性值和雜色鳶尾,維吉尼亞鳶尾范圍有明顯的差距,而雜色鳶尾和維吉尼亞鳶尾存在屬性值范圍的重疊。
之后通過(guò)折線圖更加具體地顯示三種鳶尾花的屬性值范圍情況,在花瓣長(zhǎng)度寬度上,山鳶尾的屬性范圍與其他兩種鳶尾花的屬性范圍有非常明顯的區(qū)分,處于一個(gè)較小的范圍內(nèi),花瓣與分辨山鳶尾有較強(qiáng)的相關(guān)性。而在花萼的折線圖中我們看出,雜色鳶尾和維吉尼亞鳶尾沒(méi)有很好的區(qū)分出,這表示對(duì)于這兩種鳶尾花而言,花瓣的屬性值更有利于區(qū)分他們。
4 結(jié)束語(yǔ)
由于鳶尾花數(shù)據(jù)集的數(shù)據(jù)量太少,這導(dǎo)致我們的訓(xùn)練集遠(yuǎn)遠(yuǎn)不夠,在調(diào)節(jié)隨機(jī)數(shù)參數(shù)的情況下才將模型的正確率達(dá)到了100%,解決的方法是:使用小數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)并加以微調(diào),微調(diào)對(duì)于沒(méi)有足夠訓(xùn)練樣本時(shí)初始化深度網(wǎng)絡(luò)參數(shù)的一個(gè)有效的方法,一般都會(huì)選取與之具有相似結(jié)構(gòu)的網(wǎng)絡(luò)模型訓(xùn)練結(jié)果進(jìn)行微調(diào)。
【參考文獻(xiàn)】
[1]郭華,陸平.利用python語(yǔ)言對(duì)室內(nèi)熱舒適環(huán)境進(jìn)行數(shù)據(jù)分析[J].建筑與文化,2018(12).
[2]周洪斌.基于Python的豆瓣圖書(shū)評(píng)論數(shù)據(jù)獲取與可視化分析[J].沙洲職業(yè)工學(xué)院學(xué)報(bào)2018,21(04).
[3]翟高粵.基于Python的數(shù)據(jù)分析概述[J].甘肅科技縱橫,2018,47(11).
[4]葉惠仙.Python在學(xué)院招生數(shù)據(jù)分析中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2018(11).
[5]王濤.基于Pyhton的軟件技術(shù)人才招聘信息分析與實(shí)現(xiàn)——以前程無(wú)憂為例[J].福建電腦,2018,34(11).