亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python語(yǔ)言Kaggle的數(shù)據(jù)集分析

        2019-05-13 09:54:34段聰聰柴世一
        科技視界 2019年8期
        關(guān)鍵詞:維吉尼亞花萼鳶尾花

        段聰聰 柴世一

        【摘 要】本文基于python來(lái)進(jìn)行對(duì)kaggle數(shù)據(jù)集庫(kù)中的數(shù)據(jù)集來(lái)進(jìn)行數(shù)據(jù)分析,在這個(gè)大數(shù)據(jù)時(shí)代,我們的生活早已成為一個(gè)數(shù)據(jù)化的生活,文章的目的是在于用現(xiàn)有的計(jì)算機(jī)科學(xué)技術(shù)來(lái)預(yù)示通過(guò)數(shù)據(jù)分析來(lái)進(jìn)行預(yù)判的可行性。

        【關(guān)鍵詞】python程序設(shè)計(jì)與開(kāi)發(fā);數(shù)據(jù)分析;特征選擇

        中圖分類(lèi)號(hào): TP311.13文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)08-0106-001

        DOI:10.19694/j.cnki.issn2095-2457.2019.08.044

        【Abstract】This paper is based on Python to analyze the data set in kaggle databases.In this big data era, our life has already become a data life. The purpose of this paper is to use the existing computer science technology to predict the feasibility of data analysis.

        【Key words】Python Programming and development;Data analysis;Feature selection

        1 簡(jiǎn)介

        數(shù)據(jù)集名稱(chēng)為iris.csv,該數(shù)據(jù)由kaggle網(wǎng)站獲取而來(lái),數(shù)據(jù)集的規(guī)模為150*6,總計(jì)150條數(shù)據(jù),數(shù)據(jù)信息分為6列,列屬性名分別為Id,SepaLength,SepalWidth,PetalLength,PetalWidth,Species.

        我們希望利用python語(yǔ)言對(duì)數(shù)據(jù)集中的特征來(lái)進(jìn)行分析,最后可以根據(jù)分析結(jié)果來(lái)較為準(zhǔn)確的根據(jù)鳶尾花四個(gè)屬性判斷出其所屬類(lèi)別。

        2 數(shù)據(jù)處理

        查看數(shù)據(jù)集

        Id顯示為整數(shù)類(lèi)型,之后的是個(gè)花瓣花萼長(zhǎng)寬均為小數(shù)點(diǎn)后一位的小數(shù)類(lèi)型,而Species則為字符串類(lèi)型,對(duì)應(yīng)著某一行數(shù)據(jù)所屬鳶尾花的類(lèi)別

        從數(shù)據(jù)集中可看出

        花萼長(zhǎng)度最小值4.30, 最大值7.90, 均值5.84, 中位數(shù)5.80, 右偏

        花萼寬度最小值2.00, 最大值4.40, 均值3.05, 中位數(shù)3.00, 右偏

        花瓣長(zhǎng)度最小值1.00, 最大值6.90, 均值3.76, 中位數(shù)4.35, 左偏

        花瓣寬度最小值0.10, 最大值2.50, 均值1.20, 中位數(shù)1.30, 左偏

        按中位數(shù)來(lái)度量:花萼長(zhǎng)度大于花瓣長(zhǎng)度大于花萼寬度大于花瓣寬度

        當(dāng)該條數(shù)據(jù)鳶尾花類(lèi)別為setosa時(shí),我們讓它在圖中的點(diǎn)的顏色為紅色,versicolor為綠色,virginica為藍(lán)色。通過(guò)這樣的設(shè)置可以在散點(diǎn)圖中明顯的看出三種種類(lèi)鳶尾花與屬性之間的關(guān)系??紤]到有四種屬性,我們讓他們來(lái)兩兩相交,選擇了四組屬性來(lái)進(jìn)行測(cè)試:分別是品種與花萼長(zhǎng)度寬度,品種與花瓣長(zhǎng)度寬度,品種與花瓣寬度花萼寬度,品種與花瓣長(zhǎng)度花萼長(zhǎng)度,這是四組具有參考價(jià)值的屬性值。

        實(shí)驗(yàn)結(jié)果顯示山鳶尾的屬性值和雜色鳶尾,維吉尼亞鳶尾范圍有明顯的差距,而雜色鳶尾和維吉尼亞鳶尾存在屬性值范圍的重疊。

        接下來(lái)我們想對(duì)于鳶尾花三種種類(lèi)的四個(gè)屬性的值范圍有一個(gè)較為直觀的顯示,于是我們采用繪制四個(gè)圖形的方式來(lái)進(jìn)行顯示,以ID為X軸(因?yàn)樵跀?shù)據(jù)集中ID屬性的值前50個(gè)、中間50個(gè)、最后50個(gè)分別代表不同的鳶尾花),以四個(gè)屬性為Y軸,最后以不同的顏色來(lái)明確區(qū)分三種鳶尾花的四個(gè)屬性值的范圍。

        使用seaborn模塊的relplot方法來(lái)繪制圖形,函數(shù)中的kind屬性值設(shè)置為line表示我們要繪制的是折線圖。然后傳入X和Y軸的參數(shù)以及數(shù)據(jù)集對(duì)象。

        實(shí)驗(yàn)結(jié)果顯示在花瓣長(zhǎng)度和寬度上,山鳶尾的屬性范圍與其他兩種鳶尾花的屬性范圍有非常明顯的區(qū)分,處于一個(gè)較小的范圍內(nèi),花瓣與分辨山鳶尾有較強(qiáng)的相關(guān)性。而在花萼的折線圖中我們看出,雜色鳶尾和維吉尼亞鳶尾沒(méi)有很好的區(qū)分出,這表示,花萼不能很好作為參數(shù)來(lái)區(qū)分他們,相比較而言,花瓣的屬性值更有利于區(qū)分他們。

        首先我們將數(shù)據(jù)集按照8:2的比例隨機(jī)分為訓(xùn)練集, 測(cè)試集。我們使用SVM模型來(lái)對(duì)數(shù)據(jù)集進(jìn)行一個(gè)預(yù)測(cè)。

        由此可見(jiàn),該數(shù)據(jù)集根據(jù)SVM模型來(lái)判斷種類(lèi),正確率高達(dá)100%,可見(jiàn),鳶尾花的種類(lèi)和其四個(gè)屬性值之間存在著一定的相關(guān)性,到了這一步我們也可以做出結(jié)論,的確可以根據(jù)鳶尾花的四個(gè)屬性判斷其種類(lèi),我們所建立的SVM模型也證實(shí)了這一點(diǎn)。

        為了驗(yàn)證上一步的準(zhǔn)確性,我們想用兩個(gè)模型進(jìn)行驗(yàn)證結(jié)論,在構(gòu)建決策樹(shù)模型后的準(zhǔn)確率也是100%,我們可以得出結(jié)論:可以通過(guò)鳶尾花的四個(gè)屬性值來(lái)判斷其種類(lèi)。

        3 分析結(jié)果

        回到我們最初的目標(biāo),我們希望通過(guò)鳶尾花的四個(gè)屬性值來(lái)判別其種類(lèi),我們通過(guò)散點(diǎn)圖來(lái)進(jìn)行可視化分析,根據(jù)四種屬性的交叉顯示,我們得出,鳶尾花的類(lèi)別與屬性之間存在一定的關(guān)系且山鳶尾的屬性值和雜色鳶尾,維吉尼亞鳶尾范圍有明顯的差距,而雜色鳶尾和維吉尼亞鳶尾存在屬性值范圍的重疊。

        之后通過(guò)折線圖更加具體地顯示三種鳶尾花的屬性值范圍情況,在花瓣長(zhǎng)度寬度上,山鳶尾的屬性范圍與其他兩種鳶尾花的屬性范圍有非常明顯的區(qū)分,處于一個(gè)較小的范圍內(nèi),花瓣與分辨山鳶尾有較強(qiáng)的相關(guān)性。而在花萼的折線圖中我們看出,雜色鳶尾和維吉尼亞鳶尾沒(méi)有很好的區(qū)分出,這表示對(duì)于這兩種鳶尾花而言,花瓣的屬性值更有利于區(qū)分他們。

        4 結(jié)束語(yǔ)

        由于鳶尾花數(shù)據(jù)集的數(shù)據(jù)量太少,這導(dǎo)致我們的訓(xùn)練集遠(yuǎn)遠(yuǎn)不夠,在調(diào)節(jié)隨機(jī)數(shù)參數(shù)的情況下才將模型的正確率達(dá)到了100%,解決的方法是:使用小數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)并加以微調(diào),微調(diào)對(duì)于沒(méi)有足夠訓(xùn)練樣本時(shí)初始化深度網(wǎng)絡(luò)參數(shù)的一個(gè)有效的方法,一般都會(huì)選取與之具有相似結(jié)構(gòu)的網(wǎng)絡(luò)模型訓(xùn)練結(jié)果進(jìn)行微調(diào)。

        【參考文獻(xiàn)】

        [1]郭華,陸平.利用python語(yǔ)言對(duì)室內(nèi)熱舒適環(huán)境進(jìn)行數(shù)據(jù)分析[J].建筑與文化,2018(12).

        [2]周洪斌.基于Python的豆瓣圖書(shū)評(píng)論數(shù)據(jù)獲取與可視化分析[J].沙洲職業(yè)工學(xué)院學(xué)報(bào)2018,21(04).

        [3]翟高粵.基于Python的數(shù)據(jù)分析概述[J].甘肅科技縱橫,2018,47(11).

        [4]葉惠仙.Python在學(xué)院招生數(shù)據(jù)分析中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2018(11).

        [5]王濤.基于Pyhton的軟件技術(shù)人才招聘信息分析與實(shí)現(xiàn)——以前程無(wú)憂為例[J].福建電腦,2018,34(11).

        猜你喜歡
        維吉尼亞花萼鳶尾花
        鳶尾花觀察日記
        《小房子》
        鳶尾花
        玫瑰茄轉(zhuǎn)錄組測(cè)序及花青素合成相關(guān)基因表達(dá)分析
        鳶尾花開(kāi)
        童話世界(2018年35期)2018-12-03 05:23:14
        根字練習(xí)(五十)
        我有鳶尾花一樣的靈魂(外一首)
        18個(gè)獼猴桃優(yōu)良品種雌花形態(tài)多樣性比較
        走進(jìn)意識(shí)的世界
        祖國(guó)(2017年9期)2017-06-15 02:32:22
        伍爾夫“雌雄同體”觀及小說(shuō)《奧蘭多》
        丰满少妇被猛烈进入高清播放| 欧美va亚洲va在线观看| 亚洲精品黄网在线观看| 亚洲天堂av另类在线播放| 国产三级国产精品国产专区50| 国产精品a免费一区久久电影| 免费人成年小说在线观看| 无码伊人久久大杳蕉中文无码| 亚洲综合在不卡在线国产另类 | 亚洲人av毛片一区二区| 国产av一区二区毛片| 人妻丰满熟妇岳av无码区hd| 国产白嫩美女在线观看 | 日本高清免费播放一区二区| 精品人妻少妇av中文字幕| 久久精品人妻嫩草av蜜桃| 夜夜未满十八勿进的爽爽影院| 久久久精品人妻一区二区三区蜜桃| 久久狠狠高潮亚洲精品暴力打| av资源在线永久免费观看| 国产视频一区二区三区在线免费| 亚洲中文字幕久在线| 国产成人啪精品| 亚洲一区二区三区亚洲| 日韩人妻不卡一区二区三区| 欲色天天网综合久久| 香港三级欧美国产精品| 国产三区三区三区看三区| 久久青青草原精品国产app| 真实国产精品vr专区| 久久久久久久无码高潮| 亚洲AV无码日韩一区二区乱| 亚洲天堂一区二区偷拍| 丰满少妇被粗大的猛烈进出视频 | 成年女人窝窝视频| 亚洲视频专区一区二区三区| 日产学生妹在线观看| 色婷婷久久综合中文久久蜜桃av| 日韩h网站| 色视频日本一区二区三区 | 国产一区二区免费在线视频|