亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Excel、Spss、R在數(shù)據(jù)分析中的比較研究

        2017-04-10 07:57:46王新宇
        電腦知識(shí)與技術(shù) 2017年4期
        關(guān)鍵詞:工作環(huán)境比較分析大數(shù)據(jù)

        王新宇

        摘要:隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)分析成了一個(gè)熱門(mén)的話題。市場(chǎng)上有各種各樣的數(shù)據(jù)分析工具,如何選擇數(shù)據(jù)分析工具就成了很多數(shù)據(jù)分析工作者的一個(gè)難題。而數(shù)據(jù)分析工具的選擇應(yīng)主要依據(jù)具體的業(yè)務(wù)邏輯,并沒(méi)有最好的數(shù)據(jù)分析工具,而只有最適合的分析工具。全文選擇Excel,Spss和R語(yǔ)言這三個(gè)數(shù)據(jù)分析工具進(jìn)行比較分析。觀察他們?cè)谄綍r(shí)的學(xué)習(xí)和工作中,特別是在數(shù)據(jù)分析過(guò)程中的表現(xiàn),以得出他們最適合的工作環(huán)境。

        關(guān)鍵詞: 大數(shù)據(jù);分析工具;業(yè)務(wù)邏輯;比較分析;工作環(huán)境

        中圖分類(lèi)號(hào):TP317.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)04-0235-02

        統(tǒng)計(jì)分析軟件是數(shù)據(jù)分析的主要工具。無(wú)論在工作還是學(xué)習(xí)中,我們都需要使用這些軟件來(lái)進(jìn)行數(shù)據(jù)分析,而分析的過(guò)程主要分為數(shù)據(jù)的整理,數(shù)據(jù)的分析,數(shù)據(jù)的報(bào)告 。而市場(chǎng)上有很多的軟件來(lái)供我們選擇,如何選擇一款合適的軟件就成了我們需要考慮的問(wèn)題。

        1 工具簡(jiǎn)介

        Excel是微軟的office系列辦公軟件中比較常用的一款數(shù)據(jù)處理軟件。我們可以通過(guò)Excel進(jìn)行數(shù)據(jù)錄入,儲(chǔ)存和分析的相關(guān)操作。Excel提供了大量的函數(shù)功能,為我們的數(shù)據(jù)分析工作提供了便捷。而且強(qiáng)大的VBA編程能力,也讓我們處理起數(shù)據(jù)更加個(gè)性化和多樣化。

        Spss(Statistical Product and Service Solutions),相比Excel這樣的辦公軟件,人們更加傾向于稱(chēng)Spss為統(tǒng)計(jì)軟件。因?yàn)樗臄?shù)據(jù)處理能力更加強(qiáng)大,Excel只能做一些最基本的數(shù)據(jù)操作,而Spss則可以做一些比較高級(jí)的數(shù)理統(tǒng)計(jì)工作。

        R語(yǔ)言(R Language)相比前兩者最大的不同之處在于他是非窗口操作軟件,更確切地說(shuō)他是一款腳本語(yǔ)言。用戶需要輸入相應(yīng)的指令才可以操作數(shù)據(jù)。R語(yǔ)言的強(qiáng)大之處在于他的包。R語(yǔ)言平臺(tái)上提供了各種各樣的數(shù)理統(tǒng)計(jì)包,這些包可以直接由用戶使用,而并不用關(guān)心它的底層實(shí)現(xiàn)機(jī)制。

        2 三種軟件在數(shù)據(jù)儲(chǔ)存階段的比較分析

        數(shù)據(jù)存儲(chǔ)是指分析員在搜集數(shù)據(jù)之后,把相應(yīng)的數(shù)據(jù)有條理的儲(chǔ)存起來(lái),以便在以后的分析工作中使用。數(shù)據(jù)存儲(chǔ)是數(shù)據(jù)處理過(guò)程的第一個(gè)階段,也是最重要的階段,因?yàn)樗苯佑绊懼院蟮牟僮?。如果在?shù)據(jù)的存儲(chǔ)階段出了問(wèn)題,那么整個(gè)數(shù)據(jù)分析的過(guò)程也就是有問(wèn)題的。可見(jiàn)數(shù)據(jù)存儲(chǔ)過(guò)程是需要分析員特別重視的階段。

        在此階段Excel和Spss提供了可視化的操作界面,所以分析員可以很容易的對(duì)數(shù)據(jù)進(jìn)行錄入處理。而R語(yǔ)言則沒(méi)有提供相應(yīng)的圖形操作界面,分析員只能通過(guò)在控制臺(tái)建立數(shù)據(jù)框這樣的方式,把數(shù)據(jù)儲(chǔ)存起來(lái)??梢暬僮鹘缑娴膬?yōu)點(diǎn)是直觀,分析員可以像在實(shí)體的紙質(zhì)表格上寫(xiě)字一樣在虛擬的表里填入數(shù)據(jù),這樣可以減少分析員在抽象腳本語(yǔ)言可能出現(xiàn)的失誤。

        雖然R沒(méi)有提供簡(jiǎn)單的圖形操作界面,使得數(shù)據(jù)的輸入沒(méi)有Excel與Spss軟件這么直觀,但是R語(yǔ)言這種輸入方式卻有一個(gè)比較強(qiáng)勢(shì)的功能,就是編程。雖然Excel和Spss也有編程功能,但是語(yǔ)法過(guò)于復(fù)雜。在R語(yǔ)言中分析員可以編寫(xiě)自己的腳本文件,實(shí)現(xiàn)數(shù)據(jù)的重復(fù)錄入,從而可以節(jié)省出大量的時(shí)間,減少不必要的時(shí)間浪費(fèi)。

        他們?nèi)咦詈蠖伎梢园褦?shù)據(jù)保存為CSV格式或者TXT格式,這樣就為數(shù)據(jù)的傳輸帶來(lái)了方便。保存為這兩種格式后三個(gè)軟件可以實(shí)現(xiàn)數(shù)據(jù)的共享操作。

        綜上所述,Excel和Spss強(qiáng)在可視化的操作界面,而R語(yǔ)言則強(qiáng)在編程語(yǔ)言。至于最后數(shù)據(jù)的保存,三者則表現(xiàn)出了一致性,實(shí)現(xiàn)了數(shù)據(jù)在軟件之間的傳輸。

        3 三種軟件在數(shù)據(jù)分析階段的比較分析

        數(shù)據(jù)分析傳統(tǒng)上都認(rèn)為是統(tǒng)計(jì)分析,而廣義的數(shù)據(jù)分析則包含了更高級(jí)的算法比如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘(Data Minning)是指從大量的數(shù)據(jù)中通過(guò)一些特定的算法,計(jì)算出隱藏在其中的有意義的信息的過(guò)程。主要的數(shù)據(jù)挖掘算法包括:人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī),KNN算法,隨機(jī)深林、決策樹(shù)、回歸分析等。

        Excel在數(shù)據(jù)分析階段的強(qiáng)大之處在于它有很強(qiáng)大的函數(shù)庫(kù),利用這些函數(shù)庫(kù)里的函數(shù),可以幫助我們方便地進(jìn)行簡(jiǎn)單的數(shù)據(jù)分析,比如求平均數(shù),求和等。當(dāng)然也可以對(duì)數(shù)據(jù)進(jìn)行優(yōu)化和篩選。函數(shù)功能是Excel的靈魂,有了函數(shù),Excel就可以組合變化出多種統(tǒng)計(jì)方式,來(lái)分析數(shù)據(jù)。

        但是,Excel只能進(jìn)行簡(jiǎn)單的數(shù)理統(tǒng)計(jì)分析,而不能進(jìn)行比較高級(jí)的算法分析。 Spss相比Excel則可進(jìn)行比較高級(jí)的數(shù)據(jù)分析,比如生存分析、Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)等。雖然Spss能進(jìn)行這些算法分析,但是它本身也有局限性。由于Spss是一款可視化軟件,它的載體在軟件開(kāi)發(fā)的階段就已經(jīng)被設(shè)計(jì)好了,分析員很難再根據(jù)自己的需要對(duì)里面的算法進(jìn)行更改。這也就意味著,分析員只能使用設(shè)計(jì)者提供的方法,而設(shè)計(jì)者沒(méi)有提供的方法,分析員就不能使用了。因?yàn)楝F(xiàn)在算法更新比較快,而且對(duì)具體的業(yè)務(wù)對(duì)算法的要求也是不盡相同的,這樣就要求算法的個(gè)性化,而Spss則很難滿足這一點(diǎn)。

        R語(yǔ)言相比前兩者在數(shù)據(jù)分析階段則有很強(qiáng)大的優(yōu)勢(shì),因?yàn)镽語(yǔ)言是一個(gè)開(kāi)源軟件。有很多R語(yǔ)言的愛(ài)好者,在R語(yǔ)言的社區(qū)貢獻(xiàn)自己利用R語(yǔ)言的語(yǔ)法寫(xiě)成的包,免費(fèi)的供所有人使用。這樣分析員就可以直接從R的官方網(wǎng)站上下載相對(duì)應(yīng)的包。R語(yǔ)言的包基本包含了所有數(shù)據(jù)分析的算法。

        R語(yǔ)言的另一個(gè)強(qiáng)大之處,在于分析者不僅能下載相應(yīng)的包,更能查看包的內(nèi)部信息。通過(guò)查看包的內(nèi)部信息來(lái)確定自己是否需要這個(gè)包。而且如果遇到自己所處理的問(wèn)題不合適的包,分析員可以在自己所找到的包的基礎(chǔ)上自己再設(shè)計(jì)新的算法,來(lái)滿足自己的業(yè)務(wù)需要。

        綜上所述,在數(shù)據(jù)處理階段,Excel只能滿足最基本的數(shù)據(jù)處理,而Spss和R語(yǔ)言則可以滿足更高層次的數(shù)據(jù)處理。而且R語(yǔ)言在算法的選擇和使用上相對(duì)Spss則更具有個(gè)性化。

        4 三種軟件在數(shù)據(jù)報(bào)告方面的比較分析

        數(shù)據(jù)報(bào)告是指在經(jīng)過(guò)數(shù)據(jù)搜集,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)分析之后,對(duì)得到的結(jié)果進(jìn)行歸納總結(jié),形成報(bào)告的方式呈現(xiàn)出來(lái)的過(guò)程。數(shù)據(jù)報(bào)告可以分為文字報(bào)告和圖形報(bào)告。

        而近些年來(lái)數(shù)據(jù)可視化越來(lái)越受到人們的關(guān)注,數(shù)據(jù)可視化將復(fù)雜的數(shù)據(jù)表展示為直觀的圖形,可以讓聽(tīng)眾更加準(zhǔn)確的抓住數(shù)據(jù)的要害,進(jìn)而分析數(shù)據(jù)。而隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)可視化的手段越來(lái)越豐富,除了傳統(tǒng)的柱狀圖,餅圖等等之外,現(xiàn)在的可視化工具,更為我們提供了其他豐富的圖形。比如,詞云,雷達(dá)圖等。

        在文字報(bào)告方面三者都可以根據(jù)自己的所能處理的報(bào)告生成相應(yīng)的圖表。Excel只能生成餅圖,柱狀圖等簡(jiǎn)單的數(shù)理統(tǒng)計(jì)圖,當(dāng)然這和它所能處理的對(duì)象是一致的。Spss則能生成更高級(jí)的圖形,比如線性回歸圖等。R語(yǔ)言也提供了相應(yīng)的作圖函數(shù),這樣的作圖函數(shù)和Excel與Spss的作圖原理是相通的。

        而R語(yǔ)言不僅提供了傳統(tǒng)的繪圖功能,而且更提供了高級(jí)的繪圖功能。傳統(tǒng)的繪圖軟件的原理類(lèi)似與我們直接在紙面上畫(huà)畫(huà),一旦畫(huà)上去就無(wú)法更改。這就給作圖帶來(lái)了很大的麻煩,不能隨意更改視圖,更不能在圖形生成后在后期對(duì)圖形做出整改。R語(yǔ)言提供了一款名叫“ggplot”的包,這個(gè)作圖包的原理是基于圖層,也就是說(shuō)每一次畫(huà)圖動(dòng)作都新建了一個(gè)圖層。在最后繪圖完成之后,將一個(gè)個(gè)圖層相互覆蓋。這樣作圖的好處就是我們可以直接更改一個(gè)圖層,來(lái)修改我們某一步的作圖操作。這樣我們控制最后的輸出圖就更加的靈活了。

        綜上所述,R語(yǔ)言在數(shù)據(jù)報(bào)告,特別是可視化這個(gè)過(guò)程中,相比Excel和Spss更加具有優(yōu)勢(shì)。但是R語(yǔ)言并不是完美的,我們?cè)谑褂冒臅r(shí)候,并不能完全的隨心所欲。因?yàn)榘脑O(shè)計(jì)者也對(duì)一些功能進(jìn)行的限制。但是如果我們確實(shí)需要某項(xiàng)功能,我們可以通過(guò)改寫(xiě)代碼來(lái)實(shí)現(xiàn)。從這一點(diǎn)來(lái)說(shuō),R語(yǔ)言數(shù)據(jù)可視化功能還是很完整的。

        5 結(jié)論

        通過(guò)以上的比較分析,我們不難發(fā)現(xiàn)他們之間的區(qū)別和聯(lián)系,也讓我們?cè)谄綍r(shí)的學(xué)習(xí)和生活中有了選擇的參考。但是我們?nèi)匀灰涀。瑳](méi)有最好的軟件,只有最合適的軟件。我們?cè)谶x擇軟件的時(shí)候要根據(jù)自己的實(shí)際需要來(lái)選擇,而不能認(rèn)為某種軟件是最強(qiáng)的,就把所有的數(shù)據(jù)處理工作都交給一種工具來(lái)處理。通常結(jié)合多種工具來(lái)處理數(shù)據(jù),我們會(huì)得到最好的效果。

        參考文獻(xiàn):

        [1] 張文霖.數(shù)據(jù)分析初體驗(yàn)[J].數(shù)據(jù),2013(5):46-47.

        [2] 段昕宏.巧用Excel編制銀行存款余額調(diào)節(jié)表[J].財(cái)會(huì)通訊,2005(8):74.

        [3] 鄧振偉.SPSS軟件在正交試驗(yàn)設(shè)計(jì)、結(jié)果分析中的應(yīng)用[J].電腦學(xué)習(xí),2009(5):15-17.

        [4] 關(guān)彥輝.R軟件在《概率統(tǒng)計(jì)》教學(xué)中的應(yīng)用[J].現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版),2009(12):87-90.

        [5] 姜忠尉.統(tǒng)計(jì)分析軟件SPSS的特點(diǎn)和應(yīng)用分析[J].中國(guó)證券期貨,2012(4):291.

        [6] 尚新利.利用EXCEL軟件進(jìn)行線性回歸分析[J].氣象與環(huán)境科學(xué),2007(S1):188-189.

        [7] 羅鳳明.如何使用統(tǒng)計(jì)軟件SPSS進(jìn)行回歸分析[J].電腦知識(shí)與技術(shù),2008(2):293-294+304.

        [8] 楊霞.R語(yǔ)言在大數(shù)據(jù)處理中的應(yīng)用[J].科技資訊,2013(23):19-20.

        猜你喜歡
        工作環(huán)境比較分析大數(shù)據(jù)
        高校二級(jí)團(tuán)組織服務(wù)型工作體系的建設(shè)
        比較視角下的國(guó)家治理模式及其理論構(gòu)建
        善意取得制度的比較分析
        人間(2016年30期)2016-12-03 20:39:32
        基于Zigbee無(wú)線網(wǎng)絡(luò)傳感器工作環(huán)境監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)
        對(duì)國(guó)內(nèi)外企業(yè)的科技中介的思考
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        經(jīng)管類(lèi)本科生就業(yè)期望與實(shí)際就業(yè)的比較分析
        淺談在新形勢(shì)下如何發(fā)揮人力資源的主觀能動(dòng)性
        基于工作環(huán)境的高校民族預(yù)科英語(yǔ)教學(xué)改革探討
        科技視界(2015年35期)2016-01-04 09:59:37
        日韩一区二区三区天堂| 人妻丰满熟妇岳av无码区hd| 国产情侣一区二区| 久久综合99re88久久爱| 日本少妇高潮喷水xxxxxxx| 亚洲av最新在线网址| 亚洲欧美日韩在线一区| 推油少妇久久99久久99久久| 婷婷亚洲国产成人精品性色 | 少妇特殊按摩高潮对白| 国产不卡av一区二区三区| 国产在线看不卡一区二区| 久久本道久久综合一人| 亚洲精品一区二区三区四区| av在线不卡一区二区| 久久精品国产亚洲夜色av网站| 亚洲欧美乱日韩乱国产| 亚洲色成人网站www永久四虎| 日韩免费无码一区二区三区 | 少妇bbwbbw高潮| 国产一区二区三区porn| 精品人妻69一区二区三区蜜桃| 久久精品国产99国产精品澳门 | 亚洲国产精品久久电影欧美 | 国产乱人伦精品一区二区| 国产免费专区| 久久久亚洲经典视频| 欧美亚洲h在线一区二区| 亚洲av黄片一区二区| 亚洲国产精品免费一区| 国产精品黄色av网站| 久久丝袜熟女av一区二区| 国产无套一区二区三区久久| 久青草影院在线观看国产| 亚洲色图视频在线免费看| 欧美三级不卡在线观看| 久久国产加勒比精品无码| 野花社区www高清视频| 小12箩利洗澡无码视频网站 | 99久久精品国产一区二区蜜芽| 中文毛片无遮挡高潮|