亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下數(shù)據(jù)科學(xué)分析工具現(xiàn)狀及發(fā)展趨勢(shì)

        2019-09-10 07:22:44劉桂洋
        關(guān)鍵詞:R語(yǔ)言大數(shù)據(jù)

        劉桂洋

        摘要:由于IT技術(shù)的不斷發(fā)展,導(dǎo)致不同行業(yè)都處于信息的轉(zhuǎn)型的過(guò)程中,然而不同行業(yè)都在挖掘大數(shù)據(jù)的價(jià)值以及不擇手段的讓這些這些價(jià)值利益最大化。因此很多企業(yè)都緊緊的抓住了大數(shù)據(jù)帶來(lái)的機(jī)遇,并巧妙的對(duì)待大數(shù)據(jù)帶來(lái)的各種挑戰(zhàn),本文運(yùn)用大數(shù)據(jù)的一些特點(diǎn),具體的分析了科學(xué)數(shù)據(jù)分析工具主要面臨的問(wèn)題,,介紹了大數(shù)據(jù)分析工具的發(fā)展,與R語(yǔ)言的對(duì)比分析,以及Rapid Miner(數(shù)據(jù)挖掘解決方案)、Mahout 三個(gè)相對(duì)較受歡迎的大數(shù)據(jù)分析工具進(jìn)行對(duì)比之后、從中發(fā)現(xiàn)R語(yǔ)言和Rapid Miner的功能相對(duì)齊全,Mahout的強(qiáng)大數(shù)據(jù)分析能力,發(fā)現(xiàn)了科學(xué)數(shù)據(jù)分析工具的主要發(fā)展趨勢(shì)。

        關(guān)鍵詞:數(shù)據(jù)科學(xué);R語(yǔ)言;大數(shù)據(jù)

        一、數(shù)據(jù)科學(xué)分析工具面臨的主要問(wèn)題

        大數(shù)據(jù)是數(shù)據(jù)科學(xué)的主要組成部分,其不僅為科教發(fā)展提供了巨大的機(jī)遇,同事也帶來(lái)了較大的科學(xué)項(xiàng)目問(wèn)題。就像j.Gray所說(shuō),在技術(shù)領(lǐng)域的數(shù)據(jù)洪流,對(duì)建立新的研究基礎(chǔ)設(shè)施提出了挑戰(zhàn),而對(duì)數(shù)據(jù)科學(xué)分析工具也提出了三大問(wèn)題。

        (一)數(shù)據(jù)格式的多樣性

        目前在大數(shù)據(jù)時(shí)代,數(shù)據(jù)量正在快速增長(zhǎng),數(shù)據(jù)格式也變得形式多樣。常見(jiàn)的就是銀行和超市的數(shù)據(jù)采用的都是文本格式,YouTube的數(shù)據(jù)采用是圖像或者視頻的格式,數(shù)字手機(jī)的數(shù)據(jù)采用的是語(yǔ)音格式等等。除開傳統(tǒng)的關(guān)系數(shù)據(jù),它還包括來(lái)自web頁(yè)面、互聯(lián)網(wǎng)日志、E-mail 、媒體論壇、非結(jié)構(gòu)化和半結(jié)構(gòu)化的大數(shù)據(jù)。因此,面對(duì)如此龐大和種類繁多的數(shù)據(jù)量,需要使用數(shù)據(jù)分析工具將結(jié)構(gòu)化數(shù)據(jù)處理與非結(jié)構(gòu)化數(shù)據(jù)方法相結(jié)合。

        (二)傳統(tǒng)數(shù)據(jù)算法的失效

        數(shù)據(jù)分析需要更好的算法來(lái)進(jìn)行數(shù)據(jù)挖掘和分類聚類。而聚類算法并不是對(duì)數(shù)曲線(N log N)和線性的模式,而是特殊的N立方模式,當(dāng)N非常大的時(shí)候,部分方法就會(huì)失敗。從而針對(duì)處理大量的數(shù)據(jù)時(shí),會(huì)有部分傳統(tǒng)算法出現(xiàn)失敗的現(xiàn)象。因此,要發(fā)明一種具有收縮性強(qiáng)的方法來(lái)處理PB級(jí)的數(shù)據(jù)。此外,大數(shù)據(jù)都具有實(shí)時(shí)性這一的特點(diǎn)。因此大數(shù)據(jù)指標(biāo)不只是算法的精度還要與實(shí)時(shí)性取得平衡。

        (三)大規(guī)模的數(shù)據(jù)存在可視化性

        解釋大量數(shù)據(jù)最主要的是可視化這一方法。根據(jù)對(duì)交互界面的支撐對(duì)可視化進(jìn)行具體的分析,不僅可以對(duì)預(yù)測(cè)結(jié)果進(jìn)行監(jiān)控和驗(yàn)證,還可以發(fā)現(xiàn)意料之外的內(nèi)容,使可視化工具與數(shù)據(jù)分析保持平衡。大量的數(shù)據(jù)給可視化帶來(lái)了一些挑戰(zhàn)性的問(wèn)題,可視化技術(shù)如今主要面臨可視化融合不同的多個(gè)異構(gòu)的數(shù)據(jù)規(guī)模,和任務(wù)復(fù)雜的可伸縮性等問(wèn)題。還有一些現(xiàn)場(chǎng)數(shù)據(jù)分析、算法、數(shù)據(jù)移動(dòng)、不定性的數(shù)據(jù)量化、輸送和網(wǎng)絡(luò)構(gòu)架等問(wèn)題。對(duì)此,需要加大可視化技術(shù)的發(fā)展腳步,以支撐數(shù)據(jù)的集中和提取意義。

        二、主要數(shù)據(jù)分析工具

        由于數(shù)據(jù)科學(xué)分析工具的不斷發(fā)展,它們成功地解決了數(shù)據(jù)科學(xué)中的一系列問(wèn)題,如算法失敗和大規(guī)模的數(shù)據(jù)可視化問(wèn)題等但仍然存在一些優(yōu)缺點(diǎn)。例如,Mahout擁有出色的大數(shù)據(jù)處理作用。它不僅處理的數(shù)據(jù)量大而且速度也相對(duì)較快,但是其可視化能力就相對(duì)較差了。對(duì)此,運(yùn)用R語(yǔ)言、Rapid Miner和Mahout這三種數(shù)據(jù)科學(xué)分析工具,以概述的方式對(duì)它們的主要特點(diǎn)進(jìn)行分析,具體如下。

        (一)R語(yǔ)言是一種統(tǒng)計(jì)計(jì)算和繪圖的編程語(yǔ)言。其主要是運(yùn)用命令式的工作形式,在GNU協(xié)議的源代碼幫助下免費(fèi)下載和使用。R網(wǎng)站,提供的第三方數(shù)據(jù)程序包,其牽涉到經(jīng)濟(jì)、社會(huì)、統(tǒng)計(jì)、生物信息等學(xué)科,這是其備受人們喜愛(ài)的原因之一,同時(shí)由于R的傳統(tǒng)分析軟件的可擴(kuò)展性差、Hadoop的分析功能弱,相關(guān)人員也在全力的整合R語(yǔ)言和Hadoop。作為開源統(tǒng)計(jì)分析軟件,將R與Hadoop相結(jié)合,將數(shù)據(jù)計(jì)算進(jìn)處理,Hadoop就可以具有深度分析的能力。

        (二)Rapid Miner也叫數(shù)據(jù)挖掘解決方案。它可以運(yùn)用簡(jiǎn)便的腳本語(yǔ)言和JavaAPI與GUI模式進(jìn)行大規(guī)模的操作。由于其GUI特性,使得初學(xué)者很容易上手。Rapid Miner 6有一個(gè)友好而強(qiáng)大的工具包,其能快速而穩(wěn)定的對(duì)數(shù)據(jù)進(jìn)行分析,并且還可以在短時(shí)間內(nèi)設(shè)計(jì)出一個(gè)原型,以便快速的實(shí)現(xiàn)在數(shù)據(jù)挖掘過(guò)程中的關(guān)鍵決策。以降低客戶的流失,情緒分析,和幫助預(yù)測(cè)維護(hù)和營(yíng)銷等。

        (三)Apache Mahout創(chuàng)建于2008年,主要是為了提出精準(zhǔn)的機(jī)器算法和創(chuàng)建一個(gè)具有收縮性是算法資源庫(kù),其目的是為了協(xié)助研究人員方便快捷地創(chuàng)建出相關(guān)的智能程序。至今為止,Mahout的項(xiàng)目牽扯了頻繁是子項(xiàng)挖掘、歸類、收集和收搜引擎(協(xié)同過(guò)濾)。Mahout主要根據(jù)貝氏統(tǒng)計(jì)的兩種歸類方法。第一個(gè)是一個(gè)簡(jiǎn)便的map-reduce歸類器。其主要是以精度和速度聞名,但其創(chuàng)建的數(shù)據(jù)都獨(dú)立存在的。第二種是樸素貝葉斯法,在保持樸素貝葉斯的簡(jiǎn)單性和速度的同時(shí),還修正了樸素貝葉斯一些不足的地方。

        三、發(fā)展趨勢(shì)

        基于以上對(duì)數(shù)據(jù)科學(xué)分析工具的詳細(xì)解說(shuō),以及其工具特性的要求得出數(shù)據(jù)科學(xué)分析工具主要有以下幾種發(fā)展趨勢(shì):

        (一)大數(shù)據(jù)的集體分析。數(shù)據(jù)科學(xué)分析工具的誕生是為了在大數(shù)據(jù)中能夠趕超海量數(shù)據(jù)的分析。然而,數(shù)據(jù)容量的價(jià)值以及其種類之的關(guān)系是密不可分的。通常來(lái)說(shuō),其數(shù)據(jù)量越多,數(shù)據(jù)種類就越多,其中的信息也隨之變多,同時(shí)其潛在價(jià)值也就越高。為達(dá)到全面的數(shù)據(jù)分析,發(fā)現(xiàn)新的、有價(jià)值的見(jiàn)解,需要數(shù)據(jù)科學(xué)的分析工具來(lái)全面分析龐大且種類繁多的數(shù)據(jù)格式。

        (二)具有良好的可視化性。數(shù)據(jù)處理的主要問(wèn)題是針對(duì)數(shù)據(jù)的分析,同時(shí)就算分析出結(jié)果是正確的,只有沒(méi)有進(jìn)行準(zhǔn)確的解釋,也會(huì)導(dǎo)致用戶很難理解其中的涵義。而可視化則可以全面的展現(xiàn)出分析結(jié)果,更方便接收關(guān)鍵的數(shù)據(jù)分析工具所輸送的信息。面對(duì)如今的大數(shù)據(jù)時(shí)代,數(shù)據(jù)量不僅大且還單調(diào)乏味,而可視化最好的方法就是幫助人們?nèi)娴耐诰驍?shù)據(jù)中潛在的信息和知識(shí)。

        (三)數(shù)據(jù)分析主要是以分布式為主的。以往的數(shù)據(jù)分析工具是無(wú)法超越海量數(shù)據(jù)分析的,因此為了提升系統(tǒng)的擴(kuò)展性需要采用分布式的方法。然而,Hadoop已經(jīng)成為當(dāng)今大數(shù)據(jù)之王。分布式處理技術(shù)在一定程度上增加了數(shù)據(jù)分析的頻率和速度。在不久的將來(lái),傳統(tǒng)的工具將被Mahout等分布式大數(shù)據(jù)處理工具取而代之,并成為主導(dǎo)地位。

        四、結(jié)束語(yǔ)

        在大數(shù)據(jù)時(shí)代,人們可以全力發(fā)揮科學(xué)技術(shù)的作用并對(duì)社會(huì)發(fā)展具有重要的作用。因此,需要不斷開發(fā)數(shù)據(jù)分析工具。高效、精準(zhǔn)地挖掘數(shù)據(jù)中存在的有利價(jià)值,是數(shù)據(jù)分析工具的主要價(jià)值之一,也是其關(guān)鍵所在。隨著時(shí)間的推移,數(shù)據(jù)科學(xué)將成為一門具有完善的理論基礎(chǔ)和學(xué)科技術(shù)的專業(yè),并得到群眾的認(rèn)可。同時(shí)大部分高校也會(huì)設(shè)立指定的專業(yè),創(chuàng)造大量與之相關(guān)的新的就業(yè)崗位。在不久的將來(lái),相關(guān)人才肯定會(huì)供不應(yīng)求。

        參考文獻(xiàn)

        [1]朝樂(lè)門[1,2],邢春曉[3,4,5],張勇[3,4,5].數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)科學(xué),2018,45(1):1-13.

        [2]曹瑞雪,馬英紅,李海洋,等.基于SCOPUS的數(shù)據(jù)科學(xué)發(fā)展現(xiàn)狀與趨勢(shì)分析[J].計(jì)算機(jī)與數(shù)字工程,2019,47(4).

        猜你喜歡
        R語(yǔ)言大數(shù)據(jù)
        基于GPS軌跡數(shù)據(jù)進(jìn)行分析改善城市交通擁擠
        基于R語(yǔ)言的Moodle平臺(tái)數(shù)據(jù)挖掘技術(shù)的研究
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        基于R語(yǔ)言的湖南產(chǎn)業(yè)結(jié)構(gòu)對(duì)其經(jīng)濟(jì)增長(zhǎng)貢獻(xiàn)分析
        商(2016年24期)2016-07-20 08:03:39
        注重統(tǒng)計(jì)思維培養(yǎng)與應(yīng)用為主導(dǎo)的生物統(tǒng)計(jì)學(xué)課程建設(shè)
        考試周刊(2016年15期)2016-03-25 04:09:43
        人民幣匯率的均值回復(fù)檢驗(yàn)及Hurst指數(shù)計(jì)算
        R語(yǔ)言及ggplot2在環(huán)境空氣監(jiān)測(cè)數(shù)據(jù)可視化中的應(yīng)用
        狠狠躁夜夜躁AV网站中文字幕| 国产69精品久久久久9999apgf | 桃花影院理论片在线| 国产99视频精品免费视频免里| 日本一区二区不卡超清在线播放| 中文字幕日韩高清乱码| 成年站免费网站看v片在线| 亚洲一区av无码少妇电影| 国产真实乱对白在线观看| 日韩精品一区二区三区影音视频 | 亚洲精品中文字幕熟女| 国产乱子伦精品无码专区| 三级在线看中文字幕完整版| 香蕉国产人午夜视频在线观看| 色小姐在线视频中文字幕| 无码日韩精品一区二区免费暖暖| 99久久精品费精品国产一区二区| 男性一插就想射是因为啥| 亚洲国产一区二区av| 浪货趴办公桌~h揉秘书电影| 又爆又大又粗又硬又黄的a片| 国产一区二区三区免费精品| 护士人妻hd中文字幕| 国内精品人妻无码久久久影院| 久久综合第一页无码| 国产最新一区二区三区| 人妻少妇哀求别拔出来| 亚洲av永久无码国产精品久久| av一区二区三区亚洲| 亚洲天码一区二区三区| 久热re这里精品视频在线6| 黑人巨大videos极度另类| 青青手机在线视频观看| 美利坚日韩av手机在线| 久久精品人人做人人综合| 狠狠亚洲婷婷综合色香五月| 中文字幕亚洲五月综合婷久狠狠| 妺妺窝人体色www聚色窝仙踪| 丁香六月婷婷综合| 亚洲一区二区三区一区| 人人妻人人澡人人爽精品日本 |