亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)挖掘及分析技術(shù)研究

        2019-09-09 08:14:53吳胤霖張必彥曾科軍
        數(shù)碼世界 2019年5期
        關(guān)鍵詞:數(shù)據(jù)分析數(shù)據(jù)挖掘大數(shù)據(jù)

        吳胤霖 張必彥 曾科軍

        摘要:介紹了大數(shù)據(jù)產(chǎn)生的背景和來源,針對人們對大數(shù)據(jù)進(jìn)行挖掘和分析的迫切需求,提出了數(shù)據(jù)挖掘和分析的過程,闡述了數(shù)據(jù)挖掘和數(shù)據(jù)分析的幾種方法,最后作了總結(jié)。

        關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 數(shù)據(jù)分析

        引言

        自計算機(jī)和互聯(lián)網(wǎng)技術(shù)飛速發(fā)展以來,人們的工作、生活乃至思維方式都受到了巨大的影響。二十一世紀(jì)以來,互聯(lián)網(wǎng)得到了快速建設(shè),尤其是移動互聯(lián)網(wǎng)和智能終端迅速普及,導(dǎo)致全世界數(shù)據(jù)量出現(xiàn)爆炸式增長,每年產(chǎn)生的數(shù)據(jù)量已達(dá)到ZB量級。如今,各行各業(yè)中己經(jīng)開始積累著大量數(shù)據(jù)。可以斷言,我們正處在一個大數(shù)據(jù)時代。國外的谷歌、亞馬遜,國內(nèi)的阿里巴巴、騰訊等企業(yè)投入了大量的人力和財力到大數(shù)據(jù)的挖掘和分析中并從中獲取了大量的機(jī)遇和財富。更多人希望從這些數(shù)據(jù)中獲得機(jī)遇和財富,因此也意味著人們對數(shù)據(jù)挖掘和分析提出了更高的要求。

        數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏信息和知識的過程。由于人們面對的數(shù)據(jù)量非常的龐大,數(shù)據(jù)的種類非常的豐富,因此,數(shù)據(jù)挖掘逐漸形成了一個學(xué)術(shù)領(lǐng)域。數(shù)據(jù)挖掘涵蓋了多個學(xué)科的知識,包括數(shù)學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué)、機(jī)器學(xué)習(xí)等等,在數(shù)據(jù)分析的過程中還會涉及到社會學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)等等。它的目的就是從大數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律和趨勢,為決策提供信息參考。數(shù)據(jù)挖掘技術(shù)近幾年發(fā)展很快,其成果己被廣泛應(yīng)用于管理決策、市場分析、人工智能、國家安全和生產(chǎn)控制等領(lǐng)域。

        1大數(shù)據(jù)挖掘及分析過程

        大數(shù)據(jù)挖掘及分析通常按照以下步驟進(jìn)行:

        (1)明確問題。無論面對何種存儲格式,何種類型的數(shù)據(jù)信息,首先要清晰的定義出問題,明確數(shù)據(jù)挖掘的目的;

        (2)數(shù)據(jù)預(yù)處理。在面對海量原始數(shù)據(jù)或者大型數(shù)據(jù)庫時,為提高效率,首先要提取出需要進(jìn)行挖掘的目標(biāo)數(shù)據(jù)集,然后再對目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的內(nèi)容通常包括檢查數(shù)據(jù)的完整性、數(shù)據(jù)的有效性、量綱的轉(zhuǎn)換復(fù)原、去除數(shù)據(jù)噪聲、補(bǔ)全缺失數(shù)據(jù),去除無效數(shù)據(jù)等工作。

        (3)數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)的類型、數(shù)據(jù)的特點以及數(shù)據(jù)挖掘的目的選擇一種或多種恰當(dāng)?shù)乃惴ǎ瑧?yīng)用于經(jīng)過預(yù)處理的數(shù)據(jù)集上,進(jìn)行有目的、有效率的數(shù)據(jù)挖掘。

        (4)數(shù)據(jù)分析。對數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評價,轉(zhuǎn)換成為能夠最終被用戶理解的知識。

        2數(shù)據(jù)挖掘的主要方法

        目前較為常用的數(shù)據(jù)挖掘方法主要有以下6種:

        (1)神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)方法是在模擬人腦神經(jīng)組織的基礎(chǔ)上發(fā)展起來的方法,它具有自組織自適應(yīng)性,適合并行處理和分布存儲,擁有非線性映射能力和容錯能力,非常適合用于數(shù)據(jù)挖掘。在對模型的預(yù)測中,該算法具有很強(qiáng)的優(yōu)勢,利用神經(jīng)網(wǎng)絡(luò)方法可以對龐大的數(shù)據(jù)信息進(jìn)行分類,從而對有潛在價值的信息進(jìn)行定位時,速度快,同時描述也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應(yīng)用性很強(qiáng)。但是神經(jīng)網(wǎng)絡(luò)算法也有收斂速度較慢的缺點。

        (2)遺傳算法。該算法是一種隨機(jī)搜索算法,常用來解決最優(yōu)化問題。學(xué)者們受到生物學(xué)里遺傳、基因突變和雜交等現(xiàn)象的啟發(fā),從而發(fā)明了這種隨機(jī)搜索算法。遺傳算法具有隱含并行性、較好的收斂性和可擴(kuò)展性等優(yōu)勢,從而在數(shù)據(jù)挖掘中得到了較為廣泛的應(yīng)用。但是,遺傳算法也有編碼復(fù)雜、訓(xùn)練時間長,而且可能得到的是局部最優(yōu)解而非全局最優(yōu)解等缺點。

        (3)粗糙集方法。粗糙集是1982年由波蘭學(xué)者首先提出的一種建立在分類基礎(chǔ)上的理論,它的誕生就是為了解決不精確和不確定知識的問題。粗糙集方法在處理不確定問題時不需要先驗信息,而且能在保留信息的前提下有效的對知識約簡,算法也比較簡單。該方法可以和神經(jīng)網(wǎng)絡(luò)方法結(jié)合起來使用,能有效加快神經(jīng)網(wǎng)絡(luò)的收斂速度。粗糙集方法在很多領(lǐng)域中已經(jīng)得到了廣泛應(yīng)用,而且自身也處于不斷發(fā)展之中。

        (4)模糊集方法。模糊集也是一種研究模糊現(xiàn)象的方法。它以模糊數(shù)學(xué)為基礎(chǔ),通過建立隸屬函數(shù)來對問題進(jìn)行模糊評判和分析。模糊集方法目前已經(jīng)解決了很多傳統(tǒng)理論無法解決的問題,并且取得了良好的效果,模糊集方法的主要缺點是在需要提高精度的時候,必然會降低決策速度,甚至在一些復(fù)雜的系統(tǒng)中無法取得滿意的結(jié)果。

        (5)決策樹方法。決策樹是通過樹狀圖來表示思考決策的過程,本質(zhì)上決策樹是用于處理無規(guī)則數(shù)據(jù)的分類規(guī)則方法。該方法特別適合處理大規(guī)模的數(shù)據(jù),從中找到人們希望得到的有用信息。決策樹描述比較簡單,而且擁有較快的分類速度。但它也有對閾值比較敏感的缺點,學(xué)者們也正在致力于它的改進(jìn)之中,以期獲得更好的效果。

        (6)統(tǒng)計分析方法。統(tǒng)計分析指的是通過建立數(shù)學(xué)模型來研究數(shù)據(jù)、字段之間存在的關(guān)系和規(guī)律,從而得出有用的、定量的結(jié)論。它可以揭示數(shù)據(jù)中的邏輯關(guān)系和數(shù)量關(guān)系,對比分析、回歸分析、結(jié)構(gòu)分析、相關(guān)分析等都是較為常用的分析方法。

        3數(shù)據(jù)分析

        根據(jù)不同的分析任務(wù)可選擇不同的數(shù)據(jù)分析方法。數(shù)據(jù)本身是冰冷的、枯燥的,要想讓數(shù)據(jù)變得生動,易于分析,可以利用圖形圖像處理、計算機(jī)視覺等技術(shù),通過把數(shù)據(jù)轉(zhuǎn)化為圖表、三維動畫等形式來便于對數(shù)據(jù)加以進(jìn)一步的分析.由于大數(shù)據(jù)的特點可以直觀地呈現(xiàn)出來,因此人們可以更容易地從中獲取更多有用的信息。當(dāng)前,大數(shù)據(jù)分析可以利用Hadoop平臺。Hadoop框架最核心的就是一個分布式文件系統(tǒng)(HDFS)和一個分布式計算系統(tǒng)(MapReduce)。HDFS可以讓多臺計算機(jī)協(xié)同工作,數(shù)據(jù)吞吐量大,而且具備較高的容錯性。該系統(tǒng)對計算機(jī)硬件要求不高,它在大規(guī)模數(shù)據(jù)處理領(lǐng)域有廣泛而深遠(yuǎn)的意義。MapReduce本質(zhì)上是一種并行運(yùn)算的編程模型,它通過映射和規(guī)約的思想來應(yīng)對海量的數(shù)據(jù)處理和分析。MapReduce把復(fù)雜的任務(wù)分解成若干個簡單的任務(wù)來處理,然后對前面的結(jié)果進(jìn)行匯總。由于這種”分而治之”的思想,使得MapReduce擅長處理大數(shù)據(jù)。

        4結(jié)束語

        數(shù)據(jù)挖掘和分析技術(shù)多種多樣,文中介紹了常用的一些方法。每種方法都有自己的優(yōu)勢,同時也有局限性。在實際應(yīng)用中,需要結(jié)合實際情況,選擇適合的一種方法或者把幾種方法結(jié)合起來使用,才能取得滿意的效果。

        參考文獻(xiàn)

        [1]程學(xué)旗,靳小龍,王元卓.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25(9):1889- 1908.

        [2 ]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版),2014,48(6):957- 969.

        [3]楊舒林,智能分析技術(shù)發(fā)展現(xiàn)狀及應(yīng)用[J]中國公共安全,2015.08(14):207- 209.

        [4]劉正濤,王建東.Web數(shù)據(jù)空間技術(shù)研究[J]計算機(jī)工程與應(yīng)用,2012{7):12-17.

        猜你喜歡
        數(shù)據(jù)分析數(shù)據(jù)挖掘大數(shù)據(jù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        Excel電子表格在財務(wù)日常工作中的應(yīng)用
        淺析大數(shù)據(jù)時代背景下的市場營銷策略
        新常態(tài)下集團(tuán)公司內(nèi)部審計工作研究
        中國市場(2016年36期)2016-10-19 04:31:23
        淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        亚洲综合中文字幕日韩| 久久精品国产免费观看99| AV无码专区亚洲AVL在线观看 | 午夜国产精品一区二区三区| 草逼动态图视频免费观看网站| 国产尤物av尤物在线观看| 国自产偷精品不卡在线| 亚洲午夜久久久精品国产| 亚洲天堂久久午夜福利| 无码人妻精品一区二区蜜桃网站| 国产精品白浆一区二小说| 产精品无码久久_亚洲国产精| 人妻有码av中文幕久久| 人妻av无码一区二区三区| 亚洲精品永久在线观看| 69搡老女人老妇女老熟妇| 亚洲综合在线观看一区二区三区| 国产精品刮毛| 欧美日韩不卡中文字幕在线| 蜜臀av人妻一区二区三区| 国产精品无码久久久久久久久作品| 国产在线视频一区二区三区| 亚洲国产精品无码aaa片| 大香伊蕉国产av| 亚洲片在线视频| 91成人国产九色在线观看| 日韩女优av一区二区| 中文字幕久久精品一二三区| 伊人久久亚洲综合影院首页| 亚洲av大片在线免费观看| 粉嫩小泬无遮挡久久久久久| 欧美粗大无套gay| 天堂岛国精品在线观看一区二区| 人妻久久一区二区三区| 亚洲人精品亚洲人成在线| 亚洲 国产 哟| 性色国产成人久久久精品二区三区| 中文人妻熟女乱又乱精品| 日本免费人成视频播放| 白白青青视频在线免费观看| 国产亚洲精品色婷婷97久久久|