亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展

        2018-03-04 07:03:20唐云凱王芳劉淑英
        電腦知識(shí)與技術(shù) 2018年36期
        關(guān)鍵詞:海量數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)討論

        唐云凱 王芳 劉淑英

        摘要:我國(guó)的信息技術(shù)水平不斷提升,海量數(shù)據(jù)的復(fù)雜性與多樣性對(duì)數(shù)據(jù)挖掘形成了較大困難?;诖髷?shù)據(jù)環(huán)境下,為了更深入、充分地掌握是數(shù)據(jù)挖掘相關(guān)技術(shù)的研究進(jìn)展與應(yīng)用,可以從海量數(shù)據(jù)挖掘過(guò)程的技術(shù)框架、算法、理論、模式等方面進(jìn)行嘗試。綜上所述,該文將對(duì)海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展進(jìn)行分析。

        關(guān)鍵詞:海量數(shù)據(jù);數(shù)據(jù)挖掘技術(shù);研究進(jìn)展;討論

        中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2018)36-0001-02

        數(shù)據(jù)挖掘的過(guò)程是在海量數(shù)據(jù)中追尋有趣模式與認(rèn)知的過(guò)程,利用海量數(shù)據(jù)挖掘技術(shù),可有效針對(duì)大數(shù)據(jù),從而在其中發(fā)現(xiàn)有用的信息與知識(shí)。針對(duì)海量數(shù)據(jù),采用傳統(tǒng)的分類算法、關(guān)聯(lián)分析、聚類分析等數(shù)據(jù)挖掘技術(shù)顯然有些無(wú)力,因此為了提取與挖掘更多有價(jià)值的數(shù)據(jù),是人們對(duì)大數(shù)據(jù)進(jìn)行研究的主要目的。

        1 海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展及問(wèn)題

        1.1 海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展

        1.1.1 云計(jì)算與MapReudce

        Google公司早在2006年就已經(jīng)提出了海量Web數(shù)據(jù)的云計(jì)算,可將其定義為將經(jīng)濟(jì)與拓展性作為基礎(chǔ)的超大規(guī)模數(shù)據(jù)分布式模式,利用互聯(lián)網(wǎng)將虛擬、抽象的數(shù)據(jù)進(jìn)行計(jì)算、資源存儲(chǔ),最后通過(guò)平臺(tái)與服務(wù)對(duì)外部的客戶進(jìn)行傳遞。在Google的內(nèi)部,海量數(shù)據(jù)的處理計(jì)算與應(yīng)用平臺(tái)都采用了云計(jì)算的方式,其中較為典型的海量數(shù)據(jù)挖掘技術(shù)為GFS(Google file system)、MapReduce、對(duì)海量數(shù)據(jù)進(jìn)行處理的Hadoop平臺(tái)。在Hadoop平臺(tái)中較為核心的部分是MapReduce編程模式與文件分布式系統(tǒng)。這種編程模式在2004年由計(jì)算機(jī)專家Dean與Ghemawat共同提出,目前已經(jīng)開始被廣泛應(yīng)用在海量數(shù)據(jù)挖掘過(guò)程中。一般來(lái)說(shuō)編程模式在對(duì)海量數(shù)據(jù)進(jìn)行處理時(shí),會(huì)經(jīng)過(guò)兩個(gè)階段:Map與Reduce階段,無(wú)論哪個(gè)階段的運(yùn)行都會(huì)運(yùn)用key-value模式對(duì)數(shù)據(jù)進(jìn)行輸入與輸出。在Map階段進(jìn)行處理時(shí),HDFS即分布式文件系統(tǒng)將大量的數(shù)據(jù)進(jìn)行分割,成為split塊,之后為其每一個(gè)都創(chuàng)建獨(dú)立的Mapper,利用相應(yīng)的Map函數(shù)處理之后,選取出相同key的數(shù)據(jù)傳遞到Reduce任務(wù)中,之后將海量數(shù)據(jù)重新進(jìn)行整合,再對(duì)其進(jìn)行細(xì)致化的處理。

        1.1.2 算法領(lǐng)域

        算法領(lǐng)域作為海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)中的研究重點(diǎn),在2006年召開的ICDM回憶中,已經(jīng)選出了較為常用的十種數(shù)據(jù)挖掘算法。其中包含分類算法、聚類算法等。但這種傳統(tǒng)的算法并不能對(duì)海量數(shù)據(jù)合理處置。為了使傳統(tǒng)算法更加高效,可使用經(jīng)典的數(shù)據(jù)挖掘算法與MapReduce以框架的形式互相結(jié)合[1],例如對(duì)關(guān)聯(lián)規(guī)則進(jìn)行并行、聚類算法并行等方式,通過(guò)廣大學(xué)者的不斷研究與實(shí)踐,已經(jīng)取得了較為可觀的成果。除了對(duì)各類算法領(lǐng)域的研究,還包含了多種相關(guān)理論,第一,統(tǒng)計(jì)分析理論。在早先的海量數(shù)據(jù)挖掘理論基礎(chǔ)中,主要包含數(shù)據(jù)回歸分析、因子分析等方面。事件有較大的隨機(jī)性,不能夠利用概率模型進(jìn)行有效處理。但在實(shí)際中的海量數(shù)據(jù)中,由于其具備較強(qiáng)的模糊性,尤其針對(duì)海量數(shù)據(jù)的多樣性特點(diǎn),不能夠利用傳統(tǒng)的精確處理,因此模糊數(shù)學(xué)理論等相關(guān)理論可發(fā)揮出極大優(yōu)勢(shì)。第二,模糊數(shù)學(xué)理論。模糊數(shù)學(xué)理論作為有效的不確定性數(shù)據(jù)的處理方式,尤其對(duì)于海量數(shù)據(jù)進(jìn)行處理時(shí),可以發(fā)揮良好的應(yīng)用效果。

        1.2 海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)存在問(wèn)題

        1.2.1 相關(guān)技術(shù)架構(gòu)問(wèn)題

        在對(duì)海量數(shù)據(jù)進(jìn)行挖掘的過(guò)程中,需要在不同的領(lǐng)域進(jìn)行架構(gòu),由于不同領(lǐng)域存在較大的差異性與特殊性,對(duì)架構(gòu)形成了極大的挑戰(zhàn)。例如在農(nóng)業(yè)的海量數(shù)據(jù)中,包含大量的農(nóng)業(yè)基本資源如耕地、田地等,農(nóng)業(yè)生產(chǎn)方面如育種、施肥等。在對(duì)農(nóng)業(yè)中海量數(shù)據(jù)進(jìn)行挖掘與處理時(shí),面臨災(zāi)害風(fēng)險(xiǎn)預(yù)測(cè)、糧食安全等多方面問(wèn)題。與此同時(shí),在構(gòu)建農(nóng)業(yè)云計(jì)算平臺(tái)時(shí),需要獲得計(jì)算機(jī)技術(shù)的相關(guān)支持,還需要大量的農(nóng)業(yè)經(jīng)驗(yàn)與農(nóng)業(yè)知識(shí),地方政府也要提供相應(yīng)的支持,為農(nóng)業(yè)的云計(jì)算平臺(tái)構(gòu)建形成較大難度與挑戰(zhàn)。

        1.2.2 數(shù)據(jù)獲取

        海量數(shù)據(jù)挖掘需要將數(shù)據(jù)的獲取與收集當(dāng)作基礎(chǔ),目前常用的數(shù)據(jù)收集方法為數(shù)據(jù)檢索,例如人們常用的Google、百度、傳感器技術(shù)[2]、條形碼技術(shù)等。但基于大數(shù)據(jù)時(shí)代的背景下,雖然數(shù)據(jù)的數(shù)量極為龐大,還是會(huì)經(jīng)常出現(xiàn)無(wú)有效數(shù)據(jù)可用的窘迫情況,如數(shù)據(jù)壁壘問(wèn)題、取得關(guān)聯(lián)背景數(shù)據(jù)較為困難等,都對(duì)海量數(shù)據(jù)的挖掘形成阻礙。

        1.2.3 用戶隱私與安全

        在目前經(jīng)常會(huì)出現(xiàn)用戶隱私泄露的問(wèn)題,不僅會(huì)對(duì)用戶形成較大的困擾,也會(huì)形成較多的虛假數(shù)據(jù)從而降低數(shù)據(jù)的分析效果。因此在海量數(shù)據(jù)挖掘過(guò)程中用戶的隱私與安全問(wèn)題亟待解決,主要是由于技術(shù)本身存在缺陷,且沒(méi)有構(gòu)建有效、科學(xué)的數(shù)據(jù)管理機(jī)制,造成用戶隱私泄露。

        1.2.4 數(shù)據(jù)處理

        在獲取數(shù)據(jù)之后會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,例如數(shù)據(jù)清洗、數(shù)據(jù)融合、數(shù)據(jù)分析等技術(shù)。其中數(shù)據(jù)的清洗尤為關(guān)鍵,在2014年我國(guó)召開的數(shù)據(jù)技術(shù)大會(huì)中,有學(xué)者提出了數(shù)據(jù)記錄邏輯檢測(cè)辦法、大數(shù)據(jù)清洗過(guò)程優(yōu)化等相關(guān)控制模型,增強(qiáng)了數(shù)據(jù)處理的效果與效率。但在數(shù)據(jù)清洗之后會(huì)進(jìn)行數(shù)據(jù)的分析,會(huì)產(chǎn)生時(shí)效性的問(wèn)題,由于數(shù)據(jù)清洗有時(shí)不會(huì)及時(shí)完成,從而對(duì)數(shù)據(jù)挖掘的效果產(chǎn)生不利影響。

        2 海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)的處理思維

        在對(duì)海量數(shù)據(jù)進(jìn)行處理時(shí)會(huì)存在較多問(wèn)題,為了增強(qiáng)海量數(shù)據(jù)挖掘過(guò)程的相關(guān)技術(shù)水平,應(yīng)采用合理的海量數(shù)據(jù)處理思維即大數(shù)據(jù)與腦科學(xué),采用人腦的思考方式可以加強(qiáng)大數(shù)據(jù)的處理效果。第一,深度學(xué)習(xí)。進(jìn)行深度學(xué)習(xí)時(shí),需要對(duì)人腦的思考機(jī)制進(jìn)行模仿與學(xué)習(xí)?;诖髷?shù)據(jù)的環(huán)境下,使用深度學(xué)習(xí)可對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確分析,并使人工智能獲得有效處理,也會(huì)對(duì)傳統(tǒng)的思維按時(shí)進(jìn)行改變。無(wú)論是大數(shù)據(jù)與簡(jiǎn)單模型還是大數(shù)據(jù)與深度學(xué)習(xí),目前大部分學(xué)者都認(rèn)為基于大數(shù)據(jù)的背景下,利用簡(jiǎn)單的線性模型要好于復(fù)雜的模型。然而從人腦的思考模式來(lái)看,其機(jī)理與機(jī)制都可以從大數(shù)據(jù)挖掘過(guò)程中取得有效成果,利用模擬人腦的思考方式以及學(xué)習(xí)方式,可以獲得更多、更有效的信息數(shù)據(jù)。例如在“Google Brain”研究的項(xiàng)目(http:en.wikipedia.org/wiki/Google_Brain)[3]便可以看出。在機(jī)器學(xué)領(lǐng)域的關(guān)鍵人物Hinton與其學(xué)生Salakhutdinov對(duì)深度學(xué)習(xí)做出的巨大貢獻(xiàn),這種方式也在學(xué)術(shù)界與工業(yè)界掀起了深度學(xué)習(xí)的潮流。第二,認(rèn)知計(jì)算。在對(duì)海量數(shù)據(jù)進(jìn)行挖掘處理的過(guò)程可以將其看作為認(rèn)知過(guò)程。將數(shù)據(jù)進(jìn)行轉(zhuǎn)化、收集、計(jì)算、分析、表達(dá),從而形成預(yù)估與決定,這便是標(biāo)準(zhǔn)的認(rèn)識(shí)模式。但在人進(jìn)行認(rèn)知時(shí)候還會(huì)包含心智等方面的問(wèn)題,例如情商、感受、信仰等,因此在對(duì)海量數(shù)據(jù)進(jìn)行認(rèn)知計(jì)算以及相關(guān)研究時(shí),需要包含以下多個(gè)方面:首先需要考慮認(rèn)知能否被計(jì)算??梢员磉_(dá)為人腦的認(rèn)知是否可以用具體的公式或模式進(jìn)行表現(xiàn)。在我國(guó)舉辦的第八屆Web智能學(xué)術(shù)研討會(huì)中,任福繼教授為人們展示了情感交互智能機(jī)器人,通過(guò)實(shí)踐完全可以說(shuō)明認(rèn)知可以利用計(jì)算的方式進(jìn)行,至少在局部是可以進(jìn)行計(jì)算的。其次應(yīng)考慮認(rèn)知應(yīng)該怎樣計(jì)算。其方式可以包含對(duì)數(shù)據(jù)的提取、心智局部表現(xiàn)、等方面。最后應(yīng)考慮知識(shí)的全部相對(duì)性。對(duì)于人腦的學(xué)習(xí)過(guò)程來(lái)說(shuō),數(shù)據(jù)的量無(wú)論是多還是少都可定義為相對(duì)應(yīng)的概念,如果環(huán)境出現(xiàn)變化,會(huì)對(duì)心智造成影響。因此需要在不斷增加的數(shù)據(jù)量與環(huán)境變化中汲取知識(shí),采用計(jì)算認(rèn)知的方式,構(gòu)建嶄新的理論與實(shí)踐模型。

        3 結(jié)束語(yǔ)

        基于大數(shù)據(jù)環(huán)境下,海量數(shù)據(jù)的挖掘過(guò)程以及相關(guān)技術(shù)不僅存在巨大價(jià)值,也面臨著險(xiǎn)峻的挑戰(zhàn)。希望在廣大的學(xué)者與研發(fā)人員不斷努力、實(shí)踐下,可以構(gòu)建出更加完善、科學(xué)的大數(shù)據(jù)管理機(jī)制與計(jì)算模型,凸顯大數(shù)據(jù)的真正價(jià)值,為人們的生活、社會(huì)的發(fā)展提供有效的數(shù)據(jù)服務(wù)。

        參考文獻(xiàn):

        [1] 米允龍,米春橋,劉文奇. 海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué)與探索,2015,9(6):641-659.

        [2] 尹洪.基于數(shù)據(jù)驅(qū)動(dòng)的衛(wèi)星故障診斷關(guān)鍵技術(shù)研究[D].國(guó)防科學(xué)技術(shù)大學(xué),2015.

        [3] 何超. 基于數(shù)據(jù)挖掘的企業(yè)競(jìng)爭(zhēng)情報(bào)智能分析研究[D].武漢大學(xué),2014.

        [通聯(lián)編輯:唐一東]

        猜你喜歡
        海量數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)討論
        基于HADOOP集群的數(shù)據(jù)采集和清洗
        軟件工程(2016年11期)2017-01-17 17:05:51
        基于Web的數(shù)據(jù)挖掘技術(shù)與相關(guān)研究
        商業(yè)銀行海量金融數(shù)據(jù)分析中數(shù)據(jù)分析技術(shù)的實(shí)踐探究
        海量數(shù)據(jù)庫(kù)的設(shè)計(jì)與優(yōu)化
        數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)中的應(yīng)用
        數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用
        基于南京地鐵AFC系統(tǒng)的數(shù)據(jù)挖掘
        基于hadoop平臺(tái)海量數(shù)據(jù)的快速查詢與實(shí)現(xiàn)
        試論基層電力市場(chǎng)營(yíng)銷策略
        水庫(kù)灌區(qū)灌溉管理工作存在的問(wèn)題研究
        商情(2016年11期)2016-04-15 22:14:37
        国产精品99久久久久久宅男| 白浆国产精品一区二区| 国产黄大片在线观看画质优化| 午夜福利92国语| 国产AV无码专区亚洲AV桃花庵| 少妇人妻出水中文字幕乱码| 日本一二三区在线观看视频| 国产盗摄xxxx视频xxxx| 日本中文字幕在线播放第1页| 亚洲av套图一区二区| 青青草视频在线观看网| 被三个男人绑着躁我好爽视频 | 亚洲一区极品美女写真在线看| 偷拍色图一区二区三区| 人人妻人人澡人人爽欧美精品| 激情五月婷婷综合| 精品女同一区二区三区免费播放| 末成年人av一区二区| 亚洲男人的天堂网站| 亚洲黄色性生活一级片| 久久少妇高潮免费观看| 97se狠狠狠狠狼鲁亚洲综合色| 综合久久给合久久狠狠狠97色| 日本一区二区国产高清在线播放| 二区免费在线视频观看| 无码av天堂一区二区三区 | 国产av大片在线观看| 在线观看国产白浆一区三区| 国产三区在线成人av| 911香蕉视频| 日本超骚少妇熟妇视频| 亚洲精品国偷拍自产在线| 无尽动漫性视频╳╳╳3d| www.尤物视频.com| 亚洲国产丝袜久久久精品一区二区| 国产精品午夜爆乳美女视频| 在线免费欧美| 天涯成人国产亚洲精品一区av| 亚洲日韩av一区二区三区中文| 国产手机在线αⅴ片无码| 亚洲色图偷拍自拍亚洲色图|