亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究

        2017-04-06 01:39:45張紹成孫時光
        關(guān)鍵詞:數(shù)據(jù)挖掘分類研究

        張紹成,孫時光,曲 洋,董 宇

        (1.遼寧大學(xué) 信息化中心,遼寧 沈陽 110036; 2.遼寧大學(xué) 創(chuàng)新創(chuàng)業(yè)學(xué)院,遼寧 沈陽 110036)

        大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究

        張紹成1,孫時光2*,曲 洋1,董 宇1

        (1.遼寧大學(xué) 信息化中心,遼寧 沈陽 110036; 2.遼寧大學(xué) 創(chuàng)新創(chuàng)業(yè)學(xué)院,遼寧 沈陽 110036)

        隨著Web2.0時代的到來,數(shù)據(jù)量呈幾何級態(tài)勢增長.這些海量的數(shù)據(jù)不僅結(jié)構(gòu)多樣,而且體現(xiàn)出動態(tài)性極強的特點.以往應(yīng)用于小規(guī)模數(shù)據(jù)集上的機器學(xué)習(xí)算法已經(jīng)不再適用.大數(shù)據(jù)概念引起了學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注.對當(dāng)前大數(shù)據(jù)環(huán)境下引入機器學(xué)習(xí)的意義進行了分析,論述了機器學(xué)習(xí)系統(tǒng)的構(gòu)成及任務(wù),并對其發(fā)展趨勢與前景進行了展望.

        大數(shù)據(jù);機器學(xué)習(xí);數(shù)據(jù)挖掘;大數(shù)據(jù)處理

        0 引言

        大數(shù)據(jù)呈現(xiàn)出4V特點,即價值密度低、 數(shù)據(jù)容量大、 數(shù)據(jù)種類多以及數(shù)據(jù)處理速度較快等.經(jīng)典的數(shù)據(jù)挖掘算法是機器學(xué)習(xí)算法在數(shù)據(jù)集合上的優(yōu)化.從提取、檢索、儲存、分享、分析和處理等角度來看,傳統(tǒng)經(jīng)典的機器學(xué)習(xí)方法已經(jīng)無法勝任在海量的異構(gòu)數(shù)據(jù)體系中進行數(shù)據(jù)挖掘.研究大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)算法,利用機器來挖掘復(fù)雜、高維、動態(tài)的數(shù)據(jù)中有價值的知識具有重要的意義[1].

        1 機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用

        由于數(shù)據(jù)挖掘是一個復(fù)雜的迭代過程.通過在數(shù)據(jù)集上不斷地循環(huán)處理,最終得到有意義的知識或模式.這就要求我們充分利用計算機計算和存儲上的優(yōu)勢[2].

        機器學(xué)習(xí)是人工智能的一個重要研究領(lǐng)域,目標(biāo)是使計算機具有自我學(xué)習(xí)能力,從而使計算機的處理數(shù)據(jù)的性能得到不斷的改進和提高. Tom Mitchell給出了一個能被廣泛接受的經(jīng)典定義——機器學(xué)習(xí)這門學(xué)科所關(guān)注的問題是:計算機程序如何隨著經(jīng)驗積累自動提高性能.

        機器學(xué)習(xí)算法應(yīng)用在歷史數(shù)據(jù)集上,通過訓(xùn)練來使計算機獲得智能.機器學(xué)習(xí)系統(tǒng)一般由環(huán)境、學(xué)習(xí)元、知識庫和執(zhí)行元四個部分組成,如圖1所示.

        圖1 機器學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖

        學(xué)習(xí)元從數(shù)據(jù)集,也就是從環(huán)境中獲取經(jīng)驗數(shù)據(jù),通過對環(huán)境中的數(shù)據(jù)進行處理來更新知識庫.這將使系統(tǒng)的執(zhí)行元的性能得到改進.執(zhí)行元根據(jù)知識庫中的內(nèi)容,對系統(tǒng)的執(zhí)行效果進行檢驗,并擴展或修改知識庫中的知識或模式,使其中的內(nèi)容不斷地改進和完善.經(jīng)過調(diào)整后,知識庫中的內(nèi)容可以作為下次迭代學(xué)習(xí)的指導(dǎo).這樣的學(xué)習(xí)過程一般要循環(huán)進行多次.知識庫隨著學(xué)習(xí)的進行,不斷地充實,計算機將越來越智能,執(zhí)行任務(wù)的性能將會越來越高效.

        整個機器學(xué)習(xí)系統(tǒng)的核心是知識庫.知識庫中的知識要豐富且容易被計算機理解,同時還要兼顧方便擴展和便于修改等多方面要求.

        另外,機器學(xué)習(xí)系統(tǒng)首先要有一定的知識儲備,這樣才可以指導(dǎo)系統(tǒng)對外部數(shù)據(jù)進行處理,對一些假設(shè)進行檢驗.

        2 數(shù)據(jù)挖掘中機器學(xué)習(xí)任務(wù)分類

        通過應(yīng)用機器學(xué)習(xí),數(shù)據(jù)挖掘?qū)?shù)據(jù)的處理方法可以分為:分類、回歸分析、關(guān)聯(lián)規(guī)則及聚類等,而且每種挖掘方法都可以通過不同的機器學(xué)習(xí)技術(shù)來實現(xiàn).

        2.1 分類 (Classification)

        利用訓(xùn)練數(shù)據(jù)集進行學(xué)習(xí),從而獲得一個分類模型.然后,分類模型可自動地將不具有類別標(biāo)簽的數(shù)據(jù)分成多個類別,從而完成分類.已有的機器學(xué)習(xí)分類算法包括KNN分類算法,樸素貝葉斯分類算法、決策樹、人工神經(jīng)網(wǎng)絡(luò)ANN以及支持向量SVM等.典型的分類過程如圖2所示.

        2.2 回歸分析(Regression analysis)

        通過分析數(shù)據(jù)并應(yīng)用統(tǒng)計學(xué)方法,可以得到變量與變量之間的關(guān)系表達(dá)式.利用這些內(nèi)在規(guī)律,對未來趨勢進行估計和預(yù)測.可通過回歸樹、人工神經(jīng)網(wǎng)絡(luò)ANN、線性回歸、logic回歸等構(gòu)建回歸模型.

        2.3 關(guān)聯(lián)規(guī)則(Association rules)

        事務(wù)型數(shù)據(jù)彼此之間存在著關(guān)聯(lián)規(guī)則,通過挖掘事務(wù)型數(shù)據(jù)之間的關(guān)系,可獲得頻繁項目集.以此為依據(jù),預(yù)測某些事務(wù)同時發(fā)生的概率.Apriori是挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法.

        2.4 聚類(Clustering)

        通過使用挖掘算法,將多個不具有類別標(biāo)號的數(shù)據(jù)對象聚集在多個不同的簇當(dāng)中,使得簇內(nèi)的數(shù)據(jù)對象彼此之間具有很高的相似性,簇間的數(shù)據(jù)對象彼此之間具有很大的相異性.k-means是經(jīng)典的聚類算法.此外,人工神經(jīng)網(wǎng)絡(luò)ANN和支持向量SVM也可實現(xiàn)聚類.

        圖2 機器學(xué)習(xí)中分類任務(wù)流程圖

        3 機器學(xué)習(xí)在大數(shù)據(jù)處理應(yīng)用中的優(yōu)勢

        由于傳統(tǒng)的機器學(xué)習(xí)算法大多是基于內(nèi)存的,而TB甚至PB級的海量數(shù)據(jù)又無法裝載進計算機內(nèi)存,因此,現(xiàn)有的諸多算法不能處理大數(shù)據(jù).如何使機器學(xué)習(xí)算法適應(yīng)大數(shù)據(jù)挖掘的要求,已經(jīng)成為產(chǎn)業(yè)界與學(xué)術(shù)界研究的主要方向[3].

        在大數(shù)據(jù)環(huán)境下,機器學(xué)習(xí)算法的設(shè)計與實現(xiàn)涉及很多方面,包括分布式運算、數(shù)據(jù)流技術(shù)、云技術(shù)等.機器學(xué)習(xí)算法通過與這些技術(shù)相結(jié)合,高效地處理數(shù)以億計的數(shù)據(jù)對象,并快速地訓(xùn)練出模型,從而獲取有價值的知識.機器學(xué)習(xí)技術(shù)已經(jīng)在推薦系統(tǒng)、智能語音識別、搜索引擎等企業(yè)級的數(shù)據(jù)挖掘中得到廣泛應(yīng)用.大數(shù)據(jù)發(fā)展和研究、關(guān)鍵技術(shù)、評定指標(biāo)對機器學(xué)習(xí)的方法研究工作提出了新的挑戰(zhàn)和要求[4].

        4 結(jié)束語

        目前,大數(shù)據(jù)技術(shù)已在金融、電信、醫(yī)療等眾多行業(yè)和領(lǐng)域中得到廣泛應(yīng)用.如何從高維、稀疏、異構(gòu)、動態(tài)的大數(shù)據(jù)中獲取模式,迫切需要深層次的機器學(xué)習(xí)理論與技術(shù)做指導(dǎo).因此,可以預(yù)見未來的機器學(xué)習(xí)研究將在以下幾方面展開[5-6].1)超高維數(shù)據(jù)抽樣與特征提取.2)借助Hadoop、Spark等分布式運算平臺,設(shè)計和實現(xiàn)分布式機器學(xué)習(xí)算法.3)對機器學(xué)習(xí)算法的泛化能力、執(zhí)行效率及可理解性等方面的研究.

        [1] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012.

        [2] 李運.機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[D].北京:北京郵電大學(xué), 2014.

        [3] 梁曉音.機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用[J].計算機與信息技術(shù),2008(11): 38-39,42.

        [4] 王曉.大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)算法趨勢研究[J].哈爾濱師范大學(xué)學(xué)報:自然科學(xué)版, 2013(4): 48-50.

        [5] 何清.大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J].模式識別與人工智能,2014(4): 327-336.

        [6] Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.

        (責(zé)任編輯 鄭綏乾)

        Research and Application of Machine Learning in Data Mining Based on Big Data

        ZHANG Shao-cheng1,SUN Shi-guang2*,QU Yang1,DONG Yu1

        (1.InformatizationCenter,LiaoningUniversity,Shenyang110036,China; 2.CollegeofInnovationandEntrepreneurship,LiaoningUniversity,Shenyang110036,China)

        With the advent of the Web2.0 era,the amount of data increased geometrically.These massive amounts of data are not only structurally diverse,but also show a strong dynamic characteristics.In the past,machine learning algorithms applied to small-scale data sets are no longer applicable.The concept of big data has aroused great interests in academia and industry.In this paper,the significance of introducing machine learning into big data environment is analyzed,as well as its composition and main tasks.Development trend and prospect of machine learning are also discussed.

        big data;machine learning;data mining;big data processing

        2016-12-30

        張紹成(1967-),男,碩士, 遼寧大學(xué)信息化中心高級實驗師,研究方向:機器學(xué)習(xí).

        *通訊作者:孫時光(1979-),男,碩士,遼寧大學(xué)創(chuàng)新創(chuàng)業(yè)學(xué)院實驗師,研究方向:數(shù)據(jù)挖掘.

        TP 181

        A

        1000-5846(2017)01-0015-03

        猜你喜歡
        數(shù)據(jù)挖掘分類研究
        FMS與YBT相關(guān)性的實證研究
        遼代千人邑研究述論
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        中文无码精品一区二区三区| 国产精品亚洲av三区亚洲| 少妇中文字幕乱码亚洲影视| 少妇厨房愉情理伦片免费| 亚洲男人堂色偷偷一区| 青青草成人免费播放视频| 女人无遮挡裸交性做爰| 无遮无挡爽爽免费毛片| 无码人妻AⅤ一区 二区 三区| 中文字幕精品乱码一二三区| 免费在线观看av不卡网站| 一本无码av中文出轨人妻| 精品久久久久久无码中文野结衣| 7m精品福利视频导航| 亚洲中文字幕无码中字| 精品 无码 国产观看| 亚洲天堂av免费在线| 婷婷久久国产综合精品| 97人妻碰碰视频免费上线| 国产99页| 91久久大香伊蕉在人线国产| 丰满熟妇人妻av无码区| 亚洲最大av资源站无码av网址| 亚洲成AV人久久| 丝袜美腿人妻第一版主| 亚洲熟妇久久国产精品| 91国际视频| 日本熟妇免费一区二区三区| 午夜无码一区二区三区在线观看| 久久久久久久久888| 亚洲一区不卡在线导航| 男女av免费视频网站| 日韩精品无码熟人妻视频| 久久老子午夜精品无码怎么打| 中文字幕天天躁日日躁狠狠| 99久久婷婷亚洲综合国产| 不卡一卡二卡三乱码免费网站| 国产精品一区二区电影| 一本久道视频无线视频试看| 亚洲youwu永久无码精品| www国产亚洲精品久久网站|