亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘及應(yīng)用

        2016-05-14 09:40:35孫勤紅沈鳳仙
        電子技術(shù)與軟件工程 2016年6期
        關(guān)鍵詞:數(shù)據(jù)挖掘大數(shù)據(jù)

        孫勤紅 沈鳳仙

        摘 要當(dāng)今時(shí)代,信息技術(shù)為人類步入智能社會(huì)開啟了大門,同時(shí)也帶動(dòng)了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務(wù)、現(xiàn)代物流和網(wǎng)絡(luò)金融等現(xiàn)代服務(wù)業(yè)的發(fā)展。由于網(wǎng)絡(luò)信息的廣泛使用,使得各種業(yè)務(wù)數(shù)據(jù)正以幾何級(jí)數(shù)的形式爆發(fā),其格式、收集、存儲(chǔ)、分析和應(yīng)用等諸多問題有待解決。大數(shù)據(jù)具有了volume、velocity、variety和variety四個(gè)特征。2011年5月,麥肯錫全球研究院發(fā)布題為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》的報(bào)告,正式提出了“大數(shù)據(jù)”的概念。在大數(shù)據(jù)時(shí)代背景下,應(yīng)該如何在原有的數(shù)據(jù)挖掘技術(shù)下實(shí)現(xiàn)更好的數(shù)據(jù)處理和應(yīng)用也稱為一個(gè)迫切解決的問題。大數(shù)據(jù)的體量和流量注定傳統(tǒng)的數(shù)據(jù)挖掘算法,尤其是基于單機(jī)迭代的實(shí)現(xiàn)模式是無法滿足大數(shù)據(jù)所要求的高擴(kuò)展性和高時(shí)效性的。同時(shí)大數(shù)據(jù)的多元異構(gòu)也需要在數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換、存儲(chǔ)、關(guān)聯(lián)和展現(xiàn)等各個(gè)關(guān)鍵環(huán)節(jié)進(jìn)行調(diào)整。

        【關(guān)鍵詞】大數(shù)據(jù) 生物信息 知識(shí)提取 數(shù)據(jù)挖掘

        1 數(shù)據(jù)挖掘的功能

        數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中四棟搜索隱藏于其中的具有特殊關(guān)系性的信息過程。它是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)KDD中的一個(gè)步驟。知識(shí)發(fā)現(xiàn)KDD過程由以下3個(gè)階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表示和解釋。數(shù)據(jù)挖掘跟許多學(xué)科都交叉關(guān)聯(lián),包括數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、人工智能、云計(jì)算和可視化等。

        數(shù)據(jù)挖掘的實(shí)際應(yīng)用功能可分為三大類和六分項(xiàng):分類和聚類屬于分類去隔類;回歸和時(shí)間序列屬于推算預(yù)測類;關(guān)聯(lián)和序列則屬于序列規(guī)則類。分類常被用來根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測。聚類是將數(shù)據(jù)分群,其目的是找出群間的差異來,同時(shí)找出群內(nèi)成員間相似性。回歸是利用一系列的現(xiàn)有數(shù)值來預(yù)測一個(gè)數(shù)值的可能值。基于時(shí)間序列的預(yù)測與回歸功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測未來的數(shù)值。關(guān)聯(lián)是要找出在某一事件與數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。

        2 降維

        從降維的角度講,整個(gè)數(shù)據(jù)挖掘的過程就是一個(gè)降維的過程。在這個(gè)過程中,需要對(duì)數(shù)據(jù)刪除線性關(guān)系比較強(qiáng)的特征數(shù)據(jù),再用一些算法,如信號(hào)分析算法、傅里葉轉(zhuǎn)換、離散小波轉(zhuǎn)換等算法,從數(shù)據(jù)中提取特征,再對(duì)數(shù)據(jù)做主成分析處理,得到最后的特征,再用數(shù)據(jù)挖掘算法來將這些特征轉(zhuǎn)化為人類可讀取的數(shù)據(jù)或信息。

        3 分布式數(shù)據(jù)挖掘解決方案

        隨著分布式計(jì)算技術(shù)、云計(jì)算技術(shù)、hadoop生態(tài)圈和非結(jié)構(gòu)化數(shù)據(jù)庫等技術(shù)的發(fā)展,以及對(duì)大數(shù)據(jù)挖掘的需求,出現(xiàn)了一批分布式數(shù)據(jù)挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學(xué)伯克利分校AMP實(shí)驗(yàn)室推出的基于Spark的MLBase。在Mahout中主要實(shí)現(xiàn)3種類型的數(shù)據(jù)挖掘算法:分類、聚類(集群)和協(xié)同過濾。相比Mahout而言,MLbase更好的支持迭代計(jì)算,它把數(shù)據(jù)拆分成若干份,對(duì)每一份使用不同的算法和參數(shù)運(yùn)算出結(jié)果,看哪一種搭配方式得到的結(jié)果最優(yōu)。

        4 大數(shù)據(jù)下的具體應(yīng)用實(shí)例——生物信息學(xué)的應(yīng)用

        生物信息學(xué)(Bioinformatics)是生命科學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)和數(shù)學(xué)等學(xué)科交匯融合形成的一門交叉學(xué)科。近年來隨著先進(jìn)儀器裝備與信息技術(shù)等越來越廣泛和深入的整合到生物技術(shù)中來,生物醫(yī)學(xué)研究中越來越頻繁的涉及到大數(shù)據(jù)存儲(chǔ)和分析等信息技術(shù)。在使用計(jì)算機(jī)協(xié)助生物信息時(shí),處理僅有計(jì)算機(jī)輔助的方式存儲(chǔ)數(shù)據(jù)很顯然是不夠的,生物信息學(xué)研究的目的是運(yùn)用計(jì)算機(jī)強(qiáng)大的計(jì)算能力來加速生物數(shù)據(jù)的分析,理解數(shù)據(jù)中所包含的生物學(xué)意義。當(dāng)前生物信息學(xué)研究的熱點(diǎn)有:

        (1)由以序列分析為代表的組成分析轉(zhuǎn)向功能分析。

        (2)由對(duì)單個(gè)生物分子的研究轉(zhuǎn)向基因調(diào)控忘了等動(dòng)態(tài)信息的研究。

        (3)完整基因組數(shù)據(jù)分析。

        (4)綜合分析。

        生物信息數(shù)據(jù)具有如下特點(diǎn):高通量與大數(shù)據(jù)量;種類繁多,形式多樣;異構(gòu)性;網(wǎng)絡(luò)性與動(dòng)態(tài)性;高維;序列數(shù)據(jù)等特點(diǎn)[5]。針對(duì)這樣的生物數(shù)據(jù)信息,要結(jié)合當(dāng)前的大數(shù)據(jù)分析方法進(jìn)行分析和理解。當(dāng)前數(shù)據(jù)挖掘?qū)崿F(xiàn)對(duì)生物信息分析的支持主要有:生物數(shù)據(jù)的語義綜合,數(shù)據(jù)集成;開發(fā)生物信息數(shù)據(jù)挖掘工具;序列的相似性查找和比較;聚類分析;關(guān)聯(lián)分析,生物文獻(xiàn)挖掘等方面。

        參考文獻(xiàn)

        [1]許凡.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)探討[J].電子技術(shù)與軟件工程,2015(08).

        [2]洪松林.數(shù)據(jù)挖掘技術(shù)與工程實(shí)踐[M].北京:機(jī)械工業(yè)出版社,2014(11).

        [3]李榮.生物信息數(shù)據(jù)挖掘若干關(guān)鍵問題研究與應(yīng)用[D].復(fù)旦大學(xué)(博士論文),2004(11).

        [4]宋杰.生物信息數(shù)據(jù)挖掘中的若干方法及其應(yīng)用研究[D].大連理工大學(xué)(博士論文),2005(04).

        [5]孫勤紅.基于梯度采樣局部收斂的生物信息大數(shù)據(jù)挖掘[J].科技通報(bào),2015(10).

        作者簡介

        孫勤紅(1979-),女,山東省人?,F(xiàn)為三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院講師。研究方向?yàn)槿斯ぶ悄?、?shù)據(jù)挖掘。

        沈鳳仙(1984-),女,江蘇省人?,F(xiàn)供職于三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院。研究方向?yàn)閿?shù)據(jù)挖掘。

        作者單位

        三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院 江蘇省南京市 210000

        猜你喜歡
        數(shù)據(jù)挖掘大數(shù)據(jù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        亚洲人成网站免费播放| 日韩亚洲av无码一区二区不卡| 中文字幕一区在线观看视频| 中日av乱码一区二区三区乱码| 亚洲丁香婷婷综合久久小说| 老熟妻内射精品一区| 亚洲 欧美 唯美 国产 伦 综合 | 天天插视频| 亚洲精品高清av在线播放| 一区二区亚洲熟女偷拍| 亚洲一区二区三区99| 欧洲熟妇色xxxx欧美老妇性| 国产在线精品一区在线观看| 亚洲成在人线av| 亚洲av在线播放观看| 国产日韩精品视频一区二区三区| 成人大片免费在线观看视频| 日韩大片高清播放器大全| 人妻激情另类乱人伦人妻 | 国产亚洲精品A在线无码| 丰满人妻中文字幕乱码| 人妻精品人妻一区二区三区四区| 亚洲国产精品成人精品无码区在线| 亚洲乱码av中文一区二区| 亚洲乱码少妇中文字幕| 少妇人妻中文字幕在线| 自拍偷拍 视频一区二区| 国产精品无码久久综合| 久热综合在线亚洲精品| 青青草视频华人绿色在线| 国产另类人妖在线观看| 国产成人无码精品久久久免费| 亚洲色成人网站www永久四虎| 亚洲av日韩精品久久久久久 | 91精品国产色综合久久不 | 不卡一卡二卡三乱码免费网站| 一本大道无码av天堂| 免费中文熟妇在线影片| 国产精品黄色在线观看| 亚洲最全av一区二区| 国产台湾无码av片在线观看|