亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)與數(shù)據(jù)挖掘

        2014-04-29 00:44:03周斌斌
        電腦迷 2014年15期
        關(guān)鍵詞:海量處理大數(shù)據(jù)

        周斌斌

        摘 要 大數(shù)據(jù)指需要通過快速獲取、處理、分析以從中提取價(jià)值的海量、多樣化的交易數(shù)據(jù)、交互數(shù)據(jù)與傳感數(shù)據(jù)。所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時(shí)間內(nèi)完成信息的采集、處理、管理,并將其整理成為人類所能解讀的信息。通過對(duì)大數(shù)據(jù)的認(rèn)識(shí)和大數(shù)據(jù)帶來的機(jī)遇,因此數(shù)據(jù)挖掘?qū)Υ髷?shù)據(jù)的管理來說至關(guān)重要。通過數(shù)據(jù)挖掘,從大數(shù)據(jù)中找到關(guān)鍵信息,從而為我們帶來商機(jī)和社會(huì)價(jià)值。

        關(guān)鍵詞 web數(shù)據(jù)挖掘 大數(shù)據(jù) 海量 快速獲取 處理

        中圖分類號(hào):TP3 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

        當(dāng)今社會(huì)大數(shù)據(jù)應(yīng)用和數(shù)據(jù)挖掘,將從多個(gè)方面創(chuàng)造價(jià)值。大數(shù)據(jù)的重心將從存儲(chǔ)和傳輸,過渡到數(shù)據(jù)的挖掘和應(yīng)用,這將深刻影響企業(yè)的商業(yè)模式。大數(shù)據(jù)利用中安全更加重要,為信息安全帶來發(fā)展契機(jī)。隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新興IT技術(shù)逐漸步入主流,大數(shù)據(jù)使得數(shù)據(jù)價(jià)值極大提高,無處不在的數(shù)據(jù),對(duì)信息安全提出了更高要求。同時(shí),大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新興技術(shù)與產(chǎn)品將為安全分析提供新的可能性;信息安全和云計(jì)算貫穿于大數(shù)據(jù)產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié),云安全等關(guān)鍵技術(shù)將更安全地保護(hù)數(shù)據(jù)。大數(shù)據(jù)對(duì)信息安全的要求和促進(jìn)將推動(dòng)信息安全產(chǎn)業(yè)的大發(fā)展。因此我對(duì)大數(shù)據(jù)和數(shù)據(jù)挖掘的知識(shí)做一些概括。

        首先是關(guān)于什么是大數(shù)據(jù)。大數(shù)據(jù)是指需要通過快速獲取、處理、分析以從中提取價(jià)值的海量、多樣化的交易數(shù)據(jù)、交互數(shù)據(jù)與傳感數(shù)據(jù)。所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時(shí)間內(nèi)完成信息的采集、處理、管理,并將其整理成為人類所能解讀的信息。

        大數(shù)據(jù)怎麼產(chǎn)生。物理世界的信息大量數(shù)字化產(chǎn)生的。社交網(wǎng)絡(luò)產(chǎn)生的,在雅虎時(shí)代,大量的都是讀操作,只有雅虎的編輯做一些寫操作的工作。進(jìn)入web2.0時(shí)代,用戶數(shù)大量增加,用戶主動(dòng)提交了自己的行為。進(jìn)入了社交時(shí)代,移動(dòng)時(shí)代。大量移動(dòng)終端設(shè)備的出現(xiàn),用戶不僅主動(dòng)提交自己的行為,還和自己的社交圈進(jìn)行了實(shí)時(shí)的互動(dòng),因此數(shù)據(jù)大量的產(chǎn)生出來,并且具有了極其強(qiáng)烈的傳播性。數(shù)據(jù)都要保存所產(chǎn)生的。

        大數(shù)據(jù)的特點(diǎn),多樣化:大數(shù)據(jù)一般包括以事務(wù)為代表的結(jié)構(gòu)化數(shù)據(jù)、以網(wǎng)頁為代表的半結(jié)構(gòu)化數(shù)據(jù)和以視頻和語音信息為代表的非結(jié)構(gòu)化等多類數(shù)據(jù)。海量:通過各種智能設(shè)備產(chǎn)生了大量的數(shù)據(jù),PB級(jí)別可謂是常態(tài)??焖伲捍髷?shù)據(jù)要求快速處理,因?yàn)橛行?shù)據(jù)存在時(shí)效性。靈活:在互聯(lián)網(wǎng)時(shí)代,和以往相比,企業(yè)的業(yè)務(wù)需求更新的頻率加快了很多,那么相關(guān)大數(shù)據(jù)的分析和處理模型必須快速地適應(yīng)新的業(yè)務(wù)需求。復(fù)雜:雖然傳統(tǒng)的BI已經(jīng)很復(fù)雜了,但是由于前面4個(gè)V的存在,使得針對(duì)大數(shù)據(jù)的處理和分析更艱巨,并且過去那套基于關(guān)系型數(shù)據(jù)庫的BI開始有點(diǎn)不合時(shí)宜了,同時(shí)也需要根據(jù)不同的業(yè)務(wù)場(chǎng)景,采取不同的處理方式和工具。

        通過對(duì)大數(shù)據(jù)的認(rèn)識(shí)和大數(shù)據(jù)帶來的機(jī)遇,因此數(shù)據(jù)挖掘?qū)Υ髷?shù)據(jù)的管理來說至關(guān)重要。通過數(shù)據(jù)挖掘,從大數(shù)據(jù)中找到關(guān)鍵信息,從而為我們帶來商機(jī)和社會(huì)價(jià)值。

        數(shù)據(jù)挖掘大體上分為四個(gè)階段:(1)確定業(yè)務(wù)對(duì)象階段:清晰地定義出業(yè)務(wù)對(duì)象,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的首要任務(wù)。(2)數(shù)據(jù)準(zhǔn)備階段:確定目標(biāo)數(shù)據(jù),并對(duì)原始的目標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)的選擇、凈化(消除噪聲、冗余數(shù)據(jù))等,使其生成過程數(shù)據(jù)。然后進(jìn)行轉(zhuǎn)換,主要是降維(dimensionreduction),為后面的數(shù)據(jù)挖掘準(zhǔn)備好正確的數(shù)據(jù)。(3)數(shù)據(jù)挖掘階段:使用適當(dāng)?shù)臄?shù)據(jù)挖掘算法對(duì)處理過的數(shù)據(jù)進(jìn)行分析,進(jìn)而得到可能的模式或模型。(4)解釋與評(píng)估階段:數(shù)據(jù)挖掘?qū)@得的信息通過用戶可以理解和觀察的方式反饋給用戶。

        數(shù)據(jù)挖掘的關(guān)鍵技術(shù)。數(shù)據(jù)挖掘的關(guān)鍵技術(shù)是模式識(shí)別和關(guān)系識(shí)別的算法,許多算法源于數(shù)據(jù)庫理論、統(tǒng)計(jì)學(xué)、人工智能和機(jī)器學(xué)習(xí)等研究領(lǐng)域。常用的數(shù)據(jù)挖掘技術(shù)大致可以分為以下幾種:(1)統(tǒng)計(jì)方法;(2)模糊集方法;(3)支持向量機(jī);(4)粗糙集方法。(5)貝葉斯網(wǎng)絡(luò)。(6)機(jī)器學(xué)習(xí)方法。(7)生物智能算法。

        關(guān)于web數(shù)據(jù)挖掘方面,web數(shù)據(jù)挖掘主要特點(diǎn)包括:(1)數(shù)據(jù)量巨大、動(dòng)態(tài)性強(qiáng),數(shù)據(jù)類型復(fù)雜多樣,萬維網(wǎng)上的數(shù)據(jù)量非常巨大,并快速更新。Web上包含了各種信息和資源,有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種類型的數(shù)據(jù)。(2)異構(gòu)數(shù)據(jù)庫環(huán)境,Web上每一個(gè)站點(diǎn)是一個(gè)數(shù)據(jù)源,每一個(gè)站點(diǎn)的信息和組織都不一樣,所以每個(gè)數(shù)據(jù)源都是異構(gòu)的,因此構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。(3)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),Web數(shù)據(jù)是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,不是計(jì)算機(jī)或者數(shù)據(jù)挖掘算法所能理解的形式,通常數(shù)據(jù)挖掘的對(duì)象是數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),并利用關(guān)系表格等存儲(chǔ)結(jié)構(gòu)來發(fā)現(xiàn)知識(shí),因此有些數(shù)據(jù)挖掘算法并不適用于Web挖掘,即使可用也需要首先對(duì)Web數(shù)據(jù)進(jìn)行預(yù)處理。這樣,對(duì)Web數(shù)據(jù)進(jìn)行預(yù)處理,或者開發(fā)新的Web挖掘技術(shù),便成為Web挖掘研究的重點(diǎn)。

        參考文獻(xiàn)

        [1] 羅剛,王振東.網(wǎng)絡(luò)爬蟲,清華大學(xué)出版社,2010,10.

        [2] 于天恩.搜索引擎,中國鐵道出版社,2008,7.

        猜你喜歡
        海量處理大數(shù)據(jù)
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
        一個(gè)圖形所蘊(yùn)含的“海量”巧題
        視頻后期剪輯制作中鏡頭時(shí)長的處理
        戲劇之家(2016年19期)2016-10-31 18:38:40
        聲樂演唱中藝術(shù)與情感的深入處理
        戲劇之家(2016年19期)2016-10-31 18:04:18
        東風(fēng)4B型內(nèi)燃機(jī)車C6級(jí)維修后冷卻風(fēng)扇不動(dòng)作原因及解決辦法
        橋梁軟土基礎(chǔ)處理應(yīng)用
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
        免费成人电影在线观看| 亚洲国产成a人v在线观看| 国产美女亚洲精品一区| 亚洲蜜臀av一区二区三区漫画| 人妻少妇精品视频一区二区三区l| 国产熟妇疯狂4p交在线播放| 国产精品亚洲综合久久系列| 一级r片内射视频播放免费| 亚洲国产精品国自产拍av| 亚洲精品国产第一区二区尤物| 中文精品久久久久中文| 日韩熟女精品一区二区三区视频| av手机在线观看不卡| 国产精品久久久久精品一区二区| 国产人妻精品一区二区三区不卡| 色欧美与xxxxx| 国产色婷亚洲99精品av网站| 国产一区二区三区不卡在线观看| 国产a国产片国产| 女人大荫蒂毛茸茸视频| 丰满人妻AV无码一区二区三区| 国产av一区二区日夜精品剧情| 亚洲一区二区三区中国| 丰满少妇三级全黄| 亚洲日韩一区二区一无码| 亚洲人av毛片一区二区| 国产一区二区不卡av| 日本午夜理论一区二区在线观看| 国产亚洲成性色av人片在线观| 中文 在线 日韩 亚洲 欧美| 亚洲中文字幕无码久久2020| 欧美—iGAO视频网| 国产精品久久av色婷婷网站| 国产av一区二区三区无码野战| 亚洲国产美女精品久久久 | 狼色在线精品影视免费播放| 国产亚洲中文字幕久久网| 欧美国产亚洲日韩在线二区| 人妻在线日韩免费视频| 国产精品久久久久亚洲| 一本色道精品亚洲国产一区|