亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談大數(shù)據(jù)基礎(chǔ)理論與關(guān)鍵技術(shù)發(fā)展

        2014-04-29 00:00:00謝冬

        摘 要:隨著信息技術(shù)的快速發(fā)展,大數(shù)據(jù)已成為當(dāng)前社會(huì)的熱門話題之一,社會(huì)各界對(duì)于大數(shù)據(jù)的討論眾說紛紜、持續(xù)升溫。然而,到底什么才是真正的大數(shù)據(jù)?這需要我們進(jìn)行更深入的探究。本文從大數(shù)據(jù)的定義、特征,以及發(fā)展歷史等方面詳細(xì)闡述了大數(shù)據(jù)的基礎(chǔ)理論,同時(shí)分析并提出了大數(shù)據(jù)的本質(zhì)與關(guān)鍵技術(shù),對(duì)于重新認(rèn)識(shí)、了解,以及未來更好地應(yīng)用大數(shù)據(jù),具有十分重要的意義。

        關(guān)鍵詞:大數(shù)據(jù);理論,技術(shù)

        中圖分類號(hào):TP311.13

        1 大數(shù)據(jù)的定義

        大數(shù)據(jù)本身是個(gè)比較抽象的概念。顧名思義,其表示數(shù)據(jù)規(guī)模的龐大與數(shù)據(jù)類型的繁多。近年來,隨著數(shù)據(jù)量的爆炸式增長,數(shù)據(jù)的計(jì)量已不能采用人們熟知的GB或TB為單位進(jìn)行描述,而是以PB(1PB=1024TB)、EB(1EB=1024PB),甚至ZB(1ZB=1024EB)為計(jì)量單位。以利用電子顯微鏡構(gòu)建大腦中的突觸網(wǎng)絡(luò)為例。據(jù)估算,大約1mm3大腦的圖像,數(shù)據(jù)量超過1PB,如此大的數(shù)據(jù)量無法采用傳統(tǒng)數(shù)據(jù)庫工具進(jìn)行內(nèi)容抓取、管理和處理。

        目前,有關(guān)大數(shù)據(jù)的定義尚未統(tǒng)一,主要有以下3種。

        《互聯(lián)網(wǎng)周刊》的定義為:大數(shù)據(jù)涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以實(shí)現(xiàn)而在小規(guī)模數(shù)據(jù)的基礎(chǔ)上無法實(shí)現(xiàn)的事情。也就是說,大數(shù)據(jù)讓我們以1種前所未有的方式,通過對(duì)海量數(shù)據(jù)進(jìn)行分析來獲取蘊(yùn)含巨大價(jià)值的產(chǎn)品、服務(wù)或深刻的洞見,最終形成變革之力。

        相關(guān)研究機(jī)構(gòu)認(rèn)為:大數(shù)據(jù)是需要采用新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)類別上看,大數(shù)據(jù)是指無法使用傳統(tǒng)流程或工具處理或分析的信息。其定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)方法處理的數(shù)據(jù)集。

        IBM通過分析大數(shù)據(jù)的特征對(duì)大數(shù)據(jù)進(jìn)行了定義,認(rèn)為:類型(variety)、數(shù)量(volume)和速度(velocity)是構(gòu)成大數(shù)據(jù)的3個(gè)主要內(nèi)容。其中,類型指數(shù)據(jù)中包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)形式;數(shù)量指收集和分析的數(shù)據(jù)量非常大;速度指數(shù)據(jù)處理速度要足夠快。

        2 大數(shù)據(jù)的產(chǎn)生

        現(xiàn)如今,全球數(shù)據(jù)量正以前所未有的速度增長著,且隨著全球無線網(wǎng)絡(luò)覆蓋區(qū)域的不斷擴(kuò)大,以及移動(dòng)設(shè)備的出現(xiàn)與發(fā)展,數(shù)據(jù)的增長已不再受時(shí)間、地點(diǎn)的限制。從目前來看,大數(shù)據(jù)量的積累與增長主要經(jīng)歷了3個(gè)階段。

        信息化管理被動(dòng)產(chǎn)生數(shù)據(jù)階段。企業(yè)為實(shí)現(xiàn)信息化管理,需存儲(chǔ)、處理企業(yè)辦公文件、財(cái)務(wù)報(bào)表、員工信息等數(shù)據(jù)。這一過程催生了數(shù)據(jù)庫的出現(xiàn),如超市庫存系統(tǒng)、銀行交易記錄系統(tǒng)、企業(yè)員工醫(yī)療信息系統(tǒng)等。因此,辦公信息化促成了人類社會(huì)數(shù)據(jù)量的首次大飛躍。這個(gè)階段產(chǎn)生的數(shù)據(jù)的主要特點(diǎn)是:數(shù)據(jù)伴隨著一定的運(yùn)營活動(dòng)而產(chǎn)生,并記錄到數(shù)據(jù)庫中。例如,企業(yè)人力資源部門錄入員工的基本信息,員工的信息就出現(xiàn)在企業(yè)數(shù)據(jù)庫中,這種數(shù)據(jù)產(chǎn)生方式是被動(dòng)的。

        社交網(wǎng)絡(luò)與便攜設(shè)備主動(dòng)產(chǎn)生數(shù)據(jù)階段。在這一階段,數(shù)據(jù)量的增長來自2個(gè)方面:一是開放社交網(wǎng)絡(luò)的出現(xiàn),如微博、人人網(wǎng),使用戶主動(dòng)在社交網(wǎng)絡(luò)上發(fā)表自己的看法,分享自己關(guān)注的內(nèi)容,這些過程產(chǎn)生了大量的數(shù)據(jù);二是以智能手機(jī)、平板電腦為代表的新一代移動(dòng)設(shè)備的出現(xiàn),這些易攜帶、全天候接入互聯(lián)網(wǎng)的設(shè)備使人們能夠更方便地發(fā)表自己的想法等。這些都促成了人類社會(huì)數(shù)據(jù)量的第2次大飛躍,這一階段產(chǎn)生的數(shù)據(jù)是主動(dòng)的。

        人、機(jī)、物三者深度融合自動(dòng)產(chǎn)生數(shù)據(jù)階段。隨著物聯(lián)網(wǎng)的發(fā)展,傳感器的使用越來越廣泛,人類制造的極小的、具有處理功能的傳感器等設(shè)備部署到世界的各個(gè)角落,或?qū)ι鐣?huì)的各種活動(dòng)進(jìn)行監(jiān)控,或?qū)θ祟惿眢w健康狀況進(jìn)行隨時(shí)隨地的監(jiān)測(cè),這些過程都產(chǎn)生了大量數(shù)據(jù),形成了人類社會(huì)數(shù)據(jù)量的第3次大飛躍,這種數(shù)據(jù)的產(chǎn)生是自動(dòng)的。

        綜上所述,數(shù)據(jù)的產(chǎn)生經(jīng)歷了從被動(dòng)到主動(dòng),再到自動(dòng)的過程,其中,自動(dòng)產(chǎn)生數(shù)據(jù)的過程是形成大數(shù)據(jù)的根本原因。

        3 大數(shù)據(jù)的關(guān)鍵技術(shù)

        3.1 文件系統(tǒng)。針對(duì)數(shù)據(jù)存儲(chǔ),文件系統(tǒng)需要考慮3個(gè)問題:高性能共享性、文件的管理和保護(hù)、重復(fù)數(shù)據(jù)的處理。尤其是在面對(duì)海量文件時(shí),上述問題更加凸顯。例如:美國谷歌公司設(shè)計(jì)開發(fā)了谷歌文件系統(tǒng)GFS——(Googlefilesystem)。

        GFS是構(gòu)建在大量廉價(jià)服務(wù)器之上的可擴(kuò)展的分布式文件系統(tǒng),主要針對(duì)文件較大、且讀遠(yuǎn)大于寫的應(yīng)用場(chǎng)景,采用主從(Master-Slave)結(jié)構(gòu),通過數(shù)據(jù)分塊、追加更新(append-only)等方式實(shí)現(xiàn)了海量數(shù)據(jù)的高效存儲(chǔ)。同時(shí),谷歌公司選擇電價(jià)較低的地點(diǎn)建立存儲(chǔ)庫,從而降低了運(yùn)行成本。

        3.2 數(shù)據(jù)庫系統(tǒng)。大數(shù)據(jù)的特點(diǎn)決定了數(shù)據(jù)庫系統(tǒng)需解決的問題:第一,數(shù)據(jù)量規(guī)模巨大。大數(shù)據(jù)時(shí)代的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過單機(jī)所能容納的數(shù)據(jù)量,因此,必須采用分布式存儲(chǔ)方式。這就需要系統(tǒng)具有很好的擴(kuò)展性,即適應(yīng)大數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)應(yīng)當(dāng)具有良好的橫向擴(kuò)展(scale-out)能力。第二,數(shù)據(jù)異構(gòu)性。結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)均是大數(shù)據(jù)的重要組成部分。高效地處理多種數(shù)據(jù)類型是大數(shù)據(jù)時(shí)代數(shù)據(jù)庫技術(shù)面臨的重要挑戰(zhàn)之一。第三,設(shè)計(jì)理念要不斷創(chuàng)新。面對(duì)多種類型的數(shù)據(jù),不可能存在統(tǒng)一的數(shù)據(jù)處理方式,這就要求新型的數(shù)據(jù)庫系統(tǒng)以不斷變化的角度對(duì)待數(shù)據(jù)。

        數(shù)據(jù)分析與處理技術(shù)。傳統(tǒng)的針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘的理論已日臻成熟,但是針對(duì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)類型,則需要開發(fā)新的數(shù)據(jù)處理與挖掘技術(shù)。

        (1)Hadoop數(shù)據(jù)處理平臺(tái)。目前,數(shù)據(jù)的分析與處理尚沒有絕對(duì)合適的工具。Hadoop是當(dāng)前最為流行的大數(shù)據(jù)處理平臺(tái)。Hadoop最先是模仿GFS和Mapreduce實(shí)現(xiàn)的云計(jì)算開源平臺(tái)。對(duì)Hadoop改進(jìn)并將其應(yīng)用于各種場(chǎng)景的大數(shù)據(jù)處理已經(jīng)成為業(yè)界新的研究熱點(diǎn),主要的研究成果集中在Hadoop平臺(tái)性能改進(jìn)、高效查詢處理、索引構(gòu)建和使用、基于Hadoop的數(shù)據(jù)倉庫構(gòu)建、Hadoop與數(shù)據(jù)庫系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等方面。

        (2)深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)通過建立類似人腦的分層模型結(jié)構(gòu),對(duì)輸入數(shù)據(jù)逐級(jí)提取從底層到高層的特征,從而建立起底層信號(hào)到高層語義的映射關(guān)系。近年來,谷歌公司、淘寶網(wǎng)、百度公司等掌握大量行業(yè)數(shù)據(jù)的企業(yè)都投入了大量人力物力,開展深度學(xué)習(xí)技術(shù)的研發(fā)工作,并在語音識(shí)別、圖像、在線廣告等領(lǐng)域取得了顯著進(jìn)展。起初,簡(jiǎn)單的機(jī)器學(xué)習(xí)模型比復(fù)雜模型更有效的觀點(diǎn)十分流行。例如,簡(jiǎn)單的線性模型可能比復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型擁有更大的應(yīng)用空間。然而,近幾年深度學(xué)習(xí)的快速發(fā)展促使人們開始重新考慮這個(gè)觀點(diǎn):或許較復(fù)雜的模型或表達(dá)能力更強(qiáng)的模型才能充分發(fā)掘出海量數(shù)據(jù)中蘊(yùn)含的價(jià)值;也許運(yùn)用更復(fù)雜的深度學(xué)習(xí)模型能夠從大數(shù)據(jù)中發(fā)掘出更多有價(jià)值的信息和知識(shí)。

        挖掘大數(shù)據(jù)的價(jià)值需要深度模型。如語音識(shí)別作為大數(shù)據(jù)機(jī)器學(xué)習(xí)的重要問題之一,在聲學(xué)建模部分,訓(xùn)練樣本達(dá)到了幾億到十幾億,谷歌公司在1項(xiàng)語音識(shí)別實(shí)驗(yàn)中,發(fā)現(xiàn)訓(xùn)練后的模型對(duì)訓(xùn)練樣本和測(cè)試樣本的預(yù)測(cè)誤差基本相當(dāng),然而一般訓(xùn)練樣本的誤差要顯著小于測(cè)試樣本,出現(xiàn)這樣的結(jié)果只有1個(gè)解釋,就是大數(shù)據(jù)中包含豐富的信息維度,即便訓(xùn)練后的高容量復(fù)雜模型,也處于欠擬合的狀態(tài),所以,大數(shù)據(jù)需要深度學(xué)習(xí)。

        與采用人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來深度學(xué)習(xí)和構(gòu)建特征,能夠刻畫出大數(shù)據(jù)內(nèi)更加豐富的信息。在未來發(fā)展中,深度學(xué)習(xí)在大數(shù)據(jù)中的應(yīng)用將會(huì)越來越普遍。

        相關(guān)硬件設(shè)計(jì)與制造技術(shù)。硬件架構(gòu)不同會(huì)極大地影響系統(tǒng)的處理效率。數(shù)據(jù)處理速度在很大程度上取決于處理過程中處理時(shí)間最長的節(jié)點(diǎn)。如果集群中硬件的性能差異過大,會(huì)導(dǎo)致大量的計(jì)算時(shí)間浪費(fèi)在性能較好的服務(wù)器等待性能較差的服務(wù)器的過程中。在這種情況下,服務(wù)器的線性增長并不一定會(huì)帶來計(jì)算能力的線性增長。

        針對(duì)這些問題,有2個(gè)技術(shù)問題需要關(guān)注:一是不同結(jié)構(gòu)的硬件之間的匹配,以發(fā)揮最大使用率的技術(shù)問題;二是硬件設(shè)計(jì)技術(shù)的提升。

        為提升數(shù)據(jù)的處理能力,需要使用高性能硬件。例如,近年出現(xiàn)的基于閃存的固態(tài)硬盤(SSD)采用新型尋址方式和硬件結(jié)構(gòu),從硬件層為存儲(chǔ)系統(tǒng)結(jié)構(gòu)的革新提供了支持,為計(jì)算機(jī)存儲(chǔ)技術(shù)的發(fā)展和存儲(chǔ)能效的提高帶來了新的契機(jī)。

        參考文獻(xiàn):

        [1]席曄文,楊金民.基于雙布魯姆過濾器的數(shù)據(jù)排重技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用.

        作者簡(jiǎn)介:謝冬,男,福鼎人,工程師,碩士,研究方向:信息管理。

        作者單位:福鼎市醫(yī)院信息科,福建福鼎 355200

        婷婷亚洲久悠悠色悠在线播放| 亚洲综合有码中文字幕| 亚洲精品国偷拍自产在线观看蜜臀| 无码人妻AⅤ一区 二区 三区| 国产999视频| 久久精品国产只有精品96| 日韩人妻无码中文字幕一区| 中文字幕一区二区三区在线看一区| 亚洲中文字幕精品久久a| 国产饥渴的富婆一凶二区| 亚洲乱码中文字幕视频| 久久理论片午夜琪琪电影网| 午夜成人鲁丝片午夜精品| 麻豆一区二区99久久久久| 亚洲AⅤ无码国精品中文字慕 | 久久人人爽人人爽人人av东京热| 日韩亚洲国产av自拍| 一区二区三区视频偷拍| 中文字幕人妻少妇伦伦| 久久久噜噜噜久久| 日韩精品中文字幕无码一区| 天天澡天天揉揉AV无码人妻斩| 亚洲色图在线视频免费观看| 久久久成人av毛片免费观看| 亚洲综合中文字幕日韩| 欧洲多毛裸体xxxxx| 水蜜桃亚洲一二三四在线| 国产女人91精品嗷嗷嗷嗷| 成人综合激情自拍视频在线观看 | 人妻无码中文专区久久AV| 久久久精品少妇—二区| 国产精品女老熟女一区二区久久夜| 亚洲av不卡一区二区三区| 亚洲国产精品一区二区第四页| 国产日韩欧美911在线观看| 一区二区三区精品婷婷| 中文字幕人妻少妇伦伦| 欧美精品黑人粗大免费| 无码国产精品一区二区免费16| 日本二区视频在线观看| 亚洲精品中文字幕一二三|