亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)及其面臨的技術(shù)挑戰(zhàn)分析

        2017-01-01 01:44:13
        無線互聯(lián)科技 2017年23期
        關(guān)鍵詞:挑戰(zhàn)分析

        金 麗

        (遼寧建筑職業(yè)學(xué)院,遼寧 遼陽 111000)

        大數(shù)據(jù)及其面臨的技術(shù)挑戰(zhàn)分析

        金 麗

        (遼寧建筑職業(yè)學(xué)院,遼寧 遼陽 111000)

        大數(shù)據(jù)正在改變?nèi)藗兩畹母鱾€方面。從大數(shù)據(jù)中挖掘價值需要經(jīng)歷數(shù)據(jù)獲取、信息提取和清理、數(shù)據(jù)集成、建模和分析、解釋和部署等多個步驟。目前,許多關(guān)于大數(shù)據(jù)的討論只關(guān)注一兩個步驟,而忽略了其余部分。大數(shù)據(jù)研究面臨的挑戰(zhàn)很多,從數(shù)據(jù)的異構(gòu)性、不一致性和不完備性、及時性、隱私性、可視化和協(xié)作性,到圍繞大數(shù)據(jù)的工具生態(tài)系統(tǒng)。文章對大數(shù)據(jù)及其面臨的技術(shù)挑戰(zhàn)進(jìn)行分析,以期能更好地挖掘大數(shù)據(jù)中蘊(yùn)含的潛在價值。

        大數(shù)據(jù);數(shù)據(jù)分析;技術(shù)挑戰(zhàn)

        在廣泛的應(yīng)用領(lǐng)域,數(shù)據(jù)正以前所未有的規(guī)模被收集。前數(shù)據(jù)時代決策生成往往是基于猜測,或精心制作的現(xiàn)實(shí)模型;而在大數(shù)據(jù)時代,決策者可以利用數(shù)據(jù)驅(qū)動的數(shù)學(xué)模型。大數(shù)據(jù)分析幾乎推動了社會的各個方面,包括移動服務(wù)、零售、制造業(yè)、金融服務(wù)、生命科學(xué)和物理科學(xué)[1]。大數(shù)據(jù)分析是一個迭代過程,每個過程都有各自的挑戰(zhàn),本研究考慮端到端的大數(shù)據(jù)生命周期,首先分析大數(shù)據(jù)發(fā)展的基本現(xiàn)狀,再著重分析大數(shù)據(jù)分析的5個階段,以及存在于每個階段中的具體挑戰(zhàn)。

        1 大數(shù)據(jù)發(fā)展現(xiàn)狀

        科學(xué)研究領(lǐng)域已經(jīng)被大數(shù)據(jù)徹底改變了。以前,天文學(xué)家的重要工作是從天空取得圖像數(shù)據(jù),“斯隆數(shù)字天空調(diào)查”收集并存儲了大量的太空數(shù)據(jù),而天文學(xué)家的任務(wù)是在數(shù)據(jù)庫中找到有趣的事物或現(xiàn)象。在生物科學(xué)中的一項共識是將科學(xué)數(shù)據(jù)存入公共存儲庫,并建立公共數(shù)據(jù)庫供其他科學(xué)家使用。此外,隨著技術(shù)的進(jìn)步,特別是隨著下一代測序(Next Generation Sequencing,NGS),可用實(shí)驗數(shù)據(jù)集的大小與數(shù)量將呈指數(shù)級增加,而這種增加的速度將遠(yuǎn)遠(yuǎn)大于摩爾定律提供的計算機(jī)性能的提高。甚至要想存儲它們在現(xiàn)在看來都已經(jīng)變得不切實(shí)際,而只能將生成的數(shù)據(jù)形成序列后實(shí)時處理成有效的結(jié)論數(shù)據(jù)再保存。

        在科學(xué)研究之外,大數(shù)據(jù)也具有革命性的潛力。Google公司在Google文件系統(tǒng)、地圖規(guī)約以及隨后的開源系統(tǒng)Hadoop上所做的工作,極大地推動大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,并集中體現(xiàn)在互聯(lián)網(wǎng)公司中,如Facebook,LinkedIn,Microsoft,Quantcast,Twitter和Yahoo,它們已經(jīng)成為從Web搜索到內(nèi)容推薦和計算廣告等應(yīng)用的基礎(chǔ)。其他有說服力的應(yīng)用還有醫(yī)療大數(shù)據(jù)、城市規(guī)劃、智能交通、環(huán)境建模、節(jié)能、智能材料、機(jī)器翻譯自然語言之間、教育、計算社會科學(xué)、金融風(fēng)險分析、國土安全和計算機(jī)安全等[2]。

        截至2016年,企業(yè)和用戶存儲的新數(shù)據(jù)超過100 EB(1 EB=103 PB=106 TB=109 GB)字節(jié)。據(jù)麥肯錫最近的一份報告,全球個人定位數(shù)據(jù)的潛在價值估計為7 000億美元,這可能導(dǎo)致產(chǎn)品開發(fā)和組裝成本下降50%。麥肯錫預(yù)測,大數(shù)據(jù)在就業(yè)方面同樣會產(chǎn)生巨大影響,美國需要140 000~190 000名具有深度分析經(jīng)驗的員工,而這一數(shù)字在中國超過100萬。

        雖然大數(shù)據(jù)的潛在好處是真實(shí)顯著的,并且已經(jīng)取得了一些初步的成功,但要充分發(fā)揮這一潛力,仍有許多技術(shù)上的挑戰(zhàn)必須突破。當(dāng)然,巨大的數(shù)據(jù)量是一個重大的挑戰(zhàn),也是最容易識別的。行業(yè)分析公司指出,不僅在數(shù)量上,在數(shù)據(jù)多樣性和傳輸速度上都存在挑戰(zhàn)。多樣性指的是數(shù)據(jù)類型、表示和語義解釋的異質(zhì)性。速度包括數(shù)據(jù)傳輸速率和反應(yīng)時間窗兩個方面。另外,數(shù)據(jù)的準(zhǔn)確性和可用性等問題也同時存在。

        2 大數(shù)據(jù)分析技術(shù)與挑戰(zhàn)

        大數(shù)據(jù)的處理和分析是一個迭代的過程,我們稱之為數(shù)據(jù)分析通道,總體可以分成5個階段,每個處理階段都存在一些特殊的和共性的挑戰(zhàn)。許多研究人員只關(guān)注分析/建模這一步驟,期望能抽象出一個數(shù)學(xué)表達(dá)形式來獲取并描述數(shù)據(jù)中蘊(yùn)含的所有價值,但隨著數(shù)據(jù)量的增大和數(shù)據(jù)耦合度的增加,模型的參數(shù)和維度將迅速增加,而且有材料證明數(shù)據(jù)分析通道的其他階段發(fā)揮越來越重要的作用。對信息的獲取來源于數(shù)據(jù)本身,因此,我們必須從數(shù)據(jù)是有價值的、并且可能以我們無法完全預(yù)料到的方式的角度來記錄數(shù)據(jù),以及如何從非完全、碎片式的數(shù)據(jù)中最大限度地獲取價值。這對跟蹤出處、處理不確定性和錯誤的要求就提高了[3]。當(dāng)同種信息以重復(fù)和重疊的方式出現(xiàn)時,我們必須開發(fā)相應(yīng)的統(tǒng)計技術(shù)來應(yīng)對諸如數(shù)據(jù)集成和實(shí)體/關(guān)系抽取等挑戰(zhàn),這可能是有效利用多源數(shù)據(jù)的關(guān)鍵。隨著大數(shù)據(jù)處理領(lǐng)域不斷細(xì)分,諸如此類的問題逐漸呈現(xiàn)。

        2.1 數(shù)據(jù)獲取

        大數(shù)據(jù)不是憑空產(chǎn)生的,而是對某些潛在活動的記錄??紤]我們對周圍世界的感知,從老年人的心率到空氣質(zhì)量元素,以及網(wǎng)站上用戶的活動記錄或事件日志。傳感器、仿真和科學(xué)實(shí)驗都可以產(chǎn)生大量的數(shù)據(jù)。例如,一平方公里成建制的望遠(yuǎn)鏡陣列每天產(chǎn)生高達(dá)數(shù)萬TB字節(jié)的原始數(shù)據(jù)。

        其中大部分原始數(shù)據(jù)是冗余的,即可以通過過濾壓縮掉好幾個數(shù)量級,而不影響我們提取出其中的價值。另外原始數(shù)據(jù)往往過于龐大,甚至不能先存儲[4]。這便帶來了一個挑戰(zhàn),如何定義和設(shè)計有效的“在線”濾波器?另外,由于傳感器的測量誤差,當(dāng)一個傳感器讀數(shù)與其余的讀數(shù)相差很大時,可能是傳感器出現(xiàn)了故障,但也有可能是發(fā)現(xiàn)了新的現(xiàn)象,我們該如何取舍?

        此外,大體量數(shù)據(jù)集的加載往往是一個挑戰(zhàn),特別是當(dāng)與在線過濾和數(shù)據(jù)規(guī)約相結(jié)合時。此時,相對于載入全部數(shù)據(jù),有效的增量攝取技術(shù)可能更合適。對于有些應(yīng)用來說,這些可能還不夠,必須設(shè)計有效的實(shí)時處理方法。

        2.2 數(shù)據(jù)清洗與信息提取

        數(shù)據(jù)收集時采用的格式一般不能直接用于數(shù)據(jù)分析。相反,我們需要一個信息提取過程,從底層數(shù)據(jù)中提取所需的信息,并以結(jié)構(gòu)化的形式表達(dá)出來,再進(jìn)行有效的分析。正確而全面地完成信息的提取是一項持續(xù)的技術(shù)挑戰(zhàn)。通常,這類提取方法不是通用的,而是高度依賴于應(yīng)用。比如,用醫(yī)療圖像提取方法來提取太空圖片中的信息,結(jié)果與預(yù)期會有很大的偏差。在做信息提取時,需要聲明并精確地指定信息提取任務(wù),也就是對算法的提取結(jié)果有正向的反饋來訓(xùn)練算法,然后再用以處理新數(shù)據(jù)。

        多數(shù)數(shù)據(jù)源都是不可靠的,其中原因包括傳感器可能有故障、可能經(jīng)過人類有偏見的處理過程、通過遠(yuǎn)程網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)可能會被污染等。深入理解誤差源并對其進(jìn)行建模是實(shí)施數(shù)據(jù)清理面臨的第一層挑戰(zhàn)。而現(xiàn)狀是,這些誤差大部分來自數(shù)據(jù)源和所依賴的應(yīng)用程序[5]。

        2.3 數(shù)據(jù)集成

        有效的大規(guī)模分析常常需要從多個源收集異構(gòu)數(shù)據(jù)。例如,要全方位獲得一個(?。┤说慕】禂?shù)據(jù),需要綜合分析醫(yī)療健康記錄、居住環(huán)境數(shù)據(jù)以及其他一些生活數(shù)據(jù),如血糖儀、心率、加速度計等。不同來源的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)和語義上具有異質(zhì)性,而它們又同時具有滿足分析需求的潛在價值,因此,設(shè)計數(shù)據(jù)轉(zhuǎn)換和集成工具讓這些異質(zhì)性數(shù)據(jù)在某種意義上獲得統(tǒng)一性就成了一項重要的挑戰(zhàn)。

        即使僅僅對于一個數(shù)據(jù)集的簡單分析,通常也有許多不同的方法來存儲同質(zhì)信息,每個方案都包含某些權(quán)衡。例如,盡管生物信息學(xué)數(shù)據(jù)庫結(jié)構(gòu)如此巨大多樣,其中數(shù)據(jù)信息背后的實(shí)體基本相似,如基因。數(shù)據(jù)庫設(shè)計是一門藝術(shù),由高薪專業(yè)人員在企業(yè)環(huán)境中精心執(zhí)行。但我們必須保證相關(guān)專業(yè)人士,如該領(lǐng)域的科學(xué)家參與創(chuàng)造有效的數(shù)據(jù)存儲,畢竟最終使用數(shù)據(jù)庫的是這些專業(yè)人士,建造華麗而不實(shí)用的數(shù)據(jù)庫是不可取的。

        2.4 數(shù)據(jù)建模與分析

        大數(shù)據(jù)的查詢和挖掘方法與傳統(tǒng)的小樣本統(tǒng)計分析方法有本質(zhì)的區(qū)別。大數(shù)據(jù)往往是嘈雜的、動態(tài)的、異構(gòu)的、相互關(guān)聯(lián)的、可信的。然而,即使是嘈雜的大數(shù)據(jù)可能比小樣本更重要,統(tǒng)計結(jié)果已經(jīng)顯示,大數(shù)據(jù)頻繁模式和關(guān)聯(lián)分析的結(jié)果通常會取代直觀結(jié)論,挖掘出隱藏的、更可靠的模式和知識。由此帶來的直接挑戰(zhàn)就是,如何通過適當(dāng)?shù)慕y(tǒng)計處理方法,從海量數(shù)據(jù)中分析出較好的結(jié)果。

        2.5 數(shù)據(jù)解釋

        決策者最終必須要對分析的結(jié)果提供一種解釋,通常包括檢查所有的假設(shè)和回溯分析。此外,還有許多可能的錯誤來源:計算機(jī)系統(tǒng)可能有缺陷、建立的模型不可避免地有假設(shè)、結(jié)果可能基于錯誤的數(shù)據(jù)。由于所有這些原因,負(fù)責(zé)任的用戶盲目相信計算機(jī)系統(tǒng),相反,用戶會試圖理解和驗證計算機(jī)所產(chǎn)生的結(jié)果,而計算機(jī)系統(tǒng)必須為驗證提供便利。由于大數(shù)據(jù)的復(fù)雜性,這尤其成了一種挑戰(zhàn)。數(shù)據(jù)記錄背后常常有重要的假設(shè),分析驗證必須要涉及多個步驟以及其背后的假設(shè)。簡言之,僅僅提供結(jié)果是不夠的,還必須向用戶提供解釋分析結(jié)果的能力,并使用不同的假設(shè)、參數(shù)或數(shù)據(jù)集重復(fù)分析,以更好地支撐決策過程和社會環(huán)境變化[6]。

        3 結(jié)語

        我們已經(jīng)進(jìn)入了一個大數(shù)據(jù)時代,許多行業(yè)的決策越來越依賴一個數(shù)據(jù)驅(qū)動的決策模型,核心業(yè)務(wù)依賴于不斷完善的大量數(shù)據(jù)分析。然而大數(shù)據(jù)的分析在其各個階段都存在著一些挑戰(zhàn)待解決,本文詳述了數(shù)據(jù)分析的步驟以及在這些步驟中面臨的關(guān)鍵技術(shù)挑戰(zhàn),積極地發(fā)展技術(shù),應(yīng)對這些挑戰(zhàn)能更好地挖掘大數(shù)據(jù)中蘊(yùn)含的潛在價值。

        [1] 趙國棟,易歡歡,糜萬軍,等.大數(shù)據(jù)時代的歷史機(jī)遇:產(chǎn)業(yè)變革與數(shù)據(jù)科學(xué)[M].北京:清華大學(xué)出版社,2013.

        [2] 程學(xué)旗,靳小龍,楊婧,等.大數(shù)據(jù)技術(shù)進(jìn)展與發(fā)展趨勢[J].科技導(dǎo)報,2016(14):49-59.

        [3] 施惠俊.基于云計算的海量語義信息并行推理方法研究[D].上海:上海交通大學(xué),2012.

        [4] 黃宜華.大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)研究進(jìn)展機(jī)[J].大數(shù)據(jù),2015(1):35-54.

        [5] 徐宗本.數(shù)據(jù)分析與處理的共性基礎(chǔ)與核心技術(shù)[C].蘭州:第四屆中國計算機(jī)學(xué)會(CCF)大數(shù)據(jù)學(xué)術(shù)會議,2016.

        [6] 麥肯錫環(huán)球研究院.大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿[EB/OL].(2014-08-27)[2017-10-25].http://intl.ce.cn/specials/zxgjzh/201408/27/t20140827_3436534.shtml.

        Analysis on the big data and the technical challenges faced

        Jin Li
        (Liaoning Jianzhu Vocational College, Liaoyang 111000, China)

        The big data is changing all aspects of people’s lives. Mining valuable data from big data involves many steps, such as data acquisition, information extraction and cleaning, data integration, modeling and analysis, interpretation and deployment and so on. At present, many discussions about big data only focus on one or two steps, while ignoring the rest. There are many challenges in big data research, from data heterogeneity, inconsistency and incompleteness, timeliness, privacy, visualization and collaboration, to the tools ecosystem around big data. This paper analyzes the big data and the technical challenges faced, in order to better mining the potential value of big data.

        big data; data analysis; technical challenges

        金麗(1981— ),女,遼寧遼陽人,講師,碩士;研究方向:計算機(jī)軟件應(yīng)用。

        猜你喜歡
        挑戰(zhàn)分析
        隱蔽失效適航要求符合性驗證分析
        我來挑戰(zhàn)(二)
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        嘰咕樂挑戰(zhàn)
        嘰咕樂挑戰(zhàn)
        嘰咕樂挑戰(zhàn)
        生存 挑戰(zhàn)
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        第52Q 邁向新挑戰(zhàn)
        91青青草手机在线视频| 国产成人www免费人成看片| 亚洲AV秘 无码一区二区三区臀| 精品视频在线观看一区二区有 | 亚洲一区二区懂色av| 精品精品国产高清a毛片| 青青草97国产精品免费观看| 国产妇女乱一性一交| 国产av精品一区二区三区不卡| 少妇人妻综合久久中文字幕| 国产在线精品一区在线观看| 国产午夜精品一区二区三区视频| 日韩精品av在线一区二区| 所有视频在线观看免费| 女人喷潮完整视频| 精品国产一区二区三区AV小说| 日本熟妇视频在线中出| 久久99精品久久久久麻豆| 熟妇高潮一区二区三区| 国产在线观看黄| 亚洲精品在线97中文字幕| 在教室伦流澡到高潮hgl动漫| 亚洲丁香五月激情综合| 国产精品一区二区三区不卡| 熟女肥臀白浆一区二区| 国产精品久久婷婷免费观看| 国产亚洲精品视频一区二区三区 | 国产精品麻豆成人av电影艾秋 | 亚洲日韩∨a无码中文字幕| 国产对白刺激在线观看| av在线免费观看大全| 区二区三区玖玖玖| 亚洲中文字幕久久精品蜜桃| 国产熟女露脸大叫高潮| 国产毛多水多高潮高清| 成 人 网 站 免 费 av| 色婷婷一区二区三区四区| 中文字幕女优av在线| 中国人妻被两个老外三p| 亚洲精品国产老熟女久久| 深夜黄色刺激影片在线免费观看|