亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)湖正在成為新的數(shù)據(jù)倉庫

        2019-08-06 02:39:20JamesKobielus
        計(jì)算機(jī)世界 2019年28期
        關(guān)鍵詞:數(shù)據(jù)倉庫開源應(yīng)用程序

        James Kobielus

        有跡象表明,類似AWS Lake Formation和Delta Lake等平臺,都在朝著一個用于決策支持和AI驅(qū)動決策自動化的中央樞紐發(fā)展。

        數(shù)據(jù)倉庫是再次獲得發(fā)展動力,還是會逐漸消亡呢?如果你對這個問題感到困惑也是情有可原的。一方面,數(shù)據(jù)倉庫似乎仍處于熱門階段。作為一個長期的行業(yè)觀察者,我發(fā)現(xiàn)這一行業(yè)在一連串成功的創(chuàng)新和創(chuàng)業(yè)活動中正迸發(fā)出新的活力。

        這種趨勢基本上始于十年前設(shè)備標(biāo)準(zhǔn)進(jìn)入數(shù)據(jù)倉庫主流,然后隨著市場向新一代云數(shù)據(jù)倉庫轉(zhuǎn)移,又在幾年前獲得了新動力。在過去幾年中,云數(shù)據(jù)倉庫供應(yīng)商Snowflake在市場上獲得了眾多支持。

        數(shù)據(jù)倉庫的衰落

        但另一方面,數(shù)據(jù)倉庫在大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能等新行業(yè)的沖擊下正逐漸黯然失色。這種趨勢造成了數(shù)據(jù)倉庫在企業(yè)IT優(yōu)先等級中不斷下降,但是實(shí)際上大多數(shù)企業(yè)現(xiàn)在至少有一個或是有多個數(shù)據(jù)倉庫服務(wù)于各種下游應(yīng)用程序。

        數(shù)據(jù)倉庫一直是企業(yè)的核心工作負(fù)載,這也是幾年前我認(rèn)為自己有必要搞清楚為什么數(shù)據(jù)倉庫遠(yuǎn)未消亡的原因。同時,這也可能解釋了為什么其他觀察者認(rèn)為他們必須重新定義數(shù)據(jù)倉庫的概念,以使其能夠融入數(shù)據(jù)湖和云計(jì)算時代。

        數(shù)據(jù)倉庫作為一種實(shí)踐不僅蓬勃發(fā)展,而且現(xiàn)在還被視為云計(jì)算行業(yè)的增長核心。如果你只關(guān)注以此標(biāo)簽進(jìn)入市場的那些平臺(例如Snowflake),那么你將錯過這個領(lǐng)域內(nèi)的眾多機(jī)遇。

        數(shù)據(jù)湖的興起

        被許多人稱之為“數(shù)據(jù)湖”的概念正在迅速發(fā)展成為下一代數(shù)據(jù)倉庫。對于那些不熟悉這個概念的人來說,數(shù)據(jù)湖是一種多結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)或存儲庫,它們以原始格式和模式存儲,通常作為blob對象或文件。

        數(shù)據(jù)湖通常用作所有企業(yè)數(shù)據(jù)的單個存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本和用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。它們包含分布式文件或?qū)ο蟠鎯?、機(jī)器學(xué)習(xí)模型庫以及高度并行化的處理與存儲資源集群。并且,數(shù)據(jù)庫通常在讀取時進(jìn)行處理,并使用統(tǒng)計(jì)模型從中提取有意義的相關(guān)性和模式,而不是對它們存儲的對象強(qiáng)制執(zhí)行通用模式和語義。

        這與Inmon和Kimball核心概念不一樣,后者的概念是將大多數(shù)專業(yè)人員的方法提供給數(shù)據(jù)倉庫。在本質(zhì)上,數(shù)據(jù)倉庫是用于聚合、保留和管理官方認(rèn)可的“單一版本的真實(shí)”數(shù)據(jù)記錄。此概念與管理數(shù)據(jù)的特定應(yīng)用程序域以及使用它們的特定用例無關(guān)。

        如果你對我的看法持懷疑態(tài)度,那么你可以看一下Bill Inmon對數(shù)據(jù)倉庫的定義以及對Inmon和Ralph Kimball框架的比較。數(shù)據(jù)倉庫通常都是關(guān)于數(shù)據(jù)驅(qū)動的決策支持,這使得它們可以很好地?cái)U(kuò)展到由人工智能驅(qū)動的推理領(lǐng)域。

        下一代數(shù)據(jù)倉庫

        在過去的一年當(dāng)中,多個備受矚目的行業(yè)公告標(biāo)志著數(shù)據(jù)倉庫的角色發(fā)生了轉(zhuǎn)變。盡管決策支持(即商業(yè)智能、報(bào)告和在線分析處理)仍然是大多數(shù)數(shù)據(jù)倉庫的核心用例,但是我們看到了其正在穩(wěn)步向著決策自動化轉(zhuǎn)型。換句話說,數(shù)據(jù)倉庫現(xiàn)在支持?jǐn)?shù)據(jù)科學(xué)管道,為數(shù)據(jù)驅(qū)動的推理構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用程序。

        新一代數(shù)據(jù)倉庫實(shí)際上就是數(shù)據(jù)湖,其主要用途是對用于構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)進(jìn)行管理。這些數(shù)據(jù)已經(jīng)進(jìn)行過了清洗、整合和驗(yàn)證。例如,在去年秋天召開的Amazon re:Invent大會上,亞馬遜網(wǎng)絡(luò)服務(wù)公布了AWS Lake Formation。這種新托管服務(wù)的目的很明確,就是簡化和加速安全數(shù)據(jù)湖的設(shè)置。雖然AWS Lake Formation擁有云數(shù)據(jù)倉庫的所有標(biāo)志,并且實(shí)際上提供了一個面向決策支持應(yīng)用程序的經(jīng)典數(shù)據(jù)倉庫Amazon Redshift,但是亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)并沒有這樣稱呼它。

        AWS Lake Formation的外觀和功能類似于數(shù)據(jù)倉庫。AWS將其描述為:“數(shù)據(jù)湖是一個集中化的、有機(jī)的且安全的存儲庫,它們以原始形式存儲所有數(shù)據(jù)并為分析做好準(zhǔn)備。通過數(shù)據(jù)湖,你可以打破數(shù)據(jù)孤島并組合不同類型的分析,從而獲得深刻的洞察力,更好地指導(dǎo)業(yè)務(wù)決策。”

        實(shí)際上,AWS將AWS Lake Formation作為一種超級數(shù)據(jù)倉庫用于決策支持和人工智能驅(qū)動的決策自動化。AWS表示該服務(wù)旨在管理數(shù)據(jù)集,讓用戶能夠選擇并使用Amazon EMR for Apache Spark、Redshift、Athena、SageMaker和QuickSight等分析與機(jī)器學(xué)習(xí)服務(wù)。

        另一個例子是Databricks最近宣布的Delta Lake開源項(xiàng)目。Delta Lake可以在Apache 2.0許可下使用,類似于AWS Lake格式,主要用途是對在數(shù)據(jù)湖中維護(hù)的數(shù)據(jù)集進(jìn)行聚合、清洗和管理,以支持機(jī)器學(xué)習(xí)。

        Delta Lake位于本地部署或云數(shù)據(jù)存儲平臺之上,可以從Apache Spark訪問HDFS、Amazon S3或微軟Azure blob等存儲。Delta Lake將數(shù)據(jù)存儲在Parquet中,以提供Databricks所稱的“事務(wù)存儲層”。Parquet是一種開源的列式存儲格式,可用于Hadoop生態(tài)系統(tǒng)中的任何項(xiàng)目,與選擇數(shù)據(jù)處理框架無關(guān)。它們通過開放式并發(fā)串行、快照隔離、數(shù)據(jù)版本控制、回滾和模式強(qiáng)制來支持ACID事務(wù)。

        Delta Lake和AWS Lake Formation之間的一個關(guān)鍵區(qū)別是Delta Lake可處理該管道中的批量數(shù)據(jù)和流數(shù)據(jù)。另一個區(qū)別是Delta Lake支持所有數(shù)據(jù)的ACID事務(wù),允許數(shù)百個應(yīng)用程序同時進(jìn)行多次寫入和讀取。此外,開發(fā)人員還可以訪問每個Delta Lake的早期版本,以進(jìn)行審計(jì)、回滾或重現(xiàn)其MLFlow機(jī)器學(xué)習(xí)實(shí)驗(yàn)的結(jié)果。

        Delta Lake似乎要與Apache Hive展開競爭。雖然Apache Hive完全依賴基于HDFS的存儲,并且直到最近才解決了對ACID的支持,但是它們已經(jīng)成為了部署最為廣泛的開源數(shù)據(jù)倉庫項(xiàng)目。Hive 3在一年前才宣布要為基于Hadoop的數(shù)據(jù)倉庫提供ACID支持。Hive 3可為使用delta文件的CRUD(創(chuàng)建讀取更新刪除)表單提供原子性和快照隔離等操作。

        作為人工智能驅(qū)動的決策自動化的基礎(chǔ)

        近期關(guān)于AWS Lake Formation、Delta Lake和Hive 3的這些行業(yè)公告都預(yù)測了數(shù)據(jù)湖成為決策支持與決策自動化應(yīng)用以及交易數(shù)據(jù)應(yīng)用的中央樞紐的時間。為了加速這一趨勢,Hive 3和Delta Lake等開源項(xiàng)目需要吸引供應(yīng)商和用戶更多的關(guān)注。

        未來“數(shù)據(jù)倉庫”這一術(shù)語可能將主要指那些存儲了用于商業(yè)智能的結(jié)構(gòu)化數(shù)據(jù)的多域倉庫。底層數(shù)據(jù)平臺還會將繼續(xù)發(fā)展,以便為基于云的人工智能提供核心數(shù)據(jù)治理基礎(chǔ)。不過,目前推動企業(yè)數(shù)據(jù)倉庫發(fā)展的主要動力是人工智能而非商業(yè)智能。

        本文作者James Kobielus為SiliconAngle Wikibon公司負(fù)責(zé)人工智能、數(shù)據(jù)科學(xué)和應(yīng)用程序開發(fā)的首席分析師。

        原文網(wǎng)址

        https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html

        猜你喜歡
        數(shù)據(jù)倉庫開源應(yīng)用程序
        刪除Win10中自帶的應(yīng)用程序
        五毛錢能買多少頭牛
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        大家說:開源、人工智能及創(chuàng)新
        開源中國開源世界高峰論壇圓桌會議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
        開源計(jì)算機(jī)輔助翻譯工具研究
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
        關(guān)閉應(yīng)用程序更新提醒
        電腦迷(2012年15期)2012-04-29 17:09:47
        亚洲精品国产一区av| 手机看片久久国产免费| 中文字幕精品一区二区2021年| 亚洲国产一区二区三区亚瑟| 国产成人一区二区三区影院免费| 美腿丝袜一区在线观看| 一区二区三区在线视频观看| 特级做a爰片毛片免费看| 无套内射无矿码免费看黄| 国产精品高清视亚洲乱码有限公司 | 伊人久久大香线蕉av色婷婷色 | 亚洲a∨无码男人的天堂| 国产欧美亚洲精品a| 久久dvd| 女同欲望一区二区三区| 日本伦理精品一区二区三区| 国产农村熟妇videos| 3d动漫精品啪啪一区二区下载| 亚洲色婷婷综合开心网| 在线亚洲妇色中文色综合| 久久精品中文少妇内射| 一本一道久久综合久久| 人妻少妇不满足中文字幕| 亚洲成av人片在线天堂无| 青青草视频是针对华人| 亚洲日韩国产av无码无码精品| 国产超碰人人模人人爽人人喊| 99精品国产第一福利网站| 最好的99精品色视频大全在线 | 日本做受高潮好舒服视频| 中国精品视频一区二区三区| 丰满熟女人妻一区二区三区| 日本在线精品一区二区三区| 亚洲av高清在线一区二区三区| 国产亚洲精品成人无码精品网站| 性感人妻av在线播放| 日韩精品视频免费网站| 色综合色狠狠天天综合色| 99久久人妻无码精品系列蜜桃 | 国产精品高清网站| 香蕉久久福利院|