亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)湖

        2017-03-06 16:43:02郭文惠
        電腦知識與技術(shù) 2016年30期
        關(guān)鍵詞:文本

        郭文惠

        摘要:“數(shù)據(jù)湖”是通過將原始數(shù)據(jù)分類存儲到不同數(shù)據(jù)池,并在各數(shù)據(jù)池里將數(shù)據(jù)整合轉(zhuǎn)化成容易分析的統(tǒng)一存儲格式進(jìn)行存儲,以方便用戶對大量原始數(shù)據(jù)池中原本幾近廢棄的數(shù)據(jù)加以分析利用,從而產(chǎn)生經(jīng)濟(jì)效益。該文首先介紹了數(shù)據(jù)湖的結(jié)構(gòu),其次介紹了數(shù)據(jù)湖中各數(shù)據(jù)池的特點及應(yīng)用;最后介紹了各數(shù)據(jù)池之間的聯(lián)系并舉例說明了數(shù)據(jù)湖的架構(gòu)。

        關(guān)鍵詞:數(shù)據(jù)湖;數(shù)據(jù)池

        中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)30-0004-03

        隨著計算機(jī)技術(shù)的迅速發(fā)展,數(shù)據(jù)量日益增多,因而大數(shù)據(jù)管理[3]也是大數(shù)據(jù)發(fā)展中的一大挑戰(zhàn)。數(shù)據(jù)池可存儲大量不同來源、格式各異的數(shù)據(jù)的存儲空間,而數(shù)據(jù)湖[1,2,5]則是包含多個數(shù)據(jù)池的存儲空間,而且每個數(shù)據(jù)池中的數(shù)據(jù)都是來源相同并在池內(nèi)進(jìn)行整合形成格式統(tǒng)一的數(shù)據(jù)。目前使用的數(shù)據(jù)湖大多都是單向的,即這些數(shù)據(jù)湖的功能只是存儲大量廢棄數(shù)據(jù),因未對其中數(shù)據(jù)進(jìn)行分類、整合[3,4],故無法將這些數(shù)據(jù)提取并加以利用。原因有如下三點:一是這些廢棄數(shù)據(jù)存儲到數(shù)據(jù)湖中時沒有對其進(jìn)行類別標(biāo)記;二是存儲時沒有對同類數(shù)據(jù)進(jìn)行整合;三是數(shù)據(jù)存儲為文本方式,給數(shù)據(jù)分析帶來困難。

        為使得數(shù)據(jù)湖不再是“數(shù)據(jù)沼澤[6]”,本文將介紹一種雙向數(shù)據(jù)湖,即既可存儲數(shù)據(jù)又可對數(shù)據(jù)湖中的數(shù)據(jù)加以分析和使用,方法是將單向數(shù)據(jù)湖分割為五個不同類型的數(shù)據(jù)池,包括原始數(shù)據(jù)池、模擬數(shù)據(jù)池、應(yīng)用數(shù)據(jù)池、文本數(shù)據(jù)池和檔案數(shù)據(jù)池,分別用來存儲不同類型的數(shù)據(jù)并對它們之間建立聯(lián)系來共享信息。用戶可大量提取數(shù)據(jù)湖中的數(shù)據(jù),找出數(shù)據(jù)間的聯(lián)系,進(jìn)而用于特定的商業(yè)分析。

        1 數(shù)據(jù)池

        數(shù)據(jù)池是用來存放數(shù)據(jù)的,一個數(shù)據(jù)池中一般包含如下幾種數(shù)據(jù):

        目標(biāo)數(shù)據(jù):數(shù)據(jù)池內(nèi)存儲的真正能對其加以分析使用的數(shù)據(jù)。

        池元數(shù)據(jù):是描述池內(nèi)數(shù)據(jù)物理特性的數(shù)據(jù),如:數(shù)據(jù)的存儲結(jié)構(gòu)和數(shù)據(jù)池的組成等。

        元處理過程:是說明將數(shù)據(jù)池內(nèi)的原始數(shù)據(jù)轉(zhuǎn)化為可用的標(biāo)準(zhǔn)化數(shù)據(jù)的步驟的文件。

        數(shù)據(jù)轉(zhuǎn)化標(biāo)準(zhǔn):是說明轉(zhuǎn)化原始數(shù)據(jù)時應(yīng)遵循的標(biāo)準(zhǔn)的文件。

        池描述:池描述包含對數(shù)據(jù)池的外部描述和內(nèi)部描述。外部描述包括數(shù)據(jù)池的功能、大小等。內(nèi)部描述包括數(shù)據(jù)池內(nèi)數(shù)據(jù)的來源、體積、更新頻率、提取、轉(zhuǎn)化及其標(biāo)準(zhǔn)以及數(shù)據(jù)之間的聯(lián)系等。

        池目標(biāo):池目標(biāo)是說明池內(nèi)的數(shù)據(jù)未來可能要用于什么樣的商業(yè)活動,是將數(shù)據(jù)標(biāo)準(zhǔn)化的依據(jù)。

        1.1原始數(shù)據(jù)池

        原始數(shù)據(jù)池是一種單一數(shù)據(jù)湖。它僅僅是存儲大量原始數(shù)據(jù),不對其進(jìn)行任何處理,但難以從中提取出想要的數(shù)據(jù)并使用它。

        原始數(shù)據(jù)池中的數(shù)據(jù)需要進(jìn)行分類存儲,這樣可方便用戶提取所需數(shù)據(jù)。故需構(gòu)建模擬數(shù)據(jù)池、應(yīng)用數(shù)據(jù)池和文本數(shù)據(jù)池。

        1.2 模擬數(shù)據(jù)池

        模擬數(shù)據(jù)池是專門用來存放模擬數(shù)據(jù)的數(shù)據(jù)池,將模擬數(shù)據(jù)從原始數(shù)據(jù)池提取到模擬數(shù)據(jù)池中,并將提取到的數(shù)據(jù)轉(zhuǎn)化成統(tǒng)一并易于用戶使用的格式。

        模擬數(shù)據(jù)是由機(jī)械設(shè)備產(chǎn)生的數(shù)據(jù),一般為測量數(shù)據(jù),如溫度、濕度、重量等,通常存儲在記錄磁帶或日志磁帶中。而這類數(shù)據(jù)通常存在兩大問題。第一,數(shù)據(jù)量龐大;第二,會丟失一些參數(shù),不利于數(shù)據(jù)分析。因此需要將模擬數(shù)據(jù)池中的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,以便加以利用。

        1.2.1 模擬數(shù)據(jù)池中數(shù)據(jù)的轉(zhuǎn)化

        一般對模擬數(shù)據(jù)池中數(shù)據(jù)進(jìn)行簡化,只保留真正有用的記錄,以減少存儲空間。常用方法如下:刪除重復(fù)數(shù)據(jù)、數(shù)據(jù)壓縮、內(nèi)插、過濾、抽樣、近似、編碼、分類、設(shè)閾值等。通過以上方法減少數(shù)據(jù)種類,最后整合[3,4]分類存儲于模擬數(shù)據(jù)池中以待后續(xù)使用。

        1.3 應(yīng)用數(shù)據(jù)池

        應(yīng)用數(shù)據(jù)是執(zhí)行一個應(yīng)用或事務(wù)時產(chǎn)生的數(shù)據(jù),如銷售數(shù)據(jù)、支付數(shù)據(jù)、制造過程控制數(shù)據(jù)、貨物裝運數(shù)據(jù)、庫存管理數(shù)據(jù)等。應(yīng)用數(shù)據(jù)池是專門用來存放應(yīng)用數(shù)據(jù)的,是以標(biāo)準(zhǔn)數(shù)據(jù)庫的數(shù)據(jù)格式存入應(yīng)用數(shù)據(jù)池中。所有應(yīng)用數(shù)據(jù)池里的記錄都要進(jìn)行數(shù)據(jù)集成[7],以使公司業(yè)務(wù)領(lǐng)域統(tǒng)一,集成[5]過程與模擬數(shù)據(jù)池中的數(shù)據(jù)轉(zhuǎn)化類似。為了對應(yīng)用數(shù)據(jù)池里的數(shù)據(jù)進(jìn)行數(shù)據(jù)集成,通常首先需建立數(shù)據(jù)模型,然后據(jù)此模型進(jìn)行數(shù)據(jù)集成。

        1.4 文本數(shù)據(jù)池

        文本數(shù)據(jù)池是用來存放文本數(shù)據(jù)的數(shù)據(jù)池,其原始數(shù)據(jù)是一些來源不同、形式各異的文本數(shù)據(jù),如:郵件、錄音,甚至是一些物理設(shè)備(如光識別技術(shù))產(chǎn)生的數(shù)據(jù)。類似于其他數(shù)據(jù)池,一旦原始數(shù)據(jù)進(jìn)入文本數(shù)據(jù)池后,在文本數(shù)據(jù)池中就要對它進(jìn)行標(biāo)準(zhǔn)化即文本消歧。其主要規(guī)則如下:

        l 文本由形式各異、結(jié)構(gòu)混亂的狀態(tài)變?yōu)楦袷浇y(tǒng)一、可直接使用的狀態(tài);

        l 文本消歧后不得改變文本原來的含義。

        在文本數(shù)據(jù)池中,數(shù)據(jù)可按情感分類進(jìn)行存儲,首先在文本數(shù)據(jù)池中預(yù)先設(shè)定不同情感類別,當(dāng)一個新的文本進(jìn)入數(shù)據(jù)池時,情感通過機(jī)器學(xué)習(xí)根據(jù)上下文語境確定其情感色彩,然后與數(shù)據(jù)池中的情感類別進(jìn)行比對,找到相應(yīng)類別時,就將之存儲為一類。

        1.5 文檔數(shù)據(jù)池

        文檔數(shù)據(jù)池主要存儲來自模擬數(shù)據(jù)池、應(yīng)用數(shù)據(jù)池、文本數(shù)據(jù)池中未來使用概率較小的數(shù)據(jù)。所有進(jìn)入檔案數(shù)據(jù)池中的數(shù)據(jù)都要重新對其進(jìn)行標(biāo)準(zhǔn)化操作,使該數(shù)據(jù)直接與原始數(shù)據(jù)聯(lián)系起來,保證當(dāng)用戶日后使用該數(shù)據(jù)的時候,其元數(shù)據(jù)和元操作過程都不至丟失。

        1.6 各數(shù)據(jù)池之間的聯(lián)系

        數(shù)據(jù)湖中各數(shù)據(jù)池是緊密相連的。一個數(shù)據(jù)進(jìn)入數(shù)據(jù)湖中首先進(jìn)入原始數(shù)據(jù)池,然后根據(jù)其類別被提取到模擬數(shù)據(jù)池、應(yīng)用數(shù)據(jù)池或文本數(shù)據(jù)池中,在數(shù)據(jù)池中對其進(jìn)行標(biāo)準(zhǔn)化后再根據(jù)未來使用概率的大小決定是存儲在本數(shù)據(jù)池中或文本數(shù)據(jù)池中,最后將未來使用概率較小的數(shù)據(jù)存儲在文檔數(shù)據(jù)池中并重新對其標(biāo)準(zhǔn)化。

        2 數(shù)據(jù)湖的實現(xiàn)

        目前,實現(xiàn)數(shù)據(jù)湖常用的手段是Hadoop。進(jìn)化后的Hadoop數(shù)據(jù)管理架構(gòu)依托Apache Falcon數(shù)據(jù)管理平臺,將數(shù)據(jù)群與程序,運算規(guī)則、顯示器和歷史記錄聯(lián)系到一起,完成數(shù)據(jù)湖的使用目標(biāo)。下面以GE數(shù)據(jù)湖平臺[1]為例說明數(shù)據(jù)湖的實現(xiàn)。

        GE工業(yè)數(shù)據(jù)湖體系將數(shù)據(jù)的管理、運算和存儲進(jìn)行預(yù)先規(guī)劃,它將優(yōu)化整個程序鏈上的信息負(fù)載量。首先,他將優(yōu)化關(guān)鍵任務(wù)工作負(fù)載,為產(chǎn)業(yè)互聯(lián)網(wǎng)應(yīng)用提供信息,以解決服務(wù)等級協(xié)議(SLA)中的重點;其次,它能夠快速的錄入、存儲和計算各種運算數(shù)據(jù)以支持多個模式和數(shù)據(jù)類型;再次,它可以進(jìn)行高性能數(shù)據(jù)分析;最后,數(shù)據(jù)湖將對數(shù)據(jù)進(jìn)行管理并形成數(shù)據(jù)連接。表1是GE工業(yè)數(shù)據(jù)湖所使用的Hadoop系統(tǒng)。

        3 使用數(shù)據(jù)湖進(jìn)行數(shù)據(jù)分析

        問題的分析過程大致分為兩步:搜集數(shù)據(jù)和分析數(shù)據(jù)。

        首先,通過機(jī)器學(xué)習(xí)(Machine Learning)和概念搜索(Concept Search)在數(shù)據(jù)湖中搜集那些標(biāo)準(zhǔn)不清晰的數(shù)據(jù)。查找方法有很多種,比如,首先查找數(shù)據(jù)的限制因素,然后檢查數(shù)據(jù)標(biāo)簽,最后找到大量的數(shù)據(jù)。

        其次,由于數(shù)據(jù)湖中的數(shù)據(jù)是以一種統(tǒng)一的、適合一般用戶直接提取用作分析使用的格式存儲的,故當(dāng)用戶搜索到目標(biāo)數(shù)據(jù)時,便可將其直接植入業(yè)務(wù)開始對數(shù)據(jù)進(jìn)行分析。分析方法有如下幾種:1)對數(shù)據(jù)進(jìn)行簡單排序,突出顯示重要數(shù)據(jù);2)匯總數(shù)據(jù),找回丟失的數(shù)據(jù);3)比較數(shù)據(jù);4)去除奇異值;5)數(shù)據(jù)可視化[8,9,10]。

        總之,將數(shù)據(jù)進(jìn)行分類存儲于不同數(shù)據(jù)池中,然后將各數(shù)據(jù)池中的數(shù)據(jù)以統(tǒng)一的標(biāo)準(zhǔn)格式進(jìn)行存儲,把不可用數(shù)據(jù)變?yōu)榭捎脭?shù)據(jù),帶給用戶極大的搜索便捷和商業(yè)價值。

        4 總結(jié)與展望

        數(shù)據(jù)湖實現(xiàn)了把原始數(shù)據(jù)按類存儲到不同的數(shù)據(jù)池中,并在各數(shù)據(jù)池中將其中數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的可直接提取進(jìn)行分析使用的格式進(jìn)行存儲。它的產(chǎn)生具有極大的商業(yè)價值。首先它把不同種類的數(shù)據(jù)匯集到了一起。其次它將很多原本無法用作分析的數(shù)據(jù)變得不需要預(yù)定義的模型就可以提取使用,對大數(shù)據(jù)分析做出了極大貢獻(xiàn)。然而數(shù)據(jù)湖架構(gòu)也存在這多方面的挑戰(zhàn),其一,數(shù)據(jù)湖中很多數(shù)據(jù)永遠(yuǎn)不會刪除,所需存儲空間架構(gòu)龐大。其二,信息安全問題。數(shù)據(jù)湖架構(gòu)可看作是將所有雞蛋放進(jìn)一個籃子里,如果其中一個數(shù)據(jù)池的安全被破壞,那么數(shù)據(jù)湖中所有數(shù)據(jù)將可能被訪問。故,我們還需要在數(shù)據(jù)湖的存儲和安全方面作更多工作。

        參考文獻(xiàn):

        [1] 王一揚.GE的工業(yè)數(shù)據(jù)湖平臺[J].新理財,2015:45-46.

        [2] Walker,Coral,Personal Data Lake with Data Gravity Pull[C].5th IEEE International Conference on Big Data and Cloud Computing, BDCloud 2015:160-173.

        [3] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013,50(1),146-169.

        [4] 白如江,冷伏海.“大數(shù)據(jù)”時代科學(xué)數(shù)據(jù)整合研究[J],情報理論與實踐(ITA),2014 (37):94-99.

        [5] Sun, Dapeng (1). Big data learning resources integration and processing in cloud environments[J]. Journal of Chemical and Pharmaceutical Research,2014,6(5):936-943.

        [6] 邱燕娜.數(shù)據(jù)湖不能成為數(shù)據(jù)沼澤[N].中國計算機(jī)報,20159(28):011.

        [7] 張曉劍.基于數(shù)據(jù)池的異構(gòu)數(shù)據(jù)集成[J].微處理機(jī),2009(2):61-66.

        [8] 何清,李寧.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識別與人工智能,2014,27(4):327-336.

        [9] 齊紅.基于搜索空間劃分的概念生成算法[J].軟件學(xué)報,2005,16(12):2029-2035.

        [10] 張健.與計算服務(wù)等級協(xié)議(SLA)研究[J].電信網(wǎng)技術(shù),2012(2):7-10.

        [11]丁兆明,杜學(xué)軍,王治平,等.大數(shù)據(jù)存儲和分析技術(shù)應(yīng)用及標(biāo)準(zhǔn)化[J].大數(shù)據(jù)與云計算標(biāo)準(zhǔn)研究專題,2013(5):31-35.

        [12] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考*[J].中國科學(xué)院院刊.2012.27(6):647-657.

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點:論述類文本閱讀
        重點:實用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        无码专区一ⅴa亚洲v天堂| 亚洲一级无码AV毛片久久| 中文字幕日本五十路熟女| 国产亚洲精品97在线视频一| 精品无码国产一区二区三区av| 国产喷水福利在线视频| 国产欧美日本亚洲精品一5区| 亚洲中文字幕一区二区在线| 成人爽a毛片免费视频| 无码人妻精品一区二区三区在线| a级国产精品片在线观看| 亚洲精彩av大片在线观看| 国产精品无码dvd在线观看| 午夜丰满少妇性开放视频| 久久婷婷国产精品香蕉| 日本女优久久精品观看| 免费av一区二区三区无码| 精品无码专区久久久水蜜桃| 最新国产美女一区二区三区| 国产黄色一区二区在线看| 中文天堂国产最新| 国产福利免费看| 国产美女高潮流白浆免费观看| 人妻一区二区三区av| 午夜内射中出视频| 91精品国产福利尤物免费| 成人av一区二区亚洲精| 三个男吃我奶头一边一个视频| 亚洲国产成人va在线观看天堂| 完整在线视频免费黄片| 久久亚洲精品国产av| 97人妻精品一区二区三区| XXXXBBBB欧美| 亚洲精品国产av成人网| 国产成a人亚洲精品无码樱花| 久久久久久成人毛片免费看| 亚洲va中文字幕欧美不卡| 虎白m粉嫩小在线播放| 人妻丝袜av中文系列先锋影音 | 日本精品少妇一区二区| 欲色天天网综合久久|