亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)湖的高校大數(shù)據(jù)管理體系和處理機(jī)制研究

        2020-06-04 09:39:03谷洪彬楊希魏孔鵬
        計(jì)算機(jī)時(shí)代 2020年5期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        谷洪彬 楊希 魏孔鵬

        摘? 要: 針對高校本身業(yè)務(wù)系統(tǒng)帶來的不同結(jié)構(gòu)海量數(shù)據(jù)的存儲(chǔ)管理和高效利用問題,通過比較新興的數(shù)據(jù)湖技術(shù)和傳統(tǒng)的數(shù)據(jù)倉庫的區(qū)別,構(gòu)建了基于數(shù)據(jù)湖的高校數(shù)據(jù)管理體系和數(shù)據(jù)處理機(jī)制,為高校的數(shù)據(jù)治理提供了數(shù)據(jù)層的存儲(chǔ)支持,為使用機(jī)器學(xué)習(xí)方法進(jìn)行大數(shù)據(jù)分析提供了非結(jié)構(gòu)化數(shù)據(jù)來源。

        關(guān)鍵詞: 高校大數(shù)據(jù); 數(shù)據(jù)湖; 數(shù)據(jù)管理體系; 數(shù)據(jù)處理機(jī)制; 機(jī)器學(xué)習(xí)

        Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.

        Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning

        0 引言

        物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、移動(dòng)計(jì)算、人工智能正越來越多地進(jìn)入人們的日常工作和生活中,這些技術(shù)潛移默化地影響著人們的生活和工作方式,也對高校的信息化建設(shè)提出了更高的要求。高校信息化建設(shè)過程中各種網(wǎng)絡(luò)設(shè)備和應(yīng)用系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),“以數(shù)據(jù)為核心資產(chǎn)、以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)革新”的發(fā)展方式已成為高校邁進(jìn)更高層次的必然趨勢。對于傳統(tǒng)的來自事務(wù)系統(tǒng)、運(yùn)營數(shù)據(jù)庫和業(yè)務(wù)應(yīng)用的關(guān)系型數(shù)據(jù),數(shù)據(jù)倉庫可以滿足高校數(shù)據(jù)治理和存儲(chǔ)的要求,但是隨著信息化建設(shè)的進(jìn)展,來自物聯(lián)網(wǎng)設(shè)備、網(wǎng)站、移動(dòng)應(yīng)用程序、社交媒體和企業(yè)應(yīng)用程序的非關(guān)系型數(shù)據(jù)越來越多,很難存儲(chǔ)在數(shù)據(jù)倉庫中,而且隨著人工智能在高校中的發(fā)展和應(yīng)用,人工智能需要處理的多數(shù)是這些非關(guān)系型數(shù)據(jù),對數(shù)據(jù)治理和存儲(chǔ)提出了更高的要求。近年出現(xiàn)的數(shù)據(jù)湖技術(shù)能同時(shí)滿足關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù)的存儲(chǔ),同時(shí)在性價(jià)比、數(shù)據(jù)質(zhì)量、適用用戶類型、數(shù)據(jù)分析領(lǐng)域、靈活性等方面也優(yōu)于數(shù)據(jù)倉庫。本文探討了如何利用數(shù)據(jù)湖技術(shù)構(gòu)建高校數(shù)據(jù)管理機(jī)制和數(shù)據(jù)處理機(jī)制。

        1 數(shù)據(jù)湖的概念

        數(shù)據(jù)湖是一個(gè)集中式存儲(chǔ)庫,允許用戶以任意規(guī)模存儲(chǔ)所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。用戶可以按原樣存儲(chǔ)數(shù)據(jù)(無需先對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理),并運(yùn)行不同類型的分析-從控制面板和可視化,到大數(shù)據(jù)處理、實(shí)時(shí)分析和機(jī)器學(xué)習(xí),以輔助管理者做出更好的決策。

        對于高校的應(yīng)用,對傳統(tǒng)業(yè)務(wù)系統(tǒng)之外的數(shù)據(jù),比如來自物聯(lián)網(wǎng)、移動(dòng)設(shè)備、網(wǎng)絡(luò)日志、視頻監(jiān)控等的數(shù)據(jù)——多數(shù)是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,而人工智能技術(shù)所擅長處理的正是這些類型的數(shù)據(jù),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法可以對這些數(shù)據(jù)進(jìn)行建模、訓(xùn)練和驗(yàn)證,得出數(shù)據(jù)之間的關(guān)聯(lián)性或者因果推斷關(guān)系來建立模型進(jìn)行分析和預(yù)測,為高校管理和決策提供數(shù)據(jù)支持。

        2 數(shù)據(jù)湖與數(shù)據(jù)倉庫

        數(shù)據(jù)倉庫和數(shù)據(jù)湖可以滿足不同組織的不同需求和使用案例。

        數(shù)據(jù)倉庫是一個(gè)優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)應(yīng)用程序的關(guān)系型數(shù)據(jù)。事先定義數(shù)據(jù)結(jié)構(gòu)和Schema,以優(yōu)化快速SQL查詢,其結(jié)果通常用于報(bào)告和分析。經(jīng)過清理、豐富和轉(zhuǎn)換的數(shù)據(jù)可以充當(dāng)用戶可信任的“單一信息源”。

        數(shù)據(jù)湖有所不同,它存儲(chǔ)來自業(yè)務(wù)應(yīng)用程序的關(guān)系型數(shù)據(jù),以及來自移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的非關(guān)系型數(shù)據(jù)。捕獲數(shù)據(jù)時(shí),不事先定義數(shù)據(jù)結(jié)構(gòu)或Schema。這意味著用戶可以存儲(chǔ)所有數(shù)據(jù),而不需要精心設(shè)計(jì)也無需知道將來用戶可能的數(shù)據(jù)需求。數(shù)據(jù)湖中存儲(chǔ)的數(shù)據(jù)可以包括結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫)、半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON的日志)、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件、文檔、PDF)、二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)[2]。用戶可以對數(shù)據(jù)使用不同類型的操作(如 SQL 查詢、大數(shù)據(jù)分析、全文搜索、實(shí)時(shí)分析和機(jī)器學(xué)習(xí))來獲得分析結(jié)果。

        用數(shù)據(jù)湖替代數(shù)據(jù)倉庫作為高校數(shù)據(jù)存儲(chǔ)的技術(shù)手段,是因?yàn)楫?dāng)前高校所擁有的和希望分析的數(shù)據(jù)類型不再只局限于關(guān)系型數(shù)據(jù)。表1列出了數(shù)據(jù)湖和數(shù)據(jù)倉庫在數(shù)據(jù)來源、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)等方面的區(qū)別[1,3,4]。

        組織構(gòu)建數(shù)據(jù)湖和分析平臺(tái)時(shí),需要考慮以下的關(guān)鍵功能。

        ⑴ 數(shù)據(jù)移動(dòng)

        數(shù)據(jù)湖允許用戶導(dǎo)入任何數(shù)量的實(shí)時(shí)數(shù)據(jù)。用戶可以從多個(gè)來源收集數(shù)據(jù),并以其原始形式將其移入到數(shù)據(jù)湖中。此過程允許用戶擴(kuò)展到任何規(guī)模的數(shù)據(jù),同時(shí)節(jié)省定義數(shù)據(jù)結(jié)構(gòu)、Schema和轉(zhuǎn)換的時(shí)間。

        ⑵ 安全地存儲(chǔ)和編目數(shù)據(jù)

        數(shù)據(jù)湖允許用戶存儲(chǔ)關(guān)系數(shù)據(jù)(例如,來自業(yè)務(wù)應(yīng)用程序的運(yùn)營數(shù)據(jù)庫和數(shù)據(jù))和非關(guān)系數(shù)據(jù)(例如,來自移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的運(yùn)營數(shù)據(jù)庫和數(shù)據(jù))。它們還使用戶能夠通過對數(shù)據(jù)進(jìn)行爬網(wǎng)、編目和建立索引來了解湖中的數(shù)據(jù)。最后,必須保護(hù)數(shù)據(jù)以確保用戶的數(shù)據(jù)資產(chǎn)受到保護(hù)。

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        国产精品妇女一区二区三区| 中文字幕亚洲无线码a| 日本一区二区三深夜不卡| 国产激情视频在线观看大全| 成年女人a级毛片免费观看| 欧美性猛交xxxx黑人猛交| 日本理论片一区二区三区| 日韩一区中文字幕在线| 在线观看av网站永久| 亚洲丁香五月天缴情综合| 欧美成人精品三级在线观看| 亚洲成av人片在久久性色av| 精品一区二区三区四区国产| 日日摸天天摸人人看| 亚洲日韩一区二区一无码| 自拍偷拍另类三级三色四色| 亚洲一区在线观看中文字幕| 日本爽快片18禁免费看| 精品国产亚洲一区二区三区演员表 | 国产亚洲日韩在线三区| 国内精品久久久久久久亚洲| 手机av在线播放网站| 亚洲午夜成人精品无码色欲 | av网页在线免费观看| 性av一区二区三区免费| 老师粉嫩小泬喷水视频90| 国产美女69视频免费观看| 亚洲一区二区三区18| 国产精品天干天干综合网| 欧洲-级毛片内射| 久久久亚洲精品免费视频| 亚洲av无一区二区三区久久蜜桃| 蜜桃视频无码区在线观看| 天天狠天天透天干天天| 国产人妖在线观看一区二区三区| 国语自产偷拍在线观看| 波多野结衣亚洲一区二区三区| 国产三级av在线播放| 亚洲av福利天堂一区二区三| 欧美老妇与zozoz0交| 亚洲乱色视频在线观看|