亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)湖的高校大數(shù)據(jù)管理體系和處理機(jī)制研究

        2020-06-04 09:39:03谷洪彬楊希魏孔鵬
        計(jì)算機(jī)時(shí)代 2020年5期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        谷洪彬 楊希 魏孔鵬

        摘? 要: 針對高校本身業(yè)務(wù)系統(tǒng)帶來的不同結(jié)構(gòu)海量數(shù)據(jù)的存儲(chǔ)管理和高效利用問題,通過比較新興的數(shù)據(jù)湖技術(shù)和傳統(tǒng)的數(shù)據(jù)倉庫的區(qū)別,構(gòu)建了基于數(shù)據(jù)湖的高校數(shù)據(jù)管理體系和數(shù)據(jù)處理機(jī)制,為高校的數(shù)據(jù)治理提供了數(shù)據(jù)層的存儲(chǔ)支持,為使用機(jī)器學(xué)習(xí)方法進(jìn)行大數(shù)據(jù)分析提供了非結(jié)構(gòu)化數(shù)據(jù)來源。

        關(guān)鍵詞: 高校大數(shù)據(jù); 數(shù)據(jù)湖; 數(shù)據(jù)管理體系; 數(shù)據(jù)處理機(jī)制; 機(jī)器學(xué)習(xí)

        Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.

        Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning

        0 引言

        物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、移動(dòng)計(jì)算、人工智能正越來越多地進(jìn)入人們的日常工作和生活中,這些技術(shù)潛移默化地影響著人們的生活和工作方式,也對高校的信息化建設(shè)提出了更高的要求。高校信息化建設(shè)過程中各種網(wǎng)絡(luò)設(shè)備和應(yīng)用系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),“以數(shù)據(jù)為核心資產(chǎn)、以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)革新”的發(fā)展方式已成為高校邁進(jìn)更高層次的必然趨勢。對于傳統(tǒng)的來自事務(wù)系統(tǒng)、運(yùn)營數(shù)據(jù)庫和業(yè)務(wù)應(yīng)用的關(guān)系型數(shù)據(jù),數(shù)據(jù)倉庫可以滿足高校數(shù)據(jù)治理和存儲(chǔ)的要求,但是隨著信息化建設(shè)的進(jìn)展,來自物聯(lián)網(wǎng)設(shè)備、網(wǎng)站、移動(dòng)應(yīng)用程序、社交媒體和企業(yè)應(yīng)用程序的非關(guān)系型數(shù)據(jù)越來越多,很難存儲(chǔ)在數(shù)據(jù)倉庫中,而且隨著人工智能在高校中的發(fā)展和應(yīng)用,人工智能需要處理的多數(shù)是這些非關(guān)系型數(shù)據(jù),對數(shù)據(jù)治理和存儲(chǔ)提出了更高的要求。近年出現(xiàn)的數(shù)據(jù)湖技術(shù)能同時(shí)滿足關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù)的存儲(chǔ),同時(shí)在性價(jià)比、數(shù)據(jù)質(zhì)量、適用用戶類型、數(shù)據(jù)分析領(lǐng)域、靈活性等方面也優(yōu)于數(shù)據(jù)倉庫。本文探討了如何利用數(shù)據(jù)湖技術(shù)構(gòu)建高校數(shù)據(jù)管理機(jī)制和數(shù)據(jù)處理機(jī)制。

        1 數(shù)據(jù)湖的概念

        數(shù)據(jù)湖是一個(gè)集中式存儲(chǔ)庫,允許用戶以任意規(guī)模存儲(chǔ)所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。用戶可以按原樣存儲(chǔ)數(shù)據(jù)(無需先對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理),并運(yùn)行不同類型的分析-從控制面板和可視化,到大數(shù)據(jù)處理、實(shí)時(shí)分析和機(jī)器學(xué)習(xí),以輔助管理者做出更好的決策。

        對于高校的應(yīng)用,對傳統(tǒng)業(yè)務(wù)系統(tǒng)之外的數(shù)據(jù),比如來自物聯(lián)網(wǎng)、移動(dòng)設(shè)備、網(wǎng)絡(luò)日志、視頻監(jiān)控等的數(shù)據(jù)——多數(shù)是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,而人工智能技術(shù)所擅長處理的正是這些類型的數(shù)據(jù),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法可以對這些數(shù)據(jù)進(jìn)行建模、訓(xùn)練和驗(yàn)證,得出數(shù)據(jù)之間的關(guān)聯(lián)性或者因果推斷關(guān)系來建立模型進(jìn)行分析和預(yù)測,為高校管理和決策提供數(shù)據(jù)支持。

        2 數(shù)據(jù)湖與數(shù)據(jù)倉庫

        數(shù)據(jù)倉庫和數(shù)據(jù)湖可以滿足不同組織的不同需求和使用案例。

        數(shù)據(jù)倉庫是一個(gè)優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)應(yīng)用程序的關(guān)系型數(shù)據(jù)。事先定義數(shù)據(jù)結(jié)構(gòu)和Schema,以優(yōu)化快速SQL查詢,其結(jié)果通常用于報(bào)告和分析。經(jīng)過清理、豐富和轉(zhuǎn)換的數(shù)據(jù)可以充當(dāng)用戶可信任的“單一信息源”。

        數(shù)據(jù)湖有所不同,它存儲(chǔ)來自業(yè)務(wù)應(yīng)用程序的關(guān)系型數(shù)據(jù),以及來自移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的非關(guān)系型數(shù)據(jù)。捕獲數(shù)據(jù)時(shí),不事先定義數(shù)據(jù)結(jié)構(gòu)或Schema。這意味著用戶可以存儲(chǔ)所有數(shù)據(jù),而不需要精心設(shè)計(jì)也無需知道將來用戶可能的數(shù)據(jù)需求。數(shù)據(jù)湖中存儲(chǔ)的數(shù)據(jù)可以包括結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫)、半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON的日志)、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件、文檔、PDF)、二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)[2]。用戶可以對數(shù)據(jù)使用不同類型的操作(如 SQL 查詢、大數(shù)據(jù)分析、全文搜索、實(shí)時(shí)分析和機(jī)器學(xué)習(xí))來獲得分析結(jié)果。

        用數(shù)據(jù)湖替代數(shù)據(jù)倉庫作為高校數(shù)據(jù)存儲(chǔ)的技術(shù)手段,是因?yàn)楫?dāng)前高校所擁有的和希望分析的數(shù)據(jù)類型不再只局限于關(guān)系型數(shù)據(jù)。表1列出了數(shù)據(jù)湖和數(shù)據(jù)倉庫在數(shù)據(jù)來源、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)等方面的區(qū)別[1,3,4]。

        組織構(gòu)建數(shù)據(jù)湖和分析平臺(tái)時(shí),需要考慮以下的關(guān)鍵功能。

        ⑴ 數(shù)據(jù)移動(dòng)

        數(shù)據(jù)湖允許用戶導(dǎo)入任何數(shù)量的實(shí)時(shí)數(shù)據(jù)。用戶可以從多個(gè)來源收集數(shù)據(jù),并以其原始形式將其移入到數(shù)據(jù)湖中。此過程允許用戶擴(kuò)展到任何規(guī)模的數(shù)據(jù),同時(shí)節(jié)省定義數(shù)據(jù)結(jié)構(gòu)、Schema和轉(zhuǎn)換的時(shí)間。

        ⑵ 安全地存儲(chǔ)和編目數(shù)據(jù)

        數(shù)據(jù)湖允許用戶存儲(chǔ)關(guān)系數(shù)據(jù)(例如,來自業(yè)務(wù)應(yīng)用程序的運(yùn)營數(shù)據(jù)庫和數(shù)據(jù))和非關(guān)系數(shù)據(jù)(例如,來自移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的運(yùn)營數(shù)據(jù)庫和數(shù)據(jù))。它們還使用戶能夠通過對數(shù)據(jù)進(jìn)行爬網(wǎng)、編目和建立索引來了解湖中的數(shù)據(jù)。最后,必須保護(hù)數(shù)據(jù)以確保用戶的數(shù)據(jù)資產(chǎn)受到保護(hù)。

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        国产亚洲精品aaaa片app| 黄污在线观看一区二区三区三州| 五月色丁香婷婷网蜜臀av| 免费看黄色电影| 国产av成人精品播放| 亚洲av精品一区二区三| 久久狼精品一区二区三区| 亚洲av无码一区二区三区乱子伦| 精品乱码久久久久久中文字幕| 超碰观看| 日本一区二区不卡二区| 夜夜高潮夜夜爽国产伦精品| 国产成人久久精品77777综合| 韩国女主播一区二区在线观看| 中文字幕专区一区二区| 97丨九色丨国产人妻熟女| 男女一边摸一边做爽爽的免费阅读| 亚洲精品美女久久久久久久| 国内精品嫩模av私拍在线观看| 国产精品黑丝高跟在线粉嫩| 尤物网址在线观看| 91久久久久无码精品露脸| 女同中文字幕在线观看| 国产成人久久精品一区二区三区| 少妇饥渴偷公乱a级无码| 伊人久久亚洲综合影院首页| av免费在线观看网站大全| 26uuu在线亚洲欧美| 亚洲一线二线三线写真| 亚洲av成人一区二区三区网址| 亚洲av一二三四五区在线| 国产精品视频一区二区三区不卡| 初尝黑人巨砲波多野结衣| 无码AV无码免费一区二区| 99久久久人妻熟妇精品一区二区| 国产草草影院ccyycom| 国产精选免在线观看| 久久狠狠髙潮曰十八女人| 人妻体内射精一区二区三区| 最近中文字幕视频高清| 国产精品亚洲一区二区极品|