亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)湖的高校大數(shù)據(jù)管理體系和處理機(jī)制研究

        2020-06-04 09:39:03谷洪彬楊希魏孔鵬
        計(jì)算機(jī)時(shí)代 2020年5期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        谷洪彬 楊希 魏孔鵬

        摘? 要: 針對高校本身業(yè)務(wù)系統(tǒng)帶來的不同結(jié)構(gòu)海量數(shù)據(jù)的存儲(chǔ)管理和高效利用問題,通過比較新興的數(shù)據(jù)湖技術(shù)和傳統(tǒng)的數(shù)據(jù)倉庫的區(qū)別,構(gòu)建了基于數(shù)據(jù)湖的高校數(shù)據(jù)管理體系和數(shù)據(jù)處理機(jī)制,為高校的數(shù)據(jù)治理提供了數(shù)據(jù)層的存儲(chǔ)支持,為使用機(jī)器學(xué)習(xí)方法進(jìn)行大數(shù)據(jù)分析提供了非結(jié)構(gòu)化數(shù)據(jù)來源。

        關(guān)鍵詞: 高校大數(shù)據(jù); 數(shù)據(jù)湖; 數(shù)據(jù)管理體系; 數(shù)據(jù)處理機(jī)制; 機(jī)器學(xué)習(xí)

        Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.

        Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning

        0 引言

        物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、移動(dòng)計(jì)算、人工智能正越來越多地進(jìn)入人們的日常工作和生活中,這些技術(shù)潛移默化地影響著人們的生活和工作方式,也對高校的信息化建設(shè)提出了更高的要求。高校信息化建設(shè)過程中各種網(wǎng)絡(luò)設(shè)備和應(yīng)用系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),“以數(shù)據(jù)為核心資產(chǎn)、以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)革新”的發(fā)展方式已成為高校邁進(jìn)更高層次的必然趨勢。對于傳統(tǒng)的來自事務(wù)系統(tǒng)、運(yùn)營數(shù)據(jù)庫和業(yè)務(wù)應(yīng)用的關(guān)系型數(shù)據(jù),數(shù)據(jù)倉庫可以滿足高校數(shù)據(jù)治理和存儲(chǔ)的要求,但是隨著信息化建設(shè)的進(jìn)展,來自物聯(lián)網(wǎng)設(shè)備、網(wǎng)站、移動(dòng)應(yīng)用程序、社交媒體和企業(yè)應(yīng)用程序的非關(guān)系型數(shù)據(jù)越來越多,很難存儲(chǔ)在數(shù)據(jù)倉庫中,而且隨著人工智能在高校中的發(fā)展和應(yīng)用,人工智能需要處理的多數(shù)是這些非關(guān)系型數(shù)據(jù),對數(shù)據(jù)治理和存儲(chǔ)提出了更高的要求。近年出現(xiàn)的數(shù)據(jù)湖技術(shù)能同時(shí)滿足關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù)的存儲(chǔ),同時(shí)在性價(jià)比、數(shù)據(jù)質(zhì)量、適用用戶類型、數(shù)據(jù)分析領(lǐng)域、靈活性等方面也優(yōu)于數(shù)據(jù)倉庫。本文探討了如何利用數(shù)據(jù)湖技術(shù)構(gòu)建高校數(shù)據(jù)管理機(jī)制和數(shù)據(jù)處理機(jī)制。

        1 數(shù)據(jù)湖的概念

        數(shù)據(jù)湖是一個(gè)集中式存儲(chǔ)庫,允許用戶以任意規(guī)模存儲(chǔ)所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。用戶可以按原樣存儲(chǔ)數(shù)據(jù)(無需先對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理),并運(yùn)行不同類型的分析-從控制面板和可視化,到大數(shù)據(jù)處理、實(shí)時(shí)分析和機(jī)器學(xué)習(xí),以輔助管理者做出更好的決策。

        對于高校的應(yīng)用,對傳統(tǒng)業(yè)務(wù)系統(tǒng)之外的數(shù)據(jù),比如來自物聯(lián)網(wǎng)、移動(dòng)設(shè)備、網(wǎng)絡(luò)日志、視頻監(jiān)控等的數(shù)據(jù)——多數(shù)是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,而人工智能技術(shù)所擅長處理的正是這些類型的數(shù)據(jù),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法可以對這些數(shù)據(jù)進(jìn)行建模、訓(xùn)練和驗(yàn)證,得出數(shù)據(jù)之間的關(guān)聯(lián)性或者因果推斷關(guān)系來建立模型進(jìn)行分析和預(yù)測,為高校管理和決策提供數(shù)據(jù)支持。

        2 數(shù)據(jù)湖與數(shù)據(jù)倉庫

        數(shù)據(jù)倉庫和數(shù)據(jù)湖可以滿足不同組織的不同需求和使用案例。

        數(shù)據(jù)倉庫是一個(gè)優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)應(yīng)用程序的關(guān)系型數(shù)據(jù)。事先定義數(shù)據(jù)結(jié)構(gòu)和Schema,以優(yōu)化快速SQL查詢,其結(jié)果通常用于報(bào)告和分析。經(jīng)過清理、豐富和轉(zhuǎn)換的數(shù)據(jù)可以充當(dāng)用戶可信任的“單一信息源”。

        數(shù)據(jù)湖有所不同,它存儲(chǔ)來自業(yè)務(wù)應(yīng)用程序的關(guān)系型數(shù)據(jù),以及來自移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的非關(guān)系型數(shù)據(jù)。捕獲數(shù)據(jù)時(shí),不事先定義數(shù)據(jù)結(jié)構(gòu)或Schema。這意味著用戶可以存儲(chǔ)所有數(shù)據(jù),而不需要精心設(shè)計(jì)也無需知道將來用戶可能的數(shù)據(jù)需求。數(shù)據(jù)湖中存儲(chǔ)的數(shù)據(jù)可以包括結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫)、半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON的日志)、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件、文檔、PDF)、二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)[2]。用戶可以對數(shù)據(jù)使用不同類型的操作(如 SQL 查詢、大數(shù)據(jù)分析、全文搜索、實(shí)時(shí)分析和機(jī)器學(xué)習(xí))來獲得分析結(jié)果。

        用數(shù)據(jù)湖替代數(shù)據(jù)倉庫作為高校數(shù)據(jù)存儲(chǔ)的技術(shù)手段,是因?yàn)楫?dāng)前高校所擁有的和希望分析的數(shù)據(jù)類型不再只局限于關(guān)系型數(shù)據(jù)。表1列出了數(shù)據(jù)湖和數(shù)據(jù)倉庫在數(shù)據(jù)來源、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)等方面的區(qū)別[1,3,4]。

        組織構(gòu)建數(shù)據(jù)湖和分析平臺(tái)時(shí),需要考慮以下的關(guān)鍵功能。

        ⑴ 數(shù)據(jù)移動(dòng)

        數(shù)據(jù)湖允許用戶導(dǎo)入任何數(shù)量的實(shí)時(shí)數(shù)據(jù)。用戶可以從多個(gè)來源收集數(shù)據(jù),并以其原始形式將其移入到數(shù)據(jù)湖中。此過程允許用戶擴(kuò)展到任何規(guī)模的數(shù)據(jù),同時(shí)節(jié)省定義數(shù)據(jù)結(jié)構(gòu)、Schema和轉(zhuǎn)換的時(shí)間。

        ⑵ 安全地存儲(chǔ)和編目數(shù)據(jù)

        數(shù)據(jù)湖允許用戶存儲(chǔ)關(guān)系數(shù)據(jù)(例如,來自業(yè)務(wù)應(yīng)用程序的運(yùn)營數(shù)據(jù)庫和數(shù)據(jù))和非關(guān)系數(shù)據(jù)(例如,來自移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交媒體的運(yùn)營數(shù)據(jù)庫和數(shù)據(jù))。它們還使用戶能夠通過對數(shù)據(jù)進(jìn)行爬網(wǎng)、編目和建立索引來了解湖中的數(shù)據(jù)。最后,必須保護(hù)數(shù)據(jù)以確保用戶的數(shù)據(jù)資產(chǎn)受到保護(hù)。

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        久久久久无码国产精品一区| 少妇勾引视频网站在线观看| 国产伦奸在线播放免费| 亚洲中文字幕无码不卡电影| 最新国产精品国产三级国产av | 综合偷自拍亚洲乱中文字幕 | 国产精品视频亚洲二区| 四虎影视永久在线观看| 丰满少妇高潮惨叫正在播放| 亚洲综合免费| 亚洲av一二三四又爽又色又色| 国产精品一区二区三区在线免费| 亚洲av日韩av在线观看| 亚洲精品无码成人片久久不卡| 亚洲阿v天堂2018在线观看| 国产精品高清免费在线| 久久国产成人午夜av免费影院| 婷婷精品国产亚洲av麻豆不片| 永久免费看啪啪网址入口| 亚洲日韩精品A∨片无码加勒比| 亚洲av第二区国产精品| 成人日韩熟女高清视频一区| 亚洲欧美在线观看| 国产av综合一区二区三区最新| 亚洲女同性恋第二区av| 夜夜爽日日澡人人添| 精品国产制服丝袜高跟| 久久综合一本中文字幕| 虎白m粉嫩小在线播放| 东北女人毛多水多牲交视频| 国产在线精品一区二区在线看| 色妞一区二区三区免费视频| 无套熟女av呻吟在线观看| 久久精品国产亚洲av高清漫画 | 亚洲乱码一区av春药高潮| 最好看2019高清中文字幕视频| 亚洲国产cao| 女同亚洲一区二区三区精品久久| 成人内射国产免费观看| 亚洲首页一区任你躁xxxxx| 老熟妇高潮av一区二区三区啪啪|