亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合架構(gòu)的高校多源異構(gòu)數(shù)據(jù)集成系統(tǒng)

        2019-06-11 09:54:08趙佳釤李坤倫徐江李院春
        電子技術(shù)與軟件工程 2019年7期
        關(guān)鍵詞:數(shù)據(jù)庫學(xué)生

        文/趙佳釤 李坤倫 徐江 李院春

        1 引言

        高校早期信息化的過程中長(zhǎng)期存在“數(shù)據(jù)孤島”的現(xiàn)象,校屬各部門只針對(duì)自身的業(yè)務(wù)需求建設(shè)信息系統(tǒng),缺乏統(tǒng)一的信息標(biāo)準(zhǔn)和規(guī)范,導(dǎo)致各業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)標(biāo)準(zhǔn)不一致、產(chǎn)生和沉淀的大量數(shù)據(jù)難以共享。構(gòu)建公共數(shù)據(jù)庫,被認(rèn)為是當(dāng)前解決“數(shù)據(jù)孤島”問題最為有效的方法。校園公共數(shù)據(jù)庫匯集了各個(gè)業(yè)務(wù)系統(tǒng)沉淀的有效數(shù)據(jù),并向所需業(yè)務(wù)系統(tǒng)共享數(shù)據(jù)。然而,傳統(tǒng)公共數(shù)據(jù)庫的構(gòu)建,只處理個(gè)人信息、成績(jī)信息、消費(fèi)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)無能為力。

        為此,研究人員提出構(gòu)建高校大數(shù)據(jù)平臺(tái)的概念,用以采集、清洗、存儲(chǔ)高校中的多源異構(gòu)數(shù)據(jù),并通過大數(shù)據(jù)分析方法,為高校的教學(xué)、科研、管理提供幫助。李蘭友等提出了一種基于ODI的數(shù)字校園數(shù)據(jù)集成模式,吳振濤等提出了一種在數(shù)字化校園中基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成應(yīng)用。這兩種架構(gòu)均是基于傳統(tǒng)的數(shù)據(jù)集成架構(gòu),在數(shù)據(jù)量較大時(shí)性能較差,更是難以應(yīng)對(duì)日志、輿情等大規(guī)模的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理分析。鄧涵元等提出了一種基于MPP-Hadoop混合架構(gòu)高校數(shù)據(jù)集成系統(tǒng),解決處理大數(shù)據(jù)、擴(kuò)展性及非結(jié)構(gòu)化數(shù)據(jù)等方面的問題。然而,這種架構(gòu)忽略了核心數(shù)據(jù)的管理和共享功能。高校大數(shù)據(jù)平臺(tái)最主要的功能應(yīng)該是按需為其他業(yè)務(wù)系統(tǒng)共享核心數(shù)據(jù)。這些核心數(shù)據(jù)的數(shù)據(jù)量不大,但應(yīng)該便于管理、追溯,同時(shí)對(duì)數(shù)據(jù)同步的實(shí)時(shí)性要求很高,尤其是涉及學(xué)籍、財(cái)務(wù)等方面的數(shù)據(jù)。

        圖1:系統(tǒng)架構(gòu)圖

        圖2:數(shù)據(jù)平臺(tái)的物理架構(gòu)圖

        本文提出了一種基于混合架構(gòu)的多源異構(gòu)數(shù)據(jù)集成平臺(tái)。平臺(tái)融合了OldSQL傳統(tǒng)關(guān)系型數(shù)據(jù)庫、NewSQL新型分布式數(shù)據(jù)庫和Hadoop開源生態(tài)系統(tǒng),可適應(yīng)多種業(yè)務(wù)場(chǎng)景模式。其中,OldSQL平臺(tái)用于存儲(chǔ)學(xué)校的核心業(yè)務(wù)數(shù)據(jù),如教師數(shù)據(jù)、學(xué)生數(shù)據(jù)等,這部分?jǐn)?shù)據(jù)的關(guān)聯(lián)關(guān)系復(fù)雜、對(duì)高并發(fā)、低延時(shí)的需求較高。NewSQL平臺(tái)作為數(shù)據(jù)倉庫匯總各業(yè)務(wù)系統(tǒng)的全量數(shù)據(jù)、過程數(shù)據(jù)、歷史歸檔數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),這部分?jǐn)?shù)據(jù)主要作為校內(nèi)的數(shù)據(jù)資產(chǎn)而存儲(chǔ),并支撐平臺(tái)之上的數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用。Hadoop平臺(tái)用以提供批量數(shù)據(jù)計(jì)算,存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)絡(luò)日志數(shù)據(jù)、數(shù)據(jù)中心日志數(shù)據(jù)、學(xué)校輿情數(shù)據(jù)等。

        2 平臺(tái)系統(tǒng)設(shè)計(jì)

        教育行業(yè)信息化過程中產(chǎn)生積累的數(shù)據(jù)相對(duì)龐大復(fù)雜,即有人員、成績(jī)信息等結(jié)構(gòu)化數(shù)據(jù),也有日志、輿情數(shù)據(jù)等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。現(xiàn)有的高校大數(shù)據(jù)平臺(tái)并不能同時(shí)滿足海量異構(gòu)數(shù)據(jù)的實(shí)時(shí)共享、處理、分析及存儲(chǔ)需求。

        2.1 系統(tǒng)設(shè)計(jì)目標(biāo)

        為解決高校數(shù)據(jù)共享難、分析難、不完整的問題,本文從數(shù)據(jù)源出發(fā),將高校數(shù)據(jù)資產(chǎn)分為三類。第一類是高校的核心業(yè)務(wù)數(shù)據(jù),第二類是全量結(jié)構(gòu)化數(shù)據(jù),第三類是日志、輿情數(shù)據(jù)等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。各類數(shù)據(jù)的數(shù)據(jù)總量和特點(diǎn)不同,上層業(yè)務(wù)應(yīng)用對(duì)不同種類數(shù)據(jù)的需求也不同。核心業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)量不大且相對(duì)穩(wěn)定,但關(guān)聯(lián)關(guān)系復(fù)雜,對(duì)高并發(fā)、低時(shí)延的要求高,上游數(shù)據(jù)源數(shù)據(jù)做出更改時(shí)要求下游業(yè)務(wù)系統(tǒng)同步修改。全量結(jié)構(gòu)化數(shù)據(jù)主要是作為全量數(shù)據(jù)資產(chǎn)而存儲(chǔ),便于回溯數(shù)據(jù)、支撐上層數(shù)據(jù)分析類應(yīng)用。這類數(shù)據(jù)的關(guān)聯(lián)關(guān)系復(fù)雜,數(shù)據(jù)量逐年增加,且增長(zhǎng)較快,對(duì)數(shù)據(jù)的實(shí)時(shí)性有一定的要求。日志、輿情等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)主要用以支撐上層的數(shù)據(jù)挖掘應(yīng)用,相比于前兩類數(shù)據(jù),這類數(shù)據(jù)的數(shù)據(jù)量龐大且增長(zhǎng)快速。

        表1:物理平臺(tái)的節(jié)點(diǎn)配置

        2.2 系統(tǒng)總體架構(gòu)

        本文提出的基于OldSQL-NewSQLHadoop的大數(shù)據(jù)共享分析平臺(tái),既能滿足當(dāng)前業(yè)務(wù)的數(shù)據(jù)需求,又符合行業(yè)未來的數(shù)據(jù)發(fā)展規(guī)劃。其中,傳統(tǒng)關(guān)系型數(shù)據(jù)庫OldSQL存儲(chǔ)高校的核心業(yè)務(wù)數(shù)據(jù),可消除長(zhǎng)期信息化過程中的數(shù)據(jù)孤島現(xiàn)象,確保數(shù)據(jù)的權(quán)威性、有效性、實(shí)時(shí)性。NewSQL技術(shù)作為高校的數(shù)據(jù)倉庫存儲(chǔ)全量的結(jié)構(gòu)化數(shù)據(jù),如全量業(yè)務(wù)數(shù)據(jù)、過程數(shù)據(jù)等,確保數(shù)據(jù)的完整性。Hadoop平臺(tái)用以存儲(chǔ)和處理日志、輿情等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),為高校的數(shù)據(jù)挖掘、政策制定提供數(shù)據(jù)支撐。如圖1所示,根據(jù)數(shù)據(jù)來源及應(yīng)用情況,大數(shù)據(jù)共享分析平臺(tái)的系統(tǒng)總體架構(gòu)可分為四層,即數(shù)據(jù)源層、數(shù)據(jù)處理層、數(shù)據(jù)存儲(chǔ)層和業(yè)務(wù)應(yīng)用層。

        2.3 平臺(tái)業(yè)務(wù)流程

        高校的信息化的程度相對(duì)完善,諸如教務(wù)系統(tǒng),學(xué)工系統(tǒng)、OA系統(tǒng)、科研系統(tǒng)、人事系統(tǒng)等,每天都會(huì)積累大量的數(shù)據(jù)。同時(shí),很多重要數(shù)據(jù)仍游離于信息系統(tǒng)之外,以文本的形式保存。這部分?jǐn)?shù)據(jù)作為學(xué)校隱形的數(shù)據(jù)資產(chǎn),其重要性不言而喻。除結(jié)構(gòu)化數(shù)據(jù)之外,校內(nèi)師生每天還會(huì)產(chǎn)生大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如URL日志、認(rèn)證日志以及校園輿情數(shù)據(jù)等。這些數(shù)據(jù)在研究學(xué)生日常行為和數(shù)據(jù)中心安全上有極大的價(jià)值。本文提出的數(shù)據(jù)集成系統(tǒng)中,數(shù)據(jù)源層包括高校的各個(gè)業(yè)務(wù)系統(tǒng)、線下文本數(shù)據(jù)、日志數(shù)據(jù)及輿情數(shù)據(jù)。

        在獲取到數(shù)據(jù)源后,數(shù)據(jù)處理的第一步便是制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),并梳理數(shù)據(jù)源、清洗數(shù)據(jù)源的數(shù)據(jù)質(zhì)量。其中,ETL數(shù)據(jù)預(yù)處理完成數(shù)據(jù)的抽取、轉(zhuǎn)換、加載。數(shù)據(jù)抽取是針對(duì)不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行全量或者增量的數(shù)據(jù)抽取。抽取完成后,需要對(duì)抽取的數(shù)據(jù)進(jìn)行過濾清洗,并根據(jù)制定的數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)換數(shù)據(jù)格式,生成新的數(shù)據(jù),加載到目標(biāo)數(shù)據(jù)庫。對(duì)于未采用信息化手段,以紙質(zhì)形式或電子文檔存儲(chǔ)的數(shù)據(jù),需要采用手工錄入或工具導(dǎo)入的方式清洗并加載到目標(biāo)數(shù)據(jù)庫。在處理大量的日志和輿情數(shù)據(jù)時(shí),預(yù)處理階段利用Hadoop平臺(tái)進(jìn)行對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的清洗分類,將數(shù)據(jù)分析價(jià)值較高的數(shù)據(jù)留存在HDFS。

        在數(shù)據(jù)存儲(chǔ)層,本文將高校的數(shù)據(jù)分成了三大類,即核心業(yè)務(wù)數(shù)據(jù)、全量結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)各類數(shù)據(jù)的特征和用途采用不同的數(shù)據(jù)存儲(chǔ)技術(shù)。數(shù)據(jù)在經(jīng)過采集、預(yù)處理、分類存儲(chǔ)后,提供給上層業(yè)務(wù)應(yīng)用展現(xiàn)才能發(fā)揮其最大價(jià)值。業(yè)務(wù)應(yīng)用層可分為三類應(yīng)用。第一類是數(shù)據(jù)共享類應(yīng)用,主要負(fù)責(zé)數(shù)據(jù)的可視化管理和核心業(yè)務(wù)數(shù)據(jù)的共享。第二類是數(shù)據(jù)分析類應(yīng)用,這類應(yīng)用以三類數(shù)據(jù)為支撐,將校園大數(shù)據(jù)以不同維度的可視化方式展現(xiàn)出來。第三類是數(shù)據(jù)挖掘類應(yīng)用,主要利用Hadoop平臺(tái)的大數(shù)據(jù)分析處理工具,挖掘半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的潛在價(jià)值。

        2.4 關(guān)鍵問題及解決思路

        系統(tǒng)在建設(shè)過程中,面臨的主要的問題是數(shù)據(jù)標(biāo)準(zhǔn)的制定。高校的信息化起步早,校內(nèi)各部門信息化的進(jìn)程不同,這直接導(dǎo)致了各個(gè)系統(tǒng)之間的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,進(jìn)而促使校內(nèi)各系統(tǒng)直接的數(shù)據(jù)共享困難。因此,構(gòu)建校內(nèi)大數(shù)據(jù)平臺(tái)最重要的一環(huán)便是制定統(tǒng)一的校內(nèi)數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范各類數(shù)據(jù)元素。數(shù)據(jù)標(biāo)準(zhǔn)的制定不僅要大而全,涵蓋學(xué)校當(dāng)前的數(shù)據(jù)治理目標(biāo)和對(duì)未來的數(shù)據(jù)規(guī)劃,而且要盡可能向國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)靠攏。于此同時(shí),要從規(guī)章制度上規(guī)范各業(yè)務(wù)部門的數(shù)據(jù)格式,保障數(shù)據(jù)質(zhì)量。

        3 系統(tǒng)的部署與實(shí)現(xiàn)

        3.1 平臺(tái)物理架構(gòu)

        核心業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)關(guān)系復(fù)雜、對(duì)高并發(fā)、低延時(shí)的要求較高,因此本文選取穩(wěn)定性、性能更優(yōu)的Oracle數(shù)據(jù)庫來存儲(chǔ)。同時(shí),采用Oracle RAC做雙機(jī)的負(fù)載均衡架構(gòu),避免單點(diǎn)故障。核心業(yè)務(wù)數(shù)據(jù)庫的后臺(tái)存儲(chǔ)采用全閃存集中式雙活存儲(chǔ),以保障數(shù)據(jù)的高可用性。對(duì)于要求次之,數(shù)據(jù)量增長(zhǎng)較快的NewSQL數(shù)據(jù)庫,本文采用開源的CockRoach數(shù)據(jù)庫,目前配置了3個(gè)節(jié)點(diǎn)的集群,每個(gè)節(jié)點(diǎn)服務(wù)器均配置2塊600GB的SAS硬盤,3塊240GB的SSD。Hadoop平臺(tái)采用6個(gè)節(jié)點(diǎn)規(guī)模的集群,每個(gè)節(jié)點(diǎn)服務(wù)器均配置2塊600GB的SAS硬盤和6塊6TB的SATA硬盤。平臺(tái)的物理架構(gòu)如圖2所示。節(jié)點(diǎn)的具體配置如表1所示。

        3.2 學(xué)生預(yù)警系統(tǒng)

        業(yè)務(wù)應(yīng)用以學(xué)生預(yù)警系統(tǒng)為例,學(xué)生預(yù)警本身包含兩方面,一方面是學(xué)業(yè)預(yù)警,另一方面是行為預(yù)警。涉及到的數(shù)據(jù)包括學(xué)生的成績(jī)信息、上課點(diǎn)名信息和學(xué)生上網(wǎng)日志,這三種數(shù)據(jù)分別存儲(chǔ)于核心業(yè)務(wù)數(shù)據(jù)平臺(tái)、全量結(jié)構(gòu)化數(shù)據(jù)平臺(tái)和Hadoop平臺(tái)之上。其中,學(xué)生成績(jī)信息用于分析學(xué)生的學(xué)業(yè)完成情況。上課點(diǎn)名信息用于刻畫學(xué)生的課程出勤情況,對(duì)學(xué)生有一定的警示作用。通過對(duì)上網(wǎng)行為日志的挖掘,并綜合考慮目標(biāo)網(wǎng)站的性質(zhì),可科學(xué)分析學(xué)生在思想、行為上是否異常,如是否牽涉校園貸等。學(xué)生預(yù)警系統(tǒng)面向的用戶主要分兩類,一類是學(xué)生,另一類是教學(xué)管理人員。對(duì)學(xué)業(yè)完成度較差或課堂出勤率較低學(xué)生,可利用短信、微信等信息接收終端向?qū)W生和輔導(dǎo)員自動(dòng)推送警示信息。學(xué)生行為預(yù)警則主要面向教學(xué)管理群體,在保證學(xué)生基本隱私的前提下,向少數(shù)管理人員推送學(xué)生的網(wǎng)絡(luò)行為異常情況。

        4 結(jié)束語

        在構(gòu)建校園大數(shù)據(jù)平臺(tái)的過程中,首先要根據(jù)不同業(yè)務(wù)和數(shù)據(jù)使用情況,劃分校內(nèi)的數(shù)據(jù)資產(chǎn)。每種類型的數(shù)據(jù)特點(diǎn)各有不同,上層業(yè)務(wù)系統(tǒng)對(duì)各種類數(shù)據(jù)的需求也不同。因此需要根據(jù)每種類型數(shù)據(jù)的特點(diǎn),采用不同的技術(shù)架構(gòu),對(duì)數(shù)據(jù)進(jìn)行清洗存儲(chǔ)。本文結(jié)合OldSQL、NewSQL和Hadoop技術(shù),采用一種基于混合架構(gòu)的高校多源異構(gòu)數(shù)據(jù)集成方案。從而消除了數(shù)據(jù)孤島,實(shí)現(xiàn)校內(nèi)核心數(shù)據(jù)的實(shí)時(shí)共享,完善數(shù)據(jù)資產(chǎn)的整治,解決海量異構(gòu)數(shù)據(jù)的分析難題。

        猜你喜歡
        數(shù)據(jù)庫學(xué)生
        快把我哥帶走
        《李學(xué)生》定檔8月28日
        電影(2018年9期)2018-11-14 06:57:21
        趕不走的學(xué)生
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        學(xué)生寫話
        學(xué)生寫的話
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        四虎国产精品成人影院| 亚洲av永久无码精品| 蜜桃av噜噜一区二区三区| 亚洲av不卡电影在线网址最新| 最新国产一区二区三区 | 日本一区二区在线资源| 日本视频一区二区三区观看| 亚洲av成人网| 无码人妻精品一区二区三18禁 | 国产婷婷成人久久av免费| 亚洲精品无码高潮喷水a片软| 国产亚洲精久久久久久无码77777| 国产av无码专区亚洲aⅴ| av在线入口一区二区| 人妻丰满熟妇岳av无码区hd| 最新四色米奇影视777在线看| 亚洲性爱区免费视频一区| 日产一区日产2区日产| 中文字幕乱码熟妇五十中出| 极品粉嫩嫩模大尺度无码| 亚洲女同系列高清在线观看| 亚洲天堂av一区二区| 国产无遮挡又黄又爽免费网站 | 人妻激情偷乱视频一区二区三区| 日日躁夜夜躁狠狠久久av| 欧美中出在线| 亚洲福利二区三区四区| 亚洲成a∨人片在线观看不卡| 91久久精品国产91久久| 日本无吗一区二区视频| 婷婷亚洲岛国热超碰中文字幕| 18禁裸男晨勃露j毛免费观看| 国产av一区二区三区区别| 国产精品日韩亚洲一区二区| 亚洲av无码片vr一区二区三区| 欧美人成人亚洲专区中文字幕| 日韩精品一二区在线视频| 高级会所技师自拍视频在线| 午夜三级a三级三点| 99热这里只有精品久久6| 日韩精品视频在线观看无|