亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop平臺的校本數(shù)據(jù)中心建設研究

        2022-03-15 10:18:16黃安
        電子制作 2022年4期
        關鍵詞:數(shù)據(jù)庫信息系統(tǒng)

        黃安

        (廣西農(nóng)業(yè)職業(yè)技術大學,廣西南寧,530007)

        0 概述

        隨著大數(shù)據(jù)時代的到來,依靠大數(shù)據(jù)技術進行高校信息化建設也得到快速發(fā)展[1]。大數(shù)據(jù)已經(jīng)深入到全國高校信息化建設的方方面面。國內(nèi)高校面對大數(shù)據(jù)的快速發(fā)展,是加快校園信息化建設的良好機遇,同時也面臨更大的挑戰(zhàn)。通過大量的查閱相關文獻,以及上網(wǎng)查找資料發(fā)現(xiàn),國內(nèi)很少有高校提出通過hadoop建立校本數(shù)據(jù)中心的實施方案可供我們參考。

        1 傳統(tǒng)校本數(shù)據(jù)中心存在的問題

        對于校內(nèi)的數(shù)據(jù)綜合查詢,以往的做法都是直接或間接的訪問校內(nèi)各業(yè)務信息系統(tǒng)的數(shù)據(jù)庫,往往一個數(shù)據(jù)項又出行在多個數(shù)據(jù)庫里,這就造成了數(shù)據(jù)的不統(tǒng)一性,甚至對數(shù)據(jù)的安全性產(chǎn)生影響,冗余數(shù)據(jù)還會導致查詢效率降低。依賴于校園各信息系統(tǒng)的相關教學質(zhì)量、數(shù)據(jù)分析管理決策、科研分析等拓展業(yè)務就很難開展。正因為如此,我們就借助Hadoop技術在大數(shù)據(jù)方面的優(yōu)越性,以此來建立校本數(shù)據(jù)中心,通過該平臺,采集校內(nèi)各大信息系統(tǒng)的數(shù)據(jù),建立常用的主題數(shù)據(jù)庫。在此基礎上,根據(jù)使用者不同的角色,提供不同層面的數(shù)據(jù)實時查詢和數(shù)據(jù)實時分析,為學校領導及廣大師生提供可靠準確的數(shù)據(jù),有助于使用者做相關的思考和決策。

        2 校本數(shù)據(jù)中心架構結構

        校本數(shù)據(jù)中心采用Hadoop分布式文件系統(tǒng) (HDFS) 、分布式數(shù)據(jù)庫Hbase和數(shù)據(jù)倉庫Hive進行搭建。Hadoop是一個由 Apache 基金會所開發(fā)的分布式系統(tǒng)基礎架構,提供了可靠的、可擴展的、可分布式計算的開源服務[3]。數(shù)據(jù)中心架構結構如圖1所示。

        圖1 數(shù)據(jù)中心架構圖

        HDFS通過一個高效的分布式算法,將數(shù)據(jù)的訪問和存儲分布在大量服務器中,在可靠地多備份存儲的同時還能將訪問分布在集群中的各個服務器上,是傳統(tǒng)存儲構架的一個顛覆性的發(fā)展[4]。Flume負責收集日志,同時提供對日志數(shù)據(jù)進行簡單的處理。YARN負責資源管理。MapReduc用于進行大數(shù)據(jù)的計算。ZooKeeper解決分布式環(huán)境下的數(shù)據(jù)管理問題。HBase提供對大規(guī)模數(shù)據(jù)的隨機實時讀寫及訪問。Hive用作數(shù)據(jù)存儲的倉庫。Oozie負責進行作業(yè)調(diào)度,Sqoop用于在傳統(tǒng)數(shù)據(jù)庫和Hadoop之間傳輸數(shù)據(jù)。

        通過校本數(shù)據(jù)中心,把學校的各信息系統(tǒng)的數(shù)據(jù)進行統(tǒng)一采集、清洗、存儲。首先將剛采集來的數(shù)據(jù)放入原始庫,經(jīng)過標準化處理后,再放入標準庫,最后從標準庫抽取便于我們做數(shù)據(jù)查詢和分析的數(shù)據(jù),放入主題庫。針對結構化和半結構化的數(shù)據(jù),為了實現(xiàn)其統(tǒng)一格式,hadoop技術使用的分布式系統(tǒng)以及列式數(shù)據(jù)庫,可以很好的處理這些問題。

        3 搭建基于Hadoop的校本數(shù)據(jù)中心

        基于Hadoop技術架構來搭建校本數(shù)據(jù)中心。搭建完全分布式模式Hadoop集群, HDFS集群有兩類節(jié)點,分布為NameNode節(jié)點和DataNode節(jié)點。數(shù)據(jù)中心集群使用多節(jié)點服務器堆疊技術,以此來實現(xiàn)服務器高并發(fā)和高并行的數(shù)據(jù)計算和處理能力。集群中包含了三個管理節(jié)點(NameNode),數(shù)據(jù)倉庫存儲在這些節(jié)點當中。主NameNode節(jié)點處于活動狀態(tài) (NameNode Active) 對外提供服務, 備用Name Node節(jié)點 (Name Node Standby)同步主NameNode節(jié)點的元數(shù)據(jù), 作為主節(jié)點的熱備。兩個節(jié)點共享存儲, 隨時等待切換。DataNode節(jié)點仍然負責數(shù)據(jù)塊的冗余存儲, 所有DataNode同時向主備Name Node節(jié)點匯報數(shù)據(jù)塊狀態(tài)信息[5]。正因為如此,校本數(shù)據(jù)中心對NameNode做定時熱備份,一般情況下,僅有一臺主NameNode為集群提供服務,另外一臺自動進行備份及數(shù)據(jù)同步。當主NameNode出現(xiàn)宕機情況,另外一臺備份的NameNode就會自動為集群提供服務,變成主NameNode。這樣就大大的提高了集群的可用性能。

        Hadoop集群采用的是HBase數(shù)據(jù)庫,為了保證數(shù)據(jù)的一致性及可靠性,存儲的數(shù)據(jù)會進行自動備份3份。當服務器需要對某個文件進行存儲時,該文件蔣會被分成多個大小一樣的數(shù)據(jù)塊,每個數(shù)據(jù)塊會分別備份到3個不同的DataNode節(jié)點上,這樣做的目的是確保任何存儲的數(shù)據(jù),不會因為出現(xiàn)宕機的情況下丟失,同時還解決了以外服務器出現(xiàn)的負載不均衡的問題,以及對龐大的數(shù)據(jù)進行存儲時出現(xiàn)網(wǎng)絡瓶頸的問題。當我們對服務器里的數(shù)據(jù)進行讀取操作時,服務器會自動根據(jù)數(shù)據(jù)塊和節(jié)點的映射關系表為我們快速找到并提供所需的數(shù)據(jù)。

        4 校本數(shù)據(jù)中心的工作原理

        校本數(shù)據(jù)中心起到了紐帶的作用,在學校各個信息系統(tǒng)之間架起一座橋梁,讓所有數(shù)據(jù)庫的數(shù)據(jù)資源得到有效的整合,實現(xiàn)了數(shù)據(jù)的高效共享。同時,校本數(shù)據(jù)中心還起到數(shù)據(jù)堡壘的作用,確保數(shù)據(jù)的有效性、完整性、準確性、一致性,安全性。

        ■4.1 數(shù)據(jù)采集

        校本數(shù)據(jù)中心需要對校內(nèi)各業(yè)務信息系統(tǒng)的數(shù)據(jù)進行采集并存儲。Hadoop平臺借助數(shù)據(jù)轉移工具Apache Sqoop來實現(xiàn)數(shù)據(jù)的采集, Sqoop主要解決的問題是:導入Hadoop生態(tài)系統(tǒng)外的數(shù)據(jù)源 (本地文件或數(shù)據(jù)庫表) 到系統(tǒng)內(nèi) (HDFS文件、Hive表和HBase表);導出系統(tǒng)內(nèi)的數(shù)據(jù)源 (包括處理結果) 到系統(tǒng)外[6]。采集數(shù)據(jù)分為兩種,分別是歷史數(shù)據(jù)采集和實時增量數(shù)據(jù)采集。歷史數(shù)據(jù)采集是對各信息業(yè)務系統(tǒng)原有的所有數(shù)據(jù)進行原樣采集,不改變數(shù)據(jù)原本的結構和內(nèi)容,照搬過來進行全量備份。歷史數(shù)據(jù)采集完成以后,各信息業(yè)務系統(tǒng)每天都會產(chǎn)生新的業(yè)務數(shù)據(jù),為了確保校本數(shù)據(jù)中心的數(shù)據(jù)具有時效性和準確性,就要對這些新的數(shù)據(jù)進行定時采集增量數(shù)據(jù),根據(jù)業(yè)務系統(tǒng)數(shù)據(jù)產(chǎn)生的頻率,設置相應的時間間隔觸發(fā)增量采集任務,確保校本數(shù)據(jù)中心的數(shù)據(jù)與業(yè)務系統(tǒng)的數(shù)據(jù)時刻保持一致。

        ■4.2 數(shù)據(jù)存儲

        在數(shù)據(jù)存儲方面,校本數(shù)據(jù)中心使用的是列式數(shù)據(jù)庫Hbase對數(shù)據(jù)進行集中存儲。傳統(tǒng)的關系型數(shù)據(jù)庫,如Oracle、DB2、MySQL、SQL SERVER 等采用行式存儲法(Row-based),在基于行式存儲的數(shù)據(jù)庫中,數(shù)據(jù)是按照行數(shù)據(jù)為基礎邏輯存儲單元進行存儲的,一行中的數(shù)據(jù)在存儲介質(zhì)中以連續(xù)存儲形式存在。傳統(tǒng)的關系型數(shù)據(jù)庫計算與存儲分離,數(shù)據(jù)訪問存在競爭和帶寬瓶頸,同時存在著擴展問題。而列式數(shù)據(jù)庫Hbase支持數(shù)據(jù)自動切分存儲,并支持高并發(fā)讀寫操作,使得海量數(shù)據(jù)存儲自動具有更強的擴展性。傳統(tǒng)數(shù)據(jù)庫行式存儲與HBase列式存儲對比如表1所示。

        表1 傳統(tǒng)數(shù)據(jù)庫行式存儲與HBase列式存儲對比

        HBase是一個基于Hadoop、面向列、可伸縮、高性能、高可靠的分布式存儲系統(tǒng),HBase利用HadoopHDFS作為其文件存儲系統(tǒng)。校本數(shù)據(jù)中心的數(shù)據(jù)按照分表的方式存儲在Hadoop平臺的HBase數(shù)據(jù)庫中,一張HBase表存儲一種數(shù)據(jù)。為了滿足校內(nèi)各業(yè)務系統(tǒng)不同場景對數(shù)據(jù)的實際使用需求,校本數(shù)據(jù)中心把對外交換與共享的數(shù)據(jù)以及數(shù)據(jù)分析的中間結果,都存儲在Hadoop平臺的其他組件中,以此來提高數(shù)據(jù)的高效利用率。

        ■4.3 數(shù)據(jù)標準化治理與交換共享

        從各信息業(yè)務系統(tǒng)采集來的數(shù)據(jù),放入原始庫。這些數(shù)據(jù)存在無序、混亂、冗余等缺點,我們需要經(jīng)過一系列處理,對結構化數(shù)據(jù)進行規(guī)范化、標準化和有效性校驗,對這些數(shù)據(jù)通過統(tǒng)一其定義、分類、記錄格式、轉換方式、編碼等方式,實現(xiàn)數(shù)據(jù)的標準化,形成標準庫。標準庫的數(shù)據(jù)更加有序、可信,數(shù)據(jù)質(zhì)量更高。為了更好的提供數(shù)據(jù)共享與交換、數(shù)據(jù)查詢與分析、數(shù)據(jù)協(xié)同與交換等服務,根據(jù)業(yè)務場景實際需要,對標準庫的數(shù)據(jù)進行再次治理、篩選、聚集、抽取等操作,轉存到數(shù)據(jù)倉庫,形成新的主題數(shù)據(jù)庫。主題數(shù)據(jù)庫能夠更好的為數(shù)據(jù)查詢、專題分析和決策支持等業(yè)務提供數(shù)據(jù)服務,可為數(shù)據(jù)使用者開展數(shù)據(jù)統(tǒng)計分析、挖掘數(shù)據(jù)規(guī)律、輔助領導決策等提供支撐。校本數(shù)據(jù)中心其數(shù)據(jù)主要來源于學校各業(yè)務領域中實際產(chǎn)生的業(yè)務及管理數(shù)據(jù),經(jīng)過一系列數(shù)據(jù)治理后,反過來對管理業(yè)務提供數(shù)據(jù)服務與支持,校本數(shù)據(jù)中心與各信息業(yè)務系統(tǒng)相輔相成,為學校信息化建設高速發(fā)展提供強有利的先決條件。

        5 校本數(shù)據(jù)中心的數(shù)據(jù)倉庫

        ■5.1 建立原始數(shù)據(jù)庫

        校本數(shù)據(jù)中心每天或者固定的時間,從全校的信息業(yè)務系統(tǒng)的數(shù)據(jù)庫中抽取全量歷史數(shù)據(jù),放入校本數(shù)據(jù)中心自己的數(shù)據(jù)庫中,并以一個類似原始表的表名相似的名字命名,加以識別和區(qū)分,形成校本數(shù)據(jù)中心的原始庫。如為了減少服務器的壓力,管理員也可把全量抽取改成增量抽取,校內(nèi)各業(yè)務系統(tǒng)每天都會產(chǎn)生新的數(shù)據(jù),這些新的數(shù)據(jù)會根據(jù)管理員設置好的時間,通過集成平臺定時推送到數(shù)據(jù)中心,這樣,就不會每次都進行數(shù)據(jù)的全量覆蓋,大大降低了服務器的運算壓力。

        ■5.2 建立標準數(shù)據(jù)庫

        校本數(shù)據(jù)中心建立好的原始庫,是沒有經(jīng)過任何修改和增刪的數(shù)據(jù),存在大量的數(shù)據(jù)冗余,不利于后期的使用,所以要對這些數(shù)據(jù)進行清洗和標準化治理,形成校本數(shù)據(jù)中心的標準庫,便于其他業(yè)務系統(tǒng)直接使用,大大提高數(shù)據(jù)的查詢效率。

        ■5.3 建立主題數(shù)據(jù)庫

        根據(jù)學校的實際應用場景需要,從數(shù)據(jù)中心的標準庫抽取部分數(shù)據(jù)并經(jīng)過治理后,建立主題數(shù)據(jù)庫,使得各部門信息系統(tǒng)的數(shù)據(jù)得到更好的集成和統(tǒng)一的管理。有了主題數(shù)據(jù)庫,即可根據(jù)用戶需求,呈現(xiàn)相關的數(shù)據(jù)統(tǒng)計查詢和匯總。除此之外,其他信息業(yè)務系統(tǒng)在實際生產(chǎn)過程中根據(jù)自身應用場景,如需要用到主題數(shù)據(jù)庫的數(shù)據(jù),作為數(shù)據(jù)需求方提出數(shù)據(jù)使用申請,由數(shù)據(jù)中心管理員審核并授權后,作為數(shù)據(jù)供方,提供經(jīng)過治理后的數(shù)據(jù)給需求方使用,以此來提高平臺數(shù)據(jù)的利用率。通過構建多維度、高質(zhì)量的主題數(shù)據(jù)庫,滿足不同業(yè)務系統(tǒng)應用場景的個性化查詢、統(tǒng)計和分析訴求,最終達到推動學校精細化管理、加速學術研究產(chǎn)出、提升學校信息化建設影響力的目的。

        5.3.1 學生主題數(shù)據(jù)庫

        學生是學校的主體,學生的相關數(shù)據(jù)也是最龐大、最復雜的。學生數(shù)據(jù)涉及的業(yè)務系統(tǒng)主要包括教務系統(tǒng)、學工系統(tǒng)、學生繳費系統(tǒng)、迎新系統(tǒng)、宿舍管理系統(tǒng)、網(wǎng)上辦事大廳、一卡通系統(tǒng)、就業(yè)系統(tǒng)、VPN管理系統(tǒng)等。各業(yè)務系統(tǒng)之間難免會出現(xiàn)數(shù)據(jù)不一致的問題,導致同一個內(nèi)容在不同系統(tǒng)里呈現(xiàn)不一樣的查詢結果,這就導致用戶無法正確使用相關查詢結果。為了打通各業(yè)務系統(tǒng)之間的壁壘,消除信息孤島以及解決數(shù)據(jù)統(tǒng)一的問題,建立學生主題數(shù)據(jù)庫是非常有必要的。學生主題數(shù)據(jù)庫主要涉及的信息表包括學生學籍信息、學生編號信息、學生成績信息、學生獎懲信息、學生宿舍信息、學生繳費信息、學生就業(yè)信息等。

        5.3.2 教師主題數(shù)據(jù)庫

        涉及教師的業(yè)務系統(tǒng)主要包括人事系統(tǒng)、協(xié)同辦公平臺、科研系統(tǒng)、教務系統(tǒng)、學工系統(tǒng)、網(wǎng)上辦事大廳、資產(chǎn)管理系統(tǒng)、黨建系統(tǒng)、績效考核系統(tǒng)、財務系統(tǒng)、站群管理系統(tǒng)等。教師主題數(shù)據(jù)庫主要涵蓋的信息表有:教師編號信息、教師工資信息、教師職稱信息、教師授課信息、黨員基本信息、年度考核信息、教師辦公資產(chǎn)信息等。

        5.3.3 科研主題數(shù)據(jù)庫

        一個學校的科研能力在一定程度上反映出該校的辦學實力。而科研管理系統(tǒng)正是用余記錄和體現(xiàn)科研水平的重要業(yè)務系統(tǒng)。加上長期積累,每個學校的科研數(shù)據(jù)也是相當龐大,因此,針對科研系統(tǒng)建立相應的科研主題數(shù)據(jù)庫也是非常有必要的??蒲兄黝}數(shù)據(jù)庫涉及的信息表主要包括:論文成果信息、教材成果信息、專利成果信息、品種認定信息、著作成果信息、獲獎成果信息等。

        6 結論

        本文主要對基于Hadoop平臺的校本數(shù)據(jù)中心的建設進行了研究,校本數(shù)據(jù)中心利用Hadoop的Sqoop組件,將學校各信息業(yè)務系統(tǒng)的數(shù)據(jù)進行抽取,存儲在分布式數(shù)據(jù)庫HBase中。數(shù)據(jù)按照列式方式進行存儲,有效解決了傳統(tǒng)數(shù)據(jù)庫對數(shù)據(jù)訪問存瓶頸和數(shù)據(jù)庫擴展的問題,同時很大程度上提供了存儲效率和空間的利用率。校本數(shù)據(jù)中心對采集的數(shù)據(jù)經(jīng)過有效治理后,形成標準庫和主題數(shù)據(jù)庫,打破了學校各信息業(yè)務系統(tǒng)直接的壁壘,很多程度了消息了信息孤島,為各業(yè)務系統(tǒng)開展數(shù)據(jù)統(tǒng)計分析、挖掘數(shù)據(jù)規(guī)律、輔助領導決策等提供強有力支撐。同時為學校的信息化建設提供強大可靠的校本數(shù)據(jù)中心。

        猜你喜歡
        數(shù)據(jù)庫信息系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        91视频爱爱| 国产无遮挡又爽又刺激的视频老师| 精品深夜av无码一区二区老年| 亚洲丁香婷婷综合久久小说| 久久精品有码中文字幕1| 国产91会所女技师在线观看| 色综合久久人妻精品日韩| 国产av一区二区三区性入口| 免费观看的av毛片的网站| 亚洲视频1区| 欧美日本视频一区| av新型国产在线资源| 欧洲熟妇色| 欧美午夜精品久久久久久浪潮| 在线免费观看韩国a视频| 国产精品成人久久一区二区| 午夜国产视频一区二区三区| 亚洲第一页综合图片自拍| 国产香蕉尹人综合在线观| 久久精品成人一区二区三区蜜臀| 在线免费观看一区二区| 国产精品久久久久久久久免费| 亚洲精品中文字幕不卡在线| 亚洲一本二区偷拍精品| 婷婷综合另类小说色区| 国产精品久久久久电影网| 一本到无码AV专区无码| 91中文字幕精品一区二区| 亚洲va中文字幕无码一二三区| 嫖妓丰满肥熟妇在线精品| 国产精品亚洲综合天堂夜夜| 天天色天天操天天日天天射| 亚洲国产精品无码成人片久久| 欧美饥渴熟妇高潮喷水水| 久久国产影视免费精品| 丝袜美腿在线观看视频| 欧美丰满熟妇性xxxx| 国产亚洲亚洲精品777| 99亚洲乱人伦精品| 加勒比婷婷色综合久久| 亚洲色大成网站www久久九九|