亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        水電設(shè)備狀態(tài)監(jiān)測(cè)大數(shù)據(jù)處理技術(shù)研究

        2019-05-31 02:42:56曾廣移李德華陳澤陽(yáng)彭大鵬
        水電站機(jī)電技術(shù) 2019年5期
        關(guān)鍵詞:關(guān)系數(shù)據(jù)庫(kù)監(jiān)測(cè)數(shù)據(jù)數(shù)據(jù)處理

        曾廣移,鞏 宇,李德華,陳澤陽(yáng),彭大鵬

        (1.調(diào)峰調(diào)頻發(fā)電有限公司,廣東 廣州510000;2.北京華科同安監(jiān)控技術(shù)有限公司,北京100043)

        1 引言

        隨著科技的發(fā)展和管理水平的提高,水電設(shè)備狀態(tài)監(jiān)測(cè)的廣度和深度不斷加強(qiáng),數(shù)據(jù)量不斷擴(kuò)大。傳統(tǒng)的設(shè)備狀態(tài)監(jiān)測(cè)系統(tǒng)通常單獨(dú)建設(shè),針對(duì)單個(gè)領(lǐng)域,解決某類問(wèn)題,互相獨(dú)立,彼此間沒(méi)有關(guān)聯(lián)。隨著數(shù)字化、智能化水電站建設(shè)的推進(jìn),要求在電站或者集團(tuán)級(jí)成立狀態(tài)監(jiān)測(cè)數(shù)據(jù)中心,接入并融合各個(gè)狀態(tài)監(jiān)測(cè)子系統(tǒng)數(shù)據(jù),實(shí)現(xiàn)對(duì)設(shè)備狀態(tài)的全方位、多維度的監(jiān)測(cè)、分析和評(píng)價(jià),為生產(chǎn)管理決策提供全面、準(zhǔn)確的技術(shù)支撐。

        狀態(tài)監(jiān)測(cè)系統(tǒng)持續(xù)、高頻地產(chǎn)生各種數(shù)據(jù),數(shù)據(jù)種類多,數(shù)據(jù)量巨大。如何處理好這些數(shù)據(jù),發(fā)揮其應(yīng)有作用是一個(gè)巨大的挑戰(zhàn)。傳統(tǒng)的狀態(tài)監(jiān)測(cè)系統(tǒng)通常獨(dú)立存儲(chǔ)數(shù)據(jù),由于受存儲(chǔ)條件限制,一般只保存經(jīng)過(guò)加工后的特征數(shù)據(jù),原始數(shù)據(jù)沒(méi)有保存,遺漏了隱藏在原始數(shù)據(jù)中的部分信息,且超過(guò)一定時(shí)間的歷史數(shù)據(jù)就會(huì)被丟棄,不能實(shí)現(xiàn)設(shè)備全生命周期的狀態(tài)監(jiān)測(cè)。雖然近年來(lái)大數(shù)據(jù)技術(shù)發(fā)展迅速,在金融、醫(yī)療、消費(fèi)等領(lǐng)域均得到了成功應(yīng)用,但是由于水電設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)的特殊性,如果照搬其他領(lǐng)域的大數(shù)據(jù)處理方法很難取得理想的效果。為此,需要全面分析水電設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)的特征,根據(jù)數(shù)字化、智能化水電站建設(shè)對(duì)狀態(tài)監(jiān)測(cè)系統(tǒng)的要求,結(jié)合當(dāng)下成熟的大數(shù)據(jù)技術(shù),設(shè)計(jì)適合的水電設(shè)備狀態(tài)監(jiān)測(cè)大數(shù)據(jù)處理方案。

        2 水電設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)的特點(diǎn)

        大數(shù)據(jù)一般具有“3 V”特征,即規(guī)模大Volume、類型多Variety和價(jià)值密度低Value。水電設(shè)備狀態(tài)監(jiān)測(cè)系統(tǒng)測(cè)點(diǎn)多,數(shù)據(jù)產(chǎn)生頻度高,類型眾多,具有典型的大數(shù)據(jù)特征,是名副其實(shí)的大數(shù)據(jù),同時(shí)又超越了普適的大數(shù)據(jù)概念,具有其他行業(yè)所無(wú)法比擬的體量及內(nèi)涵。

        (1)規(guī)模大:水電設(shè)備狀態(tài)監(jiān)測(cè)系統(tǒng)測(cè)點(diǎn)眾多(單個(gè)電站的測(cè)點(diǎn)以數(shù)萬(wàn)計(jì)),數(shù)據(jù)產(chǎn)生頻率高(通常為秒級(jí)甚至毫秒級(jí)),且為全天候不間斷采集,數(shù)據(jù)量巨大。

        (2)類型多:水電站設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)來(lái)源廣,數(shù)據(jù)類型復(fù)雜,既有結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

        (3)價(jià)值密度低:這個(gè)特點(diǎn)在水電設(shè)備狀態(tài)監(jiān)測(cè)系統(tǒng)中體現(xiàn)得尤為明顯,大量的數(shù)據(jù)為設(shè)備正常運(yùn)行的狀態(tài)數(shù)據(jù),對(duì)分析和評(píng)價(jià)設(shè)備狀態(tài)意義不大,少部分反映設(shè)備狀態(tài)變化的特征數(shù)據(jù)則隱藏在大數(shù)據(jù)中。

        水電設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)的這些特征,給數(shù)據(jù)的接入、傳輸、處理、存儲(chǔ)和應(yīng)用均帶來(lái)了挑戰(zhàn),需要制定合適的策略來(lái)管理這些數(shù)據(jù),才能最大限度地發(fā)揮其作用。

        3 數(shù)據(jù)接入及遠(yuǎn)程傳輸技術(shù)

        在大數(shù)據(jù)背景下,需要構(gòu)建狀態(tài)監(jiān)測(cè)數(shù)據(jù)中心,接入各個(gè)狀態(tài)監(jiān)測(cè)子系統(tǒng)數(shù)據(jù)。這些數(shù)據(jù)產(chǎn)生頻率高、數(shù)據(jù)量大、類型多,需要系統(tǒng)具有極高的吞吐量、實(shí)時(shí)處理能力及可靠性,才能確保對(duì)每一條信息都進(jìn)行處理,并無(wú)一遺漏地保存下來(lái)。傳統(tǒng)的處理方式是把數(shù)據(jù)直接寫(xiě)入數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),由于前端數(shù)據(jù)產(chǎn)生的速度有可能高于后端數(shù)據(jù)處理的速度,這種方式會(huì)造成部分?jǐn)?shù)據(jù)遺漏,從而降低數(shù)據(jù)分析結(jié)論的真實(shí)性和可靠性。

        基于消息隊(duì)列(如Kafka,ActiveQM等)的數(shù)據(jù)接入方案可以解決上述問(wèn)題。該方案將數(shù)據(jù)首先寫(xiě)入消息隊(duì)列,再由數(shù)據(jù)管理程序存儲(chǔ)到數(shù)據(jù)庫(kù)中。消息隊(duì)列具有緩存機(jī)制,已經(jīng)寫(xiě)入數(shù)據(jù)庫(kù)的消息會(huì)被清除,尚未寫(xiě)入的數(shù)據(jù)緩存在消息隊(duì)列中。采用這種機(jī)制,在進(jìn)行海量設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)實(shí)時(shí)處理時(shí),可以解決前端監(jiān)測(cè)數(shù)據(jù)產(chǎn)生速度快,而實(shí)時(shí)處理速度跟不上,導(dǎo)致數(shù)據(jù)丟失的問(wèn)題。同時(shí),引入消息隊(duì)列之后,后端處理速度就不會(huì)影響前端監(jiān)測(cè)數(shù)據(jù)的接入,解除數(shù)據(jù)接入和數(shù)據(jù)處理環(huán)節(jié)的耦合,系統(tǒng)各組件異步運(yùn)行,增加系統(tǒng)可靠性。

        在進(jìn)行數(shù)據(jù)遠(yuǎn)距離傳輸時(shí),可以利用消息隊(duì)列機(jī)制控制數(shù)據(jù)的傳輸。在某些情況下,狀態(tài)監(jiān)測(cè)系統(tǒng)會(huì)突然產(chǎn)生大量數(shù)據(jù)(如故障發(fā)生時(shí)的快速錄波數(shù)據(jù)),由于傳輸帶寬有限,如果這些數(shù)據(jù)不加處理就直接進(jìn)行傳輸,有可能因?yàn)樗查g數(shù)據(jù)傳輸量過(guò)大而導(dǎo)致網(wǎng)絡(luò)癱瘓。采用消息隊(duì)列機(jī)制,數(shù)據(jù)管理程序可以根據(jù)帶寬的情況,控制每次數(shù)據(jù)傳輸量,未被傳輸?shù)臄?shù)據(jù)被暫存在消息隊(duì)列中,在帶寬空閑時(shí)再傳輸。這樣的處理方式,當(dāng)數(shù)據(jù)以井噴的方式產(chǎn)生時(shí),仍然可以確保數(shù)據(jù)能夠穩(wěn)定、完整地進(jìn)行傳輸。

        圖1 基于消息隊(duì)列的數(shù)據(jù)接入技術(shù)

        4 數(shù)據(jù)存儲(chǔ)策略

        在大數(shù)據(jù)背景下,設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)的存儲(chǔ)策略不僅要能讓數(shù)據(jù)完整地“存起來(lái)”,更要能讓數(shù)據(jù)“用起來(lái),用得好”。在數(shù)據(jù)存儲(chǔ)技術(shù)如此發(fā)達(dá)的今天,將數(shù)據(jù)完整保存起來(lái)已經(jīng)不是難事,但是“存起來(lái)”不等于能“用起來(lái),用得好”。大量存儲(chǔ)下來(lái)的數(shù)據(jù)不能用,或者不好用,這些數(shù)據(jù)就是毫無(wú)價(jià)值的垃圾數(shù)據(jù),反而會(huì)成為生產(chǎn)管理工作的負(fù)擔(dān)。因此,數(shù)據(jù)存儲(chǔ)策略的制定,既要確保數(shù)據(jù)能夠全面、完整地保存,同時(shí)也要考慮各種應(yīng)用對(duì)數(shù)據(jù)的需求,能對(duì)數(shù)據(jù)訪問(wèn)做出快速的反應(yīng)。

        傳統(tǒng)的狀態(tài)監(jiān)測(cè)系統(tǒng)通常采用企業(yè)級(jí)關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù),數(shù)據(jù)存儲(chǔ)量小,存儲(chǔ)間隔長(zhǎng)(通常是分鐘級(jí)以上),一般只存儲(chǔ)重要的特征數(shù)據(jù),且經(jīng)過(guò)一段時(shí)間后,歷史數(shù)據(jù)通常會(huì)被丟棄。這種存儲(chǔ)方式會(huì)造成大量的信息遺漏,不能實(shí)現(xiàn)設(shè)備全生命周期的分析及評(píng)價(jià)。因此,需要根據(jù)狀態(tài)監(jiān)測(cè)數(shù)據(jù)的特點(diǎn),結(jié)合各種數(shù)據(jù)庫(kù)的優(yōu)缺點(diǎn),以及當(dāng)前方興未艾的大數(shù)據(jù)技術(shù),構(gòu)建一套更為合適的數(shù)據(jù)存儲(chǔ)體系。

        4.1 各種數(shù)據(jù)庫(kù)優(yōu)缺點(diǎn)分析

        (1)關(guān)系型數(shù)據(jù)庫(kù):關(guān)系型數(shù)據(jù)庫(kù)通過(guò)構(gòu)建關(guān)系模型來(lái)組織并存儲(chǔ)數(shù)據(jù),由二維表格及其相互關(guān)系組成,主要用于存儲(chǔ)穩(wěn)定、永久的數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫(kù)構(gòu)建了數(shù)據(jù)(測(cè)點(diǎn))之間的關(guān)系,數(shù)據(jù)存取的同時(shí)也存取了它們之間的關(guān)系,便于人們理解和應(yīng)用;同時(shí),關(guān)系數(shù)據(jù)庫(kù)提供了標(biāo)準(zhǔn)的SQL查詢,便于對(duì)數(shù)據(jù)進(jìn)行訪問(wèn)。其缺點(diǎn)是在海量存儲(chǔ)的情況下,數(shù)據(jù)存取速度慢。另外,關(guān)系數(shù)據(jù)庫(kù)單個(gè)數(shù)據(jù)表的存儲(chǔ)維度有限,不適用于有大量測(cè)點(diǎn)的應(yīng)用場(chǎng)景。

        (2)實(shí)時(shí)數(shù)據(jù)庫(kù):實(shí)時(shí)數(shù)據(jù)庫(kù)是采用實(shí)時(shí)數(shù)據(jù)模型建立起來(lái)的數(shù)據(jù)庫(kù),用于處理不斷更新、快速變化的數(shù)據(jù),主要應(yīng)用于工業(yè)監(jiān)控領(lǐng)域,如電力、石化、鋼鐵等工業(yè)領(lǐng)域的監(jiān)控。實(shí)時(shí)數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)是存取快速,每秒的存取速度可達(dá)100萬(wàn)個(gè)數(shù)據(jù)點(diǎn);同時(shí),實(shí)時(shí)數(shù)據(jù)庫(kù)具有在線壓縮機(jī)制,能夠?qū)?shù)據(jù)進(jìn)行壓縮存儲(chǔ),最大限度降低磁盤(pán)占用空間;此外,實(shí)時(shí)數(shù)據(jù)庫(kù)是高維數(shù)據(jù)庫(kù),可以支持10萬(wàn)個(gè)以上測(cè)點(diǎn)的存儲(chǔ)。這些優(yōu)點(diǎn),使得實(shí)時(shí)數(shù)據(jù)庫(kù)非常適用來(lái)存儲(chǔ)設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)。但是實(shí)時(shí)數(shù)據(jù)庫(kù)采用的是“<時(shí)間+數(shù)值>”的列存儲(chǔ)機(jī)制,無(wú)法存儲(chǔ)橫向測(cè)點(diǎn)之間的邏輯關(guān)系,因此無(wú)法像關(guān)系數(shù)據(jù)庫(kù)那樣通過(guò)邏輯關(guān)系來(lái)對(duì)數(shù)據(jù)進(jìn)行條件查詢。這個(gè)缺點(diǎn)極大地限制了實(shí)時(shí)數(shù)據(jù)庫(kù)的應(yīng)用。

        (3)內(nèi)存數(shù)據(jù)庫(kù):內(nèi)存數(shù)據(jù)庫(kù)利用內(nèi)存的讀寫(xiě)速度比磁盤(pán)快的特點(diǎn),將數(shù)據(jù)放在內(nèi)存中直接進(jìn)行操作。內(nèi)存數(shù)據(jù)庫(kù)可模仿關(guān)系數(shù)據(jù)庫(kù)建立表結(jié)構(gòu)和索引,以便對(duì)數(shù)據(jù)進(jìn)行管理。相比從磁盤(pán)上訪問(wèn),內(nèi)存數(shù)據(jù)庫(kù)能夠極大地提高數(shù)據(jù)的存取速度。但是由于內(nèi)存空間有限,內(nèi)存數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ)量受到限制;另外,在機(jī)器關(guān)機(jī)后,內(nèi)存中的數(shù)據(jù)將不復(fù)存在。內(nèi)存數(shù)據(jù)庫(kù)的特點(diǎn),使得其適用于對(duì)數(shù)據(jù)進(jìn)行緩存,用于實(shí)時(shí)顯示、快速計(jì)算、預(yù)警報(bào)警等低延時(shí)的應(yīng)用場(chǎng)景。

        (4)文檔數(shù)據(jù)庫(kù):文檔數(shù)據(jù)庫(kù)以文檔作為處理信息的基本單位,一個(gè)文檔相當(dāng)于關(guān)系數(shù)據(jù)庫(kù)中的一條記錄。文檔數(shù)據(jù)庫(kù)適用于存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如報(bào)告、圖像、音頻、視頻等。

        4.2 狀態(tài)監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)策略

        在大數(shù)據(jù)背景下,使用單一數(shù)據(jù)庫(kù)來(lái)對(duì)設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)進(jìn)行管理及存儲(chǔ)很難取得理想效果。單一數(shù)據(jù)庫(kù),比如關(guān)系數(shù)據(jù)庫(kù)或?qū)崟r(shí)數(shù)據(jù)庫(kù),均可滿足將數(shù)據(jù)“存起來(lái)”這個(gè)要求,但是要滿足各種應(yīng)用場(chǎng)景,對(duì)各個(gè)應(yīng)用軟件的數(shù)據(jù)需求做出快速反應(yīng),實(shí)現(xiàn)“用得好”這個(gè)目標(biāo)卻并非易事。為此,可以聯(lián)合多種數(shù)據(jù)庫(kù),構(gòu)建數(shù)據(jù)庫(kù)群來(lái)存儲(chǔ)數(shù)據(jù),互相取長(zhǎng)補(bǔ)短,實(shí)現(xiàn)狀態(tài)監(jiān)測(cè)數(shù)據(jù)既“存起來(lái)”,又“用得好”這兩個(gè)目標(biāo)。

        如圖2所示,在多種數(shù)據(jù)庫(kù)聯(lián)合存儲(chǔ)的方案中,系統(tǒng)根據(jù)數(shù)據(jù)特征、作用以及各種應(yīng)用的數(shù)據(jù)需求,對(duì)數(shù)據(jù)進(jìn)行分類存儲(chǔ)。實(shí)時(shí)數(shù)據(jù)庫(kù)用于存儲(chǔ)狀態(tài)監(jiān)測(cè)歷史數(shù)據(jù),充分發(fā)揮實(shí)時(shí)數(shù)據(jù)庫(kù)存儲(chǔ)速度快、高效壓縮的優(yōu)勢(shì),將全部數(shù)據(jù)(包括特征數(shù)據(jù)和原始數(shù)據(jù))進(jìn)行存儲(chǔ),保證數(shù)據(jù)存儲(chǔ)的完整性;關(guān)系數(shù)據(jù)庫(kù)用于存儲(chǔ)分析統(tǒng)計(jì)結(jié)果、評(píng)價(jià)及診斷結(jié)論等,能夠在保存數(shù)據(jù)的同時(shí)保存它們之間的邏輯關(guān)系,便于后續(xù)的查詢及應(yīng)用;內(nèi)存數(shù)據(jù)庫(kù)用于緩存一定時(shí)間的數(shù)據(jù),把部分常用的數(shù)據(jù)載入內(nèi)存庫(kù)中,可以充分發(fā)揮內(nèi)存數(shù)據(jù)庫(kù)存取快速的特點(diǎn),為應(yīng)用提供快速的數(shù)據(jù)訪問(wèn)功能;文件數(shù)據(jù)庫(kù)則專門(mén)用于存儲(chǔ)報(bào)表、圖片、視頻、音頻等半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)。

        5 數(shù)據(jù)預(yù)處理技術(shù)

        水電設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)量巨大,但價(jià)值密度低,如何將有價(jià)值的信息從數(shù)據(jù)的汪洋大海中挖掘出來(lái)是一個(gè)難題。一個(gè)普遍的認(rèn)識(shí)誤區(qū)是:當(dāng)把全部的數(shù)據(jù)都存儲(chǔ)起來(lái)后,便可以實(shí)現(xiàn)任何想要功能。但是,如果數(shù)據(jù)沒(méi)有經(jīng)過(guò)處理就進(jìn)行存儲(chǔ),或者存儲(chǔ)后沒(méi)有再進(jìn)行加工,直接對(duì)巨量數(shù)據(jù)進(jìn)行查詢和檢索,系統(tǒng)的反應(yīng)會(huì)極其緩慢,再好的應(yīng)用架構(gòu)設(shè)計(jì)也不能解決這個(gè)問(wèn)題。因此,采用合適的計(jì)算框架,對(duì)狀態(tài)監(jiān)測(cè)大數(shù)據(jù)進(jìn)行預(yù)處理,提取有價(jià)值的信息,將大數(shù)據(jù)由“大”變“小”,是狀態(tài)監(jiān)測(cè)數(shù)據(jù)“用得好”的關(guān)鍵所在。

        圖2 數(shù)據(jù)存儲(chǔ)策略

        狀態(tài)監(jiān)測(cè)大數(shù)據(jù)的預(yù)處理可以從以下3個(gè)方面進(jìn)行(圖 3):

        圖3 數(shù)據(jù)預(yù)處理架構(gòu)

        (1)流式計(jì)算:利用分布式流式計(jì)算框架(如Storm等),對(duì)狀態(tài)監(jiān)測(cè)系統(tǒng)傳送過(guò)來(lái)的實(shí)時(shí)數(shù)據(jù)進(jìn)行處理、計(jì)算,得出計(jì)算結(jié)果。流式計(jì)算要求事先設(shè)計(jì)好數(shù)據(jù)的處理流程節(jié)點(diǎn),當(dāng)有新數(shù)據(jù)產(chǎn)生時(shí)按照既定流程對(duì)數(shù)據(jù)進(jìn)行處理。流式計(jì)算適用于對(duì)當(dāng)前數(shù)據(jù)進(jìn)行簡(jiǎn)單運(yùn)算和分析,如閾值報(bào)警判斷,實(shí)時(shí)狀態(tài)評(píng)估、模式識(shí)別等。

        (2)內(nèi)存計(jì)算:利用分布式內(nèi)存計(jì)算框架(如Spark等),對(duì)數(shù)據(jù)進(jìn)行處理、計(jì)算,得出結(jié)果。由于是基于內(nèi)存進(jìn)行計(jì)算,數(shù)據(jù)及中間結(jié)果都放在內(nèi)存中,減少了磁盤(pán)的I/O操作,因此,內(nèi)存計(jì)算比起基于磁盤(pán)的計(jì)算具有明顯的速度優(yōu)勢(shì)。內(nèi)存計(jì)算適用于需要快速計(jì)算和復(fù)雜迭代的應(yīng)用場(chǎng)景(如神經(jīng)網(wǎng)絡(luò)運(yùn)算)等。在運(yùn)算前,需要將計(jì)算用到的歷史數(shù)據(jù)從實(shí)時(shí)數(shù)據(jù)庫(kù)中載入,再在內(nèi)存中進(jìn)行運(yùn)算。平時(shí)也可將部分常用的數(shù)據(jù)存儲(chǔ)到內(nèi)存中,以提高系統(tǒng)的反應(yīng)速度。

        (3)磁盤(pán)計(jì)算:磁盤(pán)計(jì)算的數(shù)據(jù)及其中間結(jié)果均存入磁盤(pán)(如Map/Reduce等),由于是基于磁盤(pán)I/O操作的運(yùn)算,其運(yùn)算效率較低。硬盤(pán)計(jì)算適用于數(shù)據(jù)量大,運(yùn)算時(shí)間較長(zhǎng),對(duì)運(yùn)算效率要求不高的應(yīng)用場(chǎng)景。

        狀態(tài)監(jiān)測(cè)系統(tǒng)需要綜合運(yùn)用流式計(jì)算、內(nèi)存計(jì)算及硬盤(pán)計(jì)算等多種手段對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,從大數(shù)據(jù)中提取出有價(jià)值的信息,才能對(duì)各種數(shù)據(jù)需求做出快速反應(yīng),達(dá)到最佳效果。此外,由于計(jì)算結(jié)果數(shù)據(jù)量通常較小,適合于存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中,便于檢索及查詢。

        6 基于Hadoop的狀態(tài)監(jiān)測(cè)大數(shù)據(jù)處理框架

        6.1 Hadoop的優(yōu)點(diǎn)

        Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),是當(dāng)前比較成熟大數(shù)據(jù)處理技術(shù),已經(jīng)在醫(yī)療、金融、消費(fèi)等領(lǐng)域得到廣泛應(yīng)用。它實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS。HDFS被設(shè)計(jì)用來(lái)部署在低廉的硬件上,并提供高吞吐量數(shù)據(jù)訪問(wèn),適合那些有著超大數(shù)據(jù)集的應(yīng)用場(chǎng)景。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。Hadoop架構(gòu)的優(yōu)點(diǎn)包括:

        (1)高可靠性:Hadoop按位存儲(chǔ)和處理數(shù)據(jù),且采用冗余副本策略,可存儲(chǔ)數(shù)據(jù)的多個(gè)副本,在部分節(jié)點(diǎn)故障的情況下能保持?jǐn)?shù)據(jù)的完整性。

        (2)高擴(kuò)展性:Hadoop在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

        (3)高效性:Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。

        (4)高容錯(cuò)性:Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。

        鑒于Hadoop的特點(diǎn)及其優(yōu)勢(shì),它非常適合于用來(lái)作為狀態(tài)監(jiān)測(cè)大數(shù)據(jù)處理的基礎(chǔ)架構(gòu)。

        6.2 Hadoop子項(xiàng)目

        Hadoop框架最核心的設(shè)計(jì)包括HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。其子項(xiàng)目包括:

        (1)HDFS:分布式文件管理系統(tǒng),是 Hadoop的核心子項(xiàng)目,它可以將數(shù)據(jù)存儲(chǔ)到多個(gè)節(jié)點(diǎn)上,同時(shí)存儲(chǔ)數(shù)據(jù)的多個(gè)副本,具有高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征。

        (2)MapReduce:分布式數(shù)據(jù)處理模型,用于大規(guī)模數(shù)據(jù)集(大于1 TB)的多節(jié)點(diǎn)并行運(yùn)算。

        (3)Hbase:分布式數(shù)據(jù)庫(kù),可以對(duì)數(shù)據(jù)進(jìn)行分布式管理及存儲(chǔ),具有存取快速、高可靠性、高擴(kuò)展性等特點(diǎn)。

        (4)Hive:基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。

        圖4 Hadoop子項(xiàng)目

        6.3 基于Hadoop的狀態(tài)監(jiān)測(cè)大數(shù)據(jù)處理架構(gòu)

        本文以Hadoop作為基本架構(gòu),融合流式處理、內(nèi)存計(jì)算、多數(shù)據(jù)庫(kù)聯(lián)合存儲(chǔ)等技術(shù),設(shè)計(jì)一套適合狀態(tài)監(jiān)測(cè)大數(shù)據(jù)處理的技術(shù)方案,如圖5所示。

        圖5 基于Hadoop的大數(shù)據(jù)處理架構(gòu)

        方案以分布式文件系統(tǒng)HDFS作為數(shù)據(jù)存儲(chǔ)的基礎(chǔ),利用其分布式存儲(chǔ)、讀取快速、可擴(kuò)展性好、高度可靠的優(yōu)點(diǎn),為數(shù)據(jù)存儲(chǔ)提供基礎(chǔ)服務(wù)。報(bào)表、聲音、圖像等半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)直接存儲(chǔ)在HDFS中。在HDFS的基礎(chǔ)上,部署HBase數(shù)據(jù)庫(kù),存儲(chǔ)設(shè)備狀態(tài)數(shù)據(jù),包括全部特征數(shù)據(jù)和原始數(shù)據(jù)等。HBase是一種分布式,面向列、可伸縮的數(shù)據(jù)庫(kù),可為數(shù)據(jù)的存儲(chǔ)提供快速存取服務(wù)。通過(guò)構(gòu)建“<時(shí)間,數(shù)值>”的存儲(chǔ)模式,實(shí)現(xiàn)類似于實(shí)時(shí)數(shù)據(jù)庫(kù)的功能,但比實(shí)時(shí)數(shù)據(jù)庫(kù)具有更好的可擴(kuò)展性和更高的可靠性。方案部署分布式內(nèi)存數(shù)據(jù)庫(kù)(Redis)和內(nèi)存計(jì)算框架(Spark),從HBase中讀取數(shù)據(jù),加載進(jìn)內(nèi)存中,利用Spark進(jìn)行分布式計(jì)算,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,為高級(jí)應(yīng)用提供有價(jià)值的數(shù)據(jù)。方案部署關(guān)系數(shù)據(jù)(Orcale)來(lái)存儲(chǔ)流式處理及內(nèi)存計(jì)算結(jié)果,便于應(yīng)用程序的查詢和訪問(wèn)。

        方案設(shè)置數(shù)據(jù)服務(wù)層為應(yīng)用程序提供數(shù)據(jù)服務(wù),實(shí)現(xiàn)應(yīng)用層和數(shù)據(jù)存儲(chǔ)層的分離,高級(jí)應(yīng)用無(wú)需關(guān)心數(shù)據(jù)存儲(chǔ)的細(xì)節(jié),有利于提高應(yīng)用的獨(dú)立性和可擴(kuò)展性。

        6.4 基于Hadoop的狀態(tài)監(jiān)大測(cè)數(shù)據(jù)處理架構(gòu)的優(yōu)點(diǎn)

        (1)高吞吐量:系統(tǒng)采用分布式消息隊(duì)列、分布式流式計(jì)算以及分布式存儲(chǔ)(HDFS、HBase)等技術(shù),多節(jié)點(diǎn)并行對(duì)數(shù)據(jù)進(jìn)行處理,使得系統(tǒng)具有極高的吞吐量,能夠滿足狀態(tài)監(jiān)測(cè)大數(shù)據(jù)實(shí)時(shí)、并發(fā)的處理要求。

        (2)高可靠性:系統(tǒng)采用消息隊(duì)列機(jī)制,實(shí)現(xiàn)前端數(shù)據(jù)接入及后端數(shù)據(jù)處理的分離;設(shè)置數(shù)據(jù)服務(wù)層,實(shí)現(xiàn)應(yīng)用和數(shù)據(jù)存儲(chǔ)的分離。這些措施解除了各個(gè)模塊之間的耦合,有利于提高系統(tǒng)的可靠性。此外,Hadoop采用冗余副本策略,可以存儲(chǔ)數(shù)據(jù)的多個(gè)副本,在某些節(jié)點(diǎn)出現(xiàn)故障的情況下仍然能夠保證數(shù)據(jù)的完整性,保證系統(tǒng)的正常運(yùn)行,具有極高的可靠性。

        (3)高效性:系統(tǒng)聯(lián)合多節(jié)點(diǎn)并行對(duì)數(shù)據(jù)進(jìn)行處理,并采用了內(nèi)存計(jì)算技術(shù),極大地提高了數(shù)據(jù)處理速度。

        (4)高擴(kuò)展性:Hadoop可以根據(jù)需要擴(kuò)展其計(jì)算和存儲(chǔ)節(jié)點(diǎn),且擴(kuò)展不影響之前的數(shù)據(jù)存儲(chǔ),具有很好的可擴(kuò)展性。

        7 結(jié)語(yǔ)

        水電設(shè)備狀態(tài)監(jiān)測(cè)系統(tǒng)測(cè)點(diǎn)眾多,數(shù)據(jù)產(chǎn)生頻率高,數(shù)據(jù)量巨大,給數(shù)據(jù)的處理、存儲(chǔ)、分析帶來(lái)了挑戰(zhàn)。本文對(duì)狀態(tài)監(jiān)測(cè)系統(tǒng)數(shù)據(jù)特點(diǎn)進(jìn)行了分析,對(duì)數(shù)據(jù)接入、存儲(chǔ)及預(yù)處理技術(shù)進(jìn)行了研究,提出了一套基于Hadoop的水電設(shè)備狀態(tài)監(jiān)測(cè)大數(shù)據(jù)的處理方案。方案綜合利用消息隊(duì)列、流式計(jì)算、內(nèi)存計(jì)算技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,并根據(jù)數(shù)據(jù)特點(diǎn)以及各種數(shù)據(jù)庫(kù)的優(yōu)缺點(diǎn),綜合運(yùn)行實(shí)時(shí)數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、文件數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行管理、存儲(chǔ),最終通過(guò)數(shù)據(jù)服務(wù)層對(duì)外提供數(shù)據(jù)服務(wù),實(shí)現(xiàn)水電設(shè)備狀態(tài)監(jiān)測(cè)大數(shù)據(jù)“存起來(lái)”、“用得好”的目標(biāo)。

        猜你喜歡
        關(guān)系數(shù)據(jù)庫(kù)監(jiān)測(cè)數(shù)據(jù)數(shù)據(jù)處理
        關(guān)系數(shù)據(jù)庫(kù)在高爐數(shù)據(jù)采集系統(tǒng)中的應(yīng)用
        山東冶金(2022年2期)2022-08-08 01:51:30
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
        GSM-R接口監(jiān)測(cè)數(shù)據(jù)精確地理化方法及應(yīng)用
        基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
        GPS異常監(jiān)測(cè)數(shù)據(jù)的關(guān)聯(lián)負(fù)選擇分步識(shí)別算法
        基于小波函數(shù)對(duì)GNSS監(jiān)測(cè)數(shù)據(jù)降噪的應(yīng)用研究
        基于索引結(jié)構(gòu)的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞檢索
        變電站監(jiān)測(cè)數(shù)據(jù)采集系統(tǒng)
        一種基于數(shù)據(jù)圖劃分的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞檢索方法
        可以免费看亚洲av的网站| 成年视频网站在线观看777 | 中文字幕一区二区三区6| 国产精品亚洲av无人区一区香蕉| 99久久免费国产精品| 亚洲中文无码成人影院在线播放| 久久精品国产亚洲片| 日本亚洲系列中文字幕| 亚洲国产成人av在线观看| 亚洲av色福利天堂| 日本精品人妻在线观看| 国产精品国产三级久久| 成年女人粗暴毛片免费观看| 亚洲一区欧美二区| 日本二区三区视频免费观看| 精品国产一区二区三区18p| 内射少妇36p亚洲区| 99热最新在线观看| 日本高清人妻一区二区| 久久久精品久久久久久96| 怡红院a∨人人爰人人爽| 91美女片黄在线观看| 自拍偷区亚洲综合激情| 久久伊人精品一区二区三区| 熟妇五十路六十路息与子| 久久人妻av不卡中文字幕| 亚洲av日韩一卡二卡| 伊人久久久精品区aaa片| 美女污污网站| 精品熟女av中文字幕| 人妻尝试又大又粗久久| a级毛片免费观看视频 | 亚洲日本欧美产综合在线| 亚洲av男人免费久久| 欧美xxxx做受欧美88| 色猫咪免费人成网站在线观看| 国产盗摄XXXX视频XXXX| 亚洲av专区国产一区| a级毛片无码久久精品免费| 亚洲区日韩精品中文字幕| 国产精品美女主播在线|