亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的電信大數(shù)據(jù)平臺應用探究

        2018-11-26 07:27:42
        長春大學學報 2018年10期
        關(guān)鍵詞:數(shù)據(jù)庫節(jié)點系統(tǒng)

        張 華

        (福建警察學院 計算機與信息安全管理系,福州 350007)

        隨著中國科技的快速發(fā)展,智能手機的崛起改善了人們的生活方式,提高了人們的生活效率,同時移動網(wǎng)絡(luò)平臺建設(shè)也面臨更大的挑戰(zhàn)。隨著互聯(lián)網(wǎng)及社交軟件的普及,數(shù)據(jù)信息應用及共享趨于全球化,需要最大化的分享和利用數(shù)據(jù)資源來服務于社會,因此需要更先進的數(shù)據(jù)處理技術(shù)。其中Hadoop數(shù)據(jù)處理理念與傳統(tǒng)模式不同,簡單來說,它主要強調(diào)建立一個開放資源的平臺,遷移代碼至數(shù)據(jù),而不是將數(shù)據(jù)遷移至代碼,節(jié)省了數(shù)據(jù)傳輸耗費的時間。這項技術(shù)是由Doug Cutting團隊于2005年開發(fā)設(shè)計的,旨在擴展網(wǎng)絡(luò)數(shù)據(jù)信息資源處理系統(tǒng),解決Google等電子搜索引擎的壟斷性技術(shù)。

        1 Hadoop大數(shù)據(jù)平臺概述

        1.1 大數(shù)據(jù)的定義

        根據(jù)《第32次中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告》分析, 對大數(shù)據(jù)的定義從三個方面界定:數(shù)據(jù)體量、復雜程度、應用價值[1]。數(shù)據(jù)體量大是指數(shù)據(jù)源具有一定規(guī)模,常規(guī)數(shù)據(jù)采集軟件不能完成。但著名咨詢公司麥肯錫認為“大”的定義是動態(tài)的,時代的進步和技術(shù)革新會提高對數(shù)據(jù)體量大的定義,而且同時期內(nèi)不同領(lǐng)域不同部門對數(shù)據(jù)體量大的標準也不一樣。復雜程度區(qū)分大數(shù)據(jù)是由德勤咨詢計數(shù)器負責人羅伯特.福萊提出,他認為大數(shù)據(jù)的第一屬性是復雜程度,數(shù)據(jù)源排列的查詢難度大小決定了是否能夠劃分為大數(shù)據(jù)類別。應用價值及應用頻率則更加直觀的體現(xiàn)是否可以劃分為大數(shù)據(jù)。數(shù)據(jù)使用也從廣度和深度兩方面對完善網(wǎng)絡(luò)平臺有更高的要求。廣義業(yè)務中有現(xiàn)有的性能數(shù)據(jù)、話單數(shù)據(jù)、參數(shù)數(shù)據(jù)等,而深度性可延展到話單分析,從純粹的KPI查看、告警查看、話單查看到關(guān)聯(lián)綜合分析及智能優(yōu)化,都是完善網(wǎng)絡(luò)平臺繼續(xù)完成的任務。

        1.2 電信大數(shù)據(jù)平臺

        電信是海量數(shù)據(jù)的唯一收集點和存儲平臺,也是網(wǎng)絡(luò)時代各種業(yè)務必須應用到的開放式數(shù)據(jù)信息資源庫。電信大數(shù)據(jù)平臺的功能是對電信網(wǎng)絡(luò)內(nèi)數(shù)據(jù)資源庫信息從收集、整理到分析的一系列作業(yè)。電信市場中對周期統(tǒng)計數(shù)據(jù)的應用需求不斷增加,需要以最敏銳的洞察力洞察出市場行情的變化和發(fā)展趨勢,以此面對嚴峻的行業(yè)競爭,因此需要電信員工對大量數(shù)據(jù)進行分析和統(tǒng)計。根據(jù)數(shù)據(jù)統(tǒng)計結(jié)果分析,Hadoop中不同組件擁有不同特性,不同特性滿足不同應用需求,例如:Hive可提供數(shù)據(jù)庫語言,可應用于迅速統(tǒng)計并加以分析;Hbase可應用于便捷查詢;中間件對外部系統(tǒng)提供API接口。使用數(shù)據(jù)資源庫的信息及已成熟的數(shù)據(jù)分析算法,通過mahout對復雜原理數(shù)據(jù)分析完成專業(yè)分析工作,完整體現(xiàn)整個電信大數(shù)據(jù)分析平臺。Hadoop是Apache lucene中mutch的一個子項目,都由Doug Cutting 設(shè)想創(chuàng)立,nutch是Lucene文本搜索和查詢庫的擴展,具有開放和民主的特性,主要負責web搜索引擎中的分布式系統(tǒng)處理,自我修復故障和負載均衡等問題。Hadoop項目可以充實并輔助完成nutch網(wǎng)絡(luò)擴展技術(shù),其全面發(fā)展的特性和低成本學習及使用快速被行業(yè)接納和認可,被公認為可選擇使用的高性價比大數(shù)據(jù)分析技術(shù)。但因為業(yè)務情況的復雜多變,Hadoop還在不斷完善改進中。

        2 基于Hadoop的大數(shù)據(jù)調(diào)度算法

        Hadoop的調(diào)整策略研究主要分三個方面:推測機制的研究、針對數(shù)據(jù)位置的改進研究和針對shuffle階段的改進研究。

        研究推測機制是一種系統(tǒng)內(nèi)自我調(diào)節(jié)策略,通過用運行快的節(jié)點幫助運行慢的節(jié)點實現(xiàn)自我改善,提高運行效率。但是有待優(yōu)化的是判斷能力不夠,可能會在節(jié)點慢速或者快速的問題上出現(xiàn)誤判,從而影響整個系統(tǒng)的工作效率。對此有國外研究人員提出LATE算法,有效地改善了對節(jié)點快慢速度的判別。在國內(nèi),也有研究人員對 LATE 算法進行完善,提出了 SAMR等算法,這些研究優(yōu)化了整個系統(tǒng)的性能[3]。數(shù)據(jù)位置研究采用并行數(shù)據(jù)處理系統(tǒng)的兩個階段來完成。首先是Map階段,產(chǎn)生中間過程的結(jié)果,然后必須經(jīng)過組裝之后才能被reduce調(diào)度使用并在網(wǎng)上傳輸。針對這個過程產(chǎn)生的負荷有國外研究人員提出了Delay Scheduling、6Quincy等調(diào)度算法,并投入實踐,結(jié)果表明有一定良好的效果。

        Shuffle的改善調(diào)度策略。shuffle階段是整個數(shù)據(jù)處理系統(tǒng)中所花費時間最長的一個階段,很多國內(nèi)外學者為了改良這一點,優(yōu)化shuffle階段的工作時間做出了很大努力。研究提出了 Orchestra管理系統(tǒng),縮減數(shù)據(jù)傳遞工作量而提出 pre-shuffle 機制,這些策略都能有效改良系統(tǒng)的配置,提升系統(tǒng)的性能指標數(shù)據(jù)[4]。

        除此之外,還有研究人員提出了合理分配數(shù)據(jù)預先判斷和預測分配時間以縮減系統(tǒng)的反應時間,國內(nèi)學者也在優(yōu)化階段的基礎(chǔ)之上自行調(diào)整以適應hadoop的使用調(diào)度算法策略。

        3 hadoop大數(shù)據(jù)平臺技術(shù)

        3.1 Hadoop平臺

        對大數(shù)據(jù)的處理模式采用分布式、網(wǎng)絡(luò)算法和并行處理等多種技術(shù)綜合。這一整套完整的大數(shù)據(jù)組織處理方案實現(xiàn)了便捷終端連接及移除、分布計算和存儲、龐大的容錯機制等一系列功能(如圖1)[5]。頂級用戶不需要了解基礎(chǔ)工作原理,只需將它當作一種使用工具來獲得所需信息即可。用戶可以使用個人計算機或PDA端口同步云系統(tǒng),且系統(tǒng)硬件組成由互聯(lián)網(wǎng)平臺連接多臺不同結(jié)構(gòu)的計算機構(gòu)成,使用便捷,效果明顯,所以Hadoop被廣泛應用于社會各個領(lǐng)域。

        圖1 Hadoop平臺架構(gòu)

        Hadoop由JobTracker和TaskTracker兩個部分構(gòu)成。其中JobTracker位置與控制節(jié)點于一處主導Map/Reduce的控制性能,以完成創(chuàng)建分節(jié)點為結(jié)果導向:TaskTracker位于數(shù)據(jù)節(jié)點,以完成分析處理數(shù)據(jù)并傳輸結(jié)果給JobTracker為任務。這種運行模式完成了映射階段在各個子節(jié)點處理而不需要通過網(wǎng)絡(luò)上傳,只在最后階段才向NameNode傳輸結(jié)果。MapReduce作為Googlr的核心技術(shù)被大范圍應用到大數(shù)據(jù)計算中,基于此項技術(shù),編寫分布式程序難度降低,即使不了解分布式計算的用戶也能輕松編程,實現(xiàn)大數(shù)據(jù)計算。根據(jù)實踐應用,MapReduce更適合處理大規(guī)模大集群數(shù)據(jù)庫。MapReduce構(gòu)架的幾大優(yōu)勢:(1)動態(tài)增減計算節(jié)點,彈性計算;(2)支持節(jié)點故障狀態(tài)下仍能完成任務轉(zhuǎn)移;(3)可遷移任務至最近節(jié)點;(4)備份分散式數(shù)據(jù)到多個節(jié)點。

        3.2 HDFS集群

        HDFS集群由一個控制節(jié)點和若干個數(shù)據(jù)節(jié)點組成??刂乒?jié)點需要管理系統(tǒng)的命名,服務器端口、訪問權(quán)限和文件屬性修改性能,磁盤空間占比等,是構(gòu)成系統(tǒng)中最重要的部分。數(shù)據(jù)節(jié)點主要負責存儲數(shù)據(jù)??蛻粲嬎銠C程序端口若是要訪問數(shù)據(jù)節(jié)點需要先通過控制節(jié)點獲得元數(shù)據(jù),NameNode幫助用戶記錄文件的訪問頻率。HDFS則分割大數(shù)據(jù)分開存儲到不同的數(shù)據(jù)節(jié)點,并根據(jù)控制節(jié)點和數(shù)據(jù)節(jié)點的位置將數(shù)據(jù)進行必要的遷移。通常情況在一個集群下只需要一臺高檔計算器管理服務器,多臺同時管理數(shù)據(jù)節(jié)點。而管理服務器的任務是維護數(shù)據(jù)與數(shù)據(jù)節(jié)點之間的映射階段并保護數(shù)據(jù)存取過程。HDFS中EditLog表示標記為事務日志,記錄元數(shù)據(jù)變化,F(xiàn)sImage表示標記為映像文件,表示為系統(tǒng)的namepace。系統(tǒng)啟動后,數(shù)據(jù)節(jié)點會向控制節(jié)點傳送信息,主要計算任務由數(shù)據(jù)節(jié)點承擔,程序用戶如需要找數(shù)據(jù)節(jié)點需先從控制節(jié)點獲取數(shù)據(jù)標識。HDFS的系統(tǒng)文件擴展空間非常龐大,任何一臺計算機都會影響整個系統(tǒng)的癱瘓,導致傳輸過程中的數(shù)據(jù)丟失,所以需設(shè)置容錯機制定期巡檢各分節(jié)點工作狀態(tài)并進行自我修復。

        3.3 容錯機制

        Hadoop大數(shù)據(jù)集群的物理軟件、硬件配置的組合多種多樣,而數(shù)據(jù)庫的信息需要分布式存儲于各數(shù)據(jù)節(jié)點中,所以擁有龐大的容錯機制必不可少。其中有兩種情況發(fā)生頻率較高:一是當數(shù)據(jù)節(jié)點出現(xiàn)錯誤時,心跳機制可以定時向控制節(jié)點反饋故障或錯誤信號。若控制節(jié)點在接收到信號之后沒有在相應時間內(nèi)做出反饋信息,該機制則會自我判定該節(jié)點故障生成并終止調(diào)度,還原至數(shù)據(jù)遷移之前的狀態(tài)。轉(zhuǎn)換Map任務指令至其他位置上時,Reduce指令會告知等待讀取的數(shù)據(jù)節(jié)點并做出相應調(diào)度,在無效節(jié)點數(shù)量多時,容錯機制也允許其他節(jié)點執(zhí)行無效節(jié)點任務。其二是控制節(jié)點診斷出錯誤,雖然控制節(jié)點會定期設(shè)立巡檢點并傳輸出數(shù)據(jù),以防程序的主要控制性能無效后妨礙數(shù)據(jù)遷移的效率,但仍然避免不了主控制節(jié)點會出現(xiàn)故障狀態(tài),所以當診斷主節(jié)點故障時,需立即從最新巡檢點發(fā)出恢復指令,將數(shù)據(jù)備份。然后重啟Mapreduce,這個過程用戶也可以完成。

        3.4 數(shù)據(jù)庫HBase

        HBase是HDFS分布式存儲系統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)中的一個分項目。它有異于oracle這一類結(jié)構(gòu)型數(shù)據(jù)庫,屬于大數(shù)據(jù)集群存儲的非結(jié)構(gòu)式數(shù)據(jù)庫,受眾主要針對列數(shù)據(jù)存儲,而傳統(tǒng)數(shù)據(jù)庫受眾主要針對行數(shù)據(jù)存儲。HDFS運行系統(tǒng)中存儲數(shù)據(jù)信息的地方是在子表服務器內(nèi)。這個系統(tǒng)可保持信息遷移的高可靠性及彈性分布。運行模式只能通過主鍵Row Key 和Range完成檢索功能,存儲非傳統(tǒng)結(jié)構(gòu)型數(shù)據(jù)。其設(shè)計原理是為解決大數(shù)據(jù)集群關(guān)系類數(shù)據(jù)庫理論和實踐的差異局限性,因為傳統(tǒng)關(guān)系類數(shù)據(jù)處理技術(shù)經(jīng)過多年研究沒有較大突破,始終只能完成49個主節(jié)點內(nèi)的信息遷移處理。HBase的大存儲空間高速復制讀寫性能能夠使大集群數(shù)據(jù)快速分布傳送到上千臺服務器,創(chuàng)立連接端口。相較于其他系統(tǒng),HBase的核心優(yōu)勢體現(xiàn)在延展空間大,可以預先切分出20%的磁盤存儲空間應對數(shù)據(jù)庫信息量的變化。其次可實現(xiàn)多臺計算器用戶同時進入端口進行高速讀寫。其工作原理是將數(shù)據(jù)集合分布式存儲到多臺計算器上,隨著進入服務器端口的用戶數(shù)量增加,數(shù)千臺計算器可同時應對訪問指令,另外其運行系統(tǒng)中的緩存機制也可提高接受用戶訪問指令的概率。第三個優(yōu)化功能在于它的容錯機制,因為HBase運行是基于HDFS系統(tǒng)上,所以運行中的服務器診斷出讀寫問題時,也可從日志中發(fā)出恢復數(shù)據(jù)指令,HBase系統(tǒng)可自行調(diào)度其他服務器接受指令恢復數(shù)據(jù)讀寫過程。因此當數(shù)據(jù)遷移成功就證明復制指令已發(fā)出并完成,以此保證整個系統(tǒng)運行模式的高實用性。

        3.5 金字塔架構(gòu)

        遙控感應成像型數(shù)據(jù)庫的分辨率和數(shù)據(jù)集合的應用推廣面呈上漲趨勢,因此就如何加強存儲空間和和高速讀寫以及更新頻率為探討課題,作為研究熱點。在全球大規(guī)模發(fā)展影像數(shù)據(jù)繪制情況下通常采用金字塔模型,其模型的應用在圖片壓縮、轉(zhuǎn)換處理索引及地形可視方面尤為明顯。其原理是以原計算規(guī)則生產(chǎn)不同分辨率的階層,后對每個不同階層規(guī)則進行分布分塊調(diào)度,最后顯示結(jié)果時只需要把最主要顯示的階段遷移至內(nèi)部存儲服務器,以此提高服務器顯示效率。這個應用在構(gòu)建虛擬地形結(jié)構(gòu)的方面頻率較高,范圍較廣。從其他方面考察可知,傳統(tǒng)分布式單機處理服務器已越來越不能滿足現(xiàn)如今產(chǎn)生的呈快速上漲趨勢的大規(guī)模集群遙控影像數(shù)據(jù)庫金字塔構(gòu)建問題。因此有研究學者提出可結(jié)合全球網(wǎng)格部分技術(shù),key-value磁盤存儲及Hilbert空間填充曲線應用幾種技術(shù)實現(xiàn)Hadoop云計算平臺下的影像金字塔并行架構(gòu)。

        4 結(jié)語

        在地形方面的數(shù)據(jù)結(jié)構(gòu)一直都是吸引數(shù)據(jù)研究者的一大領(lǐng)域,尤其是大規(guī)模地形數(shù)據(jù),其結(jié)構(gòu)、組織、應用和發(fā)展推廣廣泛地被社會各界關(guān)注。像這樣全球范圍的高分辨率遙控感應成像應用數(shù)據(jù)包可界定為真正的大數(shù)據(jù)。研究表明使用瓦片金字塔模型分析處理全球規(guī)模的大數(shù)據(jù)可取得較好效果。許多學者也將注意力集中在金字塔的儲存空間,因為自定義大內(nèi)存文件夾存放金字塔文件,可以有效解決內(nèi)存碎片的情況,但這樣的處理模式并不適用于局部更新。因為金字塔模型可以實現(xiàn)不同分辨率數(shù)據(jù)庫之間的無誤查詢。不同層次分辨率成像影像和DEM數(shù)據(jù)結(jié)構(gòu)處理才會都傾向于采用這種方法。其中值得一提的是杜清運于2011年提出方案:采用內(nèi)嵌金塔模型瓦片地圖數(shù)據(jù)集,并用“分層分塊”理念構(gòu)建,筑成大規(guī)模成像影像和DEM數(shù)據(jù)庫的理想結(jié)構(gòu)。這種方案既能提高處理高分辨率數(shù)據(jù)效率,又能節(jié)省數(shù)據(jù)查詢時間,因此可以大幅提升系統(tǒng)性能。

        地形方面的數(shù)據(jù)結(jié)構(gòu)在組織方案確定之前需要調(diào)整幾個方面的工作。首先是大數(shù)據(jù)的分層、分塊、分布。為了對數(shù)據(jù)做高效的分層處理,提高數(shù)據(jù)分辯率需要將數(shù)據(jù)做分層導入,每一個階段有適合該節(jié)點的分辨率層次。即使是同層分辨率數(shù)據(jù)也只能分次導入至內(nèi)存磁盤,地形數(shù)據(jù)也可以分地域處理、以便動態(tài)的信息調(diào)整。還需要考慮磁盤存儲容量及網(wǎng)絡(luò)傳送路徑、讀寫能力對文件屬性及大小的要求,以免造成耗費空間地形數(shù)據(jù)傳輸時間?,F(xiàn)在較常使用的地形數(shù)據(jù)組織方式是根據(jù)現(xiàn)有的地形比例圖像分層處理。因為金字塔每一層都有這個層次對應的一個比例尺分辨率圖像,通過分層再整合整個圖像數(shù)據(jù)來管理這些數(shù)據(jù)。目前的種數(shù)據(jù)方案是以現(xiàn)有的比例尺圖像作為分層依據(jù),而且這個比例尺對應于金字塔的每一層,分層后再按圖幅的大小分配數(shù)據(jù),再分別安排對應的服務器低數(shù)據(jù)進行管理,這種情況下很多普通的計算機都可以連接增大層存儲量,整個容量動態(tài)擴大過程不需要停機。

        猜你喜歡
        數(shù)據(jù)庫節(jié)點系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        CM節(jié)點控制在船舶上的應用
        Analysis of the characteristics of electronic equipment usage distance for common users
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        久久综合给合久久狠狠狠9| 亚洲精品久久久久avwww潮水| 东北老女人高潮疯狂过瘾对白| 无码日韩人妻AV一区免费| 精品亚亚洲成av人片在线观看| 在教室轮流澡到高潮h免费视| 天堂网www资源在线| 人人狠狠综合久久亚洲婷婷| 国产一区二区三区杨幂| 美艳善良的丝袜高跟美腿| 国产md视频一区二区三区| 久久青青热| 亚洲av乱码一区二区三区观影| 国语对白福利在线观看| 香蕉人人超人人超碰超国产| 永久国产盗摄一区二区色欲| 日本在线免费一区二区三区| 色综合久久中文字幕综合网| 国语自产偷拍精品视频偷| 婷婷激情六月| 国产91在线播放九色快色| 色综合久久久久综合99| 在线观看免费午夜大片| 人妻少妇邻居少妇好多水在线| 亚洲国产精品500在线观看| 国产91精品自拍视频| 胸大美女又黄的网站| 久久亚洲精品无码gv| 亚洲专区在线观看第三页| 国产乱码精品一区二区三区久久| 粗大猛烈进出高潮视频| 深夜国产成人福利在线观看女同| 国产精品老女人亚洲av无| 国产av久久久久精东av| 少妇高潮惨叫久久久久久| 亚洲成人av一区二区麻豆蜜桃| 亚洲久悠悠色悠在线播放| 国产真实夫妇视频| 中文无码日韩欧免费视频| 丝袜美足在线视频国产在线看| 中文字幕人妻熟在线影院|