姜技
摘 ? 要:在計(jì)算機(jī)系統(tǒng)運(yùn)行以及研究環(huán)節(jié)中,會(huì)存在大量的規(guī)模效應(yīng),此類狀況難以避免,要想有效解決此類問題,就需要利用分布式的處理方式,開展對(duì)文件系統(tǒng)的分析。文章對(duì)分布式多維聯(lián)機(jī)分析過程(MOLAP)的數(shù)據(jù)模型進(jìn)行了分析,從維編碼的算法、映射歸約(MapReduce)算法的實(shí)現(xiàn)、分析維的遍歷算法等方面作深入探討。
關(guān)鍵詞:分布式處理;多維聯(lián)機(jī)分析過程;維編碼算法
多維聯(lián)機(jī)分析過程(Multidimension Online Analytical Processing,MOLAP)技術(shù)通常是指以MapReduce程序?yàn)榛A(chǔ),一般用于加強(qiáng)對(duì)計(jì)算機(jī)系統(tǒng)的處置和管理。在信息數(shù)據(jù)的多個(gè)層次和維度運(yùn)行中,一般會(huì)借助遍歷算法以及維編碼的直接操作等流程,實(shí)現(xiàn)高質(zhì)量運(yùn)轉(zhuǎn)。在目前的發(fā)展環(huán)節(jié),為提高總體的信息技術(shù)處置狀況質(zhì)量,需要加強(qiáng)對(duì)MOLAP技術(shù)的使用。
1 ? ?數(shù)據(jù)模型
MOLAP具體的運(yùn)行內(nèi)容分為維和實(shí)際狀況兩個(gè)方面。在運(yùn)行環(huán)節(jié),核心部分是探尋在維和事實(shí)中所存在的映射聯(lián)系性。通常情況下,在管理過程中,使用較為傳統(tǒng)的ROLAP技術(shù)能將數(shù)據(jù)庫(kù)和星形模型相連,在發(fā)散自身維度信息的過程中,還會(huì)實(shí)現(xiàn)事實(shí)信息的有效存儲(chǔ)。采用外鍵存在聯(lián)系之內(nèi)的映射關(guān)系反應(yīng)會(huì)增加整體運(yùn)行效率和成果。但是在實(shí)際操作和運(yùn)行的階段中,工作人員還需要聯(lián)合實(shí)際性的操作狀況,促使操作流程和相對(duì)應(yīng)的運(yùn)行效率不斷提升。首先,在一種多維度的數(shù)據(jù)運(yùn)轉(zhuǎn)模型處理過程中,將大量的數(shù)據(jù)開展分類處理時(shí),維就會(huì)將多種偶數(shù)據(jù)放置在一個(gè)含有多種層疊聯(lián)系的數(shù)據(jù)構(gòu)造中,并提供大量和數(shù)據(jù)之間的運(yùn)行和篩選方式,核算具體的組織方法。在針對(duì)此環(huán)節(jié)的分析和研究過程中,通常需要事先將維具體內(nèi)涵開展簡(jiǎn)化處理工作,實(shí)現(xiàn)對(duì)多維度數(shù)據(jù)模型的研究和簡(jiǎn)化,具體的簡(jiǎn)化處理工作會(huì)受到以下環(huán)節(jié)制約。例如,設(shè)定A為維,則相對(duì)應(yīng)的A含有維層次,但是具體維層次的具體數(shù)量會(huì)為1,A本質(zhì)上是一種由多個(gè)N維級(jí)所構(gòu)成的一種集合體方式,設(shè)定(i∈[1,n])是一種隨意的維級(jí)別,存在一種維度的屬性,含帶具體的數(shù)值。可以將A視為和其余級(jí)別位屬性數(shù)據(jù)相單獨(dú)構(gòu)成的一種結(jié)構(gòu),在具體的同一類型的節(jié)點(diǎn)會(huì)存在不同子節(jié)點(diǎn)數(shù)。其次,在度量的設(shè)計(jì)中,將度量K設(shè)定為一種單獨(dú)的度量,遵循參考維度值方式將其視為在MOLAP環(huán)節(jié)中所研究的對(duì)象,在此環(huán)節(jié)中,往往會(huì)需要將較為細(xì)粒程度的度量作為在維度中存在的較小維度值。再次,在單元格的設(shè)定過程中,工作人員能夠在總體邏輯視圖環(huán)節(jié)中開展詳細(xì)的分析和研究,單元格本質(zhì)上是通過不同種類的度量得以展現(xiàn)的,此類度量能夠以一種相同的維值作為后期研究對(duì)象,所以單元格經(jīng)常會(huì)被視為度量的有效結(jié)合體。最后,在數(shù)據(jù)立方的定義中,會(huì)遵循上述的過程,數(shù)據(jù)立方往往是MOLAP內(nèi)部所存在的一種多維度構(gòu)造,是通過多種單元格搭建形成的。塊的定義通常是立方數(shù)據(jù)的思維分析圖,其內(nèi)部每一個(gè)數(shù)據(jù)立方均可以依照維構(gòu)建不同的數(shù)值[1]。
2 ? ?維編碼的算法
維編碼往往會(huì)涉及兩類形式,分別為二進(jìn)制編碼算法以及十進(jìn)制的編碼算法。二進(jìn)制的編碼算法是采用對(duì)多個(gè)編碼的構(gòu)造從而展現(xiàn)對(duì)多類維信息的概述,利用位移的方式展現(xiàn)對(duì)維的遍閱。但是在一般情況下,在此二進(jìn)制的編碼系統(tǒng)內(nèi)部中會(huì)存在個(gè)別漏洞,有少部分的設(shè)置還不完善。十進(jìn)制的編碼運(yùn)算較為清晰,有利于工作人員針對(duì)個(gè)級(jí)維的數(shù)據(jù)進(jìn)行調(diào)整,保障后期的編碼運(yùn)算工作,但是此步驟需要利用編碼以及維值內(nèi)部含帶的映射狀況作調(diào)整。為防止在運(yùn)行的環(huán)節(jié)中存在弊端,影響到后期的工作,就應(yīng)當(dāng)采用MOLAP技術(shù)利用十進(jìn)制編碼算法,從而設(shè)定1和維A內(nèi)存在的個(gè)維級(jí)別。
在實(shí)際的使用環(huán)節(jié)中,大量的數(shù)值均是采用維的數(shù)值形式得以展現(xiàn),比如,在高度以及價(jià)格方面,此類數(shù)據(jù)的模式維會(huì)根據(jù)所述值域的不同種類開展具體劃分形式,多種劃分模式內(nèi)部含有的步長(zhǎng)會(huì)存在大量維級(jí)別。因此,數(shù)值的維符合現(xiàn)實(shí)約束狀況,但是還會(huì)存在少量的費(fèi)數(shù)值,涉及多個(gè)部門以及城市和相對(duì)應(yīng)的日期等環(huán)節(jié)。根據(jù)實(shí)際運(yùn)行能夠得到空值和需要填補(bǔ)的維值數(shù),在同一種關(guān)鍵節(jié)點(diǎn)中涵蓋相同數(shù)量的子節(jié)點(diǎn)。工作人員可以根據(jù)確切參考日期獲得相對(duì)應(yīng)的數(shù)據(jù)編碼結(jié)果。在通常情況下,以月級(jí)別為前提的每個(gè)月天數(shù)均會(huì)存在差異性,但是在此環(huán)節(jié)中,要想實(shí)現(xiàn)對(duì)此種技術(shù)的應(yīng)用和運(yùn)行,需要加強(qiáng)對(duì)此環(huán)節(jié)的定義,并將具體的設(shè)定為每月均為31天的等量。因此,工作人員就會(huì)在二月份增加30號(hào)以及31號(hào)。維在具體的運(yùn)行環(huán)節(jié)中均會(huì)變得復(fù)雜。為提升實(shí)際工作的質(zhì)量和運(yùn)行效率,需要將其進(jìn)行轉(zhuǎn)化。維層次的計(jì)算和運(yùn)轉(zhuǎn)方式有多種,涉及維值數(shù)法。為滿足先前的定義狀況,就需要采用上述方式。在技術(shù)人員處置的過程中,往往會(huì)采用合并以及取舍的方式,促使TCP-H的運(yùn)行模式有序地進(jìn)行簡(jiǎn)化工作,只有將其轉(zhuǎn)變?yōu)橄鄬?duì)應(yīng)的星形模塊,才會(huì)使最后的運(yùn)算結(jié)果符合單邊帶(Single Side Band,SSB)數(shù)據(jù)集中化的維模式。針對(duì)Supplier的維表進(jìn)行研究,需要采用區(qū)域分化的方式展開,此類形式需要存在區(qū)域?qū)傩圆拍軐?shí)現(xiàn)后續(xù)的維度層次。在此環(huán)境下,應(yīng)采用維值數(shù)的形式增加空值,從而滿足當(dāng)前的定義形式,最終符合實(shí)際運(yùn)用中的諸多形式[2]。
3 ? ?MapReduce算法的實(shí)現(xiàn)
OLAP算法在細(xì)節(jié)上涉及上卷算法以及切片算法等方式。在通常情況下,切塊算法以及切片算法利用最基礎(chǔ)的工程在一定限度的環(huán)節(jié)中展現(xiàn)和查詢,上卷算法以及下鉆算法在運(yùn)行過程中的主要能力是范圍查詢以及對(duì)數(shù)據(jù)進(jìn)行采集。OLAP具體的運(yùn)行操作形式經(jīng)常會(huì)被分化為4種類型,在實(shí)際應(yīng)用中會(huì)涉及Target,代表著在等待分析過程中的眾多元數(shù)據(jù),即Range,在等待分析的元數(shù)據(jù)階段中會(huì)存在Aggregation范圍。此類算法的使用,在早期往往會(huì)存在OLAP 4種屬性的組合,之后會(huì)經(jīng)由電子計(jì)算機(jī)設(shè)備的系統(tǒng)性審驗(yàn)處理之后,并實(shí)現(xiàn)其運(yùn)行過程中的高效性,避免在執(zhí)行任務(wù)的過程中,由于結(jié)果促使后期的運(yùn)作出現(xiàn)中斷。在此過程中,會(huì)獲得輸入模塊的具體列表,此類狀況是利用對(duì)塊的選用,從而得以實(shí)現(xiàn),將單元內(nèi)部的格以反線性的方式予以處置,依照輸入字段開展對(duì)單元格數(shù)據(jù)的及時(shí)處理。如果單元格數(shù)據(jù)要想滿足前期的數(shù)據(jù)研究,就應(yīng)當(dāng)加強(qiáng)對(duì)其的后期化處置,但也會(huì)存在單元格無(wú)法滿足當(dāng)前運(yùn)行形勢(shì)的狀況,促使其運(yùn)算數(shù)據(jù)遠(yuǎn)遠(yuǎn)不能滿足,單元格就會(huì)被拋棄,不能開展訪問工作。
4 ? ?分析維的遍歷算法
在DOLAP的維護(hù)工作人員的運(yùn)行過程中,通常均會(huì)以單根數(shù)的方式實(shí)現(xiàn)計(jì)算,將其視為Td,但是在此過程中需要掌控ALL,并將其視為整體的Td根節(jié)點(diǎn),將其視作第0級(jí)別,并將多個(gè)級(jí)別運(yùn)行環(huán)節(jié)中的維值視作具體的子節(jié)點(diǎn)。在開展一系列的OLAP的運(yùn)行階段中,工作人員應(yīng)當(dāng)對(duì)維值樹Td作遍歷操控,但是此工作頻率較強(qiáng),實(shí)際的工作總量較多。例如,在Td降低或者上升的狀況下,將其的關(guān)系設(shè)定為i∈[1,m1],li+1ldi,之后將其中的li+1轉(zhuǎn)變?yōu)閘i。在此過程中需要明確vi+1=vi,此環(huán)節(jié)較為關(guān)鍵,采用制定兵編碼體制,從而就會(huì)得到之間的聯(lián)系性。此類上卷關(guān)系能夠采用編碼運(yùn)算的方式展現(xiàn)在Td中的運(yùn)算操作。
5 ? ?OLAP算法的剖析
通過針對(duì)OLAP的運(yùn)算以及MapReduce做以研究的過程中,在其內(nèi)部確立不同的視角,并在使用OLAP運(yùn)算的環(huán)節(jié)中,促使其抽象的四元組可以實(shí)現(xiàn)分化展示,Target是分析數(shù)據(jù)立方的元數(shù)據(jù)研究,Range是立方環(huán)節(jié)中所采用的數(shù)據(jù)分析研究范圍。Aggregation通常是指相對(duì)應(yīng)的聚集函數(shù)。在研究Result表示元數(shù)據(jù)的過程中,一旦Target內(nèi)部的最高值較低時(shí),就代表著上卷操作已經(jīng)可以完工,輸入以及對(duì)外輸出的環(huán)節(jié)都是數(shù)據(jù)立方。工作人員需要明確查詢之后所出現(xiàn)的立方狀況,在此情況下,就會(huì)導(dǎo)致Result,Target兩者的維度均能夠有所差異性。通常情況下,會(huì)采用維度的分析從而實(shí)現(xiàn)對(duì)度量的詢問,針對(duì)OLAP運(yùn)算狀況,可以明確具體的操作查詢的維度構(gòu)造,Range本質(zhì)上是屬于一個(gè)多維度的二元組,詳細(xì)分析在內(nèi)部運(yùn)行的數(shù)據(jù)范圍[3]。此類算法和傳統(tǒng)的MapReduce對(duì)比,需要采用較為特殊的多維模型以便于和后期的度量開展組織對(duì)比。在此過程中,所付出的存儲(chǔ)代價(jià)較低,有利于工作人員在實(shí)踐環(huán)節(jié)得到明確的信息,目前,此情況應(yīng)用頻率較多。
6 ? ?分析數(shù)據(jù)的存儲(chǔ)
針對(duì)傳統(tǒng)的DOLAP技術(shù)進(jìn)行分析,采用數(shù)據(jù)立方的存儲(chǔ)形式前期投資成本較高,并且運(yùn)行過程復(fù)雜,特別是在運(yùn)行高緯數(shù)據(jù)的過程中所采用的存儲(chǔ)方式,內(nèi)部會(huì)含帶大量的維值,相對(duì)應(yīng)的存儲(chǔ)成本較高。在傳統(tǒng)技術(shù)下,往往會(huì)使用訪問環(huán)節(jié)中的多維數(shù)組從而提升后期OLAP的運(yùn)行,但在大數(shù)據(jù)環(huán)境下的具體操作較為困難。在多維運(yùn)行環(huán)節(jié)中往往是采用計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)的,可以不采用存儲(chǔ)的方式,在現(xiàn)代的數(shù)據(jù)立方管理環(huán)節(jié)上存儲(chǔ)的代價(jià)較小。DOLAP技術(shù)往往會(huì)對(duì)維的方式進(jìn)行簡(jiǎn)化處理,保障在同一種級(jí)別上還可以實(shí)現(xiàn)上維編碼的十進(jìn)制數(shù)。
7 ? ?結(jié)語(yǔ)
綜上所述,利用上述大數(shù)據(jù)運(yùn)行過程中對(duì)DOLAP技術(shù)的研究,此類技術(shù)往往能夠采用特殊的多維模型對(duì)度量的方式開展運(yùn)算,通過維編碼和遍歷算法的分析,能完成對(duì)維值數(shù)的上卷下鉆管制工作。在大數(shù)據(jù)的分析過程中,采用此類技術(shù)有助于保證計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)高質(zhì)量運(yùn)轉(zhuǎn),從而有效推動(dòng)社會(huì)的進(jìn)步。
[參考文獻(xiàn)]
[1]劉琴.大數(shù)據(jù)分析下分布式數(shù)據(jù)流處理技術(shù)研究[J].軟件工程,2019(12):44-46.
[2]田英.基于大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù)[J].信息與電腦(理論版),2019(15):140-141.
[3]王春凱,孟小峰.分布式數(shù)據(jù)流關(guān)系查詢技術(shù)研究[J].計(jì)算機(jī)學(xué)報(bào),2016(1):80-96.
Abstract:In the process of computer system operation and research, there will be a lot of scale effect, which is hard to avoid. In order to solve this kind of problem effectively, it is needed to use the distributed processing method to analyze the file system. In this paper, the distributed MOLAP overview and data model are analyzed, and the algorithm of dimension coding, the implementation of Map Reduce algorithm and the algorithm of dimension traversal are discussed.
Key words:distributed processing; multidimension online analytical processing; dimensional coding algorithm