王 琰,朱順痣
(廈門理工學(xué)院計算機與信息工程學(xué)院,福建 廈門 361024)
ETL國產(chǎn)服務(wù)器替代進口服務(wù)器的研究
王琰,朱順痣
(廈門理工學(xué)院計算機與信息工程學(xué)院,福建 廈門 361024)
構(gòu)建中國建設(shè)銀行新疆分行將ETL應(yīng)用從進口服務(wù)器遷移到國產(chǎn)服務(wù)器的遷移方案,搭建進口服務(wù)器環(huán)境和國產(chǎn)服務(wù)器環(huán)境的運行比較平臺.根據(jù)工作流類型,比較典型工作流在兩環(huán)境下的運行情況,發(fā)現(xiàn)雖然國產(chǎn)服務(wù)器基于內(nèi)存處理的性價比要差于進口服務(wù)器,但若與生產(chǎn)環(huán)境中的進口服務(wù)器平臺相比,無論從性能,還是從健壯性角度,國產(chǎn)服務(wù)器均可獨立承擔(dān)起銀行ETL應(yīng)用的工作.
銀行ETL系統(tǒng);服務(wù)器國產(chǎn)化;健壯性;性能;數(shù)據(jù)遷移
抽取、轉(zhuǎn)換和導(dǎo)入(extraction-transformation-loading,ETL)工作是銀行業(yè)務(wù)系統(tǒng)的基礎(chǔ)環(huán)節(jié),是國產(chǎn)服務(wù)器能否支持銀行業(yè)系統(tǒng)的關(guān)鍵.ETL應(yīng)用的實現(xiàn)已經(jīng)是一個較為成熟的領(lǐng)域,DataStage是一款能滿足大型數(shù)據(jù)遷移應(yīng)用的軟件產(chǎn)品,基于圖形化界面定制作業(yè)的靈活性和分布式數(shù)據(jù)處理能力,在ETL領(lǐng)域得到廣泛應(yīng)用.而且,由于ETL具有抽取和導(dǎo)入的步驟,ETL工具也常被用作數(shù)據(jù)遷移工具[1].但這種軟件產(chǎn)品無法應(yīng)對特殊環(huán)境,需要進行功能上的擴展和靈活配置.
在數(shù)據(jù)遷移方面人們已經(jīng)有很多工作.大慶油田井下分公司數(shù)據(jù)中心建設(shè)時,由于數(shù)據(jù)模型差異較大、業(yè)務(wù)規(guī)則復(fù)雜,需要專門開發(fā)一套基于元數(shù)據(jù)驅(qū)動的數(shù)據(jù)遷移方案[2].而廣西大學(xué)圖書管理系統(tǒng)卻面臨著存儲大量東盟小語種書籍的需求,需要基于數(shù)據(jù)編碼格式作數(shù)據(jù)遷移[3].另外,對于基于信息系統(tǒng)變更或整合時的數(shù)據(jù)遷移,對舊系統(tǒng)的調(diào)查分析及事后的檢查也是必不可少的環(huán)節(jié)[4].文獻[5]進一步提出一個可配置數(shù)據(jù)遷移框架,引入信息系統(tǒng)Web服務(wù)接口和業(yè)務(wù)規(guī)則引擎,實現(xiàn)數(shù)據(jù)遷移軟件與底層數(shù)據(jù)庫分離,提高了數(shù)據(jù)遷移中間件的可用性.
隨著大數(shù)據(jù)環(huán)境的普及,人們的興趣逐漸傾向于大數(shù)據(jù)環(huán)境下的數(shù)據(jù)ETL和分布式ETL的實現(xiàn).例如,文獻[6]總結(jié)了大數(shù)據(jù)環(huán)境下海量數(shù)據(jù)遷移時所使用的ETL方法,并結(jié)合上海社保系統(tǒng)數(shù)據(jù)遷移的實踐,對多種方法進行了嘗試.文獻[7]將開源工具Sqoop(可作為數(shù)據(jù)加載工具)和Hive(可作為數(shù)據(jù)轉(zhuǎn)換工具)相結(jié)合,構(gòu)建一個基于Hadoop平臺的分布式ETL工具.文獻[8]的研究更為深入,它對Hadoop底層源代碼進行修改,改善了HDFS數(shù)據(jù)塊分配的合理性,提高了大數(shù)據(jù)遷移的傳輸效率.文獻[9]-[10]研究的是云模型下數(shù)據(jù)遷移的策略和技術(shù).銀行系統(tǒng)遷移方面的工作如文獻[11],它的重點是雙系統(tǒng)切換時的系統(tǒng)停機設(shè)計,引入停機時間窗口內(nèi)提供小范圍服務(wù)的設(shè)計方案,降低因系統(tǒng)切換帶來的無法對外提供服務(wù)的損失.
銀行ETL應(yīng)用類型多種多樣,數(shù)據(jù)分布各有不同,基于部分工作流的測試結(jié)果難以推廣.因此,本文首先構(gòu)建了一個將數(shù)據(jù)由進口服務(wù)器遷移到國產(chǎn)服務(wù)器環(huán)境的遷移方案,并根據(jù)現(xiàn)有ETL工作流的類型,分析這些類型中的典型工作流在進口服務(wù)器環(huán)境和國產(chǎn)服務(wù)器環(huán)境下性能和健壯性的表現(xiàn),發(fā)現(xiàn)國產(chǎn)服務(wù)器下的ETL應(yīng)用需要對這類工作流的運行邏輯進行適當(dāng)修改,以便提高內(nèi)存的使用率.
銀行的應(yīng)用環(huán)境錯綜復(fù)雜,需要通過示范應(yīng)用系統(tǒng)的移植進一步擴大研究和應(yīng)用范圍.本文的工作基于ETL應(yīng)用系統(tǒng)向國產(chǎn)高端容錯服務(wù)器遷移的過程,構(gòu)建業(yè)務(wù)環(huán)境需求的遷移方案,并比較兩類服務(wù)器在性能和穩(wěn)定性方面對業(yè)務(wù)的支持程度.
1.1數(shù)據(jù)與操作描述
ETL工作主要用于數(shù)據(jù)庫增量的同步.ETL應(yīng)用的基本原理是:從各種原始的業(yè)務(wù)系統(tǒng)(異構(gòu)多源)中提取數(shù)據(jù),按照預(yù)先設(shè)計好的規(guī)則將抽取到的數(shù)據(jù)進行轉(zhuǎn)換,最后將轉(zhuǎn)換完的數(shù)據(jù)按計劃增量或全部導(dǎo)入到目標(biāo)數(shù)據(jù)庫中.測試過程將涉及異構(gòu)數(shù)據(jù)庫主機環(huán)境下ETL應(yīng)用運行一致性驗證、增量數(shù)據(jù)動態(tài)獲取、增量數(shù)據(jù)同步程序的開發(fā)及性能比較.
本應(yīng)用環(huán)境中,ETL應(yīng)用的輸入數(shù)據(jù)分為總行下發(fā)數(shù)據(jù)和分行應(yīng)用數(shù)據(jù)兩類.前者以下簡稱總推分?jǐn)?shù)據(jù),后者簡稱分行數(shù)據(jù),兩者的數(shù)據(jù)量大致相等.每個環(huán)境中,數(shù)據(jù)庫內(nèi)存儲的全量數(shù)據(jù)達到8 T,批量處理所需的日增量(及短期歷史)的數(shù)據(jù)量達到2 TB,根據(jù)本項目存續(xù)的不同階段,對于存儲的峰值要求為10 TB.批量數(shù)據(jù)處理類應(yīng)用以后臺數(shù)據(jù)處理作業(yè)為主,每日日常運行作業(yè)數(shù)量約為5 000個,系統(tǒng)峰值出現(xiàn)在月初,月初峰值每日運行作業(yè)數(shù)量將達到7 000個左右.
1.2系統(tǒng)架構(gòu)
如圖1所示,ETL系統(tǒng)分為進口服務(wù)器和國產(chǎn)服務(wù)器兩個環(huán)境.這兩個環(huán)境的程序運行邏輯基本一致,即針對分行應(yīng)用自身產(chǎn)生的數(shù)據(jù),在國外進口服務(wù)器和國產(chǎn)服務(wù)器的異構(gòu)環(huán)境下運行相同的ETL過程,將每日增量數(shù)據(jù)更新到各自對應(yīng)的數(shù)據(jù)庫中.兩套環(huán)境的比較僅基于分行數(shù)據(jù)ETL過程,不對總推分?jǐn)?shù)據(jù)的處理進行比較.因此,分行數(shù)據(jù)的ETL將分別在國產(chǎn)服務(wù)器環(huán)境和進口服務(wù)器環(huán)境執(zhí)行.而總推分?jǐn)?shù)據(jù)相關(guān)的ETL應(yīng)用則僅在進口服務(wù)器環(huán)境執(zhí)行,然后通過Oracle物化視圖機制,將國產(chǎn)服務(wù)器環(huán)境中的總推分?jǐn)?shù)據(jù)建成物化視圖,根據(jù)對應(yīng)ETL作業(yè)結(jié)束信息,調(diào)用Oracle刷新物化視圖命令.國產(chǎn)服務(wù)器環(huán)境中的分行全量數(shù)據(jù)是在初始時一次性導(dǎo)入,而分行增量數(shù)據(jù)通過ETL應(yīng)用分別加入兩個環(huán)境中,本文需要比較的就是兩套環(huán)境下加載分行增量數(shù)據(jù)的ETL工作流的性能及其穩(wěn)定性.
由于兩個環(huán)境的ETL過程和數(shù)據(jù)都是一致的,關(guān)鍵的不同在于數(shù)據(jù)庫服務(wù)器.前者采用HP服務(wù)器HP rp8420作為主機,而后者的主機是浪潮天梭高端容錯計算機,型號為K1 950,這正好形成一個天然的比較環(huán)境.在數(shù)據(jù)庫服務(wù)器上,這兩個環(huán)境都采用Linux+Oracle的軟件架構(gòu).國外進口服務(wù)器環(huán)境使用HP UNIX作為操作系統(tǒng),版本為HP 11iV1,數(shù)據(jù)庫使用ORACLE 10.2.0.5,國產(chǎn)服務(wù)器環(huán)境的軟件配置與之差不多,區(qū)別在于操作系統(tǒng)使用K-UX.當(dāng)然,由于國產(chǎn)服務(wù)器是本次為驗證國產(chǎn)服務(wù)器可用性而專程采購,設(shè)備較新,配置較好.本文的工作不是聚焦在比較國產(chǎn)服務(wù)器與進口服務(wù)器自身的好壞,應(yīng)該采購哪款產(chǎn)品,而是關(guān)注國產(chǎn)服務(wù)器能否完成進口服務(wù)器目前所進行的工作,以及對哪類工作支持不好.具體配置將在第3節(jié)實驗分析中說明.
ETL應(yīng)用由工作流組成,工作流是操作和存儲的有序關(guān)聯(lián).為驗證國產(chǎn)服務(wù)器在銀行ETL應(yīng)用下的運行效果,需要對ETL工作流進行劃分,以便根據(jù)不同類別進行比較.數(shù)據(jù)倉庫方面最著名的測試基準(zhǔn)是TPC-H[12].但是對于ETL系統(tǒng),其場景相對較簡單,并不合適.因此,惠普實驗室Simitsis等人提出了一個面向ETL工作流的測試基準(zhǔn)[13].該測試基準(zhǔn)基于操作與存儲的關(guān)系將工作流分為線型(line)、y型(wishbone)、匯入型(primary flow)、樹型(tree)、分支型(fork)以及蝴蝶型(butterfly)等若干種.本文主要用到線型、樹型、分支型、蝴蝶型等4種,并根據(jù)實際需求增加:對稱樹型和混合型.圖2即是這些類型,圖2中圓柱表示數(shù)據(jù)存儲,包括表或物化視圖,而三角形標(biāo)志表示操作.
1)線型工作流.這是指源是單表、然后對該表依順序作一系列操作、最后將結(jié)果導(dǎo)入到另一張表的一類工作流,其操作過程是一個順序的流程,故稱為線型工作流.操作的過程中允許數(shù)據(jù)落地,操作包括過濾、字符串操作、分組聚集等.示例工作流的圖形結(jié)構(gòu)如圖2(a)所示.
2)樹型工作流.這是多個線型工作流的組合.在這類工作流中,分不出干流與支流,這體現(xiàn)了多個源平等融入目標(biāo)的過程.樹型工作流的圖形結(jié)構(gòu)如圖2(b)所示.從圖2(b)中可以看出,該工作流是由3個匯入型工作流合并而成,每個匯入型工作流的長度相同,無法區(qū)分正源.而合并后的操作又形成一條線型工作流.整個圖形結(jié)構(gòu)向右偏轉(zhuǎn)90度來看,猶如一棵參天巨樹,故名樹型工作流.
3)分支型工作流.該工作流如圖2(c)所示,與樹型工作流正好相反,分支型工作流是將單個源的數(shù)據(jù)進行處理,最后分散到多個目標(biāo).
4)蝴蝶型工作流.這是最復(fù)雜的工作流,是分支型工作流和樹型工作流的合并.它通過合并操作將多個數(shù)據(jù)源的數(shù)據(jù)合并,然后分散到不同的數(shù)據(jù)目的中.示例的圖形結(jié)構(gòu)如圖2(d)所示,該工作流分別對零件-供應(yīng)表和供應(yīng)商表的增量數(shù)據(jù)進行轉(zhuǎn)換,然后將二者進行連接形成中間存儲View09,并在該物化視圖的基礎(chǔ)上分別基于國家和零件號以及國家和供應(yīng)商號,計算各統(tǒng)計信息,最終將兩類統(tǒng)計信息分別存儲到不同的數(shù)據(jù)目的地,物化視圖View12和View13.
5)對稱樹型工作流.這是對建行新疆分行現(xiàn)有工作流進行分析的基礎(chǔ)上發(fā)現(xiàn)的一種工作流.該工作流的圖形結(jié)構(gòu)如圖2(e)所示,它可視為由一個反向樹型工作流再加上一個樹型工作流組成.該工作流由一個數(shù)據(jù)源出發(fā),中間經(jīng)過處理后產(chǎn)生多個分叉,而這些分叉最終再合并到一個數(shù)據(jù)存儲中.
6)混合型工作流.這是另一種在實際環(huán)境中出現(xiàn)的工作流,它由多個部分組成,而各個部分之間沒有交集,可以各自獨立完成,各部分之間的關(guān)系是完全并行結(jié)構(gòu).從邏輯上,此類工作流可拆分成各個獨立的工作流.在實際工作中,一方面,開發(fā)人員在設(shè)計工作流時,出于便于管理的目的,根據(jù)工作流所屬系統(tǒng),將屬于同一個系統(tǒng)的工作合并在一個工作流中,一個工作流結(jié)束則意味該系統(tǒng)的工作全部結(jié)束.另一方面,工作流數(shù)量的減少也有助于降低調(diào)度服務(wù)器CTM的壓力.圖2(f)是這類工作流的一個樣例,該工作流由兩個獨立的線型工作流構(gòu)成.
根據(jù)對建行新疆分行實際工作流的調(diào)研,目前系統(tǒng)中的工作流多是這類混合型工作流.因此,在實際的實驗時,此類工作流的結(jié)構(gòu)甚為復(fù)雜,會對性能分析造成不利影響.在之后的實驗中需要根據(jù)工作流的復(fù)雜程度分析工作流的性能,本文引入工作流長度描述工作流的復(fù)雜長度,定義如下:
定義1運行線路,即從任一數(shù)據(jù)源存儲到任一數(shù)據(jù)目標(biāo)存儲的數(shù)據(jù)處理過程.
定義2工作流長度,即工作流圖形結(jié)構(gòu)中最長運行線路上的操作個數(shù)之和.
接下來,本文將根據(jù)典型類別對實際運行工作流在兩類服務(wù)器上的表現(xiàn)進行比較,判斷國產(chǎn)服務(wù)器是否能替代進口服務(wù)器.
本實驗平臺分別搭建在兩個環(huán)境上,一個是以惠普服務(wù)器作為ETL的數(shù)據(jù)庫服務(wù)器,另一個環(huán)境是以國產(chǎn)浪潮天梭服務(wù)器作為ETL的數(shù)據(jù)庫服務(wù)器.兩個環(huán)境都是由4臺機器構(gòu)成,其中1臺是數(shù)據(jù)庫服務(wù)器,另外3臺是ETL客戶機.各機器總體性能的描述如下:1)所有機器上CPU的空閑比例都很高,最低的一臺機器也達到95.9%;2)客戶機的空閑內(nèi)存占比相當(dāng)高,最低的一臺機器達到90.6%;3)服務(wù)器的空閑內(nèi)存比僅有3.28%.
數(shù)據(jù)庫服務(wù)器的配置:國產(chǎn)服務(wù)器環(huán)境的數(shù)據(jù)庫服務(wù)器使用是浪潮天梭K1 950服務(wù)器,CPU為32×1.86 GB,內(nèi)存為1 TB,操作系統(tǒng)為K-UX(一款類Linux操作系統(tǒng)),數(shù)據(jù)庫使用Oracle Server10.2.0.5 for linux,進口服務(wù)器環(huán)境的數(shù)據(jù)庫服務(wù)器使用HP rp8420服務(wù)器,CPU為16×1.1 GB,內(nèi)存為64 GB,操作系統(tǒng)為HP 11iV1,數(shù)據(jù)庫使用Oracle Server10.2.0.5 for HP-US.
常見的測試基準(zhǔn)多使用性價比、吞吐量、功耗指標(biāo)以及綜合指標(biāo),例如綜合功耗與吞吐量的每小時查詢綜合性能指標(biāo)作為服務(wù)器評估依據(jù).由于兩個環(huán)境的服務(wù)器采購時間和硬件配置不同,無法在同樣的基準(zhǔn)上進行比較,這也是終端用戶測試所面臨的常見問題.因此,本實驗的目的并非精確比較各工作流在性能上的差距,而是判斷在硬件配置提升的情形下,新環(huán)境能否在性能和穩(wěn)定性上替代原有環(huán)境.其次,通過類似性價比指標(biāo)判斷國產(chǎn)服務(wù)器在應(yīng)用上還存在哪些問題.3.1工作流基本信息
本文的實驗是在實際環(huán)境上運行的,總體運行時間達半年.由于數(shù)據(jù)獲取原因,本文從現(xiàn)有的90多個工作流中隨機抽取了10個工作流的一周運行數(shù)據(jù)進行分析.這些工作流大部分都是混合型工作流,表1是對這些工作流的基本描述.這些工作流的結(jié)構(gòu)比理論上的情況要復(fù)雜得多,每個混合型工作流由多個基本工作流構(gòu)成,而且構(gòu)成混合工作流的基本工作流的長度都比較深.
表1 工作流性能的描述
3.2工作流性能分析
由于各工作流的運行時長各不相同,且相差極大,有些工作流的正常運行時長僅有10多分鐘,而有些則長達400多分鐘.為了使比較具有說服力,本文采取對每個工作流進行討論,分原始運行時間和去噪后運行時間兩個系列,展示國產(chǎn)服務(wù)器環(huán)境與進口服務(wù)器環(huán)境下運行時間的區(qū)別,具體結(jié)果如圖3所示.圖3的橫軸是工作流,列出了第1~第10個工作流,縱坐標(biāo)則是國產(chǎn)服務(wù)器環(huán)境的運行時長與進口服務(wù)器環(huán)境的運行時長之比,單位是百分?jǐn)?shù).
從圖3中可以看出,在不考慮硬件配置的情形下,從原始運行時間來看,從第1個工作流到第10個工作流,雖然國產(chǎn)服務(wù)器的運行時長與進口服務(wù)器相比,一直都不超過100%.但是,其比例是不斷上升的,第一個工作流的比例還在50%以下,而最后一個就接近100%了.從去噪后的運行時間來看,其趨勢與原始時間也是類似的,基本呈逐漸上升趨勢,除了第3個工作流有輕微的下降.在去噪后的正常情況下,與進口服務(wù)器相比,在大部分工作流上,國產(chǎn)服務(wù)器的表現(xiàn)要遜色于未去噪的情況.這說明,異常情況對國產(chǎn)服務(wù)器的性能影響會更小.因此,不管是未去噪的原始運行時間,還是去噪后的運行時間,絕大部分的工作流都體現(xiàn)出國產(chǎn)服務(wù)器環(huán)境的運行效果不弱于進口服務(wù)器環(huán)境的特點.除了第10個工作流,在去噪后的比較中,國產(chǎn)服務(wù)器的性能略差于進口服務(wù)器的.
3.3工作流性能波動分析
從工作流運行性能比較中可以看出,在實際運行中運行的時長會出現(xiàn)波動,有些工作流的性能波動還比較大.為了一起比較所有工作流的波動,本文采用了變異系數(shù)(變異系數(shù)=標(biāo)準(zhǔn)差/平均值)的概念.實驗結(jié)果如圖4所示,橫軸是10個工作流,縱軸是變異系數(shù)的值,圖4上有兩條曲線,一條是國產(chǎn)服務(wù)器上各工作流的變異系數(shù),另一條則對應(yīng)進口服務(wù)器的表現(xiàn).從圖4中可以看出,除了第3個工作流外,國產(chǎn)服務(wù)器的變異系數(shù)都要小于進口服務(wù)器.變異系數(shù)越小,說明每次運行時長的變化比越小.因此得出:國產(chǎn)服務(wù)器的健壯性更強.圖4也與圖3形成呼應(yīng),在運行時間比較圖中,僅有工作流3在去噪后的表現(xiàn)優(yōu)于未去噪的情況.而圖4中也僅有工作流3在國產(chǎn)服務(wù)器上的變異系數(shù)高于進口服務(wù)器上的變異系數(shù).這說明,變異系數(shù)與去噪前后的性能比相關(guān).
3.4基于工作流運行時間的性價比分析
由于兩環(huán)境的硬件配置不同,需要考慮進行性價比較.由于兩款設(shè)備購買時間不同,根據(jù)購買價格進行分析,無法體現(xiàn)實際差別,需要對傳統(tǒng)的性價比指標(biāo)進行調(diào)整.根據(jù)表1可看出,影響ETL工作流性能的主要瓶頸在于數(shù)據(jù)庫服務(wù)器的內(nèi)存,為此,本文定義了一個性價比指標(biāo),即:
定義3每GB內(nèi)存上每小時運行次數(shù) = 60 / (工作流運行時長(單位分鐘) * 服務(wù)器內(nèi)存),單位為:次數(shù)/GB.
實驗結(jié)果如圖5所示,由于去噪時間與原始時間的效果差別不大,故僅顯示去噪時間的效果,圖5的橫軸是10個工作流,縱軸是去噪時間上基于內(nèi)存的性價比.圖上兩條線對應(yīng)國產(chǎn)服務(wù)器環(huán)境和進口服務(wù)器環(huán)境,圖中的值越高則說明性價比越高.從圖5得出:進口服務(wù)器的性價比會高于國產(chǎn)服務(wù)器的.特別是工作流4、6、8、10上,國產(chǎn)服務(wù)器的性價比要遠遠落后于進口服務(wù)器.根據(jù)對這4個工作流的描述,該工作流都包含了一個長度較大的線型工作流.由于兩套環(huán)境的軟件配置基本一致,因此問題的緣由可能在于操作系統(tǒng)方面,國產(chǎn)服務(wù)器使用的操作系統(tǒng)是在Linux基礎(chǔ)上修改得到的K-UX,而進口服務(wù)器使用的操作系統(tǒng)是HP-UX.可能K-UX在內(nèi)存分配、回收等方面未考慮ETL的特點,導(dǎo)致對內(nèi)存的低效使用.因此,對終端客戶而言,下一步的工作是考慮針對長度較深的線型工作流的K-UX內(nèi)存耗費較大的特點,進行應(yīng)用程序的修改,以優(yōu)化工作流的運行性能,更好地提升對內(nèi)存的利用.
本文對中國建設(shè)銀行新疆分行將ETL應(yīng)用系統(tǒng)遷移至國產(chǎn)化服務(wù)器環(huán)境的過程進行了描述,完成了在國產(chǎn)服務(wù)器上部署ETL應(yīng)用的一個嘗試,并通過實驗展示了國產(chǎn)服務(wù)器與進口服務(wù)器在性能方面的優(yōu)劣.從實驗的結(jié)果來看,在現(xiàn)有ETL應(yīng)用中,國產(chǎn)服務(wù)器無論在健壯性還是性能方面的表現(xiàn)都可以取代現(xiàn)有的進口服務(wù)器環(huán)境.但是,在實驗中也發(fā)現(xiàn),在基于內(nèi)存計算的性價比方面,國產(chǎn)服務(wù)器還是遜色于進口服務(wù)器,特別是存在長度較深的線型工作流時.因此若要部署國產(chǎn)服務(wù)器,需要對這類工作流的運行邏輯進行修改,以便提高內(nèi)存的使用率.最后,筆者也建議國產(chǎn)服務(wù)器廠商對操作系統(tǒng)的內(nèi)存分配與置換進行優(yōu)化,以便更好地推廣產(chǎn)品.
當(dāng)然,本文的實驗也存在著若干不足:一方面由于時間因素,實驗還不夠充分,只選取了10個工作流以及一周的運行情況,需要擴大數(shù)據(jù)的搜集范圍,進行更為細致的實驗;另一方面,對于工作流未進行更深入的分解,特別是混合型工作流,應(yīng)該分析到每個獨立成分的運行時長,以便更好地展示國產(chǎn)服務(wù)器對不同類型工作流的影響.因此,需要將這些工作總結(jié)起來,綜合這些工作流和數(shù)據(jù),并根據(jù)數(shù)據(jù)的分布,設(shè)計一個人造數(shù)據(jù)生成器,形成一個ETL應(yīng)用的測試基準(zhǔn),為在ETL應(yīng)用大規(guī)模推廣國產(chǎn)服務(wù)器做好基礎(chǔ)工作.
致謝:感謝贊揚豐碩公司與中國建設(shè)銀行新疆分行搭建的實驗環(huán)境.
[1]MOHAMMED AL-KATEB,ALAIN C.Adding a temporal dimension to the TPC-H benchmark[C]//4th TPC Technology Conference.Istanbul:TPCTC,2012.
[2]ALKIS S,PANOS V.Benchmarking ETL workflows[C]//Proc of TPCTC 2009.Lyon:TPCTC,2009.
[3]宋鵬,廉繼.ETL技術(shù)在復(fù)雜數(shù)據(jù)遷移項目中的應(yīng)用[J].西安工程大學(xué)學(xué)報,2008,22(4):493- 497.
[4]叢慧剛,任慶東,李天陽,等.元數(shù)據(jù)驅(qū)動的大型數(shù)據(jù)庫遷移工具實現(xiàn)[J].科學(xué)技術(shù)與工程,2011,11(10):2353-2356.
[5]陳園園,陶飛.社保信息系統(tǒng)中數(shù)據(jù)遷移的實現(xiàn)[J].蘇州市職業(yè)大學(xué)學(xué)報,2011,22(2):27-30.
[6]何剛.基于Hadoop平臺的分布式ETL研究與實現(xiàn)[D].上海:東華大學(xué),2014.
[7]王剛,王冬,李文,等.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)遷移技術(shù)研究[J].微型電腦應(yīng)用,2013,30(5):1-3.
[8]劉豹.一種分布式 ETL 工具的設(shè)計與實現(xiàn)[J].軟件,2013,34(10):73-77.
[9]韓劍峰.可配置化數(shù)據(jù)遷移框架的研究與實現(xiàn)[D].上海:上海交通大學(xué),2011.
[10]唐小新.基于Unicode字符集數(shù)據(jù)遷移的設(shè)計與實現(xiàn)[J].企業(yè)科技與發(fā)展,2011(17):22-24.
[11]林衛(wèi)華.銀行計算機系統(tǒng)數(shù)據(jù)遷移與系統(tǒng)停機的研究與應(yīng)用[D].長春:吉林大學(xué),2011.
[12]OI H,NIBOSHI S.Workload analysis of SPECj Enterprise 2010[C]//IEEE 10th International Symposium Proc of Parallel and Distributed Processing with Applications (ISPA).Leganes:IEEE,2012.
[13]JAN M S.The linpack benchmark[N].Computer World,2005-05-30(8).
(責(zé)任編輯雨松)
Study on Substituting Localized Servers forImported Servers on ETL Application
WANG Yan,ZHU Shun-zhi
(School of Computer and Information Engineering,Xiamen University of Technology,Xiamen 361024,China)
Based on a migration process of ETL applications from imported servers to localized servers environment in China Construction Bank,Xinjiang Branch,firstly,a migration solution is designed for building a comparison platform for localized servers and imported servers;Secondly,a comparison for typical types of workflows is finished under these environments,a conclusion could be drawn that banking ETL application could entirely implemented on localized server,not only from aspect of efficiency,but also from robustness.Although on localized servers,the price/performance metric of ram processing is worse than that of imported servers.
banking ETL system;server localization,robustness;performance,data migration
2014-10-29
2015-01-23
國家自然科學(xué)基金項目(61373147)
王琰(1977-),男,講師,博士,研究方向為數(shù)據(jù)庫、數(shù)據(jù)挖掘.E-mail:wangyan@xmut.edu.cn
TP399
A
1673-4432(2015)01-0079-07