黃志清 張送 韋通明 溫麗梅 韋統(tǒng)邊
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)遷移;數(shù)據(jù)測(cè)試
1引言
近年來(lái),隨著時(shí)代的快速發(fā)展,全球已經(jīng)從互聯(lián)網(wǎng)時(shí)代進(jìn)入大數(shù)據(jù)時(shí)代,目前全球數(shù)據(jù)總量已經(jīng)達(dá)到ZB級(jí)。相應(yīng)地,對(duì)于數(shù)據(jù)存儲(chǔ)硬件的要求和服務(wù)器容量的要求也變得越來(lái)越高,為了適應(yīng)越來(lái)越多的使用場(chǎng)景和進(jìn)行相應(yīng)的數(shù)據(jù)分析處理,數(shù)據(jù)遷移在這個(gè)過(guò)程中也就變得越來(lái)越重要。因此,最為重要的就是確保數(shù)據(jù)遷移后數(shù)據(jù)的完整性和準(zhǔn)確性。本文對(duì)數(shù)據(jù)遷移測(cè)試的全過(guò)程方法進(jìn)行了分析,并且提出了一種數(shù)據(jù)遷移測(cè)試的具體方法,旨在減少測(cè)試邏輯混亂帶來(lái)的時(shí)間成本和人力成本,從而更加高效地提高數(shù)據(jù)質(zhì)量[1]。
2數(shù)據(jù)迂移測(cè)試中容易出現(xiàn)的問(wèn)題
數(shù)據(jù)測(cè)試人員基本上是按照項(xiàng)目需求文檔的規(guī)則,對(duì)原本的數(shù)據(jù)源數(shù)據(jù)和遷移后的數(shù)據(jù)源數(shù)據(jù)進(jìn)行比對(duì),從分析的角度出發(fā),只有每一條數(shù)據(jù)都能夠完全相同,才能夠保證數(shù)據(jù)的準(zhǔn)確性和完整性。在數(shù)據(jù)測(cè)試的過(guò)程中,經(jīng)常會(huì)碰到下文所述問(wèn)題,會(huì)影響數(shù)據(jù)的準(zhǔn)確性和完整性,需要特別注意[2]。
2.1測(cè)試邏輯混亂
當(dāng)測(cè)試人員對(duì)遷移后的數(shù)據(jù)進(jìn)行測(cè)試的時(shí)候,有時(shí)候沒(méi)有經(jīng)過(guò)前置條件的數(shù)據(jù)就直接測(cè)試后面的數(shù)據(jù),造成數(shù)據(jù)測(cè)試結(jié)果無(wú)效。出現(xiàn)該問(wèn)題的原因有可能是項(xiàng)目需求文檔未申明清楚,產(chǎn)品人員傳遞需求有誤或者沒(méi)有規(guī)范的項(xiàng)目管理流程。這樣的數(shù)據(jù)測(cè)試結(jié)果無(wú)法證明數(shù)據(jù)是正確的,從而需要復(fù)測(cè),導(dǎo)致人力成本和時(shí)間成本增加。如果出現(xiàn)這樣的問(wèn)題,就需要規(guī)范測(cè)試需求和測(cè)試流程,從而能夠直接找到問(wèn)題所在,進(jìn)而進(jìn)行分析和解決。
2.2測(cè)試點(diǎn)不全面
在測(cè)試人員對(duì)數(shù)據(jù)進(jìn)行測(cè)試的時(shí)候,有時(shí)因?yàn)闃I(yè)務(wù)給出的要求不能覆蓋全部使用場(chǎng)景,導(dǎo)致部分?jǐn)?shù)據(jù)的測(cè)試結(jié)果不準(zhǔn)確,從而影響后續(xù)的數(shù)據(jù)分析和業(yè)務(wù)開(kāi)展。造成這個(gè)問(wèn)題也可能是其他原因,如不同的業(yè)務(wù)場(chǎng)景適用的數(shù)據(jù)要求不一樣,僵硬地套用測(cè)試規(guī)則就容易導(dǎo)致測(cè)試點(diǎn)不全面。因此,需要針對(duì)常用的業(yè)務(wù)場(chǎng)景設(shè)立通用的測(cè)試點(diǎn)標(biāo)準(zhǔn),對(duì)于具體業(yè)務(wù)還需要具體評(píng)估,而后分析和補(bǔ)充測(cè)試點(diǎn)[3]。
2.3測(cè)試時(shí)間較長(zhǎng)
在一個(gè)完整的測(cè)試過(guò)程中,因?yàn)榭赡艽嬖诘捻?xiàng)目需求不明確,測(cè)試人員未在一開(kāi)始就溝通或梳理清楚需要測(cè)試的要點(diǎn),以及多次重復(fù)測(cè)試,需要測(cè)試的數(shù)據(jù)量大小等,所以導(dǎo)致測(cè)試人員在一個(gè)完整的項(xiàng)目周期內(nèi)測(cè)試部分花費(fèi)的時(shí)間較長(zhǎng),從而影響整體的項(xiàng)目進(jìn)度,甚至提高時(shí)間和人力成本。因此,需要在開(kāi)始階段,與開(kāi)發(fā)、需求方進(jìn)行共同探討,如需要從哪些方面展開(kāi)相關(guān)的測(cè)試,可以確保數(shù)據(jù)的可用性和正確性。
3數(shù)據(jù)遷移測(cè)試流程及方法
數(shù)據(jù)測(cè)試中需要對(duì)遷移后的數(shù)據(jù)進(jìn)行全面分析[4],厘清據(jù)遷移之后從哪些方面進(jìn)行數(shù)據(jù)測(cè)試。數(shù)據(jù)遷移測(cè)試應(yīng)關(guān)注如圖1、圖2、圖3所示方法流程。
3.1數(shù)據(jù)遷移測(cè)試內(nèi)容
數(shù)據(jù)遷移測(cè)試主要由測(cè)試人員完成,測(cè)試通過(guò)后由研發(fā)部門部署上線[5]。主要包含以下測(cè)試內(nèi)容:(1)對(duì)遷移后的數(shù)據(jù)進(jìn)行全面分析,厘清數(shù)據(jù)遷移之后需要從哪些方面進(jìn)行數(shù)據(jù)測(cè)試;(2)編寫soL語(yǔ)句,從數(shù)據(jù)庫(kù)里面獲取遷移前后的數(shù)據(jù);(3)利用Excel數(shù)據(jù)分析工具的數(shù)據(jù)排序、篩選、分列、去除重復(fù)項(xiàng)等功能建立數(shù)據(jù)遷移比對(duì)模板,提高測(cè)試過(guò)程的規(guī)范性,并且可以輸出一致的核對(duì)結(jié)果,該模板可以通用;(4)利用數(shù)據(jù)表的唯一關(guān)鍵字(如ID)、日期字段、時(shí)間字段以及其他可以進(jìn)行分區(qū)的字段對(duì)數(shù)據(jù)進(jìn)行分區(qū)分模塊的數(shù)據(jù)比對(duì),通過(guò)并發(fā)的方式可以同時(shí)比對(duì)多個(gè)模塊的數(shù)據(jù),從而大大減少數(shù)據(jù)遷移測(cè)試的時(shí)間成本和人力成本,且數(shù)據(jù)的正確性能夠得到保證;(5)統(tǒng)計(jì)時(shí)間范圍內(nèi)總數(shù)據(jù)的條數(shù)是否相等,如果不相等說(shuō)明數(shù)據(jù)質(zhì)量不符合要求,需要重新迭代數(shù)據(jù);(6)分析表結(jié)構(gòu)和注釋內(nèi)容是否符合規(guī)范,即兩張表的表名、字段名、注釋名等是否相同。如果不符合規(guī)范,說(shuō)明數(shù)據(jù)質(zhì)量不符合要求,需要重新迭代數(shù)據(jù);(7)判斷迭代后的數(shù)據(jù)是否出現(xiàn)異常情況,如不允許空值出現(xiàn)的數(shù)據(jù)庫(kù)出現(xiàn)了空值的情況;(8)分析和統(tǒng)計(jì)數(shù)據(jù)遷移前后各個(gè)字段的值出現(xiàn)的頻次是否相等:(9)分析如果出現(xiàn)數(shù)據(jù)轉(zhuǎn)換,遷移后的字段數(shù)據(jù)是否符合數(shù)據(jù)轉(zhuǎn)換要求。比如,原字段為空值,轉(zhuǎn)換后為其他值的情況;(10)判斷(6)(7)(8)三項(xiàng)是否符合條件,不符合條件說(shuō)明數(shù)據(jù)質(zhì)量不符合要求,需要重新迭代數(shù)據(jù);(11)抽取樣本數(shù)據(jù),對(duì)其中的數(shù)據(jù)進(jìn)行逐一比較和分析,以判斷遷移后的數(shù)據(jù)是否有出現(xiàn)變化。
3.2數(shù)據(jù)測(cè)試難點(diǎn)
在實(shí)際的測(cè)試過(guò)程中,常常會(huì)碰到以下難點(diǎn)。
(1)業(yè)務(wù)具有復(fù)雜性。測(cè)試人員對(duì)于不同的業(yè)務(wù)場(chǎng)景有一套通用的測(cè)試流程和標(biāo)準(zhǔn)。但問(wèn)題在于,由于業(yè)務(wù)的復(fù)雜性,對(duì)于數(shù)據(jù)的使用有了更多、更高的要求,因此需要對(duì)每個(gè)業(yè)務(wù)場(chǎng)景進(jìn)行單獨(dú)分析——需要新增的測(cè)試點(diǎn),這對(duì)數(shù)據(jù)測(cè)試人員提出了更高的要求,需要花費(fèi)大量時(shí)間和精力去做測(cè)試分析,并且需要從一開(kāi)始就參與到算法的討論和評(píng)審中,對(duì)整個(gè)過(guò)程達(dá)成一致之后才不會(huì)出現(xiàn)理解不同步的情況,從而導(dǎo)致實(shí)際效果不如預(yù)期[6]。
(2)測(cè)試流程不規(guī)范。正常的測(cè)試流程為:?jiǎn)栴}反饋給開(kāi)發(fā)人員修改,修改完后再給測(cè)試人員進(jìn)行復(fù)測(cè)。在復(fù)測(cè)的過(guò)程中,因?yàn)闇y(cè)試人員的個(gè)人理解和技術(shù)手段等原因,對(duì)于測(cè)試方式、測(cè)試流程、測(cè)試點(diǎn)都會(huì)有自己的理解。如果遇到問(wèn)題較多、復(fù)測(cè)流程不規(guī)范、不能對(duì)整個(gè)測(cè)試流程都了解清楚、業(yè)務(wù)經(jīng)驗(yàn)不足的情況,就會(huì)容易造成問(wèn)題循環(huán)反復(fù),從而大量浪費(fèi)開(kāi)發(fā)人員和測(cè)試人員的時(shí)間,并且提高了項(xiàng)目的時(shí)間成本[7]。
(3)沒(méi)有一套可行性高的測(cè)試方法或者自動(dòng)化程度高的測(cè)試工具和模板。在實(shí)際測(cè)試的過(guò)程中,因?yàn)槿狈ψ詣?dòng)化程度高的測(cè)試工具、平臺(tái)和模板,導(dǎo)致實(shí)際測(cè)試方式會(huì)因?yàn)闇y(cè)試人員本身的技術(shù)能力、業(yè)務(wù)經(jīng)驗(yàn)、個(gè)人理解等有很大的區(qū)別,如果出現(xiàn)測(cè)試人員離開(kāi),其他人員接手的情況,那么就需要花費(fèi)更多的時(shí)間且測(cè)試后的效果不可控[8]。
(4)整個(gè)項(xiàng)目的時(shí)間成本和人力成本不可控。因?yàn)樯鲜龅亩喾N原因,如業(yè)務(wù)的復(fù)雜性、測(cè)試流程的不規(guī)范、沒(méi)有一套可行性高的測(cè)試方法或者自動(dòng)化程度高的測(cè)試工具、模板等其他原因,每一因素出現(xiàn)都會(huì)對(duì)整個(gè)項(xiàng)目的時(shí)間成本和人力成本造成重大的影響,從而影響公司的項(xiàng)目進(jìn)度,甚至影響個(gè)人的能力評(píng)價(jià)等[9]。
3.3數(shù)據(jù)測(cè)試展望
自動(dòng)化的數(shù)據(jù)測(cè)試是最理想的目標(biāo),通過(guò)利用自動(dòng)化和智能化的測(cè)試工具,設(shè)立不同的測(cè)試規(guī)則和數(shù)據(jù)模型,一方面可以大大縮減通用測(cè)試需要的時(shí)間和流程,另一方面為更多業(yè)務(wù)場(chǎng)景的測(cè)試分析提供了更多的設(shè)計(jì)方法和可行性,能夠有效確保數(shù)據(jù)遷移后的數(shù)據(jù)的準(zhǔn)確性,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的管理,降低了人力成本和時(shí)間成本[10]。
建立一個(gè)通用性高、適用性強(qiáng)的數(shù)據(jù)測(cè)試平臺(tái)也是一種可行的方式。通過(guò)在平臺(tái)上建立多樣化的數(shù)據(jù)遷移測(cè)試模板,從而能夠?qū)Υ蟛糠謽I(yè)務(wù)場(chǎng)景實(shí)現(xiàn)覆蓋,并且可以在平臺(tái)上對(duì)新的業(yè)務(wù)進(jìn)行二次開(kāi)發(fā)。操作簡(jiǎn)單、開(kāi)發(fā)簡(jiǎn)單也是其必須具備的能力,這有利于新的測(cè)試人員快速熟悉并且上手,從而大大減少在整個(gè)項(xiàng)目過(guò)程中數(shù)據(jù)遷移測(cè)試所花費(fèi)的時(shí)間,進(jìn)而降低公司項(xiàng)目成本。另外,對(duì)于從事數(shù)據(jù)測(cè)試的相關(guān)人員的能力培養(yǎng)也是一個(gè)重要課題。通過(guò)聘請(qǐng)行業(yè)內(nèi)的知名人士或者資深經(jīng)驗(yàn)者給公司員工進(jìn)行相關(guān)能力培訓(xùn),加上對(duì)應(yīng)的實(shí)戰(zhàn)演練,對(duì)測(cè)試人員的能力提升會(huì)有很大的幫助。與此同時(shí),測(cè)試人員要多把每一次的經(jīng)驗(yàn)累積總結(jié)下來(lái),形成知識(shí)間的互通,有助于業(yè)務(wù)經(jīng)驗(yàn)的快速增長(zhǎng)和測(cè)試能力的快速提高。
4結(jié)束語(yǔ)
本文主要介紹了一種用于數(shù)據(jù)遷移之后對(duì)數(shù)據(jù)準(zhǔn)確性進(jìn)行測(cè)試的可行性方法,即利用Excel數(shù)據(jù)分析工具的數(shù)據(jù)排序、篩選、分列、去除重復(fù)項(xiàng)等功能建立數(shù)據(jù)遷移比對(duì)模板,提高測(cè)試過(guò)程的規(guī)范性,并且可以輸出一致的核對(duì)結(jié)果,該模板可以通用:利用數(shù)據(jù)表的唯一關(guān)鍵字(如ID)、日期字段、時(shí)間字段以及其他可以進(jìn)行分區(qū)的字段對(duì)數(shù)據(jù)進(jìn)行分區(qū)分模塊的數(shù)據(jù)比對(duì),通過(guò)并發(fā)的方式可以同時(shí)比對(duì)多個(gè)模塊的數(shù)據(jù),從而大大減少數(shù)據(jù)遷移測(cè)試的時(shí)間成本和人力成本,且數(shù)據(jù)的正確性能夠得到保證:提出了一種可行性較高的測(cè)試方法,用來(lái)規(guī)范數(shù)據(jù)測(cè)試流程,避免測(cè)試混亂的問(wèn)題,完善測(cè)試邏輯,從而能夠有效確保數(shù)據(jù)遷移后數(shù)據(jù)的準(zhǔn)確性,實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的更好管理。