黃瑞國(guó)
摘要:隨著我國(guó)社會(huì)經(jīng)濟(jì)與技術(shù)的發(fā)展與進(jìn)步,我國(guó)以全面進(jìn)入網(wǎng)絡(luò)信息化時(shí)代,計(jì)算機(jī)技術(shù)也在不斷地創(chuàng)新與改革,為人們的日常生活便利帶來(lái)了很大的作用。在這個(gè)信息化的新時(shí)代中,人們每天所接觸的信息量數(shù)以萬(wàn)計(jì)。能夠取得有效的信息,不僅可以節(jié)約時(shí)間,還能滿足各種不同的需求。大數(shù)據(jù)技術(shù)及大數(shù)據(jù)測(cè)試技術(shù)正是現(xiàn)在社會(huì)發(fā)展的需求,在此基礎(chǔ)上,該文就著重分析了大數(shù)據(jù)測(cè)試技術(shù)的特點(diǎn)及難點(diǎn),并且研究了其發(fā)展前景。
關(guān)鍵詞:大數(shù)據(jù);測(cè)試技術(shù);發(fā)展前景
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)27-0001-02
在互聯(lián)網(wǎng)、云計(jì)算等一些網(wǎng)絡(luò)技術(shù)的推動(dòng)下,其數(shù)據(jù)也越發(fā)膨脹,規(guī)模也呈現(xiàn)幾倍上升趨勢(shì),目前我們已正式跨入大數(shù)據(jù)時(shí)代,開(kāi)發(fā)其中所蘊(yùn)含的信息及“寶藏”是我國(guó)乃至國(guó)外研究人員的目標(biāo)。如今社會(huì)的發(fā)展需要大數(shù)據(jù)技術(shù),因?yàn)槠鋽?shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、種類繁多,人們可以從其中獲取更多具有價(jià)值性的信息。
1 淺析大數(shù)據(jù)
1.1 大數(shù)據(jù)的概念
由于云時(shí)代的到來(lái),大數(shù)據(jù)技術(shù)也吸引了國(guó)內(nèi)外研究人員的注意力。顧名思義,大數(shù)據(jù)就是由大量結(jié)構(gòu)化的數(shù)據(jù)構(gòu)成的大型數(shù)據(jù)倉(cāng)庫(kù),是一種觀察世界的全新手段和方法,利用其思維與處理技術(shù)構(gòu)成一個(gè)數(shù)據(jù)庫(kù),從而創(chuàng)建一個(gè)透明化的世界關(guān)系結(jié)構(gòu)。從互聯(lián)網(wǎng)發(fā)展至今,大數(shù)據(jù)是這個(gè)過(guò)程的一個(gè)象征性技術(shù),在云技術(shù)不斷地創(chuàng)新及改革上,這些難以收集也不好運(yùn)用的數(shù)據(jù)被研究人員科學(xué)合理地進(jìn)行利用,隨著我國(guó)各行各業(yè)的不斷發(fā)展,大數(shù)據(jù)也會(huì)在此過(guò)程中為其提供一系列有利的價(jià)值。[1]
1.2 大數(shù)據(jù)的特征
大數(shù)據(jù)運(yùn)用現(xiàn)在的軟件技術(shù)是很難收集及存儲(chǔ)、分析共享的,國(guó)內(nèi)外研究人員用了四個(gè)V概括了大數(shù)據(jù)的基本特征。
1.2.1 (Volume)數(shù)據(jù)體量大。
在此技術(shù)的發(fā)展過(guò)程中,已經(jīng)由原先的TB級(jí)別躍升為目前的PB級(jí)別,其數(shù)據(jù)量最高可達(dá)200PB。目前我國(guó)普通的計(jì)算機(jī)容量是TB量級(jí),一些大型企業(yè)是EB量級(jí)。
1.2.2 (Variety)數(shù)據(jù)類型多
大數(shù)據(jù)技術(shù)具有多樣式的特征,所以主要有結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)兩種形式。非結(jié)構(gòu)數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相對(duì)比,后者是以文本為主,前者的種類則眾多,主要有網(wǎng)絡(luò)中的日志、視頻、音頻、圖片等,這對(duì)數(shù)據(jù)的處理能力也有較高要求。
1.2.3 (Velocity)處理速度快
處理速度快是大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)技術(shù)最明顯的特征,具國(guó)內(nèi)外研究學(xué)者分析,在2020年,全球數(shù)據(jù)的使用量可能會(huì)達(dá)到35.2ZB之多。在這么多數(shù)據(jù)的面前,大數(shù)據(jù)就充分地發(fā)揮了其自身特性,為企業(yè)的可持續(xù)發(fā)展起到重要作用。
1.2.4 (Value)價(jià)值密度低
在大數(shù)據(jù)中,其價(jià)值密度是與數(shù)據(jù)量成反比的。對(duì)于使用現(xiàn)金的計(jì)算機(jī)算法準(zhǔn)確地對(duì)數(shù)據(jù)中的價(jià)值進(jìn)行有效提純,是目前國(guó)內(nèi)外研究大數(shù)據(jù)技術(shù)的一個(gè)難點(diǎn)也要點(diǎn)。
在如今這個(gè)發(fā)展迅速的時(shí)代,大數(shù)據(jù)技術(shù)已經(jīng)成為了網(wǎng)絡(luò)技術(shù)可持續(xù)發(fā)展的趨勢(shì)和要點(diǎn),在我國(guó)各行各業(yè)包括研究界都有廣泛應(yīng)用。大數(shù)據(jù)技術(shù)具有高性能、高效率及方便管理等優(yōu)點(diǎn),其本身的結(jié)構(gòu)和系統(tǒng)設(shè)計(jì)的也較為復(fù)雜,所以對(duì)大數(shù)據(jù)測(cè)試技術(shù)的研究還是比較薄弱的。[2]
2 淺析大數(shù)據(jù)技術(shù)的特點(diǎn)
2.1 大數(shù)據(jù)基礎(chǔ)上發(fā)明的軟件被廣泛應(yīng)用
近幾年隨著大數(shù)據(jù)技術(shù)在我國(guó)各行各業(yè)都被廣泛應(yīng)用,使其走向信息化和科技化。其中在大數(shù)據(jù)技術(shù)基礎(chǔ)上發(fā)明的Hadoop分布式處理軟件、Hbase數(shù)據(jù)庫(kù)及一些可視化軟件都對(duì)我國(guó)行業(yè)的發(fā)展有著重要的意義。
2.2 大數(shù)據(jù)的智能處理技術(shù)
大數(shù)據(jù)技術(shù)是從海量的數(shù)據(jù)中獲取有效的數(shù)據(jù)并且進(jìn)行智能處理分析,人們可以從中發(fā)現(xiàn)對(duì)自己有用的信息、知識(shí)及創(chuàng)造無(wú)窮的智慧,對(duì)今后我國(guó)社會(huì)的發(fā)展有重要的作用。在此前提下,就必須在大數(shù)據(jù)中引進(jìn)智能處理技術(shù),將大數(shù)據(jù)的分析、管理等技術(shù)與人工智能相融合,目前我國(guó)機(jī)器的數(shù)據(jù)自動(dòng)分析、語(yǔ)言理解及自動(dòng)識(shí)別等一些智能技術(shù)已經(jīng)和大數(shù)據(jù)技術(shù)工作的流程完美融合。[3]
2.3 非結(jié)構(gòu)化數(shù)據(jù)處理正在迅速發(fā)展
上文說(shuō)到非結(jié)構(gòu)化數(shù)據(jù)處理與傳統(tǒng)的處理技術(shù)不同,其是以圖片、視頻及音頻等數(shù)據(jù)展現(xiàn)的,隨著云技術(shù)時(shí)代的到來(lái),此類信息也越來(lái)越多。所以我國(guó)目前對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)越來(lái)越有需求,非結(jié)構(gòu)化數(shù)據(jù)技術(shù)中的采集技術(shù)等也正在不斷地創(chuàng)新及發(fā)展。
2.4 分布式處理架構(gòu)
上文說(shuō)到大數(shù)據(jù)技術(shù)有多種處理技術(shù),其處理方法也是隨著社會(huì)的進(jìn)步而不斷創(chuàng)新的,傳統(tǒng)的處理方式已經(jīng)無(wú)法滿足現(xiàn)如今社會(huì)人們的需求。在人們對(duì)此不斷創(chuàng)新及摸索的過(guò)程中,在大數(shù)據(jù)技術(shù)中發(fā)現(xiàn)了分布式處理架構(gòu),此時(shí)它也成了其的主要處理數(shù)據(jù)方式,這是時(shí)代在發(fā)展與進(jìn)步的表現(xiàn)。在分布式處理架構(gòu)中,分布式文件系統(tǒng)、處理數(shù)據(jù)庫(kù)及編程環(huán)境等一系列的技術(shù)在今天都被人們廣泛應(yīng)用與各行各業(yè)中。[4]
3 大數(shù)據(jù)測(cè)試技術(shù)
3.1 大數(shù)據(jù)測(cè)試流程
大數(shù)據(jù)測(cè)試的主要流程如圖1。
大數(shù)據(jù)的分析處理流程主要可分為5個(gè)階段:
1)采集。大數(shù)據(jù)在分析處理中的采集是運(yùn)用其中的數(shù)據(jù)庫(kù)來(lái)進(jìn)行接收來(lái)自客戶端的數(shù)據(jù),比如Web客戶端、App客戶端等等,并且客戶端用戶可以通過(guò)大數(shù)據(jù)中的這些數(shù)據(jù)庫(kù)對(duì)信息進(jìn)行收集、查詢、處理等工作。[5]比如傳統(tǒng)的MySQL數(shù)據(jù)庫(kù)及Oracle數(shù)據(jù)庫(kù)是用來(lái)保存一些日常數(shù)據(jù)的,除了這些數(shù)據(jù)庫(kù),Redis等一些NoSQL數(shù)據(jù)庫(kù)也可采集數(shù)據(jù)。大數(shù)據(jù)分析處理中采集的特點(diǎn)就是在并發(fā)數(shù)高。
2)導(dǎo)入、預(yù)處理。大數(shù)據(jù)處理過(guò)程中采集時(shí)擁有很多數(shù)據(jù)庫(kù),對(duì)于這么龐大的數(shù)據(jù)進(jìn)行科學(xué)分析遠(yuǎn)遠(yuǎn)是不夠的,還是要將這些數(shù)據(jù)導(dǎo)入到一個(gè)大型的集中數(shù)據(jù)庫(kù),在此之前將其進(jìn)行簡(jiǎn)單的預(yù)處理。其中Sqoop和Flunm等一些工具就可以將這些數(shù)據(jù)進(jìn)行互相操作。其中導(dǎo)入和預(yù)處理的特點(diǎn)就是導(dǎo)入量大,每秒可導(dǎo)入百兆或者千兆。
3)統(tǒng)計(jì)分析數(shù)據(jù)。將大量的數(shù)據(jù)導(dǎo)入到一個(gè)大型的集中數(shù)據(jù)庫(kù)中,通過(guò)使用分布式技術(shù)來(lái)對(duì)其中的數(shù)據(jù)進(jìn)行分析、匯總等。統(tǒng)計(jì)分析數(shù)據(jù)的特點(diǎn)就是導(dǎo)入量大,其查詢數(shù)據(jù)量也大,請(qǐng)求較多。Hadoop此產(chǎn)品是使用最多的。
4)數(shù)據(jù)挖掘。與前面三個(gè)階段不同的是,數(shù)據(jù)挖掘并沒(méi)有預(yù)先設(shè)定其主題,而是在現(xiàn)有的數(shù)據(jù)中進(jìn)行各種計(jì)算,以達(dá)到預(yù)算的效果,從而達(dá)到復(fù)雜數(shù)據(jù)分析的要求。比較有名的算法主要有K-means(聚類)、SVM(統(tǒng)計(jì)學(xué)習(xí))及naive Bayes(分類),工具主要有Mahout。[6]數(shù)據(jù)挖掘的過(guò)程中的特點(diǎn)是看數(shù)據(jù)中文件的格式是否都達(dá)到要求。
5)數(shù)據(jù)分析。當(dāng)大數(shù)據(jù)測(cè)試分析過(guò)程結(jié)束之后,產(chǎn)生的數(shù)據(jù)會(huì)被自動(dòng)的移至其倉(cāng)庫(kù)中或者系統(tǒng)中。然后對(duì)其中的數(shù)據(jù)進(jìn)行分析,這就是大數(shù)據(jù)處理技術(shù)所要解決的問(wèn)題。數(shù)據(jù)分析過(guò)程的特點(diǎn)是要在具體的數(shù)據(jù)下才能使業(yè)務(wù)更加流暢,并且能夠有效的分析其數(shù)據(jù),從而得出科學(xué)有效的策略。
4 大數(shù)據(jù)測(cè)試技術(shù)未來(lái)發(fā)展前景的分析
對(duì)于我國(guó)社會(huì)技術(shù)的發(fā)展現(xiàn)狀來(lái)看,大數(shù)據(jù)技術(shù)在未來(lái)的發(fā)展前景也是非??捎^的,大數(shù)據(jù)技術(shù)在我國(guó)各行各業(yè)中都得到了廣泛的應(yīng)用。目前我國(guó)大數(shù)據(jù)技術(shù)公司有三種:技術(shù)類、創(chuàng)新類、數(shù)據(jù)類,但是不斷是那種數(shù)據(jù)公司,對(duì)于我國(guó)社會(huì)發(fā)展都是不可缺少的。其中技術(shù)類大數(shù)據(jù)公司被我們所熟知的主要是一些IT公司,他們注重的是數(shù)據(jù)的處理;創(chuàng)新類大數(shù)據(jù)公司注重的是富有想象力的員工,能夠面對(duì)相同數(shù)據(jù)擁有自己獨(dú)特的簡(jiǎn)介,并且能夠有所創(chuàng)新;數(shù)據(jù)類大數(shù)據(jù)公司是與我們?nèi)祟惾粘I钕嚓P(guān)的,比如一些客戶端(新浪、百度、淘寶等),或者一些大型的連鎖企業(yè)、金融企業(yè)等,這些企業(yè)都有大量的數(shù)據(jù),不過(guò)其中有價(jià)值的信息也比較容易被忽略。[7]不管是哪類數(shù)據(jù)公司,大數(shù)據(jù)技術(shù)會(huì)在今后社會(huì)發(fā)展中越來(lái)越好。
1)在云計(jì)算基礎(chǔ)上的數(shù)據(jù)分析測(cè)試平臺(tái)將會(huì)更加完善
在社會(huì)飛速發(fā)展的這幾年,其中云計(jì)算技術(shù)發(fā)展也甚是迅速,在此基礎(chǔ)上其的應(yīng)用范圍也越來(lái)越大,這也包括大數(shù)據(jù)技術(shù)在云計(jì)算技術(shù)中的應(yīng)用。云技術(shù)的發(fā)展也為大數(shù)據(jù)技術(shù)的發(fā)展提供了一個(gè)較好地處理平臺(tái)和技術(shù),還為其提供了全新的計(jì)算方式、更大的存儲(chǔ)空間及資源等等。另外,創(chuàng)新后的云計(jì)算技術(shù)也具備相對(duì)豐富的IT資源,這也為大數(shù)據(jù)技術(shù)的發(fā)展提供了良好的資源,在兩者都不斷創(chuàng)新的基礎(chǔ)上,大數(shù)據(jù)技術(shù)平臺(tái)也會(huì)日益成熟,其處理水平也會(huì)得到明顯的提升。
2)大數(shù)據(jù)技術(shù)中的數(shù)據(jù)分析將會(huì)進(jìn)一步發(fā)展
在大數(shù)據(jù)技術(shù)分析處理中,數(shù)據(jù)分析有著重要的地位,隨著社會(huì)的發(fā)展,其也將會(huì)逐漸成為大數(shù)據(jù)技術(shù)中的核心技術(shù)。大數(shù)據(jù)技術(shù)主要是對(duì)大量數(shù)據(jù)進(jìn)行智能處理,從其中獲取有效的信息,要想在今后的發(fā)展中實(shí)現(xiàn)此功能,就要對(duì)數(shù)據(jù)進(jìn)行分析處理。此過(guò)程則是數(shù)據(jù)分析的基礎(chǔ),所以數(shù)據(jù)分析在今后的創(chuàng)新發(fā)展中會(huì)得到進(jìn)一步的發(fā)展,其大數(shù)據(jù)測(cè)試技術(shù)也會(huì)得到創(chuàng)新及發(fā)展。[8]
5 結(jié)束語(yǔ)
總而言之,隨著我國(guó)社會(huì)經(jīng)濟(jì)及技術(shù)的不斷發(fā)展與創(chuàng)新,信息化時(shí)代也將到來(lái),大數(shù)據(jù)技術(shù)也稱為了我國(guó)人民在日常生活中不可缺少的一部分,在我國(guó)各行各業(yè)的發(fā)展中都有著重要的作用。在互聯(lián)網(wǎng)技術(shù)和云計(jì)算技術(shù)發(fā)展的促進(jìn)中,大數(shù)據(jù)技術(shù)在未來(lái)的發(fā)展也將更加智能、先進(jìn),也將會(huì)涉及我國(guó)更多的行業(yè)領(lǐng)域,為我國(guó)人民生活中創(chuàng)造出更大的便利,為我國(guó)科技的創(chuàng)新及發(fā)展提供新的技術(shù)。
參考文獻(xiàn):
[1] 李鵬飛, 盧瑾, 辛一. 基于專利的大數(shù)據(jù)技術(shù)發(fā)展情報(bào)分析及戰(zhàn)略研究[J]. 情報(bào)雜志, 2014(9): 45-50.
[2] 王驍. 基于Hadoop大數(shù)據(jù)平臺(tái)資源及用戶行為檢測(cè)技術(shù)的研究[D]. 北京: 北京交通大學(xué), 2015.
[3] 李紀(jì)舟, 葉小新, 丁云峰, 等. 大數(shù)據(jù)關(guān)鍵技術(shù)、主要特點(diǎn)及發(fā)展趨勢(shì)[J]. 電信技術(shù)研究, 2013(3): 58-64.
[4] 代亮, 陳婷, 許宏科, 等. 大數(shù)據(jù)測(cè)試技術(shù)研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2014, 31(6): 1606-1611.
[5] 吳韶鴻. 大數(shù)據(jù)開(kāi)源技術(shù)發(fā)展研究[J]. 現(xiàn)代電信科技, 2014(8): 17-22.
[6] 郭麗娟. 大數(shù)據(jù)的特點(diǎn)及未來(lái)發(fā)展趨勢(shì)[J]. 信息通信, 2014(10): 195-195.
[7] 趙濤. 基于云計(jì)算的軟件測(cè)試技術(shù)探索與研究[D]. 西安: 西安電子科技大學(xué), 2014.
[8] 梁志國(guó). 大數(shù)據(jù)時(shí)代計(jì)量校準(zhǔn)理論與技術(shù)的發(fā)展展望[J]. 計(jì)測(cè)技術(shù), 2015, 35(6): 6-9.