高加瓊
(四川職業(yè)技術學院計算機科學系,四川遂寧629000)
網絡大數據基準測試程序擬定與探討
高加瓊
(四川職業(yè)技術學院計算機科學系,四川遂寧629000)
利用基準測驗流程來檢驗計算機裝置處理數據的性能表現是目前采用的主要方式,但是,至今還沒有一個成熟完善且被業(yè)界普遍遵循的基準檢驗方案問世,特別是悄然而至的大數據涌潮給當今社會帶來了更為艱巨的問題,為求得較理想的測驗方案,本文依托具體的大數據平臺擬定了一套Hadoop系統(tǒng)的交通事務大數據基準撿驗流程.經挑撿若干個屬性等級的項目,把流程內容特點進行數量化處理,并選取以同類相聚的計算方法,評估每一個流程的輸進參數集合的近似程度,參照類別聚集情況,給基準測驗確定了典型的流程及輸進參數集合.最終,經過實踐檢驗證明,該基準測驗在符合流程內容廣泛性的前提下,徹底去掉了基準測驗集合中的多余成分.
大數據基準測驗流程;輸進參數集;流程近似性;交通信息
由于網絡技術的不斷發(fā)展和持續(xù)地擴大應用領域,人類的生存已進入了大數據時代,據有關資料公布顯示,二零一一年度,全世界I P終端客戶占人口總數的32.77%.此數據標志著地球上生存的二十三億人隨時都在不斷地創(chuàng)造新的參數.二零一二年三月,相關公司通報全球一日創(chuàng)造的參數量可躍及2.5E B(每E B等于一億G B)[1].
大數據具備不同于其他數據的特點,其具有四個“V”的特性,即Volume(數據量大)、Velocity(速率高)、Varity(種類多)和Value(價值高).數量大,說的是一個參數集合規(guī)模突破了P B等級或更多;速率高,說的是其參數量的速率提高的相當迅速;數據樣式復雜,其包括各類隨機顯現、沒有確定性趨勢的、不宜記錄于常規(guī)記錄表中的參數等等,其中相當量的參數是來自于各行業(yè)的視覺、語音及日復一日的常規(guī)記錄.然而,絕大部分數據不具備足夠的應用價值,在應用前必須經過篩選、提質和交融等過程[4],且需要運用幾率話題模型來描述和解決,幾率話題模型是一系列旨在發(fā)現隱藏在大規(guī)模文檔中的主題結構的算法.幾率話題模型見圖1,其中,α和β表示語料級別的參數,θ是文檔級別的變量,每個文檔對應一個θ,X和Y都是單詞級別變量,X由θ生成,Y由X和β共同生成.
圖1 幾率話題模型
針對這些嚴峻的實際現狀,優(yōu)質的大數據處理程序的問世顯得尤為迫切,以攻克社會、團體和個人用戶在生存過程中面臨的諸多新難題,為他們的工作、學習和生活帶來實實在在的方便,為人類社會大數據課題的解決提供技術支撐.出于更優(yōu)質高效地調控和精確地評估此類龐大繁雜的參數集合體系的目的,業(yè)界不斷推出各類型的處理大數據程序流程,但不如人愿的是,至今仍無一套既可用來調理和評判如此相異的大數據體系、且能客觀地顯現相關體系的性質區(qū)別的普遍基準測驗方法集合.正是這些大數據的特性給其基準測驗集合的編制造成了相當高的難度[2].
編制大數據基準測驗流程集合基本要應對五個方面難題:(1)該體系的繁雜程度嚴重制約著擬制一套標準的基準檢驗樣板模型的進程;(2)該體系內運用范疇的復雜性給選擇有代表性的運用流程增加了很大難度;(3)該體系內的參數量規(guī)模也給基準檢驗流程的再現過程造成了相當程度的難題;(4)該體系的迅捷演變也期待著基準檢驗包變更能夠配合上參數體系的演變[3];(5)不具備可以當做基準檢驗流程輸進的實際參數.上述難點的存在致使至今尚未獲得一套被普遍贊同的大數據基準檢驗流程集合.
大數據基準檢測流程具有相當的重要性,許多業(yè)內專家早就涉入有關內容,部分知名I T運營商及學術單位也相繼推出各自體系的大數據基準檢測流程集合,但是,這部分檢測流程集合均帶有不同種類和程度的缺陷或弊病.
H i B ench屬于一類配合于H adoop體系的基準檢測流程集合,所推出的基準檢測流程既涵蓋組合的基準檢測,又囊括實際的運用流程,它把流程運作持續(xù)耗費時間及體系進出比率當作基準檢驗的估判標準[3];某一直屬于云服務的流程集合,推出了一整套重點基準檢測流程及負荷產出手段,此類負荷能夠恰當比較4類云服務系統(tǒng)的性質特點,給基準檢測客戶挑撿最佳處理措施創(chuàng)造了基礎,我國科研單位也隨之推出了針對特殊應用范疇的大數據基準檢驗流程集合.上面所述是3個各具特色的成功例證.現時所推出的三種相異的基準檢驗流程集合都很理想的完成了本系統(tǒng)的基準檢驗所需內容,然而它們的有關表述里卻未說明怎樣挑揀基準檢驗流程及給個別的基準檢驗流程選取輸進參數集合,并且能給予其客觀實際的輸進參數集合[3].
與常規(guī)基準檢驗流程集合相同,大數據基準檢驗流程集合亦必須符合下述6個項目的標準:
(1)大數據基準檢驗流程需要應用到各個事業(yè)范疇,或相同范疇的諸個側面.現實社會,基本的大數據普及范疇包括學術研討、保健醫(yī)護、交易場所、金融保險、信息傳輸、社會交往傳媒機構以及零散銷售等領域,此類各異的應用范疇給大數據體系賦予了各式各樣的需求內容[1].
(2)大數據基準檢驗需要包括各種參數類型,如是否具有結構性的參數,實際來說需要涵蓋取自于社會交往系統(tǒng)的圖參數、流態(tài)式參數、地理情況參數及遺傳基因參數等.基準檢測集合的編制需要由運用流程等級起步,于此部分相異參數類別內選擇共存的重點參數運作流程,比如編排順序等內容[2].
(3)大數據基準檢驗流程需選取組合參數.當做大數據的基準檢驗過程時,由I T網絡上下載具體的大批量參數集合成本相當高,況且憑借現實的I T寬帶進行傳送大數據集合也比較脫離客觀實際,所以,大數據基準檢驗集合需要編制出組合參數的計算方法及手段[4].然而,針對如此要求,行業(yè)內具有相當多的不同意見,其中許多專家提出,組合參數不便于模擬實際參數集合所呈現出來的過程和內容,筆者也認可這一論斷.
(4)大數據基準檢驗必須顧及參數的隱私及安全要求。部分大數據集合里涵蓋了應當保密的資料,比如病人的診斷醫(yī)治資料、保險單位的業(yè)務資料及有關軍隊國防材料等,所以,大數據基準檢驗應用人員時,供給單位應實行保障隱私不被泄露的大數據處理過程.
(5)該基準檢驗過程必須顧及流程的穩(wěn)妥性。部分大數據體系時常進行較大規(guī)模運算過程以及應對相當量的數據流資料運算,這種情況下,必須要有確定的穩(wěn)妥性能,此番的運用過程相對于大數據運作流程都顯示了對其穩(wěn)妥性的需求.
(6)大數據基準檢驗要求需要吸取以往的成熟操作經驗,當在編制大數據基準檢驗時,需要吸取在過去電腦條件時就早已成為普遍遵循的基準檢驗原則,這樣的原則內容已有若干種.要借鑒它們的編制模型過程及性質估判要求等,有時還可以在它的現有條件下利用單獨增加效能、增加大數據基準性能等手段進行編制大數據基準檢測集合.
大數據基準檢驗流程集合的編制過程基本有兩項內容組成:(1)挑揀典型的基準檢驗流程;(2)給各個基準檢驗流程挑揀匹配的輸進參數集合.另外,其撿驗集合尚需符合前面幾項原則.
要具備此兩種性質,還要處理好下面幾種事項:
(1)挑選典型的基準檢驗流程;
(2)評估若干種基準檢驗之間的流程運作屬性之相近內容,在維持流程運作方式比較多的前提下,消除多余的成分;
(3)給預設的基準檢驗流程挑揀匹配的輸進參數集合;
(4)給基準檢驗流程確定評判標準.
此小節(jié)對SI A T-B ench的編制措施及前期結果做以初步闡述.
4.1 確定有代表性的運用流程
由圖1可見,某個有代表性的大數據體系就像一條流水作業(yè)線,它憑借若干個各自相異的參數調理環(huán)節(jié)構建,實際的大數據運作流水線也許互不一樣,然而主要部分大多涵蓋圖2所顯現的5個環(huán)節(jié).
基準檢驗流程集合通常同時包含系統(tǒng)等級及組件等級的基準檢驗流程[2].每一套體系等級的基準檢驗流程可以憑借總體大數據裝置流水作業(yè)線而構建.此類的基準檢驗流程亦可另外稱為端至端的基準檢驗.部分基準檢驗專業(yè)人士希望每套基準檢驗流程都可以檢驗總體大數據體系,其實是不符合客觀情況的.一套優(yōu)質高效體系等級的基準檢驗流程可以給客戶指出相當便捷的方式來對比相異的大數據體系,實行基準檢驗的全部大數據體系都可運用一樣的檢驗流程,而且使用一樣的指標做于比較.體系等級的基準檢驗流程的特點,是可以給裝置性能建立一份方便明晰的可視圖表,而不必劃分構件等級的基準檢驗流程與各自時期環(huán)節(jié)中的實際運行效果.
圖2 一套有代表性的大數據體系Pipeline樣板模型
組合部件等級的基準檢驗流程較體系等級的該類流程有深一步的機動性能,而且它還比較方便確定內容,并且,另外的區(qū)別是僅檢驗體系的個別項目,是很方便安排且僅服務于體系的對象構成部件.
4.2 選準基準檢驗流程及輸進參數集合
于此文里面,筆者憑借對流程運作特性做近似性評判以便設置基準檢驗流程及與它相匹配的輸進參數集合,流程運作的近似性能評估由兩個環(huán)節(jié)組成.第一,用單元小組所屬性能去給流程運作特點確定數量;第二,憑借核算有關工藝將流程運作近似性質做一評估.
本著編制相關系統(tǒng)的目標,在此依托相異層面的特點把流程運作做予評估:
(1)運用類型的特點.指體系的IO進出比率、相關進出參數規(guī)模的所占比例、兩個過程的運作時間比例;
(2)運作體系等級的特點.指磁盤軟件儲存讀寫的參數總量、網絡傳播的參數總量;
(3)微觀范疇組合等級的特點;
(4)排布方式體系等級的特點,指每個運算階段間的較大差異性質.
由上述的各個層面里,本文挑揀二十一個特定性能去表達流程運作特點.
當進行實證檢驗時,本文選用流程與輸進參數集合的構架作為主要表達樣本,用某個攜帶二十一項自身特性設定的向量去表達某個針對目標的處理過程.所以,此類相異向量能夠被用來定量評估各自流程彼此的近似水平,保持基準檢驗流程集合的運作形式之豐富性,而且能消除基準檢測集合里的多余部分內容.還能夠依托評估各類輸進參數集合對流程運作的影響來給基準檢驗流程挑出有代表性的引進參數集合.
參數評估的基本步驟包括:
(1)將基礎參數做熵權核算,把所有自身特性做權重序列排布,熵權代表評估目標的差異水平.遵循統(tǒng)一的原則,在基礎特性類別內依照權重比例大小挑揀出一套子集合;
(2)對上一步驟的引出參數做規(guī)范化運作,去掉各特性之間衡量規(guī)則的不同內容;
(3)把上面的引出參數做主要組成評估,并核準基本組成數目情況;
(4)利用每個主要組成的新定方位參數來表達流程和它的引入參數集的構成;
(5)核算表達流程和引入參數集構成向量的歐型相隔長度,做各層面類別聚集.
運用流程彼此間的區(qū)別和引入參數集合對流程運作帶來的影響,能夠相當便捷的依據散落節(jié)點圖(圖3)和層次聚類圖(圖4)做一描述.兩類相異流程和引進參數集構架的流程運作愈接近,和其配合的兩種向量在流程運作范圍內愈靠近;相反時即得負面結果,足以證明其配套的流程運行差別很明顯.
所以針對類別聚集效果,能夠相當便捷地撤掉基準檢驗流程集合里的多余部分.針對一樣的基準檢驗流程亦能便捷地依托類別聚集效果挑揀典型的引入參數集合.
圖3 主成分散點圖
性質評估是基準檢驗及比較各種相異體系的首要環(huán)節(jié),通常條件下,除體系的進出比率以外,性質評定標準還涵蓋其付出的投入和收獲的產出,基準檢測的客戶可依托性質評定標準做平衡對待,參照本身需要情況挑揀性價比領先的大數據處理過程.再者,基準檢驗的精準度及結論顯露出的可推斷性都是性質評定標準的關鍵內容.圖3為第一、第二主成份的散點圖,圖中的兩個點簇即表示一種尺寸的輸入數據,其高于內存數據的程序行為為一組,低于則成為另一組.同時,由圖4的層次聚類圖看出,數據集越接近,程序行為越相似,如150G和160G、200G和250G.
圖4 層次聚類圖示
由本文的闡述評判過程可以得出,當編制大數據基準檢驗流程方案時,對大數據有代表性流程運作的方式進行定量評估,而且把流程運作的相近性亦給與評估,均能充分地配合基準檢測流程方案的兩個條件,在維持流程運作豐富性的前提下去掉多余程分.
經過實驗證明,針對某些大數據檢驗流程,再引進參數集為200G到1000G的序列范圍時,流程運作極其相近,故Terasor t僅可選定200G來當作典型的引入參數集合,不但能夠精確分析其在引進參數1000G條件下的運作特性,還可精確估計流程的工作時間,從而降低了80%的流程分析時間.相信以后定能編制更精準的基準檢驗流程.
[1]M eng X F,C i X.B ig data management:concepts,tech ni q ues and chal lenges[J].J ournal of C omputer R e searchand D evelopment,2013,50(1):146-169.
[2]孟小峰,慈祥。大數據管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013.50(1):1741-1752.
[3]李建中,劉顯敏。大數據的一個重要方面:數據可用性[J].計算機研究與發(fā)展,2013,50(6):1147-1162.
[4]趙彥榮,王偉平,孟丹,等?;贖 adoop的高效連接查詢處理算法C HM J[J].軟件學報,2012,23(8):2032-2041.
TheResearchand Discussionon theProgram of LargeDataBenchmarkofNetwork
G A O J ia q iong
(S ichuan Vocational and Technical C ol lege,S uining S ichuan 629000)
Using the reference test procedures to test the per formance of a computer device for processing data is themain formused cur rent ly.H owever,there is no sophisticated and beingwidely followed benchmar k test program.To obtain the ideal test program,relying on a plat formof large data,the paper develops a t raf f ic af fairs B ig D ata reference pic k ing inspection process with H adoop system.A f ter pic k ing several proper ties of pro j ect,ma k ing number process of process content features,evaluating theappro x imate degreeof the input parameters of each process,thena typical f lowand input parameter set aremade.I t is proved that in conformitywith the breadth of the content process,it completely removedunwanted ingredients in the reference test col lection.
B ig D ata R eference Test P rocedures;I nput P arameter S et;F low A ppro x imation;Traf fic I nformation
TP311.13
A
1672-2094(2015)03-0147-04
責任編輯:張隆輝
2015-01-17
本文系四川省教育廳自然科學重點項目《網絡大數據測試基準研究》(編號:15Z A0349)研究成果之一.
高加瓊(1973-),女,四川天全人,四川職業(yè)技術學院副教授.