翁業(yè)林,蔣道霞,俞新華
?
基于分布式并行計(jì)算的大數(shù)據(jù)自助分析系統(tǒng)的研究與應(yīng)用
翁業(yè)林1,蔣道霞1,俞新華2
(1. 江蘇財(cái)經(jīng)職業(yè)技術(shù)學(xué)院,江蘇 淮安 223001;2. 江蘇省移動(dòng)公司,江蘇 南京 210001)
大數(shù)據(jù)一旦進(jìn)入更多的企業(yè),我們就會(huì)對(duì)大數(shù)據(jù)提出更多期望,除了數(shù)據(jù)統(tǒng)計(jì),大數(shù)據(jù)時(shí)代還需要智能化分析,打破IT的約束,需要探索最高效的方式,快速搶占數(shù)據(jù)制高點(diǎn)。本文通過對(duì)某公司的分布式并行計(jì)算下數(shù)據(jù)自助分析平臺(tái)中的應(yīng)用方案進(jìn)行研究與應(yīng)用,提出在自助分析系統(tǒng)中對(duì)海量數(shù)據(jù)處理的思路,對(duì)分布式并行計(jì)算和分布式通信進(jìn)行了重點(diǎn)分析,同時(shí)結(jié)合自助分析系統(tǒng)的功能特點(diǎn),給出系統(tǒng)部署的應(yīng)用建議。研究?jī)?nèi)容對(duì)于分布式計(jì)算在大數(shù)據(jù)決策分析系統(tǒng)的落地具有一定的實(shí)用價(jià)值。
分布式并行計(jì)算;大數(shù)據(jù);自助分析
進(jìn)入4G時(shí)代以來(lái),用戶信息從基本的語(yǔ)音、話費(fèi)、基礎(chǔ)行擴(kuò)展到偏好、消費(fèi)預(yù)測(cè)等信息[1]。隨著新的數(shù)據(jù)的接入和整合,數(shù)據(jù)規(guī)模不斷擴(kuò)大,分析維度從10、50,漲到百,甚至千;數(shù)據(jù)廣度也在不斷增加[2]。所以需要搭建全新的數(shù)據(jù)處理平臺(tái)及自助分析系統(tǒng)幫助企業(yè)處理海量的數(shù)據(jù)、進(jìn)行復(fù)雜的數(shù)據(jù)結(jié)構(gòu)分析、實(shí)現(xiàn)精細(xì)化業(yè)務(wù)需求以及平臺(tái)能力開放、共享等,提高數(shù)據(jù)挖掘的價(jià)值,為企業(yè)經(jīng)營(yíng)提供決策、營(yíng)銷、服務(wù)建議的支撐工作[3]。
引用IDC基于信息基礎(chǔ)設(shè)備推進(jìn)研究會(huì)中對(duì)大數(shù)據(jù)的描述,就是具備大量數(shù)據(jù)體、數(shù)據(jù)類型繁多、數(shù)據(jù)處理快以及數(shù)據(jù)的價(jià)值密度偏低等四方面特征的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)是以數(shù)據(jù)為本質(zhì)的新一代革命性的信息技術(shù),在數(shù)據(jù)挖潛過程中,能夠帶動(dòng)理念、模式、技術(shù)及應(yīng)用實(shí)踐的創(chuàng)新。大數(shù)據(jù)優(yōu)勢(shì):存取能力,具備強(qiáng)大的分布式存取能力;降低成本,利用科學(xué)的算法,深入挖掘數(shù)據(jù)價(jià)值可提升營(yíng)銷的精準(zhǔn)度,增加業(yè)務(wù)收入和降低運(yùn)營(yíng)、運(yùn)維成本。運(yùn)算性能,具備海量的數(shù)據(jù)處理能力,具有流式計(jì)算、準(zhǔn)實(shí)時(shí)分析計(jì)算、離線分析計(jì)算三種強(qiáng)大的計(jì)算能力。擴(kuò)展能力,具備集群易擴(kuò)展性、易維護(hù)的能力,并提供可視化的操作界面。指導(dǎo)運(yùn)營(yíng),優(yōu)化流程提高經(jīng)營(yíng)效率的同時(shí),量化企業(yè)運(yùn)營(yíng)的指標(biāo),用更科學(xué)的方法指導(dǎo)企業(yè)的經(jīng)營(yíng)。降低成本,利用科學(xué)的算法,深入挖掘數(shù)據(jù)價(jià)值可提升營(yíng)銷的精準(zhǔn)度,增加業(yè)務(wù)收入和降低運(yùn)營(yíng)、運(yùn)維成本。通過大數(shù)據(jù)實(shí)時(shí)分析,可獲取營(yíng)銷商機(jī),觸發(fā)營(yíng)銷;通過大數(shù)據(jù)分析識(shí)別信用指數(shù),避免金融欺詐。
并行計(jì)算(Parallel Computing,也稱平行計(jì)算,)是指讓多條指令同時(shí)進(jìn)行一種計(jì)算模式,分為時(shí)間并行和空間并行兩種。時(shí)間并行主要是利用多條流水線同時(shí)作業(yè);空間并行則是指使用多個(gè)處理器執(zhí)行并發(fā)計(jì)算,以降低解決復(fù)雜問題所需要的時(shí)間。并行計(jì)算一般在解決計(jì)算問題的過程中同時(shí)使用多種計(jì)算資源執(zhí)行并行計(jì)算,計(jì)算資源可能包括一臺(tái)配有多處理機(jī)(并行處理)的計(jì)算機(jī)或一個(gè)與網(wǎng)絡(luò)相連的計(jì)算機(jī)集群,或者兩者結(jié)合使用。
分布式計(jì)算是與集中式計(jì)算相對(duì)應(yīng)的概念。分布式計(jì)算是將一個(gè)需要巨大的計(jì)算能力才能解決的問題分成許多小的部分,然后把這些分成的小部分計(jì)算分配給許多計(jì)算節(jié)點(diǎn)進(jìn)行處理,最后把這些計(jì)算結(jié)果綜合起來(lái)得到最終的結(jié)果。分布式計(jì)算是在兩個(gè)或多個(gè)軟件互相共享信息,這些軟件既可以在同一臺(tái)計(jì)算機(jī)上運(yùn)行,也可以在通過網(wǎng)絡(luò)連接起來(lái)的多臺(tái)計(jì)算機(jī)上運(yùn)行。
本文的分布式并行計(jì)算基于MPP架構(gòu)的智能化平臺(tái),如圖1所示。該平臺(tái)能夠把計(jì)算分布到多個(gè)計(jì)算節(jié)點(diǎn),再在指定節(jié)點(diǎn)將計(jì)算結(jié)果匯總輸出。機(jī)器角色主要有Naming Node、 Client Node、Map Node、Reduce Node。Naming Node:負(fù)責(zé)命名工作。它知道當(dāng)前有多少臺(tái)Map Node和Reduce Node,及這些Server的配置狀況。Map Node和Reduce Node會(huì)定期發(fā)送各自配置情況,workload(工作量),CPU,內(nèi)存等信息。Naming Node通常是一臺(tái)機(jī)器,但可以做冷備份。Map Node:負(fù)責(zé)處理Map Task。原始數(shù)據(jù)和Map Task的代碼文件集被預(yù)先部署到MapNode上。當(dāng)它接收到Client Node發(fā)送的Map Task,可以直接執(zhí)行該任務(wù)。Map Node可以有多臺(tái)機(jī)器。Reduce Node:負(fù)責(zé)處理Reduce Task。它被預(yù)先部署了Reduce Task的代碼文件集,可以直接執(zhí)行該任務(wù)。Reduce Node可以有多臺(tái)機(jī)器,而且可以指定某臺(tái)干固定的任務(wù)。大量的細(xì)節(jié)數(shù)據(jù)在壓縮后,以文件的形式被分布式存儲(chǔ)在集群的硬盤中。當(dāng)計(jì)算時(shí),會(huì)把被打中的數(shù)據(jù)拉入到內(nèi)存中,也就是熱點(diǎn)數(shù)據(jù)會(huì)常駐內(nèi)存。當(dāng)發(fā)生數(shù)據(jù)失效時(shí),會(huì)將新數(shù)據(jù)交換到內(nèi)存中參與計(jì)算。內(nèi)存計(jì)算是對(duì)傳統(tǒng)數(shù)據(jù)處理方式的一種加速,是實(shí)現(xiàn)大數(shù)據(jù)分析的關(guān)鍵應(yīng)用技術(shù)。
圖1 MPP架構(gòu)的智能化平臺(tái)
企業(yè)的數(shù)據(jù)復(fù)雜性越來(lái)越復(fù)雜。需要整合各種數(shù)據(jù);企業(yè)對(duì)數(shù)據(jù)分析的方法要求越來(lái)越高。需要進(jìn)行數(shù)據(jù)二次關(guān)聯(lián)加工,提升可視化效果;企業(yè)對(duì)數(shù)據(jù)分析實(shí)效性的要求越來(lái)越高,用于決策的時(shí)間越來(lái)越短。需要提高分析效率,把握營(yíng)銷時(shí)機(jī);企業(yè)數(shù)據(jù)分析的人力成本越來(lái)越高。需要降低人力成本,實(shí)現(xiàn)業(yè)務(wù)人員自助分析;硬件的成本越來(lái)越低。需要基于廉價(jià)的X86服務(wù)器,構(gòu)建分布式自助分析系統(tǒng)。因此,大數(shù)據(jù)時(shí)代也需要智能化分析,打破IT的約束,需要探索最高效的方式對(duì)數(shù)據(jù)二次分析、挖掘,快速搶占數(shù)據(jù)制高點(diǎn)?;诜植际讲⑿杏?jì)算的大數(shù)據(jù)自助分析系統(tǒng)架構(gòu)如圖2所示。
自助分析支持從多種類型的數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),將數(shù)據(jù)按照主題建立成多個(gè)集市導(dǎo)入到MPP集群中。如果采用Hive方式訪問數(shù)據(jù),可以采取ODBC/JDBC的方式直接建立連接讀取數(shù)據(jù)。如果采用HBase方式訪問數(shù)據(jù),可以定制一個(gè)Customized Query來(lái)讀取數(shù)據(jù)。如果是直接訪問HDFS文件來(lái)導(dǎo)出數(shù)據(jù),可以定制一個(gè)Customized Query來(lái)讀取數(shù)據(jù)。ETL過程中可以做數(shù)據(jù)清洗,格式轉(zhuǎn)換,還可以跟其他庫(kù)的維度表進(jìn)行關(guān)聯(lián),形成寬表入庫(kù)。入庫(kù)時(shí)還能根據(jù)時(shí)間或者區(qū)域來(lái)給數(shù)據(jù)打上粗粒度標(biāo)簽,便于以后做數(shù)據(jù)優(yōu)化調(diào)整使用。歷史數(shù)據(jù)集中導(dǎo)入,增量數(shù)據(jù)自動(dòng)導(dǎo)入,增量更新的時(shí)間粒度根據(jù)系統(tǒng)對(duì)實(shí)效性的要求,可以是每分鐘,每小時(shí),每天。ETL的客戶端可以是多節(jié)點(diǎn)同時(shí)導(dǎo)入集市,以此來(lái)提高導(dǎo)入效率。
圖2 基于分布式并行計(jì)算的大數(shù)據(jù)自助分析系統(tǒng)架構(gòu)
為方便整個(gè)架構(gòu)的橫向擴(kuò)展,以線性地橫向擴(kuò)展而沒有性能影響,保證性能和容量的靈活伸縮,解決大數(shù)據(jù)量的存儲(chǔ)問題。硬件高可用,通過軟件設(shè)計(jì)、硬件故障作為一個(gè)常態(tài)而非特例來(lái)解決。“不共享”架構(gòu),分布式機(jī)器節(jié)點(diǎn)之間相互獨(dú)立,分布式數(shù)據(jù)中心與分布式數(shù)據(jù)集市之間相互獨(dú)立,避免資源爭(zhēng)用。保證架構(gòu)在應(yīng)對(duì)實(shí)時(shí)計(jì)算、離線計(jì)算和流式計(jì)算等不同的計(jì)算需求時(shí),高效穩(wěn)定的運(yùn)行。探索式自服務(wù)分析,針對(duì)未知和靈活多變的業(yè)務(wù)需求,可以實(shí)現(xiàn)自主數(shù)據(jù)服務(wù)和分析服務(wù)。
傻瓜式取數(shù)配置:簡(jiǎn)單的取數(shù)操作界面,為業(yè)務(wù)人員提供傻瓜式的自助取數(shù)能力。提供關(guān)聯(lián)篩選,上傳文件條件篩選,數(shù)據(jù)集交差并、左關(guān)聯(lián)、全關(guān)聯(lián)處理,幫助用戶快速整合數(shù)據(jù)。靈活的數(shù)據(jù)計(jì)算:取數(shù)過程中支持多種指標(biāo)計(jì)算功能,幫助用戶靈活獲取數(shù)據(jù);通過自助分析平臺(tái),可在自助提取數(shù)據(jù)后,進(jìn)行數(shù)據(jù)的分析及匯總分析。
應(yīng)用層的客戶端可以是多臺(tái)機(jī)器,也就是說一套數(shù)據(jù)集市可以支撐多個(gè)應(yīng)用系統(tǒng),每個(gè)應(yīng)用系統(tǒng)用不同的客戶端來(lái)做數(shù)據(jù)展現(xiàn)。例如一個(gè)系統(tǒng)是專門來(lái)做固定報(bào)表定時(shí)推送的,另外一個(gè)系統(tǒng)是專門來(lái)做BI展現(xiàn)前端,用戶通過賬號(hào)登陸進(jìn)去,訪問可視化的界面,并做實(shí)時(shí)的數(shù)據(jù)分析和交互。
基于分布式并行計(jì)算的大數(shù)據(jù)自助分析系統(tǒng)中各層之間的通訊采用分布式,如圖3所示。系統(tǒng)中的中間計(jì)算結(jié)果能否在集群中穩(wěn)定且高效地傳輸,是整個(gè)集群能否達(dá)到實(shí)時(shí)計(jì)算的關(guān)鍵。系統(tǒng)采用可復(fù)用的TCP/IP 連接,系統(tǒng)的TCP/IP連接是可復(fù)用的,不像傳統(tǒng)方式一樣,一個(gè)信息傳遞需要建立一個(gè)連接,而信息交換的接收與發(fā)出邏輯對(duì)應(yīng)的軟件進(jìn)程/線程是可復(fù)用的。這一方法降低了整個(gè)系統(tǒng)的TCP/IP負(fù)載,以及線程/進(jìn)程開銷。
圖3 分布式通訊
系統(tǒng)的信息傳輸是多路的。這類似于高速公路的多車道。如果一個(gè)TCP/IP 連接不夠,可以增加TCP/IP 連接。而如果閑置,可以收回多余的連接以釋放網(wǎng)絡(luò)、CPU、內(nèi)存資源。
系統(tǒng)的信息傳輸是異步的。發(fā)出信息的請(qǐng)求方不會(huì)占據(jù)著TCP/IP 連接,而是在發(fā)出信息之后立即釋放資源。以異步的消息通知機(jī)制等待返回處理結(jié)果,這一異步機(jī)制讓系統(tǒng)在等待返回處理結(jié)果時(shí)不會(huì)白白耗費(fèi)資源,在接收方處理信息時(shí)也不會(huì)占據(jù)TCP/IP連接和相應(yīng)的線程/進(jìn)程資源。系統(tǒng)以異步信息交換的方式,成功地消除了信息處理與信息傳輸之間的耦合。提升了信息交換能力,但有效地降低了信息交換所需要的網(wǎng)絡(luò)資源、CPU、或者內(nèi)存資源。穩(wěn)定的內(nèi)存使用:由于整個(gè)通訊過程中Socket通道是復(fù)用的,而Socket通道對(duì)應(yīng)的讀內(nèi)存塊和寫存塊也是復(fù)用的,很少有內(nèi)存的申請(qǐng)和釋放操作。這提升了整個(gè)系統(tǒng)的性能和穩(wěn)定性。
健壯的信息傳輸:系統(tǒng)的TCP/IP連接是可自修復(fù)的。網(wǎng)絡(luò)可能會(huì)有各種問題導(dǎo)致連接出錯(cuò),為了避免數(shù)據(jù)流里可能丟失了數(shù)據(jù),給每個(gè)數(shù)據(jù)流的頭部加了標(biāo)識(shí)位,在任何找不到標(biāo)識(shí)位的情況下,連接都會(huì)自動(dòng)關(guān)閉。系統(tǒng)會(huì)自動(dòng)重新建立連接。
作為商業(yè)智能平臺(tái)的前端,為用戶操作提供方便,提供了多樣的數(shù)據(jù)展現(xiàn)形式,豐富的圖表展示形式,人性化的人機(jī)交互方式,支持各種商業(yè)邏輯的動(dòng)態(tài)腳本引擎等。客戶可以進(jìn)一步與數(shù)據(jù)互動(dòng)(Interactive),過濾(Filter)、鉆?。―rill)、刷取(Brush)、關(guān)聯(lián)(Associate)、變換(Transform)等等技術(shù),深入分析互聯(lián)網(wǎng)用戶的行為,準(zhǔn)確了解用戶的行為習(xí)慣。主要功能設(shè)計(jì)如下:
(1)數(shù)據(jù)下載,提供取數(shù)結(jié)果下載功能,支持TXT/CSV/PDF格式,PDF文件支持?jǐn)?shù)字水印保護(hù)。支持批量下載和離線下載。外部文件上傳及關(guān)聯(lián),導(dǎo)入外部文件,在取數(shù)時(shí)進(jìn)行關(guān)聯(lián)。
(2)數(shù)據(jù)集二次處理,對(duì)于系統(tǒng)中的即時(shí)/定時(shí)任務(wù)、外部導(dǎo)入、已二次處理等數(shù)據(jù)集,可以進(jìn)行兩個(gè)數(shù)據(jù)集的交、差、并、左關(guān)聯(lián)等運(yùn)算以獲取新的數(shù)據(jù)集。多維分析,分析表格支持多維分析,維度單元格自動(dòng)合并。
(3)表格功能。報(bào)表單元格鉆取下載清單,自助分析提供分析報(bào)表單元格下載清單數(shù)據(jù),方便業(yè)務(wù)分析人員針對(duì)分析結(jié)果查看對(duì)應(yīng)的分析數(shù)據(jù)源清單;報(bào)表單元格鉆取關(guān)聯(lián)分析,自助分析提供分析報(bào)表單元格鉆取關(guān)聯(lián)其他分析,方便業(yè)務(wù)分析人員快速進(jìn)行關(guān)聯(lián)分析;報(bào)表發(fā)布及審批,制作好的分析報(bào)表可以保存及發(fā)布,能夠靈活發(fā)布到自助分析模塊或者經(jīng)分系統(tǒng)中。發(fā)布時(shí)可指定審批人,審批完成后即可進(jìn)行查看;報(bào)表下載,對(duì)于制作完成的報(bào)表,用戶可以下載。下載的格式為Excel文檔,支持手機(jī)驗(yàn)證碼驗(yàn)證。
(4)數(shù)據(jù)透視分析。提供用戶自行設(shè)計(jì)數(shù)據(jù)透視表界面及展示內(nèi)容的能力,用戶可以動(dòng)態(tài)地改變數(shù)據(jù)透視表的版面布置,以便按照不同方式分析數(shù)據(jù),也可以重新安排行標(biāo)簽、列標(biāo)簽和指標(biāo)函數(shù),同一數(shù)據(jù)集的不同分析方式,實(shí)現(xiàn)透視分析。
(5)數(shù)據(jù)生命周期。系統(tǒng)記錄所有任務(wù)的數(shù)據(jù)集操作歷程,方便查詢所有對(duì)數(shù)據(jù)集的操作內(nèi)容。展現(xiàn)所有當(dāng)前和歷史的任務(wù)數(shù)據(jù)情況,包含“數(shù)據(jù)已刪除”和“任務(wù)已刪除”的任務(wù)。
由于涉及查詢用戶的清單明細(xì)信息,所以自助分析提供了多種數(shù)據(jù)安全保障措施,能夠有效防止敏感數(shù)據(jù)的越權(quán)查詢和泄露。用戶預(yù)覽、查看數(shù)據(jù)時(shí),按其歸屬地域做權(quán)限管控;用戶下載重要數(shù)據(jù)時(shí),需要做金庫(kù)認(rèn)證;屏蔽了所有頁(yè)面的右鍵,并防止拷貝敏感數(shù)據(jù):對(duì)于敏感數(shù)據(jù),瀏覽時(shí)可以做模糊化處理;支持將用戶下載的數(shù)據(jù)推送至虛擬桌面進(jìn)行瀏覽;預(yù)覽、瀏覽數(shù)據(jù)時(shí),對(duì)數(shù)據(jù)背景做了水印處理:用戶瀏覽、下載數(shù)據(jù)的日志可追溯。
自助分析系統(tǒng)的架構(gòu)在用戶訪問、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)等層次都支持分布式部署,因此可通過對(duì)服務(wù)器集群線行擴(kuò)展來(lái)提高數(shù)據(jù)處理能力。分布式架構(gòu)的核心問題是系統(tǒng)運(yùn)行過程中的高并發(fā)和高1/0。通過數(shù)據(jù)中心上層部署分布式數(shù)據(jù)集市的方式,分擔(dān)分布式數(shù)據(jù)中心的壓力。分布式數(shù)據(jù)中心作為數(shù)據(jù)倉(cāng)庫(kù),需要承擔(dān)數(shù)據(jù)的存儲(chǔ),計(jì)算和其他數(shù)據(jù)請(qǐng)求,需要在數(shù)據(jù)的增、刪、改、查和運(yùn)算等各個(gè)功能做好資源的均衡。可視化的業(yè)務(wù)操作頁(yè)面,通過簡(jiǎn)單的拖拽點(diǎn)選即可快速完成業(yè)務(wù)分析模型。生成的可視化報(bào)告,可以實(shí)現(xiàn)數(shù)據(jù)聯(lián)動(dòng),數(shù)據(jù)篩選,使得數(shù)據(jù)展現(xiàn)成為數(shù)據(jù)分析開始的第一步,使可視化之后的進(jìn)一步深入的探索式分析得以繼續(xù),充分釋放數(shù)據(jù)的價(jià)值。
[1] Yao D, Yu C, Dey A K, et al. Energy efficient indoor tracking on smartphones[J]. Future Generation Computer Systems, 2014, 39(39): 44-54.
[2] Sun Q, Deng B, Fu L, et al. Non-redundant Distributed Database Allocation Technology Research[C]//International Conference on Computing Intelligence and Information System. IEEE Computer Society, 2017: 155-159.
[3] M. D. Samrajesh, Gopalan N P. Towards Multivariable Architecture for SaaS Multi-tenant Applications[J]. International Journal of Software Engineering & Its Applications, 2016, 10(4): 13-26.
[4] 孟維一. 基于數(shù)據(jù)倉(cāng)庫(kù)的保險(xiǎn)商業(yè)智能系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京交通大學(xué), 2016.
[5] 鄭嘯, 李景超, 王翔, 等. 大數(shù)據(jù)背景下的國(guó)家地質(zhì)信息服務(wù)系統(tǒng)建設(shè)[J]. 地質(zhì)通報(bào), 2015, 34(7): 1316-1322.
[6] 羅鵬, 龔勛. HDFS 數(shù)據(jù)存放策略的研究與進(jìn)步[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(24): 1127-1131.
[7] 顧濤. 集群Map Reduce 環(huán)境中任務(wù)和作業(yè)調(diào)度若干關(guān)鍵問題的研究[D]. 天津: 南開大學(xué), 2015.
[8] 楊杉, 蘇飛, 程新洲, 袁明強(qiáng), 董潤(rùn)莎. 面向運(yùn)營(yíng)商大數(shù)據(jù)的分布式ETL研究與設(shè)計(jì)[J]. 郵電設(shè)計(jì)技術(shù), 2016, 8(1): 50-52.
[9] 侯雪燕, 洪陽(yáng), 張建民, 等. 海洋大數(shù)據(jù): 內(nèi)涵、應(yīng)用及平臺(tái)建設(shè)[J]. 海洋通報(bào), 2017, 36(04): 361-369.
[10] 孫大為, 張廣艷, 鄭緯民. 大數(shù)據(jù)流式計(jì)算關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J]. 軟件學(xué)報(bào), 2014, 25(4): 839-862.
Research and Application of Big Data Self-help Analysis System Based on Distributed Parallel Computing
WENG Ye-lin1, JIANG Dao-xia1, YU Xin-hua2
(1. Jiangsu Vocational and Technical College of Finance and Economics, Huai'an 223001, China; 2. Jiangsu Mobile Corporation, Nanjing 210001, China)
Once big data enters more enterprises, we will put forward more expectations for big data. In addition to data statistics, the era of big data requires intelligent analysis, breaking the constraints of IT, and exploring the most efficient way to quickly seize the commanding heights of data. Based on the research and application of the application scheme of the data self-help analysis platform under the distributed parallel computing of a company, this paper puts forward the idea of massive data processing in the self-help analysis system, and focuses on the analysis of distributed parallel computing and distributed communication. At the same time, combining with the functional characteristics of the self-help analysis system, the paper gives the following suggestions: Put forward the application suggestion of system deployment. The research content has certain practical value for the landing of distributed computing in large data decision analysis system.
Distributed parallel computing; Big data; Self help analysis
TP311.1
A
10.3969/j.issn.1003-6970.2018.12.019
翁業(yè)林(1981-),男,碩士,講師,研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò)技術(shù);蔣道霞(1965-),女,博士,教授,研究領(lǐng)域:計(jì)算機(jī)軟件;俞新華(1981-),男,碩士,高級(jí)工程師,研究領(lǐng)域:移動(dòng)通信。
翁業(yè)林,蔣道霞,俞新華. 基于分布式并行計(jì)算的大數(shù)據(jù)自助分析系統(tǒng)的研究與應(yīng)用[J]. 軟件,2018,39(12):83-86