【摘 要】如今,大量的數(shù)據(jù)是所有企業(yè)的共同目標,旨在從這些來源解鎖新經(jīng)濟。Hadoop是為分析并行計算體系結(jié)構(gòu)中的大規(guī)模數(shù)據(jù)倉庫而開發(fā)的。這個過程中的主要任務(wù)是運用適當?shù)牟呗詠硖幚磉@個“大數(shù)據(jù)”。因此,目前的行業(yè)關(guān)注的是如何利用這些“大數(shù)據(jù)”實現(xiàn)業(yè)務(wù)增長。毫無疑問,在hadoop上建立數(shù)據(jù)庫可以提供一種分析和直覺分析的新方法。除了實驗和poc之外,如今Hadoop被更多地考慮用于生產(chǎn)。隨著Hadoop被考慮用于實時生產(chǎn)場景,并且生產(chǎn)數(shù)據(jù)的主要部分通常是敏感的,或者受到許多控制措施的影響,在決定為任何企業(yè)安裝Hadoop之前,考慮Hadoop中的安全方面就變得非常重要。本文評估了Hadoop生態(tài)系統(tǒng)中的各種問題,以及市場上頂尖的大數(shù)據(jù)玩家對Hadoop生態(tài)系統(tǒng)的流行分布。
【關(guān)鍵詞】大數(shù)據(jù);Hadoop;Hadoop安全工具
1引言
在今天,有的單位幾乎沒有獲得所需試驗數(shù)據(jù)的機會,因為要么不知道如何使用該技術(shù),要么根本不夠成熟,以處理他們的大數(shù)據(jù)。大多數(shù)頂級組織都在尋找大數(shù)據(jù)框架,以幫助他們尋找新的機會。他們可以分析數(shù)據(jù),在尋找潛在機會的競賽中領(lǐng)先。Hadoop策略基本上是從選擇正確的發(fā)行版開始的。Hadoop主要用于分析并行計算體系結(jié)構(gòu)中的大規(guī)模數(shù)據(jù)倉庫。由于這些數(shù)據(jù)可以在公共場合免費獲得,開發(fā)人員最初從不關(guān)心安全問題。但正如我們所知,隨著Hadoop的發(fā)展,它的功能不再局限于最初的需求,隨著Hadoop上新技術(shù)的發(fā)展,它現(xiàn)在幾乎被應(yīng)用于所有行業(yè),從醫(yī)療、股票交易到機器人等,只要涉及計算密集型任務(wù)。由于其中一些作品涉及敏感數(shù)據(jù),安全性成為一個大問題。本文擬提供一些有益的啟示,主要大數(shù)據(jù)服務(wù)提供商為解決這些安全問題而使用的問題和策略的說明。
2現(xiàn)有的數(shù)據(jù)公司簡述
在過去的幾年里,大數(shù)據(jù)市場已經(jīng)出現(xiàn)了很多工具和提供商的參與。他們中的一些人用Hadoop插件提供他們的本地工具。其他人則提供了新的Hadoop平臺。在市場上數(shù)量眾多的大數(shù)據(jù)廠商中,排名前四位的廠商如下:
Cloudera公司是由雅虎、谷歌等頂級公司的專業(yè)人士于2008年創(chuàng)立的Cloudera是采用ApacheHadoop核心并圍繞其開發(fā)定制軟件的先驅(qū)。在用戶群方面,它仍然具有領(lǐng)先地位。盡管它在發(fā)行版中仍然使用apachehadoop作為核心,但它還有一個名為Cloudera管理套件的專有產(chǎn)品。該產(chǎn)品有助于自動化Hadoop的部署,并為管理集群提供GUI基礎(chǔ)。Hortonworks成立于2011年,并很快加入了Hadoop的主要分銷商集團。它為大數(shù)據(jù)提供了基于核心apachehadoop的開源數(shù)據(jù)平臺。Hortonworks是唯一一家發(fā)布ApacheHadoop的Hadoop供應(yīng)商,沒有添加任何獨占組件。Hortonworks發(fā)行版HDP2.0可以直接從他們的網(wǎng)站上免費下載,安裝非常簡單。Hortonworks團隊負責Hadoop最近的許多新增功能,包括Yarn,它是basic MapReduce的增強版。
apachehadoop的開源版本有許多限制。大多數(shù)Hadoop發(fā)行商都試圖通過發(fā)行版來克服這些問題。所有的發(fā)行商都在核心開源Hadoop組件之上添加了自己的風格。MapR已經(jīng)用自己的專有文件系統(tǒng)MapRFS替換了HDFS組件。MapRFS公司有助于將企業(yè)級功能添加到Hadoop中,實現(xiàn)更有效的數(shù)據(jù)管理和易用性。IBM為云端和本地的商業(yè)企業(yè)提供了Spark和Hadoop套裝。組織希望花更少的時間創(chuàng)建EnterpriseReadyHadoop基礎(chǔ)設(shè)施,花更多的時間獲得洞察力。IBM提供了一個完整的解決方案,包括Spark,可以快速方便地擴展分析。在本地、云上可用,并與當前使用的其他系統(tǒng)集成。
3大數(shù)據(jù)的保密性(安全)問題
對于任何Hadoop集群,任務(wù)都是保護整個應(yīng)用程序集,而不是像簡單的關(guān)系數(shù)據(jù)庫那樣。所有為Hadoop提供靈活性、可伸縮性和高性能的特性都會帶來特定的安全挑戰(zhàn)。以下被認為是當今IT行業(yè)大數(shù)據(jù)的多個關(guān)鍵安全問題。
1、Hadoop的數(shù)據(jù)放置技術(shù)和多租戶問題Hadoop通常用于服務(wù)多個應(yīng)用程序和“租戶”,每個應(yīng)用程序和租戶可能來自同一家公司的不同組,也可能來自完全不同的公司。通常,一個租戶的數(shù)據(jù)不會與其他租戶共享,但考慮到Hadoop數(shù)據(jù)放置技術(shù)的性質(zhì),您必須實現(xiàn)安全控制以確保安全性和隱私性。Hadoop當前的數(shù)據(jù)放置策略不太適合或不太適合這種需要改變租戶數(shù)據(jù)放置方式的多租戶情況。為了滿足這些需求,應(yīng)該探索Hadoop中不同的塊放置策略。2、對基于角色的數(shù)據(jù)訪問的控制對于大多數(shù)RDBMS和數(shù)據(jù)倉庫來說是至關(guān)重要的,Hadoop和它們沒有什么不同。RDBMS平臺使用角色、組、安全方案和其他一些功能來限制用戶對較小數(shù)據(jù)組的訪問。Hadoop中也應(yīng)該提供類似類型的控制措施。3、節(jié)點間通信問題任何Hadoop集群中的節(jié)點之間的通信(跨不同的Hadoop發(fā)行版)在默認情況下是不安全的-它們使用TCP/IP上的未加密RPC。這樣就可以對傳輸中的數(shù)據(jù)進行檢查和篡改。
4解決方案
許多商業(yè)和開源工具可用于處理前面討論的大數(shù)據(jù)Hadoop的安全方面。一些最常用的工具是apachesentry apachesentry是Cloudera的開源工具之一。它是Hadoop的一個授權(quán)模塊,提供了為apt用戶和應(yīng)用程序處理不同訪問級別所需的定義良好的RBAC。它支持RBAC、細粒度授權(quán)和多租戶管理。apacheknox apacheknox系統(tǒng)充當Hadoop中不同服務(wù)的身份驗證和訪問請求點。它為Hadoop提供了外圍級別的安全解決方案。另一個優(yōu)點是它提供了不同級別的身份驗證和不同的令牌驗證場景。它還提供SSO解決方案,并允許將其他身份管理解決方案與集群集成。ApacheRhino ApacheRhino旨在為整個Hadoop生態(tài)系統(tǒng)中的數(shù)據(jù)提供整體安全解決方案。它提供了一個框架,這是加密編解碼器提供塊級加密的數(shù)據(jù)存儲在Hadoop。另外還提供了基于令牌的身份驗證和SSO解決方案。它支持不同的密鑰分配和管理,使得MR能夠根據(jù)需要對每個數(shù)據(jù)塊進行解密來執(zhí)行程序。通過在單元級別啟用身份驗證和Hbase表的加密,可以增強Hbase的安全性,此外它提供了審計日志框架,便于審計跟蹤。因此在我們實際的工程應(yīng)用中可以使用該方法來提高我們數(shù)據(jù)的安全性。
5結(jié)論
一般來說,行業(yè)存儲和處理大量敏感數(shù)據(jù),這些數(shù)據(jù)受多個行業(yè)法規(guī)和治理控制的約束,例如銀行數(shù)據(jù)、醫(yī)療保健數(shù)據(jù)等。為了遵守這些法規(guī),Hadoop發(fā)行版和Hadoop生態(tài)系統(tǒng)組件必須提供強大的能力,以防止對其的任何攻擊它存儲和處理的數(shù)據(jù),并隨時采取必要措施確保適當?shù)陌踩?。盡管Hadoop的安全環(huán)境變化很快,但所有Hadoop組件的變化率并不一致,這就是Hadoop生態(tài)系統(tǒng)中安全能力的程度可能不均衡的原因。因此,某些組件可能與比其他組件更強大的安全技術(shù)兼容。因此在實際的工程中是可以采用這種組件的形式來對我們所使用的數(shù)據(jù)進行處理。
參考文獻:
[1]張振宇,馮躍,孟兆博.高可用電站大數(shù)據(jù)平臺探索與實踐[J].電站系統(tǒng)工程,2021,37(03):73-74.
[2]姜宇澤,陳詩洋.數(shù)據(jù)安全技術(shù)發(fā)展現(xiàn)狀及挑戰(zhàn)解析[J].通信世界,2021(08):17-19.
作者簡介:
衛(wèi)鑫,2001年出生,漢研究方向:大數(shù)據(jù)質(zhì)量分析。
(作者單位:西南科技大學城市學院)