◆陳 強(qiáng)
(新疆醫(yī)科大學(xué)網(wǎng)絡(luò)中心 新疆 830011)
“大數(shù)據(jù)”背景下傳統(tǒng)網(wǎng)絡(luò)廠商的挑戰(zhàn)與機(jī)遇
◆陳 強(qiáng)
(新疆醫(yī)科大學(xué)網(wǎng)絡(luò)中心 新疆 830011)
大數(shù)據(jù)是現(xiàn)在非常熱門的一個話題,尤其是涉足互聯(lián)網(wǎng)行業(yè)的企業(yè),對企業(yè)的規(guī)劃運(yùn)營提供了指導(dǎo)和分析,進(jìn)而影響和改變企業(yè)的業(yè)務(wù)模式和發(fā)展方向,大數(shù)據(jù)時(shí)代對傳統(tǒng)的網(wǎng)絡(luò)廠商提出了新的挑戰(zhàn)與機(jī)遇。
大數(shù)據(jù);云計(jì)算;發(fā)展;挑戰(zhàn)
《紐約時(shí)報(bào)》2012年2月的一篇專欄中所稱,“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而做出,并非基于經(jīng)驗(yàn)和直覺。哈佛大學(xué)社會學(xué)教授加里·金為大數(shù)據(jù)時(shí)代下了一個定義:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程?!?/p>
現(xiàn)代社會信息量的爆炸性增長,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域。在此海量數(shù)據(jù)的產(chǎn)生,使我們步入了“大數(shù)據(jù)”時(shí)代。
微軟必應(yīng)搜索通過集成以往的飛機(jī)票價(jià)畫出未來票價(jià)走勢;谷歌利用用戶搜索記錄判斷出美國流感疫情的現(xiàn)狀,并比疾控中心快一兩周;對沖基金通過剖析社交網(wǎng)絡(luò)推特的數(shù)據(jù)信息來預(yù)測股市的表現(xiàn);亞馬遜和網(wǎng)絡(luò)影視光盤租賃公司根據(jù)用戶在其網(wǎng)站上的類似查詢來進(jìn)行產(chǎn)品推薦……當(dāng)然,同樣的技術(shù)也可以運(yùn)用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。
何謂大數(shù)據(jù)?大數(shù)據(jù)之“大”,并不僅僅在于“容量之大”,更大的意義在于:通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價(jià)值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。大數(shù)據(jù)的“大”是個相對的概念,最近比較流行的“UP智能手環(huán)”,筆者也認(rèn)為也可以發(fā)展為一種潛在的大數(shù)據(jù)模型,將使用者每天的數(shù)據(jù)進(jìn)行收集、分析,形成建議報(bào)告。若將個體的數(shù)據(jù)上傳在進(jìn)行分析,就能描繪出更好的使用者群體模型,進(jìn)而對該模型進(jìn)行有針對性的開發(fā)。當(dāng)然這涉及到公民隱私,但隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,我們的行為、位置及UP智能手環(huán)收集的身體生理數(shù)據(jù)等每一天的變化都成為可被記錄和分析的大數(shù)據(jù)。
那么到底什么是大數(shù)據(jù)呢,它具有什么特點(diǎn)呢。
1.1 大數(shù)據(jù)的定義
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
1.2 大數(shù)據(jù)的特點(diǎn)
大量化(Volume):大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
多樣化(Variety):數(shù)據(jù)類型繁多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。
價(jià)值密度低(Value):數(shù)據(jù)價(jià)值密度相對較低,隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低,如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”,是大數(shù)據(jù)時(shí)代亟待解決的難題。
快速化(Velocity):處理速度快,時(shí)效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。既有的技術(shù)架構(gòu)和路線,已經(jīng)無法高效處理如此海量的數(shù)據(jù),而對于相關(guān)組織來說,如果投入巨大采集的信息無法通過及時(shí)處理反饋有效信息,那將是得不償失的??梢哉f,大數(shù)據(jù)時(shí)代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
圖1 大數(shù)據(jù)的特點(diǎn)
1.3 大數(shù)據(jù)的應(yīng)用
大數(shù)據(jù)在各個行業(yè)都有應(yīng)用,比如電商的精準(zhǔn)營銷、政府的預(yù)防犯罪、金融的信用評分等。以我們身邊的實(shí)際應(yīng)用舉例,淘寶網(wǎng)將注冊用戶2012年的全年交易數(shù)據(jù)進(jìn)行了分析,得出結(jié)論如下:
圖2 淘寶網(wǎng)將注冊用戶2012年的全年交易數(shù)據(jù)分析
根據(jù)2012年度全民對賬單,可以詳細(xì)地統(tǒng)計(jì)全國各地用戶的消費(fèi)情況??傮w而言,手機(jī)支付已經(jīng)開始成為趨勢。手機(jī)支付金額相比2011年上漲了546%,有超過430萬人手機(jī)支付的次數(shù)超過電腦,其中上海、北京和成都的用戶更加偏愛手機(jī)支付。
據(jù)此結(jié)論可以引導(dǎo)企業(yè)在手機(jī)支付方面進(jìn)行更多的資源投入。
大數(shù)據(jù)整個處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析以及挖掘。
2.1 采集
收集來自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。在采集部分,主要特點(diǎn)和挑戰(zhàn)方面是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會有成千上萬的用戶來進(jìn)行訪問和操作,比如著名用于購買火車票的12306站點(diǎn)和淘寶,它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬。
2.2 導(dǎo)入/預(yù)處理
雖然有采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效地分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。
2.3 統(tǒng)計(jì)/分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫或者分布式計(jì)算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時(shí)性需求會用到EMC 的GreenPlum、Oracle的Exadata以及基于MySQL的列式存儲Infobright等,而一些批處理或者基于半結(jié)構(gòu)化的需求可以使用Hadoop。
統(tǒng)計(jì)與分析這部分,主要特點(diǎn)和挑戰(zhàn)方面是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大地占用。
2.4 挖掘
與前面統(tǒng)計(jì)和分析不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,這樣實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求,比較典型算法有用于聚類的K-Means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的Naive Bayes,主要使用的工具有Hadoop的Mahout等。
在特點(diǎn)和挑戰(zhàn)方面,主要是挖掘的算法復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,還有,常用數(shù)據(jù)挖掘算法庫以單線程為主。
未來,數(shù)據(jù)可能成為最大的交易商品,大數(shù)據(jù)的價(jià)值是通過數(shù)據(jù)共享、交叉復(fù)用后獲取最大的數(shù)據(jù)價(jià)值。未來大數(shù)據(jù)將會如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。
大數(shù)據(jù)的整體態(tài)勢和發(fā)展趨勢,主要體現(xiàn)在幾個方面:大數(shù)據(jù)與學(xué)術(shù)、大數(shù)據(jù)與人類的活動,大數(shù)據(jù)的安全隱私、關(guān)鍵應(yīng)用、系統(tǒng)處理和整個產(chǎn)業(yè)的影響。大數(shù)據(jù)整體態(tài)勢上,數(shù)據(jù)的規(guī)模將變得更大,數(shù)據(jù)資源化、數(shù)據(jù)的價(jià)值凸顯、數(shù)據(jù)私有化出現(xiàn)和聯(lián)盟共享。
大數(shù)據(jù)的發(fā)展會催生許多新興新職業(yè),會產(chǎn)生數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師,有非常豐富的數(shù)據(jù)經(jīng)驗(yàn)的人才會成為稀缺人才。隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)共享聯(lián)盟將逐漸壯大成為產(chǎn)業(yè)的核心一環(huán)。隨著大數(shù)據(jù)的共享越來越大,隱私問題也隨之而來,比如說每天手機(jī)產(chǎn)生的通話、位置等等。但這給帶來了便利的同時(shí)也給帶來了個人隱私的問題。數(shù)據(jù)資源化,大數(shù)據(jù)在國家和企業(yè)和社會層面成為重要的戰(zhàn)略資源,成為新的戰(zhàn)略制高點(diǎn)和搶購的新焦點(diǎn)。
隨著社會的不斷發(fā)展,大數(shù)據(jù)對IT技術(shù)架構(gòu)的挑戰(zhàn),大數(shù)據(jù)的生態(tài)環(huán)境問題,大數(shù)據(jù)的應(yīng)用及產(chǎn)業(yè)鏈將日益突出。
“棱鏡門”是一個真實(shí)的大數(shù)據(jù)分析事件,將大數(shù)據(jù)時(shí)代對個人隱私造成的挑戰(zhàn)推到風(fēng)口浪尖上。根據(jù)斯諾登的描述,美國政府一直通過谷歌、蘋果、思科、HP等幾大網(wǎng)絡(luò)公司進(jìn)行數(shù)據(jù)挖掘和收集活動,監(jiān)控公民郵件和聊天記錄等內(nèi)容,令民眾嘩然。
個人隱私問題并非“大數(shù)據(jù)時(shí)代”所特有,手機(jī)竊密、信息被盜等都已經(jīng)普遍存在,只是在今天這個信息獲取多元化的是網(wǎng)絡(luò)時(shí)代,隱私問題顯得更復(fù)雜、更突出。
此前保護(hù)隱私的法律、法規(guī)尚存在很多漏洞,竊取信息利益高、風(fēng)險(xiǎn)小,使得許多人躍躍欲試。而“大數(shù)據(jù)時(shí)代”的突如其來,也讓許多正享受著這一時(shí)代便利的人們措手不及,尚不能形成相應(yīng)的安全防范意識和上網(wǎng)習(xí)慣,加拿大隱私委員會調(diào)查顯示,盡管那么多人擔(dān)心社交網(wǎng)絡(luò)平臺安全和個人隱私泄露等問題,但認(rèn)真閱讀網(wǎng)站隱私條款的比例,竟僅有7%。
大數(shù)據(jù)時(shí)代既帶來了諸多的便利和新的發(fā)展機(jī)會,但同時(shí)網(wǎng)絡(luò)欺詐、侵犯個人隱私現(xiàn)象也屢見不鮮,因此,對于大數(shù)據(jù),應(yīng)該盡快進(jìn)行立法,規(guī)范發(fā)展。
傳統(tǒng)網(wǎng)絡(luò)廠商諸如思科、華為、H3C、銳捷等,在這方面也都有所應(yīng)對,思科在2012年發(fā)布了“整合釋放大數(shù)據(jù)分析的價(jià)值:信息中介如何創(chuàng)建全新大數(shù)據(jù)生態(tài)環(huán)境”的白皮書,旨在將大數(shù)據(jù)的技術(shù)發(fā)展成一種商業(yè)模式,進(jìn)而進(jìn)行標(biāo)準(zhǔn)的制定和輸出,占領(lǐng)產(chǎn)業(yè)鏈的制高點(diǎn)。
華為公司在2013年初發(fā)布2013年行業(yè)趨勢展望,認(rèn)為從大數(shù)據(jù)到大智慧,運(yùn)營商和企業(yè)的IT系統(tǒng)成為實(shí)時(shí)的業(yè)務(wù)系統(tǒng),不再是后處理的支撐系統(tǒng),這是IT系統(tǒng)的一次大變革。華為公司清楚的意識到此次變革對企業(yè)帶來的巨大變化,據(jù)此對其產(chǎn)品、人員、資源方面做了戰(zhàn)略布局。
H3C的控股公司HP公司將大數(shù)據(jù)作為其核心戰(zhàn)略,已經(jīng)形成了從基礎(chǔ)設(shè)施、設(shè)計(jì)咨詢、實(shí)施規(guī)劃等全程的一攬子服務(wù)。與國內(nèi)的部分大型企業(yè)形成了大數(shù)據(jù)層面的戰(zhàn)略合作,協(xié)助企業(yè)在簡化IT管理的同時(shí),降低基礎(chǔ)設(shè)施的維護(hù)成本,并確保其遵循行業(yè)標(biāo)準(zhǔn)和政府法規(guī)。
作為傳統(tǒng)網(wǎng)絡(luò)設(shè)備生產(chǎn)廠商中的一員的銳捷網(wǎng)絡(luò)該怎么應(yīng)對呢。筆者認(rèn)為至少要做一下幾方面的工作:
5.1 人才儲備
公司有后臺信息化支撐部門,每年面臨內(nèi)部數(shù)據(jù)的增長,同時(shí)我們的業(yè)務(wù)系統(tǒng),如CRM、電子商務(wù)等也有數(shù)據(jù)不斷注入。若將這些數(shù)據(jù)做些簡單的分類和處理,是不需要專業(yè)人員的,但對數(shù)據(jù)要做更好的挖掘和處理,則需要更多的專業(yè)人才進(jìn)行處理。
銳捷網(wǎng)絡(luò)的客戶群對數(shù)據(jù)的認(rèn)識越來越清晰,視作其單位的核心資源,如何協(xié)助客戶群提升核心資源的優(yōu)化和使用,使其發(fā)揮更大的價(jià)值,創(chuàng)造更多的效益,是我們需要考慮和布局的。
5.2 產(chǎn)品規(guī)劃
銳捷網(wǎng)絡(luò)的核心競爭力在于能夠很好的貼近客戶,滿足客戶的需要。伴隨大數(shù)據(jù)時(shí)代的步入,協(xié)助客戶做好面對的準(zhǔn)備,在大數(shù)據(jù)的處理流程上都要有核心的產(chǎn)品或工具予以提供,筆者很欣喜看到,銳捷網(wǎng)絡(luò)在細(xì)分的客戶處已經(jīng)有所投入,不管是否能夠給客戶帶來變化,但在產(chǎn)品方面一定要做好長遠(yuǎn)的規(guī)劃。
5.3 重視大數(shù)據(jù)
一旦客戶認(rèn)識了數(shù)據(jù)的價(jià)值,務(wù)必集中資源投入在大數(shù)據(jù)方面,多數(shù)客戶會在服務(wù)器和存儲設(shè)施中進(jìn)行收集,并且大多數(shù)的企業(yè)信息管理體系結(jié)構(gòu)將會發(fā)生重要大變化,我們迫切需要緊密跟進(jìn)大數(shù)據(jù)的步伐,了解和收集客戶IT設(shè)施的變化,進(jìn)而將優(yōu)勢的資源投入在更貼近客戶方面。
大數(shù)據(jù)是最近幾年才興起的詞語,而并不是所有的人員對大數(shù)據(jù)都非常了解,例如如今的Hadoop,MapReduce,NoSQL等技術(shù)都是近年剛興起的技術(shù),企業(yè)IT人員要多關(guān)注這方面的技術(shù)和工具,以確保將來能夠面對大數(shù)據(jù)的時(shí)候做出正確的決定。
5.4 做好內(nèi)部培訓(xùn)
網(wǎng)絡(luò)目前最缺乏的是專業(yè)人才,當(dāng)大數(shù)據(jù)到臨的時(shí)候,企業(yè)將會缺少這方面的采集收集分析方面的人才。同時(shí)需要對公司人員做好相關(guān)的知識普及培訓(xùn),確保,以確保在大數(shù)據(jù)到來時(shí),員工也能適應(yīng)相關(guān)的工作。
5.5 風(fēng)險(xiǎn)規(guī)避
大數(shù)據(jù)面臨的隱私問題同樣是企業(yè)面臨的問題,內(nèi)部數(shù)據(jù)的防泄漏及大數(shù)據(jù)收集、分析(比如,微哨通過云模式收集到的信息是否合規(guī)等),這種處理動作是否符合行業(yè)規(guī)定或國家法律法規(guī),都是我們要提前考慮的。
做到上面的幾點(diǎn),當(dāng)大數(shù)據(jù)時(shí)代來臨的時(shí)候,面臨大量數(shù)據(jù)將不是束手無策,而是成竹在胸,而從數(shù)據(jù)中得到的好處也將促進(jìn)企業(yè)快速發(fā)展。
[1]彎曲論壇.
[2]Google搜索綜合信息資料,關(guān)鍵詞“大數(shù)據(jù)”.
[3]張紅妹,高少華.大數(shù)據(jù).“啤酒+尿布”成經(jīng)典案例.國際先驅(qū)導(dǎo)報(bào).
[4]baidu搜索綜合信息資料.關(guān)鍵詞“思科大數(shù)據(jù)”、“華為大數(shù)據(jù)”等.
[5]維克托·邁爾·舍恩伯格.大數(shù)據(jù)時(shí)代.浙江:浙江人民出版社,2012.