江蘇省通信管理局通信發(fā)展與保障處 堵雯曦
大數(shù)據(jù)技術(shù)在通信行業(yè)的應(yīng)用探討
江蘇省通信管理局通信發(fā)展與保障處 堵雯曦
大數(shù)據(jù)正在深入到各行各業(yè)。介紹了大數(shù)據(jù)概念,并對大數(shù)據(jù)的存儲、挖掘分析和綜合展示等技術(shù)分別進(jìn)行了闡述,最后對大數(shù)據(jù)在通信行業(yè)的應(yīng)用進(jìn)行了分析。
大數(shù)據(jù);數(shù)據(jù)處理平臺;非結(jié)構(gòu)化數(shù)據(jù)
自從20世紀(jì)中期計算機(jī)誕生以來,伴隨著科技和社會的發(fā)展進(jìn)步,數(shù)據(jù)的數(shù)量不斷增多,質(zhì)量不斷提高。尤其是近年來,隨著互聯(lián)網(wǎng)應(yīng)用技術(shù)的全面發(fā)展,帶來的大規(guī)模音頻、文字、圖片視頻等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計算廣泛應(yīng)用,使得個人可以更加準(zhǔn)確快捷的發(fā)布、獲取數(shù)據(jù),數(shù)據(jù)規(guī)模、數(shù)據(jù)種類正在以極快的速度增長,可以說大數(shù)據(jù)時代[1]已然降臨。
面對如此增長迅速的數(shù)據(jù)資源,特別在數(shù)據(jù)規(guī)模急劇增長的同時,數(shù)據(jù)類型也越來越復(fù)雜,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等多種類型,采用傳統(tǒng)數(shù)據(jù)處理手段已難以進(jìn)行處理。因此,大數(shù)據(jù)技術(shù)應(yīng)運而生,將大量數(shù)據(jù)不經(jīng)過模型和假設(shè)直接交給計算機(jī)進(jìn)行處理,從而發(fā)現(xiàn)某些傳統(tǒng)方法難以得到的規(guī)律和結(jié)論。
大數(shù)據(jù)作為一個新興概念,至今尚無確切、統(tǒng)一的定義。大數(shù)據(jù)前身可以認(rèn)為是海量數(shù)據(jù),但海量數(shù)據(jù)強(qiáng)調(diào)了數(shù)據(jù)量的規(guī)模之大,并沒有對其特性進(jìn)行定義。而大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù),還更進(jìn)一步指出數(shù)據(jù)的復(fù)雜形式、數(shù)據(jù)的快速時間特性以及對數(shù)據(jù)的分析、處理等專業(yè)化處理,最終獲得有價值信息的能力。當(dāng)前,較為統(tǒng)一的認(rèn)識是大數(shù)據(jù)有4個基本特征:數(shù)據(jù)規(guī)模大(volume),數(shù)據(jù)種類多(variety),數(shù)據(jù)要求處理速度快(velocity),數(shù)據(jù)價值密度低(value),即所謂的4V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。
1.1 數(shù)據(jù)規(guī)模大
數(shù)據(jù)規(guī)模大是大數(shù)據(jù)的基本屬性,根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)[2]的定義,至少要有超過100 TB的可供分析的數(shù)據(jù)。導(dǎo)致數(shù)據(jù)規(guī)模不斷增長的原因較多,比如隨著各種傳感器數(shù)據(jù)獲取能力的大幅提高,使得人們獲取的數(shù)據(jù)越來越接近原始事物本身,描述同一事物的數(shù)據(jù)量激增。另外,早期的結(jié)構(gòu)化數(shù)據(jù),對原始事物進(jìn)行了一定程度的抽象,數(shù)據(jù)維度低,數(shù)據(jù)類型簡單,數(shù)據(jù)量有限,增長速度慢;而隨著應(yīng)用的發(fā)展,數(shù)據(jù)維度越來越高,描述相同事物所需的數(shù)據(jù)量越來越大,數(shù)據(jù)越來越接近真實的世界,數(shù)據(jù)的描述能力不斷增強(qiáng),數(shù)據(jù)量本身必將以幾何級數(shù)增長。
1.2 數(shù)據(jù)種類多
數(shù)據(jù)類型繁多,復(fù)雜多變是大數(shù)據(jù)的重要特性。以往的數(shù)據(jù)盡管數(shù)量龐大,但通常是事先定義好的結(jié)構(gòu)化數(shù)據(jù)。這類數(shù)據(jù)只需事先分析好數(shù)據(jù)的含義以數(shù)據(jù)間的相互關(guān)系,再根據(jù)其屬性,將數(shù)據(jù)存儲在合適的位置,就可以方便的處理、查詢,限制數(shù)據(jù)處理能力的只是運算速度和存儲空間。而隨著互聯(lián)網(wǎng)絡(luò)與傳感器的飛速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量涌現(xiàn)。非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的結(jié)構(gòu)屬性,增加了數(shù)據(jù)存儲、處理的難度。而時下在網(wǎng)絡(luò)上流動著的數(shù)據(jù)大部分是非結(jié)構(gòu)化數(shù)據(jù),人們上網(wǎng)不只是看看新聞,發(fā)送文字郵件,還會上傳下載照片、視頻、發(fā)送微博等非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)正是在這樣的背景下產(chǎn)生的,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)處理最大的不同就是重點關(guān)注非結(jié)構(gòu)化信息。
1.3 數(shù)據(jù)處理速度快
要求數(shù)據(jù)的快速處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一。隨著各種傳感器和互聯(lián)網(wǎng)絡(luò)等信息獲取、傳播技術(shù)的飛速發(fā)展普及,數(shù)據(jù)呈爆炸的形式快速增長,新數(shù)據(jù)不斷涌現(xiàn),快速增長的數(shù)據(jù)量要求數(shù)據(jù)處理的速度也要相應(yīng)的提升,才能使得大量的數(shù)據(jù)得到有效的利用。如果數(shù)據(jù)尚未得到有效的處理,就失去了價值,大量的數(shù)據(jù)就沒有意義。對不斷激增的海量數(shù)據(jù)的實時處理要求,是大數(shù)據(jù)與傳統(tǒng)海量數(shù)據(jù)處理技術(shù)的關(guān)鍵差別之一。
1.4 數(shù)據(jù)價值密度低
數(shù)據(jù)價值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),依據(jù)特定的應(yīng)用,對事物進(jìn)行了相應(yīng)的抽象,每一條數(shù)據(jù)都包含該應(yīng)用需要考量的信息。而大數(shù)據(jù)為了獲取事物的全部細(xì)節(jié),不對事物進(jìn)行抽象、歸納等處理,直接采用原始的數(shù)據(jù),保留了數(shù)據(jù)的原貌。這樣雖然可以分析更多的信息,但也引入了大量沒有意義的信息,甚至是錯誤的信息,因此相對于特定的應(yīng)用,大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的價值密度偏低。
依據(jù)大數(shù)據(jù)生命周期的不同階段,可以將與大數(shù)據(jù)處理相關(guān)的技術(shù)分為相應(yīng)的大數(shù)據(jù)存儲、大數(shù)據(jù)挖掘分析和大數(shù)據(jù)綜合展現(xiàn)3個方面。
2.1 大數(shù)據(jù)存儲
從海量數(shù)據(jù)時代開始,大規(guī)模數(shù)據(jù)的長期保存、數(shù)據(jù)遷移一直都是研究的重點。從20世紀(jì)90年代末至今,數(shù)據(jù)存儲始終是依據(jù)數(shù)據(jù)量大小的不斷變化和不斷優(yōu)化向前發(fā)展的。其中主要有:DAS(直接外掛存儲),NAS(網(wǎng)絡(luò)附加存儲),SAN(存儲域網(wǎng)絡(luò))和SAN IP等存儲方式。這幾種存儲方式雖然是不同時代的產(chǎn)物,但各自的優(yōu)缺點都十分鮮明,數(shù)據(jù)中心往往是根據(jù)自身的服務(wù)器數(shù)量和要處理的數(shù)據(jù)對象進(jìn)行選擇。
此外,這兩年數(shù)據(jù)存儲的虛擬化從研究走向現(xiàn)實。所謂虛擬化,就是將原有的服務(wù)器進(jìn)行軟件虛擬化,將其劃分為若干個獨立的服務(wù)空間,如此可以在一臺服務(wù)器上提供多種存儲服務(wù),大大提高了存儲效率,節(jié)約存儲成本,是異構(gòu)數(shù)據(jù)平臺的最佳選擇。從技術(shù)角度來講,虛擬化可以分為存儲虛擬化和網(wǎng)絡(luò)虛擬化。網(wǎng)絡(luò)虛擬化是存儲虛擬化的輔助,能夠大幅度提升數(shù)據(jù)中心的網(wǎng)絡(luò)利用率和傳輸速率。目前IBM、浪潮、思科等公司紛紛發(fā)力虛擬化市場,可以預(yù)見虛擬化會成為未來大數(shù)據(jù)存儲的一個主流技術(shù)[3]。
此外,采用NoSQL(非關(guān)系型的數(shù)據(jù)庫),去除了關(guān)系數(shù)據(jù)庫的關(guān)系型特性,簡化了數(shù)據(jù)庫結(jié)構(gòu),便于對數(shù)據(jù)和系統(tǒng)架構(gòu)進(jìn)行擴(kuò)展。此外,NoSQL可以自定義數(shù)據(jù)存儲格式,是一個非常靈活的數(shù)據(jù)模型。
NoSQL的優(yōu)勢:
1)易擴(kuò)展。去掉了關(guān)系數(shù)據(jù)庫的關(guān)系型特性,數(shù)據(jù)之間無關(guān)系,非常容易擴(kuò)展。
2)大數(shù)據(jù)量,高性能。NoSQL數(shù)據(jù)庫具有非常好的讀寫性能,尤其在大數(shù)據(jù)量下同樣表現(xiàn)優(yōu)秀。
3)靈活的數(shù)據(jù)模型。NoSQL無需事先為要存儲的數(shù)據(jù)建立字段,隨時可以存儲自定義的數(shù)據(jù)格式。
4)高可用。NoSQL在不太影響性能的情況,可以方便地實現(xiàn)高可用的架構(gòu)。
2.2 大數(shù)據(jù)挖掘分析
數(shù)據(jù)挖掘是從數(shù)據(jù)集中識別出有效的、新穎的、有用的、最終可理解的模式知識的復(fù)雜過程。在大數(shù)據(jù)的處理技術(shù)中,超大規(guī)模的數(shù)據(jù)挖掘一直是難點,也是重點。面對上百TB,甚至PB級別的異構(gòu)數(shù)據(jù),常規(guī)的處理工具往往難以擔(dān)當(dāng)重任。需要考慮到的是大數(shù)據(jù)是個不斷生長的有機(jī)體,因此在挖掘過程中還要考慮到未來數(shù)據(jù)繼續(xù)增長所帶來的影響。
因此,大數(shù)據(jù)的挖掘需要采用分布式挖掘和云計算。Google公司一直是分布式挖掘技術(shù)的領(lǐng)導(dǎo)者,它研發(fā)了MapReduce分布式計算框架[4],英特爾公司在此基礎(chǔ)上開發(fā)了Hadoop分布式挖掘平臺。兩者都具有高效、高擴(kuò)展、高可靠性和高容錯率的特點,并提供免費版本,適用于各種類型的大數(shù)據(jù)挖掘。
2.2.1 Google云計算平臺
Google云計算平臺主要由文件存儲、并行數(shù)據(jù)處理、分布式鎖和結(jié)構(gòu)化數(shù)據(jù)表4部分組成,其構(gòu)成如圖1所示。
由圖1可知,Google4 云計算平臺的文件存儲采用GFS(谷歌分布式文件系統(tǒng))[5],并行數(shù)據(jù)處理技術(shù)采用MapReduce[6],分布式鎖采用Chubby[7],結(jié)構(gòu)化數(shù)據(jù)表采用的是BigTable[8],這些共同構(gòu)成計算平臺,為上層的云計算應(yīng)用服務(wù)。
GFS由一個的主服務(wù)器和多個塊服務(wù)器組成,并可以多個客戶端的訪問,數(shù)據(jù)存儲在塊服務(wù)器,并且在主服務(wù)器上保存其索引??蛻舳送ㄟ^查詢主服務(wù)器,獲取所需文件的索引,然后從塊服務(wù)器上獲取所需要的文件。MapReduce是Jeffery Dean設(shè)計的一個新的并行處理模型,將并行化、容錯、數(shù)據(jù)分布、負(fù)載均衡的等繁瑣的實現(xiàn)細(xì)節(jié)進(jìn)行封裝,用戶只需編寫簡單的計算代碼,而并不必關(guān)心算法的并行處理過程。Chubby是Google為解決分布式一致性問題而設(shè)計的提供粗粒度鎖服務(wù)的文件系統(tǒng),其他分布式系統(tǒng)可以使用它對共享資源的訪問進(jìn)行同步。BigTable基于GFS和Chubby的分布式存儲系統(tǒng),對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲和管理,從而快速地從海量信息中尋找需要的數(shù)據(jù)。Google現(xiàn)有的平臺技術(shù)是大數(shù)據(jù)的成功應(yīng)用經(jīng)驗,可以作為系統(tǒng)構(gòu)建時的借鑒和參考。
2.2.2 開源大數(shù)據(jù)處理平臺Hadoop
Hadoop是一個能對大量數(shù)據(jù)進(jìn)行分布式處理的軟件框架,起源于一個開源的Apache基金會項目,隨著越來越多用戶的加入,經(jīng)過不斷使用、貢獻(xiàn)和完善,已經(jīng)形成一個強(qiáng)大的生態(tài)系統(tǒng)。由于具備低成本和高擴(kuò)展性,受到許多IT廠商的關(guān)注,目前已經(jīng)成為大數(shù)據(jù)處理平臺的事實標(biāo)準(zhǔn)。Hadoop在業(yè)內(nèi)已有一些比較成功的應(yīng)用,如Yahoo、Facebook、淘寶等,用于數(shù)據(jù)統(tǒng)計和分析。
Hadoop的架構(gòu)如圖2所示。主要部件包括:
1)HDFS(Hadoop 分布式文件系統(tǒng))。用于提供廉價、高可靠性的超大容量的存儲。
2)MapReduce(并行數(shù)據(jù)處理)。當(dāng)處理一個大數(shù)據(jù)集查詢時會將其任務(wù)分解,并在運行的多個節(jié)點中處理,體現(xiàn)了分布式計算優(yōu)勢。將這種技術(shù)與Linux服務(wù)器結(jié)合可獲得性價比極高、替代大規(guī)模計算陣列的方法。
3)Hbase。它以Google BigTable為藍(lán)本,目標(biāo)是快速在主機(jī)內(nèi)數(shù)十億行數(shù)據(jù)中定位所需的數(shù)據(jù)并訪問它。HBase利用MapReduce處理內(nèi)部的海量數(shù)據(jù)。
4)Pig(數(shù)據(jù)分析平臺)和Hive(數(shù)據(jù)倉庫)。對開發(fā)人員來說,直接使用Java API(應(yīng)用程序接口)可能很乏味,也很容易出錯,同時也限制了Java程序員在Hadoop上編程的運用靈活性。Hadoop提供了Pig和Hive兩個解決方案,使得Hadoop編程變得更加容易。
Hadoop已成為大數(shù)據(jù)事實標(biāo)準(zhǔn),包含數(shù)十個具有強(qiáng)大生命力的子項目。具有高擴(kuò)展性、經(jīng)濟(jì)性、高可靠性、高效性等四大優(yōu)勢:
1)高擴(kuò)展性。不論是存儲的可擴(kuò)展性還是計算的可擴(kuò)展性,都是Hadoop的根本。
2)經(jīng)濟(jì)性。能夠部署在普通PC(個人計算機(jī))服務(wù)器集群之上,以滿足苛刻的生產(chǎn)環(huán)境業(yè)務(wù)需求,通過橫向擴(kuò)展完成以前需要小型機(jī)、大型機(jī)才能完成的任務(wù)。
3)高可靠性。分布式文件系統(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。
4)高效性。分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。
目前,隨著Hadoop應(yīng)用不斷深入,其擴(kuò)展性受限、單點故障、難以支持MapReduce之外的計算、多計算框架各自為戰(zhàn),數(shù)據(jù)共享困難等問題逐漸顯露,因此Hadoop2.0版本YARN(另一種資源協(xié)調(diào)者)應(yīng)運而生,并已逐步開展應(yīng)用。
2.3 大數(shù)據(jù)綜合展示
大數(shù)據(jù)綜合展示就是數(shù)據(jù)的可視化技術(shù),就是要能夠藝術(shù)性地將數(shù)據(jù)進(jìn)行可視化分析,簡單明了而且能夠展現(xiàn)出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。從內(nèi)容來說,大數(shù)據(jù)的分析分為技術(shù)和方法兩種類型;從技術(shù)上講,主要是分布式的數(shù)據(jù)分析和非結(jié)構(gòu)化數(shù)據(jù)處理等;從方法上講,主要是利用常用的數(shù)理統(tǒng)計方法來進(jìn)行數(shù)據(jù)分析,例如使用可視化的數(shù)據(jù)分析工具。但兩者是一個有機(jī)的整體。大數(shù)據(jù)處理的最終目的是為了將數(shù)據(jù)之間的關(guān)系以可視化的方式呈現(xiàn)在用戶面前,包括了處理的全部過程和展現(xiàn)的過程。在數(shù)據(jù)分析過程中,不僅僅是需要計算機(jī)進(jìn)行自動化的分析,更需要人工進(jìn)行數(shù)據(jù)選擇和參數(shù)的設(shè)定,兩個是辯證的關(guān)系。
數(shù)據(jù)顯示是將數(shù)據(jù)經(jīng)過分析得到的結(jié)果以可見或可讀形式輸出,以方便用戶獲取相關(guān)信息。對于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),可以采用數(shù)據(jù)值直接顯示、數(shù)據(jù)表顯示、各種統(tǒng)計圖形顯示等形式來表示數(shù)據(jù),而大數(shù)據(jù)處理的非結(jié)構(gòu)化數(shù)據(jù),種類繁多,關(guān)系復(fù)雜,傳統(tǒng)的顯示方法通常難以表現(xiàn),大量的數(shù)據(jù)表、繁亂的關(guān)系圖可能使用戶感到迷茫,甚至可能誤導(dǎo)用戶。利用計算機(jī)圖形學(xué)和圖像處理的可視計算技術(shù)成為大數(shù)據(jù)顯示的重要手段之一,將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像,更加直觀,方便用戶分析結(jié)果。可視化的決定性因素包括從數(shù)據(jù)中分析提煉的信息、信息所屬的數(shù)據(jù)關(guān)系種類、想通過圖表表達(dá)的觀點、想要強(qiáng)調(diào)的重點。如圖3所示,可以直觀地反映淘寶在全國范圍內(nèi),某一時刻的下單情況。又比如大家熟知的支付寶十年賬單,都是非常好的數(shù)據(jù)可視化的典范。
?
目前,信息技術(shù)業(yè)、互聯(lián)網(wǎng)行業(yè)、商業(yè)、遙感探測已經(jīng)開始應(yīng)用大數(shù)據(jù)技術(shù)來進(jìn)行研究和生產(chǎn)效益,大數(shù)據(jù)的浪潮很快就會覆蓋大部分的行業(yè)領(lǐng)域。百度、淘寶等公司作為信息技術(shù)、互聯(lián)網(wǎng)和商業(yè)領(lǐng)域的杰出代表,已經(jīng)對大數(shù)據(jù)開始了深度應(yīng)用,大數(shù)據(jù)的技術(shù)與應(yīng)用的前景不可估量。我們必須充分認(rèn)識到大數(shù)據(jù)所能帶來的革命性改變,保持創(chuàng)新與進(jìn)步,從而站在行業(yè)的最前沿。
以通信行業(yè)用戶精確營銷為例,傳統(tǒng)的實體渠道、封閉的電子渠道只重視對用戶的單點營銷,不重視對社交網(wǎng)絡(luò)傳播能力的利用,投入大、成本高,無法形成良好的傳播效果。而基于數(shù)據(jù)挖掘?qū)ι缃痪W(wǎng)絡(luò)信息進(jìn)行分析、建立社交網(wǎng)絡(luò)分析模型和開展?fàn)I銷研究,為企業(yè)開辟新營銷渠道、實施精準(zhǔn)營銷、增強(qiáng)營銷效果打下良好基礎(chǔ)。
主體框架為:
首先是建立交往圈。將用戶作為網(wǎng)絡(luò)節(jié)點,通信交往關(guān)系做邊。保留高強(qiáng)度節(jié)點、去除低強(qiáng)度或無聯(lián)系節(jié)點,整理數(shù)據(jù)形成社交網(wǎng)絡(luò)。
第二是建立關(guān)鍵聯(lián)系人模型。根據(jù)用戶之間的聯(lián)系信息,建立模型,獲得用戶在社交網(wǎng)內(nèi)的影響力、影響范圍,結(jié)合三網(wǎng)屬性和消費行為等信息得到關(guān)鍵人或關(guān)鍵群。
第三是擴(kuò)散強(qiáng)度評估。測算初始擴(kuò)散點(業(yè)務(wù)訂購用戶)對社交網(wǎng)絡(luò)其他成員的影響力,是否達(dá)到預(yù)期效果,不斷改進(jìn)算法,從而獲得交往圈內(nèi)用戶自傳播的預(yù)期效果。
2015年1月,中國移動通信集團(tuán)江蘇有限公司某分公司利用社交網(wǎng)絡(luò)分析模型對“愛分享,搶流量”活動進(jìn)行營銷,針對部分在網(wǎng)用戶通話交往情況進(jìn)行數(shù)據(jù)分析得到4萬種子用戶,然后通過精確營銷對此4萬用戶進(jìn)行活動宣傳。活動結(jié)束后,對活動整體情況進(jìn)行了統(tǒng)計和對比,結(jié)果見表1。
整體來看,以社交網(wǎng)絡(luò)關(guān)鍵點模型營銷的用戶群,需直接營銷的用戶較少,僅4萬人,其社交網(wǎng)絡(luò)達(dá)到88萬人,社交圈內(nèi)的用戶成功參加率為12.5%,此結(jié)果與直接單點營銷的用戶群產(chǎn)的成功率12.9%,有微小差距;在社交圈中,部分用戶為非智能機(jī)用戶,導(dǎo)致其無法參加活動,若以智能機(jī)用戶來對比,社交網(wǎng)絡(luò)營銷的成功率為15.9%,單點營銷成功率為13.9%,明顯高于單點營銷的成功率;考慮已經(jīng)安裝掌廳的用戶的參與成功率,社交網(wǎng)絡(luò)營銷成功率50.7%,單點營銷成功率51.1%,社交網(wǎng)絡(luò)方式略低于單點營銷,但是依靠于用戶的自傳播效應(yīng),影響的用戶量比較多??傮w來講,社交網(wǎng)絡(luò)方式的營銷直接營銷用戶少,依靠于關(guān)鍵用戶自傳播后產(chǎn)生影響廣,且成功率較高,對提高用戶精確營銷率具有積極意義。
隨著大數(shù)據(jù)時代的到來,基于大數(shù)據(jù)的各種商業(yè)模式創(chuàng)新層出不窮,數(shù)據(jù)一直是通信行業(yè)的核心優(yōu)勢,在大數(shù)據(jù)日益深入的今天,更要充分利用優(yōu)勢資源,借鑒大數(shù)據(jù)的方法將能夠更好地解決通信行業(yè)所面臨的數(shù)據(jù)規(guī)模大、種類多、速度快、價值密度低等問題,利用新的技術(shù)手段對數(shù)據(jù)進(jìn)行各種維度的挖掘和分析,從而促進(jìn)通信行業(yè)又好又快發(fā)展。
[1] 維克托·邁爾-舍恩伯格. 大數(shù)據(jù)時代 [M]. 盛楊燕, 周濤, 譯. 杭州: 浙江人民出版社, 2012.
[2] WOO Benjamin. World wide big data technology and services 2012-2015 Forecast.2012.5[EB/OL].[2015-04-21] http://ec.europa.eu/information_society/newsroom/cf/dae/document.cfm?doc_id=6242.
[3] 王意潔, 孫偉東, 周松, 等.云計算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J]. 軟件學(xué)報, 2012,23(4): 962-986.
[4] 覃雄派, 王會舉, 杜小勇, 等.大數(shù)據(jù)分析-RDBMS與MapReduce的競爭與共生[J]. 軟件學(xué)報, 2012,23(1): 32-45.
[5] DEAN Jeffrey.Designs,lessons and advice from building large distributed system [EB/OL]. [2012-12-05]. http://www.cs.cornell.edu/projects/ladis2009 /talks /deankeynote-ladis2009. pdf.
[6] DEAN Jeffrey, GHEMAWAT Sanjay. Paper about mapreduce[EB/OL]. [2012-12-16]. http://labs.google.com/paper/mapreduce. html.
[7] BURROWS Mike.The chubby lock service for looselycoupled distributed systems[EB/OL]. [2012-11-23]. http://labs.google.com/paper /chubby. html.
[8] CHANGE Fay, DEAN Jeffrey, GHEMAWAT Sanjay, et al. Bigtable: a distribute storage system for structured data[EB/OL].[2012-12-21]. http: //labs.google.com/paper/bigtable.html. ◆