盧建輝
(中國移動通信集團河北有限公司,石家莊 050011)
第一,需要處理較大數(shù)據(jù)信息量。首先在大數(shù)據(jù)處理階段中,最主要的就是要處理PB級甚至是EB級的數(shù)據(jù)量。第二,大數(shù)據(jù)信息中數(shù)據(jù)非結(jié)構(gòu)化的發(fā)展。隨著移動通信網(wǎng)絡(luò)的不斷發(fā)展,促進了大數(shù)據(jù)時代的來臨,使得大量的非結(jié)構(gòu)化數(shù)據(jù)在迅速的增加,其中需要處理的非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)占據(jù)了總數(shù)據(jù)量的80%。
大數(shù)據(jù)處理一般情況下需要經(jīng)過四個步驟,如圖1所示,以物聯(lián)網(wǎng)為例,講述四個關(guān)鍵技術(shù)。
圖1
許多終端在無人監(jiān)控或者在環(huán)境惡劣的情況下,大量收集數(shù)據(jù),這樣收集而來的原始數(shù)據(jù)可能出現(xiàn)錯誤和誤差,不準確和不完善,會導(dǎo)致數(shù)據(jù)的可靠性大大降低,因此就需要通過清洗技術(shù),去除部分錯誤、冗余和不完整的數(shù)據(jù),最后將數(shù)據(jù)提取出來并儲存。許多算法可以對數(shù)據(jù)進行清洗提取,但是大都是針對小量數(shù)據(jù),并不能處理巨量數(shù)據(jù),特別是 PB或者 EB級別以上的數(shù)據(jù)。因此,為了保證數(shù)據(jù)的正確性和完善性,確保分析結(jié)果的可靠性,算法等清洗技術(shù)需要不斷發(fā)展和優(yōu)化,這是近期需要迫切解決的關(guān)鍵技術(shù)問題。
因為原始數(shù)據(jù)都是通過不同的終端收集而來,正是多源異構(gòu)這一本質(zhì)特征,所以,需要將來源不同的數(shù)據(jù)進行清洗提取,最后進行數(shù)據(jù)融合,將表示同一實體的不同數(shù)據(jù)表象融合至單一的數(shù)據(jù)表象,能夠解決數(shù)據(jù)間各種沖突矛盾的情況。在移動通信網(wǎng)絡(luò)中,大數(shù)據(jù)的融合集成需要關(guān)注實體統(tǒng)一、數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)沖突解決這三個關(guān)鍵問題。
獲得可利用的數(shù)據(jù)之后,就需要對收集到的數(shù)據(jù)進行分析與挖掘,這是獲得數(shù)據(jù)價值的關(guān)鍵手段。同一批數(shù)據(jù),進行不同方向的分析挖掘以及分析挖掘的能力不同等,都會造成對數(shù)據(jù)利用的成果不同,數(shù)據(jù)實現(xiàn)的價值也會不同。因此,高效的挖掘分析工具、工作人員和開發(fā)環(huán)境對數(shù)據(jù)的分析挖掘具有決定性的意義。
在獲得數(shù)據(jù)并進行分析挖掘后,得到相應(yīng)的成果,最后則需要通過一定的方式將其展示出來,具現(xiàn)化數(shù)據(jù)的真正價值?,F(xiàn)今發(fā)展比較迅速的是可視化分析,即利用各種數(shù)據(jù)分析展示的手段,將數(shù)據(jù)結(jié)果以一種直視覺的形式展現(xiàn)出來??梢暬治霾粌H能夠?qū)Υ髷?shù)據(jù)本身和其分析挖掘結(jié)果進行展示,而且可以進一步進行人機交互等,增強數(shù)據(jù)處理分析的能力,實現(xiàn)數(shù)據(jù)價值的最大化。
目前,我國的移動通信網(wǎng)絡(luò)后臺數(shù)據(jù)處理技術(shù),一般主要是指網(wǎng)絡(luò) KPI 分析與優(yōu)化,其在大數(shù)據(jù)分析技術(shù)基礎(chǔ)上,通過利用聚類分析對網(wǎng)絡(luò)后臺數(shù)據(jù)實現(xiàn)一種優(yōu)化工作,這樣對提高網(wǎng)絡(luò) KPI 有著非常重要的意義。我們以某個三線城市的移動通信網(wǎng)絡(luò)優(yōu)化工作為例建立一個分析模型,并且根據(jù)現(xiàn)有網(wǎng)絡(luò) KPI的 考核情況為主要分析基礎(chǔ)。希望通過數(shù)據(jù)真實的反映出網(wǎng)絡(luò)的KPI 數(shù)據(jù)情況,詳細數(shù)據(jù)分類見表1。
表1 后臺數(shù)據(jù)分類
當我們完成模型建立后,開始進行數(shù)據(jù)處理的聚類分析后臺數(shù)據(jù)優(yōu)化。通過以 C 城市中某小區(qū) Y 為例,我們對 Y 小區(qū)的移動通信網(wǎng)絡(luò)數(shù)據(jù)進行提取、條件判斷、數(shù)據(jù)篩選和問題定位后,通過選擇其中 9 類 KPI 作為大數(shù)據(jù)處理的關(guān)鍵指標進行加權(quán)。建立其監(jiān)控體系之后,利用 Excel 宏工具作為我們數(shù)據(jù)處理的工具,然后通過Excel 中運行 SQL 腳本,提取出 Y 小區(qū)的移動網(wǎng)絡(luò)數(shù)據(jù),并且在宏程序中嵌入聚類分析的算法和優(yōu)化處理,將提取到的相關(guān)數(shù)據(jù)返回至 Excel 表格中,從而實現(xiàn)數(shù)據(jù)的優(yōu)化處理。這種方式不僅降低了網(wǎng)絡(luò)優(yōu)化工作人員的日常工作量,還能夠提高日常的工作效率。
首先,我們必須要把大數(shù)據(jù)處理技術(shù)應(yīng)用到網(wǎng)絡(luò)系統(tǒng)的準確環(huán)節(jié)中,并且設(shè)定好具體的網(wǎng)絡(luò)系統(tǒng)優(yōu)化目標,然后再根據(jù)設(shè)定的優(yōu)化目標選擇相應(yīng)的材料與工具。其次,在測試階段應(yīng)用大數(shù)據(jù)處理關(guān)鍵技術(shù),并且對于相關(guān)的數(shù)據(jù)處理信息進行詳細的記錄,通過研究這些信息記錄來提高大數(shù)據(jù)的應(yīng)用效果。工作人員對于大量的數(shù)據(jù)信息進行全面優(yōu)化過程中,對于涉及的信息切換以及信號覆蓋問題時,要及時的進行相關(guān)問題的解決,從而不斷的對優(yōu)化結(jié)構(gòu)進行完善。
綜上所述,隨著我國科學(xué)技術(shù)的不斷發(fā)展,不斷帶動移動通信網(wǎng)絡(luò)技術(shù)的進步,并且促進了大數(shù)據(jù)處理時代的到來。大數(shù)據(jù)處理技術(shù)不僅能夠給人們?nèi)粘Ia(chǎn)生活帶來極大的方便,還能有效的進行相關(guān)數(shù)據(jù)的分析。隨著科學(xué)技術(shù)的不斷發(fā)展,以及對大數(shù)據(jù)處理技術(shù)關(guān)鍵技術(shù)的不斷創(chuàng)新與研究,我相信今后對于大數(shù)據(jù)處理的速度與質(zhì)量也會不斷的提高。
[1] 莫元富.車聯(lián)網(wǎng)環(huán)境下交通信息分發(fā)與處理關(guān)鍵技術(shù)研究[D].吉林大學(xué),2016.