摘 要:隨著我國移動(dòng)通信的迅猛發(fā)展,設(shè)備品種逐步增多,容量迅速增大,網(wǎng)管信息化的應(yīng)用,積累了海量數(shù)據(jù),本文結(jié)合自己在實(shí)際網(wǎng)管數(shù)據(jù)分析與應(yīng)用中的經(jīng)驗(yàn),針對數(shù)據(jù)采集與整理、數(shù)據(jù)存儲(chǔ)與查詢、數(shù)據(jù)挖據(jù)三個(gè)過程積累的經(jīng)驗(yàn)與大家分享。
關(guān)鍵詞:網(wǎng)管數(shù)據(jù);數(shù)據(jù)挖掘;物化視圖
1 引言
隨著我國移動(dòng)通信的迅猛發(fā)展,設(shè)備品種逐步增多,容量迅速增大,網(wǎng)管信息化的應(yīng)用,移動(dòng)通信行業(yè)信息化進(jìn)程得到巨大發(fā)展和廣泛應(yīng)用,運(yùn)營網(wǎng)絡(luò)系統(tǒng)、綜合業(yè)務(wù)系統(tǒng)大量的歷史數(shù)據(jù)。但在很多情況下,這些海量數(shù)據(jù)在原有的作業(yè)系統(tǒng)中是無法提煉并升華為有用的信息并提供給業(yè)務(wù)分析人員與管理決策者的。因此如何應(yīng)用這量信息,給信息化工作者提出了挑戰(zhàn),我作為一名移動(dòng)行業(yè)信息化工作者,結(jié)合自己在實(shí)際網(wǎng)管數(shù)據(jù)分析與應(yīng)用中的經(jīng)驗(yàn),主要在數(shù)據(jù)采集與整理、數(shù)據(jù)存儲(chǔ)與查詢、數(shù)據(jù)挖掘三方面與大家探討一下。
2 數(shù)據(jù)采集與整理
2.1 文本格式FTP傳輸
網(wǎng)管系統(tǒng)在每天定時(shí)將前一天的數(shù)據(jù)文件上傳到指定的FTP服務(wù)器。數(shù)據(jù)文件為后綴TXT的文本文件,指標(biāo)之間的間隔符為“|”,指標(biāo)按照第三節(jié)模板中定義的順序排列,一條記錄為一行。因?yàn)榫W(wǎng)管數(shù)據(jù)往往較大,為了提高傳輸速率及節(jié)省空間,建議將數(shù)據(jù)進(jìn)行壓縮處理。
2.2 數(shù)據(jù)按接口規(guī)范導(dǎo)入數(shù)據(jù)庫
應(yīng)用程序定時(shí)將網(wǎng)管數(shù)據(jù)解壓縮,通過XML配置文件制定數(shù)據(jù)導(dǎo)入的規(guī)范,如下:
配置文件中規(guī)定了讀取字段位置及存入數(shù)據(jù)庫的字段名稱,同時(shí)check中制定了數(shù)據(jù)的驗(yàn)證規(guī)則。如rang min=“0” max=“22”表示取值范圍為0—22,如果超出該范圍的數(shù)據(jù)則直接丟棄。
2.3 數(shù)據(jù)處理采用存儲(chǔ)過程
存儲(chǔ)過程(Stored Procedure)是在大型數(shù)據(jù)庫系統(tǒng)中,一組為了完成特定功能的SQL 語句集,經(jīng)編譯后存儲(chǔ)在數(shù)據(jù)庫中,用戶通過指定存儲(chǔ)過程的名字并給出參數(shù)來執(zhí)行它。他有如下優(yōu)點(diǎn):
⑴提高數(shù)據(jù)庫執(zhí)行效率。使用SQL接口更新數(shù)據(jù)庫,如果更新復(fù)雜而頻繁,則需要頻繁得連接數(shù)據(jù)庫。
⑵提高安全性。存儲(chǔ)過程作為對象存儲(chǔ)在數(shù)據(jù)庫中,可以對其分配權(quán)限。
⑶可復(fù)用性。
3 數(shù)據(jù)存儲(chǔ)與查詢
網(wǎng)管數(shù)據(jù)往往是海量的,每一統(tǒng)計(jì)數(shù)據(jù)的一天數(shù)據(jù)都能輕易達(dá)到千萬級(jí),因此在存儲(chǔ)過程中要重復(fù)利用數(shù)據(jù)的技術(shù)性能。在我們的實(shí)踐過程中主要應(yīng)用了oracle數(shù)據(jù)庫。下面簡單介紹我們主要采用的技術(shù)手段。
3.1 表分區(qū)
區(qū)致力于解決支持極大表和索引的關(guān)鍵問題。它采用他們分解成較小和易于管理的稱為分區(qū)的片(piece)的方法。一旦分區(qū)被定義,SQL語句就可以訪問的操作某一個(gè)分區(qū)而不是整個(gè)表,因而提高管理的效率。分區(qū)對于數(shù)據(jù)倉庫應(yīng)用程序非常有效,因?yàn)樗麄兂34鎯?chǔ)和分析巨量的歷史數(shù)據(jù)。
⑴增強(qiáng)可用性:如果表的某個(gè)分區(qū)出現(xiàn)故障,表在其他分區(qū)的數(shù)據(jù)仍然可用;
⑵維護(hù)方便:如果表的某個(gè)分區(qū)出現(xiàn)故障,需要修復(fù)數(shù)據(jù),只修復(fù)該分區(qū)即可;
⑶均衡I/O:可以把不同的分區(qū)映射到磁盤以平衡I/O,改善整個(gè)系統(tǒng)性能;
⑷改善查詢性能:對分區(qū)對象的查詢可以僅搜索自己關(guān)心的分區(qū),提高檢索速度。
如我們可以按時(shí)間字段對導(dǎo)入數(shù)據(jù)進(jìn)行分區(qū),網(wǎng)管數(shù)據(jù)較大,一般一個(gè)月就需要一個(gè)分區(qū)。
3.2 索引技術(shù)
在關(guān)系數(shù)據(jù)庫中,索引是一種與表有關(guān)的數(shù)據(jù)庫結(jié)構(gòu),它可以使對應(yīng)于表的SQL語句執(zhí)行得更快。但對于現(xiàn)在的各種大型數(shù)據(jù)庫來說,索引可以大大提高數(shù)據(jù)庫的性能。有兩種類型的分區(qū)索引,全局索引和本地索引,使用本地索引,不需要指定分區(qū)范圍因?yàn)樗饕龑τ诒矶允潜镜氐?,?dāng)本地索引創(chuàng)建時(shí),Oracle會(huì)自動(dòng)為表中的每個(gè)分區(qū)創(chuàng)建獨(dú)立的索引分區(qū)。
3.3 物化視圖
物化視圖是包括一個(gè)查詢結(jié)果的數(shù)據(jù)庫對像,它是遠(yuǎn)程數(shù)據(jù)的的本地副本,或者用來生成基于數(shù)據(jù)表求和的匯總表。物化視圖存儲(chǔ)基于遠(yuǎn)程表的數(shù)據(jù),也可以稱為快照。使用物化視圖可以實(shí)現(xiàn)視圖的所有功能,而物化視圖確不是在使用時(shí)才讀取,大大提高了讀取速度,特別適用抽取大數(shù)據(jù)量表某些信息以及數(shù)據(jù)鏈連接表使用。
4 數(shù)據(jù)挖掘
4.1 利用最小二乘法實(shí)現(xiàn)數(shù)據(jù)的一元線性回歸
最小二乘法可以用來處理一組數(shù)據(jù),可以從一組測定的數(shù)據(jù)中尋求變量之間的依賴關(guān)系,這種函數(shù)關(guān)系稱為經(jīng)驗(yàn)公式。能夠?qū)で髕與y之間近似成線性關(guān)系時(shí)的經(jīng)驗(yàn)公式。假定實(shí)驗(yàn)測得變量之間的n個(gè)數(shù)據(jù)(x1,y1),(x2,y2),…,(xn,yn),則在xОy平面上,可以得到n個(gè)點(diǎn)Pi(xi,yi)(i=1,2,…n),考慮函數(shù)y=ax+b,其中a和b是待定常數(shù)。如果Pi(i=1,2,…n)在一直線上,可以認(rèn)為變量之間的關(guān)系為y=ax+b。但一般說來,這些點(diǎn)不可能在同一直線上。記Ei=yi-(axi+b),它反映了用直線y=ax+b來描述x=xi,y=yi時(shí),計(jì)算值y與實(shí)際值yi產(chǎn)生的偏差。當(dāng)然要求偏差越小越好, 但由于Ei可正可負(fù),因此不能認(rèn)為總偏差 時(shí),函數(shù) 就很好地反映了變量之間的關(guān)系,因?yàn)榇藭r(shí)每個(gè)偏差的絕對值可能很大。為了改進(jìn)這一缺陷,就考慮用 來代替 。但是由于絕對值不易作解析運(yùn)算,因此,進(jìn)一步用 來度量總偏差。 因偏差的平方和最小可以保證每個(gè)偏差都不會(huì)很大。于是問題歸結(jié)為確定y=ax+b中的常數(shù)a和b,使 為最小。用這種方法確定系數(shù)a,b的方法稱為最小二乘法。
4.2 數(shù)據(jù)自動(dòng)修正算法描述
首先選擇時(shí)間上最接近當(dāng)前的14天的數(shù)據(jù),加權(quán)平均為x,然后按照1.2x>X>0.8x的約束,進(jìn)行篩選,這樣新建站、數(shù)據(jù)異常等影響就會(huì)被消除。預(yù)測使用修正后的數(shù)據(jù)進(jìn)行計(jì)算。
4.3 本地網(wǎng)預(yù)測修正
在本地網(wǎng)總趨勢的基礎(chǔ)上,利用歷史同期的趨勢按照就高不就低的原則進(jìn)行修正。
4.4 單小區(qū)預(yù)測修正
在小區(qū)預(yù)測的基礎(chǔ)上,利用本地網(wǎng)總趨勢進(jìn)行修正。修正過程為小區(qū)預(yù)測話務(wù)量與本地網(wǎng)預(yù)測話務(wù)量已載頻數(shù)做加權(quán)平均。
5 技術(shù)架構(gòu)
5.1 多層分布式架構(gòu)方案
系統(tǒng)采用三層結(jié)構(gòu),將不同模塊分別運(yùn)行在不同的服務(wù)器上共同來精算系統(tǒng)的功能。每一種模塊還可以再拆分在不同的服務(wù)器上運(yùn)行實(shí)現(xiàn)負(fù)載分擔(dān),因此系統(tǒng)可以根據(jù)需要和用戶的使用模式進(jìn)行定制。這種結(jié)構(gòu)具有比較大的靈活性。系統(tǒng)功能發(fā)生改變的時(shí)候,可以分模塊單獨(dú)部署,減少后期維護(hù)開發(fā)的工作量。
5.2 J2EE主流開發(fā)技術(shù)
表示層為整個(gè)系統(tǒng)提供外部展現(xiàn),根據(jù)用戶的使用習(xí)慣定制程序的操作流程。提高用戶的使用感受??鐦I(yè)界最廣泛的操作系統(tǒng)環(huán)境,提供全J2EE編程模式,包括IBM OS/400,LINUX,IBM AIX,Microsoft Windows,HP-UX及Sun Solaris操作環(huán)境支持。最新的J2EE開發(fā)框架,大量的實(shí)際開發(fā)案例。系統(tǒng)符合最新的Web 2.0規(guī)范,提高系統(tǒng)的相應(yīng)速度。通過簡單的應(yīng)用編譯和部署來最大限度降低管理要求。
[參考文獻(xiàn)]
[1]邱宏.數(shù)據(jù)倉庫技術(shù)在移動(dòng)通信行業(yè)中的應(yīng)用[J].電信科學(xué).1999(12):34-35.
[2]GSM移動(dòng)網(wǎng)絡(luò)擴(kuò)容精算方法.百度文庫.