吳紀(jì)安 中國人民銀行西寧中心支行
數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫、數(shù)據(jù)庫等數(shù)據(jù)平臺中挖掘所需內(nèi)容的過程,是信息技術(shù)日益發(fā)展與完善的必然結(jié)果。數(shù)據(jù)挖掘和多學(xué)科技術(shù)的集成之間有著十分密切的關(guān)系,如信息檢索、模式識別、神經(jīng)網(wǎng)絡(luò)及統(tǒng)計(jì)學(xué)等。通過進(jìn)行有效、深入的數(shù)據(jù)挖掘,能從數(shù)據(jù)庫當(dāng)中調(diào)取或抽選那些有趣、滿足自身需要的知識與信息。本文就IT基礎(chǔ)設(shè)施監(jiān)控系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的實(shí)際應(yīng)用作一探討。
針對此階段而言,其注重從決策層面或視角去理解、認(rèn)知項(xiàng)目的相關(guān)要求與目標(biāo),并且把這些內(nèi)容實(shí)時(shí)轉(zhuǎn)化為有助于目標(biāo)實(shí)現(xiàn)的初步規(guī)劃,或是幫助數(shù)據(jù)挖掘的具體問題定義。數(shù)據(jù)挖掘目標(biāo)定義為:(1)探究系統(tǒng)負(fù)載規(guī)律。找尋處于隱藏狀態(tài)的系統(tǒng)運(yùn)行方面的負(fù)載規(guī)律,以便為系統(tǒng)維護(hù)人員提供準(zhǔn)確依據(jù)與支撐。(2)定位系統(tǒng)性能瓶頸。針對系統(tǒng)整體效能來講,可能有瓶頸存在,通過開展數(shù)據(jù)挖掘工作,應(yīng)能夠?qū)ο到y(tǒng)瓶頸進(jìn)行準(zhǔn)確定位,對于比較缺乏的系統(tǒng)資源,及時(shí)給予補(bǔ)充,如升級網(wǎng)絡(luò)設(shè)備、擴(kuò)大內(nèi)存容量等。(3)評估系統(tǒng)生命周期。伴隨人民銀行業(yè)務(wù)種類日益增多及業(yè)務(wù)量的持續(xù)增加,系統(tǒng)負(fù)載勢必會增大,如果其潛能被完全開發(fā)之后,系統(tǒng)便需要更新?lián)Q代,此時(shí),對系統(tǒng)壽命進(jìn)行準(zhǔn)確評估十分必要。
此階段初始點(diǎn)為匯總數(shù)據(jù),后逐漸深入,包含了解數(shù)據(jù)、對數(shù)據(jù)質(zhì)量進(jìn)行鑒別并探究數(shù)據(jù)的內(nèi)在含義。通過了解初期項(xiàng)目,得知監(jiān)控?cái)?shù)據(jù)主要包含2部分,其一,數(shù)據(jù)庫、主機(jī)與網(wǎng)絡(luò)設(shè)備的運(yùn)行指標(biāo),如數(shù)據(jù)庫數(shù)據(jù)字典命中率、網(wǎng)絡(luò)設(shè)備丟包率等,這些數(shù)據(jù)能夠用于對系統(tǒng)性能瓶頸的定位,還可以用作探尋系統(tǒng)的負(fù)載規(guī)律。其二,數(shù)據(jù)庫、主機(jī)與網(wǎng)絡(luò)設(shè)備的事件數(shù)據(jù)。針對數(shù)據(jù)庫、主機(jī)的事件來講,其由IR Prognosis將SNMP Trap發(fā)送至HP Network Manager,而關(guān)于網(wǎng)絡(luò)設(shè)備的事件,則由SNMP Trap發(fā)送SNMP Trap至HP Network Manager,然后通過HP Network Node Manager將數(shù)據(jù)寫庫。
對于此階段而言,其包含了全部自原始數(shù)據(jù)當(dāng)中構(gòu)建的數(shù)據(jù)集活動(dòng)。針對數(shù)據(jù)準(zhǔn)備的任務(wù)而言,可能執(zhí)行多次,包含有屬性、記錄與表格的選取,另外還囊括數(shù)據(jù)的清理與轉(zhuǎn)化。通過分析原始數(shù)據(jù),從中可發(fā)現(xiàn)數(shù)據(jù)當(dāng)中有不一致的情況,如在發(fā)送的SNMP Trap當(dāng)中(由IR Prognosis發(fā)送),把事件依據(jù)嚴(yán)重程度進(jìn)行分析,即危急、錯(cuò)誤、警告與信息;而HP Network Node Manager把事件劃分為5級,即危急錯(cuò)誤、初級錯(cuò)誤、警告、正常與主要錯(cuò)誤。須轉(zhuǎn)換與清理數(shù)據(jù),以此來清除數(shù)據(jù)的不一致。對此,可構(gòu)建2個(gè)模型。(1)模型Ⅰ。確定主機(jī)CPU、內(nèi)存利用率、網(wǎng)絡(luò)設(shè)備CPU、緩存利用率,構(gòu)建系統(tǒng)負(fù)載模型;(2)模型Ⅱ。確定每周故障發(fā)生次數(shù),構(gòu)建系統(tǒng)故障規(guī)律模型。
此階段會運(yùn)用各種建模技術(shù),并且調(diào)校它們的參數(shù),使其維持在最佳值。通常來講,針對同一個(gè)數(shù)據(jù)挖掘問題類型而言,其會有許多建模技術(shù),其中的部分建模技術(shù)對數(shù)據(jù)格式有著特殊要求,所以,須從此階段返回至數(shù)據(jù)準(zhǔn)備階段。
基于數(shù)據(jù)分析層面而言,進(jìn)此階段便證明已構(gòu)建一個(gè)或多個(gè)高質(zhì)量模型。在還未進(jìn)入模型最終部署前,為確保模型能將研究目標(biāo)切實(shí)體現(xiàn)出來,需全面、細(xì)致的評估模型,并對模型的各個(gè)步驟進(jìn)行審查。在此項(xiàng)目當(dāng)中,利用負(fù)載模型,數(shù)據(jù)挖掘人員得出的結(jié)論如下:(1)網(wǎng)絡(luò)設(shè)備的負(fù)載,包含其兩部分內(nèi)容,即CPU利用率與緩存利用率,相比與主機(jī)類全部負(fù)載指標(biāo),普遍偏高,所以,需對網(wǎng)絡(luò)設(shè)備進(jìn)行適當(dāng)性升級。(2)系統(tǒng)的整體負(fù)荷呈現(xiàn)出緩慢上升趨向,符合系統(tǒng)維護(hù)人員的預(yù)期。
利用故障模型,可得出如下結(jié)論:(1)網(wǎng)絡(luò)部分出現(xiàn)的故障數(shù)量較主機(jī)部分,明顯偏多,所以,在配置系統(tǒng)維護(hù)人員方面,應(yīng)偏向于網(wǎng)絡(luò)維護(hù)部分;(2)通過運(yùn)用一元線性回歸方程對本行系統(tǒng)的健康運(yùn)行時(shí)間進(jìn)行預(yù)測,得知其符合預(yù)期要求與目標(biāo)。
通過驗(yàn)證,表明上述結(jié)論參考價(jià)值高,準(zhǔn)確性高。另外,還提出了修改意見,如加大趨勢的全面性,增加負(fù)載模型具體的指標(biāo)類型;更改故障模型的一元線性回歸,使之轉(zhuǎn)變?yōu)楦唠A多項(xiàng)式回歸,以此來實(shí)現(xiàn)預(yù)測準(zhǔn)確性的提升。
綜上,數(shù)據(jù)挖掘是各學(xué)科融合的框架下的前沿領(lǐng)域,能從各學(xué)科當(dāng)中獲取有用內(nèi)容,切實(shí)做到博采眾長、為我所用的目的。因此,在IT基礎(chǔ)設(shè)計(jì)監(jiān)控系統(tǒng)中運(yùn)用數(shù)據(jù)挖掘技術(shù),有著廣闊的應(yīng)用價(jià)值及實(shí)際意義。
[1]張卉.數(shù)據(jù)挖掘技術(shù)在B2B電子商務(wù)商品銷售中的應(yīng)用研究[D].北方工業(yè)大學(xué),2013.
[2]朱德志.數(shù)據(jù)挖掘中的數(shù)據(jù)質(zhì)量檢驗(yàn)[J].金融電子化,2007(7):55-56.