楊艷秋 中國人民武裝警察部隊(duì)警官學(xué)院 四川成都 610000
目前,在大數(shù)據(jù)領(lǐng)域每年都會出現(xiàn)新的技術(shù),這些技術(shù)有效的推動(dòng)了大數(shù)據(jù)的發(fā)展。數(shù)據(jù)挖掘能夠有效的在大規(guī)模的數(shù)據(jù)中分析出隱藏的數(shù)據(jù)價(jià)值。海量數(shù)據(jù)挖掘是可規(guī)劃的數(shù)據(jù)分析行為,在數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一的情況下,建設(shè)基于大數(shù)據(jù)的武警信息平臺需要從搭建初期就要有數(shù)據(jù)思維。本文立足于數(shù)據(jù)平臺搭建的方法論。
大數(shù)據(jù)的挖掘需要從生命周期做數(shù)據(jù)規(guī)劃,主本文從元數(shù)據(jù)規(guī)劃、數(shù)據(jù)質(zhì)量分析及提升,數(shù)據(jù)標(biāo)簽,數(shù)據(jù)建模,數(shù)據(jù)可視化五個(gè)步驟進(jìn)行闡述。
元數(shù)據(jù)規(guī)劃,主要是從運(yùn)行數(shù)據(jù),經(jīng)營數(shù)據(jù),行為數(shù)據(jù),維護(hù)數(shù)據(jù)以及其他數(shù)據(jù)中來建立,其中經(jīng)營數(shù)據(jù)包含其他系統(tǒng)的數(shù)據(jù),如內(nèi)部管理系統(tǒng),Web信息系統(tǒng),科研系統(tǒng)數(shù)據(jù)集 運(yùn)行數(shù)據(jù)比如系統(tǒng)在運(yùn)行中產(chǎn)生的告警,預(yù)警,事件等 行為數(shù)據(jù)如登錄事件,點(diǎn)擊次數(shù)、頻率,訪問頁面的地址,分享或者下載的文件等 維護(hù)數(shù)據(jù)如機(jī)房斷電緊急恢復(fù),對于其他的數(shù)據(jù)如天氣情況,位置信息,環(huán)境信息等。通過對元數(shù)據(jù)的規(guī)劃,能夠有效的將異構(gòu)的數(shù)據(jù)做集成處理,交給下一步做數(shù)據(jù)清洗。
數(shù)據(jù)質(zhì)量分析及提升也就是數(shù)據(jù)清洗,也可以叫數(shù)據(jù)預(yù)處理,我們收集到的元數(shù)據(jù)做進(jìn)一步的處理如數(shù)據(jù)一致性,處理無效值和缺失值等。我們常用到的方法可以是:批量數(shù)據(jù)補(bǔ)全,對一些數(shù)據(jù)集中的數(shù)據(jù),采用求平均、求最值或者其他數(shù)學(xué)計(jì)算公式得到補(bǔ)全。或者用偏差、針對業(yè)務(wù)的異常值或可以是統(tǒng)計(jì)可以查看到的數(shù)據(jù)做數(shù)據(jù)清洗。
數(shù)據(jù)標(biāo)簽我們也可以叫做數(shù)據(jù)切片,也就是從不同的維度描述數(shù)據(jù),如基礎(chǔ)標(biāo)簽:存儲,安全登記,怎么訪問 數(shù)據(jù)倉儲標(biāo)簽:周期性,是全面/增量 具體的業(yè)務(wù)標(biāo)簽,是管理系統(tǒng),是某個(gè)功能相關(guān),為這些數(shù)據(jù)做標(biāo)簽處理。
數(shù)據(jù)建模是將我們的數(shù)據(jù)降維,做歸一化處理后,變成單個(gè)指標(biāo)或一個(gè)數(shù)據(jù)模型,在這一個(gè)步驟中,我們可以細(xì)分為多個(gè)小方法,第一:需要針對具體的業(yè)務(wù)場景或針對已有的數(shù)學(xué)模型選擇 第二:需要訓(xùn)練選定的數(shù)據(jù)模型,通常需要根據(jù)業(yè)務(wù)、具體使用情況調(diào)整模型的參數(shù)配置 第三:通過訓(xùn)練模型,對比模型是否受用,與標(biāo)準(zhǔn)值的對比,通過一些數(shù)學(xué)指標(biāo)如:平均誤差率,判定系數(shù)等評估模型的正確性、查全性、查全率。第四:評估出最優(yōu)模型檢驗(yàn)?zāi)P驮谡鎸?shí)的業(yè)務(wù)場景中的效果,并進(jìn)行優(yōu)化。通過以上的步驟,并通過聚類、關(guān)聯(lián)規(guī)則、EM、KNN等數(shù)據(jù)分析方法可以進(jìn)行大規(guī)模的指標(biāo)化,找出數(shù)據(jù)中的價(jià)值。
數(shù)據(jù)可視化,為了能夠更直觀的看到數(shù)據(jù),它是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究,解決我們在視覺上,空間上的不足,常用的手段包括:圖形化,表格化等。
本文就元數(shù)據(jù)規(guī)劃、數(shù)據(jù)質(zhì)量分析及提升,數(shù)據(jù)標(biāo)簽,數(shù)據(jù)建模,數(shù)據(jù)可視化五個(gè)步驟對基于大數(shù)據(jù)武警數(shù)據(jù)平臺搭建做了方法闡述。