李小聰
隨著信息技術(shù)的快速發(fā)展,社會各個領(lǐng)域出現(xiàn)了海量的應(yīng)用級數(shù)據(jù),如何從這些數(shù)據(jù)中提煉出有用的知識和信息,并將其運用到現(xiàn)實生活中,就成了整個數(shù)據(jù)挖掘領(lǐng)域的一個熱門話題。本文以一卡通消費流水數(shù)據(jù)為例,將K-Means聚類算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合,建立了一個基于K-Means聚類的數(shù)據(jù)預(yù)處理方法,對數(shù)據(jù)進行了進一步的整合和優(yōu)化,得到可用于下游任務(wù)使用的數(shù)據(jù),并通過實驗證明了本文所提出的一卡通數(shù)據(jù)預(yù)處理模型的實用意義和應(yīng)用價值。
在數(shù)據(jù)挖掘中,數(shù)據(jù)的預(yù)處理是一個非常重要的環(huán)節(jié),它能把直接收集到的非標準數(shù)據(jù)變成高質(zhì)量的可以直接進行分析和處理的數(shù)據(jù)。然而數(shù)據(jù)預(yù)處理所需的步驟較多,處理流程非常復雜,需占用較大的計算機計算資源。聚類分析是數(shù)據(jù)挖掘的一種常用技術(shù),它是根據(jù)數(shù)據(jù)本身固有的屬性,對數(shù)據(jù)進行分組,使數(shù)據(jù)有一定的可分性和獨立性,從而提高數(shù)據(jù)挖掘分析的效率和準確性。聚類算法中最常用的是K-Means算法,該算法采用迭代方式對聚類中心進行搜索,得到簇中心。而初始聚類中心選擇直接影響到聚類結(jié)果的好壞。因此本文以一卡通消費流水數(shù)據(jù)為例,基于K-Means算法對其進行數(shù)據(jù)預(yù)處理,并使用機器學習相關(guān)算法對其進行分析,實現(xiàn)對數(shù)據(jù)的進一步整合和優(yōu)化。
隨著校園消費場景和數(shù)量的日益增多,目前迫切需要建立一套統(tǒng)一的、靈活的預(yù)處理方法,以應(yīng)對海量、高維的數(shù)據(jù)特點。本文針對一卡通消費流水數(shù)據(jù)特點,提出了一個基于K-Means聚類算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合的數(shù)據(jù)預(yù)處理系統(tǒng)。本文的數(shù)據(jù)預(yù)處理系統(tǒng)由數(shù)據(jù)脫敏、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約和數(shù)據(jù)集合四大模塊組成。
因為使用者想要達成的分析目標不同,所采取的脫敏方式也不同,常見的脫敏方式有以下幾種。首先是替換方式,即將需要保密的數(shù)據(jù)替換為一個隨機數(shù)據(jù)。比如,把一個或一串字母改成另一個字母或者一串數(shù)字,或者把數(shù)字改成另一個數(shù)字或者字母。在本文中使用了一種利用散列映射代替敏感數(shù)據(jù)的方法。這種方式的優(yōu)點是保持了原來的數(shù)據(jù)格式,這樣替代后的數(shù)據(jù)在保密的前提下非常接近原來的數(shù)據(jù)。其次是置亂方法,即用一種隨機的方式,把每一欄中的真值都給打亂,從而使原來的數(shù)據(jù)與不同的屬性間的關(guān)系變得不確定。此外還有平均數(shù)方法,對于數(shù)值類型的數(shù)據(jù),可以首先求出數(shù)據(jù)的平均數(shù),再利用隨機分布使得去敏化后的數(shù)值接近于平均數(shù),從而實現(xiàn)數(shù)據(jù)之和的一致性。本文提出的數(shù)據(jù)脫敏技術(shù)的實現(xiàn)包括脫敏數(shù)據(jù)發(fā)現(xiàn)、脫敏策略制定、脫敏任務(wù)執(zhí)行三個步驟,圖1為本文對數(shù)據(jù)進行脫敏處理的方法。
本文提出了一種可用于一卡通消費流水數(shù)據(jù)的預(yù)處理方法。數(shù)據(jù)清洗模塊是其中的核心組件,也是其中工作量最大的一環(huán)。本文提出數(shù)據(jù)清洗模塊主要包含三個方面的工作:去除重復值,填補缺失值,發(fā)現(xiàn)異常值。
在使用一卡通的時候,因為某些特殊的原因,如網(wǎng)絡(luò)原因,有可能會產(chǎn)生重復的數(shù)據(jù),但是這一情況是小概率事件,所以,就整體而言,直接刪除重復值,并不會對整個數(shù)據(jù)分布和數(shù)據(jù)挖掘過程造成任何影響。所以在本文中把具有相同數(shù)值的兩個數(shù)據(jù)流看成是一份數(shù)據(jù),并把它們合并成一個數(shù)據(jù),這就是所謂的去重。
在數(shù)據(jù)分析過程中,數(shù)據(jù)缺失經(jīng)常發(fā)生,重要數(shù)據(jù)或是沒有價值的數(shù)據(jù),都會使數(shù)據(jù)的分析處理結(jié)果發(fā)生偏差。針對缺失數(shù)據(jù),本文提出了以下預(yù)處理方法。需要對數(shù)據(jù)的缺失值做出一個簡單的判斷和分析,最好的辦法,就是用其他的數(shù)值來填補缺失,盡可能地恢復原始數(shù)據(jù)的實際內(nèi)容。替換數(shù)值可以通過插值來獲得,插值方法分為兩類,其中一類為傳統(tǒng)方法,如平均值,中間值等。另一類是基于算法,如回歸插值、抽樣插值等,運用常見的技術(shù)手段,比如聚類技術(shù),分類技術(shù)。在本文使用的是后者。
離群值也被稱為異常值,在對離群值進行預(yù)處理時,可以根據(jù)機器學習中的聚類方法,選擇一個規(guī)模較小的簇作為異常數(shù)據(jù),將其剔除。由于雜亂的數(shù)據(jù)會影響總體的協(xié)調(diào)性和數(shù)據(jù)分布,所以數(shù)據(jù)中的離群值指的就是那些跟大部分數(shù)據(jù)相距甚遠的資料。其中,最常見的一種異常現(xiàn)象是基于統(tǒng)計學的異?,F(xiàn)象發(fā)現(xiàn)方法,它把異?,F(xiàn)象所對應(yīng)的概率密度小于某一閾值的樣本看作異常現(xiàn)象,并根據(jù)樣本的均值和標準差估計出其參數(shù)。此外,箱形圖是另外一種以統(tǒng)計方法為基礎(chǔ)的離群值檢測技術(shù),它能直觀的反映出數(shù)據(jù)的原始分布情況,能更好的對異常值進行分析?;谙湫螆D的異常值區(qū)分的辦法是以箱形圖中的四個點和四個點之間的間隔作為判據(jù),在不打破判據(jù)的情況下,具有較好的穩(wěn)健性。
本文選擇K-means算法作為本文所設(shè)計的框架中的機器學習算法,本文提出的基于機器學習的數(shù)據(jù)預(yù)處理框架如圖2所示。
本文提出了一種新的數(shù)據(jù)預(yù)處理方法,并將該方法應(yīng)用到校園一卡通數(shù)據(jù)的預(yù)處理中。本文以K-Means為基礎(chǔ),建立一個新的數(shù)據(jù)預(yù)處理模型,對抽取出的數(shù)據(jù)和特征進行聚類。對于缺失的數(shù)據(jù),本文采用KNN算法對其進行補全;對于異常值,本文采用了一種基于聚類的異常值檢測方法,該方法把較小規(guī)模的簇看作是異常的,然后將其清除,從而得到干凈的數(shù)據(jù)集。
作者單位:中國電信股份有限公司北京分公司