亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機器學習的數(shù)據(jù)預(yù)處理框架研究

2023-08-14 03:34:40李小聰

中國信息化 2023年7期

李小聰

一、引言

隨著信息技術(shù)的快速發(fā)展，社會各個領(lǐng)域出現(xiàn)了海量的應(yīng)用級數(shù)據(jù)，如何從這些數(shù)據(jù)中提煉出有用的知識和信息，并將其運用到現(xiàn)實生活中，就成了整個數(shù)據(jù)挖掘領(lǐng)域的一個熱門話題。本文以一卡通消費流水數(shù)據(jù)為例，將K-Means聚類算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合，建立了一個基于K-Means聚類的數(shù)據(jù)預(yù)處理方法，對數(shù)據(jù)進行了進一步的整合和優(yōu)化，得到可用于下游任務(wù)使用的數(shù)據(jù)，并通過實驗證明了本文所提出的一卡通數(shù)據(jù)預(yù)處理模型的實用意義和應(yīng)用價值。

在數(shù)據(jù)挖掘中，數(shù)據(jù)的預(yù)處理是一個非常重要的環(huán)節(jié)，它能把直接收集到的非標準數(shù)據(jù)變成高質(zhì)量的可以直接進行分析和處理的數(shù)據(jù)。然而數(shù)據(jù)預(yù)處理所需的步驟較多，處理流程非常復雜，需占用較大的計算機計算資源。聚類分析是數(shù)據(jù)挖掘的一種常用技術(shù)，它是根據(jù)數(shù)據(jù)本身固有的屬性，對數(shù)據(jù)進行分組，使數(shù)據(jù)有一定的可分性和獨立性，從而提高數(shù)據(jù)挖掘分析的效率和準確性。聚類算法中最常用的是K-Means算法，該算法采用迭代方式對聚類中心進行搜索，得到簇中心。而初始聚類中心選擇直接影響到聚類結(jié)果的好壞。因此本文以一卡通消費流水數(shù)據(jù)為例，基于K-Means算法對其進行數(shù)據(jù)預(yù)處理，并使用機器學習相關(guān)算法對其進行分析，實現(xiàn)對數(shù)據(jù)的進一步整合和優(yōu)化。

二、校園一卡通數(shù)據(jù)預(yù)處理功能分析

隨著校園消費場景和數(shù)量的日益增多，目前迫切需要建立一套統(tǒng)一的、靈活的預(yù)處理方法，以應(yīng)對海量、高維的數(shù)據(jù)特點。本文針對一卡通消費流水數(shù)據(jù)特點，提出了一個基于K-Means聚類算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合的數(shù)據(jù)預(yù)處理系統(tǒng)。本文的數(shù)據(jù)預(yù)處理系統(tǒng)由數(shù)據(jù)脫敏、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約和數(shù)據(jù)集合四大模塊組成。

三、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)脫敏功能

因為使用者想要達成的分析目標不同，所采取的脫敏方式也不同，常見的脫敏方式有以下幾種。首先是替換方式，即將需要保密的數(shù)據(jù)替換為一個隨機數(shù)據(jù)。比如，把一個或一串字母改成另一個字母或者一串數(shù)字，或者把數(shù)字改成另一個數(shù)字或者字母。在本文中使用了一種利用散列映射代替敏感數(shù)據(jù)的方法。這種方式的優(yōu)點是保持了原來的數(shù)據(jù)格式，這樣替代后的數(shù)據(jù)在保密的前提下非常接近原來的數(shù)據(jù)。其次是置亂方法，即用一種隨機的方式，把每一欄中的真值都給打亂，從而使原來的數(shù)據(jù)與不同的屬性間的關(guān)系變得不確定。此外還有平均數(shù)方法，對于數(shù)值類型的數(shù)據(jù)，可以首先求出數(shù)據(jù)的平均數(shù)，再利用隨機分布使得去敏化后的數(shù)值接近于平均數(shù)，從而實現(xiàn)數(shù)據(jù)之和的一致性。本文提出的數(shù)據(jù)脫敏技術(shù)的實現(xiàn)包括脫敏數(shù)據(jù)發(fā)現(xiàn)、脫敏策略制定、脫敏任務(wù)執(zhí)行三個步驟，圖1為本文對數(shù)據(jù)進行脫敏處理的方法。

四、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)清洗功能

本文提出了一種可用于一卡通消費流水數(shù)據(jù)的預(yù)處理方法。數(shù)據(jù)清洗模塊是其中的核心組件，也是其中工作量最大的一環(huán)。本文提出數(shù)據(jù)清洗模塊主要包含三個方面的工作：去除重復值，填補缺失值，發(fā)現(xiàn)異常值。

在使用一卡通的時候，因為某些特殊的原因，如網(wǎng)絡(luò)原因，有可能會產(chǎn)生重復的數(shù)據(jù)，但是這一情況是小概率事件，所以，就整體而言，直接刪除重復值，并不會對整個數(shù)據(jù)分布和數(shù)據(jù)挖掘過程造成任何影響。所以在本文中把具有相同數(shù)值的兩個數(shù)據(jù)流看成是一份數(shù)據(jù)，并把它們合并成一個數(shù)據(jù)，這就是所謂的去重。

在數(shù)據(jù)分析過程中，數(shù)據(jù)缺失經(jīng)常發(fā)生，重要數(shù)據(jù)或是沒有價值的數(shù)據(jù)，都會使數(shù)據(jù)的分析處理結(jié)果發(fā)生偏差。針對缺失數(shù)據(jù)，本文提出了以下預(yù)處理方法。需要對數(shù)據(jù)的缺失值做出一個簡單的判斷和分析，最好的辦法，就是用其他的數(shù)值來填補缺失，盡可能地恢復原始數(shù)據(jù)的實際內(nèi)容。替換數(shù)值可以通過插值來獲得，插值方法分為兩類，其中一類為傳統(tǒng)方法，如平均值，中間值等。另一類是基于算法，如回歸插值、抽樣插值等，運用常見的技術(shù)手段，比如聚類技術(shù)，分類技術(shù)。在本文使用的是后者。

離群值也被稱為異常值，在對離群值進行預(yù)處理時，可以根據(jù)機器學習中的聚類方法，選擇一個規(guī)模較小的簇作為異常數(shù)據(jù)，將其剔除。由于雜亂的數(shù)據(jù)會影響總體的協(xié)調(diào)性和數(shù)據(jù)分布，所以數(shù)據(jù)中的離群值指的就是那些跟大部分數(shù)據(jù)相距甚遠的資料。其中，最常見的一種異常現(xiàn)象是基于統(tǒng)計學的異?，F(xiàn)象發(fā)現(xiàn)方法，它把異?，F(xiàn)象所對應(yīng)的概率密度小于某一閾值的樣本看作異常現(xiàn)象，并根據(jù)樣本的均值和標準差估計出其參數(shù)。此外，箱形圖是另外一種以統(tǒng)計方法為基礎(chǔ)的離群值檢測技術(shù)，它能直觀的反映出數(shù)據(jù)的原始分布情況，能更好的對異常值進行分析?；谙湫螆D的異常值區(qū)分的辦法是以箱形圖中的四個點和四個點之間的間隔作為判據(jù)，在不打破判據(jù)的情況下，具有較好的穩(wěn)健性。

本文選擇K-means算法作為本文所設(shè)計的框架中的機器學習算法，本文提出的基于機器學習的數(shù)據(jù)預(yù)處理框架如圖2所示。

五、結(jié)論

本文提出了一種新的數(shù)據(jù)預(yù)處理方法，并將該方法應(yīng)用到校園一卡通數(shù)據(jù)的預(yù)處理中。本文以K-Means為基礎(chǔ)，建立一個新的數(shù)據(jù)預(yù)處理模型，對抽取出的數(shù)據(jù)和特征進行聚類。對于缺失的數(shù)據(jù)，本文采用KNN算法對其進行補全；對于異常值，本文采用了一種基于聚類的異常值檢測方法，該方法把較小規(guī)模的簇看作是異常的，然后將其清除，從而得到干凈的數(shù)據(jù)集。

作者單位：中國電信股份有限公司北京分公司

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機器學習的數(shù)據(jù)預(yù)處理框架研究

一、引言

二、校園一卡通數(shù)據(jù)預(yù)處理功能分析

三、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)脫敏功能

四、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)清洗功能

五、結(jié)論

一、引言

二、校園一卡通數(shù)據(jù)預(yù)處理功能分析

三、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)脫敏功能

四、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)清洗功能

五、結(jié)論