亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學習的數(shù)據(jù)預(yù)處理框架研究

        2023-08-14 03:34:40李小聰
        中國信息化 2023年7期
        關(guān)鍵詞:數(shù)據(jù)挖掘方法

        李小聰

        一、引言

        隨著信息技術(shù)的快速發(fā)展,社會各個領(lǐng)域出現(xiàn)了海量的應(yīng)用級數(shù)據(jù),如何從這些數(shù)據(jù)中提煉出有用的知識和信息,并將其運用到現(xiàn)實生活中,就成了整個數(shù)據(jù)挖掘領(lǐng)域的一個熱門話題。本文以一卡通消費流水數(shù)據(jù)為例,將K-Means聚類算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合,建立了一個基于K-Means聚類的數(shù)據(jù)預(yù)處理方法,對數(shù)據(jù)進行了進一步的整合和優(yōu)化,得到可用于下游任務(wù)使用的數(shù)據(jù),并通過實驗證明了本文所提出的一卡通數(shù)據(jù)預(yù)處理模型的實用意義和應(yīng)用價值。

        在數(shù)據(jù)挖掘中,數(shù)據(jù)的預(yù)處理是一個非常重要的環(huán)節(jié),它能把直接收集到的非標準數(shù)據(jù)變成高質(zhì)量的可以直接進行分析和處理的數(shù)據(jù)。然而數(shù)據(jù)預(yù)處理所需的步驟較多,處理流程非常復雜,需占用較大的計算機計算資源。聚類分析是數(shù)據(jù)挖掘的一種常用技術(shù),它是根據(jù)數(shù)據(jù)本身固有的屬性,對數(shù)據(jù)進行分組,使數(shù)據(jù)有一定的可分性和獨立性,從而提高數(shù)據(jù)挖掘分析的效率和準確性。聚類算法中最常用的是K-Means算法,該算法采用迭代方式對聚類中心進行搜索,得到簇中心。而初始聚類中心選擇直接影響到聚類結(jié)果的好壞。因此本文以一卡通消費流水數(shù)據(jù)為例,基于K-Means算法對其進行數(shù)據(jù)預(yù)處理,并使用機器學習相關(guān)算法對其進行分析,實現(xiàn)對數(shù)據(jù)的進一步整合和優(yōu)化。

        二、校園一卡通數(shù)據(jù)預(yù)處理功能分析

        隨著校園消費場景和數(shù)量的日益增多,目前迫切需要建立一套統(tǒng)一的、靈活的預(yù)處理方法,以應(yīng)對海量、高維的數(shù)據(jù)特點。本文針對一卡通消費流水數(shù)據(jù)特點,提出了一個基于K-Means聚類算法與數(shù)據(jù)預(yù)處理技術(shù)相結(jié)合的數(shù)據(jù)預(yù)處理系統(tǒng)。本文的數(shù)據(jù)預(yù)處理系統(tǒng)由數(shù)據(jù)脫敏、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約和數(shù)據(jù)集合四大模塊組成。

        三、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)脫敏功能

        因為使用者想要達成的分析目標不同,所采取的脫敏方式也不同,常見的脫敏方式有以下幾種。首先是替換方式,即將需要保密的數(shù)據(jù)替換為一個隨機數(shù)據(jù)。比如,把一個或一串字母改成另一個字母或者一串數(shù)字,或者把數(shù)字改成另一個數(shù)字或者字母。在本文中使用了一種利用散列映射代替敏感數(shù)據(jù)的方法。這種方式的優(yōu)點是保持了原來的數(shù)據(jù)格式,這樣替代后的數(shù)據(jù)在保密的前提下非常接近原來的數(shù)據(jù)。其次是置亂方法,即用一種隨機的方式,把每一欄中的真值都給打亂,從而使原來的數(shù)據(jù)與不同的屬性間的關(guān)系變得不確定。此外還有平均數(shù)方法,對于數(shù)值類型的數(shù)據(jù),可以首先求出數(shù)據(jù)的平均數(shù),再利用隨機分布使得去敏化后的數(shù)值接近于平均數(shù),從而實現(xiàn)數(shù)據(jù)之和的一致性。本文提出的數(shù)據(jù)脫敏技術(shù)的實現(xiàn)包括脫敏數(shù)據(jù)發(fā)現(xiàn)、脫敏策略制定、脫敏任務(wù)執(zhí)行三個步驟,圖1為本文對數(shù)據(jù)進行脫敏處理的方法。

        四、數(shù)據(jù)預(yù)處理框架的數(shù)據(jù)清洗功能

        本文提出了一種可用于一卡通消費流水數(shù)據(jù)的預(yù)處理方法。數(shù)據(jù)清洗模塊是其中的核心組件,也是其中工作量最大的一環(huán)。本文提出數(shù)據(jù)清洗模塊主要包含三個方面的工作:去除重復值,填補缺失值,發(fā)現(xiàn)異常值。

        在使用一卡通的時候,因為某些特殊的原因,如網(wǎng)絡(luò)原因,有可能會產(chǎn)生重復的數(shù)據(jù),但是這一情況是小概率事件,所以,就整體而言,直接刪除重復值,并不會對整個數(shù)據(jù)分布和數(shù)據(jù)挖掘過程造成任何影響。所以在本文中把具有相同數(shù)值的兩個數(shù)據(jù)流看成是一份數(shù)據(jù),并把它們合并成一個數(shù)據(jù),這就是所謂的去重。

        在數(shù)據(jù)分析過程中,數(shù)據(jù)缺失經(jīng)常發(fā)生,重要數(shù)據(jù)或是沒有價值的數(shù)據(jù),都會使數(shù)據(jù)的分析處理結(jié)果發(fā)生偏差。針對缺失數(shù)據(jù),本文提出了以下預(yù)處理方法。需要對數(shù)據(jù)的缺失值做出一個簡單的判斷和分析,最好的辦法,就是用其他的數(shù)值來填補缺失,盡可能地恢復原始數(shù)據(jù)的實際內(nèi)容。替換數(shù)值可以通過插值來獲得,插值方法分為兩類,其中一類為傳統(tǒng)方法,如平均值,中間值等。另一類是基于算法,如回歸插值、抽樣插值等,運用常見的技術(shù)手段,比如聚類技術(shù),分類技術(shù)。在本文使用的是后者。

        離群值也被稱為異常值,在對離群值進行預(yù)處理時,可以根據(jù)機器學習中的聚類方法,選擇一個規(guī)模較小的簇作為異常數(shù)據(jù),將其剔除。由于雜亂的數(shù)據(jù)會影響總體的協(xié)調(diào)性和數(shù)據(jù)分布,所以數(shù)據(jù)中的離群值指的就是那些跟大部分數(shù)據(jù)相距甚遠的資料。其中,最常見的一種異常現(xiàn)象是基于統(tǒng)計學的異?,F(xiàn)象發(fā)現(xiàn)方法,它把異?,F(xiàn)象所對應(yīng)的概率密度小于某一閾值的樣本看作異常現(xiàn)象,并根據(jù)樣本的均值和標準差估計出其參數(shù)。此外,箱形圖是另外一種以統(tǒng)計方法為基礎(chǔ)的離群值檢測技術(shù),它能直觀的反映出數(shù)據(jù)的原始分布情況,能更好的對異常值進行分析?;谙湫螆D的異常值區(qū)分的辦法是以箱形圖中的四個點和四個點之間的間隔作為判據(jù),在不打破判據(jù)的情況下,具有較好的穩(wěn)健性。

        本文選擇K-means算法作為本文所設(shè)計的框架中的機器學習算法,本文提出的基于機器學習的數(shù)據(jù)預(yù)處理框架如圖2所示。

        五、結(jié)論

        本文提出了一種新的數(shù)據(jù)預(yù)處理方法,并將該方法應(yīng)用到校園一卡通數(shù)據(jù)的預(yù)處理中。本文以K-Means為基礎(chǔ),建立一個新的數(shù)據(jù)預(yù)處理模型,對抽取出的數(shù)據(jù)和特征進行聚類。對于缺失的數(shù)據(jù),本文采用KNN算法對其進行補全;對于異常值,本文采用了一種基于聚類的異常值檢測方法,該方法把較小規(guī)模的簇看作是異常的,然后將其清除,從而得到干凈的數(shù)據(jù)集。

        作者單位:中國電信股份有限公司北京分公司

        猜你喜歡
        數(shù)據(jù)挖掘方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        學習方法
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        一区二区三区婷婷在线| 狠狠色狠狠色综合| 亚洲日本va午夜在线电影| 人妻少妇无码中文幕久久| 一区二区在线观看视频亚洲| 韩国av一区二区三区不卡| 国产无遮挡又黄又爽在线观看| 亚洲丁香婷婷综合久久小说| 国产99久久精品一区| 亚洲精选自偷拍一区二| 国产99久久久国产精品免费看| 免费人成又黄又爽的视频在线| 日韩熟女一区二区三区| 国产桃色一区二区三区| 凹凸在线无码免费视频| 免费AV一区二区三区无码| 白色橄榄树在线阅读免费| 天堂一区二区三区在线观看视频| 日韩精品一区二区免费| 男人女人做爽爽18禁网站| 亚洲免费观看在线视频| 淫妇日韩中文字幕在线| 日韩人妻精品视频一区二区三区| 天天躁日日躁狠狠躁| 色综合久久丁香婷婷| 国语对白三级在线观看| 无套无码孕妇啪啪| 被群cao的合不拢腿h纯肉视频| 久久这里有精品国产电影网| 一区二区三区国产精品麻豆| 午夜理论片yy6080私人影院| 国产一级做a爱免费观看| 日本福利视频免费久久久 | 国产精品国产三级国产aⅴ下载| 国产成人无码一区二区在线观看| 精品久久久久久午夜| 亚洲一区二区三区重口另类| 亚洲国产天堂久久综合| 欧美亚洲国产日韩一区二区三区| 一区二区国产视频在线| 无码人妻精品一区二区三区夜夜嗨|