亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進模糊K-means算法的大數(shù)據(jù)處理方法

        2021-03-07 07:18:16王天皓
        電子技術(shù)與軟件工程 2021年22期
        關(guān)鍵詞:數(shù)據(jù)處理分類利用

        王天皓

        (宜昌市大數(shù)據(jù)中心 湖北省宜昌市 443000)

        隨著互聯(lián)網(wǎng)時代的飛速發(fā)展,我國逐漸進入信息化、數(shù)據(jù)化的時代,人們可以在海量的數(shù)據(jù)信息中精準(zhǔn)地找到自己所需要的內(nèi)容。近年來,大數(shù)據(jù)的興起,使人們搜尋信息更加容易,大數(shù)據(jù)可以將人們的需求瞬間得到,進而提高搜索效率[1]。比如,在學(xué)習(xí)過程中,有一些詞語不懂,打開搜索界面,就能看見想要搜索的詞語,提高檢索效率[2]。但是隨著大數(shù)據(jù)的產(chǎn)生速度加快,大數(shù)據(jù)的處理方法逐漸跟不上大數(shù)據(jù)的產(chǎn)生腳步,出現(xiàn)了數(shù)據(jù)處理效果變差、數(shù)據(jù)處理時間滯后的現(xiàn)象。因此,本文設(shè)計了基于改進模糊K-means算法的大數(shù)據(jù)處理方法。首先采集大數(shù)據(jù),得出大數(shù)據(jù)的處理現(xiàn)狀;其次制定改建算法的相關(guān)流程,得出改進算法的相似度量;進而計算大數(shù)據(jù)處理方法的相似度,消除精準(zhǔn)度誤差。基于以上方法設(shè)計,旨在提高大數(shù)據(jù)處理效果,為互聯(lián)網(wǎng)事業(yè)作出貢獻。

        1 大數(shù)據(jù)處理方法設(shè)計

        改進模糊K-means算法是一種數(shù)據(jù)聚類處理算法,可以通過數(shù)據(jù)采集、計算等步驟得出大數(shù)據(jù)的相似度,從而消除MAE的誤差。大數(shù)據(jù)處理步驟如圖1所示。

        圖1:大數(shù)據(jù)處理流程

        1.1 建立大數(shù)據(jù)采集模塊

        近年來,社交數(shù)據(jù)信息快速發(fā)展,各種業(yè)務(wù)都在使用大數(shù)據(jù),隨著大數(shù)據(jù)的興起,各個領(lǐng)域的搜索范圍、規(guī)模、速度都有非常顯著地提升[3]。因此大數(shù)據(jù)的處理方法亟待改進,本文設(shè)計的大數(shù)據(jù)處理方法,以建立大數(shù)據(jù)采集模塊為基礎(chǔ),涵蓋了社會生活和生產(chǎn)的許多領(lǐng)域,包括支付信息、商業(yè)信息、交流記錄等。與傳統(tǒng)的處理方法不同,本文設(shè)計的大數(shù)據(jù)采集模塊,處理數(shù)據(jù)這種信息資源時,需要經(jīng)過采集、分析、提煉等操作,最終生成對人們有用的數(shù)據(jù)信息。此外,數(shù)據(jù)采集的過程是通過大數(shù)據(jù),從海量信息資源中發(fā)現(xiàn)規(guī)律,并進行分析,將有價值的信息,透過人們的需求展現(xiàn)出來[4]。

        傳統(tǒng)大數(shù)據(jù)處理方法中,大數(shù)據(jù)采集模塊是對采集到的數(shù)據(jù)進行分析、整合,繼而得出相應(yīng)數(shù)據(jù)信息,但是在處理過程缺乏明確的目標(biāo),進而導(dǎo)致大數(shù)據(jù)處理效果不佳[5]。本文摒棄以上缺點,從大量不完整、模糊和隨機的數(shù)據(jù)信息中識別出有效信息,并根據(jù)這些信息作出決策。本文設(shè)計的數(shù)據(jù)采集過程包括:確定采集的目標(biāo)、準(zhǔn)備數(shù)據(jù)采集、采集數(shù)據(jù)、分析結(jié)果等四個步驟,以上步驟都是為了處理大數(shù)據(jù)而執(zhí)行的。本文通過對采集到的數(shù)據(jù)進行分析,可以有效地減少資源浪費,大大提高大數(shù)據(jù)處理的質(zhì)量和效率。

        1.2 繪制改進模糊K-means算法流程圖

        大數(shù)據(jù)處理方法除了上文中建立的大數(shù)據(jù)采集模塊以外,本文將設(shè)計改進模糊K_means算法的流程。本文在改進算法過程中,對原算法進行估計,得出處理大數(shù)據(jù)的連續(xù)輸出效率。為了提高大數(shù)據(jù)處理效率,將原算法中結(jié)果數(shù)量不確定的因素拋棄,利用分類技術(shù)代表大數(shù)據(jù)的輸出結(jié)果,使大數(shù)據(jù)處理結(jié)果更加清晰[6]。此外,在改進算法中,評價技術(shù)可以說是分類技術(shù)的前期工作。首先利用評價技術(shù)得到連續(xù)未知量的數(shù)值,然后利用分類技術(shù)對結(jié)果進行處理[7]。通過對分類技術(shù)或評價技術(shù)進行模擬,并應(yīng)用于大數(shù)據(jù)的處理,在分類技術(shù)中,包括了預(yù)測功能,使其可以預(yù)測不同類型的信息資源。利用關(guān)聯(lián)規(guī)則,將大數(shù)據(jù)采集中的各個相互關(guān)聯(lián)的詞語作出整合,有助于人們同時識別。K-means算法不適用于不連續(xù)的大數(shù)據(jù),處理效果不佳,本文將改進此項缺陷,使其適用于任何大數(shù)據(jù)的處理場景。另外,K-means算法的缺點還包括計算過程依賴初始化設(shè)定,且對噪聲點過于敏感,用于大數(shù)據(jù)處理用于出現(xiàn)干擾,因此,使用改進后的K-means算法進行大數(shù)據(jù)處理更加理想。

        如圖2所示,為改進模糊K-means算法流程圖。

        圖2:改進模糊K-means算法流程圖

        如圖2所示,使用K-means算法大數(shù)據(jù)是隨機生成的,處理起來較為繁瑣,并且現(xiàn)如今,使用大數(shù)據(jù)的一般為年輕人,數(shù)據(jù)流量較大,所以本文利用模糊密度的技術(shù),改進K-means算法。改進后的K-means算法可以實現(xiàn)大數(shù)據(jù)集的處理,伸縮性較強,且處理效率較高,其理論依據(jù)為,密度越高,數(shù)據(jù)處理效果越好,進而得出大數(shù)據(jù)處理的最優(yōu)結(jié)果。因此,本文改進的模糊K-means算法有兩個步驟,其一,計算兩個大數(shù)據(jù)間的密度,公式如下:

        其二,根據(jù)密度公式,強化模糊系數(shù),公式如下:

        式(2)中,D(xi)為大數(shù)據(jù)周圍密度,當(dāng)周圍密度較小時,則表示為大數(shù)據(jù)處理相似;M、N、u均為改進算法的模糊系數(shù)。基于此項流程,得到改進K-means模糊算法。

        1.3 基于改進算法計算大數(shù)據(jù)處理方法相似度

        根據(jù)上文中,得到的改進K-means模糊算法,本文件計算大數(shù)據(jù)處理方法的相似度。本文中計算相似度基于改進算法的基礎(chǔ),利用過濾算法進行計算。過濾算法是將相似的大數(shù)據(jù),通過過濾協(xié)同達成用戶的需求,將相近的詞語或指標(biāo)作為MAE值展現(xiàn),利用MAE值得出用戶的目標(biāo)需求[8]。傳統(tǒng)算法在計算大數(shù)據(jù)相似度方面存在不足,產(chǎn)生這些不足的主要原因是,相似度計算不準(zhǔn)確,MAE值相差較多。本文提出了一種基于灰色鄰近相關(guān)分析模型,此模型中,利用余弦相似性,根據(jù)空間夾角作為相似度的衡量標(biāo)準(zhǔn),夾角越小,相似性越大,大數(shù)據(jù)內(nèi)容就值得推薦。以數(shù)據(jù)A、B為例,公式如下:

        式(3)中,sin(A,B)為大數(shù)據(jù)A與大數(shù)據(jù)S之間的夾角;cos(MA,MB)為sin(A,B)的對應(yīng)cos值;k、m、n均為相似度系數(shù),為數(shù)據(jù)A的MAE值;為數(shù)據(jù)B的MAE值。從以上得出的數(shù)據(jù)相似度計算過程,使用數(shù)據(jù)之間的相似度量來衡量數(shù)據(jù)的相似性,充分利用了用戶對數(shù)據(jù)的歷史搜索功能,對用戶的數(shù)據(jù)信息分類有很好的效果,讓用戶可以更準(zhǔn)確地找到目標(biāo)需求。同時,每個用戶的歷史信息均可以為其他用戶提供有效的信息,形成一個良性循環(huán)。保證大數(shù)據(jù)的處理質(zhì)量。鑒于已知數(shù)據(jù)集明確了分類,原始數(shù)據(jù)集將進一步遵循灰色理論,從而實現(xiàn)大數(shù)據(jù)的更優(yōu)處理,本文將利用閾值對大數(shù)據(jù)進行分類。當(dāng)已知的分類情況和閾值不同時,可以對改進算法得到的結(jié)果進行比較研究,消除基本誤差,明確特定閾值下可獲得的最高準(zhǔn)確率。

        2 實驗分析

        本文利用仿真實驗,利用改進模糊K_means算法的MAE值進行計算,并將改進模糊K_means算法與傳統(tǒng)算法下的大數(shù)據(jù)處理方法作對比,驗證本文設(shè)計的大數(shù)據(jù)處理方法的有效性。

        2.1 實驗準(zhǔn)備

        本次實驗采用精度度量方法,計算MAE值,當(dāng)?shù)贸龅腗AE值與實際值偏離程度越小,算法的精準(zhǔn)度就越高,也就是說大數(shù)據(jù)處理方法的處理效果越好。MAE計算公式如下:

        式(4)中,MAE為偏離差值,S為大數(shù)據(jù)處理項目總數(shù),利用此公式,計算兩種處理方法的MAE值,驗證本文設(shè)計的處理方法精準(zhǔn)度情況。

        實驗樣本數(shù)據(jù)為“臟數(shù)據(jù)”,第一,數(shù)據(jù)雜亂,數(shù)據(jù)來源于不同的應(yīng)用程序或系統(tǒng)平臺,包含文件數(shù)據(jù)和數(shù)據(jù)庫等,沒有統(tǒng)一的數(shù)據(jù)格式和定義,結(jié)構(gòu)混亂;第二,數(shù)據(jù)重復(fù),以同一條件在不同系統(tǒng)提取數(shù)據(jù),所獲取的數(shù)據(jù)會有許多重復(fù)的現(xiàn)象,數(shù)據(jù)冗余嚴(yán)重;第三,數(shù)據(jù)不完整,數(shù)據(jù)有采集到提取極易出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象,可能是由于數(shù)據(jù)格式不兼容或原始數(shù)據(jù)不全等原因造成的。使用“臟數(shù)據(jù)”進行實驗,更能體現(xiàn)大數(shù)據(jù)處理方法的有效性,樣本數(shù)據(jù)類別如表1所示。

        表1:樣本數(shù)據(jù)類別

        2.2 實驗結(jié)果

        隨機選取10組大數(shù)據(jù),利用傳統(tǒng)處理方法與本文設(shè)計的處理方法對比,結(jié)果如表2所示。

        表2:兩種處理方法MAE值對比

        如表2所示,10組大數(shù)據(jù)均為隨機選取,利用公式(4),計算得出傳統(tǒng)方法與本文設(shè)計方法的MAE值,表1中,傳統(tǒng)大數(shù)據(jù)處理方法的MAE值,與實際MAE值相差±0.000200,差值較大,處理的精準(zhǔn)度有隨之下降,因此大數(shù)據(jù)處理效果差;本文設(shè)計的大數(shù)據(jù)處理方法的MAE值,與實際MAE值差額僅在±0.000001,甚至在04組大數(shù)據(jù)中,差值為0,整體差值較小,處理大數(shù)據(jù)的精準(zhǔn)度較高,因此大數(shù)據(jù)處理效果更佳,符合本次實驗?zāi)康摹?/p>

        3 結(jié)束語

        近年來,互聯(lián)網(wǎng)技術(shù)發(fā)展迅速,我國正處于信息化時代,大數(shù)據(jù)的興起令人們的搜索方式變得更加簡單,因此大數(shù)據(jù)的處理方法成為亟待改進的問題。本文從建立大數(shù)據(jù)采集模塊、繪制改進算法流程、計算大數(shù)據(jù)相似度等三方面,研究了基于改進模糊K-means算法的大數(shù)據(jù)處理方法。保證大數(shù)據(jù)處理方法的精準(zhǔn)度,進而提高大數(shù)據(jù)處理效果。

        猜你喜歡
        數(shù)據(jù)處理分類利用
        利用min{a,b}的積分表示解決一類絕對值不等式
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        分類算一算
        利用一半進行移多補少
        分類討論求坐標(biāo)
        利用數(shù)的分解來思考
        Roommate is necessary when far away from home
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        国产精品女同久久久久电影院| 亚洲高清国产品国语在线观看| 欧美黑人xxxx又粗又长| 亚洲 欧美 影音先锋| 国产激情一区二区三区成人免费| 国产伦奸在线播放免费| 精品国产一区二区三区性色| 精品人妻va一区二区三区| 少妇高潮惨叫久久久久久电影| 亚洲男人第一av网站| 亚洲AV无码成人品爱| 久久国产A∨一二三| 亚洲国产区中文在线观看| 国产无套粉嫩白浆在线观看| 日韩精品无码久久久久久| 久久av高潮av喷水av无码| 精品久久久无码不卡| 综合亚洲二区三区四区在线| 无码人妻少妇久久中文字幕蜜桃| 狠狠色婷婷久久一区二区| 一区二区三区中文字幕有码| 在线看亚洲一区二区三区| 久久久久国色av免费观看性色| 真人新婚之夜破苞第一次视频| 亚洲欧洲精品成人久久曰影片| 亚洲中文高清乱码av中文| 公与淑婷厨房猛烈进出| 小12萝8禁在线喷水观看| 中文字幕乱偷乱码亚洲| 在线一区二区三区免费视频观看 | 偷亚洲偷国产欧美高清| 口爆吞精美臀国产在线| 国产精品国产三级国产专播| 国产一卡2卡3卡四卡国色天香| 2021年最新久久久视精品爱| 青青草在线免费观看在线| 18禁黄网站禁片免费观看女女| 99爱这里只有精品| 国产一区二区三区免费精品| 大香蕉视频在线青青草| 无码国产精成人午夜视频一区二区 |