亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究

        2023-05-22 06:33:26
        物聯(lián)網(wǎng)技術(shù) 2023年5期
        關(guān)鍵詞:數(shù)據(jù)挖掘分析信息

        宋 蕊

        (黃河水利職業(yè)技術(shù)學院,河南 開封 475000)

        0 引言

        物聯(lián)網(wǎng)作為基于網(wǎng)絡(luò)平臺形成的一種具有針對性和聯(lián)動性的網(wǎng)絡(luò)化結(jié)構(gòu),其應(yīng)用范圍呈逐步拓展的趨勢。數(shù)據(jù)挖掘則強調(diào)從固有的數(shù)據(jù)信息中尋找和挖掘有價值的信息,通過數(shù)據(jù)信息的分析和研究找到問題解決的辦法。只要保證數(shù)據(jù)信息的來源和計算方法的準確性和可靠性,就能夠在物聯(lián)網(wǎng)時代充分發(fā)揮數(shù)據(jù)對問題分析和解決過程的支撐作用,體現(xiàn)物聯(lián)網(wǎng)系統(tǒng)在實踐應(yīng)用中的優(yōu)勢。

        1 數(shù)據(jù)挖掘技術(shù)應(yīng)用的基本流程分析

        數(shù)據(jù)挖掘是基于固定的數(shù)據(jù)信息進行分析和研究的過程,整個數(shù)據(jù)挖掘的工作流程具有典型的程序化特征,且各個步驟之間也有非常緊密的聯(lián)系。對數(shù)據(jù)挖掘基本流程的充分了解,是進一步為物聯(lián)網(wǎng)實踐應(yīng)用提供服務(wù)的重要條件。具體來說,數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用流程如下。

        1.1 數(shù)據(jù)集的初步選擇

        數(shù)據(jù)集的選擇主要是指,從數(shù)據(jù)信息的來源方面進行有效控制并合理選擇?,F(xiàn)階段比較常見的數(shù)據(jù)集選擇方式包括網(wǎng)站下載、網(wǎng)絡(luò)爬蟲技術(shù)支持下的爬取、數(shù)據(jù)庫下載等多種渠道。親戚關(guān)系數(shù)據(jù)集選取環(huán)節(jié)所選定的數(shù)據(jù)集模式,會直接影響后續(xù)的數(shù)據(jù)信息算法的選擇[1]。因此,在數(shù)據(jù)挖掘技術(shù)的應(yīng)用中,應(yīng)當對前期的數(shù)據(jù)集選擇環(huán)節(jié)的工作引起充分的重視,并慎重完成篩選過程。

        1.2 數(shù)據(jù)集的預(yù)處理

        數(shù)據(jù)集的預(yù)處理環(huán)節(jié)是指,在具體的數(shù)據(jù)挖掘技術(shù)實踐應(yīng)用前,需要對數(shù)據(jù)集進行細節(jié)性篩選和處理,形成優(yōu)質(zhì)數(shù)據(jù)集。在進行預(yù)處理的過程中,主要步驟包括數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)規(guī)約。經(jīng)過處理的數(shù)據(jù)可向目的端進行傳送,并進一步應(yīng)用[2]。

        1.3 數(shù)據(jù)發(fā)掘

        數(shù)據(jù)挖掘是整個技術(shù)實施的核心環(huán)節(jié),需要相關(guān)的技術(shù)人員和數(shù)據(jù)分析研究人員分別從數(shù)據(jù)的結(jié)構(gòu)、維度等方面對數(shù)據(jù)的基本性質(zhì)和特征進行明確[3]。在此基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中涉及的不同類型的算法進行充分了解,明確其實踐應(yīng)用中的基本特征和優(yōu)缺點,以便結(jié)合實際選擇適當?shù)乃惴ㄍ瓿蓴?shù)據(jù)挖掘的過程,確保在大批量的數(shù)據(jù)信息中找到具有應(yīng)用價值的關(guān)鍵性信息。

        1.4 模式評估

        在這一階段,工作要點在于,對已經(jīng)選擇的計算方法和計算流程狀態(tài)進行評估,確認此模式在實踐應(yīng)用中是否具有合理性和可靠性[4]。在分析了整體模式的狀態(tài)后,也能夠為發(fā)現(xiàn)新的運行模式提供一定的支持和幫助。圖1 為數(shù)據(jù)挖掘環(huán)節(jié)的具體工作開展流程。

        圖1 數(shù)據(jù)挖掘技術(shù)應(yīng)用流程

        2 云計算關(guān)鍵技術(shù)分析

        2.1 虛擬化技術(shù)

        虛擬化技術(shù)主要應(yīng)用于:當高性能的硬件出現(xiàn)了產(chǎn)能過剩的問題或者由于陳舊性因素導致產(chǎn)能不足問題時,通過虛擬化技術(shù)完成硬件的充足與再利用。通過底層物理硬件的透明化處理,實現(xiàn)軟件和硬件的分離操作。利用獨立的高性能硬件實現(xiàn)多種類型資源的虛擬,實現(xiàn)客觀上產(chǎn)能不足的資源的整合和應(yīng)用,提升物理硬件本身的利用率[5]。

        2.2 數(shù)據(jù)處理與編程模型構(gòu)建技術(shù)

        云計算技術(shù)的優(yōu)勢主要體現(xiàn)在對多種不同類型數(shù)據(jù)的集中處理,并建立相應(yīng)的編程模型。具體的編程模型結(jié)構(gòu)方面包括了不同類型的函數(shù)公式,在不同的階段需要利用函數(shù)公式完成相應(yīng)的計算以及數(shù)據(jù)的讀取和加工。完成數(shù)據(jù)的初步讀取過程后,需進一步對數(shù)據(jù)進行合并處理[6]。這種數(shù)據(jù)處理模型對大批量的數(shù)據(jù)都具有處理能力,并且對于數(shù)據(jù)集也能夠起到監(jiān)控作用。一旦出現(xiàn)運行異常的情況,也能夠及時進行識別處理,在整體的運行穩(wěn)定性上更高。圖2 為常用并行編程模型。

        圖2 并行編程模型

        2.3 云計算典型平臺分析

        Hadoop 平臺是云計算技術(shù)應(yīng)用的典型常用平臺。此平臺在實踐應(yīng)用中能夠?qū)崿F(xiàn)大批量數(shù)據(jù)的存儲,在硬件分布式集群化處理時,均可發(fā)揮相應(yīng)的作用。在具體特征方面,此平臺具有典型的適應(yīng)性和擴展性優(yōu)勢,可根據(jù)用戶在實踐應(yīng)用中的具體需求,完成內(nèi)容和信息的擴展。在這一云計算平臺上,數(shù)據(jù)存儲在模塊結(jié)構(gòu)中。在不同的模塊結(jié)構(gòu)支撐下,數(shù)據(jù)信息實現(xiàn)不同位置的復(fù)制,而集群節(jié)點周圍的數(shù)據(jù)是數(shù)據(jù)分析中具有高度可用性的關(guān)鍵數(shù)據(jù)。此平臺的基本組件主要包括了分布式文件系統(tǒng)以及MapReduce 系統(tǒng)[7]。前者主要提供集群中的復(fù)制數(shù)據(jù)塊信息,并且實現(xiàn)大批量數(shù)據(jù)的有效存儲;而后者則主要發(fā)揮分布式大數(shù)據(jù)計算的功能。在實踐運行應(yīng)用中,除了要保證平臺功能的有效發(fā)揮,平臺運行中的安全以及數(shù)據(jù)信息一致性,也是需要考慮的典型問題。在此平臺中,隨著數(shù)據(jù)計算和分析功能的發(fā)揮,安全模式會同步啟動。這時,文件系統(tǒng)只接受讀取的請求;而對于刪除、修改等變更性請求不予處理。數(shù)據(jù)的一致性主要是指,在平臺運行的過程中,節(jié)點之間的數(shù)據(jù)傳送會導致數(shù)據(jù)出現(xiàn)損失和破壞的現(xiàn)象。因此,為了保證數(shù)據(jù)信息的準確性和完整性,利用系統(tǒng)內(nèi)的分布式文件功能,完成對基礎(chǔ)數(shù)據(jù)信息的校驗和分析,確保新文件的存儲經(jīng)過校驗和分析。

        3 聚類算法分析

        3.1 聚類算法的基本介紹

        聚類算法在數(shù)據(jù)挖掘技術(shù)中屬于核心的算法方式。在聚類算法應(yīng)用中,又可細分為不同類型的細節(jié)算法。比較常見的聚類算法包括了K-means 算法和LDC 算法。而本文探討的ALDCK-means 算法,能夠解決傳統(tǒng)算法中的噪聲問題和數(shù)值異常問題。在算法應(yīng)用的過程中,簇的質(zhì)心將作為聚類的中心點,開啟下一輪的計算。此種計算方法的應(yīng)用是對傳統(tǒng)的計算方法進行改進和優(yōu)化形成的一種綜合性和全面性更強的計算方法。例如,在前期的K-means 算法中,K 值的選擇以及LDC 算法中初始中心的選擇,都能夠為ALDCKmeans算法的應(yīng)用提供一定的參考和輔助[8-10]。在實踐應(yīng)用中,此種綜合性更強的計算方法,能夠更好地對數(shù)據(jù)點的局部密集度和高密度最小距離進行合理確認。從數(shù)據(jù)集中,去除滿足條件的相應(yīng)噪聲點,隨后再按照降序排列的基本規(guī)則,對數(shù)據(jù)集中高密度的最小距離進行確認;而確認了最小距離后,可進一步在相關(guān)的序列數(shù)據(jù)中,選擇初始聚類中心區(qū)域,執(zhí)行K-means 聚類操作。這類操作完成后,實現(xiàn)距離最近的兩個類別的合并,并且計算合并之前的評判值(E0)和合并之后的評判值(E)。評判值計算結(jié)果需要滿足的公式為:

        合并完成后,若能夠進一步確認合并的合理性,則可進行下一階段的合并。直到無法確保滿足條件時停止,這時輸出聚類結(jié)果,并終止計算過程。

        3.2 LDCK-K-means 算法的具體步驟分析

        LDCK-K-means 算法是綜合性更強的ALDCK-means 算法應(yīng)用的重要基礎(chǔ)。在具體的算法流程上包括:①輸入截距指標(dc)和數(shù)據(jù)集(A);②計算單獨數(shù)據(jù)點的高密度最小距離值(δi)以及局部密度值(ρi);③針對整個數(shù)據(jù)集區(qū)間進行搜索,將滿足以下公式的數(shù)據(jù)直接從數(shù)據(jù)集中刪除:ρi≤μσ(ρ)-2σ(ρ)和δi≥μ(δ)+σ(δ);④將剩余的數(shù)據(jù)點按照高密度的最小距離進行降序形式的排列,選出前n個根號數(shù)據(jù)形成聚類中心點;⑤應(yīng)用K-means 聚類算法,對數(shù)據(jù)進行計算,獲得相應(yīng)的集群數(shù)據(jù);⑥計算簇之間的分散度和簇內(nèi)的聚合度指標,最終求出評判值;⑦進行可聚類中心點之間距離的計算,并完成類別的合并,求出新的聚類中心點,進行循環(huán)聚類操作;⑧用迭代計算方式,計算出滿足條件的相關(guān)數(shù)據(jù),當無法滿足既定條件時,則宣布算法結(jié)束。

        3.3 ALDCK-means 算法實驗

        算法實驗的具體落實執(zhí)行,需選取人工數(shù)據(jù)集作為基礎(chǔ)依托數(shù)據(jù),并且對優(yōu)化后的聚類效果以及準確率進行試驗分析。在具體的實驗過程中,可選取具有代表性的數(shù)據(jù)集納入實驗過程,分別按照聚類數(shù)目、形態(tài)、數(shù)據(jù)量三項指標,對算法的準確性進行觀察驗證。通過對算法聚類效果的觀察可知,不同的計算方法在效果上存在一定的差異。本文所探討的ALDCK-means 算法,在聚類效果上較之傳統(tǒng)算法具有一定的優(yōu)勢,且算法所得的數(shù)據(jù)信息在準確性上也更強。

        3.4 Hadoop 背景下的ALCDK-means 算法設(shè)計與實踐

        在新的計算方法得到優(yōu)化后,能夠更加顯著地完成更大數(shù)量級的數(shù)據(jù)集計算。計算中,每個數(shù)據(jù)點的高密度最小距離、局部密度、中心點距離等各項數(shù)據(jù)都能保持相對獨立的狀態(tài)。因此,可進一步考慮將新的計算方法進行并行化處理,以便應(yīng)用在更大規(guī)模的數(shù)據(jù)信息計算過程中。在此種新型的計算方法應(yīng)用和并行化的過程中,獨立的迭代都會對應(yīng)相應(yīng)的數(shù)據(jù)分析任務(wù)。另外,還會產(chǎn)生相應(yīng)的密度最小距離值以及局部密度值。在不同的運算階段,其所執(zhí)行的計算流程也有非常顯著的特征。

        在完成了并行化后,ALCDK-means 算法的執(zhí)行流程如下:①實現(xiàn)集群的初始化處理,并將聚類數(shù)據(jù)傳輸?shù)椒植际降南到y(tǒng)平臺中;②立足于系統(tǒng)平臺讀取聚類數(shù)據(jù),完成相應(yīng)專業(yè)格式的解析;③各部分的區(qū)域性狀態(tài)都形成獨立運行的模式,可分別讀取數(shù)據(jù)點計算出的高密度最小距離值和局部密度值;④對所有數(shù)據(jù)點進行分析和檢驗,刪除噪聲點,完成降序排列,選擇合理的聚類中心。

        4 結(jié)語

        通過本文的分析可知,在云計算背景下的物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,需要應(yīng)用不同的數(shù)據(jù)算法,進行數(shù)據(jù)的分析和研究。具體的算法選擇,需結(jié)合算法應(yīng)用的實際狀態(tài)和效果進行合理的規(guī)劃。與此同時,算法的實踐應(yīng)用也需要按照不同的步驟,依托具體的基礎(chǔ)數(shù)據(jù)和公式進行計算確認。最終得到具有核心參照價值的參數(shù)指標。獲得相應(yīng)的數(shù)據(jù)計算結(jié)果,可為云計算技術(shù)支持下的物聯(lián)網(wǎng)數(shù)據(jù)計算分析提供支持。

        猜你喜歡
        數(shù)據(jù)挖掘分析信息
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        不卡一区二区视频日本| 自慰高潮网站在线观看| 黄色国产一区在线观看| 日本一区二区三区四区高清不卡| 久久久久无码国产精品一区| 97人人超碰国产精品最新o| 天堂AV无码AV毛片毛| 狼人精品剧情av在线观看| 午夜时刻免费入口| 又黄又爽又色的视频| 亚洲AV小说在线观看| 亚洲1区第2区第3区在线播放| 大ji巴好深好爽又大又粗视频| 国产在线精品一区二区三区不卡| 欧美日本视频一区| 一区二区人妻乳中文字幕| 国产精品久久久久9999无码| 无遮高潮国产免费观看| 国产粉嫩嫩00在线正在播放| 国产视频激情在线观看| 天堂中文最新版在线中文| 国产一区二区三区在线观看精品| 久久国产精品一区二区| 大香焦av一区二区三区| 欧美大屁股xxxx| 精品国产三级a| 日本一区二区三区在线视频播放| 天天躁日日躁狠狠躁欧美老妇小说 | 国产三级精品三级在专区中文 | 国产精品女丝袜白丝袜美腿| 亚洲av香蕉一区区二区三区| 欧美日本国产va高清cabal| 亚洲AV手机专区久久精品| 加勒比婷婷色综合久久| 69一区二三区好的精华| 樱花AV在线无码| 午夜视频在线观看国产| 无码人妻一区二区三区兔费| 亚洲精品国产综合一线久久| 成人免费毛片在线播放| 国产精品婷婷久久爽一下|