亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘技術(shù)的時間序列分類聚類應(yīng)用研究

        2022-09-06 07:45:14王赫楠
        科技創(chuàng)新導(dǎo)報 2022年12期
        關(guān)鍵詞:數(shù)據(jù)量數(shù)據(jù)挖掘聚類

        王赫楠

        (遼寧中醫(yī)藥大學(xué) 遼寧沈陽 110000)

        數(shù)據(jù)挖掘技術(shù)利用一些數(shù)據(jù)分析算法,在某些條件的限制下,從海量的數(shù)據(jù)中挖掘出有價值的信息[1-4],是目前各領(lǐng)域挖掘數(shù)據(jù)信息采用的主要技術(shù)手段。通常情況下,數(shù)據(jù)挖掘技術(shù)可以對各種類型的數(shù)據(jù)進(jìn)行操作,如各種類型的數(shù)據(jù)庫(關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫或其他一些高級數(shù)據(jù)庫系統(tǒng)等),還有平面文件和網(wǎng)絡(luò)上的數(shù)據(jù)[5]。以上的各種數(shù)據(jù)庫中,有一種較為特殊的數(shù)據(jù)形式,數(shù)據(jù)集的各個數(shù)據(jù)之間存在著時間上的先后順序,隨時間的變化、動態(tài)的改變,這類數(shù)據(jù)即為時間序列數(shù)據(jù)集。目前,時間序列數(shù)據(jù)集在各領(lǐng)域都廣泛存在。例如,某個人的心電圖數(shù)據(jù)、水位監(jiān)測數(shù)據(jù)、圖形圖像數(shù)據(jù)等都具有時間特性。從以上一些時間序列數(shù)據(jù)中挖掘出有價值、有規(guī)律的信息,對于各個領(lǐng)域都具有重要的研究意義。

        隨著科學(xué)技術(shù)的不斷發(fā)展,各領(lǐng)域的時間序列數(shù)據(jù)增長飛快,大量的數(shù)據(jù)背后隱藏著極具價值的信息,越來越多的研究人員投身其中進(jìn)行研究工作。研究的目的就是從海量的時間序列數(shù)據(jù)集中提取有價值、有規(guī)律的信息,此項工作也成為數(shù)據(jù)挖掘領(lǐng)域研究的熱點之一[6-8]。時間序列的數(shù)據(jù)集具有時間特性,它是一種高維度,并且隨時間變化而改變的一種數(shù)據(jù)形式,同時,也存在大量的冗余數(shù)據(jù)。利用可視化方式來反映時間序列的主要形態(tài)特征,并從中提取一些有價值的信息數(shù)據(jù),這對于各個領(lǐng)域的發(fā)展和科研都有非常重要的現(xiàn)實意義。時間序列的數(shù)據(jù)量大、維度高,給數(shù)據(jù)的挖掘工作帶來一定的困難。在進(jìn)行時間序列數(shù)據(jù)挖掘過程中,需要先進(jìn)行降維處理,提取一些特征點,反映時間序列的主要形態(tài)特征。同時,結(jié)合一些經(jīng)典算法去處理時間序列,對時間序列數(shù)據(jù)進(jìn)行挖掘工作,提取出有價值、有規(guī)律的數(shù)據(jù)信息。

        1 數(shù)據(jù)挖掘技術(shù)研究

        隨著信息技術(shù)的不斷發(fā)展,獲取數(shù)據(jù)及提取數(shù)據(jù)極其方便,這使得各領(lǐng)域的數(shù)據(jù)量迅猛增長,出現(xiàn)了數(shù)據(jù)量很大,但無法有效提取有價值信息的情況。數(shù)據(jù)量的增大、維度的提高,給人們的數(shù)據(jù)分析工作帶來了巨大的挑戰(zhàn),增加了數(shù)據(jù)分析工作的難度。而為有效地提取海量數(shù)據(jù)的有價值、有規(guī)律的信息,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。數(shù)據(jù)挖掘技術(shù)的目的就是在巨大的數(shù)據(jù)量中能夠積極地獲取有價值的信息數(shù)據(jù),用來指導(dǎo)金融市場、醫(yī)療服務(wù)、電商銷售及科學(xué)研究等。

        在進(jìn)行數(shù)據(jù)挖掘的過程中,需要使用者對數(shù)據(jù)所在領(lǐng)域知識有一定的了解。數(shù)據(jù)挖掘技術(shù)也屬于多學(xué)科交叉的一門技術(shù),涵蓋數(shù)理統(tǒng)計、模式識別、機(jī)器學(xué)習(xí)等方面的技術(shù)和方法。數(shù)據(jù)挖掘技術(shù)的功能很廣泛,概括起來有兩個方面:分類和預(yù)測。數(shù)據(jù)挖掘技術(shù)的分類和預(yù)測既可以分類數(shù)據(jù)庫中的數(shù)據(jù)信息,又可以根據(jù)有效信息進(jìn)行數(shù)據(jù)趨勢的預(yù)測,找出數(shù)據(jù)信息各屬性間的關(guān)系。這項技術(shù)在銀行的信用評價、工業(yè)制造故障診斷、入侵檢測等領(lǐng)域應(yīng)用廣泛。

        關(guān)聯(lián)規(guī)則、分類聚類、預(yù)測等都是數(shù)據(jù)挖掘的主要研究方向。根據(jù)不同的數(shù)據(jù)分析需求,可以采用不同的數(shù)據(jù)挖掘方法。關(guān)聯(lián)規(guī)則也是數(shù)據(jù)挖掘技術(shù)的一個重要方法,它是針對某個特定的數(shù)據(jù)集,挖掘出現(xiàn)頻率較高的信息數(shù)據(jù),進(jìn)而發(fā)現(xiàn)這些信息之間的關(guān)聯(lián)。

        在數(shù)據(jù)挖掘技術(shù)中,聚類是主要的方法之一。在應(yīng)用于數(shù)據(jù)集的過程中,聚類會使得具有相似特征的數(shù)據(jù)聚合到一起,具有不同特征的數(shù)據(jù)自動分開,形成多個聚合的簇。同一簇中的數(shù)據(jù)具有很高的相似度,不同的簇之間數(shù)據(jù)的差別很大,主要通過數(shù)據(jù)之間的距離來衡量數(shù)據(jù)的相似程度。

        傳統(tǒng)的數(shù)據(jù)挖掘算法可以處理均衡數(shù)據(jù)的分類問題。但是隨著數(shù)據(jù)量及種類的不斷增加,數(shù)據(jù)庫中所包含的數(shù)據(jù)十分復(fù)雜,僅應(yīng)用傳統(tǒng)的數(shù)據(jù)挖掘方法不能解決各類數(shù)據(jù)的處理問題,如時間序列的數(shù)據(jù)處理、非均衡數(shù)據(jù)的數(shù)據(jù)處理、多分類數(shù)據(jù)的數(shù)據(jù)處理等。已經(jīng)有越來越多的研究人員對以上時間序列等特殊數(shù)據(jù)集的數(shù)據(jù)挖掘方法開展研究工作。與此同時,數(shù)據(jù)挖掘的各個領(lǐng)域也正在進(jìn)行深入的研究。

        2 時間序列數(shù)據(jù)挖掘的應(yīng)用場景

        時間序列的數(shù)據(jù)集依據(jù)時間的變化,數(shù)據(jù)值不斷改變,從而表現(xiàn)出數(shù)值在時間上變化的特征。提取有價值的數(shù)據(jù)信息是時間序列研究的目的,可以通過分類聚類、奇異值檢測等方式來進(jìn)行時間序列的分析和挖掘工作。近年來,時間序列的數(shù)據(jù)挖掘是研究者們主要研究的一個方向。

        時間序列在各領(lǐng)域都廣泛存在,較為典型的應(yīng)用,如在互聯(lián)網(wǎng)基礎(chǔ)上產(chǎn)生的交易平臺。用戶在使用互聯(lián)網(wǎng)進(jìn)行交易購物時,隨著時間的變化,是有一定的購買習(xí)慣和消費模式的。通過對在線交易的數(shù)據(jù)進(jìn)行獲取,并使用數(shù)據(jù)挖掘方法進(jìn)行分析,可以掌握用戶的購買習(xí)慣。平臺可以通過數(shù)據(jù)的分析,為不同的用戶推薦其感興趣的商品,做到精準(zhǔn)營銷。

        在醫(yī)療檢測過程中,會產(chǎn)生很多檢測數(shù)據(jù),如患者的心電圖數(shù)據(jù)。心電圖數(shù)據(jù)屬于時間序列范疇,隨著時間的變化,數(shù)據(jù)呈現(xiàn)出某種變化趨勢。通過時間序列的數(shù)據(jù)挖掘方法,對序列進(jìn)行分析,發(fā)現(xiàn)某一類病癥的患者檢測數(shù)據(jù)的變化規(guī)律,可以幫助醫(yī)生制訂出更加合理和科學(xué)的診療方案,實現(xiàn)智慧醫(yī)療。

        在工業(yè)制造過程中,基于傳感器等硬件設(shè)備可以實時監(jiān)測到設(shè)備運行的某些數(shù)據(jù),對其進(jìn)行分類分析研究,及時掌握設(shè)備的運行狀況、異常發(fā)生、機(jī)器損耗等數(shù)據(jù),這樣管理者可以更好地了解設(shè)備的運行情況,控制制造的操作,促進(jìn)制造業(yè)的發(fā)展。

        3 時間序列數(shù)據(jù)挖掘研究

        存儲技術(shù)、信息技術(shù)的不斷發(fā)展,使得用戶可以比較方便地獲取大量的數(shù)據(jù)信息。時間序列數(shù)據(jù)也是其中一種數(shù)據(jù)集形式,在各行各業(yè)都廣泛存在,如醫(yī)療領(lǐng)域中某個病人的心電圖數(shù)據(jù)、金融領(lǐng)域中的股票數(shù)據(jù)變化、水量檢測中水量的實時變化數(shù)據(jù)等。時間序列是隨著時間的推移,數(shù)據(jù)信息連貫性變化的一種數(shù)據(jù)集形式。在一段連續(xù)的時間內(nèi),采集與時間所對應(yīng)的數(shù)據(jù)信息,是有一定規(guī)律的。如何在海量的時間序列中挖掘出有價值有規(guī)律的數(shù)據(jù)信息,是研究者們要解決的主要問題。因此,數(shù)據(jù)挖掘技術(shù)在時間序列數(shù)據(jù)集分析中的應(yīng)用受到了廣泛的關(guān)注。

        3.1 數(shù)據(jù)的變換

        數(shù)據(jù)的變換也可以理解為數(shù)據(jù)的預(yù)處理。由于時間序列的數(shù)據(jù)量巨大、數(shù)據(jù)維度高,直接在原始的時間序列上進(jìn)行數(shù)據(jù)挖掘操作,不容易得出較好的結(jié)果。因此,可以對數(shù)據(jù)進(jìn)行預(yù)處理,達(dá)到降維的目的;也可以選取某些關(guān)鍵點,反映時間序列的變化特性,這樣既可以保留原時間序列的已有變化規(guī)律,又可以降低數(shù)據(jù)集的維度,減少計算的成本。

        3.2 數(shù)據(jù)庫相似性度量

        相似性度量是數(shù)據(jù)挖掘領(lǐng)域的研究熱點,同時,也是時間序列數(shù)據(jù)挖掘的常見技術(shù)手段之一。時間序列的數(shù)據(jù)值有其固有的特點,如時間特性、連續(xù)性等。那么,如何去衡量時間序列的相似度、相似性如何定義,是時間序列衡量相似性操作首要解決的問題。通過距離來衡量時間序列的相似程度,是當(dāng)前較為常見的一種方式。時間序列的數(shù)據(jù)值之間不是孤立的,而是存在時間上的連續(xù)性。對時間序列進(jìn)行索引操作,需要更加有效的機(jī)制提高索引的效果?;诳臻g索引是當(dāng)前較為流行的一種相似性索引結(jié)構(gòu)。

        3.3 聚類分類分析

        分類聚類是數(shù)據(jù)挖掘領(lǐng)域的常見操作。同樣,對于時間序列也要進(jìn)行分類聚類的操作。對于時間序列的分類簡單點來說,在已有類別的基礎(chǔ)上,將某一個給定的新的時間序列數(shù)據(jù)集劃分到某個指定的類別中。在分類的過程中,需要首先對時間序列進(jìn)行分割,分割的原則是根據(jù)指定的模式長度和時間粒度,對需要分類的時間序列數(shù)據(jù)集進(jìn)行分割,然后再進(jìn)行分類聚類的操作。

        3.4 時間序列的可視化

        可視化操作是目前各領(lǐng)域研究的熱點問題之一。對于時間序列,可視化技術(shù)也是值得研究的一項課題。時間序列的可視化操作可以基于圖形圖像技術(shù)、虛擬現(xiàn)實技術(shù)及數(shù)據(jù)挖掘技術(shù),將時間序列以一種更易理解、更容易被用戶接受的形式展現(xiàn)出來。

        3.5 時間序列的特征表示

        時間序列作為數(shù)據(jù)序列的一種特殊形式,不僅具有傳統(tǒng)數(shù)據(jù)的特性,如數(shù)據(jù)量大、維度高,還具有時間序列本身的特性,比如,隨著時間的變化實時更新、流數(shù)據(jù)等。正是由于時間序列的特性,使得在進(jìn)行時間序列數(shù)據(jù)挖掘過程中,使用傳統(tǒng)的數(shù)據(jù)挖掘方法效果不理想。那么,在對時間序列進(jìn)行分析之前,就要對時間序列數(shù)據(jù)集進(jìn)行特征表示。特征表示的目的是要對時間序列數(shù)據(jù)集進(jìn)行降維處理,這是后期對時間序列數(shù)據(jù)集進(jìn)行其他操作的基礎(chǔ)。常用的時間序列特征表示有以下幾種類型:域變化特征表示、模型特征表示、分段特征表示、符號特征表示。

        經(jīng)過以上方法特征表示后的數(shù)據(jù),不僅要適用于后續(xù)的數(shù)據(jù)挖掘方法,還要準(zhǔn)確地反映原始時間序列的形態(tài)特征。因此,時間序列特征表示需要滿足以下幾點:能夠降低時間序列數(shù)據(jù)集的維度;對原始時間序列能夠準(zhǔn)確反映其主要形態(tài)特征以及局部的數(shù)據(jù)值變化特征;所選取的特征表示方法具有很好的表示精確度。圖1所示為特征表示方法效果。

        圖1 特征表示方法效果圖

        4 結(jié)語

        時間序列數(shù)據(jù)挖掘日益成為數(shù)據(jù)挖掘的一個重要方面,各行業(yè)都會產(chǎn)生大量的時間序列。如何從海量的數(shù)據(jù)中挖掘出有價值的信息,是目前時間序列數(shù)據(jù)挖掘急需解決的問題,也是未來數(shù)據(jù)挖掘研究的熱點問題之一。

        猜你喜歡
        數(shù)據(jù)量數(shù)據(jù)挖掘聚類
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
        寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        国产av午夜精品一区二区入口| 国产乱对白刺激视频| 欧洲熟妇色xxxx欧美老妇多毛 | 色诱久久av| 久草国产手机视频在线观看| 女人天堂av免费在线| 天堂网站一区二区三区| av免费网址在线观看| 日日碰狠狠丁香久燥| WWW拍拍拍| 亚洲国产综合精品中文| 中国男男女在线免费av| 人妻少妇-嫩草影院| 人妻少妇乱子伦精品无码专区电影 | 强行无套内谢大学生初次| 国产精品九九热| 日韩日本国产一区二区 | 最新国产在线精品91尤物| 精品亚洲乱码一区二区三区| 日本免费视频一区二区三区| 美女内射毛片在线看免费人动物| 最近中文字幕视频高清| 成人综合久久精品色婷婷| av天堂免费在线播放| 国产成人精品午夜二三区波多野| 日韩插啊免费视频在线观看| 91精品国产91| 日韩一本之道一区中文字幕| 国产美女高潮流白浆免费视频| 亚洲色精品aⅴ一区区三区| 精品无码av不卡一区二区三区| 日韩精品成人一区二区三区| 放荡的美妇在线播放| 人妻中文无码久热丝袜| 无码中文字幕加勒比一本二本| 亚洲av午夜福利精品一区二区| 国产让女高潮的av毛片| 97精品久久久久中文字幕 | 国产一起色一起爱| 羞羞色院99精品全部免| 久久精品国产亚洲av高清热|