亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘技術(shù)的知識(shí)發(fā)現(xiàn)系統(tǒng)

        2017-11-07 09:01:23李怡
        科技創(chuàng)新導(dǎo)報(bào) 2017年21期
        關(guān)鍵詞:分析

        李怡

        摘 要:互聯(lián)網(wǎng)的發(fā)展為資源共享提供了有效的途徑,資源量越來越龐大,類別也越來越多,并且呈現(xiàn)出了分散與異構(gòu)的特點(diǎn)。實(shí)現(xiàn)數(shù)據(jù)資源的有效利用,需要通過一定的技術(shù)與方法。而隨著技術(shù)的更新與發(fā)展,傳統(tǒng)的方法已經(jīng)無法適用新的環(huán)境檢索的需要。需要將新的技術(shù)應(yīng)用于其中,并且與知識(shí)發(fā)現(xiàn)系統(tǒng)相融合。本文就基于數(shù)據(jù)挖掘技術(shù)的知識(shí)發(fā)現(xiàn)系統(tǒng)作簡(jiǎn)要闡述。

        關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 知識(shí)發(fā)現(xiàn)系統(tǒng) 分析

        中圖分類號(hào):G250.74 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)07(c)-0142-02

        隨著資源量增加,如何從海量數(shù)據(jù)中尋找到需要并且有用的信息成為了新的問題,而將統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、模糊數(shù)學(xué)、模式識(shí)別等技術(shù)結(jié)合到一起,以此來解決問題。實(shí)現(xiàn)對(duì)所需要的知識(shí)搜索或者是基于某種需要進(jìn)行深度挖掘。數(shù)據(jù)挖掘技術(shù)已經(jīng)經(jīng)歷了一定的發(fā)展時(shí)期,并且積累了一定經(jīng)驗(yàn),市場(chǎng)應(yīng)用的前景十分廣闊。

        1 數(shù)據(jù)挖掘及其對(duì)象

        數(shù)據(jù)挖掘又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。

        其經(jīng)歷了四個(gè)階段,電子郵件階段,信息發(fā)布階段,電子商務(wù)階段,全程電子商務(wù)階段。

        依據(jù)原則來講,數(shù)據(jù)挖掘工作可以在任一類型的數(shù)據(jù)存儲(chǔ)上進(jìn)行。如事務(wù)數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),關(guān)系數(shù)據(jù)庫(kù),高級(jí)數(shù)據(jù)庫(kù)。面向?qū)ο?、?duì)象關(guān)系、空間與時(shí)間關(guān)系的數(shù)據(jù)庫(kù)等。數(shù)據(jù)挖掘的技術(shù)可能會(huì)因?yàn)閿?shù)據(jù)存儲(chǔ)的類別不同而存有差異。數(shù)據(jù)知識(shí)發(fā)現(xiàn)需要經(jīng)歷一個(gè)過程,如數(shù)據(jù)的清理,集成,選擇,交換,挖掘,模式評(píng)價(jià),知識(shí)表示等。數(shù)據(jù)挖掘只是知識(shí)發(fā)現(xiàn)過程中的一個(gè)步驟,或者可以將其理解為一個(gè)環(huán)節(jié)。在大多數(shù)的場(chǎng)合,人們采用的都是數(shù)據(jù)挖掘的廣義觀點(diǎn),從存儲(chǔ)信息的地方將需要的信息進(jìn)行挖掘一個(gè)過程。數(shù)據(jù)存儲(chǔ)的地方可以是數(shù)據(jù)庫(kù),也可以是數(shù)據(jù)倉(cāng)庫(kù),或者是其他的信息庫(kù)。

        2 數(shù)據(jù)挖掘的幾種模式

        首先是概念描述,概念描述作為區(qū)分性描述與特征化數(shù)據(jù)挖掘的最簡(jiǎn)單的類型,通常會(huì)經(jīng)過以下方法獲得。一是數(shù)據(jù)特征化,對(duì)目標(biāo)類數(shù)據(jù)進(jìn)行一般性的匯總。二是對(duì)數(shù)據(jù)進(jìn)行區(qū)分,將不同比較類與目標(biāo)進(jìn)行比較。

        關(guān)聯(lián)規(guī)則。通過該方法進(jìn)行數(shù)據(jù)挖掘工作和,可以獲得大量的數(shù)據(jù)中項(xiàng)集間存在有用或者是相關(guān)聯(lián)系。

        分類與預(yù)測(cè)。作為數(shù)據(jù)分析的兩種方法,可以對(duì)未來的數(shù)據(jù)趨勢(shì)進(jìn)行預(yù)測(cè),或者是用于重要類數(shù)據(jù)模型進(jìn)行提取。聚類則是將抽象或者是物理對(duì)象進(jìn)行分組成為由類似對(duì)象組成的多個(gè)類的過程。聚類算法包括了層方法,劃分方法,基于網(wǎng)格的方法,基于密度的方法,基于模型的方法等。時(shí)間序列模型則是依據(jù)時(shí)間變化趨勢(shì)對(duì)未來進(jìn)行預(yù)測(cè)。

        3 數(shù)據(jù)挖掘的方法與步驟

        3.1 數(shù)據(jù)挖掘的方法

        數(shù)據(jù)挖掘技術(shù)的核心包括了多學(xué)科知識(shí)與技術(shù),但是并產(chǎn)是將其簡(jiǎn)單的組合到一起,應(yīng)用的技術(shù)是一個(gè)整體,具有不可分割性,具體包括了機(jī)器學(xué)習(xí),人工智能,數(shù)學(xué)統(tǒng)計(jì)等。在相關(guān)技術(shù)的支持下,得出滿足用戶要求的結(jié)果。

        人工神經(jīng)網(wǎng)絡(luò)的方法主要是應(yīng)用于群集,特征挖掘,分類,模式識(shí)別,預(yù)測(cè)。人工神經(jīng)網(wǎng)絡(luò)是基于生物神經(jīng)網(wǎng)絡(luò)仿真的,其本質(zhì)是矩陣或者是分散型的結(jié)構(gòu)。統(tǒng)計(jì)分析的方法應(yīng)用于數(shù)據(jù)挖掘工作中,能夠?yàn)槠涮峁┒喾N回歸與判斷方法,技術(shù)上有方差分析,回歸分析,貝葉斯推理等。在知道了新信息后,對(duì)數(shù)據(jù)集的概率進(jìn)行修正,所使用的工具就是貝葉斯推理,以此來解決處理過程中數(shù)據(jù)分類問題。回歸分析的作用在于輸出與輸入變量之間的最佳的模型?;蛘呤菍?duì)變量的變化趨勢(shì)進(jìn)行描述,對(duì)其他的變量值關(guān)系進(jìn)行線性回歸。也可以用其為某些事件發(fā)生的概述建立模型,對(duì)變量集的對(duì)數(shù)回歸進(jìn)行預(yù)測(cè)。方差分析一般則是用于分析估計(jì)回歸直線性能與自變量對(duì)回歸的最終影響。

        決策樹是一種常用的方法,既可以用來對(duì)數(shù)據(jù)進(jìn)行分析,同時(shí)也可以對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。該方法以樹形結(jié)構(gòu)對(duì)決策集合進(jìn)行表示,而規(guī)則的產(chǎn)生則是通過對(duì)數(shù)據(jù)集進(jìn)行分類。而除了上述方法還有其他方法,比如粗燥集法,關(guān)聯(lián)規(guī)則,遺傳算法,聚類分析,聯(lián)機(jī)分析處理,可視化方法。挖掘工具的使用需要結(jié)合到具體的問題,不同方法有其不同的特點(diǎn)與適應(yīng)方面,在應(yīng)用的時(shí)候,需要結(jié)合到具體的情況。

        3.2 數(shù)據(jù)挖掘的過程

        數(shù)據(jù)挖掘過程可以將其分為三個(gè)階段,數(shù)據(jù)準(zhǔn)備,挖掘,結(jié)果的表達(dá)、解釋。在數(shù)據(jù)準(zhǔn)備階段,對(duì)數(shù)據(jù)進(jìn)行合并處理,處理的數(shù)據(jù)來源于不同文件或者是不同數(shù)據(jù)庫(kù),數(shù)據(jù)集成解決的主要問題是語(yǔ)義模糊,數(shù)據(jù)中存在的遺漏,臟數(shù)據(jù)清洗等。數(shù)據(jù)選擇則是確定需要進(jìn)行分析的數(shù)據(jù)集,以此來提升挖掘工作質(zhì)量,而對(duì)其進(jìn)行預(yù)處理,則是為了解決挖掘工具存有的某些局限性。

        在數(shù)據(jù)挖掘階段,又可以將其進(jìn)行細(xì)分。產(chǎn)生假設(shè),挖掘系統(tǒng)為用戶提供假設(shè)或者是用戶對(duì)數(shù)據(jù)庫(kù)可能會(huì)存有的知識(shí)進(jìn)行假設(shè)。將前一種方式稱之為發(fā)現(xiàn)型,而后一種方式則稱之為驗(yàn)證型。選擇并確定合適的工具,數(shù)據(jù)挖掘操作,對(duì)發(fā)現(xiàn)的知識(shí)進(jìn)行證實(shí)。

        數(shù)據(jù)結(jié)果表述與解釋階段,通過對(duì)提取信息進(jìn)行分析,利用決策支持工具將其提交于決策者,并將結(jié)果以某種方式表達(dá)出來。如果對(duì)數(shù)據(jù)挖掘結(jié)果不滿意,則需要重復(fù)挖掘過程。

        4 知識(shí)發(fā)現(xiàn)系統(tǒng)與實(shí)現(xiàn)

        4.1 知識(shí)發(fā)現(xiàn)

        數(shù)據(jù)挖掘與基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)在一定程度上存在混淆,兩個(gè)術(shù)語(yǔ)在使用的過程中通常會(huì)被替換。前者是將低層數(shù)轉(zhuǎn)換為高層知識(shí)的過程??梢詫?duì)其進(jìn)行簡(jiǎn)單的定義,知識(shí)發(fā)現(xiàn)就是對(duì)數(shù)據(jù)中有效的,潛在有用的模式的特定過程。知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)中對(duì)知識(shí)進(jìn)行挖掘的技術(shù),通常將整理,降維、識(shí)別、歸納、收集等過程集于一體。知識(shí)發(fā)現(xiàn)中最主要的就是數(shù)據(jù)挖掘。知識(shí)發(fā)現(xiàn)的過程包括原始數(shù)據(jù)收集,數(shù)據(jù)清理、集成,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)選擇、變換、預(yù)處理、挖掘,模型建立,知識(shí)表示,模式評(píng)估等。

        4.2 知識(shí)發(fā)現(xiàn)系統(tǒng)的體系

        理論層面,知識(shí)發(fā)現(xiàn)過程的機(jī)制有雙基融合,信息擴(kuò)散,雙庫(kù)協(xié)同,構(gòu)造了不同的模型。針對(duì)客觀存在的,并且具備某些特征的知識(shí)源,如不確定性、海量性、不完備性、復(fù)雜形態(tài)等,挖掘其中用戶感興趣的、潛在的知識(shí)。

        知識(shí)發(fā)現(xiàn)體系的框架可以將其分為知資源層,包括了本地的數(shù)據(jù)庫(kù),互聯(lián)網(wǎng),通過其他方法組成的底層支持結(jié)構(gòu)。知識(shí)發(fā)現(xiàn)層,該層的主要目的在于依據(jù)用戶的要求,將知識(shí)需求通過挖掘技術(shù)、倉(cāng)庫(kù)技術(shù),得到所需要的知識(shí),并且將其進(jìn)行存儲(chǔ)并返回用戶。

        在發(fā)現(xiàn)體系的實(shí)現(xiàn)方面,應(yīng)用到的相關(guān)扶梯技術(shù)包括了預(yù)測(cè)與分類,概念描述,時(shí)序模式,關(guān)聯(lián)挖掘,聚類分析,序列模式,數(shù)據(jù)倉(cāng)庫(kù)技術(shù),分布式計(jì)算方法,四組件技術(shù)等。系統(tǒng)實(shí)現(xiàn)的組成包括了用戶登錄,知識(shí)發(fā)現(xiàn),資源預(yù)處理,可視化界面,預(yù)測(cè)決策等。

        5 結(jié)語(yǔ)

        數(shù)據(jù)倉(cāng)庫(kù)與挖掘技術(shù)的發(fā)展,知識(shí)發(fā)現(xiàn)作為一個(gè)新的學(xué)科而受到廣泛關(guān)注。知識(shí)發(fā)現(xiàn)過程中,數(shù)據(jù)挖掘是一個(gè)重要的步驟。該環(huán)節(jié)涉及到的內(nèi)容有信息檢索,高性能檢索,數(shù)據(jù)可視化,數(shù)據(jù)庫(kù)技術(shù),統(tǒng)計(jì)學(xué),圖像與信號(hào)處理等。數(shù)據(jù)挖掘在某些方面已經(jīng)得到了應(yīng)用,并且產(chǎn)生了巨大價(jià)值,技術(shù)在應(yīng)用過程中不斷完善。但是同時(shí)也要認(rèn)識(shí)到數(shù)據(jù)挖掘技術(shù)仍然存在的某些方面的問題。比如大規(guī)模數(shù)據(jù)處理的效率問題,挖掘結(jié)果的無效性等。而知識(shí)發(fā)現(xiàn)技術(shù)同樣也面臨著多方面挑戰(zhàn),需要在今后的使用過程中不斷的完善,促進(jìn)其發(fā)展,發(fā)揮更大的價(jià)值。

        參考文獻(xiàn)

        [1] 邱曉輝.知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘分析[J].情報(bào)探索,2011(1):69.

        [2] 羅平,陽(yáng)廣元,甯佐斌.數(shù)據(jù)挖掘方法和知識(shí)發(fā)現(xiàn)研究[J].圖書情報(bào)工作,2011(S1):85-86.endprint

        猜你喜歡
        分析
        禽大腸桿菌病的分析、診斷和防治
        隱蔽失效適航要求符合性驗(yàn)證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
        對(duì)計(jì)劃生育必要性以及其貫徹實(shí)施的分析
        GB/T 7714-2015 與GB/T 7714-2005對(duì)比分析
        出版與印刷(2016年3期)2016-02-02 01:20:11
        網(wǎng)購(gòu)中不良現(xiàn)象分析與應(yīng)對(duì)
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        偽造有價(jià)證券罪立法比較分析
        av免费不卡国产观看| 日本熟妇高潮爽视频在线观看| 日本一区二区视频免费在线观看| 国产精品无码翘臀在线观看| 日本高级黄色一区二区三区| 艳妇臀荡乳欲伦交换h在线观看| 大陆极品少妇内射aaaaa| 亚洲一区二区婷婷久久| 视频一区二区免费在线观看| 成人影片麻豆国产影片免费观看| 台湾无码av一区二区三区| 免费无码又爽又刺激高潮的视频网站| 亚洲成生人免费av毛片| 99re6在线视频精品免费下载| 欧洲精品免费一区二区三区| 国产免费网站看v片元遮挡| 亚洲av大片在线免费观看| 色欲色香天天天综合vvv| 亚洲av日韩av综合| 久久亚洲国产成人精品v| 国产精品亚洲一二三区| 国产精品扒开腿做爽爽爽视频| 东北妇女肥胖bbwbbwbbw| 日本高清中文字幕一区二区三区| 亚洲一区二区三区最新视频 | 蜜臀久久99精品久久久久久小说| 亚洲福利视频一区| 丰满少妇高潮在线观看| 永久免费视频网站在线| 国产免费av片在线播放| 中文字幕大屁股熟女乱| 自拍情爱视频在线观看| 国产精品日本一区二区在线播放 | 国产欧美日韩综合一区二区三区 | 亚洲AV无码精品色欲av| 精品理论一区二区三区| 午夜桃色视频在线观看| 中国午夜伦理片| 成人国产午夜在线视频| 亚洲中文字幕第一第二页| 亚洲av色欲色欲www|