亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向商業(yè)智能的數(shù)據(jù)挖掘體系結(jié)構(gòu)的應(yīng)用研究

        2009-01-01 00:00:00何月順
        商場現(xiàn)代化 2009年4期

        [摘 要] 大量商業(yè)交易數(shù)據(jù)中隱含著許多對商業(yè)決策有益的知識,數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)這些隱藏的模式和關(guān)系。本文分析并指出了通用數(shù)據(jù)挖掘體系結(jié)構(gòu)的特點(diǎn)和不足,應(yīng)用并行處理技術(shù)和數(shù)據(jù)挖掘結(jié)果存儲兩方面對現(xiàn)有數(shù)據(jù)挖掘體系結(jié)構(gòu)進(jìn)行改進(jìn)。提出了面向商業(yè)智能應(yīng)用的帶有模式存儲的并行數(shù)據(jù)挖掘體系結(jié)構(gòu),并對其特點(diǎn)進(jìn)行了分析,分析表明所提出的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)對于商業(yè)智能的應(yīng)用具有可行性。

        [關(guān)鍵詞] 并行數(shù)據(jù)挖掘 體系結(jié)構(gòu) 商業(yè)智能 模式庫

        引言

        企業(yè)為迎接市場的挑戰(zhàn),必須對市場運(yùn)作有準(zhǔn)確的分析。商業(yè)流通領(lǐng)域積累的大量交易數(shù)據(jù)中隱含著許多對商業(yè)決策有益的知識,傳統(tǒng)的分析方法很難從中提取出這些知識,利用數(shù)據(jù)挖掘技術(shù)可以得到準(zhǔn)確、及時(shí)的信息,決策人員以企業(yè)的數(shù)據(jù)倉庫為基礎(chǔ),通過聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘和決策規(guī)劃人員的專業(yè)知識,借助商務(wù)智能的核心技術(shù),利用企業(yè)中長期積累的海量數(shù)據(jù)可以實(shí)現(xiàn)四方面的應(yīng)用:客戶分類和特征分析、市場營銷策略分析、經(jīng)營成本與收入分析、欺詐行為分析和預(yù)防,數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)這些隱藏的模式和關(guān)系。

        并行數(shù)據(jù)挖掘體系結(jié)構(gòu)是并行數(shù)據(jù)挖掘技術(shù)研究的重要內(nèi)容,是實(shí)現(xiàn)并行數(shù)據(jù)挖掘的基礎(chǔ),選擇適當(dāng)?shù)摹⒏咝У?、具有較高性價(jià)比的商用并行體系結(jié)構(gòu)是整個(gè)研究工作的基礎(chǔ)。

        一、通用數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)

        特定領(lǐng)域的數(shù)據(jù)挖掘工具主要針對某個(gè)特定領(lǐng)域的問題提供解決方案。在進(jìn)行數(shù)據(jù)挖掘算法設(shè)計(jì)時(shí),設(shè)計(jì)者需要充分考慮特定領(lǐng)域的數(shù)據(jù)特點(diǎn)和挖掘需求等特殊性,并有針對性地對數(shù)據(jù)挖掘算法進(jìn)行優(yōu)化。

        通用的數(shù)據(jù)挖掘應(yīng)用系統(tǒng)大都以數(shù)據(jù)倉庫或大型關(guān)系數(shù)據(jù)庫為基礎(chǔ),且具有查詢、分析、表示等功能,它是企業(yè)決策支持系統(tǒng)的核心組成部分,可以將這些現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)的共同特點(diǎn)抽象成圖1所示的結(jié)構(gòu)。

        二、通用的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的不足及改進(jìn)思路

        通用的數(shù)據(jù)挖掘系統(tǒng)己經(jīng)在一定程度上滿足用戶的需要,但是在應(yīng)用實(shí)施過程中也存在著一些問題和不足。主要有以下幾點(diǎn):數(shù)據(jù)挖掘的效率有待進(jìn)一步提高;歷史模式不能得到有效利用;不同系統(tǒng)之間的互操作性差;面向不同應(yīng)用對象的針對性不強(qiáng)。

        數(shù)據(jù)挖掘往往面對的是巨大的數(shù)據(jù)集,即GB甚至TB數(shù)量級的數(shù)據(jù)集,數(shù)據(jù)挖掘技術(shù)研究的核心問題之一就是如何提高數(shù)據(jù)挖掘的效率,提高數(shù)據(jù)挖掘效率的途徑主要有以下幾個(gè)方面:

        1.對數(shù)據(jù)集進(jìn)行預(yù)處理,去除噪音數(shù)據(jù),按照挖掘要求對數(shù)據(jù)進(jìn)行清理和遷移,盡可能減少挖掘的數(shù)據(jù)量。

        2.針對各種數(shù)據(jù)挖掘和數(shù)據(jù)分析要求,研究、設(shè)計(jì)效率更高的各類數(shù)據(jù)挖掘算法。

        3.提高數(shù)據(jù)挖掘系統(tǒng)應(yīng)用的硬件性能或者采用并行處理技術(shù)提高數(shù)據(jù)挖掘的速度。

        4.借用緩存的概念,對挖掘結(jié)果進(jìn)行存儲再利用,以提高用戶挖掘請求的響應(yīng)速度。

        針對一般商業(yè)智能應(yīng)用領(lǐng)域的實(shí)際情況和需要,以提高數(shù)據(jù)挖掘應(yīng)用的效率為目標(biāo),本文將主要從并行處理技術(shù)和體系結(jié)構(gòu)方面對現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)進(jìn)行改進(jìn)和提高。

        三、并行數(shù)據(jù)挖掘體系結(jié)構(gòu)設(shè)計(jì)及特點(diǎn)

        為解決通用數(shù)據(jù)挖掘系統(tǒng)中存在的一些問題和針對商業(yè)智能的特點(diǎn),面向商業(yè)智能應(yīng)用的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)如圖2所示,由6部分組成:

        1.高性能并行計(jì)算環(huán)境:并行數(shù)據(jù)挖掘體系結(jié)構(gòu)中采用了高性價(jià)比的并行體系結(jié)構(gòu)COW(Cluster of Workstations)、數(shù)據(jù)挖掘算法由串行算法改為并行算法以及采用“緩存”概念將數(shù)據(jù)挖掘結(jié)果保存在模式庫中。并行處理技術(shù)的運(yùn)用無疑對于數(shù)據(jù)挖掘效率的提高具有重要意義和實(shí)用價(jià)值,為數(shù)據(jù)挖掘效率的提高奠定了堅(jiān)實(shí)的基礎(chǔ),對于商業(yè)智能應(yīng)用的推廣也具有重要作用。

        2.數(shù)據(jù)源:數(shù)據(jù)倉庫和其他數(shù)據(jù)源是數(shù)據(jù)挖掘的基礎(chǔ),商業(yè)智能應(yīng)用系統(tǒng)應(yīng)具有多種數(shù)據(jù)來源的處理能力,例如普通文件(電子郵件等)、關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市等。

        3.模式庫:為了提高數(shù)據(jù)挖掘的效率以及商業(yè)邏輯的處理速度,借助硬件內(nèi)存的“緩存”概念,將最近數(shù)據(jù)挖掘或者數(shù)據(jù)分析的結(jié)果(模式也許只是一個(gè)簡單的規(guī)則描述)保存在模式庫中,以便再次發(fā)生類似或者相同操作請求時(shí)能先在模式庫中查找挖掘結(jié)果,從而盡量避免每次都從海量數(shù)據(jù)中進(jìn)行挖掘操作,這樣可以較大幅度提高處理速度。因此,模式庫的建立為歷史模式的有效利用提供了可能和基礎(chǔ)

        另外,由于模式庫中存儲的是歷次挖掘出來的模式,可以從分析模式的變化來進(jìn)行趨勢預(yù)測,從而為決策支持提供了更多的分析手段。

        4.學(xué)習(xí)和推薦Agent:增加了一個(gè)用戶興趣分析檔案庫,由學(xué)習(xí)Agent進(jìn)行更新維護(hù),供推薦Agent分析使用。學(xué)習(xí)Agent將根據(jù)權(quán)值的計(jì)算方法對用戶興趣檔案中沒有出現(xiàn)過的關(guān)鍵字進(jìn)行加權(quán)操作。推薦Agent根據(jù)已有的用戶興趣檔案,分析用戶可能感興趣的模式,并推薦給用戶。

        5.并行數(shù)據(jù)挖掘工具/多維分析工具:數(shù)據(jù)挖掘是商業(yè)智能的核心,并行數(shù)據(jù)挖掘算法對于提高數(shù)據(jù)挖掘效率具有重要意義。為了適應(yīng)商業(yè)智能應(yīng)用的需要,僅提供多維分析工具是遠(yuǎn)遠(yuǎn)不夠的,應(yīng)盡可能多的提供對多種模式的支持。商業(yè)智能涉及關(guān)聯(lián)、分類、聚類、時(shí)序等模式,并行數(shù)據(jù)挖掘工具盡能包含對這些模式的支持,這也是衡量并行數(shù)據(jù)挖掘工具好壞的標(biāo)準(zhǔn)之一。

        6.可視化工具:為用戶提供數(shù)據(jù)挖掘結(jié)果的自觀表示方法。

        除上述特點(diǎn)外,通過對并行數(shù)據(jù)挖掘體系結(jié)構(gòu)的設(shè)計(jì)與改進(jìn)在以下兩個(gè)方面取得了較好的效果:

        (1)提高了系統(tǒng)之間的互操作性:現(xiàn)有的數(shù)據(jù)挖掘產(chǎn)品,對挖掘結(jié)果都有各自特殊的存儲格式,不同挖掘工具之間要共享挖掘的結(jié)果非常困難。然而,對模式的集中存儲就可以有效地解決上述問題,即設(shè)計(jì)類似SQL的查詢語言,或設(shè)計(jì)通用的模式庫接口。不同的挖掘工具通過使用模式查詢語言或調(diào)用模式庫接口的功能函數(shù)就可以共享模式庫中存儲的模式。

        (2)并行處理能力強(qiáng)、可擴(kuò)展性好、可用性高:改進(jìn)后的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)建立在可擴(kuò)展機(jī)群之上,除了具有較高的.可伸縮的并行處理能力之外,系統(tǒng)的可擴(kuò)展性也非常好,可以通過增加或者減少處理結(jié)點(diǎn)數(shù)調(diào)整系統(tǒng)的處理能力,從而適應(yīng)不同數(shù)據(jù)規(guī)模的處理需要,除此之外,系統(tǒng)的可用性高也是其顯著特點(diǎn),一般情況下COW的可用性指標(biāo)都在99.9%以上,為商業(yè)智能應(yīng)用系統(tǒng)的穩(wěn)定運(yùn)行提供了可靠保證。

        四、結(jié)束語

        并行數(shù)據(jù)挖掘體系結(jié)構(gòu)具有較高的并行處理能力和性價(jià)比,以及方便靈活的并行程序設(shè)計(jì)環(huán)境,對于實(shí)施商業(yè)智能應(yīng)用的客戶和應(yīng)用領(lǐng)域來講,具有可操作性。大多商業(yè)智能應(yīng)用客戶已經(jīng)或者容易獲得本文給出的并行處理環(huán)境,不需要投入大量的經(jīng)費(fèi)購置專用的并行處理系統(tǒng)。

        模式庫的提出是一種新的有益的探索。由于模式庫中存儲了歷史挖掘模式,如果其中的模式接近挖掘請求的時(shí)間,則可用這些模式自接作為挖掘的結(jié)果,不用再進(jìn)行新的數(shù)據(jù)挖掘,在模式庫中進(jìn)行查詢操作的響應(yīng)會明顯加快,大大提高了數(shù)據(jù)挖掘的效率。

        參考文獻(xiàn):

        [1]熊忠陽:面向商業(yè)智能的并行數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[學(xué)位論文].重慶大學(xué),2004

        [2]Mohammed J. Zaki,Yi Pan. Introduction: Recent Developments in Parallel and Distributed Data Mining. Kluwer Academic Publishers. 2002

        [3]Efrem G. Mallach. Decision support and data warehouse systems[J], Boston: McGraw-Hill, 2005.12,79-80

        深夜一区二区三区视频在线观看| a观看v视频网站入口免费| 成人无码a级毛片免费| 一道本加勒比在线观看| 亚洲av综合色区无码一区| 男女啪啪无遮挡免费网站| 熟妇无码AV| 日本加勒比一区二区在线观看| 在线视频国产91自拍| 欧美a级情欲片在线观看免费| 最新国产午夜福利| 久久天堂精品一区专区av| 蜜臀一区二区三区精品| 蜜臀av性久久久久蜜臀aⅴ| 精品久久久久久无码不卡| 国产精品丝袜美腿诱惑| 亚洲av综合色区无码另类小说| 国产午夜福利在线播放| 国产高清a| 日本亚洲视频免费在线看| 西西午夜无码大胆啪啪国模| 4444亚洲人成无码网在线观看 | 亚洲精品一区二区三区蜜臀| 色综合久久中文综合网亚洲| 水蜜桃精品一二三| 中文字幕不卡高清免费| 亚洲精品中文字幕乱码3| 亚洲av永久无码精品古装片 | 欧美高大丰满freesex| 蜜桃伦理一区二区三区| 久久久精品国产亚洲av网深田 | 亚洲视频在线看| 日韩成精品视频在线观看| 人妻精品在线手机观看| 风韵饥渴少妇在线观看| 9丨精品国产高清自在线看| 免费播放成人大片视频| 狠狠色狠狠色综合| 久久99国产亚洲高清| 蜜臀av一区二区三区| 欧美精品亚洲精品日韩专区|