亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘及其在企業(yè)管理中的應(yīng)用

        2008-01-01 00:00:00孫華梅
        商業(yè)研究 2008年5期

        摘要:企業(yè)在管理過程中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)的背后隱藏著與企業(yè)密切相關(guān)的極其重要的知識。聚類、關(guān)聯(lián)規(guī)則、序列模式、統(tǒng)計分析、特征規(guī)則等數(shù)據(jù)挖掘方法能從這些海量數(shù)據(jù)中發(fā)現(xiàn)有用的知識,使數(shù)據(jù)真正成為企業(yè)的財富,為企業(yè)的決策和發(fā)展服務(wù)。目前數(shù)據(jù)挖掘已被廣泛應(yīng)用于銀行、電信等行業(yè),用來對客戶數(shù)據(jù)進(jìn)行正確的分析,挖掘消費模式,預(yù)測客戶未來的行為,針對客戶的需求提供個性化的服務(wù)。

        關(guān)鍵詞:數(shù)據(jù)挖掘; 聚類; 關(guān)聯(lián)規(guī)則

        中圖分類號:F270.7 文獻(xiàn)標(biāo)識碼:A

        The Application of Data Miningin Enterprise Management

        SUN Hua-mei

        (School of Management Harbin Institute of Technology, Harbin 150001, China)

        Abstract:

        The enormous data, generated during management process of enterprise, together with very critical knowledge hidden therein, are closely connected to the enterprise. Data mining methods such as clustering, association rules, sequential pattern, statistics analysis, characteristics rules, etc. can be used to find out useful knowledge, enabling such data to become the real fortune of enterprise and serve enterprise decision making and development. Currently, Data mining has been widely used in industries such as banking and telecommunication, for analyzing customer data accurately, mining consumption mode, predicting future behavior of customer and providing individuation service according to customer requirements.

        一、引言

        隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的迅猛發(fā)展,企業(yè)在業(yè)務(wù)操作、商務(wù)管理等過程中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)背后隱藏著與企業(yè)密切相關(guān)的極其重要的知識。

        隨著人們對信息技術(shù)利用能力的增強(qiáng),對數(shù)據(jù)的應(yīng)用也從低級的查詢操作,提升到為企業(yè)經(jīng)營管理提供決策支持。如何從海量數(shù)據(jù)中發(fā)現(xiàn)有用的知識,使數(shù)據(jù)真正成為企業(yè)的財富,為企業(yè)的決策和發(fā)展服務(wù),這是信息時代極具挑戰(zhàn)性的課題。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,滿足了企業(yè)的迫切需求,顯示出了強(qiáng)大的生命力, 隨著研究的不斷深入,有關(guān)理論和方法將日益完善。

        二、數(shù)據(jù)挖掘的基本概念

        數(shù)據(jù)挖掘(Data Mining)的概念是1995年在美國計算機(jī)學(xué)會ACM會議上首次被提出的。目前對于數(shù)據(jù)挖掘,比較一致的看法是:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的原始數(shù)據(jù)中抽取隱含的,以前未知的,潛在有用的信息和知識的過程。

        數(shù)據(jù)挖掘是一門交叉性學(xué)科,它涉及人工智能、數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、模式識別、信息學(xué)、信息檢索、統(tǒng)計學(xué)等多個領(lǐng)域。在對數(shù)據(jù)庫技術(shù)研究的歷程中,相繼出現(xiàn)了一些相似的術(shù)語,例如數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)、數(shù)據(jù)融合(Data Fusion)等。KDD是1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次提出的, 由Fayyad等給出了比較完整的定義[1], 即“KDD是從大量數(shù)據(jù)集中識別出有效的,新穎的,潛在有用的以及最終可理解模式的高級處理過程?!?Fayyad將 KDD分為九個階段,即數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、KDD目標(biāo)確定、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及評價。在KDD處理過程中,首先需要了解領(lǐng)域的背景知識,分析相關(guān)數(shù)據(jù)或樣本,檢驗數(shù)據(jù)的完整性和一致性,去除與挖掘無關(guān)的數(shù)據(jù);然后要選擇合適的知識發(fā)現(xiàn)算法完成KDD目標(biāo),挖掘出用戶所需要的知識;最后要對挖掘出的知識進(jìn)行解釋,并提供給用戶并進(jìn)行正確的評價。

        隨著Internet的迅速發(fā)展,Web上的信息以驚人的速度在增長。Web上的信息資源具有海量、分布、動態(tài)、異質(zhì)等特點,我們將傳統(tǒng)的數(shù)據(jù)挖掘思想和方法應(yīng)用于Web數(shù)據(jù),形成了Web數(shù)據(jù)挖掘這樣一個新的研究方向。

        Web數(shù)據(jù)挖掘是以從Web上挖掘有用知識為目標(biāo),它將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來,利用數(shù)據(jù)挖掘技術(shù)從Web文檔和Web活動中發(fā)現(xiàn)有效的、新穎的、潛在有用的,并且最終可理解的信息和模式[2-4]。按照挖掘?qū)ο蟮牟煌?,將Web數(shù)據(jù)挖掘分為三類:Web內(nèi)容挖掘(Web Content Mining),Web結(jié)構(gòu)挖掘(Web Structure Mining),Web使用挖掘(Web Usage Mining),其中最有意義的部分應(yīng)在使用挖掘,因為它同客戶行為密切相關(guān)。

        三、數(shù)據(jù)挖掘技術(shù)

        由于數(shù)據(jù)易受噪聲、不一致等因素的影響,所以在進(jìn)行數(shù)據(jù)挖掘前要進(jìn)行數(shù)據(jù)預(yù)處理,以降低原始數(shù)據(jù)的維數(shù),提高數(shù)據(jù)的質(zhì)量和挖掘的速度。數(shù)據(jù)預(yù)處理后,要對數(shù)據(jù)挖掘模式進(jìn)行分析,這是數(shù)據(jù)挖掘的重點。下面將對數(shù)據(jù)挖掘能夠發(fā)現(xiàn)的模式如聚類、關(guān)聯(lián)規(guī)則等及相應(yīng)的挖掘技術(shù)進(jìn)行深入的探討。

        (一)聚類

        聚類著重于發(fā)現(xiàn)數(shù)據(jù)集中數(shù)據(jù)的共性和差異, 通過描述數(shù)據(jù)對象的一組屬性,按照類間相似度最小,類內(nèi)相似度最大的原則,將無標(biāo)識的對象劃分成為不同的類屬。

        1963年,由Robert Sokal等人著的《Principles of Numerical Taxonomy》一書對聚類的研究起了很大的推動作用。隨著研究的不斷深入,研究人員開發(fā)出了許多聚類算法,主要有層次方法,劃分方法,基于密度的方法,基于網(wǎng)格的方法,基于模型的方法等。

        層次聚類(Hierarchical Method)對給定的數(shù)據(jù)對象,創(chuàng)建一個層次性的分解或聚合,層次聚類又分為聚合式層次聚類(Agglomerative)和分裂式層次聚類(Divisive),兩者層次開展的方向恰好相反。研究人員正努力將層次聚類和其他聚類方法結(jié)合起來,以期提高聚類的效果。BIRCH (Blanced Interative Reducing and Clustering Using Hierarchy)采用了聚類特征的概念和聚類特征樹的數(shù)據(jù)結(jié)構(gòu),通過對數(shù)據(jù)對象的單遍掃描產(chǎn)生基礎(chǔ)聚類,經(jīng)過多遍掃描后顯著地提高了聚類的質(zhì)量[5]。

        劃分方法(Partitional Clustering)是將包含n個數(shù)據(jù)對象的數(shù)據(jù)庫通過一定的劃分算法和劃分準(zhǔn)則分為K個簇,K為算法的輸入?yún)?shù),常用的劃分方法有K-均值和K-中心點兩種。CLARANS(Clustering Large Applications Based on RANdomized Search)是典型的劃分聚類方法,它通過迭代控制策略來優(yōu)化聚類的結(jié)果,能較好地處理大的數(shù)據(jù)集合[6]。

        基于密度的方法(Density-based Clustering)的一個顯著的特點是:它不是基于各種形式定義的距離,而是基于密度。鑒于聚類的原則是使類內(nèi)的相似度盡可能地大,類間的相似度盡可能地小,那么從密度的角度來看,聚類內(nèi)部的點的密度應(yīng)盡可能地大,聚類之間的點的密度應(yīng)盡可能地小。DBSCAN是基于密度的典型聚類系統(tǒng),優(yōu)點是聚類效率高,抗噪聲能力強(qiáng)。

        基于網(wǎng)格的聚類(Grid-based Clustering)將數(shù)據(jù)空間量化,并將其劃分為有限個網(wǎng)格單元(Grid Cell),該方法的優(yōu)勢在于快速的處理過程。Wave Cluster是一種基于小波分析的網(wǎng)格聚類方法,善于處理大規(guī)模的數(shù)據(jù),輸出不受數(shù)據(jù)噪音的影響[7]。

        基于模型的聚類方法(Model-based Clustering)在數(shù)據(jù)與模型之間建立最好的適應(yīng)結(jié)合關(guān)系,它試圖去尋找滿足給定模型的最合理的數(shù)據(jù)集。基于圖的聚類(Graph-based Clustering)方法進(jìn)一步充實了傳統(tǒng)的聚類,提供了許多能更好地解決聚類問題的途徑。

        聚類分析在企業(yè)的應(yīng)用極其廣泛。企業(yè)通過聚類可以從消費者中區(qū)分出具有不同特征的消費者群,并給出每一類群體的消費模式,從而為營銷決策提供有力的指導(dǎo), 例如正確地細(xì)分產(chǎn)品市場和客戶,挖掘潛在顧客,提高顧客忠誠等。聚類分析涉及到人類活動的方方面面,它幫助人們發(fā)現(xiàn)數(shù)據(jù)類的特征,在市場研究,數(shù)據(jù)分析等許多領(lǐng)域發(fā)揮了巨大的作用。

        (二)關(guān)聯(lián)規(guī)則

        關(guān)聯(lián)規(guī)則挖掘(Association Rule Mining)是數(shù)據(jù)挖掘眾多分枝中極為重要的一種。1993年R. Agrawal等人在對市場購物籃(Market Basket)問題進(jìn)行研究時首先提出了關(guān)聯(lián)規(guī)則。

        定義1 設(shè)集合I={i,i2,…,∧,im}由m個不同項目組成,事務(wù)數(shù)據(jù)庫記為D,D中的每一條事務(wù)記為T,TI。

        若X、Y均為項目集,且XI,YI,XIY=Φ,則稱蘊(yùn)含式XY為關(guān)聯(lián)規(guī)則,其中X為規(guī)則的前件,Y為規(guī)則的后件。

        定義2 支持度sup(XY)=P(XYY),表示同時包含X與Y的事務(wù)在事務(wù)數(shù)據(jù)庫中出現(xiàn)的概率。

        定義3 置信度con(XY)=[SX(]sup(XY)[]sup(X)[SX)]=P(Y/X)

        關(guān)聯(lián)規(guī)則挖掘算法中最基本的算法是Apriori算法。Apriori采用了層次搜索的方法,通過第k-1個頻繁集搜索生成第k個頻繁集,同時使用了Apriori性質(zhì), 即頻繁項集的所有非空子集都是頻繁項集,任何非頻繁的(k-1)-項集都不可能是頻繁k-項集的子集[8] 。

        根據(jù)規(guī)則處理的變量的不同,可將關(guān)聯(lián)規(guī)則分為布爾型關(guān)聯(lián)規(guī)則(Boolean Association Rules)和多值關(guān)聯(lián)規(guī)則(Quantitative Association Rules);根據(jù)規(guī)則中涉及的數(shù)據(jù)維的不同,可將關(guān)聯(lián)規(guī)則分為單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則。文獻(xiàn)[9]提出了一種基于免疫遺傳算法的多維關(guān)聯(lián)規(guī)則挖掘方法,該方法在遺傳算法中引入了免疫機(jī)制,能快速有效地進(jìn)行全局優(yōu)化搜索。

        關(guān)聯(lián)規(guī)則最原始的應(yīng)用是對超級市場購物籃的分析,挖掘經(jīng)常被顧客一同購買的商品之間隱含的規(guī)則,從而輔助商家進(jìn)行經(jīng)營決策。通過對歷史銷售數(shù)據(jù)進(jìn)行分析,可以挖掘用戶的消費模式。若商品X與Y之間存在規(guī)則 ,則可將Y作為促銷產(chǎn)品與X一起捆綁銷售。如今,人們已將關(guān)聯(lián)規(guī)則應(yīng)用到各行各業(yè),象金融業(yè)、保險業(yè)、通訊領(lǐng)域等等,并取得了一系列的成果。

        (三)序列模式

        序列模式是指在時序數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的前后(因果順序等)關(guān)系模式。從大量事件序列中發(fā)現(xiàn)頻繁出現(xiàn)的事件序列稱為序列模式挖掘[10]。

        序列模式和時間屬性有著密切的關(guān)系,可以說序列模式是在具有時間特征的數(shù)據(jù)庫中進(jìn)行的關(guān)聯(lián)發(fā)現(xiàn)。例如,如果一個人購買物品A,那么他一定會在1個月內(nèi)繼續(xù)購買物品B,這樣的例子描述的是序列模式?,F(xiàn)實世界中大量的數(shù)據(jù)采集都與時間有關(guān),時間序列中包含很多有價值的信息,因此對時間序列數(shù)據(jù)挖掘的研究對企業(yè)的管理也具有重要的意義。

        數(shù)據(jù)挖掘方法中除了前面講到的聚類、關(guān)聯(lián)規(guī)則、序列模式外,還有許多其他方法,如分類、統(tǒng)計分析、特征規(guī)則等。各種方法都從不同角度對數(shù)據(jù)挖掘進(jìn)行了詮釋,顯示了數(shù)據(jù)挖掘理論和方法的優(yōu)越性和廣泛的適用性。

        四、數(shù)據(jù)挖掘在企業(yè)管理中的應(yīng)用

        面對激烈的市場競爭,如何能建立有效的途徑,加強(qiáng)與客戶之間的溝通和理解,提高贏利能力,這些需求促使企業(yè)認(rèn)識到應(yīng)用數(shù)據(jù)挖掘的必要性??蛻羰瞧髽I(yè)利潤的源泉,正確對客戶數(shù)據(jù)進(jìn)行分析,挖掘消費模式,減少投資風(fēng)險,加強(qiáng)客戶關(guān)系管理等等,這都是數(shù)據(jù)挖掘為企業(yè)帶來的益處。下面以電信業(yè)和銀行業(yè)為例談?wù)剶?shù)據(jù)挖掘的應(yīng)用。

        在電信行業(yè),如今許多電信企業(yè)都已建起了不同規(guī)模的數(shù)據(jù)倉庫系統(tǒng),利用數(shù)據(jù)挖掘技術(shù)有效地抽取數(shù)據(jù)中的信息, 輔助企業(yè)進(jìn)行經(jīng)營預(yù)測和戰(zhàn)略決策。例如,對于象呼叫時間等具有多維性的電信數(shù)據(jù),利用數(shù)據(jù)挖掘的多維分析等技術(shù),便可以了解數(shù)據(jù)通信狀況,發(fā)現(xiàn)最佳客戶及流失客戶等,提高企業(yè)的業(yè)績。

        數(shù)據(jù)挖掘在銀行業(yè)的應(yīng)用早已受到普遍的關(guān)注,許多銀行都成立了數(shù)據(jù)挖掘部門,用來輔助銀行進(jìn)行風(fēng)險評估、預(yù)測等方面的工作。例如美國某著名銀行使用數(shù)據(jù)挖掘工具,分析顧客的消費規(guī)律,通過客戶以往的需求趨勢,預(yù)測客戶未來的行為,顯著提高了銀行的競爭優(yōu)勢。目前結(jié)合數(shù)據(jù)挖掘技術(shù)開發(fā)出的實時營銷工具,將數(shù)據(jù)挖掘模型與客戶的實時交互集成起來,能有效地整合營銷的各個環(huán)節(jié),并針對客戶的需求提供個性化的服務(wù)。例如,當(dāng)客戶訪問銀行站點時,相關(guān)系統(tǒng)會將訪問信息進(jìn)行及時地處理,并根據(jù)處理的結(jié)果指導(dǎo)銀行調(diào)整已有的戰(zhàn)略,做出正確的經(jīng)營管理決策,從而提高客戶滿意度和忠誠度。如今數(shù)據(jù)挖掘技術(shù)已成為金融服務(wù)領(lǐng)域中極為重要的應(yīng)用。

        五、結(jié)束語

        數(shù)據(jù)挖掘是近年來十分熱門的研究領(lǐng)域,尤其是Web數(shù)據(jù)挖掘的研究拓展了這一領(lǐng)域的深度和廣度。新的數(shù)據(jù)挖掘方法不斷問世,應(yīng)用于企業(yè)的數(shù)據(jù)挖掘工具也不斷產(chǎn)生和完善。盡管數(shù)據(jù)挖掘技術(shù)仍面臨著很大的挑戰(zhàn),許多問題有待于進(jìn)一步探索,但有一點毋庸置疑,那就是數(shù)據(jù)挖掘的研究和應(yīng)用產(chǎn)生了巨大的社會效益和經(jīng)濟(jì)效益,為信息社會的發(fā)展做出了貢獻(xiàn)。

        參考文獻(xiàn):

        [1] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM. 1996,39(11):27-34

        [2] S. Chakrabarti. Data Mining for Hypertext: A Tutorial Survey. SIGKDD Explorations. 2000,1(2):1-11

        [3] J. Lee and W. Shiu. An Adaptive Website System to Improve Efficiency with Web Mining Techniques. Advanced Engineering Informatics. 2004,18(3):130-140

        [4] Q.Song and M. Shepperd. Mining Web Browsing Patterns for E-commerce. Computers in Industry. 2006,57(7):623-629

        [5] T. Zhang, R. Ramakrishnan, M. Linvy. BIRCH: An Efficient Data Clustering Method for Very Large Databases. Proc. of ACM SIGMOD Int. Conf. on Management of Data, ACM Press, 1996: 103-114

        [6] R. Ng, J. Han. Efficient and Effective Clustering Methods for Spatial Data Mining. In Proceedings of the 20th International Conference on Very Large Databases, Santiago, Chile, Morgan Kaufmann, 1994: 144-155

        [7] G. Sheikholeslami, S. Chatterjee, A. Zhang. Wavecluster: A Multi-Resolution Clustering Approach for Very Large Spatial Databases. Proceedings of the 24th International Conference on Very Large Databases, New York ,1998: 428-439

        [8] 黃明, 魏靜波, 牛娃. 對Apriori算法的進(jìn)一步改進(jìn)[J]. 大連鐵道學(xué)院學(xué)報. 2003, 24(4):48-49

        [9] 高堅.基于免疫遺傳算法的多維關(guān)聯(lián)規(guī)則挖掘[J]. 計算機(jī)工程與應(yīng)用. 2003(32): 185-186

        [10] N. Chen , A. Chen, L. Zhou, L. Liu. A Fast Algorithm for Mining Sequential Patterns from Large Databases. Computer Science and Technology. 2001,16 (1): 1-12

        (責(zé)任編輯:石樹文)

        注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”

        日本色噜噜| 欧美激欧美啪啪片| 亚欧免费无码aⅴ在线观看| 国产免费又色又爽又黄软件| 久久久久久久妓女精品免费影院| av男人操美女一区二区三区| 国产激情一区二区三区在线| 少妇粉嫩小泬喷水视频www| 99这里只有精品| 黄色av三级在线免费观看| 国产三区三区三区看三区| 后入到高潮免费观看| 大学生被内谢粉嫩无套| h动漫尤物视频| 日本一区二区三区四区啪啪啪| 国产成人av综合色| 亚洲熟妇av乱码在线观看| 久久精品熟女亚洲av艳妇| 在线观看国产激情视频| 国产精品人妻一码二码| 在线观看国产高清免费不卡黄| 中文熟女av一区二区| 亚洲一二三区免费视频| 天堂资源中文最新版在线一区| 国产成人啪精品午夜网站| 一区二区三区在线观看视频| 久久99亚洲精品久久久久 | 一本久久精品久久综合| 免费无码a片一区二三区| 欧美日韩国产综合aⅴ| 国产一区二区三区porn| 精品无码av一区二区三区不卡| 朝鲜女子内射杂交bbw| 成人午夜免费福利| 中文资源在线一区二区三区av| 国产肉体xxxx裸体137大胆| 欧美精品中文| 少妇特殊按摩高潮对白| 精品av熟女一区二区偷窥海滩 | 日日av拍夜夜添久久免费| 偷拍熟女亚洲另类|