[摘要] 介紹了數(shù)據(jù)挖掘的概念,基本任務(wù)及數(shù)據(jù)挖掘的方法和技術(shù),分析了數(shù)據(jù)挖掘技術(shù)在制造型企業(yè)信息系統(tǒng)中的應(yīng)用。討論了構(gòu)建一個基于數(shù)據(jù)挖掘技術(shù)的制造型企業(yè)決策支持系統(tǒng)基本結(jié)構(gòu)框架。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 信息系統(tǒng) 決策支持系統(tǒng)
目前,隨著計算機(jī)技術(shù)和通信技術(shù)的不斷進(jìn)步,制造型企業(yè)的信息化進(jìn)程也不斷前進(jìn),許多企業(yè)由從前各部門獨(dú)立開發(fā)的信息系統(tǒng),上升到現(xiàn)在的ERP,電子商務(wù)等先進(jìn)綜合的管理信息系統(tǒng)的應(yīng)用,極大地提高了企業(yè)的核心競爭力,但這些系統(tǒng)基本上是為業(yè)務(wù)流程自動化而設(shè)計的OLTP應(yīng)用,由此產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)并不是各個業(yè)務(wù)部門管理人員所需要的決策支持信息,因而造成了“數(shù)據(jù)豐富,信息貧乏”的現(xiàn)象。如何從這些豐富的業(yè)務(wù)數(shù)據(jù)中獲得知識,幫助制造型企業(yè)的各級管理人員進(jìn)行科學(xué)的決策,讓企業(yè)在日益激烈的市場環(huán)境下,能迅速地適應(yīng)市場的需要并快速地做出響應(yīng),這成為了企業(yè)信息化工作的當(dāng)務(wù)之急。
一、數(shù)據(jù)挖掘
1.數(shù)據(jù)挖掘簡介。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有用的信息,即從大量的、不完全的、有噪音的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的,但又是潛在有用的并且最終可理解的信息和知識的非平凡過程。它是一門交叉學(xué)科,融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘涉及使用各種各樣的算法來完成不同的任務(wù)。所有這些算法都試圖為數(shù)據(jù)建立合適的模型,并確定與所分析數(shù)據(jù)的特征最符合的模型。在企業(yè)信息化中應(yīng)用數(shù)據(jù)挖掘技術(shù)就是利用計算機(jī)技術(shù)高度自動化地分析企業(yè)信息化過程中積累的大量數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模型,預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略和生產(chǎn)計劃,減少庫存的風(fēng)險,做出科學(xué)的決策。
2.數(shù)據(jù)挖掘的基本任務(wù)。根據(jù)發(fā)現(xiàn)知識的不同,數(shù)據(jù)挖掘的任務(wù)主要分為以下6類:(1)關(guān)聯(lián)分析,揭示隱藏在數(shù)據(jù)之間相互關(guān)系的一項數(shù)據(jù)挖掘任務(wù)。(2)序列發(fā)現(xiàn),是指確定數(shù)據(jù)之間與時間相關(guān)的序列模式,利用該模式可對未來的相關(guān)行為進(jìn)行預(yù)測。(3)聚類分析,是指依賴樣本間關(guān)聯(lián)的量度標(biāo)準(zhǔn)將其自動分成幾個群組,且使同一群組內(nèi)的樣本相似,而屬于不同群組的樣本相異的一組方法。(4)分類,是指找出一個類別的概念描述,它代表了這個類別數(shù)據(jù)的整體信息,一般用規(guī)則或決策樹模式表示。(5)偏差檢測,就是從數(shù)據(jù)分析中發(fā)現(xiàn)某些異常情況是否重要,從而獲得有用的知識。(6)預(yù)測,就是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型來預(yù)測未來數(shù)據(jù)的種類、特征等。
3.數(shù)據(jù)挖掘方法和技術(shù)。數(shù)據(jù)挖掘方法是由人工智能、機(jī)器學(xué)習(xí)的方法發(fā)展而來,同時結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法、科學(xué)計算以及可視化技術(shù),以數(shù)據(jù)庫為研究對象的方法和技術(shù)。數(shù)據(jù)挖掘方法和技術(shù)可分為六類:歸納學(xué)習(xí)方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計分析方法、模糊數(shù)學(xué)方法和可視化技術(shù)。
(1)歸納學(xué)習(xí)方法。歸納學(xué)習(xí)方法分為基于信息論的方法和基于集合論的方法。①信息論方法,是利用信息論的原理在數(shù)據(jù)庫中尋找信息量最大的屬性來建立屬性的決策樹。②集合論方法,是根據(jù)數(shù)據(jù)庫中各屬性的元組集合之間關(guān)系來建立屬性間的規(guī)則。主要用于分類問題。
(2)仿生物技術(shù)。仿生物技術(shù)典型的方法是神經(jīng)網(wǎng)絡(luò)方法和遺傳算法。1)神經(jīng)網(wǎng)絡(luò)方法:模擬人腦神經(jīng)元結(jié)構(gòu),依據(jù)人腦的工作方式進(jìn)行建模的一種方法,其在半結(jié)構(gòu)化和非結(jié)構(gòu)化問題的分類及預(yù)測方面具有較大的優(yōu)勢。2)遺傳算法:是模擬生物遺傳進(jìn)化過程,對選擇、交叉及變異過程建立數(shù)學(xué)算法。遺傳算法已在優(yōu)化計算和分類機(jī)器學(xué)習(xí)方面發(fā)揮了顯著的效果。
(3)公式發(fā)現(xiàn)。公式發(fā)現(xiàn)是通過在工程和科學(xué)數(shù)據(jù)庫(由實驗數(shù)據(jù)組成)中對若干數(shù)據(jù)項(變量)進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)得數(shù)學(xué)公式,并用其來概括大量數(shù)據(jù)的方法。
4.統(tǒng)計分析方法。統(tǒng)計分析是通過對總體中的樣本數(shù)據(jù)進(jìn)行分析,得出描述和推斷該總體信息和知識的方法,主要包括6類方法:常用統(tǒng)計,相關(guān)分析,回歸分析,假設(shè)檢驗,聚類分析,判斷分析。
5.模糊數(shù)學(xué)方法。模糊數(shù)學(xué)是反映人們思維的一種方式。將模糊數(shù)學(xué)應(yīng)用于數(shù)據(jù)挖掘的各項任務(wù)中就形成了模糊數(shù)據(jù)挖掘。利用模糊集合論理論進(jìn)行數(shù)據(jù)挖掘的方法有:模糊模式識別、模糊聚類、模糊分類。
6.可視化技術(shù)??梢暬夹g(shù)是一種圖形顯示技術(shù)。例如,把數(shù)據(jù)庫中多維數(shù)據(jù)變成多種圖形,便于揭示數(shù)據(jù)中內(nèi)在本質(zhì)以及分布規(guī)律。
二、數(shù)據(jù)挖掘技術(shù)在制造型企業(yè)信息化中應(yīng)用分析
目前制造型企業(yè)信息化建設(shè)都以ERP理論為標(biāo)準(zhǔn)。ERP(Enterprise Resource Planning)企業(yè)資源計劃是由美國GarterGroup Inc.咨詢公司首先提出的,其主要宗旨是對企業(yè)所擁有的人、財、物、信息、時間和空間等綜合資源進(jìn)行綜合平衡和優(yōu)化管理,面向全球市場,協(xié)調(diào)企業(yè)各管理部門,圍繞市場導(dǎo)向開展業(yè)務(wù)活動,使企業(yè)在市場競爭中全方位地發(fā)揮足夠的能力,從而取得最好的經(jīng)濟(jì)效益。概括地說,ERP是建立在信息技術(shù)基礎(chǔ)上,利用現(xiàn)代企業(yè)的先進(jìn)管理思想,全面地集成了企業(yè)的所有資源信息,并為企業(yè)提供決策、計劃、控制與經(jīng)營業(yè)績評估的全方位和系統(tǒng)化的管理平臺?;贓RP理論的信息系統(tǒng)主要包括生產(chǎn)計劃管理、質(zhì)量管理、設(shè)備管理、采購管理、庫存管理、銷售管理、客戶關(guān)系管理、成本管理和財務(wù)管理等幾個主要的功能模塊,同時各模塊的信息被全面地集成在同一數(shù)據(jù)庫管理系統(tǒng)中,以便各功能模塊能方便地使用其他模塊的信息。
1.客戶關(guān)系管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用。ERP理論強(qiáng)調(diào)面向市場,以達(dá)到最大的客戶滿意度為導(dǎo)向來決定整個企業(yè)的生產(chǎn)經(jīng)營活動。因此在該模塊中可以根據(jù)客戶信息及客戶購買產(chǎn)品的信息利用聚類分析方法,對客戶的購買行為進(jìn)行分類,從而獲得哪些客戶群對哪些產(chǎn)品有偏好,利用關(guān)聯(lián)分析方法,分析客戶購買了某種產(chǎn)品后是否還會購買相關(guān)的其他產(chǎn)品,便于營銷部門制定針對性的營銷計劃,生產(chǎn)計劃部門制定出有針對性的生產(chǎn)計劃。
2.銷售管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用。銷售管理系統(tǒng)主要完成制訂銷售政策,制訂銷售計劃,合理分配分銷資源(人員、庫存與管理網(wǎng)絡(luò)的營運(yùn)),控制銷售回款等工作。
(1)銷售趨勢及銷售價格分析:根據(jù)歷史銷售數(shù)據(jù)利用神經(jīng)網(wǎng)絡(luò)、回歸分析和時序數(shù)據(jù)挖掘等技術(shù)預(yù)測未來的銷售趨勢,幫助管理人員制訂銷售政策和銷售計劃,合理分配分銷資源。
(2)信用評估和防止欺詐分析:利用神經(jīng)網(wǎng)絡(luò)、決策樹等數(shù)據(jù)挖掘方法進(jìn)行客戶信用的分析,幫助管理人員控制銷售回款。
3.庫存管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用。庫存管理系統(tǒng)主要對計劃存儲、流通的有關(guān)物品進(jìn)行相應(yīng)的管理以滿足生產(chǎn)和銷售的需要。根據(jù)倉庫信息及銷售和生產(chǎn)計劃利用神經(jīng)網(wǎng)絡(luò)、回歸分析和決策樹等數(shù)據(jù)挖掘方法預(yù)測未來庫存,幫助管理人員進(jìn)行庫存量的控制。
4.采購管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用。采購管理系統(tǒng)主要實現(xiàn)接受采購指示,選擇供應(yīng)商,下達(dá)訂單,訂單跟蹤和驗收貨物等管理工作。在該子系統(tǒng)中,可以根據(jù)供應(yīng)商的歷史數(shù)據(jù)和采購物品的歷史信息利用神經(jīng)網(wǎng)絡(luò)、決策樹和時序數(shù)據(jù)挖掘等數(shù)據(jù)挖掘方法對供應(yīng)商進(jìn)行信用分析,進(jìn)行物品供應(yīng)的數(shù)量、價格以及供應(yīng)時間的分析,幫助管理人員選擇供應(yīng)商及下達(dá)訂單。
5.設(shè)備管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用。設(shè)備管理系統(tǒng)通過對企業(yè)的設(shè)備與儀器臺賬的基本信息、運(yùn)行情況、保養(yǎng)情況、故障和事故情況處理、設(shè)備使用部門的變動情況及有關(guān)備件管理等信息的管理,使各級部門能及時地了解設(shè)備從安裝、使用、變動到報廢等過程的信息。
6.質(zhì)量管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用。質(zhì)量管理系統(tǒng)主要實現(xiàn)質(zhì)量檢驗與控制,質(zhì)量分析等功能。在該子系統(tǒng)中,可以根據(jù)質(zhì)量標(biāo)準(zhǔn)和質(zhì)量檢驗的歷史數(shù)據(jù),對質(zhì)量問題進(jìn)行聚類分析形成不同的分類,然后運(yùn)用決策樹技術(shù)形成規(guī)則,幫助系統(tǒng)對質(zhì)量問題進(jìn)行自動分類;利用關(guān)聯(lián)分析方法分析產(chǎn)生質(zhì)量問題的關(guān)聯(lián)因素,幫助管理人員進(jìn)行質(zhì)量控制。
7.生產(chǎn)計劃管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用。制造型企業(yè)涉及的有關(guān)生產(chǎn)計劃分為三種:綜合計劃(是銷售計劃與生產(chǎn)規(guī)劃計劃的綜合考慮),主生產(chǎn)計劃及物料需求計劃,其中綜合計劃決定了主生產(chǎn)計劃,主生產(chǎn)計劃決定了物料需求計劃。
三、基于數(shù)據(jù)挖掘技術(shù)的企業(yè)信息管理決策支持系統(tǒng)
基于數(shù)據(jù)挖掘技術(shù)的企業(yè)信息管理決策支持系統(tǒng),其目的是從業(yè)務(wù)系統(tǒng)積累的大量數(shù)據(jù)中發(fā)現(xiàn)對企業(yè)各級管理人員所需的決策支持信息,并將其展現(xiàn)給系統(tǒng)的使用者。數(shù)據(jù)挖掘被認(rèn)為是知識發(fā)現(xiàn)過程的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取合適的模型,這些模型經(jīng)過評估后成為有用的知識,人們使用這些知識對現(xiàn)有的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析和對未來的業(yè)務(wù)進(jìn)行預(yù)測,從而達(dá)到?jīng)Q策支持的目的。基于以上討論,一種基于數(shù)據(jù)挖掘技術(shù)的制造型企業(yè)信息管理決策支持系統(tǒng)基本結(jié)構(gòu)框架如圖所示。
本系統(tǒng)由人機(jī)交互模塊、決策支持模塊、模型管理模塊、模型庫、知識庫和業(yè)務(wù)數(shù)據(jù)庫或數(shù)據(jù)倉庫組成。
1.業(yè)務(wù)數(shù)據(jù)庫或數(shù)據(jù)倉庫。業(yè)務(wù)數(shù)據(jù)庫是企業(yè)業(yè)務(wù)管理信息系統(tǒng)建立的數(shù)據(jù)庫,數(shù)據(jù)倉庫是將分布在企業(yè)中多個業(yè)務(wù)管理系統(tǒng)中的數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換,并按決策主題的需要進(jìn)行重新組織,形成面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合。它們都可作為數(shù)據(jù)挖掘的數(shù)據(jù)源。
2.模型管理模塊。數(shù)據(jù)挖掘模型的構(gòu)造是一個不斷調(diào)整的過程,例如一些數(shù)據(jù)挖掘方法,需要利用樣本數(shù)據(jù)進(jìn)行有指導(dǎo)或無指導(dǎo)地自學(xué)習(xí)過程才能得到可用的知識模型,同時知識模型也并不是一成不變的,隨著時間的推移,數(shù)據(jù)的變化,需要進(jìn)行調(diào)整以適應(yīng)新的環(huán)境。該模塊主要用于構(gòu)造和維護(hù)數(shù)據(jù)挖掘模型,對數(shù)據(jù)挖掘模型進(jìn)行評估,最終得到用戶可以使用的知識模型。
3.決策支持模塊。根據(jù)用戶的需要,在決策支持模塊中,利用相應(yīng)的知識模型,對相應(yīng)的數(shù)據(jù)源進(jìn)行分析和計算,并將結(jié)果通過各種可視化的工具和圖形用戶界面展現(xiàn)。
4.模型庫。模型庫用于存儲實現(xiàn)模型算法的子程序、模型的結(jié)構(gòu)參數(shù)文件、有關(guān)的樣本數(shù)據(jù)文件、學(xué)習(xí)結(jié)果文件及學(xué)習(xí)誤差文件等等。
5.知識庫。知識庫中包含了在解決問題時所用的知識。即那些既不能用數(shù)據(jù)表示、也不能用模型描述的專門知識和歷史經(jīng)驗。知識庫中除了專家提供的知識,還包含在數(shù)據(jù)挖掘過程中得到的知識。知識庫中的知識可對數(shù)據(jù)挖掘過程不斷地提出指導(dǎo)和改進(jìn),同時對于挖掘結(jié)果和分析結(jié)果的有價值信息也會及時地輸入知識庫中存儲,還可以向前臺的人機(jī)交互界面直接輸出知識模式。
6.人機(jī)交互模塊。人機(jī)交互模塊是決策支持系統(tǒng)的人機(jī)交互接口,它負(fù)責(zé)接收和檢驗用戶的請求,為決策者提供信息收集、問題識別以及模型構(gòu)造、使用、改進(jìn)、分析和計算等功能。
本文在介紹數(shù)據(jù)挖掘概況的基礎(chǔ)上,講述了這門技術(shù)在制造型企業(yè)信息管理系統(tǒng)中應(yīng)用的可能性及其應(yīng)用特點(diǎn)。數(shù)據(jù)挖掘技術(shù)作為一門新興技術(shù)為制造型企業(yè)信息化管理提供決策支持提供了一種有效、可行的解決方案。隨著數(shù)據(jù)挖掘技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)在制造型企業(yè)信息管理中的作用將會推向一個更高的層次,分析、決策及知識處理會從一臺機(jī)器上的集中式處理,變成在網(wǎng)絡(luò)環(huán)境下的分布、或分布再加上并行的處理方式。這些變化將會為制造型企業(yè)信息化作出貢獻(xiàn),為企業(yè)帶來巨大的經(jīng)濟(jì)效益。
參考文獻(xiàn):
[1]Margaret H.Dunham:數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2005
[2]Jiawei Han等:數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001