廣西財經學院信息與統(tǒng)計學院 賴振丹
太原科技大學應用科學學院 龐寧
中國電信廣西分公司 陳偉平
1995年在美國計算機學會ACM會議中第一次提出了數據挖掘概念。所謂數據挖掘,就是指在諸多不完全、存噪且模糊的原始數據中將未知的具有潛在價值的信息及知識進行提取的過程。數據挖掘屬于一門交叉學科,廣泛涉及信息檢索、模式識別、人工智能等諸多領域。在數據挖掘研究進程中,先后出現了諸如知識發(fā)現、數據融合等專用術語。隨著互聯(lián)網的不斷發(fā)展,Web中的信息量迅猛增加,這些信息表現出量大、動態(tài)分布以及異質等方面的特征,將以往數據挖掘思想及方式融入到Web數據中,即產生了Web數據挖掘這一新的研究分支。
為了避免諸如噪聲等不利因素的影響,在實施數據挖掘前需要采取預處理措施,從而使原始數據維數得到適當控制,同時提升數據質量及挖掘速度;完成數據預處理之后,需要分析數據發(fā)掘模式,這也是最為關鍵的一個環(huán)節(jié)。數據發(fā)掘可以發(fā)現的模式主要有以下幾類:(1)聚類,以數據相同點和不同點的發(fā)現為重點,對一組對象屬性做出描述,依據一定的原則對沒有標識的對象進行類屬劃分;(2)關聯(lián)規(guī)則挖掘,在數據挖掘范疇之中,最為關鍵的一個分支就是關聯(lián)規(guī)則挖掘,最初是由R.Agrawal等在研究市場購物籃問題時提出的。劃分依據不用,關聯(lián)規(guī)則的分類也有所區(qū)別:以所處理的變量為依據,可以將其劃分為布爾型關聯(lián)規(guī)則以及多值關聯(lián)規(guī)則;以所涉及的數據維度為依據,又有單維及多維之分;(3)序列模式,所謂序列模式,主要指的是存在于時序數據集當中的數據相互間所存在的因果關系模式,頻繁出現于事件序列之中的時間序列就是序列模式挖掘。除此之外,還存在統(tǒng)計分析、分類以及特征規(guī)則等數據挖掘方法。
信息化的浪潮在世界各地,各行各業(yè)掀起,信息化的層次也在不斷演進,從MRPⅡ、ERP到CRM,從數據倉庫(Data Warehouse)到數據挖掘(Data Mining),每一次變革都極大地推動著企業(yè)信息化的升級和企業(yè)管理水平的提高。隨著世界生產技術的進步,社會生活的多元化,社交活動的復雜化,特別是電子信息技術的迅速發(fā)展與廣泛應用,改變了以往基本依賴人工操作的數據存儲變成了電子版本的數據資料,這一變革使得各種管理工作越來越依賴于對信息的管理。信息作為一種資源,使得人們的工作、生活以及思維方式發(fā)生了重大的變革,為企業(yè)的生產與經營提供了日益完善的手段。企業(yè)經營的百分之八十的時間用于信息的傳輸與處理,信息的采集、傳輸、加工和利用成為人們特別是信息工作者的主要活動。一些西方發(fā)達國家從事信息處理工作的人數多,在20世紀80年代就已經占職工總數的50%以上,而美國1993年政府報告“國家信息基礎結構:行動計劃”中指出“2/3的美國勞動者從事與信息有關的工作,其余1/3工作在高度依賴于信息的產業(yè)部門,”這種職工可以成為“知識工作者”,他們主要就是收集、傳輸和加工信息,包括編輯文件、寫報告、分析信息、作計劃等。所以現在各行各業(yè)對信息的管理要求越來越大。
隨著社會主義市場經濟的不斷發(fā)展,以及市場競爭激烈程度的日益加大,對于企業(yè)發(fā)展而言,通過有效可行的方式進一步增進與廣大客戶之間的交流及了解,提升企業(yè)盈利能力成為當前所面臨的一大發(fā)展性問題,同時也使企業(yè)更加深刻地認識到了在企業(yè)信息化管理過程中應用數據挖掘的重要性及必要性。在一定意義上講,企業(yè)盈利來源于廣大客戶,利用數據發(fā)掘,在對客戶數據進行準確地分析的基礎上,有助于發(fā)掘消費模式,實現對企業(yè)的投資經營風險的有效控制,并進一步搞好與客戶之間的關系。在此本文主要以銀行及電信兩大行業(yè)為例,對數據挖掘在企業(yè)信息化管理中的實際運用進行分析和探討。
在電信領域中,當前不少電信企業(yè)都已經從自身實際狀況出發(fā),建立起規(guī)模與自身能力相符合的數據倉庫系統(tǒng),借助數據挖掘技術實現對數據中有價值的相關信息的有效提取,并以其作為預測未來企業(yè)經營狀況、確定今后經營發(fā)展戰(zhàn)略的依據。例如,呼叫時間具有多維性,對于諸如此類的電信數據,借助數據挖掘中的多維分析等相關技術,將有助于深入了解當前的數據通信情況,并明確最佳客戶以及流失的客戶,這對于促進企業(yè)經營業(yè)績的不斷提升將會產生極為深遠的影響。
除電信行業(yè)之外,銀行領域對數據相關技術的運用也受到越來越多的關注,一些銀行為了向評估風險以及經營預測等方面的工作提供幫助,還專門成立數據挖掘部門。例如,美國一家著名銀行利用數據挖掘技術對銀行客戶消費規(guī)律進行分析,在對過去一段時間內客戶需求趨勢分析的基礎上,對客戶今后的行為加以預測,進而使該銀行的市場競爭優(yōu)勢有了很大程度的提升?,F如今,在數據挖掘技術基礎之上所研發(fā)的實時營銷工具,可以及時將數據挖掘模型與客戶交互予以集成,不但可以將各個營銷環(huán)節(jié)進行有效的整合,而且還能根據不同客戶的具體要求為其提供有針對性的服務。比如,客戶在對銀行的站點進行訪問的過程中,相應的系統(tǒng)將會及時地處理該客戶的訪問信息,并以最終的處理結果為依據對銀行當前所實行的戰(zhàn)略予以適當的調整和完善,以便銀行所作出的經營管理決策的科學性和準確性,只有這樣才能確??蛻魧︺y行服務的滿意程度不斷提高。當前在銀行金融領域中,數據挖掘相關技術發(fā)揮越來越重要的作用。
商業(yè)智能(BI,Business Intelligence)最早由Gartner Group的Howard Dresner在1989年首次提出,在我國由于各種原因,信息管理系統(tǒng)的發(fā)展處于初級的數據處理階段,雖然如此,我國的技術人員可以通過一定的技術研究,利用現有的資源和力量,開發(fā)多種適合于本企業(yè)或本行業(yè)的管理信息系統(tǒng),這對于部分企業(yè)或者部門都是非常有必要的。近年來,我國國內也正在對于基于.NET的數據挖掘開發(fā)進行大量的研究工作,崔艷在其研究中介紹了ASP的概述、特點和編程中的對象和內置控件、ASP網頁的結構和運行環(huán)境論述了ASP訪問WEB數據庫的原理和實現步驟,并結合例子說明ASP如何使用MYSQL數據庫。劉麗娟在其研究中認為為了適應電子商務的發(fā)展要求,數據挖掘應該不斷的發(fā)展,并且與其他的技術兼容性應該提高,接下來其對數據挖掘技術在電子商務中的應用進行了探討。童慧認為Web挖掘包括了Web內容挖掘,Web結構挖掘和Web使用挖掘三個研究方向。每一種挖掘都有其特定的意義,文中專門指出了Web使用挖掘的體系結構及其技術,并介紹了它們在個性化站點中的應用情況。而且,目前中國權威的計算機信息賽迪網也發(fā)布了基于空間數據庫的數據挖掘技術,一種新的數據挖掘系統(tǒng)結構也出現在人們的視野中。該系統(tǒng)的基本結構與一般數據挖掘系統(tǒng)相同,僅在數據挖掘和數據管理中增加了有關空間信息的抽取、空間數據管理和空間分析的功能,并建立了一個人機接口處理用戶的指令和顯示挖掘結果。而要實現了一個基于Oracle Spatial的分布式空間數據挖掘原型系統(tǒng),至少要包括五個部分。(1)圖形用戶界面:用于進行交互式的挖掘并顯示挖掘結果;(2)數據準備模塊:進行數據的選擇、預處理和轉換;(3)挖掘模塊:聚類、分類、關聯(lián)規(guī)則等空間數據挖掘功能及挖掘結果的評價;(4)空間數據管理模塊:執(zhí)行數據準備模塊及挖掘模塊指定的空間操作;(5)數據庫服務器:管理作為挖掘目標的空間數據和非空間數據及概念層次庫、挖掘結果庫。
商務智能活動在美國和歐洲比在世界上任何其他地區(qū)都要發(fā)達,歐美的企業(yè)已經認識到商務智能的重要意義,因而對它寄予很高的期望,希望能夠通過商務智能充分利用企業(yè)以往對信息技術的投資、改善決策、提高利潤、提高運營效率和增強透明度。不過,就算是在世界上商務智能最發(fā)達的這些地區(qū),企業(yè)對商務智能的部署也多是部門性的和戰(zhàn)術性的。
圖1 歐美企業(yè)商務智能投資的增長
從目前來看,基于Windows環(huán)境的開發(fā)工具已經有很多了,但是目前還缺少一種相對高效而且成熟的開發(fā)語言,C++語言在很多的大型的復雜項目中仍然作為主要的開發(fā)語言在使用。在數據庫的應用程序開發(fā)中,對數據庫進行訪問的模塊開發(fā)具有非常重要的意義,這一部分技術主要包括了ADO、開放的數據庫連接ODBC、對象的連接與嵌入數據庫等等。上述技術中,每一種都有各自的優(yōu)點和特色,在實際的應用過程中,要根據應用程序的實際需要進行選擇,而要做到這種程度,首先就要對上述的訪問技術有一個清晰的認識。
一般而言,在應用程序無需底層控制時,ADO具有較為明顯的優(yōu)勢,在數據庫是AQL類型的時候,選擇ODBC技術具有一定的優(yōu)勢,在Jet數據源條件下,DAO技術效率更高。ADO技術和OLEDB技術在執(zhí)行速度方面更具有優(yōu)勢,在非關系型數據庫條件下如果需要進行相互操作,那么就非常的合適。而Jet能夠支持兩種格式的SQL語法,其一為老SQL語法貴發(fā),而另一種則是目前新型的SQL語法規(guī)范,因而更具通用性。但是,我們也要注意,只有用戶使用ActiveX Data Objects和Jet OLEDB provider的時候,才能夠使用新的語法。我們通過使用Access程序,能夠利用DAO及時直接訪問SQL數據庫。但是,在實際的設計過程中,DAO需要根據Access的要求來建模,因此,DAO技術是連接Access數據庫最有效、最快捷的一種技術。但是,如果面臨對Access以外的數據庫進行訪問,則會因為涉及不同語法之間的轉換,而導致效率的降低。
隨著現代化信息技術的發(fā)展,社會各界對數據挖掘的關注程度越來越高,特別是有關Web數據挖掘技術的研究,更是進一步拓展了該領域的研究范圍,新數據挖掘方法相繼出現,企業(yè)信息化管理中應用的數據挖掘技術也日益成熟。雖然當前數據挖掘技術的發(fā)展還存在一些有待進一步深入研究的問題,但數據挖掘技術所帶來的極大的社會及經濟效益是無可置疑的,其在現代化信息社會的發(fā)展過程中起到了不可替代的重要作用。
[1]趙愛琴.數據挖掘在電信行業(yè)精確營銷中的研究與應用[D].西南財經大學,2008-12-01.
[2]徐河杭.面向PLM的數據挖掘技術和應用研究[D].浙江大學,2010-07-01.
[3]吳常輝.基于關聯(lián)規(guī)則的數據挖掘方法及其在電子商務網站中的應用研究[D].合肥工業(yè)大學,2010-04.
[4]張紅艷.數據挖掘技術在企業(yè)人力資源管理中應用的研究[D].吉林大學,2005-05-24.