朱柏青,趙 紅,何 非
(1.南京工程學院 經(jīng)濟管理學院,江蘇 南京 211167 )(2.南京理工大學 機械工程學院,江蘇 南京 210094)
基于粗糙集的首臺套重大裝備信息系統(tǒng)數(shù)據(jù)挖掘關鍵技術研究
朱柏青1,趙 紅2,何 非2
(1.南京工程學院 經(jīng)濟管理學院,江蘇 南京 211167 )(2.南京理工大學 機械工程學院,江蘇 南京 210094)
網(wǎng)絡化項目信息管理過程中產(chǎn)生大量異構數(shù)據(jù),采用傳統(tǒng)方式對此類數(shù)據(jù)集進行分析和處理往往存在特征提取不充分、數(shù)據(jù)疏漏等問題。面向首臺套重大裝備信息系統(tǒng)項目管理數(shù)據(jù)關鍵技術研究,構建了結構化數(shù)據(jù)收集和規(guī)則的提取方法,并應用粗糙集理論和算法進行數(shù)據(jù)挖掘分析,提出了若干決策規(guī)則,可為項目評價和管理輔助決策提供依據(jù)。
粗糙集;數(shù)據(jù)挖掘;重大裝備;信息系統(tǒng)
隨著企業(yè)網(wǎng)絡信息、裝備技術的不斷發(fā)展,現(xiàn)代制造業(yè)特別是高端裝備制造管理積累了大量的歷史數(shù)據(jù),這些數(shù)據(jù)中蘊含著對生產(chǎn)制造和裝備管理具有很高價值的知識和信息,同時隱藏著為首臺(套)重大裝備的認定管理提供決策依據(jù)的信息。
各種網(wǎng)絡技術的應用使得信息共享成為當前提高工作效率的有效途徑,無紙化辦公及各種數(shù)據(jù)、文檔的電子化,在方便辦公的同時也產(chǎn)生了極其龐大的電子數(shù)據(jù),隨著時間的推移,數(shù)據(jù)也不斷產(chǎn)生混亂與冗余[1],想要從中及時找出所需要的各種信息成為一件大費周折的事。而政府部門作為信息的主要掌控者,面臨著如何科學有效地處理這樣龐大數(shù)據(jù)的問題。就目前江蘇省內(nèi)首臺(套)重大裝備申報管理項目的數(shù)據(jù)而言,由于其管理信息的廣泛性、復雜性使得數(shù)據(jù)具有如下特點:
a.多維性。由于重大裝備管理信息是源自江蘇省范圍內(nèi)不同區(qū)域的裝備制造企業(yè)的不同年份的數(shù)據(jù)資源,因此這些數(shù)據(jù)具有時間和空間屬性。
b.數(shù)據(jù)類型的多樣性[2]。隨著網(wǎng)絡信息技術的不斷發(fā)展,首臺套重大裝備申報管理數(shù)據(jù)也產(chǎn)生了大量不同的數(shù)據(jù)類型,并進行數(shù)字化存儲?,F(xiàn)有的數(shù)據(jù)中包含由數(shù)字值或字母值的字段組成的表格、單據(jù)等結構化數(shù)據(jù);由申請報告、Web文檔構成的半結構化數(shù)據(jù);由多媒體記錄的可視化文件,如錄像等形成的非結構化數(shù)據(jù)。這些數(shù)據(jù)有2種出口,一種是從數(shù)據(jù)走向數(shù)據(jù)垃圾;另一種是從數(shù)據(jù)走向信息并最終形成知識。
c.多源性。現(xiàn)有的數(shù)據(jù)資源來源不同,有來自之前的歷史材料,有手工錄入的數(shù)據(jù),還有來自各地方經(jīng)信部門匯總的EXCEL表等,數(shù)據(jù)獲取方式不同,統(tǒng)計方式不同,描述形式不同使得數(shù)據(jù)之間存在著很多差異。
這些問題的存在,使得在現(xiàn)有數(shù)據(jù)狀況條件下想要及時獲取所需信息的難度越來越大。針對以上問題,利用數(shù)據(jù)挖掘工具,對各種數(shù)據(jù)進行分析處理,提取用戶所需的關鍵信息。首先搜集數(shù)據(jù),對數(shù)據(jù)進行整合分析處理,然后通過建模挖掘,挖掘出相關的信息,為用戶評價項目的決策制定提供輔助支持。使得系統(tǒng)具有良好的決策支持能力,又有良好的交互能力[3],從而使得重大裝備的推廣應用與相關決策的制定更為高效。
數(shù)據(jù)挖掘是一個多階段遞進的、循環(huán)往復的、多次進行人機交互的過程[4]。挖掘過程示意圖如圖1所示。首先在源數(shù)據(jù)的基礎上通過數(shù)據(jù)采集獲得數(shù)據(jù)集,在一個或多個數(shù)據(jù)集上進行數(shù)據(jù)選擇實施聚焦,接下來使用特定的算法去除其他不相關數(shù)據(jù)。為達到減少變量的目的,對有聯(lián)系和有特征的數(shù)據(jù)進行編碼變換,根據(jù)不同的特征選用相應的數(shù)據(jù)挖掘算法挖掘出潛在的有用信息,通過對挖掘結果的表達和解釋轉(zhuǎn)化為人們所需的信息。
圖1 數(shù)據(jù)挖掘過程示意圖
1.1數(shù)據(jù)準備
在數(shù)據(jù)挖掘的過程中,數(shù)據(jù)的準備是至關重要的,如果沒有恰當?shù)厮鸭皖A處理數(shù)據(jù),或者對問題的表述不夠清晰明確,則數(shù)據(jù)挖掘的結果可能是毫無意義的[5]。
a.數(shù)據(jù)搜集。
數(shù)據(jù)的搜集會影響到結果的最終解釋,因此數(shù)據(jù)的來源是很關鍵的。數(shù)據(jù)挖掘過程中的數(shù)據(jù)可分為結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。通常情況下,數(shù)據(jù)的產(chǎn)生搜集有兩種方式,一種是數(shù)據(jù)產(chǎn)生過程在計劃控制范圍內(nèi)的,即“有計劃的實驗”,也稱作主動搜集;二是數(shù)據(jù)的產(chǎn)生是隨機的,即“觀察法”,也稱作被動搜集[6]。本文的數(shù)據(jù)是結構化數(shù)據(jù)(所謂結構化數(shù)據(jù)是指由定義明確的包含數(shù)字值或者字母數(shù)字值字段組成的數(shù)據(jù)),且源自于主動搜集。為從大量數(shù)據(jù)中選定出相關評價指標,并從中發(fā)現(xiàn)省內(nèi)裝備制造行業(yè)發(fā)展情況,需對該行業(yè)及企業(yè)情況進行了解分析,從而確定出可能具有相關性的信息。表1是根據(jù)需要上報于系統(tǒng)中的表單的部分數(shù)據(jù)項(結構化數(shù)據(jù))。
表1 系統(tǒng)表單(部分)
b.數(shù)據(jù)預處理。
由于實際系統(tǒng)中的數(shù)據(jù)可能存在不完整、冗余、混亂等問題,在此條件下不能很好地滿足數(shù)據(jù)挖掘的要求,影響數(shù)據(jù)挖掘的執(zhí)行效率,因此在進行數(shù)據(jù)挖掘之前對數(shù)據(jù)進行預處理已成為基本要求。數(shù)據(jù)預處理包括數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)簡化[7]。
(1)數(shù)據(jù)集成。數(shù)據(jù)的產(chǎn)生方式不同,且數(shù)據(jù)由不同的載體存儲,有文本、MSExcel電子表格等,需要將這些來自不同數(shù)據(jù)源的數(shù)據(jù)集成起來。在本系統(tǒng)中,將所有的數(shù)據(jù)都集成到MySQL數(shù)據(jù)庫中,利用MySQL對數(shù)據(jù)進行多角度、多粒度的整合。
(2)數(shù)據(jù)清理。集成后的數(shù)據(jù)有許多問題,如有空缺值、錯誤數(shù)據(jù)等。因此在進行清理時,將有空缺值的數(shù)據(jù)分為有多屬性空缺和少部分空缺,對于有多屬性空缺的值,將其去除,少部分空缺值則采用統(tǒng)一規(guī)范標準的數(shù)據(jù)進行填補。對于明顯錯誤的數(shù)據(jù)給予剔除或進行改正,如表1中的百分比(R&D占比)只需要填寫數(shù)據(jù)即可,有些用戶在書寫時會添加單位;又如利潤總額(萬元)23 500,某些用戶會寫成23 500萬美元,還有用戶會填寫-23500或235,00,諸如此類的問題需要按要求進行統(tǒng)一化處理。
(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)表中可能會出現(xiàn)表示的內(nèi)容相同命名卻不同的字段,如所屬行業(yè)領域、所屬細分行業(yè)這2個名稱均為同一內(nèi)容,表述方式的不同可能導致數(shù)據(jù)冗余,對此需要了解挖掘的數(shù)據(jù)類型及相關含義,從而對數(shù)據(jù)進行轉(zhuǎn)換減少冗余。
(4)數(shù)據(jù)簡化與離散化。識別數(shù)據(jù)庫中重復的數(shù)據(jù),利用MySQL數(shù)據(jù)庫中檢測重復數(shù)據(jù)技術將重復的數(shù)據(jù)予以剔除,同時數(shù)據(jù)庫中的數(shù)據(jù)多為連續(xù)型數(shù)據(jù),需要按一定的閾值進行數(shù)據(jù)離散化(見表2信息表屬性說明)。
1.2數(shù)據(jù)挖掘
1.2.1粗糙集相關定義
定義1 令X?U,定義K=為一信息系統(tǒng),其中:U為論域,是對象的有限集合,U={x1,x2,…,xn};A為屬性的全體,A={a1,a2,…,an};V為屬性的值域,V={v1,v2,…,vn};f為信息函數(shù);屬性A=C∪D,C為條件屬性集,D為決策屬性集。
定義2 對X?U,U為論域,R為U上的等價關系,有序?qū)=(U,R)稱為一個近似空間,若P是R的子集,且P≠?,則∩P為P中全部等價關系的交集也是一個等價關系,并且稱為P上的一個不可區(qū)分關系,記為Ind(P)[8]。
定義3 定義信息決策表為T=,其中U={x1,x2,…,xn},C={c1,c2,…,cm},D=qo0yq0k,則決策表可構造如下對應的可辨識矩陣ST:矩陣ST的每一列分別對應一個屬性,共有y列,每一行與論域中的一個對象對(xp,xq)對應,且d{xp}≠d{xq},即xp,xq屬于不同的決策類。設矩陣中某一元素y((p,q)1)所在的行對應對象對(xp,xq),所在列對應條件屬性ci,則
定義4 定義T=為一個決策系統(tǒng),其中C的約簡集C′是一非空子集,如果:
Ind(C′,D)=Ind(C,D)
不存在C″?C′,使得Ind(C″,D)=Ind(C,D)。C的約簡記為RedT(C);所有約簡集的交集稱為核,記為CoreT(C)。CoreT(C)=∩RedT(C)。
1.2.2決策表的建立
本實例算法程序采用Java語言編程,使用Eclipse編程平臺,運行環(huán)境為jre1.7.0,使用tomcat7.0作為運行服務器,系統(tǒng)環(huán)境為Windows Server 2008。測試機硬件環(huán)境配置:硬盤1TB,內(nèi)存2GB。本實驗數(shù)據(jù)來源于江蘇省首臺套重大裝備及關鍵部件跟蹤應用推廣系統(tǒng)。
系統(tǒng)中決策表的建立是基于評價體系基礎上的,列出所有的條件項,得到初步的判定表,進而對判定表進行化簡和屬性簡約,以提高計算效率。根據(jù)現(xiàn)有數(shù)據(jù)建立決策表S=。以2010年的數(shù)據(jù)為例,建立相關決策信息表并對屬性進行說明,令論域U={x1,x2,…,x10},表示10個不同的對象;C={c1,c2,c3,…,c16},16個屬性分別表示與首臺套相關的專利數(shù)量、發(fā)明專利數(shù)、實用新型專利數(shù)、上年度銷售收入、出口總額、利潤率、負債率、技術開發(fā)費/銷售收入、研發(fā)及產(chǎn)業(yè)化投入、申報裝備市場占有率、申報裝備銷售單價、平均年銷售量(臺/套)、累計實現(xiàn)銷售收入、預期3年經(jīng)濟效益、(同一年度)該設備銷售量/該地區(qū)該類產(chǎn)品總銷售量、專家意見,見表2,由此建立決策屬性表見表3。
表2 信息表屬性說明
表3 信息表
1.2.3屬性約簡
在經(jīng)過數(shù)據(jù)準備過程,對數(shù)據(jù)進行預處理后,本文在數(shù)據(jù)挖掘過程中運用粗糙集理論對數(shù)據(jù)進行屬性約簡,粗糙集中屬性約簡可分為屬性約簡和屬性值約簡,在屬性約簡時,人們總希望找到屬性的最小約簡,但這是個NP難題,粗糙集的屬性約簡提供了分辨矩陣,只需要找到較優(yōu)解即可[9]。利用數(shù)據(jù)挖掘理論對數(shù)據(jù)樣本進行約簡,減少數(shù)據(jù)量,從而得到屬性約簡。屬性值簡約是針對每條決策規(guī)則,去掉表達規(guī)則的冗余值,進而使決策算法最小化。算法如下:
Step1,搜集相關數(shù)據(jù)形成相應的決策信息系統(tǒng)。
Step2,根據(jù)相關定義計算分辨矩陣。
Step3,由上步分辨矩陣得出相應的核屬性,并將所有符合核屬性的元素歸為0。
Step4,對于所有為非0和1的元素,計算其出現(xiàn)的頻率,將其歸到CoreS(C)中,并將包含此屬性的元素歸為0。
Step5,CoreS(C)即為核心屬性。
根據(jù)上節(jié)分辨矩陣指標約簡過程,經(jīng)相關計算可得到T的分辨矩陣,由分辨矩陣可得系統(tǒng)的核屬性。約簡后的信息表中CoreS={c2,c4,c5,c6,c7,c10,c11,c12,c16},即發(fā)明專利數(shù)、出口總額、利潤率、負債率、銷售收入、市場占有率、銷售單價、年均銷售量、專家意見,見表4。
1.2.4規(guī)則提取
根據(jù)約簡后的信息表,就可以進行決策規(guī)則提取,由以上基于粗糙集的算法得到規(guī)則,可表達為:
規(guī)則1,企業(yè)經(jīng)營狀況正常的情況下(負債率低于70%),企業(yè)銷售收入大于2億元,具有一定的技術研發(fā)投入,利潤率高于10%,且產(chǎn)品有出口,有3個以上首臺套相關發(fā)明專利,且同一年度該設備在本地區(qū)銷量比重大于10%,且專家意見為優(yōu)秀,即說明該產(chǎn)品技術創(chuàng)新程度較高,具有一定的市場競爭力。評價決策:接受。
表4 約簡后的信息表
規(guī)則2,企業(yè)經(jīng)營狀況正常的情況下(負債率低于70%),企業(yè)銷售收入大于2億元,具有一定的技術研發(fā)投入,利潤率高于10%,無出口,有1個以上首臺套相關發(fā)明專利,且同一年度該設備在本地區(qū)銷量比重處于6%~10%,且專家意見為優(yōu)秀,即說明該產(chǎn)品在該領域具有一定的創(chuàng)新性,且占有一定的市場份額。評價決策:接受。
規(guī)則3,企業(yè)經(jīng)營狀況正常的情況下(負債率低于70%),銷售收入在100萬元~500萬元之間,具有一定的技術研發(fā)投入,有2個以上首臺套相關發(fā)明專利,產(chǎn)品有出口,在國內(nèi)外市場占有一定份額,專家意見為良好。評價決策:待定。
規(guī)則4,企業(yè)負債率大于70%,無發(fā)明專利,利潤率均處于5%~10%,產(chǎn)品銷售單價高于100萬,說明企業(yè)經(jīng)營不善,且利潤率不高,產(chǎn)品技術創(chuàng)新一般。評價決策:拒絕。
規(guī)則5,企業(yè)經(jīng)營狀況正常的情況下(負債率低于70%),利潤率低于10%,有發(fā)明專利,說明此產(chǎn)品只能屬于高新設備,并不能算是高端裝備。評價決策:待定。
規(guī)則6,企業(yè)經(jīng)營狀況正常的情況下(負債率低于70%),利潤率高于10%,有發(fā)明專利,產(chǎn)品年均銷售量低于50臺/套,有產(chǎn)品出口,專家認定意見為良好,說明產(chǎn)品具備高端裝備條件,但是產(chǎn)品市場容量不足。評價決策:接受。
規(guī)則7,企業(yè)經(jīng)營狀況正常的情況下(負債率低于70%),無發(fā)明專利,產(chǎn)品無出口,利潤率較低,專家評定意見為一般,說明產(chǎn)品不符合首臺套標準。評價決策:拒絕。
本文介紹了基于數(shù)據(jù)挖掘的信息系統(tǒng)關鍵技術及其數(shù)據(jù)挖掘算法,并以粗糙集理論為基礎,以省內(nèi)裝備制造業(yè)相關信息為基礎數(shù)據(jù)進行數(shù)據(jù)挖掘,從而得出相關決策規(guī)則,為相關評定推廣工作提供決策依據(jù)。
[1] 王曉海,吳志剛. 數(shù)據(jù)挖掘:概念、模型、方法和計算[M].北京:清華大學出版社,2013.
[2] 楊霞.基于粗糙集的數(shù)據(jù)挖掘的應用研究[J] .樂山師范學院學報,2007(12):67-69.
[3] 張文超.基于數(shù)據(jù)挖掘的高校學科建設支持系統(tǒng)研究與實現(xiàn)[D].北京:北京工業(yè)大學,2013.
[4] 易俊宏.基于數(shù)據(jù)挖掘的湖南省政府債務風險預警研究[D].長沙: 湖南大學,2012.
[5] 李璠.銀行數(shù)據(jù)挖掘的運用及效用研究[D].武漢:武漢大學,2012.
[6] 馬躍峰,趙予. 一種基于粗糙集理論的數(shù)據(jù)挖掘算法的研究[J].洛陽大學學報,2006(2):56-60.
[7] 印勇. 粗糙集理論在其數(shù)據(jù)挖掘中的應用[J].重慶大學學報,2004(2):44-46.
[8] 梁循.數(shù)據(jù)挖掘:建模、算法、應用和系統(tǒng)[J].計算機技術與發(fā)展,2006(1):1-4.
[9] 張震,劉芬.基于數(shù)據(jù)挖掘的金融決策支持系統(tǒng)[J].技術應用,2008(6):66-68.
Themajorequipmentinformationsystembasedonroughsetsandkeytechniquesofdatamining
ZHU Baiqing1, ZHAO Hong2, HE Fei2
(1.Nanjing Institute of Technology, Jiangsu Nanjing, 211167, China)(2.Nanjing University of Science & Technology, Jiangsu Nanjing, 210094, China)
Network project information management process produces a large number of heterogeneous data, the traditional way for such data analysis and processing exist such problems as inadequate feature extraction, data breach. Based on key techniques of information system project management data, it presents more data collection and feature extraction method, applies rough set theory and algorithms for data mining analysis, puts forward some decision rules. This provides the basis for project evaluation and auxiliary decision-making management.
rough set; data mining; major equipment; information system
10.3969/j.issn.2095-509X.2014.10.012
2014-09-13
2013年度江蘇省首臺套重大裝備課題研究計劃( ZB20130920)
朱柏青(1963—),女,湖北荊州人,南京工程學院副教授,主要研究方向為制造業(yè)信息化。
TP311
A
2095-509X(2014)10-0054-05