楊 昆,陳 軍,張 培,梁 峪 (后勤工程學院,重慶 401311)
·產(chǎn)經(jīng)研究·
基于規(guī)則型挖掘的油料裝備知識發(fā)現(xiàn)研究
楊 昆,陳 軍,張 培,梁 峪 (后勤工程學院,重慶 401311)
1.1 知識發(fā)現(xiàn)的概念。知識發(fā)現(xiàn),又稱數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD),是從大量原始數(shù)據(jù)中挖掘出隱含的、有用的、尚未發(fā)現(xiàn)的信息和知識。Fayyad將數(shù)據(jù)庫知識發(fā)現(xiàn)定義為 “KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[1]。”
1.2 知識發(fā)現(xiàn)的過程。本文采用知識發(fā)現(xiàn)的方法對油料裝備知識進行繁衍[2],油料裝備的知識發(fā)現(xiàn)過程可粗略的劃分為3個階段:數(shù)據(jù)準備階段、數(shù)據(jù)挖掘階段和結(jié)果的解釋評估階段,其流程圖如圖1所示:
圖1 KDD過程圖
(1)數(shù)據(jù)準備階段包括3個方面的內(nèi)容。①數(shù)據(jù)選取,主要是確定目標數(shù)據(jù),即根據(jù)用戶需求從原始數(shù)據(jù)庫中抽取一組感興趣的數(shù)據(jù),并將其組織成適合挖掘的數(shù)據(jù)組織形式。②數(shù)據(jù)預處理,也叫數(shù)據(jù)清洗,主要是消除噪音數(shù)據(jù)。噪音數(shù)據(jù)是指那些明顯不符合邏輯的偏差數(shù)據(jù),如某人300歲,這樣的數(shù)據(jù)往往影響挖掘結(jié)果的正確性。③數(shù)據(jù)變換,主要是指對數(shù)據(jù)進行降維處理。
(2)數(shù)據(jù)挖掘階段。數(shù)據(jù)挖掘階段是油料裝備知識發(fā)現(xiàn)的核心,是根據(jù)挖掘的任務或目的使用具體的挖掘算法對準備好的數(shù)據(jù)集進行知識發(fā)現(xiàn)。這些知識是隱含的、先前未知的、對決策有潛在價值的。提取的油料裝備知識可表示為概念 (Concepts)、規(guī)則 (Rules)、規(guī)律 (Regularities)和模式 (Patterns)等形式。這些形式蘊含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些有用的信息,從而為油料裝備設計人員提供決策依據(jù)。
(3)結(jié)果的解釋和評價階段。就是對挖掘出來的知識模式進行解釋和評價,即剔除冗余或無關(guān)的知識模式,將最后結(jié)果展現(xiàn)給用戶。
現(xiàn)代數(shù)據(jù)挖掘技術(shù)按照其不同的技術(shù)特點,可以分為規(guī)則型挖掘技術(shù)、神經(jīng)網(wǎng)絡型挖掘技術(shù)、遺傳算法型挖掘技術(shù)、粗造集挖掘技術(shù)、決策樹型挖掘技術(shù)。
本文采用規(guī)則型挖掘技術(shù),對從數(shù)據(jù)庫中抽取的一組油料裝備功能性需求數(shù)據(jù)進行數(shù)據(jù)挖掘,并從中發(fā)現(xiàn)新的規(guī)則。對規(guī)則的歸納是數(shù)據(jù)挖掘的一種主要形式,并且是無教師學習系統(tǒng)中最普遍的知識發(fā)現(xiàn)形式,它也是與大多數(shù)人想象的數(shù)據(jù)挖掘過程最為相似的一種數(shù)據(jù)挖掘形式,即在數(shù)據(jù)庫中 “淘金”。這里的金子是指人們原先不知道或者不能明確表達出來的知識。
(1)關(guān)聯(lián)規(guī)則的基本概念。關(guān)聯(lián)規(guī)則也稱為關(guān)聯(lián)模式,是美國BIM Almaden Research Center的R.Agrawal等人于1993年提出的,是數(shù)據(jù)挖掘研究中的一個重要課題。關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系[3]。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的對象主要是事務數(shù)據(jù)庫,例如售貨數(shù)據(jù),也稱為貨籃數(shù)據(jù)。它是描述一個事務中物品之間同時出現(xiàn)的規(guī)律的知識模式。基于這一概念,本文利用關(guān)聯(lián)規(guī)則來描述油料裝備設計過程中不同功能需求同時出現(xiàn)的規(guī)律。
關(guān)聯(lián)規(guī)則本身是 “如果條件怎么樣,那么結(jié)果或情況就如何”的簡單形式,它是一種蘊含關(guān)系、對稱關(guān)系,不是因果關(guān)系。關(guān)聯(lián)規(guī)則的表示形式為:A?B,其中左部A稱為前件,右部B稱為后件。前件可以包括一個或多個條件,在某個給定的正確率限制情況下,要使后件為真,前件中的所有條件必須同時為真。后件一般只包含一種情況,而不是多種情況。
例如,購買了計算機的用戶有購買財務軟件的趨向,用關(guān)聯(lián)規(guī)則表示為:
家庭是構(gòu)成社會的基本元素,家庭的生存狀態(tài)是社會發(fā)展水平的標志。以往的城鄉(xiāng)規(guī)劃關(guān)注企業(yè)勝于關(guān)注家庭,關(guān)注勞動力資源勝于關(guān)注勞動者本身。大量農(nóng)民工的出現(xiàn),導致了農(nóng)村家庭的碎片化和離散化、留守人群關(guān)愛的缺失,以及遠程通勤造成經(jīng)濟負擔和資源的浪費等等。城鄉(xiāng)規(guī)劃應從家庭的完整性、聚合性和生活質(zhì)量方面,對就業(yè)、居住和公共服務進行規(guī)劃,使城鄉(xiāng)聚落適宜于家庭生活,而非人口和勞動力集聚的空間。
(2)關(guān)聯(lián)規(guī)則的評價標準。①支持度 (Support)是對A?B的重要性 (或適用范圍)的衡量。在事物數(shù)據(jù)庫D中,規(guī)則A?B的支持度定義為物品集A和B同時出現(xiàn)的概率。支持度用公式定義為:
例如,如果某天有500個顧客 (元組數(shù))到商場購買物品,其中有100個顧客同時購買了牛奶和面包,那么牛奶?面包的支持度就是20%。
②可信度 (Confidence)。它是對關(guān)聯(lián)規(guī)則的準確度的衡量,事物數(shù)據(jù)庫D中規(guī)則A?B的可信度定義為在物品集A出現(xiàn)的前提下,B出現(xiàn)的概率??尚哦扔霉蕉x為:
如上面所舉的牛奶和面包的例子,該關(guān)聯(lián)規(guī)則的可信度就回答了這樣一個問題:如果一個顧客購買了牛奶,那么他同時也購買面包的可能性有多大呢?在上述的例子中,如果在購買牛奶的200名顧客中有100人購買了面包,則該規(guī)則的可信度是50%。
關(guān)聯(lián)規(guī)則的挖掘問題就是在事務數(shù)據(jù)庫D中找出大于等于用戶給定的最小支持度或者最小可信度的關(guān)聯(lián)規(guī)則。而挖掘關(guān)聯(lián)規(guī)則是指在事務數(shù)據(jù)庫D中挖掘出具有這種形式的規(guī)則:由于某些事件的發(fā)生而引起另外一些事件的發(fā)生。這些規(guī)則在決策支持系統(tǒng)、專家系統(tǒng)和智能設計等各個方面起著重要作用。
(3)關(guān)聯(lián)規(guī)則的算法。Agrawal等人在1993年提出了解決客戶事務數(shù)據(jù)庫中的項集間關(guān)聯(lián)規(guī)則問題的Apriori算法。該算法的核心是將關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法分解成兩步[4]:①找出所有支持度大于最小支持度的項集,這些項集稱為頻集,包含k個項的頻集稱為k-項集。②使用算法第①步找到的頻集產(chǎn)生所期望的規(guī)則。
Apriori算法的第①步采用遞歸方法,算法表示為:
L1={large 1-itemset s};//產(chǎn)生頻繁1項集L1
For( k=2; Lk-1≠?; k++);//循環(huán)產(chǎn)生頻繁2項集L2直到某個r, 使Lr為空
begin
Ck=apriori-gen( Lk-1 );//產(chǎn)生k-項集的候選集
for all transaction t∈D do
begin
Ct=subset( Ck,t);//事物t中包含的候選集
for all candidates c∈Ctdo
c.count++;
end
Lk={c∈Ck|c.count≥minsup}
end
Answer=UkLk
算法首選產(chǎn)生頻集1項集L1,然后循環(huán)生成頻集2項集L2,直到某個r使Lr為空,算法結(jié)束。在第k次循環(huán)中,首先產(chǎn)生候選k-項集的集合Ck,Ck中的每一項集是對兩個只有一個項不同的屬于Lk-1頻集做k-()2 -項集連接產(chǎn)生的,Ck中的每個項需要在事物數(shù)據(jù)庫中進行驗證以決定是否加入Lk。
在運用Apriori算法進行數(shù)據(jù)挖掘之前,首先要明確抽取的這組油料裝備功能性需求數(shù)據(jù)包括運油、加油、泵油、儲油4項數(shù)據(jù),這4項數(shù)據(jù)是存儲在油料裝備設計綜合數(shù)據(jù)庫中的,它們是與油料裝備設計問題相關(guān)的初始數(shù)據(jù),表示了油料裝備所具有的復合功能。其次要明確油料裝備設計綜合數(shù)據(jù)庫相當于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的對象事物數(shù)據(jù)庫D,4個復合功能相當于事物中的物品集合,根據(jù)用戶不同的功能需求,這4個復合功能組成了不同的項集,正是在這些不同的項集間,存在著關(guān)聯(lián)規(guī)則。
設定數(shù)字 “1,2,3,4”分別代表 “運油、加油、泵油、儲油”,事物數(shù)據(jù)庫D為油料裝備設計綜合數(shù)據(jù)庫,則Apriori算法在油料裝備功能數(shù)據(jù)挖掘中的應用如圖2所示:
圖2 Apriori算法應用
本文為了便于計算和比較各個項集支持度的大小,用項集在數(shù)據(jù)庫中的出現(xiàn)次數(shù)來表示支持度,等到算法結(jié)束挖掘出功能需求間的關(guān)聯(lián)規(guī)則時,再運用公式 (2)將支持度換算成百分數(shù),并對關(guān)聯(lián)規(guī)則進行評判。
在C1的產(chǎn)生過程中,首先掃描數(shù)據(jù)庫,由于項集{1 }在數(shù)據(jù)庫中出現(xiàn)了3次,故其支持度為3,其余以此類推。如果用戶要求最小支持度在1以上,那么在由C1產(chǎn)生L1時,項集4被刪除。
在由L1產(chǎn)生C2的第二次循環(huán)過程中,由于項集{4 }沒有在L1中出現(xiàn),因此在C2中的項集就不會包含有子項集{4 }的項集。獲得C2后,掃描數(shù)據(jù)庫獲得C2中所有項集的支持度,由于項集{1,2 }分別在數(shù)據(jù)庫D中的功能需求標識A3、A4中出現(xiàn)了一次,故其支持度為2,其余類推。然后對具有支持度的C2比較支持度,選擇大于支持度為1的項集,最后獲得L2。
在由L2產(chǎn)生C3的第三次循環(huán)過程中,由于只有{1,2,3}的所有子項集{1,2}、 {2,3}和{1,3 }在L2出現(xiàn),因此C3中只有項集{1,2,3}。在掃描數(shù)據(jù)庫后獲得{1,2,3 }的支持度為2,最后獲得L3。此時已經(jīng)無法由L3產(chǎn)生C4,故算法結(jié)束。
由上述算法可得3個頻集:L1、L2、L3。根據(jù)Apriori算法的第②步,可從頻集L2中產(chǎn)生至少3條功能需求關(guān)聯(lián)規(guī)則,并運用公式 (1)和公式 (2)分別計算3條關(guān)聯(lián)規(guī)則的支持度和可信度,如表1所示:
表1 功能需求關(guān)聯(lián)規(guī)則
若用戶規(guī)定關(guān)聯(lián)規(guī)則的最小支持度為25% (與支持度1對應),最小可信度為50%,那么表1中的3條關(guān)聯(lián)規(guī)則都是符合用戶要求的,可以作為新知識加入到知識庫中,并可在以后的油料裝備設計中進行利用。如關(guān)聯(lián)規(guī)則 “加油?泵油”,表示如果設計的油料裝備具有加油功能,那么也應同時具有泵油功能。
隨著 “知識經(jīng)濟”時代的到來,油料裝備設計正逐漸向依靠知識驅(qū)動的創(chuàng)新設計方向發(fā)展。如何在呈爆炸性增長的數(shù)據(jù)中挖掘出對油料裝備設計有用的知識,已成為油料裝備知識發(fā)現(xiàn)研究的重點。本文在油料裝備知識發(fā)現(xiàn)過程中運用規(guī)則型挖掘技術(shù),可以從油料裝備設計綜合數(shù)據(jù)庫中挖掘出功能需求間的關(guān)聯(lián)規(guī)則,并將其存入知識庫。這不僅實現(xiàn)了油料裝備知識的自我繁衍,而且提高了油料裝備設計的創(chuàng)新性。
[1]Fayyad U,Piatesky-Shapiro,Smyth,Uthurusamy.Advance in Knowledge Discovery and Data Mining[M].MIT Press,1996.
[2] 彭穎紅,胡潔.KBE技術(shù)及其在產(chǎn)品設計中的應用[M].上海:上海交通大學出版社,2007.
[3] 宋麗,林利.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)庫知識發(fā)現(xiàn)及應用[J].商場現(xiàn)代化,2009(2):49-50.
[4] 陳京民.現(xiàn)代數(shù)據(jù)挖掘技術(shù)與發(fā)展[M].北京:電子工業(yè)出版社,2007.
Mining Based on Rule-based Knowledge Discovery Oil Equipment
YANG Kun,CHEN Jun,ZHANG Pei,LIANG Yu (Logistical Engineering University,Chongqing 401311,China)
在基于知識的油料裝備設計過程中,利用知識發(fā)現(xiàn)的方法實現(xiàn)油料裝備知識的自我繁衍,對豐富油料裝備知識庫,提高油料裝備的自動化設計水平具有重要意義。運用規(guī)則型挖掘技術(shù)中的Apriori算法挖掘出油料裝備功能性需求數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,并將其存入知識庫。這些關(guān)聯(lián)規(guī)則,直接揭示了隱含在油料裝備功能需求數(shù)據(jù)間的規(guī)律,為油料裝備的功能設計決策提供了依據(jù)。
油料裝備;知識發(fā)現(xiàn);規(guī)則型挖掘;關(guān)聯(lián)規(guī)則
Knowledge-based oil equipment design process,using knowledge discovery methos to achieve oil self-reproduction equipment knowledge,knowledge of the rih oil equipment,oil equipment to improve the design level of automation is important.In this regard,the use of rule-based mining technology in the Apriori algorithm for mining the oil equipment functional requirements in the data association rules,and store them in knowledge base.These association rules,directly revea the functional requirements implicit in the oil equipment rules among the data,the function of equipment for the oil provided the basis for design decisions.
oil equipment;knowledge discovery;rule-based mining;association rules
F270
A
2011-01-24
楊 昆(1983-),男,四川樂山人,后勤工程學院碩士研究生,研究方向:油氣儲運工程。
1002-3100(2011)04-0142-03