張志兵
摘要:介紹了大數(shù)據(jù)的概念及應(yīng)用前景,以熔煉過程中材質(zhì)的化學(xué)成分對鑄件裂紋焊補(bǔ)率的影響為研究課題,選擇合適的挖掘軟件進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)分析,找出各個(gè)數(shù)據(jù)之間的關(guān)聯(lián),有效地解決數(shù)據(jù)孤島問題。驗(yàn)證了大數(shù)據(jù)分析結(jié)果在企業(yè)管理中具有參考和控制性作用,大數(shù)據(jù)分析方法可在中小企業(yè)管理中加以應(yīng)用。
Abstract: This paper introduces the concept of big data and application prospects in foundry enterprises smelting process for casting crack of chemical composition of the influence of welding repair rate as the research subject, selecting suitable mining software for data mining, data analysis, find out the connections between various data, effectively solve the problem of data island. Big data to verify the result has reference and controlling function in enterprise management, large data analysis method can be applied in the management of small and medium-sized enterprises.
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;信息孤島
Key words: big data;data mining;isolate island of information
中圖分類號:TP274 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-4311(2016)08-0213-02
0 引言
大數(shù)據(jù)是維克托·邁爾-舍恩伯格在2008年的著作《大數(shù)據(jù)時(shí)代》中提出的概念,在維基百科中解釋為無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。主要特點(diǎn)為Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。對于技術(shù)收益方,大數(shù)據(jù)的概念顯得通俗易懂,體現(xiàn)在大數(shù)據(jù)并不在“大”,而在于“有用”、價(jià)值含量高。
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的企業(yè)實(shí)行無紙化辦公、數(shù)字化管理,在這一過程中,企業(yè)各方面的管理包括技術(shù)質(zhì)量、人力資源、財(cái)務(wù)、現(xiàn)場生產(chǎn)組織等均形成了一定規(guī)模的基礎(chǔ)數(shù)據(jù)。但是,這些數(shù)據(jù)是獨(dú)立的,伴隨企業(yè)的發(fā)展形成了數(shù)據(jù)孤島,導(dǎo)致寶貴的信息資源不能得到有效利用。如何以這些連續(xù)或者離散的基礎(chǔ)數(shù)據(jù)為基本保障,進(jìn)行數(shù)據(jù)挖掘,形成知識,實(shí)現(xiàn)數(shù)據(jù)的有效利用受到越來越多企業(yè)的重視。本文以鑄造企業(yè)熔煉過程中材質(zhì)的化學(xué)成分對鑄件裂紋焊補(bǔ)率的影響為課題,對大數(shù)據(jù)進(jìn)行研究,探討大數(shù)據(jù)分析在中小型企業(yè)管理中的應(yīng)用。
1 數(shù)據(jù)準(zhǔn)備
1.1 信息收集
信息收集是根據(jù)確定的數(shù)據(jù)分析對象抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫。本文研究的是材質(zhì)為ZG15Cr1Mo1V的鑄鋼件的裂紋焊補(bǔ)率與熔煉過程中化學(xué)成分之間的關(guān)系。需要收集的信息包括在焊接過程控制系統(tǒng)中提取目標(biāo)參數(shù)裂紋焊補(bǔ)率,在熔煉過程控制系統(tǒng)中提煉熔煉參數(shù)、熔煉過程中檢測到的化學(xué)元素、熔點(diǎn)等。
1.2 數(shù)據(jù)集成
數(shù)據(jù)集成是把不同來源、格式、特點(diǎn)、性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。由于鑄件號的唯一性,本文的結(jié)果參數(shù)和影響因子可以通過鑄件號結(jié)合在一起,實(shí)現(xiàn)了數(shù)據(jù)集成。
1.3 數(shù)據(jù)規(guī)約
數(shù)據(jù)規(guī)約技術(shù)可以用來得到數(shù)據(jù)集的規(guī)約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果與規(guī)約前執(zhí)行結(jié)果相同或幾乎相同。由于本文使用的數(shù)據(jù)樣本數(shù)量沒有達(dá)到百萬級別以上,因此沒有必要做數(shù)據(jù)規(guī)約。
1.4 數(shù)據(jù)清理
數(shù)據(jù)庫中的數(shù)據(jù)有一些是不完整的或者含噪聲的,或者是不一致的,因此需要進(jìn)行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉庫中。
本文在對數(shù)據(jù)集成完畢存入數(shù)據(jù)庫后,對基礎(chǔ)數(shù)據(jù)進(jìn)行了修訂和清理,將不符合的數(shù)據(jù)從數(shù)據(jù)倉庫清理掉,確保數(shù)據(jù)的真實(shí)性和可靠性。
1.5 數(shù)據(jù)變換
通過平滑聚集,數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對于有些實(shí)數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來轉(zhuǎn)換數(shù)據(jù)也是重要的一步。
本文所研究課題的目標(biāo)是找出對裂紋焊補(bǔ)率有影響的關(guān)鍵化學(xué)元素,由于數(shù)據(jù)樣本量不是很大,所以對結(jié)果裂紋焊補(bǔ)率結(jié)果進(jìn)行了分類。按照中位數(shù)進(jìn)行排列,在中位數(shù)以下的樣本定義為低裂紋,中位數(shù)以上的樣本定義為高裂紋。這樣的定義避免過大或者過小的因子對整體結(jié)果的影響,也更有利于數(shù)據(jù)挖掘的分析。
2 數(shù)據(jù)挖掘
根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計(jì)分析、事例推理、決策樹、規(guī)則推理、模糊集、甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法處理信息,得出有用的分析信息。
2.1 工具選擇
可以進(jìn)行數(shù)據(jù)挖掘的軟件有免費(fèi)和付費(fèi)兩種。免費(fèi)的主要有以下:①Weka:其支持幾種經(jīng)典的數(shù)據(jù)挖掘任務(wù),顯著的數(shù)據(jù)預(yù)處理,集群,分類,回歸,虛擬化,以及功能選擇。
②JHepWork:其主要是用開源庫來創(chuàng)建一個(gè)數(shù)據(jù)分析環(huán)境,并提供了豐富的用戶接口來實(shí)現(xiàn)自己的挖掘算法。付費(fèi)的主要有以下幾種:1)SAS:是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng),可以處理大數(shù)據(jù)下的挖掘和統(tǒng)計(jì),缺點(diǎn)是價(jià)格高。2)SPASS:“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件,相比于SAS價(jià)格較低,操作簡單,但是功能沒有SAS強(qiáng)大。3)SQL Server Business Intelligence Development:是微軟Sqlserver 數(shù)據(jù)庫自身攜帶的關(guān)于商務(wù)智能的模塊,能和數(shù)據(jù)庫非常好的結(jié)合起來,提供了線性回歸、貝葉斯算法、關(guān)聯(lián)、邏輯回歸等算法。本文的數(shù)據(jù)挖掘工具選擇微軟的商務(wù)智能平臺。
2.2 挖掘算法確認(rèn)
根據(jù)不同的目標(biāo)確立不同的挖掘算法,本文研究課題主要采用以下幾種挖掘算法。
①樸素貝葉斯算法。這是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,它能檢查所研究的實(shí)體的每個(gè)屬性,從而確定該屬性本身在何種程度上影響了想要預(yù)測的那個(gè)屬性。
②神經(jīng)網(wǎng)絡(luò)。Microsoft神經(jīng)網(wǎng)絡(luò)算法通過構(gòu)造多層感知器網(wǎng)絡(luò)創(chuàng)建分類和回歸挖掘模型。當(dāng)給定可預(yù)測屬性的每個(gè)狀態(tài)時(shí),Microsoft神經(jīng)網(wǎng)絡(luò)算法可以計(jì)算輸入屬性的每個(gè)可能狀態(tài)的概率。
③邏輯回歸。Microsoft邏輯回歸算法是Microsoft神經(jīng)網(wǎng)絡(luò)算法的一種特殊形式。邏輯回歸算法用于那些結(jié)果是“二選一”的情形的建模,如客戶可能買或不買某種產(chǎn)品,一個(gè)人的病情可能會發(fā)展也可能不會發(fā)展等。
2.3 挖掘過程實(shí)施
如圖1,在SQL Server Business Intelligence Development中創(chuàng)建一個(gè)Analysis services項(xiàng)目,配置好數(shù)據(jù)源和數(shù)據(jù)源視圖,并創(chuàng)建對應(yīng)的數(shù)據(jù)源。
結(jié)合挖掘算法并分析,得出以下結(jié)論:
①W元素的含量是影響材質(zhì)為ZG15Cr1Mo1V鑄鋼件的裂紋焊補(bǔ)率的貝葉斯關(guān)鍵因子。且當(dāng)其含量<0.0069 時(shí)候裂紋焊補(bǔ)率趨向于低裂紋(裂紋焊補(bǔ)率<0.3)。
②Nb元素的含量對鑄件裂紋焊補(bǔ)率影響較大。經(jīng)過預(yù)測,當(dāng)Nb元素質(zhì)量分?jǐn)?shù)在0.003%-0.004%之間時(shí),鑄件裂紋焊補(bǔ)率比較低。
③Ca 元素的含量也對鑄件裂紋焊補(bǔ)率影響較大。數(shù)據(jù)挖掘預(yù)測當(dāng)Ca元素的質(zhì)量分?jǐn)?shù)在0.002%-0.003%之間時(shí),鑄件裂紋焊補(bǔ)率比較低。
2.4 模式評估
模式評估是從商業(yè)角度,由行業(yè)專家來驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。經(jīng)過對上述數(shù)據(jù)有效性的驗(yàn)證,技術(shù)部門對相關(guān)結(jié)論進(jìn)行分析核實(shí),得出上述結(jié)論具有參考和控制性的評估結(jié)果。
2.5 知識形成
將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識存放在知識庫中,供其他應(yīng)用程序使用。將本文研究課題的實(shí)驗(yàn)結(jié)論提供給公司虛擬設(shè)計(jì)部門,進(jìn)行相關(guān)的實(shí)驗(yàn)研究。需要注意的是:數(shù)據(jù)挖掘過程是一個(gè)反復(fù)循環(huán)的過程,每一個(gè)步驟如果沒有達(dá)到預(yù)期目標(biāo),都需要回到前面的步驟,重新調(diào)整并執(zhí)行。本次實(shí)驗(yàn)針對貝葉斯關(guān)鍵因子W元素含量進(jìn)行了驗(yàn)證,對鑄件W元素含量小于0.007%的鑄件且其余檢測化學(xué)含量項(xiàng)目相似的6批鑄件進(jìn)行檢測驗(yàn)證,發(fā)現(xiàn)除了1批鑄件的的裂紋焊補(bǔ)率為1.34偏高外,其余鑄件的焊補(bǔ)率均低于0.3,檢驗(yàn)結(jié)果支持了W元素含量對于裂紋焊補(bǔ)率的影響。這使得在以后的熔煉工藝設(shè)計(jì)中,W元素的含量成為重點(diǎn)關(guān)注的項(xiàng)目。
3 整合業(yè)務(wù)流程
通過本課題的實(shí)施,對大數(shù)據(jù)的工作流程做了整合,具體流程如下:
①確立目標(biāo),明確要驗(yàn)證什么、發(fā)現(xiàn)什么;
②數(shù)據(jù)倉庫的建立,將相關(guān)因子進(jìn)行數(shù)據(jù)處理并放入數(shù)據(jù)庫;
③根據(jù)目標(biāo)確立挖掘算法;
④依據(jù)挖掘算法得出的結(jié)論,并進(jìn)行理論和實(shí)驗(yàn)驗(yàn)證;
⑤將經(jīng)過驗(yàn)證的結(jié)論形成知識。
4 結(jié)論
在本課題的研究過程中,數(shù)據(jù)清理和模式變換是核心。研究初期,由于模式變換不到位,對挖掘得出的結(jié)論進(jìn)行驗(yàn)證,得到不符合的結(jié)論,同時(shí)在研究過程中統(tǒng)計(jì)理論知識的欠缺,使整個(gè)模式評估花費(fèi)的時(shí)間較多。這些都需要在今后工作中加強(qiáng)相應(yīng)知識的學(xué)習(xí)。
經(jīng)過這次課題的研究,驗(yàn)證了大數(shù)據(jù)分析結(jié)果在企業(yè)管理中具有參考和控制性作用,大數(shù)據(jù)分析方法可在中小企業(yè)管理中加以應(yīng)用。
參考文獻(xiàn):
[1]拉爾森(Larson,B.).商務(wù)智能實(shí)戰(zhàn)[M].蓋九宇,趙龍剛,曹玉玲,等,譯.北京:機(jī)械工業(yè)出版社,2011,9.
[2]數(shù)據(jù)挖掘技術(shù),百度百科[OL].
[3]維克托·邁爾-舍恩伯格著.大數(shù)據(jù)時(shí)代[M].盛楊燕,周濤,譯.浙江人民出版社,2013,01.