章惠 周萍
摘 要:大數(shù)據(jù)及其相關(guān)技術(shù)是目前全社會關(guān)注的熱點問題,文章介紹了大數(shù)據(jù)的概念,分析了大數(shù)據(jù)給行業(yè)和企業(yè)帶來的利益,重點分析大數(shù)據(jù)技術(shù)中的重要模型和算法及其應(yīng)用,隨后在生產(chǎn)和物流領(lǐng)域介紹了大數(shù)據(jù)的模型和算法在企業(yè)的應(yīng)用進展,最后給出相關(guān)建議。
關(guān)鍵詞:大數(shù)據(jù);模型;算法;生產(chǎn);物流
中圖分類號:F253.9 文獻標(biāo)識碼:A
Abstract: Big data and its related technologies are the hot issues of whole society, this article first introduces concept of big data, then analyzes the benefit which big data can bring to industries and enterprises, and emphasizes the applications of main models and algotithms of big data, then analyzes the progress of application of big data models via the angle of production and logistics fields.
Key words: big data; model; algorithm; production; logistics
大數(shù)據(jù)是近年來學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的熱點問題,2015年5月國務(wù)院下發(fā)的《中國制造2025》規(guī)劃中將大數(shù)據(jù)作為未來十年發(fā)展的重點方向之一,目前國家工業(yè)與信息化部正在著力編制“國家大數(shù)據(jù)發(fā)展十三五規(guī)劃”。這些動作都表明大數(shù)據(jù)在我國有著廣闊和巨大的發(fā)展空間,并且將受到國家產(chǎn)業(yè)政策的長期重點扶持。
2014年,我國軟件業(yè)務(wù)收入為3.7萬億元,其中數(shù)據(jù)處理和存儲類服務(wù)實現(xiàn)收入6 834億元,同比增長22.1%,占全行業(yè)比重為18.4%。大數(shù)據(jù)已經(jīng)在金融、通信、交通、制造、醫(yī)療等各個領(lǐng)域開展較多應(yīng)用,并將成為制造業(yè)轉(zhuǎn)型升級和提升競爭力的關(guān)鍵要素。
1 大數(shù)據(jù)簡介
目前學(xué)術(shù)界并沒有對大數(shù)據(jù)有一個明確嚴(yán)謹(jǐn)?shù)亩x,只是一般來說,如果一個行業(yè)或者企業(yè)能夠產(chǎn)生大量的數(shù)據(jù),一般就稱之為“大數(shù)據(jù)”。從技術(shù)層面理解,大數(shù)據(jù)的“大”一般體現(xiàn)在以下幾個層面:(1)存儲介質(zhì)大,對于大數(shù)據(jù)而言,一般的桌面級電腦的硬盤已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求,往往需要大型的磁盤陣列等進行存儲,同時由于大數(shù)據(jù)行業(yè)每天都在產(chǎn)生大量的數(shù)據(jù),因此對于大數(shù)據(jù)的壓縮、備份等方面均提出了比較高的需求;(2)處理能力強大,隨著數(shù)據(jù)量的攀升,對于處理系統(tǒng)技術(shù)的要求是呈幾何數(shù)量提升的,例如新浪微博需要為千萬級用戶實時快速計算并刷新關(guān)注、粉絲、微博的計數(shù),并對用戶及時通知新消息等,這些都需要極高的處理能力;(3)來源多樣化,大數(shù)據(jù)可能是非常規(guī)整的各類數(shù)據(jù),也可能不是規(guī)整的數(shù)據(jù),例如非結(jié)構(gòu)化的自然語言等,這些也給大數(shù)據(jù)的處理和利用帶來了技術(shù)上的難度。
目前在國內(nèi),數(shù)據(jù)分析和挖掘領(lǐng)域做得比較好的還是在通訊、金融、互聯(lián)網(wǎng)等行業(yè),主要作為傳統(tǒng)行業(yè)的制造型行業(yè),在大數(shù)據(jù)方面的應(yīng)用還是比較少的,或者至多是處于起步階段。下面我們首先看看大數(shù)據(jù)能給行業(yè)和企業(yè)帶來什么?
2 大數(shù)據(jù)能給我們帶來什么?
根據(jù)“大數(shù)據(jù)”概念的提出方——美國IBM公司的構(gòu)想,大數(shù)據(jù)將主要在四個方面給我們帶來收益:
2.1 節(jié)約成本
可以運用大數(shù)據(jù)技術(shù)有效地節(jié)約成本,這一點在生產(chǎn)型企業(yè)表現(xiàn)得比較突出,例如美國GE公司在飛機制造中利用大量分布在飛機渦輪上的傳感器上傳回的實時數(shù)據(jù)進行分析,從而有效地預(yù)測飛機葉片上何時會產(chǎn)生裂縫。另外一個著名的案例是美國UPS公司在公司的送貨車安裝了4.6萬多個遠(yuǎn)程信息感應(yīng)器,用來傳送速度、方向、剎車以及行駛表現(xiàn)數(shù)據(jù),公司對這些大數(shù)據(jù)進行分析以優(yōu)化貨物的運送路徑。在國內(nèi)也有一些企業(yè)采用大數(shù)據(jù)技術(shù)來降低生產(chǎn)成本,例如北京、廣東的數(shù)家生產(chǎn)型企業(yè)利用IBM SPSS的“預(yù)測性維護”模塊來智能預(yù)測設(shè)備的最佳維護時間,從而有效地降低了企業(yè)的生產(chǎn)成本。
2.2 有效地縮短計算時間
在大規(guī)模生產(chǎn)和運營的過程中,有很多數(shù)據(jù)需要及時刷新、分析和利用,采用常規(guī)技術(shù)和手段計算時間比較慢,無法達到生產(chǎn)和運營的要求,因此需要參與創(chuàng)新的大數(shù)據(jù)技術(shù)來縮短計算時間,例如某印刷企業(yè)對商品的打折定價最優(yōu)化的計算,原來需要27小時才能做完,采用大數(shù)據(jù)技術(shù)后,1小時就能計算完畢。
2.3 生產(chǎn)虛擬模型化提升運營效率
在傳統(tǒng)的制造企業(yè)中,大量的數(shù)據(jù)分布于企業(yè)中的各個部門中,要想在整個企業(yè)內(nèi)及時、快速提取和匯總這些數(shù)據(jù)存在一定的困難,創(chuàng)建產(chǎn)品生命周期管理(PLM)平臺是解決這個問題的方法之一,其好處在于可以充分整合來自研發(fā)、工程、生產(chǎn)部門的數(shù)據(jù),對工業(yè)產(chǎn)品的生產(chǎn)進行虛擬模型化,優(yōu)化生產(chǎn)流程,提升組織的運營效率,縮短產(chǎn)品的研發(fā)與上市時間。西門子的PLM軟件平臺可以在計算機生成的三維模型下模擬生產(chǎn)工藝,在實際生產(chǎn)之前發(fā)現(xiàn)生產(chǎn)工藝中的薄弱點,安徽奇瑞汽車曾經(jīng)利用它查出某車型頭燈生產(chǎn)中的問題,為公司避免了10多萬美元的損失。
2.4 更準(zhǔn)確地判斷市場需求
運用大數(shù)據(jù)技術(shù),可以提高市場營銷的效率,例如在網(wǎng)站頁面上對用戶進行產(chǎn)品推薦,在海量數(shù)據(jù)中對用戶的消費者行為進行分析,甚至進行一些跨部門跨行業(yè)的大數(shù)據(jù)分析,將其結(jié)論用于產(chǎn)品和服務(wù)的創(chuàng)新。在工程機械行業(yè),很多挖掘機都安裝了GPS定位系統(tǒng)以實時監(jiān)控車輛運行情況。同樣,日本小松公司的挖掘機也安裝了GPS定位系統(tǒng),在實時監(jiān)控車輛運行情況的同時,還根據(jù)挖掘機每個月的工作量統(tǒng)計全年的工作情況并由此判斷下一年度的市場需求。挖掘機開工越飽滿,說明市場需求越旺盛,如果客戶購買挖掘機后每個月的工作量很少,說明市場有可能面臨過剩的風(fēng)險。endprint
在明確了大數(shù)據(jù)能夠給行業(yè)和企業(yè)帶來變革和改進之后,繼續(xù)進一步細(xì)化分析大數(shù)據(jù)技術(shù)包含的常見的算法和模型。
3 大數(shù)據(jù)常用模型和算法
無論采用什么樣的技術(shù)架構(gòu)和存儲設(shè)備,大數(shù)據(jù)的應(yīng)用最后還是要落實到具體的模型和算法上,因此對數(shù)據(jù)分析和挖掘模型和算法的理解,進而對理解大數(shù)據(jù)在行業(yè)和企業(yè)的應(yīng)用非常有幫助。
從目前的市場態(tài)勢看,常用的分析模型和算法基本上都已經(jīng)被編制成軟件模塊,因此從市面上流行的分析軟件和解決方案入手,基本可以搞清楚主要的分析模塊。目前在數(shù)據(jù)分析挖掘軟件上比較領(lǐng)先的公司有IBM、SAS、SAP等,縱觀這些市場上的著名軟件,可以將主要的數(shù)據(jù)分析挖掘的模塊區(qū)分如下:
(1)異常值分析:異常值分析是數(shù)據(jù)分析和挖掘的重要問題之一,異常值指數(shù)據(jù)中的極大值、極小值或者背離趨勢的值,例如原來數(shù)據(jù)是在增長中,突然數(shù)據(jù)開始下降,也可以作為數(shù)據(jù)異常值考慮。異常值的模型和算法中包括三倍標(biāo)準(zhǔn)差等算法,在此不再贅敘。
(2)相似或聚類分析:從大的范疇來看,相似或者聚類都屬于數(shù)據(jù)分類的范疇,相似是把數(shù)據(jù)中有相似特征的數(shù)據(jù)挑選出來分門別類,聚類的思路也比較類似。
(3)數(shù)據(jù)間關(guān)系判斷:我們經(jīng)常要搞清楚數(shù)據(jù)之間的關(guān)系,回歸是分析數(shù)據(jù)之間是否有關(guān)系以及將數(shù)據(jù)間關(guān)系用類似數(shù)學(xué)方程式的方式表達的分析方法,回歸包括一般的線性回歸、非線性回歸以及l(fā)ogistic回歸等。
(4)關(guān)聯(lián)分析:關(guān)聯(lián)分析是數(shù)據(jù)挖掘中的經(jīng)典算法,它主要關(guān)注數(shù)據(jù)之間是否同時出現(xiàn)以及數(shù)據(jù)之間次序出現(xiàn)的關(guān)系,例如數(shù)據(jù)A和數(shù)據(jù)B同時出現(xiàn)的概率是多少,也例如數(shù)據(jù)A出現(xiàn)的時候、數(shù)據(jù)B出現(xiàn)的概率是多少,關(guān)聯(lián)分析的結(jié)果經(jīng)常被用來產(chǎn)品的營銷推薦和捆綁銷售。
(5)決策樹工具:決策樹實際上也是一個分類算法,該算法采用樹形結(jié)構(gòu)分析數(shù)據(jù)之間的相互影響關(guān)系,來探討數(shù)據(jù)之間的影響關(guān)系和次序關(guān)系,例如汽車銷售4S店利用決策樹模型對汽車選購數(shù)據(jù)進行分析,分析性別、年齡、職業(yè)、首次購車/非首次購車等因素對于汽車品牌等選擇的影響,取得了比較好的效果。目前比較好的決策樹模型有c5.0、CHAID等著名算法。
(6)預(yù)測模型:預(yù)測一直是數(shù)據(jù)分析和挖掘的核心功能之一,預(yù)測是在歷史數(shù)據(jù)的基礎(chǔ)上對未來數(shù)據(jù)進行預(yù)測,目前市面上流行多種預(yù)測模型和算法,包括時間序列、神經(jīng)網(wǎng)絡(luò)等。
在以上的統(tǒng)計挖掘模型之外,近年來在大數(shù)據(jù)領(lǐng)域受到熱點關(guān)注的功能就是網(wǎng)絡(luò)爬蟲功能。爬蟲就是按照一定的搜索需求在互聯(lián)網(wǎng)上進行內(nèi)容抓取,例如在某一個特定的網(wǎng)站上抓取“價格”相關(guān)的信息。爬蟲軟件目前在如下幾個方面得到了重點關(guān)注并獲得了較多的應(yīng)用:網(wǎng)絡(luò)營銷、產(chǎn)品設(shè)計、輿情分析等方面,商家希望及時獲得消費者和社會大眾對于產(chǎn)品的評價和反應(yīng),以確定自己的包括定價在內(nèi)的營銷策略和產(chǎn)品設(shè)計,政府希望獲知老百姓對于政府政策、突發(fā)事件等方面的反應(yīng)等?,F(xiàn)在市面上爬蟲軟件眾多,有開源免費的軟件,也有收費的商業(yè)軟件,功能差異很大。值得注意的是,一些企業(yè)處于保護自身競爭優(yōu)勢以及企業(yè)機密的角度出發(fā),現(xiàn)在逐步開始對爬蟲軟件進行限制,例如新浪微博、騰訊微信等,這在很大程度上限制了爬蟲軟件的應(yīng)用。
4 大數(shù)據(jù)模型和算法在企業(yè)中的應(yīng)用
從企業(yè)的職能來說,主要可以分為生產(chǎn)、采購、營銷、財務(wù)、人事等職務(wù),其中生產(chǎn)和營銷是企業(yè)最主要的功能,主要看大數(shù)據(jù)模型算法等在企業(yè)生產(chǎn)和物流方面的應(yīng)用控件。
4.1 在生產(chǎn)領(lǐng)域的應(yīng)用
在生產(chǎn)領(lǐng)域,大數(shù)據(jù)技術(shù)現(xiàn)在應(yīng)用的最大亮點莫過于提高生產(chǎn)質(zhì)量和降低生產(chǎn)成本,我們以異常點分析和聚類模型為例,上海某大型印刷企業(yè)在收集不同批次的產(chǎn)品質(zhì)量數(shù)據(jù)之后,采用以下的步驟進行產(chǎn)品故障分析:
如圖1,在產(chǎn)品批次數(shù)據(jù)庫上,采用聚類算法將低產(chǎn)品合格率的批次數(shù)據(jù)挑選出來,在多工序多機臺的工作環(huán)境下,采用“加工路徑分析”方法找出可能存在問題的機器設(shè)備,然后結(jié)合實驗設(shè)計調(diào)整生產(chǎn)工藝參數(shù),提高產(chǎn)品質(zhì)量。
另外一個降低生產(chǎn)成本的案例是IBM SPSS推出的“預(yù)測性維護”的數(shù)據(jù)挖掘模塊,工廠設(shè)備的維護基本是按照“定時維護”的原則,即制定好設(shè)備的維護計劃,到點就對機器設(shè)備進行維護,而不管設(shè)備的實際運行狀況如何。“預(yù)測性維護”模塊首先會收集大量的關(guān)于設(shè)備的各項數(shù)據(jù),包括設(shè)備類型、運行天數(shù)、工作電壓、距離上次服務(wù)的天數(shù)、距離下次服務(wù)的天數(shù)、故障歷時記錄、計劃內(nèi)和計劃外的維護成本、零件相關(guān)的數(shù)據(jù)等等,然后進行相關(guān)的統(tǒng)計分析(包括比較復(fù)雜的數(shù)據(jù)回歸等),并給出最佳的設(shè)備維護建議。國內(nèi)外一些生產(chǎn)型企業(yè)采用了該模塊后,取得了比較好的效果,有效地降低了企業(yè)生產(chǎn)和維護成本。
4.2 在物流領(lǐng)域的應(yīng)用
大數(shù)據(jù)模型和算法在其他領(lǐng)域的應(yīng)用也在增多,據(jù)筆者了解到,上海某大型印刷企業(yè)針對其物流成本高的現(xiàn)狀,借助數(shù)據(jù)分析和挖掘技術(shù)對該企業(yè)的物流成本進行了分析。該企業(yè)將過去五年的物流成本進行了匯總,其數(shù)據(jù)以周為單位,整理了包括包裝、運輸、庫存、裝卸四大類物流成本,明細(xì)的會計科目有22個,隨后采用相關(guān)分析和回歸分析等手段對物流成本數(shù)據(jù)進行了分析,通過分析,該企業(yè)明確了各類物流成本的占比以及彈性,明確了物流成本壓縮的重點,取得了較好的效果。
在物流業(yè)實施RFID技術(shù)的研討和實施一直在持續(xù)不斷地進行著。RFID(無線射頻識別技術(shù))是一項基于電子標(biāo)簽,配套其他外圍基礎(chǔ)設(shè)備,如外置天線、讀寫裝置和打印機等的系統(tǒng)技術(shù)。RFID是通過“發(fā)送信號”、“接受信號”以及“處理信號”三大步驟來完成的。利用RFID技術(shù),將特殊的信息編碼寫進電子標(biāo)簽,粘貼在需要識別的物體上,通過無線射頻方式進行非接觸雙向通信,一邊識別一邊交換數(shù)據(jù)?;萜赵诿绹锛{西州的物流配送中心倉庫,為北美多個企業(yè),如沃爾瑪、BestBuy等提供促銷專用的打印機?;萜张c參加打印機促銷活動的商家展開活動,以托盤為單位進行RFID標(biāo)簽應(yīng)用,為裝載促銷打印機的托盤上加貼一張RFID標(biāo)簽,打印機從配送中心出貨后,在各個中轉(zhuǎn)點進行數(shù)據(jù)的讀取和采集,這樣產(chǎn)品在何時、何地或者經(jīng)過何地這些實時信息,可以提供給決策者進行決策,能夠及時處理和判斷各類問題。通過RFID技術(shù),可以大大提高商品的物流和營銷效率。
大數(shù)據(jù)效益最終不是體現(xiàn)在直接的經(jīng)濟收益上,而在于幫助企業(yè)提升競爭力,能夠更清楚地應(yīng)對客戶需求,提供優(yōu)質(zhì)服務(wù),“只要我們的制造業(yè)水平能隨之得以提高,制造業(yè)+大數(shù)據(jù)的做法就應(yīng)該堅持下去?!?/p>
5 結(jié)束語
大數(shù)據(jù)技術(shù)目前在各行各業(yè)的應(yīng)用都在推進,制造型企業(yè)也是如此。相對于金融、通訊等行業(yè)來說,大數(shù)據(jù)技術(shù)在制造業(yè)基本還處于起步階段,但是這也預(yù)示著大數(shù)據(jù)各項技術(shù)在這個行業(yè)有很大的應(yīng)用空間。對于制造型企業(yè)來說,關(guān)注大數(shù)據(jù)技術(shù)及其發(fā)展趨勢,結(jié)合行業(yè)的需求現(xiàn)狀,合理采用大數(shù)據(jù)技術(shù),有效地推進企業(yè)的生產(chǎn)、降低成本、提高運營效率,是相關(guān)企業(yè)目前需要關(guān)注的重要問題之一。
參考文獻:
[1] 趙國棟,易歡歡,糜萬軍,等. 大數(shù)據(jù)時代的歷史機遇:產(chǎn)業(yè)變革與數(shù)據(jù)科學(xué)[M]. 北京:清華大學(xué)出版社,2013:2-48.
[2] 張文菡,白迪. 網(wǎng)絡(luò)云印刷模式評價及平臺構(gòu)建[J]. 出版與印刷,2014,6(1):34-38.
[3] 曹宏遂. 抓住文化產(chǎn)業(yè)發(fā)展機遇 推動印刷業(yè)轉(zhuǎn)型升級[J]. 印刷經(jīng)理人,2012(11):40-43.
[4] 王喜文. 大數(shù)據(jù)驅(qū)動制造業(yè)邁向智能化[J]. 物聯(lián)網(wǎng)技術(shù),2014(12):7-8.
[5] 張靜. 制造業(yè)利用大數(shù)據(jù)的要領(lǐng)[J]. 自動化技術(shù)與應(yīng)用,2014(6):115-116.
[6] 盧瑋朋,梁金星. 大數(shù)據(jù)時代小微印刷企業(yè)的發(fā)展策略研究[J]. 包裝學(xué)報,2015(4):63-68.
[7] 孟小峰. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計算機研究與發(fā)展,2013(1):147-169.
[8] 黃孝章,劉益. 大數(shù)據(jù)時代出版業(yè)發(fā)展趨勢研究[J]. 科技與出版,2014(10):99-103.
[9] 歐陽峰. 商業(yè)模式創(chuàng)新研究的演化路徑與展望[J]. 科技管理研究,2010(12):12-16.
[10] 荊浩. 大數(shù)據(jù)時代商業(yè)模式創(chuàng)新研究[J]. 科技進步與對策,2014,31(7):15-19.endprint