李 濤,曾春秋,周武柏,周綺鳳,鄭 理
1. 南京郵電大學計算機學院 南京 210023;2. 美國佛羅里達國際大學 邁阿密 33199;3. 廈門大學自動化系 廈門 361005
大數(shù)據時代的數(shù)據挖掘
——從應用的角度看大數(shù)據挖掘
李 濤1,2,曾春秋1,2,周武柏1,2,周綺鳳3,鄭 理1,2
1. 南京郵電大學計算機學院 南京 210023;2. 美國佛羅里達國際大學 邁阿密 33199;3. 廈門大學自動化系 廈門 361005
介紹了大數(shù)據時代數(shù)據挖掘的特點、任務及難點,分析了大數(shù)據挖掘的核心架構,提出大數(shù)據的核心和本質,即應用、算法、數(shù)據和平臺4個要素的有機結合。在此基礎上介紹了本團隊研究設計的大數(shù)據挖掘系統(tǒng)FIU-Miner。該系統(tǒng)是一個用戶友好并支持在分布式環(huán)境中進行高效率計算和算法快速集成的數(shù)據挖掘系統(tǒng)平臺,使得數(shù)據分析人員能夠快速有效地進行各類數(shù)據挖掘任務。最后,介紹了基于FIU-Miner的3個典型的成功應用案例:高端制造業(yè)數(shù)據挖掘、空間數(shù)據挖掘和商務智能數(shù)據挖掘。
大數(shù)據;數(shù)據挖掘;FIU-Miner;高端制造業(yè);空間數(shù)據挖掘;商務智能
大數(shù)據(big data)一詞經常被用以描述和指代信息爆炸時代產生的海量信息。研究大數(shù)據的意義在于發(fā)現(xiàn)和理解信息內容及信息與信息之間的聯(lián)系。研究大數(shù)據首先要理清和了解大數(shù)據的特點及基本概念,進而理解和認識大數(shù)據。
1.1 大數(shù)據的特點“4V+4V”
從數(shù)據的表現(xiàn)形式看,業(yè)界普遍認為大數(shù)據具有如下的“4V”特點[1]。
· volume(大量):數(shù)據體量巨大,從TB級別躍升到PB級別。
· variety(多樣):數(shù)據類型繁多,如網絡日志、視頻、圖片、地理位置信息等。
· velocity(高速):處理速度快,實時分析,這也是和傳統(tǒng)的數(shù)據挖掘技術的本質上的不同。
· value(價值):價值密度低,蘊含有效價值高,合理利用低密度價值的數(shù)據并對其進行正確、準確的分析,將會帶來巨大的商業(yè)和社會價值。
上述“4V”特點描述了大數(shù)據與以往部分抽樣的“小數(shù)據”的主要區(qū)別。然而,實踐是大數(shù)據的最終價值體現(xiàn)的唯一途徑。從實際應用和大數(shù)據處理的復雜性看,大數(shù)據還具有如下新的“4V”特點。
· variable(變化性):在不同的場景、不同的研究目標下數(shù)據的結構和意義可能會發(fā)生變化,因此,在實際研究中要考慮具體的上下文場景。
· veracity(真實性):獲取真實、可靠的數(shù)據是保證分析結果準確、有效的前提。只有真實而準確的數(shù)據才能獲取真正有意義的結果。
· volatility(波動性):由于數(shù)據本身含有噪音及分析流程的不規(guī)范性,導致采用不同的算法或不同分析過程與手段會得到不穩(wěn)定的分析結果。
· visualization(可視化):在大數(shù)據環(huán)境下,通過數(shù)據可視化可以更加直觀地闡釋數(shù)據的意義,幫助理解數(shù)據,解釋結果。
1.2 對大數(shù)據的理解
國內外不同的專家和學者對大數(shù)據有不同的理解,中國科學院計算技術研究所李國杰院士認為:大數(shù)據就是“海量數(shù)據”加“復雜數(shù)據類型”[2]。維基百科對大數(shù)據的定義是:“大數(shù)據是由于規(guī)模、復雜性、實時性而導致的使之無法在一定時間內用常規(guī)軟件工具對其進行獲取、存貯、搜索、分享、分析、可視化的數(shù)據集合”1https:// en.wikipedia.org/ wiki/Big_data。Gartner咨詢公司給出的定義是:“大數(shù)據是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產”2http://www. gartner.com/itglossary/bigdata。而互聯(lián)網數(shù)據中心將大數(shù)據定義為:“為更經濟地從高頻率、大容量、不同結構和類型的數(shù)據中獲取價值而設計的新一代架構和技術”3https://www. idc.com/ prodserv/ 4Pillars/ bigdata。
結合上述大數(shù)據的“8V”特征,筆者認為大數(shù)據的核心和本質是應用、算法、數(shù)據和平臺4個要素的有機結合,如圖1所示。大數(shù)據是應用驅動的,大數(shù)據來源于實踐,海量數(shù)據產生于實際應用中。
圖1 大數(shù)據架構
數(shù)據挖掘源于實踐中的實際應用需求,用具體的應用數(shù)據作為驅動,以算法、工具和平臺作為支撐,最終將發(fā)現(xiàn)的知識和信息用到實踐中去,從而提供量化、合理、可行、能夠產生巨大價值的信息。另外,挖掘大數(shù)據所蘊含的有用信息,需要設計和開發(fā)相應的數(shù)據挖掘和機器學習算法。算法的設計和開發(fā)要以具體的應用數(shù)據為驅動,同時也要在實際問題中得到應用和驗證,而算法的實現(xiàn)與應用需要高效的處理平臺。高效的處理平臺需要有效地分析海量的數(shù)據及對多源數(shù)據進行集成,同時有力支持數(shù)據挖掘算法以及數(shù)據可視化的執(zhí)行,并對數(shù)據分析的流程進行規(guī)范。總而言之,這個應用、算法、數(shù)據和平臺相結合的思想是對上述大數(shù)據的理解和認識的一個綜合與凝練,體現(xiàn)了大數(shù)據的本質和核心。建立在此架構上的大數(shù)據挖掘,能夠有效處理大數(shù)據的復雜特征,挖掘大數(shù)據的價值。
本文在此框架下,從應用的角度探討了大數(shù)據時代的數(shù)據挖掘的機遇與挑戰(zhàn),介紹了研究團隊開發(fā)的大數(shù)據挖掘平臺FIU-Miner以及成功應用該平臺實現(xiàn)的高端制造業(yè)數(shù)據挖掘、空間數(shù)據挖掘和商務智能3個大型、復雜數(shù)據挖掘案例。
2.1 數(shù)據挖掘
在大數(shù)據時代,數(shù)據的產生和收集是基礎,數(shù)據挖掘是關鍵。數(shù)據挖掘是大數(shù)據中最關鍵也最有價值的工作。通常,數(shù)據挖掘或知識發(fā)現(xiàn)泛指從大量數(shù)據中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統(tǒng)化的過程。數(shù)據挖據可以用以下4個特性概括[3]。
(1)應用性:數(shù)據挖掘是理論算法和應用實踐的完美結合。數(shù)據挖掘源于實際生產生活中應用的需求,挖掘的數(shù)據來自于具體應用,同時通過數(shù)據挖掘發(fā)現(xiàn)的知識又要運用到實踐中去,輔助實際決策。所以,數(shù)據挖掘來自于應用實踐,同時也服務于應用實踐。
(2)工程性:數(shù)據挖掘是一個由多個步驟組成的工程化過程。數(shù)據挖掘的應用特性決定了數(shù)據挖掘不僅僅是算法分析和應用,而是一個包含數(shù)據準備和管理、數(shù)據預處理和轉換、挖掘算法開發(fā)和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中,典型的數(shù)據挖掘過程還是一個交互和循環(huán)的過程。
(3)集合性:數(shù)據挖掘是多種功能的集合。常用的數(shù)據挖掘功能包括數(shù)據探索分析、關聯(lián)規(guī)則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數(shù)據可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每一個功能都有不同的算法支撐。
(4)交叉性:數(shù)據挖掘是一個交叉學科,它利用了來自統(tǒng)計分析、模式識別、機器學習、人工智能、信息檢索、數(shù)據庫等諸多不同領域的研究成果和學術思想。同時,一些其他領域如隨機算法、信息論、可視化、分布式計算和最優(yōu)化也對數(shù)據挖掘的發(fā)展起到重要的作用。數(shù)據挖掘與這些相關領域的區(qū)別可以由前面提到的數(shù)據挖掘的3個特性來總結,最重要的是它更側重于應用。
具體而言,實際應用的需求是數(shù)據挖掘領域很多方法提出和發(fā)展的根源。從最開始的顧客交易數(shù)據分析(market basket analysis)、多媒體數(shù)據挖掘(multimedia data mining)、隱私保護數(shù)據挖掘(privacy-preserving data mining)到文本數(shù)據挖掘(text mining)和 Web 挖掘(Web mining),再到社交媒體挖掘(social media mining)都是由應用推動的。工程性和集合性決定了數(shù)據挖掘研究內容和方向的廣泛性。其中,工程性使得整個研究過程里的不同步驟都屬于數(shù)據挖掘的研究范疇。而集合性使得數(shù)據挖掘有多種不同的功能,而如何將多種功能聯(lián)系和結合起來,從一定程度上影響了數(shù)據挖掘研究方法的發(fā)展。比如,20世紀90年代中期,數(shù)據挖掘的研究主要集中在關聯(lián)規(guī)則和時間序列模式的挖掘。到20世紀90年代末,研究人員開始研究基于關聯(lián)規(guī)則和時間序列模式的分類算法(如classification based on association),將兩種不同的數(shù)據挖掘功能有機地結合起來。21世紀初,一個研究的熱點是半監(jiān)督學習(semisupervised learning)和半監(jiān)督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向如子空間聚類(subspace clustering)(特征抽取和聚類的結合)和圖分類(graph classification)(圖挖掘和分類的結合)也是將多種功能聯(lián)系和結合在一起。最后,交叉性導致了研究思路和方法設計的多樣化。
2.2 從數(shù)據挖掘應用的角度看大數(shù)據
大數(shù)據是現(xiàn)象,核心是要挖掘數(shù)據的價值。結合數(shù)據挖掘的各種特性,尤其是其應用性,從應用業(yè)務的角度對大數(shù)據提出如下兩點的認識[3]。
首先,大數(shù)據是“一把手工程”。在一個企業(yè)里,大數(shù)據通常涉及多個業(yè)務部門,業(yè)務邏輯復雜。一方面,要對大數(shù)據進行收集和整合,需要業(yè)務部門的配合和溝通以及業(yè)務人員的大力參與,這些需要企業(yè)決策人員的重視和認可,提供必要的資源調配和支持。另一方面,要對數(shù)據挖掘的結果進行驗證和運用,更離不開相關人員的決策。數(shù)據挖掘的結果大多是相關關系,而不是因果關系,這些結果還可能有不確定性。另外,有時候數(shù)據挖掘的結果與企業(yè)運作的常識不一致,甚至相悖。所以,如何看待這些可能的不確定性和反常識的分析結論,充分利用好數(shù)據挖掘結果,必然離不開決策者的遠見卓識。
其次,大數(shù)據需要數(shù)據導入、整合和預處理。當面對來自不同數(shù)據源的大量復雜數(shù)據時,具體業(yè)務邏輯復雜與數(shù)據之間的關系瑣碎直接導致企業(yè)的業(yè)務流程和數(shù)據流程很難理解。因此,企業(yè)在實施大數(shù)據時可能并不清楚要挖掘和發(fā)現(xiàn)什么,對數(shù)據挖掘到底能幫助企業(yè)做什么并沒有直觀和清楚的認識。所以,很多時候都不可能先把數(shù)據事先規(guī)劃好和準備好,這樣在具體的數(shù)據挖掘中,就需要在數(shù)據的導入、整合和預處理上有很大的靈活性,只有通過業(yè)務人員和數(shù)據挖掘工程師的配合,不斷嘗試,才能有效地將企業(yè)的業(yè)務需求與數(shù)據挖掘的功能聯(lián)系起來。
2.3 大數(shù)據時代應用數(shù)據挖掘的挑戰(zhàn)
大數(shù)據時代的來臨使得數(shù)據的規(guī)模和復雜性都出現(xiàn)爆炸式的增長,促使不同應用領域的數(shù)據分析人員利用數(shù)據挖掘技術對數(shù)據進行分析。在應用領域中,如醫(yī)療保健、高端制造、金融等,一個典型的數(shù)據挖掘任務往往需要復雜的子任務配置,整合多種不同類型的挖掘算法以及在分布式計算環(huán)境中高效運行。因此,在大數(shù)據時代進行數(shù)據挖掘應用的一個當務之急是要開發(fā)和建立計算平臺和工具,支持應用領域的數(shù)據分析人員能夠有效地執(zhí)行數(shù)據分析任務。
現(xiàn)有的數(shù)據挖掘工具(如Weka[4]、SPSS和SQL Server等)提供了友好的界面,方便用戶進行分析。然而,這些工具并不適合進行大規(guī)模的數(shù)據分析。同時使用這些工具時,用戶很難添加新的算法程序。流行的數(shù)據挖掘算法庫(如Mahout[5]、MLC++4http://www.sgi. com/tech/mlc和MILK5http:// pythonhosted. org/milk)提供了大量的數(shù)據挖掘算法。但是,這些算法庫需要有高級編程技能才能在一個具體的數(shù)據挖掘任務中進行任務配置和算法集成。最近出現(xiàn)的一些集成的數(shù)據挖掘產品(如Radoop[6]和BC-PDM[7])通過提供友好的用戶界面來快速配置數(shù)據挖掘任務。然而,這些產品是基于Hadoop框架的,對非Hadoop算法程序的支持非常有限。此外,這些產品并沒有明確地解決在多用戶和多任務情況下的資源分配問題。
為了解決現(xiàn)有工具和產品在大數(shù)據挖掘中的局限性,開發(fā)了一個新的平臺——FIUMiner(a fast, integrated, and user-friendly system for data mining in distributed environment[8]),是一個用戶友好并支持在分布式環(huán)境中進行高效率計算和快速集成的數(shù)據挖掘系統(tǒng),該平臺支持數(shù)據分析人員快速、有效地進行數(shù)據挖掘任務。
3.1 FIU-Miner平臺介紹
與現(xiàn)有數(shù)據挖掘平臺相比,F(xiàn)IUMiner提供了一組新的功能,能夠幫助數(shù)據分析人員方便并有效地開展各項復雜的數(shù)據挖掘任務。
具體而言,F(xiàn)IU-Miner 具有以下突出的優(yōu)點。
(1)用戶友好、人性化、快速的數(shù)據挖掘任務配置:基于“軟件即服務”這一模式,F(xiàn)IU-Miner隱藏了與數(shù)據分析任務無關的低端細節(jié)。通過FIU-Miner提供的人性化用戶界面,用戶可以通過將現(xiàn)有算法直接組裝成工作流,輕松完成一個復雜數(shù)據挖掘問題的任務配置,而不需要編寫任何代碼。
(2)靈活的多語言程序集成:FIUMiner允許用戶將目前最先進的數(shù)據挖掘算法直接導入系統(tǒng)算法庫中,以此對分析工具集合進行擴充和管理。同時,由于FIU-Miner 能夠正確地將任務分配到有合適運行環(huán)境的計算節(jié)點上,所以對這些導入的算法沒有實現(xiàn)語言的限制。
(3)異構環(huán)境中有效的資源管理:FIU-Miner支持在異構的計算環(huán)境中(包括圖形工作站、單個計算機、和服務器等)運行數(shù)據挖掘任務。FIU-Miner綜合考慮各種因素(包括算法實現(xiàn)、服務器負載平衡和數(shù)據位置)來優(yōu)化計算資源的利用率。
3.2 FIU-Miner系統(tǒng)架構
圖2 FIU-Miner系統(tǒng)架構
FIU-Miner的系統(tǒng)架構如圖2所示。該系統(tǒng)分為4層:user interface(用戶接口層)、task and system management(任務與系統(tǒng)管理層)、abstracted resources(抽象資源層)和heterogeneous physical resource(異構物理資源層)。這種分層架構充分考慮了海量數(shù)據的分布式存儲、不同數(shù)據挖掘算法的集成、多種分析任務的配置以及系統(tǒng)和用戶的交互功能6http:// dataminingnode08.cs.fiu. edu/FIU-Miner。
3.2.1 用戶接口層
為了最大限度地提高系統(tǒng)的兼容性,用戶接口層是完全用HTML5開發(fā)的Web應用程序。如圖3所示,用戶接口層有如下3個功能模塊。
(1)任務配置和執(zhí)行(task configuration and execution)
該模塊支持面向工作流的數(shù)據挖掘任務配置。一個數(shù)據挖掘任務的工作流可以被表示為一個有向圖,其中圖的節(jié)點表示特定的算法,圖的邊表示算法中的數(shù)據相關性。在FIU-Miner 中,一個工作流程可通過圖形用戶界面來快速配置,而不需要編程。此外,用戶可以設置數(shù)據挖掘任務的執(zhí)行計劃,包括程序的定時、循環(huán)、順序等執(zhí)行方式。
(2)程序注冊(program registration)
圖3 用戶接口層功能模塊
該模塊可以讓用戶輕松地導入外部數(shù)據挖掘算法,充實FIU-Miner的算法庫。如果要導入外部程序,用戶需要上傳可執(zhí)行文件,提供詳細的描述信息,包括程序的功能描述、需要的運行環(huán)境、程序和相關數(shù)據以及參數(shù)規(guī)范。導入的程序可以使用任何語言編寫,只要后端服務器能支持它需要的運行環(huán)境。FIUMiner目前支持Java(包括Hadoop的環(huán)境)、Shell、Python和C/C++等語言編寫的程序,因此幾乎所有實現(xiàn)的主流數(shù)據挖掘算法,如基于Weka、Mahout、MILK等數(shù)據挖掘和機器學習算法庫的程序,都可以很容易地導入FIUMiner。用戶還可以將自己實現(xiàn)的算法導入系統(tǒng)中。
(3)系統(tǒng)監(jiān)控(system monitoring)
該模塊實時監(jiān)測FIU-Miner 的資源利用率,并且動態(tài)跟蹤系統(tǒng)中提交任務的運行狀態(tài)。注意該模塊只顯示了抽象的資源(邏輯存儲和計算資源包括數(shù)據庫、文件系統(tǒng)、計算單元等),使底層物理資源對用戶透明。
3.2.2 任務及系統(tǒng)管理層
任務及系統(tǒng)管理層包含了兩個主要功能模塊:任務管理和系統(tǒng)管理。
(1)任務管理
FIU-Miner允許用戶動態(tài)配置數(shù)據挖掘任務,以滿足他們的分析需求。用戶可以選擇在算法庫(algorithm library)中注冊的算法作為基本模塊來構造工作流。工作流集成器(workflow integrator)負責工作流的任務集成和驗證,同時發(fā)現(xiàn)和報告無效的流程。一旦新的數(shù)據挖掘任務集成和配置完成后,它將被自動添加到任務庫(task library),可以隨時被調度運行。作業(yè)調度器(job scheduler)負責分配計算資源及優(yōu)化運行時間。FIU-Miner里的調度比較復雜。一方面,F(xiàn)IU-Miner支持不同編程語言實現(xiàn)的程序在異構的計算環(huán)境中運行。一個任務里的不同程序可能會有不同的運行環(huán)境要求。所以,簡單地把任務分配到空閑的計算單元不一定可行。另一方面,將一個作業(yè)分成不同的步驟,讓每個步驟在不同的計算單元上運行,可能會增加I/O成本。如果再考慮多用戶、多任務的情況,F(xiàn)IU-Miner里的調度就會變得更加困難和復雜。為了解決上面的難題,在實現(xiàn)FIU-Miner的調度時,綜合考慮了如下因素:給定任務每一步的運行環(huán)境要求;每個計算單元支持的運行環(huán)境;每個計算結點的當前運行狀態(tài);輸入數(shù)據的大小。
(2)系統(tǒng)管理
作業(yè)管理器(job manager)跟蹤執(zhí)行作業(yè)的運行狀態(tài)。用戶會收到作業(yè)的實時狀態(tài)。除了作業(yè)監(jiān)視,F(xiàn)IU-Miner還會跟蹤計算單元以及相關計算資源的狀態(tài)。資源監(jiān)視器(resource monitor)監(jiān)視計算單元并提供作業(yè)調度程序的運行狀態(tài),以幫助調度決策。資源管理器(resource manager)管理所有可用的計算單元。FIU-Miner的一個獨特的優(yōu)點是,它不需要人工登記可用物理資源。一旦計算單元部署在物理服務器上,它會將服務器的信息發(fā)送給資源管理器,自動將服務器在FIU-Miner里注冊。
3.2.3 抽象資源層
抽象資源層包括存儲和計算資源。存儲資源建立在物理設備的基礎上,包括傳統(tǒng)數(shù)據庫、本地文件系統(tǒng)、分布式文件系統(tǒng)(比如HDFS)等。計算單元是邏輯上的計算資源。平臺的計算能力依賴計算單元的數(shù)量。通過擴展配置計算單元的數(shù)量,能有效地支撐上層的數(shù)據挖掘任務。
在FIU-Miner中,物理服務器的計算能力是由計算單元的數(shù)量和安排的數(shù)據挖掘任務來量化的。這種機制是一個系統(tǒng)虛擬化的簡化版本,能夠最大限度地提高計算資源的利用率。為了有效地管理計算資源,每個計算單元都包含詳細規(guī)范的配置文件(信息包括計算能力、支持的運行環(huán)境、運行狀態(tài)等)。一臺物理服務器的存儲(包括可用的數(shù)據庫、HDFS和本地文件系統(tǒng))由該服務器上布置的計算單元共享。
3.2.4 異構物理資源層
異構物理資源層亦稱物理資源層,主要包括底層的物理設備。這些物理設備能有效地支撐數(shù)據存儲和擴展。
3.3 FIU-Miner系統(tǒng)亮點評述
FIU-Miner 建立于分布式異構環(huán)境之上,大大減少了不同物理環(huán)境給構建數(shù)據分析任務帶來的復雜度,充分利用分布式計算的能力提升數(shù)據分析的效率。另外,F(xiàn)IU-Miner的計算資源是可動態(tài)增減的,使其具備根據具體分析任務數(shù)量進行在線調整計算物理資源的能力。最后,友好的用戶接口為基于FIU-Miner構建不同的大數(shù)據挖掘應用提供了極大的便捷。
4.1 高端制造業(yè)大數(shù)據挖掘任務
制造業(yè)是指大規(guī)模地把原材料加工成成品的工業(yè)生產過程。高端制造業(yè)是指制造業(yè)中新出現(xiàn)的具有高技術含量、高附加值、強競爭力的產業(yè)。典型的高端制造業(yè)[9]包括電子半導體生產、精密儀器制造、生物制藥等。這些制造領域往往涉及嚴密的工程設計、復雜的裝配生產線、大量的控制加工設備與工藝參數(shù)、精確的過程控制和材料的嚴格規(guī)范。產量和品質極大地依賴流程管控和優(yōu)化決策。因此,制造企業(yè)不遺余力地采用各種措施優(yōu)化生產流程,調優(yōu)控制參數(shù),提高產品品質和產量,從而提高企業(yè)的競爭力。
隨著工藝、裝備和信息技術的不斷發(fā)展,現(xiàn)代制造業(yè)(特別是高端制造業(yè))產生和積累了大量生產過程的歷史數(shù)據。這些數(shù)據中蘊含對生產和管理有很高價值的知識和信息。高端制造企業(yè)利用這些技術能夠更好地收集和管理生產流程數(shù)據,也使得企業(yè)累積的相關數(shù)據在日益增多的同時,也變得更加豐富、完備、準確。
這些采集的數(shù)據來源于實際生產,并與生產設計、機器設備、原材料、環(huán)境條件、生產流程等生產要素信息高度相關。通常情況下,工程人員通過人工分析很難察覺到參數(shù)間的關聯(lián)模式和影響品質的重要生產要素等信息。然而,如何有效地利用這些數(shù)據優(yōu)化生產過程,提升生產效率,成為了企業(yè)關注的焦點。因此,制造企業(yè)需要一種高效、可靠的分析方法及工具,把隱藏在海量數(shù)據中有用的、深層次的知識和信息挖掘出來,以提升高端制造業(yè)在控制、優(yōu)化、調度、管理等各個層面分析和解決問題的能力。幸運的是,利用數(shù)據挖掘可以對這些數(shù)據進行有效的分析并轉換成有價值的生產知識,從而能夠在實際應用中改進產品品質,提升產品性能和生產效率,最終達到提高企業(yè)行業(yè)競爭力的目的。因此,數(shù)據挖掘技術是解決制造業(yè)海量信息數(shù)據處理的關鍵技術之一。
4.2 高端制造業(yè)大數(shù)據挖掘挑戰(zhàn)
高端制造業(yè)中的數(shù)據挖掘面臨很多挑戰(zhàn),比如:如何有效分析大規(guī)模數(shù)據、如何保證數(shù)據分析效率和分析結果的準確性?在實際應用中,從海量數(shù)據中依靠傳統(tǒng)信息系統(tǒng)進行查詢和報警或單純利用專家經驗來分析和發(fā)現(xiàn)潛在有價值的信息已經變得不太現(xiàn)實。因此,企業(yè)需要利用數(shù)據分析技術、工具或平臺,智能地從大量復雜的生產原始數(shù)據中發(fā)現(xiàn)新的模式和知識作為改善生產過程的決策依據,系統(tǒng)性地提高生產效率。
4.3 具體案例
FIU-Miner已經被成功地應用在四川虹歐顯示器件有限公司,作為等離子屏制造過程的數(shù)據分析平臺[3,10]。
4.3.1 等離子顯示器制造
等離子顯示器(plasma display panel,PDP)是一種利用氣體等離子效應放出紫外線,從而激發(fā)三原色發(fā)光體獨立發(fā)光,達到顯示不同顏色和控制亮度的高端圖像顯示器。它具有亮度高、色彩多、面積大、視角廣、圖像清晰等眾多優(yōu)勢,是大面積顯示需求(如家庭影院、電子廣告墻)的首選顯示器。
四川虹歐顯示器件有限公司是國內最大的等離子生產公司,每天生產超過1萬張等離子顯示面板,其生產線的一些指標包括[10]:20個大工序、151個小工序;1 000多臺設備串聯(lián);工藝設備共計279臺,設備種類達83種;2 225個物流單元,全長6 000 m;產品制造時間約76 h;單臺產品涉及的過程設備參數(shù)超過1.17萬個。
具體而言,在生產實踐中,技術人員關注如何提高產品的良品率。實現(xiàn)這個目標,需要回答下面的一些問題:哪些是關鍵的工藝參數(shù)(它們對產品的良品率有顯著的影響)、參數(shù)值的變動會怎樣影響產品的良品率、哪些是有效的可以確保高良品率的工藝參數(shù)配方等。從PDP的數(shù)據特點來說,每天生產的數(shù)據存儲量是10 GB以上,每月有3~5億筆制造過程記錄,在數(shù)量、維度和數(shù)據產生速度上具有海量大數(shù)據特征。在生產工序復雜、設備參數(shù)眾多、數(shù)據量大的背景下,人為分析PDP生產過程,以期達到提高生產質量的效果幾乎是無法實現(xiàn)的。因此,迫切需要研究基于等離子顯示屏制造過程的自動化流程和產品優(yōu)化工具,從而提升制造過程參數(shù)管控能力和產品品質。
4.3.2 基于FIU-Miner 的解決方案
在過去的幾年里,筆者的研究團隊一直與四川虹歐顯示器件有限公司的技術人員和工程師緊密合作,利用數(shù)據挖掘來提高等離子屏的生產良品率。在這個合作過程中,確定了如下兩個主要的分析難點,并提出了相應的基于FIU-Miner 的解決方案。
· 7×24 h的自動化生產方式和新數(shù)據采集工具的使用,使得數(shù)據量急劇增長,需要強大的數(shù)據分析能力來支撐。
· 大量過程控制參數(shù)造成的數(shù)據高維特性對數(shù)據分析效率和分析結果的準確性提出了更高要求。生產數(shù)據分析是對生產工作流程的一個認知過程。這個過程本身就是對數(shù)據進行探索、分析和理解的一個循序漸進的迭代過程。因此,一個實用的系統(tǒng)應該提供一個集成的、高效率的分析平臺來支持這個過程。
筆者的研究團隊在FIU-Miner 的基礎上,開發(fā)了離子屏制造過程數(shù)據挖掘系統(tǒng)(PDP-Miner)[10]來解決PDP數(shù)據分析的難題。PDP-Miner的架構如圖4所示。具體而言,在FIU-Miner的基礎上增加了數(shù)據分析層。
數(shù)據分析層提供具體分析任務的用戶執(zhí)行接口。以等離子屏數(shù)據挖掘系統(tǒng)為例,數(shù)據分析任務主要包括數(shù)據立方、對比分析、回歸分析、參數(shù)選擇、參數(shù)配方、操作平臺、結果展示和報告管理。
圖4 PDP-Miner的系統(tǒng)架構
其中,數(shù)據立方使分析人員能夠對數(shù)據進行宏觀理解和快速預覽。數(shù)據立方子系統(tǒng)可以通過OLAP技術建立數(shù)據立方來幫助分析人員大致掌握數(shù)據特性。通過選擇維度和建立測度來對數(shù)據集進行分析。通過數(shù)據立方操作(下鉆、上卷等)實現(xiàn)對數(shù)據的多粒度、多角度的理解。
對比分析子系統(tǒng),能快速發(fā)現(xiàn)敏感參數(shù)和驗證重要參數(shù),因此,在PDP生產系統(tǒng)中顯得特別重要。通過比較參數(shù)在不同時期取值的統(tǒng)計特性,有效發(fā)現(xiàn)異常參數(shù)值,從而定位敏感設備或數(shù)據集。
數(shù)據分析子系統(tǒng)主要負責集成數(shù)據挖掘算法,提供業(yè)務操作接口。由于該系統(tǒng)面向非專業(yè)領域的操作人員,并聚焦到具體的分析業(yè)務,因此數(shù)據挖掘算法被合理封裝到各個業(yè)務中,對操作人員透明?,F(xiàn)在的挖掘算法主要支持回歸分析、參數(shù)選擇、參數(shù)配方等任務。
分析報告系統(tǒng)基于業(yè)務分析結果產生分析報告。這些分析報告可以直接給決策者提供決策依據。同時報告系統(tǒng)也為領域專家提供收集反饋的接口。領域專家知識的引入對優(yōu)化模型、改進算法具有很大的指導意義。
圖5給出了兩個具體PDP挖掘的工作流。其中第一個工作流(workflow 1)先集成多種特征選擇的方法來選出影響PDP生產的重要工藝參數(shù),然后利用回歸分析來建立這些參數(shù)與產品質量的關系。第二個工作流(workflow 2)是利用頻繁模式分析來挖掘重要工藝參數(shù)的關聯(lián)關系,從而產生可能的參數(shù)配方。圖6給出了工作流的配置界面。
使用等離子屏制造過程數(shù)據挖掘系統(tǒng)大大降低了對前臺使用人員的要求,可以使得操作人員能夠將精力聚焦到快速發(fā)現(xiàn)問題和解決問題上。
圖5 PDP-Miner工作流程
圖6 PDP-Miner工作流配置界面
表1 PDP-Miner數(shù)據挖掘技術與傳統(tǒng)數(shù)據挖掘技術比較
通過技術人員將數(shù)據挖掘研究的結果和平臺進行有效應用,提高了對制造過程中所出現(xiàn)問題的分析和解決的效率(見表1),使PDP屏生產線的綜合良品率及生產效率得到了快速提升。一方面,在顯示器件制造業(yè)首次采用大數(shù)據挖據技術,實現(xiàn)了由傳統(tǒng)離散型的試驗設計方法到數(shù)據挖掘模型來進行制造過程參數(shù)管控的動態(tài)在線分析處理方法,降低了制造過程品質管控的試驗成本。另一方面,通過數(shù)據挖掘平臺,建立了等離子屏制造過程單工序/全工序的參數(shù)管控的主要數(shù)據挖掘分析模型,通過挖據結果的有效應用,促進了等離子顯示屏的制造良品率和生產效率的提升。最后,利用平臺挖掘方便快捷地指導技術人員進行參數(shù)管控的常態(tài)化螺旋式提升。在成果應用的這些年里,促進了PDP良品率和產能的快速提升,給公司帶來了巨大的生產經濟效益。圖7給出了PDP-Miner的實際應用的主界面,該系統(tǒng)的功能模塊包括數(shù)據探索(對比分析、數(shù)據立方)、數(shù)據分析(操作平臺、參數(shù)選擇、回歸分析、判別分析)、結果管理(可視化、結果列表和反饋收集)。需要特別指出的是,等離子顯示屏制造挖掘平臺可方便地移植于液晶面板、OLED面板等其他平板顯示領域,具備向整個平板行業(yè)推廣的基礎。
圖7 PDP-Miner實際應用的主界面
4.4 應用亮點評述
將FIU-Miner應用于高端制造業(yè)的實際案例,在國際上率先將數(shù)據挖掘技術應用于顯示器件制造業(yè),為四川虹歐顯示器件有限公司構建了制造過程單工序/全工序數(shù)據挖掘分析模型,開發(fā)了基于數(shù)據挖掘的PDP-Miner平臺,有效提升了生產效率和產品質量。該公司應用PDP-Miner平臺后,產品綜合良品率得到了很大提高,同時,生產效率的提升也帶來了很大的經濟效益。該研究獲得2013年“中國制造業(yè)IT新興技術應用最佳實踐獎”7http://news. e-works.net.cn/ category146/ news55123.htm。
FIU-Miner 已被成功應用于TerraFlyGeocloud[11],支持多種在線空間數(shù)據分析的平臺。
5.1 空間數(shù)據挖掘
隨著衛(wèi)星科技的發(fā)展及移動設備的普及,獲取一個對象實時完整的空間信息變得越來越容易。為了能夠從中實時性地獲取有用信息,需要有效的方法進行空間數(shù)據挖掘??臻g數(shù)據挖掘是從大型空間數(shù)據庫里發(fā)現(xiàn)有趣的、不知道的但非常有價值的模式的一個過程。但由于空間數(shù)據類型和空間關系的復雜性,從空間數(shù)據庫里挖掘有趣和有價值的模式比從傳統(tǒng)數(shù)據庫里挖掘難度更大。
5.2 TerraFlyGeocloud介紹
空間數(shù)據挖掘可以應用在很多領域,包括水資源管理、交通管理、災難管理、犯罪分析、疾病分析和房地產等。一個典型的空間挖掘系統(tǒng)應支持以下功能:在線的空間數(shù)據分析、空間數(shù)據可視化和空間數(shù)據查詢。這里,介紹一個具體的空間數(shù)據挖掘系統(tǒng):美國佛羅里達國際大學(FIU)計算機學院的高性能數(shù)據研究中心實驗室開發(fā)的TerraFlyGeoCloud 系統(tǒng)。TerraFlyGeoCloud是建立在TerraFly系統(tǒng)之上的、支持多種在線空間數(shù)據分析的一個平臺。圖8和圖9分別給出了TerraFlyGeoCloud的系統(tǒng)界面和工作流程。
為了方便使用,TerraFlyGeoCloud還提供了一種支持類SQL語句的空間數(shù)據查詢語言MapQL。它不但支持類SQL語句,更重要的是可根據用戶的不同要求,渲染和畫圖查詢得到空間數(shù)據,比如學校周邊一定距離內所有的開放住宅、離某條公路一定距離內所有的賓館、特定地區(qū)的交通情況及不同郵政區(qū)域的平均收入情況等。MapQL的實現(xiàn)如圖10(a)所示,其中MapQL語句是整個過程的輸入,如圖10(b)所示,輸出則是通過MapQL引擎渲染得到的可視化地圖,如圖10(c)所示。
下面簡要講述一下使用MapQL的具體過程。如圖10(a)所示,第一步語法檢查,保證語法符合語法規(guī)則,不出現(xiàn)關鍵字拼寫錯誤;第二步語義檢查,確保MapQL將要訪問的數(shù)據是正確并存在的。接下來,系統(tǒng)會進行語句解析并把包含樣式信息的解析結果存入空間數(shù)據庫中。樣式信息包括“渲染什么”及“在哪渲染”。當所有的樣式信息保存入庫時,系統(tǒng)就會為接下來的渲染創(chuàng)建樣式配置對象。最后,從空間數(shù)據庫里加載樣式信息,并根據樣式信息為每個對象進行渲染。比如想查詢佛羅里達國際大學周圍的房價,可通過如圖10(b)的MapQL語句查詢,結果如圖10(c)。
圖8 TerraFlyGeoCloud系統(tǒng)界面
圖9 分析工作流程
MapQL提供了一個比地理信息系統(tǒng)應用程序編程接口(API)更友好的界面,使得開發(fā)人員和終端用戶能夠便捷自如地使用TerraFly地圖,同時能夠靈活地創(chuàng)建自己的地圖。
圖10 MapQL的實現(xiàn)、語句查詢及可視化地圖
除了支持地理信息系統(tǒng)的各種應用外,TerraFly平臺還有豐富的GIS數(shù)據集,包括美國和加拿大的道路數(shù)據、美國人口普查和社會經濟數(shù)據、1 500萬企業(yè)的統(tǒng)計和管理記錄、200萬專業(yè)醫(yī)生的數(shù)據、各種公共場所的數(shù)據集和全球環(huán)境數(shù)據等,用戶可以通過TerraFlyGeoCloud瀏覽、使用和挖掘這些數(shù)據集。
5.3 TerraFlyGeocloud使用難點
通過對TerraFlyGeoCloud的進一步使用和研究,發(fā)現(xiàn)了如下幾個問題。這些問題非常典型,普遍存在于這類空間數(shù)據挖掘系統(tǒng)中。
(1)寫MapQL查詢語句的難度。雖然大多數(shù)開發(fā)人員熟悉SQL語句,可以很快地寫MapQL查詢。但對不熟悉SQL的用戶而言,學習MapQL還是比較困難的。所以,對絕大多數(shù)用戶而言,利用MapQL來完成空間分析任務仍然比較困難。
(2)空間分析任務的復雜性。一個典型的空間分析任務往往涉及幾個子任務。此外,這些子任務之間并不是完全獨立的。其中一些子任務的輸出往往是其他子任務的輸入。根據這種依賴關系,一個空間數(shù)據分析任務可以自然地表示為一個工作流。但構造和管理這樣一個復雜的工作流程是空間數(shù)據分析的一個難點。
(3)順序執(zhí)行空間數(shù)據分析的工作流的效率往往很低。盡管一個工作流中的子任務并不是互相依賴,但這些子任務只能由最終用戶來順序執(zhí)行。這種順序執(zhí)行的方式沒有充分利用分布式計算環(huán)境來并行執(zhí)行獨立的子任務和優(yōu)化系統(tǒng)性能。
這3個問題給空間數(shù)據挖掘系統(tǒng)帶來了很大的局限,限制了用戶對系統(tǒng)的有效使用。將FIU-Miner 與TerraFlyGeocloud結合來解決這些問題。首先,根據序列模式挖掘算法從TerraFlyGeoCloud的MapQL查詢日志中發(fā)現(xiàn)順序查詢模式[11]。然后利用這些順序查詢模式,在FIU-Miner里面構建空間數(shù)據分析任務的工作流。最后使用FIU-Miner來最大化子任務的并行執(zhí)行,優(yōu)化工作流的執(zhí)行效率。
TerraFlyGeocloud+FIU-Miner系統(tǒng)架構如圖11所示。主要有4層:用戶界面層、地理空間服務層、計算服務層和空間數(shù)據存儲和管理層。其中,從MapQL的查詢日志中挖掘查詢模式是一個關鍵的步驟,這個步驟發(fā)生在地理空間服務層。挖掘出的順序查詢模式可以用來產生查詢模板和構造空間分析的工作流。序列模式里面的每個查詢對應于工作流里面的一個子任務。FIU-Miner在計算服務層,主要負責工作流的構建、管理、調度和執(zhí)行。
5.4 應用實例
利用FIU-Miner,系統(tǒng)可以通過構建空間數(shù)據分析的工作流來優(yōu)化分析流程,提高分析效率。下面通過一個詳細的房產投資案例來展示[12]。
房產投資案例的目的是要尋找具有良好升值潛力的房產。如果一棟房產本身價值很低,但它周圍的房產卻相對來說比其高,那么對此房產進行投資將是一個非常不錯的選擇。根據歷史查詢數(shù)據,通過序列模式挖掘,發(fā)現(xiàn)這個任務一般有下面幾個步驟:
· 計算不同地區(qū)的平均價格,比較鄰近地區(qū)的價格,確定感興趣的地區(qū);
· 對感興趣的地區(qū)進行空間自相關分析,確定候選地區(qū);
圖11 TerraFlyGeocloud+FIU-Miner系統(tǒng)架構
· 驗證候選地區(qū)罪案率和平均收入,確定選擇結果;
· 在地圖上對結果進行可視化。
這個任務的工作流如圖12所示。工作流里面所有的子任務都是由FIU-Miner來調度并在分布式環(huán)境中執(zhí)行的。
5.5 應用亮點評述
上述實際案例中,將FIU-Miner應用于空間數(shù)據挖掘,解決了空間數(shù)據挖掘中寫MapQL查詢語句困難、空間分析任務復雜性高及順序執(zhí)行空間數(shù)據分析工作流效率低這3個主要的難題。用戶可以輕松地從TerraFlyGeoCloud的MapQL查詢日志中發(fā)現(xiàn)順序查詢模式,并利用這些順序查詢模式,在FIU-Miner里面構建空間數(shù)據分析任務的工作流。最后使用FIU-Miner強大的分布式處理能力,提高工作流的執(zhí)行效率。
基于 FIU-Miner的TerraFlyGeoCloud在線空間數(shù)據挖掘系統(tǒng),已成功應用于地理(如國土邊界、水位圖等)、自然(颶風數(shù)據分析)、經濟(如房產價格分析、人均收入等數(shù)據分析)、醫(yī)療(肝癌、關節(jié)炎等疾病數(shù)據分析)、社會(犯罪數(shù)據聚類等分析)等眾多領域,受到政府、企業(yè)、研究機構及個人的極大重視。
FIU-Miner作為庫存管理數(shù)據挖掘平臺已被成功應用于企業(yè),成為商務智能數(shù)據挖掘應用中一個典范[13]。
6.1 庫存管理數(shù)據挖掘任務
圖12 房產投資案例的工作流程
庫存管理是指對制造業(yè)或服務業(yè)生產、經營全過程的各種物品、產品以及其他資源進行管理和控制,使其儲備保持在經濟合理的水平上。高效、可靠的庫存管理可以為制定合理的貨物安全庫存量和訂貨量提供可靠的依據,提高企業(yè)管理人員的決策質量,從而減小資金的占用和缺貨損失,提高企業(yè)的經濟效益。當今的零售業(yè),供應商往往需要給不同的地區(qū)存儲大量的貨物,且交易活動復雜頻繁,必須提前合理規(guī)劃好庫存方案?,F(xiàn)有的庫存管理系統(tǒng)(如InFlow和Inventoria)僅僅應用傳統(tǒng)的統(tǒng)計分析方法分析現(xiàn)存的庫存數(shù)據,對當前的庫存信息分布進行跟蹤監(jiān)控。進行庫存決策時僅考慮單一算法模型,而無法根據綜合分析歷史數(shù)據和市場的實際狀況快速做出正確決策方案。因此,如何利用大數(shù)據挖掘技術開發(fā)智能庫存管理平臺,實現(xiàn)高效可靠的庫存預測、庫存異常檢測及庫齡分析等任務,成為當前大型零售企業(yè)亟需解決的問題。
6.2 庫存管理數(shù)據挖掘挑戰(zhàn)
隨著庫存管理數(shù)據日益龐大,庫存管理系統(tǒng)處理問題的難度也在不斷攀升。以國內某大型電子消費產品制造企業(yè)的兩大類電視產品(液晶和等離子)交易為例,其庫存管理數(shù)據挖掘面臨的主要挑戰(zhàn)如下。
(1)交易記錄繁多:現(xiàn)代大型零售企業(yè)業(yè)務規(guī)模龐大,產生的交易記錄繁多,從2011年1月到2013年12月有將近6 000萬條,約50 GB數(shù)據。
(2)屬性關系復雜:庫存數(shù)據屬性繁多,記錄中包含種類眾多的屬性,有將近200個;數(shù)據層次繁多,在不同數(shù)據維度上,記錄可屬于不同的層次;庫存數(shù)據和屬性相關性復雜等。
(3)處理速度緩慢:現(xiàn)有數(shù)據分析工具大多基于內存,無法加載龐大數(shù)據集,對數(shù)據輸入格式要求嚴格,適用性不強,運行速度慢,無法響應大數(shù)據的要求。
因此,現(xiàn)代庫存管理需要采用大數(shù)據挖掘技術開發(fā)高效、可靠、能處理大規(guī)模數(shù)據的智能庫存管理系統(tǒng)。
6.3 具體例子
筆者的研究團隊開發(fā)了基于FIU-Miner的智能庫存管理系統(tǒng)iMiner[13],該系統(tǒng)為智能庫存管理定制了專門的數(shù)據挖掘算法,實現(xiàn)了多個功能模塊,開發(fā)了大規(guī)模的數(shù)據分析平臺系統(tǒng)。
6.3.1 系統(tǒng)概況
圖13展示了iMiner系統(tǒng)整體框架、各功能層次和模塊。系統(tǒng)自底向上分為物理資源層、任務和系統(tǒng)管理層、數(shù)據分析層、用戶界面層。該系統(tǒng)分析平臺建立在支持高效數(shù)據分析的分布式系統(tǒng)——FIUMiner中。這一分析平臺可提供高效率的數(shù)據分析處理工作流,并且可以有效地集成多種數(shù)據分析工具和語言,如R、Weka、Python、Hadoop等。數(shù)據分析層包括了數(shù)據預處理和各類數(shù)據挖掘算法,其中關鍵因素提取算法有助于提取對入庫/出庫量產生較大影響的因素或者對物料異常情況有決定性影響的因素;分布式K近鄰算法有助于查找入庫/出庫行為相似的物料;分布式回歸分析有助于對大盤及具體物料的入庫/出庫量進行有效預測。
系統(tǒng)主要聚焦于庫存預測、庫存異常檢測、庫齡挖掘三大核心功能,通過綜合評價和集成各種算法的輸出使得分析結果更加穩(wěn)定和準確。用戶界面層囊括了多種庫存分析結果的展示,用戶可以通過屬性選擇來查看不同的分析結果,也可以通過對個別參數(shù)的修改來更新分析結果,實現(xiàn)實時的人機互動。展示結果不僅有列表顯示,還提供了各種直觀的圖表顯示,更有利于用戶接收到數(shù)據整體分布、趨勢和關鍵信息點。
圖13 iMiner系統(tǒng)架構
6.3.2 系統(tǒng)功能模塊
iMiner主要包含庫存預測(inventory forecasting)、庫存異常檢測(inventory anomaly detection)及庫齡分析(inventory aging analysis)三大功能模塊,如圖14所示。
(1)庫存預測
庫存管理中,精確和可信的庫存預測是關鍵。高效、可靠的預測可以大大減少庫存負荷,降低額外的貨物維護和損耗。庫存數(shù)據為標準的時序數(shù)據,數(shù)據量大、時間跨度長、涵蓋面廣、規(guī)律性差。iMiner采用一種動態(tài)預測模型,首先根據歷史數(shù)據對出庫的基數(shù)進行預測,而后結合出庫數(shù)據的長期趨勢、周期性因素及事件性因素對基數(shù)進行動態(tài)調整,從而得到最終的預測結果。
(2)庫存異常檢測
對庫存指標進行監(jiān)控而達到異常檢測的目的,是庫存管理中不可或缺的部分。iMiner提供了多種庫存指標的實時監(jiān)控(如庫存周轉率、庫存周轉天數(shù)、存銷比、周轉提升率、庫存資金周轉率)和不同粒度下的指標查詢(如按時間周期包括按周和按月、按指定公司和物料、按指定物料類別和公司、按指定物料類別等)。同時,系統(tǒng)從庫存數(shù)據多個角度入手,及時、準確地發(fā)現(xiàn)庫存的波動;采用相關物料的協(xié)同異常判定,使得對于異常結果的判定更有意義,系統(tǒng)還能夠同時準確判定整體性指標變化和個別指標異常。
圖14 iMiner主要功能模塊
(3)庫齡分析
庫齡挖掘是為了防止貨物積壓,提前發(fā)現(xiàn)潛在積壓貨物,減小貨物積壓投資。iMiner系統(tǒng)利用統(tǒng)計回歸模型實現(xiàn)庫齡分析,并提供了庫齡分析的基本工具和高級工具。基本工具允許用戶可視化分析給定貨物的庫齡分布,比較不同貨物中當前的和歷史的庫齡變化,高級工具能夠幫助用戶找到與積壓相關的貨物屬性。iMiner系統(tǒng)中,庫齡挖掘主要包含了庫齡相關分類和標準、庫齡計算、庫齡金額計算以及安全庫存的計算等功能模塊。
6.4 應用亮點評述
iMiner是一種新的智能庫存管理系統(tǒng),該系統(tǒng)能夠幫助大型供應商實現(xiàn)高效的庫存管理,著力解決大數(shù)據時代現(xiàn)有庫存管理面臨的兩大關鍵問題。
(1)大規(guī)模庫存數(shù)據分析
iMiner系統(tǒng)分析平臺建立在支持高效數(shù)據分析的分布式系統(tǒng)——FIUMiner中。這一分析平臺是在分布式環(huán)境中管理所有的交易數(shù)據,因此,iMiner能夠自動配置和執(zhí)行大規(guī)模庫存數(shù)據預處理和數(shù)據分析任務。
(2)復雜庫存任務管理
iMiner結合多種先進的數(shù)據挖掘算法來分析庫存數(shù)據。在實踐中,系統(tǒng)采用多種回歸模型,結合時間序列分析方法來實現(xiàn)庫存預測;運用情境感知異常檢測算法來識別異常貨物;利用統(tǒng)計回歸模型來進行庫齡分析。從而實現(xiàn)高效、準確的復雜庫存任務管理。
基于FIU-Miner的iMiner商務智能庫存管理平臺已經應用于企業(yè),成功解決了產品出庫預測、指標異常檢查、庫齡挖掘等對企業(yè)產品生產和經濟效益有重要影響的實際問題。
大數(shù)據的復雜特征對數(shù)據挖掘在理論和算法研究方面提出了新的要求和挑戰(zhàn)。大數(shù)據是現(xiàn)象,核心是挖掘數(shù)據中蘊含的潛在信息,并使它們發(fā)揮價值。數(shù)據挖掘是理論技術和實際應用的完美結合。
本文通過目前業(yè)界對大數(shù)據的理解和認識,結合筆者及其研究團隊多年來對大數(shù)據挖掘的深入理論研究及廣泛的應用研究,綜合凝練出大數(shù)據的核心架構,即大數(shù)據挖掘的本質是應用、算法、數(shù)據和平臺4個要素的有機結合。在此架構下,從應用的角度重點介紹了研究團隊開發(fā)的能夠快速、有效地進行各類數(shù)據挖掘任務的數(shù)據挖掘系統(tǒng)FIU-Miner,并具體介紹了基于FIU-Miner的高端制造業(yè)數(shù)據挖掘、空間數(shù)據挖掘和商務智能數(shù)據挖掘3個典型的應用案例。FIU-Miner在這些領域的成功應用也說明了提出的數(shù)據挖掘核心架構的效用。
致謝
本文總結介紹了筆者研究團隊近幾年開展的與大數(shù)據相關的部分研究和成果?;谶@些研究,給出了對大數(shù)據的理解和看法,希望能起到拋磚引玉的目的。在這些相關研究中,筆者研究團隊得到了許多人的幫助和機構的資助,在此表示衷心感謝。
首先,要大力感謝長虹集團以及其相關科研人員Bing Duan、Ming Lei、Pengnian Wang、Jun Tang、 Dong Liu。他們不僅為筆者研究團隊的科研提供了資助,而且其相關研究人員為筆者研究團隊提供了非常多寶貴的專業(yè)領域知識指導。
其次,要深深感謝美國佛羅里達國際大學的Knowledge Discovery and Research Group(KDRG)研究組的成員:Dr Lei Li、Dr Yexi Jiang、Mr Wei Xue、Dr Jingxuan Li、Dr Chao Shen、Mr Hongtai Li、Dr Liang Tang、Mr Long Wang和Mr Longhui Zhang。他們在相關的研究及項目中付出了辛勤的勞動,提供了許多寶貴的反饋。
最后,要感謝美國佛羅里達國際大學的Naphtali Rishe教授以及其帶領的High Performance Database Research Center(HPDRC)研究組里的成員: Mr Mingjin Zhang、Ms Huibo Wang、Dr Yun Lu、Mr Yudong Guang、Mr Chang Liu和Mr Erik Edrosa。他們在TerrayFlyGeocloud項目上與筆者研究團隊開展了非常有成效的合作。
[1] 嚴霄鳳, 張德馨. 大數(shù)據研究. 計算機技術與發(fā)展, 2013, 23(4): 168~172 Yan X F, Zhang D X. Big data research. Computer Technology and Development, 2013, 23(4): 168~172
[2] 李國杰. 對大數(shù)據的再認識. 大數(shù)據, 2015001 Li G J. Further understanding of big data. Big Data Research, 2015001
[3] 李濤. 數(shù)據挖掘的應用與實踐: 大數(shù)據時代的案例分析. 廈門: 廈門大學出版社, 2013 Li T. Data Mining Where Theory Meets Practice. Xiamen: Xiamen Press, 2013
[4] Hall M, Frank E, Holmes G,et al. The Weka data mining software: an update. SIGKDD Explorations, 2009, 11(1): 10~18
[5] Owen S, Anil R, Dunning T,et al. Mahout in Action. Shelter Island: Manning Publications, 2011
[6] Prekopcsak Z, Makrai G, Henk T,et al. Radoop: analyzing big data with rapid miner and hadoop. Proceedings of RapidMiner Community Meeting and Conference, Dublin, Ireland, 2011
[7] Yu L, Zheng J, Wu B,et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing. Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12), Beijing, China, 2012
[8] Zeng C Q, Jiang Y X, Zheng L,et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment. Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509
[9] Lei D, Hitt M A, Goldhar J D. Advanced manufacturing technology: organizational design and strategic flexibility. Organization Studies, 1996, 17(3): 501~523
[10] Zheng L, Zeng C Q, Li L,et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748
[11] Zhang M J, Wang H B, Lu Y,et al. TerraFly GeoCloud: an online spatial data analysis and visualization system. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3)
[12] Zeng C Q, Li H T, Wang H B,et al. Optimizing online spatial data analysis with sequential query patterns. Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014
[13] Li L, Shen C, Wang L,et al. iMiner: mining inventory data for intelligent management. Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, Shanghai, China, 2014
作者簡介
李濤,男,南京郵電大學計算機學院、軟件學院院長,南京郵電大學大數(shù)據研究院院長。2004年7月獲美國羅徹斯特大學(University of Rochester)計算機科學博士學位,2004-2014年先后任美國佛羅里達國際大學(Florida International University)計算機學院助理教授、副教授(終身教授)、教授(full professor)、研究生主管(graduate program director)。由于在數(shù)據挖掘及應用領域成效顯著的研究工作,曾多次獲得各種榮譽和獎勵,其中包括2006年美國國家自然科學基金委頒發(fā)的杰出青年教授獎,2010年IBM大規(guī)模數(shù)據分析創(chuàng)新獎,并于2009年獲得佛羅里達國際大學最高學術研究獎。
曾春秋,男,美國佛羅里達國際大學計算機科學博士生,南京郵電大學計算機學院大數(shù)據項目組成員。2009年7月-2012年1月為阿里巴巴(中國)網絡技術有限公司高級數(shù)據工程師。主要研究興趣包括大規(guī)模分布式數(shù)據挖掘和系統(tǒng)管理,發(fā)表多篇頂級數(shù)據挖掘國際期刊和會議論文,參與多本數(shù)據挖掘相關應用領域書籍的編寫工作。
周武柏,男,美國佛羅里達國際大學計算機科學博士生,南京郵電大學計算機學院大數(shù)據項目組成員。主要研究興趣包括數(shù)據挖掘和計算機系統(tǒng)管理,發(fā)表多篇頂級數(shù)據挖掘國際期刊和會議論文,參與多本數(shù)據挖掘相關應用領域書籍的編寫工作。
周綺鳳,女,博士,廈門大學自動化系副教授。2002年起從事數(shù)據挖掘及智能系統(tǒng)方面的研究工作,2014-2015年在美國佛羅里達國際大學訪學,主要研究興趣包括機器學習、數(shù)據挖掘及其在可持續(xù)發(fā)展等領域的應用。
鄭理,男,2014年在美國佛羅里達國際大學獲得計算機科學博士學位,南京郵電大學計算機學院項目研究員。主要研究興趣包括信息檢索、推薦系統(tǒng)及災難信息管理,發(fā)表多篇頂級數(shù)據挖掘國際期刊和會議論文,參與多本數(shù)據挖掘相關應用領域書籍編寫。
Li T, Zeng C Q, Zhou W B,et al. Data mining in the era of big data: from the application perspective. Big Data Research, 2015041
Data Mining in the Era of Big Data: From the Application Perspective
Li Tao1,2, Zeng Chunqiu1,2, Zhou Wubai1,2, Zhou Qifeng3, Zheng Li1,2
1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;
2. School of Computer Science, Florida International University, Miami 33199, USA;
3. Department of Automation, Xiamen University, Xiamen 361005, China
The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.
big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence
10.11959/j.issn.2096-0271.2015041
2015-09-30
李濤,曾春秋,周武柏等. 大數(shù)據時代的數(shù)據挖掘——從應用的角度看大數(shù)據挖掘. 大數(shù)據, 2015041