劉桂榮,徐全生
(1.煙臺職業(yè)學院 汽車工程系,山東 煙臺 264670;2.沈陽工業(yè)大學 信息科學與工程學院,遼寧 沈陽 110023)
關聯(lián)規(guī)則在港口企業(yè)中的應用研究*
劉桂榮1,徐全生2
(1.煙臺職業(yè)學院 汽車工程系,山東 煙臺 264670;2.沈陽工業(yè)大學 信息科學與工程學院,遼寧 沈陽 110023)
隨著經(jīng)濟的發(fā)展,我國港口企業(yè)的貨物進出口數(shù)量急劇增長,港口企業(yè)積累了大量的貨物信息。這些信息是以船舶為事務,以貨物為項存在的事務型信息。本文介紹了APRIORI算法的定義、工作流程及其實現(xiàn)技術,探討了利用關聯(lián)規(guī)則分析港口企業(yè)的貨物關聯(lián)關系,找出貨物之間的關聯(lián)規(guī)則,為港口企業(yè)的生產(chǎn)經(jīng)營決策提供科學依據(jù)。
港口企業(yè);關聯(lián)分析;經(jīng)濟效益
我國港口信息化建設從20世紀80年代起步,走過了管理信息系統(tǒng)(MIS)開發(fā)、電子數(shù)據(jù)交換(EDI)和國際互聯(lián)網(wǎng)(Internet)應用等幾個發(fā)展階段[1]。一方面,企業(yè)內部計算機局域網(wǎng)絡和企業(yè)外部互聯(lián)網(wǎng)絡的應用得到了快速發(fā)展,在港口企業(yè)生產(chǎn)、管理、發(fā)展等方面發(fā)揮著重要的作用;另一方面,現(xiàn)有的一些計算機信息系統(tǒng)主要實現(xiàn)信息的儲存、查詢、統(tǒng)計等方面的功能,沒有實現(xiàn)在海量的數(shù)據(jù)中尋找的內在包含的“知識”,越來越暴露出其不足和與實際需要存在的差距。不能適應港口參與現(xiàn)代市場競爭和持續(xù)發(fā)展的需要。通過數(shù)據(jù)挖掘技術,從海量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)信息之間的相互聯(lián)系,得到信息包含的“知識”,從而為港口企業(yè)的管理、經(jīng)營、決策提供全面、詳細、準確的服務,為港口企業(yè)在進行經(jīng)營決策過程中提供更為科學的決策方法和支持理論,從而增強港口企業(yè)決策的科學性和有效性。
數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱含的、事先未知的、但潛在有用的信息[2]。提取的知識可以表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式[3]。關聯(lián)(Association)規(guī)則數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術中的一種,較典型的是購物籃數(shù)據(jù)分析,當然關聯(lián)分析也可應用于其他領域,如生物信息學、醫(yī)療診斷、網(wǎng)頁挖掘和科學數(shù)據(jù)分析等[4]。設 I={i1,i2,…,im}是項的集合,設任務相關數(shù)據(jù)D是數(shù)據(jù)庫事務的集合,其中每個事務T是項的集合,使得。設A是一個項集,事務T包含A。如果support和confidence同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf),那么可以得到強關聯(lián)規(guī)則[5]。
在港口企業(yè)中,每一條船被看作一個購物籃事務,即事務T。每條船所裝載的貨物看作是購物籃中的商品,即項集I,如表1所示。
表1 購物籃示例表
本文采用的原始數(shù)據(jù)是某港口企業(yè)從1999年到2006年每一條船所裝卸貨物的名稱、數(shù)量、進出口貿(mào)易形式、靠離港時間、作業(yè)時間等數(shù)據(jù),在這些數(shù)據(jù)中,由于關聯(lián)規(guī)則是與每條船裝卸貨物的名稱有關。因此,要對部分數(shù)據(jù)進行清理,去掉與挖掘無關的數(shù)據(jù)。在本文中,從數(shù)據(jù)挖掘的實際出發(fā),把每條船每次裝卸貨物的名稱抽取出來,即每條船為一個事務,所裝卸貨物的名稱即為關聯(lián)規(guī)則購物籃中的項。如表2所示。
表2 關聯(lián)規(guī)則挖掘數(shù)據(jù)表
原始數(shù)據(jù)經(jīng)過整理后,接下來的工作就是把這些數(shù)據(jù)轉換成適合于數(shù)據(jù)挖掘的形式。在本文中,對數(shù)據(jù)進行挖掘時,進行單維的布爾型關聯(lián)規(guī)則數(shù)據(jù)挖掘。即將每一條船看作一個事務。在船中出現(xiàn)的貨物或沒有出現(xiàn)的貨物,通過二元0/1進行表示,如果貨物在船中出現(xiàn),則用1表示,如果貨物沒有在船中出現(xiàn),則用0表示。布爾型關聯(lián)規(guī)則中對應變量都是離散變量或類別變量,它顯示的是離散型變量之間的關系[6]。船舶所載貨物正好適合于此種數(shù)據(jù)挖掘。一條船裝有多種貨物,對每條船的貨物進行兩次掃描,第一次先對所有船舶貨物進行掃描比較,建立所有貨物的項集。第二次對每條船所裝的貨物與第一次建立的貨物項集進行比較,船舶載有的貨物以1表示,船舶不存在的貨物用0表示,通過對船舶貨物的數(shù)據(jù)進行轉換后,所得的數(shù)據(jù)形式如表3所示。
表3 進出港口的貨物二元數(shù)據(jù)
在前面數(shù)據(jù)整理后的基礎上,運用APRIORI算法,對貨物進行數(shù)據(jù)挖掘,從中發(fā)現(xiàn)其中隱含的知識。在本文中,設計支持度的闕值為20%,置信度的闕值為60%,產(chǎn)生的關聯(lián)分析結果如表4所示。
表4 關聯(lián)分析結果
從表4中可以看出,在支持度20%和置信度60%的情況下,產(chǎn)生強關聯(lián)規(guī)則,在這些關聯(lián)規(guī)則中,以水泥—>煤炭、水泥—>原油、成油—>原油置信度最高,煤炭、水泥、原油這三種貨物產(chǎn)生強關聯(lián)規(guī)則。
從本文的分析中可以看出,港口企業(yè)的貨物關聯(lián)主要是水泥、原油和成油。所以港口企業(yè)在加強與原油、成油以及水泥需求大的企業(yè)的聯(lián)系外,還應注重與其它企業(yè)、行業(yè)的聯(lián)系,使港口企業(yè)進出口貨物的種類多樣化,開辟更大的市場,更好地提高經(jīng)濟效益。
[1]我國港口物流信息化建設現(xiàn)狀、問題分析與未來展望[EB/OL].http://bbs.vsharing.com/Article.aspx?aid=631189,2007-12-6/2008-10-08.
[2]孫曉健.數(shù)據(jù)挖掘技術在經(jīng)營分析系統(tǒng)中的應用[J].微計算機信息,2007,23(12):169 ~171.
[3]吉根林.遺傳算法在數(shù)據(jù)挖掘中的應用[J].信息技術,2001,22(21):5 ~9.
[4](美)PANG -NING Tan,MICHAEL STERNBACH VIPIN KUMAR.數(shù)據(jù)挖掘導論[M].北京:人民郵電出版社,2006.
[5](加)JIAWEI HAN,(加)MICHEJINE KAMBER 著.范明,孟小鋒等譯.數(shù)據(jù)挖掘概念與技術(Data Mining Concepts and Techniques)[M].北京:機械工業(yè)出版社,2001.
[6]戴穩(wěn)勝,匡宏波,謝邦昌.數(shù)據(jù)挖掘中的關聯(lián)規(guī)則[J].統(tǒng)計研究,2002,(8):40 ~41.
TP311.13
A
1006-5342(2011)08-0023-02
2011-06-09