國網(wǎng)江蘇省電力有限公司物資分公司 溫富國 許 斌 李金霞
隨著我國經(jīng)濟(jì)的高速發(fā)展,對電力的需求也不斷增加[1]。為了滿足國民經(jīng)濟(jì)全面、協(xié)調(diào)、可持續(xù)發(fā)展對電力的需求,提高電力供應(yīng)能力,提高電力系統(tǒng)供電水平勢在必行。而加快電網(wǎng)建設(shè),提高電力系統(tǒng)供電水平都離不開電力系統(tǒng)中輸變電物資的采購供應(yīng)。但是當(dāng)前物資采購供應(yīng)環(huán)節(jié)存在諸多不平衡現(xiàn)象,一方面普遍存在供大于求的現(xiàn)象,庫存積壓相當(dāng)嚴(yán)重;另一方面少數(shù)物料又存在供應(yīng)不足現(xiàn)象。例如某配變類工程,大部分物料儲(chǔ)備都很充足,但是缺少某一型號的變壓器,導(dǎo)致項(xiàng)目延期,無法順利完成,嚴(yán)重影響電力建設(shè)。
從技術(shù)上說,各物料之間存在相互配合、相互備用等現(xiàn)象,需求數(shù)量有“同增同減”或“此消彼長”的特點(diǎn),如水泥桿跟架空絕緣導(dǎo)線理論上就存在一定的相關(guān)關(guān)系。所以對物料使用數(shù)量相關(guān)性的研究被認(rèn)為是解決物料采購不平衡問題的一個(gè)方向。但由于物料種類較多,采用傳統(tǒng)的相關(guān)性系數(shù)法,容易掉入偽回歸[2]陷阱。
所以本文從大數(shù)據(jù)挖掘的角度,分析2016年江蘇省配農(nóng)網(wǎng)項(xiàng)目的物資使用規(guī)律,然后采用關(guān)聯(lián)規(guī)則,研究分析各物資之間的相關(guān)性,得到物料頻繁項(xiàng)集,從而得到物資的相關(guān)關(guān)系,最后從時(shí)間序列[3]角度用相關(guān)性系數(shù)法對所得結(jié)果進(jìn)行了驗(yàn)證。結(jié)果表明,關(guān)聯(lián)規(guī)則挖掘出來的頻繁項(xiàng)集內(nèi)的各個(gè)物料具有較強(qiáng)的相關(guān)性。物料相關(guān)性的研究成果可以用于指導(dǎo)物資采購和庫存設(shè)置,對于提升協(xié)議庫存物資精細(xì)化管理具有重大意義,將很大程度地改善當(dāng)前物資采購不平衡的現(xiàn)象,從而全面提高采購管理效益水平[4]。
關(guān)聯(lián)規(guī)則[5-7]挖掘是由Agrawal等人于1993年提出,最早是為了解決購物籃分析問題,可以用來挖掘商品間在零售業(yè)商品交易事務(wù)數(shù)據(jù)庫中的聯(lián)系規(guī)則以及顧客習(xí)慣的購買模式。近年來,關(guān)聯(lián)規(guī)則挖掘被認(rèn)為是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)。
設(shè)數(shù)據(jù)集D為事務(wù)數(shù)據(jù)的集合,數(shù)據(jù)集D中包含了n條記錄,m個(gè)項(xiàng)等參數(shù)屬性,即是數(shù)據(jù)庫中所有項(xiàng)的集合。D中每條記錄即每個(gè)事務(wù)T都是非空集合,T是項(xiàng)的集合,每條記錄的標(biāo)識(shí)符號為TID。Tk中的元素組成的集合即稱為項(xiàng)集,包含k個(gè)項(xiàng)的集合稱為k-項(xiàng)集。
頻繁模式是在數(shù)據(jù)集中頻繁出現(xiàn)的模式,頻繁模式挖掘是在給定數(shù)據(jù)集中搜索頻繁出現(xiàn)的關(guān)聯(lián)形式??梢杂藐P(guān)聯(lián)規(guī)則的形式表示系統(tǒng)內(nèi)部參數(shù)屬性間的頻繁關(guān)聯(lián),關(guān)聯(lián)規(guī)則為形如形式的關(guān)系式,式中。規(guī)則的支持度與置信度是用來描述規(guī)則興趣度的兩種度量,如式(1)與式(2)所示,它們分別表示所挖掘規(guī)則的有用性和確定性。規(guī)則在數(shù)據(jù)集D中成立,具有的支持度s指的是數(shù)據(jù)集D中包含的百分比,即概率,置信度C是D中包含A的記錄同時(shí)又包含B的記錄的百分比,即條件概率。
例如,[support=30%,confidence=80%],即規(guī)則的支持度為30%,置信度為80%,表示在整個(gè)數(shù)據(jù)集中,有30%的記錄是屬性A與屬性B同時(shí)出現(xiàn)的,且在屬性A出現(xiàn)的記錄中有80%的記錄屬性B也出現(xiàn)了,即表示在屬性A出現(xiàn)的情況下有80%的可能屬性B也會(huì)出現(xiàn)。獲得的關(guān)聯(lián)規(guī)則是指滿足最小支持度閾值與最小置信度閾值的規(guī)則,關(guān)聯(lián)規(guī)則的挖掘過程即為先獲取所有頻繁項(xiàng)集,再由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。
Apriori算法[8]是一種用來獲取頻繁項(xiàng)集的布爾型關(guān)聯(lián)規(guī)則算法,該算法使用迭代法進(jìn)行逐層計(jì)算,并基于候選集來獲得頻繁項(xiàng)集,即使用(k-1)-項(xiàng)集Lk-1產(chǎn)生k-項(xiàng)集Lk。圖1及圖2分別為頻繁1-項(xiàng)集及k-項(xiàng)集的計(jì)算流程圖。通過掃描數(shù)據(jù)源,累計(jì)每個(gè)項(xiàng)的計(jì)數(shù),得到滿足最小支持度的項(xiàng),從而找出頻繁1-項(xiàng)集的集合,記為L1,之后再通過頻繁1-項(xiàng)集的集合L1尋找頻繁2-項(xiàng)集的集合L2,以此類推,直到無法獲取滿足條件的項(xiàng)集,這樣得到的項(xiàng)集稱為最大頻繁項(xiàng)集。
圖1 獲得頻繁1-項(xiàng)集的過程
圖2 獲得頻繁k-項(xiàng)集的過程
從Lk-1項(xiàng)集獲取Lk項(xiàng)集時(shí)主要需要執(zhí)行連接步與剪枝歩兩個(gè)過程的操作。連接步:將Lk-1與自身連接產(chǎn)生候選k-項(xiàng)集的集合,記為Ck。假設(shè)l1,l2為Lk-1中的項(xiàng),將其按照記錄中的字典順序排列,如果它們的前(k-2)項(xiàng)相同,則表示Lk-1中的元素是可連接的。剪枝歩:候選項(xiàng)集的集合Ck是Lk-1的超集,使用先驗(yàn)知識(shí):任何非頻繁的(k-1)-項(xiàng)集都不可能是頻繁k-項(xiàng)集的子集。因此,如果候選k-項(xiàng)集的任意一個(gè)(k-1)項(xiàng)子集不存在于Lk-1中,則可以刪除該候選項(xiàng)集,最終可以得到頻繁k-項(xiàng)集的集合Lk。
首先從江蘇公司ERP系統(tǒng)中導(dǎo)出2014-2016年的歷史出入庫數(shù)據(jù),共1042.4萬條出庫記錄,每條出入庫記錄包含物料名稱、實(shí)發(fā)數(shù)量、過賬日期、領(lǐng)用單位等信息。再按三級分類篩選出配農(nóng)網(wǎng)項(xiàng)目,共計(jì)63218個(gè)項(xiàng)目。然后采用統(tǒng)計(jì)手段,按工程項(xiàng)目統(tǒng)計(jì)出每個(gè)項(xiàng)目所需物料的種類和數(shù)量,2016年全年共使用2232種物料。
這63218個(gè)工程項(xiàng)目對應(yīng)關(guān)聯(lián)規(guī)則n條記錄,2232種物料對應(yīng)關(guān)聯(lián)規(guī)則中的m個(gè)項(xiàng),從而構(gòu)成數(shù)據(jù)集。每一條記錄包含個(gè)項(xiàng),即某個(gè)工程項(xiàng)目使用到了p種物料。然后設(shè)定support=0.1,confidence = 0.6,采用Apriority關(guān)聯(lián)分析算法先是得到L1項(xiàng)集,然后進(jìn)行連接歩、剪枝歩操作得到頻繁項(xiàng)集。
表1列出了10種支持度較高的物料,如線路柱式瓷絕緣子共在38494個(gè)項(xiàng)目中使用過,其支持度高達(dá)60%,是使用頻率最高的物料。L1項(xiàng)集支持度的大小表征了物料在工程項(xiàng)目中常用程度,這些物料一般都屬于通用物資范疇,在采購過程中尤其要注意這些物資的采購,各地市項(xiàng)目單位在設(shè)置庫存時(shí)也應(yīng)備足余量。
表1 L1項(xiàng)集-常用物料
表2 最大頻繁項(xiàng)集
通過Apriori算法的不斷迭代,分別可以得到項(xiàng)集,最終得到的滿足最小支持度的最大k為6,即L6項(xiàng)集,各項(xiàng)集的物料都具有很強(qiáng)的相關(guān)性。如表2為L6項(xiàng)集的一組物料。這6種物料在7380個(gè)項(xiàng)目中一起出現(xiàn)過,組合出現(xiàn)頻率較高,我們稱之為頻繁項(xiàng)集。一組頻繁項(xiàng)集實(shí)際上表征了一種類型的工程項(xiàng)目的物資使用特性。所以,從項(xiàng)目設(shè)計(jì)與使用的角度來看,我們可以認(rèn)為這些物料具有較強(qiáng)的相關(guān)性。
上述方法得到了電網(wǎng)物資的頻繁項(xiàng)集,頻繁項(xiàng)集中的各個(gè)物料經(jīng)常在實(shí)際工程項(xiàng)目中配套使用,被認(rèn)為具有較強(qiáng)的相關(guān)性。為了驗(yàn)證挖掘結(jié)果的準(zhǔn)確性,我們采用相關(guān)性系數(shù)法對頻繁項(xiàng)集中的物料相關(guān)性進(jìn)行了驗(yàn)證。
首先基于歷史數(shù)據(jù),按時(shí)間統(tǒng)計(jì)出每個(gè)月各個(gè)物料的使用量。利用簡單相關(guān)性系數(shù)法求得各個(gè)物料之間的相關(guān)性系數(shù)。驗(yàn)證方法采用的是簡單相關(guān)性系數(shù)法[9],公式(3)給出了其定義式:
其中為X與Y的協(xié)方差,Var[X]為X的方差,Var[Y]為Y的方差。一般來說,取絕對值后,0-0.1為沒有相關(guān),0.1-0.3是弱相關(guān),0.3-0.5為中等相關(guān)關(guān)系,0.5-1.0表示具有較強(qiáng)的相關(guān)性。
以表2中的頻繁項(xiàng)集為例,先統(tǒng)計(jì)得到每種物料2014-2016年每個(gè)月的使用量,再用相關(guān)性系數(shù)法求得它們兩兩之間的相關(guān)性系數(shù)。其結(jié)果如表3所示(Xi為表2中的第i種物料),表格第i行第j列表示第i個(gè)物料與第j個(gè)物料之間的相關(guān)性系數(shù)??梢钥闯鲞@些物料之間的相關(guān)性系數(shù)都很高。
表3 物料之間的相關(guān)性系數(shù)
圖3給出了“錐形水泥桿,非預(yù)應(yīng)力,整根桿,15m,190mm,M”和“架空絕緣導(dǎo)線,AC10kV,JKLYJ,50”兩種物料2014-2016年各月的出庫量,這兩種物料為頻繁項(xiàng)集,且相關(guān)性系數(shù)為0.99,從圖中也可以看出這兩種物料每年出庫總量具有一致的趨勢性,相關(guān)性較強(qiáng)。兩種物料在數(shù)量上基本呈正比同步變化關(guān)系,可以用來指導(dǎo)采購和庫存設(shè)置。
圖3 兩種物料逐月使用量對比
從以上分析可得,為頻繁項(xiàng)集的物料其相關(guān)性系數(shù)都較高,而且在時(shí)序圖上具有較強(qiáng)的一致性。
本文通過關(guān)聯(lián)規(guī)則算法得到常用物料和物料頻繁項(xiàng)集,然后計(jì)算頻繁項(xiàng)集各個(gè)物料使用數(shù)量的相關(guān)性系數(shù),證明了關(guān)聯(lián)規(guī)則挖掘出來的物料頻繁項(xiàng)集確實(shí)具有很高的相關(guān)性。該方法得到的物資相關(guān)性可靠性強(qiáng),更符合于項(xiàng)目工程實(shí)際。該研究結(jié)論可以很好地指導(dǎo)電網(wǎng)物資的采購與庫存設(shè)置,從而提升協(xié)議庫存物資管理水平。
[1]沈高鋒.電力消費(fèi)與中國經(jīng)濟(jì)增長的關(guān)系分析[J].消費(fèi)導(dǎo)刊,2017(26).
[2]姜高霞,王文劍.時(shí)序數(shù)據(jù)曲線排齊的相關(guān)性分析方法[J].軟件學(xué)報(bào),2014(9):2002-2017.
[3]趙一鵬,丁云峰,姚愷豐.BP神經(jīng)網(wǎng)絡(luò)誤差修正的電力物資時(shí)間序列預(yù)測[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(10).
[4]沈男.基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的電網(wǎng)物資需求預(yù)測研究[D].華北電力大學(xué)(北京)華北電力大學(xué),2014.
[5]郭秀娟.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的研究[D].吉林大學(xué),2004.
[6]胡濤.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法[J].電子技術(shù)與軟件工程,2018(2).
[7]李艷.關(guān)于數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的相關(guān)問題研究[J].科技創(chuàng)新與應(yīng)用,2017(33):161.
[8]郭濤,張代遠(yuǎn).基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘Apriori算法的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(6):101-103.
[9]謝明文.關(guān)于協(xié)方差、相關(guān)系數(shù)與相關(guān)性的關(guān)系[J].數(shù)理統(tǒng)計(jì)與管理,2004,23(3):33-36.