李恩寧 梁山清 葛紅志 劉榮斌 王曉玲 王玨
摘要:針對(duì)科研院所設(shè)備管理過(guò)程中普遍存在的設(shè)備真實(shí)使用率統(tǒng)計(jì)難、設(shè)備租借分配不合理等問(wèn)題,將數(shù)據(jù)挖掘方法與實(shí)際問(wèn)題相結(jié)合,根據(jù)設(shè)備管理系統(tǒng)采集的各設(shè)備電流數(shù)據(jù),用支持向量機(jī)(Support Vector Machine,SVM)算法判定各設(shè)備的工作狀態(tài),進(jìn)而分析出真實(shí)使用情況。根據(jù)各部門(mén)的設(shè)備歷史租借清單,用Apriori關(guān)聯(lián)規(guī)則算法分析得出不同設(shè)備間的共同關(guān)聯(lián)關(guān)系,為科研設(shè)備管理部門(mén)采購(gòu)及出租設(shè)備提供合理的分配方案。
關(guān)鍵詞:數(shù)據(jù)挖掘;支持向量機(jī);關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP18文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2020)13-60-4
0引言
科研院所和院校通用設(shè)備作為固定資產(chǎn)的組成部分,是現(xiàn)代化建設(shè)事業(yè)的重要物質(zhì)保障??茖W(xué)、有效地管理固定資產(chǎn),發(fā)揮最大使用效益,對(duì)提高經(jīng)濟(jì)和社會(huì)效益、保證資產(chǎn)保值增值及保持和提高科研生產(chǎn)能力具有重要意義。
目前的設(shè)備管理系統(tǒng)[1-3],可實(shí)現(xiàn)設(shè)備信息的存儲(chǔ)與查詢,可采集設(shè)備電流、位置等信息,對(duì)使用情況做簡(jiǎn)單的統(tǒng)計(jì)分析。系統(tǒng)在信息化上有所突破,但智能化尚有不足。
數(shù)據(jù)挖掘[4]是人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,涉及的分類算法[5]和關(guān)聯(lián)規(guī)則[6-7]算法可應(yīng)用于眾多領(lǐng)域。本文借助設(shè)備管理系統(tǒng),基于多分類SVM[8]思想,探究設(shè)備狀態(tài)判定算法,分析單個(gè)設(shè)備的真實(shí)使用率;基于Apriori[9]思想,探究設(shè)備關(guān)聯(lián)分析算法,分析設(shè)備間的借用和使用關(guān)聯(lián)關(guān)系,對(duì)設(shè)備的購(gòu)買(mǎi)、預(yù)期使用等提供合理的建議。
1優(yōu)化算法
1.1優(yōu)化方向
科研設(shè)備管理系統(tǒng)的優(yōu)化方向有2個(gè):①設(shè)備租用后使用率是一個(gè)受關(guān)注的問(wèn)題,目前只能以電流值來(lái)識(shí)別關(guān)機(jī)和開(kāi)機(jī)2種模式,認(rèn)為開(kāi)機(jī)就是在工作,并未深度探尋設(shè)備的真實(shí)工作情況,即無(wú)法判別開(kāi)機(jī)工作還是開(kāi)機(jī)空轉(zhuǎn)的情況,以及工作中處于何種工作模式。將其抽象成分類問(wèn)題,可考慮用SVM算法來(lái)建模判定狀態(tài),獲取設(shè)備的真實(shí)使用率。②對(duì)于設(shè)備購(gòu)置和借用分配問(wèn)題,目前也未有更合理的解決方案,如果能夠通過(guò)各借用部門(mén)對(duì)每類設(shè)備的歷史使用情況分析出規(guī)律,則可作為一種輔助決策。將其抽象成關(guān)聯(lián)規(guī)則問(wèn)題,可考慮用Apriori算法從歷史借用清單和使用數(shù)據(jù)中找出不同設(shè)備的關(guān)聯(lián)關(guān)系,進(jìn)而為每類設(shè)備的借用去向和數(shù)量提供參考。
1.2設(shè)備狀態(tài)判定算法
SVM方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力[10]。
傳統(tǒng)的SVM只能進(jìn)行二分類,對(duì)于多分類問(wèn)題,可組合多個(gè)二分類器來(lái)實(shí)現(xiàn)多分類器的構(gòu)造,即訓(xùn)練出多個(gè)SVM分類函數(shù),并構(gòu)成類似二叉樹(shù)的分類結(jié)構(gòu),對(duì)輸入數(shù)據(jù)進(jìn)行判定。
在設(shè)備管理系統(tǒng)中,簡(jiǎn)單的設(shè)備狀態(tài)很少,通過(guò)電流加上允許的誤差就可以判斷出狀態(tài),復(fù)雜的設(shè)備有很多狀態(tài),且各種狀態(tài)下,電流差別不大。為了進(jìn)行精確分析,需要掌握準(zhǔn)確的狀態(tài)。為此,可將設(shè)備型號(hào)、電流值以及設(shè)備所處狀態(tài)3個(gè)指標(biāo)作為一個(gè)樣本進(jìn)行存儲(chǔ),生成訓(xùn)練樣本集合和驗(yàn)證樣本集合,其中設(shè)備所處狀態(tài)作為標(biāo)簽,運(yùn)用SVM方法訓(xùn)練和驗(yàn)證多個(gè)SVM分類模型的組合。具體算法如下:
④再以同樣的方式,每次將工作狀態(tài)中的第一個(gè)設(shè)置為-1,其余設(shè)置為1,重復(fù)上述步驟,得到更多的分類函數(shù),最終分類函數(shù)為( ),2( ),...,+1( )。
根據(jù)設(shè)備的實(shí)際數(shù)據(jù),生成輸入項(xiàng),依次經(jīng)過(guò)( ),2( ),...,+1( )的判斷,如果在+1( )之前的任一分類函數(shù)得到-1則停止,得到對(duì)應(yīng)的設(shè)備狀態(tài);否則+1( )=1,即工作狀態(tài)為對(duì)應(yīng)的設(shè)備狀態(tài)。根據(jù)算法實(shí)時(shí)判定的工作狀態(tài),可統(tǒng)計(jì)單臺(tái)設(shè)備每天的真實(shí)使用率。
1.3設(shè)備關(guān)聯(lián)分析算法
Apriori是布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性算法,使用一種稱作逐層搜索的迭代方法,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)性或因果結(jié)構(gòu)[11-12]。
在設(shè)備管理系統(tǒng)中,根據(jù)設(shè)備歷史租用和使用數(shù)據(jù),分析設(shè)備間的關(guān)聯(lián)關(guān)系。此項(xiàng)分析中,考慮靜態(tài)和動(dòng)態(tài)2種情況:
①靜態(tài):根據(jù)設(shè)備出借情況,分析設(shè)備間的關(guān)聯(lián)程度,從共同出借的設(shè)備找關(guān)聯(lián)關(guān)系。從各部門(mén)大量的歷史借用清單入手,用Apriori算法挖掘哪些設(shè)備總是一起被借用,這個(gè)不限于指定的部門(mén),也許好幾個(gè)部門(mén)都需要同時(shí)借某幾種設(shè)備,這個(gè)結(jié)果反映了對(duì)各種設(shè)備的需求關(guān)聯(lián)。
②動(dòng)態(tài):以同一部門(mén)使用的設(shè)備、相同時(shí)間段處于工作狀態(tài)以及地理位置相互靠近為條件,選取滿足條件的設(shè)備,分析設(shè)備間的使用關(guān)聯(lián)關(guān)系。從使用數(shù)據(jù)中找到共同使用的設(shè)備,反映具體的科研項(xiàng)目對(duì)設(shè)備的需求。
上述分析,使用關(guān)聯(lián)規(guī)則算法。具體算法如下:
支持度:所有設(shè)備借用清單中,某幾類設(shè)備同時(shí)出現(xiàn)的次數(shù)與總的清單數(shù)的比例。
最小支持度閾值:設(shè)置支持度的最小值,大于或等于該閾值的可稱為頻繁項(xiàng)集;小于該閾值的項(xiàng)集則被過(guò)濾掉。
項(xiàng):指單臺(tái)設(shè)備。
項(xiàng)集:幾類設(shè)備的組合。
頻繁項(xiàng)集:指頻繁在清單中出現(xiàn)的項(xiàng)集,所謂“頻繁”的標(biāo)準(zhǔn)就是這個(gè)項(xiàng)集出現(xiàn)的次數(shù)滿足最小支持度閾值。
頻繁項(xiàng)集:種設(shè)備同時(shí)在清單中頻繁出現(xiàn)。
算法運(yùn)行結(jié)束,可從1到最大數(shù)目輸出有關(guān)聯(lián)關(guān)系的設(shè)備組,并給出每組關(guān)聯(lián)的支持度和置信度等指標(biāo)。在找出相互關(guān)聯(lián)的設(shè)備后,可對(duì)管理部門(mén)在設(shè)備數(shù)量購(gòu)置和借用去向上提供參考建議。
2算法應(yīng)用示例
2.1設(shè)備狀態(tài)判定算法
離線訓(xùn)練階段:采集數(shù)據(jù),形成數(shù)據(jù)矩陣,=[示波器A 10 mA待機(jī);頻譜儀R 200 mA開(kāi)機(jī);信號(hào)發(fā)生器B 170 mA工作狀態(tài)2;……],是一個(gè)100行3列的矩陣,即數(shù)據(jù)采集了100條,x是這個(gè)矩陣的前2列,第1列設(shè)備型號(hào)可用數(shù)字代替,便于數(shù)值計(jì)算,且要求同類設(shè)備數(shù)字相同;第2列是電流值,單位為mA;是最后一列,表示設(shè)備狀態(tài),假如所有設(shè)備狀態(tài)共有{待機(jī)、開(kāi)機(jī)、工作狀態(tài)1、工作狀態(tài)2}4種,因?yàn)镾VM分類函數(shù)要求每次只能分成2類,值標(biāo)簽只有{-1,1},故先將=[{待機(jī)}、{開(kāi)機(jī)、工作狀態(tài)1、工作狀態(tài)2}],將{待機(jī)}置為-1,{開(kāi)機(jī)、工作狀態(tài)1、工作狀態(tài)2}置為1,訓(xùn)練分類函數(shù)( ),得到的結(jié)果可判定新數(shù)據(jù)處于待機(jī)還是其他3種狀態(tài);再以同樣的方式,以=[{開(kāi)機(jī)}、{工作狀態(tài)1、工作狀態(tài)2}]為標(biāo)簽,其中將{開(kāi)機(jī)}置為-1,{工作狀態(tài)1、工作狀態(tài)2}置為1,再次劃分得到分類函數(shù)2( ),得到的結(jié)果可判定新數(shù)據(jù)處于開(kāi)機(jī)還是其他2種工作狀態(tài);再以同樣的方式可得到3( ),能區(qū)分新數(shù)據(jù)處于工作狀態(tài)1還是工作狀態(tài)2。
在線判定階段:如前所述生成了分類函數(shù)組合,現(xiàn)在輸入一組新數(shù)據(jù)=[信號(hào)發(fā)生器B 210 mA],經(jīng)( )判定,結(jié)果為1,則繼續(xù)由2( )判斷,結(jié)果為1,則繼續(xù)由3( )判定,結(jié)果為-1,則表示處于工作狀態(tài)1,結(jié)束。具體過(guò)程如圖1所示。
圖中藍(lán)色部分為數(shù)據(jù)經(jīng)過(guò)的判定流程,上述結(jié)果為設(shè)備狀態(tài)的一次判定結(jié)果,可設(shè)定時(shí)段為5 min判定一次,則該設(shè)備當(dāng)天進(jìn)行了288次判斷,其中122次處于待機(jī),54次處于開(kāi)機(jī),112次處于工作狀態(tài)1,則該設(shè)備當(dāng)天的實(shí)際時(shí)長(zhǎng)為9 h 20 min,真實(shí)使用率為38.9%,有4.5 h處于開(kāi)機(jī)不工作的狀態(tài),其余時(shí)段處于待機(jī)狀態(tài)。
2.2設(shè)備關(guān)聯(lián)分析算法
現(xiàn)在有9份設(shè)備借用清單,共涉及5類設(shè)備,即:{E1,E2,E5},{E2,E4},{E2,E3},{E1,E2,E4},{E1,E3},{E2,E3},{E1,E3},{E1,E2,E3,E5},{E1,E2,E3},其中,E1代表示波器,E2代表頻譜儀,E3代表信號(hào)發(fā)生器,E4代表電源,E5代表噪聲發(fā)生器,最小支持度閾值min_sup=2。通過(guò)L1過(guò)程可知5種設(shè)備支持度都大于設(shè)定閾值,即都屬于頻繁被借用的;通過(guò)L2過(guò)程可知E1示波器分別與E2頻譜儀、E3信號(hào)發(fā)生器、E5噪聲發(fā)生器相關(guān)聯(lián),E2頻譜儀分別與E3信號(hào)發(fā)生器、E4電源、E5噪聲發(fā)生器相關(guān)聯(lián);通過(guò)L3過(guò)程可知,3種設(shè)備相互關(guān)聯(lián)的有E1示波器、E2頻譜儀、E3信號(hào)發(fā)生器,還有E1示波器、E2頻譜儀、E5噪聲發(fā)生器。具體過(guò)程如圖2所示。
算法得出互相關(guān)聯(lián)的若干類設(shè)備后,可進(jìn)一步搜尋這幾種設(shè)備的使用關(guān)聯(lián)關(guān)系,具體實(shí)施步驟為:在管理平臺(tái)上將檢索條件設(shè)置為同一部門(mén)、同一地理位置,并統(tǒng)計(jì)每類設(shè)備的使用時(shí)間段,兩兩進(jìn)行比較,如果某2種設(shè)備的工作時(shí)間段T1,T2的重合度大于50%,則說(shuō)明這2種設(shè)備間具有使用關(guān)聯(lián)關(guān)系,依次類推。例如,在分析出E1示波器和E2頻譜儀具有關(guān)聯(lián)關(guān)系后,根據(jù)歷史GPS定位數(shù)據(jù),查詢到在某天這2種設(shè)備處在同一部門(mén),并根據(jù)統(tǒng)計(jì)由設(shè)備狀態(tài)判定算法給出的真實(shí)使用時(shí)段,得出當(dāng)天這2種設(shè)備有67.3%的時(shí)間段在同時(shí)使用,則它們具備使用關(guān)聯(lián)關(guān)系。
3結(jié)束語(yǔ)
通過(guò)介紹數(shù)據(jù)挖掘方法中的SVM、Apriori兩種經(jīng)典算法,以及科研設(shè)備管理系統(tǒng)的特點(diǎn)和存在問(wèn)題,提出將SVM、Apriori算法分別應(yīng)用在設(shè)備工作狀態(tài)判定以及設(shè)備間的關(guān)聯(lián)關(guān)系分析上,發(fā)揮2種算法的獨(dú)特優(yōu)勢(shì),可為科研部門(mén)在設(shè)備管理、租借、購(gòu)置等方面提供合理的參考依據(jù)。
參考文獻(xiàn)
[1]閆偉.以使用單位為主體的資產(chǎn)綜合管理系統(tǒng)的構(gòu)建[J].實(shí)驗(yàn)室科學(xué),2018,21(6):71-73,77.
[2]王昆.探討實(shí)驗(yàn)室儀器設(shè)備的管理[J].中國(guó)檢驗(yàn)檢測(cè),2017, 25(3):59-61.
[3]陸琳睿,李光輝.大數(shù)據(jù)背景下的儀器設(shè)備信息化管理探究[J].實(shí)驗(yàn)技術(shù)與管理,2018,35(4):155-158.
[4]張?jiān)?基于非營(yíng)利性、數(shù)據(jù)挖掘和科學(xué)管理的高校財(cái)務(wù)分析、評(píng)價(jià)與管理研究[M].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社, 2014.
[5]田文英.機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘[J].石家莊職業(yè)技術(shù)學(xué)院學(xué)報(bào), 2004(6):30-32.
[6] MITCHELL T M.機(jī)器學(xué)習(xí)[M].曾華軍,張銀奎,等,譯.北京:機(jī)械工業(yè)出版社,2003.
[7]穆瑞輝,付歡.淺析數(shù)據(jù)挖掘概念與技術(shù)[J].新鄉(xiāng)教育學(xué)院學(xué)報(bào),2008,21(3):105-106.
[8]羅娜.數(shù)據(jù)挖掘中的新方法———支持向量機(jī)[J].軟件導(dǎo)刊, 2008(10):30-31.
[9]夏火松.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:科學(xué)出版社, 2004.
[10] GRUNWALD P D,RISSANEN J. The Minimum Description Length Principle[M].Cambridge,Ma:MIT Press,2007.
[11]胡可云,田鳳占,黃厚寬.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008.
[12]吳昱.大數(shù)據(jù)精準(zhǔn)挖掘[M].北京:化學(xué)工業(yè)出版社,2014.
計(jì)算機(jī)與網(wǎng)絡(luò)2020年13期