王偉 李均毅 郭威
為滿足供應(yīng)商多元評估要求,完成海量評估數(shù)據(jù)的采集,通過使用采集、預(yù)處理分治和數(shù)據(jù)邊緣緩存機制,實現(xiàn)以最小資源代價完成供應(yīng)商海量數(shù)據(jù)的采集,同時支持采集工具的動態(tài)管理,具備良好的擴展性,能夠適應(yīng)供應(yīng)商評估體系的動態(tài)變化
近年來,電力企業(yè)采購的物資類別和數(shù)量都呈現(xiàn)快速增長趨勢,與之相對應(yīng)的產(chǎn)品質(zhì)量、違約等問題也隨之呈現(xiàn)增長趨勢。電網(wǎng)作為保障社會經(jīng)濟民生發(fā)展的重要基礎(chǔ),一旦出現(xiàn)供應(yīng)商履約和質(zhì)量問題,將給工程建設(shè)進度和電網(wǎng)安全帶來極大影響。因此,對供應(yīng)商績效評估指標(biāo)體系優(yōu)化、評估方法的改進一直是研究的熱點。與此同時,為了更加準(zhǔn)確地對供應(yīng)商進行績效評估,實現(xiàn)評估的立體多元化,對供應(yīng)商的數(shù)據(jù)采集提出了更高要求,數(shù)據(jù)采集從原有的物資供應(yīng)過程數(shù)據(jù)采集變成全方位供應(yīng)商數(shù)據(jù)的采集,包括但不限于供應(yīng)商的財務(wù)狀況、風(fēng)險評估、產(chǎn)品質(zhì)量、運行效果、法律風(fēng)險等,并且評估要求會隨著時間和時長環(huán)境的變化不斷新增,采集的數(shù)據(jù)類型和數(shù)據(jù)量級都出現(xiàn)了巨大的變化,傳統(tǒng)的數(shù)據(jù)采集模式已經(jīng)無法滿足要求,對數(shù)據(jù)采集的時效性和數(shù)據(jù)量級都提出了更高的要求。
海量供應(yīng)商評價數(shù)據(jù)所面臨的采集問題
采集來源和方式更加復(fù)雜。供應(yīng)商現(xiàn)有的評估方式是根據(jù)采集物資供應(yīng)過程中招標(biāo)采購、質(zhì)量監(jiān)督、交付過程、歷史違約等記錄,采集來源為電力公司內(nèi)各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。要想對供應(yīng)商進行多元立體化的評估,數(shù)據(jù)采集的策略需由原來的選擇性采集變成全采集,采集內(nèi)容也從單純的物資供應(yīng)流程擴展到供應(yīng)商的各個方面,不僅包含供應(yīng)商的工商、股東及人員、投資等信息,還包括知識產(chǎn)權(quán)、司法風(fēng)險、企業(yè)發(fā)展、經(jīng)營狀態(tài)等所有產(chǎn)品質(zhì)量相關(guān)信息;數(shù)據(jù)來源也從各個業(yè)務(wù)系統(tǒng)擴展到互聯(lián)網(wǎng),不僅類型更加豐富,采集方式也涉及各項數(shù)據(jù)類型及平臺使用接口、文件、推送、爬取等方式。
采集數(shù)據(jù)量級增長且需要支持動態(tài)擴展。數(shù)據(jù)采集策略的轉(zhuǎn)變,導(dǎo)致采集過程中數(shù)據(jù)呈現(xiàn)量級增長,特別是針對反映產(chǎn)品實際質(zhì)量的一些運行過程數(shù)據(jù),不僅量大又實時性要求高,且如果丟失可能會影響最終評估精度。同時對供應(yīng)商多元評估的要求,使得評估體系處于動態(tài)變化的過程,對應(yīng)的采集內(nèi)容也是一個動態(tài)變化的過程,所以采集的吞吐能力需要支持動態(tài)擴展。
評估分析數(shù)據(jù)量化并做好清洗和預(yù)處理工作??冃гu價的過程中,基于多角度的評價要求,采集的供應(yīng)商數(shù)據(jù)會被反復(fù)使用,例如使用TOPSIS進行分析,所有代入的數(shù)據(jù)都是經(jīng)過規(guī)則量化的數(shù)值數(shù)據(jù)。而實際的數(shù)據(jù)采集過程中,數(shù)據(jù)來源廣泛且經(jīng)常會面臨多源異構(gòu)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)價值密度低等問題,數(shù)據(jù)無法被后續(xù)評估直接使用,所以采集的數(shù)據(jù)在進行評估計算分析之前,需要提前做好數(shù)據(jù)采集后的清洗和預(yù)處理工作,增加供應(yīng)商評估分析的效率。
多元采集系統(tǒng)的設(shè)計架構(gòu)與思路
綜合分析當(dāng)前供應(yīng)商多元評價采集系統(tǒng)的要求,并考慮到在實際的使用過程中,供應(yīng)商評估是一個后置過程,沒有實時性要求。所以整個采集過程對數(shù)據(jù)接收有實時性要求,但是對于數(shù)據(jù)的預(yù)處理沒有實時性要求。為了以最小資源代價完成海量數(shù)據(jù)的采集,采集系統(tǒng)設(shè)計應(yīng)遵循可擴展的采集框架、采集和預(yù)處理分治、匯集處理邊緣緩存的思路。
可擴展的采集框架就是對每個采集數(shù)據(jù)來源設(shè)定采集和預(yù)處理工具,工具的生命周期和運行管理由系統(tǒng)統(tǒng)一管理,同時采集系統(tǒng)建立統(tǒng)一規(guī)則,支持采集和預(yù)處理工具動態(tài)擴展新增和修改。采集和預(yù)處理分治是基于數(shù)據(jù)的采集需要實時處理,但是對預(yù)處理沒有實時性要求,所以為提高采集的吞吐量,從整體上把數(shù)據(jù)的處理分成兩個階段,匯集處理階段和預(yù)處理階段。匯集處理階段只需把采集的數(shù)據(jù)存入臨時數(shù)據(jù)庫,業(yè)務(wù)邏輯簡單,便于分布式設(shè)計和部署;預(yù)處理則負(fù)責(zé)后續(xù)的數(shù)據(jù)的整理、清洗和正式存儲過程。匯集處理邊緣緩存是由于匯集處理階段業(yè)務(wù)邏輯統(tǒng)一,只需要在收到數(shù)據(jù)后存入臨時數(shù)據(jù)庫,而整個匯集處理過程耗時最長的為存入臨時數(shù)據(jù)庫,為提高吞吐量,設(shè)計邊緣緩存機制,對采集數(shù)據(jù)存入緩存,延遲處理以提高采集速率,用內(nèi)存空間換取處理時間。其架構(gòu)設(shè)計圖如圖1所示。
數(shù)據(jù)的采集過程為確定需要采集的數(shù)據(jù)來源后,定制開發(fā)采集器和預(yù)處理工具,采集器采集完數(shù)據(jù)后,把采集的數(shù)據(jù)經(jīng)過負(fù)載均衡分給各個匯集中心,匯集中心負(fù)責(zé)數(shù)據(jù)存入臨時數(shù)據(jù)庫,預(yù)處理工具從臨時數(shù)據(jù)庫拿出對應(yīng)的數(shù)據(jù)源的數(shù)據(jù),經(jīng)過清洗和預(yù)處理后存入正式數(shù)據(jù)庫。整個過程中,匯集中心以負(fù)載均衡結(jié)合分布式的方式運行,負(fù)責(zé)承載整個數(shù)據(jù)采集壓力,采集器和預(yù)處理器則只需要專注業(yè)務(wù)邏輯即可,具體采集過程如圖2所示:
在采集過程中,采集器把采集的數(shù)據(jù)通過負(fù)載均衡流轉(zhuǎn)到匯集中心,匯集中心作為采集數(shù)據(jù)吞吐的核心組件,對數(shù)據(jù)處理能力將影響到整個系統(tǒng)處理能力。因為匯集中心整個處理過程中以存儲這個操作最為耗時,所以為提高吞吐量,需要建立分布式模型、異步消息隊列和批量處理相結(jié)合方式,完成采集數(shù)據(jù)快速入庫。其中,匯集中心處理流程如圖3所示。
此外,系統(tǒng)對采集器和預(yù)處理工具進行統(tǒng)一管理,不同的數(shù)據(jù)來源采集使用一組采集器和預(yù)處理工具進行處理,采集器和預(yù)處理工具的運行方式由平臺指定,具體的運行方式有單次運行、定時運行和連續(xù)運行。其中,單次運行主要針對導(dǎo)入類型的數(shù)據(jù)來源;定時運行主要針對數(shù)據(jù)來源定時更新的情況,一般約定與數(shù)據(jù)來源更新的時間一致,以每天、每周、每月或每年運行;連續(xù)運行主要針對設(shè)備運行過程中各類實時采集的運行情況。平臺負(fù)責(zé)按照配置執(zhí)行各項工具的運行。
采集器的主要工作是作為數(shù)據(jù)采集的適配器,采集數(shù)據(jù)并轉(zhuǎn)發(fā)到匯集中心,根據(jù)采集數(shù)據(jù)來源要求,使用主動拉取或訂閱等方式。采集器需要根據(jù)數(shù)據(jù)來源要求具體開發(fā),完成后不需要做過多處理,指定臨時表后直接按照通用方式轉(zhuǎn)發(fā)給匯集中心即可。
預(yù)處理工具的設(shè)計需要與采集器一一對應(yīng)。預(yù)處理工具主要完成三項工作,一是對采集器存到臨時表的數(shù)據(jù)進行清洗和整理,二是把處理后的結(jié)構(gòu)化數(shù)據(jù)存儲到正式數(shù)據(jù)庫,三是清除已處理的臨時數(shù)據(jù)。其中預(yù)處理工具在處理過程中,為減少數(shù)據(jù)庫操作次數(shù),對臨時數(shù)據(jù)的獲取和清除均采用批量模式,提高處理效率。
供應(yīng)商多元立體化評價是電網(wǎng)物資供應(yīng)快速發(fā)展過程的必然要求,為了能夠完成供應(yīng)商的整體畫像,供應(yīng)商評估數(shù)據(jù)采集的方式由原來的定向采集轉(zhuǎn)變?yōu)槿杉姆绞?,采集維度從物資供應(yīng)維度擴展到供應(yīng)商的各個方面,相應(yīng)的供應(yīng)商評估數(shù)據(jù)的采集面更加廣泛,采集數(shù)據(jù)總量呈現(xiàn)量級增長。因此通過分析數(shù)據(jù)來源和采集要求,設(shè)計電網(wǎng)海量供應(yīng)商評估數(shù)據(jù)采集系統(tǒng),在整體架構(gòu)上支持采集工具的發(fā)布和管理,具有良好的擴展性,運用異步分治和邊緣緩存的方法,以最小的資源代價解決數(shù)據(jù)采集問題,為后續(xù)供應(yīng)商的多元評估提供了有效的數(shù)據(jù)支撐。
(作者單位:國網(wǎng)浙江省電力有限公司物資分公司。本文系浙江省基于人工智能技術(shù)的供應(yīng)商全息多元評價體系解決方案研究項目成果,項目編號B311WF221002)