劉嫣然,汪亦星,倪 穎
(國網(wǎng)江蘇省電力有限公司物資分公司,江蘇 南京 210000)
隨著信息網(wǎng)絡(luò)的快速發(fā)展和深入變革,以及全球化市場的形成,能源企業(yè)在產(chǎn)業(yè)數(shù)字化的過程中既面臨著發(fā)展的機(jī)遇,也面臨著嚴(yán)峻的挑戰(zhàn)。在此背景下,作為智慧供應(yīng)鏈場景建設(shè)的重要組成部分——計劃需求的智能化管理成為了能源企業(yè)數(shù)字化改革的重中之重。計劃需求的智能化是將計劃需求的審查要素、審查規(guī)則、審查過程等內(nèi)容實(shí)現(xiàn)自動化、智能化的管理。
事實(shí)上,在電力行業(yè),傳統(tǒng)的計劃管理手段與現(xiàn)代信息技術(shù)的融合度不高,僅在部分環(huán)節(jié)利用輔助工具。李振偉等人在對人工智能技術(shù)與智能電網(wǎng)綜合應(yīng)用的展望中提到采用人工智能技術(shù)對電網(wǎng)進(jìn)行管理,有利于大幅度提高電網(wǎng)的管理效率。王巖通過采集項目計劃儲備庫數(shù)據(jù),借助全文檢索技術(shù)、分詞技術(shù)等技術(shù),將待評價項目計劃與歷史數(shù)據(jù)進(jìn)行智能分析與對比,構(gòu)建了基于智能審核的電力建設(shè)項目評價模型。袁彰提出了一種基于自然語言處理技術(shù)及成票規(guī)則的智能配網(wǎng)工作票系統(tǒng),實(shí)現(xiàn)了工作票工作指令及安全措施的術(shù)語標(biāo)準(zhǔn)性、完整性檢查,從而提升了配網(wǎng)運(yùn)行工作效率及保障電網(wǎng)安全穩(wěn)定運(yùn)行。
本項目針對需求計劃組成部分中,審核要點(diǎn)多、出錯率高、但結(jié)構(gòu)相對固定的商務(wù)信息部分開展智能審查技術(shù)應(yīng)用研究。探索基于多層次規(guī)則集的智能研判技術(shù)手段,對當(dāng)前電網(wǎng)企業(yè)需求計劃審查規(guī)則體系的適用性,運(yùn)用該技術(shù)將現(xiàn)有商務(wù)審核要點(diǎn)中的復(fù)雜邏輯轉(zhuǎn)化為可以計算機(jī)邏輯的可行性進(jìn)行研究,進(jìn)而明確實(shí)現(xiàn)需求計劃商務(wù)信息智能化審查的有效路徑以及可擴(kuò)展應(yīng)用的場景,推動需求計劃管理向數(shù)智化方向轉(zhuǎn)型發(fā)展,助力提升需求計劃管理質(zhì)效。
需求計劃的智能化審核首先需要明確需求數(shù)據(jù)的特征。以下將分別從體量、質(zhì)量、數(shù)據(jù)表達(dá)等角度對需求計劃的數(shù)據(jù)特征展開解析。
從體量角度看,據(jù)統(tǒng)計,2021 年國網(wǎng)江蘇物資公司全年共開展331 個物資(服務(wù))批次計劃審查工作,計劃總條目共計47 292 條,而在工作量逐年攀增的同時,計劃審查工作模式并未取得顯著的智能化發(fā)展,仍停留在基本依賴人工審查的模式,這使得計劃審查工作的效率和質(zhì)量難以提升。
從質(zhì)量要求角度看,主要是由于以下兩點(diǎn)導(dǎo)致:一是計劃條目多,審查任務(wù)重,在有限的審查會工作時間中難以逐點(diǎn)細(xì)致分析判斷;二是計劃審查要點(diǎn)邏輯復(fù)雜,主觀判斷規(guī)則多,且“資深”專家的“經(jīng)驗判斷”很難向新專家傳授。因此,亟待探索一種適用于需求計劃審查體系的信息化智能審查技術(shù),利用機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)工具的應(yīng)用,實(shí)現(xiàn)計劃信息的智能自動校驗,為專家的人工審查提供智能化輔助方案,提升審查質(zhì)效。
從數(shù)據(jù)表達(dá)角度看,根據(jù)《工程、服務(wù)類計劃審核作業(yè)指導(dǎo)書》的要求,商務(wù)部分共定義了23 條規(guī)則,包括:計劃批次規(guī)則、采購申請?zhí)栆?guī)則等。目前,商務(wù)信息審查字段雖然已經(jīng)做了結(jié)構(gòu)化處理,但是結(jié)構(gòu)化程度相對較低,只有招標(biāo)金額、最高限價、概(預(yù))算價、授權(quán)限額(萬元)、線路長度(千米)、變電容量(兆伏安)、標(biāo)段工期字段采用數(shù)值型信息表達(dá),在計劃開工日期和計劃完工日期采用了日期型信息表達(dá),與開展智能判定所需要的結(jié)構(gòu)化數(shù)據(jù)要求差距較遠(yuǎn)。
基于對上述數(shù)據(jù)特征的解析,接下來將通過規(guī)則的設(shè)計和制定將文本解譯成規(guī)則體系。依據(jù)計劃需求中23 條商務(wù)信息審核規(guī)則,可定義成符號規(guī)則、真值規(guī)則、數(shù)據(jù)規(guī)則和復(fù)合規(guī)則,具體分類如下:
(1)符號規(guī)則:指基于特定符號體系的規(guī)則,這里的符號體系可以是人類語言的基礎(chǔ)原始符號集合(如數(shù)字、字母、羅馬字等),也可以是固定符號組合的集合。
例如:計劃需求的商務(wù)信息中A01 計劃批次規(guī)則要求:批次編號采用字母排序,如第3 批公開競爭性談判,批次編號為10216C 中的C,該規(guī)則屬于符號規(guī)則,其形式化表示方式通常為:
注意:為了表達(dá)基于時間或空間排列順序關(guān)系的規(guī)則,通常依賴于某一種或多種具有特異排序特征表達(dá)的符號序列。例如,英文字符集ABC 也可以看作是對數(shù)序字符集0~9 的擴(kuò)展。
(2)真值規(guī)則:指基于條件屬性進(jìn)行真值判定的規(guī)則,與數(shù)據(jù)規(guī)則類似,符合該規(guī)則的數(shù)據(jù)滿足邏輯計算的規(guī)則,即滿足各種布爾運(yùn)算的規(guī)則。
例如:商務(wù)信息中A06 電壓等級(4)規(guī)則要求:非電力工程項目及非電氣性能試驗檢測填寫無電壓等級。這里的“非電力工程項目”和“非電氣性能試驗檢測”即為真值規(guī)則,即:
若定義a=“電力工程項目”,則^a=“非電力工程項目”;同理,若定義b=“電氣性能試驗檢測”,則^b=“非電氣性能試驗檢測”;則電壓等級c 可以形式化表達(dá)為:
其中∧即為布爾運(yùn)算中的“與”運(yùn)算,因此可見真值規(guī)則兼容布爾運(yùn)算的規(guī)則。
真值規(guī)則的基本操作符有:“非”(not)、“與”(∧)、“或”(∨)、“條件”(→)。其中,“非”是一個一元操作符,它只操作一項(not P)。剩下的是二元操作符,操作兩項來組成復(fù)雜語句(P ∧ Q,P ∨ Q, P → Q)。真值規(guī)則的邏輯真值表如表1 所示。表1 中的T 表示真,F(xiàn) 表示假,亦可以使用二進(jìn)制的1 和0 來表示。以上操作兼容所有編程語言,只是在不同語言中使用的邏輯運(yùn)算符號不同。
表1 真值規(guī)則的邏輯真值表
(3)數(shù)據(jù)規(guī)則:指基于數(shù)學(xué)符號體系能符合計算特征的規(guī)則,符合該規(guī)則的數(shù)據(jù)視為符合滿足數(shù)學(xué)計算的規(guī)則,即滿足各種算術(shù)運(yùn)算的規(guī)則。
例如:A10 概預(yù)算價規(guī)則中約定:審核填報金額,計價單位是元,概預(yù)算價應(yīng)準(zhǔn)確,不得與招標(biāo)金額相差過大,一般不得小于招標(biāo)金額(考慮到稅率的招標(biāo)金額可適當(dāng)高出概預(yù)算金額相應(yīng)的稅率百分點(diǎn),一般6%左右)。
由上可知,若定義Vg 為概預(yù)算價,招標(biāo)金額為Vz,則以上規(guī)則可形式化表達(dá)為一個數(shù)學(xué)計算式,此處可以利用不等式來表達(dá),即:
此處的“>=”“<=”和“×”即為初等數(shù)學(xué)中定義的有理數(shù)域上的比較和求乘積運(yùn)算。本研究中,不再對這些規(guī)則做額外詳細(xì)定義。
(4)復(fù)合規(guī)則:指利用以上符號、真值及數(shù)據(jù)規(guī)則的多個混合組合才能約定的規(guī)則,基本組合關(guān)系包括但不限于非、與、或、異或等規(guī)則邏輯。符號規(guī)則兼容regex 標(biāo)準(zhǔn)支持所有主流編程語言,真值規(guī)則支撐的布爾運(yùn)算雖然采用不同的符號體系,但也可以使用所有編程語言,數(shù)據(jù)規(guī)則的數(shù)學(xué)運(yùn)算亦可以進(jìn)行編程,因此復(fù)合規(guī)則的編程可實(shí)現(xiàn)性即規(guī)則邏輯的可實(shí)現(xiàn)性。
本研究中定義了三種復(fù)合規(guī)則邏輯,基本復(fù)合規(guī)則、模糊復(fù)合規(guī)則和智能復(fù)合規(guī)則。
基本復(fù)合規(guī)則使用文法系統(tǒng)約定的基本推導(dǎo)規(guī)則,該文法系統(tǒng)可以使用基于上下文無關(guān)文法的下推自動機(jī)實(shí)現(xiàn)。
模糊復(fù)合規(guī)則采用基于模糊集的推理規(guī)則,適用于模糊判定可以做出基本判定的場合。模糊推理系統(tǒng)基于用戶自定義的模糊隸屬函數(shù)以及模糊規(guī)則,將清晰的非模糊的原始輸入映射為模糊輸出集,然后對該模糊輸出集使用去模糊化方法得出一個清晰非模糊的輸出變量,一般為一個數(shù)字。基于該數(shù)字,模糊推理系統(tǒng)可以獲得專家的意見或者是用戶的主觀喜好,從而做出相應(yīng)的決策。
智能復(fù)合規(guī)則采用基于深度學(xué)習(xí)技術(shù)的推理規(guī)則,適用于基于模糊集的規(guī)則判定亦不能保證判定結(jié)果的場合。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是一類包含卷積計算、以多層感知機(jī)為基本結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò),它能學(xué)習(xí)數(shù)據(jù)的局部特征。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的核心在于卷積層和池化層的結(jié)構(gòu)與參數(shù)設(shè)計,從而增加整個網(wǎng)絡(luò)對規(guī)則判定的非線性能力,貼近人的智能判定結(jié)果。
規(guī)則的模糊化比對是商務(wù)信息智能推理的一個重要部分。以規(guī)則A03 為例,在該形式化規(guī)則中要求“審核項目名稱是否包含公司名稱、項目內(nèi)容,避免出現(xiàn)‘××費(fèi)用’‘合同’及投標(biāo)人名稱?!苯Y(jié)合專家對該規(guī)則的解釋“項目名稱、工程名稱和標(biāo)段名稱三個字段完全不一致需報警提示?!?,即智能推理可以歸納為要求判斷“項目名稱”“工程名稱”以及“招標(biāo)項目標(biāo)段名稱”這三個字段是否具有一定的相似性,如果相似性較低,則需要報警提示。
基于上述對規(guī)則的理解,在對該規(guī)則進(jìn)行預(yù)判時,可以綜合使用編輯距離和模糊匹配方法。編輯距離是一種計算兩個字符串間的差異程度的度量方法,即兩個字符串在相互轉(zhuǎn)換時所包含的修改、插入、刪除等字符編輯的最少次數(shù),其數(shù)學(xué)公式如下所示。
在借助編輯距離完 成三個字段的差異程度之后,形式化方法設(shè)計了如下的判斷規(guī)則用于相似度的模糊匹配。具體為:①如果三個字段中兩個字符串的邏輯距離在(0.8,1],則認(rèn)為這兩個字段具有較高的相似度;②如果三個字段中兩個字符串的邏輯距離在(0.4,0.8),則認(rèn)為這兩個字段具有部分相似度;③如果三個字段中兩個字符串的邏輯距離在[0,0.4],則認(rèn)為這兩個字段具有較低的相似度。具體如下:
通過邏輯距離計算和相似度的模糊判斷完成規(guī)則A03 中“項目名稱”“工程名稱”以及“招標(biāo)項目標(biāo)段名稱”三個字段的規(guī)則形式化后,即可根據(jù)實(shí)際結(jié)果給出預(yù)警提示。
由于商務(wù)信息內(nèi)容往往涉及相關(guān)技術(shù)文檔內(nèi)容(比如技術(shù)規(guī)范書、工程量清單等)的綜合研讀,因此智能化推理同樣是商務(wù)信息形式化的重要研究內(nèi)容。
在規(guī)則A05“國網(wǎng)物料編碼、擴(kuò)展編碼”中,要求“物料編碼、擴(kuò)展編碼”的選擇應(yīng)與招標(biāo)項目實(shí)施內(nèi)容相對應(yīng)。可用關(guān)鍵詞在辭條庫的擴(kuò)展描述、擴(kuò)展范圍中檢索,根據(jù)項目實(shí)際招標(biāo)內(nèi)容細(xì)致判斷所選辭條及擴(kuò)展是否合適、正確。專家對該規(guī)則的二次解讀為:“根據(jù)‘工程規(guī)模與概況’和‘招標(biāo)范圍’兩個字段的內(nèi)容,反推‘國網(wǎng)物料編碼’和‘?dāng)U展編碼’是否正確?!?/p>
針對規(guī)則A05 的智能審查,首先需要借助自然語言處理中的分詞算法,將文檔內(nèi)容中的詞組進(jìn)行分解。分詞算法根據(jù)其核心思想主要分為兩種:基于字典的分詞和基于字的分詞。基于字典的分詞是按照字典中詞組的固定搭配方式把語句進(jìn)行切分;效果較好的序列標(biāo)注模型是BiLSTM+CRF。借助分詞算法提取出項目內(nèi)容信息,然后比對所提取的項目內(nèi)容信息與擴(kuò)展描述對應(yīng)內(nèi)容以及物料編碼、擴(kuò)展編碼所代表的內(nèi)容是否一致,綜合計算出兩者的相似度,并給出預(yù)警信息。
需求計劃商務(wù)信息智能審核根據(jù)商務(wù)規(guī)則的不同特性,可以將審核規(guī)則分為符號規(guī)則、真值規(guī)則和數(shù)據(jù)規(guī)則三個基本類和復(fù)合規(guī)則類。利用形式化方法建立的規(guī)則體系也因?qū)徍艘髲?fù)雜度的不同分為命題和邏輯匹配規(guī)則、模糊規(guī)則和深度學(xué)習(xí)規(guī)則三大類,其中命題和邏輯匹配規(guī)則可以利用基于文法自動機(jī)的匹配方法進(jìn)行匹配,模糊規(guī)則可以利用基于模糊判定的匹配方法進(jìn)行匹配,而深度學(xué)習(xí)規(guī)則體系需要利用基于深度學(xué)習(xí)技術(shù)的匹配方法進(jìn)行匹配。架構(gòu)設(shè)計方案從需求分析出發(fā),設(shè)計了一套適用于現(xiàn)有一體化平臺的架構(gòu)方案,并提供了核心算法的初步設(shè)計。方案整體設(shè)計如圖1 所示。
圖1 需求計劃商務(wù)規(guī)則智能識別技術(shù)體系
根據(jù)以上方案,整體系統(tǒng)架構(gòu)以需求計劃商務(wù)規(guī)則的形式化結(jié)果為起點(diǎn)。第一部分,將命題規(guī)則體系和邏輯規(guī)則體系的需求計劃商務(wù)規(guī)則利用基于文法自動機(jī)的匹配方向進(jìn)行智能審核,對現(xiàn)有系統(tǒng)進(jìn)行升級,包括多列數(shù)據(jù)比較、單列數(shù)據(jù)的唯一性驗證、數(shù)據(jù)字典創(chuàng)建導(dǎo)入等。第二部分,引入第三方智能方案提供商(如百度智能、科大訊飛等)進(jìn)行基礎(chǔ)能力升級,開發(fā)實(shí)現(xiàn)需求計劃智能審核模塊的智能化升級。
升級后的智能審核模塊,核心為智能規(guī)則集管理子系統(tǒng),它負(fù)責(zé)所有智能規(guī)則的管理運(yùn)行與部署;智能規(guī)則元素表示子系統(tǒng)提供規(guī)則所需的數(shù)據(jù)元素的互聯(lián)互通與表示;規(guī)則匹配API 接口子系統(tǒng)賦能計劃一體化平臺的計劃提報、計劃審核、規(guī)則管理等功能單元,并提供必要的算力支撐。
全省需求計劃審核工作采用地市內(nèi)審與省公司集中審查相結(jié)合的方式,需求計劃數(shù)量多、專業(yè)繁雜,且不同類型的需求計劃管理要求不同,加上計劃提報時效性和準(zhǔn)確率要求高,計劃專職及審查專家面臨繁重的工作任務(wù)和壓力。智能審核模塊的部署可以將全人工審核升級為智能化審核,智能審核應(yīng)用于審前、審中和審后環(huán)節(jié),由單一的人工審核變?yōu)樵趯徍烁鳝h(huán)節(jié)均由智能審核模塊參與的“審算一體”模式,提高審核效率。
需求計劃提報系統(tǒng)向各專業(yè)單位提供了提報需求計劃的功能,在需求提報的功能中,需求信息包括項目單位等三十余填報項目,但提供弱類型驗證(如項目單位、項目類型等被設(shè)置為必填)、填寫限制(如電壓等級為下拉選項)、部分自動填寫(如服務(wù)主數(shù)據(jù)與物料描述、服務(wù)擴(kuò)展編碼、擴(kuò)展描述等之間的關(guān)聯(lián))。智能審核模塊在提報環(huán)節(jié)的應(yīng)用是智能審核“審前”應(yīng)用的延伸,目的在于最小化項目計劃中不符合審核規(guī)則的填報項,減少需求計劃的審核工作量,提高需求計劃的流轉(zhuǎn)速度,實(shí)現(xiàn)智能物流。