張 穎,郭星明
(浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,浙江 杭州 310018)
進(jìn)入大數(shù)據(jù)時代,工信部發(fā)布的《“十四五”信息化和工業(yè)化深度融合發(fā)展規(guī)劃(2016-2020 年)》[1]催生了制造業(yè)企業(yè)大規(guī)模的物聯(lián)網(wǎng)和互聯(lián)網(wǎng)應(yīng)用,也隨之產(chǎn)生了海量的物理數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù),這些都為“兩化融合”的進(jìn)一步推進(jìn)打下了良好的基礎(chǔ)。 縱觀各類應(yīng)用,大數(shù)據(jù)挖掘已在各行各業(yè)逐步發(fā)揮越來越重要的作用, 比如理財分析、 社交網(wǎng)站、天氣預(yù)報服務(wù)等。 就社交網(wǎng)站來說,可以通過分析網(wǎng)站歷史記錄(如點(diǎn)擊記錄、活動記錄等)揭示用戶使用習(xí)慣及其潛在關(guān)系[2],為網(wǎng)站的市場運(yùn)營決策服務(wù)。
對于制造業(yè)企業(yè)來說,大數(shù)據(jù)挖掘利用迫切需要找到一個切入點(diǎn)。 企業(yè)根本的經(jīng)濟(jì)目標(biāo)是利潤。在大數(shù)據(jù)時代,隨著企業(yè)中各種物聯(lián)網(wǎng)設(shè)備和互聯(lián)網(wǎng)應(yīng)用的大規(guī)模投入使用,生產(chǎn)經(jīng)營數(shù)據(jù)量呈爆發(fā)性增長,通過大數(shù)據(jù)挖掘處理和提取利用,高效、直接及至近乎實(shí)時地分析和利用這些海量數(shù)據(jù),發(fā)揮其蘊(yùn)含的巨大潛在價值,指導(dǎo)企業(yè)增盈減損,穩(wěn)步提升核心競爭力,是應(yīng)該的和可能的。
欲解決制造業(yè)企業(yè)中大數(shù)據(jù)對利潤核算分析的關(guān)鍵作用,需要解決的重要問題是:
(1)如何捕捉在不同位置、異構(gòu)系統(tǒng)中實(shí)時產(chǎn)生的大規(guī)模數(shù)據(jù);
(2)如何使捕捉到的數(shù)據(jù)結(jié)構(gòu)化、可視化和可理解;
(3)如何使異構(gòu)系統(tǒng)中的數(shù)據(jù)指標(biāo)體系無縫對接企業(yè)的核算體系;
(4)如何根據(jù)企業(yè)的個性化特征構(gòu)建利潤核算體系。
由于大數(shù)據(jù)產(chǎn)生的5V 特點(diǎn):Volume (大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)和Veracity(真實(shí)性),使得上述問題極具挑戰(zhàn)性。
當(dāng)前,對大數(shù)據(jù)的研究主要集中在不同類型數(shù)據(jù)的高速并行處理 (如針對批量數(shù)據(jù)處理的MapReduce[3]框架、針對交互式數(shù)據(jù)的Spark[4]系統(tǒng)、針對流式數(shù)據(jù)處理的Dremel[5]系統(tǒng)以及針對圖數(shù)據(jù)的Pregel[6]系統(tǒng)) 、大數(shù)據(jù)分析應(yīng)用(如個性化推薦[7]、軟件分類[8]、基因選擇[9]) 以及大數(shù)據(jù)處理基礎(chǔ)技術(shù)[10]等方面,但將大數(shù)據(jù)和企業(yè)利潤核算進(jìn)行對接和管理的研究甚少。 目前,企業(yè)的大數(shù)據(jù)應(yīng)用和企業(yè)的核算通常是兩張皮運(yùn)作,甚至還需要依靠人作為“搬運(yùn)工”來解決網(wǎng)絡(luò)大數(shù)據(jù)的“謄抄”(可能會借助于Excel 等工具)和會計核算系統(tǒng)的“錄入”工作,效率十分低下,信息孤島現(xiàn)象明顯,與國家“兩化融合”的要求相去甚遠(yuǎn)。
面向管理信息系統(tǒng)的本體有六元組[11]、五元組[12]、四元組[13]、三元組[14]、二元組[15]等多種分析方法。 其中,三元組的本體中間件[14]借鑒了其他領(lǐng)域中間件的研究方法和本體論工程的研究成果,將管理信息系統(tǒng)歸納為三元組,將領(lǐng)域業(yè)務(wù)知識與表及表的謂詞演算相分離,然后運(yùn)用數(shù)學(xué)集合空間的運(yùn)算和數(shù)理邏輯的推導(dǎo),完成并構(gòu)造了一個基于管理信息本體需求的、與具體領(lǐng)域知識無關(guān)的,但又可以通過知識集映射領(lǐng)域需求的、通用的管理信息系統(tǒng)中間件構(gòu)件平臺[16]。 本文的研究方法采納了三元組本體分析方法。
受國家財政部條例制約, 自1994 年稅制改革以來,我國制造業(yè)企業(yè)的會計核算制度一直在規(guī)范會計信息系統(tǒng)的標(biāo)準(zhǔn)化建設(shè)[17]。 這種現(xiàn)象有利于各類商品化的會計賬務(wù)處理軟件穩(wěn)定推行,一些有實(shí)力的企業(yè)也籍此進(jìn)行了 “現(xiàn)代集成制造大系統(tǒng)平臺”建設(shè),實(shí)現(xiàn)了財務(wù)業(yè)務(wù)一體化[18]。 但對這些企業(yè)以及更多的中小型企業(yè)來說,實(shí)現(xiàn)大數(shù)據(jù)時代資源的共享對接和個性化需求,以及成本費(fèi)用的精準(zhǔn)控制,尚在探索中[19-20]。 作為會計賬務(wù)處理軟件,原始異構(gòu)系統(tǒng)和柔性制造系統(tǒng)的數(shù)據(jù)共享和核算分錄還無法實(shí)現(xiàn)智能高效的自動生成[21]。
按照三元組理論,制造業(yè)企業(yè)的核算管理信息系統(tǒng)可以描述為如下三元組:
三元組S={U,T,P}是一個管理信息系統(tǒng)。 其中U 為制造業(yè)企業(yè)核算領(lǐng)域的本體知識及需求的集合,也可稱企業(yè)核算業(yè)務(wù);T 為二維關(guān)系表集合,簡稱表;P 為針對T 而不針對U 的謂詞演算邏輯集合,也可稱為核算功能。
關(guān)于企業(yè)核算管理信息系統(tǒng),上述表述的一個重要意義是實(shí)現(xiàn)了企業(yè)核算管理信息系統(tǒng)的業(yè)務(wù)與功能的分離。 在三元組S 中,二維關(guān)系表T 是企業(yè)核算管理信息的載體,它的值域構(gòu)成無限循環(huán)集合,見表1。
表1 二維關(guān)系表本體T 的值域表Table 1 Value range of the two-dimensional relation table ontology T
U 是會計核算領(lǐng)域特征的直接體現(xiàn),它的值域構(gòu)成無限不循環(huán)集合,見表2。
表2 會計核算知識及需求本體集合U 的值域表Table 2 Value range table of accounting knowledge and requirement ontology set U
P 通過對T 的靜態(tài)描述 (定義) 和動態(tài)處理(演算) 實(shí)現(xiàn)會計核算領(lǐng)域的信息本體處理需求。根據(jù)二元關(guān)系的定義, 在數(shù)據(jù)庫的關(guān)系代數(shù)中,專門的關(guān)系運(yùn)算包括選擇、投影、連接和除四種,分別以Γ、Σ、Π、Δ 四個符號表示。因此,P 是一個基于二元關(guān)系操作的有限集合。
選擇操作:
Γ(T)∈T={T|tij;i=1,2,3,…,m;j=1,2,3,…,n;?t∈T,st.γ(t) =true}。 γ 為選擇條件。
投影操作:
Σ(T)∈T={T|tij;i=1,2,3,…,m;j=1,2,3,…,n;?t1,t2,t3,…,tk∈T,st.tij=Σtl}。 Σ 為降維操作。
連接操作:
Π(T1,T2)∈T={T|π(tij)=true;i=1,2,3,…,m;j=1,2,3, …,n;?t1∈T1,t2∈T2,st.t1=t2}。 π 為連接條件。
除操作:
Δ (T1,T2)∈T={T|tij;i=1,2,3, …,m;j=1,2,3,…,n;?t1∈T1,t2T2}。 Δ 為除操作。
為進(jìn)一步闡述異構(gòu)信息系統(tǒng)之間的變換關(guān)系,引入關(guān)系運(yùn)算M,用于對表集T 進(jìn)行描述,其逆運(yùn)算M-1則為抽象運(yùn)算。
描述操作:M(U,T,P)?S={U,T,P},M∈P。 M操作運(yùn)用知識集U 賦予T 和P 以領(lǐng)域的意義,從而完成一般意義上的管理信息系統(tǒng)。 顯然,其逆運(yùn)算應(yīng)該是抽象運(yùn)算:
抽象操作:M-1({U,T,P}) =M-1(S) ={Φ,T,P}。顯然,經(jīng)過抽象的管理信息系統(tǒng)不再含有領(lǐng)域意義。
由于P 是針對T 而不針對U 的謂詞演算邏輯集合, 因此描述操作M 和抽象操作M-1可以簡化為:
簡化后的描述操作:M(U,T)?S= {U,T},M∈P,稱R={U,T}為狀態(tài)集。
簡化后的抽象操作:M-1({U,T})=M-1(R)= {Φ,T}~T。
{Φ,T}和T 存在等價關(guān)系,所以有時就進(jìn)一步簡化表示:
M(T)?S={U,T},M∈P。
M-1({U,T}) =M-1(R)=T。
按照上述三元組模型,基于大數(shù)據(jù)挖掘的企業(yè)核算信息系統(tǒng)S 可以形式化地描述如下:
S=M·Δ·Σ·Π·(?!-1(S1),?!-1(S2),Γ·M-1(S3), …)
其中S1,S2,S3,…為各個異構(gòu)系統(tǒng),可以來自于物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等多個數(shù)據(jù)源,如圖1 所示。
大數(shù)據(jù)時代的企業(yè)管理信息系統(tǒng)都是基于云服務(wù)的,因此企業(yè)核算系統(tǒng)的后端數(shù)據(jù)采集觸角應(yīng)當(dāng)延伸到底層的傳感器物理設(shè)施層(I),而前端服務(wù)則應(yīng)面向企業(yè)決策層(S),中間是由中間件組成的各個服務(wù)構(gòu)件,如圖2 所示。
對大數(shù)據(jù)背景下的企業(yè)核算系統(tǒng)的本體研究,其意義在于可據(jù)此構(gòu)建一個面向大數(shù)據(jù)挖掘和企業(yè)核算的中間件軟件平臺,并形成高效、長周期、個性化和可持續(xù)完善的系統(tǒng)生命周期, 以回應(yīng)動態(tài)性、多樣化、多源性和不確定性的企業(yè)信息化需求特征。 中間件平臺的設(shè)計框架如圖3 所示。3.3 構(gòu)件組成
三元組研究的價值在于可以據(jù)此構(gòu)建一個通用的、 基于大數(shù)據(jù)的企業(yè)核算系統(tǒng)的本體中間件,而基于謂詞演算邏輯(功能)集合P 的構(gòu)件開發(fā)則可使T 表的推演以及U 與T 之間描述和抽象等得以順利地實(shí)現(xiàn)。
U 與T 之間描述和抽象一般通過靜態(tài)元數(shù)據(jù)標(biāo)引加以實(shí)現(xiàn), 其又可分為表格標(biāo)引和表欄標(biāo)引,根據(jù)企業(yè)核算和大數(shù)據(jù)特征,靜態(tài)元數(shù)據(jù)標(biāo)引集可如表3 所示。
表3 靜態(tài)元數(shù)據(jù)標(biāo)引指標(biāo)概覽Table 3 Overview of static metadata indexing indicators
而T 表推演的謂詞演算屬于動態(tài)元數(shù)據(jù)標(biāo)引,其標(biāo)引集可如表4 所示,一個可能的構(gòu)件組成及其應(yīng)用如表5 所示。
表4 動態(tài)元數(shù)據(jù)標(biāo)引集Table 4 Dynamic metadata indexing set
基于三元組的企業(yè)大數(shù)據(jù)核算工作流程是十分清晰的,如圖1 所示。 但是,在實(shí)際應(yīng)用中,由于數(shù)據(jù)更為多樣、動態(tài)和不確定,要動態(tài)、在線、自動地順利完成此核算過程仍然是一個極具挑戰(zhàn)性的課題。 為解決這一問題,前述中間件提供了更為便捷的解決方案。 在這一中間件平臺上,大數(shù)據(jù)挖掘和核算工作可以在線調(diào)用和動態(tài)組裝,并且構(gòu)件的粒度大小能夠保持在可以和業(yè)務(wù)相映射的程度。此舉極大提高了企業(yè)核算效率,也為大數(shù)據(jù)時代的制造業(yè)應(yīng)用開辟了一條新的思路。
大數(shù)據(jù)采集和挖掘是企業(yè)核算轉(zhuǎn)型升級的必由之路。 對于制造業(yè)中直接與核算相關(guān)的大數(shù)據(jù),其來源一般是控制計量設(shè)備、互聯(lián)網(wǎng)絡(luò)以及其他異構(gòu)系統(tǒng),形式可能是流式非結(jié)構(gòu)數(shù)據(jù),也可能是半結(jié)構(gòu)數(shù)據(jù),或者是異構(gòu)數(shù)據(jù),為和企業(yè)自身的核算系統(tǒng)對接,必須要對其作結(jié)構(gòu)化遷移挖掘。
異構(gòu)數(shù)據(jù)可能是無序的和無結(jié)構(gòu)的, 但是挖掘的目標(biāo)必須是有序的和結(jié)構(gòu)化的。 對于企業(yè)核算來說,下列狀態(tài)集R=(U,T)是核算的必然要素和前提:
收料大數(shù)據(jù):{日期,[供應(yīng)單位代碼或名稱], 材料代碼或名稱,數(shù)量,單價或暫估價,金額,簽收人,[備注]}
領(lǐng)料大數(shù)據(jù):{日期, 領(lǐng)用部門代碼或名稱,材料代碼或名稱,數(shù)量,簽發(fā)人,[備注]}
投料大數(shù)據(jù):{日期, 生產(chǎn)部門代碼或名稱,產(chǎn)品代碼或名稱, 產(chǎn)出量, 所耗材料代碼或名稱,數(shù)量,操作人,[備注]}
能耗大數(shù)據(jù):{日期,生產(chǎn)部門代碼或名稱,能源代碼或名稱,耗用量,單價,金額,能源管理員,[備注]}
成品入庫大數(shù)據(jù):{日期, 生產(chǎn)部門代碼或名稱,產(chǎn)品代碼或名稱,入庫量,簽收人,[備注]}
成品出庫大數(shù)據(jù):{日期,購貨單位代碼或名稱,產(chǎn)品代碼或名稱,數(shù)量,單價,金額,簽發(fā)人,[備注]}
上述大數(shù)據(jù)中的數(shù)據(jù)項(xiàng)指標(biāo),除了“[]”中的信息對于核算是可有可無的,其他項(xiàng)目都必須關(guān)鍵存在,否則核算將無法進(jìn)行。 這些關(guān)鍵數(shù)據(jù)項(xiàng)可以通過特征抽取等方式從大數(shù)據(jù)源中挖掘而得。
為便于后續(xù)謂詞演算,上述狀態(tài)集經(jīng)抽象后得到的T 表依次為:
其中,i=1,2,3,…。 顯然,這些表和業(yè)務(wù)無關(guān)。而它們又是和業(yè)務(wù)存在著解釋、賦予等描述性的關(guān)系。因此,描述和抽象是自然存在的關(guān)系,不再一一推導(dǎo)。
借助于上述中間件,這些數(shù)據(jù)的遷移和挖掘有多種途徑,如表5 中的“|R…;”,其中間件應(yīng)用平臺的界面如圖4 所示, 這些參數(shù)是可以在線定義、保存和自動執(zhí)行的。
表5 基于謂詞演算集的構(gòu)件組成Table 5 Components based on predicate calculus
從圖可見, 借助ODBC (Open Database Connectivity)技術(shù)和流技術(shù),幾乎可以實(shí)現(xiàn)任意字符的數(shù)據(jù)挖掘,并使之成為結(jié)構(gòu)化的數(shù)據(jù)表。 如果借助圖形和音視頻分析軟件, 此中間件還可實(shí)現(xiàn)圖形、音頻、視頻等信息的數(shù)據(jù)挖掘。特殊情況下,遷移挖掘可以是反向進(jìn)行的,即向其他異構(gòu)信息系統(tǒng)發(fā)送所需要的信息。
對于進(jìn)入企業(yè)核算的任何數(shù)據(jù),均應(yīng)經(jīng)受會計人員的審核和未來的審計。 因此,大數(shù)據(jù)集須進(jìn)一步整理為適合人們閱讀理解的界面形式,并需要按國家財政部門的要求格式規(guī)范打印存檔。其中涉及到許多界面形式的要求(見表3)和閱讀習(xí)慣,有時需要從多個采集表中連接、篩選、轉(zhuǎn)換而成,可借助上述構(gòu)件方法,對大數(shù)據(jù)集作進(jìn)一步的處理。 以某化工企業(yè)的投料為例,其投料單的界面形式如圖5所示。
這一界面顯然和大數(shù)據(jù)采集而得的數(shù)據(jù)形式有較大的差別,且符合我國管理模式的風(fēng)格。 以構(gòu)件表述的整理過程見表6。
表6 大數(shù)據(jù)整理謂詞演算的構(gòu)件表述集Table 6 Component representation set of predicate calculus for big data sorting
可以在經(jīng)整理的原始表集T={MR,MS,BM,EB,PI,PO}基礎(chǔ)上,作進(jìn)一步的謂詞演算推演,以逐步完成材料核算、車間核算、成本核算、費(fèi)用核算、收入核算,最終實(shí)現(xiàn)利潤核算。這些核算涉及到的重要狀態(tài)表集如下:
材料核算MA:{月份,材料代碼或名稱,期初數(shù)量,單價,金額,收入數(shù)量,單價,金額,領(lǐng)用數(shù)量,單價,金額,耗用數(shù)量,單價,金額,期末數(shù)量,單價,金額,[備注]}
車間核算CA:{月份,產(chǎn)品代碼或名稱,工時,產(chǎn)量,材料代碼或名稱,用料量,損耗分?jǐn)偭?,[備注]}
成本核算VA:{月份,產(chǎn)品代碼或名稱,產(chǎn)量,產(chǎn)品總成本,材料代碼或名稱,用料量,損耗分?jǐn)偭?,單價,金額,[備注]}
費(fèi)用核算FA:{月份,產(chǎn)品代碼或名稱,分?jǐn)傎M(fèi)用金額,[備注]}
收入核算HA:{月份,產(chǎn)品代碼或名稱,銷售數(shù)量,單價,金額,[備注]}
銷售核算SA:{月份,產(chǎn)品代碼或名稱,期初數(shù)量,單位成本,金額,生產(chǎn)數(shù)量,單位成本,金額,銷售數(shù)量,單位成本,金額,期末數(shù)量,單位成本,金額,[備注]}
利潤核算PA:{月份,產(chǎn)品代碼或名稱,銷售收入,銷售成本,毛利,[備注]}
這些表的核算推演關(guān)系如圖6 所示。以成本核算為例,基于構(gòu)件表述的整理過程見表7。
本體開發(fā)方法優(yōu)于一般開發(fā)方法的最大特點(diǎn)在于能夠很好地實(shí)現(xiàn)原型開發(fā)思想,即符合人們思想認(rèn)識的漸進(jìn)性,以及需求不甚明朗和經(jīng)常處于變動之中的情形。自2011 年以來,本課題的本體中間件 (VC For API 開發(fā)工具+MSSQL 或ORACLE 數(shù)據(jù)庫)就分別應(yīng)用于多個行業(yè)企業(yè),極大地提升了軟件開發(fā)效率,如圖7 所示。
圖7 中,一個中型規(guī)模制造業(yè)企業(yè)的企業(yè)核算系統(tǒng)開發(fā)天數(shù),由原來的平均一年縮短到現(xiàn)在的平均30 天;開發(fā)團(tuán)隊人數(shù)由原來的10 人左右,縮短到現(xiàn)在的2~3 人; 全部程序共35 萬代碼行的更改量由原來的5 萬行,縮短到現(xiàn)在的不足五百行。 整體效率提高了三倍。
本體開發(fā)方法將功能和業(yè)務(wù)分離,于是目標(biāo)系統(tǒng)的開發(fā)就成為原型的二次定義,許多功能可以在現(xiàn)場定制,極大地改善了與目標(biāo)用戶之間的需求溝通。 特別是一些簡單系統(tǒng)的維護(hù),可以授權(quán)用戶自行解決,對于延長系統(tǒng)的生命周期有十分重要的意義。同時,系統(tǒng)的靈敏性也有所增強(qiáng),企業(yè)可根據(jù)市場波動和高層決策及時主動調(diào)整系統(tǒng)需求,并在短期內(nèi)加以實(shí)現(xiàn),可以抓住有利時機(jī),為企業(yè)爭取更多的利潤空間。 系統(tǒng)應(yīng)用效果如圖8 所示。
圖8 中,企業(yè)應(yīng)用信息系統(tǒng)之后,崗位管理人員數(shù)從20 余人下降到7 人; 借助系統(tǒng)實(shí)現(xiàn)了平面化管理, 庫存和資金周轉(zhuǎn)的天數(shù)也從90 天以上大幅縮短到20 天左右, 企業(yè)外延市場擴(kuò)張和內(nèi)涵挖掘并舉,利潤也有顯著的增長。5.3 異構(gòu)資源共享
近年來,隨著兩化融合的逐步推開,基于大數(shù)據(jù)挖掘的企業(yè)核算本體中間件日益顯現(xiàn)了靈活、高效的特點(diǎn)。 迄今為止,系統(tǒng)已與銀行對賬、財稅申報、工業(yè)控制、員工考勤、工資發(fā)放等多個政府部門、中介機(jī)構(gòu)實(shí)現(xiàn)對接,還和其他財務(wù)軟件實(shí)現(xiàn)了信息資源共享,如圖9 所示。
隨著兩化融合的深入,企業(yè)管理信息化必然要和工業(yè)信息化發(fā)生全方位的交融,海量的數(shù)據(jù)無疑為管理效率的提高和利潤的挖掘帶來新的機(jī)遇。搶抓這種機(jī)遇,正確應(yīng)對復(fù)雜多變的市場,及時作出科學(xué)合理的經(jīng)營決策,需要靈活、高效的系統(tǒng)軟件的有力支撐。 為此,本文設(shè)計了一種面向大數(shù)據(jù)挖掘的企業(yè)核算本體中間件,通過本體抽象,實(shí)現(xiàn)業(yè)務(wù)和功能的分離,并構(gòu)建了靈活通用、又有適當(dāng)粒度的功能構(gòu)件,以原型定義、在線調(diào)用、動態(tài)組裝的方式,有效解決了用戶需求的及時響應(yīng)。 一段時間的應(yīng)用情況也表明,這樣的中間件及其開發(fā)方法是十分適應(yīng)制造業(yè)企業(yè),特別是中小企業(yè)的信息化應(yīng)用發(fā)展的,具有明顯的優(yōu)越性。