陳 虎(博士),劉雅瓊
DT(Data Technology,數(shù)據(jù)技術(shù))時(shí)代下,一方面,由于面對(duì)海量、復(fù)雜的數(shù)據(jù),企業(yè)為了更長(zhǎng)遠(yuǎn)的發(fā)展需要精進(jìn)管理,對(duì)財(cái)務(wù)部門提出了更高的發(fā)展要求,財(cái)務(wù)部門的職能發(fā)生著變化,已經(jīng)由被動(dòng)的事后核算型逐漸向主動(dòng)的事前預(yù)測(cè)型與事中管理型轉(zhuǎn)變;另一方面,隨著“大智移云物區(qū)”新興技術(shù)的蓬勃發(fā)展,及時(shí)、廣泛地采集數(shù)據(jù)已經(jīng)得以實(shí)現(xiàn)。財(cái)務(wù)部門需要重視數(shù)據(jù)采集,準(zhǔn)確、高效地采集內(nèi)外部、多樣化、多層次的數(shù)據(jù),把控?cái)?shù)據(jù)質(zhì)量,發(fā)揮數(shù)據(jù)價(jià)值。
本文關(guān)注DT時(shí)代下財(cái)務(wù)對(duì)數(shù)據(jù)的采集范圍及采集能力,研究適宜的采集工具與技術(shù),推動(dòng)財(cái)務(wù)應(yīng)用數(shù)據(jù)發(fā)揮更大的價(jià)值,為企業(yè)經(jīng)營(yíng)與戰(zhàn)略決策提供支持,助力企業(yè)財(cái)務(wù)轉(zhuǎn)型。
科學(xué)全面的數(shù)據(jù)采集工作能夠驅(qū)動(dòng)數(shù)據(jù)高效發(fā)揮價(jià)值,為此,數(shù)據(jù)源成為數(shù)據(jù)采集關(guān)注的核心。數(shù)據(jù)源即數(shù)據(jù)的來源,是指提供數(shù)據(jù)的原始器件或媒介。梳理數(shù)據(jù)源是做好數(shù)據(jù)采集工作的前提。對(duì)企業(yè)而言,數(shù)據(jù)源可以按照分布的范圍分類,也可以按照數(shù)據(jù)的采集路徑分類。
數(shù)據(jù)源的分布范圍按照企業(yè)信息體系的邊界分為企業(yè)內(nèi)部數(shù)據(jù)源和企業(yè)外部數(shù)據(jù)源。對(duì)不同分布范圍的數(shù)據(jù)源進(jìn)行數(shù)據(jù)采集,需要調(diào)用的資源是不一樣的。
企業(yè)內(nèi)部數(shù)據(jù)源主要包括企業(yè)的業(yè)務(wù)系統(tǒng)、財(cái)務(wù)管理系統(tǒng)、人力資源管理系統(tǒng)、日志采集系統(tǒng)、線下保存數(shù)據(jù)的辦公軟件以及企業(yè)生產(chǎn)環(huán)節(jié)的溫度傳感器等。企業(yè)內(nèi)部數(shù)據(jù)源承載并提供了絕大部分企業(yè)營(yíng)運(yùn)管理所需的數(shù)據(jù)。通常,這部分?jǐn)?shù)據(jù)可通過數(shù)據(jù)庫和系統(tǒng)日志等工具進(jìn)行調(diào)取、采集,或運(yùn)用API(Application Program Interface,應(yīng)用程序接口)實(shí)現(xiàn)開放系統(tǒng)間集成及數(shù)據(jù)傳輸。但由于大部分企業(yè)內(nèi)部存在信息孤島,在面對(duì)更廣泛的數(shù)據(jù)采集需求時(shí),建立數(shù)據(jù)倉庫和數(shù)據(jù)中臺(tái)則更能發(fā)揮優(yōu)勢(shì)。
企業(yè)外部數(shù)據(jù)源包括政府、高校、機(jī)構(gòu)、行業(yè)協(xié)會(huì)的開放型數(shù)據(jù)庫以及網(wǎng)頁與應(yīng)用程序等。企業(yè)通過采集外部數(shù)據(jù)打通與客戶、供應(yīng)商、競(jìng)爭(zhēng)對(duì)手、政府、相關(guān)機(jī)構(gòu)等外部因素的聯(lián)系,增強(qiáng)了敏覺性。相對(duì)于企業(yè)內(nèi)部數(shù)據(jù)源,外部數(shù)據(jù)源大多分布廣泛且分散,企業(yè)通常根據(jù)適配性對(duì)數(shù)據(jù)進(jìn)行篩選,并采用網(wǎng)絡(luò)爬蟲和API的方式采集,從而提高采集的效率和質(zhì)量。
數(shù)據(jù)的采集路徑可分為兩類:一類是將存在于物理世界的數(shù)據(jù)復(fù)刻至數(shù)字世界中;另一類是將本身存在于數(shù)字世界的數(shù)據(jù)搬運(yùn)至企業(yè)的數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)或者數(shù)據(jù)中臺(tái)。據(jù)此,可將數(shù)據(jù)源分為物理世界中的數(shù)據(jù)源和數(shù)字世界中的數(shù)據(jù)源。
物理世界中的數(shù)據(jù)源是以物理實(shí)體為載體,借助物理設(shè)備進(jìn)行數(shù)據(jù)采集,實(shí)現(xiàn)從物理世界向數(shù)字世界的轉(zhuǎn)化。企業(yè)的經(jīng)營(yíng)環(huán)境中存在著大量物理世界中的數(shù)據(jù)源,包括條形碼、二維碼、傳感器、工控設(shè)備等。針對(duì)物理世界中數(shù)據(jù)的不同形態(tài),有對(duì)應(yīng)的采集方式及技術(shù)。典型的采集技術(shù)包括OCR(Optical Character Recognition,光學(xué)字符識(shí)別)以及ICR(Intelligent Character Recognition,智能字符識(shí)別)技術(shù)、ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別)技術(shù)、RFID(Radio Frequency Identification,無線射頻識(shí)別)技術(shù)等。這些技術(shù)可以幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換,打造企業(yè)級(jí)的數(shù)字世界。
數(shù)字世界是通過對(duì)物理世界的感知,借助數(shù)字技術(shù)、互聯(lián)網(wǎng)、云技術(shù)等科技力量逐步構(gòu)建起的對(duì)物理世界的映射[1]。數(shù)字世界中的數(shù)據(jù)源存在于各種軟件、系統(tǒng)或程序中。這些數(shù)據(jù)雖存在于數(shù)字世界,但也并非是自然相通的,需要借用技術(shù)與工具將數(shù)據(jù)采集、匯聚至企業(yè)的數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)中,為下一步數(shù)據(jù)的抽取、清洗、裝載做好準(zhǔn)備。常見的數(shù)據(jù)采集工具包括系統(tǒng)日志、數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲、API等。
聚焦財(cái)務(wù)領(lǐng)域,財(cái)務(wù)數(shù)據(jù)源也需要隨著財(cái)務(wù)職能的轉(zhuǎn)變進(jìn)一步擴(kuò)展。傳統(tǒng)財(cái)務(wù)部門圍繞著九大業(yè)務(wù)流程(費(fèi)用報(bào)銷、采購付款、訂單收款、存貨成本、固定資產(chǎn)、總賬報(bào)表、會(huì)計(jì)檔案、資金管理、稅務(wù)管理),此時(shí),“票賬表錢稅”背后的數(shù)據(jù)是財(cái)務(wù)人員關(guān)注的重點(diǎn),其實(shí)質(zhì)可歸類為結(jié)果數(shù)據(jù)。結(jié)果數(shù)據(jù)是企業(yè)經(jīng)營(yíng)過程中,處理交易時(shí)所產(chǎn)生、接收的憑證上承載的數(shù)據(jù),以及在會(huì)計(jì)科目體系下對(duì)這些數(shù)據(jù)進(jìn)行的提煉,包括發(fā)票金額、差旅行程、付款明細(xì)等數(shù)據(jù)。與之相對(duì)應(yīng),承載這些數(shù)據(jù)的發(fā)票、行程單、火車票、銀行回執(zhí)單、合同等都是傳統(tǒng)財(cái)務(wù)數(shù)據(jù)源。
隨著企業(yè)的轉(zhuǎn)型發(fā)展和數(shù)字技術(shù)的賦能,財(cái)務(wù)職能正向著支持企業(yè)經(jīng)營(yíng)管理轉(zhuǎn)型變革,財(cái)務(wù)所關(guān)注的數(shù)據(jù)不再僅局限于前文提到的結(jié)果數(shù)據(jù),財(cái)務(wù)數(shù)據(jù)源也因此得到擴(kuò)展。除了需要采集結(jié)果數(shù)據(jù),財(cái)務(wù)還需要采集交易數(shù)據(jù)、過程數(shù)據(jù)、行為數(shù)據(jù)、環(huán)境數(shù)據(jù)(見圖1),實(shí)現(xiàn)對(duì)這些數(shù)據(jù)全方位的采集匯聚,支持和驅(qū)動(dòng)財(cái)務(wù)發(fā)揮經(jīng)營(yíng)管理、價(jià)值創(chuàng)造的職能。
圖1 從傳統(tǒng)財(cái)務(wù)數(shù)據(jù)采集到數(shù)據(jù)全面采集
交易數(shù)據(jù)是在企業(yè)與外部利益相關(guān)者進(jìn)行交易時(shí)產(chǎn)生的數(shù)據(jù),包括交付產(chǎn)品參數(shù)、客戶評(píng)價(jià)、交易頻率等數(shù)據(jù),其中交易對(duì)象、交易金額等這一類數(shù)據(jù)在交易完成后將轉(zhuǎn)化為結(jié)果數(shù)據(jù);過程數(shù)據(jù)是企業(yè)與外部利益相關(guān)者在交互過程中產(chǎn)生或獲取到的除交易數(shù)據(jù)外的其他數(shù)據(jù),包括項(xiàng)目進(jìn)度、供應(yīng)商工商信息等數(shù)據(jù);行為數(shù)據(jù)是企業(yè)經(jīng)營(yíng)過程中可通過觀測(cè)工具獲取到的觀測(cè)對(duì)象行為的記錄數(shù)據(jù),包括用戶行為日志、物流追蹤等數(shù)據(jù);環(huán)境數(shù)據(jù)是企業(yè)所處行業(yè)市場(chǎng)情況、國(guó)家宏觀經(jīng)濟(jì)形勢(shì)及全球經(jīng)濟(jì)變化等外部數(shù)據(jù),包括市場(chǎng)份額、價(jià)格指數(shù)、經(jīng)濟(jì)運(yùn)行指標(biāo)等數(shù)據(jù)。
在此基礎(chǔ)上,財(cái)務(wù)數(shù)據(jù)源得到了重新定義與擴(kuò)展,除了傳統(tǒng)的賬表、憑證,企業(yè)內(nèi)部各類業(yè)務(wù)系統(tǒng)、財(cái)務(wù)管理系統(tǒng),以及外部的網(wǎng)頁、應(yīng)用程序、開放型數(shù)據(jù)庫、外部開放型平臺(tái)等,都成為全新的財(cái)務(wù)數(shù)據(jù)源。
擴(kuò)展后的財(cái)務(wù)數(shù)據(jù)源為財(cái)務(wù)更好地向管理職能轉(zhuǎn)變奠定了更加全面的數(shù)據(jù)基礎(chǔ),可以劃分為三個(gè)層次(見圖2)。財(cái)務(wù)依此開展相應(yīng)的數(shù)據(jù)采集工作,從而進(jìn)行核算、控制、預(yù)測(cè)、管理、決策等活動(dòng),實(shí)現(xiàn)財(cái)務(wù)職能的轉(zhuǎn)型變革。
圖2 財(cái)務(wù)數(shù)據(jù)源及數(shù)據(jù)采集的“三大層次”
1.第一層:財(cái)務(wù)數(shù)據(jù)載體及其結(jié)構(gòu)化。財(cái)務(wù)數(shù)據(jù)載體是承載業(yè)務(wù)處理過程中所形成的各結(jié)果數(shù)據(jù)的單據(jù)或票證等。財(cái)務(wù)數(shù)據(jù)載體作為交易發(fā)生的“證據(jù)”,是財(cái)務(wù)部門開展財(cái)務(wù)核算工作的重要依據(jù),按照來源可以劃分為兩類。一是外部載體,包括發(fā)票、行程單、火車票、汽車票、銀行結(jié)算憑證、完稅憑證等由外部開具的材料,可直接作為賬務(wù)處理的憑證;二是內(nèi)部載體,包括業(yè)務(wù)、財(cái)務(wù)處理以及財(cái)務(wù)管理過程中生成的內(nèi)部材料,例如記賬憑證、報(bào)賬單、采購申請(qǐng)單、驗(yàn)收單、入庫單、成本控制單等。
另外,財(cái)務(wù)數(shù)據(jù)載體按照數(shù)據(jù)類型還可以劃分為原始憑證、單據(jù)、憑證、賬表四類載體(見表1)。
表1 財(cái)務(wù)數(shù)據(jù)載體
2.第二層:對(duì)內(nèi)部信息系統(tǒng)的全面采集。在第一層的基礎(chǔ)上,財(cái)務(wù)部門若想支持企業(yè)控制、預(yù)測(cè)、管理活動(dòng)的開展,需要對(duì)研發(fā)、采購、生產(chǎn)、銷售等業(yè)務(wù)環(huán)節(jié)進(jìn)行全景測(cè)繪,不斷擴(kuò)展數(shù)據(jù)的采集觸點(diǎn)。為此,企業(yè)需要實(shí)現(xiàn)銷售、采購、人力資源等各類信息系統(tǒng)的廣泛連通,在線采集全系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),集成企業(yè)內(nèi)部的數(shù)據(jù)資源,在高效推進(jìn)業(yè)務(wù)處理與財(cái)務(wù)管理的同時(shí),為企業(yè)沉淀數(shù)據(jù)基礎(chǔ)。
3.第三層:對(duì)其他外部數(shù)據(jù)源的全面采集。企業(yè)要想從數(shù)據(jù)中獲得洞見支持決策,就需要建立更為廣泛的數(shù)據(jù)連接,因此企業(yè)還需要面向外部數(shù)據(jù)源,比如網(wǎng)頁、應(yīng)用程序、開放型數(shù)據(jù)庫等,采集企業(yè)信息體系范圍外的其他數(shù)據(jù),包括客情、競(jìng)情、行情、國(guó)情等,比如潛在客戶與商機(jī)轉(zhuǎn)化數(shù)據(jù)、客戶畫像數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手最新產(chǎn)品數(shù)據(jù)、國(guó)家相關(guān)政策數(shù)據(jù)、國(guó)家GDP數(shù)據(jù)等。內(nèi)外部數(shù)據(jù)網(wǎng)絡(luò)的建立可以置企業(yè)于實(shí)際的市場(chǎng)、行業(yè)、國(guó)情之中,從微觀視角看經(jīng)營(yíng)狀況,從宏觀視角把握發(fā)展動(dòng)向。
財(cái)務(wù)數(shù)據(jù)源及數(shù)據(jù)采集的“三大層次”逐步推動(dòng)財(cái)務(wù)部門從小數(shù)據(jù)集向大數(shù)據(jù)轉(zhuǎn)變,最終發(fā)展成為覆蓋企業(yè)內(nèi)外部全數(shù)據(jù)采集情境下的數(shù)字神經(jīng)網(wǎng)絡(luò),包括物理世界及數(shù)字世界的數(shù)據(jù)采集、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)采集、內(nèi)部與外部數(shù)據(jù)采集等多種不同情境。
財(cái)務(wù)數(shù)據(jù)源分為三大層次,各層次數(shù)據(jù)采集有針對(duì)性的采集工具與方法。當(dāng)財(cái)務(wù)部門面對(duì)不同數(shù)據(jù)的采集情境時(shí),數(shù)據(jù)源與數(shù)據(jù)采集要求都各不相同(見表2)。根據(jù)不同情境選擇適配度最高的采集工具和方法是提升數(shù)據(jù)采集效率和質(zhì)量,保障數(shù)據(jù)安全、有序的關(guān)鍵。
表2 不同情境下的數(shù)據(jù)采集
描述客觀事物的數(shù)據(jù)可使用感知工具與技術(shù)進(jìn)行采集,并且這種感知技術(shù)被廣泛應(yīng)用。常見的感知工具與技術(shù)包括OCR技術(shù)、信息傳感器、射頻識(shí)別技術(shù)、全球定位系統(tǒng)、紅外感應(yīng)器、激光掃描器等。
在典型的財(cái)務(wù)工作中,存在大量文本格式標(biāo)準(zhǔn)化程度高的財(cái)務(wù)數(shù)據(jù)載體,包括銀行結(jié)算單、行程單、發(fā)票、火車票等,可借助于高效穩(wěn)健的OCR技術(shù),運(yùn)用光學(xué)設(shè)備(掃描儀、數(shù)碼相機(jī)等)將紙質(zhì)文檔上的文字轉(zhuǎn)化為圖像,再利用算法把圖像信息翻譯成可編輯的計(jì)算機(jī)文字。其本質(zhì)是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,將人眼的能力延伸到機(jī)器上。
在智能采集方面,基于切分分類引擎的OCR智能識(shí)別技術(shù)可以實(shí)現(xiàn)各類發(fā)票及通用票據(jù)的精準(zhǔn)切分分類以及快速識(shí)別輸出。員工可以混拍多張紙質(zhì)發(fā)票上傳影像;系統(tǒng)基于圖像預(yù)處理技術(shù)與切分分類引擎進(jìn)行校正去噪、智能切割,按照發(fā)票類型提取字符圖像的特征并進(jìn)行智能分類,支持電票、專票、普票、出租車票、定額發(fā)票等種類多樣、版式不一的票據(jù)[2];分類后,OCR技術(shù)根據(jù)發(fā)票類型識(shí)別并獲取每張票據(jù)的結(jié)構(gòu)化信息。感知技術(shù)的應(yīng)用極大限度地實(shí)現(xiàn)了從數(shù)據(jù)載體中采集結(jié)構(gòu)化數(shù)據(jù)。
以數(shù)據(jù)庫形式存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)幾乎是所有企業(yè)都具備的數(shù)據(jù)資源,這些數(shù)據(jù)往往涵蓋了企業(yè)生產(chǎn)和經(jīng)營(yíng)各個(gè)環(huán)節(jié)的核心數(shù)據(jù),因?yàn)樗鼈兊臄?shù)據(jù)源是承載企業(yè)業(yè)務(wù)處理、財(cái)務(wù)管理、人力管理等的各大信息系統(tǒng),且高度結(jié)構(gòu)化,可進(jìn)行批量采集。
通過信息系統(tǒng)采集數(shù)據(jù)是常見的數(shù)據(jù)采集方式,比如通過票聯(lián)系統(tǒng)能夠獲取各類票據(jù)信息;通過供應(yīng)商智能結(jié)算系統(tǒng)能夠智能連接所有供應(yīng)商,獲取開票數(shù)據(jù)、發(fā)票查驗(yàn)、三單匹配、智能審核、采購結(jié)算、認(rèn)證抵扣等數(shù)據(jù);通過營(yíng)收稽核系統(tǒng)能夠獲取并匹配應(yīng)收與實(shí)收數(shù)據(jù),實(shí)時(shí)顯示自動(dòng)稽核結(jié)果等。這些信息系統(tǒng)可智能化采集前端業(yè)務(wù)信息并將其存儲(chǔ)為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),打通業(yè)財(cái)數(shù)據(jù)線上通道。
事實(shí)上,上述系統(tǒng)后臺(tái)配置了數(shù)據(jù)庫,因此能夠在系統(tǒng)中存儲(chǔ)、搜索以及調(diào)用運(yùn)行過程中產(chǎn)生、傳輸、交換的數(shù)據(jù),并實(shí)現(xiàn)對(duì)系統(tǒng)數(shù)據(jù)的采集。如果需要采集、整合跨系統(tǒng)數(shù)據(jù)以實(shí)現(xiàn)多視角分析,采用數(shù)據(jù)倉庫是比較好的方法。數(shù)據(jù)倉庫能夠?qū)⒏黝惤Y(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成中間狀態(tài),實(shí)現(xiàn)數(shù)據(jù)格式的統(tǒng)一,并將數(shù)據(jù)在各類數(shù)據(jù)庫與數(shù)據(jù)倉庫之間進(jìn)行批量同步[3]。
部分?jǐn)?shù)據(jù)需要從系統(tǒng)日志、服務(wù)器日志中進(jìn)行采集,這部分?jǐn)?shù)據(jù)主要用于監(jiān)控系統(tǒng)運(yùn)行情況和記錄用戶操作行為,以滿足系統(tǒng)運(yùn)維或運(yùn)營(yíng)管理過程中數(shù)據(jù)需要實(shí)時(shí)關(guān)注的需求。每個(gè)系統(tǒng)、服務(wù)器后臺(tái)都有日志,日志數(shù)據(jù)捕捉了大量用戶行為,蘊(yùn)藏著巨大的開發(fā)價(jià)值。
用戶行為分析幫助企業(yè)理解并分析用戶行為,是采集后臺(tái)日志數(shù)據(jù)的典型應(yīng)用。埋點(diǎn)是目前較為常見和成熟的捕捉和記錄用戶行為的方式。用戶一旦發(fā)生特定行為就會(huì)觸發(fā)被提前“埋下”的“數(shù)據(jù)記錄器”,將其行為過程進(jìn)行記錄并保存,以采集日志數(shù)據(jù)。在財(cái)務(wù)領(lǐng)域,日志數(shù)據(jù)采集被廣泛應(yīng)用于財(cái)務(wù)作業(yè)平臺(tái)、共享服務(wù)中心的運(yùn)營(yíng)管理中。例如,通過觀測(cè)財(cái)務(wù)人員的單位審單時(shí)間、相同時(shí)間段審核單據(jù)數(shù)量以分析其審單效率,定位各環(huán)節(jié)質(zhì)量缺陷的主要表現(xiàn)以及質(zhì)量差錯(cuò)的相關(guān)人員,從而加強(qiáng)管理等。
目前,財(cái)務(wù)采集數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)仍然占較大比例,非結(jié)構(gòu)化數(shù)據(jù)能夠提供多樣化的信息,幫助人們更全面地理解事物深層內(nèi)涵。非結(jié)構(gòu)化數(shù)據(jù)包括非結(jié)構(gòu)化文檔、圖像、音頻以及視頻等數(shù)據(jù)。采集非結(jié)構(gòu)化數(shù)據(jù)需要針對(duì)性的技術(shù)以及系統(tǒng)工具。
NLP(Natural Language Processing,自然語言處理)技術(shù)是一種可以應(yīng)用在非結(jié)構(gòu)化文本數(shù)據(jù)采集領(lǐng)域的人工智能技術(shù),旨在利用計(jì)算機(jī)分析自然語言語句和文本,抽取重要信息,進(jìn)行檢索、問答、自動(dòng)翻譯和文本生成,能夠從非結(jié)構(gòu)化數(shù)據(jù)中抽取有價(jià)值的數(shù)據(jù)。在財(cái)務(wù)領(lǐng)域,合同、內(nèi)部公文制度等復(fù)雜的非結(jié)構(gòu)化文檔海量存在,NLP技術(shù)不僅實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)采集,更實(shí)現(xiàn)了語義的自動(dòng)理解。在合同智能審核情境中,應(yīng)用NLP技術(shù)可自動(dòng)識(shí)別合同文本,標(biāo)注并抽取其中的關(guān)鍵信息如合同主體、專業(yè)術(shù)語、合同金額等,形成結(jié)構(gòu)化數(shù)據(jù),借助語言模型算法對(duì)獲取的結(jié)構(gòu)化信息進(jìn)行模型判斷,對(duì)合同文本形式、合同主體合格性、合同實(shí)質(zhì)等進(jìn)行初步核查,輔助人工進(jìn)一步審核[4]。
財(cái)務(wù)采集數(shù)據(jù)還存在其他外部數(shù)據(jù)源,而外部數(shù)據(jù)大多散落在互聯(lián)網(wǎng)網(wǎng)頁、各大機(jī)構(gòu)的開放型數(shù)據(jù)庫以及外部開放型平臺(tái)中。數(shù)據(jù)類型多樣,內(nèi)容龐雜,且其蘊(yùn)含的價(jià)值不可小覷。針對(duì)不同的外部數(shù)據(jù)源需要采取對(duì)應(yīng)的高效智能的數(shù)據(jù)采集技術(shù)。財(cái)務(wù)部門通過采集其他外部數(shù)據(jù),包括客商、政府、競(jìng)爭(zhēng)對(duì)手等數(shù)據(jù),完善企業(yè)經(jīng)營(yíng)管理,了解行業(yè)最新動(dòng)向。
1.互聯(lián)網(wǎng)網(wǎng)頁信息采集。網(wǎng)絡(luò)爬蟲技術(shù)廣泛應(yīng)用于互聯(lián)網(wǎng)數(shù)據(jù)的采集。一般而言實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的途徑包含兩種:編寫代碼腳本和使用爬蟲軟件。相較于爬蟲軟件,通過編寫代碼腳本可以開展個(gè)性化需求非常高的數(shù)據(jù)搜索及采集工作,其實(shí)現(xiàn)流程主要是獲取網(wǎng)頁、解析關(guān)鍵數(shù)據(jù)以及存儲(chǔ)數(shù)據(jù)[5]。Python(一種計(jì)算機(jī)編程語言)是目前較為常用的爬取網(wǎng)絡(luò)數(shù)據(jù)的計(jì)算機(jī)語言。網(wǎng)頁數(shù)據(jù)爬取與人們的工作生活息息相關(guān),包括谷歌、百度、搜狗等常用的搜索引擎通過編寫自動(dòng)爬蟲程序,爬取、收錄、整合以及利用互聯(lián)網(wǎng)中的優(yōu)質(zhì)信息。財(cái)務(wù)部門可以通過Python爬取競(jìng)爭(zhēng)對(duì)手、行業(yè)標(biāo)桿、客戶、供應(yīng)商等的經(jīng)營(yíng)數(shù)據(jù),為企業(yè)戰(zhàn)略規(guī)劃、經(jīng)營(yíng)計(jì)劃的制定以及業(yè)務(wù)發(fā)展提供參考。
2.各大機(jī)構(gòu)開放型數(shù)據(jù)庫數(shù)據(jù)采集。在金融經(jīng)濟(jì)、生產(chǎn)制造等諸多領(lǐng)域都有政府部門或權(quán)威機(jī)構(gòu)專門開放給公眾使用的數(shù)據(jù)庫。例如,國(guó)家數(shù)據(jù)(國(guó)家統(tǒng)計(jì)局開放的數(shù)據(jù)庫)、中國(guó)統(tǒng)計(jì)信息網(wǎng)(國(guó)家統(tǒng)計(jì)局的官方網(wǎng)站)、CEIC數(shù)據(jù)庫(China Entrepreneur Investment Club,中國(guó)企業(yè)家投融資俱樂部,香港環(huán)亞經(jīng)濟(jì)數(shù)據(jù)有限公司開放的數(shù)據(jù)庫)等。開放型數(shù)據(jù)庫數(shù)據(jù)信息專業(yè)、權(quán)威,可直接進(jìn)行查閱下載或通過API批量獲取。財(cái)務(wù)部門通過采集機(jī)構(gòu)數(shù)據(jù)庫數(shù)據(jù)獲取官方權(quán)威指標(biāo)數(shù)據(jù),了解企業(yè)經(jīng)營(yíng)的社會(huì)環(huán)境。
3.外部開放型平臺(tái)數(shù)據(jù)采集。隨著互聯(lián)網(wǎng)應(yīng)用的不斷普及,越來越多的網(wǎng)絡(luò)站點(diǎn)推出基于開放API標(biāo)準(zhǔn)的產(chǎn)品和服務(wù),將自身的資源開放給開發(fā)者來調(diào)用。一個(gè)站點(diǎn)(Site)可以理解為一個(gè)存儲(chǔ)區(qū),存儲(chǔ)了一個(gè)網(wǎng)站包含的所有文件。對(duì)外開放資源的站點(diǎn)提供開放統(tǒng)一的API接口環(huán)境幫助使用者訪問、獲取站點(diǎn)的功能和資源。財(cái)務(wù)部門通過采集外部開放性平臺(tái)數(shù)據(jù),了解行業(yè)最新動(dòng)態(tài)數(shù)據(jù),掌握行業(yè)發(fā)展前沿,助力企業(yè)長(zhǎng)遠(yuǎn)發(fā)展。
DT時(shí)代下,數(shù)據(jù)隨需獲取,越來越多的企業(yè)正在通過不斷思考與創(chuàng)新突破傳統(tǒng)財(cái)務(wù)采集數(shù)據(jù)的界限,追求通過更高效、更低耗的方式實(shí)現(xiàn)更有效、全面、及時(shí)的數(shù)據(jù)采集,由此財(cái)務(wù)采集數(shù)據(jù)將逐步實(shí)現(xiàn)無感觸發(fā)、全量感知、實(shí)時(shí)匯聚。
DT時(shí)代下企業(yè)通過統(tǒng)籌利用軟硬件資源,發(fā)揮高可靠性、高通用性、高可擴(kuò)展性的數(shù)據(jù)能力,支持業(yè)務(wù)活動(dòng)產(chǎn)生的數(shù)據(jù)“發(fā)生即采集”。不同類型企業(yè)實(shí)現(xiàn)無感采集的難度與進(jìn)度存在差異。數(shù)字原生企業(yè)(互聯(lián)網(wǎng)企業(yè))能夠?qū)崿F(xiàn)業(yè)務(wù)全流程數(shù)據(jù)的自動(dòng)留痕,助力實(shí)現(xiàn)財(cái)務(wù)數(shù)據(jù)的無感采集。而非數(shù)字原生企業(yè)的數(shù)據(jù)無感采集還只是“點(diǎn)狀”的,需要全面整合企業(yè)數(shù)據(jù),逐步實(shí)現(xiàn)企業(yè)全量級(jí)業(yè)財(cái)數(shù)據(jù)的無感采集。
“數(shù)據(jù)感知”是指敏銳覺察特定數(shù)據(jù),并在數(shù)字世界中真實(shí)、準(zhǔn)確、及時(shí)地對(duì)其進(jìn)行反映。全量感知是數(shù)據(jù)深度認(rèn)知的基礎(chǔ),DT時(shí)代下的“全量”并非特指企業(yè)從人、物到業(yè)務(wù)、作業(yè)等復(fù)雜環(huán)境的全覆蓋、全感知,而更強(qiáng)調(diào)有針對(duì)性地圍繞數(shù)據(jù)深入分析目標(biāo),將更具“智慧”。財(cái)務(wù)部門要能夠?qū)哂袧撛趦r(jià)值的數(shù)據(jù)做出快速反應(yīng),合理配置資源,提高資源利用率。
云計(jì)算、物聯(lián)網(wǎng)、5G、邊緣計(jì)算等技術(shù)的成熟應(yīng)用推動(dòng)了數(shù)據(jù)的高頻傳輸、信息的高速互聯(lián),全面加速著各大企業(yè)、產(chǎn)業(yè)以及全社會(huì)的發(fā)展。全面加速意味著數(shù)據(jù)采集也應(yīng)保持高級(jí)別的響應(yīng)速度。云計(jì)算、物聯(lián)網(wǎng)、5G等各項(xiàng)新興技術(shù)的不斷突破及融合應(yīng)用都在助力企業(yè)打造業(yè)財(cái)數(shù)據(jù)采集的實(shí)時(shí)匯聚能力。
DT時(shí)代下財(cái)務(wù)采集數(shù)據(jù)范圍和特點(diǎn)的變化提升了基礎(chǔ)財(cái)務(wù)工作效率和財(cái)務(wù)工作能力,促進(jìn)財(cái)務(wù)更多地投入到高價(jià)值工作中,減少了與業(yè)務(wù)部門的低效溝通,加速業(yè)財(cái)深度融合,推動(dòng)財(cái)務(wù)深入業(yè)務(wù)價(jià)值鏈,并為管理層提供深度經(jīng)營(yíng)分析,支撐企業(yè)管理決策,進(jìn)而拓展財(cái)務(wù)的職能邊界,促進(jìn)財(cái)務(wù)創(chuàng)新與變革。