郭霏霏
(首都醫(yī)科大學附屬北京世紀壇醫(yī)院,北京 100038)
醫(yī)院財務信息處理量日益增多[1],構建財務信息處理系統(tǒng)對于緩解財務配置與合理規(guī)劃醫(yī)院有限的運行經(jīng)費、有效地發(fā)揮醫(yī)院財務核算與管理有著很大的作用[2-4]。對信息進行自動化處理時,通常借助數(shù)據(jù)挖掘、信息自動處理處理財務信息,財務信息冗多種雜,傳統(tǒng)方法在財務信息處理存在上存在信息處理精度低的問題,為此,相關學者進行改進。曹納提出一種基于支持向量機的企業(yè)財務風險預警系統(tǒng)[5],通過SVM 算法的劃分財務風險等級,根據(jù)財務風險等級劃分結果,對財務風險進行防范,能夠有效實現(xiàn)財務信息預警,但是對財務信息的處理精度較高。趙男男基于改進C4.5算法的高校財務預警系統(tǒng)設計[6],通過改進C4.5算法對財務數(shù)據(jù)進行分類,根據(jù)財務數(shù)據(jù)的狀態(tài)進行分塊,構建財務信息決策樹,實現(xiàn)財務信息預警,此方法能夠有效實現(xiàn)信息異常監(jiān)測,解決財務信息風險,但是此方法操作繁雜導致運行時間長。為此,本文提出一種基于關聯(lián)規(guī)則算法的醫(yī)院財務信息自動處理系統(tǒng),目的是建立起統(tǒng)一的收費項目,達到業(yè)務數(shù)據(jù)關系梳理的目的。
財務信息處理的功能是在完全符合基礎核算的基礎上,達到財務集中、全面預算、財務報告、資金管理的全面統(tǒng)一的效果,協(xié)助醫(yī)院財務處理由從會計核算型向決策型轉變,最終達到醫(yī)院財務收支的有效控制與合理利用的目的[7]。與此同時,系統(tǒng)還需要滿足簡單易于操作的需求,借助財務信息處理系統(tǒng)的功能需求設計如圖1所示的總體結構。
由圖1可知,財務信息系統(tǒng)的組成部分包括初始設置管理模塊、日常財務管理模塊、以及用戶管理模塊等等;初始設置管理模塊包括錄入初始數(shù)據(jù)、平衡校驗等;日常財務管理模塊包括憑證處理、轉賬記賬等。
圖1 總體結構圖
利用采集服務器向被測關鍵網(wǎng)元設備發(fā)送采集數(shù)據(jù)信息,同時對被測關鍵網(wǎng)元設備發(fā)送回的原始數(shù)據(jù)進行接收,之后再把數(shù)據(jù)向匯總分析服務器傳送,執(zhí)行數(shù)據(jù)分析操作[8]。數(shù)據(jù)采集服務器啟動時,首先將載入數(shù)據(jù)庫中現(xiàn)有的關鍵網(wǎng)元設備信息,信息是依靠匯聚分析服務器的GetNetUnits接口獲得到的。
數(shù)據(jù)采集服務器結構圖如圖2所示。為了隱藏功能實現(xiàn)的細節(jié),在數(shù)據(jù)采集服務器中,首先定義關鍵詞變量,這是關鍵網(wǎng)元設備對應的插口。啟動數(shù)據(jù)收集服務器時,初始化的主要對象是初始化測試目標字典。數(shù)據(jù)采集服務器將采用協(xié)議將測試數(shù)據(jù)發(fā)送到關鍵的網(wǎng)元設備,務必確保每個設備對象,達到實時依據(jù)設備信息得到該設備的插口對象的目的,更有助于系統(tǒng)監(jiān)控和控制測試業(yè)務。其他關鍵變量代表匯聚分析服務器的服務,客戶端變量是數(shù)據(jù)采集服務器和匯聚分析服務器之間進行通信的變量,并調用匯聚分析服務器接口,實現(xiàn)數(shù)據(jù)采集服務。
圖2 數(shù)據(jù)采集服務器結構
數(shù)據(jù)存儲器的主要性能體現(xiàn)在在存儲容量和讀寫速度這兩個參數(shù)信息上,所以在對內存的基本結構進行設計時,務必要對這兩個參數(shù)指標進行考慮。為了兼顧并且適應這兩個參數(shù)指標,需設計存儲器整體結構。芯片的結構設計要滿足存儲陣列中的每一個存儲單元達到精確的控制的標準,保證各電路節(jié)點的負載電容容量不能過大,不然可能影響到芯片的運行速度。因晶片上的器件的加工方式是按照平面形式,所以存儲器芯片的設計通常情況下是借助將大量的存儲器按照二維陣列排列完成,之后在陣列中間加入一列選擇線。圖3是存儲列陣結構圖。在芯片對某個地址的數(shù)據(jù)信息進行讀取時,選取存儲單元對于連接的列選擇線時,需激活該操作,同時,與字線相連接的存儲單元也會啟動,讀數(shù)據(jù)傳送到它們所相連接的的行數(shù)據(jù)線上,該數(shù)據(jù)線稱為位線,存儲單元讀或者是數(shù)量與位線相等。這使得只需控制字段便能夠控制操作激活任意一列存儲單元的目的得以實現(xiàn),進而能夠一次性讀取或者是錄入數(shù)據(jù)。此種連接方法,把同一個行存儲單元的數(shù)據(jù)線、同一列的存儲單元信號線分開采用并聯(lián)的方式,盡管增加了節(jié)點電容,但是陣列的線性增加能夠提高容量,而電容的增加和延遲的增多是一個維度上的線性增長,所以,倘若存儲器的規(guī)模很小,伴隨容量的增多,速度將會隨之慢慢下降;若存儲陣列的規(guī)模繼續(xù)增大,速度持續(xù)下降,存儲陣列的損耗的弊處可能超過容量的增加所帶來的好處時,就需要停止增加陣列的容量。
圖3 存儲列陣結構圖
在存儲器陣列中,針對列的選擇線,往往把存儲器地址線的部分數(shù)據(jù)位譯碼連接到列的選擇線上,進而達到地址對存儲器單元列的控制的效果;針對行數(shù)據(jù)線,某些存儲器借助把所有的位寬讀取進芯片寄存器邏輯,以實現(xiàn)能夠快速地達到連續(xù)地址讀寫的目的,然而其他的存儲器則對全部的行進行分組操作,每次只需要把其中一組位線與外部相連接,進而達到存儲芯片的按字節(jié)隨機地址讀寫的目的。在數(shù)據(jù)線的處理方面,以邏輯角度,可直接把一個存儲陣列的全部單元的輸入、輸出數(shù)據(jù)線并聯(lián),形成數(shù)據(jù)總線,增加控制線數(shù)量使得所需的存儲單元能夠正常工作。但是,倘若將全部的存儲單元直接連接,那么會造成很大的電容負載,使得讀寫操作延遲變大,偏離存儲器設計的要求,所以在對數(shù)據(jù)總線進行處理時,通常情況下是先按照存儲陣列的維度進行連線,形成若干個中間的總線,之后再依據(jù)操作地址選取其中一條總線與芯片總線進行連接。
信息自動處理平臺采用集群系統(tǒng),分布式中間件作為數(shù)據(jù)存儲和計算平臺采用無共享體系結構數(shù)據(jù)處理程序部署在每個節(jié)點之上數(shù)據(jù)保存在分布式文件系統(tǒng)中。信息自動處理模塊構圖如圖4所示。
圖4 信息自動處理模塊構圖
由圖4可知,信息自動處理平臺通過信息數(shù)據(jù)交換模塊、信息自動處理模塊、可視化結構、視圖變換、數(shù)據(jù)可視化引擎、以及人機交互界面、等完成信息的自動處理進程。信息自動處理平臺為大規(guī)模并行數(shù)據(jù)處理提供運行環(huán)境,它的工作原理是把作業(yè)過程分成若干個小的任務分區(qū),各個任務處理是在不同的分區(qū)進行,數(shù)據(jù)存儲在對應的磁盤中,在信息自動處理階段之前,會對磁盤數(shù)據(jù)執(zhí)行預處理操作,在主存中把輸入數(shù)據(jù)轉換成鍵值對格式的形式。
數(shù)據(jù)挖掘過程能夠看作是數(shù)據(jù)分析與知識發(fā)現(xiàn)的過程,借助海量數(shù)據(jù)隱含的、有價值的和可利用的規(guī)則與規(guī)律,之后借助發(fā)現(xiàn)的規(guī)則或規(guī)律進行輔助決策。數(shù)據(jù)采掘的內涵是從海量的不完全的數(shù)據(jù)中選取涵蓋有用知識的一個過程,數(shù)據(jù)源可以由數(shù)據(jù)倉庫充當,一個或者是若干個數(shù)據(jù)庫用于存儲的數(shù)據(jù)的供應。這個服務器是以用戶提交的數(shù)據(jù)挖掘請求為基礎的,在數(shù)據(jù)源中對有關數(shù)據(jù)進行提取。資料預處理的任務是在資料來源中國對資料進行提取以及資料清洗,用于資料挖掘過程。借助興趣度閾值,把模式評估模塊同數(shù)據(jù)挖掘模塊結合,達到所需的模式??梢暬涌谀K支持用戶進行系統(tǒng)交互,達到對指定數(shù)據(jù)進行挖掘的目的,信息挖掘設計流程圖如圖5。
圖5 信息挖掘設計流程
在信息挖掘流程作為支撐的背景下,借助關聯(lián)規(guī)則算法,為系統(tǒng)提供基本數(shù)據(jù)信息。關聯(lián)分析也稱關聯(lián)挖掘,屬于一種簡單、實用的數(shù)據(jù)分析方法。從嚴格數(shù)學的理論角度分析,關聯(lián)分析技術不是特別復雜,只要將海量數(shù)據(jù)信息放在一起,通過運算便能夠發(fā)覺數(shù)據(jù)間的關聯(lián)性與相關聯(lián)的物理量信息,體現(xiàn)出一個參數(shù)或者一組參數(shù)同事件間的聯(lián)系。為了更好的發(fā)覺交易數(shù)據(jù)庫中不同類別信息之間的關聯(lián)性,在信息處理階段需要能夠更好地完成對應的分析處理任務。
倘若支持度support(x)超出給定的某一個閾值,則將它稱之為頻繁項集;蘊含的規(guī)則是support(x→y)的支持度通過x與y同時出現(xiàn)的事務數(shù)和N的比值表示;置信度confifence(x→y)是由蘊含規(guī)則(x→y)的支持度與項集x的支持度support(x)的比值表示。蘊含規(guī)則x→y的支持度與置信度借助以下式子計算:
公式(1)中:σ(x)代表x出現(xiàn)的頻次,σ(x y)代表X與Y同時出現(xiàn)的頻次;
公式(2):support(x)代表項集X支持度,σ(x)代表x出現(xiàn)的頻次,σ(x y)代表X與Y同時出現(xiàn)的頻次;confifence(x→y)代表蘊含規(guī)則(x→y)的支持度和項集x的支持度support(x)之比。
通過以上發(fā)現(xiàn)交易數(shù)據(jù)庫中不同類別信息之間的關聯(lián)性,使信息處理階段能夠更好地完成相應分析處理任務。關聯(lián)規(guī)則算法流程圖如圖6所示。
圖6 關聯(lián)規(guī)則算法流程圖
在數(shù)據(jù)挖掘的關聯(lián)規(guī)則算法與數(shù)據(jù)挖掘過程的基礎上,通過財務信息處理流程,完成對信息的自動處理,財務信息處理流程如圖7所示。
從圖7可以看出,通過原始憑證匯總表得到原始憑證,將所有科室的原始憑證獲取收集、儲存作為之后的記賬憑證,而記賬憑證分為現(xiàn)金日記賬與銀行存款日記賬;將原始憑證經(jīng)由用戶交互界面,得到各類明細賬,將得到的原始憑證信息以及各類明細賬信息下發(fā)到用戶的主機中,形成會計報表;同時,將銀行存款日記賬形成科目發(fā)生余額表,執(zhí)行總分賬之后最終也能形成一份會計報表。之后將得到的全部會計報表能夠提供給醫(yī)院領導進行隨時的提取與查看,依靠以上的步驟,完成醫(yī)院財務信息處理系統(tǒng)的設計任務。
圖7 財務信息處理流程
集群環(huán)境是搭建在Hadoop的平臺上,包含5個節(jié)點數(shù),應用在測試的硬件和軟件環(huán)境的具體參數(shù)信息如表1、2所示。
表1 集群硬件參數(shù)
在測試的過程中,在本地利用Xshell 軟件下的遠程控制登錄到到服務器上,借助命令傳送將程序包、輸入數(shù)據(jù)等信息傳達到服務器上,同時借助dfs 命令向HDFS 中上傳數(shù)據(jù)信息。
表2 軟件環(huán)境參數(shù)
實驗選用的數(shù)據(jù)集是某醫(yī)院2019 年財政數(shù)據(jù)集,如表3所示。
表3 某醫(yī)院2019年財政數(shù)據(jù)集
通過對醫(yī)院一年總財務信息,包括,醫(yī)療收入、醫(yī)療結余收入、年初補貼、事業(yè)基金補貼、財務項目補助、科教項目收入在基于傳統(tǒng)的PLC、PFP 算法以及基于關聯(lián)規(guī)則算法下,信息系統(tǒng)自動處理分類數(shù)據(jù)與實際財務各部分占比對比,判斷系統(tǒng)自動處理精度,如圖8所示。
圖8 三種系統(tǒng)分類數(shù)據(jù)與實際財務各部分占比分析
由圖8可知,醫(yī)院財務系統(tǒng)財務收入的信息形成的餅狀圖可知,基于關聯(lián)算法下,各個財務信息組成部分的占比與實際醫(yī)院財務信息的各收入分支占比更接近,基于傳統(tǒng)的PLC 與基于PFP 算法的占比與實際情況占比差距較大,說明,基于關聯(lián)規(guī)則算法下的財務信息自動處理系統(tǒng)的處理精度更高。
基于關聯(lián)規(guī)則算法的醫(yī)院財務信息自動處理系統(tǒng)改善了傳統(tǒng)方法處理精度低的問題,并通過實驗驗證該點的真實性。系統(tǒng)的開發(fā)研究進程已經(jīng)初步成型。信息資源空間配置合理化,便于信息數(shù)據(jù)的存儲與分配,提高規(guī)律性,提升處理效率。