亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)規(guī)則的電子發(fā)票摘要與會計科目名稱相關(guān)性分析

        2021-08-03 06:48:06李燕萍劉凡謝軍
        電腦知識與技術(shù) 2021年17期
        關(guān)鍵詞:電子發(fā)票會計分錄關(guān)聯(lián)規(guī)則

        李燕萍 劉凡 謝軍

        摘要:目的:研究電子發(fā)票摘要與會計科目名稱之間的相關(guān)性,考察由電子發(fā)票自動生成會計分錄的方法。方法:對收集到的電子發(fā)票中的摘要信息和會計科目名稱,運(yùn)用Apriori關(guān)聯(lián)規(guī)則算法找出兩者之間的對應(yīng)關(guān)系。結(jié)果:通過應(yīng)用Apriori關(guān)聯(lián)規(guī)則算法,在一定程度上找到了發(fā)票摘要與科目名稱之間的相關(guān)性,為下一步自動生成會計分錄提供了可參考的信息。

        關(guān)鍵詞:電子發(fā)票;會計分錄;關(guān)聯(lián)規(guī)則

        中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2021)17-0244-02

        開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

        會計分錄將記賬憑證和包括發(fā)票的原始憑證得以有效的對應(yīng)和核對,實際起到了連接會計業(yè)務(wù)的紐帶作用。記賬憑證和會計賬簿是對經(jīng)濟(jì)業(yè)務(wù)往來主要內(nèi)容的簡要記錄。會計科目的設(shè)置把各項會計要素的增減變化分門別類地歸集起來,為企業(yè)內(nèi)部經(jīng)營管理和向有關(guān)方面提供一系列具體分類核算指標(biāo)。會計科目的名稱一般不超過八個漢字,屬于短文本。按其所提供信息的詳細(xì)程度及其統(tǒng)馭關(guān)系不同,分為總分類科目和明細(xì)分類科目。發(fā)票摘要要求簡明扼要,既要把情況講明白,但又不能煩瑣,文字?jǐn)⑹龊喍?,屬于短文本?/p>

        1 關(guān)聯(lián)規(guī)則算法

        關(guān)聯(lián)規(guī)則是反映一個事件和其他事件之間的依賴或關(guān)聯(lián)的知識。文本關(guān)聯(lián)規(guī)則挖掘是從大量文本中發(fā)現(xiàn)項集之間有意義的關(guān)聯(lián)或相關(guān)聯(lián)系。已不少研究在文本較短的情況下,利用關(guān)聯(lián)規(guī)則算法去找尋兩者甚至多者之間的關(guān)系,陳海霞等(2018)利用關(guān)鍵詞關(guān)聯(lián)融合CNN的短文本分類[1],荊琪等(2018)基于維基百科的短文本計算相關(guān)度[2],但尚未有學(xué)者解析發(fā)票摘要與會計科目名稱之間的關(guān)系。本文利用關(guān)聯(lián)規(guī)則中較為常用的關(guān)聯(lián)規(guī)則算法—Apriori算法計算分析發(fā)票摘要與會計科目名稱之間的相關(guān)性,為自動生成會計分錄提供可參考的信息。

        近幾年大數(shù)據(jù)的理念和應(yīng)用逐步深入,大數(shù)據(jù)應(yīng)用滲透在各行各業(yè)中,并以此為基礎(chǔ)達(dá)到快速處理事務(wù)的目的。其中,利用數(shù)據(jù)挖掘技術(shù)研究財務(wù)報銷已為財務(wù)智能的一項主要內(nèi)容,且數(shù)據(jù)挖掘技術(shù)的一大優(yōu)勢就是從海量數(shù)據(jù)中發(fā)掘大量隱匿于其中的信息,本文采用的Apriori關(guān)聯(lián)規(guī)則算法在找到發(fā)票摘要與會計科目名稱之間的關(guān)聯(lián)規(guī)則之后應(yīng)用于大量處理發(fā)票內(nèi)容的數(shù)據(jù),自動制成會計分錄。

        Apriori算法是一種較為常用的通過頻繁項集挖掘關(guān)聯(lián)規(guī)則的算法,它能夠發(fā)現(xiàn)事物數(shù)據(jù)庫中頻繁出現(xiàn)的數(shù)據(jù)集,構(gòu)造數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,這些聯(lián)系構(gòu)成的規(guī)則可幫助找出某些行為特征,以便迅速地進(jìn)行事務(wù)處理。關(guān)聯(lián)規(guī)則為在某一數(shù)據(jù)或與其相似數(shù)據(jù)出現(xiàn)時,可推導(dǎo)另一對應(yīng)數(shù)據(jù)信息出現(xiàn)的可能。

        Apriori算法中計算的指標(biāo)包括:

        頻繁項集:是指那些經(jīng)常會同時出現(xiàn)的事物,例如辦公桌對應(yīng)會計科目的管理費(fèi)用。

        支持度:一個項集的支持度被定義為數(shù)據(jù)集中包含該項集的記錄所占的比例。支持度是針對項集來說,在實際應(yīng)用中可設(shè)置一個最小支持度,只保留最小支持度的項集。

        support = [同時發(fā)生的事件(X,Y)總事件]

        置信度:反映A和B兩個事物彼此之間同時出現(xiàn)的概率。例如經(jīng)典案例{啤酒}→{尿布}這樣的關(guān)聯(lián)規(guī)則。

        confidence(X→Y) = [同時發(fā)生的事件(X,Y)X發(fā)生的事件],

        confidence(Y→X) = [同時發(fā)生的事件(X,Y)Y發(fā)生的事件]

        提升度:提升度表示含有X的條件下,同時含有Y的概率,與只看Y發(fā)生的概率之比。提升度反映了關(guān)聯(lián)規(guī)則中的X與Y的相關(guān)性,提升度大于1且越高表明正相關(guān)性越高,提升度小于1且越低表明負(fù)相關(guān)性越高,提升度等于1表明沒有相關(guān)性,即相互獨(dú)立。

        Lift(X→Y) = P(Y | X) / P(Y)

        本文運(yùn)用以上計算方法尋找發(fā)票摘要與會計科目名稱之間的關(guān)聯(lián)規(guī)則,為進(jìn)一步自動生成會計分錄做準(zhǔn)備。

        2 發(fā)票摘要的數(shù)據(jù)準(zhǔn)備

        從搜集到的電子發(fā)票中隨機(jī)抽取200份作為教師數(shù)據(jù),按照會計學(xué)相關(guān)原理,根據(jù)發(fā)票摘要的信息內(nèi)容制作了相應(yīng)的會計分錄,保存在excel里。原始發(fā)票摘要多以日常辦公用品及辦公開銷為主,所對應(yīng)的分錄多為管理費(fèi)用、銷售費(fèi)用等。原始數(shù)據(jù)的具體準(zhǔn)備過程如下所述。

        電子發(fā)票通常為pdf格式,本文使用python開源工具包PDFMiner中的兩個內(nèi)置工具pdf2txt.py和dumppdf.py獲取發(fā)票摘要中的文字內(nèi)容。首先使用pdf2txt.py從PDF文件中提取所有文本內(nèi)容,將提取的文字按所在位置劃分區(qū)段,再用dumppdf.py把PDF文件內(nèi)容轉(zhuǎn)變成pseudo-XML格式,標(biāo)識出各區(qū)段文字的意義。最后利用PDFMiner其他工具識別電子發(fā)票提取電子發(fā)票摘要里的內(nèi)容,將其導(dǎo)出到文本文件中。

        在前期的準(zhǔn)備過程中,綜合考慮到一些發(fā)票摘要填寫不規(guī)范,以及填寫的內(nèi)容所涉及的范圍較廣,產(chǎn)品術(shù)語和名詞術(shù)語較多等方面問題,對發(fā)票摘要中的信息用jieba分詞中的全模式進(jìn)行分詞處理,使摘要中的文字信息保持一致,進(jìn)行數(shù)據(jù)挖掘及統(tǒng)計分析。

        根據(jù)發(fā)票摘要中的這些信息,按照會計學(xué)相關(guān)原理人工選取對應(yīng)的會計科目名稱,填寫會計分錄,并制成表格,表1列舉了部分發(fā)票摘要對應(yīng)的會計科目名稱。利用python的pandas工具包讀取所填的會計分錄的表格,導(dǎo)出其中的摘要文本后,再用jieba分詞將發(fā)票摘要短文本中所有可能成詞的詞語都掃描出來,這樣做便于發(fā)現(xiàn)發(fā)票摘要與會計科目名稱的關(guān)聯(lián)性。

        3 基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘

        關(guān)聯(lián)規(guī)則最早出現(xiàn)在購物籃問題的研究中,如經(jīng)典的“啤酒與尿布”案例,常用的關(guān)聯(lián)規(guī)則挖掘算法包括Eclat、FP-growth、Apriori等,本文采用Apriori算法對已經(jīng)填寫過會計科目名稱的樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,旨在找出發(fā)票摘要與會計科目名稱的關(guān)聯(lián)關(guān)系。

        3.1 算法的步驟

        以apriori算法為基礎(chǔ)尋找關(guān)聯(lián)規(guī)則的方法主要由以下幾個步驟組成:

        步驟一:使用pdfminer提取發(fā)票摘要內(nèi)容,人工選取對應(yīng)的會計科目名稱,制作會計分錄表格;

        步驟二:使用pandas讀取表格,使用jieba分詞將發(fā)票摘要分詞;

        步驟三:根據(jù)發(fā)票數(shù)量及摘要的詞頻,設(shè)置最小支持度和最小置信度;

        步驟四:讀取分詞處理后的發(fā)票摘要分詞表;

        步驟五:根據(jù)最小置信度尋找符合條件的關(guān)聯(lián)規(guī)則;

        步驟六:輸出關(guān)聯(lián)規(guī)則;

        步驟七:將所有發(fā)票摘要的數(shù)據(jù)進(jìn)行處理,檢驗規(guī)則;

        步驟八:輸出結(jié)果。

        3.2 運(yùn)行結(jié)果

        設(shè)置最小支持度為1%,最小置信度為15%,運(yùn)用Apriori算法在200份已經(jīng)處理好的實驗發(fā)票數(shù)據(jù)中計算得到57條符合條件的關(guān)聯(lián)規(guī)則。最小支持度是根據(jù)實際情況定義衡量支持度的一個閾值,表示需要完成的項目集中統(tǒng)計意義上的最低程度。在本文的實驗數(shù)據(jù)中,設(shè)置最小支持度為1%時,可最快速簡便地得到最想要的關(guān)聯(lián)規(guī)則;將最小支持度設(shè)置為其他數(shù)值時,計算結(jié)果包含大量無效數(shù)據(jù)。表2是計算得出的部分關(guān)聯(lián)規(guī)則及其包含的支持度、置信度與提升度。

        利用Apriori關(guān)聯(lián)規(guī)則算法對收集的電子發(fā)票進(jìn)行分析,得出發(fā)票摘要和會計科目名稱之間的關(guān)聯(lián)規(guī)則,即表2中的規(guī)則項集欄,用A→B表示,A是發(fā)票摘要的單詞,B是會計科目名稱。

        本文使用的原始發(fā)票數(shù)據(jù)在現(xiàn)實業(yè)務(wù)中常見,上述結(jié)果經(jīng)財務(wù)專業(yè)人員檢查,符合財務(wù)制作記賬憑證填寫會計分錄的部分要求,說明關(guān)聯(lián)規(guī)則方法可以提取挖掘發(fā)票摘要和會計科目名稱之間的關(guān)聯(lián)規(guī)則,并為進(jìn)一步自動生成會計分錄提供參考信息。

        3.3 驗證

        在機(jī)器學(xué)習(xí)、自然語言處理及信息檢索等領(lǐng)域,評測(Evaluation)是一項必要工作,常采用的評測指標(biāo)有精確率(Precision)和召回率(Recall)。其中精確率=TP/(TP+FP),表示所有“正確被檢索的item(TP)”占所有“實際被檢索到的(TP+FP)”的比例;

        召回率=TP/(TP+FN),表示“正確被檢索的item(TP)”占所有“應(yīng)該檢索到的item(TP+FN)”的比例。

        本文利用上述關(guān)聯(lián)規(guī)則針對另外200份發(fā)票判斷對應(yīng)的會計科目名稱,得到精確率為0.17,召回率為0.185。表明計算的準(zhǔn)確程度不高,主要是因為發(fā)票摘要的內(nèi)容繁雜以及經(jīng)濟(jì)業(yè)務(wù)往來內(nèi)容的不確定。

        4 結(jié)論與展望

        本文以從眾多發(fā)票中隨機(jī)抽取的兩百張發(fā)票內(nèi)容為數(shù)據(jù)樣本進(jìn)行了摘要與科目名稱之間關(guān)聯(lián)規(guī)則的挖掘,實際驗證了關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確程度。根據(jù)apriori算法挖掘出的關(guān)聯(lián)規(guī)則,可以為將發(fā)票摘要輸入時直接生成會計分錄提供參考,便于財會人員更快速地進(jìn)行財務(wù)處理,可節(jié)約財會人員的時間和精力。

        在本課題的調(diào)查中作者了解到,目前市場上的財務(wù)報銷應(yīng)用還無法將發(fā)票中的摘要自動生成會計分錄。在后繼研究中,將采用人工填寫制作的大量會計分錄數(shù)據(jù)挖掘出關(guān)聯(lián)規(guī)則,利用規(guī)則對發(fā)票內(nèi)容進(jìn)行有規(guī)律的處理,快速精準(zhǔn)地將報銷中發(fā)票的摘要自動生成會計分錄,為財務(wù)核算提供實際且有效的幫助。

        根據(jù)財會人員填制正確會計分錄的實際情況來看,發(fā)票摘要涉及的業(yè)務(wù)實為廣泛,難以精準(zhǔn)確定應(yīng)該歸屬于哪一類,為此在后繼研究中,將自動推測摘要中的中心詞,并進(jìn)行擴(kuò)展,探討大幅提高短文本分類精度的方法。另外,將業(yè)務(wù)范圍進(jìn)行劃分,優(yōu)化數(shù)據(jù),在此基礎(chǔ)上再提高精確度。

        參考文獻(xiàn):

        [1] 陳海霞,楊喜旺,衛(wèi)潔潔.關(guān)鍵詞關(guān)聯(lián)融合CNN的短文本分類算法[J].電腦知識與技術(shù),2018,14(22):261-264.

        [2] 荊琪,段利國,李愛萍,等.基于維基百科的短文本相關(guān)度計算[J].計算機(jī)工程,2018,44(2):197-202.

        【通聯(lián)編輯:李雅琪】

        猜你喜歡
        電子發(fā)票會計分錄關(guān)聯(lián)規(guī)則
        聯(lián)村投資項目的會計核算
        現(xiàn)階段疫情防控業(yè)務(wù)的會計處理
        合作社林木類生物資產(chǎn)的會計核算
        集體資產(chǎn)對外投資的會計處理
        關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
        數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價體系中的應(yīng)用
        關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
        中國市場(2016年36期)2016-10-19 04:10:44
        基于關(guān)聯(lián)規(guī)則的計算機(jī)入侵檢測方法
        C2C電子商務(wù)稅收征管問題研究
        我國小微企業(yè)實行電子發(fā)票的可行性分析
        商(2016年12期)2016-05-09 09:02:00
        欧美黑吊大战白妞| 女女同性av一区二区三区免费看| 人禽无码视频在线观看| 精品91精品91精品国产片| 日韩精品永久免费播放平台| 2021年性爱喷水视频| 日韩日本国产一区二区 | a级毛片在线观看| 久久99精品久久久久久hb无码| 人妻被黑人粗大的猛烈进出| 2020亚洲国产| 四虎在线中文字幕一区| 亚洲综合自拍偷拍一区| 国产欧美成人一区二区a片| 香港三日本三级少妇三级视频| 人人爽人人爽人人爽| 国产亚洲婷婷香蕉久久精品| 最新福利姬在线视频国产观看| 丝袜美腿一区在线观看| 日本久久精品视频免费| 射精区-区区三区| 天天爽夜夜爽夜夜爽| 免费人成视频在线观看视频| 欧美亚洲另类国产18p| 久久久亚洲成年中文字幕| 欧美激情乱人伦| 国产精品综合色区在线观看| 无码人妻丰满熟妇片毛片| 99re国产电影精品| 亚洲免费一区二区av| 老熟妇乱子伦牲交视频 | 精品亚洲国产亚洲国产| 中文字日产幕码三区的做法大全| av无码一区二区三区| 国产男女无遮挡猛进猛出| 亚洲妓女综合网99| 日韩av一区二区三区精品| 午夜国产精品视频在线观看| 特黄做受又粗又长又大又硬| 66lu国产在线观看| 亚洲国产精品午夜一区|