亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于短文本分類的電子發(fā)票自動生成會計分錄

        2020-08-04 11:07:24李燕萍宋磊
        青年生活 2020年23期
        關(guān)鍵詞:發(fā)票短文聚類

        李燕萍?宋磊

        引言

        電子發(fā)票中的信息抽取屬于自然語言處理中信息抽取子領(lǐng)域。自然語言處理可以分成3個層級,分別是文本理解、信息抽取和信息檢索。在以往的紙質(zhì)發(fā)票報銷中,通常要經(jīng)過一系列流程,層層審批,然后財務(wù)部門根據(jù)報銷的內(nèi)容進行分類,做賬。而線上報銷流程與線下一致,軟件自動識別發(fā)票,報銷人雖無需填寫發(fā)票,但財務(wù)依舊需要根據(jù)報銷內(nèi)容制作會計分錄才能做賬。將報銷內(nèi)容自動生成分錄,可節(jié)約財會人員時間和精力[1]

        一、自動生成目錄可行性

        電子發(fā)票具有文字稀疏性、產(chǎn)品術(shù)語、名詞術(shù)語較多等特點,將其內(nèi)容分類自動生成會計分錄,可減少企業(yè)資金投入,提高企業(yè)做賬效率。在報銷的項目內(nèi)容中,大多數(shù)是一些屬性相近的詞,可以看作是單個詞語到語義一般概念的映射。詞聚類算法可以分為三種:第一,各種啟發(fā)式量度表示聚類過程中的元素的距離;第二,以統(tǒng)計模型計算距離量度并給定聚類結(jié)果的類總數(shù);第三,同樣以統(tǒng)計模型計算距離量度,但增減例如困感度等量度的值[2]。

        二、短文本分類存在問題

        報銷的內(nèi)容較為簡潔明了,屬于短文本,但傳統(tǒng)的向量空間模型(VSM, Vector Space Model)對長文本的分類有較高的敏感度,而用于短文本分類時卻存在特征稀疏性等問題。1、傳統(tǒng)的向量進行空間分析模型對關(guān)鍵字的文檔數(shù)據(jù)處理方式方法是依據(jù)詞頻信息,難以分辨自然語言的語義模糊性。2、傳統(tǒng)的向量空間模型的假設(shè)詞與詞之間是相互獨立的,是一一對應(yīng)的關(guān)系,但在實際情況中,文檔存在著很多一詞多義和同義詞的現(xiàn)象,所以這種假設(shè)難以滿足實際情況。 3、文檔中的詞與詞通常存在著一定關(guān)聯(lián)性,通過簡單的詞匯模式匹配進行語義檢索會降低信息檢索結(jié)果的查準率與查全率,直接應(yīng)用傳統(tǒng)的向量空間模型進行短文本分類難以達到理想的效果[3]。

        三、短文本的Word2Vec模型

        在此基礎(chǔ)上,本文探討采用Word2Vec的詞向量模型+K-means聚類,利用Word2vec淺而雙層的神經(jīng)網(wǎng)絡(luò)重新構(gòu)建給定語料庫的文本,快速有效地將關(guān)鍵詞表達成詞向量,再使用詞向量聚類得到類別關(guān)鍵詞達到理想的短文本分類效果。

        (一)文本預(yù)處理

        首先使用結(jié)巴分詞將獲取的兩千萬條淘寶商品名稱數(shù)據(jù)集進行分詞處理,過濾掉標點符號、停用詞等將文本標準化。由于中文沒有詞形變化,不需要還原詞形、詞綴的轉(zhuǎn)化以及詞性識別。為了準確地分析和表達文本,利用Word2vec將向量化的文本進行特征提取。

        (二)文本向量化

        詞袋模型(Bag of Words)是對文本中的單詞進行統(tǒng)計,簡單說就是統(tǒng)計某個單詞在一個文本中出現(xiàn)的頻率或者次數(shù)。

        (三)特征提取

        Word2vec是一種估算式(Estimator),它采用的是訓(xùn)練商品名稱一系列文檔的重要詞語,形成Word2vec模型,每個詞語的模型映射成一個固定大小的向量。Word2vec模型使用商品名稱中每個詞語的平均數(shù)來將文檔轉(zhuǎn)換為向量,然后通過這個向量我們可以不斷擴散,然后作為預(yù)測電子發(fā)票內(nèi)容的特征,來計算商品名稱的相似度。

        Word2vec模型一般分為CBOW(Continuous Bag-of-Words)和Skip-gram兩種模型。訓(xùn)練CBOW模型的輸入是某一個特征詞上下文相關(guān)的詞對應(yīng)的詞向量,輸出是某特定詞的詞向量。在Skip-gram模型中,每個詞語受到上下文的影響,即利用上下文的預(yù)測結(jié)果,在梯度下降過程中不斷調(diào)整當前詞的詞向量。因此,盡管 Skip-gram 的訓(xùn)練時間相對較長,但在數(shù)據(jù)量較少或生僻詞含量較多的情況下,會使經(jīng)過多次調(diào)整得到的詞向量具有更高的準確度。在缺少報銷具體內(nèi)容領(lǐng)域擴展語料庫的情況下,本文采用Skip-gram模型預(yù)訓(xùn)練商品標題語料得到詞向量。經(jīng)過訓(xùn)練后可以得到每個詞語的詞向量以及詞語之間的余弦相似度。

        四、商品名稱訓(xùn)練

        本文采用淘寶商品名稱數(shù)據(jù),以會計科目作為類別標簽,將提取的關(guān)鍵詞權(quán)重輸入分類器,通過分類結(jié)果的準確率來衡量關(guān)鍵詞提取的有效性。

        五、K-means聚類后分類

        聚類是一種無監(jiān)督的機器學(xué)習(xí),通過將相似的研究對象歸到同一個簇中,利用相似度計算方法將其一一對應(yīng)。K-means聚類算法用于數(shù)據(jù)集K個簇的聚類,K個簇采用事先制作憑證中的會計科目, 每一科目對應(yīng)商品名稱通過其所有點的中心來描述,聚類與前述分類處理算法的最大區(qū)別在于分類的目標類別已知, 但聚類的目標類別是一個未知的,將訓(xùn)練集中的科目對應(yīng)商品名稱按Word2vec模型的計算結(jié)果劃分為k組,獲得的聚類滿足同一聚類中的名稱相似度較高,而不同聚類中的名稱相似度較小。以下是聚類算法的基本步驟:

        1、從訓(xùn)練集的數(shù)據(jù)中選擇k個名稱作為聚類的初始中心;

        2、用每個聚類名稱到聚類中心的距離來劃分類別;

        3、重復(fù)計算每個聚類的中心;

        4、計算標準測度函數(shù),直到達到最大迭代次數(shù)停止,否則從第2步重復(fù)操作。

        結(jié)論

        目前市場中的移動報銷應(yīng)用還無法滿足將報銷內(nèi)容自動分類,為了適應(yīng)新時代科技發(fā)展的需求,各行各業(yè)要想在資金方面提供準確的資金狀況,須采用移動報銷下的短文本自動分類?;诮y(tǒng)計的名稱分類存在大型參數(shù)空間、足夠的訓(xùn)練數(shù)據(jù)、數(shù)據(jù)稀疏等問題。本文利用Word2vec工具集和K-means聚類,探尋一種較為方便的方法對短文本進行文本分類,移動報銷中的短文本分類自動對應(yīng)到會計憑證的分錄可提供準確的資金用途及細目,減少精力投入,提高效率,促進各行各業(yè)的長遠發(fā)展。

        參考文獻

        [1]李昕,文桂江.會計信息處理智能化研究[J].財會通訊,2014(07):90-91.

        [2]楊軍澤.互聯(lián)網(wǎng)環(huán)境下自動化會計確認探討[J].財會通訊,2019(01):104-108.

        [3]徐建國,肖海峰,.基于多示例學(xué)習(xí)框架的文本分類算法[J].計算機工程與設(shè)計,2020,41(04):1017-1023.

        基金項目:國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目,項目編號:201910379018

        作者簡介:李燕萍(2000—)女,安徽省黃山市祁門縣人,本科在讀。

        猜你喜歡
        發(fā)票短文聚類
        電子發(fā)票全面推廣
        基于改進LeNet-5卷積神經(jīng)網(wǎng)絡(luò)的發(fā)票識別研究
        關(guān)于發(fā)票顯示額外費用的分歧
        中國外匯(2019年21期)2019-05-21 03:04:22
        KEYS
        Keys
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于改進的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        短文改錯
        国产偷窥熟女精品视频| 少妇高潮在线精品观看| 亚洲人成人无码www| 国产午夜福利片| 国产内射合集颜射| 人人妻人人澡av| 麻豆视频黄片在线免费观看| 丰满女人猛烈进入视频免费网站| 久久综合亚洲色hezyo国产| 国产精品福利视频一区| 久久综合给合久久狠狠狠9| 粗大挺进孕妇人妻在线| 国产熟女露脸91麻豆| 好吊妞无缓冲视频观看| 一本久久a久久精品亚洲| 亚洲欧洲AV综合色无码| 在线高清亚洲精品二区| av素人中文字幕在线观看| 免费无码毛片一区二区app | 久久HEZYO色综合| 日韩一二三四区在线观看| 亚洲人成网站18禁止| 久久和欧洲码一码二码三码| 亚洲欧洲久久久精品| 亚洲黄色大片在线观看| 精品亚洲天堂一区二区三区| 无码av一区二区大桥久未| 亚洲一区二区三区偷拍女厕| 偷拍激情视频一区二区| 免费看黄片的视频在线观看| 国产欧美一区二区三区在线看| 无码国产精品一区二区vr老人| 亚洲日产国无码| 亚洲中文字幕精品久久a| 亚洲人成网网址在线看| 国产精品卡一卡二卡三| 久久精品国产亚洲av成人擦边| 亚洲视频一区二区免费看| 国产日韩精品欧美一区喷水| 久久欧美与黑人双交男男| 亚洲av噜噜狠狠蜜桃|