亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向稅收條例的知識(shí)圖譜構(gòu)建方法

        2023-05-11 08:58:28鄒安琪陳艷平
        軟件導(dǎo)刊 2023年4期
        關(guān)鍵詞:子圖納稅稅務(wù)

        鄒安琪,陳艷平

        (貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025)

        0 引言

        隨著人工智能、云計(jì)算和大數(shù)據(jù)等新興技術(shù)不斷發(fā)展,稅務(wù)作為國(guó)家經(jīng)濟(jì)的重要組成部分,面臨著稅務(wù)改革和現(xiàn)代化建設(shè)等時(shí)代任務(wù),因此,智慧稅務(wù)應(yīng)運(yùn)而生。在實(shí)際稅收征管中,首先需要專(zhuān)家對(duì)國(guó)家頒布的條例進(jìn)行解讀并制定規(guī)則,然后再由計(jì)算機(jī)工作人員將規(guī)則編寫(xiě)成代碼進(jìn)行稅收計(jì)算。該模式依賴(lài)人工,無(wú)法實(shí)現(xiàn)智慧稅務(wù)中的“智慧”,稅務(wù)領(lǐng)域迫切需要一種能夠自動(dòng)抽取并表示稅收條例所蘊(yùn)含規(guī)則和知識(shí)的方法。由于知識(shí)圖譜結(jié)合了高效的深度學(xué)習(xí)方法,是決策支持、語(yǔ)義搜索、智能問(wèn)答等智能服務(wù)的基礎(chǔ)技術(shù)[1],因而能夠?yàn)樯鲜鰡?wèn)題提供優(yōu)秀的解決方案:通過(guò)知識(shí)圖譜構(gòu)建可以自動(dòng)表征和抽取稅收條例中的規(guī)則及知識(shí),并使用知識(shí)圖譜“解讀”稅收條例。

        本文結(jié)合自然語(yǔ)言處理技術(shù),研究面向稅收條例的稅法知識(shí)表示模型和稅法知識(shí)抽取方法,構(gòu)建面向稅收條例的稅法知識(shí)圖譜。根據(jù)征收條例內(nèi)在知識(shí)結(jié)構(gòu)特征和邏輯關(guān)系,對(duì)稅收條例所蘊(yùn)含的知識(shí)進(jìn)行建模。同時(shí),對(duì)稅務(wù)條例知識(shí)抽取數(shù)據(jù)集進(jìn)行標(biāo)注,設(shè)計(jì)實(shí)現(xiàn)針對(duì)稅務(wù)知識(shí)要素的抽取算法,提出針對(duì)稅法知識(shí)圖譜的自動(dòng)構(gòu)建框架。

        1 相關(guān)工作

        知識(shí)圖譜始于20 世紀(jì)50 年代,可分為3 個(gè)發(fā)展階段[2]:第一階段(1955-1977 年)是知識(shí)圖譜起源階段,引文網(wǎng)絡(luò)分析方法被用于研究現(xiàn)代科學(xué)發(fā)展脈絡(luò);第二階段(1977-2012 年)是知識(shí)圖譜發(fā)展階段,語(yǔ)義網(wǎng)得到快速發(fā)展,“知識(shí)本體”的研究開(kāi)始成為計(jì)算機(jī)科學(xué)重要領(lǐng)域;第三階段(2012 年至今)是知識(shí)圖譜發(fā)展的繁榮階段,2012年谷歌提出Google Knowledge Graph[3],知識(shí)圖譜正式得名。知識(shí)圖譜一經(jīng)提出便引起學(xué)術(shù)界和工業(yè)界廣泛關(guān)注,并成功應(yīng)用于醫(yī)療、金融、公安、教育、社交網(wǎng)絡(luò)、電商等領(lǐng)域,可將其分為通用領(lǐng)域知識(shí)圖譜和垂直領(lǐng)域知識(shí)圖譜。

        在通用領(lǐng)域,國(guó)外對(duì)于知識(shí)圖譜的研究早于國(guó)內(nèi),最具代表性的大規(guī)模通用領(lǐng)域知識(shí)圖譜包括YAGO[4]、DBpedia[5]、Wikidata[6]、Probase[7]、ConceptNet[8]等。國(guó)內(nèi)工業(yè)界和學(xué)術(shù)界也對(duì)通用領(lǐng)域知識(shí)圖譜展開(kāi)了一系列研究,工業(yè)界如百度“知心”、搜狗“知立方”,學(xué)術(shù)界如THUOCL、大詞林、zhishi.me、CN-Probase 等。

        在垂直領(lǐng)域,學(xué)術(shù)界也掀起了知識(shí)圖譜相關(guān)技術(shù)研究高潮,胡芳槐[9]以互聯(lián)網(wǎng)上各類(lèi)結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)為基礎(chǔ),提出基于多種數(shù)據(jù)源的知識(shí)圖譜構(gòu)建方法,構(gòu)建包含數(shù)千萬(wàn)事實(shí)知識(shí)的中文知識(shí)圖譜。李文鵬等[10]針對(duì)4種不同類(lèi)型的軟件資源,基于軟件知識(shí)實(shí)體提取原則,提出軟件知識(shí)圖譜構(gòu)建方法,包括軟件知識(shí)實(shí)體抽取、關(guān)系關(guān)聯(lián)和知識(shí)查詢(xún),并基于此實(shí)現(xiàn)了面向開(kāi)源軟件項(xiàng)目的軟件知識(shí)圖譜構(gòu)建工具,提高了軟件復(fù)用性,有助于軟件開(kāi)發(fā)人員對(duì)軟件知識(shí)進(jìn)行檢索與應(yīng)用。楊玉基等[11]對(duì)領(lǐng)域知識(shí)圖譜構(gòu)建進(jìn)行系統(tǒng)研究,提出領(lǐng)域知識(shí)圖譜快速構(gòu)建方法,并使用該方法以中國(guó)基礎(chǔ)教育的九門(mén)學(xué)科為原始數(shù)據(jù)構(gòu)建了包含67 萬(wàn)個(gè)實(shí)體及1 412 萬(wàn)條事實(shí)的中文學(xué)科知識(shí)圖譜。張?jiān)?2]構(gòu)建了一種半監(jiān)督的知識(shí)挖掘方法,依據(jù)挖掘的醫(yī)療信息構(gòu)建醫(yī)療領(lǐng)域知識(shí)圖譜,針對(duì)醫(yī)療數(shù)據(jù)中結(jié)構(gòu)化知識(shí)缺失問(wèn)題,提出使用Bootstrapping 算法和條件隨機(jī)場(chǎng)對(duì)元數(shù)據(jù)進(jìn)行抽取。王劍輝等[13]通過(guò)分析知網(wǎng)收錄的國(guó)內(nèi)空中交通管理資料,利用知識(shí)圖譜對(duì)空中交通管理知識(shí)進(jìn)行可視化。Arenas 等[14]運(yùn)用DBpedia 數(shù)據(jù)集中IT 領(lǐng)域數(shù)據(jù)資源間的關(guān)系,使用建立關(guān)聯(lián)圖的方法構(gòu)建知識(shí)圖譜,實(shí)現(xiàn)了IT 資源實(shí)體語(yǔ)義查詢(xún)。Karidi 等[15]基于知識(shí)圖譜和圖計(jì)算提出在Twitter 中關(guān)注主題推薦算法,實(shí)現(xiàn)了知識(shí)圖譜在社交網(wǎng)絡(luò)中的應(yīng)用研究。洪文興等[16]基于中文預(yù)訓(xùn)練語(yǔ)言模型,對(duì)知識(shí)圖譜構(gòu)建過(guò)程中的信息抽取算法進(jìn)行研究,其中包括命名實(shí)體識(shí)別和關(guān)系抽取,并以此實(shí)現(xiàn)了司法案件案情知識(shí)圖譜自動(dòng)構(gòu)建。

        目前,知識(shí)圖譜在司法、生物醫(yī)療、金融風(fēng)控和電子商務(wù)等特定領(lǐng)域有著廣泛應(yīng)用,但在涉稅領(lǐng)域方面鮮有研究。稅務(wù)領(lǐng)域作為國(guó)家經(jīng)濟(jì)重要組成部分,稅務(wù)智能化建設(shè)與每個(gè)人息息相關(guān),構(gòu)建基于智慧稅務(wù)的知識(shí)圖譜迫在眉睫。

        2 稅收條例知識(shí)建模

        在構(gòu)建稅收條例知識(shí)圖譜前,需對(duì)構(gòu)建圖譜的原始數(shù)據(jù)進(jìn)行分析,得到知識(shí)圖譜建模數(shù)據(jù)形態(tài),并說(shuō)明知識(shí)圖譜要素的知識(shí)類(lèi)型,定義知識(shí)圖譜結(jié)構(gòu)模型。

        2.1 稅收條例知識(shí)子圖

        對(duì)稅收條例進(jìn)行人工分析并與稅務(wù)領(lǐng)域?qū)<疫M(jìn)行討論,發(fā)現(xiàn)稅收條例文本詞匯專(zhuān)業(yè)性強(qiáng)、可讀性差,具有語(yǔ)言表達(dá)規(guī)范、語(yǔ)義明確、知識(shí)較為結(jié)構(gòu)化、邏輯性強(qiáng)等特點(diǎn)。

        傳統(tǒng)知識(shí)圖譜只對(duì)涉及到的實(shí)體類(lèi)型和關(guān)系類(lèi)型進(jìn)行預(yù)定義,這種建模方式無(wú)法完全將稅收條例中蘊(yùn)含的語(yǔ)義內(nèi)涵和知識(shí)結(jié)構(gòu)表示出來(lái),但稅收條例存在明顯語(yǔ)義結(jié)構(gòu),為此提出稅收條例知識(shí)子圖建模具體涉稅措施,通常將一個(gè)稅收條例轉(zhuǎn)化為一個(gè)子圖,如圖1所示。

        Fig.1 Tax regulations knowledge subgraph圖1 稅收條例知識(shí)子圖

        2.2 稅收條例知識(shí)要素

        稅收條例知識(shí)子圖是以納稅人為根節(jié)點(diǎn)、具體涉稅措施為終結(jié)點(diǎn)的有向無(wú)環(huán)圖。其內(nèi)部結(jié)構(gòu)鮮明,包含9 種知識(shí)要素和5種要素關(guān)系,知識(shí)要素如表1所示。

        Table 1 Types of knowledge elements of tax regulations表1 稅收條例知識(shí)要素類(lèi)型

        稅收條例知識(shí)子圖包含納稅主體、納稅對(duì)象、納稅行為、納稅客體、主體修飾、行為修飾、對(duì)象修飾及時(shí)間。其中,修飾要素通常是對(duì)主體、對(duì)象、行為進(jìn)行修飾限定,例如表1 中的“二手車(chē)經(jīng)銷(xiāo)”與“從事”結(jié)合起來(lái)對(duì)納稅主體“納稅人”進(jìn)行修飾。修飾要素用于對(duì)納稅主體、納稅對(duì)象及納稅行為進(jìn)行限定,對(duì)條例邏輯和知識(shí)結(jié)構(gòu)更好地進(jìn)行刻畫(huà)。時(shí)間用于對(duì)條例有效日期作出描述。除知識(shí)要素外,根據(jù)知識(shí)表示方法定義的6種關(guān)系如表2所示。

        Table 2 Six relationships defined according to the knowledge representation method表2 根據(jù)知識(shí)表示方法定義的6種關(guān)系

        2.3 稅收條例知識(shí)圖譜及操作

        稅收條例知識(shí)圖譜以納稅人源節(jié)點(diǎn)為中心節(jié)點(diǎn),由稅收條例知識(shí)子圖構(gòu)成知識(shí)圖譜。該知識(shí)圖譜并非子圖的簡(jiǎn)單拼接,向圖譜中添加子圖時(shí),需判斷待添加稅法分面樹(shù)和已有稅法分面樹(shù)間的語(yǔ)義關(guān)系。為此,定義基于知識(shí)圖譜的操作如下:

        (1)查詢(xún)子圖。查詢(xún)符合條件的知識(shí)子圖,判斷其是否存在。查詢(xún)操作是其他操作的基礎(chǔ),是分面樹(shù)進(jìn)行添加、更新、刪除等操作的前提條件。

        (2)添加子圖。添加某一子圖,添加前應(yīng)先判斷該分面樹(shù)是否已存在,添加后,知識(shí)圖譜中會(huì)新增一個(gè)子圖。

        (3)更新子圖。若添加子圖前發(fā)現(xiàn)該子圖已存在,則更新分面樹(shù)。更新操作可能存在合并、拆分子圖的情況。

        (4)刪除子圖。對(duì)知識(shí)圖譜中符合條件的知識(shí)子圖執(zhí)行刪除操作,查詢(xún)當(dāng)前知識(shí)圖譜,若存在同待刪知識(shí)子圖語(yǔ)義相同的子圖,則執(zhí)行刪除操作。

        3 基于BERT的稅收條例要素抽取

        稅收條例知識(shí)要素抽取采用命名實(shí)體識(shí)別方法,對(duì)句子中每個(gè)字預(yù)測(cè)一個(gè)分類(lèi)標(biāo)簽,從而判斷該字在要素中的語(yǔ)義角色。在B-I-O 編碼中,B(Beginning)表示該字對(duì)應(yīng)一個(gè)要素的開(kāi)始,I(Inside)表示要素的后續(xù),O(Outside)表示不屬于該要素。為保證建模標(biāo)簽間的語(yǔ)義依賴(lài)關(guān)系,現(xiàn)有要素識(shí)別方法主要采用序列標(biāo)注模型輸出一條最大化標(biāo)注路徑,從而建立句子中知識(shí)要素間的語(yǔ)義依賴(lài)信息。

        傳統(tǒng)基于Word2vec 的序列標(biāo)注模型無(wú)法表征上下文關(guān)系,一個(gè)詞只包含一個(gè)詞向量。本文在BiLSTM-CRF 模型基礎(chǔ)上,引入基于BERT 的預(yù)訓(xùn)練語(yǔ)言模型,構(gòu)建BERT-BiLSTM-CRF 稅收條例要素抽取模型,結(jié)構(gòu)如圖2所示。

        Fig.2 Element extraction model of tax regulations based on BERT圖2 基于BERT的稅收條例要素抽取模型

        模型整體可劃分為三大網(wǎng)絡(luò)層:第一層是嵌入層,利用BERT 預(yù)訓(xùn)練語(yǔ)言模型對(duì)句子進(jìn)行嵌入生成融合上下文語(yǔ)義信息的字符向量表示;第二層是BiLSTM 層,對(duì)BERT輸出的字符向量表示進(jìn)行編碼及解碼,有效獲取字符序列的長(zhǎng)距離依賴(lài);第三層是CRF 層,對(duì)上層輸出解碼,學(xué)習(xí)標(biāo)簽間約束關(guān)系并輸出最大化標(biāo)注序列。

        3.1 嵌入層

        BERT 模型在嵌入層對(duì)輸入的條例依次進(jìn)行詞嵌入、段落嵌入和位置信息嵌入[17]。詞嵌入對(duì)輸入的文本進(jìn)行分詞處理,將每一個(gè)token 轉(zhuǎn)換為固定維度的向量表示;段落嵌入是用[CLS]和[SEP]特殊符號(hào)分割句子中的token,并以0/1 下標(biāo)做區(qū)分進(jìn)行嵌入。由于BERT 可以處理長(zhǎng)度為512 的句子,故以0-512 區(qū)分每個(gè)字的位置,以此學(xué)習(xí)每個(gè)位置的向量表示,得到包含輸入序列順序特征的位置嵌入。3 種嵌入表示疊加輸入后,BERT 采用Transformer 對(duì)輸出向量進(jìn)行特征提取。給定條例1 的文本輸入為{w1,w2,w3,...,wn},經(jīng)過(guò)BERT 嵌入層得到帶有上下文語(yǔ)義信息的向量表示為{x1,x2,x3,...,xn},其中n代表句子長(zhǎng)度。

        3.2 BiLSTM 層

        BiLSTM 指雙向長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò),在解決長(zhǎng)距離序列依賴(lài)方面較為優(yōu)秀,并解決了LSTM 只能獲取單向語(yǔ)義信息的問(wèn)題,LSTM 單元通過(guò)門(mén)控機(jī)制以控制信息取舍。

        每個(gè)LSTM 單元中包含輸入門(mén)it、輸出門(mén)ot和遺忘門(mén)ft,BERT 嵌入得到字符分布式表示為x={x1,x2,x3,...,xn},t 時(shí)刻的輸入包括xt與ht-1,ct和ct-1表示記憶單元,ct-1通過(guò)遺忘門(mén)摒棄部分歷史信息,結(jié)合輸入門(mén)新加入的信息得到ct,利用輸出門(mén)計(jì)算得到當(dāng)前時(shí)刻ht,其計(jì)算過(guò)程如式(1)。

        3.3 CRF層

        CRF 作為解碼層,用于學(xué)習(xí)標(biāo)簽間的約束關(guān)系,解決標(biāo)簽不合理問(wèn)題。BiLSTM 的輸出將句子表示映射到與句子字符對(duì)應(yīng)的標(biāo)簽概率矩陣P,其中Pij表示句中第i個(gè)字符對(duì)應(yīng)標(biāo)簽是j的概率,而CRF 主要是學(xué)習(xí)標(biāo)簽間的轉(zhuǎn)移矩陣A,其中Ai,j表示i標(biāo)簽后接j標(biāo)簽的概率。

        對(duì)于經(jīng)過(guò)BiSLTM 特征抽取后得到的隱狀態(tài)輸出H(h1,h2,...,hn),其對(duì)應(yīng)標(biāo)簽序列為Y(y1,y2,...,yn),得分函數(shù)可定義為式(3)。

        其中,S表示全部句子集合,Hs表示句子s經(jīng)過(guò)BERT和BiLSTM 的隱狀態(tài)輸出,Ys表示句子s對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽序列。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 數(shù)據(jù)集

        為構(gòu)建稅務(wù)征收條例知識(shí)圖譜,本文選用國(guó)家稅務(wù)總局和各地稅務(wù)局官網(wǎng)政策庫(kù)自1984 年以來(lái)發(fā)布的各項(xiàng)稅務(wù)征收條例作為數(shù)據(jù)集。采用BIO 格式對(duì)稅收條例知識(shí)建模方法提及的要素進(jìn)行標(biāo)注,最終得到Tax 數(shù)據(jù)集。以8∶1∶1 的比例對(duì)數(shù)據(jù)集進(jìn)行劃分得到訓(xùn)練集、驗(yàn)證集和測(cè)試集。稅收條例知識(shí)要素類(lèi)型和數(shù)據(jù)統(tǒng)計(jì)信息如表3所示。

        為證明本文模型的可擴(kuò)展性,除在本文標(biāo)注的Tax 數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn)外,還選取了兩個(gè)中文基準(zhǔn)數(shù)據(jù)集MSRA和Weibo[18]進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集統(tǒng)計(jì)信息如表4所示。

        4.2 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)指標(biāo)

        本實(shí)驗(yàn)基于Tensorflow 深度學(xué)習(xí)框架,在Linux 系統(tǒng)下的Nvidia Tesla P40 平臺(tái)上進(jìn)行模型訓(xùn)練。主要參數(shù)包括:最大句子長(zhǎng)度為300,batch_size 為64,學(xué)習(xí)率為0.000 5,優(yōu)化器采用Adam[18],drop_out 為0.5;為緩解梯度消失和爆炸的影響,LSTM 隱含單元設(shè)為128,層數(shù)為2;經(jīng)過(guò)預(yù)訓(xùn)練模型對(duì)比實(shí)驗(yàn)后,選取更加適用于本文抽取任務(wù)的RoBER-Ta-wwm-ext[19]模型,該模型包含了包含12 個(gè)Transformer,預(yù)訓(xùn)練詞向量維度為768。本文采用P 值、R 值和F1值作為評(píng)價(jià)指標(biāo),F(xiàn)1值使用微平均計(jì)算,具體計(jì)算公式如式(6)。

        Table 3 Statistics of element number of Tax dataset表3 Tax數(shù)據(jù)集要素?cái)?shù)量統(tǒng)計(jì)

        Table 4 Statistical of universal datasets表4 通用數(shù)據(jù)集統(tǒng)計(jì)

        其中,TP 表示預(yù)測(cè)要素是正確識(shí)別的個(gè)數(shù);FP 表示預(yù)測(cè)要素是錯(cuò)誤識(shí)別的個(gè)數(shù);FN 表示標(biāo)準(zhǔn)標(biāo)注要素被錯(cuò)誤識(shí)別的個(gè)數(shù)。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        為證明本模型性能,采用BiLSTM-CRF、BERT-CRF 這兩種模型作為對(duì)比模型。具體實(shí)驗(yàn)性能如表5所示。

        Table 5 Knowledge element extraction model performance表5 知識(shí)要素抽取模型性能

        將本文模型與序列標(biāo)注經(jīng)典基線(xiàn)模型BiLSTM+CRF進(jìn)行對(duì)比,3 個(gè)指標(biāo)均大幅提升,準(zhǔn)確率提升10.03%,召回率提升11.47%,F(xiàn)1 值提升11.15%。說(shuō)明在稅務(wù)領(lǐng)域,BERT 預(yù)訓(xùn)練模型詞向量較于傳統(tǒng)Word2vec 模型訓(xùn)練的靜態(tài)詞向量在表達(dá)字的語(yǔ)義信息和有效提取上下文特征方面表現(xiàn)更佳,證實(shí)了本文模型在稅務(wù)領(lǐng)域要素抽取任務(wù)上可行。

        將BERT+BiLSTM+CRF 模型與BERT+CRF 模型進(jìn)行對(duì)比,兩個(gè)模型間的區(qū)別在于BiLSTM 層,從結(jié)果上看召回率降低了,但準(zhǔn)確率提高2.1%,F(xiàn)1 值提高2.44%,證明BiLSTM 在獲取句子的長(zhǎng)距離語(yǔ)義依賴(lài)方面具有一定優(yōu)勢(shì)。

        在通用數(shù)據(jù)集MRSA 上實(shí)體類(lèi)型少,識(shí)別較為容易,3個(gè)模型F1值均達(dá)到90%以上,BERT-BiLSTM-CRF 模型相較于BiLSTM-CRF 模型各項(xiàng)指標(biāo)均提高5%以上,但與BERT-CRF 模型相比,性能提升不大。在更具挑戰(zhàn)性的數(shù)據(jù)集Weibo 中,本文模型各項(xiàng)指標(biāo)較基線(xiàn)模型BiLSTM 提升17%以上,在BERT-CRF 模型上的提升比MSRA 數(shù)據(jù)集更大,表明本文方法具有一定擴(kuò)展性。

        為驗(yàn)證各種中文預(yù)訓(xùn)練語(yǔ)言模型性能,在本文模型結(jié)構(gòu)下選取BERT-base[17]、BERT-wwm[19]、Roformer[20]、Ro-BERTa-wwm-ext[19]等BERT 模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)性能如表6所示。

        BERT 系列模型明顯優(yōu)于Roformer,表明BERT 系列模型更適用于本文抽取任務(wù)。BERT-wwm 作為BERT 升級(jí)版,引入了全詞MASK,實(shí)驗(yàn)表明,模型在準(zhǔn)確率(P)和召回率(R)上略?xún)?yōu)于BERT-base,F(xiàn)1指標(biāo)性能幾乎接近。

        由于RoBERTa-wwm-ext 訓(xùn)練數(shù)據(jù)量大和特殊設(shè)計(jì)的MASK 方式,各項(xiàng)指標(biāo)均明顯優(yōu)于其他對(duì)比預(yù)訓(xùn)練模型。

        Table 6 Pre-training model extraction performance表6 預(yù)訓(xùn)練模型抽取性能

        5 稅收條例知識(shí)圖譜自動(dòng)構(gòu)建

        本文基于上述稅收要素抽取模型,實(shí)現(xiàn)了面向稅收條例的知識(shí)圖譜自動(dòng)構(gòu)建,構(gòu)建流程如下:

        (1)知識(shí)要素抽取。給定一條稅務(wù)條文,采用基于BERT 的稅收條例要素抽取模型對(duì)稅務(wù)征收條例進(jìn)行要素識(shí)別,得到知識(shí)要素?cái)?shù)據(jù)列表List1。

        (2)結(jié)構(gòu)組合。由于稅法分面樹(shù)的各部分組成詞較為固定,將要素按<納稅主體-主體修飾>、<納稅主體-納稅對(duì)象>、<納稅對(duì)象-對(duì)象修飾>、<稅種-納稅對(duì)象>、<納稅行為-行為修飾><納稅行為-稅種>進(jìn)行組合得到數(shù)據(jù)列表List2。

        對(duì)List2中的各類(lèi)二元組組合,利用表2 中的預(yù)定義關(guān)系類(lèi)型進(jìn)行關(guān)系拼接,形成最后的關(guān)系數(shù)據(jù)列表List3。此列表包含:要素1 及其要素類(lèi)別、要素2 及其要素類(lèi)別,從而得到三元組,對(duì)三元組進(jìn)行拼接得到稅收條例知識(shí)子圖。

        (3)稅收條例知識(shí)圖譜構(gòu)建。利用子圖中的納稅人源節(jié)點(diǎn)進(jìn)行融合得到知識(shí)圖譜。子圖融合之前進(jìn)行定義的查詢(xún)子圖操作,利用文本匹配方法在條例庫(kù)中進(jìn)行匹配,若有沖突則執(zhí)行子圖更新操作,更新知識(shí)圖譜中的知識(shí)子圖;若無(wú)沖突則進(jìn)行添加子圖操作。通過(guò)上述操作融合知識(shí)子圖得到知識(shí)圖譜。

        (4)可視化展示。將獲取的知識(shí)圖譜以數(shù)據(jù)形式進(jìn)行結(jié)構(gòu)化存儲(chǔ),利用Echarts 結(jié)合Vue.js 開(kāi)發(fā)的知識(shí)圖譜可視化工具,以導(dǎo)向圖形式對(duì)稅收條例知識(shí)進(jìn)行可視化展示,如圖3所示。

        Fig.3 Visual display of tax regulations knowledge graph圖3 稅收條例知識(shí)圖譜可視化展示

        6 結(jié)語(yǔ)

        本文面向稅務(wù)征收條例數(shù)據(jù)研究知識(shí)圖譜構(gòu)建方法,針對(duì)知識(shí)圖譜構(gòu)建需求,提出面向稅收條例的知識(shí)建模方法,準(zhǔn)確且適當(dāng)?shù)乇硎玖硕愂諚l例中蘊(yùn)含的知識(shí)。同時(shí),針對(duì)稅收條例的數(shù)據(jù)特點(diǎn),設(shè)計(jì)基于BERT 的稅收條例知識(shí)要素抽取模型,在本文標(biāo)注的Tax 數(shù)據(jù)集上展現(xiàn)出其優(yōu)秀性能,并通過(guò)對(duì)比實(shí)驗(yàn)選取適合本文任務(wù)的中文預(yù)訓(xùn)練語(yǔ)言模型。在通用數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)也展現(xiàn)了較好性能,證明該模型適用于稅務(wù)知識(shí)抽取任務(wù),且在通用領(lǐng)域具有一定擴(kuò)展性。最后,基于知識(shí)要素抽取模型,提出了知識(shí)圖譜自動(dòng)構(gòu)建流程,實(shí)現(xiàn)了面向稅收條例知識(shí)圖譜的構(gòu)建。

        為構(gòu)建質(zhì)量更高的知識(shí)圖譜,后續(xù)研究將收集更多稅收條例數(shù)據(jù)進(jìn)行人工標(biāo)注,增加數(shù)據(jù)量以提升知識(shí)要素抽取性能。知識(shí)建模中要素分類(lèi)粒度較粗,并不能完全涵蓋所有領(lǐng)域知識(shí)概念,后續(xù)將繼續(xù)補(bǔ)充相關(guān)領(lǐng)域知識(shí),完善知識(shí)建模方法。

        猜你喜歡
        子圖納稅稅務(wù)
        稅務(wù)動(dòng)態(tài)
        個(gè)人獨(dú)資企業(yè)對(duì)外投資的稅務(wù)與會(huì)計(jì)處理
        論投資性房地產(chǎn)的會(huì)計(jì)核算及稅務(wù)處理
        提升稅務(wù)干部的學(xué)習(xí)力
        建筑企業(yè)實(shí)施納稅籌劃的幾點(diǎn)思考
        臨界完全圖Ramsey數(shù)
        基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
        適應(yīng)納稅新常態(tài) 樹(shù)立為民新理念
        從業(yè)人員給企業(yè)帶來(lái)的納稅困擾——以一個(gè)火力發(fā)電企業(yè)為例
        不含2K1+K2和C4作為導(dǎo)出子圖的圖的色數(shù)
        宅男视频一区二区三区在线观看 | 亚洲AV日韩AV永久无码电影| 国产精品欧美韩国日本久久| 在线小黄片视频免费播放| 国产精品美女久久久网av| 久久国产热这里只有精品| 91视频爱爱| 国产风骚主播视频一区二区| 精品国产粉嫩内射白浆内射双马尾| 国产午夜精品一区二区三区软件| 国产成人精品三级在线影院| 男女动态视频99精品| 18禁在线永久免费观看| 国产自偷自偷免费一区| 日韩欧美在线观看成人| 久久精品亚洲热综合一本色婷婷| 免费观看a级片| 久久夜色撩人精品国产小说| 久久91精品国产91久久麻豆 | 欧美日韩一区二区三区自拍| 午夜影院91| 精品综合久久88少妇激情| 国产亚洲精品精品精品| 伊人久久大香线蕉免费视频| 视频福利一区二区三区| av天堂精品久久综合网| 中文无码乱人伦中文视频在线v| 亚洲成人av一区二区三区| 日韩精品国产精品亚洲毛片| 色综合av综合无码综合网站| 国产成人精品电影在线观看18| 亚洲美女主播一区二区| 性人久久久久| 亚洲欧美日韩一区二区三区在线| 国产精品女丝袜白丝袜| 国产亚洲精品视频一区二区三区| 亚洲av无码国产精品色软件下戴| 久久久综合九色合综国产| 国产极品大秀在线性色| 国产内射爽爽大片视频社区在线 | 最近中文字幕完整版免费|