亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向稅收條例的知識圖譜構建方法

        2023-05-11 08:58:28鄒安琪陳艷平
        軟件導刊 2023年4期
        關鍵詞:語義模型

        鄒安琪,陳艷平

        (貴州大學 計算機科學與技術學院,貴州 貴陽 550025)

        0 引言

        隨著人工智能、云計算和大數(shù)據(jù)等新興技術不斷發(fā)展,稅務作為國家經(jīng)濟的重要組成部分,面臨著稅務改革和現(xiàn)代化建設等時代任務,因此,智慧稅務應運而生。在實際稅收征管中,首先需要專家對國家頒布的條例進行解讀并制定規(guī)則,然后再由計算機工作人員將規(guī)則編寫成代碼進行稅收計算。該模式依賴人工,無法實現(xiàn)智慧稅務中的“智慧”,稅務領域迫切需要一種能夠自動抽取并表示稅收條例所蘊含規(guī)則和知識的方法。由于知識圖譜結合了高效的深度學習方法,是決策支持、語義搜索、智能問答等智能服務的基礎技術[1],因而能夠為上述問題提供優(yōu)秀的解決方案:通過知識圖譜構建可以自動表征和抽取稅收條例中的規(guī)則及知識,并使用知識圖譜“解讀”稅收條例。

        本文結合自然語言處理技術,研究面向稅收條例的稅法知識表示模型和稅法知識抽取方法,構建面向稅收條例的稅法知識圖譜。根據(jù)征收條例內(nèi)在知識結構特征和邏輯關系,對稅收條例所蘊含的知識進行建模。同時,對稅務條例知識抽取數(shù)據(jù)集進行標注,設計實現(xiàn)針對稅務知識要素的抽取算法,提出針對稅法知識圖譜的自動構建框架。

        1 相關工作

        知識圖譜始于20 世紀50 年代,可分為3 個發(fā)展階段[2]:第一階段(1955-1977 年)是知識圖譜起源階段,引文網(wǎng)絡分析方法被用于研究現(xiàn)代科學發(fā)展脈絡;第二階段(1977-2012 年)是知識圖譜發(fā)展階段,語義網(wǎng)得到快速發(fā)展,“知識本體”的研究開始成為計算機科學重要領域;第三階段(2012 年至今)是知識圖譜發(fā)展的繁榮階段,2012年谷歌提出Google Knowledge Graph[3],知識圖譜正式得名。知識圖譜一經(jīng)提出便引起學術界和工業(yè)界廣泛關注,并成功應用于醫(yī)療、金融、公安、教育、社交網(wǎng)絡、電商等領域,可將其分為通用領域知識圖譜和垂直領域知識圖譜。

        在通用領域,國外對于知識圖譜的研究早于國內(nèi),最具代表性的大規(guī)模通用領域知識圖譜包括YAGO[4]、DBpedia[5]、Wikidata[6]、Probase[7]、ConceptNet[8]等。國內(nèi)工業(yè)界和學術界也對通用領域知識圖譜展開了一系列研究,工業(yè)界如百度“知心”、搜狗“知立方”,學術界如THUOCL、大詞林、zhishi.me、CN-Probase 等。

        在垂直領域,學術界也掀起了知識圖譜相關技術研究高潮,胡芳槐[9]以互聯(lián)網(wǎng)上各類結構化、半結構化數(shù)據(jù)為基礎,提出基于多種數(shù)據(jù)源的知識圖譜構建方法,構建包含數(shù)千萬事實知識的中文知識圖譜。李文鵬等[10]針對4種不同類型的軟件資源,基于軟件知識實體提取原則,提出軟件知識圖譜構建方法,包括軟件知識實體抽取、關系關聯(lián)和知識查詢,并基于此實現(xiàn)了面向開源軟件項目的軟件知識圖譜構建工具,提高了軟件復用性,有助于軟件開發(fā)人員對軟件知識進行檢索與應用。楊玉基等[11]對領域知識圖譜構建進行系統(tǒng)研究,提出領域知識圖譜快速構建方法,并使用該方法以中國基礎教育的九門學科為原始數(shù)據(jù)構建了包含67 萬個實體及1 412 萬條事實的中文學科知識圖譜。張元博[12]構建了一種半監(jiān)督的知識挖掘方法,依據(jù)挖掘的醫(yī)療信息構建醫(yī)療領域知識圖譜,針對醫(yī)療數(shù)據(jù)中結構化知識缺失問題,提出使用Bootstrapping 算法和條件隨機場對元數(shù)據(jù)進行抽取。王劍輝等[13]通過分析知網(wǎng)收錄的國內(nèi)空中交通管理資料,利用知識圖譜對空中交通管理知識進行可視化。Arenas 等[14]運用DBpedia 數(shù)據(jù)集中IT 領域數(shù)據(jù)資源間的關系,使用建立關聯(lián)圖的方法構建知識圖譜,實現(xiàn)了IT 資源實體語義查詢。Karidi 等[15]基于知識圖譜和圖計算提出在Twitter 中關注主題推薦算法,實現(xiàn)了知識圖譜在社交網(wǎng)絡中的應用研究。洪文興等[16]基于中文預訓練語言模型,對知識圖譜構建過程中的信息抽取算法進行研究,其中包括命名實體識別和關系抽取,并以此實現(xiàn)了司法案件案情知識圖譜自動構建。

        目前,知識圖譜在司法、生物醫(yī)療、金融風控和電子商務等特定領域有著廣泛應用,但在涉稅領域方面鮮有研究。稅務領域作為國家經(jīng)濟重要組成部分,稅務智能化建設與每個人息息相關,構建基于智慧稅務的知識圖譜迫在眉睫。

        2 稅收條例知識建模

        在構建稅收條例知識圖譜前,需對構建圖譜的原始數(shù)據(jù)進行分析,得到知識圖譜建模數(shù)據(jù)形態(tài),并說明知識圖譜要素的知識類型,定義知識圖譜結構模型。

        2.1 稅收條例知識子圖

        對稅收條例進行人工分析并與稅務領域專家進行討論,發(fā)現(xiàn)稅收條例文本詞匯專業(yè)性強、可讀性差,具有語言表達規(guī)范、語義明確、知識較為結構化、邏輯性強等特點。

        傳統(tǒng)知識圖譜只對涉及到的實體類型和關系類型進行預定義,這種建模方式無法完全將稅收條例中蘊含的語義內(nèi)涵和知識結構表示出來,但稅收條例存在明顯語義結構,為此提出稅收條例知識子圖建模具體涉稅措施,通常將一個稅收條例轉化為一個子圖,如圖1所示。

        Fig.1 Tax regulations knowledge subgraph圖1 稅收條例知識子圖

        2.2 稅收條例知識要素

        稅收條例知識子圖是以納稅人為根節(jié)點、具體涉稅措施為終結點的有向無環(huán)圖。其內(nèi)部結構鮮明,包含9 種知識要素和5種要素關系,知識要素如表1所示。

        Table 1 Types of knowledge elements of tax regulations表1 稅收條例知識要素類型

        稅收條例知識子圖包含納稅主體、納稅對象、納稅行為、納稅客體、主體修飾、行為修飾、對象修飾及時間。其中,修飾要素通常是對主體、對象、行為進行修飾限定,例如表1 中的“二手車經(jīng)銷”與“從事”結合起來對納稅主體“納稅人”進行修飾。修飾要素用于對納稅主體、納稅對象及納稅行為進行限定,對條例邏輯和知識結構更好地進行刻畫。時間用于對條例有效日期作出描述。除知識要素外,根據(jù)知識表示方法定義的6種關系如表2所示。

        Table 2 Six relationships defined according to the knowledge representation method表2 根據(jù)知識表示方法定義的6種關系

        2.3 稅收條例知識圖譜及操作

        稅收條例知識圖譜以納稅人源節(jié)點為中心節(jié)點,由稅收條例知識子圖構成知識圖譜。該知識圖譜并非子圖的簡單拼接,向圖譜中添加子圖時,需判斷待添加稅法分面樹和已有稅法分面樹間的語義關系。為此,定義基于知識圖譜的操作如下:

        (1)查詢子圖。查詢符合條件的知識子圖,判斷其是否存在。查詢操作是其他操作的基礎,是分面樹進行添加、更新、刪除等操作的前提條件。

        (2)添加子圖。添加某一子圖,添加前應先判斷該分面樹是否已存在,添加后,知識圖譜中會新增一個子圖。

        (3)更新子圖。若添加子圖前發(fā)現(xiàn)該子圖已存在,則更新分面樹。更新操作可能存在合并、拆分子圖的情況。

        (4)刪除子圖。對知識圖譜中符合條件的知識子圖執(zhí)行刪除操作,查詢當前知識圖譜,若存在同待刪知識子圖語義相同的子圖,則執(zhí)行刪除操作。

        3 基于BERT的稅收條例要素抽取

        稅收條例知識要素抽取采用命名實體識別方法,對句子中每個字預測一個分類標簽,從而判斷該字在要素中的語義角色。在B-I-O 編碼中,B(Beginning)表示該字對應一個要素的開始,I(Inside)表示要素的后續(xù),O(Outside)表示不屬于該要素。為保證建模標簽間的語義依賴關系,現(xiàn)有要素識別方法主要采用序列標注模型輸出一條最大化標注路徑,從而建立句子中知識要素間的語義依賴信息。

        傳統(tǒng)基于Word2vec 的序列標注模型無法表征上下文關系,一個詞只包含一個詞向量。本文在BiLSTM-CRF 模型基礎上,引入基于BERT 的預訓練語言模型,構建BERT-BiLSTM-CRF 稅收條例要素抽取模型,結構如圖2所示。

        Fig.2 Element extraction model of tax regulations based on BERT圖2 基于BERT的稅收條例要素抽取模型

        模型整體可劃分為三大網(wǎng)絡層:第一層是嵌入層,利用BERT 預訓練語言模型對句子進行嵌入生成融合上下文語義信息的字符向量表示;第二層是BiLSTM 層,對BERT輸出的字符向量表示進行編碼及解碼,有效獲取字符序列的長距離依賴;第三層是CRF 層,對上層輸出解碼,學習標簽間約束關系并輸出最大化標注序列。

        3.1 嵌入層

        BERT 模型在嵌入層對輸入的條例依次進行詞嵌入、段落嵌入和位置信息嵌入[17]。詞嵌入對輸入的文本進行分詞處理,將每一個token 轉換為固定維度的向量表示;段落嵌入是用[CLS]和[SEP]特殊符號分割句子中的token,并以0/1 下標做區(qū)分進行嵌入。由于BERT 可以處理長度為512 的句子,故以0-512 區(qū)分每個字的位置,以此學習每個位置的向量表示,得到包含輸入序列順序特征的位置嵌入。3 種嵌入表示疊加輸入后,BERT 采用Transformer 對輸出向量進行特征提取。給定條例1 的文本輸入為{w1,w2,w3,...,wn},經(jīng)過BERT 嵌入層得到帶有上下文語義信息的向量表示為{x1,x2,x3,...,xn},其中n代表句子長度。

        3.2 BiLSTM 層

        BiLSTM 指雙向長短記憶神經(jīng)網(wǎng)絡,在解決長距離序列依賴方面較為優(yōu)秀,并解決了LSTM 只能獲取單向語義信息的問題,LSTM 單元通過門控機制以控制信息取舍。

        每個LSTM 單元中包含輸入門it、輸出門ot和遺忘門ft,BERT 嵌入得到字符分布式表示為x={x1,x2,x3,...,xn},t 時刻的輸入包括xt與ht-1,ct和ct-1表示記憶單元,ct-1通過遺忘門摒棄部分歷史信息,結合輸入門新加入的信息得到ct,利用輸出門計算得到當前時刻ht,其計算過程如式(1)。

        3.3 CRF層

        CRF 作為解碼層,用于學習標簽間的約束關系,解決標簽不合理問題。BiLSTM 的輸出將句子表示映射到與句子字符對應的標簽概率矩陣P,其中Pij表示句中第i個字符對應標簽是j的概率,而CRF 主要是學習標簽間的轉移矩陣A,其中Ai,j表示i標簽后接j標簽的概率。

        對于經(jīng)過BiSLTM 特征抽取后得到的隱狀態(tài)輸出H(h1,h2,...,hn),其對應標簽序列為Y(y1,y2,...,yn),得分函數(shù)可定義為式(3)。

        其中,S表示全部句子集合,Hs表示句子s經(jīng)過BERT和BiLSTM 的隱狀態(tài)輸出,Ys表示句子s對應的預測標簽序列。

        4 實驗及結果分析

        4.1 數(shù)據(jù)集

        為構建稅務征收條例知識圖譜,本文選用國家稅務總局和各地稅務局官網(wǎng)政策庫自1984 年以來發(fā)布的各項稅務征收條例作為數(shù)據(jù)集。采用BIO 格式對稅收條例知識建模方法提及的要素進行標注,最終得到Tax 數(shù)據(jù)集。以8∶1∶1 的比例對數(shù)據(jù)集進行劃分得到訓練集、驗證集和測試集。稅收條例知識要素類型和數(shù)據(jù)統(tǒng)計信息如表3所示。

        為證明本文模型的可擴展性,除在本文標注的Tax 數(shù)據(jù)集上開展實驗外,還選取了兩個中文基準數(shù)據(jù)集MSRA和Weibo[18]進行實驗,數(shù)據(jù)集統(tǒng)計信息如表4所示。

        4.2 實驗設置與評價指標

        本實驗基于Tensorflow 深度學習框架,在Linux 系統(tǒng)下的Nvidia Tesla P40 平臺上進行模型訓練。主要參數(shù)包括:最大句子長度為300,batch_size 為64,學習率為0.000 5,優(yōu)化器采用Adam[18],drop_out 為0.5;為緩解梯度消失和爆炸的影響,LSTM 隱含單元設為128,層數(shù)為2;經(jīng)過預訓練模型對比實驗后,選取更加適用于本文抽取任務的RoBER-Ta-wwm-ext[19]模型,該模型包含了包含12 個Transformer,預訓練詞向量維度為768。本文采用P 值、R 值和F1值作為評價指標,F(xiàn)1值使用微平均計算,具體計算公式如式(6)。

        Table 3 Statistics of element number of Tax dataset表3 Tax數(shù)據(jù)集要素數(shù)量統(tǒng)計

        Table 4 Statistical of universal datasets表4 通用數(shù)據(jù)集統(tǒng)計

        其中,TP 表示預測要素是正確識別的個數(shù);FP 表示預測要素是錯誤識別的個數(shù);FN 表示標準標注要素被錯誤識別的個數(shù)。

        4.3 實驗結果與分析

        為證明本模型性能,采用BiLSTM-CRF、BERT-CRF 這兩種模型作為對比模型。具體實驗性能如表5所示。

        Table 5 Knowledge element extraction model performance表5 知識要素抽取模型性能

        將本文模型與序列標注經(jīng)典基線模型BiLSTM+CRF進行對比,3 個指標均大幅提升,準確率提升10.03%,召回率提升11.47%,F(xiàn)1 值提升11.15%。說明在稅務領域,BERT 預訓練模型詞向量較于傳統(tǒng)Word2vec 模型訓練的靜態(tài)詞向量在表達字的語義信息和有效提取上下文特征方面表現(xiàn)更佳,證實了本文模型在稅務領域要素抽取任務上可行。

        將BERT+BiLSTM+CRF 模型與BERT+CRF 模型進行對比,兩個模型間的區(qū)別在于BiLSTM 層,從結果上看召回率降低了,但準確率提高2.1%,F(xiàn)1 值提高2.44%,證明BiLSTM 在獲取句子的長距離語義依賴方面具有一定優(yōu)勢。

        在通用數(shù)據(jù)集MRSA 上實體類型少,識別較為容易,3個模型F1值均達到90%以上,BERT-BiLSTM-CRF 模型相較于BiLSTM-CRF 模型各項指標均提高5%以上,但與BERT-CRF 模型相比,性能提升不大。在更具挑戰(zhàn)性的數(shù)據(jù)集Weibo 中,本文模型各項指標較基線模型BiLSTM 提升17%以上,在BERT-CRF 模型上的提升比MSRA 數(shù)據(jù)集更大,表明本文方法具有一定擴展性。

        為驗證各種中文預訓練語言模型性能,在本文模型結構下選取BERT-base[17]、BERT-wwm[19]、Roformer[20]、Ro-BERTa-wwm-ext[19]等BERT 模型進行對比實驗,實驗性能如表6所示。

        BERT 系列模型明顯優(yōu)于Roformer,表明BERT 系列模型更適用于本文抽取任務。BERT-wwm 作為BERT 升級版,引入了全詞MASK,實驗表明,模型在準確率(P)和召回率(R)上略優(yōu)于BERT-base,F(xiàn)1指標性能幾乎接近。

        由于RoBERTa-wwm-ext 訓練數(shù)據(jù)量大和特殊設計的MASK 方式,各項指標均明顯優(yōu)于其他對比預訓練模型。

        Table 6 Pre-training model extraction performance表6 預訓練模型抽取性能

        5 稅收條例知識圖譜自動構建

        本文基于上述稅收要素抽取模型,實現(xiàn)了面向稅收條例的知識圖譜自動構建,構建流程如下:

        (1)知識要素抽取。給定一條稅務條文,采用基于BERT 的稅收條例要素抽取模型對稅務征收條例進行要素識別,得到知識要素數(shù)據(jù)列表List1。

        (2)結構組合。由于稅法分面樹的各部分組成詞較為固定,將要素按<納稅主體-主體修飾>、<納稅主體-納稅對象>、<納稅對象-對象修飾>、<稅種-納稅對象>、<納稅行為-行為修飾><納稅行為-稅種>進行組合得到數(shù)據(jù)列表List2。

        對List2中的各類二元組組合,利用表2 中的預定義關系類型進行關系拼接,形成最后的關系數(shù)據(jù)列表List3。此列表包含:要素1 及其要素類別、要素2 及其要素類別,從而得到三元組,對三元組進行拼接得到稅收條例知識子圖。

        (3)稅收條例知識圖譜構建。利用子圖中的納稅人源節(jié)點進行融合得到知識圖譜。子圖融合之前進行定義的查詢子圖操作,利用文本匹配方法在條例庫中進行匹配,若有沖突則執(zhí)行子圖更新操作,更新知識圖譜中的知識子圖;若無沖突則進行添加子圖操作。通過上述操作融合知識子圖得到知識圖譜。

        (4)可視化展示。將獲取的知識圖譜以數(shù)據(jù)形式進行結構化存儲,利用Echarts 結合Vue.js 開發(fā)的知識圖譜可視化工具,以導向圖形式對稅收條例知識進行可視化展示,如圖3所示。

        Fig.3 Visual display of tax regulations knowledge graph圖3 稅收條例知識圖譜可視化展示

        6 結語

        本文面向稅務征收條例數(shù)據(jù)研究知識圖譜構建方法,針對知識圖譜構建需求,提出面向稅收條例的知識建模方法,準確且適當?shù)乇硎玖硕愂諚l例中蘊含的知識。同時,針對稅收條例的數(shù)據(jù)特點,設計基于BERT 的稅收條例知識要素抽取模型,在本文標注的Tax 數(shù)據(jù)集上展現(xiàn)出其優(yōu)秀性能,并通過對比實驗選取適合本文任務的中文預訓練語言模型。在通用數(shù)據(jù)集上進行實驗也展現(xiàn)了較好性能,證明該模型適用于稅務知識抽取任務,且在通用領域具有一定擴展性。最后,基于知識要素抽取模型,提出了知識圖譜自動構建流程,實現(xiàn)了面向稅收條例知識圖譜的構建。

        為構建質量更高的知識圖譜,后續(xù)研究將收集更多稅收條例數(shù)據(jù)進行人工標注,增加數(shù)據(jù)量以提升知識要素抽取性能。知識建模中要素分類粒度較粗,并不能完全涵蓋所有領域知識概念,后續(xù)將繼續(xù)補充相關領域知識,完善知識建模方法。

        猜你喜歡
        語義模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        語言與語義
        3D打印中的模型分割與打包
        “上”與“下”語義的不對稱性及其認知闡釋
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        認知范疇模糊與語義模糊
        “深+N季”組配的認知語義分析
        當代修辭學(2011年6期)2011-01-29 02:49:50
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        人妻少妇精品中文字幕专区| 欧美高h视频| 少妇隔壁人妻中文字幕| 中文字幕日韩有码在线| 亚洲熟妇久久国产精品| 亚洲精品你懂的在线观看| 中文无码制服丝袜人妻AV| 少妇又骚又多水的视频| 国产精品无码无卡无需播放器| 成年午夜无码av片在线观看| 一区二区三区国产在线网站视频| 蜜桃视频网址在线观看| 国产精品人人做人人爽人人添| 蜜臀久久99精品久久久久久小说| 美女视频很黄很a免费国产| 亚洲精品综合中文字幕组合| 超碰色偷偷男人的天堂| 美女自卫慰黄网站| 亚洲精品天堂在线观看| 在线天堂av一区二区| 狠狠色狠狠色综合| 国产一区二区三区小说| 国产偷国产偷亚洲高清| 疯狂三人交性欧美| 成人性生交大片免费看r | 在线观看极品裸体淫片av| 一区二区三区中文字幕脱狱者| 青楼妓女禁脔道具调教sm| 久久久久亚洲av成人网址 | 亚洲精品一区三区三区在线| 无码国产福利av私拍| 成人无码h真人在线网站| 日韩精品一区二区三区av| 色婷婷五月综合激情中文字幕| 无遮高潮国产免费观看| 日本护士一区二区三区高清热线| 最好看的亚洲中文字幕| 久久国产精品-国产精品 | 久久日本三级韩国三级| 久久精品视频中文字幕无码| 成人一区二区人妻少妇|