劉蘇銳,李丹丹,龐曉紅,董偉,茍圓,俞凌云,吳孟茹,金晶
(成都海關技術中心,四川 成都 610041)
我國進口消費品在“十三五”前四年均保持了10%以上的高增速,即使是在受疫情沖擊的2020年也較上年增長了8.2%,在我國進口整體下降0.4%的情況下,拉動增長0.8個百分點[1]。整個“十三五”期間,消費品進口在我國總進口中的比重從期初2016年的9.1%提升至了期末2020年的11%[1]。我國已經全面建成小康社會,居民人均可支配收入持續(xù)增長,輕工消費品作為生活必需品屬性已經得到滿足,人民的美好生活需要推動了輕工消費品市場的增長,也帶動了輕工消費品進口的增長。2020年,我國進口衣著鞋帽類消費品1406.6億元,增長16%[1]。進口輕工消費品的貨值金額快速增長,類別與數量也大幅增加。面對成千上萬不同種類、不同材質、不同用途的進口輕工消費品,快速準確區(qū)分并高效完成現場涉稅監(jiān)管,對于一線人員而言是個挑戰(zhàn)。
2021年2月9日,國家主席習近平在北京以視頻方式主持中國-中東歐國家領導人峰會并發(fā)表主旨講話。習近平主席在講話中提出了“深化海關貿易安全和通關便利化合作,開展‘智慧海關、智能邊境、智享聯通’合作試點”的重大倡議[2]?!叭恰焙献黜槕乱惠喛萍几锩绷鳎岢ㄟ^推進海關基礎設施、海關管理和海關監(jiān)管的智能化打造“智慧海關”,基于云計算、大數據、人工智能、5G通信等應用技術,提高監(jiān)管精準性、有效性[3]。面對貨值金額、商品種類與數量日益增長的進口輕工消費品涉稅監(jiān)管,基于新一輪的科技技術,須利用好已有的涉稅檢驗數據,為一線人員提升監(jiān)管效率做好支撐,以實際行動落實習總書記重要講話精神,努力踐行“三智”合作重大倡議。
數據已經上升成為了與土地、勞動力、資本、技術并重的生產要素[4]。在數據時代,充分挖掘所掌握數據中蘊涵的價值,已成為了各個行業(yè)的普遍共識。作為數據挖掘的主要方法之一,關聯規(guī)則已經在多個領域得到了大量應用。例如在安全監(jiān)管領域[5-12],文獻[5-8]利用數據挖掘中的關聯規(guī)則方法分別對建筑事故歷史數據進行關聯分析[5],對各類線形事故風險概率變化趨勢和組合關聯規(guī)則進行分析[6],對大壩安全監(jiān)測數據分析變形量與影響因子間的相關關系[7],對船舶通信入侵檢測挖掘關聯規(guī)則[8]。文獻[9-12]分別應用關聯規(guī)則挖掘相關算法分析塔式起重機事故屬性與致因間[9]、航空安全事件多種屬性間[10]、直升機事故與事件發(fā)生之間[11]、鐵路機車事故與故障間[12]的關聯關系。又如在故障監(jiān)測領域[13-20],利用關聯規(guī)則分析設備故障與影響因素[13-15]或故障原因[16]等之間的映射關系,并進一步預測[17]或診斷[18-20]故障。
目前,關聯規(guī)則在海關監(jiān)管相關領域的應用鮮見報道。本文借鑒關聯規(guī)則在其他領域的應用,提出了一種進口輕工消費品涉稅檢驗數據挖掘方法。首先,對進口輕工消費品涉稅檢驗數據從稅則歸類、檢驗方式和檢驗時間三個維度進行概念分層,并作為擴展信息加入到原始數據中;其次,對進口輕工消費品涉稅檢驗數據的多值型信息項進行多值映射,轉化為多個布爾型信息項;最后,結合多值映射后同類信息項不能同時出現的特點,改進Apriori算法,挖掘強關聯規(guī)則,為一線人員提供關注清單,輔助提升現場監(jiān)管效率。
關聯規(guī)則是一種知識模式,描述的是不同事物同時出現的規(guī)律,反映不同事物之間的相互依存性和關聯性。關聯規(guī)則最早提出是為了挖掘商品交易數據庫中不同商品之間的聯系,發(fā)現被顧客同時購買的商品,找出顧客的購買習慣。隨著信息技術的飛速發(fā)展與普及,當今社會已經步入了大數據時代,各行各業(yè)累積了大量的數據,從中發(fā)現關聯規(guī)則已成為了數據挖掘的重要內容。
需要挖掘關聯規(guī)則的數據集,通常被稱為事務數據庫T={t1,t2,…,tn}。事務數據庫中的每個事務由一個或若干個項組成,事務數據庫中所有事務的所有項的集合記為I= {i1,i2,…,in},有t1?I,t2?I,…,tn?I。關聯規(guī)則可以表示為:
式中X、Y均是由集合I中元素構成的項集;s和c是衡量關聯規(guī)則強弱的指標:s是支持度為項集X、Y同時出現的概率,smin是事先指定的最小支持度;c是置信度為項集X出現的情況下項集Y出現的概率,用于衡量關聯規(guī)則的可信程度,cmin是事先指定的最小置信度;s和c的具體定義如下:
關聯規(guī)則挖掘就是要找出同時滿足最小支持度和最小置信度的強關聯規(guī)則。關聯規(guī)則挖掘過程通常分為兩大步:第一步,找出滿足最小支持度的所有項集;第二步,由第一步找出的項集分析找出強關聯規(guī)則。
滿足最小支持度的項集,被稱為頻繁項集。關聯規(guī)則挖掘的第一步即是找出所有頻繁項集。對于一個項集,其長度定義為該項集包含的元素個數k,該項集稱為k-項集。頻繁項集挖掘的經典算法Apriori首先掃描事務數據庫,篩選出所有支持度大于最小支持度的1-項集,即為頻繁1-項集集合。項集A的支持度為事務數據庫中包含該項集的事務數:
對頻繁1-項集集合的元素進行連接生成2-項集集合,從中篩選出支持度大于最小支持度的項集即為頻繁2-項集集合。重復上述由頻繁k-1項集集合生成頻繁k-項集集合的過程,直到頻繁(k+1)-項集集合為空。
對所有的頻繁項集,計算兩兩之間的置信度,將滿足最小置信度要求的,作為強關聯規(guī)則輸出。
關聯規(guī)則挖掘流程可如圖1所示。
圖1 關聯規(guī)則挖掘流程Fig.1 Association ruleminingprocess
進口輕工消費品涉稅檢驗數據是由一條條具體進口輕工消費品的檢驗數據記錄組成的。不同類型的進口輕工消費品,檢驗的項目各不一樣,如果直接從這些最底層數據中去挖掘關聯規(guī)則,很難找出強關聯規(guī)則,需要從較高的概念層級去進行關聯規(guī)則挖掘以發(fā)現更具普遍意義的知識。
進口輕工消費品的稅則號是海關征收關稅的基礎,進口輕工消費品的檢驗則為海關征收關稅提供參考。此外,對于一個季度或一個月份,相關部門也需要相關的統(tǒng)計報表。因此,對進口輕工消費品涉稅檢驗數據的概念分層,考慮從稅則歸類、檢驗方式和檢驗時間三個維度進行。
進口輕工消費品稅則歸類維度的概念分層,參照現行的稅則目錄,分層示意如圖2所示。
圖2 稅則歸類概念分層Fig.2 Concept stratification fromtariff classification
進口輕工消費品檢驗方式與進口輕工消費品的類別、成分、材質等等相關,主要有紡織類原料材質鑒定、紡織類成分分析、天然皮革材質鑒定、人造皮革材質鑒定、毛皮鑒定等等檢驗方式,進口輕工消費品檢驗方式維度的概念分層如圖3所示。
圖3 檢驗方式概念分層Fig.3 Concept stratification frominspection method
進口輕工消費品檢驗時間維度的概念分層,可以按照時間顆粒的粗細來進行,分層示意如圖4所示。
圖4 檢驗時間概念分層Fig.4 Concept stratification frominspection time
進口輕工消費品涉稅檢驗數據概念分層之后,對關聯規(guī)則的挖掘需要增加掃描事務數據庫(待挖掘的數據集合)。為了提升挖掘效率,考慮將三個維度的概念分層作為原始數據的擴展信息,從而將層級結構轉化為平面結構。圖5示意了概念分層的信息擴展。
圖5 信息擴展Fig.5 The original dataextension
涉稅輕工品檢驗數據的報關信息中經營單位、貨主單位、申報單位、商品編碼、產銷國等等信息,檢驗信息中的各項具體檢驗內容,均為多值型。而目前主流的關聯規(guī)則挖掘方法是面向布爾型的。因此,需要對涉稅輕工品檢驗數據進行多值映射,即將一個多值型映射為多個布爾型。同時為了方便后續(xù)頻繁項集挖掘過程中對事務數據庫的掃描比較,在映射過程中還需要對多值進行編碼。例如待挖掘的涉稅輕工品檢驗數據整個集合中涉稅輕工品的經營單位共有n家,經營單位這一信息就屬于多值型,將它的取值編碼并進行映射,轉化成n個布爾型,示意如圖6。
圖6 多值映射Fig.6 Multivalued mapping
經過概念分層和多值映射的數據預處理之后,以進口輕工消費品涉稅檢驗數據中的每一條具體進口輕工消費品的檢驗數據記錄作為一個事務,建立用于關聯規(guī)則挖掘的事務數據庫。表1是事務數據庫中部分事務示意。
表1 部分事務Tab.1 Transaction samples
經典的Apriori算法包括了連接與剪枝兩大步驟。步驟連接,是對頻繁k項集集合中的項集進行組合形成k+1項集。為了避免組合出長度超過k+1的項集,通常對組成項集的項按照一定規(guī)則排序,只對前k-1項相同的項集進行組合。涉稅輕工品檢驗數據經過多值編碼映射之后,隱含了同類信息項不能同時出現的約束,例如某一經營單位在一條記錄中只會出現一次,即在一個事務中經營單位類型的編碼只允許有一個。因此需要對經典Apriori算法的連接步驟進行改進:進行連接的兩個頻繁k項集,不僅是前k-1項相同,而且還需第k項屬于不同的信息類型。例如{A1B2,A1B1,A1C2},則A1B2與A1B1不可連接,A1B2與A1C2和A1B1與A1C2可以連接。
步驟連接形成的k+1項集并不都滿足最小支持度要求,步驟剪枝就是將步驟連接形成的k+1項集集合中不滿足最小支持度的k+1項集去除。k+1項集的支持度可以通過掃描一遍事務數據庫來確定。為了減少掃描事務數據庫的次數,提升挖掘效率,可以通過事務-項關聯矩陣相應列之間的位與運算來確定k+1項集的支持度。事務-項關聯矩陣A的行對應事務數據庫中的所有事務,列對應事務數據庫中每個事務的所有項;事務-項關聯矩陣的元素Aij,當事務i包含項j時Aij=1,否則Aij=0。對于某一k+1項集,從事務-項關聯矩陣A中選出對應的k+1列進行位與計算,統(tǒng)計結果列向量中1的個數即為該k+1項集的支持度。假定事務數據庫如表1所示,則可形成事務-項關聯矩陣如下:
項集A1B2O1的支持度,可以由事務-項關聯矩陣A的第1、4和11列位與運算,并統(tǒng)計結果列向量中1的個數得到,即項集A1B2O1的支持度為1。
在挖掘出頻繁項集之后,根據第2.1節(jié)的式(3)對頻繁項集集合的元素計算兩兩之間的置信度,將滿足最小置信度要求的作為強關聯規(guī)則。
綜上,進口輕工消費品涉稅檢驗數據的關聯規(guī)則挖掘流程(如圖7所示)可簡述如下:
圖7 進口輕工消費品涉稅檢驗數據挖掘流程Fig.7 Association ruleminingprocessfor tariff related inspection data of imported light industrial consumer products
(1)對原始數據,從稅則歸類、檢驗方式和檢驗時間三個維度進行概念分層,并將結果作為擴展信息添加進原始數據;
(2)對擴展后的原始數據,將其中的多值型信息項按取值編碼并映射為多個布爾型信息項;
(3)對預處理過的進口輕工消費品涉稅檢驗數據,以每一條具體進口輕工消費品的檢驗數據記錄作為一個事務,建立用于關聯規(guī)則挖掘的事務數據庫;
(4)形成事務-項關聯矩陣A;
(5)統(tǒng)計事務-項關聯矩陣A各列元素1的個數,確定出頻繁1-項集集合;
(6)令k=1,由頻繁k-項集集合連接形成(k+1)-項集集合;
(7)由事務-項關聯矩陣A相關列的位與運算,從(k+1)-項集集合中篩選出頻繁(k+1)-項集集合;若集合不為空,重復步驟(6)(7),否則進入步驟(8);
(8)對挖掘出的頻繁項集,計算兩兩之間的置信度,將滿足最小置信度要求的作為強關聯規(guī)則輸出。
對某海關某一時期的進口輕工消費品涉稅檢驗數據進行關聯規(guī)則挖掘應用。該數據共包含876條記錄,涉及7個產銷國、5大類商品、13家申報單位。
設置最小支持度10%,最小置信度70%,共挖掘出強關聯規(guī)則27條。部分代表性強關聯規(guī)則如下:
(1)42022100(稅則號)→意大利(產銷國)→真?zhèn)舞b定(檢驗方式)
稅則號42022100是以皮革或再生皮革作面的手提包。意大利是著名的奢侈品王國,進口手提包貨值金額高,報關時貨品存在真?zhèn)尾环蕴颖荜P稅現象。一線人員在涉及來自意大利的進口手提包時,可以重點進行真?zhèn)舞b定檢驗。
(2)61021000(稅則號)→越南(產銷國)→真?zhèn)舞b定(紡織品成分分析)
稅則號61021000是毛針織或鉤編女大衣、帶帽防寒短上衣、風衣等。隨著我國的產業(yè)結構調整升級,許多原本設在我國的品牌服裝代工廠外遷,越南承接了其中的一部分。這些服裝代工廠代工質量參差不齊,吊牌標注成分存在與實際不符現象。一線人員在涉及來自越南的服裝時,可以重點進行紡織品成分分析檢驗。
(3)A7(申報單位)→天然皮革材質鑒定(檢驗方式)
該強關聯規(guī)則反映申報單位A7在申報含有天然皮革商品時,申報信息經常與實際材質不符。一線人員對于A7申報的含有天然皮革商品,要重點進行天然皮革材質鑒定。在挖掘出的27條強關聯規(guī)則中還有一些強關聯規(guī)則與申報單位或經營單位相關,可以據此建立類似信用等級的申報單位或經營單位重點關注清單,以此警示申報單位或經營單位。
(4)B5(經營單位)→43031010(稅則號)
稅則號43031010是毛皮衣服。該強關聯規(guī)則可反映經營單位B5的主營商品。一線人員在現場監(jiān)管時可以提前預判。
(5)B3(經營單位)→A1(申報單位)
該強關聯規(guī)則可反映經營單位B3長期通過申報單位A1進行進口商品申報。
通過上述應用案例可以看出,關聯規(guī)則挖掘可以發(fā)現數據背后隱含的聯系。這些強關聯規(guī)則可以為一線人員提供具體進口國重點關注商品,也可以為一線人員提供申報單位或經營單位重點關注清單,還可以發(fā)現經營單位的主營商品、申報單位與經營單位的合作關系等等。
面對貨值金額、商品種類與數量日益增長的進口輕工消費品,快速準確完成現場涉稅監(jiān)管,對一線人員是個挑戰(zhàn)。借鑒關聯規(guī)則在其他領域的應用,提出了一種進口輕工消費品涉稅檢驗數據的關聯規(guī)則挖掘方法。
所提方法:1)在連接生成候選頻繁信息項集時,結合同類型信息項不可同時出現的特點,增加了同類型信息項的互斥判別,有效地減少了搜索空間;2)在計算候選頻繁信息項集支持度時,通過構建事務-項關聯矩陣,由關聯矩陣對應列的位與運算統(tǒng)計支持度,避免了對事務數據庫的反復遍歷,提升了搜索效率。
對某海關進口輕工消費品涉稅檢驗數據的挖掘結果表明,所提方法能夠發(fā)現強關聯的信息項,可為一線人員提供重點關注清單,輔助提升了現場監(jiān)管效率。