羅琴濤 張宗平 羅宇平 胡琳子 梁軍峰 梁志明
(1.廣州海關(guān)信息中心 廣東 廣州 510623;2.中國電子口岸數(shù)據(jù)中心廣州分公司;3.佛山海關(guān)綜合技術(shù)服務(wù)中心)
跨境電商類商品不同于一般貿(mào)易商品,因其申報(bào)數(shù)據(jù)的自主性,進(jìn)出境郵件具有數(shù)量多、來源復(fù)雜及溯源信息少等特點(diǎn),易存在貨證不相符的問題,給海關(guān)日常監(jiān)管帶來嚴(yán)峻挑戰(zhàn)。本文嘗試構(gòu)建“跨境郵寄物預(yù)警模型”,對跨境風(fēng)險(xiǎn)進(jìn)出境郵件進(jìn)行有效監(jiān)控,以幫助相關(guān)人員甄別進(jìn)出境風(fēng)險(xiǎn)郵寄物,降低開箱檢查的人工和時(shí)間成本,切實(shí)提高口岸的監(jiān)管能力。
本文將進(jìn)出境郵件的數(shù)量、重量、價(jià)值、稅額、寄遞渠道、收寄件局、收寄件人信息作為風(fēng)險(xiǎn)預(yù)警模型的參考變量,以信息化為依托,以郵寄用戶申報(bào)數(shù)據(jù)、互聯(lián)網(wǎng)采集數(shù)據(jù)、海關(guān)平臺(tái)數(shù)據(jù)為基礎(chǔ),通過核對、比較、分析進(jìn)出境郵件的特征和指標(biāo),及時(shí)發(fā)現(xiàn)異常,尋找風(fēng)險(xiǎn)點(diǎn),從多方面識(shí)別郵寄風(fēng)險(xiǎn)情況。
風(fēng)險(xiǎn)預(yù)警模型的建立分為3步[1]:(1)對數(shù)據(jù)進(jìn)行科學(xué)化地預(yù)處理。收集進(jìn)出境郵件安全風(fēng)險(xiǎn)源數(shù)據(jù)、綜合管理平臺(tái)源數(shù)據(jù)、個(gè)人相關(guān)信用數(shù)據(jù)、全球疫情數(shù)據(jù);整合不同系統(tǒng)的信息,分析形成各類有價(jià)值的數(shù)據(jù)情報(bào),并篩選重要影響因素作為變量。(2)建立風(fēng)險(xiǎn)預(yù)警模型。根據(jù)預(yù)處理得到的變量及其對應(yīng)的數(shù)據(jù)進(jìn)行模型演練,尋找數(shù)據(jù)的規(guī)律和特征,選擇合適的模型;該模型涉及的機(jī)器學(xué)習(xí)模型是區(qū)分于回歸的二分類模型,常用的二分類機(jī)器學(xué)習(xí)算法[2]有邏輯回歸模型、鄰近模型。(3)對已建好的模型進(jìn)行風(fēng)險(xiǎn)評估。比對邏輯回歸模型[3]和鄰近模型[4]的分類報(bào)告,對2種不同的模型預(yù)測結(jié)果進(jìn)行分析,得出準(zhǔn)確度較高的模型,并選擇該模型作為預(yù)測的最終決策。
本文通過對進(jìn)出境郵件數(shù)據(jù)進(jìn)行分析,分析進(jìn)出境郵件的風(fēng)險(xiǎn)特征與“人、路、物”這三者相關(guān),“人”即收件人信息和寄件人信息;“路”即郵件寄件的境外地區(qū)和收件的境內(nèi)地區(qū);“物”即郵件的特征。在模型方面的思路確定需要訓(xùn)練的變量,進(jìn)出境郵件的寄遞渠道、收寄件局、收寄件人姓名、進(jìn)出境郵件重量、進(jìn)出境郵件稅額、進(jìn)出境郵件價(jià)值、進(jìn)出境郵件數(shù)量、驗(yàn)放指令。并且通過逐步的模型篩選最終得出采用郵件種類、郵件總重量、申報(bào)人民幣總價(jià)、郵件人民幣的總價(jià)值、行郵稅稅率、完稅價(jià)格。
圖1 跨境郵寄物風(fēng)險(xiǎn)預(yù)警模型思路
根據(jù)實(shí)際情況,建立跨境進(jìn)出境郵件風(fēng)險(xiǎn)預(yù)警模型需要進(jìn)行樣本不均勻處理、數(shù)據(jù)清洗、數(shù)據(jù)分析、建立邏輯回歸模型、建立鄰近模型、模型結(jié)果比對優(yōu)化等過程。
在源數(shù)據(jù)方面,需要通過數(shù)據(jù)處理將郵件名稱和收件地址翻譯成中文,并對省、市、區(qū)縣進(jìn)行排列,以便提取相關(guān)字段,這2個(gè)變量需要較多的人工清洗和數(shù)據(jù)處理。
通過可視化庫,可以先簡單地對歷史情況進(jìn)行匯總,進(jìn)出境郵件勢可分為有風(fēng)險(xiǎn)和無風(fēng)險(xiǎn)這2類。因?yàn)橹挥袠O少數(shù)進(jìn)出境郵件是有風(fēng)險(xiǎn)的,分析得到的風(fēng)險(xiǎn)進(jìn)出境郵件占比5%~10%,見圖2。出現(xiàn)樣本不均衡,會(huì)導(dǎo)致樣本量少的分類所包含的特征過少,很難從中提取規(guī)律,即使得到分類模型,也容易產(chǎn)生因過度依賴于有限的數(shù)量樣本而導(dǎo)致過擬合問題[4]。
圖2 跨境郵寄物查驗(yàn)結(jié)果情況
在機(jī)器學(xué)習(xí)中,當(dāng)原始數(shù)據(jù)的分類極不均衡時(shí),需要對其進(jìn)行處理,下采樣是處理方法之一,即從多數(shù)類中隨機(jī)抽取樣本以減少多數(shù)類樣本的數(shù)量,使數(shù)據(jù)達(dá)到平衡。因此,為解決樣本不均衡的問題,應(yīng)采用下采樣5,并通過下采樣后達(dá)到樣本均勻,見圖3。
圖3 跨境郵寄物查驗(yàn)結(jié)果下采樣處理
邏輯回歸是用于處理因變量為分類變量的回歸問題,屬于一種分類方法,常見的是二分類或二項(xiàng)分布問題,也可以處理多分類問題。二分類問題的概率與自變量之間的關(guān)系圖形通常為S型曲線,見圖4,采用Sigmoid函數(shù)[5]實(shí)現(xiàn)。
圖4 二分類問題的概率與自變量之間的關(guān)系
邏輯回歸模型定義為:
在邏輯回歸算法中,邏輯回歸模型在Sklearn.linear_model子類下,調(diào)用sklearn邏輯回歸算法步驟為:(1)導(dǎo)入模型。調(diào)用邏輯回歸Logistic Regression()函數(shù)。(2)fit()訓(xùn)練。調(diào)用fit(x,y)方法訓(xùn)練模型,x為數(shù)據(jù)屬性,y為所屬類型。(3)predict()預(yù)測。利用訓(xùn)練得到的模型,對數(shù)據(jù)集進(jìn)行預(yù)測,返回預(yù)測結(jié)果。
處理樣本數(shù)據(jù)后,隨機(jī)抽取50 000條數(shù)據(jù)進(jìn)行邏輯回歸建模,調(diào)取sklearn機(jī)器學(xué)習(xí)數(shù)據(jù)包,根據(jù)自變量對最終預(yù)測結(jié)果的關(guān)聯(lián)性及采集數(shù)據(jù)的可行性,自變量需采用可量化的定量數(shù)據(jù)。采用回歸分析,得出郵件種類、郵件總重量、申報(bào)人民幣總價(jià)、郵件人民幣的總價(jià)值、行郵稅稅率、完稅價(jià)格為模型的自變量,驗(yàn)放指令為因變量。
由表1可知,邏輯回歸預(yù)測的整體準(zhǔn)確率為96.1%,該模型的準(zhǔn)確度主要集中于無風(fēng)險(xiǎn)進(jìn)出境郵件的預(yù)測,在風(fēng)險(xiǎn)進(jìn)出境郵件的預(yù)測方面,誤判1 929個(gè),正確判斷11個(gè)。
表1 邏輯回歸預(yù)測分類表
由表2可知,邏輯回歸方程為:
表2 邏輯回歸方程中的變量
logit(p)=1.9144×郵件種類+0.0562×郵件總重量-0.0002×申報(bào)人民幣總價(jià)+0.0008×郵件人民幣的總價(jià)值+4.4249×行郵稅稅率-0.0020×完稅價(jià)格-4.2162
自變量的系數(shù)顯著性均<0.05,變量通過假設(shè)性檢驗(yàn),模型可用。
KNN(K-Nearest Neighbor)法即K最鄰近法,最初由Cover和Hart于1968年提出,是最簡單的機(jī)器學(xué)習(xí)算法之一,思路簡單直觀:若一個(gè)樣本在特征空間中的K個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,即在定類決策方面,只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。
KNN分類算法包括4個(gè)步驟:(1)準(zhǔn)備數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理。(2)計(jì)算測試樣本點(diǎn)(即待分類點(diǎn))至其他每個(gè)樣本點(diǎn)的距離。(3)對每個(gè)距離進(jìn)行排序后,選出距離最小的K個(gè)點(diǎn)。(4)對K個(gè)點(diǎn)所屬的類別進(jìn)行比較,根據(jù)少數(shù)服從多數(shù)原則,將測試樣本點(diǎn)歸入在K個(gè)點(diǎn)中占比最高的一類。
KNN算法的優(yōu)勢是依據(jù)k個(gè)對象中占優(yōu)的類別進(jìn)行決策,且KNN將對象間距離作為各個(gè)對象之間的非相似性指標(biāo),避免對象之間的匹配問題,計(jì)算距離通常使用歐氏距離或曼哈頓距離:
結(jié)合本次跨境進(jìn)出境郵件風(fēng)險(xiǎn)預(yù)測情況,建立風(fēng)險(xiǎn)預(yù)測KNN模型,由于數(shù)據(jù)量較大,故隨機(jī)抽取50 000條數(shù)據(jù)進(jìn)行建模。調(diào)取sklearn機(jī)器學(xué)習(xí)數(shù)據(jù)包,采用回歸分析,得出郵件種類、郵件總重量、申報(bào)人民幣總價(jià)、郵件人民幣的總價(jià)值、行郵稅稅率、完稅價(jià)格為自變量,驗(yàn)放指令為因變量。
KNN模型在6個(gè)自變量形成的6個(gè)維度空間的預(yù)測點(diǎn)及其分類情況見圖5,可知在6個(gè)維度上,根據(jù)數(shù)據(jù)模型的演練可判斷進(jìn)出境郵件的風(fēng)險(xiǎn)分類。
圖5 KNN模型在6個(gè)自變量形成的6個(gè)維度空間的預(yù)測點(diǎn)及其分類情況
鄰近模型預(yù)測的整體準(zhǔn)確率相對于邏輯回歸的準(zhǔn)確度較低,該模型準(zhǔn)確度主要集中于無風(fēng)險(xiǎn)進(jìn)出境郵件的預(yù)測,在風(fēng)險(xiǎn)進(jìn)出境郵件的預(yù)測上,誤判1 934個(gè),正確判斷6個(gè),見表3。
表3 KNN模型預(yù)測分類表
本文通過對邏輯回歸模型和鄰近模型的結(jié)果進(jìn)行比較分析,發(fā)現(xiàn)邏輯回歸模型的擬合效果較好,且準(zhǔn)確度和命中率較高。探索研究跨境郵寄風(fēng)險(xiǎn)模型是一個(gè)復(fù)雜的系統(tǒng)性工作,需結(jié)合相關(guān)人員和專家的意見選擇計(jì)算方法模型,盡可能涵蓋各種特殊場景,可運(yùn)用大數(shù)據(jù)機(jī)器學(xué)習(xí)進(jìn)行建模并評估其準(zhǔn)確性。
今后會(huì)持續(xù)對跨境郵寄風(fēng)險(xiǎn)模型進(jìn)行績效評價(jià),定時(shí)抽查分析預(yù)警數(shù)據(jù)的準(zhǔn)確度、驗(yàn)證模型的適用性,及時(shí)發(fā)現(xiàn)和反饋需要調(diào)整或修正的事項(xiàng)。對預(yù)測結(jié)果與實(shí)際結(jié)果存在較大差異的信息開展專項(xiàng)審核,分析模型的不足之處,持續(xù)修正及優(yōu)化,以適應(yīng)復(fù)雜業(yè)務(wù)場景的需求。