王志惠,傅德謙(臨沂大學 信息科學與工程學院,山東 臨沂 276000)
隨著電子商務的蓬勃發(fā)展和物流服務商的逐年增多,電商平臺對于物流服務商的選擇也逐漸有了更高的要求。據(jù)中華人民共和國國家郵政局統(tǒng)計,2021 年,全國物流服務企業(yè)在中國交付累計完成量為1 083 億件,同比增長了29.9%;交易規(guī)模達10 332.3 億元,同比增長了17.5%;物流服務總體滿意度為76.8 分[1]。對于物流服務商的選擇,電商企業(yè)的訴求體現(xiàn)在成本低、貨物安全、易追蹤、速度快、服務質(zhì)量高等方面;消費者希望速度快、服務好、貨物無破損。若物流服務商選擇不當,容易出現(xiàn)服務質(zhì)量差、運輸費用高、運輸時間長等情況,影響消費者的購物體驗和后續(xù)的購買行為,進而制約電商企業(yè)的發(fā)展[2-3]。隨著訂單量的逐年大幅增加,這些需求表現(xiàn)得更為迫切。信息系統(tǒng)的應用與普及可以極大節(jié)約電商企業(yè)與物流企業(yè)的信息共享成本,并有助于促進其合作關(guān)系[4]。各企業(yè)應充分利用大數(shù)據(jù)技術(shù)促進企業(yè)間的信息共享,進而提升物流服務質(zhì)量和效率。然而由于現(xiàn)代社會更加重視個人、企業(yè)數(shù)據(jù)的隱私保護問題,國內(nèi)外的數(shù)據(jù)監(jiān)管法律也日趨嚴格[5]。例如2017 年6 月,中國提出的《中華人民共和國網(wǎng)絡(luò)安全法》針對數(shù)據(jù)收集與處理提出約束和要求;美國在2020 年1 月正式生效的《加利福尼亞州消費者隱私法》(California Consumer Privacy Act,CCPA)[6]。針對此現(xiàn)象,宮曉曼[7]提出了一種在云計算環(huán)境中挖掘物流歷史數(shù)據(jù)尋找最優(yōu)物流服務商的方法;Cao K 等[8]將線下企業(yè)、電商平臺與物流服務商考慮為一個市場,基于此開發(fā)NE、Y、YT 三個理論模型,通過模型指導企業(yè)確定最優(yōu)物流服務商。在實際場景中,物流數(shù)據(jù)分散存儲,具有隱私性強、多源異構(gòu)、可用性低等特征。因此,聯(lián)邦學習(Federated Learning,F(xiàn)L)是保護數(shù)據(jù)隱私的同時解決數(shù)據(jù)孤島問題的有效方式[9]。聯(lián)邦學習是谷歌實驗室提出來的一種用于保護數(shù)據(jù)隱私的機器學習框架[10]??蛻艨梢栽诒镜赜柧毮P?,在不違反數(shù)據(jù)隱私的情況下根據(jù)本地模型更新共同訓練一個全局模型[11-12]。在對數(shù)據(jù)隱私要求高且存在數(shù)據(jù)孤島問題的物流服務商選擇場景中,聯(lián)邦學習有著天然的適配性。
綜上所述,本文研究分布式環(huán)境下實現(xiàn)多源數(shù)據(jù)聯(lián)合建模選取最優(yōu)物流服務商的方法。本文主要工作如下:(1)構(gòu)建物流服務商選擇層次化架構(gòu),在保護數(shù)據(jù)隱私的前提下,實現(xiàn)聯(lián)邦學習模型的應用;(2)針對物流數(shù)據(jù)差異化問題提出了一種訓練數(shù)據(jù)標準化處理方法;(3)利用差分隱私算法改進Secureboost 算法,提高了模型訓練效率;(4)采用生成模擬數(shù)據(jù)進行仿真實驗,驗證方法的安全性和可行性。
為實現(xiàn)聯(lián)合多方物流數(shù)據(jù)進行最優(yōu)物流服務商的選擇,本文設(shè)計了基于聯(lián)邦學習的物流服務商選擇層次化架構(gòu)。如圖1 所示,分別由數(shù)據(jù)準備層、樣本數(shù)據(jù)對齊層、聯(lián)邦學習訓練層、模型應用層4 部分組成。
圖1 物流服務商選擇層次化架構(gòu)
物流數(shù)據(jù)具有可用性低及標準化水平不高的特點,為提高物流數(shù)據(jù)質(zhì)量和模型訓練效率,數(shù)據(jù)準備層可以為模型提供高質(zhì)量數(shù)據(jù)。因此,本文在數(shù)據(jù)準備層采用數(shù)據(jù)清洗、數(shù)據(jù)分箱、特征篩選、訓練數(shù)據(jù)標準化等操作處理訓練數(shù)據(jù)。本文參照相關(guān)文獻,在前人研究的指標體系基礎(chǔ)上從歷史數(shù)據(jù)中篩選出具體指標數(shù)據(jù)用作樣本數(shù)據(jù)。針對物流數(shù)據(jù)特征指標衡量單位和標準不同造成數(shù)據(jù)差異化大的問題,本文采用Simple Additive Weighting(SAW)方法根據(jù)參數(shù)的實際意義做訓練數(shù)據(jù)標準化處理。其中,公式(1)對正向參數(shù)做標準化處理,公式(2)對反向參數(shù)做標準化處理。正向參數(shù)是指對用戶來說越大越好的參數(shù),比如破損賠付數(shù)額;反向參數(shù)則是指對用戶來說越小越好的參數(shù),比如首重與續(xù)重價格。其他參數(shù)則采用Z-score 標準化方法做訓練數(shù)據(jù)標準化處理,采用把數(shù)據(jù)處理成符合標準正態(tài)分布的數(shù)據(jù)。其中是一列數(shù)據(jù)的均值,ρ是一列數(shù)據(jù)的標準差。
物流場景中數(shù)據(jù)分布式存儲,物流供應鏈包括電商企業(yè)、物流企業(yè)、倉儲企業(yè)、運輸企業(yè)等。樣本數(shù)據(jù)對齊層可以在各參與方建模前使用加密技術(shù)根據(jù)ID 對齊各方樣本數(shù)據(jù),提取出共有ID 的訓練樣本數(shù)據(jù)。本文采用RSA 非對稱加密算法和哈希機制的方案來對齊各方共有數(shù)據(jù)。
在聯(lián)邦學習訓練層采用加密模型參數(shù)傳輸方式聯(lián)合多方數(shù)據(jù)訓練模型。本文采用安全聯(lián)邦決策樹模型訓練出最優(yōu)劃分的決策樹模型,構(gòu)建物流服務商選擇樹。為保障用戶隱私和數(shù)據(jù)安全,引入可信第三方(政府、可信第三方企業(yè))利用隱私保護技術(shù)加解密并協(xié)調(diào)訓練模型。
訓練完成的模型可以通過封裝接口用于電商企業(yè)的物流服務商選擇應用中。模型應用層為電商企業(yè)提供模型應用接口,通過此層將符合用戶選取指標要求的預測結(jié)果傳到用戶端,為電商企業(yè)提供最優(yōu)物流服務商。
本文設(shè)定的選擇模型整體架構(gòu)如圖2 所示,分別由m 個企業(yè)客戶端和1 個中心服務器組成。其中,客戶端由m 個物流供應鏈上的企業(yè)組成,各企業(yè)間具有大致相同的物流訂單ID 索引。中心服務器是一個可信第三方(例如政府機構(gòu)、安全數(shù)據(jù)共享機構(gòu))。為提高訓練過程中的通信效率,本文對安全聯(lián)邦決策樹做了分析和改進,采用了差分隱私的思想加密傳輸聚合梯度值。在建模任務中,參與聯(lián)合建模的企業(yè)方分為主動方和被動方。主動方提供的用戶數(shù)據(jù)內(nèi)包含標簽值,其擔任數(shù)據(jù)對齊的主要任務并主導服務器完成模型訓練。被動方僅提供用戶的樣本數(shù)據(jù),與主動方協(xié)作完成模型訓練任務。完整訓練流程如下。
圖2 模型的整體架構(gòu)
步驟1:中心服務器生成密鑰對,并將公鑰發(fā)送至各企業(yè)。其中,公鑰用于發(fā)送至各參與方加密傳輸梯度值,私鑰用于解密接收到的密文。
步驟2:各企業(yè)以RSA 非對稱加密算法和哈希機制的加密方案實現(xiàn)樣本對齊,提取各企業(yè)共同物流訂單ID 的樣本數(shù)據(jù)。
步驟3:各企業(yè)使用對齊后的本地數(shù)據(jù)訓練模型,以加密交換的方式計算各方本地模型的梯度與損失,實現(xiàn)模型的加密聯(lián)合訓練。
步驟4:各企業(yè)將本地模型的梯度值和損失加密發(fā)送至中心服務器。
步驟5:中心服務器將密文解密獲得最終梯度信息,將梯度信息發(fā)送至各企業(yè)以更新本地模型參數(shù)。
對各企業(yè)數(shù)據(jù)集X={x1,x2,…,xn}使用K 個回歸樹進行決策樹模型的訓練。為防止模型出現(xiàn)過擬合,引入正則項來控制模型的復雜度。則設(shè)定最優(yōu)決策樹算法目標函數(shù)為損失函數(shù)與正則項之和,以最小化損失為模型訓練目標。當目標函數(shù)訓練到第t 輪時,前t-1 輪的模型結(jié)果和復雜度都已確定,則第t 輪的預測值可以表示為??傻玫趖 輪模型目標函數(shù)為:
此時由主動方計算出gi和hi,使用差分隱私的思想加密傳輸梯度信息到每個參與任務訓練的被動方。本文設(shè)定目標函數(shù)的正則項函數(shù)為其中:O 表示復雜度參數(shù)、Ln表示樹的葉子節(jié)點數(shù)、Lw表示葉子節(jié)點的權(quán)重值、w 表示懲罰度參數(shù)。將正則項函數(shù)帶入目標函數(shù)為:
其中:O、Lw、gi、hi都為已知數(shù),wj是未知數(shù),Ij表示可落在相同葉子節(jié)點j 的樣本空間。算法以此過程迭代出每棵決策樹,完成決策樹構(gòu)建后,按照一元二次函數(shù)求最優(yōu)解的過程,采用公式(6)計算葉子節(jié)點j 的最優(yōu)權(quán)重w:
將最優(yōu)權(quán)重wj代回目標函數(shù)可得:
決策樹的劃分優(yōu)略是由劃分增益Gain 得到的,單節(jié)點分裂過程計算公式如公式(8)所示:
設(shè)定樣本空間I 每次劃分為兩個不相交的左右節(jié)點的樣本空間IL和IR,即當前節(jié)點的樣本空間表示為I=IL+IR。則構(gòu)建最優(yōu)決策樹需要最大化節(jié)點分裂前后間的差值,可得最優(yōu)劃分為:
其中采用差分隱私的加密方式實現(xiàn)企業(yè)間模型梯度信息的加密與傳輸。主動方計算出gi和hi,將原梯度值與隨機浮點數(shù)的乘積傳輸?shù)奖粍臃?。最后解密時只需除以加密時的隨機浮點數(shù)即可。同態(tài)加密方式密文為256 字節(jié),加密過程和傳輸過程需要消耗大量的資源成本。相比同態(tài)加密,差分隱私采用的浮點數(shù)僅占8 字節(jié),其計算和通信的效率有較大提升。
本文采用個人生成的模擬物流數(shù)據(jù)進行仿真實驗,各物流供應鏈企業(yè)數(shù)據(jù)集指標詳細信息如表1 所示:
表1 物流供應鏈企業(yè)數(shù)據(jù)集指標
現(xiàn)假設(shè)某電商平臺與多家物流企業(yè)具有合作關(guān)系,并且每家物流企業(yè)又與不同倉儲企業(yè)和運輸企業(yè)具有合作關(guān)系。各企業(yè)數(shù)據(jù)存儲在本地且指標眾多,為實現(xiàn)最優(yōu)物流服務商選擇模型的構(gòu)建,篩選出各企業(yè)的關(guān)鍵指標。在對齊樣本中隨機抽選每個物流企業(yè)的各一條數(shù)據(jù),如表2 所示:
表2 物流服務商歷史數(shù)據(jù)
根據(jù)訓練數(shù)據(jù)標準化處理的設(shè)定對歷史數(shù)據(jù)進行標準化。標準化后的數(shù)據(jù)如表3 所示:
表3 標準化后的物流服務商歷史數(shù)據(jù)
本文仿真實驗設(shè)置由三個分布式數(shù)據(jù)源,分別是物流企業(yè)C1、倉儲企業(yè)C2、運輸企業(yè)C3,數(shù)據(jù)集詳細情況如表1 所示。實驗環(huán)境配置如下:系統(tǒng)使用CentOS 7.6.1810;CPU 為2 個4 核Intel(R)Core(TM)i5-9300HF CPU@2.40GHz;32G 內(nèi)存;Python 版本3.8。實驗參數(shù)設(shè)置學習率為0.1,樹最大深度為10,最大桶數(shù)量為50,正則項系數(shù)為0.1。實驗以AUC 值和KS 值作為模型評價指標,分別在訓練集和驗證集上做性能測試。實驗以模型損失值和訓練時間驗證模型訓練效率,采用差分隱私算法和同態(tài)加密算法對標準化處理后的數(shù)據(jù)進行模型訓練。對每次實驗分別進行5 次獨立的重復實驗取平均實驗結(jié)果,仿真實驗結(jié)果如圖3 至圖6 所示。
圖3 模型AUC
圖4 模型KS
圖5 模型損失
圖6 模型訓練時間
從實驗結(jié)果可以看出,模型在迭代了10 輪次時,在數(shù)據(jù)集上的AUC 值和KS 值接近1,表明模型準確率較高,且具有較強的風險區(qū)分能力。同時,模型在經(jīng)過25 輪迭代后,該算法總耗時292s,同態(tài)加密算法總體花費438s,模型訓練效率可以提升50%左右。實驗結(jié)果表明了該方法可以在保護數(shù)據(jù)隱私的前提下快速提供科學決策。
在電商活動中,科學地選擇合適的物流服務商具有重要意義。本文針對分布式環(huán)境中如何通過歷史物流數(shù)據(jù)科學選取最優(yōu)物流服務商的問題展開研究。本文構(gòu)建了一種物流服務商選擇層次化架構(gòu),該架構(gòu)通過多環(huán)節(jié)實現(xiàn)模型應用,為解決數(shù)據(jù)差異化問題提出了一種訓練數(shù)據(jù)標準化方法,同時引入差分隱私算法改進訓練模型,提高了模型的訓練效率。最后,通過模擬數(shù)據(jù)進行仿真實驗,驗證了該方法的安全性和可行性。在未來工作中考慮完善指標選擇體系,為最優(yōu)物流服務商的選擇提供更科學的決策方案。