黃玉萍,鄭夢飛,謝 翔
(中國郵政集團有限公司郵政研究中心 郵政智能裝備工程技術研究中心,北京 100096)
快遞運單是快遞包裹的唯一標識代碼,通過單號查詢可以實時跟蹤快件的物流信息。在互聯(lián)網(wǎng)高度發(fā)達的今天,利用網(wǎng)絡爬蟲可以獲得大量的快遞運單的物流信息,基于該信息可對相應快遞包裹業(yè)務進行精細分析,如:時限分析、營業(yè)網(wǎng)點位置分析、網(wǎng)絡路由分析等[1]。
POI(Point Of Information)又稱為興趣點,數(shù)據(jù)源于地圖導航服務,具有空間坐標和屬性信息,是一種表征真實地理空間實體的數(shù)據(jù)集,具有精度高、覆蓋廣、更新快、易獲取的數(shù)據(jù)特點。每一個POI 點在空間上都可以代表一個功能要素,可以是一棟房子、一個商鋪、一個郵筒、一個公交站等。近幾年隨著互聯(lián)網(wǎng)上POI數(shù)據(jù)的開放使用,眾多學者開始探索POI數(shù)據(jù)在相關領域的應用,如郭昭以東莞市POI數(shù)據(jù)為基礎,研究了基于POI數(shù)據(jù)的城市功能空間識別及中心城區(qū)功能復合測算方法[2]。中國測繪科學研究院曹元暉以POI數(shù)據(jù)為主要信息源,為建筑物內部及周邊一定區(qū)域范圍內的POI賦予反距離權重,通過計算不同類型POI 的加權頻數(shù)密度比例來識別建筑物功能類型[3]。廣州市交通規(guī)劃研究院的宋程基于POI、收集信令數(shù)據(jù)、互聯(lián)網(wǎng)位置數(shù)據(jù)等多源數(shù)據(jù)進行了城市活力區(qū)和中心城區(qū)邊界識別研究[4]。
進入二十一世紀,中國快遞繼續(xù)保持高速增長,市場規(guī)模日益壯大,市場上的各個競爭主體——快遞企業(yè),它們對市場的爭奪日趨白熱化。因此,各個企業(yè)如何在競爭白熱化的市場中爭取新客戶、留住客戶,對企業(yè)的生存與發(fā)展具有重大的意義[5-7]。
本文研究了通過網(wǎng)絡爬蟲采集快遞運單,從運單信息中抽取快遞網(wǎng)點周邊POI信息,從而發(fā)現(xiàn)潛在快遞客戶資源的方法。并以某快遞公司為例,研究了其在北京地區(qū)的客戶資源分布狀況。本文的研究結果可以為其市場開拓提供輔助支撐。
本研究所采用的數(shù)據(jù)來源于通過快遞單號查詢獲得的快遞包裹軌跡信息,“快遞100”網(wǎng)站可提供不同快遞公司快遞單號的實時查詢,因此,本研究選擇了“快遞100”網(wǎng)站作為快遞運單數(shù)據(jù)的來源。本文的數(shù)據(jù)獲取對象為某快遞公司在北京地區(qū)的快遞運單數(shù)據(jù),數(shù)據(jù)采集時段從2019 年12 月至2020 年5月,采集內容包括:單號信息、時間信息、業(yè)務內容、地點信息,累積采集2 000萬條運單數(shù)據(jù)。
從互聯(lián)網(wǎng)上采集大量的運單數(shù)據(jù),需要使用網(wǎng)絡爬蟲來實現(xiàn)[8-10]。網(wǎng)絡爬蟲是一個可以實現(xiàn)定向抓取互聯(lián)網(wǎng)上特定頁面內容的程序,從技術層面來說就是通過程序模擬瀏覽器請求站點的行為,把站點返回的HTML 代碼、JSON 數(shù)據(jù)、圖片、視頻等爬到本地,進而提取自己需要的數(shù)據(jù),存放起來使用。
網(wǎng)絡爬蟲工作首先明確要爬取的網(wǎng)站和數(shù)據(jù),選擇合適的方法來抓取數(shù)據(jù),再將解析下載下來的網(wǎng)頁和價值數(shù)據(jù)持久化,保存到數(shù)據(jù)庫中。網(wǎng)絡爬蟲的基本工作流程如圖1所示。
圖1 網(wǎng)絡爬蟲工作流程圖
在抓取運單數(shù)據(jù)時,需要提供運單號,在本研究中,以一個真實的快遞運單號為種子單號,按照一定的算法生成單號隊列,按隊列中的單號信息查詢運單數(shù)據(jù),生成運單數(shù)據(jù)表。其中,編程語言為Python 3,在PyCharm 集成環(huán)境下開發(fā),數(shù)據(jù)庫為Mysql 8.0+。接口測試工具為Fiddler,數(shù)據(jù)通過json進行交換。
圖2為某快遞公司快遞產(chǎn)品的物流軌跡,我們將包含快遞單號,物流信息及時間的數(shù)據(jù)稱為該快遞的運單信息(簡稱運單),基于運單可以了解每一件快遞產(chǎn)品的物流軌跡,通過對物流軌跡的分析,可以推測快遞產(chǎn)品的收寄地及相應的客戶分部狀況。
圖2 快遞運單
為了提高數(shù)據(jù)的存儲與檢索效率,建立運單表,包含運單號、作業(yè)時間、業(yè)務信息、作業(yè)地點,見表1。
表1 運單表結構
2.1.1 數(shù)據(jù)去重。如前文所述,本研究中運單號是基于“母單號”自動生成的,由于“母單號”不唯一,因而生成的采集單號序列間存在單號重復的問題,導致運單表中會存在一定數(shù)量的重復記錄。為了保證數(shù)據(jù)庫中記錄的唯一性,在進行數(shù)據(jù)分析之前,需要結合單號、時間組合條件對運單表進行去重處理。
2.1.2 異常值處理。本研究進行了為期6個月的數(shù)據(jù)準備,采集了某快遞公司2019年12月至2020年6月間的2000萬運單數(shù)據(jù)。由于數(shù)據(jù)采集是基于對運單號的“試錯”,即如果該運單號真實存在就返回信息,不存在就放棄,重新采集單號隊列中的下一運單,所以采集的數(shù)據(jù)存在采樣不連續(xù)的特點,如圖3所示。
圖3 采樣數(shù)據(jù)日分布圖
為了避免因數(shù)據(jù)不連續(xù)帶來的統(tǒng)計失真,從整體數(shù)據(jù)集中選擇2019年12月、2020年3月、2020年4月、2020年5月的數(shù)據(jù)作為分析樣本。
快遞公司的服務對象是其營業(yè)網(wǎng)點周邊的商超、住宅小區(qū)、辦公樓,即其潛在客戶分布在營業(yè)網(wǎng)點的周邊。要了挖掘快遞公司的客戶群體,需要先確定其末端營業(yè)網(wǎng)點的名稱和地址。從運單表中按“citi”+“info=攬收”條件進行查詢,可獲得該快遞公司在北京地區(qū)的營業(yè)網(wǎng)點名稱。查詢代碼如下:
在高德地圖開放平臺對網(wǎng)點名稱進行查詢,可獲得網(wǎng)點的結構化地址,如圖4所示。
圖4 網(wǎng)點地址
客戶資源的價值,可以通過與其有業(yè)務往來的網(wǎng)點業(yè)務量大小來衡量。為了發(fā)掘有價值的客戶資源,需要對網(wǎng)點進行分類,將同一統(tǒng)計時內業(yè)務量大的網(wǎng)點定義為優(yōu)質網(wǎng)點。優(yōu)質網(wǎng)點客戶資源豐富,具有客戶資源挖掘的意義。通過對所采集數(shù)據(jù)的分析,得出同一時間段內該快遞公司90%以上的業(yè)務量集中在42個營業(yè)網(wǎng)點(如圖5所示),因此,將這42個營業(yè)網(wǎng)點作為客戶資源挖掘的目標,對其進行客戶資源的挖掘。
地理編碼,又稱為地址匹配,是從已知的結構化地址描述到對應的經(jīng)緯度坐標的轉換過程。根據(jù)給定的地理名稱和查詢城市,返回地理編碼的結果列表。顯示效果如圖6所示。
高德地圖提供千萬級別的POI數(shù)據(jù),所有數(shù)據(jù)均按三級分類,層次清晰,精度較高。POI 數(shù)據(jù)的標簽基本涵蓋了所有的設施類型,見表2。
圖5 網(wǎng)點同一時期業(yè)務量占比
圖6 地理編碼圖
表2 POI類別標簽
利用POI 數(shù)據(jù),可以實現(xiàn)客戶資源挖掘,具體方法如下:(1)利用高德地圖開放平臺,獲得網(wǎng)點的地址編碼。(2)以網(wǎng)點為核心,搜尋一定半徑范圍內的POI 信息。(3)借助POI 對網(wǎng)點周邊地理信息進行分類,識別客戶資源。
高德開放平臺提供多種查詢POI信息的功能,其中包括關鍵字搜索、周邊搜索、多邊形搜索、ID 查詢四種篩選機制。本文所使用的POI 數(shù)據(jù)基于高德API 開放接口,采取周邊搜索中的關鍵字搜索和POI類型搜索方法,運用Python 編程語言編寫網(wǎng)絡爬取工具獲取數(shù)據(jù)并輸出。實現(xiàn)方法如下:
http://restapi.amap.com/v3/place/around?key=您的key&location=116.409692,39.97118&keywords= 北京&types=011100&radius=2000&offset=20&page=1&ex -tensions=all&output=json
說明:location(116.409692,39.97118)是需要查詢的中心點,keywords(北京)指定搜索城市為“北京”,types(011100)為搜索返回的POI 數(shù)據(jù)類型,radius(2000)指定搜索半徑為2km,extensions(all)為返回的數(shù)據(jù)內容,參數(shù)output(json)用于指定返回數(shù)據(jù)的格式,key是用戶請求數(shù)據(jù)的身份標識。
返回的數(shù)據(jù)為
說明:POI 點的信息都在pois 中。name 表示名稱,type 表示的類型,address 指出地址,location 表示具體的經(jīng)緯度,adname 表示所屬行政區(qū)域(區(qū)縣級別),business_area表示所在商圈。
從互聯(lián)網(wǎng)上采集某快遞公司近2 000 萬條運單信息,對其在北京地區(qū)的網(wǎng)點布局及客戶資源情況進行分析挖掘,研究結果如下:
采用前述對運單數(shù)據(jù)的分析方法,得到該快遞公司在北京地區(qū)共有184個營業(yè)網(wǎng)點,在北京各個區(qū)的網(wǎng)點數(shù)據(jù)分布見表3。
表3 北京各區(qū)網(wǎng)點數(shù)量
利用高德地圖可獲得各個網(wǎng)點的地址編碼。圖7 為在高德地圖上標記的該公司在北京朝陽區(qū)營業(yè)網(wǎng)點的位置信息。
圖7 朝陽區(qū)營業(yè)網(wǎng)網(wǎng)點
利用所描述的方法,對樣本數(shù)據(jù)進行分析后發(fā)現(xiàn),該公司在北京地區(qū)的90%的業(yè)務量集中在42 個營業(yè)網(wǎng)點,因此把這42 營業(yè)網(wǎng)點作為客戶資源挖掘的目標。目標網(wǎng)點的分布情況見表4。
表4 北京各區(qū)目標網(wǎng)點數(shù)量
其中朝陽區(qū)的目標網(wǎng)點分布情況如圖8所示。
利用目標網(wǎng)點地址編碼,可從高德地圖開放平臺獲得網(wǎng)點周邊POI 數(shù)據(jù),對網(wǎng)點周邊POI 進行分類,進行客戶資源挖掘。圖9為對網(wǎng)點(116.409 692,39.971 18)周邊2km 范圍內的POI 查詢結果,基于該結果可獲取客戶名稱和詳細地址,為市場推廣提供輔助支撐。
圖8 朝陽區(qū)目標網(wǎng)點分布圖
圖9 POI查詢結果示例
(1)通過對快遞運單的分析,可以獲取快遞公司的營業(yè)網(wǎng)點的名稱,利用高德地圖開放平臺可以查詢營業(yè)網(wǎng)點地址編碼,進而可以獲得網(wǎng)點周邊一定范圍內的POI 數(shù)據(jù),對POI 數(shù)據(jù)進行分類,可以發(fā)現(xiàn)潛在的快遞客戶。
(2)用來分析的運單數(shù)據(jù)是通過互聯(lián)網(wǎng)采集的,因數(shù)據(jù)采集的算法為“基于運單號試錯”的方法,因此,采集的數(shù)據(jù)可能存在重復或數(shù)據(jù)分布不均勻的情況,在進行數(shù)據(jù)分析前必須對網(wǎng)絡采集數(shù)據(jù)進行去重和去除異常值處理,避免由于所采集的數(shù)據(jù)樣本存在偏差導致分析結果出現(xiàn)偏差。
(3)本文研究的客戶發(fā)現(xiàn)方法適用于攬收商務件、經(jīng)濟件等業(yè)務場景,針對電商件客戶的挖掘不在本方法研究范圍之內。