吳代漾,趙 潔,梁家銘,董振寧,梁周揚
(廣東工業(yè)大學管理學院,廣東 廣州 510520)
隨著移動互聯(lián)網、云計算、第三方電子支付、物聯(lián)網、大數(shù)據(jù)等新一代信息技術應用涌現(xiàn)普及,共享經濟以其強大的商業(yè)模式,滲透進衣食住行等傳統(tǒng)行業(yè)以及各自的細分領域[1-2]。共享住宿,也稱在線短租,近年來蓬勃發(fā)展,是共享經濟最具有代表性的行業(yè)之一。2019年,我國在線短租平臺交易規(guī)模達225億元,同比增長率36.5%,居該年共享經濟各領域增速第一[3]。2020年國內外在線短租交易受突發(fā)疫情嚴重影響,但全球疫情日趨緩解,平臺發(fā)展隨即恢復,2020年,我國在線短租市場交易額恢復至2019年的約40%,Airbnb上市首日股價翻倍[4],顯示市場存在長遠發(fā)展的潛力與活力。
C2C是當前國內外在線短租行業(yè)主導模式,雙邊平臺不僅依賴于買方黏度,也依賴于賣方進駐,以保證房源儲備的數(shù)量與覆蓋度。對房東屬性、供給動機與行為的相關工作一直為在線短租領域的研究熱點[5-7]。
以往對房東的研究大多從單一平臺展開[8],隨著在線短租平臺的涌現(xiàn),房東為提高交易額,會進駐多個在線短租平臺,多棲成為普遍現(xiàn)象。用戶多棲又稱為用戶多歸屬,即同一個用戶在多個平臺進行交易,這種現(xiàn)象普遍存在于各種互聯(lián)網平臺中,包括且不限于移動社交平臺、電子商務平臺、外賣服務平臺與共享住宿平臺。用戶多歸屬又分為賣家多歸屬與買家多歸屬。
本文研究對象為前者。賣家多歸屬現(xiàn)象在雙邊市場、定價策略等研究領域都備受關注[9-12],不同平臺下同一房東(以下簡稱同源房東)產生的行為數(shù)據(jù)可以豐富研究實驗數(shù)據(jù),為部分研究提供新的思路。
如何在不同平臺識別同源房東成為首要解決的問題。在數(shù)據(jù)較少的情境下可人工識別,但國內外平臺中的房源數(shù)量高達百萬,人工方法無法解決。同時,同源房東本質上是跨平臺用戶身份識別問題,但在線短租平臺所提供信息以房源信息為主,房東個人身份信息相對稀疏,這對同源房東識別提出了新的挑戰(zhàn)。針對上述問題,本文提出一種跨平臺大規(guī)模用戶匹配模型,以房源匹配為入口,進而識別同源房東。
目前,用戶多棲現(xiàn)象在多個領域平臺中普遍存在,包括在線短租、電子商務和社交網絡等領域平臺。跨平臺用戶身份匹配具有很高的研究和應用價值,通過識別不同平臺同一用戶,能幫助互聯(lián)網服務提供方從另一個角度了解客戶,掌握更多信息從而更好地進行用戶畫像刻畫、個性化推薦以及惡意用戶識別等業(yè)務。
國內外學者針對該問題進行了深入研究。跨平臺用戶身份匹配的關鍵,首先在于提取匹配特征,其次在于匹配模型設計,下面分別針對這2個部分內容進行綜述。
現(xiàn)有的跨平臺用戶身份匹配?;谏缃痪W絡、電子商務開展研究,結合平臺特點,其匹配特征主要從用戶的個人信息屬性、關系、生成內容3個方面獲取,相關研究總結可見表1。
表1 相關研究匹配特征提取方法總結
1.1.1 用戶個人信息
用戶個人信息是在平臺上最能直觀展示用戶身份的外在信息,可將其分為以下2種。第1種是用戶基本信息,包括用戶名[13-16]、自我描述[14]、用戶頭像[14];第2種是用戶隱私信息,即用戶個體真實信息,如地理位置[14]、興趣愛好[14,17]等?,F(xiàn)有研究在上述信息上抽取特征,如基于用戶名的長度、包含的特殊字符與數(shù)字等信息提取出的長度相似度、數(shù)字差異度等特征[15-16]。基于此類特征,用戶識別精度較高,但在現(xiàn)實場景中用戶個人數(shù)據(jù)存在不可靠、不完整、不可用等問題[18],如何在這些問題下保持高識別精度效果仍有待討論。
1.1.2 用戶關系信息
平臺間用戶間存在關聯(lián),此類關系不容易虛構,能夠一定程度上反映用戶的興趣與人際關系。關系信息較為抽象,需要將其轉化為某一種數(shù)據(jù)結構,目前主要有2種方式,一種是將用戶關系轉化為拓撲結構[19-20],另一種是將拓撲結構通過某種方式降維為特征向量[21-22]。Li等[21]基于用戶朋友關系、用戶關系集、網絡聚類屬性的相似性,提取出40維的特征向量,Man等[22]提出了PALE方法,利用網絡嵌入表示學習將用戶節(jié)點映射為特征向量。基于用戶關系的用戶識別模型具有較強魯棒性,但現(xiàn)實場景中,用戶關系可能非常稀疏,因此難以建模困難。
1.1.3 用戶生成內容
用戶生成信息是指用戶在平臺上產生的各類信息,包括行為痕跡與生成內容。行為痕跡指用戶在使用線上平臺進行瀏覽轉發(fā)點贊行為時的位置與時間信息[18,23];生成內容指用戶在平臺生成或發(fā)布的文字圖片信息[24]等。生成信息可以為用戶打上身份標簽,此類標簽能體現(xiàn)用戶的興趣與愛好等個人信息,但收集用戶生成信息具有較大難度,一般僅能在平臺內部進行,且可能涉及用戶隱私侵犯。
1.1.4 本節(jié)小結
上述討論中主要基于用戶獲取匹配特征,但現(xiàn)實情況下在線短租平臺不同于社交領域平臺,在線短租平臺中的房東用戶屬性、關系、生成內容極少,難以作為特征進行精確匹配,因此本文從房源角度出發(fā),以房源信息作為房東匹配特征。
匹配特征提取后,絕大多數(shù)用戶匹配模型會基于匹配特征特點,計算用戶兩兩之間的相似度,包括字符串、圖片、數(shù)字向量、網絡拓撲結構等相似度,常見計算方法如表2所示。然后為不同特征賦予重要度,最后利用特征相似度與相對應的重要度計算不同用戶之間的相似度,當用戶相似度達到某個閾值則認為匹配成功。
表2 常見相似度計算方法
目前,社交網絡、電子商務等領域中,跨平臺用戶身份匹配已取得較多成果,但在線短租同源房東匹配研究較少,平臺信息與上述研究有所區(qū)別,本文就在線短租平臺具體情況展開研究,從平臺中提取特征,基于現(xiàn)有研究匹配算法思路設計在線短租平臺同源房東匹配算法。
本章首先概述研究框架,然后介紹房源匹配特征、設計相似度計算方法。最后提出兩階段房東匹配算法,從房源匹配出發(fā)進而匹配房東。
現(xiàn)有跨平臺用戶匹配框架如圖1(a)所示,在該框架基礎上本文提出跨平臺房東匹配框架,如圖1(b)所示。1)獲取多平臺房源信息;2)提取特征;3)設計房源匹配算法,獲得房源匹配對;4)設計兩階段房東匹配算法,基于房源匹配進而匹配房東。
(a) 現(xiàn)有跨平臺用戶匹配框架
不同于社交網絡與電子商務平臺,C2C短租平臺中,房東個人信息有限,現(xiàn)有研究中的用戶匹配方法無法直接應用于房東匹配,本文基于C2C短租平臺現(xiàn)實情況,先進行房源匹配,再進行房東匹配。房源匹配的基本思想是使用房源地理位置信息進行匹配,主要通過房源經緯度、地址與標題等位置描述信息獲取,其中經緯度較為客觀,但具有一定偏差,而房源地址包含了省市區(qū)及房源小區(qū)等信息,部份房源標題還包含其所在街道及附近地理信息。房源匹配除了考慮地理位置外,還需綜合考慮房源價格、面積等其它特征。
表3 匹配特征
綜上所述,本文抽取上述房源特征,具體見表3。表3中的特征分為2個部分,第1類為房源所在城市、經緯度,第2類包括房源價格、面積等房源其它特征,記為HFs,根據(jù)特征數(shù)據(jù)類型,分別設計相似度計算方法。對房源標題等字符串類型特征,采用編輯距離(Levenshitein)(LD)計算相似度[25]:
(1)
經緯度相似度計算過程見算法1。如當2個房源在經度或者緯度上相差0.2時,表示在地理位置上最多可相差20000 m(由于平臺存在計量與精度誤差,實際距離小于該值),是同一房源的可能性很低,因此LatThr和LongThr均設置為0.2。
算法1 經緯度相似度算法Simlong&latAlg
輸入:房源i的經緯度H1.Lat,H1.Long,房源j的經緯度H2.Lat,H2.Long,經緯度閾值LatThr,LongThr
輸出:經緯度相似度Simlong&lat
1.DfLat=Hi.Lat-Hj.Lat, DfLong=Hi.Long-Hj.Long //計算2個房源的經緯度差異
2.if DfLat>LatThr or DfLong>LongThr //若2個房源在地理位置上相差過大,不能匹配
3.return 0
5.return
數(shù)字特征采用歐氏距離計算,具體如公式(2)所示:
(2)
其中,X與Y分別代表2個房源某數(shù)字特征,xi與yi分別為X與Y中第i個各分量,基于上述方法,可分別計算2個房源在各特征上的相似度。
1)字符串類型的特征包括標題、地址、姓名,以標題為例,相似度計算方式如下所示:
Simtitle(housei,housej)=1-resemblance(housei(title),housej(title))
(3)
2)數(shù)字類型的特征包括價格、面積、床、宜居人數(shù),以價格為例相似度計算方式如下所示:
(4)
房源相似度計算方式如式(5)所示,式中wi表示特征i的重要度。
(5)
基于上述分析,本文先匹配房源繼而匹配房源對應房東。匹配算法中,涉及較多特征,為提高效率,本文提出兩階段匹配方法,思路分階段使用表3中2類特征:地理特征GFs,共4個,房源特征HFs,共5個。第一階段,先使用GFs特征對房源進行匹配,設置第一階段匹配閾值thr1,用較少特征獲得地理位置相似度較高的房源匹配對。第二階段,基于第一階段所得的房源匹配對匹配房東,并基于GFs+HFs進行檢驗過濾。
2.3.1 第一階段
本階段目標是快速過濾無法匹配的房源,較為直觀地理解,GFs中各特征具有相似的重要性,故對各GFs特征等值設置重要度,以保證效率。第一階段匹配如算法2所示。
算法2第一階段匹配算法
輸入:平臺P1房源列表HL1,平臺P2房源列表HL2,地理位置特征集合GFs,GFs特征重要度W=[w1,w2,w3],第一階段匹配閾值thr1
輸出:房源匹配對HPL
1.HL1與HL2中的房源按城市分割為多個子集,得到各城市ck房源列表ck.HL
2.for houseiin ck.HL1
3.for housejin ck.HL2 (housei和housej位于同一城市c)
4.計算Simlong&lat,Simtitle,Simloc
5.if Simlong&lat=0 Then跳轉到步驟 4 //經緯度差異過大,不為同一房源
6.計算Sim=Simtitle·w1+Simloc·w2+Simlong&lat·w3
7.if Sim>thr1 Then
8.end-for
9.end-for
10.return HPL
2.3.2 第二階段
由于2個地理位置非常接近的房源,并不能充分證明它們屬于同一房東,所以第二階段分為2個部分,第1部分基于算法3獲取的房源匹配對進行房東匹配,第2部分任務使用GFs+HFs特征對匹配的房東進一步檢驗和過濾。
本階段對各特征重要度需進行較為精確的設置,以保證房源匹配具有較高準確度。若人為設置具有較大主觀性,難以保證匹配精度,如何合理設置算法參數(shù)對匹配結果至關重要。本文將該問題轉化為優(yōu)化問題,采用群智能算法搜索最優(yōu)參數(shù)。房東匹配算法本質上為分類問題,即判斷2個房東是否為同一房東,評價指標包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1、AUC等,本文以accuracy作為算法主要評價指標,對遺傳算法目標函數(shù)進行設計,描述見公式(6):
(6)
基于上述分析,本研究采用遺傳算法搜索參數(shù),見算法3。假設需設特征重要度參數(shù)wi為n個,則遺傳算法中染色體的基因設置n位,每一基因對應一個參數(shù),基因位對應一個22位二進制編碼(結果精確至小數(shù)點后6位數(shù)),同時遵守公式(6)約束。
算法3 基于遺傳算法的參數(shù)搜索算法
輸入:遺傳算法參數(shù)(種群數(shù)NIND,終止代數(shù)MaxGen,個體數(shù)PN,交叉系數(shù)PC,變異系數(shù)PM)房源匹配對HPL
輸出:各個特征的重要度wi與算法4閾值thr
1.根據(jù)參數(shù)PN初始化種群
2.while 未滿足終止條件MaxGen //進化
3.根據(jù)公式(6)約束條件篩選新參數(shù)
4.在LPL上基于公式(6)目標函數(shù)計算目標值,并進行適應度計算
5.根據(jù)適應度選擇并保存最優(yōu)值
6.種群根據(jù)參數(shù)PC和PM交叉和變異
7.end-while
8.returnW=[w1,…,wi]與thr
第二階段匹配算法具體流程如算法4所示,其中輸入的房源匹配對列表HPL與GFs+HFs特征重要度W、第二階段匹配閾值thr2分別為算法2和算法3的輸出結果。
算法4 第二階段匹配算法
輸入:房源匹配對列表HPL,算法3搜索到的GFs+HFs特征重要度W、第二階段匹配閾值thr2
輸出:房東匹配對列表LPL
//基于房源匹配對列表HPL匹配房東
1.LPL={}
2.for
3.if housei或housej所屬房東
4.將housei與housej所屬房東
5.end for
//基于GFs+HFs特征過濾LPL中的房東
6.for
7.for any ha in hostm的房源
8.for any hb in hostn的房源
9.若
10.maxSim=Simhouse
11.if maxSim
12.end for
13.return LPL
本章設計跨平臺房東匹配的實驗,在大規(guī)模真實平臺數(shù)據(jù)上進行實驗,最后對實驗結果進行分析。
筆者所在團隊選取了國內2個知名在線短租平臺(下述簡稱A與B),通過爬蟲收集2017年12月—2018年12月間的房源信息,A平臺約11萬房源,對應約3.5萬房東,B平臺約4.2萬房源,對應約1.9萬房東。
通過人工標注,共得到2000對匹配對,其中匹配對正例數(shù)為1072,反例數(shù)為928,為本實驗的實驗數(shù)據(jù)集1(dataset1)。除dataset1外,本文還標注了一份由難例構成的數(shù)據(jù)集2(dataset2),數(shù)量總數(shù)為2000,其中正例數(shù)為1072,反例數(shù)為928。難例是指反例在地理位置與部分房源信息上非常接近,只通過部分特征無法清楚判斷匹配數(shù)據(jù)類別的數(shù)據(jù)。
算法4的遺傳算法相關參數(shù)設置為:種群大小NIND設為40,個體數(shù)PN設為9,交叉系數(shù)PC設為0.7,變異系數(shù)PM設為1/PN即0.11,終止代數(shù)MaxGen設為2000,確保在足夠代數(shù)下獲取近似最優(yōu)解。進行5-fold交叉驗證,實驗重復運行算法5次,記錄每次結果。
3.2.1 參數(shù)重要度搜索方法驗證
本文整合遺傳算法搜索各匹配特征的重要度,基于公式(6)和算法3,在dataset1上進行實驗。參數(shù)分布情況見表4與圖2,以該參數(shù)作為輸入的算法4匹配準確率見表4 acc行所示。
表4 參數(shù)搜索表
基于算法3搜索特征重要度,搜索到的表3中的8個特征重要度分布于[0,0.38],閾值thr2分布于[0.30,0.56]之間。5次實驗的平均模型準確率達99.69%,說明本文使用群智能算法,可有效搜索到接近最優(yōu)參數(shù),獲得較準確的房東匹配結果。
在各特征中,平均重要度占比前五的指標為房源標題、房源經緯度、房東姓名與房源地址、房源面積。一般來說,參數(shù)重要度越大,說明特征對匹配模型貢獻越高,上述特征中包含了所有GPs特征,重要度均大于0.1,說明算法3中通過地理信息特征GFs,能有效匹配房源,GFs特征在算法中能發(fā)揮較大作用。相對于GFs,房源價格、房源床數(shù)、房源宜居人數(shù)等特征作用相對小,重要度均小于0.1,究其原因,它們隨房東不同平臺的定價策略與出租方式動態(tài)變化,未能對分類結果產生較為穩(wěn)定的影響。
通過上述分析可知,重要度大于0.1的特征,即GFs,為較重要特征,在匹配第1階段使用,即可快速得到較準確的房源匹配對。重要度小于0.1的特征,即HFs,在第2階段使用,可發(fā)揮一定的作用。在實驗2中,將進一步驗證HFs的有效性。
圖2 參數(shù)分布
3.2.2 特征有效性檢驗
為驗證2類特征的作用,本文設計以下實驗:對于重要度小于0.1的房源特征集合lFs,1)在dataset1上保留和去除lFs,測試模型準確率;2)在dataset2進行類似實驗,獲得去除和保留lFs的模型準確率,結果如圖3所示。
圖3 模型準確率對比
在dataset1上,保留或去除lFs,測試模型準確率差別非常小,說明lFs影響較小,但在難例數(shù)據(jù)集dataset2中去除lFs后,模型準確率由81.97%下降到77.15%,有一定幅度下降。上述結果說明房源價格、房源床數(shù)、房源宜居人數(shù)特征在處理難例時,可發(fā)揮一定作用,進一步說明本文抽取特征是有效的,基于此設計的兩階段匹配算法,第一階段可利用少量特征GFs快速過濾無法匹配的房源,第二階段,可利用HPs較準確地過濾和篩選地理位置接近導致難以區(qū)分的房源。
3.2.3 房東匹配算法驗證
算法4在dataset1以不同分類閾值thr2運行,各指標部分結果如表5所示。通過該表數(shù)據(jù),可以發(fā)現(xiàn)在閾值thr2為0.5時模型的綜合性能最優(yōu),準確率、精確率、召回率、F1分別達到了0.989、0.995、0.983、0.989。圖4為上述指標的曲線圖,其中Y軸為指標值,X軸為閾值thr2。
表5 算法指標
從圖4可知,各算法分類性能指標隨閾值變化,表明閾值設置對模型性能有顯著影響,也進一步印證本文基于遺傳算法確定參數(shù)的必要性。
圖4 算法指標曲線圖
3.2.4 算法效果對比
房東匹配問題本質上為分類問題,故本節(jié)引入支持向量機(SVM)與決策樹(DT)分類器,基于本文提取特征運行算法,并通過預實驗確定分類器參數(shù)以保證效果。其中參數(shù)如下:SVM設置懲罰系數(shù)C為20,使用高斯核函數(shù),DT使用基尼系數(shù)。在2個數(shù)據(jù)集上進行5-fold交叉驗證,實驗重復運行算法5次,運行結果如圖5所示。圖中效果表明本文提取特征能有效區(qū)分房東是否匹配,并且通過對比驗證TSHM在房東匹配問題上優(yōu)于常用分類模型。
圖5 模型效果對比
本章設計多個實驗,驗證所抽取匹配特征和考慮算法中涉及大量參數(shù),通過遺傳算法可自動獲取多個匹配特征重要度,避免人為設置參數(shù)的主觀性引起的偏差;基于此給出房東匹配算法。通過真實多平臺數(shù)據(jù)驗證,在普通數(shù)據(jù)集中精度高達99.69%,在難例數(shù)據(jù)集上也獲得81.97%的準確率,最后引入其它分類模型進行對比,實驗結果表明TSHM模型在在線短租房東匹配問題上優(yōu)于其他模型。實驗從多個角度驗證兩階段算法的正確性和有效性,并兼顧效率和精度2個方面深度探討各類特征在跨平臺房東匹配中起到的作用。
隨著在線短租平臺的涌現(xiàn),房東多歸屬現(xiàn)象持續(xù)受到關注與研究。在不同平臺識別同源房東成為首要解決的問題,本文基于社交與電商等領域現(xiàn)有研究,提出了一種基于房源匹配的C2C在線短租跨平臺房東匹配模型,使用遺傳算法搜索模型參數(shù),并基于2個國內知名在線短租的大量真實房源數(shù)據(jù),分別在原數(shù)據(jù)集與難例數(shù)據(jù)集上進行實驗,實驗結果表明該模型能有效識別同源房東。但本文實驗僅以國內平臺數(shù)據(jù)進行驗證分析,特征未考慮文本和圖片等,有待進一步豐富,后續(xù)研究可以引入更多特征,并結合國內與國外數(shù)據(jù)在更復雜情況下討論房東匹配方法。