李 鋒, 胡錦亞
(華南理工大學(xué) 工商管理學(xué)院, 廣東 廣州 510640)
加權(quán)符號網(wǎng)絡(luò)(weighted signed network)是復(fù)雜網(wǎng)絡(luò)領(lǐng)域中一類更加難以刻畫的網(wǎng)絡(luò)形式。從定義上說,加權(quán)符號網(wǎng)絡(luò)兼具符號網(wǎng)絡(luò)和加權(quán)網(wǎng)絡(luò)的特點(diǎn),即網(wǎng)絡(luò)中所有節(jié)點(diǎn)之間的關(guān)系/連線有正有負(fù)——符號網(wǎng)絡(luò),且節(jié)點(diǎn)之間的連線權(quán)值有大有小——加權(quán)網(wǎng)絡(luò)。因此,加權(quán)符號網(wǎng)絡(luò)中的連線權(quán)值包含更多的信息量,對于節(jié)點(diǎn)的分析和評價(jià)更加復(fù)雜。
現(xiàn)實(shí)中,多數(shù)社交電子商務(wù)平臺(tái)上的關(guān)系網(wǎng)絡(luò)都是加權(quán)符號網(wǎng)絡(luò)。在這些網(wǎng)站上,用戶進(jìn)行買賣交易之后,買家通常會(huì)對購買的商品或賣家的服務(wù)進(jìn)行評價(jià)。這些評價(jià)有好有壞、有高有低,構(gòu)建出了一個(gè)復(fù)雜的加權(quán)符號網(wǎng)絡(luò)。由此延伸出一個(gè)非?,F(xiàn)實(shí)的熱點(diǎn)和難點(diǎn)問題:如何評價(jià)社交電子商務(wù)網(wǎng)站上的用戶?隨著二手交易平臺(tái)的興起,如“轉(zhuǎn)轉(zhuǎn)”網(wǎng)站、“閑魚”網(wǎng)站、京東“拍拍二手”,有研究表明二手交易市場用戶規(guī)模達(dá)到4 000萬,交易規(guī)模達(dá)到5 000億元,且交易額以每年30%的速度增長。而平臺(tái)上的賣家或買家在選擇交易對象時(shí),如何評價(jià)與交易對象交易的風(fēng)險(xiǎn)成為他們普遍關(guān)心的一個(gè)社會(huì)問題。
當(dāng)前,對于社會(huì)關(guān)系網(wǎng)絡(luò)的研究還主要是針對無權(quán)、無向網(wǎng)絡(luò)進(jìn)行,即假定網(wǎng)絡(luò)中節(jié)點(diǎn)之間的連線是雙向的,且連線的權(quán)值統(tǒng)一為1;而對于加權(quán)符號網(wǎng)絡(luò),研究工作還處于初期和基礎(chǔ)研究階段。本文即是在此研究現(xiàn)狀和市場需求的雙重驅(qū)動(dòng)下,結(jié)合具體加權(quán)符號網(wǎng)絡(luò)的應(yīng)用背景進(jìn)行分析。通過分析,我們找出了交易網(wǎng)站中存在潛在交易風(fēng)險(xiǎn)的幾類用戶的網(wǎng)絡(luò)行為特征,據(jù)此能夠鑒別出存在潛在交易風(fēng)險(xiǎn)的用戶特征。
當(dāng)前,對于加權(quán)符號網(wǎng)絡(luò)的研究工作還主要集中在基礎(chǔ)領(lǐng)域,而應(yīng)用研究相對較為簡單[1]。
在基礎(chǔ)研究領(lǐng)域中,研究重點(diǎn)包括運(yùn)用結(jié)構(gòu)平衡理論(structural balance theory)去分析實(shí)際符號網(wǎng)絡(luò)的平衡性[2],并從平衡性的角度對網(wǎng)絡(luò)中連線的正、負(fù)符號進(jìn)行修訂[3-4]和預(yù)測[5];對復(fù)雜網(wǎng)絡(luò)社團(tuán)劃分的模塊化指標(biāo)Q進(jìn)行改造,實(shí)現(xiàn)符號網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)劃分[6];根據(jù)節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)屬性(中心度、相似度、參與度等)進(jìn)行節(jié)點(diǎn)聚類分析,采用不同的路線實(shí)現(xiàn)網(wǎng)絡(luò)社團(tuán)劃分[7-8];借鑒PageRank算法對網(wǎng)頁的評價(jià),采取類似的算法對符號網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行重要性評價(jià)[9-10];借鑒HIT算法將網(wǎng)絡(luò)中節(jié)點(diǎn)的評價(jià)指標(biāo)分為兩個(gè)對立的指標(biāo),從而對網(wǎng)絡(luò)中的連線進(jìn)行預(yù)測[11]等。除此之外,還有一些學(xué)者在研究符號網(wǎng)絡(luò)的網(wǎng)絡(luò)生成算法[12]。
但是,結(jié)合具體的應(yīng)用問題和應(yīng)用背景,將所研究的網(wǎng)絡(luò)構(gòu)建成為一個(gè)加權(quán)符號網(wǎng)絡(luò),并從應(yīng)用層面上對其解釋和分析的研究尚不多見。前期工作包括:采用模擬退火算法搜索出使得符號網(wǎng)絡(luò)上信息擴(kuò)散最廣的源頭節(jié)點(diǎn)集合[13];根據(jù)兩支股票收益率的相關(guān)系數(shù),得到股票之間正、負(fù)關(guān)系的符號網(wǎng)絡(luò),分析網(wǎng)絡(luò)的平衡性以及度分布等指標(biāo),并從股票類型上對網(wǎng)絡(luò)進(jìn)行解釋[14];將線上評價(jià)系統(tǒng)構(gòu)建為一個(gè)符號二分網(wǎng)絡(luò)(signed bipartite network),并從二分網(wǎng)絡(luò)的角度對網(wǎng)絡(luò)進(jìn)行分析[15]。其中,與本文研究最為接近的是文獻(xiàn)[15],即同樣對一個(gè)線上評價(jià)系統(tǒng)進(jìn)行符號網(wǎng)絡(luò)建模并分析。但不同的是,文獻(xiàn)[15]中將網(wǎng)絡(luò)中的用戶節(jié)點(diǎn)定義為買方和賣方,即二分網(wǎng)絡(luò);而本文所研究的線上評價(jià)系統(tǒng)中用戶既可以是買方,也可以是賣方,含義更加復(fù)雜。同時(shí),文獻(xiàn)[15]將網(wǎng)絡(luò)構(gòu)建成為一個(gè)符號網(wǎng)絡(luò),即網(wǎng)絡(luò)中連線只是正號或負(fù)號;而本文所研究的網(wǎng)絡(luò)是一個(gè)加權(quán)符號網(wǎng)絡(luò),即網(wǎng)絡(luò)連線不僅有正、負(fù)號的區(qū)別,還有數(shù)值上的差異。這兩點(diǎn)都使得本文所研究的應(yīng)用問題更加復(fù)雜。
本文研究的社交電子商務(wù)平臺(tái)為一個(gè)比特幣交易平臺(tái)——Bitcoin OTC(https://www.bitcoin-otc.com)。在此P2P平臺(tái)上,用戶可以直接進(jìn)行比特幣的買賣交易,不需要平臺(tái)的審核和介入。根據(jù)該網(wǎng)站政策,網(wǎng)站不對用戶進(jìn)行資格審查,也不對用戶交易承擔(dān)任何責(zé)任,所有交易風(fēng)險(xiǎn)由買賣雙方自行負(fù)責(zé)。因此,在此網(wǎng)站上注冊的用戶既可能是比特幣的買家和賣家,也可能是非誠信用戶——騙子(impostor and scammer)。
為了幫助用戶降低交易風(fēng)險(xiǎn),網(wǎng)站同時(shí)提供了一個(gè)用戶評價(jià)機(jī)制,即用戶在交易之后可以對本次交易的交易對象進(jìn)行評價(jià)。評價(jià)分?jǐn)?shù)的范圍從-10到+10(整數(shù)值,且不能取值為0),分?jǐn)?shù)越高代表該用戶對交易對方越信任,分?jǐn)?shù)越低則表示認(rèn)為交易對方越不誠信。例如,10分表示用戶對交易對象非常信任,網(wǎng)站建議這是用戶對線下的好朋友或同事才給予的評價(jià)(You trust this person as you trust yourself. Reserve this for close friends and associates you know in person);5分表示用戶與交易對象進(jìn)行了多次可靠的交易(You’ve had a number of good transactions with this person);-10分表示交易對象收了錢之后并沒有完成交易,是一個(gè)騙子(Person failed to hold up his end of the bargain, took payment and ran, fraudster)。因此,如果一位用戶被他人評價(jià)分?jǐn)?shù)越高,且被多人評價(jià)較高,則可以初步認(rèn)為其更加誠實(shí),交易的可信度越高。
簡而言之,對社交電子商務(wù)平臺(tái)上平臺(tái)用戶的信用風(fēng)險(xiǎn)評價(jià)主要基于以下幾個(gè)直覺和觀點(diǎn):①其他用戶評價(jià)分?jǐn)?shù)越高的用戶,其信用越好,交易風(fēng)險(xiǎn)越小;②其他用戶評價(jià)分?jǐn)?shù)越低的用戶,其信用越差,交易風(fēng)險(xiǎn)較大;③其他用戶評價(jià)分?jǐn)?shù)有正有負(fù),其信用和交易風(fēng)險(xiǎn)也較大。
但是,由于網(wǎng)站用戶并非都是誠信用戶,用戶之間的評分也存在作假的可能。例如,多個(gè)騙子賬號可以先對一個(gè)賬號集中打高分,從而提高該賬號的可信度,再以此賬號騙取不知情用戶的信任,最終實(shí)施詐騙。
如圖1所示,對于某指定用戶而言,在2013年2月28日和3月1日連續(xù)兩天中,有14位用戶對其評價(jià),且評價(jià)以+8和+10為主。而在5月14日,該用戶因不正常的行為企圖,被他人評價(jià)為潛在的騙子。如果僅根據(jù)該用戶的評分判斷其信用等級,那么根據(jù)其“被其他用戶評價(jià)的分?jǐn)?shù)均值”為8.2143(115/14),會(huì)得出交易風(fēng)險(xiǎn)較低的結(jié)論??梢?,簡單地根據(jù)用戶的評分判斷用戶的誠信并不一定有效。
圖1 網(wǎng)站上典型的騙子賬號行為
本文以斯坦福大學(xué)的網(wǎng)絡(luò)分析項(xiàng)目所提供的名為“bitcoin-otc”的數(shù)據(jù)集來構(gòu)建用戶之間加權(quán)符號網(wǎng)絡(luò)。該數(shù)據(jù)集有35 592條評價(jià)信息,總共涉及5 881個(gè)用戶。根據(jù)數(shù)據(jù)集合定義,每條數(shù)據(jù)包括四個(gè)字段:評價(jià)者(source)、被評價(jià)者(target)、評價(jià)分?jǐn)?shù)(rating)和評價(jià)時(shí)間(time)。為避免評價(jià)時(shí)間因素的引入使得網(wǎng)絡(luò)分析更加復(fù)雜,本文忽略了評價(jià)時(shí)間,僅以評價(jià)者、被評價(jià)者和評價(jià)分?jǐn)?shù)三個(gè)字段構(gòu)建加權(quán)符號網(wǎng)絡(luò)。
在構(gòu)造的加權(quán)符號網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)代表了一個(gè)系統(tǒng)用戶,而每條有向邊描述了一個(gè)用戶對另外一個(gè)用戶的評價(jià),邊的權(quán)值則定義為用戶評價(jià)的實(shí)際評價(jià)值。所得到的加權(quán)符號網(wǎng)絡(luò)的基本統(tǒng)計(jì)信息如表1所示。
表1 加權(quán)網(wǎng)絡(luò)的基本信息
忽略網(wǎng)絡(luò)中連線的方向性和權(quán)值,做出加權(quán)符號網(wǎng)絡(luò)的無向網(wǎng)絡(luò)。對該無向網(wǎng)絡(luò)采取標(biāo)準(zhǔn)的社團(tuán)劃分(community partitioning),以Q值作為評價(jià)社團(tuán)劃分的指標(biāo)[16],并將節(jié)點(diǎn)按照社團(tuán)進(jìn)行聚類展示(如圖2所示)。
從圖中,我們可以看出除了一些分散在網(wǎng)絡(luò)外圍的邊緣節(jié)點(diǎn),核心區(qū)域中節(jié)點(diǎn)分群特征明顯,即同屬于相同社團(tuán)的節(jié)點(diǎn)連接緊密,不同社團(tuán)的節(jié)點(diǎn)連接較弱。
圖2 展現(xiàn)社團(tuán)特征的用戶評價(jià)網(wǎng)絡(luò)
根據(jù)用戶評價(jià)系統(tǒng)的描述,當(dāng)一個(gè)用戶被其他用戶以負(fù)值評價(jià)時(shí),表明該用戶在交易過程中表現(xiàn)“異?!?;如果用戶選擇與此類用戶進(jìn)行交易,存在較高的交易風(fēng)險(xiǎn)。相反,當(dāng)一個(gè)用戶被其他用戶都以正值評價(jià)時(shí),表明該用戶在交易過程中表現(xiàn)“良好”;如果用戶選擇與此類用戶進(jìn)行交易,交易風(fēng)險(xiǎn)較低。
因此,我們根據(jù)用戶是否被其他用戶給予負(fù)值評價(jià)為規(guī)則進(jìn)行節(jié)點(diǎn)分類,得到曾經(jīng)被其他用戶負(fù)值評價(jià)的節(jié)點(diǎn)1 254個(gè)(簡稱為N類節(jié)點(diǎn)),未被其他用戶負(fù)值評價(jià)的節(jié)點(diǎn)4 604個(gè)(簡稱為P類節(jié)點(diǎn))。另外,有23個(gè)節(jié)點(diǎn)沒有被其他用戶評價(jià)的記錄(簡稱為Z類節(jié)點(diǎn))。
借鑒該評價(jià)系統(tǒng)中對用戶的評價(jià)指標(biāo)——用戶對其他用戶評價(jià)的次數(shù)(number of total ratings sent),評價(jià)指標(biāo)代號為CI-1,對P類節(jié)點(diǎn)進(jìn)行指標(biāo)統(tǒng)計(jì)(如圖3所示)。根據(jù)評價(jià)系統(tǒng)的有向網(wǎng)絡(luò)定義,該指標(biāo)值實(shí)際上統(tǒng)計(jì)了節(jié)點(diǎn)的出度(out-degree)指標(biāo)。
(a)整體統(tǒng)計(jì)分布
(b)剔除極大值點(diǎn)影響后的統(tǒng)計(jì)分布
從該指標(biāo)值的統(tǒng)計(jì)來看,P類用戶在此指標(biāo)上存在明顯的分類特征,即用戶指標(biāo)值多數(shù)小于15,但是在數(shù)值25左右有著顯著聚集。如果忽略極值點(diǎn)的影響,此特征更加明顯,如圖3(b)所示。
對于P類節(jié)點(diǎn)的另外3個(gè)基本指標(biāo),即用戶被其他用戶評價(jià)的次數(shù)(number of total ratings received)、用戶對其他用戶評價(jià)的分?jǐn)?shù)均值(mean of ratings sent)、用戶被其他用戶評價(jià)的分?jǐn)?shù)均值(mean of ratings received)進(jìn)行統(tǒng)計(jì)。同樣,根據(jù)定義,節(jié)點(diǎn)的“被其他用戶評價(jià)的次數(shù)”指標(biāo)實(shí)際上是有向網(wǎng)絡(luò)中節(jié)點(diǎn)的入度(in-degree)指標(biāo)值。
(a)用戶被其他用戶評價(jià)的次數(shù)(指標(biāo)CI-2)
(b)剔除極大值點(diǎn)影響后的 用戶被其他用戶評價(jià)的次數(shù)
(c)用戶對其他用戶評價(jià)的分?jǐn)?shù)均值(指標(biāo)CI-3)
(d)用戶被其他用戶評價(jià)的分?jǐn)?shù)均值(指標(biāo)CI-4)
從圖4可以看出,P類用戶同樣存在明顯的子類集合。
根據(jù)圖3和圖4中的統(tǒng)計(jì)分布結(jié)果,可以看出對于P類用戶而言:①如圖3(b)和圖4(b)所示,多數(shù)用戶的交易頻率不高(評價(jià)其他用戶的次數(shù)和被其他用戶評價(jià)的次數(shù)),但是有部分用戶相對活躍,交易次數(shù)超過20次;②如圖4(c)和圖4(d)所示,多數(shù)用戶對其他用戶的評價(jià)分?jǐn)?shù)均值多為1~3,因此用戶被其他用戶評價(jià)的分?jǐn)?shù)均值也多為1~3;③如圖4(c)所示,少數(shù)用戶對其他用戶的評價(jià)分?jǐn)?shù)均值為-10,表明用戶在交易中遇到了問題用戶,因此評價(jià)對方為“騙子”;④如圖4(d)所示,還有少數(shù)用戶對其他用戶評價(jià)的分?jǐn)?shù)均值為+10。這個(gè)評價(jià)分?jǐn)?shù)偏離多數(shù)用戶的評價(jià)分?jǐn)?shù)均值,表明這類用戶自身也存在問題,有可能為“騙子”。
對1 254個(gè)N類節(jié)點(diǎn)進(jìn)行相同的統(tǒng)計(jì)分析,如圖5所示,我們可以發(fā)現(xiàn)N類節(jié)點(diǎn)同樣具有明顯的分類特征。
(a)用戶對其他用戶評價(jià)的次數(shù)(指標(biāo)CI-1)
(b)用戶被其他用戶評價(jià)的次數(shù)(指標(biāo)CI-2)
(c)剔除極大值點(diǎn)影響后的用戶對其他用戶評價(jià)的次數(shù)
(d)剔除極大值點(diǎn)影響后的用戶被其他用戶評價(jià)的次數(shù)
(e)用戶對其他用戶評價(jià)的分?jǐn)?shù)均值(指標(biāo)CI-3)
(f)用戶被其他用戶評價(jià)的分?jǐn)?shù)均值(指標(biāo)CI-4)
更加明顯的是,對于N類節(jié)點(diǎn)而言,用戶被其他用戶評價(jià)的分?jǐn)?shù)均值較大比例大于0(圖5f所示),有的甚至接近了+5。
為了進(jìn)一步發(fā)現(xiàn)P類節(jié)點(diǎn)和N類節(jié)點(diǎn)的整體特征,我們對其中與其他用戶節(jié)點(diǎn)差異較大的節(jié)點(diǎn)進(jìn)行特征挖掘。
1.P類節(jié)點(diǎn)分類
由圖4c可知,在P類節(jié)點(diǎn)中有部分節(jié)點(diǎn)對他人的評價(jià)分?jǐn)?shù)均值趨近于+10。表明這類用戶可能是在幫助騙子賬戶提高其該指標(biāo)均值,目的在于提高其信用等級,協(xié)助其達(dá)到欺騙的目的。
同時(shí),圖4d也發(fā)現(xiàn)P類節(jié)點(diǎn)中部分節(jié)點(diǎn)被他人評價(jià)的分?jǐn)?shù)均值也接近+10。這表明此類節(jié)點(diǎn)可能是正在由騙子賬戶幫助其提高信用等級,等待不知情用戶上鉤的騙子團(tuán)伙。
根據(jù)統(tǒng)計(jì)信息,4 604個(gè)P類節(jié)點(diǎn)的指標(biāo)“用戶對其他用戶評價(jià)的分?jǐn)?shù)均值”平均值為1.539 3,標(biāo)準(zhǔn)方差為1.896 5。因此,我們以3倍標(biāo)準(zhǔn)差為分界線(7.228 8=1.539 3+3×1.896 5)對P類節(jié)點(diǎn)進(jìn)行劃分,即將該指標(biāo)值大于7.228 8的節(jié)點(diǎn)篩選出來,作為異常用戶節(jié)點(diǎn)。為了描述方便,下文稱此類節(jié)點(diǎn)為PS-1類節(jié)點(diǎn)。
同理,對P類節(jié)點(diǎn)的指標(biāo)“用戶被其他用戶評價(jià)的分?jǐn)?shù)均值”,根據(jù)其平均值1.665 3和標(biāo)準(zhǔn)方差1.279 4,以其3倍標(biāo)準(zhǔn)差5.503 5進(jìn)行節(jié)點(diǎn)劃分,即將該指標(biāo)值大于5.5035的節(jié)點(diǎn)篩選出來。為了描述方便,下文稱此類節(jié)點(diǎn)為PS-2類節(jié)點(diǎn)。
另外,有一些節(jié)點(diǎn)既屬于PS-1類節(jié)點(diǎn),也屬于PS-2類節(jié)點(diǎn),我們稱此類節(jié)點(diǎn)為PS-12類。而那些既不屬于PS-1類,也不屬于PS-2類節(jié)點(diǎn)的P類節(jié)點(diǎn),我們定義其為PS-0類節(jié)點(diǎn)。
2.N類節(jié)點(diǎn)分類
由圖5e可知,在N類節(jié)點(diǎn)中有部分節(jié)點(diǎn)對他人的評價(jià)分?jǐn)?shù)均值趨近+10,表明這類用戶可能是在幫助騙子賬戶提高其信用等級,協(xié)助其達(dá)到欺騙的目的。與P類節(jié)點(diǎn)中PS-1類節(jié)點(diǎn)不同的是,此類節(jié)點(diǎn)是已經(jīng)被識(shí)別的騙子賬號。
從圖5f可以看出,多數(shù)N類節(jié)點(diǎn)被其他用戶評價(jià)的分?jǐn)?shù)均值主要集中在-6~+4,但是存在部分節(jié)點(diǎn)的該指標(biāo)值集中在-10。結(jié)合P類節(jié)點(diǎn)中的PS-1類節(jié)點(diǎn)的行為,可以認(rèn)為多數(shù)N類節(jié)點(diǎn)是先被其他用戶(騙子同伙)給予接近+10的評價(jià),之后被受騙的用戶給予接近-10的評價(jià)。從評價(jià)分?jǐn)?shù)的統(tǒng)計(jì)值上來看,該節(jié)點(diǎn)的被評價(jià)分?jǐn)?shù)平均值趨向于0。
相比之下,N類節(jié)點(diǎn)中被其他用戶評價(jià)的分?jǐn)?shù)均值為-10的用戶,可能是該用戶的同伙數(shù)量較少,給其正值評價(jià)較少;或該用戶同時(shí)欺騙了多位用戶,導(dǎo)致其評價(jià)分?jǐn)?shù)的和較低。
根據(jù)以上分析,結(jié)合PS-1類用戶的分類標(biāo)準(zhǔn),我們同樣以該指標(biāo)值(CI-3指標(biāo))大于7.228 8的節(jié)點(diǎn)篩選出異常的節(jié)點(diǎn)集合,并定義其為NS-1。
從圖5f中可以看出,N類節(jié)點(diǎn)在CI-4指標(biāo)上取值較為分散。因此,本文簡單地以CI-4指標(biāo)值為-9對節(jié)點(diǎn)進(jìn)行分類,得到CI-4指標(biāo)值趨近于-10的異常節(jié)點(diǎn)集合NS-2。
類似的定義節(jié)點(diǎn)集合NS-12為同時(shí)屬于NS-1和NS-2的節(jié)點(diǎn)集合,而集合NS-0為不屬于NS-1和NS-2的N類節(jié)點(diǎn)。
根據(jù)分析,我們可以確定網(wǎng)絡(luò)中被標(biāo)記為NS-1類、NS-2類、PS-1類、PS-2類的節(jié)點(diǎn)都是異常節(jié)點(diǎn),與其交易的風(fēng)險(xiǎn)較高。因此,下文嘗試采用簡單實(shí)用的分類方法發(fā)現(xiàn)這些異常節(jié)點(diǎn)的特征并從整個(gè)網(wǎng)絡(luò)中進(jìn)行區(qū)分。
1.基于節(jié)點(diǎn)指標(biāo)值的分類
通過分類,我們發(fā)現(xiàn)無論是PS-1類節(jié)點(diǎn)、PS-2類節(jié)點(diǎn),還是NS-1類節(jié)點(diǎn)、NS-2類節(jié)點(diǎn),都具有明顯的行為相似性。例如,圖6分別給出了這4類異常節(jié)點(diǎn)的指標(biāo)CI-1(用戶對其他用戶評價(jià)的次數(shù))的統(tǒng)計(jì)分布情況。
(a)PS-1類節(jié)點(diǎn)
(b)PS-2類節(jié)點(diǎn)
(c)NS-1類節(jié)點(diǎn)
(d)NS-2類節(jié)點(diǎn)
從圖6可以看出,這4類節(jié)點(diǎn)的聚類特性非常明顯。因此,可以用節(jié)點(diǎn)的整體特性來描述這一類節(jié)點(diǎn)的特征。
我們以節(jié)點(diǎn)的CI-1指標(biāo)(用戶對其他用戶評價(jià)的次數(shù))和CI-2指標(biāo)(用戶被其他用戶評價(jià)的次數(shù))對節(jié)點(diǎn)進(jìn)行可視化展示,如圖7所示。因?yàn)镃I-1指標(biāo)和CI-2指標(biāo)的取值都為整數(shù),所以圖7中節(jié)點(diǎn)呈離散分布。
顏色更加淺的點(diǎn)表示此處節(jié)點(diǎn)數(shù)量較多。從圖7可以看出,采用多個(gè)指標(biāo)對這些節(jié)點(diǎn)分類,可以發(fā)現(xiàn)節(jié)點(diǎn)的聚類特性更加明顯。并且,這4類節(jié)點(diǎn)都相對集中在圖形的左下角,這表明這四類節(jié)點(diǎn)的CI-1指標(biāo)和CI-2指標(biāo)值都較小,它們之間具有較高的相似性。因此,將這4類節(jié)點(diǎn)放在同一張散點(diǎn)圖上,結(jié)果如圖8所示。
(a)PS-1類節(jié)點(diǎn)
(b)PS-2類節(jié)點(diǎn)
(c)NS-1類節(jié)點(diǎn)
(d)NS-2類節(jié)點(diǎn)
圖8 4類異常節(jié)點(diǎn)整體的散點(diǎn)圖
可以看出,這4類節(jié)點(diǎn)都具有較強(qiáng)的相似性。將少數(shù)節(jié)點(diǎn)刪除之后,多數(shù)節(jié)點(diǎn)都聚集在圖形的左下角。
根據(jù)以上數(shù)據(jù)分析和展示,可以較為清晰地看出這4類節(jié)點(diǎn)區(qū)別其他節(jié)點(diǎn)的特征為這4類節(jié)點(diǎn)各項(xiàng)指標(biāo)的均值,即PS-1類、PS-2類節(jié)點(diǎn)和NS-1類、NS-2類節(jié)點(diǎn)的指標(biāo)均值可以作為區(qū)分這些節(jié)點(diǎn)的屬性。
2.四類節(jié)點(diǎn)指標(biāo)特征的顯著性
在發(fā)現(xiàn)這4類異常節(jié)點(diǎn)的特征模式之后,我們將這4類節(jié)點(diǎn)放入普通節(jié)點(diǎn)集合之中,觀察這4類節(jié)點(diǎn)的特征顯著性。
將P類節(jié)點(diǎn)以CI-1指標(biāo)和CI-2指標(biāo)展示在散點(diǎn)圖上,如圖9所示。
從圖9(a)可以看出,相比于PS-0類節(jié)點(diǎn),PS-1類節(jié)點(diǎn)和PS-2類節(jié)點(diǎn)非常集中(圖中PS-1/2標(biāo)記所示的節(jié)點(diǎn)為PS-1或PS-2類節(jié)點(diǎn)的位置)。
類似地將N類節(jié)點(diǎn)以CI-1指標(biāo)和CI-2指標(biāo)展示在散點(diǎn)圖上。從圖9(b)上也看出了與圖9(a)中相同的現(xiàn)象,即NS-1或NS-2類節(jié)點(diǎn)的特征非常明顯,即使是放在整個(gè)數(shù)據(jù)集合中,其特征也能夠清楚發(fā)現(xiàn)。
如果將這4類節(jié)點(diǎn)放在整個(gè)網(wǎng)絡(luò)中,如圖10所示,我們亦然可以看到這些節(jié)點(diǎn)特征明顯,聚集在所有節(jié)點(diǎn)集合的中心。這表明這4類異常節(jié)點(diǎn)具有明顯的特征,可以從整個(gè)網(wǎng)絡(luò)中篩選出來。
圖10 網(wǎng)絡(luò)所有節(jié)點(diǎn)的散點(diǎn)圖
3.異常節(jié)點(diǎn)的相似性
為了檢驗(yàn)異常節(jié)點(diǎn)特征屬性的識(shí)別特性,下面分別以不同類別異常節(jié)點(diǎn)的平均值作為此類節(jié)點(diǎn)的整體模式,并計(jì)算所有節(jié)點(diǎn)與該平均值之間的相似性。
以PS-1類節(jié)點(diǎn)為例,此類節(jié)點(diǎn)指標(biāo)CI-1、CI-2、CI-3和CI-4的平均值分別為:
(1)
接著計(jì)算每個(gè)PS-1類節(jié)點(diǎn)i與該指標(biāo)值的相似性(在計(jì)算相似性之前,首先根據(jù)指標(biāo)的極大值和極小值對屬性數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)的歸一化處理):
(2)
作為對比,同樣計(jì)算PS-0類節(jié)點(diǎn)k與該指標(biāo)值的相似性:
(3)
圖11給出了PS-1類節(jié)點(diǎn)屬性的相似度。
(a)PS-1類節(jié)點(diǎn)
(b)PS-0類節(jié)點(diǎn)
從圖11可以看出,PS-1類節(jié)點(diǎn)與整體屬性之間的相似性多數(shù)都超過85%,而PS-0類節(jié)點(diǎn)與PS-1類節(jié)點(diǎn)整體屬性的相似性全部都低于85%。這也驗(yàn)證了采用PS-1類節(jié)點(diǎn)整體屬性進(jìn)行節(jié)點(diǎn)分類的有效性。
圖12~圖14分別給出了PS-2類節(jié)點(diǎn)、NS-1類節(jié)點(diǎn)和NS-2類節(jié)點(diǎn)的相似度計(jì)算結(jié)果。
(a)PS-2類節(jié)點(diǎn)
(b)PS-0類節(jié)點(diǎn)
(a)NS-1類節(jié)點(diǎn)
(b)NS-0類節(jié)點(diǎn)
(a)NS-2類節(jié)點(diǎn)
(b)NS-0類節(jié)點(diǎn)
可以看出,這4類節(jié)點(diǎn)的整體特征能夠較好地代表這些節(jié)點(diǎn)(相似性指標(biāo)較高),并與其他節(jié)點(diǎn)可以區(qū)分開來。但是,在未被劃分為這4類的節(jié)點(diǎn)(PS-0類節(jié)點(diǎn)和NS-0類節(jié)點(diǎn))中,也有部分節(jié)點(diǎn)與這4類節(jié)點(diǎn)相似度非常高。這說明,還有部分有潛在風(fēng)險(xiǎn)的節(jié)點(diǎn)特征尚未被識(shí)別出來。
4.小結(jié)
通過以上的數(shù)據(jù)分析和挖掘,我們可以得出以下結(jié)論:
第一,網(wǎng)絡(luò)中用戶的交易行為具有明顯的整體特征,而那些偏離整體特征的異常節(jié)點(diǎn)多為問題節(jié)點(diǎn),與這些異常節(jié)點(diǎn)進(jìn)行交易存在較大的風(fēng)險(xiǎn)。
第二,根據(jù)節(jié)點(diǎn)在加權(quán)符號網(wǎng)絡(luò)中的連線權(quán)值、符號和數(shù)量,能夠簡單并有效地區(qū)分出網(wǎng)絡(luò)中的異常節(jié)點(diǎn)。
第三,由于異常節(jié)點(diǎn)行為特征的相似性,可以根據(jù)已經(jīng)被他人證實(shí)的異常節(jié)點(diǎn)特征(NS-1類節(jié)點(diǎn)和NS-2類節(jié)點(diǎn))去識(shí)別那些未被他人證實(shí)的潛在異常節(jié)點(diǎn)。
本項(xiàng)研究是以加權(quán)符號網(wǎng)絡(luò)的模型構(gòu)建比特幣交易網(wǎng)站上的用戶評價(jià)網(wǎng)絡(luò)。通過用戶之間評價(jià)的符號和數(shù)值,我們識(shí)別出網(wǎng)絡(luò)中那些具有交易風(fēng)險(xiǎn)的用戶的行為特點(diǎn)。通過數(shù)據(jù)分析,發(fā)現(xiàn)了這些行為特征模式,能夠作為區(qū)分和判斷存在潛在網(wǎng)絡(luò)交易風(fēng)險(xiǎn)的用戶節(jié)點(diǎn)的標(biāo)準(zhǔn)。作為交易平臺(tái),雖然并不為用戶提供信用擔(dān)保,但是可以提供類似的用戶查詢功能,幫助用戶降低交易風(fēng)險(xiǎn),同時(shí)也能保證平臺(tái)的健康發(fā)展。
華南理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2019年1期