黃樹斌 王彤
【 摘 要 】 在線社交網(wǎng)絡(luò)中,異常用戶是始終存在的?,F(xiàn)代的手持移動(dòng)終端設(shè)備在提升普通用戶便攜性的同時(shí),也降低了異常用戶在社交網(wǎng)絡(luò)中的行為成本。KMV模型是美國(guó)KMV公司于1993年建立,用來估計(jì)借款企業(yè)違約概率的方案,是應(yīng)用最廣泛的信任度量模型之一。論文嘗試使用KMV模型來映射計(jì)算社交網(wǎng)絡(luò)中異常用戶的預(yù)期違約率,在保證KMV模型高效、精確的前提下,保證了異常用戶的識(shí)別率,能夠運(yùn)用在實(shí)際社交網(wǎng)絡(luò)環(huán)境中。
【 關(guān)鍵詞 】 在線社交網(wǎng)絡(luò);異常用戶;預(yù)期違約率;KMV
【 Abstract 】 Abnormal user will exist permanently in Online Social Network(OSNs). Modern mobile device as well as improve the portability of ordinary users also reduces the cost of malicious behaviors in OSNs. KMV model was posted by KMV Corporation in 1993 to focus on estimating the Expected Default Frequency(EDF) of the enterprise, KMV is the one of the most widely used credit monitor model. This paper use KMV to modeling the EDF of abnormal users in OSNs, has a high recognition rate of abnormal users in guarantee the efficiency and accuracy of KMV. It can be used in actual OSNs.
【 Keywords 】 osns; abnoraml user; edf; kmv
1 引言
隨著移動(dòng)手持設(shè)備的發(fā)展和社交網(wǎng)絡(luò)的進(jìn)一步演化,越來越多的人能夠低成本的使用社交網(wǎng)絡(luò)。由于移動(dòng)手持設(shè)備的功能的逐漸增加,社交網(wǎng)絡(luò)的終端設(shè)備已經(jīng)逐漸由PC端轉(zhuǎn)移到移動(dòng)端。移動(dòng)端手持設(shè)備具有使用時(shí)間片分散、使用成本低、用戶忍耐度低等屬性,這些屬性,給社交網(wǎng)絡(luò)帶來了一些新的特征。同時(shí),也造成了異常用戶的行為成本降低,增大了異常用戶的數(shù)量。
在以往的研究中,對(duì)于異常用戶的檢測(cè)使用的方案大致有基于行為特征、基于內(nèi)容、基于圖、無監(jiān)督學(xué)習(xí)等方向。使用如上方案,能夠在一定程度上達(dá)到檢測(cè)異常用戶的目的,不過仍有一些局限性,具體表現(xiàn)在兩方面。
第一,無法發(fā)現(xiàn)并檢測(cè)新的攻擊方式:由于社交網(wǎng)絡(luò)中異常用戶是始終存在的,因此,社交網(wǎng)絡(luò)中會(huì)不斷出現(xiàn)各種新的攻擊方式。異常用戶由不同的目的,會(huì)根據(jù)社交網(wǎng)絡(luò)的用戶監(jiān)督系統(tǒng)設(shè)置,不斷調(diào)整自己的攻擊方式。唯一能識(shí)別新的攻擊特征的無監(jiān)督學(xué)習(xí)方案,由于方案本身的一些局限性,仍然需要有運(yùn)營(yíng)人員時(shí)刻關(guān)注社交網(wǎng)絡(luò)的發(fā)展。
第二,處理數(shù)據(jù)量過大,無法達(dá)到異常用戶檢測(cè)所需的實(shí)時(shí)性:基于推薦的一些解決方案,包括基于內(nèi)容的方案,能夠達(dá)到較高的準(zhǔn)確性,但是由于解決方案本身需要分析大量數(shù)據(jù),因此實(shí)時(shí)性無法保證,一般用于離線數(shù)據(jù)分析等場(chǎng)景中。無法在惡意用戶的使用過程中及時(shí)的發(fā)現(xiàn)并采取相應(yīng)措施。
本文將經(jīng)濟(jì)學(xué)領(lǐng)域中的KMV模型應(yīng)用于社交網(wǎng)絡(luò)中,通過相應(yīng)的概念映射,能夠利用KMV模型中的思想,得到相應(yīng)的用戶節(jié)點(diǎn)的預(yù)期違約率。從而判斷在選定時(shí)間周期內(nèi),用戶的違約概率,以此來相應(yīng)的選擇應(yīng)對(duì)方案,減少異常用戶對(duì)正常用戶以及社交網(wǎng)絡(luò)本身造成更大的信息干擾。
2 KMV模型基礎(chǔ)思想
KMV模型是美國(guó)KMV公司于1997年建立的用來估計(jì)借款企業(yè)違約概率的方案,是應(yīng)用最廣泛的信任度量模型之一。該模型認(rèn)為,貸款的信用風(fēng)險(xiǎn)是在給定負(fù)債的情況下,由債務(wù)人的資產(chǎn)市場(chǎng)價(jià)值決定的。結(jié)合Black-scholes期權(quán)定價(jià)公式,估算出企業(yè)資產(chǎn)的市場(chǎng)價(jià)值、資產(chǎn)價(jià)值的波動(dòng)性。根據(jù)公司的負(fù)債計(jì)算出公司的違約實(shí)施點(diǎn),計(jì)算相應(yīng)的違約距離。再根據(jù)違約距離計(jì)算出預(yù)期違約率(EDF)。
KMV模型的主要優(yōu)勢(shì)在于,使用了資本市場(chǎng)的信息而不是歷史賬面資料進(jìn)行預(yù)測(cè),很好的將市場(chǎng)信息加入了預(yù)測(cè)邏輯中,更夠反應(yīng)企業(yè)當(dāng)前的信用狀況。在一定的時(shí)間積累內(nèi),KMV模型可以預(yù)測(cè)得到違約區(qū)間。因此,本文將KMV模型引入社交網(wǎng)絡(luò)中,嘗試達(dá)到相對(duì)實(shí)時(shí)、運(yùn)算資源消耗較少的目的。
3 KMV模型在社交網(wǎng)絡(luò)中的映射
在本部分中,我們將KMV模型中的理論,映射到社交網(wǎng)絡(luò)中,嘗試解決社交網(wǎng)絡(luò)中異常用戶檢測(cè)的問題。
首先,KMV模型的主要思想:貸款的信用風(fēng)險(xiǎn)是在給定負(fù)債的情況下由債務(wù)人的資產(chǎn)市場(chǎng)價(jià)值決定的。映射在社交網(wǎng)絡(luò)中,可以表述為:觀察用戶點(diǎn)的異常行為風(fēng)險(xiǎn),是在已記錄的行為情況下,由觀察用戶點(diǎn)的總體信任值決定的。也就是說,被觀察的用戶點(diǎn),產(chǎn)生異常行為的可能性,和用戶點(diǎn)的前期行為有關(guān),也和用戶點(diǎn)的當(dāng)前未清算的行為(債務(wù))有關(guān)。
社交網(wǎng)絡(luò)中概念和KMV模型中的概念對(duì)應(yīng)起來。
(1)用戶信任值:在社交網(wǎng)絡(luò)中,用戶的信任值表示用戶的一個(gè)評(píng)分值。與KMV模型中企業(yè)股權(quán)的市場(chǎng)價(jià)值相對(duì)應(yīng)。(2)用戶行為:本文將社交網(wǎng)絡(luò)中用戶的行為分為正向行為、負(fù)向行為、中性行為。正向行為對(duì)信任值有益,負(fù)向行為對(duì)信任值有害,中性行為不對(duì)信任值本身產(chǎn)生影響。(3)單次使用時(shí)長(zhǎng):在社交網(wǎng)絡(luò)中,存在一個(gè)平均單次使用時(shí)長(zhǎng)的數(shù)值,表示一個(gè)用戶平均一次使用社交網(wǎng)絡(luò)的時(shí)長(zhǎng)。本文使用該時(shí)長(zhǎng)作為一個(gè)時(shí)間段,在一個(gè)時(shí)間段內(nèi),所有的正向行為、負(fù)向行為,加權(quán)得到用戶的具體信任值增減。(4)使用天為單位,將一個(gè)單位時(shí)間內(nèi)的信任值增加作為債務(wù)和收益,下一個(gè)有效單位時(shí)間內(nèi)才計(jì)算入總體信任值。
4 算法實(shí)施
4.1 數(shù)據(jù)說明
實(shí)驗(yàn)數(shù)據(jù)集使用的是目標(biāo)應(yīng)用:Feeling 大學(xué)聊天交友社交APP。目前為止,該應(yīng)用累計(jì)用戶在20萬人左右,作為研究目標(biāo),可以代表一般的社交網(wǎng)絡(luò)應(yīng)用。從應(yīng)用中隨機(jī)選取用戶100人,其中包含目標(biāo)用戶點(diǎn)10人,參照用戶點(diǎn)90人,終端類型為 iOS,注冊(cè)時(shí)長(zhǎng)在一周以上,活躍時(shí)間超過1天,均為產(chǎn)生用戶行為數(shù)據(jù)在10以上的用戶。以一個(gè)月為分析時(shí)間段,一天為一個(gè)變化周期,單次使用時(shí)長(zhǎng)為計(jì)算周期。根據(jù)移動(dòng)互聯(lián)網(wǎng)的特性,去除掉不存在操作的時(shí)間段,得到用戶的活動(dòng)次數(shù)頻次圖1所示。
從圖1可以看出,作為分析對(duì)象的100名用戶,在12月中的活躍率在40%-70%之間。在所有記錄的用戶行為中,選擇能夠產(chǎn)生數(shù)據(jù)的行為,加權(quán)后如圖2所示。
4.2 算法描述
根據(jù)以上思想,KMV模型算法描述如下:
用戶的當(dāng)前信任值VA
輸入:一個(gè)月內(nèi)觀察點(diǎn)的加權(quán)行為數(shù)據(jù)
輸出:觀察點(diǎn)的信任值歷史波動(dòng)率αA
輸入:觀察點(diǎn)的當(dāng)前時(shí)間段債務(wù)與收入
輸出:違約點(diǎn)DP= LS+LS違約距離DD=
最終得到觀察點(diǎn)的預(yù)期違約率:EDF=N[-DD]
4.3 實(shí)驗(yàn)結(jié)果
得到的最終預(yù)期違約率如圖3所示。
作為觀察點(diǎn)的10名用戶中,經(jīng)過人工分析后得出的結(jié)論表1所示用戶標(biāo)記。
從表1中可以發(fā)現(xiàn),人工分析后,用戶標(biāo)記大致和預(yù)期違約率走勢(shì)相吻合。對(duì)于特殊點(diǎn)r6,由于有效數(shù)據(jù)過少,算法與人工分析都暫時(shí)無法判斷用戶屬性。
5 結(jié)束語(yǔ)
將經(jīng)濟(jì)學(xué)領(lǐng)域中模型映射到社交網(wǎng)絡(luò)中,用作用戶分析,是一個(gè)比較有趣的問題。作為經(jīng)濟(jì)學(xué)分析對(duì)象的上市公司,有很多行為都和用戶在社交網(wǎng)絡(luò)中產(chǎn)生的行為非常類似。使用的模型,能夠很好地對(duì)分析對(duì)象行為進(jìn)行預(yù)測(cè),在實(shí)時(shí)性和準(zhǔn)確性上都達(dá)到了一個(gè)較滿意的效果。但是,由于分析對(duì)象本質(zhì)的不同,需要對(duì)模型進(jìn)行修正,也需要對(duì)分析的用戶做一些篩選。
最終結(jié)果中,KMV模型雖然對(duì)目標(biāo)用戶上下限的分析預(yù)測(cè)較為準(zhǔn)確,但仍然還存在部分中間用戶無法較好的判斷。
因此,在后續(xù)研究中,將研究KMV模型中違約點(diǎn)的設(shè)定方式,同時(shí)搜集更多的用戶有效行為數(shù)據(jù),進(jìn)一步提升算法對(duì)于異常用戶判斷的準(zhǔn)確性。
參考文獻(xiàn)
[1] 張玉清,呂少卿,范丹.在線社交網(wǎng)絡(luò)中異常賬號(hào)檢測(cè)方法研究[J].計(jì)算機(jī)學(xué)報(bào),2015(10).
[2] 孫小麗.基于KMV模型的商業(yè)銀行信用風(fēng)險(xiǎn)測(cè)算研究[J].北京郵電大學(xué),2013年.
[3] 馬若微,張微,白宇坤.我國(guó)上市公司動(dòng)態(tài)違約概率KMV模型改進(jìn)[J].系統(tǒng)工程,2014(11).
作者簡(jiǎn)介:
黃樹斌(1991-),男,江西宜春人,畢業(yè)于重慶大學(xué),在讀研究生,碩士;主要研究方向和關(guān)注領(lǐng)域:社交網(wǎng)絡(luò)、隱私保護(hù)。
王彤(1990-),男,四川南充人,畢業(yè)于重慶大學(xué),在讀研究生,碩士;主要研究方向和關(guān)注領(lǐng)域:推薦系統(tǒng)、隱私保護(hù)。