亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于三角聚集度的社區(qū)發(fā)現(xiàn)標(biāo)準(zhǔn)在汽車消費(fèi)人群分析的適用性研究

        2017-03-13 05:37:46中國汽車技術(shù)研究中心王文斌
        電子世界 2017年4期
        關(guān)鍵詞:數(shù)據(jù)挖掘三角形社交

        中國汽車技術(shù)研究中心 王文斌 白 辰 田 源

        基于三角聚集度的社區(qū)發(fā)現(xiàn)標(biāo)準(zhǔn)在汽車消費(fèi)人群分析的適用性研究

        中國汽車技術(shù)研究中心 王文斌 白 辰 田 源

        為解決汽車企業(yè)對于不同類型汽車消費(fèi)人群的分析調(diào)研需求,本文研究了關(guān)系網(wǎng)絡(luò)中消費(fèi)人群的社區(qū)發(fā)現(xiàn)問題,根據(jù)圖數(shù)據(jù)挖掘中三角型的特性,提出基于三角聚集度的社區(qū)發(fā)現(xiàn)標(biāo)準(zhǔn)。研究發(fā)現(xiàn)該方法對于車企的消費(fèi)人群劃分判別具有很好的適用性。

        汽車消費(fèi)人群分析;社區(qū)發(fā)現(xiàn);三角聚集度

        1 引言

        近年來,隨著網(wǎng)絡(luò)和各種電子設(shè)備的日益普及,越來越多人都參與到互聯(lián)網(wǎng)的信息交流中去。在眾多的網(wǎng)站中,Twitter、Facebook、微博、人人網(wǎng)、以及微信朋友圈等一系列社交網(wǎng)絡(luò)作為近年來廣泛使用的交流平臺,如雨后春筍般紛紛涌現(xiàn)出來,面向各個領(lǐng)域拓展自己的用戶。而那些現(xiàn)實(shí)生活中的人們因?yàn)楦髯缘呐d趣愛好、地理位置、工作性質(zhì)等原因所組成不同的“真實(shí)”群體,如何在這一“虛擬”的社交網(wǎng)絡(luò)中將其群體(或稱其為“社區(qū)”)標(biāo)注提取出來,并挖掘這些群體的共同特點(diǎn),發(fā)現(xiàn)知識、創(chuàng)造價值,已經(jīng)成為社交網(wǎng)絡(luò)數(shù)據(jù)挖掘領(lǐng)域的一項(xiàng)研究熱點(diǎn),“社區(qū)發(fā)現(xiàn)”作為一個新興的研究領(lǐng)域,也就因此成為研究者廣泛關(guān)注的問題。

        2 社區(qū)發(fā)現(xiàn)

        社交網(wǎng)絡(luò)反映了現(xiàn)實(shí)生活中的這樣一個特點(diǎn):人們都會因?yàn)楦髯缘呐d趣愛好,或所在地理位置、工作性質(zhì)等原因而形成各種各樣的群體。而在社交網(wǎng)絡(luò)中,這些群體都會因?yàn)楸舜说氖熳R或共同關(guān)注了某人或某物而有著較其他陌生人相比,更為頻繁的交流。那么利用這種關(guān)系,是否可以在社交平臺中復(fù)雜而龐大的用戶群體中找出這些現(xiàn)實(shí)的群體呢?因?yàn)槿粽页鲞@些群體,必能通過這些群體的特征,利用數(shù)據(jù)挖掘的思想,找出類似“啤酒—尿布”的規(guī)律或知識,從而產(chǎn)生價值。

        面對這個問題,學(xué)者們紛紛展開研究,“社交網(wǎng)絡(luò)挖掘”便成為數(shù)據(jù)挖掘領(lǐng)域一個新的重要分支,而社區(qū)發(fā)現(xiàn)是社交網(wǎng)絡(luò)挖掘的重點(diǎn)研究問題。例如在著名社交網(wǎng)站Facebook中截取的斯坦福大學(xué)學(xué)生之間的部分好友關(guān)系圖,就可以通過這種關(guān)系劃分出他們之間的關(guān)系:或同畢業(yè)于一個高中,或一同參加了一個暑期夏令營,或?qū)儆诓煌纳鐖F(tuán)。

        當(dāng)然,社交網(wǎng)絡(luò)這一概念不僅僅指互聯(lián)網(wǎng)上的交友網(wǎng)站,它可以看作是由圖表示的異構(gòu)關(guān)系數(shù)據(jù)集?,F(xiàn)實(shí)世界中,在科技、商業(yè)、經(jīng)濟(jì)和生物等方面,都有社交網(wǎng)絡(luò)的存在,比如汽車企業(yè)與客戶間的購買關(guān)系,汽車論壇中車友間信息的交流,以至萬維網(wǎng)、電力網(wǎng)格、計(jì)算機(jī)病毒傳播、電話交互圖以及科學(xué)家的合著關(guān)系、論文的引用網(wǎng)絡(luò);生物學(xué)領(lǐng)域中的流行病學(xué)網(wǎng)絡(luò),細(xì)胞與新陳代謝網(wǎng)絡(luò)和食物網(wǎng)絡(luò)等,都是社區(qū)發(fā)現(xiàn)的研究對象[4]。

        但在這一社區(qū)發(fā)現(xiàn)這一新興領(lǐng)域進(jìn)行算法的提出、對比和研究前,首先要確定一種合適的判別標(biāo)準(zhǔn)來確定這種劃分方法的好壞?,F(xiàn)在使用最多的方法是2004年由M. Newman[1]提出的計(jì)算劃分社區(qū)的modularity (模塊性),但這一劃分標(biāo)準(zhǔn)的缺點(diǎn)也很明顯,它對于小型的社區(qū)并不適用。其他標(biāo)準(zhǔn)比如R. Kannan[2]提出的連通度(conductance),也存在對于一些聚集度極佳的特殊圖形,不能準(zhǔn)確體現(xiàn)其聚集性質(zhì)的缺點(diǎn)。

        3 三角聚集度

        3.1 圖數(shù)據(jù)中的三角形

        圖中三角形的查找和統(tǒng)計(jì)在圖數(shù)據(jù)領(lǐng)域有著廣泛的研究意義和價值。因?yàn)槿切未嬖趦蓚€重要特性——同質(zhì)和傳遞,這兩個性質(zhì)在社交網(wǎng)絡(luò)的圖數(shù)據(jù)挖掘中就起到了跟重要的作用:社交網(wǎng)絡(luò)的用戶傾向于與有用相似愛好和興趣的人建立朋友關(guān)系(在數(shù)據(jù)的角度,用戶之間擁有相似的三角形模式),這種傾向性在社交網(wǎng)絡(luò)中,主要表現(xiàn)在用戶更愿意與擁有相同朋友圈子的人成為朋友。同時,統(tǒng)計(jì)三角形也被應(yīng)用于挖掘隱藏的網(wǎng)頁主題、彭谷聚類參數(shù),以及檢測垃圾郵件。

        3.2 聚集系數(shù)

        其實(shí)最早在1949年R. D. Luce和A. D. Perry的一篇論文[3]中,圖中三角形的聚集度已經(jīng)在圖論中被提出并定義這一系數(shù)為圖的聚集系數(shù),描述的是圖中的若干點(diǎn)傾向于集聚在一起的程度的一種度量。

        而圖中的某一個節(jié)點(diǎn),聚集系數(shù)表示了它相連的點(diǎn)抱成團(tuán)(完全子圖)的程度。為方便說明,這里定義在G = (V, E)中包含一系列節(jié)點(diǎn)V和連接它們的邊E。表示的第i個相鄰節(jié)點(diǎn)。表示的相鄰節(jié)點(diǎn)的數(shù)量。一個頂點(diǎn)的聚集系數(shù)等于所有與它相連的頂點(diǎn)之間所連的邊的數(shù)量,除以這些頂點(diǎn)之間可以連出的最大邊數(shù)。在無向圖中的最大邊數(shù)為,所以某一點(diǎn)的聚集系數(shù)公式表示為:

        那么整個網(wǎng)絡(luò)的所有點(diǎn)聚集系數(shù)就可以定義為所有節(jié)點(diǎn)n的局部聚集系數(shù)的均值:

        那么若一個圖的平均聚集系數(shù)比相同節(jié)點(diǎn)集生成的隨機(jī)圖有顯著提高,但平均最短距離卻與相應(yīng)隨機(jī)生成的隨機(jī)圖十分相近,那么這個圖被認(rèn)為是小世界的社交網(wǎng)絡(luò)圖。有著更高平均聚集系數(shù)的社交網(wǎng)絡(luò)被發(fā)現(xiàn)有著模塊結(jié)構(gòu),同時在不同節(jié)點(diǎn)中還有更小的平均距離。

        3.3 三角聚集度

        根據(jù)三角形在圖數(shù)據(jù)中的性質(zhì)以及聚集系數(shù)這一指標(biāo),提出一種新的社區(qū)發(fā)現(xiàn)的度量標(biāo)準(zhǔn)——三角聚集度(Triangular-Clustering Coeffcient)

        其公式定義如下:

        在定義了節(jié)點(diǎn)對于社區(qū)的歸屬度的計(jì)算方法后,根據(jù)式(3.1)的思路,將這個社區(qū)內(nèi)所有點(diǎn)的歸屬度取其平均值,得到計(jì)算這個社區(qū)C的整體的凝聚程度的表達(dá)式:

        而后便可通過式(3.2)的思路確定該劃分對于整張圖來說劃分優(yōu)劣的的一個指標(biāo)即將各個社區(qū)根據(jù)其大小加權(quán)后平均即可:

        3.4 度量標(biāo)準(zhǔn)分析

        一個好的社區(qū)發(fā)現(xiàn)度量標(biāo)準(zhǔn)需要能很好的反映出根據(jù)此標(biāo)準(zhǔn)評判出的優(yōu)秀社區(qū)的一些特點(diǎn)和屬性,這些屬性可以保證所劃分出的社區(qū)內(nèi)節(jié)點(diǎn)的稠密性和結(jié)構(gòu)特點(diǎn)。下面簡單對一個優(yōu)秀社區(qū)的四個屬性進(jìn)行簡單說明及分析:

        屬性1:有良好的內(nèi)部結(jié)構(gòu)

        在M. Newman等人之前的研究中已經(jīng)表明,一個優(yōu)秀社區(qū)的一個最主要的特征就是有一個數(shù)值非常大的聚集系數(shù)。社交網(wǎng)絡(luò)構(gòu)成的圖數(shù)據(jù)與普通的隨機(jī)生成的圖的一個最大的不同也就是擁有非常多的三角形結(jié)構(gòu)。因此,三角聚集度將計(jì)算三角形的個數(shù)作為計(jì)算一個社區(qū)聚集程度的一個最重要的評判標(biāo)準(zhǔn)。

        屬性2:社區(qū)的凝聚力應(yīng)隨節(jié)點(diǎn)增多而增長

        在一個優(yōu)秀的度量標(biāo)準(zhǔn)中,當(dāng)一個新的節(jié)點(diǎn)被計(jì)算應(yīng)當(dāng)加入這個社區(qū)時,這個社區(qū)整體的凝聚程度應(yīng)該是能夠得到增強(qiáng)的。放到實(shí)際情景中,若想加入一個社區(qū),這個節(jié)點(diǎn)需要與這個社區(qū)內(nèi)部很多的節(jié)點(diǎn)有聯(lián)系,這個社區(qū)越大,需要聯(lián)系的節(jié)點(diǎn)也就越多,它與這個社區(qū)的聯(lián)系才能體現(xiàn)出越強(qiáng),越應(yīng)該屬于這個社區(qū),否則,這個社區(qū)整體的凝聚力將會因?yàn)樗档?。用函?shù)形式表示,若節(jié)點(diǎn)x應(yīng)屬于社區(qū)C,則。

        屬性3:社區(qū)中不存在橋結(jié)構(gòu)

        在一個社區(qū)中若存在橋結(jié)構(gòu),則該社區(qū)的凝聚程度將會非常弱,因?yàn)槌诉@條邊之外,兩個節(jié)點(diǎn)集之間沒有任何的聯(lián)系。因此,一個優(yōu)秀的社區(qū)中不應(yīng)存在橋結(jié)構(gòu)。

        屬性4:社區(qū)中不存在割點(diǎn)

        與橋結(jié)構(gòu)類似,當(dāng)在一個社區(qū)中存在若干個割點(diǎn)的話,若將此割點(diǎn)以及與之相連的邊刪除,則該社區(qū)立刻回分解成兩個互不關(guān)聯(lián)的子圖。所以割點(diǎn)也是一個社區(qū)中弱連接的體現(xiàn),一個優(yōu)秀的社區(qū)中,是不應(yīng)該存在割點(diǎn)這一結(jié)構(gòu)的。

        可見,三角聚集度滿足以上的四種性質(zhì),同時用虛擬的小型社區(qū)數(shù)據(jù)計(jì)算其三角聚集度。如圖2所示,構(gòu)建了從簡單稀疏的社區(qū)到復(fù)雜稠密的不同8個社區(qū)(從a到h),其三角聚集度的值由低至高,體現(xiàn)了這一度量標(biāo)準(zhǔn)能很好的體現(xiàn)社區(qū)的稠密程度。

        4 總結(jié)

        通過建立汽車消費(fèi)人群的圖數(shù)據(jù)關(guān)系模型,研究了關(guān)系網(wǎng)絡(luò)中消費(fèi)人群的社區(qū)發(fā)現(xiàn)問題以及圖數(shù)據(jù)挖掘中三角型的特性,并通過三角形的聚集系數(shù)的定義,提出基于三角聚集度的社區(qū)發(fā)現(xiàn)標(biāo)準(zhǔn),并驗(yàn)證了該標(biāo)準(zhǔn)對于車企的消費(fèi)人群劃分判別的適用性。

        本文中提出的標(biāo)準(zhǔn)對于大數(shù)據(jù)下的汽車社區(qū)網(wǎng)絡(luò)還沒有針對性其的成型算法實(shí)現(xiàn),設(shè)計(jì)構(gòu)思一種高效的使用三角聚集度計(jì)算的算法是今后的研究方向。

        [1]M.Newman and M.Girvan.Finding and evaluating community structure in networks. Phy. Rev. E, 69(2):026113, 2004.

        [2]R.Kannan et al.On clusterings:Good,bad and spectral.JACM, 51(3):497{515,2004.

        [3]李曉佳,張鵬,狄增如等.復(fù)雜網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2008,5(3):19-42

        [4]谷峪,于戈,鮑玉斌.大規(guī)模圖數(shù)據(jù)的分布式處理2015,ISBN-9787302420729.

        猜你喜歡
        數(shù)據(jù)挖掘三角形社交
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        社交距離
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        三角形,不扭腰
        三角形表演秀
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        如果沒有三角形
        畫一畫
        女人被狂躁高潮啊的视频在线看| 久久精品国产亚洲av专区| 六月婷婷亚洲性色av蜜桃| 午夜性色一区二区三区不卡视频| 免费无码成人av在线播放不卡| 国产欧美亚洲另类第一页| 国产午夜福利小视频在线观看| а√天堂8资源中文在线| 久久精品国产亚洲av麻| 久久精品国产只有精品96 | 中文字幕久久熟女蜜桃 | 国产自拍视频免费在线观看 | 五月综合激情婷婷六月色窝| 91福利国产在线观看一区二区| 国产91熟女高潮一曲区| 亚洲综合av大全色婷婷| 伊人久久精品久久亚洲一区| 国模无码视频专区一区| 中文字幕一区二区三区6| 人妻 丝袜美腿 中文字幕| 亚洲精品成人网站在线观看| 国产自精品在线| 亚洲一区二区三区av资源| 日本高清视频永久网站www| 久久99欧美| 成年女人午夜特黄特色毛片免| 亚洲av无码成人精品国产| 亚洲av综合色区无码一二三区 | 中文亚洲第一av一区二区| 日日碰狠狠添天天爽超碰97久久 | 久久精品aⅴ无码中文字字幕| 在线播放国产一区二区三区| 日韩女优一区二区视频| 日韩人妖视频一区二区| 97久久精品亚洲中文字幕无码| 综合91在线精品| 中文乱码字幕在线亚洲av| 日本艳妓bbw高潮一19| 日韩高清毛片| 91久久国产露脸国语对白| 蜜臀av在线播放一区二区三区|