亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用

        2016-04-12 00:00:00呂圣軍

        【摘要】針對(duì)房產(chǎn)銷售困難問題,提出了采用離群數(shù)據(jù)挖掘技術(shù)從客戶信息集中提取隱含知識(shí)的方案,該方案具有效率高、成本低的特點(diǎn)。方案利用LOF挖掘算法發(fā)現(xiàn)現(xiàn)有客戶集中具有潛在購(gòu)房意向者,并對(duì)試驗(yàn)結(jié)果質(zhì)量進(jìn)行評(píng)價(jià). 算例結(jié)果驗(yàn)證了方案的可行性。

        【關(guān)鍵詞】 數(shù)據(jù)挖掘;離群數(shù)據(jù);基于密度;房產(chǎn)銷售;潛在客戶

        1、引言

        隨著房地產(chǎn)銷售行業(yè)競(jìng)爭(zhēng)加劇,房地產(chǎn)商的資金回籠率降低,這直接影響到房產(chǎn)業(yè)的健康發(fā)展。

        根據(jù)Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲(chǔ)技術(shù)的快速發(fā)展,用戶將更多的需要采用新技術(shù)來挖掘市場(chǎng)值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長(zhǎng)點(diǎn)”。數(shù)據(jù)挖掘[1]技術(shù)(Data Mining, DM)將在未來的商業(yè)領(lǐng)域中扮演越來越重要的角色。在房產(chǎn)銷售客戶數(shù)據(jù)庫(kù)中,知識(shí)發(fā)現(xiàn)(Knowledge Discovery from Database, KDD)可以從日常經(jīng)營(yíng)的海量客戶信息中發(fā)現(xiàn)潛在的、有成交意向的客戶,從而促進(jìn)成交,必然能取得更好的經(jīng)營(yíng)效果,增強(qiáng)企業(yè)自身的核心競(jìng)爭(zhēng)力。

        2、離群數(shù)據(jù)挖掘算法的關(guān)鍵技術(shù)

        數(shù)據(jù)集中明顯偏離大部分?jǐn)?shù)據(jù),不滿足數(shù)據(jù)的一般行為或模式,通常被稱為離群數(shù)據(jù)。該數(shù)據(jù)一開始并沒有受到人們的重視,通常以為是錄入錯(cuò)誤或者測(cè)量錯(cuò)誤等造成的噪聲。然而,部分離群數(shù)據(jù)可能比正常數(shù)據(jù)更有價(jià)值,它背后可能蘊(yùn)藏著更多新穎的知識(shí)。Hawkins在80年代給出了一個(gè)關(guān)于離群點(diǎn)[2]的定義,該定義在一定程度上揭示了離群數(shù)據(jù)點(diǎn)的本質(zhì),他說:“離群點(diǎn)與其他數(shù)據(jù)是如此的不同,以至于讓人們懷疑它是不同的機(jī)制產(chǎn)生的?!?/p>

        2.1 離群數(shù)據(jù)挖掘算法

        離群數(shù)據(jù)挖掘[3-4]在國(guó)外已經(jīng)獲得了廣泛的應(yīng)用,代表性的有MM Breunig的Optics、D Yu的Findout、T Johnson的DEEPHLOC、Hp knegel的Lof、M Joshi的prule、E Knorr的FindAllouts D等方法。從選取數(shù)據(jù)集種類上可以分為:

        基于統(tǒng)計(jì)的方法、基于深度的方法、基于偏離的方法、基于聚類的方法、基于距離的方法和基于密度的方法。其中,基于統(tǒng)計(jì)的方法只能在那些只有一個(gè)屬性值的數(shù)據(jù)中檢測(cè)離群點(diǎn),無(wú)法對(duì)實(shí)際中的多維數(shù)據(jù)進(jìn)行挖掘。而基于深度的方法需要復(fù)雜的幾何運(yùn)算,對(duì)于高維數(shù)據(jù)的計(jì)算效率低下。再者,基于偏離的方法尚處于理論研究階段,實(shí)際中較少采用。最后,基于密度的離群挖掘算法[5-9]無(wú)需獲取過多的數(shù)據(jù)集的先驗(yàn)知識(shí),只需要專注于離群特性本身,在局部范圍內(nèi)挖掘,這樣既避免參數(shù)選取困難,又可最大限度的避免離群數(shù)據(jù)漏檢。

        例如圖1是一個(gè)二維數(shù)據(jù)集,數(shù)據(jù)集中有兩個(gè)聚類,分別是C1和C2,可以看出C1和C2的密度有很大不同,其中C1稀疏,C2稠密,依照Hawkins的離群點(diǎn)定義,對(duì)象O1和O2是離群點(diǎn),但如果按基于距離的方法,O1能被輕易的挖掘出來,但要挖掘O2卻很困難。假如設(shè)定參數(shù)p和d的值,使得O2是離群點(diǎn),那么C1中的某些點(diǎn)都變成了離群點(diǎn)。為了能夠避免以上情況發(fā)生,Breunig在2000年就提出了局部離群因子---LOF(Local Outlier Factor)。加入LOF的算法中解決了局部離群程度的度量和挖掘問題。算法的基本過程如下:

        定義1 對(duì)象p的k距離:p與它的k個(gè)最近鄰居中相距最遠(yuǎn)的點(diǎn)的距離,計(jì)為k-distance(p)。計(jì)算p的k距離是為了檢測(cè)哪些數(shù)據(jù)是p的鄰居。對(duì)象p的k距離是p與數(shù)據(jù)集中對(duì)象的o的距離d(p,o),其中對(duì)象滿足兩個(gè)條件:(1)至少有k個(gè)對(duì)象o’∈D\{p},滿足d(p,o’)≤d(p,o);至多有k-1個(gè)對(duì)象o” ∈D\{p},使得d(p,o”)

        對(duì)于任意兩個(gè)數(shù)據(jù)對(duì)象,xi,yj 有xi={Vi1,Vi2,…Vim} 和Yj={Vj1,

        Vj2,…Vjm}。則歐幾里徳距離為:

        如果數(shù)據(jù)對(duì)象屬于標(biāo)度區(qū)間類型,其應(yīng)為曼哈頓距離:

        總之,其距離可以表示為明考斯距離:

        其中,h=1表示曼哈頓距離,h=2表示歐幾里得距離。

        從公式可以看出,p的LOF函數(shù)為p的所有k距離鄰居的局部可達(dá)密度與p的局部可達(dá)密度的比值的平均值。p的局部可達(dá)密度相比于它的k鄰居越小,則LOF的值就會(huì)越高,p的離群程度就會(huì)越高,從此證明了LOF離群因子的有效性。

        3、密度離群挖掘算法的指標(biāo)評(píng)價(jià)

        我們可以通過準(zhǔn)確度(Precision)、召回率(Recall)和排序度(Rankpower)來評(píng)價(jià)信息系統(tǒng)質(zhì)量,當(dāng)然也可以通過對(duì)這三個(gè)指標(biāo)適當(dāng)裁剪,用以評(píng)價(jià)LOF算法的基于密度的離群數(shù)據(jù)挖掘有效性。假設(shè)數(shù)據(jù)D=D0∪Dn,在這里,D0表示數(shù)據(jù)集中離群數(shù)據(jù)的集合,Dn表示數(shù)據(jù)集中正常數(shù)據(jù)的集合。當(dāng)m≥1(m為正整數(shù)),Dm表示該算法中排在前m的離群點(diǎn)的集合,且n(n∈m)個(gè)離群點(diǎn)構(gòu)成的集合為R0。三個(gè)指標(biāo)可以表示為:

        4、算法實(shí)現(xiàn)

        本數(shù)據(jù)源采用杭州某房產(chǎn)公司(2013-2014年度新增客戶)統(tǒng)計(jì)數(shù)據(jù),該數(shù)據(jù)集有550條數(shù)據(jù),16個(gè)屬性。根據(jù)相關(guān)知識(shí),我們先對(duì)屬性集進(jìn)行清洗、轉(zhuǎn)化和裁剪,取出來訪次數(shù)、年齡、家庭年收入、職業(yè),四項(xiàng)數(shù)據(jù)進(jìn)行研究。針對(duì)該房產(chǎn)項(xiàng)目排屋項(xiàng)目的單套房總價(jià)格區(qū)間[900萬(wàn)-1400萬(wàn)],采用LOF算法來挖掘數(shù)據(jù)集中的離群數(shù)據(jù),根據(jù)以往經(jīng)驗(yàn)最近鄰居個(gè)數(shù)取值為14,另外,為了保護(hù)個(gè)人信息,本研究對(duì)客戶姓名用英文字母來代替,圖2為運(yùn)算結(jié)果的前6條記錄:

        從以上結(jié)果分析,離群度高的C先生,來訪4次,民營(yíng)企業(yè)主,年收入較高,對(duì)于總價(jià)千萬(wàn)的排屋項(xiàng)目,購(gòu)買意向較大,是可以爭(zhēng)取的對(duì)象。D女士,來訪次數(shù)5次,收入較高,金融工作者,離群度較高,成交的幾率較大。

        結(jié)論:

        營(yíng)銷管理中采用數(shù)據(jù)挖掘技術(shù),能有效地從大量營(yíng)銷數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)之間有價(jià)值的模式或規(guī)律,從而幫助企業(yè)管理層做出精準(zhǔn)且及時(shí)的反應(yīng),并能為企業(yè)可持續(xù)發(fā)展注入新活力。

        參考文獻(xiàn):

        [1]朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002.

        [2]Hawkins D. Identifi-cation of Outliers[M].London: Chapman and hall,1980.

        [3]Edwin M Knorr, Raymond T Ng,Vladimir Tuckov.Distance-based outliers:algorithms and application[J].VLDB Journal, 2000,8(3-4):237-253.

        [4] Breunig M,Kriegel H. P,Ng R T,et al.LOF: Identifying density-based local outliers[C].In:Proe.Of ACM SIGMODC on ference,Dallas,2000:93-104.

        [5]唐志剛,楊炳儒,楊珺.一種基于馬爾科夫鏈的高緯離群點(diǎn)挖掘算法[J].系統(tǒng)工程與電子技術(shù),2010,32(12):71-74.

        [6] 劉書志.基于密度的局部離群數(shù)據(jù)挖掘方法的研究和改進(jìn) [D].重慶.重慶大學(xué),2014,4.

        [7]史東輝.基于規(guī)則的分類數(shù)據(jù)離群挖掘方法研究[J].計(jì)算機(jī)研究與發(fā)展,2000,37(9):1094-1100.

        [8]Malik Agyemang.Local Sparsity Coefficient-Based Mining of Outliers[J].Windsor Ontario:University of Windsor, 2003:75-103.

        [9]S.P.Lloyd.Least Squares Quantization in PCM[J].IEEE Trans.Information Theory,1982,28:128-137.

        作者簡(jiǎn)介:

        呂圣軍(1975-),男,碩士,講師,主要研究方向: 數(shù)據(jù)挖掘及其應(yīng)用

        日韩综合无码一区二区| 精品国产又大又黄又粗av| 国产情侣自拍偷拍精品| 国产自拍精品一区在线观看| 一本色道无码道在线观看| 男女男在线精品网站免费观看| 无码中文字幕久久久久久| 国产一级内射一片视频免费| 国产激情无码视频在线播放性色| 色婷婷久久一区二区三区麻豆| 国产亚洲高清不卡在线观看| 亚洲中文字幕高清在线视频一区| 中文字幕久久波多野结衣av不卡| 乱色熟女综合一区二区三区| 亚洲综合色秘密影院秘密影院| 日韩av在线不卡一二三区| 熟女中文字幕一区二区三区 | 丰满少妇愉情中文字幕18禁片| 久久久久成人精品免费播放| 男人天堂亚洲一区二区| 亚洲av成人片在线观看| 乱码午夜-极国产极内射| 极品av在线播放| 男女射精视频在线观看网站| 女人和拘做受全程看视频| 免费的毛片视频| 一个人的视频免费播放在线观看| 亚洲tv精品一区二区三区| 中文字幕一区在线观看视频| 国产国拍亚洲精品永久不卡| 伊人久久大香线蕉av色婷婷| 无码人妻一区二区三区免费看| 久久精品亚洲中文字幕无码网站| 国产精品成人无码久久久久久| 风流熟女一区二区三区| 午夜福利av无码一区二区| 亚洲欧洲日产国码无码AV一| 日韩精品人妻一区二区三区蜜桃臀| 亚洲成a人片在线观看无码专区| 色狠狠一区二区三区香蕉| 久久中文字幕久久久久91|