亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用

        2016-04-12 00:00:00呂圣軍

        【摘要】針對(duì)房產(chǎn)銷售困難問題,提出了采用離群數(shù)據(jù)挖掘技術(shù)從客戶信息集中提取隱含知識(shí)的方案,該方案具有效率高、成本低的特點(diǎn)。方案利用LOF挖掘算法發(fā)現(xiàn)現(xiàn)有客戶集中具有潛在購(gòu)房意向者,并對(duì)試驗(yàn)結(jié)果質(zhì)量進(jìn)行評(píng)價(jià). 算例結(jié)果驗(yàn)證了方案的可行性。

        【關(guān)鍵詞】 數(shù)據(jù)挖掘;離群數(shù)據(jù);基于密度;房產(chǎn)銷售;潛在客戶

        1、引言

        隨著房地產(chǎn)銷售行業(yè)競(jìng)爭(zhēng)加劇,房地產(chǎn)商的資金回籠率降低,這直接影響到房產(chǎn)業(yè)的健康發(fā)展。

        根據(jù)Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲(chǔ)技術(shù)的快速發(fā)展,用戶將更多的需要采用新技術(shù)來挖掘市場(chǎng)值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長(zhǎng)點(diǎn)”。數(shù)據(jù)挖掘[1]技術(shù)(Data Mining, DM)將在未來的商業(yè)領(lǐng)域中扮演越來越重要的角色。在房產(chǎn)銷售客戶數(shù)據(jù)庫(kù)中,知識(shí)發(fā)現(xiàn)(Knowledge Discovery from Database, KDD)可以從日常經(jīng)營(yíng)的海量客戶信息中發(fā)現(xiàn)潛在的、有成交意向的客戶,從而促進(jìn)成交,必然能取得更好的經(jīng)營(yíng)效果,增強(qiáng)企業(yè)自身的核心競(jìng)爭(zhēng)力。

        2、離群數(shù)據(jù)挖掘算法的關(guān)鍵技術(shù)

        數(shù)據(jù)集中明顯偏離大部分?jǐn)?shù)據(jù),不滿足數(shù)據(jù)的一般行為或模式,通常被稱為離群數(shù)據(jù)。該數(shù)據(jù)一開始并沒有受到人們的重視,通常以為是錄入錯(cuò)誤或者測(cè)量錯(cuò)誤等造成的噪聲。然而,部分離群數(shù)據(jù)可能比正常數(shù)據(jù)更有價(jià)值,它背后可能蘊(yùn)藏著更多新穎的知識(shí)。Hawkins在80年代給出了一個(gè)關(guān)于離群點(diǎn)[2]的定義,該定義在一定程度上揭示了離群數(shù)據(jù)點(diǎn)的本質(zhì),他說:“離群點(diǎn)與其他數(shù)據(jù)是如此的不同,以至于讓人們懷疑它是不同的機(jī)制產(chǎn)生的?!?/p>

        2.1 離群數(shù)據(jù)挖掘算法

        離群數(shù)據(jù)挖掘[3-4]在國(guó)外已經(jīng)獲得了廣泛的應(yīng)用,代表性的有MM Breunig的Optics、D Yu的Findout、T Johnson的DEEPHLOC、Hp knegel的Lof、M Joshi的prule、E Knorr的FindAllouts D等方法。從選取數(shù)據(jù)集種類上可以分為:

        基于統(tǒng)計(jì)的方法、基于深度的方法、基于偏離的方法、基于聚類的方法、基于距離的方法和基于密度的方法。其中,基于統(tǒng)計(jì)的方法只能在那些只有一個(gè)屬性值的數(shù)據(jù)中檢測(cè)離群點(diǎn),無(wú)法對(duì)實(shí)際中的多維數(shù)據(jù)進(jìn)行挖掘。而基于深度的方法需要復(fù)雜的幾何運(yùn)算,對(duì)于高維數(shù)據(jù)的計(jì)算效率低下。再者,基于偏離的方法尚處于理論研究階段,實(shí)際中較少采用。最后,基于密度的離群挖掘算法[5-9]無(wú)需獲取過多的數(shù)據(jù)集的先驗(yàn)知識(shí),只需要專注于離群特性本身,在局部范圍內(nèi)挖掘,這樣既避免參數(shù)選取困難,又可最大限度的避免離群數(shù)據(jù)漏檢。

        例如圖1是一個(gè)二維數(shù)據(jù)集,數(shù)據(jù)集中有兩個(gè)聚類,分別是C1和C2,可以看出C1和C2的密度有很大不同,其中C1稀疏,C2稠密,依照Hawkins的離群點(diǎn)定義,對(duì)象O1和O2是離群點(diǎn),但如果按基于距離的方法,O1能被輕易的挖掘出來,但要挖掘O2卻很困難。假如設(shè)定參數(shù)p和d的值,使得O2是離群點(diǎn),那么C1中的某些點(diǎn)都變成了離群點(diǎn)。為了能夠避免以上情況發(fā)生,Breunig在2000年就提出了局部離群因子---LOF(Local Outlier Factor)。加入LOF的算法中解決了局部離群程度的度量和挖掘問題。算法的基本過程如下:

        定義1 對(duì)象p的k距離:p與它的k個(gè)最近鄰居中相距最遠(yuǎn)的點(diǎn)的距離,計(jì)為k-distance(p)。計(jì)算p的k距離是為了檢測(cè)哪些數(shù)據(jù)是p的鄰居。對(duì)象p的k距離是p與數(shù)據(jù)集中對(duì)象的o的距離d(p,o),其中對(duì)象滿足兩個(gè)條件:(1)至少有k個(gè)對(duì)象o’∈D\{p},滿足d(p,o’)≤d(p,o);至多有k-1個(gè)對(duì)象o” ∈D\{p},使得d(p,o”)

        對(duì)于任意兩個(gè)數(shù)據(jù)對(duì)象,xi,yj 有xi={Vi1,Vi2,…Vim} 和Yj={Vj1,

        Vj2,…Vjm}。則歐幾里徳距離為:

        如果數(shù)據(jù)對(duì)象屬于標(biāo)度區(qū)間類型,其應(yīng)為曼哈頓距離:

        總之,其距離可以表示為明考斯距離:

        其中,h=1表示曼哈頓距離,h=2表示歐幾里得距離。

        從公式可以看出,p的LOF函數(shù)為p的所有k距離鄰居的局部可達(dá)密度與p的局部可達(dá)密度的比值的平均值。p的局部可達(dá)密度相比于它的k鄰居越小,則LOF的值就會(huì)越高,p的離群程度就會(huì)越高,從此證明了LOF離群因子的有效性。

        3、密度離群挖掘算法的指標(biāo)評(píng)價(jià)

        我們可以通過準(zhǔn)確度(Precision)、召回率(Recall)和排序度(Rankpower)來評(píng)價(jià)信息系統(tǒng)質(zhì)量,當(dāng)然也可以通過對(duì)這三個(gè)指標(biāo)適當(dāng)裁剪,用以評(píng)價(jià)LOF算法的基于密度的離群數(shù)據(jù)挖掘有效性。假設(shè)數(shù)據(jù)D=D0∪Dn,在這里,D0表示數(shù)據(jù)集中離群數(shù)據(jù)的集合,Dn表示數(shù)據(jù)集中正常數(shù)據(jù)的集合。當(dāng)m≥1(m為正整數(shù)),Dm表示該算法中排在前m的離群點(diǎn)的集合,且n(n∈m)個(gè)離群點(diǎn)構(gòu)成的集合為R0。三個(gè)指標(biāo)可以表示為:

        4、算法實(shí)現(xiàn)

        本數(shù)據(jù)源采用杭州某房產(chǎn)公司(2013-2014年度新增客戶)統(tǒng)計(jì)數(shù)據(jù),該數(shù)據(jù)集有550條數(shù)據(jù),16個(gè)屬性。根據(jù)相關(guān)知識(shí),我們先對(duì)屬性集進(jìn)行清洗、轉(zhuǎn)化和裁剪,取出來訪次數(shù)、年齡、家庭年收入、職業(yè),四項(xiàng)數(shù)據(jù)進(jìn)行研究。針對(duì)該房產(chǎn)項(xiàng)目排屋項(xiàng)目的單套房總價(jià)格區(qū)間[900萬(wàn)-1400萬(wàn)],采用LOF算法來挖掘數(shù)據(jù)集中的離群數(shù)據(jù),根據(jù)以往經(jīng)驗(yàn)最近鄰居個(gè)數(shù)取值為14,另外,為了保護(hù)個(gè)人信息,本研究對(duì)客戶姓名用英文字母來代替,圖2為運(yùn)算結(jié)果的前6條記錄:

        從以上結(jié)果分析,離群度高的C先生,來訪4次,民營(yíng)企業(yè)主,年收入較高,對(duì)于總價(jià)千萬(wàn)的排屋項(xiàng)目,購(gòu)買意向較大,是可以爭(zhēng)取的對(duì)象。D女士,來訪次數(shù)5次,收入較高,金融工作者,離群度較高,成交的幾率較大。

        結(jié)論:

        營(yíng)銷管理中采用數(shù)據(jù)挖掘技術(shù),能有效地從大量營(yíng)銷數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)之間有價(jià)值的模式或規(guī)律,從而幫助企業(yè)管理層做出精準(zhǔn)且及時(shí)的反應(yīng),并能為企業(yè)可持續(xù)發(fā)展注入新活力。

        參考文獻(xiàn):

        [1]朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002.

        [2]Hawkins D. Identifi-cation of Outliers[M].London: Chapman and hall,1980.

        [3]Edwin M Knorr, Raymond T Ng,Vladimir Tuckov.Distance-based outliers:algorithms and application[J].VLDB Journal, 2000,8(3-4):237-253.

        [4] Breunig M,Kriegel H. P,Ng R T,et al.LOF: Identifying density-based local outliers[C].In:Proe.Of ACM SIGMODC on ference,Dallas,2000:93-104.

        [5]唐志剛,楊炳儒,楊珺.一種基于馬爾科夫鏈的高緯離群點(diǎn)挖掘算法[J].系統(tǒng)工程與電子技術(shù),2010,32(12):71-74.

        [6] 劉書志.基于密度的局部離群數(shù)據(jù)挖掘方法的研究和改進(jìn) [D].重慶.重慶大學(xué),2014,4.

        [7]史東輝.基于規(guī)則的分類數(shù)據(jù)離群挖掘方法研究[J].計(jì)算機(jī)研究與發(fā)展,2000,37(9):1094-1100.

        [8]Malik Agyemang.Local Sparsity Coefficient-Based Mining of Outliers[J].Windsor Ontario:University of Windsor, 2003:75-103.

        [9]S.P.Lloyd.Least Squares Quantization in PCM[J].IEEE Trans.Information Theory,1982,28:128-137.

        作者簡(jiǎn)介:

        呂圣軍(1975-),男,碩士,講師,主要研究方向: 數(shù)據(jù)挖掘及其應(yīng)用

        日本饥渴人妻欲求不满| 久久精品国产亚洲片| 综合中文字幕亚洲一区二区三区| 亚洲色图在线免费观看视频| 一本色道无码道在线观看| 久久免费视频国产| 日本高清中文一区二区三区| 日韩精品在线观看在线| 又色又爽又高潮免费视频国产| 初尝黑人嗷嗷叫中文字幕| 国产精品无码久久AⅤ人妖| 在线成人影院国产av| 一本一道人人妻人人妻αv| 日韩a∨精品日韩在线观看| 色琪琪一区二区三区亚洲区| 青青青免费在线视频亚洲视频| 一本大道无码人妻精品专区 | 99久久久国产精品免费蜜臀| 国产免费人成视频在线观看播放| 最新中文字幕日韩精品| 亚洲国产成人久久综合| 国产亚洲欧美成人久久片| 日本一级二级三级在线| 午夜人妻久久久久久久久| 中文字幕日本特黄aa毛片| 北岛玲日韩精品一区二区三区| 日韩一级137片内射视频播放| 最新国产毛2卡3卡4卡| 好男人视频在线视频| 久久精品国产亚洲av热明星| 富婆猛男一区二区三区| 三年在线观看免费大全下载 | 日韩美女亚洲性一区二区| 色综合久久久久久久久久| 国产精品不卡无毒在线观看| 一区二区三区在线观看精品视频| 先锋影音人妻啪啪va资源网站| 亚洲av成人无码久久精品| 乱人伦人妻中文字幕不卡| 精品国产一区二区三区性色| 野花社区视频在线观看|