楊慧慧 梁艷
摘要:基于社會(huì)海量的數(shù)據(jù)分析的需求、人工智能與機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等理論的應(yīng)用等數(shù)據(jù)挖掘誕生發(fā)展的理論挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)用而生。該文結(jié)合數(shù)據(jù)挖掘的相關(guān)理論知識(shí),通過(guò)數(shù)據(jù)挖掘在實(shí)際中的應(yīng)用,分析探討了數(shù)據(jù)挖掘中存在的問(wèn)題及研究方向。本文基于Clementine的數(shù)據(jù)挖掘技術(shù)對(duì)住房意向影響因素進(jìn)行分析,主要利用Modeler的基本分析對(duì)住房狀況調(diào)查應(yīng)用分析研究,從而對(duì)房地產(chǎn)行業(yè)進(jìn)行數(shù)據(jù)挖掘提供一定的借鑒和指導(dǎo)意義。
關(guān)鍵詞: 住房狀況;數(shù)據(jù)挖掘;Clementine;Modeler的基本分析
引言
數(shù)據(jù)挖掘是一個(gè)新興的研究方向,它融合了多種學(xué)科進(jìn)行研究探索。它的基本目標(biāo)就是海量無(wú)序的數(shù)據(jù)中提取出不可見的卻有用的知識(shí)和信息。目前從數(shù)據(jù)挖掘研究和開發(fā)應(yīng)用表明:數(shù)據(jù)挖掘的需要涉及到多種不同的應(yīng)用任務(wù),從數(shù)據(jù)的預(yù)處理到相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類分析、數(shù)據(jù)分類、偏差檢查、序列模式、描述和可視化等等特定的模式。因此, 這一技術(shù)應(yīng)用是一個(gè)極富挑戰(zhàn)性的任務(wù)。數(shù)據(jù)挖掘技術(shù)在實(shí)際的研究過(guò)程中綜合了金融、醫(yī)療、保健、零售、和政務(wù)等各個(gè)領(lǐng)域,取得了良好的社會(huì)經(jīng)濟(jì)效益,以此可以看出數(shù)據(jù)挖掘技術(shù)在現(xiàn)實(shí)中有著較為廣泛的應(yīng)用和開發(fā)前景。
1、數(shù)據(jù)挖掘技術(shù)及應(yīng)用
1.1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)面對(duì)的主要對(duì)象為龐大的數(shù)據(jù)庫(kù),以此便能夠進(jìn)行有效的信息搜索和查詢。一般而言,一般情況下,大數(shù)據(jù)挖掘系統(tǒng)包括七個(gè)方面的內(nèi)容:用戶圖形界面接口、模式評(píng)估、數(shù)據(jù)挖掘引擎、數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、數(shù)據(jù)基地、數(shù)據(jù)倉(cāng)庫(kù)以及知識(shí)儲(chǔ)備庫(kù)。
1.2 數(shù)據(jù)挖掘技術(shù)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)不僅包括對(duì)特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢,還包括對(duì)數(shù)據(jù)的不同層面、不同角度的統(tǒng)計(jì)、分析、推理和綜合,以此得到問(wèn)題的求解,以及發(fā)現(xiàn)事件之間的聯(lián)系。國(guó)外, 在大型商業(yè)、信貸公司、貨代公司等得到廣泛的應(yīng)用。國(guó)內(nèi),對(duì)于傳統(tǒng)的生產(chǎn)行業(yè),特別是食品、飲料等快銷品行業(yè),在生產(chǎn)中搜集有利于指導(dǎo)企業(yè)生產(chǎn)的數(shù)據(jù),對(duì)提高企業(yè)的產(chǎn)品質(zhì)量以及市場(chǎng)競(jìng)爭(zhēng)力將會(huì)有很大的作用。
數(shù)據(jù)挖掘技術(shù)給我們的生活帶來(lái)諸多的方便,能夠提高生活的質(zhì)量改善生活效率。在商場(chǎng)管理中利用數(shù)據(jù)挖掘技術(shù),通過(guò)尋求不同商品之間在銷售過(guò)程中的內(nèi)在聯(lián)系,可以增加商場(chǎng)的銷售額;在銀行系統(tǒng)中通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)潛在的違約客戶進(jìn)行預(yù)測(cè)和判斷,可以減少銀行在貸款過(guò)程中的風(fēng)險(xiǎn)。綜上,數(shù)據(jù)挖掘技術(shù)在實(shí)際生活中的應(yīng)用越來(lái)越廣泛。
2、Modeler的基本分析及其應(yīng)用案例
2.1 Modeler的基本分析
Modeler的基本分析包括:
(1)數(shù)值型變量的基本分析
(2)兩分類型變量相關(guān)性的研究
(3)兩個(gè)總體的均值比較
(4)RFM分析
2.2 以住房狀況調(diào)查為例,對(duì)數(shù)據(jù)進(jìn)行Modeler的基本分析
住房狀況數(shù)據(jù)來(lái)源于:國(guó)家統(tǒng)計(jì)局
利用住房狀況調(diào)查數(shù)據(jù),對(duì)其進(jìn)行Modeler的基本分析前兩項(xiàng)進(jìn)行具體操作及分析。
2.3 計(jì)算統(tǒng)計(jì)量并分析變量之間的相關(guān)性
(1)計(jì)算家庭收入、購(gòu)房?jī)r(jià)位、計(jì)劃面積以及年齡的計(jì)數(shù)、平均值、最小值等統(tǒng)計(jì)量。年齡、家庭收入、計(jì)劃面積以及購(gòu)房?jī)r(jià)位兩兩變量之間的相關(guān)性。
(2)繪制散點(diǎn)圖
通過(guò)圖1知,計(jì)劃購(gòu)房面積集中在100平方米左右,購(gòu)房類型以多層商品房和高層商品房為主。
(3)文化程度與房屋產(chǎn)權(quán)相關(guān)性的數(shù)值分析
1代表:無(wú)產(chǎn)權(quán);2代表:部分產(chǎn)權(quán);31代表:二手房代表:32代表:經(jīng)濟(jì)適用房; 33代表:多層商品房; 34代表:高層商品房; 35代表:別墅;36代表:其它;
調(diào)查人群里以多層商品房產(chǎn)權(quán)最多,高中和大學(xué)學(xué)歷水平的人群擁有房屋產(chǎn)權(quán)的人數(shù)最多。
3、綜合評(píng)價(jià)
通過(guò)收集住房狀況的數(shù)據(jù),用Modeler的基本分析方法對(duì)住房影響因素進(jìn)行分析。對(duì)數(shù)值型變量和分類型變量分別采用統(tǒng)計(jì)量分析、散點(diǎn)圖分析和條形圖及網(wǎng)狀圖、矩陣形式的分析。通過(guò)分析研究發(fā)現(xiàn):住房狀況受到家庭收入、文化程度、戶口狀況、年齡等相關(guān)變量的影響,其中家庭收入是最直接、最主要的影響因素。
4、結(jié)語(yǔ)
本文基于數(shù)據(jù)挖掘理論及應(yīng)用的基礎(chǔ),對(duì)影響房地產(chǎn)購(gòu)買意向進(jìn)行影響因子分析、相關(guān)性分析。發(fā)現(xiàn)家庭收入是決定購(gòu)房狀況的最直接、最主要的因素。通過(guò)對(duì)結(jié)果量化分析,以此來(lái)為相關(guān)行業(yè)提供參考。
參考文獻(xiàn):
[1] 周黎明, 邱均平. 基于網(wǎng)絡(luò)的內(nèi)容分析法[J].情報(bào)學(xué)報(bào),2005(5):594-599.
[2] 紀(jì)希禹.數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2008.
[3] 葉云,萬(wàn)明明.網(wǎng)絡(luò)信息挖掘技術(shù)探討[J].廣西大學(xué)學(xué)報(bào),2007(S1).
作者簡(jiǎn)介:楊慧慧,1992年8月,女,漢,河南商丘,研究方向:現(xiàn)代物流系統(tǒng)規(guī)劃及建模仿真。