亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低保數(shù)據(jù)中數(shù)據(jù)挖掘模型的建立

        2016-05-14 03:37:08趙新華張克柱
        亞太教育 2016年8期
        關(guān)鍵詞:數(shù)據(jù)挖掘模型

        趙新華 張克柱

        摘 要:通過將數(shù)據(jù)挖掘技術(shù)應(yīng)用于低保數(shù)據(jù)的統(tǒng)計(jì),一方面可以將先進(jìn)的計(jì)算機(jī)技術(shù)應(yīng)用到低保統(tǒng)計(jì)工作中,提高了工作效率,更重要的是通過分析每年產(chǎn)生的大量數(shù)據(jù),可以獲取隱藏在其中的規(guī)律,對(duì)數(shù)據(jù)的構(gòu)成和變化有一個(gè)綜合而深層次的挖掘,找到貧困群體成為低保戶的主要特征,對(duì)低保資金占有比例較大的群體給予更多的關(guān)注和幫扶。

        關(guān)鍵詞:數(shù)據(jù)挖掘;模型;數(shù)據(jù)

        一、低保數(shù)據(jù)預(yù)處理過程

        (一)樣本數(shù)據(jù)的特點(diǎn)。本文對(duì)張掖市2015年低保數(shù)據(jù)進(jìn)行采集,通過研究這部分樣本數(shù)據(jù),最終能總結(jié)出數(shù)據(jù)挖掘技術(shù)在農(nóng)村低保數(shù)據(jù)統(tǒng)計(jì)應(yīng)用中的一些結(jié)論。

        根據(jù)分析低保數(shù)據(jù)具有以下的特點(diǎn):(1)數(shù)據(jù)量大、覆蓋面較廣。最低生活保障體系是一個(gè)規(guī)模很大的體系,數(shù)據(jù)量極大,而且數(shù)據(jù)又分布在全國(guó)不同的地區(qū),對(duì)低保數(shù)據(jù)進(jìn)行挖掘和和管理是非常有意義的;(2)具有一定的動(dòng)態(tài)性和時(shí)間性。隨著時(shí)間的變化,低保數(shù)據(jù)在不斷增加和刪除,需要對(duì)數(shù)據(jù)進(jìn)行更新。

        (二)數(shù)據(jù)采集。面對(duì)龐大的低保人群,數(shù)據(jù)采集的工作量是很大的,采集的數(shù)據(jù)要典型、內(nèi)容盡量完整充實(shí),這樣最終的數(shù)據(jù)挖掘結(jié)果才會(huì)更有效和準(zhǔn)確,數(shù)據(jù)采集過程中需要關(guān)注的一些問題如下:數(shù)據(jù)收集要以地區(qū)為單位,找出不同地區(qū)間低保人員在生活狀況、年齡分布、性別、文化程度、家庭結(jié)構(gòu)、身體健康狀況等方面不同于其他群體的差異和特征,對(duì)重點(diǎn)困難地區(qū)加以幫扶和支持。

        (三)數(shù)據(jù)清理。在采集數(shù)據(jù)和輸入數(shù)據(jù)的過程中,不可避免的會(huì)出現(xiàn)數(shù)據(jù)錯(cuò)誤、重復(fù)數(shù)據(jù)和數(shù)據(jù)不一致的問題,這些數(shù)據(jù)在數(shù)據(jù)挖掘中都是不符合要求的,數(shù)據(jù)清理的主要任務(wù)是填充缺失的值,光滑噪聲并識(shí)別離群點(diǎn),并糾正數(shù)據(jù)中的不一致。為了使本次挖掘結(jié)果達(dá)到預(yù)期目的,進(jìn)行如下的清理:(1)如果數(shù)據(jù)中有大量缺失的屬性,將缺失的屬性值用同一個(gè)常數(shù)替換。如“Unknown”。先用一個(gè)替換值將空值進(jìn)行約束替換。處理后的數(shù)據(jù)對(duì)后期挖掘工作沒有價(jià)值會(huì)選擇刪除。(2)對(duì)某些比較重要的屬性,利用該屬性的最可能的值填充缺失值。

        有些屬性的值在數(shù)據(jù)采集和數(shù)據(jù)輸入的過程中空缺,但是缺失的這些值可以通過分析屬性的歷史數(shù)據(jù)來填補(bǔ)。在歷史數(shù)據(jù)中,分析屬性的哪個(gè)值在整個(gè)數(shù)值的比例是最高的,也就是這個(gè)值分布的密度是最高的,說明這個(gè)屬性值出現(xiàn)的可能性是非常大的,就用這個(gè)值來填充空缺的值。

        (四)數(shù)據(jù)轉(zhuǎn)化。 原始表中沒有年齡字段,通過戶主信息表和家庭成員信息表中的身份證號(hào)計(jì)算年齡字段,采用下面的SQL語句來實(shí)現(xiàn):Select身份證號(hào),datepart(yy,getdate())-substring(身份證號(hào),7,4)as年齡from低保數(shù)據(jù)對(duì)于低保人員信息的年齡字段,因?yàn)樾畔⒘烤薮?,為了有目的的進(jìn)行數(shù)據(jù)挖掘,將年齡的取值離散化,進(jìn)行有效的分類,將年齡取值劃分為三個(gè)區(qū)間,每個(gè)區(qū)間為一個(gè)屬性值,將年齡25-35的劃分為“青年”,將36—59劃分為中年,60以上為老年。

        (五)數(shù)據(jù)規(guī)約。原始數(shù)據(jù)一般是非常大的,在海量的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘和分析將需要很長(zhǎng)的時(shí)間,數(shù)據(jù)規(guī)約是從數(shù)據(jù)集中挑選或過濾出具有代表性的數(shù)據(jù),縮減挖掘的時(shí)間和成本,使數(shù)據(jù)挖掘的目標(biāo)能縮小一些。規(guī)約之后,數(shù)據(jù)表示小得多,但最終數(shù)據(jù)挖掘的結(jié)果仍然接近地保持原數(shù)據(jù)的完整性。數(shù)據(jù)規(guī)約的策略有下面幾種:

        1.數(shù)據(jù)立方體聚集:對(duì)數(shù)據(jù)立方體中的數(shù)據(jù)尋找感興趣的維度進(jìn)行再聚集。

        2.維歸約:檢測(cè)并刪除沒有關(guān)連、關(guān)連性弱或冗余的屬性(維)。

        3.數(shù)據(jù)壓縮:使用編碼機(jī)制把樣本數(shù)據(jù)轉(zhuǎn)換成另一種較小的數(shù)據(jù)流,減少數(shù)據(jù)冗余。

        4.數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示原有的數(shù)據(jù)。

        因?yàn)橥诰驅(qū)ο髴糁餍畔⒈?、家庭成員信息表、家庭信息表中的屬性個(gè)數(shù)比較多,去掉數(shù)據(jù)中不重要的屬性,像姓名、身份證號(hào)等信息。為了方便決策模型的建立,所以選擇與其相關(guān)的這屬性作為決策樹建立的依據(jù),形成新的低保信息分析數(shù)據(jù)表。

        二、低保數(shù)據(jù)挖掘預(yù)期目標(biāo)

        在對(duì)低保數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘前,首先要明確低保管理的決策需求,也就是確定數(shù)據(jù)挖掘的預(yù)期目標(biāo),之后才能決定數(shù)據(jù)挖掘需要解決的一系列問題。隨著低保信息采集系統(tǒng)的運(yùn)行和各種政策的不斷加強(qiáng)和深入實(shí)施,低保制度得到了極大的發(fā)展和促進(jìn),同時(shí)在這個(gè)過程中積累了大量的數(shù)據(jù),為了政策更好的實(shí)施,人們希望從數(shù)據(jù)中獲取的信息也越來越多,不只是簡(jiǎn)單的數(shù)據(jù)的表面現(xiàn)象,更多的關(guān)注數(shù)據(jù)的質(zhì)量和數(shù)據(jù)本身能包含的信息。

        例如:1.低保人數(shù)與參加低保的時(shí)間、地區(qū)之間的關(guān)系。通過低保戶數(shù)據(jù),找到低保人數(shù)與時(shí)間之間的關(guān)系,低保資金發(fā)放地區(qū)之間的關(guān)系,為低保資金的發(fā)放提供政策上的支持。

        三、總結(jié)

        通過將數(shù)據(jù)挖掘技術(shù)應(yīng)用于低保數(shù)據(jù)的統(tǒng)計(jì),一方面可以將先進(jìn)的計(jì)算機(jī)技術(shù)應(yīng)用到低保統(tǒng)計(jì)工作中,提高了工作效率,更重要的是通過分析每年產(chǎn)生的大量數(shù)據(jù),可以獲取隱藏在其中的規(guī)律,對(duì)數(shù)據(jù)的構(gòu)成和變化有一個(gè)綜合而深層次的挖掘,找到貧困群體成為低保戶的主要特征,對(duì)低保資金占有比例較大的群體給予更多的關(guān)注和幫扶。通過對(duì)歷年的數(shù)據(jù)分析和預(yù)測(cè),對(duì)未來低保人口的分布、人數(shù)以及人口構(gòu)成有一個(gè)前瞻性的掌握。這些信息的提取,可以為低保政策的制定提供有說服力的依據(jù)。

        參考文獻(xiàn):

        [1]陳京民.數(shù)據(jù)倉(cāng)庫原理、設(shè)計(jì)與應(yīng)用[M].中國(guó)水利水電出版社,2004:21—35.

        [2]彭麗.數(shù)據(jù)挖掘中幾種劃分聚類算法的比較與改進(jìn)[D].大連理工大學(xué)碩士學(xué)位論文,2008.

        [3]印勇.決策支持分析新技術(shù)——數(shù)據(jù)挖掘[J].重慶郵電學(xué)院學(xué)報(bào),2001增刊:70--74.

        [4]姚家奕等.多維數(shù)據(jù)分析原理與應(yīng)用[M].清華大學(xué)出版社,2004.

        (作者單位:趙新華/蘭州職業(yè)技術(shù)學(xué)院電子與信息工程系;張克柱/蘭州職業(yè)技術(shù)學(xué)院現(xiàn)代服務(wù)系)

        猜你喜歡
        數(shù)據(jù)挖掘模型
        一半模型
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        3D打印中的模型分割與打包
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        少妇被日到高潮的视频| 国产优质av一区二区三区| 国产在线一区二区av| 99精品视频69v精品视频| 无码精品日韩中文字幕| 国产成人免费a在线视频| 久久精品网站免费观看| 国产激情一区二区三区在线| 国产乱人激情h在线观看| 国产福利午夜波多野结衣| 国产精品性一区二区三区| 久草福利国产精品资源| 亚洲中文字幕在线第二页| 老少配老妇老熟女中文普通话| 免费一级毛片在线播放不收费| 精品人妻一区二区蜜臀av| 国内自拍色第一页第二页| 免费无遮挡禁18污污网站| 91网站在线看| 久久人妻av无码中文专区| 狼狼色丁香久久女婷婷综合| 综合色就爱涩涩涩综合婷婷 | 亚洲精品久久久中文字| 少妇又色又爽又高潮在线看| 日韩aⅴ人妻无码一区二区| 99视频一区| 国产精品成人有码在线观看| 日本xxxx色视频在线观看免费| 免费国产黄网站在线观看 | 日韩吃奶摸下aa片免费观看| 激情五月天伊人久久| 国产精品自拍视频免费看| аⅴ天堂中文在线网| 久久精品中文字幕一区| 永久免费的拍拍拍网站| 男人天堂亚洲天堂av| 99精品国产一区二区三区| 亚洲VA中文字幕欧美VA丝袜| 国产日本精品一区二区免费 | 人妻少妇中文字幕久久hd高清| 狂野欧美性猛xxxx乱大交|