亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        物流領(lǐng)域中空間數(shù)據(jù)預(yù)處理技術(shù)的應(yīng)用研究

        2010-03-16 07:44:20王鵬溫暖馬麗習(xí)媛媛蔡常雨
        關(guān)鍵詞:謂詞空間數(shù)據(jù)數(shù)據(jù)挖掘

        王鵬,溫暖,馬麗,習(xí)媛媛,蔡常雨

        (1.長春理工大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,長春130022;2.長春理工大學(xué) 光電工程學(xué)院,長春130022)

        隨著現(xiàn)代物流業(yè)的發(fā)展,物流中每個環(huán)節(jié)信息量也是非常的龐大,實際的業(yè)務(wù)難于對其進(jìn)行準(zhǔn)確、高效、及時的操作處理。數(shù)據(jù)挖掘技術(shù)能有效的提取與業(yè)務(wù)相關(guān)的有用信息,準(zhǔn)確的統(tǒng)計出業(yè)務(wù)經(jīng)營動態(tài)和發(fā)展方向,從而使得物流管理更加滿足客戶的要求[1]。

        物流中的空間數(shù)據(jù)具有時空、多維結(jié)構(gòu)、多尺度、不確定和海量性等特征,這使得空間數(shù)據(jù)挖掘技術(shù)成為一種必要??臻g數(shù)據(jù)挖掘就是從空間數(shù)據(jù)庫中提取隱含的、用戶感興趣的空間和非空間模式和普遍特征的過程,這種挖掘需要數(shù)據(jù)挖掘與空間數(shù)據(jù)庫技術(shù)的集成。它可用于理解空間數(shù)據(jù),發(fā)現(xiàn)空間聯(lián)系和空間與非空間數(shù)據(jù)之間的聯(lián)系,構(gòu)造空間知識庫,重組空間數(shù)據(jù)庫和優(yōu)化空間查詢[2]。由于空間數(shù)據(jù)的大數(shù)據(jù)量和空間數(shù)據(jù)類型和空間訪問方法的復(fù)雜性,以及目前對空間數(shù)據(jù)挖掘的研究主要集中于挖掘技術(shù)、挖掘算法、挖掘語言等,而事實上空間數(shù)據(jù)挖掘?qū)λ幚淼目臻g數(shù)據(jù)有嚴(yán)格的質(zhì)量要求,因此在空間數(shù)據(jù)挖掘過程中數(shù)據(jù)預(yù)處理至關(guān)重要。

        1 空間數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理

        數(shù)據(jù)挖掘中的預(yù)處理主要是接受并理解用戶的發(fā)現(xiàn)要求,確定發(fā)現(xiàn)任務(wù),抽取與發(fā)現(xiàn)任務(wù)相關(guān)的知識源,根據(jù)背景知識中的約束性規(guī)則對數(shù)據(jù)進(jìn)行合法性檢查,通過清理和歸約等操作,生成供挖掘核心使用的目標(biāo)數(shù)據(jù),即知識基。知識基是原始數(shù)據(jù)庫經(jīng)數(shù)據(jù)匯集處理后得到的二位表,縱向為屬性(Atributes或 Fields),橫向為元組(Tuples或 Records),它匯集了原始數(shù)據(jù)庫中與發(fā)現(xiàn)任務(wù)相關(guān)的所有數(shù)據(jù)的總體特征,是知識發(fā)現(xiàn)狀態(tài)空間的基底,也可以認(rèn)為是最原始的知識模板[3,4]。

        2 數(shù)據(jù)預(yù)處理工作流程

        數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、集成和歸約,數(shù)據(jù)清理是處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù),數(shù)據(jù)集成是將很多數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性并整合成一致的數(shù)據(jù)存儲,數(shù)據(jù)歸約將辨別出需要挖掘的數(shù)據(jù)集合,縮小處理范圍[5]。數(shù)據(jù)預(yù)處理的工作流程框圖如圖1所示。

        圖1 數(shù)據(jù)預(yù)處理工作流程框圖Fig.1 Data preprocessing work flow

        3 數(shù)據(jù)預(yù)處理

        3.1 數(shù)據(jù)的準(zhǔn)備

        為了精簡挖掘所需要的目標(biāo)數(shù)據(jù),需要對空間數(shù)據(jù)對象屬性進(jìn)行選擇,由于空間數(shù)據(jù)分布在不同的圖層,這就需要把數(shù)據(jù)集中不同的圖層數(shù)據(jù)關(guān)聯(lián)起來,進(jìn)行關(guān)聯(lián)查詢,提取挖掘任務(wù)相關(guān)的數(shù)據(jù)集。而提取挖掘任務(wù)相關(guān)的數(shù)據(jù),只需要提取謂詞所需要處理的數(shù)據(jù),一些不相關(guān)的屬性數(shù)據(jù)可以摒棄。通過對屬性數(shù)據(jù)的選擇以及相應(yīng)目標(biāo)數(shù)據(jù)的提取,可以約簡挖掘任務(wù)的相關(guān)數(shù)據(jù),從而提高挖掘的效率,同時避免不相關(guān)數(shù)據(jù)的干擾,提高挖掘的精度[6]。

        3.2數(shù)據(jù)的集成

        數(shù)據(jù)的集成主要包括:1.針對上步所提取的目標(biāo)數(shù)據(jù),消除其中不一致,不統(tǒng)一的部分,將其數(shù)據(jù)結(jié)構(gòu)統(tǒng)一化;2.將數(shù)據(jù)分成不同的類型,如:時間型數(shù)據(jù)、空間型數(shù)據(jù)以及時空型數(shù)據(jù);3.將不同類型的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,在數(shù)據(jù)庫中進(jìn)行處理。

        3.3 數(shù)據(jù)的清理

        數(shù)據(jù)清理即對目標(biāo)數(shù)據(jù)中重復(fù)的數(shù)據(jù)、丟失的數(shù)據(jù)、異常的數(shù)據(jù)等進(jìn)行相應(yīng)的處理,包括填充空缺值、識別孤立點、消除噪聲、糾正數(shù)據(jù)不一致等,進(jìn)而提高數(shù)據(jù)的質(zhì)量。處理重復(fù)數(shù)據(jù),即對數(shù)據(jù)庫中同類型的數(shù)據(jù)對比分析,在允許誤差范圍內(nèi)研究兩個數(shù)據(jù)是否等值。處理缺失數(shù)據(jù),即用不同的方法來填補(bǔ),方法有很多,比如采用缺失數(shù)據(jù)所在行的上一行和下一行記錄中該屬性值的平均值來填補(bǔ)空缺;或者使用所有該屬性的平均值填補(bǔ);或者利用回歸、判定樹歸納等方式確定最有可能的值來填補(bǔ)空缺。異常點檢測,異??赡苁怯蓽y量誤差所導(dǎo)致,也可能是數(shù)據(jù)固有的可變性結(jié)果。對于不同類型的數(shù)據(jù)的檢測方法也不一樣,時間型數(shù)據(jù)多采用基于移動窗口和標(biāo)準(zhǔn)差的方法;空間型數(shù)據(jù)多采用基于移動曲線擬合法;多維數(shù)據(jù)多采用聚類分析法來實現(xiàn)檢測。實踐證明,當(dāng)檢測到的異常點是因測量誤差所致時,去除后能提高挖掘的效率和準(zhǔn)確度;當(dāng)檢測到的異常點是正常點時,重點分析該點能發(fā)現(xiàn)其中隱含著重要的信息[7]。數(shù)據(jù)清理過程的流程如圖2所示。

        圖2 數(shù)據(jù)清理流程圖Fig.2 Data clearing flow chart

        3.4 數(shù)據(jù)的變換

        數(shù)據(jù)轉(zhuǎn)換階段的任務(wù)就是針對不同的數(shù)據(jù)類型進(jìn)行不同類型的數(shù)據(jù)轉(zhuǎn)換,這依賴于數(shù)據(jù)挖掘模型和輸入的數(shù)據(jù)集。

        1.平滑:去掉數(shù)據(jù)中的噪聲。這種技術(shù)包括分箱、聚類和回歸。

        2.聚集:對數(shù)據(jù)進(jìn)行匯總和聚集。例如,通過一天的發(fā)貨量統(tǒng)計月發(fā)貨量。

        3.數(shù)據(jù)概化:使用概念分層,用高層次的概念替換低層次的“原始”數(shù)據(jù)。如分類屬性street可以概化為高層次的概念,city或者country等。

        4.規(guī)范化:將屬性數(shù)據(jù)按照一定的比例進(jìn)行縮放,使這些數(shù)據(jù)落在一個較小的特定區(qū)間內(nèi)。方法有:

        最小—最大規(guī)范化:對原始數(shù)據(jù)進(jìn)行線性變換。設(shè)定屬性A的最大最小值分別為將 A的值映射到區(qū)間new_min,new_max中的v'。

        小數(shù)定標(biāo)規(guī)范化:通過一定屬性A的小數(shù)點位置規(guī)范化,公式為:。

        5.屬性構(gòu)造:即用現(xiàn)有的屬性構(gòu)造新的屬性,并添加到屬性集中。例如通過屬性height和width構(gòu)造屬性area。通過新組的屬性,可以發(fā)現(xiàn)數(shù)據(jù)屬性之間的更多聯(lián)系,為知識發(fā)現(xiàn)所用[7]。

        3.5 數(shù)據(jù)的規(guī)約

        基于定義的謂詞,利用屬性歸納技術(shù),設(shè)定謂詞的判定標(biāo)準(zhǔn),編寫判定函數(shù),進(jìn)行分析處理,這樣可以將連續(xù)性的數(shù)據(jù)進(jìn)行抽象歸納離散化,處理后的謂詞具有一定程度的抽象特征與層次概念,從而達(dá)到對數(shù)據(jù)的歸納與簡化,同時使得挖掘出的規(guī)則具有更高的支持度與可信度。歸納與概念泛化后的數(shù)據(jù)具備一定特征信息,但同時也存在多種數(shù)據(jù)格式與類型,為了需要,需要進(jìn)行編碼,并規(guī)范化。對每一個謂詞對應(yīng)的數(shù)據(jù)進(jìn)行抽象特征化,并進(jìn)行編碼,將每條記錄的謂詞判定結(jié)果全轉(zhuǎn)換成整型數(shù)據(jù),如0表示否,1表示是等。這樣對挖掘謂詞的計算處理結(jié)果就全轉(zhuǎn)換成0或1,預(yù)處理后的數(shù)據(jù)集就比較簡單。采用這種編碼方式,可以快速的實現(xiàn)現(xiàn)實數(shù)據(jù)與算法實現(xiàn)之間的轉(zhuǎn)換。以一個城市為例,提取幾個特征因素,經(jīng)過數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集如表1。

        表1 預(yù)處理后的數(shù)據(jù)集Tab.1 Data set after preprocessing

        同時對每個謂詞所在的記錄屬性列進(jìn)行編碼,給定唯一標(biāo)識,編碼后的每條記錄就對應(yīng)于一個一維數(shù)組,這樣編碼后的所有記錄集就可存放到一個整型的二維數(shù)組中,并使一維數(shù)組的下標(biāo)與判定謂詞的編號一一對應(yīng)。

        實踐證明,通過對預(yù)處理后的數(shù)據(jù)進(jìn)行相應(yīng)的操作,在用關(guān)聯(lián)規(guī)則的 APriori等算法進(jìn)行掃描記錄集時,只需直接以謂詞的所對應(yīng)的Id索引為一維數(shù)組的下標(biāo)讀取數(shù)據(jù),進(jìn)行分析判斷,而不需掃描整條記錄。并且針對物流信息中的海量數(shù)據(jù)而言,通過數(shù)據(jù)預(yù)處理,可以大大提高算法的效率[8]。

        4 結(jié)束語

        本文針對物流空間數(shù)據(jù)的海量性和復(fù)雜性,提出了空間數(shù)據(jù)預(yù)處理技術(shù)的工作流程,并重點分析了數(shù)據(jù)預(yù)處理的整個過程。實踐證明,物流數(shù)據(jù)通過預(yù)處理后,提高了數(shù)據(jù)的準(zhǔn)確度,為進(jìn)一步的數(shù)據(jù)挖掘算法提高了效率,有著一定的推廣價值。

        [1]楊柳.基于數(shù)據(jù)倉庫技術(shù)的物資管理系統(tǒng)的研究與開發(fā)[J].電腦開發(fā)與應(yīng)用,2005,18(11):15-19.

        [2]崔陽,王華,喬淑娟.基于GIS的空間數(shù)據(jù)庫構(gòu)建與應(yīng)用研究[J].微計算機(jī)信息,2006,22(2-3):199-201.

        [3]王道平,潘靜,郝玫.基于數(shù)據(jù)挖掘的物流信息系統(tǒng)研究與設(shè)計[J].價值工程,2004,3:117-119.

        [4]韓家煒,堪博.?dāng)?shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007:30-65.

        [5]范坤,何智文.基于數(shù)據(jù)挖掘在物流管理決策中的應(yīng)用[J].湖北廣播電視大學(xué)學(xué)報,2008,28(10):83-84.

        [6]孟燕萍,王潔,黃有方,等.?dāng)?shù)據(jù)倉庫在口岸物流數(shù)據(jù)分析中的應(yīng)用[J].上海海事大學(xué)學(xué)報,2008,29(4):65-69.

        [7]閆永慧,胡伍生.空間數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)的研究[J].山西建筑,2009,35(14):363-365.

        [8]黃容偉,李文敬.基于粗糙集理論的數(shù)據(jù)預(yù)處理[J].廣西師范學(xué)院學(xué)報:自然科學(xué)版,2006,23(4):87-92.

        猜你喜歡
        謂詞空間數(shù)據(jù)數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        被遮蔽的邏輯謂詞
        ——論胡好對邏輯謂詞的誤讀
        黨項語謂詞前綴的分裂式
        西夏研究(2020年2期)2020-06-01 05:19:12
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        元數(shù)據(jù)驅(qū)動的多中心空間數(shù)據(jù)同步方法研究
        也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲與組織研究
        客戶端空間數(shù)據(jù)緩存策略
        婷婷第四色| a级毛片免费观看在线播放| 少妇aaa级久久久无码精品片| 国内少妇偷人精品视频免费| 无码AV午夜福利一区| 全国一区二区三区女厕偷拍| 国产乱子伦精品无码专区| 国产99久久精品一区二区| 国产免费久久精品99re丫y| 亚洲精品乱码久久麻豆| 国产精品亚洲第一区二区三区| 玩弄放荡人妻少妇系列视频| 澳门精品无码一区二区三区| 国产一区二区三区免费主播| 亚洲另类丰满熟妇乱xxxx| 亚洲妇女无套内射精| 国产午夜福利不卡在线观看视频| 亚洲精品熟女乱色一区| 精品国产a一区二区三区v| 消息称老熟妇乱视频一区二区| 成人欧美在线视频| 天堂av一区二区在线| 亚洲 欧美 偷自乱 图片| 三级特黄60分钟在线观看| 亚洲成a∨人片在线观看无码| 国产精品久久国产精麻豆| 国产乱子伦精品无码专区| 久久棈精品久久久久久噜噜| 久久久高清免费视频| 麻豆久久91精品国产| 成人性生交大片免费看96| 四虎欧美国产精品| 人妻少妇粉嫩av专区一| 欧美巨鞭大战丰满少妇| 国内揄拍国内精品人妻浪潮av| 99re6久精品国产首页| 国产一区二区三区青青草| 国产又色又爽又黄刺激在线视频| 欧美日韩色| 中文字幕人妻久久一区二区三区| 男人的天堂中文字幕熟女人妻|