亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘技術的商品陳列研究

        2010-12-31 00:00:00朱海紅江庭友司丹丹
        商場現(xiàn)代化 2010年35期

        [摘要]商品陳列的科學性的研究,借助于數(shù)據(jù)挖掘的技術從海量的銷售數(shù)據(jù)中提取隱含在其中的、事先未知的、但又是潛在有用的信息。本文綜述了各種常用的數(shù)據(jù)挖掘算法和評價標準。

        [關鍵詞] 數(shù)據(jù)挖掘決策樹神經(jīng)網(wǎng)絡

        數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識的非平凡過程,匯集了來自機器學習、模式識別、數(shù)據(jù)庫、統(tǒng)計學、人工智能以及管理信息系統(tǒng)等多學科的成果。其中在商業(yè)數(shù)據(jù)挖掘技術超市陳列研究不可能另起爐灶,新建一套數(shù)據(jù)庫。因此需要借助原有的超市銷售管理系統(tǒng)中積累了海量的銷售與經(jīng)營數(shù)據(jù),并建立在數(shù)據(jù)倉庫技術(Data Warehouse,DW)和聯(lián)機分析處理(On-Line Analysis Processing, OLAP)技術的基礎上,運用關聯(lián)分析、分類、聚類分析和預測分析等數(shù)據(jù)挖掘方法,從海量的交易數(shù)據(jù)中發(fā)掘有價值的知識,為超市的決策者提供科學的決策信息和依據(jù)。

        一、數(shù)據(jù)倉庫技術與聯(lián)機分析處理

        所謂數(shù)據(jù)倉庫就是一個專門的用來保存從多個數(shù)據(jù)庫或其它信息源選取的已有數(shù)據(jù),并為上層應用提供一個統(tǒng)一的用戶接口,用以完成數(shù)據(jù)的查詢和分析。數(shù)據(jù)倉庫概念創(chuàng)始人英蒙(William H. Inmon)在《Building the Data Warehouse(建立數(shù)據(jù)倉庫)》一書中對數(shù)據(jù)倉庫的定義是:“數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程、數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題,與傳統(tǒng)數(shù)據(jù)庫面向應用相對應。”

        數(shù)據(jù)倉庫的基本結(jié)構(gòu)可分為4個部分:數(shù)據(jù)源、數(shù)據(jù)倉庫、應用工具和可視化用戶應用界面。

        1.數(shù)據(jù)倉庫是整個系統(tǒng)的核心,設在大型超市的總部。系統(tǒng)將各個零售數(shù)據(jù)經(jīng)抽取、變換、凈化、加載和匯總后進人數(shù)據(jù)倉庫。

        2.數(shù)據(jù)源所提供的歷史數(shù)據(jù)是創(chuàng)建數(shù)據(jù)倉庫的基礎,分為內(nèi)部數(shù)據(jù)源和外部數(shù)據(jù)源。內(nèi)部數(shù)據(jù)源主要來自于超市日常運營系統(tǒng)所提供的數(shù)據(jù),它包括每天的POS銷售數(shù)據(jù)、庫存數(shù)據(jù)、采購數(shù)據(jù)、財會數(shù)據(jù)、供應商數(shù)據(jù)及客戶數(shù)據(jù)等,可以是異種或異構(gòu)數(shù)據(jù)庫,也可以是非傳統(tǒng)的數(shù)據(jù),例如Word文檔、HTML,Excel電子表格等。外部數(shù)據(jù)源是指來自商家的專門調(diào)查或相關部門統(tǒng)計的數(shù)據(jù),如競爭對手信息、行業(yè)統(tǒng)計信息、市場占有率等。

        3.應用工具主要指OLAP工具和數(shù)據(jù)挖掘工具。OLAP可以按照分析人員的要求,快速靈活地進行大量數(shù)據(jù)的復雜查詢處理,并可以通過可視化前端服務以一種直觀易懂的方式將分析的結(jié)果呈現(xiàn)給分析人員。數(shù)據(jù)挖掘工具是從大量數(shù)據(jù)中尋找尚未發(fā)現(xiàn)的重要信息。

        4.可視化前端服務是面向用戶的需求將分析結(jié)果以方便用戶理解的方式呈現(xiàn)給用戶,以支持用戶進行決策。

        聯(lián)機分析處理是一個與數(shù)據(jù)倉庫高度相關的概念,1993年由關系數(shù)據(jù)庫之父愛德華#8226;庫德(E#8226;F#8226;Codd)博士于提出的,是一種用于組織大型商務數(shù)據(jù)庫和支持商務智能的技術。OLAP數(shù)據(jù)庫分為一個或多個多維數(shù)據(jù)集,每個多維數(shù)據(jù)集都由多維數(shù)據(jù)集管理員組織和設計以適應用戶檢索和分析數(shù)據(jù)的方式,從而更易于創(chuàng)建和使用所需的數(shù)據(jù)透視表和數(shù)據(jù)透視圖。數(shù)據(jù)倉庫系統(tǒng)的核心是聯(lián)機分析處理,但數(shù)據(jù)倉庫包括更為廣泛的內(nèi)容。概括來說,數(shù)據(jù)倉庫系統(tǒng)是指具有綜合企業(yè)數(shù)據(jù)的能力,能夠?qū)Υ罅科髽I(yè)數(shù)據(jù)進行快速和準確分析,輔助做出更好的商業(yè)決策的系統(tǒng)。它本身包括三部分內(nèi)容:

        (1)數(shù)據(jù)層:實現(xiàn)對企業(yè)操作數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗和匯總,形成信息數(shù)據(jù),并存儲在企業(yè)級的中心信息數(shù)據(jù)庫中。

        (2)應用層:通過聯(lián)機分析處理,甚至是數(shù)據(jù)挖掘等應用處理,實現(xiàn)對信息數(shù)據(jù)的分析。

        (3)表現(xiàn)層:通過前臺分析工具,將查詢報表、統(tǒng)計分析、多維聯(lián)機分析和數(shù)據(jù)發(fā)掘的結(jié)論展現(xiàn)在用戶面前。

        從應用角度來說,數(shù)據(jù)倉庫系統(tǒng)除了聯(lián)機分析處理外,還可以采用傳統(tǒng)的報表,或者采用數(shù)理統(tǒng)計和人工智能等數(shù)據(jù)挖掘手段,涵蓋的范圍更廣;就應用范圍而言,聯(lián)機分析處理往往根據(jù)用戶分析的主題進行應用分割,例如:銷售分析、市場推廣分析、客戶利潤率分析等等,每一個分析的主題形成一個OLAP應用,而所有的OLAP應用實際上只是數(shù)據(jù)倉庫系統(tǒng)的一部分。

        二、數(shù)據(jù)預處理與算法綜述

        因為數(shù)據(jù)預處理沒有統(tǒng)一的標準,只能說是根據(jù)不同類型項目的分析數(shù)據(jù)和業(yè)務需求,在對數(shù)據(jù)特性做了充分的理解之后,再選擇相關的數(shù)據(jù)預處理技術,一般會用到多種預處理技術,而且對每種處理之后的效果做些分析對比,再重新調(diào)整下一步的挖掘思路,這里面經(jīng)驗的成分比較大?;跀?shù)據(jù)倉庫的數(shù)據(jù)挖掘一般包括數(shù)據(jù)抽取、清洗轉(zhuǎn)換和加載(ETL,Extract、Transform Cleansing、Load)三個步驟,而先導型數(shù)據(jù)挖掘項目主要是前兩個步驟。主要涉及到數(shù)據(jù)清理、數(shù)據(jù)集成與變換和數(shù)據(jù)規(guī)約等技術。

        數(shù)據(jù)的抽取(這個過程也可以做一些數(shù)據(jù)的清洗和轉(zhuǎn)換)是從各個不同的數(shù)據(jù)源抽取到數(shù)據(jù)集中區(qū)(ODS,Operational Data Store)中,在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。就個人經(jīng)驗來看,數(shù)據(jù)抽取、清洗轉(zhuǎn)換和加載三個部分中,花費時間最長的是清洗、轉(zhuǎn)換(TC)的部分,一般情況下這部分工作量是整個過程的2/3。對于先導型數(shù)據(jù)挖掘而且這個部分需要不斷的反復做。

        因為數(shù)據(jù)預處理沒有統(tǒng)一的標準,只能說是根據(jù)不同類型項目的分析數(shù)據(jù)和業(yè)務需求,在對數(shù)據(jù)特性做了充分的理解之后,再選擇相關的數(shù)據(jù)預處理技術,一般會用到多種預處理技術,而且對每種處理之后的效果做些分析對比,再重新調(diào)整下一步的挖掘思路,這里面經(jīng)驗的成分比較大?;跀?shù)據(jù)倉庫的數(shù)據(jù)挖掘一般包括數(shù)據(jù)抽取、清洗轉(zhuǎn)換和加載(ETL,Extract、Transform Cleansing、Load)三個步驟,而先導型數(shù)據(jù)挖掘項目主要是前兩個步驟。主要涉及到數(shù)據(jù)清理、數(shù)據(jù)集成與變換和數(shù)據(jù)規(guī)約等技術。

        數(shù)據(jù)的抽取(這個過程也可以做一些數(shù)據(jù)的清洗和轉(zhuǎn)換)是從各個不同的數(shù)據(jù)源抽取到數(shù)據(jù)集中區(qū)(ODS,Operational Data Store)中,在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。就個人經(jīng)驗來看,數(shù)據(jù)抽取、清洗轉(zhuǎn)換和加載三個部分中,花費時間最長的是清洗、轉(zhuǎn)換(TC)的部分,一般情況下這部分工作量是整個過程的2/3。對于先導型數(shù)據(jù)挖掘而且這個部分需要不斷的反復做。

        1.數(shù)據(jù)清理:通過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除孤立點,并解決不一致數(shù)據(jù),主要是達到格式標準化、異常數(shù)據(jù)清除、錯誤糾正和清除重復數(shù)據(jù)的效果。

        2.數(shù)據(jù)集成與變換:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲過程實際上就是數(shù)據(jù)集成,即數(shù)據(jù)集成合并多個數(shù)據(jù)源中的數(shù)據(jù),存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)集中區(qū)或數(shù)據(jù)集市)中。這些數(shù)據(jù)源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件。主要涉及實體識別、冗余和數(shù)據(jù)值沖突的檢測與處理三方面問題。

        3.數(shù)據(jù)歸約:數(shù)據(jù)歸約技術可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近保持原數(shù)據(jù)的完整性。這樣,對歸約后的數(shù)據(jù)集挖掘?qū)⒏行Вa(chǎn)生相同(或幾乎相同)的分析結(jié)果。

        因為不同超市采用不同銷售管理系統(tǒng),而且格式差異很大,采集的數(shù)據(jù)質(zhì)量太差并且格式不一致,本文將數(shù)據(jù)倉庫數(shù)據(jù)導入一個Excel 表格,進行手工處理。

        由于挖掘數(shù)據(jù)量一般比較大,因此,算法的時空復雜性成為許多挖掘工具實際應用中的重要限制因素。如果算法的復雜性隨著數(shù)據(jù)量的增大、模式精細度的提高、準確度要求的增加而呈現(xiàn)指數(shù)增長,就將嚴重限制數(shù)據(jù)挖掘工具的應用。

        為了了解數(shù)據(jù)挖掘工具解決復雜問題的能力大小.可從挖掘工具的模式應用、數(shù)據(jù)選擇和轉(zhuǎn)換能力、可視化程度、擴展性等方面考察。

        多種類別模式的結(jié)合使用往往有助于發(fā)現(xiàn)有用的商業(yè)模式,降低問題的復雜性。特別是與分類有關的模式,可用不同的算法來實現(xiàn),以適應不同的需求環(huán)境。數(shù)據(jù)挖掘工具如果能夠提供多種途徑產(chǎn)生同種模式,可以提高其解決復雜問題的能力。

        數(shù)據(jù)選擇和轉(zhuǎn)換能力對挖掘工具解決復雜問題能力的影響也是相當大的。因為知識模式通常被大量的數(shù)據(jù)項所隱藏,這些數(shù)據(jù)有的是冗余的,有的是完全無關的。這些數(shù)據(jù)項的存在會影響有價值模式發(fā)現(xiàn)的能力。數(shù)據(jù)挖掘工具的一個很重要功能,就是能夠減低數(shù)據(jù)的復雜性,提供選擇正確數(shù)據(jù)項和轉(zhuǎn)化數(shù)據(jù)值的能力,這些能力都將增加數(shù)據(jù)挖掘工具解決復雜問題的能力。

        可視化工具不僅為用戶提供了直觀、簡潔的數(shù)據(jù)挖掘方法,方便了用戶使用數(shù)據(jù)挖掘工具;更重要的是可視化工具有助于用戶對重要數(shù)據(jù)的定位,對模式質(zhì)量的評價,從而降低解決復雜問題時建模的難度。

        三、影響購買的因素

        為方便處理,將品牌根據(jù)銷量歸一化(即根據(jù)銷量加權(quán)平均),同時將所有飲料同質(zhì)化處理,即不考慮其口味和品種,僅考慮其由于其擺放位置高度、深度和擺放幅度(寬度),以及視角和色彩種類。

        表描述統(tǒng)計表

        NMinimumMaximumMeanStd. Deviation

        超市面積(m^2)45203200219.76469.703

        超市經(jīng)營貨品種類45300298003153.564512.070

        月銷售額(萬元)452250073.44370.152

        POS機數(shù)量(臺)451202.893.151

        營業(yè)時間(hr)4512.024.015.0563.0080

        周邊小區(qū)45072.871.700

        客戶行走動線長度45520018.0128.707

        最大客戶線密度(個/m)45.11.9.956.5692

        貨架高度(m)451.594.003.0174.76483

        貨架格數(shù)45464.98.783

        貨架深度44164.20.878

        貨架寬度45152.761.368

        視角(度)4504220.3712.344

        色彩種類45153.001.446

        四、主成分分析原理

        目前超市,其選擇的樣本數(shù)量都在幾十個到一百多個,所使用的指標大多是根據(jù)主觀判斷選擇能影響產(chǎn)品銷售的指標作為模型的輸入變量,所選的指標數(shù)量在幾個到幾十個之間。由于樣本量多數(shù)偏小,不足以體現(xiàn)數(shù)據(jù)挖掘技術的優(yōu)勢,而且盡管在樣本選擇上都采取隨機抽樣,但是由于數(shù)據(jù)的可獲得性或其他原因,都或多或少對研究結(jié)論有一定影響。所以首先要對這些指標進行降維處理,找出最重要的幾個影響指標。

        一般來說,指標降維有小波變換和主成分分析(PCA,principal components analysis)兩類方法,與小波變換相比,PCA(又稱Karhunen-Loeve或K-L方法)能夠更好地處理稀疏數(shù)據(jù),而小波變換似乎更適合復雜高維結(jié)構(gòu)數(shù)據(jù)。

        假定待歸約的數(shù)據(jù)由n個屬性或維描述的元組或數(shù)據(jù)向量組成。PCA搜索k個最能代表數(shù)據(jù)的n維正交向量,其中k≤n。這樣,原來的數(shù)據(jù)投影到一個小得多的空間,導致維度歸約。不像屬性子集選擇通過保留原屬性集的一個子集來減少屬性集的大小,PCA通過創(chuàng)建一個替換的、更小的變量集“組合”屬性的基本要素。原數(shù)據(jù)可以投影到該較小的集合中。PCA常常揭示先前未曾察覺的聯(lián)系,并因此允許解釋不尋常的結(jié)果?;具^程如下:

        1.對輸入數(shù)據(jù)規(guī)范化,使得每個屬性都落入相同的區(qū)間。此步有助于確保具有較大定義域的屬性不會支配具有較小定義域的屬性。

        2.PCA計算k個標準正交向量,作為規(guī)范化輸入數(shù)據(jù)的基。這些是單位向量,每一個方向都垂直于另一個。這些向量稱為主成分。輸入數(shù)據(jù)是主成分的線性組合。

        3.對主成分按“重要性”或強度降序排列。主成分基本上充當數(shù)據(jù)的新坐標軸,提供關于方差的重要信息。也就是說,對坐標軸進行排序,使得第一個坐標軸顯示數(shù)據(jù)的最大方差,第二個顯示次大方差,如此下去。這一信息幫助識別數(shù)據(jù)中的分組或模式。

        4.既然主成分根據(jù)“重要性”降序排列,就可以通過去掉較弱的成分(即方差較?。﹣須w約數(shù)據(jù)的規(guī)模。使用最強的主成分,應當能夠重構(gòu)原數(shù)據(jù)的很好的近似。

        PCA計算開銷低,可以用于有序和無序的屬性,并且可以處理稀疏和傾斜數(shù)據(jù)。多于2維的多維數(shù)據(jù)可以通過將問題歸約為2維問題來處理。主成分可以用作多元回歸和聚類分析的輸入。

        五、結(jié)論

        通過主成分分析,安徽某市超市飲料銷售與面積和客戶行走動線長度高度相關,與其他因素相關性沒有通過統(tǒng)計學檢驗,由于數(shù)據(jù)采集和相關變量設置缺乏足夠的經(jīng)驗,現(xiàn)在只能懷疑數(shù)據(jù)采集的時點的不相關性導致規(guī)律的不明顯。

        因為超市的最主要的數(shù)據(jù)是銷售數(shù)據(jù),其他數(shù)據(jù),如庫存數(shù)據(jù)、采購數(shù)據(jù)都是圍繞著該數(shù)據(jù),或說與該數(shù)據(jù)高度相關。顯然,銷售數(shù)據(jù)蘊含的反映顧客購買行為的商品相關性信息,這個是我們最為關心的。此類數(shù)據(jù)的最大的特點是,基于半文本的,非結(jié)構(gòu)化的,短時段內(nèi)是隨機的(客戶間相關性很弱),但是長時段與時間相關(季節(jié)趨勢),因此對此類數(shù)據(jù)應該以關聯(lián)性挖掘算法為主,當然多種類別模式的結(jié)合使用往往有助于發(fā)現(xiàn)更有用的商業(yè)模式,同時有時會降低問題的復雜性。特別是,在銷售中分析與歸類有關的模式,可用不同的算法來實現(xiàn),以適應不同的需求環(huán)境。數(shù)據(jù)挖掘工具如果能夠提供多種途徑產(chǎn)生同種模式,可以提高其解決復雜問題的能力。

        參考文獻:

        [1] (美)Jiawei Han(韓家煒)and M. Kamber 著,范明等 譯,數(shù)據(jù)挖掘概念與技術 [M].北京:機械工業(yè)出版社,2001:1-97

        [2](英)David Hand 等著,張銀奎等譯,數(shù)據(jù)挖掘原理 [M].北京:機械工業(yè)出版社,2003:64-122

        [3] (意)Paolo Giudici著, 袁方等 譯 ,實用數(shù)據(jù)挖掘 [M].北京:電子工業(yè)出版社,2004:1-91

        [4] (美)Pang-Ning Tan(陳封能), Michael Steinbach and Vipin Kumar著, 范明、范宏建 譯,數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2006:1-140

        [5]安淑芝 等,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 [M].北京:清華大學出版社,2005:53-70

        [6] (美)George M.Marakas 著,敖富江譯.數(shù)據(jù)倉庫、挖掘和可視化核心概念.北京:清華大學出版社,2004:79-124

        [7](美)Trevor Hastie,Robert Tibshirani and Jerome Friedman, 范明等 譯,統(tǒng)計學習基礎:數(shù)據(jù)挖掘、推理與預測[M].北京:電子工業(yè)出版社,2004:135-155,243-258

        亚洲av国产大片在线观看| 羞羞视频在线观看| 免费国精产品自偷自偷免费看| 色欲AV无码久久精品有码| 一本大道加勒比东京热| 91精品国产福利在线观看麻豆| 六月丁香综合在线视频| av无码精品一区二区三区四区| 国产视频嗯啊啊啊| 99伊人久久精品亚洲午夜| 国产 精品 自在 线免费| 思思久久96热在精品国产| 国产精品玖玖玖在线资源| 日本一区二区三区精品不卡| 日韩人妻另类中文字幕| 中国人妻被两个老外三p| 黄色毛片视频免费| 久久蜜桃一区二区三区| 99re6在线视频精品免费下载| 国产精品免费观看久久| 免费国产黄线在线播放| 白色白色白色在线观看视频 | 99热在线播放精品6| 国产麻豆一区二区三区在| 国产亚av手机在线观看| 亚洲人成人影院在线观看| 人妻中文字幕av有码在线| 日本乱码一区二区三区在线观看| 亚洲av永久无码精品放毛片| 欧美aⅴ在线| 亚洲天堂av免费在线| 成人欧美一区二区三区黑人| 中国丰满熟妇av| 日本高清在线播放一区二区三区| 伊人久久大香线蕉av不变影院| 国产午夜福利久久精品| 中文字幕欧美一区| 丰满人妻无套内射视频| 伦伦影院午夜理论片| 国产乱子伦视频大全| 人妻中文字幕av有码在线|