劉曉云
(臨沂職業(yè)學(xué)院 山東 臨沂 276017)
近年來,隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷發(fā)展,在居民小區(qū)中物流技術(shù)和網(wǎng)絡(luò)技術(shù)逐漸廣泛應(yīng)用,文中通過設(shè)計(jì)開發(fā)居民便利服務(wù)系統(tǒng),建立網(wǎng)絡(luò)信息墻,向小區(qū)居民分欄發(fā)布最新的蔬菜產(chǎn)品價(jià)格行情、日常實(shí)用新產(chǎn)品技術(shù)、醫(yī)療保健信息、家政供求信息、政策法規(guī)通知等各類小區(qū)居民生活服務(wù)信息,供居民選用、訂制,形成新的商品、服務(wù)營銷模式。“網(wǎng)絡(luò)信息墻”的設(shè)立,為供需雙方的溝通提供了新的方式,提高了小區(qū)居民的信息化應(yīng)用水平。
數(shù)據(jù)挖掘是指在已構(gòu)建的數(shù)據(jù)對(duì)象中,采用數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)開采、結(jié)果表達(dá)和解釋3個(gè)處理階段從隱含在人們事先未知的、潛在的有用信息和知識(shí)中提取出可表示為概念規(guī)則、規(guī)律、模式等形式的知識(shí)。文中采用由R.Agrawal等提出的關(guān)聯(lián)規(guī)則進(jìn)行分析、研究[4-6]。
在居民便利服務(wù)系統(tǒng)中,根據(jù)小區(qū)居民訂制的各類生活服務(wù)信息,及時(shí)匯總、保存,并進(jìn)行數(shù)據(jù)信息挖掘、分析,以便發(fā)現(xiàn)瀏覽者感興趣的信息或者服務(wù),并根據(jù)該相關(guān)信息,預(yù)測出最近將來一段時(shí)間內(nèi),該用戶還可能要購買那種商品的一種關(guān)聯(lián),以此形成的服務(wù)信息鏈為信息服務(wù)鏈。
在居民便利服務(wù)系統(tǒng)中,根據(jù)信息服務(wù)鏈的定義,會(huì)在數(shù)據(jù)庫中存在大量的有用信息需要分析、挖掘,以便為后續(xù)營銷或服務(wù)提供知識(shí)發(fā)現(xiàn)。如圖1居民便利服務(wù)系統(tǒng)數(shù)據(jù)挖掘處理流程模型所示。
圖1 居民便利服務(wù)信息庫的數(shù)據(jù)挖掘流程模型Fig.1 Data mining procedural model of resident convenient service information database
居民便利服務(wù)是多層次、多方位、復(fù)雜化的。網(wǎng)絡(luò)信息墻中存有大量的數(shù)據(jù)信息,首先從中進(jìn)行取樣(sampling)[8],通過對(duì)局部數(shù)據(jù)的統(tǒng)計(jì)和分析,建立確定從概念層次的中間挖掘的起點(diǎn),以此挖掘到符合閾值的關(guān)聯(lián)規(guī)則,最后采用多層次關(guān)聯(lián)規(guī)則挖掘算法對(duì)網(wǎng)絡(luò)信息墻中進(jìn)行數(shù)據(jù)挖掘。
多層次關(guān)聯(lián)規(guī)則挖掘算法ML_ARDM[6-7]
輸入:貿(mào)易數(shù)據(jù)庫TDB,概念層次樹Tree,最小支持度Smin,最小可信度Cmin。
輸出:多層次關(guān)聯(lián)規(guī)則信息集。
主挖掘算法:
l)以Tid為依據(jù)進(jìn)行取樣,然后另存為取樣數(shù)據(jù)庫TDatabase;
2)運(yùn)用取樣挖掘算法對(duì)TDatabase中的數(shù)據(jù)進(jìn)行取樣挖掘;
3)把取樣挖掘產(chǎn)生的S_Tree作為概念層次樹,用于實(shí)現(xiàn)挖掘算法對(duì)整體數(shù)據(jù)進(jìn)行實(shí)現(xiàn)挖掘。
取樣挖掘算法:
l)計(jì)算頻繁項(xiàng)集得到S_Tree;
2)從S_Tree中刪除當(dāng)前節(jié)點(diǎn)以及后續(xù)都不能組成頻繁規(guī)則的節(jié)點(diǎn),記為S_Tree′;
3)擴(kuò)展S_Tree′中的S_Tree的葉子節(jié)點(diǎn);
4)S_Tree:=S_Tree′+根節(jié)點(diǎn), 重新構(gòu)建S_Tree, 使之成為一棵完整的帶有信息服務(wù)的樹;
5)擴(kuò)展S_Tree中的所有節(jié)點(diǎn)的下一級(jí)子節(jié)點(diǎn),加入S_Tree,S_Tree使降低一層。
實(shí)現(xiàn)挖掘算法:
l)進(jìn)行頻繁項(xiàng)集計(jì)算處理;
2)計(jì)算后選規(guī)則集;
3)生成優(yōu)化的規(guī)則集;
算法說明:取樣挖掘算法目的是為了得到取樣樹S_Tree,為實(shí)現(xiàn)挖掘算法選擇合適的起點(diǎn)。
取樣挖掘算法中步驟3~5的作用是為S_Tree中盡可能多的包含可能組成規(guī)則的節(jié)點(diǎn),目的是使實(shí)現(xiàn)挖掘得出的規(guī)則在挖掘結(jié)果中更具完整性。
在居民便利服務(wù)中,各類資源之間存在較為復(fù)雜的關(guān)系,比如:日用品及蔬菜配送、醫(yī)療保健、家政供求、人力配備、價(jià)格、居民人數(shù)等6個(gè)因素會(huì)存在利用沖突的問題。為此,居民服務(wù)中心從采購中心購進(jìn)日用百貨時(shí),應(yīng)考慮最大盈利問題,即:早上進(jìn)的貨零售,晚上將沒有售掉的退回。根據(jù)居民區(qū)內(nèi)居民通過網(wǎng)絡(luò)或者實(shí)時(shí)通訊工具向居民服務(wù)中心提交的需求信息,由多層次關(guān)聯(lián)規(guī)則挖掘算法,可以建立日用百貨需求購進(jìn)量模型。
設(shè)豆?jié){每份的購進(jìn)價(jià)格b(buy),零售價(jià)為s(sale),返回價(jià)為r(return),則根據(jù)正常市場經(jīng)濟(jì)運(yùn)行規(guī)則,可設(shè):s>b>r。 因此,居民服務(wù)中心每銷售一份豆?jié){可賺s-b,返回一份賠b-r。居民服務(wù)中心每天如果購進(jìn)的豆?jié){太少,則無法滿足顧客需要,盈利則少;如果豆?jié){購進(jìn)太多,則無法全部售出,還要退回賠錢。為此,應(yīng)根據(jù)需求量確定購進(jìn)量。需求量是根據(jù)多層次管理關(guān)聯(lián)規(guī)則算法得出的每日豆?jié){需求量概率數(shù)為x份的概率是f(x)(x=0,1,2,3…),則可以在f(x)和s,b,r之間建立關(guān)于需求購進(jìn)量優(yōu)化模型[7-9]。
假設(shè)每天豆?jié){購進(jìn)量為n份,因?yàn)樾枨罅縳是隨機(jī)不確定的,x可以小于n,等于n或大于n,因此,豆?jié){的日盈利也是變化不定的,作為優(yōu)化模型的目標(biāo)函數(shù),應(yīng)考慮的是一段時(shí)間的平均盈利。
若居民服務(wù)中心每天購進(jìn)n份豆?jié){時(shí)的平均盈利為G(n),如果當(dāng)天的需求量x≤n,則售出x份,退回n-x;如果當(dāng)天的需求量x>n,則n份全部售完??紤]到需求量x的概率是f(x),所以
問題歸結(jié)為在f(x),b,s,r已知時(shí),求n使G(n)最大。
通常需求量x的取值和購進(jìn)量n都相當(dāng)大,將x視為連續(xù)變量更便于分析和計(jì)算,此時(shí)概率函數(shù)f(x)轉(zhuǎn)化為概率密度函數(shù)p(x),(1)式變?yōu)椋?/p>
化解計(jì)算得:
要使居民服務(wù)中心的平均盈利達(dá)到最大的購進(jìn)量n應(yīng)滿足(3)式。因?yàn)椋虼吮磉_(dá)式(3)也可表示為:
由需求量的概率密度p(x)的圖形能交容易從(3)式確定購進(jìn)量n。 在圖2中,P1,P2分別表示曲線p(x)下的兩塊面積,則(3)式可表示為:
圖 2 由p(x)確定n的圖解法Fig.2 By p(x) graphic method of determining n
居民服務(wù)中心可以運(yùn)用此優(yōu)化模型的目標(biāo)函數(shù)在其他進(jìn)貨商品中使用,以此提高需求進(jìn)貨量的效益。而基于局域網(wǎng)的服務(wù)信息,通過網(wǎng)絡(luò)信息墻及時(shí)顯示已預(yù)定的相關(guān)便利服務(wù),以便其他居民及時(shí)調(diào)整選擇其他服務(wù)[10]。網(wǎng)絡(luò)信息墻的部署圖如圖3所示。
圖3 網(wǎng)絡(luò)信息墻的部署圖Fig.3 Deploy diagram of network information wall
在居民小區(qū)局域網(wǎng)中,根據(jù)居民個(gè)體需要,在其家內(nèi)安裝信息墻,利用網(wǎng)絡(luò)實(shí)時(shí)獲取小區(qū)居民訂制的各類日常服務(wù)信息,并運(yùn)用多層次關(guān)聯(lián)規(guī)則挖掘算法和需求購進(jìn)量模型目標(biāo)函數(shù)分析、挖掘得到確定的居民便利服務(wù)信息,同時(shí)通過網(wǎng)絡(luò)將相關(guān)信息顯示在信息墻,方便其他居民選擇不同的便利服務(wù)信息,以此提高居民信息化服務(wù)水平。
[1]蔡敏,徐慧慧,黃炳強(qiáng).UML基礎(chǔ)與Rose建模教程[M].北京:人民郵電出版社,2006.
[2]刁成嘉.UML系統(tǒng)建模與分析設(shè)計(jì)[M].北京:機(jī)械工業(yè)出版社,2007.
[3]Ronald J.Norman:Object-oriented system analysis snd design[M].Prentice Hall,inc,1996.
[4]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[5]康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[M].北京:機(jī)械工業(yè)出版社,2004.
[6]陳子陽,郭景峰.多層次關(guān)聯(lián)規(guī)則的快速挖掘算法[J].燕山大學(xué)學(xué)報(bào),2003(10):363-366.CHEN Zi-yang,GUO Jing-feng.Fast mining algorithm for multilevel association rules[J].Journal of Yanshan University,2003(10):363-366.
[7]程繼華,施鵬飛.多層次關(guān)聯(lián)規(guī)則的有效挖掘算法[J].軟件學(xué)報(bào),1998(12):937-942.CHENG Ji-hua,SHI Peng-fei.Effective mining algorithm for multi-level association rules[J].Journal of Software,1998(12):937-942.
[8]胡健穎,孫山澤.抽樣調(diào)查的理論、方法和應(yīng)用[M].北京:北京大學(xué)出版社,2000.
[9]范錫軍.基于博弈的供應(yīng)鏈均衡模型研究[D].山東:山東師范大學(xué),2008.
[10]陳蜀宇,陳四清.基于局域網(wǎng)的系統(tǒng)級(jí)概率分布式故障診斷[J].計(jì)算機(jī)科學(xué),2000(5):516-522.CHEN Shu-yu,CHEN Si-qing.Fault diagnosis of probabilistic distributed system-level based on LAN[J].Computer Science,2000(5):516-522.