〔摘 要〕網(wǎng)格的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)與網(wǎng)格計(jì)算的有機(jī)結(jié)合,文章介紹了網(wǎng)格數(shù)據(jù)挖掘的概念、特點(diǎn)、網(wǎng)格數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn),網(wǎng)格數(shù)據(jù)挖掘的體系結(jié)構(gòu),討論了網(wǎng)格的數(shù)據(jù)挖掘的基本過程,并從開放網(wǎng)格服務(wù)體系結(jié)構(gòu)出發(fā),給出了網(wǎng)格平臺(tái)下的信息服務(wù)質(zhì)量數(shù)據(jù)挖掘的功能和執(zhí)行過程。
〔關(guān)鍵詞〕網(wǎng)格;數(shù)據(jù)挖掘;服務(wù)質(zhì)量;數(shù)據(jù)庫
〔中圖分類號(hào)〕TP392 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2009)07-0141-03
Application of Grid Data Mining on Information Service QualityPan Qingchao
(College of Physics Science and Technology,Shenyang Normal University,Shenyang 110034,China)
〔Abstract〕Grid data mining is an integration of data mining and grid computing.The paper introduced the concept,characteristics,from the perspective of OGSA,it offered the functions and process of information service quality data mining under the platform of grid.
〔Key words〕grid;data mining;information service quality;database
1 網(wǎng)格數(shù)據(jù)挖掘概念[1]
網(wǎng)格的數(shù)據(jù)挖掘建立在數(shù)據(jù)網(wǎng)格的基礎(chǔ)設(shè)施和相關(guān)技術(shù)的基礎(chǔ)上,在廣域分布的海量數(shù)據(jù)和計(jì)算資源的環(huán)境中發(fā)現(xiàn)數(shù)據(jù)模式,獲取新的科學(xué)知識(shí)和規(guī)律。這個(gè)網(wǎng)格計(jì)算環(huán)境提供特殊的數(shù)據(jù)管理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)復(fù)制和安全監(jiān)控等功能。用戶向網(wǎng)格系統(tǒng)提出的數(shù)據(jù)任務(wù)就是一種網(wǎng)格服務(wù)。執(zhí)行運(yùn)算的處理器和存儲(chǔ)空間等視作資源,而與任務(wù)相關(guān)的數(shù)據(jù)庫或數(shù)據(jù)倉庫、數(shù)據(jù)挖掘算法等則可以看作是用戶擁有的特殊資源。
2 利用網(wǎng)格數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn)[2]
2.1 提高現(xiàn)有資源的利用率
通過資源的共享與整合,可以方便地彼此“借用”,減小資源的閑置,提高資源的使用效率。
2.2 從大量的數(shù)據(jù)中發(fā)現(xiàn)或“挖掘”有用的知識(shí)
網(wǎng)格中含有大量分布在各網(wǎng)格節(jié)點(diǎn)中的數(shù)據(jù),網(wǎng)格數(shù)據(jù)挖掘就需要跨多個(gè)網(wǎng)格節(jié)點(diǎn)實(shí)施全局?jǐn)?shù)據(jù)挖掘。網(wǎng)格的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)和網(wǎng)格計(jì)算的有機(jī)結(jié)合,它通過共享解決方案、算法、計(jì)算、數(shù)據(jù)、存儲(chǔ)服務(wù)來實(shí)施可靠和可擴(kuò)展的數(shù)據(jù)挖掘任務(wù),能夠在動(dòng)態(tài)變化的多個(gè)節(jié)點(diǎn)間共享資源和協(xié)調(diào)解決數(shù)據(jù)挖掘問題。
3 網(wǎng)格數(shù)據(jù)挖掘的體系結(jié)構(gòu)[3]
3.1 網(wǎng)格的重要特點(diǎn)是分布性和動(dòng)態(tài)性
網(wǎng)格的各種資源不是集中在一起的,而是分布在不同的地理位置,各種資源也是動(dòng)態(tài)變化的。正是網(wǎng)格的這些特點(diǎn)及其分布式環(huán)境,使得網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)不再局限于傳統(tǒng)的集中式數(shù)據(jù)挖掘系統(tǒng),而是和網(wǎng)格一樣具有分布性、動(dòng)態(tài)性和自適應(yīng)性。
3.2 網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)采用分布式的組件架構(gòu)和自適應(yīng)的分布技術(shù),由一系列的組件集成,組件之間可以實(shí)現(xiàn)互相通信和數(shù)據(jù)交換
這種基于分布式組件技術(shù)的體系結(jié)構(gòu)允許更大的彈性,包括集成不同的協(xié)議、應(yīng)用程序接口、應(yīng)用程序、操作系統(tǒng)和硬件,能夠提供多級(jí)的抽象能力、高可靠性、可擴(kuò)充性和安全性。其體系結(jié)構(gòu)如圖1所示。
4 網(wǎng)格數(shù)據(jù)挖掘新技術(shù)的融合[4]
4.1 Web Service和網(wǎng)格技術(shù)融合
Web Service和網(wǎng)格技術(shù)融合可解決“無處不在的集成計(jì)算和資源共享”的應(yīng)用技術(shù)問題。在HTML、SMTP等Internet標(biāo)準(zhǔn)協(xié)議的基礎(chǔ)上,使用基于XML的文本消息傳送模型進(jìn)行通信,從而真正實(shí)現(xiàn)分布式Web系統(tǒng)間跨平臺(tái)、跨語言的無縫融合,從而解決傳統(tǒng)分布式體系架構(gòu)無法解決的在Internet環(huán)境下的松耦合分布式異構(gòu)問題。
4.2 網(wǎng)格與數(shù)據(jù)集成技術(shù)的結(jié)合
隨著網(wǎng)格技術(shù)的發(fā)展和商務(wù)處理的全球化,網(wǎng)格數(shù)據(jù)集成技術(shù)將成為下一代Internet網(wǎng)中的信息融合、信息處理、信息發(fā)布等關(guān)鍵技術(shù)。Web Service的不斷研究和發(fā)展給信息集成技術(shù)提供了更廣闊的發(fā)展空間。利用本體描述服務(wù)的結(jié)構(gòu)、類型和語義,從而使Web Service語義表示模型化、統(tǒng)一化,從語義層就解決不同數(shù)據(jù)源或系統(tǒng)的異構(gòu)問題。所以,網(wǎng)格數(shù)據(jù)集成技術(shù)將是充分利用傳統(tǒng)的信息集成。Web Service、本體、網(wǎng)格技術(shù),構(gòu)造一個(gè)虛擬的、實(shí)現(xiàn)更加高效、準(zhǔn)確服務(wù)的具有超級(jí)計(jì)算能力的、能更好分析數(shù)據(jù)并獲得豐富知識(shí)的集成系統(tǒng)。
4.3 本體與Web Service的合成技術(shù)
Web Service是網(wǎng)格進(jìn)行分布式計(jì)算的基本元素。分布在網(wǎng)格上的各種各樣的數(shù)據(jù)挖掘Web Service已經(jīng)成為一類重要的資源。當(dāng)這些Web Service能夠在網(wǎng)格上真正實(shí)現(xiàn)自由的互聯(lián)、互通、協(xié)作和聯(lián)盟的時(shí)候,就形成了一種與當(dāng)前的信息Web類似的軟件Web。所以,應(yīng)使用本體與Web Service合成使這些Web Service能夠自主感應(yīng)并實(shí)現(xiàn)它們所處的環(huán)境中的需求。而且,在單個(gè)Web Service不能實(shí)現(xiàn)全部需求的情況下,多個(gè)小粒度的Web Service能夠自主合成,形成更大粒度的Web Service,最終實(shí)現(xiàn)需求。
5 網(wǎng)格數(shù)據(jù)挖掘的基本過程
5.1 數(shù)據(jù)的處理
數(shù)據(jù)的處理階段主要完成從數(shù)據(jù)網(wǎng)格環(huán)境中收集廣域分布的數(shù)據(jù)和計(jì)算資源,并對(duì)原始數(shù)據(jù)進(jìn)行歸檔處理,更正校對(duì),過濾清理和數(shù)據(jù)的轉(zhuǎn)換、合并。最后再對(duì)經(jīng)過處理后的數(shù)據(jù)進(jìn)行歸檔。這階段由于數(shù)據(jù)的歸檔處理,存在相對(duì)靜止的索引數(shù)據(jù),數(shù)據(jù)的處理功能比較穩(wěn)定,而且對(duì)歸檔的數(shù)據(jù)進(jìn)行周期性的數(shù)據(jù)再處理。
5.2 數(shù)據(jù)的分析與挖掘
這階段主要完成對(duì)處理后的數(shù)據(jù)進(jìn)行分析、概括和挖掘,生成關(guān)聯(lián)的規(guī)則,發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系等,并歸檔概括出來的數(shù)據(jù)。
5.3 模式的評(píng)價(jià)
這階段對(duì)處理后的數(shù)據(jù)和歸納后的數(shù)據(jù)再次進(jìn)行分析,得出一些數(shù)據(jù)模式,并評(píng)價(jià)數(shù)據(jù)挖掘結(jié)果的有效性和可靠性,提交得出的結(jié)論或新的關(guān)系和趨勢(shì)。
6 基于OGSA的信息服務(wù)評(píng)價(jià)數(shù)據(jù)挖掘
開放網(wǎng)格服務(wù)結(jié)構(gòu)(Open Grid Service Architecture OGSA)是一個(gè)面向服務(wù)的網(wǎng)格體系結(jié)構(gòu),它建立在網(wǎng)格服務(wù)的基礎(chǔ)上,將一切都抽象為服務(wù),包括計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)、程序、數(shù)據(jù)庫、儀器設(shè)備等。OGSA中以網(wǎng)格服務(wù)為核心,通過網(wǎng)格服務(wù)提供的接口為網(wǎng)格用戶提供各方面的服務(wù)。網(wǎng)格服務(wù)由服務(wù)數(shù)據(jù)和實(shí)現(xiàn)組成,服務(wù)數(shù)據(jù)指的是該網(wǎng)格服務(wù)可以提供的資源屬性,實(shí)現(xiàn)是指對(duì)這些服務(wù)數(shù)據(jù)的訪問操作。
6.1 服務(wù)質(zhì)量評(píng)價(jià)的數(shù)據(jù)挖掘
網(wǎng)格數(shù)據(jù)挖掘技術(shù)在信息服務(wù)管理系統(tǒng)中起著重要作用。信息服務(wù)機(jī)構(gòu)可以建立服務(wù)評(píng)價(jià)綜合管理系統(tǒng)。通過管理系統(tǒng)可以方便地獲得大量的服務(wù)數(shù)據(jù),把所有與服務(wù)相關(guān)的數(shù)據(jù)進(jìn)行整合成面向主題的數(shù)據(jù)倉庫。然后應(yīng)用數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行挖掘,以獲得服務(wù)管理決策中所需要的信息和模式。這些信息和模式可以為信息機(jī)構(gòu)的管理決策和服務(wù)決策提供有力的依據(jù)。目前,網(wǎng)格數(shù)據(jù)挖掘技術(shù)在服務(wù)系統(tǒng)中的應(yīng)用有以下幾個(gè)方面:
6.1.1 服務(wù)質(zhì)量評(píng)價(jià)分析
信息機(jī)構(gòu)實(shí)施了對(duì)信息工作者服務(wù)質(zhì)量的評(píng)價(jià)制度,評(píng)價(jià)的方法是采用專家同行評(píng)價(jià)。服務(wù)對(duì)象測(cè)評(píng)、領(lǐng)導(dǎo)考察等方法對(duì)工作者服務(wù)質(zhì)量進(jìn)行評(píng)價(jià)。評(píng)價(jià)的方式可分為定性評(píng)價(jià)和定量評(píng)價(jià)。定量評(píng)價(jià)的指標(biāo)系統(tǒng)還可以包括服務(wù)目的、服務(wù)內(nèi)容、服務(wù)態(tài)度、服務(wù)方法、服務(wù)水平及服務(wù)效果。通過挖掘得出更直觀、更真實(shí)、更精確反映出工作者服務(wù)質(zhì)量的內(nèi)在關(guān)系,為信息管理部門提供決策支持信息起了很重要的作用。
6.1.2 服務(wù)行為評(píng)價(jià)分析
服務(wù)行為評(píng)價(jià)是診斷服務(wù)人員的具體服務(wù)工作,促進(jìn)信息建設(shè)和提高服務(wù)質(zhì)量的重要手段,也是實(shí)施信息管理的主要保障措施。服務(wù)人員的服務(wù)行為包括相互聯(lián)系的服務(wù)目標(biāo)的設(shè)計(jì)、服務(wù)活動(dòng)的組織、服務(wù)方法與技巧的運(yùn)用、服務(wù)測(cè)試與質(zhì)量分析等幾個(gè)因素。保證服務(wù)質(zhì)量是服務(wù)行為的中心環(huán)節(jié),設(shè)計(jì)好服務(wù)目標(biāo)是搞好服務(wù)、提高服務(wù)質(zhì)量的前提,服務(wù)方法與技巧的運(yùn)用是實(shí)現(xiàn)服務(wù)目標(biāo)的途徑,也是提高服務(wù)質(zhì)量的重要手段,服務(wù)行為評(píng)價(jià)分析是進(jìn)一步改進(jìn)服務(wù)工作,提高服務(wù)質(zhì)量的重要保障措施。
6.1.3 服務(wù)工作量分析
信息人員的服務(wù)工作量包括:業(yè)務(wù)實(shí)踐、科研和論文。開發(fā)科研能夠更新和提高信息人員的業(yè)務(wù)知識(shí)水平,并能及時(shí)地應(yīng)用于具體的實(shí)踐工作中,從而促進(jìn)服務(wù)質(zhì)量的提高,對(duì)服務(wù)對(duì)象、工作人員自身及對(duì)信息服務(wù)事業(yè)的整體發(fā)展都將起到積極的推動(dòng)作用。通過數(shù)據(jù)挖掘相關(guān)規(guī)則可以發(fā)覺信息人員的業(yè)務(wù)和科研之間相互關(guān)系,為管理者制定政策提供科學(xué)的決策支持,以便于信息人員在業(yè)務(wù)和科研方面能夠平衡發(fā)展。
6.1.4 服務(wù)管理分析
服務(wù)管理水平不僅直接反映出整個(gè)信息機(jī)構(gòu)管理水準(zhǔn),而且還直接影響到服務(wù)效果、服務(wù)質(zhì)量和服務(wù)效益。為使服務(wù)質(zhì)量管理規(guī)范化、標(biāo)準(zhǔn)化和科學(xué)化,對(duì)服務(wù)秩序管理、服務(wù)項(xiàng)目開設(shè)與建設(shè)管理、服務(wù)質(zhì)量管理、服務(wù)實(shí)踐管理、服務(wù)改革研究等方面進(jìn)行分析,建立服務(wù)質(zhì)量管理評(píng)價(jià)模型,是實(shí)施服務(wù)質(zhì)量管理與質(zhì)量保障的重要保證。
6.1.5 服務(wù)人員專業(yè)素質(zhì)管理分析
信息工作者專業(yè)水平參差不齊,制約了信息服務(wù)規(guī)模的進(jìn)一步發(fā)展。信息機(jī)構(gòu)管理者沒有完全了解職工自身的特點(diǎn),從而忽視了他們某些方面的需要,造成不必要的人才流失等。引發(fā)這些問題的主要因素是它們之間有許多潛在的聯(lián)系沒有被發(fā)現(xiàn),怎樣才能吸引住人才。留住人才,顯得日益重要。充分利用現(xiàn)有的先進(jìn)技術(shù)手段解決這類問題,找出工作人員的特點(diǎn)與人才之間的關(guān)系并建立模式,以便通過調(diào)整薪資、提升職稱或職位、更換工作環(huán)境、增加培訓(xùn)機(jī)會(huì)等手段,以事業(yè)和待遇留住所需的人才,并對(duì)新引進(jìn)的人才做出預(yù)測(cè)。
6.2 服務(wù)質(zhì)量評(píng)價(jià)數(shù)據(jù)挖掘的過程
6.2.1 用戶應(yīng)用程序向注冊(cè)處發(fā)出查詢請(qǐng)求
reqllest(area,product service suggest),注冊(cè)處服務(wù)是可以提供需要數(shù)據(jù)挖掘和存儲(chǔ)能力的服務(wù)提供者。
6.2.2 注冊(cè)處服務(wù)根據(jù)用戶提出的要求,在眾多的服務(wù)提供者中進(jìn)行篩選,返回滿足要求的服務(wù)提供者。即得到一個(gè)挖掘工廠和數(shù)據(jù)庫工廠的實(shí)例,得到某信息機(jī)構(gòu)服務(wù)質(zhì)量管理支撐系統(tǒng)數(shù)據(jù)庫服務(wù)句柄,handle(mining factory,database factory)。
6.2.3 根據(jù)得到的服務(wù)句柄,用戶應(yīng)用程序向挖掘工廠和數(shù)據(jù)庫工廠發(fā)出請(qǐng)求,指定要執(zhí)行的數(shù)據(jù)挖掘操作,創(chuàng)建一個(gè)指定生命周期的服務(wù)實(shí)例require(handle,mining(product service suggest))。
6.2.4 計(jì)算服務(wù)提供者和存儲(chǔ)服務(wù)提供者創(chuàng)建滿足應(yīng)用程序要求的實(shí)例,query(product service suggest)。
6.2.5 挖掘服務(wù)實(shí)例向在線合適的某信息機(jī)構(gòu)服務(wù)質(zhì)量管理支撐系統(tǒng)數(shù)據(jù)庫發(fā)送查詢操作,以代理身份執(zhí)行遠(yuǎn)程異地操作,代理策略問題由OGSA的安全機(jī)制來支持,sgl(agent,product service suggest)。
6.2.6 從遠(yuǎn)程數(shù)據(jù)庫返回查詢結(jié)果,返回到存儲(chǔ)服務(wù)提供者中的新建數(shù)據(jù)庫,return(database,data)。
7 小 結(jié)
目前,網(wǎng)格數(shù)據(jù)挖掘技術(shù)還不成熟,隨著研究的深入不斷發(fā)展,數(shù)據(jù)挖掘的工具及其算法也必須在分布性、并行性和靈活性方面得到進(jìn)一步發(fā)展和提高。隨著網(wǎng)格和數(shù)據(jù)挖掘的技術(shù)不斷提高,網(wǎng)格的數(shù)據(jù)挖掘?qū)⒌玫綇V泛的應(yīng)用。
參考文獻(xiàn)
[1]李治,馬光志.網(wǎng)格數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘方案的研究[J].電腦與信息技術(shù),2006,(5):63-66.
[2]崔曉紅,肖繼海.數(shù)據(jù)挖掘在網(wǎng)格中的應(yīng)用[J].電腦開發(fā)與應(yīng)用,2008,(4):28-29,32.
[3]侯文國(guó),等.網(wǎng)格的數(shù)據(jù)挖掘[J].計(jì)算機(jī)應(yīng)用研究,2004,(10):241-243.
[4]肖基毅,等.石油網(wǎng)格數(shù)據(jù)挖掘新技術(shù)研究[J].西南石油大學(xué)學(xué)報(bào):自然科學(xué)版,2008,(3):152-154.