摘 要:政府信息化是社會(huì)信息化的基礎(chǔ),當(dāng)前,電子政務(wù)已成為我國(guó)信息化的重點(diǎn)。將數(shù)據(jù)挖掘技術(shù)引入電子政務(wù)中,可以大大提高整個(gè)電子政務(wù)系統(tǒng)的智能化水平,促進(jìn)社會(huì)的信息化。文章論述了數(shù)據(jù)挖掘在電子政務(wù)中的作用、電子政務(wù)數(shù)據(jù)挖掘?qū)ο蠛屯诰蜻^程。
關(guān)鍵詞:數(shù)據(jù)挖掘電子政務(wù) 數(shù)據(jù)庫(kù)
中圖分類號(hào):F062.5
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-4914(2008)01-191-02
政務(wù)是指依托互聯(lián)網(wǎng)而運(yùn)行的、與政府管理和有服務(wù)社會(huì)事務(wù)相關(guān)的一系列政府活動(dòng)與政府行為方式。數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識(shí)的過程。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長(zhǎng),動(dòng)輒以TB計(jì),如何從少量的數(shù)據(jù)中最提取有用的知識(shí)成為當(dāng)務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)這種需要而發(fā)展起來的數(shù)據(jù)處理技術(shù),是知識(shí)發(fā)現(xiàn)(Knowledge Discovery Database)的關(guān)鍵步驟。政府通過實(shí)施電子政務(wù)過程,整合了政府各級(jí)各類數(shù)據(jù)信息資源。這些數(shù)據(jù)在滿足正常政務(wù)工作的需要方面起到了重要作用,但這些數(shù)據(jù)中隱含的各種政務(wù)知識(shí)則由于其原始數(shù)據(jù)量極大、機(jī)構(gòu)復(fù)雜等原因的困擾,而未能有效地進(jìn)行挖掘,因此,亟需在電子政務(wù)系統(tǒng)中開展政務(wù)知識(shí)的數(shù)據(jù)挖掘工作。
一、數(shù)據(jù)挖掘在電子政務(wù)中的作用
電子政務(wù)的實(shí)施,將迫使我國(guó)加入WTO后政府管理職級(jí)的加速轉(zhuǎn)變,同樣,在電子政務(wù)環(huán)境下的電子政府也必將在行政管理職能方面,面臨創(chuàng)新能力、突發(fā)事件快速響應(yīng)能力等諸多方面的挑戰(zhàn)。而數(shù)據(jù)挖掘以及知識(shí)管理將有效地應(yīng)對(duì)這些挑戰(zhàn),并在重塑政府形象、提高政府工作效率等方面起到重要的作用。
1.快速響應(yīng)能力。快速響應(yīng)能力是政府在應(yīng)對(duì)社會(huì)突發(fā)事件、自然災(zāi)害等各類發(fā)生突然、危害極大的重大事件的綜合能力。作為歷史,人們將會(huì)對(duì)曾經(jīng)經(jīng)歷的突發(fā)事件發(fā)生的原因、發(fā)展變化、危害程序及處理過程等作比較詳細(xì)的記錄和總結(jié)。因此我們可以利用數(shù)據(jù)挖掘工具,對(duì)歷史記載下來的突發(fā)事件進(jìn)行挖掘,從中提取、總結(jié)、升華經(jīng)驗(yàn)和教訓(xùn),得到我們今后應(yīng)對(duì)突發(fā)事件的各種知識(shí),制定出有效而且高效的應(yīng)對(duì)措施,提高政府在處理此類事件時(shí)的快速響應(yīng)能力。
2.創(chuàng)新能力。創(chuàng)新是政府部門向知識(shí)型政府轉(zhuǎn)變的基本要求,它不僅僅局限在行政方法和政務(wù)處理流程層面上的創(chuàng)新,而且也包括政府制定發(fā)展戰(zhàn)略和公共政策的創(chuàng)新。如政府職能將更多地面向提供公共服務(wù),實(shí)施公共管理等領(lǐng)域,為適應(yīng)這種轉(zhuǎn)變,政府需要對(duì)歷史的經(jīng)驗(yàn)和教訓(xùn)、外國(guó)政府職能、社會(huì)公眾需求等進(jìn)行有效地挖掘、吸引、借鑒和利用,依靠挖掘出的公共管理戰(zhàn)略知識(shí)來指導(dǎo)政府的戰(zhàn)略與政策的制定。
3.促進(jìn)公務(wù)員素質(zhì)的提高。隨著電子政府中的自助式服務(wù)、一站式服務(wù)逐步實(shí)施,公務(wù)員事必躬親的現(xiàn)象將大大減少。隨之而來的是,社會(huì)公眾有可能提出許多以前不曾提出過的要求和服務(wù)。作為政府公務(wù)員必須能夠?qū)Υ擞枰约皶r(shí)、明確的解釋和答復(fù),但是有些問題公務(wù)員可能并不清楚,對(duì)于不清楚的問題,公務(wù)員可以利用數(shù)據(jù)挖掘工具尋找答案。因此,政府各類公務(wù)員都必須提高自身挖掘知識(shí)、學(xué)習(xí)知識(shí)的能力和辦事技能,并能得到網(wǎng)絡(luò)尋找專家?guī)旌椭R(shí)庫(kù)的有力幫助。
4.高效率的行政管理。對(duì)電子政府來說,效率不僅僅意味著規(guī)范、快速和程序化,而且從更深層次上理解,它要求的是更聰明和更高品質(zhì)工作。有效地利用數(shù)據(jù)挖掘,能夠獲得社會(huì)公眾大網(wǎng)絡(luò)虛擬環(huán)境中提出的大部分服務(wù)請(qǐng)求的解決方案或應(yīng)對(duì)措施,建立主體知識(shí)庫(kù),使社會(huì)公眾提出的服務(wù)都能有較滿意的結(jié)果。
二、電子政務(wù)數(shù)據(jù)挖掘的對(duì)象
數(shù)據(jù)挖掘的范圍非常廣泛,可以是社會(huì)科學(xué)、經(jīng)濟(jì)學(xué)、商業(yè)數(shù)據(jù)、科學(xué)處理產(chǎn)生的數(shù)據(jù)和衛(wèi)星觀測(cè)得到的數(shù)據(jù)。它們的數(shù)據(jù)結(jié)構(gòu)也各不相同,可以是層次的、網(wǎng)狀的、關(guān)系的、面向?qū)ο蟮臄?shù)據(jù)。具體針對(duì)電子政務(wù)數(shù)據(jù)挖掘系統(tǒng)來說,就要根據(jù)電子政府的日常數(shù)據(jù)處理和所需要的知識(shí)內(nèi)容與形式等方面來決定其挖掘的對(duì)象。
1.關(guān)系數(shù)據(jù)庫(kù)。關(guān)系數(shù)據(jù)庫(kù)是政府機(jī)構(gòu)中使用歷史悠久、數(shù)據(jù)積累最全、最豐富的數(shù)據(jù)庫(kù)系統(tǒng),從中可以挖掘出大量的關(guān)聯(lián)知識(shí)。它也是目前數(shù)據(jù)挖掘最流行、最豐富、技術(shù)實(shí)現(xiàn)手段較多的數(shù)據(jù)源。針對(duì)關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘主要在關(guān)系查詢的基礎(chǔ)上,提出趨勢(shì)或數(shù)據(jù)模式。因此,它是電子政務(wù)數(shù)據(jù)挖掘的主要數(shù)據(jù)形式。
2.事務(wù)數(shù)據(jù)庫(kù)。事務(wù)數(shù)據(jù)庫(kù)一般是由一個(gè)文件組成,其中每條記錄代表一個(gè)事務(wù)。通常一人事務(wù)包含一個(gè)唯一的事務(wù)標(biāo)志和一個(gè)組成事務(wù)的項(xiàng)目列表。所以,事務(wù)數(shù)據(jù)庫(kù)中存放的信息是在不知不覺中積累起來的,是事務(wù)最真實(shí)的紀(jì)錄。因此,針對(duì)事務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘是電子政務(wù)數(shù)據(jù)挖掘工作量較大的部分。
3.數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘的最佳對(duì)象,它一般是由對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)清理、數(shù)據(jù)交換、數(shù)據(jù)集成、數(shù)據(jù)移入和定期數(shù)據(jù)刷新來構(gòu)造的,是從多個(gè)數(shù)據(jù)元收集信息集合,圍繞主題存放在一個(gè)一致的模式下。因此,從數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行數(shù)據(jù)挖掘可以節(jié)省大量的數(shù)據(jù)準(zhǔn)備時(shí)間和工作量,挖掘過程相對(duì)簡(jiǎn)單和方便。
4.高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)。隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,各種高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)已經(jīng)出現(xiàn)。高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)能夠滿足處理空間數(shù)據(jù)、工程設(shè)計(jì)數(shù)據(jù)、超文本和多媒體數(shù)據(jù)、與時(shí)間相關(guān)的數(shù)據(jù)、web等新的數(shù)據(jù)庫(kù)的需要。因此,針對(duì)高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)挖掘應(yīng)用也必將成為電子政務(wù)數(shù)據(jù)挖掘的一項(xiàng)重要內(nèi)容。
三、電子政務(wù)數(shù)據(jù)挖掘的形式
根據(jù)不同的數(shù)據(jù)挖掘?qū)ο?,人們將?shù)據(jù)挖掘分為網(wǎng)絡(luò)內(nèi)容挖掘(Web content mining)、網(wǎng)絡(luò)結(jié)構(gòu)挖掘(Web structure mining)以及網(wǎng)絡(luò)用法挖掘(Web usage mining)。
1.網(wǎng)絡(luò)內(nèi)容挖掘。網(wǎng)絡(luò)信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等形式的數(shù)據(jù)組成的。網(wǎng)絡(luò)內(nèi)容挖掘就是一個(gè)從網(wǎng)絡(luò)信息內(nèi)容中發(fā)現(xiàn)有用信息的過程。由于網(wǎng)絡(luò)信息內(nèi)容有很多是多媒體數(shù)據(jù),因此網(wǎng)絡(luò)內(nèi)容挖掘也將是一種多媒體數(shù)據(jù)挖掘形式。
2.網(wǎng)絡(luò)結(jié)構(gòu)挖掘。網(wǎng)絡(luò)結(jié)構(gòu)挖掘就是挖掘Web潛在的鏈接結(jié)構(gòu)模式。通過分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁(yè)歸類,并且由此可以獲得有關(guān)不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn)。
3.網(wǎng)絡(luò)用法挖掘。網(wǎng)絡(luò)內(nèi)容挖掘和網(wǎng)絡(luò)結(jié)構(gòu)挖掘的挖掘?qū)ο笫蔷W(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘面對(duì)的則是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù),包括網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡(jiǎn)介、注冊(cè)信息、用戶對(duì)話或交易信息、用戶提問方式等。通過網(wǎng)絡(luò)用法挖掘,可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。
四、電子政務(wù)數(shù)據(jù)挖掘過程
電子政務(wù)中的數(shù)據(jù)挖掘視之為政府各種業(yè)務(wù)活動(dòng)、工作、決策尋找知識(shí)時(shí),對(duì)數(shù)據(jù)進(jìn)行分析、挖掘、評(píng)價(jià)與解釋等的過程。一般來說,電子政務(wù)數(shù)據(jù)挖掘過程包括數(shù)據(jù)準(zhǔn)備,發(fā)現(xiàn)模式,分析、解釋模式三個(gè)主要階段。
1.準(zhǔn)備數(shù)據(jù)。進(jìn)行數(shù)據(jù)挖掘的時(shí)候,一般并不是對(duì)原始的數(shù)據(jù)進(jìn)行挖掘,而是先要對(duì)數(shù)據(jù)作一些處理,包括合并數(shù)據(jù),將多個(gè)文件或多個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行合并處理,選擇數(shù)據(jù)、提取出合適的數(shù)據(jù)集合,數(shù)據(jù)清洗、過濾,剔出一些無關(guān)記錄,將文件、圖形、圖像及多媒體等文件換成可便于數(shù)據(jù)挖掘的格式等。
2.發(fā)現(xiàn)模式。根據(jù)不同的挖掘目標(biāo),可以相應(yīng)采取不同的挖掘方法,得到有意義的數(shù)據(jù)模式。數(shù)據(jù)挖掘的方法有很多種,主要包括3大類:統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)、其他可視化方法。(1)統(tǒng)計(jì)分析。主要用于檢查數(shù)據(jù)中的數(shù)據(jù)規(guī)律,然后利用統(tǒng)計(jì)模式和數(shù)學(xué)模型來解釋這些規(guī)律,通常使用的統(tǒng)計(jì)方法有線性分析、非線性分析、線形回歸、因子分析、單變量曲線和雙變量統(tǒng)計(jì)以及時(shí)間序列分析等。通過統(tǒng)計(jì)分析,選擇適用于數(shù)據(jù)分析的適合的數(shù)據(jù)模型,對(duì)重要頁(yè)面、導(dǎo)航路徑有向圖、瀏覽時(shí)間等給出統(tǒng)計(jì)描述,揭示數(shù)據(jù)間的關(guān)系。(2)知識(shí)發(fā)現(xiàn)。源于人工智能和機(jī)器學(xué)習(xí),利用數(shù)據(jù)搜尋過程,得到一個(gè)有意義的數(shù)據(jù)模型,從中可以發(fā)現(xiàn)規(guī)律。具體的方法有人工神經(jīng)網(wǎng)絡(luò)、決策樹方法、遺傳算法、規(guī)律推理等。(3)其他可視化方法??梢越o出多變量的圖形分析,同時(shí)顯示多變量間的關(guān)系,有助于分析以前挖掘的數(shù)據(jù),進(jìn)一步增強(qiáng)數(shù)據(jù)挖掘能力。
3.分析、解釋模式。通過技術(shù)手段,對(duì)得到的模式進(jìn)行數(shù)據(jù)分析,得出有意義的結(jié)論。常用的技術(shù)手段有:(1)關(guān)聯(lián)規(guī)則。揭示數(shù)據(jù)間的內(nèi)在聯(lián)系,發(fā)現(xiàn)有戶與站點(diǎn)各方面的訪問關(guān)系。(2)分類。給出分類的公共屬性描述,并將新的記錄分配到預(yù)先定義好的類中去。(3)聚類。分類的逆過程,按照“類內(nèi)相似性最大,相似性最大”的原則,對(duì)數(shù)據(jù)類進(jìn)行類的聚集,多指客戶群體聚類和web網(wǎng)頁(yè)聚類??蛻羧后w聚類將具有相似影星模式的用戶分在一組,而web網(wǎng)頁(yè)類聚提供有針對(duì)性的網(wǎng)絡(luò)服務(wù)應(yīng)用。(4)序列模式。側(cè)重于挖掘出數(shù)據(jù)的前后時(shí)間順序關(guān)系,分析是否存在一定趨勢(shì),以預(yù)測(cè)未來的訪問模式。(5)路徑分析??梢园l(fā)現(xiàn)一個(gè)web站點(diǎn)中經(jīng)常被訪問的路徑。
所以,電子政務(wù)數(shù)據(jù)挖掘系統(tǒng)的具體實(shí)現(xiàn):首先應(yīng)從用戶提出的需求開始,根據(jù)用戶的需求進(jìn)行分析,選取相應(yīng)的數(shù)據(jù),在此基礎(chǔ)上由系統(tǒng)自動(dòng)或由用戶自己選擇待發(fā)現(xiàn)模式,找到相應(yīng)的算法,自動(dòng)或人為的制定所需的所有參數(shù),進(jìn)行挖掘。將得到的結(jié)果進(jìn)行知識(shí)表達(dá),自動(dòng)或人為的根據(jù)等到的知識(shí),進(jìn)行下一輪的挖掘或填寫到知識(shí)庫(kù)中。每次得到的知識(shí),不僅僅提交給用戶,還應(yīng)當(dāng)以某種形式存儲(chǔ)起來,供系統(tǒng)挖掘新知識(shí)時(shí)使用。這樣,就可能在進(jìn)行更層知識(shí)的發(fā)現(xiàn)時(shí),不用重新創(chuàng)建所有的數(shù)據(jù),從而達(dá)到基于知識(shí)的挖掘。
五、結(jié)束語
電子政務(wù)數(shù)據(jù)挖掘與傳統(tǒng)的統(tǒng)計(jì)分析都是對(duì)歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,一方面對(duì)過去進(jìn)行總結(jié),另一方面對(duì)未來發(fā)展提出有價(jià)值的信息。但是數(shù)據(jù)挖掘技術(shù)的研究還很不成熟,離實(shí)際還有較大的差距,我們應(yīng)通過對(duì)過去國(guó)內(nèi)、國(guó)際的行政管理工作的數(shù)據(jù)挖掘,以得到更多的行政管理經(jīng)驗(yàn)和知識(shí),使我國(guó)社會(huì)主義市場(chǎng)經(jīng)濟(jì)條件下的政府行政管理工作邁上一個(gè)新臺(tái)階。
參考文獻(xiàn):
1.陳京民等編著.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].電子工業(yè)出版社,2002
2.黃順基.信息革命在中國(guó)[M].中國(guó)人民大學(xué)出版社,1998
3.HAN.KAMBERM,數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰等譯,機(jī)械工業(yè)出版社
4.關(guān)俐,梁紅峻.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[J].微型電腦應(yīng)用,1999(28)
5.朱愛群編著.客戶關(guān)系管理與數(shù)據(jù)挖掘[M].中國(guó)財(cái)政經(jīng)濟(jì)出版社,2001
(作者單位:武漢科技學(xué)院電信工程學(xué)院 湖北武漢 430073)
(責(zé)編:若佳)