康 莉
摘要電子政務(wù)的蓬勃發(fā)展,使得如何有效分析和利用信息成為一個(gè)最重要的問題。本文介紹了數(shù)據(jù)挖掘技術(shù),探討了數(shù)據(jù)挖掘技術(shù)在電子政務(wù)中的應(yīng)用,并指出了電子政務(wù)數(shù)據(jù)挖掘的發(fā)展趨勢。
關(guān)鍵詞:信息化電子政務(wù)數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則決策樹
電子政務(wù)是一種基于網(wǎng)絡(luò),符合Internet標(biāo)準(zhǔn),面向政府機(jī)關(guān)、企業(yè)和社會(huì)公眾的信息服務(wù)和信息處理系統(tǒng)。近年來,電子政務(wù)在我國得到了快速的發(fā)展,為此,我們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,成千上萬數(shù)據(jù)庫被各級(jí)政府、部門開發(fā)建設(shè)出來,數(shù)據(jù)量呈指數(shù)增長,這種趨勢還將持續(xù)下去。如何處理大量的、復(fù)雜的、歷史的政務(wù)數(shù)據(jù)將成為包袱,數(shù)據(jù)挖掘技術(shù)就是在這樣一種環(huán)境下應(yīng)運(yùn)而生的。
1 數(shù)據(jù)挖掘技術(shù)介紹
所謂數(shù)據(jù)挖掘,就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它是一種新型的數(shù)據(jù)處理技術(shù),通過對(duì)信息的分析處理,發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)中的有用信息,挖掘數(shù)據(jù)內(nèi)在聯(lián)系、規(guī)則和模式,幫助領(lǐng)導(dǎo)決策。毋庸置疑,數(shù)據(jù)挖掘技術(shù)將為電子政務(wù)提供有利的技術(shù)支持,極大地促進(jìn)電子政務(wù)的發(fā)展與普及,推動(dòng)電子政務(wù)的應(yīng)用進(jìn)程。
1.1數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘的結(jié)果體現(xiàn)在知識(shí)的發(fā)現(xiàn)上,而知識(shí)的發(fā)現(xiàn)是個(gè)極其復(fù)雜的過程。數(shù)據(jù)挖掘常用的技術(shù)有關(guān)聯(lián)規(guī)則、決策樹、粗糙集、神經(jīng)網(wǎng)絡(luò)、遺傳算法及各種算法的融合等。這里簡單介紹關(guān)聯(lián)規(guī)則和決策樹這兩種常用的數(shù)據(jù)挖掘技術(shù)。
(1)關(guān)聯(lián)規(guī)則方法。用于對(duì)大型關(guān)系數(shù)據(jù)庫發(fā)現(xiàn)有價(jià)值的關(guān)聯(lián)模式,也可對(duì)半結(jié)構(gòu)化的數(shù)據(jù)庫(如文檔數(shù)據(jù)庫)進(jìn)行關(guān)聯(lián)規(guī)則挖掘。它通過統(tǒng)計(jì)方法對(duì)數(shù)據(jù)中的IF-THEN規(guī)則進(jìn)行尋找、歸納和提取。
(2)決策樹方法。利用信息論中的信息增益尋找示例數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個(gè)節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹的分枝,然后在每個(gè)分枝重復(fù)遞歸建立樹的下一個(gè)節(jié)點(diǎn)和分枝的過程,即可建立決策樹。接著進(jìn)行剪枝處理,然后把決策樹轉(zhuǎn)化為規(guī)則,利用這些規(guī)則對(duì)新事物進(jìn)行分析。
1.2數(shù)據(jù)挖掘的應(yīng)用流程
數(shù)據(jù)挖掘在電子政務(wù)中的應(yīng)用是一個(gè)將信息轉(zhuǎn)化為有用價(jià)值的知識(shí)的過程??蓪?shù)據(jù)挖掘分為四個(gè)步驟:
(1)確定業(yè)務(wù)對(duì)象。應(yīng)熟悉應(yīng)用領(lǐng)域的數(shù)據(jù)、背景知識(shí)、清晰地定義出業(yè)務(wù)問題,明確所要完成的數(shù)據(jù)挖掘任務(wù),完成數(shù)據(jù)定義工作。
(2)數(shù)據(jù)準(zhǔn)備。包括數(shù)據(jù)抽取和預(yù)處理工作,主要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分析,完成消除數(shù)據(jù)噪音,清除不一致數(shù)據(jù),進(jìn)行多個(gè)數(shù)據(jù)庫的集成、組合等工作。然后從數(shù)據(jù)庫中選擇數(shù)據(jù)挖掘的對(duì)象,將數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)挖掘系統(tǒng)要求的統(tǒng)一格式等工作。
(3)數(shù)據(jù)挖掘。是知識(shí)發(fā)現(xiàn)的核心步驟,包括選擇合適的算法和技術(shù),執(zhí)行挖掘算法,搜索提取數(shù)據(jù)模式等。
(4)結(jié)果分析。依據(jù)所要解決的問題,對(duì)挖掘出的模式進(jìn)行確認(rèn)或者解釋,將發(fā)現(xiàn)的知識(shí)以用戶能夠理解的方式提供給用戶。
2數(shù)據(jù)挖掘在電子政務(wù)中的應(yīng)用
電子政務(wù)位于世界各國積極倡導(dǎo)的“信息高速公路”五個(gè)領(lǐng)域(電子政務(wù)、電子商務(wù)、遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療、電子娛樂)之首,說明政府信息化是社會(huì)信息化的基礎(chǔ)。將數(shù)據(jù)挖掘技術(shù)引入電子政務(wù)中,可以大大提高政府信息化水平,促進(jìn)整個(gè)社會(huì)的信息化。
數(shù)據(jù)挖掘技術(shù)在電子政務(wù)中的應(yīng)用具體體現(xiàn)在以下幾個(gè)方面。
2.1降低成本、減少財(cái)政支出的需求
電子政務(wù)系統(tǒng)的建設(shè)帶來的直接經(jīng)濟(jì)效益,就是打破了各級(jí)政府之間文件傳遞的繁瑣性,用最快捷的電子方式在政府上下級(jí)之間傳遞信息,這不僅降低了政府辦公用品及相關(guān)開銷,而且無形中也減少了大量的額外開支。通過數(shù)據(jù)挖掘可以了解各個(gè)部門的費(fèi)用開支狀況,并提供可行的減少開支的方案。
2.2分析和決策的需求
電子政務(wù)數(shù)據(jù)挖掘?qū)φ?wù)系統(tǒng)中的海量數(shù)據(jù)進(jìn)行開采、挖掘和分析,從中識(shí)別和抽取隱含的信息,并利用這些信息為政府部門重大政策、法規(guī)的制定提供決策依據(jù)。例如,通過對(duì)政府網(wǎng)站、社會(huì)公眾網(wǎng)站數(shù)據(jù)進(jìn)行收集,然后用數(shù)據(jù)挖掘方法對(duì)其進(jìn)行挖掘,從中得到對(duì)提高政府工作效率有益的知識(shí),從而為政府部門工作人員提供科學(xué)、實(shí)用的輔助決策支持。
2.3實(shí)時(shí)有效信息的需求
政府部門要充分發(fā)揮政府的職能,進(jìn)行有效的監(jiān)控和管理,同時(shí)增強(qiáng)民眾和政府之間溝通的時(shí)效性,及時(shí)掌握有效的信息,就必須建立一個(gè)可以有效收集、監(jiān)測和分析所獲得的大量數(shù)據(jù)的系統(tǒng)。
2.4政府的電子貿(mào)易
為了發(fā)現(xiàn)政務(wù)系統(tǒng)中用戶的訪問模式及行為模式,可以利用數(shù)據(jù)挖掘技術(shù)對(duì)系統(tǒng)服務(wù)器以及瀏覽器上日志記錄中的數(shù)據(jù)進(jìn)行挖掘操作,從中發(fā)現(xiàn)信息并對(duì)其進(jìn)行預(yù)測分析。例如,通過對(duì)用戶瀏覽某些信息資源所花費(fèi)的時(shí)間進(jìn)行挖掘,可以判斷出用戶對(duì)哪些信息資源感興趣,從而進(jìn)行個(gè)性化服務(wù)。
2.5網(wǎng)站設(shè)計(jì)
為了有效地組織政府網(wǎng)站信息,可以通過對(duì)網(wǎng)站內(nèi)容的挖掘,主要是對(duì)文本內(nèi)容的挖掘操作。例如,可以利用聚類技術(shù)對(duì)網(wǎng)站文本的內(nèi)容進(jìn)行自動(dòng)劃分類別,從而實(shí)現(xiàn)網(wǎng)站信息的層次性組織,便于文本內(nèi)容的分類瀏覽與檢索,同時(shí),還可以結(jié)合對(duì)用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而開展個(gè)性化的信息服務(wù)和有針對(duì)性的電子政務(wù)活動(dòng),進(jìn)而吸引更多的用戶。
2.6政務(wù)創(chuàng)新能力
創(chuàng)新是政府職能向知識(shí)型政府轉(zhuǎn)變的基本要求,它不僅僅局限于行政方法和政務(wù)處理流程層面上的創(chuàng)新,而且也包括政府制定發(fā)展戰(zhàn)略和公共政策的創(chuàng)新。電子政務(wù)數(shù)據(jù)挖掘增強(qiáng)了政府應(yīng)對(duì)突發(fā)事件的快速響應(yīng)能力,提高了政府工作的創(chuàng)新能力和人員素質(zhì)。
3電子政務(wù)數(shù)據(jù)挖掘的發(fā)展趨勢
對(duì)過去行政管理工作的數(shù)據(jù)進(jìn)行挖掘,得到更多未知的行政管理經(jīng)驗(yàn)和知識(shí),是電子政務(wù)數(shù)據(jù)挖掘的巨大魅力所在。但是,目前數(shù)據(jù)挖掘技術(shù)的研究還不成熟,距離實(shí)際應(yīng)用還有較大的差距,主要表現(xiàn)在以下幾個(gè)方面。
3.1源數(shù)據(jù)形式多樣
目前數(shù)據(jù)挖掘工具處理的數(shù)據(jù)形式十分有限,一般只能提供對(duì)數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)的處理,面對(duì)電子政務(wù)系統(tǒng)大量的文本、圖形、圖像、www 資源等結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)形式,處理難度很大。
3.2知識(shí)的表達(dá)和解釋機(jī)制
對(duì)挖掘出的知識(shí)如何以用戶能理解的形式表達(dá)出來,這要求知識(shí)的表達(dá)不能局限于數(shù)字或符號(hào),應(yīng)該以更容易理解的方式。如圖形、自然語言和可視化技術(shù)等。所以,能夠提供更好的知識(shí)表達(dá)和解釋機(jī)制,才能使用戶更有效地評(píng)價(jià)這些知識(shí),區(qū)分出哪些是真正有用的知識(shí),哪些只是常識(shí)性知識(shí)或異常情況。
3.3挖掘的對(duì)象規(guī)模大而復(fù)雜
政府信息化的發(fā)生使數(shù)據(jù)挖掘面對(duì)著更大的數(shù)據(jù)庫、更高的維數(shù),以及屬性之間的復(fù)雜關(guān)系,處理的數(shù)據(jù)量更加龐大了,從而導(dǎo)致組合爆炸。目前主要通過利用并行技術(shù)或抽取的方法處理大規(guī)模的數(shù)據(jù),以此來獲得較高的挖掘效率。
3.4證實(shí)技術(shù)的局限
主要體現(xiàn)在兩個(gè)方面:一是挖掘出的知識(shí)證實(shí);二是參與挖掘的源數(shù)據(jù)抽取、凈化、挖掘算法選擇、算法本身等是否合理的證實(shí)。這使得發(fā)現(xiàn)的知識(shí)要么沒有普通的適應(yīng)性,要么就是人們的共識(shí)。
3.5知識(shí)的維護(hù)和更新
新數(shù)據(jù)的快速大量積累并參與數(shù)據(jù)挖掘過程,可能導(dǎo)致以前發(fā)現(xiàn)的知識(shí)失效,這些知識(shí)需要?jiǎng)討B(tài)維護(hù)和及時(shí)更新,并指導(dǎo)新知識(shí)的發(fā)現(xiàn)。
雖然數(shù)據(jù)挖掘存在以上問題,但隨著數(shù)據(jù)量的急劇增加和分析決策難度的增強(qiáng),以及人們對(duì)決策分析工作的智能化、自動(dòng)化要求的不斷提高,人們將廣泛地接受并使用數(shù)據(jù)挖掘及工具。