福建省經濟信息中心 莊仁團
?
數據挖掘技術在電子政務系統(tǒng)中的應用
福建省經濟信息中心 莊仁團
分析了電子政務數據的特點,介紹了數據挖掘方法,結合幾個可能的應用例子,探討了電子政務數據挖掘的實現(xiàn)。
電子政務 數據挖掘
信息技術的迅速發(fā)展和成熟,使得電子政務應用不斷深化。電子政務能夠輔助政府更好地為公眾服務,也能滿足人們對政府和職能部門高效運轉的要求。
從全國范圍看,經過多年的實踐,電子政務建設和應用初見成效。各級政府在不同的層面建設和實現(xiàn)了不同的功能。這其中建立和獲取了很多數據。這些數據中具有一些知識。但目前的系統(tǒng)只是實現(xiàn)數據的輸入、查詢、統(tǒng)計等功能,還沒有能夠從中挖掘這些知識。充分利用這些數據,挖掘其中的知識,將能夠為政府的決策提供更好的支持,能夠更好地滿足快速有效服務大眾的要求。
電子政務涉及面廣,因此擁有的數據也是海量而復雜的。歸納起來看,電子政務數據有下面這些特點:
2.1 數據種類多。政府事務和管理涉及很多方面。因此數據類型也豐富。這些數據有統(tǒng)計數字、文本、圖像、視頻、音頻等。數據種類多也使得數據的格式多樣。
2.2 海量數據。電子政務面向的用戶廣,業(yè)務繁多。隨著系統(tǒng)的運行,每天由文本、圖像、音頻、視頻等組成的數據,以及網絡服務器訪問記錄、瀏覽器日志記錄、用戶個人信息、用戶對話等生成的數據量巨大。
2.3 數據的動態(tài)性。在電子政務系統(tǒng)運行過程中,各種數據庫中的數據都在不斷擴充和增加。
應用數據挖掘時涉及兩個方面的問題。第一是算法層面。第二是實現(xiàn)層面。
在算法層面,數據挖掘主要來源于機器學習、模式識別等人工智能算法。這包括關聯(lián)規(guī)則、分類、聚類等算法。
(1)關聯(lián)規(guī)則挖掘:其目的就是為了挖掘出隱藏在數據間的相互關系。
(2)分類:分類算法的輸入集是一組樣本集合和幾種類別標記。首先為每一個樣本賦予一個標記,然后訓練一個分類器。最后對新樣本進行分類。
(3)聚類分析:聚類分析法的輸入是一組未標記類別的樣本,也就是說此時輸入的樣本還沒有進行任何分類。其目的是根據一定的規(guī)則,合理地劃分樣本。而所依據的這些規(guī)則是由聚類分析算法定義的,例如,可以是一個準則函數,可以是一條經驗規(guī)則等。
另外,數據挖掘還有一個重要的任務就是將結果呈現(xiàn)給用戶,這需要一些機器學習的技術和其他計算機技術。
在實現(xiàn)層面,不僅僅要考慮數據,還要考慮數據的存放。由于很多的數據是存放在數據庫中,因此,不可避免需要采用數據庫技術從而使數據挖掘算法能夠更好地實現(xiàn)和更高效的運行。
電子政務系統(tǒng)是一個大的系統(tǒng),涉及的數據多而且豐富,用戶眾多,訪問頻繁。因此,電子政務系統(tǒng)通常會采用數據庫。所以,在設計和實現(xiàn)挖掘算法的時候,需要充分采用數據庫技術,從而使數據挖掘能更好地運行。
形象地說,數據挖掘就是從大量數據中挖掘知識的過程。根據電子政務系統(tǒng)的特點,我們這里給出幾種可能從中挖掘到的知識的類型。
在電子政務網站上,有大量的政策、法規(guī)、通告、新聞等文件。用戶會根據自己的喜好點擊、瀏覽和下載這些文件。通過網絡日志可以記錄這些數據。這些數據可以給我們提供一些信息。
通過對這些數據的分析,我們可以知道,在一段時間內,大多數用戶對哪些,或者哪類的文件有興趣。由此可以確定用戶的關注熱點是什么。
不僅如此,根據對不同時間段內用戶關注熱點的跟蹤和分析,還可以發(fā)現(xiàn)用戶關注熱點的變化。這些變化能給政府部門人員提供豐富的信息,也可以促使我們尋找變化原因,從而及時作出相應改進以適應這些變化。
用戶在訪問電子政務系統(tǒng)時,會以自己喜歡的方式進行操作。根據網絡日志,發(fā)現(xiàn)用戶這些操作的模式,有助于改進電子政務系統(tǒng)。
用戶的操作模式包括兩種類型。一種是大眾的操作模式,一種是個人的操作模式。
大眾的操作模式是指一段時間來,大多數用戶對于某一類功能的操作模式。發(fā)現(xiàn)這些模式,可以讓我們了解大多數人是怎樣操作的。由此可以啟發(fā)我們分析目前的系統(tǒng)設計是否存在問題,是否存在改進的可能。
個人的操作模式是指個人在一段時間的操作習慣。根據日志的記錄,可以持續(xù)對一些用戶進行分析,發(fā)現(xiàn)其個人操作模式。個人的操作模式和大眾的操作模式可能不同。由此我們可以考慮設計面向不同用戶的,或者說是用戶自適應的政務系統(tǒng)。
一些電子政務系統(tǒng)允許用戶提交電子文件。數據挖掘算法可以對這些數據進行分析,以提供更好的服務。
例如:在公務員招考過程,系統(tǒng)接收到很多報考者填報的數據。數據挖掘系統(tǒng)可以首先對這些大量的數據進行分析。一方面可以提醒某些粗心的報考者,他們填報的數據可能缺少相關的要素。另一方面,還可以從這些大量的數據中搜索,自動挑選出符合要求的報考者以供選擇。
要使用和實現(xiàn)應用于電子政務的數據挖掘算法,還需要做以下幾點。
數據預處理是數據挖掘中的重要步驟。由于數據存在大量噪聲等,直接使用數據挖掘算法很難得到有用的知識。因此,在使用數據挖掘算法前,需要對數據做預處理:去除噪聲。
不同的數據挖掘算法對數據的格式有要求。為了使用某些數據挖掘算法,就需要對數據預處理,從而得到適當的數據格式。如,有的算法需要數據是向量,有的可以處理字符串。為此,需要對數據格式做相應的處理。
挖掘算法是數據挖掘中最核心的內容。在一些系統(tǒng)中可以用通常的技術實現(xiàn)算法。但是,電子政務系統(tǒng)具有自身的一些特點,因此,在實現(xiàn)算法方面,我們還需要有更多的考慮。
5.2.1增量數據挖掘
由于電子政務系統(tǒng)的數據不斷擴大,因此需要設計增量式的數據挖掘方法。
增量數據挖掘是指當算法在已有的數據上挖掘出一些知識后,只需要根據新得到的擴充的數據來調整原來的知識的算法。這樣就可以避免使用所有的數據重新挖掘的繁瑣過程。從而可以節(jié)省時間,快速得到結果。
5.2.2 并行數據挖掘
由于電子政務系統(tǒng)的數據量龐大,因此常常需要通過并行算法來實現(xiàn)挖掘算法。
海量數據信息的并行實現(xiàn)是當前的一個熱點。用于數據挖掘的并行處理技術可將一個復雜的算法分解為多個子過程,每個子過程可以并行執(zhí)行,這樣可以大大加速數據挖掘的過程。也可以利用一臺計算機上的多核并行計算。
另外,電子政務中一些數據是分布在不同的計算機上的。因此,可以在各自的計算機上進行挖掘,然后將其有機地融合在一起。
云計算是當前的熱點技術。我們還可以考慮把云計算技術應用于數據挖掘。
數據挖掘是電子政務系統(tǒng)的一個重要組成部分,可以為各級政府的決策提供科學的依據,從而提高各項政策制訂的科學性和合理性。
我們在本文中只是涉及了電子政務系統(tǒng)中數據挖掘的幾個問題。特別是我們給出了幾個可能的應用。其目的是啟發(fā)我們對這一問題進行深入思考。隨著電子政務系統(tǒng)的運行,我們對其中的數據挖掘功能會有更為迫切的需求。
[1] 李鵬飛. 基于數據倉庫、數據挖掘技術的電子政務建設[J]. 現(xiàn)代電子技術,2004, (4): 1-3.
[2] 孫正興,戚魯. 電子政務原理與技術[M]. 北京:人民郵電出版社,2003.
[3] 蘇新寧,吳鵬,朱曉峰等. 電子政務技術[M]. 北京:國防工業(yè)出版社,2003.
[4] 金江軍,潘懋. 電子政務數據資源的開發(fā)利用[J]. 地理與地理信息科學,2003, 19(6):42-46.
[5] 裴韜,周成虎,駱劍承等. 空間數據知識發(fā)現(xiàn)研究進展述評[J]. 中國圖象圖形學報:A輯, 2001,(9): 854-860.
[6] 陳侃. 基于數據倉庫技術的電子政務資源庫[J]. 計算機工程,2004,30(5):81-83,89.