摘 要:BBS作為一種信息服務(wù)系統(tǒng)常常是人們生活與工作的交流平臺(tái),人們通常使用它來(lái)發(fā)表言論、傳播信息或文件等,這為人們的生活與工作帶來(lái)了極大的便利。但是,由于BBS管理系統(tǒng)的不完善,造成BBS信息的安全性存在極大隱患,為了提高BBS信息的管理質(zhì)量與效率,數(shù)據(jù)挖掘技術(shù)便逐漸應(yīng)用于BBS管理工作中。在此,本文將基于BBS管理系統(tǒng)為研究對(duì)象,進(jìn)而對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行深入探究。
關(guān)鍵詞:BBS管理系統(tǒng);數(shù)據(jù)挖掘技術(shù);應(yīng)用
中圖分類號(hào):TP311.13
在當(dāng)前的社會(huì)環(huán)境中網(wǎng)絡(luò)技術(shù)發(fā)揮著越來(lái)越重要的作用,網(wǎng)絡(luò)應(yīng)用服務(wù)也成為人們?nèi)粘I钆c工作中不可或缺的重要組成部分,網(wǎng)絡(luò)技術(shù)的出現(xiàn)為人們信息交流拓寬了渠道,但同時(shí)由于網(wǎng)絡(luò)應(yīng)用服務(wù)的增多以及涉及范圍的擴(kuò)大,進(jìn)而導(dǎo)致網(wǎng)絡(luò)的安全性能越來(lái)越難以保障。BBS作為一種信息服務(wù)系統(tǒng)常常是人們生活與工作的交流平臺(tái),人們通常使用它來(lái)發(fā)表言論、傳播信息或文件等,然而由于網(wǎng)絡(luò)管理工作上的不完善讓某些不法分子或思想不健康的用戶有了可乘之機(jī),他們惡意通過(guò)BBS論壇發(fā)表一些負(fù)面言論,從而造成網(wǎng)絡(luò)與社會(huì)的不穩(wěn)定。為此,需要網(wǎng)絡(luò)管理工作者重視這一問(wèn)題,研究出相關(guān)數(shù)據(jù)挖掘技術(shù)應(yīng)用于BBS管理系統(tǒng)中,從而提高BBS管理中信息處理的效率。
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘,其實(shí)質(zhì)上是一個(gè)動(dòng)態(tài)的挖掘數(shù)據(jù)庫(kù)信息的系統(tǒng)過(guò)程,是管理者以存放在數(shù)據(jù)庫(kù)、信息庫(kù)中的大量數(shù)據(jù)為研究對(duì)象,管理者發(fā)揮不同功能模塊的作用來(lái)完成挖掘任務(wù),從中發(fā)現(xiàn)數(shù)據(jù)庫(kù)中有趣的、有價(jià)值的信息與知識(shí)。為了方便完成數(shù)據(jù)挖掘工作,具體劃分為三個(gè)數(shù)據(jù)挖掘步驟:一是數(shù)據(jù)準(zhǔn)備;二是規(guī)律尋找;三是規(guī)律表達(dá)。數(shù)據(jù)準(zhǔn)備,即數(shù)據(jù)挖掘工作開(kāi)展的前提準(zhǔn)備工作,通過(guò)確定挖掘任務(wù)以計(jì)劃后期的工作安排;規(guī)律尋找,即根據(jù)數(shù)據(jù)庫(kù)與信息庫(kù)中的數(shù)據(jù)資源來(lái)進(jìn)行關(guān)聯(lián)規(guī)則與趨勢(shì)的分析,從中尋找出相關(guān)規(guī)律性,并運(yùn)用恰當(dāng)?shù)耐诰蛴?jì)算方法來(lái)求解出相關(guān)參數(shù);規(guī)律表達(dá),即對(duì)前兩個(gè)數(shù)據(jù)挖掘工作的總結(jié),以書(shū)面材料的形式整理出在數(shù)據(jù)挖掘工作中的發(fā)現(xiàn)。
1.2 文本挖掘
文本挖掘,顧名思義是網(wǎng)絡(luò)管理者對(duì)文本中的數(shù)據(jù)進(jìn)行挖掘,從中提取有價(jià)值的信息與知識(shí),其屬于一種計(jì)算機(jī)處理技術(shù),不過(guò)需要依托數(shù)據(jù)挖掘技術(shù)的支持。現(xiàn)今,文本挖掘已成為一門數(shù)據(jù)挖掘?qū)W科,盡管該學(xué)科具有很大的邊緣性,但其融合了多個(gè)學(xué)科的知識(shí)(如計(jì)算機(jī)、數(shù)理統(tǒng)計(jì)、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等),學(xué)科內(nèi)容的兼容性極大。在運(yùn)用文本挖掘技術(shù)的前提準(zhǔn)備工作有三步,第一步是要將文本進(jìn)行分類;第二步是提煉文本的特征;第三步是轉(zhuǎn)化文本,利用數(shù)據(jù)的形式對(duì)文本內(nèi)容進(jìn)行轉(zhuǎn)化,使之轉(zhuǎn)換成描述性、結(jié)構(gòu)性兼具的數(shù)據(jù)。之后,就可以順利進(jìn)行文本數(shù)據(jù)挖掘工作。
1.3 Web文本挖掘
近些年,新興的服務(wù)技術(shù)層出不窮,而Web服務(wù)技術(shù)是運(yùn)用最普遍的一種,其可以不通過(guò)任何載體而實(shí)現(xiàn)不同計(jì)算機(jī)之間數(shù)據(jù)的交換或集成,從而將自身功能或服務(wù)的調(diào)用說(shuō)明向外界發(fā)布,并利用URL定位實(shí)現(xiàn)信息的自動(dòng)反饋,以滿足特定客戶端的信息需求。于是乎,將Web服務(wù)技術(shù)應(yīng)用在數(shù)據(jù)挖掘中十分有必要,建立在數(shù)據(jù)挖掘技術(shù)之上的Web文本挖掘便應(yīng)運(yùn)而出,該技術(shù)能夠強(qiáng)化現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)的擴(kuò)展性,并很好的滿足客戶需求的變動(dòng)。Web文本挖掘技術(shù)具有廣泛的功能性,能夠通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、模式識(shí)別、智能語(yǔ)言、統(tǒng)計(jì)學(xué)等功能在結(jié)構(gòu)不合理或異常的Web文檔集合中進(jìn)行數(shù)據(jù)挖掘工作,利于提高知識(shí)挖掘效率。在Web文檔中,其信息復(fù)雜多樣,而文本信息又占據(jù)著主要成分,于是對(duì)Web文本進(jìn)行挖掘意義重大,而XML功能的日益完善方便了對(duì)Web文檔資源的數(shù)據(jù)描述,通過(guò)這些數(shù)據(jù)描述簡(jiǎn)化了Web文檔抽取信息的特征,更利于采用不同模型來(lái)表示W(wǎng)eb文檔信息的描述特征。
2 數(shù)據(jù)挖掘技術(shù)在BBS管理系統(tǒng)中的應(yīng)用
2.1 BBS管理系統(tǒng)
BBS算是使用較長(zhǎng)的一種電子信息服務(wù)系統(tǒng),由研究機(jī)構(gòu)與教育機(jī)構(gòu)對(duì)其進(jìn)行統(tǒng)一管理,其最初的功能是以公共電子白板的形式為用戶提供一個(gè)發(fā)布信息或意見(jiàn)的渠道,用戶可以在電子版面上暢所欲言?,F(xiàn)如今,BBS管理系統(tǒng)趨于完善,其功能也逐步擴(kuò)大,已轉(zhuǎn)變成信息交流與共享的平臺(tái),一種快捷的通訊方式,其針對(duì)不同的服務(wù)對(duì)象劃分出不同類型的BBS,如校園BBS、情感BBS、商業(yè)BBS等。由于BBS使用群體的日益龐大,其需要一個(gè)完善的BBS管理系統(tǒng)來(lái)確保信息資源的安全性與使用性,而將數(shù)據(jù)挖掘技術(shù)應(yīng)用在BBS管理系統(tǒng)中能夠有效對(duì)BBS的信息進(jìn)行系統(tǒng)挖掘與管理,這不僅有利于BBS的系統(tǒng)管理,而且也有利于數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展。
2.2 嘗試性挖掘
用戶數(shù)據(jù)庫(kù)、版面數(shù)據(jù)庫(kù)、帖子數(shù)據(jù)庫(kù),這三部分是構(gòu)成BBS系統(tǒng)的基本要素,用戶數(shù)據(jù)庫(kù)是用于存儲(chǔ)用戶私人信息(姓名、密碼、登錄ID號(hào)等)的載體,而記錄版主ID、版面名稱的載體則是版面數(shù)據(jù)庫(kù)。其中帖子數(shù)據(jù)庫(kù)的存儲(chǔ)信息更加多樣,包括作者、帖子內(nèi)容、帖子ID、鏈接地址等。在BBS管理系統(tǒng)中,常識(shí)性數(shù)據(jù)挖掘技術(shù)運(yùn)用得非常廣泛,如圖1所示,通過(guò)該圖能夠讓人們更加清楚嘗試性挖掘數(shù)據(jù)的具體模式。
圖1 嘗試性挖掘數(shù)據(jù)模式
以BBS管理系統(tǒng)為研究對(duì)象,本文將通過(guò)嘗試性挖掘技術(shù)來(lái)提高BBS數(shù)據(jù)挖掘的效率,而該項(xiàng)數(shù)據(jù)挖掘工作的第一步則是要進(jìn)行信息模式的轉(zhuǎn)化,即實(shí)現(xiàn)多維數(shù)據(jù)模型對(duì)星型模式的轉(zhuǎn)換。以事務(wù)T來(lái)表示BBS用戶的登錄次數(shù),1個(gè)T表示一次登錄,以數(shù)據(jù)庫(kù)D來(lái)表示事務(wù)集合,在數(shù)據(jù)庫(kù)中集合事務(wù),構(gòu)成多個(gè)二維數(shù)組(數(shù)組中記錄了BBS登錄樣本),使用特征集來(lái)定義這些數(shù)組的列集。之后,使用計(jì)算機(jī)智能決策來(lái)分析數(shù)據(jù)挖掘結(jié)果,通過(guò)直觀的星型模式來(lái)表示挖掘結(jié)果,從而便于用戶理解數(shù)據(jù)挖掘結(jié)果。
3 結(jié)束語(yǔ)
基于BBS管理系統(tǒng)的數(shù)據(jù)挖掘技術(shù)研究是網(wǎng)絡(luò)管理者與時(shí)俱進(jìn)的發(fā)展表現(xiàn),正是因?yàn)锽BS這一電子信息服務(wù)在人們生活與工作中運(yùn)用得越來(lái)越廣泛,因而人們也在實(shí)際應(yīng)用中對(duì)BBS管理員提出了更多的需求。統(tǒng)一信息的數(shù)據(jù)結(jié)構(gòu),便于BBS信息的管理與分析、信息的安全性就是人們所提出的實(shí)際需求,為了提高BBS信息的管理質(zhì)量與效率,數(shù)據(jù)挖掘技術(shù)便逐漸應(yīng)用于BBS管理工作中,而這一舉動(dòng)不僅成功促進(jìn)了BBS的信息管理,凈化了BBS的網(wǎng)絡(luò)環(huán)境,而且還在一定程度上推動(dòng)了數(shù)據(jù)挖掘技術(shù)的發(fā)展。
參考文獻(xiàn):
[1]No-Wook Park, Kwang-Hoon Chi and Byung-Doo Kwon.Accounting for spatial patterns of multiple geological data sets in geological thematic mapping using GIS-based spatial analysis[J].Environmental Geology,2007,51(7):1147-1155.
[2]吳昊,耿煥同,吳祥.一種基于聚類分析的BBS主題發(fā)現(xiàn)算法研究[J].安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(01).
[3]張欣欣,薛冰冰.基于數(shù)據(jù)挖掘技術(shù)的BBS的安全管理[J].洛陽(yáng)工業(yè)高等??茖W(xué)校學(xué)報(bào),2003(04).
作者簡(jiǎn)介:湯敏麗(1982-),女,貴州凱里人,碩士,凱里學(xué)院講師,研究方向:數(shù)據(jù)挖掘。