韓小龍
(寶雞文理學(xué)院 陜西 寶雞 721000)
信息化時(shí)代的到來,使得數(shù)據(jù)信息的重要性越發(fā)突出。在現(xiàn)代社會(huì)背景下,數(shù)據(jù)信息既可以是支持現(xiàn)代科學(xué)技術(shù)發(fā)展的載體,也可以是推動(dòng)行業(yè)創(chuàng)新發(fā)展的動(dòng)力,還可以是保障社會(huì)和諧發(fā)展的基石。若充分發(fā)揮數(shù)據(jù)信息的價(jià)值與作用,則需要對(duì)數(shù)據(jù)挖掘技術(shù)等先進(jìn)技術(shù)進(jìn)行合理利用,故而有必要對(duì)基于數(shù)據(jù)挖掘技術(shù)的信息處理分析進(jìn)行研究[1]。
所謂數(shù)據(jù)挖掘技術(shù),簡(jiǎn)單來說就是基于計(jì)算機(jī)信息技術(shù)對(duì)大量、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取有用信息的技術(shù),廣泛包含統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)、模式識(shí)別等諸多模式,并且可分為統(tǒng)計(jì)分析法、神經(jīng)網(wǎng)絡(luò)法、遺傳算法、決策樹法等方法。隨著大數(shù)據(jù)時(shí)代的到來,整個(gè)社會(huì)所面臨的信息數(shù)據(jù)量呈現(xiàn)幾何級(jí)的增長。一方面,海量數(shù)據(jù)中難免包含無用信息,需要借助數(shù)據(jù)挖掘技術(shù)對(duì)有用信息進(jìn)行快速、有效挖掘;另一方面,海量數(shù)據(jù)之間有著各種難以直接發(fā)現(xiàn)的規(guī)律、關(guān)系等,借助數(shù)據(jù)挖掘技術(shù)能夠有目的地對(duì)這些規(guī)律、關(guān)系等加以發(fā)現(xiàn)和總結(jié),進(jìn)一步提高數(shù)據(jù)信息的可利用價(jià)值。通過數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘以及結(jié)果評(píng)價(jià)和解釋,對(duì)數(shù)據(jù)中的有用信息進(jìn)行有目的、針對(duì)性地搜集、整理與處理,并將這些信息轉(zhuǎn)化為更容易被人所理解的形式,真正做到為人所用。
一般而言,數(shù)據(jù)挖掘包含確定業(yè)務(wù)對(duì)象、數(shù)據(jù)集成、數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及評(píng)價(jià)和解釋多個(gè)階段,并能根據(jù)數(shù)據(jù)挖掘結(jié)果實(shí)現(xiàn)預(yù)測(cè)、聚類關(guān)聯(lián)分析、異常檢測(cè)等重要功能。其中預(yù)測(cè)功能主要是通過對(duì)歷史數(shù)據(jù)進(jìn)行挖掘、處理與分析,找出事物變化的規(guī)律,并以此為基礎(chǔ)對(duì)事物未來變化情況以及相關(guān)數(shù)據(jù)加以預(yù)測(cè),目前該功能已經(jīng)被廣泛應(yīng)用于股票漲跌預(yù)測(cè)、犯罪率預(yù)測(cè)、交通運(yùn)輸客流預(yù)測(cè)等方面。聚類功能簡(jiǎn)單來說就是將數(shù)據(jù)劃分成簇。該功能的實(shí)現(xiàn)需要以數(shù)據(jù)挖掘技術(shù)、人工智能技術(shù)、專家系統(tǒng)等先進(jìn)技術(shù)為基礎(chǔ),在不會(huì)知道目標(biāo)數(shù)據(jù)集存在多少類的情況下,對(duì)海量數(shù)據(jù)進(jìn)行自動(dòng)化、智能化處理,并盡可能做到不同簇中數(shù)據(jù)差異性明顯、同簇中數(shù)據(jù)相似性高。目前聚類功能已經(jīng)被嘗試應(yīng)用于生物學(xué)的物種分類輔助、疾病時(shí)間分布模式檢測(cè)、客戶劃分等方面,并取得了一定成效。關(guān)聯(lián)分析功能指對(duì)數(shù)據(jù)之間的關(guān)聯(lián)管理進(jìn)行分析和研究。數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)分析功能的實(shí)現(xiàn),主要通過支持度和置信度來確定數(shù)據(jù)間的關(guān)聯(lián)規(guī)則,進(jìn)而挖掘出數(shù)據(jù)間的簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)等關(guān)系。目前,關(guān)聯(lián)分析功能被廣泛應(yīng)用于零售行業(yè)物品擺放位置調(diào)整、基因芯片研發(fā)、電話卡捆綁銷售、保險(xiǎn)金額設(shè)定等方面。而異常檢測(cè)功能則是對(duì)海量數(shù)據(jù)中的異常數(shù)據(jù)加以發(fā)現(xiàn),并進(jìn)一步對(duì)異常原因、結(jié)果等進(jìn)行分析。該功能的實(shí)現(xiàn)可以通過統(tǒng)計(jì)模型、聚力模型、密度模型、偏離模型等進(jìn)行數(shù)據(jù)挖掘和分析,從而針對(duì)不同模型發(fā)現(xiàn)特定的異常數(shù)據(jù)。目前異常檢測(cè)功能被應(yīng)用于不尋常信用卡的探測(cè)、醫(yī)療保險(xiǎn)欺詐等方面[2-3]。
基于數(shù)據(jù)挖掘技術(shù)進(jìn)行信息處理分析,需要對(duì)處理對(duì)象加以了解和研究,并應(yīng)用相應(yīng)的信息系統(tǒng)進(jìn)行數(shù)據(jù)處理,實(shí)現(xiàn)功能。接下來本文以移動(dòng)通信企業(yè)的用戶信息分析為例,就基于數(shù)據(jù)挖掘技術(shù)的信息處理分析實(shí)現(xiàn)進(jìn)行探討。
要保障信息處理分析的有效實(shí)現(xiàn),需要先對(duì)相應(yīng)的系統(tǒng)進(jìn)行分析,進(jìn)而指導(dǎo)系統(tǒng)設(shè)計(jì)與建設(shè)。對(duì)移動(dòng)通信企業(yè)的用戶信息分析而言,構(gòu)建相應(yīng)的系統(tǒng)應(yīng)當(dāng)能夠?qū)崿F(xiàn)保留老用戶、發(fā)展新用戶、降低運(yùn)營成本、提高企業(yè)競(jìng)爭(zhēng)力等目標(biāo)。其中,從保留老用戶的層面看,對(duì)用戶信息進(jìn)行全面分析,實(shí)現(xiàn)企業(yè)內(nèi)部用戶信息共享,協(xié)調(diào)各部門、崗位,把握用戶需求并盡可能加以滿足,能夠切實(shí)提高用戶的實(shí)際體驗(yàn),進(jìn)而增強(qiáng)用戶對(duì)企業(yè)的信賴感,留住老用戶。從發(fā)展新用戶的層面看,對(duì)企業(yè)內(nèi)部信息與外部信息進(jìn)行綜合化分析,對(duì)潛在用戶的基本特征和需求加以分析,進(jìn)而為企業(yè)戰(zhàn)略調(diào)整、決策制定等提供依據(jù),有效發(fā)展新用戶。從降低運(yùn)營成本的層面看,借助系統(tǒng)對(duì)企業(yè)運(yùn)行管理情況加以分析,推動(dòng)企業(yè)結(jié)構(gòu)以及資源配置優(yōu)化,整合企業(yè)內(nèi)部環(huán)節(jié),并以市場(chǎng)為導(dǎo)向指導(dǎo)企業(yè)業(yè)務(wù)工作開展,能夠在提高工作質(zhì)量與效率的同時(shí),降低運(yùn)營成本。從提高市場(chǎng)競(jìng)爭(zhēng)力層面看,借助用戶信息分析系統(tǒng)對(duì)用戶需求、市場(chǎng)變化等進(jìn)行分析、預(yù)測(cè),能夠有效增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力,促進(jìn)企業(yè)經(jīng)濟(jì)效益提高。
而要確保系統(tǒng)正常運(yùn)行并發(fā)揮作用,則需要對(duì)系統(tǒng)架構(gòu)進(jìn)行合理設(shè)置。用戶信息分析系統(tǒng)直接從企業(yè)系統(tǒng)數(shù)據(jù)服務(wù)器導(dǎo)入檔案數(shù)據(jù),同時(shí)通過生產(chǎn)或錄入的方式生成調(diào)查信息、分析相關(guān)信息等,共同組成數(shù)據(jù)信息。通常移動(dòng)通信企業(yè)的用戶信息分析系統(tǒng)架構(gòu)由3個(gè)層次構(gòu)成,分別為基礎(chǔ)數(shù)據(jù)層、業(yè)務(wù)邏輯層以及應(yīng)用表現(xiàn)層。基礎(chǔ)數(shù)據(jù)層以數(shù)據(jù)庫為核心,并且直接與業(yè)務(wù)邏輯層以及應(yīng)用表現(xiàn)層相連,既可以根據(jù)系統(tǒng)需求自動(dòng)開展相應(yīng)的業(yè)務(wù)工作,也可以按照人為需要對(duì)數(shù)據(jù)進(jìn)行分析處理。業(yè)務(wù)邏輯層則是連接應(yīng)用表現(xiàn)層與基礎(chǔ)訪問層的中間橋梁,其需要基于業(yè)務(wù)實(shí)體以及數(shù)據(jù)業(yè)務(wù)實(shí)體直接進(jìn)行數(shù)據(jù)訪問,也需要通過業(yè)務(wù)實(shí)體以及業(yè)務(wù)邏輯組件支持系統(tǒng)功能和服務(wù)的實(shí)現(xiàn)。而應(yīng)用表現(xiàn)層則是進(jìn)行人機(jī)交互的部分,直觀地展現(xiàn)系統(tǒng)功能,提供專業(yè)服務(wù),是移動(dòng)通信企業(yè)應(yīng)用系統(tǒng)的核心部分。移動(dòng)通信企業(yè)的用戶信息分析系統(tǒng)通常包含系統(tǒng)管理、用戶管理、業(yè)務(wù)管理以及分析管理等四大模塊,同時(shí)具有分級(jí)權(quán)限、自動(dòng)提醒和報(bào)警等基礎(chǔ)功能,能夠滿足企業(yè)開展用戶信息分析工作的實(shí)際需求[4]。
在對(duì)移動(dòng)通信企業(yè)的用戶信息分析系統(tǒng)進(jìn)行設(shè)計(jì)時(shí),需要先對(duì)系統(tǒng)模型進(jìn)行設(shè)計(jì)。系統(tǒng)需要先將包括用戶信息、用戶行為、運(yùn)營數(shù)據(jù)以及其他數(shù)據(jù)等在內(nèi)的所有數(shù)據(jù)進(jìn)行收集、整理,并將數(shù)據(jù)錄入數(shù)據(jù)庫中。根據(jù)數(shù)據(jù)挖掘目標(biāo),對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行選擇以及預(yù)處理,并通過包含關(guān)聯(lián)分析、序列分析、分類分析、聚類分析以及其他分析法的數(shù)據(jù)挖掘算法庫,執(zhí)行數(shù)據(jù)挖掘算法。然后,通過用戶行為分析、用戶信用分析、用戶滿意度分析、用戶忠誠度分析、用戶消費(fèi)預(yù)測(cè)等,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行分析,并根據(jù)反饋修正結(jié)果,再為用戶服務(wù)、營銷策略、管理應(yīng)用等工作的開展提供重要數(shù)據(jù)。在此基礎(chǔ)上,再對(duì)系統(tǒng)功能的實(shí)現(xiàn)進(jìn)行設(shè)計(jì)。其中系統(tǒng)管理模塊應(yīng)當(dāng)具備添加、查看、刪除、修改等必要的系統(tǒng)功能;用戶管理模塊應(yīng)當(dāng)具備添加業(yè)務(wù)用戶、查看用戶信息等基本功能;業(yè)務(wù)管理模塊應(yīng)當(dāng)具備添加業(yè)務(wù)記錄、查看業(yè)務(wù)記錄、刪除業(yè)務(wù)記錄、留言管理等基本功能;分析管理模塊則應(yīng)當(dāng)具備用戶信息分析、用戶滿意度管理、用戶消費(fèi)分析和預(yù)測(cè)、用戶分類等必要功能。將整個(gè)系統(tǒng)劃分為數(shù)據(jù)層、邏輯層與表現(xiàn)層,對(duì)各層的功能和作用加以明確。
在對(duì)數(shù)據(jù)庫進(jìn)行設(shè)計(jì)時(shí),一般可選用SQL Server數(shù)據(jù)庫,并建設(shè)相應(yīng)的信息表,主要包括用戶基本資料信息表、用戶聯(lián)系人信息表、用戶組織結(jié)構(gòu)信息表、系統(tǒng)操作員信息表、業(yè)務(wù)記錄信息表、用戶滿意度調(diào)查表、用戶意見反饋表等,不同數(shù)據(jù)需要按部就班地錄入對(duì)應(yīng)信息表。其中,用戶基本資料信息表包含用戶編號(hào)、用戶姓名、用戶地址、用戶郵編、用戶聯(lián)系人、信用度、滿意度、用戶等級(jí)、用戶種類、地區(qū)、注冊(cè)時(shí)間、注冊(cè)地址、負(fù)責(zé)團(tuán)隊(duì)、最近聯(lián)系時(shí)間以及備注等基本信息;用戶聯(lián)系人信息表包含聯(lián)系人編號(hào)、客戶編號(hào)、聯(lián)系人姓名、聯(lián)系人電話號(hào)碼、備注等信息。
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,是系統(tǒng)進(jìn)一步實(shí)現(xiàn)各項(xiàng)信息處理分析功能的基礎(chǔ)。在實(shí)踐時(shí),需要根據(jù)實(shí)際需要,明確調(diào)查對(duì)象,進(jìn)而對(duì)數(shù)據(jù)庫中的表進(jìn)行合理篩選,并對(duì)這些表中的數(shù)據(jù)進(jìn)行預(yù)處理。先通過系統(tǒng)直接從數(shù)據(jù)庫中導(dǎo)入需要的數(shù)據(jù),并通過消減維度的方式將其中與挖掘目的無關(guān)的屬性進(jìn)行消減。然后,再對(duì)數(shù)據(jù)進(jìn)行觀察,并將其中的噪聲數(shù)據(jù)忽視掉,以免無效數(shù)據(jù)影響信息處理分析結(jié)果的準(zhǔn)確性。之后,再進(jìn)行數(shù)據(jù)變換,對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,通常是基于行業(yè)領(lǐng)域經(jīng)驗(yàn)、挖掘需求等進(jìn)行分層離散。
移動(dòng)通信企業(yè)用戶信息分析系統(tǒng)的數(shù)據(jù)挖掘算法,主要包括Apriori算法與FP-Growth算法兩種。通過編程手段,對(duì)這兩種算法功能加以實(shí)現(xiàn)。其中,Apriori算法中應(yīng)用了自連接、剪枝技術(shù)以及Hash樹求解候選項(xiàng)集的支持?jǐn)?shù),能夠有效預(yù)防重復(fù)挖掘,也能對(duì)一些無用或者不必要的候選項(xiàng)集進(jìn)行過濾,挖掘速度較快。不過該算法在實(shí)際應(yīng)用時(shí),需要重復(fù)掃描數(shù)據(jù)庫和所有事物,會(huì)在很大程度上影響挖掘效率。而FPGrowth算法應(yīng)用了FP樹與條件FP樹等技術(shù),能夠?qū)崿F(xiàn)對(duì)大量數(shù)據(jù)的壓縮存儲(chǔ),也能得到頻繁項(xiàng)集,而且只需要掃描數(shù)據(jù)庫兩次。
操作人員需要通過賬號(hào)、密碼以及動(dòng)態(tài)驗(yàn)證碼登錄系統(tǒng),并獲得相應(yīng)的系統(tǒng)權(quán)限。進(jìn)入系統(tǒng)界面后,操作人員可以根據(jù)實(shí)際需要,通過不同的系統(tǒng)模塊進(jìn)行用戶信息操作和用戶信息分析,獲得自身需要的信息,并為用戶管理提供支持[5]。
綜上所述,在大數(shù)據(jù)時(shí)代,根據(jù)實(shí)際需要對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行合理應(yīng)用,并對(duì)相應(yīng)的數(shù)據(jù)信息進(jìn)行挖掘、處理與分析,得到需要的信息,支持相關(guān)工作開展,是未來數(shù)據(jù)挖掘技術(shù)應(yīng)用的主要趨勢(shì)。