劉武萍
(佛山職業(yè)技術學院,廣東 佛山 528237)
隨著現(xiàn)代信息技術的迅速發(fā)展,世界掀起了信息化的浪潮。人們面臨著大量的數(shù)據(jù),但很難找到所需的信息和有益的知識,這是“信息爆炸”引起的混亂。數(shù)據(jù)挖掘技術是通過人工智能、數(shù)學統(tǒng)計和并行計算等技術的開發(fā)和集成而研發(fā)的。數(shù)據(jù)挖掘廣泛用于金融、零售和通信等領域[1],已成為有效利用信息資源的方法和途徑。
決策樹主要基于感應分類數(shù)據(jù)的屬性值,分類中常用的分層結構是“if-hen”原則,其主要優(yōu)點是直觀。決策樹方法和神經(jīng)網(wǎng)絡的主要區(qū)別在于它可以解釋決策過程,缺點是在處理復雜的數(shù)據(jù)時有很多要點,難以管理。同時,數(shù)據(jù)的基本處理也存在問題,其中決策樹的用途是提取分類規(guī)則,進行分類預測,其決策樹的生成如圖1 所示。
圖1 決策樹的生成
貝葉斯網(wǎng)絡是基于數(shù)據(jù)統(tǒng)計處理的方法,通過在網(wǎng)絡上鏈接不確定的事件,可以預測與其他事件相關的事件的結果,可以在培訓示例中顯示或隱藏網(wǎng)絡更改。貝葉斯網(wǎng)絡具有分類、聚類和分析功能,其優(yōu)點是容易理解,有良好的預測效果,缺點是對低頻下的事件預測效果不好。貝葉斯網(wǎng)絡在醫(yī)療制造領域取得了良好的成果。
粗略的集合論是在1982 年提出的數(shù)學工具。該方法在數(shù)據(jù)挖掘中起著重要的作用,它可以處理模糊和不確定性,檢測與不準確和嘈雜數(shù)據(jù)的固有結構連接,并可用于功能衰退和關聯(lián)分析。拉塞特可以被認為是模糊概念的數(shù)學模型[2],由于它們不需要有關的初始數(shù)據(jù),廣泛用于分類和收集不確定、不完整的信息。
關聯(lián)性分析是一種基于大數(shù)據(jù)檢測數(shù)據(jù)庫中各種信息之間連接的分析方法。關聯(lián)性分析法分析收集到的數(shù)據(jù)的關聯(lián)性,挖掘無法直接應用的信息,挖掘隱藏信息,實現(xiàn)數(shù)據(jù)的優(yōu)越性。由于該分析方法具有良好的準確性和針對性,因此經(jīng)常用于數(shù)據(jù)的準確分析,如管理歸檔信息。
遺傳算法適合于數(shù)據(jù)的聚類。通過時間相似性對比和空間相似性對比,可以使復雜的信息數(shù)據(jù)系統(tǒng)化,了解數(shù)據(jù)之間的內部關系,為獲得有用的概念和模式而進行配置。構建數(shù)據(jù)模型時,將遺傳算法與神經(jīng)網(wǎng)絡結合起來,可以加深對模型的理解。遺傳算法廣泛應用于自動控制、機器學習、模式識別、檢索、調度和組合優(yōu)化。
近年來,數(shù)據(jù)挖掘技術得到廣泛使用。該技術可以提升企業(yè)和部門的各項能力甚至是核心競爭力,是未來規(guī)劃和戰(zhàn)略決策中不可缺少的技術。目前,數(shù)據(jù)挖掘技術作為電子商務的核心技術,在信息資源的開發(fā)中具有很大的優(yōu)勢。該技術被廣泛應用在醫(yī)療、工業(yè)、金融等領域。
目前數(shù)據(jù)挖掘技術的應用在零售行業(yè)比較活躍,在數(shù)據(jù)挖掘技術的幫助下,明確了解顧客的喜好和購買趨勢,對確立零售行業(yè)未來的銷售戰(zhàn)略有重要作用。關聯(lián)規(guī)則經(jīng)常用于捕獲客戶數(shù)據(jù),根據(jù)客戶反應的有效性分析客戶的特性,進行后續(xù)的銷售工作,并作為廣告工作的指導原則。利用數(shù)據(jù)挖掘技術,可以有效分析客戶的忠誠度,根據(jù)分析結果實時調整數(shù)據(jù)和產品類型,并根據(jù)客戶喜好調整銷售服務[3]。這個過程不僅有助于穩(wěn)定現(xiàn)有顧客,而且有助于持續(xù)探索潛在顧客。因此,在零售行業(yè)應用數(shù)據(jù)挖掘方法可以進一步擴大本公司的銷售規(guī)模和范圍,從根本上增加銷售量。
數(shù)據(jù)挖掘技術首次應用于商業(yè)領域以來,數(shù)據(jù)挖掘在金融中的應用相對成熟,數(shù)據(jù)挖掘技術的應用在社會和經(jīng)濟上都有著良好的效益。數(shù)據(jù)挖掘技術基于模型,有效分析金融市場波動的主要因素,據(jù)此建立相應的預測模型,避免市場波動帶來的不利影響,為后續(xù)投資及相關決策提供合理科學的基礎。預測模型應該綜合客戶培訓水平、薪資收入、個人評價等多種因素,分析影響信用的主要原因,以更好的方式調整貸款政策[4]。另外,根據(jù)信用欺詐等不同類型的信息建立對應的預測模型,有助于銀行潛在地規(guī)避風險,防止銀行資金的不正當損失。通過建立預測模型,也有助于銀行盡可能利用潛在和寶貴的客戶,進行跨地區(qū)銷售業(yè)務,使用戶與銀行的關系最大化。在證券交易過程中,可以科學預測股票,避免嚴重的經(jīng)濟損失,也可以盡快找出會計成本和過高的收益率等問題。
在醫(yī)療行業(yè),醫(yī)療和生物技術在基因分析的過程中需要處理大量的遺傳數(shù)據(jù)。數(shù)據(jù)挖掘技術的應用,可以探索遺傳數(shù)據(jù)的潛在價值。在醫(yī)療領域,數(shù)據(jù)挖掘技術可以用于一些不雅疾病的研究,基于此,可以建立相應的醫(yī)療數(shù)據(jù)模型。另外,數(shù)據(jù)挖掘技術也可以應用于醫(yī)療記錄數(shù)據(jù)的處理,根據(jù)數(shù)據(jù)的分析,制定相應的治療計劃。
近年來,物聯(lián)網(wǎng)和云計算等信息產品記錄了人們的行為軌跡,構建了各種大數(shù)據(jù)平臺,促進了數(shù)據(jù)挖掘技術在各個管理領域的應用。例如,數(shù)據(jù)挖掘技術可以有效地應用于大學的管理。大學人口密度很高,在信息化時代,學生的數(shù)據(jù)信息形成了海量的數(shù)據(jù),使得高校難以管理數(shù)據(jù)信息。數(shù)據(jù)挖掘技術對眾多學生的信息進行挖掘分析,其分析結果適用于大學入學、教育評價、學生的意識形態(tài)政治工作等[5]。例如,使用數(shù)據(jù)挖掘方法分析教學效果,分析結果是評價教學效果的依據(jù),也可以監(jiān)測教師是否執(zhí)行有效的教學任務。數(shù)據(jù)分析有助于教師更好地了解教室里學生混亂的地方,幫助教師改進教育計劃,實施針對性的教育,提高教育效果。另外,應用數(shù)據(jù)挖掘方法,使用移動學習模式分析影響在線教學效果的多種因素,包括學生的學習進度、問題學習和其他相關數(shù)據(jù)。該分析可以幫助教師改進線上教學方法,提高移動學習模式下的教學有效性。
數(shù)據(jù)挖掘方法主要用于挖掘、分析和應用存儲的數(shù)據(jù)。首先,它將出現(xiàn)在提高行業(yè)競爭力的領域[6]。數(shù)據(jù)挖掘技術的分析方法可以發(fā)現(xiàn)數(shù)據(jù)的內部價值,大大縮短科學研究的時間,提高產業(yè)競爭力。例如,通過現(xiàn)有的人工智能技術收集和分析信息,根據(jù)分析結果向消費者推薦自己喜歡的產品,從而提高行業(yè)的競爭力。
科研機構進行科學研究時,需要分析大量非常復雜的實驗調查數(shù)據(jù),用于數(shù)據(jù)分析的現(xiàn)有工具已不再適用。數(shù)據(jù)挖掘技術具有高層次的智能化,是非常強大的自動分析工具,與科學研究領域的數(shù)據(jù)分析工具要求相一致,促進了科學研究領域的應用和發(fā)展。
數(shù)據(jù)挖掘技術的發(fā)展對各個行業(yè)的發(fā)展都有著深刻的影響,該技術可以帶動各個領域中模式的改變,雖然現(xiàn)在的發(fā)展還不是很好,但該技術的進步將會帶來多個行業(yè)效率的提高。該種技術的問世是不易的,但其作用是顯而易見的,為解決當今時代數(shù)據(jù)大爆炸打下了基礎,特別是在如今的自媒體時代,數(shù)據(jù)呈指數(shù)增長,這項技術更是有了用武之地,筆者相信,隨著人們對該技術的不斷開發(fā),它會給人們一個驚艷的結局。