張凱萍
互聯(lián)網的發(fā)展、計算機通信技術的普及、網絡購物的平民化,使傳統(tǒng)實體經濟越來越多地“搬運”到了網絡上,這使得個人信息、通訊信息、消費信息等海量數(shù)據(jù)都成為了有跡可循的數(shù)據(jù)資源,這些數(shù)據(jù)資源已經演變成信息科學中一個非常重要的研究課題.但是,我們在享受信息技術帶來的方便的同時,也存在一些問題,例如信息的處理速度跟不上數(shù)據(jù)增長的速度;信息的提取技術有待提高;信息的真實性難以確認;個人隱私的保密制度和技術急需完善等.因此,許多相關議題成為了學術界關注的熱點,比如快速、高效率地在大數(shù)據(jù)中獲取有價值的信息,再進一步利用這些信息反映出來的規(guī)律來指導市場經濟、社會走向,以及快速、高效率地在大量的數(shù)據(jù)中找出隱藏的信息,使數(shù)據(jù)挖掘技術的發(fā)展速度進一步加快等.
數(shù)據(jù)挖掘的本質是在數(shù)據(jù)庫中發(fā)現(xiàn)隱藏的知識內容,是當今社會人工智能和數(shù)據(jù)處理領域重點研究的課題.之所以稱為“挖掘”,是因為這項技術所尋找的知識是之前并不確定的、具有潛在價值的、隱藏的內容.數(shù)據(jù)挖掘的過程就是決策支持的過程,數(shù)據(jù)挖掘就是以統(tǒng)計學、大數(shù)據(jù)技術為基礎,以自動化學習、AI智能以及識別技術等為基礎,非常規(guī)化地自動分析來自各行各業(yè)的數(shù)據(jù),并總結出一定的關系網絡,從中發(fā)現(xiàn)隱藏的模式或潛力,來協(xié)助決策人員引導市場發(fā)展、降低風險,做出正確的預判.
從技術上講,數(shù)據(jù)挖掘是需要從一些大量的問題數(shù)據(jù)中提取隱藏的知識和有效信息,并且保證提取出來的信息和知識是之前不知道的,確保具有一定的潛在價值.這些問題數(shù)據(jù)包含不完整的數(shù)據(jù),有缺損的數(shù)據(jù),不能完全識別的數(shù)據(jù),以及隨機的應用數(shù)據(jù).其中,數(shù)據(jù)的來源必須要真實,數(shù)據(jù)量要大,提取的信息必須是目標用戶群所感興趣的,并且在實際操作中要可行[1].
對于原始數(shù)據(jù),可以是來自各行各業(yè)的數(shù)據(jù)庫,例如關系數(shù)據(jù)庫中的結構化數(shù)據(jù);一些文本、視頻資料等半結構化數(shù)據(jù);例如在網絡上散布的非常零散的沒有任何關聯(lián)的數(shù)據(jù).針對提取有效信息和知識的方法包含演繹、歸納整理、數(shù)學模型、非數(shù)學模型等.提取出來的知識可以用在信息檢索、快速查詢、過程控制等,還可以用于維護數(shù)據(jù)本身.因此,數(shù)據(jù)挖掘是一項混合技術,它能夠把數(shù)據(jù)充分利用起來,從簡單的查詢到復雜的演繹,從簡單的表層知識到深入的隱藏知識,這都是當今社會進行決策和引導的關鍵技術知識.
分類技術指的是在數(shù)據(jù)源中尋找出一組數(shù)據(jù)對象,這組數(shù)據(jù)對象具有相同的特點,可以根據(jù)事先規(guī)定的模式進行不同的分類,把數(shù)據(jù)源中的數(shù)據(jù)對象聯(lián)結到某種特殊的類別當中.例如可以把某一組數(shù)據(jù)對象聯(lián)結到顧客的分類中,然后對顧客的屬性進行分析,對顧客的特點進行分析,做滿意度調查、然后評判顧客的購買意向以及購買力.以某一個汽車廠商為例,如果這個汽車廠商把數(shù)據(jù)源中的顧客依據(jù)對汽車的愛好分門別類,這樣一線的銷售人員便可以把握主動,直接向這類顧客銷售相應的產品,投其所好,大大提高了效率.
這種分析方法是將一組數(shù)據(jù)源按照是否相似以及相似的程度分為幾個層級,制定覆蓋面廣而又詳盡的相似性判斷制度,使相同類別的數(shù)據(jù)源具有極高的相似度,使不同類別的數(shù)據(jù)源具有極低的相似度.市場銷售中經常用到聚類這種分析方法,例如尋找客戶的時候,挖掘潛在客戶的時候,維系與客戶的聯(lián)系的時候,分析商品周期的時候,預判銷售情況的時候等等,都可以使用聚類的分析方法.
關聯(lián)是描述數(shù)據(jù)源中各項數(shù)據(jù)之間關系的規(guī)則,簡單地說,就是一類數(shù)據(jù)源中出現(xiàn)某些項,很可能導致另一類數(shù)據(jù)源中產生相應的反映,有因而產生果,隱藏在數(shù)據(jù)源中的知識也隨之被發(fā)現(xiàn)[2].例如,當你在維護和客戶的關系的時候,就可以在該企業(yè)的客戶數(shù)據(jù)源中挖掘有效信息,在大量的關系交流的記錄中挖掘有效信息,挖掘有價值的線索,挖掘出不明顯的影響市場的關鍵節(jié)點,這對商品價格預判、銷售走勢、客戶類群分辨、銷售整體方向的規(guī)劃等具有重要的參考價值.
該方法是利用數(shù)據(jù)源在時間上的特征性,制定一個把數(shù)據(jù)類別回歸到預測變量的函數(shù)中,通過相關的數(shù)學理論,對變量和變量之間的關系進行挖掘分析,其中回歸分析的重點有以下幾點:數(shù)據(jù)類別之間的關系分析,預判的走向分析,以及數(shù)據(jù)變量的趨勢分析等.
數(shù)據(jù)源也可以根據(jù)特征進行數(shù)據(jù)分類,從中提取關于這些特征的特征式,這類公式可以提現(xiàn)該數(shù)據(jù)源的整體特點.例如在一線的銷售人員在預防顧客流失的時候就可以先將顧客按照特征進行分類,然后再從中提取出顧客流失特征的特征式,就可以很快分找出造成顧客流失的很多原因以及特征了,然后再從特征中找出主要特征和次要特征,通過對這些顧客流失的特征分析就可以提前預防顧客流失的情況了.
數(shù)據(jù)源里面的偏差含有許多隱藏的知識和有效信息,例如模式中反常現(xiàn)象,數(shù)據(jù)分類中的反?,F(xiàn)象,實際與期望的偏差等,對于偏差的分析旨在探究實際結果與參照之間有價值的差別.在大型企業(yè)的危機預警系統(tǒng)中,管理人員更應該注意的是一些反?,F(xiàn)象和規(guī)則,對于這些偏差的分析以及深入挖掘,可以提前嗅探到危機,讓企業(yè)提前應對,避免不良后果的產生.
隨著互聯(lián)網的普及,越來越多的人開始通過網絡通信進行交互,這導致互聯(lián)網上的數(shù)據(jù)極其豐富,通過對互聯(lián)網的數(shù)據(jù)挖掘,可收集到有關經濟的各種信息、有關金融的各種信息、有關對手企業(yè)的各種信息、有關人力資源供求的各種信息、以及潛在客戶群體的各種信息等等,接下來再重點關注對企業(yè)會造成重大影響的內、外因素,或者潛在影響的內、外因素,根據(jù)數(shù)據(jù)挖掘的結果對危機進行預判和預警,合理利用,從而達到統(tǒng)籌運營、恰當決策的目的.
在一些大型企業(yè)中,數(shù)據(jù)挖掘技術在市場銷售中廣受青睞,它的應用基礎是市場細分原理,通過對顧客日常消費行為的分析來判斷其將來的消費行為[3].
具體地說,就是先廣泛的搜集一切和消費者的日常行為有關的信息,并進行加工處理,做好分類,通過不同分類的消費群體的消費水平,偏向愛好以及消費趨勢來對消費群體的消費行為做出預判,然后以此為準,對每一類消費群體進行定向推銷,類似于“漫灌”改“滴灌”,可以將銷售的準確度大大提升,進而銷售效率就會提升,企業(yè)積累的顧客越來越多,利潤也就會越來越大.
其中的消費數(shù)據(jù)信息來自于多種渠道.當我們在申請辦理借記卡時、購買商品進行登記時、郵寄物品填寫表格時等等,只要是需要填寫個人信息的公共場合,在填寫信息之后,一些私人信息就會自動納入相對應的數(shù)據(jù)庫;例如當你每一次刷信用卡產生消費的時候,企業(yè)就會通過你的信用卡的賬單來計算分析你的消費信息,并且還可以統(tǒng)計出每一次的消費時間,消費地點,消費內容,消費能力等;除了企業(yè)自身收集相關信息,也可以通過購買的形式從其他商業(yè)公司購買.
來源于多種渠道的用戶信息被重組,利用計算機、AI智能分析、模型算法等多種信息處理辦法進行綜合處理,從中提取對于企業(yè)有利的決策性、判斷性信息,用來對消費群體進行定向銷售等.舉例說明,當銀行系統(tǒng)對交易業(yè)務進行數(shù)據(jù)挖掘后,篩選到一個銀行用戶要求辦理雙人關聯(lián)賬戶,且明確這是該消費者第一次要求辦理,那么數(shù)據(jù)挖掘軟件會預判這名用戶即將結婚,相應地便可以對其定向推薦房屋按揭等業(yè)務,甚至可能把這份資料售賣給婚慶服務行業(yè).
在市場經濟發(fā)達的國家,很多大型企業(yè)已經開始在原有信息基礎上通過數(shù)據(jù)挖掘進行深層加工,從而建立起自己的優(yōu)勢,提升競爭力,擴大經營范圍.比如美國運通公司,建立了一個記錄信用卡消費記錄的數(shù)據(jù)庫,只要業(yè)務量在增加,數(shù)據(jù)庫的內容就會一直更新.而美國運通公司就會在這些數(shù)據(jù)中挖掘隱藏的信息,制定出了非常有效的“關聯(lián)結算優(yōu)惠”策略,簡單地說,就是一個用戶在使用信用卡購買了一套衣服,如果在同一地方再買一雙皮鞋,那么就會有巨大優(yōu)惠.如此以來,商店和銀行都賺取了更多的利潤.
預判型推銷,是以數(shù)據(jù)挖掘為基礎,可以按照消費者之前的消費水平,向其推薦與之相當?shù)漠a品.例如卡夫食品擁有一個幾千萬顧客資料的數(shù)據(jù)庫,其內容是不同的消費人群對該公司曾經發(fā)放過的消費券、代金券等的反饋,卡夫食品以此為基礎進行數(shù)據(jù)挖掘,向特定的人群發(fā)送其偏好的食品,并且進一步推薦與之有關的卡夫食譜.再例如美國讀者出版公司,建立了一個業(yè)務數(shù)據(jù)庫,并且已經累積了幾十年,業(yè)務數(shù)據(jù)庫的內容已經包含全球范圍上億個顧客的相關資料和信息,并且業(yè)務數(shù)據(jù)庫還在7*24小時的運行,從來沒有間斷過,確保數(shù)據(jù)庫的內容可以實時更新.所以正是因為有了數(shù)據(jù)庫信息的挖掘技術,讀者出版公司在高層決策中實行了方向引導,讓公司的業(yè)務得到進一步拓展,從一開始的普通雜志擴展到專業(yè)雜志,從一開始的普通書刊擴展到音像制品,從而公司的利潤也是得到了很大的提升.
大數(shù)據(jù)在給人們帶來方便的同時,也存在許多安全隱患,尤其是個人的隱私容易被不法分子進行數(shù)據(jù)化分析.
比如,通過對人口健康數(shù)據(jù)、基因測序數(shù)據(jù)的挖掘,可以預判國民身體健康走向;通過對移動消費的數(shù)據(jù)挖掘,可以得出國民消費的金融數(shù)據(jù);通過對社會文化的分析可以得出國民的文娛喜好和思想文化偏好,這些分析結果很可能會被不法分子利用,進而影響國家層面的安全.
由于利益驅使,個人信息的售賣已經形成完整的產業(yè)鏈條,依據(jù)目前的網絡法律法規(guī),這些不法現(xiàn)象還很難得到整治.但換一個角度,大數(shù)據(jù)只有在充分流動和共享交換的模式下才能發(fā)揮最大作用,要用辯證的眼光看待當今社會大數(shù)據(jù)帶來的利和弊,只有完善法規(guī)、合理引導,才能使大數(shù)據(jù)發(fā)揮其應有的作用.
大數(shù)據(jù)時代的到來,使得數(shù)據(jù)挖掘技術成為極具影響力的工具,顛覆了以往各個領域的運作模式,使得各行各業(yè)能夠把握更高效的運行方案.隨著數(shù)據(jù)挖掘帶給人們方便的同時,個人隱私的安全問題也亟待解決,只有建立完善的法律法規(guī),加強數(shù)據(jù)基礎設施保護,充分發(fā)揮標準的指導和引領作用,才能讓數(shù)據(jù)挖掘技術更好地為社會服務.