盧志強
(中國鐵路上海局集團有限公司信息技術所 上海 200071)
以大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等為代表的信息技術正加速推動著社會信息化進程,各個行業(yè)積累的數(shù)據(jù)資源也越來越多,人們的工作也越來越依靠數(shù)據(jù)。大數(shù)據(jù)分析領域也對大數(shù)據(jù)專家技能需求分為“數(shù)據(jù)管理、數(shù)據(jù)運營、洞察分析、算法模型”四個層次,其中算法模型這個層次就是數(shù)據(jù)價值挖掘能力。為了更好地適應大數(shù)據(jù)時代的發(fā)展,工作中需要加強對業(yè)務的思考和總結,將日常工作中發(fā)現(xiàn)的規(guī)律和經(jīng)驗融入大數(shù)據(jù)模型,提高數(shù)據(jù)應用能力[1]。
在大數(shù)據(jù)分析中,模型是非常有用的工具,模型很多時候就是一個類似Y=f(X)的函數(shù),即從參數(shù)X(也可以理解為條件、現(xiàn)象、特征)到結果Y的一個推導(映射)規(guī)則。在掌握足夠經(jīng)驗時,結合一些基礎的統(tǒng)計分析,依靠人工規(guī)則定義就可以實現(xiàn)建模;而人工對錯綜復雜、大量的數(shù)據(jù)無法處理時,逐漸轉化為依靠人工指導的數(shù)據(jù)挖掘,再到完全依賴機器進行的深度學習算法去完成建模。挖掘算法包括分類、聚類、關聯(lián)規(guī)則、回歸等,而深度學習主要是依賴神經(jīng)網(wǎng)絡模型[2]。
數(shù)據(jù)挖掘的實質是通過計算機的計算能力在一堆數(shù)據(jù)中發(fā)掘出規(guī)律并加以利用的過程。如圖1所示,數(shù)據(jù)挖掘通常通過已知輸出的結果的數(shù)據(jù)作為訓練集產(chǎn)生出模型,再用另外一部分知道已知輸出結果的數(shù)據(jù)作為驗證集來驗證模型的可信程度,通過驗證后,再用到測試集中去取得實際的效果。因此,對數(shù)據(jù)挖掘而言,需要經(jīng)歷規(guī)則學習、規(guī)則驗證、規(guī)則使用的過程[3]。
圖1 一般數(shù)據(jù)訓練模型過程
規(guī)則學習又稱為模型訓練,在這個步驟中有一個數(shù)據(jù)集將作為訓練集,通常會把過去已經(jīng)發(fā)生的數(shù)據(jù)作為訓練集。在對比已知的結果和輸入的變量的過程中,更換模型或者調整模型中的參數(shù),對訓練集達到較高的評價指標后,就得到一個預期的計算規(guī)則。引入驗證集是為了驗證模型的效果和準確度,驗證集和訓練集具有相同的格式。如果有效的話就可以在實際場景中對未來數(shù)據(jù)進行預測,如果效果不理想還可以進一步調整模型。
數(shù)據(jù)挖掘的算法很多,這里根據(jù)一些經(jīng)典算法結合工作生活中的應用案例介紹其原理。
這是針對已知的類別構建出分類的模型,通過分類的模型來探求其他未分類對象的類別。分類的算法很多,如決策樹是一種常見的樹形結構分類模型;貝葉斯算法是一種利用先驗概率統(tǒng)計知識分類未知類別的模型;其他常見算法還包括神經(jīng)網(wǎng)絡分類、K-近鄰分類、支持向量機SVM分類、基于關聯(lián)規(guī)則的分類等?,F(xiàn)實中有很多應用分類算法的實例,如在金融領域,根據(jù)職業(yè)、家庭經(jīng)濟狀況、年齡、資產(chǎn)等特征將貸款人的信用風險劃分為“安全”與“有風險”兩類,就是個二分類問題;在軌道交通管理中,根據(jù)檢修工人對各種故障狀態(tài)的記錄進行標準化和量化處理,利用狀態(tài)數(shù)據(jù)特征對設備故障進行多類別分類,提高設備管理水平。
與分類不同,聚類不需要對原始數(shù)據(jù)進行標記,也就不需要事先進行訓練。聚類按照數(shù)據(jù)的內在結構特征進行聚集形成簇群,從而實現(xiàn)數(shù)據(jù)分離。常見的聚類算法有K-means聚類、均值漂移聚類、基于密度的聚類方法、最大期望聚類、層次聚類等。聚類應用領域廣泛,可用于企業(yè)發(fā)現(xiàn)不同的客戶群體特征、消費行為分析、市場細分、交易數(shù)據(jù)分析等;可用于生物學的動植物種群分類、醫(yī)療疾病診斷、異常點分析等。在鐵路交通旅客管理中,運用聚類算法對不同類別旅客乘車選擇問題進行研究,發(fā)現(xiàn)旅客出行時間、月收入、出行目的與費用對旅客進行聚類,以輔助調整鐵路線路實現(xiàn)不同類別旅客對客運產(chǎn)品選擇的偏好。
關聯(lián)規(guī)則挖掘是在大量數(shù)據(jù)中挖掘數(shù)據(jù)項之間的關聯(lián)關系,對關聯(lián)性的強弱判定依據(jù)置信度和支持度的值。Apriori算法就是經(jīng)典的關聯(lián)分析算法,主要形式為度量頻繁項集和關聯(lián)規(guī)則。關聯(lián)規(guī)則廣泛應用于商務營銷、推薦系統(tǒng)、社會治理等領域。如在交通管理領域,通過對交通事故數(shù)據(jù)做關聯(lián)分析,可以對不同天氣、時間、路段、環(huán)境、基礎設施等要素做關聯(lián)分析,探測其中的規(guī)律,可能發(fā)現(xiàn)“時段”與“追尾”屬于強關聯(lián)規(guī)則,即存在強關聯(lián)。
回歸分析是一種研究自變量和因變量之間關系的預測模型,用于分析當自變量發(fā)生變化時,因變量的變化值。即對原因與結果之間變化關系的分析,由此可以建立回歸方程,用以預測變量的依賴關系。常見的回歸算法有線性回歸、邏輯回歸、多項式回歸、逐步回歸、嶺歸回等。回歸分析可以應用于各類預測分析中,包括銷售盈利分析、氣候預測回歸分析、交通出行人流量回歸分析等。甚至可以根據(jù)回歸分析結果與實際發(fā)生情況進行異常點分析,如利用火災預警系統(tǒng)來預測建筑物火情及分析縱火案。通過將一年內火災案件與當天天氣、建筑物自身因素等資料數(shù)據(jù)化,形成一套火災級別與火災因素的擬合函數(shù),可以形成經(jīng)驗數(shù)據(jù),有效提升火災預警能力。
面對非常復雜、冗余且多變的數(shù)據(jù),有效提取出特征并將其表達出來非常重要。“深度學習”是隨著海量大數(shù)據(jù)樣本與計算處理能力發(fā)展而產(chǎn)生的,允許計算機學習使用特征的同時,也學習如何提取特征。深度學習主要采用的框架是神經(jīng)網(wǎng)絡,如卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡等。學習過程是通過組建含有多個隱層的神經(jīng)網(wǎng)絡模型,對輸入的高維數(shù)據(jù)逐層提取特征,以發(fā)現(xiàn)數(shù)據(jù)的低維嵌套結構,形成更加抽象有效的高層表示,這使得數(shù)據(jù)項與特征、特征映射到結果的過程難以解釋[4]。深度學習廣泛應用于人工智能領域,如人臉識別、語音識別、體態(tài)識別等,這些智能技術也作為信息化基礎設施在各行各業(yè)進行部署應用。
通過數(shù)據(jù)訓練得到一個模型后,如何判斷此模型的效果?這就類似學校對學生用什么指標評估學生素質?是主課的總成績,還是多門課平均成績,還是優(yōu)先看哪門課成績?數(shù)據(jù)模型是否有效,也有很多評價指標,常用的評估指標是查全率和查準率。假設分類中有正負兩種樣本,其中TP是表示正確分類的正樣本數(shù)量,F(xiàn)N表示未被正確分類的正樣本數(shù)量,F(xiàn)P表示被錯誤分類為正樣本的負樣本[5]。
1.查全率(Recall),又叫召回率,即正確分類的正樣本數(shù)量占所有正樣本數(shù)量的比例,計算公式為:
R=TP/(TP+FN)
2.查準率(Precision),又叫準確率,即正確分類的正樣本數(shù)量占所有被模型識別出的正樣本數(shù)量的比例,計算公式為:
P=TP/(TP+FP)
如果一個模型兩個指標值都非常好,即調整條件使查全率和查準率都提高,那無疑是最優(yōu)的情況。但這兩個指標往往是“此消彼長”,像“魚和熊掌”一樣,不能兼得。對于模型效用的評估,查全率、查準率這些只是常見的評估指標,具體偏向哪個指標,很多時候也會根據(jù)場景區(qū)分。例如門禁系統(tǒng)在做身份驗證時,那就追求高查準率;在進行風險預警時,可以根據(jù)需求適當放棄部分查準率,盡量放寬查全率。
大數(shù)據(jù)已經(jīng)成為推動各個行業(yè)工作創(chuàng)新發(fā)展的大引擎,也是新的生產(chǎn)力的增長點。為了更加有效地利用大數(shù)據(jù)資源,理解數(shù)據(jù)建模原理,將模型化思維應用于工作實踐,可以對傳統(tǒng)產(chǎn)業(yè)進行升級,改進原有工作業(yè)務模型。