亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機器學習常見算法在建模中的對比

        2018-11-08 02:32:30程靖澤
        電子制作 2018年20期
        關(guān)鍵詞:特征選擇降維協(xié)方差

        程靖澤

        (西安市鐵一中學,陜西西安,710000)

        0 引言

        機器學習是一門讓計算機從部分數(shù)據(jù)中累積經(jīng)驗,在非編程條件下可以自主采取行動的學科。近年來,機器學習在預測、分類等方向應(yīng)用的越發(fā)成熟,如垃圾郵件分類、價格行情預測等,極大推進了人工智能的發(fā)展。

        機器學習基于不同的規(guī)則進行劃分,比如基于目標值的有無分為:監(jiān)督學習、無監(jiān)督學習。其中針對監(jiān)督學習,基于目標值是連續(xù)或離散劃分為回歸算法、分類算法;基于學習方式和預測方式的不同,可劃分為生成模型、判別模型。

        本文主要概述機器學習中常見的基本算法如線性回歸、邏輯回歸等基本概念、應(yīng)用及優(yōu)、劣勢對比。在概述這些算法時,首先基于監(jiān)督學習、非監(jiān)督學習,對常見的機器學習方法進行劃分,然后針對監(jiān)督學習算法,再根據(jù)判別、生成進行劃分。

        其次,結(jié)合實際預測,展示了數(shù)學建模的流程,對其中的數(shù)據(jù)清洗、特征工程、模型對比等進行簡要分析和總結(jié)。

        1 常見機器學習算法

        機器學習算法根據(jù)目標值有無,可分為監(jiān)督學習、非監(jiān)督學習。其中監(jiān)督學習可理解為,訓練數(shù)據(jù)中有目標值作為監(jiān)督,可以判定類別或目標因變量的數(shù)值。因而監(jiān)督學習包含了大多數(shù)機器學習算法,如線性回歸算法、LR、SVM等。

        監(jiān)督學習算法的模型為 ()Y=fX ,或者是條件概率形式的概率分布函數(shù) F(x )=P(y | x )。判別模型可以直接計算出決策函數(shù) Y=f(X )或概率分布,而生成模型則是基于貝葉斯定理,由聯(lián)合概率分布 P(X ,y)推導出條件分布的一類模型。

        判別模型主要包括了線性回歸算法、SVM、LR等多數(shù)算法,生成模型主要包括混合高斯模型、樸素貝葉斯、隱馬爾可夫模型等。

        ■1.1 線性回歸

        線性回歸作為最基本的機器學習回歸算法,可分類為一元線性回歸和多元線性回歸,以二元線性回歸為例,它的基本形式為

        式中,x為特征屬性,θ為模型參數(shù), hθ(x)為模型。模型的學習目標函數(shù)是平方損失

        式中,y(i)為第i個樣本的目標值, y'(i)為第i個樣本預測值,m為樣本數(shù)量。模型通過使loss最小化,來擬合出符合訓練樣本真實分布函數(shù)的最佳預測曲線,從而得出參數(shù)θ、映射特征和目標的關(guān)系式 hθ(x)。損失函數(shù)可通過梯度下降進行優(yōu)化,不斷迭代,從而計算出各個特征的權(quán)重θ。

        ■1.2 LR及softmax回歸

        LR對線性回歸進行整改,因為線性回歸y值區(qū)間通常是(- ∞,+∞),LR通過sigmoid函數(shù)將y值進行壓縮映射。

        上式為sigmoid函數(shù)形式。事實上這樣得到的z值,物理意義上更像概率形式。設(shè)定閾值如ε,則二分類預測值y′如下:

        由于非線性映射,若目標函數(shù)使用平方損失,則目標函數(shù)就會成為非凸函數(shù),無法通過梯度下降取得全局最優(yōu)。因而LR使用對數(shù)損失

        這時的損失函數(shù)仍是凸函數(shù),對于m個樣本,整體的損失函數(shù)如下

        神經(jīng)網(wǎng)絡(luò)里也有這種映射機制。類比這里的sigmoid函數(shù)(激活函數(shù),神經(jīng)激活函數(shù)通常有sigmoid函數(shù)、tanh、Relu等)對上一層輸入進行加工并輸出。

        而softmax回歸,是對LR的擴充,實現(xiàn)了多分類問題的分類方法。它的損

        失函數(shù)也是相應(yīng)的擴充。假設(shè)n為類別數(shù)目,則輸出形式則是一個n維的向量,預測的類別是輸出向量中概率值最大的位置所對應(yīng)的類別。

        ■1.3 SVM

        SVM的目標是尋找超平面,將數(shù)據(jù)劃分開。算法的關(guān)鍵在于如何確定超平面。

        由于參數(shù)同比例放縮時,函數(shù)間隔相同,而幾何間隔克服了這個缺點。因而SVM的目標函數(shù)是,幾何間隔最大化,即幾何間隔越大,分類確信度越高。

        此外,與LR相比,SVM的優(yōu)勢在于,可以處理非線性數(shù)據(jù),可以根據(jù)需要尋找合適的核函數(shù)(如果特征過多,可進行降維、特征選擇,使用非線性核函數(shù),更高維度),且對于缺失數(shù)據(jù)不敏感。

        2 機器學習建模流程

        本文主要介紹其中的數(shù)據(jù)清洗、特征工程、特征的歸一化與標準化等內(nèi)容。以預測房價為例,房價的影響因素有面積、地理位置、樓層、布局等多個。為了可視化效果,取其中2個作為特征。待預測的房價為y(單位為萬元), 特征分別取sqft_living為x1、sqft_lot15為x2(由于涉及歸一化,無單位)。整個流程分為數(shù)據(jù)清洗、特征工程、模型效果等。

        ■2.1 數(shù)據(jù)清洗

        數(shù)據(jù)清洗主要是對原始數(shù)據(jù)進行一系列預處理,需要針對不同問題進行不同處理。如果數(shù)據(jù)維度高,則需要進行特征選擇或降維,因為維度過高會帶來維度災(zāi)難、過擬合等問題。

        如果數(shù)據(jù)重復冗余,需要去重;數(shù)據(jù)缺失、或某些樣本特征缺失,應(yīng)根據(jù)需要,剔除樣本,或者基于樣本整體中該特征的分布,進行填充,或插值、擬合。插值方式有Lagrange插值或Newton插值法。擬合方式通?;谔卣鏖g的相關(guān)性建模,如回歸擬合,建立該特征與其它特征的模型,預測特征缺失位置的數(shù)值。

        ■2.2 特征標準化與歸一化

        數(shù)據(jù)由于特征單位量綱的不同,取值量級可能存在著巨大的差異,需要通過標準化,或歸一化進行處理,消除量綱。

        標準化的前提是,假設(shè)數(shù)據(jù)符合正態(tài)分布,通過標準化處理使數(shù)據(jù)的分布為

        均值為0,方差為1的標準正態(tài)分布。歸一化,是為了消除由于單位不同導致不同特征之間數(shù)值差異巨大帶來的不公平,壓縮特征取值范圍。最常見的歸一化方式有線性轉(zhuǎn)換、對數(shù)轉(zhuǎn)換等,如最小最大歸一化:

        圖1 未歸一化

        如圖1和圖2,未歸一化和歸一化的前后對比,數(shù)值取值范圍差異巨大。

        圖2 歸一化后

        ■2.3 特征工程

        特征工程主要是對數(shù)據(jù)的特征進行分析、選擇、映射等系列操作。其目的在于提升訓練速度、模型準確度以及減少內(nèi)存占用等。本文主要概述其中的特征選擇和特征降維。

        特征選擇是指通過分析特征與特征之間的相關(guān)性、或特征與目標值之間的依賴關(guān)系,選擇保留部分特征、剔除另一部分特征(如多個特征之間相關(guān)性很強,則只需要保留其中一個最重要的特征即可)。特征降維,主要運用協(xié)方差、特征值、特征向量等方式將數(shù)據(jù)從高維度上映射到低維度的空間,保留主要成分,丟棄噪聲信息。

        常見的特征選擇方法有Pearson相關(guān)系數(shù)、卡方檢驗、互信息等方法。常見的特征降維方法有主成分分析(Principal Component Analysis, PCA)、線性判別分析(Linear Discriminant Analysis, LDA)等。

        2.3.1 特征選擇

        由于特征間存在依賴關(guān)系,或者特征對目標的貢獻、影響不同,所以需要對特征進行篩選。其目的在于,剔除對目標值不重要的特征,以及只保留對目標值同等重要的多個相關(guān)特征中的一個。

        特征選擇的方法有:對于離線的分類問題可以選擇互信息,卡方檢驗(卡方值越高,拒絕概率越高,相關(guān)性越強);對于回歸問題可采用皮爾森相關(guān)系數(shù),F(xiàn)檢驗,穩(wěn)定性選擇,交叉驗證等?;舅枷胧怯嬎闾卣髋c目標之間的相互依賴,對特征的重要性進行排序。

        2.3.2 特征降維

        本文主要概述PCA降維,其中涉及到標準差、協(xié)方差等概念及原理。

        標準差,反映變量相對中心的分布情況。協(xié)方差,反映兩變量在變化過程中,是同向變化,還是反向變化,程度如何。Pearson相關(guān)系數(shù),消除了量綱對協(xié)方差的影響,從而能達到如下效果—剔除變量的量綱、標準中的特殊協(xié)方差;反映兩變量變化的同向、反向。

        圖3 PCA投影

        PCA衡量數(shù)據(jù)重要性的主要依據(jù)是,投影方向上數(shù)據(jù)方差的大小,方差越大,越重要。因而將高維特征映射到較低維度,主要先對矩陣進行標準化,再求解協(xié)方差矩陣的特征值和特征向量。然后根據(jù)需要,選擇協(xié)方差矩陣特征值最大的幾個,達到去噪聲,保留主要特征的效果。

        2.3.3 特征降維與特征選擇區(qū)別

        PCA成立的假設(shè)前提是數(shù)據(jù)應(yīng)該滿足正交分布并且是高信噪比的,這符合多變量獨立同分布的中心極限定理,整體服從正態(tài)分布。

        PCA通過協(xié)方差矩陣的特征值和特征向量,旋轉(zhuǎn)坐標得到主成分。所以如果輸入數(shù)據(jù)不是高斯分布,特征值和特征向量就不能代表數(shù)據(jù)的特征,這樣PCA也就失去了它的意義。

        特征選擇則是基于特征之間、或特征與目標之間的依賴關(guān)系,減少特征數(shù);而PCA將高維的數(shù)據(jù)映射到較低的維度空間上,去掉的維度是噪聲。

        圖4 SVM、LR等模型對比

        3 模型效果對比

        對于分類問題,可用準確率(accuracy)、精確率(precision)、召回率(recall)等衡量。對于回歸問題,可用均方誤差(Mean Squared Error, MSE)、平均絕對誤差(Mean Absolute Error, MAE)等衡量。

        MSE可以衡量預測值與真實值的變化程度,MSE的值越小,說明兩者更接近,它的計算方式如下:

        MAE反映了真實值與預測值的整體殘差大小,它的計算方式如下:

        表1可知,線性回歸的MSE值顯著小于兩種SVM的MSE值,線性回歸的MAE值也顯著小于兩種SVM的MAE值。說明在房價預測案例中,線性回歸準確度稍好于SVM。

        表1 MSE、MAE對比

        模型預測的時間性能對比上,線性回歸顯著快于SVM。因為SVM進行分類或者回歸時,需要進行核函數(shù)的核卷積映射,而且核卷積是樣本間兩兩做卷積,所以時間效率低。

        因此,如果特征數(shù)量相比樣本量很大,選用線性回歸、無核的SVM或線性核的SVM。如果特征的數(shù)量比較小,樣本數(shù)量一般,再考慮選用rbf核或高斯核的SVM。

        4 總結(jié)與展望

        本文首先概括了常用機器學習算法如線性回歸,LR,SVM等,闡釋相應(yīng)算法的基本原理。然后結(jié)合分類預測實驗,對機器學習算法實際建模流程,如特征工程、特征選擇、模型選擇等進行展示說明。由于時間和學識有限,關(guān)于機器學習算法如KNN、各聚類算法,以及集成算法均沒有研究。其中集成算法結(jié)合了多種算法的優(yōu)勢,是目前應(yīng)用的熱門方向。

        猜你喜歡
        特征選擇降維協(xié)方差
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預報器
        自動化學報(2016年8期)2016-04-16 03:38:55
        聯(lián)合互信息水下目標特征選擇算法
        一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
        拋物化Navier-Stokes方程的降維仿真模型
        計算物理(2014年1期)2014-03-11 17:00:18
        基于特征聯(lián)合和偏最小二乘降維的手勢識別
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        計算機工程(2014年6期)2014-02-28 01:26:36
        一区视频在线观看免费播放.| 蜜桃视频无码区在线观看 | 亚洲国产一区二区精品| 射进去av一区二区三区| 亚无码乱人伦一区二区| 亚洲精品92内射| 狠狠久久亚洲欧美专区| 免费精品美女久久久久久久久久| 国产精品自拍首页在线观看| 国产人妖在线视频网站| 99在线精品视频在线观看| 欧美粗大猛烈老熟妇| 99久久综合狠狠综合久久| 97无码人妻一区二区三区蜜臀| 日韩色久悠悠婷婷综合| 国产剧情一区二区三区在线| 亚洲日韩国产av无码无码精品| 精产国品一二三产品蜜桃| 亚洲熟妇AV一区二区三区宅男| 国产精品自拍首页在线观看| 久久精品熟女亚洲av麻豆永永| 国产人妻熟女高跟丝袜图片| 成人区人妻精品一区二区不卡网站 | 亚洲av无码国产精品草莓在线| 精品推荐国产精品店| 日本韩国黄色三级三级| 国产精品高清视亚洲乱码| 无码人妻精品一区二区三区夜夜嗨| 午夜成人鲁丝片午夜精品| AV无码最在线播放| 亚洲妇女av一区二区| 白白在线视频免费观看嘛| 国产高清在线精品一区二区三区 | 国产av精品一区二区三| 色综合视频一区中文字幕| 久久无码人妻一区=区三区| 激情偷拍视频一区二区| 少妇激情一区二区三区99| 国产放荡对白视频在线观看| 欧美国产日产一区二区| 国产乱老熟视频乱老熟女1|