亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計(jì)算機(jī)邏輯回歸分析

        2020-05-18 10:21:24費(fèi)云利
        關(guān)鍵詞:數(shù)據(jù)挖掘分類模型

        費(fèi)云利

        (炎黃職業(yè)技術(shù)學(xué)院通識(shí)教育中心,江蘇 淮安,223400)

        1 引言

        隨著目前機(jī)器學(xué)習(xí)領(lǐng)域和數(shù)據(jù)挖掘知識(shí)的不斷進(jìn)步與發(fā)展,該領(lǐng)域中的多項(xiàng)技術(shù)被應(yīng)用在信息網(wǎng)絡(luò)、營(yíng)銷銷售、軟硬件操作系統(tǒng)以及生物醫(yī)療等眾多領(lǐng)域中。顧名思義,數(shù)據(jù)挖掘主要基本是基于目前的大數(shù)據(jù)平臺(tái),借助機(jī)器學(xué)習(xí)的專業(yè)知識(shí)與技術(shù)對(duì)錯(cuò)綜復(fù)雜以及龐大的各類數(shù)據(jù)進(jìn)行快速、高效和高級(jí)化處理,并在計(jì)算機(jī)軟件上進(jìn)行一定的分析與探討,最終得出相應(yīng)的結(jié)論[1]。在該過程中,不僅要學(xué)習(xí)和熟悉計(jì)算機(jī)的編程知識(shí)、又要懂得相應(yīng)概率、線性代數(shù)等眾多的數(shù)學(xué)知識(shí),并將其綜合應(yīng)用在實(shí)際的業(yè)務(wù)場(chǎng)景中[2],由此可見,機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘正以高姿態(tài)高標(biāo)準(zhǔn)出現(xiàn)在人們的視野中,并為數(shù)據(jù)分析師們提供著方便快捷的分析與處理數(shù)據(jù)的方法。由于目前數(shù)據(jù)量的增大增多,并且由于數(shù)據(jù)的復(fù)雜度增加,只靠人類大腦是遠(yuǎn)遠(yuǎn)不夠的,因此基于機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用[3-4]。主要原理是計(jì)算機(jī)系統(tǒng)根據(jù)已經(jīng)存在的數(shù)據(jù),運(yùn)用各類數(shù)理統(tǒng)計(jì)算法進(jìn)行快速高效分析,并找到其中的規(guī)律,建立預(yù)測(cè)模型,并通過模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試或?qū)︻A(yù)測(cè)數(shù)據(jù)進(jìn)行結(jié)果預(yù) 測(cè)[5]。本文主要針對(duì)某企業(yè)客戶銷售數(shù)據(jù)對(duì)其進(jìn)行一定的分析與處理,并基于線性邏輯回歸、隨機(jī)森林和XGBoost 三模型進(jìn)行客戶二分類處理,首先對(duì)這三個(gè)模型進(jìn)行了理論算法上的介紹與推導(dǎo),然后基于Python 語(yǔ)言將三類模型應(yīng)用到實(shí)際數(shù)據(jù)中進(jìn)行訓(xùn)練和測(cè)試,根據(jù)預(yù)測(cè)結(jié)論,對(duì)三類模型的優(yōu)劣與不同適用場(chǎng)景進(jìn)行了探討。

        2 邏輯回歸模型Logical Regression

        2.1 算法理論

        邏輯回歸模型本質(zhì)是一種線性回歸模型,但其最大的特點(diǎn)便是在分類輸出結(jié)果時(shí)套用一個(gè)特定的邏輯函數(shù)Sigmoid,使其能夠成為機(jī)器學(xué)習(xí)分類中一個(gè)重要的模型[6],如圖1 所示。

        圖1 Sigmoid 函數(shù)

        邏輯回歸模型(LR)主要被用在二分類問題中,該模型能夠?qū)⒖臻g的集合映射為一種二分類的可能性(也即概率),即輸出變量最終為定性變量{0 或1}。設(shè)存在一個(gè)二分類問題,輸出為y,并且有一個(gè)線性回歸模型z=wTx+b的輸出是一個(gè)實(shí)數(shù)值,而這個(gè)實(shí)數(shù)是無(wú)法完成二分類的,這時(shí)就需要有一個(gè)Sigmoid 函數(shù)將z 值轉(zhuǎn)化為{0 或1},Sigmoid 函數(shù)如下所示:

        由于Sigmoid 函數(shù)的取值范圍在0 到1 之間,因此當(dāng)輸入變量x 在之間時(shí),該函數(shù)計(jì)算的結(jié)果都能映射在0 到1 范圍內(nèi),因此可以認(rèn)為到目前為止,輸出結(jié)果是一個(gè)二分類概率,可以通過公式(2)定性的變?yōu)? 或1。

        將上述公式(1)代入公式(2)即可得到定性二分類結(jié)果。

        2.2 邏輯回歸模型優(yōu)缺點(diǎn)

        邏輯回歸模型是在線性回歸的基礎(chǔ)上套用一個(gè)Sigmoid 函數(shù)直接實(shí)現(xiàn)的,能夠廣泛應(yīng)用在各類工業(yè)問題上,并且實(shí)現(xiàn)速度快,最適合二分類問題預(yù)測(cè)[7]。其次對(duì)于該模型而言,理論算法中的多重共線性并不是太大問題,因?yàn)樗惴ㄖ兄苯涌梢岳谜齽t化解決該問題。

        該模型的缺點(diǎn)也有很多,例如對(duì)大數(shù)據(jù)量和復(fù)雜的場(chǎng)景有限制性的適應(yīng)能力,不如其他高級(jí)算法適應(yīng)性強(qiáng)。當(dāng)數(shù)據(jù)量或變量字段增大到一定程度時(shí),該模型運(yùn)行性能比較緩慢,影響計(jì)算機(jī)運(yùn)行速度。由于模型比較簡(jiǎn)化,所以在處理比較復(fù)雜的問題時(shí),準(zhǔn)確度不是很高[8]。目前該算法模型只能處理兩分類問題并且需要數(shù)據(jù)集合線性可分,因此要求自變量和因變量存在一定的線性關(guān)系才能使得模型最終效果比較好。

        2.3 邏輯回歸模型的訓(xùn)練與測(cè)試

        基于上述理論基礎(chǔ),并利用某公司的營(yíng)銷客戶數(shù)據(jù),這些數(shù)據(jù)包含了客戶的基礎(chǔ)信息(例如年齡、性別、地域等)和行為信息(例如還款信用卡情況、瀏覽特定網(wǎng)頁(yè)數(shù)量以及購(gòu)買存款產(chǎn)品的情況等),部分?jǐn)?shù)據(jù)如圖2 所示。

        圖2 營(yíng)銷客戶數(shù)據(jù)部分截圖

        針對(duì)營(yíng)銷客戶數(shù)據(jù),應(yīng)用邏輯回歸模型并基于Python 語(yǔ)言對(duì)模型進(jìn)行訓(xùn)練得到模型對(duì)象classifier_LogisticRegression,其中訓(xùn)練集數(shù)據(jù)占總數(shù)據(jù)量80%,測(cè)試集占總數(shù)據(jù)量的20%。然后利用classifier_LogisticRegression 對(duì)象對(duì)測(cè)試集數(shù)據(jù)進(jìn)行相應(yīng)的測(cè)試,得到最終測(cè)試結(jié)果,在測(cè)試結(jié)果中主要利用三種方法來(lái)判別模型的好壞,主要包括混淆矩陣、模型準(zhǔn)確分和ROC-AUC 曲線。

        (1)混淆矩陣

        在機(jī)器學(xué)習(xí)的各類模型中,第一個(gè)廣泛應(yīng)用于評(píng)價(jià)模型好壞的指標(biāo)就是混淆矩陣(Confusion Matrix),通常也被稱為錯(cuò)誤矩陣[9]。概念如下:

        ?

        根據(jù)上述概念,我們構(gòu)建出二分類經(jīng)典混淆矩陣,如下所示:

        ?

        上表中TP、TN、FP、FN 代表真實(shí)值預(yù)測(cè)成的數(shù)量。由此可得出幾個(gè)重要性指標(biāo):分類模型的準(zhǔn)確分:

        預(yù)測(cè)為陽(yáng)值的準(zhǔn)確率:

        模型敏感度(Sensitivity 或TPR):

        Fall-out 率,也被稱為FPR:

        對(duì)于多分類(N 分類)問題,相應(yīng)的混淆矩陣變?yōu)镹*N 的矩陣。對(duì)于混淆矩陣,優(yōu)點(diǎn)是直觀簡(jiǎn)介,并且二維可見,但其最大的缺點(diǎn)就是有可能存在準(zhǔn)確性陷阱(Accuracy Paradox)[10]。

        (2)模型準(zhǔn)確分

        混淆矩陣最大的缺點(diǎn)就是可能存在準(zhǔn)確性陷阱(Accuracy Paradox),即如果將所有的真實(shí)值簡(jiǎn)單地預(yù)測(cè)為某一類,反而會(huì)提高模型的準(zhǔn)確性。為了解決這個(gè)問題,我們引入了模型準(zhǔn)確分的概念,模型的準(zhǔn)確分混即真實(shí)值預(yù)測(cè)后與原真實(shí)值一致的個(gè)數(shù)除以總樣本個(gè)數(shù)。模型的準(zhǔn)確性分?jǐn)?shù)計(jì)算方法如下:

        (3)ROC-AUC 曲線

        首先根據(jù)混淆矩陣可以計(jì)算出TRP 和FPR,見式(5)和(6)。ROC 曲線是從原點(diǎn)出發(fā),即當(dāng)原真實(shí)值為1,被預(yù)測(cè)成1,則從原點(diǎn)向上移動(dòng)一步;而當(dāng)原真實(shí)值為0,被預(yù)測(cè)成1,則向右移動(dòng)一步。

        圖3 理論ROC-AUC 曲線

        當(dāng)數(shù)據(jù)量很大時(shí),則圖像上則顯示出一條遞增的平滑曲線,如圖4 所示。

        圖4 實(shí)際ROC-AUC 曲線

        ROC 曲線具有很多優(yōu)點(diǎn),例如當(dāng)測(cè)試集中的各類樣本發(fā)生一定分布上的變化時(shí),該曲線能夠基本保持不變。因此對(duì)于數(shù)據(jù)集合中正負(fù)樣本不平衡時(shí),ROC 曲線能夠顯示出良好的特性。

        根據(jù)混淆矩陣、模型準(zhǔn)確分和ROC-AUC 曲線,應(yīng)用邏輯回歸模型對(duì)測(cè)試集進(jìn)行測(cè)試,分別得出該模型的三個(gè)評(píng)判準(zhǔn)則的結(jié)果:

        式(8)給出了邏輯回歸模型的混淆矩陣結(jié)果,從上述結(jié)果可以看出,TP=2580,TN=5,F(xiàn)P=227,F(xiàn)N=6,因此從總體結(jié)果可以看出模型效果比較好;模型的準(zhǔn)確分如式(9)所示:

        邏輯回歸模型的ROC-AUC 曲線如圖5 所示:

        圖5 顯示的曲線效果比較好,遠(yuǎn)大于圖中的直線,并且可以計(jì)算出曲線與橫坐標(biāo)圍城的面積等于0.80018,這個(gè)值說(shuō)明該模型比較好,所以可用于實(shí)際數(shù)據(jù)的二分類[11-12]。

        圖5 邏輯回歸模型ROC-AUC 曲線

        3 結(jié)語(yǔ)

        本文首先探討了機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘在當(dāng)今社會(huì)中各個(gè)領(lǐng)域的應(yīng)用,并對(duì)線性邏輯回歸模型進(jìn)行了算法介紹,提出了評(píng)價(jià)邏輯回歸模型的三種方法:混淆矩陣、模型準(zhǔn)確分和ROC-AUC 曲線[13-15]。在此基礎(chǔ)上上,應(yīng)用某公司的實(shí)際營(yíng)銷客戶數(shù)據(jù)對(duì)邏輯回歸模型進(jìn)行了訓(xùn)練,并用測(cè)試集數(shù)據(jù)對(duì)該模型進(jìn)行了有效的測(cè)試,得到良好的混淆矩陣,模型準(zhǔn)確分等于0.92,以及最后的AUC值等于0.80018,從這三個(gè)評(píng)判標(biāo)準(zhǔn)可以觀察出,模型的效果是比較好的,能夠被應(yīng)用在實(shí)際業(yè)務(wù)當(dāng)中,為決策者提供有效的幫助。

        猜你喜歡
        數(shù)據(jù)挖掘分類模型
        一半模型
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        3D打印中的模型分割與打包
        国产亚洲精品成人无码精品网站 | 精品精品国产高清a毛片| 人妻中文无码久热丝袜| 最新亚洲人成网站在线| 亚洲二区三区四区太九| 日本一二三四高清在线| 亚洲中字慕日产2020| 99久久精品自在自看国产| 日本女优一区二区在线免费观看| 日本中文字幕精品久久| 久久天天躁狠狠躁夜夜不卡| 粗了大了 整进去好爽视频| 69堂在线无码视频2020| 护士人妻hd中文字幕| 乱子伦在线观看| 亚洲人免费| 中文字幕亚洲日本va| 国产精品成人亚洲一区| 麻豆精品久久久久久久99蜜桃 | 加勒比黑人在线| 暴露的熟女好爽好爽好爽| 欧美激情肉欲高潮视频| 玩两个丰满老熟女| 亚洲无码美韩综合| 在线精品首页中文字幕亚洲 | 国产成人av无码精品| 夜夜欢性恔免费视频| 97精品国产高清自在线看超 | 四虎影视在线影院在线观看| 国产精品视频免费的| 国产精品麻豆一区二区三区 | 日韩精品人妻系列中文字幕| 99热爱久久99热爱九九热爱| 九九99久久精品在免费线18| 日日噜噜夜夜久久密挑| 麻豆精品导航| 色婷婷综合中文久久一本| 国产在线高清无码不卡| 亚洲国产天堂久久综合网| 国产午夜福利片在线观看| 精品国产综合区久久久久久|