亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹算法對泰坦尼克號數(shù)據(jù)的預(yù)測

        2020-10-09 10:24:29袁馨段華瓊
        電腦知識與技術(shù) 2020年22期
        關(guān)鍵詞:大數(shù)據(jù)

        袁馨 段華瓊

        摘要:隨著互聯(lián)網(wǎng)的興起,二十一世紀(jì)已經(jīng)是一個信息時代,也可以稱為大數(shù)據(jù)時代,數(shù)據(jù)早已滲透到當(dāng)今的每一個行業(yè),成為重要的生產(chǎn)因素。大數(shù)據(jù)技術(shù)應(yīng)用的領(lǐng)域越來越多,幫助企業(yè)不斷地發(fā)展新業(yè)務(wù),創(chuàng)造新的運營模式,例如電子商務(wù),物流配送等。該文詳細(xì)闡述了一個基于決策樹算法的數(shù)據(jù)分析挖掘過程,以泰坦尼克號數(shù)據(jù)為例,通過對數(shù)據(jù)的分析與挖掘來實現(xiàn)預(yù)測功能。

        關(guān)鍵詞:決策樹算法;大數(shù)據(jù);預(yù)測

        中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2020)22-0185-02

        開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

        大數(shù)據(jù)的出現(xiàn),涌現(xiàn)出許多新的分析與挖掘算法,統(tǒng)稱為大數(shù)據(jù)技術(shù)。越來越多的企業(yè)運用大數(shù)據(jù)技術(shù)對數(shù)據(jù)進(jìn)行深層次的分析,從而決定企業(yè)的運營模式。例如超市的捆綁銷售,流失客戶的風(fēng)險預(yù)測等。本文主要通過各類屬性的提取、處理,探究影響泰坦尼克號乘客存活率的因素,最后對測試集的數(shù)據(jù)做存活率預(yù)測。

        1 決策樹算法簡介

        1.1算法思想

        決策樹算法屬于機(jī)器學(xué)習(xí)的一種,是一種基本的分類與回歸方法,本文主要討論分類的決策樹。該算法能從給定的無序訓(xùn)練樣本中,提煉出像樹一樣的分類模型。樹中的每個非葉子節(jié)點記錄了使用哪個特征來進(jìn)行類別判斷,每個葉子節(jié)點則代表了最后判斷的類別。從根節(jié)點開始,數(shù)據(jù)在信息增益最大的特征上產(chǎn)生分裂,在迭代過程中,分裂過程在每個子節(jié)點重復(fù)進(jìn)行,直到所有的葉子為純性,即每一個節(jié)點的數(shù)據(jù)屬于同一類。這也是做預(yù)測的方法,通過對特征的提取,建立模型,然后對測試的數(shù)據(jù)做分類。決策樹可以分成三個算法:ID3算法、C4.5算法和CART算法。這三個算法都比較常見,在選擇屬性的時候采用不同的方式來判斷。

        1.2算法特點

        相對于其他機(jī)器學(xué)習(xí)算法來說,決策樹算法相對簡單,計算復(fù)雜度不高,且易于理解和實現(xiàn)。人們在學(xué)習(xí)和使用的過程中,不需要了解太多的背景知識。它能直接體現(xiàn)數(shù)據(jù)的特點,生成的樹通過解釋后都能很好地理解它的含義。對于決策樹的數(shù)據(jù)準(zhǔn)備,也相對簡單,它能夠同時處理數(shù)據(jù)型和常規(guī)性的屬性值,對數(shù)據(jù)中間值的缺失不太敏感,可以處理不相關(guān)特征數(shù)據(jù)的特點。

        13決策樹算法的預(yù)測步驟

        ①收集數(shù)據(jù):收集數(shù)據(jù)可以采用很多方法,無論是自己收集,還是使用網(wǎng)上現(xiàn)成的數(shù)據(jù)集,這都是需要準(zhǔn)備的基礎(chǔ)步驟之—一。

        ②分析數(shù)據(jù):一個數(shù)據(jù)集會有很多屬性,對于預(yù)測的內(nèi)容來說,并不是所有列的值都跟預(yù)測內(nèi)容有關(guān),所以對于每一列數(shù)據(jù)需要逐個去分析它與預(yù)測內(nèi)容的關(guān)系,在后續(xù)的屬性提取時,僅僅提取與預(yù)測內(nèi)容有關(guān)聯(lián)性的列。

        ③處理數(shù)據(jù):提取數(shù)據(jù)之后,需要對數(shù)據(jù)進(jìn)行一個預(yù)處理,看數(shù)據(jù)是否有缺失值或異常值,是否需要刪除某些數(shù)據(jù)。然后還需要對每一列屬性值的類型進(jìn)行分析判斷,如果存在數(shù)據(jù)類型不合適的情況,就需要對屬性值類型進(jìn)行轉(zhuǎn)換。對提取的數(shù)據(jù)進(jìn)行清洗后,后續(xù)才能直接在算法中使用。這一過程雖然是對數(shù)據(jù)的處理,但也是非常重要的一步。

        ④訓(xùn)練算法:這個過程包括決策樹模型的構(gòu)建,然后使用訓(xùn)練數(shù)據(jù)對該決策樹模型進(jìn)行訓(xùn)練,得出一個準(zhǔn)確率。

        ⑤測試算法:光有訓(xùn)練數(shù)據(jù)的準(zhǔn)確率不能說明該模型是否好,還需要測試集的準(zhǔn)確率來判斷,當(dāng)錯誤率達(dá)到可以接受的范圍,那么這個模型就可以投入使用了。

        ⑥預(yù)測:用模型對測試數(shù)據(jù)做一個預(yù)測,輸出最后的預(yù)測結(jié)果。

        2 泰坦尼克號數(shù)據(jù)集簡介

        1912年4月15日,泰坦尼克號在首次航行的過程中,撞上了冰山然后輪船沉沒,2224名乘客和工作人員中有1502人死亡。死亡原因之一是沒有足夠的救生艇給乘客和工作人員。對于幸存下來的人,有一部分是因為運氣,但還有一些人的存活概率本身就比其他人更大,比如婦女、兒童和上層人士。通過對這些數(shù)據(jù)進(jìn)行分析與挖掘,找出影響存活率的因素。

        泰坦尼克號數(shù)據(jù)集分為兩部分:測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)樣本總數(shù)目是891,測試數(shù)據(jù)樣本總數(shù)目是418。兩部分?jǐn)?shù)據(jù)的屬性列一樣,一共11個屬性,具體包括:Passengerld(乘客Id);Survived(存活率:0代表N死亡,1代表存活);Pclass:(社會地位:1最高,3最低);Name(乘客姓名);Sex(性別);Age(年齡);SibSp(堂/兄妹個數(shù));Parch(父母孩子個數(shù));Ticket(船票信息);Fare(票價);Cabin(船艙);Embarked(登船港口:C=Cherbourg, Q=Queenstown, S=Southampton)

        3 數(shù)據(jù)分析與挖掘

        3.1數(shù)據(jù)分析

        a.從訓(xùn)練數(shù)據(jù)中提取Pclass和Survived這兩列數(shù)據(jù),然后用groupby對Pclass做分組,計算每組平均值并排序,最后得出的結(jié)論是地位越高的人存活率越高,說明Pclass跟存活率有關(guān)聯(lián)性,后續(xù)需要提取這個屬性,主要代碼如下:

        print(train_df[[7 Pclass,Survived,】】.groupby([,Pclass'D.mean0Vsort_values(by='Survived 7))

        b.從訓(xùn)練數(shù)據(jù)中提取Sex和Survived這兩列數(shù)據(jù),然后用groupby對Pclass分組,計算每組平均值并排序,最后得出的結(jié)論是女性的存活率更高,所以后續(xù)也需要提取Sex屬性,主要代碼如下:

        print(train_df[[7 Sex, 'Survived,】].groupby(L'Sex'D. meanOVsort_values(by=Survived 7))

        c.從訓(xùn)練數(shù)據(jù)中提取SibSp,parch和survived,根據(jù)SibSp,parch來分組,求均值,排序,方法與上面的屬性相同,最后得出的結(jié)論是這兩個屬性的存活率差別不大,說明這兩個屬性對存活率影響不大,后續(xù)過程中放棄這兩個屬性的提取。

        d.從訓(xùn)練數(shù)據(jù)中提age和Survived這兩列數(shù)據(jù),使用Facet-Grid對這兩個屬性做可視化,參數(shù)為訓(xùn)練數(shù)據(jù)集和Survived列,然后通過調(diào)用FacetGrid.map0函數(shù)將繪圖函數(shù)應(yīng)用于每個子集。最后得出的結(jié)論是嬰兒存活率較高,年齡在15-25歲之間的人大部分都死亡了,說明年齡對存活率的影響較大,后續(xù)也需要提取age屬性,主要代碼如下:

        1= sns.FacetGrid(train_df,col= 'Survived 7)

        print(l.map(plt.hist,7 Age 7 ,bins=20》

        e.提取Embarked、Sex和Pclass,觀察它們與存活率的關(guān)系,最后得出的結(jié)論是Embarked=C的男性存活率更高,后續(xù)也需要提取Embarked屬性,主要代碼如下:

        grid. map(sns. pointplot,,Pclass,,,Survived',,Sex', palette='deep,Yhue_order=[”female”,”male”】)

        f.提取Fare和Survive,最后得出的結(jié)論是票價高的成員的生存率更高,后續(xù)也需要提取Fare屬性,主要代碼如下:

        s. FacetGrid(train_df, row= 'Fare 7, col= 'Survived 7, size=2.0, as-pect=1.6)

        把所有的屬性列一一提取出來,觀察它們與存活率是否有關(guān)聯(lián),通過上文中對每一屬性的具體分析,選出影響存活率的5個屬性,分別是:Pclass,Sex,age,F(xiàn)are,Embarked。

        3.2 處理數(shù)據(jù)

        選擇好需要提取的屬性后,查看對應(yīng)的數(shù)據(jù)時發(fā)現(xiàn)有的數(shù)據(jù)有缺失或空值的情況,還發(fā)現(xiàn)有些屬性的數(shù)據(jù)是字符的形式,所以需要先對這些數(shù)據(jù)作處理后才可以應(yīng)用。

        對于不需要的屬性,直接使drop刪除,參數(shù)axis=1表示刪除該列。因為該數(shù)據(jù)集分成訓(xùn)練集和測試集,所以分開刪除,不需要的屬性列有Cabin,Ticket,Sibsp,Parch,Name,Passen-gerID。刪除Ticket的代碼如下,其余屬性的刪除及代碼方法與Ticket相同。

        train_df= train_df.drop([,Ticket,,7 Cabin 7】,axis=l)

        test_df= test_df.drop([,Ticket',7Cabin,],axis=l)

        性別屬性的數(shù)據(jù)使用英文male/female表示男女,所以需要轉(zhuǎn)換Sex為數(shù)字類型,將female替換為1,male替換為0。將測試集和訓(xùn)練集合并在一起,只需要做一次替換即可,主要代碼如下:

        Data_total= [train_df,test_dfl

        for dataset in Data_total:

        dataset[,Sex 7】=dataset[,Sex7].map({,female':1,,male 7:0】).as—type(int)

        age屬性的數(shù)據(jù)存在缺失值,選擇它的中位數(shù)df.median0進(jìn)行填充。

        Embarke屬性也存在缺失值,采用眾數(shù)進(jìn)行填充,先用mode把眾數(shù)提取出來,存放在EA變量中,然后再進(jìn)行填充。并且由于它的數(shù)據(jù)類型為字符,用map把它轉(zhuǎn)化為對應(yīng)的數(shù)字,主要代碼如下:

        EA=train_df.Embarked.dropnaO.mode0[0]

        for dataset in Data_total: dataset[,Embarked,】=datasetrEm_barked'].fillna(EA)= dataset[,Embarked'].map({7S7:0,7C 7:1,7Q:2D.astype(int)

        Fare屬性也存在缺失值,直接用fllna進(jìn)行填充,參數(shù)為test_dfT,F(xiàn)are,l.median0。還需要轉(zhuǎn)換Fare為數(shù)值類型。由于Fare的數(shù)據(jù)值有很多種,如果對每一種進(jìn)行單獨轉(zhuǎn)化,這樣工作量會很大,所以采用分段的方式來處理數(shù)據(jù),主要代碼如下:

        for dataset in Data_total:

        dataset.loc [dataset[7 Fare】<=8,F(xiàn)are']=0

        dataset. loc[(dataset[7 Fare 7] >8)&(dataset[Fare】<=15),'Fare,]=1

        dataset.loc[(dataset[,F(xiàn)are 7】>15)&(dataset【,F(xiàn)are']<=31),'Fare']=2

        dataset.loc[dataset[Fare】>31,F(xiàn)are']=3

        dataset[7 Fare 7】_dataset[,F(xiàn)are,].astype(int)

        3.3 訓(xùn)練測試算法

        當(dāng)數(shù)據(jù)屬性分析處理完畢之后,數(shù)據(jù)部分就告一段落,接下來是決策樹算法處理。首先引入決策樹模型,這里的參數(shù)沒有具體指明,然后利用cross_vaLscore對它做一個交叉驗證,cv=10,最后打印出訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率均為0.88左右。這個數(shù)字在可接受范圍之類,所以這個模型可以直接使用,部分代碼如下:

        models=[(7 DecisionTree 7 ,DecisionTreeClassifier 0)]

        for clf_name,clf in models:

        rfc_s=cross_val_score(clf,X,y,cv=10)

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        无码人妻精品一区二区三区9厂| 99热久久只有这里是精品| 97久久国产精品成人观看| 国产人妖网站在线视频| 极品少妇小泬50pthepon| 亚州少妇无套内射激情视频| 加勒比黑人在线| 91久久精品一二三区色| 亚洲夫妻性生活免费视频| 亚洲春色在线视频| 国产成人午夜福利在线观看者| 人妻少妇精品视频一区二区三区| 三上悠亚亚洲精品一区| 国产69精品久久久久777| 99精品视频69V精品视频 | 97色人阁俺也去人人人人人| 久久精品中文字幕有码| 丰满的人妻hd高清日本| 中文字幕无线码中文字幕| 无码成人AV在线一区二区| 美腿丝袜日韩在线观看| 欧美人与禽zozzo性伦交| 美女视频一区| 亚洲中文字幕永久网站| 国产精品视频自拍在线| 天天影视性色香欲综合网| 男人的天堂在线无码视频| 人妻av中文字幕精品久久| 无码国产成人午夜电影在线观看| 国产成人综合色在线观看网站| 亚洲人成网站久久久综合| 91热久久免费频精品99| 99久久无色码中文字幕人妻蜜柚 | 少妇人妻偷人精品视蜜桃| 国产精品久久无码免费看| 久久久亚洲免费视频网| 色拍自拍亚洲综合图区| 精品国产一区二区三区AV小说| 91精品啪在线观看国产色| 国产精品麻豆va在线播放| 精品人妻系列无码一区二区三区|