亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ID3算法對(duì)農(nóng)民工城市融入影響因素分析

        2023-10-08 13:50:28陳韜宇安海燕
        軟件工程 2023年10期
        關(guān)鍵詞:社會(huì)福利決策樹(shù)增益

        陳韜宇, 安海燕, 陳 杰

        (1.貴州大學(xué)經(jīng)濟(jì)學(xué)院, 貴州 貴陽(yáng) 550025;2.貴州師范大學(xué)國(guó)際教育學(xué)院, 貴州 貴陽(yáng) 550001)

        0 引言(Introduction)

        近年來(lái),在我國(guó)經(jīng)濟(jì)快速發(fā)展下,產(chǎn)生了特有的農(nóng)民工群體。城鎮(zhèn)化發(fā)展至今,農(nóng)村勞動(dòng)力轉(zhuǎn)移的同時(shí),也導(dǎo)致了各式各樣的問(wèn)題[1-3]。從經(jīng)濟(jì)學(xué)的視角來(lái)看,不論是生活的本質(zhì)——衣食住行,還是社會(huì)保障、教育等都會(huì)影響農(nóng)民工在城市的融入感[4-6]。如今,新生代農(nóng)民工逐漸成為老一代農(nóng)民工的接班人,而不同的成長(zhǎng)環(huán)境和經(jīng)歷,造成其在融入城市的過(guò)程中又產(chǎn)生了新的問(wèn)題[7-9]。因此,有必要對(duì)影響農(nóng)民工城市融入的因素進(jìn)行進(jìn)一步探究。本文采用信息學(xué)的ID3算法分析經(jīng)濟(jì)、社交、社會(huì)福利和心理4個(gè)方面對(duì)農(nóng)民工城市融入問(wèn)題的影響,并為解決農(nóng)民工城市融入問(wèn)題提出相應(yīng)的建議[10]。

        本文以直觀(guān)的數(shù)據(jù)結(jié)果分析影響農(nóng)民工城市融入的因素。其中,決策樹(shù)算法的典型應(yīng)用在文獻(xiàn)[11]至文獻(xiàn)[13]中有提及,同時(shí)有許多學(xué)者對(duì)其進(jìn)行了優(yōu)化[14-16]。本文以大數(shù)據(jù)挖掘?yàn)榛A(chǔ),對(duì)城市融入問(wèn)題的研究進(jìn)行方法上的創(chuàng)新[17-18]。

        有別于傳統(tǒng)回歸分析方式,采取數(shù)據(jù)挖掘算法ID3分析農(nóng)民工的城市融入問(wèn)題,對(duì)影響因子的重要性進(jìn)行樹(shù)形排列,得到直觀(guān)的信息,為該問(wèn)題的深入研究提供方向和參考。

        1 ID3算法模型(ID3 algorithm model)

        ID3算法就是決策樹(shù)模型算法,它是一種基本的分類(lèi)回歸方法,通常運(yùn)用于大數(shù)據(jù)挖掘方面,與ID3算法類(lèi)似的有C4.5算法(ID3算法的一種擴(kuò)展算法)和CART算法。C4.5算法的優(yōu)點(diǎn)在于產(chǎn)生的規(guī)則容易被理解,正確率比較高,操作實(shí)現(xiàn)的難度不高,但是它的缺點(diǎn)也同樣明顯,例如數(shù)據(jù)需要進(jìn)行多次遍歷和排序,效率很低。ID3算法在剪枝和數(shù)據(jù)丟失值處理等方面區(qū)別于C4.5算法和CART算法。針對(duì)本文的問(wèn)題,采取ID3算法更簡(jiǎn)潔、有效,能夠準(zhǔn)確地挖掘數(shù)據(jù)中隱藏的含義,體現(xiàn)影響農(nóng)民工城市融入的主要因素和次要因素,也就是重要性的排序。

        1.1 算法的介紹

        ID3算法是一種經(jīng)典的決策樹(shù)算法,常用于分析數(shù)據(jù)的重要性排序;它的原理是建立在奧卡姆剃刀原理的基礎(chǔ)上,用較少的樣本獲取更多的隱藏信息。在信息理論中,期望信息越小,那么信息增益(Gain)就越大。ID3算法的核心思想就是通過(guò)信息增益大小作為屬性的選擇理論依據(jù)進(jìn)行分裂挖掘。

        1.2 ID3算法中數(shù)值的基本定義

        (1)信息熵。熵的概念是在物理學(xué)中被定義的,它是在物理學(xué)中用作測(cè)量一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度,在信息學(xué)的理論中,熵是對(duì)不確定性信息的度量。香農(nóng)(Claude Shannon)對(duì)物理學(xué)中的熵重新進(jìn)行定義,出現(xiàn)了信息學(xué)中的信息熵,并將其定義為離散隨機(jī)事件出現(xiàn)的概率。一個(gè)數(shù)據(jù)集或者系統(tǒng)當(dāng)中的數(shù)據(jù)越有序,信息熵就越低;一個(gè)數(shù)據(jù)集或者系統(tǒng)當(dāng)中的數(shù)據(jù)越無(wú)序,信息熵就越高。假如一個(gè)隨機(jī)變量D的取值為D={d1,d2,d3,d4,…,dn},每一種取到的概率分別是{p1,p1,p3,…,pn},那么D的熵定義如下:

        (1)

        其中,Entropy(D)為數(shù)據(jù)總信息熵,pi為取到該項(xiàng)數(shù)據(jù)的概率。

        一個(gè)變量的變化越多,那么它攜帶的信息量就越大。本文研究通過(guò)ID3算法對(duì)調(diào)研數(shù)據(jù)進(jìn)行處理,分析調(diào)研數(shù)據(jù)的信息量并用信息熵表示。由熵的定義可知,熵只決定了X的分布規(guī)律,與X的取值大小沒(méi)有關(guān)系。

        (2)期望信息也稱(chēng)為分類(lèi)系統(tǒng)的熵或者條件熵,對(duì)于分類(lèi)系統(tǒng)來(lái)說(shuō),特征A是擁有不同的類(lèi)別{A1,A2,…,An}變量,它的樣本個(gè)數(shù)分別記為{C1,C2,C3,…,Cn},而每一個(gè)類(lèi)別出現(xiàn)的概率分別是P(C1),P(C2),…,P(Cn),其中n表示類(lèi)別的總數(shù)量。所以,期望信息(條件熵)就可以用公式(2)表示:

        (2)

        (3)信息增益是ID3算法中最核心的判別特征,也是區(qū)別重要性的依據(jù)。將信息增益定義為Gain,信息增益是數(shù)據(jù)集D分裂前與分裂后的差,表示由于特征的分裂引起數(shù)據(jù)集的不確定性程度降低。通過(guò)計(jì)算得到數(shù)據(jù)分裂的根據(jù)是由于當(dāng)特征的取值較多時(shí),以此特征劃分更容易得到純度更高的子集,表現(xiàn)為如圖1所示的經(jīng)濟(jì)因素特征下還有特征可以分裂,也就是決策樹(shù)根節(jié)點(diǎn)順序由高到低表示重要程度的高低。

        圖1 決策樹(shù)算法模型結(jié)果圖Fig.1 Result graph of decision tree algorithm model

        信息增益越高,意味著劃分后的子節(jié)點(diǎn)純度越高,對(duì)于分類(lèi)的貢獻(xiàn)越大。因此,ID3算法須選擇信息增益最大的節(jié)點(diǎn)作為父節(jié)點(diǎn)。表示信息增益的公式如下:

        GainA(D)=E(D)-H(D/A)

        (3)

        其中,GainA(D)表示特征A中的信息增益,E(D)表示原始樣本的信息熵,H(D/A)表示特征A的條件熵。

        2 調(diào)研數(shù)據(jù)處理及分析(Research data processing and analysis)

        2.1 數(shù)據(jù)來(lái)源和數(shù)據(jù)的初步處理

        數(shù)據(jù)來(lái)源于實(shí)地調(diào)研,有效的調(diào)研問(wèn)卷總計(jì)359份,所有數(shù)據(jù)均來(lái)自調(diào)研對(duì)象農(nóng)民工。在問(wèn)卷中設(shè)計(jì)了包括經(jīng)濟(jì)(收入)、社會(huì)福利(教育和醫(yī)療水平)、社交(親友數(shù)量)及心理(受到歧視心理影響程度)等方面的問(wèn)題。將調(diào)查的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行匯總并歸納分析,將其分為15個(gè)大類(lèi),重復(fù)的數(shù)據(jù)歸為一個(gè)類(lèi)別,得到的歸納分析結(jié)果如表1所示。

        表1 數(shù)據(jù)歸納分析表Tab.1 Data summary and analysis table

        本文研究將影響城市融入的影響因素分為經(jīng)濟(jì)(收入)、社會(huì)福利(教育和醫(yī)療水平)、社交(親友數(shù)量)、心理(受到歧視心理影響程度)4個(gè)方面。問(wèn)卷調(diào)查中將收入變化和生活成本變化程度由弱到強(qiáng)分為5個(gè)。但是,由于問(wèn)卷中的問(wèn)題過(guò)于細(xì)分化,所以將5個(gè)程度減少為3個(gè)程度,分別是低、中、高,并且由于在調(diào)查問(wèn)卷中調(diào)研對(duì)象選擇的程度在3~5的范圍,所以可以將程度1~2去除,最后的結(jié)果為低(3)、中(4)、高(5),分別代表了調(diào)研對(duì)象對(duì)經(jīng)濟(jì)部分問(wèn)題的感知和反饋程度。社會(huì)福利、社交和心理三個(gè)影響因素進(jìn)行同樣的量化分類(lèi),具體如表1所示。

        2.2 數(shù)據(jù)計(jì)算處理過(guò)程

        2.2.1 計(jì)算總體熵

        經(jīng)歸納分析后的問(wèn)卷結(jié)果見(jiàn)表1。表1中有15個(gè)例子,共有兩個(gè)大類(lèi),即城市融入的“是”與“否”,同時(shí)擁有4個(gè)特征,分別經(jīng)濟(jì)、社會(huì)福利、社交和心理。感到融入“是”的比例為7/15,感到融入“否”的比例為8/15。

        計(jì)算總體熵,假設(shè)D為表1所有的數(shù)據(jù)集合,經(jīng)計(jì)算可得:

        這里將Entropy(D)記為縮寫(xiě)E(D),所以E(D)≈0.997(保留三位小數(shù),下同)。

        2.2.2 計(jì)算特征下的條件熵

        4個(gè)特征即C1為經(jīng)濟(jì)、C2為社會(huì)福利、C3為社交、C4為心理,將兩個(gè)大類(lèi)記為B1與B2,分別用A1、A2和A3代表經(jīng)濟(jì)因素影響的高、中、低三個(gè)程度。

        (1)以經(jīng)濟(jì)為特征計(jì)算條件熵表(如表2所示)。

        表2 經(jīng)濟(jì)特征條件熵表Tab.2 Entropy table of economic characteristic conditions

        根據(jù)經(jīng)濟(jì)為特征的熵:

        H(D/C1)=PC1×H(D/C1A1)+

        PC1×H(D/C1A2)+PC1×H(D/C1A3)

        (4)

        根據(jù)公式(2)可得樣本特征為經(jīng)濟(jì)的高、中、低的熵:

        以經(jīng)濟(jì)為特征的熵:

        (2)以社會(huì)福利為特征計(jì)算條件熵(如表3所示)。

        表3 社會(huì)福利條件熵表Tab.3 Entropy table of social welfare conditions

        根據(jù)社會(huì)福利為特征的條件熵:

        H(D/C2)=PC2×H(D/C2A1)+

        PC2×H(D/C2A2)+PC2×H(D/C2A3)

        (5)

        H(D/C2A3)=-0log20-log21=0

        以社會(huì)福利為特征的熵:

        (3)以社交為特征計(jì)算條件熵(如表4所示)。

        表4 社交特征條件熵表Tab.4 Entropy table of social feature conditions

        根據(jù)社交為特征的條件熵:

        H(D/C3)=PC3×H(D/C3A1)+PC3×H(D/C3A3)

        (6)

        以社交為特征的熵:

        (4)以心理為特征計(jì)算條件熵(如表5所示)。

        表5 心理特征條件熵表Tab.5 Entropy table of psychological feature conditions

        根據(jù)心理為特征的條件熵:

        H(D/C4)=PC4×H(D/C4A1)+PC4×H(D/C4A3)

        (7)

        以心理為特征的熵:

        2.2.3 計(jì)算信息增益

        信息增益通過(guò)以下公式計(jì)算,并選取出最大的信息增益作為樹(shù)的根節(jié)點(diǎn),也就是最重要因素的決出。

        Gain(D/Ci)=E(D)-H(D/Ci)

        (8)

        Gain(D/C1)=E(D)-H(D/C1)=0.997-0.805=0.192
        Gain(D/C2)=E(D)-H(D/C2)=0.997-0.860=0.137
        Gain(D/C3)=E(D)-H(D/C3)=0.997-0.990=0.007
        Gain(D/C4)=E(D)-H(D/C4)=0.997-0.971=0.026

        選取具有最大增益的特征作為樹(shù)的根節(jié)點(diǎn),也就是經(jīng)濟(jì)因素C1作為根節(jié)點(diǎn)。

        (1)接下來(lái)進(jìn)行數(shù)據(jù)集劃分,經(jīng)濟(jì)因素影響程度高(C1A1)對(duì)應(yīng)表1的數(shù)據(jù)集為X1={1,2,3,4,5};經(jīng)濟(jì)因素影響程度中(C1A2)對(duì)應(yīng)表1的數(shù)據(jù)集為X2={6,7,8,9,10};經(jīng)濟(jì)因素影響程度低(C1A3)對(duì)應(yīng)表1的數(shù)據(jù)集為X3={11,12,13,14,15}。

        (2)進(jìn)行數(shù)據(jù)集的劃分后,對(duì)每個(gè)數(shù)據(jù)集進(jìn)行決策樹(shù)算法,在數(shù)據(jù)集的子集中求出各個(gè)子集信息增益,從而得到X1中C2特征最為顯著,也就是信息增益最大,將其設(shè)置為分枝根節(jié)點(diǎn)。同理,在X2中的信息增益最大的也是C2,對(duì)C2再進(jìn)行決策樹(shù)算法,同時(shí)對(duì)其數(shù)據(jù)集劃分得到C2特征中高的信息增益為特征C4,C2特征中的信息增益較高的為C3,所以得到信息增益在各個(gè)特征下的信息增益排序,各個(gè)特征下低的部分皆為否類(lèi),并畫(huà)出決策樹(shù)的圖(如圖1所示)。

        3 結(jié)論(Conclusion)

        根據(jù)實(shí)驗(yàn)結(jié)果和數(shù)據(jù)決策樹(shù)分析圖可知,經(jīng)濟(jì)因素是第一影響因素,社會(huì)福利因素是次要影響因素,這反映了農(nóng)民工對(duì)社會(huì)福利的關(guān)心程度較高,從側(cè)面反映了農(nóng)民工只有在強(qiáng)烈感受到社會(huì)保障(如醫(yī)療和教育)的福利之后,才會(huì)降低城市無(wú)法融入感,甚至認(rèn)可自身融入城市。對(duì)政府來(lái)說(shuō),完善社會(huì)福利體系,醫(yī)療、教育、保險(xiǎn)都是很重要的方面。同時(shí),對(duì)于社會(huì)福利的微觀(guān)方面,應(yīng)該盡力幫助農(nóng)民工對(duì)享受到保障措施的程序簡(jiǎn)單化,杜絕各種享受福利需要各種部門(mén)蓋章的煩瑣程序,讓農(nóng)民工感受到城市對(duì)其的包容。研究表明,心理和社交因素對(duì)于農(nóng)民工城市融入的影響程度比較低。農(nóng)民工是否覺(jué)得自己受到歧視以及影響其城市融入的程度并不是那么在意,更多的是關(guān)心自己的經(jīng)濟(jì)收入和社會(huì)福利是否得到保障。政府需要加強(qiáng)農(nóng)民工的心理健康建設(shè),例如讓農(nóng)民工重視工作的長(zhǎng)遠(yuǎn)規(guī)劃,建立職業(yè)信心與生活信念等。

        猜你喜歡
        社會(huì)福利決策樹(shù)增益
        基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
        基于單片機(jī)的程控增益放大器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:36
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        可否把寬帶作為社會(huì)福利
        社會(huì)福利
        江蘇年鑒(2014年0期)2014-03-11 17:10:04
        社會(huì)福利與歐債危機(jī)
        日韩一欧美内射在线观看| 日韩一区二区三区熟女| 亚洲丝袜美腿精品视频| 男女av一区二区三区| 久久无码字幕中文久久无码| 久久天天躁狠狠躁夜夜不卡| 无码熟妇人妻av在线影片| 亚洲在AV极品无码天堂手机版| 另类亚洲欧美精品久久不卡| 啪啪网站免费观看| 日本成人三级视频网站| 天天射综合网天天插天天干| 艳妇臀荡乳欲伦交换h在线观看| 人人妻人人爽人人澡欧美一区| 亚洲爆乳无码专区| av网站入口在线免费观看| 精品久久免费国产乱色也| 国产一区二区长腿丝袜高跟鞋| 亚洲 卡通 欧美 制服 中文| 色视频www在线播放国产人成| 国产高清无码在线| 99久久国语露脸国产精品| 日本中文字幕人妻精品| 国产精品一区av在线| 欧洲熟妇色xxxx欧美老妇软件| 日韩a无v码在线播放| 久久久久久久国产精品电影| 午夜少妇高潮免费视频| 在线观看国产激情视频| 国产网红主播无码精品| 亚洲色偷偷综合亚洲av伊人| 日韩人妻无码精品二专区| 国产三级精品三级男人的天堂| 国产成人av在线免播放观看新| 国产成人vr精品a视频| 在线观看亚洲精品国产| 日韩丝袜人妻中文字幕| 国产三区二区一区久久 | 国产无遮挡又黄又爽免费网站 | 国产精品亚洲在钱视频| 一区二区亚洲精品在线|