亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)挖掘的分類算法應(yīng)用
        ——以XGBoost為例

        2022-12-21 07:41:36
        無線互聯(lián)科技 2022年19期
        關(guān)鍵詞:分類特征心理

        田 威

        (常德職業(yè)技術(shù)學(xué)院,湖南 常德 415000)

        0 引言

        近年來,大量研究資料表明,高?!?0后”中有相當(dāng)一部分人存在心理問題,且數(shù)量逐年上升,關(guān)注、解決高校學(xué)生存在的這種問題刻不容緩。據(jù)統(tǒng)計(jì),獨(dú)生子女、留守兒童經(jīng)歷、家長(zhǎng)對(duì)子女的教育等因素都會(huì)對(duì)學(xué)生的心理健康產(chǎn)生很大的影響。常德職業(yè)技術(shù)學(xué)院對(duì)學(xué)生的心理普查非常重視,對(duì)于有問題的學(xué)生會(huì)積極予以干預(yù)輔導(dǎo)和教育。但是當(dāng)前學(xué)院對(duì)學(xué)生的心理普測(cè)仍然采用傳統(tǒng)的問卷調(diào)查方法,即通過組織全院學(xué)生填寫SCL-90量表,篩查結(jié)果往往不盡人意。原因如下:(1)篩查結(jié)果不準(zhǔn)確,學(xué)生在填寫問卷答題時(shí),刻意隱瞞、隨意亂填或者當(dāng)時(shí)環(huán)境因素不好都會(huì)造成調(diào)查結(jié)果出現(xiàn)較大的偏差,而且問卷答題只能收集某一時(shí)刻學(xué)生的心理狀態(tài),缺乏時(shí)效性。(2)心理問題是一個(gè)相對(duì)動(dòng)態(tài)的過程,對(duì)有潛在心理問題的學(xué)生沒有辦法進(jìn)行及時(shí)輔導(dǎo)。(3)老師需要組織全院學(xué)生,且要保證學(xué)生在一個(gè)相對(duì)比較理想不受外界干擾的環(huán)境中填寫,成本比較大[1]。

        為了解決上述問題,本文從大數(shù)據(jù)和數(shù)據(jù)挖掘的角度,使用XGBoost分類算法,設(shè)計(jì)了學(xué)生心理健康問題預(yù)測(cè)應(yīng)用,應(yīng)用對(duì)比調(diào)查問卷具有高準(zhǔn)確率、低成本等優(yōu)點(diǎn),能識(shí)別出有潛在心理問題的學(xué)生,還能夠根據(jù)學(xué)生的特征數(shù)據(jù)變化不斷自適應(yīng)優(yōu)化,保證高準(zhǔn)確率。

        1 XGBoost算法原理

        XGBoost算法采用了集成思想,將多個(gè)弱分類器逐步迭代,集成組合在一起形成一個(gè)強(qiáng)分類器,是梯度提升決策樹(GBDT)的一種高效實(shí)現(xiàn)。相對(duì)于GBDT,XGBoost具有能并行學(xué)習(xí)的優(yōu)點(diǎn),快速實(shí)現(xiàn)迭代運(yùn)算。同時(shí),算法也設(shè)置了懲罰因子來防止過擬合,具體算法步驟如下。

        優(yōu)化目標(biāo)函數(shù):l(yi,yi')=(yi-yi')2

        每棵決策樹逐步迭代,形成一個(gè)強(qiáng)分類器。

        決策樹如果葉子節(jié)點(diǎn)太多,會(huì)增加過擬合的風(fēng)險(xiǎn),通常目標(biāo)函數(shù)還需加入正則項(xiàng)Ω(ft)來對(duì)決策樹進(jìn)行剪枝。

        式中,γ為正則化強(qiáng)度;T為葉子節(jié)點(diǎn)個(gè)數(shù);w為葉子節(jié)點(diǎn)權(quán)重。

        加入正則化項(xiàng)后要優(yōu)化的完整目標(biāo)函數(shù)為

        分別記gi,hi為l的一階和二階導(dǎo)數(shù)

        最終求出目標(biāo)函數(shù)最優(yōu)解為

        根據(jù)上式,作為樹分裂結(jié)構(gòu)的分?jǐn)?shù),分?jǐn)?shù)越高,則樹的結(jié)構(gòu)越優(yōu)異,最終獲得最優(yōu)的樹結(jié)構(gòu)。算法的停止取決于預(yù)設(shè)的樹深度或者分裂后的結(jié)果值小于某個(gè)閾值[2]。

        2 模型實(shí)現(xiàn)

        2.1 模型訓(xùn)練

        高職院校往往由于傳統(tǒng)業(yè)務(wù)系統(tǒng)存在信息孤島問題,管理人員僅僅只能看到學(xué)生的一維數(shù)據(jù),如通過教務(wù)系統(tǒng),管理人員只能查看到學(xué)生的學(xué)籍、學(xué)分、掛科、處分、考生評(píng)價(jià)等信息,無法獲取學(xué)生綜合管理系統(tǒng)、一卡通消費(fèi)、上網(wǎng)行為、社交評(píng)論等信息數(shù)據(jù)。本文基于學(xué)校搭建的數(shù)據(jù)中臺(tái),在數(shù)據(jù)高度共享的前提下構(gòu)造數(shù)據(jù)集,采用XGBoost分類算法實(shí)現(xiàn)對(duì)學(xué)生的自動(dòng)分類。模型訓(xùn)練基本實(shí)現(xiàn)流程如圖1所示。

        圖1 模型訓(xùn)練流程

        2.2 數(shù)據(jù)準(zhǔn)備

        通過數(shù)據(jù)中心,獲取了教務(wù)系統(tǒng)、學(xué)生綜合管理系統(tǒng)、一卡通平臺(tái)、網(wǎng)絡(luò)行為管理日志、微信企業(yè)號(hào)等多個(gè)業(yè)務(wù)系統(tǒng)中學(xué)生的多維度信息數(shù)據(jù),并對(duì)其中某些字段缺失的數(shù)據(jù)、文本類型數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行預(yù)處理,通過特征轉(zhuǎn)換,最終構(gòu)造學(xué)生個(gè)人畫像特征[3]。學(xué)院健康教育中心按照心理問題嚴(yán)重程度,統(tǒng)計(jì)出一級(jí)問題學(xué)生831人、二級(jí)問題1 105人、三級(jí)問題1 487人、心理狀況良好人數(shù)11 056人,將以上數(shù)據(jù)作為模型樣本。

        2.3 模型實(shí)現(xiàn)

        本文基于XGBoost的python實(shí)現(xiàn)。將一級(jí)、二級(jí)、三級(jí)、良好的學(xué)生分別標(biāo)識(shí)為A,B,C,D。通過數(shù)據(jù)中臺(tái)抽取學(xué)生特征并進(jìn)行特征轉(zhuǎn)化。

        學(xué)生學(xué)籍特征:性別、專業(yè)、民族、所屬省份、生源地區(qū)、戶籍性質(zhì)、家庭經(jīng)濟(jì)情況等,這些特征均屬于離散類特征,對(duì)這類特征進(jìn)行one-hot編碼,如性別特征轉(zhuǎn)化如表1所示。

        表1 性別特征轉(zhuǎn)化

        其他特征則類似編碼。

        學(xué)生教務(wù)特征:成績(jī)、處分次數(shù)、是否惡意評(píng)價(jià)教學(xué)等。對(duì)于成績(jī)特征,以優(yōu)、良、不及格來取值,然后將各科成績(jī)按照取值次數(shù)進(jìn)行匯聚計(jì)算,學(xué)生教務(wù)特征具體如表2所示。

        表2 學(xué)生教務(wù)特征

        處分次數(shù)屬于連續(xù)性特征,以正常數(shù)值表示即可,是否惡意評(píng)價(jià)則按照上述離散類特征處理。

        學(xué)生事務(wù)特征:學(xué)生請(qǐng)假、學(xué)生個(gè)人操行分、宿舍缺勤、班級(jí)排名等。

        學(xué)生一卡通特征:圖書借閱、消費(fèi)情況等。

        上網(wǎng)行為特征:學(xué)生上網(wǎng)時(shí)長(zhǎng)、App使用類型等。

        最終,特征轉(zhuǎn)換編碼規(guī)則為:對(duì)于無序離散類特征采用one-hot編碼,對(duì)于有序離散類特征通過數(shù)值大小作為標(biāo)識(shí),再進(jìn)行歸一化,對(duì)于連續(xù)性特征,進(jìn)行歸一化。

        隨機(jī)將數(shù)據(jù)集按照7∶3分為訓(xùn)練集和測(cè)試集,模型評(píng)價(jià)指標(biāo)采用多分類F1-score,通過交叉驗(yàn)證選取模型參數(shù)如表3所示。

        表3 模型超參數(shù)選擇

        2.4 模型結(jié)果分析

        通過XGBoost算法模型在測(cè)試集進(jìn)行測(cè)試,結(jié)果如表4所示,從表中可以看出模型對(duì)心理健康狀況良好和存在一級(jí)問題的學(xué)生預(yù)測(cè)準(zhǔn)確率分別為98.00%和96.78%,對(duì)二級(jí)問題的學(xué)生預(yù)測(cè)準(zhǔn)確率相對(duì)較低。模型總體識(shí)別的準(zhǔn)確率遠(yuǎn)遠(yuǎn)優(yōu)于SCL-90量表調(diào)查問卷的結(jié)果。通過分析結(jié)果,對(duì)模型識(shí)別的特征重要性進(jìn)行排序,如圖2所示。其中,是否有留守經(jīng)歷、是否單親家庭、成績(jī)的特征重要性所占權(quán)重最大。同時(shí),可以通過模型計(jì)算出學(xué)生屬于各分類的概率,將概率接近分類閾值的學(xué)生劃分為該類下有潛在心理疾病風(fēng)險(xiǎn)的學(xué)生,讓心理輔導(dǎo)老師對(duì)學(xué)生提前進(jìn)行干預(yù)輔導(dǎo)[4-5]。

        表4 測(cè)試集識(shí)別準(zhǔn)確率

        圖2 特征重要性排序

        3 結(jié)語

        本文通過運(yùn)用數(shù)據(jù)中心,打通了各業(yè)務(wù)系統(tǒng)信息孤島,獲取了學(xué)生在各個(gè)業(yè)務(wù)系統(tǒng)多維度數(shù)據(jù),采用XGBoost算法從分類的角度,設(shè)計(jì)了預(yù)測(cè)模型,相對(duì)于采用SCL-90量表的測(cè)評(píng),能高效識(shí)別出有心理問題的學(xué)生,極大地降低了學(xué)校管理的成本,并且模型數(shù)據(jù)具有一定的可解釋性,心理老師也可以根據(jù)數(shù)據(jù)為學(xué)生進(jìn)行個(gè)性化干預(yù)輔導(dǎo)。但是模型對(duì)二級(jí)問題的預(yù)測(cè)還存在比較大的誤報(bào)率,后續(xù)還應(yīng)該多分析數(shù)據(jù),挖掘?qū)W生有效特征,提升模型的準(zhǔn)確率。

        猜你喜歡
        分類特征心理
        看見具體的自己
        光明少年(2024年5期)2024-05-31 10:25:59
        心理“感冒”怎樣早早設(shè)防?
        分類算一算
        心理感受
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        99久久婷婷国产综合亚洲| 亚洲欧美日韩精品久久亚洲区| 女邻居的大乳中文字幕| 亚洲精品你懂的在线观看| 伊人网综合| 国产精品一区二区三级| 超高清丝袜美腿视频在线| 国产女人高潮的av毛片| 久久精品国产亚洲av成人文字| 又爽又黄又无遮挡网站| 欧美aaaaaa级午夜福利视频| 亚洲av无码之日韩精品| 在线视频你懂的国产福利| 亚洲国产av一区二区三| 少妇被黑人嗷嗷大叫视频| 欧美性高清另类videosex| 亚洲av无码精品色午夜| 国产av影片麻豆精品传媒| 亚洲一级电影在线观看| 国产精品玖玖资源站大全| 国产熟妇一区二区三区网站| 国产av激情舒服刺激| 大地资源在线观看官网第三页 | 国产精品福利片免费看| 天堂麻豆精品在线观看| 日韩人妻少妇一区二区三区| 伊人久久大香线蕉亚洲五月天 | 国产一区二区三区啊啊| 成人性生交大片免费看96| 人妻丰满熟妇av无码处处不卡| 无码专区无码专区视频网址| 久久精品国产69国产精品亚洲| 久久精品亚洲一区二区三区浴池| 另类免费视频在线视频二区| 亚洲国产高清美女在线观看| 激情在线视频一区二区三区| 精品人妻69一区二区三区蜜桃| 人人妻人人做人人爽| av人摸人人人澡人人超碰小说| 人妻无码在线免费| av手机天堂在线观看|