亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

套索回歸模型在教師評分系統(tǒng)中的應(yīng)用研究

2019-12-07 08:37:26◆張戈朱儉

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2019年12期

關(guān)鍵詞：套索特征向量線性

◆張戈朱儉

◆張戈朱儉通訊作者

（中國社會科學(xué)院大學(xué) 北京 102488）

本文主要探討了L1正則化模型和L2正則化模型在大學(xué)教師評分系統(tǒng)中的應(yīng)用。對教師評分已有數(shù)據(jù)進行分析，建立擬合預(yù)測模型，采用嶺回歸和套索回歸兩種線性回歸方法建模，在此基礎(chǔ)上對模型的優(yōu)化方案進行了深入研究。

嶺回歸；套索回歸；過擬合；調(diào)整參數(shù)

教師評估系統(tǒng)是各個高校幾乎都會用到的一套對教師教學(xué)水平的評價系統(tǒng)。隨著各個大學(xué)對教學(xué)評估系統(tǒng)應(yīng)用的推進，其評價體系和結(jié)構(gòu)日趨完善，評價數(shù)據(jù)也像滾雪球一樣逐年累積，數(shù)據(jù)量越來越龐大。在大數(shù)據(jù)和機器學(xué)習(xí)背景下，如何能夠有效地利用這些數(shù)據(jù)，對它們加以分析和處理，并在此基礎(chǔ)上得到對未來更有價值的信息和結(jié)果是我們最為關(guān)心的問題。因此，我們的研究在已有數(shù)據(jù)基礎(chǔ)上擬合一個預(yù)測模型，用該模型給出教師的合理評分。

1 問題提出

在教學(xué)評估系統(tǒng)中，系統(tǒng)會根據(jù)該課程的全體學(xué)生的打分給出綜合評分。打分項的設(shè)計是在原有系統(tǒng)評分項基礎(chǔ)上不斷更新迭代得出的評分項，包括“備課認真”、“有教材課件”、“有輔助資料”、“有教具”、“遵紀(jì)守時”、“認真負責(zé)”、“熱情敬業(yè)”、“進度適當(dāng)”、“重點突出”、“難易適度”、“有吸引力”、“教學(xué)內(nèi)容完整”、“邏輯清晰”……一共40個打分項。每個打分項的取值范圍不等，但40個單項的最高分總和為50。除了這40個單項之外，還有一個“綜合評價”分，該項最高分為50。學(xué)生根據(jù)自己的感受對以上各項打分。收集數(shù)據(jù)后，系統(tǒng)分別算出各單項平均分（無異常數(shù)據(jù)處理）和“綜合評價”的平均分，然后將這些平均分相加，算出來的分數(shù)即為教師評分（最高100分）。

從目前評估系統(tǒng)的評分方法來看，該評價體系存在這樣幾個問題：第一，評分項過多（41個），建立的模型過于復(fù)雜，容易出現(xiàn)過擬合現(xiàn)象；第二，各個單項的權(quán)重均一致，設(shè)計不合理。比如“有教具”這項對于不同專業(yè)的老師并不一樣，有的專業(yè)需要教具，有的專業(yè)只用課件講課即可，因此類似這種單項，其權(quán)重不應(yīng)和其他單項一致；第三，各個單項的取值范圍并不相同，有的單項取值在0到10之間，有的單項取值在0到3之間，這樣就造成了各單項數(shù)據(jù)影響力差異過大，在涉及距離公式計算的模型中，影響預(yù)測結(jié)果的準(zhǔn)確度。

2 線性模型

針對以上問題，本研究將分析采用哪種回歸擬合數(shù)據(jù)，建立預(yù)測模型。我們先來看回歸分析中最經(jīng)典的線性模型——線性回歸，也稱為普通最小二乘法（OLS）。它的原理是，當(dāng)訓(xùn)練數(shù)據(jù)集中y的預(yù)測值和其真實值的平方差最小的時候，此時的w值和b值作為線性函數(shù)的w值和b值。線性回歸模型沒有參數(shù)可調(diào)，也就是說模型的復(fù)雜度用戶不可控。在我們選取了500條數(shù)據(jù)進行線性回歸測試，可以看到模型測試評分訓(xùn)練集和測試集得分差異過大，這表明模型出現(xiàn)了過擬合，而且訓(xùn)練集測評僅為0.5分，模型預(yù)測結(jié)果準(zhǔn)確率不高，因此我們嘗試使用嶺回歸模型。

2.1 嶺回歸模型

嶺回歸是回歸分析中常用的線性模型。它可以有效防止模型的過擬合現(xiàn)象。在嶺回歸中，模型會保留所有的特征變量，但是會減小特征變量的權(quán)重值，特征變量對預(yù)測結(jié)果的影響“統(tǒng)一”變小了。這種通過保留所有特征向量，只降低特征向量的系數(shù)值來避免過擬合現(xiàn)象的方法，稱為L2正則化。L2 正則化公式非常簡單，直接在原來的損失函數(shù)基礎(chǔ)上加上權(quán)重參數(shù)的平方和：

2.2 套索回歸模型

套索回歸（lasso）是除了嶺回歸之外的一個對線性回歸進行正則化的模型。和嶺回歸一樣，它也將特征向量系數(shù)限制在非常接近0的范圍，但是它對系數(shù)進行限制的方式不同，它直接在原來的損失函數(shù)基礎(chǔ)上加上權(quán)重參數(shù)的絕對值：

3 模型優(yōu)化

3.1 異常數(shù)據(jù)處理

對于學(xué)生的評分會因各種原因存在數(shù)據(jù)異常的情況，比如有的學(xué)生會根據(jù)自己的喜好、老師給的平時成績或者一次和老師的談話，就對老師打出比較極端的分數(shù)，少數(shù)過高或過低的評分就是我們所說的異常數(shù)據(jù)。這些數(shù)據(jù)并不能合理體現(xiàn)老師的教學(xué)水平，相反，如果這些數(shù)據(jù)的權(quán)重和其他數(shù)據(jù)一樣，可能會對老師評價得到不相符甚至于相反的結(jié)果。因此，我們需要對這樣的數(shù)據(jù)對異常判斷和處理。

圖1 線性函數(shù)方程

首先，我們選取一些過高或過低的分數(shù)，并將它們刪除。但是這“一些”是多少，5%、10%還是15%，不能靠數(shù)據(jù)處理人員一張嘴來決定，而是靠數(shù)據(jù)說話。因此我們在做處理時，依次選取最高和最低的5%、10%和15%的數(shù)據(jù)進行刪除，按刪除后的數(shù)據(jù)重新擬合模型，并給出模型評分，將評分最高的刪除比例保留，從而得到相對合理的擬合模型。圖2是采用模型測評方法-交叉驗證法在去掉15%的兩端數(shù)據(jù)后得到的模型測評分數(shù)。測評分數(shù)為0.88，可見在處理掉一些極端數(shù)據(jù)后，模型預(yù)測的準(zhǔn)確率比較理想。

圖2 異常數(shù)據(jù)處理后模型測評分數(shù)

3.2 模型參數(shù)優(yōu)化

在前面我們選擇套索模型對數(shù)據(jù)進行擬合，但模型的測評分數(shù)并不算高，這樣一來，預(yù)測結(jié)果即教師評估分數(shù)可能會出現(xiàn)偏差，因此我們進一步調(diào)整套索模型參數(shù)alpha和最大迭代次數(shù)max_iter對模型進行優(yōu)化。我們采用python的sklearn庫來建立套索模型，實驗環(huán)境采用jupyter notebook。

圖3是python3編寫的在調(diào)整alpha參數(shù)為1、0.1和0.0001，max_iter參數(shù)為100000時的代碼。圖4是在上述不同的alpha值，max_iter為100000時的套索回歸系數(shù)值對比圖。

圖3 不同alpha值max_iter值為100000時套索模型代碼

圖4 不同alpha值套索回歸系數(shù)值對比

從圖中可以看到當(dāng)alpha值為1和0.1的時候，大部分系數(shù)都為0，這就意味著幾乎所有特征向量均被正則化，對我們的預(yù)測結(jié)果均起不到作用。alpha值為0.0001的時候，只有少數(shù)幾個系數(shù)為0，這個就是套索模型自動選擇出的可以忽略不計的特征向量，因此，我們將alpha系數(shù)調(diào)整為0.0001。同理，在alpha值固定的情況下，我們繼續(xù)調(diào)整max_iter參數(shù)，這樣就可以使套索模型優(yōu)化到最佳狀態(tài)，同時結(jié)合訓(xùn)練集和測試集的測評分，最終得到最理想的預(yù)測模型。

4 總結(jié)

我們經(jīng)過線性模型的分析和研究最終確定套索模型作為系統(tǒng)的擬合模型，解決了由過多特征向量帶來的模型過擬合現(xiàn)象，依靠該模型的自主選擇特征向量機制自動淘汰了一些權(quán)重值不高的幾乎可以忽略的特征，降低了模型復(fù)雜度，使模型更為合理，更利于模型的泛化。在確定回歸模型后，我們進一步對模型的主要參數(shù)進行了調(diào)整，使數(shù)據(jù)訓(xùn)練集和測試集評分均得到了提高，模型可用度提升，教師的評分更為準(zhǔn)確。

當(dāng)然，系統(tǒng)中仍存在一些問題有待解決，比如特征向量值取值范圍存在差異，會造成有的特征向量影響力會明顯高于另外一些特征向量。本研究在今后的工作中會繼續(xù)研究如何采用數(shù)據(jù)歸一化和標(biāo)準(zhǔn)化的方法使數(shù)據(jù)更為合理、可用。

[1]肖玲玲，鄭華，林爍爍，陳曉文.基于嶺回歸的四帶圖像偏色校正算法[J].計算機系統(tǒng)應(yīng)用，2019（08）：129-135.

[2]王宏偉，黃元生，姜雨晴，劉詩劍.基于套索算法和高斯過程回歸的中長期居民用電量概率預(yù)測[J/OL].華北電力大學(xué)學(xué)報（自然科學(xué)版）：1-11[2019-08-29]

[3]紅色石頭的專欄.https：//blog.csdn.net/red_stone1/article/details/80755144

[4]李克文，周廣悅，路慎強，郭俊.一種基于機器學(xué)習(xí)的有利區(qū)評價新方法[J].特種油氣藏，2019，26（03）：7-11.

[5]谷慧娟. 基于套索回歸的財務(wù)危機預(yù)警模型研究[D].天津財經(jīng)大學(xué)，2010.

[6]湯榮志. 數(shù)據(jù)歸一化方法對提升SVM訓(xùn)練效率的研究[D].山東師范大學(xué)，2017.

[7]張里，王蘭，李紅軍，廖小君，王婷婷，張江林，劉友波.基于聚類分析的風(fēng)電功率預(yù)測數(shù)據(jù)預(yù)處理方法[J].可再生能源，2018，36（12）：1871-1876.

[8]李克文，周廣悅，路慎強，郭俊.一種基于機器學(xué)習(xí)的有利區(qū)評價新方法[J].特種油氣藏，2019，26（03）：7-11.

[9]Science; Studies Conducted at Georgetown University on Science Recently Reported （Ridge regression estimated linear probability model predictions of O-glycosylation in proteins with structural and sequence data）[J]. Science Letter，2019.

[10]Wen Lei，Shao Hengyang. Analysis of influencing factors of the carbon dioxide emissions in China's commercial department based on the STIRPAT model and ridge regression.[J]. Environmental science and pollution research international，2019.

[11]Gana Rajaram，Vasudevan Sona. Ridge regression estimated linear probability model predictions of O-glycosylation in proteins with structural and sequence data.[J]. BMC molecular and cell biology，2019，20（1）.

[12]Wang Chunjie，Li Qun，Song Xinyuan，Dong Xiaogang. Bayesian adaptive lasso for additive hazard regression with current status data.[J]. Statistics in medicine，2019，38（20）.

[13]張倩.基于隨機森林回歸模型的住房租金預(yù)測模型的研究[D].東北師范大學(xué)，2019.

[14]Yaqing Zhao，Howard Bondell. Solution paths for the generalized lasso with applications to spatially varying coefficients regression[J]. Computational Statistics and Data Analysis，2020，142.

中國社會科學(xué)院大學(xué)校級科研項目資助。