亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVR的CET-4成績預(yù)測模型研究

        2021-08-18 08:48:43楊素婷
        電腦知識與技術(shù) 2021年18期
        關(guān)鍵詞:特征提取預(yù)處理預(yù)測

        楊素婷

        摘要:CET-4成績及通過率是考察大學(xué)生英語能力水平和高校英語教學(xué)質(zhì)量的重要指標(biāo)。針對CET-4成績預(yù)測問題,提出一種基于支持向量回歸算法的預(yù)測方法,按照數(shù)據(jù)預(yù)處理、關(guān)鍵特征提取、預(yù)測模型構(gòu)建的步驟完成CET-4成績回歸預(yù)測模型設(shè)計。以重慶旅游職業(yè)學(xué)院近年來多批次CET-4成績數(shù)據(jù)和學(xué)生平時學(xué)習(xí)過程數(shù)據(jù)為基礎(chǔ),完成模型試點應(yīng)用和模型評估,發(fā)現(xiàn)優(yōu)化模型具有更好的可解釋性和更高的泛化精度。

        關(guān)鍵詞: CET-4;回歸預(yù)測;SVR;特征相關(guān)

        中圖分類號:TP393? ? ? 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2021)18-0026-03

        開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

        Research on CET-4 Score Prediction Model Based on SVR

        YANG Su-ting

        (Chongqing Vocational Institute of Tourism, Chongqing 40900 China)

        Abstract:CET-4 scores and pass rate are important indicators to evaluate college students' English proficiency and College English teaching quality. Aiming at the problem of CET-4 performance prediction, a prediction method was proposed based on support vector regression algorithm. The regression prediction model of CET-4 was designed according to the steps of data preprocessing, key feature extraction and prediction model construction. Based on the CET-4 score data and students' learning process data in recent years, the pilot application and model evaluation of the model were completed. It is found that the optimized model has better interpretability and higher generalization accuracy.

        Key words:CET-4; Regression prediction; SVR; Feature correlation

        1 引言

        大學(xué)英語四級考試(CET-4,College English Test Band 4)是由教育部高等教育司主持的全國性英語考試,CET-4成績及通過率是考察大學(xué)生英語能力水平和高校英語教學(xué)質(zhì)量的重要指標(biāo)[1]。隨著教育信息技術(shù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展與應(yīng)用,基于學(xué)生的英語學(xué)習(xí)過程數(shù)據(jù)和CET-4分項數(shù)據(jù),運用機(jī)器學(xué)習(xí)算法針對CET-4通過情況開展成績預(yù)測模型研究,分析CET-4成績的影響關(guān)鍵因素,對優(yōu)化英語教學(xué)實施、提升英語教學(xué)質(zhì)量具有重要意義。

        本文針對CET-4成績預(yù)測問題,提出一種基于支持向量回歸算法(SVR,Support Vector Regression)的預(yù)測方法,按照數(shù)據(jù)預(yù)處理、關(guān)鍵特征提取、預(yù)測模型構(gòu)建的步驟完成CET-4成績預(yù)測模型設(shè)計,并以重慶旅游職業(yè)學(xué)院2017-2019年5批次CET-4成績數(shù)據(jù)和學(xué)生平時學(xué)習(xí)過程數(shù)據(jù)為基礎(chǔ),完成模型試點應(yīng)用,并以2019年下半年CET-4成績?yōu)橹饕獪y試數(shù)據(jù)集,評估預(yù)測模型。

        2 SVR算法

        CET-4成績預(yù)測是典型的連續(xù)數(shù)據(jù)值預(yù)測,可參考的特征屬性數(shù)據(jù)包括歷史CET-4的各分項成績,學(xué)生日常學(xué)習(xí)的過程數(shù)據(jù),以及相關(guān)學(xué)生基礎(chǔ)信息,目標(biāo)屬性為CET-4的總成績,因此選用線性預(yù)測模型具有較好的適用性[2]。機(jī)器學(xué)習(xí)算法中常見的線性預(yù)測模型包括多元線性回歸、嶺回歸、Lasso回歸和SVR算法等,其中,SVR算法能夠充分運用已經(jīng)采集的大量基礎(chǔ)數(shù)據(jù)、過程數(shù)據(jù)和分項成績,通過核函數(shù)有效控制預(yù)測模型復(fù)雜度,對非線性時間序列情況下也具有較好預(yù)測效果[3]。因此,本文使用SVR算法作為基礎(chǔ)算法開展CET-4成績預(yù)測模型研究。

        線性回歸模型是構(gòu)建形如y=f(x)=Wx+b的預(yù)測函數(shù),其中x為特征屬性,y為目標(biāo)數(shù)據(jù),f(x)為回歸函數(shù),包括兩個參數(shù)W為各特征屬性的權(quán)重向量,b為函數(shù)常量。SVR是將原來的支持向量機(jī)SVM的分類模型轉(zhuǎn)化為回歸模型,將原來訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)點遠(yuǎn)離自己類別一側(cè)的支持向量,轉(zhuǎn)為每個數(shù)據(jù)點擬合到線性模型y=Wx+b中[4-6]。

        SVR定義一個偏差常量?,對于任意數(shù)據(jù)樣本x,當(dāng)絕對誤差|yx-f(x)|

        SVR預(yù)測模型的關(guān)鍵是圍繞絕對誤差|yx-f(x)|的最小化,求回歸函數(shù)f(x)的參數(shù)W和b。

        據(jù)此,構(gòu)建SVR回歸模型的目標(biāo)函數(shù)為:

        [minW,b||W||2,s.t.|y-Wx-b|<=ε]? ? ? ? ? ? ? (1)

        該目標(biāo)函數(shù)為在樣本點落入隔離帶時,控制W最小化,即模型復(fù)雜度最低,從而有效控制預(yù)測模型的泛化能力。

        引入拉格朗日乘子求極值情況下參數(shù),目標(biāo)函數(shù)轉(zhuǎn)化為:

        [Lw,b,a=12w2-k=1NakukwTxk+b-1+ε+Ck=1Nεk-k=1Nεμk]? ? ?(2)

        對L(w,b,a)對W,b,a分別求偏導(dǎo)并令偏導(dǎo)為0,從而得到:

        [w=k=1Nukakxkk=1Nukak=0C=μk-ak]? ? ? ? ? ? ? ? ? ? ? ? (3)

        目標(biāo)函數(shù)進(jìn)一步優(yōu)化為:

        [minw,b,?Lw,b,a=k=1Nak-12k=1Nl=1NxTkxlulakukal]? ? ? (4)

        該情況下,使用SMO序列最小化算法,得到預(yù)測函數(shù)參數(shù)一個解為:

        [w*=k=1Nuka*kxkb*=ul-k=1Nuka*k(xk?x1)]? ? ? ? ? ? ? ? ? ? ?(5)

        此時,得到基于支持向量的預(yù)測回歸函數(shù)為:

        [f(x)=k=1N(a*k-ak)K(x,xk)+b]? ? ? ? ? ? ? ? ? ? ? (6)

        其中,[K(x,xk)]為核函數(shù)。因此,SVR模型構(gòu)建主要探索使用[K(x,xk)]將數(shù)據(jù)樣本降維和關(guān)鍵參數(shù)W,b的計算[7]。

        3 基于SVR的CET-4預(yù)測模型

        構(gòu)建基于SVR的CET-4預(yù)測模型,主要按照數(shù)據(jù)預(yù)處理、關(guān)鍵特征提取、預(yù)測模型構(gòu)建三步實現(xiàn),其中數(shù)據(jù)預(yù)處理主要完成與CET-4成績相關(guān)數(shù)據(jù)的采集、清洗、規(guī)整等,關(guān)鍵特征提取主要對相關(guān)數(shù)據(jù)針對目標(biāo)屬性進(jìn)行主成因分析,提取其中關(guān)鍵特征,降低數(shù)據(jù)維度,控制復(fù)雜度,預(yù)測模型構(gòu)建按照SVR模型構(gòu)建方法,選取核函數(shù)和計算參數(shù),完成預(yù)測模型構(gòu)建。

        3.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘分析的基礎(chǔ),主要分析數(shù)據(jù)來源,對數(shù)據(jù)進(jìn)行采集、清洗、規(guī)整,實現(xiàn)對數(shù)據(jù)的規(guī)范化,為后期數(shù)據(jù)挖掘分析打下良好數(shù)據(jù)基礎(chǔ)[8]。對于CET-4成績預(yù)測問題,主要采集三個方面數(shù)據(jù):(1)學(xué)生基礎(chǔ)數(shù)據(jù),包括性別、年齡、生源地、專業(yè)、參考次數(shù)等;(2)學(xué)習(xí)過程數(shù)據(jù):包括高考英語成績、前導(dǎo)課程學(xué)習(xí)成績等;(3)歷史CET-4成績分項成績,包括聽力、閱讀、寫作三類的分項成績,對于多次參考學(xué)生,主要研究上次考試分項成績。

        針對上述采集的數(shù)據(jù),需要對數(shù)據(jù)進(jìn)行進(jìn)一步處理,包括:

        (1)離散數(shù)據(jù)數(shù)值化:將定序、定類、字符串等離散數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),如將性別男、女轉(zhuǎn)為0和1;專業(yè)按照英語相關(guān)專業(yè)為0,非英語專業(yè)為1;生源地城市按照經(jīng)濟(jì)發(fā)展程度綜合考慮,劃分為一線、二線、三線、四線和五線城市共5類,轉(zhuǎn)化為數(shù)值1-5。其他相關(guān)離散數(shù)據(jù)參照轉(zhuǎn)化。

        (2)統(tǒng)一標(biāo)準(zhǔn)規(guī)范化:將不同量綱的數(shù)據(jù)統(tǒng)一到同一標(biāo)準(zhǔn)內(nèi),一般采用最大-最小規(guī)范化方法轉(zhuǎn)化到[0,1]區(qū)間[9],具體轉(zhuǎn)化公式為:

        [xn=x-xminxmax-xmin]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (7)

        (3)異常數(shù)據(jù)正?;横槍?shù)據(jù)采集中的空缺值、重復(fù)值、異常值問題采用平均數(shù)填充、刪除重復(fù)項等方法,將相關(guān)異常數(shù)據(jù)合理化處理。如上次CET-4分項成績均為0的棄考學(xué)生成績,應(yīng)當(dāng)作為異常數(shù)據(jù)清除。

        在采集學(xué)生基礎(chǔ)數(shù)據(jù)、過程數(shù)據(jù)和歷史數(shù)據(jù)基礎(chǔ)上,按照數(shù)值化、規(guī)范化和正?;牟襟E完成數(shù)據(jù)預(yù)處理,形成了學(xué)生相關(guān)數(shù)據(jù)表,結(jié)構(gòu)為:學(xué)生(學(xué)號,性別,生源地,專業(yè),參考次數(shù),高考英語成績,英語課程成績,上次等考聽力成績,上次等考閱讀成績,上次等考寫作成績,本次等考成績),其中學(xué)號為標(biāo)識碼,中間9項為特征屬性,分別標(biāo)注為F1-F9,本次等考成績?yōu)槟繕?biāo)屬性,標(biāo)定為F0。由于需要依托上次等考成績?yōu)橛?xùn)練數(shù)據(jù)屬性,因此,主要針對學(xué)校多次參考CET-4的學(xué)生進(jìn)行預(yù)測分析,首次參加考試不做預(yù)測,這也符合英語教學(xué)和CET-4考試的實際情況。

        3.2 關(guān)鍵特征提取

        關(guān)鍵特征提取是根據(jù)特征之間的關(guān)聯(lián)程度和對目標(biāo)屬性的支持程度,選取部分特征作為特征集合建立與目標(biāo)屬性的關(guān)系。對于學(xué)生表(ID,F(xiàn)1,F(xiàn)2,F(xiàn)3,F(xiàn)4,F(xiàn)5,F(xiàn)6,F(xiàn)7,F(xiàn)8,F(xiàn)9,F(xiàn)0),對于特征F1-F9中任意的兩個特種Fi和Fj之間,數(shù)據(jù)樣本在其上的數(shù)據(jù)分布為X和Y,那么特征Fi和Fj之間的協(xié)方差rij為:

        [rij=covX,Y=i=1nXi-XYi-Yn-1]? ? ? ? (8)

        其中,Xi為第i個數(shù)據(jù)樣本取值,[X]為數(shù)據(jù)樣本均值,n為樣本數(shù)。

        從而構(gòu)建F1-F9的特征矩陣R,其中,m為特征數(shù),取值9:

        [R=covX=XX'm-1=r11……r1m…………rm1……rmm]? ? ? ? ?(9)

        計算矩陣R的特征向量為[λ]=[[λ1,λ2……λm]],[λi]表示了特征Fi在整個特征矩陣R中的主導(dǎo)地位,那么Fi在整個特征集合F1-F9的權(quán)重,可以表示為:

        [wi=λij=1mλj]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (10)

        按照權(quán)重從大到小排序,確保前N項提取特征的權(quán)重高于設(shè)定閾值,如0.8或0.75,即完成了F1-F9特征的關(guān)鍵特征提取。

        3.3 預(yù)測模型構(gòu)建

        根據(jù)第2節(jié)SVR模型構(gòu)建的方法,在數(shù)據(jù)預(yù)處理和關(guān)鍵特征提取的基礎(chǔ)上,主要完成核函數(shù)的選取和關(guān)鍵參數(shù)的計算。

        (1)核函數(shù)選取

        SVR模型中核函數(shù)主要是將高維特征空間降維到低維空間,常見的核函數(shù)包括線性函數(shù),多項式函數(shù)和徑向基核函數(shù)(RBF)。其中,徑向基核函數(shù)能夠解決高維特征數(shù)據(jù)集,并很好轉(zhuǎn)化為線性可分,具有廣泛適用性。因此,使用RBF函數(shù)作為核函數(shù)構(gòu)建SVR回歸模型:

        [Kx,xk=e-||x-xk||22σ2]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (11)

        (2)參數(shù)計算

        在SVR模型中求公式(2)和(3)中的參數(shù)C、參數(shù)[μ]和參數(shù)[ε],分別為模型復(fù)雜度、回歸模型線性程度和模型誤差容忍度。選擇最優(yōu)的SVR模型參數(shù)方法包括:基于遺傳算法方法、基于交叉驗證方法、基于神經(jīng)網(wǎng)絡(luò)等方法。

        對于CET-4成績預(yù)測問題,在關(guān)鍵特征提取基礎(chǔ)上進(jìn)行回歸預(yù)測,選取一組參數(shù),其中C偏大,選定更少更優(yōu)的特征,[μ]偏小,促進(jìn)模型更加平滑,[ε]偏小,提高預(yù)測波動范圍。在初始參數(shù)基礎(chǔ)上,按照網(wǎng)格法得到最優(yōu)參數(shù)組,以0.1為步長構(gòu)建參數(shù)網(wǎng)格,以2020年上半年CET-4成績?yōu)闇y試數(shù)據(jù)集,設(shè)定誤差閾值e,當(dāng)ave|f(x)-y|

        根據(jù)公式(5)、(6)的推導(dǎo),得到SVR回歸模型:

        [fx=SV(a*i-ai)?exp (-||xi-x||22σ2)+b]? ? ? ?(12)

        4 模型應(yīng)用與評估

        使用我校2017-2019學(xué)年的等考成績?yōu)橛?xùn)練數(shù)據(jù)集,以2019年下半年CET-4成績?yōu)闇y試集,研究本文的基于特征相關(guān)的SVR優(yōu)化模型,得到以累加權(quán)重為0.8,得到關(guān)鍵特征集為{上次等考聽力成績,上次等考寫作成績,英語課程成績,專業(yè),高考英語成績}五個特征,可以發(fā)現(xiàn)在本校中聽力和寫作能力培養(yǎng)非常關(guān)鍵,課程學(xué)習(xí)和英語基礎(chǔ)上也發(fā)揮重要作用,特別注意由于高職院校對CET-4沒有強(qiáng)制要求,因此英語相關(guān)專業(yè)學(xué)生更加重視備考和參考,因此分?jǐn)?shù)會更高。

        通過基于特征相關(guān)的SVR優(yōu)化模型構(gòu)建的回歸預(yù)測函數(shù),同線性回歸模型方法、普通SVR模型進(jìn)行比較,分別分析三種模型在訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集上的均方誤差。

        根據(jù)三種回歸模型,本文提出基于特征相關(guān)的SVR模型在數(shù)據(jù)集上具有更好的預(yù)測精度,同時,隨著數(shù)據(jù)集的積累,在測試集上具有更優(yōu)的泛化精度。

        5 結(jié)語

        CET-4是考核學(xué)生英語能力和評價學(xué)校英語教學(xué)質(zhì)量的重要指標(biāo)。針對CET-4成績預(yù)測問題,本文提出一種基于支持向量回歸算法的預(yù)測方法,按照數(shù)據(jù)預(yù)處理、關(guān)鍵特征提取、預(yù)測模型構(gòu)建的步驟完成CET-4成績回歸預(yù)測模型設(shè)計。以重慶旅游職業(yè)學(xué)院2017-2019學(xué)年5批次CET-4成績數(shù)據(jù)和學(xué)生平時學(xué)習(xí)過程數(shù)據(jù)為基礎(chǔ),完成模型試點應(yīng)用和模型評估,發(fā)現(xiàn)本文的優(yōu)化模型比線性回歸和普通SVR模型具有更好的可解釋性和更高的泛化精度。

        參考文獻(xiàn):

        [1] 韓魯峰.數(shù)據(jù)挖掘在大學(xué)英語四級成績預(yù)測中的應(yīng)用研究[J].電腦知識與技術(shù),2018,14(24):1-3.

        [2] 王欣欣,湯軍.學(xué)生成績預(yù)測模型的對比分析[J].電腦知識與技術(shù),2020,16(1):199-202.

        [3] 陳榮,梁昌勇,謝福偉.基于SVR的非線性時間序列預(yù)測方法應(yīng)用綜述[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2013,36(3):369-374.

        [4] 李永娜.基于支持向量機(jī)的回歸預(yù)測綜述[J].信息通信,2014,27(11):32-33.

        [5] 陳博,鄭凱東,王家華.多核支撐向量回歸方法研究[J].智能計算機(jī)與應(yīng)用,2019,9(1):188-191.

        [6] 羅學(xué)科,何云霄,劉鵬,等.ARIMA-SVR組合方法在水質(zhì)預(yù)測中的應(yīng)用[J].長江科學(xué)院院報,2020,37(10):21-27.

        [7] 肖建,于龍,白裔峰.支持向量回歸中核函數(shù)和超參數(shù)選擇方法綜述[J].西南交通大學(xué)學(xué)報,2008,43(3):297-303.

        [8] 羅長銀,陳學(xué)斌,宋尚文,等.數(shù)據(jù)預(yù)處理技術(shù)在異構(gòu)數(shù)據(jù)中的應(yīng)用[J].軟件,2020,41(5):6-13.

        [9] 孔欽,葉長青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究[J].計算機(jī)技術(shù)與發(fā)展,2018,28(5):1-4.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        特征提取預(yù)處理預(yù)測
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計
        不必預(yù)測未來,只需把握現(xiàn)在
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        午夜亚洲www湿好爽| 蜜桃传媒免费在线观看| 中国免费看的片| 性色av无码久久一区二区三区| 国产精品第1页在线观看| 91亚洲精品久久久蜜桃| 国产自拍在线观看视频| 啦啦啦中文在线观看日本| 亚洲另类激情综合偷自拍图| 欧洲乱码伦视频免费| 久草中文在线这里只有精品| 国产乱对白刺激视频| 成年女人毛片免费视频| 久久精品国产亚洲AⅤ无码剧情| 精品私密av一区二区三区| 丰满熟女高潮毛茸茸欧洲视频| 亚洲成人小说| 久久精品有码中文字幕1| 国产在线91精品观看| 忘忧草社区www日本高清| 亚洲欧美日韩激情在线观看| 日本精品人妻一区二区三区| 男女无遮挡高清性视频| 男女爱爱好爽视频免费看| 国产xxxxx在线观看免费| 国产亚洲日本精品二区| 久久久久人妻一区二区三区| 久久婷婷国产剧情内射白浆| 天堂av无码大芭蕉伊人av孕妇黑人| 草逼视频免费观看网站| 成人午夜视频精品一区| 午夜免费福利在线观看| 国内偷拍第一视频第一视频区| 亚洲欧洲日产国码av系列天堂| 人妻系列无码专区久久五月天| 欧美zozo另类人禽交| 国产精品亚洲一区二区三区16| 自愉自愉产区二十四区| 亚洲伊人久久大香线蕉影院| 青青草视频在线观看视频免费| 国产爆乳美女娇喘呻吟|