亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)下的大學(xué)生知識能力分類模型的構(gòu)建方法

2018-01-30 16:36:25雷良燦

電子技術(shù)與軟件工程 2017年15期

雷良燦

摘要：針對傳統(tǒng)高斯過程分類失衡數(shù)據(jù)的低精度和低效率，通過引入樣本權(quán)重系數(shù)的似然函數(shù)、后驗概率中的誘導(dǎo)變量及誘導(dǎo)因子重構(gòu)研究，解決原始方法的分類向少數(shù)類偏移和計算復(fù)雜問題，本文重點闡述分類模型的構(gòu)建內(nèi)容和研究技術(shù)路線，并給出模型的具體應(yīng)用和評價辦法，結(jié)果表明本文提出的大學(xué)生知識能力分類模型的構(gòu)建方法切實可行。

【關(guān)鍵詞】大數(shù)據(jù) 分類模型高斯過程分類似然函數(shù)

針對大量數(shù)據(jù)分類問題，國內(nèi)外學(xué)者開展了大量研究工作，取得了很好的效果。目前，這個領(lǐng)域內(nèi)的研究主要集中在三個方而的改進：數(shù)據(jù)集、算法和評價標(biāo)準。數(shù)據(jù)集方而，主要是對數(shù)據(jù)預(yù)處理以改善數(shù)據(jù)集中各類樣本之問數(shù)目的不平衡，但隨著大數(shù)據(jù)思維及運用的普及，規(guī)范統(tǒng)計工作推進增強了數(shù)據(jù)的高維計量性，用于探討行為規(guī)律、預(yù)測發(fā)展方向等領(lǐng)域的數(shù)據(jù)挖掘、時序跟蹤、關(guān)聯(lián)分析、網(wǎng)絡(luò)聚類等大數(shù)據(jù)處理技術(shù)與相應(yīng)軟件不斷完善，并逐步被集中于大數(shù)據(jù)管理系統(tǒng)，以服務(wù)大數(shù)據(jù)分析，方便政府?dāng)?shù)據(jù)挖掘、形勢預(yù)測與調(diào)整措施提出。因此，針對高校大學(xué)生知識能力分類與評價智能處理研究顯得十分必要，本文在大數(shù)據(jù)背景下，給出分類模型的主要研究內(nèi)容、研究方法及實驗方案。這對于高等學(xué)校、企事業(yè)等單位的人才分類與評價均具有重要的現(xiàn)實意義。

1 分類模型的構(gòu)建內(nèi)容分析

本模型的構(gòu)建內(nèi)容主要包括如下三個方而的內(nèi)容，具體如下：

1.1 大規(guī)模失衡數(shù)據(jù)的高斯過程模型似然函數(shù)重構(gòu)研究

基于傳統(tǒng)高斯過程分類模型，通過對似然函數(shù)的重構(gòu)，建立似然函數(shù)及在似然函數(shù)基礎(chǔ)上構(gòu)建的聯(lián)合似然函數(shù)與大規(guī)模數(shù)據(jù)集中少數(shù)類的敏感關(guān)系模型，使得錯分少數(shù)類樣本的代價大于錯分多數(shù)類樣本的代價，最終改善少數(shù)類樣本的分類預(yù)測精度。

1.2 高斯過程模型后驗概率誘導(dǎo)變量及誘導(dǎo)子

在傳統(tǒng)高斯過程模型基礎(chǔ)上，構(gòu)建誘導(dǎo)變量Fu，繼而探索引入Fu的后驗概率P，在大規(guī)模正負類中，最終合成誘導(dǎo)變量Fu中的誘導(dǎo)子集，使得誘導(dǎo)變量和子集趨于最優(yōu)，籍此降低計算復(fù)雜度和提升失衡數(shù)據(jù)的分類精度。

1.3 基于高校大學(xué)生知識能力的大規(guī)模失衡數(shù)據(jù)的高精度分類方法的實驗性驗證和應(yīng)用

本文設(shè)計一個基于寧德師范學(xué)院大學(xué)生知識能力特征的大規(guī)模數(shù)據(jù)分類驗證平臺，驗證上述各項研究內(nèi)容的結(jié)論，逐步完善各個環(huán)節(jié)在整體中的性能要求，建立性能評價模型，通過評價模型迭代完善分類模型性能和分類精度。

2 模型構(gòu)建的技術(shù)路線分析

存牛頓方法、粗糙集、內(nèi)外P集、K均值聚類算法等相關(guān)理論技術(shù)，對高斯過程模型的似然函數(shù)重構(gòu)設(shè)計和實驗、后驗概率分布計算中的誘導(dǎo)變量及誘導(dǎo)因子構(gòu)建方法進行研究，然后對核心算法進行實驗仿真和驗證。最后進行系統(tǒng)級設(shè)計，建立系統(tǒng)模型，完成系統(tǒng)驗證。具體的研究路線如圖1所示。

下而闡述解決主要問題的技術(shù)路線，具體如下：

2.1 大規(guī)模失衡數(shù)據(jù)的高斯過程模型似然函數(shù)重構(gòu)研究技術(shù)路線

第一步：建立不少于10組的規(guī)模不一的失衡數(shù)據(jù)集，根據(jù)高校貧困學(xué)生的分布狀況，應(yīng)控制這10組數(shù)據(jù)的規(guī)?？刂票壤摌颖镜谋壤刂圃?：10000以內(nèi)，其中小于1：5000的實驗數(shù)據(jù)組不少于3組。

第二步：在傳統(tǒng)高斯過程潛變量函數(shù)基礎(chǔ)上，定義在訓(xùn)練本上的似然函數(shù)，并建立而向第一步多組數(shù)據(jù)集上的聯(lián)合似然函數(shù)，這里的聯(lián)合似然函數(shù)的構(gòu)建將根據(jù)實驗數(shù)據(jù)組的變化，構(gòu)建多個聯(lián)合似然函數(shù)，實驗驗證聯(lián)合似然函數(shù)的與實驗數(shù)據(jù)組的最佳關(guān)系，同時驗證聯(lián)合似然函數(shù)的、實驗數(shù)據(jù)組、各組正負樣本比例三者之問的關(guān)系。

第三步：充分驗證錯分一個少數(shù)類樣本的代價與錯分一個多數(shù)類樣本的代價對比結(jié)果，并驗證聯(lián)合似然函數(shù)對于少數(shù)正樣本類的敏感性。

第四步：在聯(lián)合似然函數(shù)中的正負類樣本對應(yīng)的似然函數(shù)上引入不同的權(quán)重系數(shù)，進行迭代式重構(gòu)實驗，使得錯分少數(shù)類樣本的代價大于錯分多數(shù)類樣本的代價，在該步研究中，可能會遇到權(quán)重系數(shù)取值問題，對于問題解決辦法為：總體上應(yīng)確保少數(shù)類樣本對應(yīng)的權(quán)重系數(shù)要大于1，而多數(shù)類樣本對應(yīng)的權(quán)重系數(shù)要小于1，兩類樣本數(shù)目越懸殊，權(quán)重的差距應(yīng)根據(jù)實驗迭代驗證結(jié)果設(shè)定在一個合理值，總體目標(biāo)是保證聯(lián)合似然函數(shù)中正負類樣本在整體上具有一樣的話語權(quán)。

2.2 高斯過程模型后驗概率誘導(dǎo)變量及誘導(dǎo)子集的構(gòu)建研究技術(shù)路線

為構(gòu)建一個最佳化的誘導(dǎo)變量和誘導(dǎo)子集，采用如下研究技術(shù)路線：

第一步：首先對樣本集使用粗糙集和P集理論方法進行連續(xù)數(shù)據(jù)離散化處理，繼而進行樣本集的篩選和屬性約簡研究。

第二步：構(gòu)建誘導(dǎo)變量Fu，通過微積分推導(dǎo)出含有誘導(dǎo)變量Fu的后驗概率，在構(gòu)建變量和后驗概率推導(dǎo)中，采用有限儲存牛頓方法、Gauss-Hermite求積公式、稀疏矩陣等計算得出高斯函數(shù)逼近參數(shù)值。

第三步：在第一步基礎(chǔ)上，進一步利用K均值聚類算法或改進的聚類算法、分別從正負類中選取相同數(shù)目的樣本來構(gòu)成最佳誘導(dǎo)子集，在本步研究過程中，將會遇到的問題是：當(dāng)均值聚類算法的迭代次數(shù)設(shè)定為某數(shù)值時，該算法有時會存在生成的聚類中心數(shù)目小于設(shè)定的數(shù)目的情況，從而造成聚類失敗，針對這種問題，采用的辦法是將隨機從樣本較多的聚類中選取相應(yīng)數(shù)目的樣本來補齊。

3 實驗方案

在實驗方法上，可采用如下實驗方案：

（1）對比實驗：設(shè)置四個或四個以上同傳統(tǒng)高斯過程分類模型及目前優(yōu)秀的分類算法對比實驗，通過實驗結(jié)果的對比分析，找出本研究方法存在的問題，改正不足，逐步完善分類方法。

（2）驗證實驗：在高校大學(xué)生消費、購買等行為大規(guī)模特征數(shù)據(jù)基礎(chǔ)上，對集成后的分類方法進行驗證性實驗，通過驗證性實驗，主要驗證本課題的研究能否達到預(yù)期的設(shè)計目標(biāo)。

在實驗工具上，采用如下實驗方案：

（1）在實驗階段，對于似然函數(shù)重構(gòu)、誘導(dǎo)變量及誘導(dǎo)因子的構(gòu)建、及與其它分類算法的對比實驗主要采用Matlab仿真軟件進行實驗分析與處理。此外，部分對比驗證性實驗借用sPss分析工具進行分析與評價。

（2）在驗證性應(yīng)用階段，在本課題研究的分類方法基礎(chǔ)上，進一步使用VC工具開發(fā)出高校大學(xué)生知識能力輔助決策平臺。

4 結(jié)論

本文根據(jù)高校大學(xué)生知識能力評價業(yè)務(wù)的需求，結(jié)合海量數(shù)據(jù)樣本實際情況，介紹了大規(guī)模失衡數(shù)據(jù)的高斯過程模型似然函數(shù)重構(gòu)、高斯過程模型后驗概率誘導(dǎo)變量及誘導(dǎo)子集的構(gòu)建兩個重點研究內(nèi)容及其研究技術(shù)路線，繼而闡述了分類模型的實驗方案和評價方法，文中介紹的模型構(gòu)建方法具有較好的借鑒性，為了進一步提供模型的精確度，后續(xù)將開展樣本數(shù)據(jù)的關(guān)于大學(xué)生知識能力敏感特征選擇研究。

參考文獻

[1]邢勝，王熙照，王曉蘭，基于多類重采樣的非平衡數(shù)據(jù)極速學(xué)習(xí)機集成學(xué)習(xí)[J].南京大學(xué)學(xué)報（自然科學(xué)）， 2016， 52（01）： 203-209.

[2] Kim Hyun-chul， Ghahramani Z. Bayesian Gaussian process classification with the EM-EP algorithm[J].IEEE Transactions on Pattern Analysis and Machine Intelligence， 2016， 28 （12）： 18-2 0.

[3]H. Han，W.Y.Wang，B.H.Mao， Borderline-SMOTE：A new over-sampling method inimbalanced data sets learning. The 2005 International Conference on Advances in Intelligent Computing（ICIC' 05）， 2014： 878-887.endprint