陶佰睿,劉凱達,苗鳳娟,孫同日,余 艷,李敬有
(齊齊哈爾大學 a.通信與電子工程學院;b.計算機與控制工程學院,黑龍江 齊齊哈爾 161006)
當前,我國高等教育正進入大眾教育階段,學生人數快速增加,無法按時完成課程和學業(yè)的學生也不斷增多,對高校學生管理提出新需求。學業(yè)預警模式能夠較好地適應目前高等教育管理的要求,更是現代化教學管理體系的重要部分。通過實行學業(yè)預警機制,學生能夠得到學校、家庭的持續(xù)關注和引導,也能夠提升學生的學習自主性,學生可以通過這種機制來獲取自己階段性學習成果的反饋,并根據反饋結果做出必要的調整與應對,最大可能的降低危機事件的產生[1-3]。學業(yè)預警信息涉及學生多種狀態(tài)信息的收集、處理、分析,工作量龐大,它的準確性、靈敏度和運行效率備受關注,因此,深入地研究預警信息的量化處理方式具有現實意義[4-7]。
近年來很多學者對學業(yè)預警以及相關算法進行研究,文獻[8]中使用ID3算法對高校學生的學籍信息數據和日常表現數據進行數據挖掘,并以數據挖掘結果建立學生學業(yè)預警的決策樹,為學生管理提供數據支持。文獻[9]中采用K-means算法針對高維小樣本癌癥基因數據集的有效區(qū)分基因子集選擇難題,提出K-means改進SVM算法模型提升了分類器的性能。
本文針對高校學業(yè)困難學生過程化管理的預警需求,通過學生的入學成績、學期成績、一卡通應用數據、早操考勤和學籍處理等狀態(tài)數據,基于大數據處理思想,提出核函數的模糊均值聚類(Kernelized Fuzzy C-Means,KFCM)改進支持向量機(Support Vector Machine,SVM)數據決策算法,開展學生學業(yè)預警決策研究。
2.4 不同施氮量對烤煙內在化學成分的影響 一般認為,我國優(yōu)質烤煙C3F的適宜總糖含量以20%~26%為宜,還原糖含量以18%~25%為宜,煙堿含量以2.5%為宜,含鉀量不得低于2%;在南方煙區(qū)含鉀量以3%左右最為適宜,總氮含量以2.5%為宜,氯含量以0.4%~0.8%較為理想,施木克值(糖蛋比)在2.0~2.5煙葉質量較好,總氮與煙堿比值以1較為合適;糖堿比在8~10為宜。
當前高校學生管理信息化進程大多停留在信息采集系統的設計與推廣層面。通過構建學生信息數據庫,學院和學校掌握了大量學生的基本情況,為進一步的學生管理工作奠定了基礎。但若進一步拓展管理信息化的外延不難發(fā)現,當前高校信息化建設的覆蓋度仍然不夠廣泛,學生管理服務主體層面的信息化建設進程相對滯后。在高校學生管理工作中,社交軟件被廣泛應用,微信、QQ、飛信等通信工具成為高校信息公告發(fā)布的重要途徑,效果良好,但軟件自身設計的缺陷也為學生管理工作提出新要求。
SVM是一種新的機器學習方法,具有良好的泛化能力與分類精度,他避免了人工神經網絡等方法的網絡結構選擇、過學習和欠學習以及局部極小等問題,其基本原理如下:不失一般性,假定大小為l的訓練樣本集{(xi,yi),i=1,2,…,l}包含兩個類別,若將xi歸為第1類,則令yi=1;若將xi歸為第2類,則令yi=-1。xi表示數據點,xi∈Rd(i=1,2,…,N),目標yi表示類別,與每個向量xi關聯。尋找最優(yōu)超平面的問題就轉化為解凸二次方程問題,即[10-11]:
(1)
步驟1初始化聚類數目c和迭代停止條件ε∈(0,1),迭代終止次數T。
(2)
本文選取高斯核函數為:
《伊朗制裁法案》第5(a)(7)和(8)條規(guī)定,對將伊朗原油承運至其他國家的如下行為人員,總統應對其施加5項或更多制裁:1)對船舶有控制權的受益人且明確知道該船舶被用于此目的;2)擁有、營運、控制或為該船舶提供保險、知道或應當知道該船舶被用于此目的的人。同時,對上述人員隱匿相關石油或石化產品來源的行為(包括允許船舶營運方關閉衛(wèi)星監(jiān)控設施、掩蓋和隱匿船舶的身份等),可以追加額外制裁措施,包括禁止船舶在美國港口???、被列入受制裁者名單等。
依據Largrance對偶理論把式(2)轉變?yōu)閷ε紗栴},即:
(3)
最優(yōu)分類超平面如圖1所示。
圖1 最優(yōu)平面示意圖
將SVM用于處理本文的學生狀態(tài)數據樣本較少、維數較多的非線性數據方面也具有較大的優(yōu)勢。本文將學生狀態(tài)數據等非線性數據映射到某個高維空間,使它在高維空間中線性可分。即通過非線性變換Φ:Rm→H將低維空間映射到高維空間,使高維空間中的分類器變得更加簡單,數據映射后如圖2所示。
圖2 學生狀態(tài)數據由原始空間向高維特征空間映射
不加權的SVM分類平面偏向于樣本少的一側,對于分類測試雖然樣本多的一側能夠很好的識別,但是樣本少的一側卻錯誤識別的幾率較大。而采用了加權的SVM,其分類平面根據樣本的數據被糾正,適當的進行偏移,取得了相對普通SVM更佳的效果。分類平面糾正的結果如圖4所示。
(4)
映射到高維特征空間后對應求解問題為:
(5)
3)平臺應用。平臺應用主要是指建立業(yè)務平臺、身份管理平臺、數據統一等平臺,構建統一的校園支撐服務平臺。通過多樣化的軟件應用,為用戶提供統一的開發(fā)、運行和應用環(huán)境,滿足用戶豐富的使用需求。
1.2.2 SW480結腸癌細胞株慢病毒過表達miR-454-3p將SW480結腸癌細胞株(中科院上海生物細胞研究所)接種于96孔細胞培養(yǎng)板中,置于37℃培養(yǎng)箱中培養(yǎng)24 h,當細胞密度達約50%~70%時進行轉染操作,參照Lipofectamine2000試劑(Invitrogen)說明書將 miR-454-3p mimics及陰性對照轉染SW480結腸癌細胞株,熒光顯微鏡下觀察細胞狀態(tài)及轉染效率。以初步確定miR-454-3p的表達情況。
(6)
于是可以定義每個樣本的權重為:
(7)
S+ξi≥0,i=1,2,…,n+
KFCM通過非線性映射Φ:Χ→F將輸入空間Χ變換至高維特征空間F,即將本文的學生狀態(tài)數據(學生的入學成績、學期成績、一卡通應用數據、早操考勤和學籍處理)樣本xi(i=1,2,…,n)映射到Φ(xi)進行聚類[12-13]。其聚類的目標函數為:
(8)
式中:vj(j=1,1…,c)為輸入空間聚類中心,c為類別數;uji(i=1,2,…,n,j=1,2,…,c)為第i個樣本對第j個類別的隸屬度;m為加權指數。定義核函數K(x,y)=Φ(x)TΦ(y),故其和空間的歐式距離為:
預算方案制定完成后就是預算方案的執(zhí)行,但是,在大部分企業(yè)中,其在執(zhí)行預算編制內容時,經常受到各類主觀、客觀因素的影響而導致預算執(zhí)行計劃更改。此類擅自調整預算計劃行為的出現,極大程度上造成了財務資金運行結果與預算方案制定結果之間的大相徑庭。另一方面,在預算執(zhí)行期間,少部分企業(yè)由于并未制定有關于預算管理方面的管理體制,出現了資金預期編制與執(zhí)行效果不符的情況,此種問題出現主要是由于缺少對預算過程的監(jiān)督環(huán)節(jié)和預算結果的考核評價環(huán)節(jié),最終造成企業(yè)預算管理質量提升艱難。
(9)
KFCM的準則是求目標函數的極小值。根據Lagrange乘子尋優(yōu)法,將式(9)代入式(8)可以求得隸屬度即目標函數:
I am sure I should be a fool to change such a situation as mine.Fortune I do not want employment I do not want;consequence I do not want:I believe few married women are half as much mistress of their husband’s house,as I am of Hartfield.(67)
uji=
(10)
(11)
式中,αi>0(i=1,2,…,l)為Largrance系數。
K(x,y)=exp-x-y2/(2σ)2
(12)
式中,σ為高斯核函數。
本文選取S大學學生狀態(tài)數據,經過對數據進行分析發(fā)現存在學業(yè)問題的學生數是少數,是典型的不平衡分類問題。不平衡分類問題即在二分類問題中,其中一類的樣本數目遠大于另一類的樣本數目,即類與類之間的樣本不平衡。為解決SVM在訓練時會產生分類平面易偏向少類樣本從而造成無法正確分類的情況,本文設計了一種結合KFCM以及SVM的學業(yè)預警算法流程。利用KFCM算法對原始數據樣本進行聚類得到聚類中心vj和隸屬度uji,然后根據樣本點到聚類中心vj的距離作為權重對SVM的懲罰項C進行加權,具體流程圖如圖3。
算法具體的步驟如下:
式中,w和b是超平面方程f(x)=wx+b的系數。構造Largrance函數:
圖3 基于KFCM改進SVM的算法流程圖
步驟2選擇核函數K(x,y)以及其參數。
步驟3初始化聚類中心vj(j=1,2,…,c)。
步驟4按式(10)計算每個樣本在特征空間的隸屬度函數uji(i=1,2,…,n,j=1,2,…,c)。
步驟6判斷終止條件,符合則算法停止,否則轉到步驟5。
4.1 凍害前采取防御措施的,都有一定效果調查發(fā)現,凍前采取了灌水(增加果園空氣濕度)、熏煙等措施的,比周圍未采取措施的,防凍效果明顯,坐果率前者比后者高20%。岐山募化王林安蘋果園凍前樹體噴布防凍液(優(yōu)花優(yōu)果等藥劑),我們調查時同村人說:“老王不知道噴了什么藥,他有蘋果,我們沒噴就沒蘋果?!?/p>
步驟7假設數據樣本中正樣本(少類樣本)的個數為Num+,負樣本(多類樣本)的個數為Num-,則可以定義正負樣本的比例為:
R=Num+/Num-
(13)
從而最終的最優(yōu)分類函數為:
(14)
步驟8將上步得到的權重對SVM的懲罰項C進行加權,加權后為:
(15)
yi(ωTxi+b)≥1-S+ξi,
相比之下,國際上一些知名公司會積極進行對外交流,在交流中抓住各種有利機會,對碳信息進行全面分析,最大程度地挖掘碳信息所反映的企業(yè)經營問題,發(fā)揮碳會計披露的指導作用。這也從側面反映出我國大多數企業(yè)缺乏環(huán)保意識,對碳會計信息披露對企業(yè)持續(xù)發(fā)展的認識不夠充分。
當樣本類別分布均衡時,SVM能夠取得較高的分類精度,然而應用于不平衡分類數據集如本文的學生狀態(tài)數據時,其分類性能會大大降低,故本文通過KFCM改進SVM的懲罰項C來提高SVM對數據分類的準確性。
yj(ωTxj+b)≥1-S-ξj,
S-ξj≥0,i=1,2,…,n-
轉化為對偶問題可以寫為:
(16)
式中,Si滿足
(17)
當原始狀態(tài)數據通過非線性映射到高維特征空間時,需要在高維特征空間中計算點積,從而導致計算量增加。這里采用滿足Mercer條件的核函數K(xi,xj)來代替點積運算,可以減少計算量與復雜度:
圖4 基于加權SVM的效果圖
本文實驗對象選擇的是某專業(yè)學生2014~2018年大學4年的學生入學成績、學期成績、一卡通應用數據、早操考勤和學籍處理等狀態(tài)數據。共65名學生,其中有3名學生(少類樣本)是受到處分且不能順利畢業(yè)的同學。本文選取其中的45名學生的數據進行算法的訓練建模,剩下的20名進行測試。將順利畢業(yè)的學生的標簽設為1,將受到處分且沒有順利畢業(yè)的學生標簽設為2。共進行10次試驗。
在進行KFCM改進SVM算法中,聚類數目c取2,加權指數m取2,核函數選擇高斯核函數,并去σ=25,初始聚類中心vj取為0~1之間的隨機數,算法停止條件為相鄰迭代步數間的隸屬度值的差的絕對值小于0.005或者迭代次數超過100。
本文進行了普通的SVM、BP神經網絡、GA-SVM和基于加權的SVM在學生學業(yè)預警數據上的測試。這些算法其中一次的聚類預測結果如圖5~8所示。
3.2 被動訓練對嬰兒智力及運動發(fā)育的影響及機制 小兒神經系統在胚胎時期就開始發(fā)育了,對于新生兒出生時窒息時間及狀況,會造成不同程度的腦損傷,且目前為止沒有有效的藥物治療。本研究對出生窒息患兒的研究顯示,科學合理的被動訓練對0~6個月窒息患兒的智力發(fā)育及運動發(fā)育都是有利的。國外已有報道表明,早期干預包括科學的被動訓練可以改善因環(huán)境及生物因素所引起的兒童智力落后[6]。
圖5 BP神經網絡測試結果圖6 GA-SVM測試結果圖7 SVM預測結果圖8 加權SVM預測結果
圖5~8中的縱坐標1與2分別代表能順利畢業(yè)的學生與不能順利畢業(yè)的學生。其中橫坐標為學生個數,本次實驗共選擇20名學生進行測試。
針對本文的不平衡分類問題,以分類準確度作為分類器性能評價標準是不恰當的,例如,在垃圾郵件過濾系統中,常規(guī)郵件(看作多類樣本)的數目N0將遠大于垃圾郵件(看作少類樣本)的數目N1,例如N0∶N1=99∶1。此時,如果分類器將樣本全部分成常規(guī)郵件,那么它將得到99%的準確率。但這樣的準確率是毫無意義的。所以,在本文中對分類器的分類性能評價選取了兩個,一個是精度(accuracy,ACC),另一個是Kubat等提出了一種新的度量指標——G-mean[14-15]。對于分類器的分類結果,其性能通??捎苫煜仃嚫爬?見表2。
表2 混淆矩陣
其中,精度的計算式為:
(18)
G-mean的計算式為:
SE=TP/(TP+FN)
(19)
SP=TN/(TN+FP)
除此之外,對于零工經濟的法律監(jiān)管也較為混亂?,F有法律并沒有明確規(guī)定企業(yè)平臺所需承擔的責任和義務,也沒有對于勞動服務供給者的資質提出明確要求。由于監(jiān)管政策不夠明確,導致相關行業(yè)亂象重生,甚至出現了嚴重的刑事案件,例如鄭州空姐遇害事件、溫州樂清女大學生遇害事件。
(20)
(21)
這些算法的平均聚類預測結果見表3。
(1)中間品進口的國際技術溢出對東、中、西部制造業(yè)技術創(chuàng)新能力影響的差別較大,其中東部技術創(chuàng)新能力顯著性水平最低,主要原因是對外貿易是東部經濟收入的重要源頭,而技術是以加工貿易為核心,該種貿易方式使得東部地區(qū)需要更多的進口中間品。因此,中間品進口的國際溢出對技術創(chuàng)新能力的提升并不顯著。中間品的國際技術溢出對提高中部地區(qū)技術創(chuàng)新能力的顯著性不夠明顯,因此應通過研發(fā)資本投入和吸引外資等技術溝通措施,實現中部技術創(chuàng)新能力以及中間品進口的國際技術溢出能力。而相對于東部以及中部的中間品進口產生的國際技術溢出效應,西部的技術創(chuàng)新能力呈現明顯提升。
表3 結果對比
結果顯示,本文基于KFCM改進的加權SVM的預測結果優(yōu)于其它的機器學習算法,其G-mean正確率達到94%。它達到這么高的原因是測試集里面只有兩個是少類樣本,而該分類器不僅把少類樣本全部正確分類,而且多類樣本也僅有一個分類錯誤,這也從側面證實了該算法能明顯改善普通的機器學習算法在分類時容易使分類結果偏向多類樣本情況。
綜上,運費險的確會在某種程度上影響著線上消費者的購買和退貨決策。當商家主動提供運費險時,消費者更傾向于在該店鋪購買產品而退貨率并不會因此大大提升;當商家不提供運費險時,消費者會經過考慮產品價格、退貨率、運費險價格、惰性等多種因素后再進行是否購買運費險的決策。
本研究可以為高校建立預警模型提供有效的技術支持。首先,學生可以通過學業(yè)預警系統對自己的學業(yè)情況進行評估,并根據預測的結果來進行調整,以期順利畢業(yè)。同時,預警系統也可以為教師或教學管理者提供學生學業(yè)狀態(tài)數據,便于他們精準幫扶學業(yè)困難學生盡力完成自己的學業(yè)。