亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大學(xué)生就業(yè)偏好群體劃分方法

        2018-01-11 01:52:33韓雪峰
        社科縱橫 2018年1期
        關(guān)鍵詞:典型向量耦合

        韓雪峰 劉 洋

        (遼寧工程技術(shù)大學(xué) 遼寧 阜新 123000)

        引言

        隨著大學(xué)生數(shù)量的不斷增多和就業(yè)形勢的復(fù)雜多樣,對大學(xué)生的就業(yè)偏好及其影響因素進(jìn)行分析是當(dāng)前高等教育研究領(lǐng)域的一個重要課題[1][2]?,F(xiàn)有大多數(shù)分析方法通常以調(diào)研的整個學(xué)生群體作為分析對象,很少或沒有綜合考慮按家庭條件、學(xué)習(xí)成績、興趣愛好、性別等對學(xué)生群體進(jìn)行劃分,因而導(dǎo)致分析結(jié)果不具有針對性和精準(zhǔn)性[3][4]。而在現(xiàn)實應(yīng)用中,大學(xué)生的就業(yè)意愿及其影響因素在很大程度上與其背景信息(如家庭條件、學(xué)習(xí)成績、生源地、興趣愛好、父母學(xué)歷、性別等)密切相關(guān),因此需要先對大學(xué)生的背景信息進(jìn)行詳細(xì)調(diào)查,進(jìn)而將學(xué)生群體進(jìn)行劃分,從而精準(zhǔn)分析每類學(xué)生的就業(yè)意愿及其影響因素。近年來,有一些研究工作開展了針對不同類別大學(xué)生的就業(yè)價值取向的問題研究,如文獻(xiàn)[5]根據(jù)大學(xué)生生源地的不同,提出了西部少數(shù)民族大學(xué)生在就業(yè)過程中面臨的問題和價值取向;文獻(xiàn)[6]針對農(nóng)村大學(xué)生的“就業(yè)難”問題展開了深入分析和研究,并提出了相應(yīng)的解決對策;文獻(xiàn)[7]從性別角度,研究了女大學(xué)生就業(yè)質(zhì)量和影響因素評價體系。上述研究雖然對大學(xué)生群體進(jìn)行了劃分,但劃分標(biāo)準(zhǔn)都基于單因素(如僅從生源地、農(nóng)村城市、性別等方面),并沒有綜合考慮學(xué)生背景信息多因素之間的復(fù)雜耦合關(guān)系。本文從學(xué)生背景信息出發(fā),根據(jù)學(xué)生在背景信息多因素(如綜合考慮父母職業(yè)、學(xué)歷、家庭收入、學(xué)習(xí)成績、性別等)方面的耦合相似度,提出典型大學(xué)生選取和學(xué)生群體劃分方法,使得同類學(xué)生群體內(nèi)部學(xué)生之間具有較高的綜合相似/相關(guān)度。

        本文組織結(jié)構(gòu)為:第一部分闡述大學(xué)生背景信息之間的耦合關(guān)系分析方法;第二部分提出學(xué)生典型程度度量方法;第三部分提出top-k典型學(xué)生近似選取方法以及學(xué)生群體劃分方法;第四部分是實驗結(jié)果分析與性能評價。

        一、大學(xué)生背景信息之間的耦合關(guān)系分析

        本文所述的耦合關(guān)系是指學(xué)生背景信息之間存在的各類顯式或隱含關(guān)聯(lián)關(guān)系。給定兩個學(xué)生,如果他們在背景信息的各個維度上都很相似或相關(guān),則這兩個學(xué)生之間就具有較強耦合關(guān)系,通常應(yīng)該被劃分到相同群體。例如,在家庭住址方面,兩個學(xué)生居住在相同或相近的區(qū)域;在學(xué)習(xí)成績方面,兩個學(xué)生的專業(yè)必修課成績接近;在興趣愛好方面,兩個學(xué)生都偏好統(tǒng)計分析和軟件編程等。反之,如果他們在背景信息上的關(guān)聯(lián)度較小,則他們之間的耦合關(guān)系較弱。例如,生活在農(nóng)村的大學(xué)生和生活在一線城市的大學(xué)生,他們在家庭條件、父母職業(yè)、興趣愛好方面可能都有很大不同,進(jìn)而導(dǎo)致就業(yè)意向和擇業(yè)時考慮因素上的差別。而這些學(xué)生,應(yīng)該被劃分到不同群體,分別歸屬于不同類別。

        表1 學(xué)生背景信息實例

        (一)學(xué)生背景信息向量空間模型的構(gòu)建

        本文主要從以下方面調(diào)研學(xué)生的背景信息,包括父母職業(yè)、父母受教育程度、父母政治面貌、家庭收入、家庭所在地、所學(xué)專業(yè)、平均成績、性別等10個屬性,其中父母職業(yè)、父母教育程度、父母政治面貌、家庭所在地、所學(xué)專業(yè)及性別是文本屬性,家庭年收入、平均成績是數(shù)值屬性。表1給出了學(xué)生背景信息的數(shù)據(jù)實例。

        從上表可以看出,每個學(xué)生的背景信息都可由{父親職業(yè)、母親職業(yè)、父母教育程度、父親政治面貌、母親政治面貌、家庭收入、家庭所在地、所學(xué)專業(yè)、平均成績、性別}屬性上對應(yīng)的值來描述。例如,表1中序號為1的學(xué)生,其父親職業(yè)為“國家機關(guān)、黨群組織、企業(yè)、事業(yè)單位”,母親職業(yè)是“專業(yè)技術(shù)人員”,父母教育程度為“大學(xué)及以上”,父親政治面貌是“群眾”,母親的政治面貌是“群眾”,家庭年均總收入為“十萬位”,家庭所在地為“縣/鄉(xiāng)鎮(zhèn)”,所學(xué)專業(yè)是“農(nóng)學(xué)”,本科時專業(yè)課平均成績?yōu)椤?0”,性別是“男”。

        表2 “學(xué)生1”背景信息對應(yīng)的向量表

        下面討論如何根據(jù)學(xué)生的背景信息評估任意一對學(xué)生之間的耦合關(guān)系。來看一個例子,在表1中,序號為1和2的學(xué)生父母職業(yè)分別是“國家機關(guān)、黨群組織、企業(yè)、事業(yè)單位”和“專業(yè)技術(shù)人員”,如果按照傳統(tǒng)的嚴(yán)格關(guān)系匹配方法,也就是所有屬性上的取值必須完全相同,則學(xué)生1和學(xué)生2之間的相似度為0;但實際上,即便是這兩個學(xué)生描述信息之間不完全匹配,也就是說僅在部分屬性上相匹配,他們之間也有可能是相似的。在上例中,學(xué)生1和學(xué)生2的父母政治面貌都是“群眾”,家庭收入都是“十萬位”,性別都是“男”,因此他們之間具有一定的相似性。本文目的在于利用這種在部分屬性上的相似/相關(guān)關(guān)系來精確量化兩個學(xué)生之間的耦合相似度,基本思想是根據(jù)背景信息構(gòu)建每個學(xué)生的向量空間模型,然后通過評估背景信息向量表之間的重合程度來計算不同學(xué)生之間的耦合相似度。

        背景信息的向量表可用一個兩欄結(jié)構(gòu)表示,由屬性(Attributes)和值信息(Values)兩列構(gòu)成,表2和表3分別給出了大學(xué)生背景信息數(shù)據(jù)集上對于“學(xué)生1”和“學(xué)生2”的向量表,向量表中的每個屬性對應(yīng)向量中的一個分量。

        表3 “學(xué)生2”背景信息對應(yīng)的向量表

        (二)耦合相似度評估方法

        根據(jù)上文所述,學(xué)生背景信息向量表中包含了對應(yīng)于每個屬性的值,所以可根據(jù)向量表中各個屬性上值的相似度來計算學(xué)生之間的耦合關(guān)系度。

        由于本文調(diào)研的學(xué)生背景信息僅包含文本和數(shù)值兩類屬性,文本值之間的相似度容易處理,主要根據(jù)兩個值是否重合,重合即為1,否則為0。如果一個屬性下有多個值,則利用Jaccard系數(shù)進(jìn)行計算相似度,即 J(A,B)其中A、B分別代表兩個向量表中相同屬性上對應(yīng)的值集合,例如表2和3中的屬性“母親職業(yè)”,A={國家機關(guān),專業(yè)技術(shù)},B={工廠,專業(yè)技術(shù)},則它們在該屬性上的Jaccard系數(shù)為1/3。

        由于數(shù)值之間具有連續(xù)性,我們不能直接利用上述方法量化數(shù)值之間的相似度,例如兩個學(xué)生的專業(yè)課平均成績分別是70和72,這兩個值在數(shù)值上接近,不能完全看成是兩個不同的值,本文借鑒模糊集理論的基本方法評估數(shù)值之間的語義相似度。根據(jù)模糊集理論,給定一個數(shù)值Y,在數(shù)值上接近Y的數(shù)構(gòu)成了一個模糊集合,用“close to Y”表示,它的隸屬函數(shù)在論域U上定義為

        其中,u為論域U上的一個元素;μclose to Y(u)代表元素u隸屬于“close to Y”的程度;β為一個調(diào)節(jié)值,β越大,對于同一個u來說,u隸屬于“close to Y”的程度越大。模糊集“close to Y”的隸屬函數(shù)如圖1所示。

        圖1 模糊集“close to Y”的隸屬函數(shù)

        基于該思想,假設(shè)數(shù)值屬性A中包含的值為{v1,v2,…,vn},根據(jù)上述“close to Y”的隸屬函數(shù),兩個數(shù)值vi和vj之間的語義相似度可由下式計算:

        其中,β=1.06σn-1/5,σ是數(shù)值屬性A上所有值的標(biāo)準(zhǔn)差,n為A中所有值的個數(shù)。從式(2)可以看出,vi與vj在數(shù)值上越接近,則Nsim( )的值越接近1。

        在此基礎(chǔ)上,通過合并兩個向量表中所有對應(yīng)屬性上的相似度,可獲得這兩個向量表對應(yīng)的學(xué)生之間的耦合關(guān)系度。然而,在評估兩個向量表之間相似度過程中,向量表中每個屬性的重要程度不盡相同。例如,家庭收入與父母政治面貌相比,前者對學(xué)生相似度評估和類別劃分顯得更重要。因此,兩個不同學(xué)生之間的耦合關(guān)系度,應(yīng)該是兩個向量表中不同權(quán)重值之間的相似度之和,

        其中,S1和S2代表兩個不同學(xué)生;V1和V2分別是對應(yīng)學(xué)生S1和S2的兩個向量表(假設(shè)每個向量表都包含m個屬性);Valuesi是向量表中第i個屬性對應(yīng)的值信息;W(Ai)是屬性Ai的權(quán)重

        (三)耦合關(guān)系度的實現(xiàn)算法

        根據(jù)上述耦合關(guān)系評估方法,下面給出相應(yīng)的實現(xiàn)算法(算法1)。算法首先抽取出學(xué)生背景信息數(shù)據(jù)集中的所有不同的學(xué)生對,然后按照上述耦合關(guān)系評估方法得出不同學(xué)生對之間的耦合關(guān)系度。由于學(xué)生之間的耦合關(guān)系矩陣是對稱的,因此只需計算上半矩陣。

        算法1 學(xué)生耦合關(guān)系度實現(xiàn)算法輸入:學(xué)生個數(shù)-n,背景信息屬性個數(shù)-m,屬性值-V a l u e s,屬性權(quán)重-W輸出:學(xué)生耦合關(guān)系度矩陣M a t r i x 1.M a t r i x←φ;2.f o r i=1...n-1 d o 3.i V a l u e s=g e t A t t r i b u t e V a l u e s(i);4.f o r j=i+1...n d o 5.j V a l u e s=g e t A t t r i b u t e V a l u e s(j);6.f o r k=1...m d o 7.S i m[k]=S i m(i V a l u e s[k],j V a l u e s[k]);8.e n d f o r m 9.S i m D e g r e e=∑s i m[k]×W[k];i=1 1 0.M a t r i x[i][j]=S i m D e g r e e;1 1.M a t r i x[j][i]=M a t r i x[i][j];1 2.e n d f o r 1 3.e n d f o r 1 4.r e t u r n M a t r i x.

        根據(jù)上述算法,可以得到所有不同學(xué)生之間的耦合關(guān)系度,然后存儲在結(jié)構(gòu)為{學(xué)生1,學(xué)生2,耦合關(guān)系度}的學(xué)生耦合關(guān)系度表中,并在(學(xué)生1,學(xué)生2)屬性上建立索引以便于檢索。下面討論如何根據(jù)學(xué)生之間的耦合相似度選取有代表性的學(xué)生以及對學(xué)生群體進(jìn)行劃分。

        二、學(xué)生的典型程度度量

        根據(jù)學(xué)生之間的耦合關(guān)系度,本文提出一種基于概率密度的典型化分析方法,目的是從學(xué)生集合中找出若干具有代表性的學(xué)生(即典型學(xué)生),然后對學(xué)生群體進(jìn)行劃分,使得每個典型學(xué)生能夠代表其所在群體的總體特征,從而為精準(zhǔn)分析不同類別學(xué)生的就業(yè)意向及影響因素提供數(shù)據(jù)基礎(chǔ)。

        傳統(tǒng)的聚類分析與本文所提的典型程度分析具有一定相關(guān)性,聚類分析是將集合中的對象劃分成若干類別,使同一類別中對象之間的相似度盡可能大,不同類別對象之間的相似度盡可能小,而典型化分析是要找出代表性對象[8]。一些研究工作把均值點(means)或中心點(medoids)作為一個聚類的代表,然而有時均值點或中心點可能并不是聚類中的代表[9]。如圖2所示,對象B和C分別是集合的均值點和中心點,但分布在A周圍的對象要比B和C的多,因此A要比B和C更具有代表性。在學(xué)生群體中,需要根據(jù)學(xué)生之間的耦合關(guān)系度,找出具有代表性的學(xué)生(類似于圖2中的點A),并據(jù)此對學(xué)生群體進(jìn)行劃分。

        圖2 中心點、均值點和典型點對象的區(qū)別

        概率密度是分析集合中某個對象典型程度的核心方法。本文提出利用概率密度函數(shù)計算學(xué)生的典型程度,在一個學(xué)生群體中,如果與某個學(xué)生耦合關(guān)系度密切的學(xué)生越多,說明其越具有代表性。根據(jù)學(xué)生之間的耦合關(guān)系度,可將學(xué)生群體中的所有學(xué)生看成是一個空間中的點集合,其中每個點代表一個學(xué)生,學(xué)生之間的直線距離代表一對學(xué)生之間的耦合關(guān)系距離。這樣就可以用概率密度估計方法來評估學(xué)生群體中某個學(xué)生的典型程度。本文采用基于高斯核函數(shù)的概率密度估計方法。對于學(xué)生群體S/,其中一個學(xué)生s∈S/的典型程度定義為:T(s,S/)=f(s|S/),其中f(s|S/)是S/上的概率密度分布函數(shù),該函數(shù)可用下式計算:

        其中,d(s,si)2代表學(xué)生s與si之間的耦合關(guān)系距離是高斯核函數(shù),n代表中的學(xué)生總數(shù)。

        接下來的問題是,給定學(xué)生集合S/(包含n個學(xué)生)和所有學(xué)生之間的耦合關(guān)系距離,目標(biāo)是選出其中m(m<<n)個具有較高典型程度的學(xué)生,然后對學(xué)生群體進(jìn)行劃分。根據(jù)式(4),每計算一個學(xué)生的典型程度都需要遍歷S/中所有其他學(xué)生對其的貢獻(xiàn)度,則該算法的時間復(fù)雜度為O(n2)。當(dāng)學(xué)生數(shù)n很大時,算法需要耗費很多時間,因此需要考慮一種既能快速找出典型代表又具有較高準(zhǔn)確性的近似解法。

        三、典型學(xué)生選取與學(xué)生群體劃分

        本節(jié)提出兩種典型學(xué)生的近似選取及相應(yīng)的學(xué)生群體劃分方法,分別是基于閾值的近似選取方法和基于淘汰策略的近似選取方法,這兩種方法分別適用于不同情況。

        (一)基于閾值的近似選取與學(xué)生群體劃分方法

        基于閾值的近似選取方法的基本思想是,首先構(gòu)建學(xué)生耦合關(guān)系距離矩陣,然后根據(jù)矩陣中每行的值計算出對應(yīng)學(xué)生的典型程度,從中選出最大典型程度的學(xué)生,并把與該學(xué)生相似度高于給定閾值的其他學(xué)生劃分到同一類別。重復(fù)執(zhí)行上述過程,直到所有學(xué)生都?xì)w到相應(yīng)類別為止。下面,結(jié)合一個實例說明該算法的執(zhí)行過程。

        表4 學(xué)生耦合關(guān)系距離矩陣表

        圖3 基于耦合關(guān)系距離矩陣和概率密度估算的學(xué)生聚類方法的例子

        假設(shè)給定的耦合關(guān)系距離閾值是0.35,圖3說明了該算法的處理過程。

        該算法首先根據(jù)學(xué)生耦合關(guān)系距離矩陣的每一行元素,每個元素代表一對學(xué)生之間的耦合關(guān)系距離,將距離值不大于給定閾值的學(xué)生劃分到同一類中。對于圖3(a)中顯示的學(xué)生耦合關(guān)系距離矩陣,給定的閾值是0.35,距離矩陣中每一行不大于0.35的元素被標(biāo)記為灰色,因此每一行中與行首學(xué)生耦合關(guān)系距離不超過0.35的學(xué)生可以劃分到一類中。例如,對于矩陣每一行的聚類分別是{s1,s2,s6},{s2,s1,s6},{s3,s4,s5},{s4,s3,s5},{s5,s3,s4} 和{s6,s1,s2}。之后,對于同一類中的每個學(xué)生,通過使用高斯核函數(shù)計算出每個學(xué)生的概率密度,概率密度最大的學(xué)生可以用來代表該類中的其它學(xué)生。如圖3(a)所示,學(xué)生s2和s6的概率密度值最大,都是0.0994,因此隨機選取學(xué)生s2作為第一個典型,這樣能夠用s2表示的對象是s1和s6(他們到s2的距離分別是0.30和0.09)。在下次循環(huán)時,被s2代表的學(xué)生從矩陣中移除,然后繼續(xù)從重新構(gòu)成的矩陣中選出典型學(xué)生。如圖3(b)所示,剩余的學(xué)生分別是s3,s4和s5,首先選取每一行中不大于閾值0.35的學(xué)生,之后計算與每一行相關(guān)的學(xué)生的概率密度值,最大的概率密度值是0.1686,因此學(xué)生s5被選作是第二個代表,相應(yīng)地學(xué)生s3和s4被劃分到s5所代表的類別中。至此,所有的學(xué)生都被從矩陣中移除了,算法終止。最終,上述學(xué)生群體被分為兩類,分別是{s1,s2,s6}和{s3,s4,s5},每一類中的典型學(xué)生分別是s2和s5。

        (二)基于淘汰策略的選取與劃分方法

        該方法的基本思想是基于淘汰策略[10],逐步選取典型學(xué)生和劃分學(xué)生群體,其基本過程如下:

        1.先把學(xué)生集合T隨機劃分成若干小組,每個小組包含u個學(xué)生,這樣可將T劃分成n/u個小組,然后計算每個小組內(nèi)所有學(xué)生的典型程度并從中選取一個具有最高典型程度的學(xué)生,這些學(xué)生構(gòu)成一個新的集合,然后從T中去除其他學(xué)生。

        2.對于得到的新集合,重復(fù)上述過程,直到集合T中只剩下一個學(xué)生為止,將該學(xué)生放入典型學(xué)生候選集合中(上述過程記為一次選取過程)。

        3.為了盡可能確保選取的準(zhǔn)確性,將上述選取過程重復(fù)執(zhí)行v次(記為一輪),這樣候選集合中最多存儲v個學(xué)生,然后在最初的學(xué)生集合T上計算這v個學(xué)生的典型程度,最后輸出一個具有最高典型程度的學(xué)生作為當(dāng)前輪次的選取結(jié)果,并從T中去除該學(xué)生。上述整個過程重復(fù)k輪,這樣就能找到k個典型學(xué)生。

        4.根據(jù)學(xué)生之間的耦合關(guān)系度,把剩余學(xué)生劃分到與其關(guān)系最近的典型學(xué)生類別中。

        以上兩種近似算法各具特點,能夠分別適用于不同情況。第一種需要給定耦合關(guān)系度閾值來控制聚類個數(shù),這種算法能夠明確知道每個聚類所包含的學(xué)生之間相似度,但不確定能夠劃分成多少個聚類;第二種直接給定k值來控制聚類個數(shù),這種算法適用于明確指定需要將學(xué)生群體劃分成多少個聚類,但不知道每個聚類中成員之間的相似度。

        四、結(jié)果分析

        本節(jié)主要介紹實驗數(shù)據(jù)集和分析結(jié)果。本文的調(diào)查問卷涉及1000名大學(xué)生,這些學(xué)生的家庭住址分別來自一線城市、省會城市、地級市和農(nóng)村以及西部地區(qū),他們的家庭年均收入從幾千到幾十萬不等,專業(yè)課平均成績從40以上到90以下成正態(tài)分布,父母從事的職業(yè)有國家機關(guān)、企事業(yè)單位、個體和農(nóng)民等(涵蓋了大多數(shù)的職業(yè)),調(diào)查對象具備多樣性和完備性。在該數(shù)據(jù)集上,我們開展了學(xué)生耦合相似度評估方法的準(zhǔn)確性驗證、典型學(xué)生近似選取算法的誤差率測試,以及學(xué)生群體劃分的合理性驗證。

        算法2.T o p-k典型學(xué)生的近似選取算法輸入:學(xué)生集T,驗證次數(shù)v,正整數(shù)k,小組大小u輸出:t o p-k個典型學(xué)生1.f o r i=1 t o k d o 2.f o r i=1 t o v d o 3.r e p e a t 4.劃分T成為若干小組g,每個小組有u條學(xué)生5.f o r e a c h小組g d o 6.計算g中每個學(xué)生在g中的典型程度7.從g中選出最典型的學(xué)生,并將g中其他學(xué)生從T中移除8.e n d f o r 9.u n t i l T中僅有一個學(xué)生1 0.把得到的最典型學(xué)生放入候選集合中1 1.e n d f o r 1 2.在T上計算候選集合中每各學(xué)生的典型程度,輸出一個最典型學(xué)生作為第i次選出的典型學(xué)生1 3.e n d f o r 1 4.r e t u r n t o p-k個典型學(xué)生及與相應(yīng)的群體劃分

        (一)學(xué)生耦合關(guān)系度評估方法的準(zhǔn)確性驗證

        本文使用用戶調(diào)查方法驗證提出的學(xué)生耦合關(guān)系度評估方法的準(zhǔn)確性。邀請了10個志愿者(博士生、碩士生和教師等)從調(diào)研學(xué)生集合中各選取10個學(xué)生,對于每個選取的學(xué)生si,分別利用本文提出的耦合評估方法(CSIM)、嚴(yán)格關(guān)系匹配方法(RSIM)和隨機選取方法(RANDOM)從學(xué)生集合中獲得前10個相似學(xué)生,最終合成一個包含30個與給定學(xué)生si背景信息相似和不相似的學(xué)生集合Si。在此基礎(chǔ)上,把Si和si提供給志愿者,由志愿者從Si中標(biāo)出前10個與si背景信息最接近的學(xué)生,并且從以下兩方面衡量選擇的學(xué)生s'與給定學(xué)生s的相似性:

        1.學(xué)生s'與s在某些屬性上有重疊的內(nèi)容,則二者在一定程度上相似;

        2.學(xué)生s'與s在內(nèi)容上沒有重疊,卻具有相關(guān)關(guān)系。例如,s'與s的父母學(xué)歷都是本科以上,家庭收入都是十萬元以上,家庭住址都在東南沿海地區(qū),專業(yè)課平均成績比較接近等。

        本文用志愿者標(biāo)注的相關(guān)學(xué)生與不同方法選取的相關(guān)學(xué)生的重疊程度來衡量不同方法的準(zhǔn)確性。圖4給出了在調(diào)研學(xué)生數(shù)據(jù)集上CSIM、RSIM和RANDOM方法的準(zhǔn)確性對比。

        圖4 學(xué)生數(shù)據(jù)集上的CSIM,RSIM,and RANDOM方法的準(zhǔn)確性對比

        從上圖可以看出,CSIM方法的準(zhǔn)確性在很大程度上高于RSIM和RANDOM方法。CSIM、RSIM和RANDOM在數(shù)據(jù)集上的平均準(zhǔn)確性分別為0.84和0.52和0.22。這是因為CSIM是在向量空間模型上分別計算學(xué)生在不同維度上的相關(guān)度,并且考慮了屬性權(quán)重以及數(shù)值上的接近關(guān)系,而RSIM方法僅考慮兩個學(xué)生背景信息表中內(nèi)容完全重合的程度,沒有考慮數(shù)值上的接近關(guān)系和屬性的重要程度。由此可見,本文方法得到的學(xué)生之間的耦合關(guān)系度更為準(zhǔn)確合理。

        (二)典型學(xué)生近似選取算法的誤差率測試

        本文用誤差率(error rate,E)來衡量典型學(xué)生近似選取算法的準(zhǔn)確性。給定一個學(xué)生,令R(t)代表由準(zhǔn)確選取算法返回的前k個典型學(xué)生,t)代表由近似選取算法返回的前k個典型學(xué)生,在此基礎(chǔ)上,誤差率定義如下:

        在該實驗中,式(5)的 k 值分別取 5、10、15、20、25和30,第一種近似選取算法的閾值設(shè)置為能夠得到上述k值的聚類個數(shù),第二種近似選取算法的參數(shù)u和v分別設(shè)置為u=20,v=5(根據(jù)實驗測試發(fā)現(xiàn),當(dāng)驗證次數(shù)v超過4時,算法的效果提升非常小,因此把v值設(shè)置為5),數(shù)據(jù)集大小設(shè)置為1000個學(xué)生。圖5給出了兩種近似選取算法在數(shù)據(jù)集上的平均誤差率(分別取10次測試誤差率的平均值)。

        圖5 當(dāng)k值變化時兩種近似選取算法的平均誤差率

        實驗結(jié)果表明,兩種近似選取算法的平均誤差率分別為15%和11%,基于淘汰算法的誤差率較低。因此,在不要求知道聚類內(nèi)部相似度的情況下,可以優(yōu)先采用基于淘汰算法的典型學(xué)生選取及在此基礎(chǔ)上的學(xué)生群體劃分方法。另外,從圖中還可以看出,算法的誤差率與k值關(guān)系不大(也就是說對k值的變化不敏感),這是因為算法的每一輪選取都經(jīng)過v次驗證,然后再經(jīng)過k輪選取后得到的top-k個結(jié)果。

        圖6給出了當(dāng)數(shù)據(jù)集中的學(xué)生數(shù)發(fā)生變化時對基于淘汰策略的近似選取算法準(zhǔn)確性的影響(這里將k值固定為10,u固定為20)。

        圖6 學(xué)生數(shù)據(jù)集大小變化時基于淘汰策略的近似選取算法的誤差率

        可以看出,當(dāng)數(shù)據(jù)集增大(即包含的學(xué)生數(shù)增多)時,算法誤差率也隨之增大,這是因為當(dāng)參數(shù)u(每個小組中的學(xué)生數(shù))固定情況下,數(shù)據(jù)集中的學(xué)生數(shù)越多,那么從每個小組中選出的最典型學(xué)生就越有可能是有偏差的(即與全局典型學(xué)生的差距越大)。

        五、結(jié)論

        由于學(xué)生的就業(yè)偏好及其影響因素與學(xué)生背景信息具有很大相關(guān)性,因此需要根據(jù)學(xué)生背景信息對學(xué)生群體進(jìn)行聚類,進(jìn)而對學(xué)生就業(yè)偏好及影響因素進(jìn)行精準(zhǔn)分析。本文提出了根據(jù)學(xué)生背景信息進(jìn)行學(xué)生耦合關(guān)系度的評估方法,經(jīng)數(shù)據(jù)分析與實驗驗證,該方法能夠較為準(zhǔn)確量化學(xué)生之間的相似度,區(qū)分出不同學(xué)生之間的接近程度。在學(xué)生耦合關(guān)系度基礎(chǔ)上,提出了利用概率密度估計方法評估學(xué)生典型程度的方法,學(xué)生群體中有一部分是具有代表性的典型學(xué)生,對其進(jìn)行準(zhǔn)確識別有助于對學(xué)生群體劃分和對特定群體的特征抽取。為了減少計算復(fù)雜度,還提出了兩種典型學(xué)生的近似選取算法,經(jīng)試驗測試分析,兩種算法各具優(yōu)缺點,基于淘汰策略的近似選取算法在誤差率方面優(yōu)于基于閾值的近似選取算法,但是不能體現(xiàn)聚類成員之間的相似度。根據(jù)選出的典型學(xué)生,可將其他學(xué)生歸到相應(yīng)的類別。每個類別中的學(xué)生都具有與該類典型學(xué)生相似的背景信息。

        本文研究的大學(xué)生生群體劃分方法為精準(zhǔn)分析大學(xué)生的就業(yè)偏好和影響因素提供了高質(zhì)量的基礎(chǔ)數(shù)據(jù)。

        [1]喻名峰,陳全文,李恒全.回顧與前瞻:大學(xué)生就業(yè)問題研究十年[J].高等教育研究,2012,33(2):79-86.

        [2]風(fēng)笑天.我國大學(xué)生就業(yè)研究的現(xiàn)狀與問題[J].南京大學(xué)學(xué)報,2014(1):60-69.

        [3]尹若珺,王馨第,張文穎.大學(xué)生就業(yè)質(zhì)量影響因素調(diào)查與研究——以吉林大學(xué)為例[J].中國大學(xué)生就業(yè),2016(7):44-49.

        [4]柯羽.高校畢業(yè)生就業(yè)質(zhì)量評價指標(biāo)體系的構(gòu)建[J].中國高教研究,2007(7):82-84.

        [5]白亮,萬明鋼.西部地區(qū)少數(shù)民族大學(xué)生就業(yè)問題研究——基于教育供給側(cè)的分析[J].高等教育研究,2016(7):21-26.

        [6]段曉丹.農(nóng)村大學(xué)生“就業(yè)難”問題研究[J].淮北職業(yè)技術(shù)學(xué)院學(xué)報,2016(4):102-103.

        [7]張抗私,盈帥.性別如何影響就業(yè)質(zhì)量?——基于女大學(xué)生就業(yè)評價指標(biāo)體系的經(jīng)驗研究[J].財經(jīng)問題研究,2012(3):83-90.

        [8]Gan G J,Ma C Q,Wu J H.Data clustering:Theory,algorithms,and applications[M].Philadelphia:Society for industrial and Applied Mathematics,2007.

        [9]Bouveyron C,Brunet-Saumard C.Model-based clustering of high-dimensional data:A review[J].Computational Statistics and Data Analysis,2014,71(3):52-78.

        [10]Xiangfu Meng,Longbing Cao,Xiaoyan Zhang,Jingyu Shao.Top-k coupled keyword recommendation for relational keyword queries.Knowledge and Information Systems.Online publication.DOI:10.1007/s10115-016-0959-3.

        猜你喜歡
        典型向量耦合
        用最典型的事寫最有特點的人
        向量的分解
        非Lipschitz條件下超前帶跳倒向耦合隨機微分方程的Wong-Zakai逼近
        多項式求值題的典型解法
        聚焦“向量與三角”創(chuàng)新題
        典型胰島素瘤1例報道
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        基于“殼-固”耦合方法模擬焊接裝配
        大型鑄鍛件(2015年5期)2015-12-16 11:43:20
        求解奇異攝動Volterra積分微分方程的LDG-CFEM耦合方法
        日本加勒比精品一区二区视频| 国产污污视频| 无码一区二区三区在| 亚州中文字幕乱码中文字幕| 在线精品亚洲一区二区动态图| 国产sm调教视频在线观看| 亚洲国产午夜精品乱码| 国产自产自现在线视频地址| 亚洲国产国语在线对白观看| 国产三级精品av在线| 国产精品久久久久9999无码| 亚洲国产成人片在线观看无码| 国产精品一区二区在线观看99| 黄色三级视频中文字幕| 亚洲最大一区二区在线观看| 国产超碰人人爽人人做人人添 | 精品女同av一区二区三区| 亚洲乱码中文字幕在线| 国产精品制服| 久久精品国产一区二区蜜芽| 久久久国产精品首页免费| 亚洲 日韩 激情 无码 中出| 中国xxx农村性视频| 91福利国产在线观看网站| 日韩在线一区二区三区中文字幕| 日本阿v片在线播放免费| 熟妇人妻中文字幕无码老熟妇| 国产一区,二区,三区免费视频 | 青青青国产精品一区二区| 蜜桃av无码免费看永久| av黄色在线免费观看| 久久成人国产精品| 亚洲国产成人久久综合一区77| 精品不卡视频在线网址| 日本少妇浓毛bbwbbwbbw| 国产精品久久久久久久久KTV| 亚洲中文字幕在线第二页| 亚洲中文字幕舔尻av网站| 极品粉嫩小泬无遮挡20p| 国产欧美日韩图片一区二区| 人妻有码av中文幕久久|