亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多任務(wù)學(xué)習(xí)的大五人格預(yù)測*

        2018-09-10 11:14:38鄭敬華郭世澤
        關(guān)鍵詞:多任務(wù)范數(shù)人格

        鄭敬華,郭世澤,高 梁,趙 楠

        (1 電子工程學(xué)院, 合肥 230037; 2 北方電子設(shè)備研究所, 北京 100083; 3 中國科學(xué)院心理研究所, 北京 100101) (2017年3月2日收稿; 2017年5月4日收修改稿)

        人格是心理學(xué)概念,研究的是人性的內(nèi)容,指的是人類心理特征的整合與統(tǒng)一,是相對穩(wěn)定的組織結(jié)構(gòu),并在不同時間、地域影響著人的內(nèi)隱心理特征和外顯行為模式。目前應(yīng)用最廣、最可靠、最主流的人格特質(zhì)模型是心理學(xué)界公認的大五人格模型,該模型通過5維向量(N,A,E,C,O)描述人格[1],分別代表神經(jīng)質(zhì)、宜人性、外向性、盡責(zé)性和開放性。每個維度從不同側(cè)面描述一個人的人格。

        當前,隨著新型信息技術(shù)的快速發(fā)展和社交網(wǎng)絡(luò)的大范圍應(yīng)用,利用社交網(wǎng)絡(luò)進行用戶人格預(yù)測已經(jīng)成為研究熱點。國外研究者主要是利用Facebook、Twitter等社交網(wǎng)絡(luò)對用戶人格進行預(yù)測,國內(nèi)主要通過新浪微博、人人網(wǎng)等社交平臺對用戶進行人格預(yù)測。

        國內(nèi)外研究學(xué)者對社交網(wǎng)絡(luò)用戶的大五人格預(yù)測,大都采用回歸或分類等機器學(xué)習(xí)算法。不同點主要在于針對不同的社交網(wǎng)絡(luò),提取多樣的屬性數(shù)據(jù)。主要可分為兩類:

        一類是從社交網(wǎng)站提取的行為特征,包括靜態(tài)特征、動態(tài)特征和文本特征。靜態(tài)特征是指隨時間不變化或者變化慢的數(shù)據(jù)特征,如性別、年齡、粉絲數(shù)、朋友數(shù)等;動態(tài)特征是指隨時間容易變化的數(shù)據(jù)特征,如轉(zhuǎn)發(fā)、收藏、點贊等;文本特征是指提取文本中的數(shù)據(jù)特征,如@數(shù)、鏈接數(shù)、第一人稱使用率等。

        Ortigosa等[2]對Facebook用戶社交數(shù)據(jù)采用樸素貝葉斯和C4.5算法,對5種人格維度進行預(yù)測建模。Wald等[3]通過對Twitter用戶進行人格分析,采用邏輯回歸、多層感知器、隨機森林和SVM等方法,最終得出結(jié)論,不同的方法在進行人格預(yù)測時,結(jié)果相差不大,實驗AUC指標結(jié)果在0.7左右。Li等[4]采用基于5折交叉驗證算法訓(xùn)練SVM模型和PaceRegression模型,并且在模型訓(xùn)練過程中,為改善SVM性能,使用網(wǎng)絡(luò)搜索算法進行參數(shù)調(diào)整。Wald等[5]對Facebook用戶采用線性回歸、RepTree以及決策表等算法進行人格預(yù)測,可預(yù)測出約74.5%的用戶。這些方法通過提取社交網(wǎng)絡(luò)用戶的靜態(tài)特征、文本特征以及動態(tài)特征中的一類或者多類特征,進行訓(xùn)練,利用監(jiān)督學(xué)習(xí)方法進行分類和回歸,進行用戶的人格預(yù)測。并且也有結(jié)果表明,使用監(jiān)督學(xué)習(xí)方法中不同的分類算法,最終效果相差不大[6]。

        另一類是通過發(fā)布的文本內(nèi)容的語義進行預(yù)測。通過語義分析出用戶的情感、觀點、意見以及人格魅力等信息[7]。但是通過文本信息研究的與人格特質(zhì)相關(guān)的語料庫的不同,嚴重限制人格的預(yù)測結(jié)果,很多研究者針對某一語料庫進行的預(yù)測結(jié)果準確率能達到83%,然而當擴大語料庫,準確率會迅速降到55%[8]。針對這一情況,Iacobelli等[7]通過使用一種大規(guī)模的語料庫,采用回歸及排序算法對各種文本特征提取進行比較,從分類準確率與基準回歸算法相比提高的百分比以及排序算法的誤差3個角度進行驗證,預(yù)測結(jié)果都有很大提高。

        綜上所述,雖然通過社交網(wǎng)絡(luò)對用戶進行人格預(yù)測已取得很多研究成果,但其研究方法僅僅局限于單任務(wù)機器學(xué)習(xí),即只是對某一種任務(wù)數(shù)據(jù)集進行訓(xùn)練,進而學(xué)習(xí)該任務(wù)的相關(guān)信息。然而,人格是從不同角度不同方面對個體進行的刻畫,比如大五人格模型是從5個方面闡述人格:神經(jīng)質(zhì)特性從個體對事物的消極情緒的傾向反映其情緒化程度的調(diào)節(jié)能力;宜人性從個體對他人的態(tài)度方面反映其與人相處及協(xié)作的能力;外向性從個體人際互動的數(shù)量及頻率反映其對刺激的需求及獲得愉悅的能力;盡責(zé)性從個體控制、管理和調(diào)節(jié)自身沖動的方式,反應(yīng)其在目標導(dǎo)向行為上的組織和堅持能力;開放性從個體的想象力及求知欲反映其智慧水平。

        大五人格模型涵蓋人格描述的主要方面,而且這5個維度之間往往不是完全孤立的,而是存在著某些關(guān)聯(lián)性。在社交網(wǎng)絡(luò)用戶的大五人格預(yù)測方面存在以下兩個問題:第一,從統(tǒng)計結(jié)果上看,一些人格維度之間存在一定的相關(guān)性。如宜人性得分較高的個體,其開放性得分也偏向較高。而另一些維度之間則更多表現(xiàn)為相互獨立,如責(zé)任感與神經(jīng)質(zhì)之間、宜人性與開放性之間。這種人格維度之間的客觀規(guī)律導(dǎo)致現(xiàn)有的人格預(yù)測模型不夠理想。第二,現(xiàn)實中,獲取大量而有效的社交網(wǎng)絡(luò)用戶的人格數(shù)據(jù),是非常困難的,這樣不可避免造成訓(xùn)練樣本的缺乏。

        因此,為了完整全面地對個體的人格進行預(yù)測,必須充分考慮5種人格維度之間可能存在的相關(guān)性。另一方面,訓(xùn)練樣本不充分,極易造成模型的過擬合現(xiàn)象。針對這兩種情況,可以將5種人格維度預(yù)測看成5類任務(wù),通過并行學(xué)習(xí)這5類任務(wù),充分利用任務(wù)之間的相關(guān)信息,這種思想正是多任務(wù)學(xué)習(xí)方法的核心;而多任務(wù)學(xué)習(xí)在提高小樣本問題的學(xué)習(xí)性能上提出了合理的解決方案。

        但是多任務(wù)學(xué)習(xí)前提是基于所有任務(wù)之間都存在相關(guān)性這一很強的假設(shè),而微博用戶大五人格的5個維度之間還存在上面提到的第2個問題,即五種人格維度中并不是所有任務(wù)都存在相關(guān)。因此為了避免不相關(guān)任務(wù)帶來不好的效果,本文引入魯棒多任務(wù)學(xué)習(xí)模型預(yù)測新浪微博用戶人格,既共享多個任務(wù)之間的相關(guān)信息,又能識別出不相關(guān)任務(wù)。魯棒的多任務(wù)學(xué)習(xí)目標就是尋找任務(wù)和特征之間的關(guān)聯(lián)矩陣W。首先,通過正則化優(yōu)化方法將多任務(wù)學(xué)習(xí)問題轉(zhuǎn)換為優(yōu)化問題;其次,引入混合范數(shù)、跡范數(shù)和L1/L2范數(shù)作為正則項約束,一個用于約束相關(guān)性,一個用于識別不相關(guān)任務(wù);最后,通過求解正則約束的優(yōu)化問題取得關(guān)聯(lián)矩陣W的最優(yōu)解。本文通過對獲取的994名新浪微博被試者的微博數(shù)據(jù)樣本進行訓(xùn)練,采用多任務(wù)學(xué)習(xí)方法,創(chuàng)建人格預(yù)測模型,并與單任務(wù)學(xué)習(xí)算法進行比較,結(jié)果顯示多任務(wù)學(xué)習(xí)方法明顯優(yōu)于單任務(wù)學(xué)習(xí)效果。

        1 相關(guān)工作

        目前基于社交網(wǎng)絡(luò)預(yù)測分析人格過程中用到的機器學(xué)習(xí)都是單任務(wù)的分類或回歸算法,即將5種人格維度預(yù)測當作獨立的5個分類或回歸任務(wù),分別進行建模。這樣在訓(xùn)練數(shù)據(jù)不充足的情況下,極易造成過擬合而導(dǎo)致較差的泛化性能。同時由于五種任務(wù)之間存在著相關(guān)性,因此采用多任務(wù)學(xué)習(xí)方法,即充分利用任務(wù)之間的相關(guān)信息,又解決了小樣本帶來的訓(xùn)練過擬合現(xiàn)象。

        1.1 多任務(wù)學(xué)習(xí)方法

        現(xiàn)實生活中,許多問題都是相關(guān)的,同樣,機器學(xué)習(xí)領(lǐng)域,在解決分類或回歸問題時,大部分也都是針對多個相關(guān)的任務(wù)。1997年Caruana首先提出多任務(wù)學(xué)習(xí)的方法[9],目的是通過學(xué)習(xí)與目標任務(wù)相關(guān)的多個任務(wù)實現(xiàn)對目標任務(wù)的學(xué)習(xí)。并考慮到不同任務(wù)之間的差異性,同時利用多個任務(wù)之間的數(shù)據(jù)特征,解決獨立學(xué)習(xí)任務(wù)數(shù)據(jù)規(guī)模小的問題,為目標任務(wù)提供更加精確的知識?,F(xiàn)在很多研究也證明了這一點[9-12],因此現(xiàn)在多任務(wù)學(xué)習(xí)算法成為眾多領(lǐng)域研究熱點[13-16]。

        多任務(wù)學(xué)習(xí)從任務(wù)挖掘上來講,主要有兩種:

        第一種是從數(shù)據(jù)樣本特征中挖掘具有相同特征的任務(wù)。如Argyriou等[10]基于訓(xùn)練數(shù)據(jù)特征之間的相關(guān)性,利用矩陣的L1,2范數(shù)進行正則化表示,約束學(xué)習(xí)任務(wù)的低秩結(jié)構(gòu),將訓(xùn)練數(shù)據(jù)特征劃分為不同的子任務(wù),從而使多個任務(wù)共享同一個低維子空間,實現(xiàn)特征之間潛在信息的共享。文獻[16]基于訓(xùn)練數(shù)據(jù)特征之間的相關(guān)性,通過使用線性SVMs和多任務(wù)學(xué)習(xí)方法,提出一種高效的非線性數(shù)據(jù)分類器LSVM-MTL模型,充分利用相關(guān)任務(wù)中包含的有用信息,改善了每個任務(wù)的SVM的分類性能。

        第二種是從目標任務(wù)中挖掘具有相關(guān)性的任務(wù)。如白朔天等[17]采用多任務(wù)回歸的方法采集社交媒體中用戶行為數(shù)據(jù),分析用戶5種人格維度與網(wǎng)絡(luò)行為之間的關(guān)系,通過訓(xùn)練模型,采用最小平方和損失和Frobenius泛數(shù)進行建模,確定使預(yù)測值和標注值之差最小的傳遞矩陣,實現(xiàn)社交網(wǎng)絡(luò)數(shù)據(jù)和人格維度之間的模型創(chuàng)建。

        多任務(wù)學(xué)習(xí)的方法研究主要集中在模型上,提出不同的模型假設(shè),總結(jié)出新的多任務(wù)學(xué)習(xí)方法,包括共享變量、共享子空間以及共享模型參數(shù)等,將這些共享的有價值信息,作為每個任務(wù)學(xué)習(xí)的輔助信息,以此提升學(xué)習(xí)效果。具體從實現(xiàn)方法上來講,主要有兩種:

        第一種方法是加入正則項進行約束學(xué)習(xí)。正則項(也稱作懲罰項)約束方法,通過引入關(guān)聯(lián)矩陣的不同種類的范數(shù)約束任務(wù)之間特征的相關(guān)性,將多任務(wù)學(xué)習(xí)問題轉(zhuǎn)化為優(yōu)化問題,取得其最優(yōu)解。Evgeniou和Pontil[18],提出均值正則化多任務(wù)學(xué)習(xí),在核空間使用范數(shù)約束獲得任務(wù)之間的共享結(jié)構(gòu),通過假設(shè)每個任務(wù)都近似,最小化獨立部分,使得學(xué)習(xí)到的結(jié)果都與公共部分相似,進行任務(wù)之間關(guān)聯(lián)性建模,其參數(shù)模型為

        式中:L(·)是損失函數(shù);W=[w1,…,wT]為模型參數(shù)矩陣,對應(yīng)T個任務(wù);ξit為添加的松弛變量;w0為模型參數(shù)的平均值。該模型的假設(shè)前提是所有模型參數(shù)均服從正態(tài)分布,且都在均值附近,vt為各任務(wù)模型參數(shù)與均值之間的距離。模型第3項用來控制模型復(fù)雜度的正則項,最后一項是用來約束任務(wù)的模型參數(shù)與模型均值的距離,這樣就使得所有任務(wù)盡可能得相似,從而將單任務(wù)的SVM算法轉(zhuǎn)移為多任務(wù)SVMs算法。最后通過模擬數(shù)據(jù)和真實數(shù)據(jù)的實驗,論證了多任務(wù)SVM模型比單任務(wù)SVM要好很多。

        第二種方法是貝葉斯方法,通過對參數(shù)W的協(xié)方差矩陣的貝葉斯學(xué)習(xí)實現(xiàn)參數(shù)的更新和估計,利用協(xié)方差矩陣的相關(guān)系數(shù)確定多個任務(wù)之間的相關(guān)關(guān)系。Zhang和Yeung[12]提出一種新的貝葉斯擴展模型用于解決協(xié)方差矩陣估計過程中出現(xiàn)的問題。

        多任務(wù)學(xué)習(xí)的過程就是每個任務(wù)分別學(xué)習(xí)各自的結(jié)果,但是在學(xué)習(xí)過程中被聯(lián)合在一起,使得信息之間可以傳遞共享。其核心就是挖掘數(shù)據(jù)特征與任務(wù)構(gòu)成的參數(shù)關(guān)聯(lián)矩陣之間的相關(guān)性,可以通過數(shù)據(jù)特征之間、任務(wù)之間、約束條件和損失函數(shù)、樣本之間的連接結(jié)構(gòu)和任務(wù)殘差等方面,作為信息傳遞渠道,共享有價值的信息,將多個不同的學(xué)習(xí)任務(wù)納入一個決策模型中,從而提高預(yù)測精度。

        1.2 魯棒多任務(wù)學(xué)習(xí)方法

        多任務(wù)學(xué)習(xí)主要是基于多個任務(wù)之間是相關(guān)的這一很強的假設(shè),而這一假設(shè)忽略了任務(wù)中的離群任務(wù)的存在。魯棒的多任務(wù)學(xué)習(xí)(robust multi-task learning,RMTL)方法[19-23]將這些不相關(guān)的任務(wù)作為異常來處理。一般魯棒多任務(wù)學(xué)習(xí)方法都是將任務(wù)分成相關(guān)任務(wù)和異常任務(wù)兩種情況進行處理,通過將參數(shù)模型進行分解,分解為結(jié)構(gòu)項和異常項進行多任務(wù)建模,然后通過添加正則化項進行約束,求解多任務(wù)學(xué)習(xí)最優(yōu)解。

        文獻[20]考慮到一些異常任務(wù),將參數(shù)模型分解為兩部分,W=P+Q,即將關(guān)聯(lián)矩陣W分成兩個部分,表示通常的相關(guān)任務(wù)和異常的任務(wù),分別是低秩結(jié)構(gòu)P和組稀疏結(jié)構(gòu)Q,P用來捕捉相關(guān)任務(wù)信息,Q用來檢測異常任務(wù)信息。因此正則化項也相應(yīng)分解為兩部分,并使用不同的正則項來約束相關(guān)任務(wù)和異常任務(wù),模型如下所示

        ρ1‖P‖2,1+ρ2‖Q‖1,2).

        文獻[21]提出一種魯棒的多任務(wù)回歸學(xué)習(xí)方法,添加兩項正則項用于處理高維稀疏數(shù)據(jù)造成的總誤差(sparse gross errors),響應(yīng)矩陣Y∈Rn×q,協(xié)方差矩陣X∈Rn×p,其回歸模型:

        Y=XΘ*+W+G*

        式中:Θ*∈Rp×q為預(yù)測值和響應(yīng)值之間的未知線性關(guān)系;W∈Rn×q為噪聲矩陣;G*為相對于sparse gross errors的矩陣。采用Frobenius范數(shù)、L1范數(shù)以及L2范數(shù)進行建模計算,從誤差角度對多任務(wù)回歸進行建模,提高模型的魯棒性。

        文獻[22]將權(quán)重矩陣分解為兩部分,同時使用Lasso方法處理相關(guān)任務(wù),使用group Lasso方法處理異常任務(wù),采用加速梯度算法來解決多任務(wù)學(xué)習(xí)的優(yōu)化問題,提高算法的魯棒性。

        也有研究者通過任務(wù)協(xié)方差矩陣建模,Yu等[19]提出一種基于t過程的魯棒的貝葉斯多任務(wù)學(xué)習(xí)框架,t過程是高斯過程的一種推廣,能夠?qū)惓H蝿?wù)很好地分辨出來,使用廣義t噪聲模型作為似然函數(shù)與廣義t過程先驗結(jié)合,從而提高算法的魯棒性。

        對任務(wù)協(xié)方差矩陣建模的過程中,往往會使用到非參數(shù)方法,從而使得該方法計算量非常的大。因此本文將基于正則項約束求解方法解決魯棒的多任務(wù)學(xué)習(xí)問題。

        2 基于RMTL的微博用戶大五人格預(yù)測建模

        2.1 問題描述

        假設(shè)有T個目標任務(wù),屬于空間X×Y,其中X?Rd,Y?R,這里T=5,對應(yīng)于大五人格的5種人格維度預(yù)測,即(O,A,E,C,N)5個任務(wù)。對于每一個任務(wù),有n個數(shù)據(jù),則對于任務(wù)t,其訓(xùn)練數(shù)據(jù)樣本表示如下所示:

        {(xt1,yt1),(xt2,yt2),…,(xtn,ytn)},

        式中:(xti,yti)表示任務(wù)t中用戶i的實例對,其中xti表示第i個用戶的樣本向量,yti表示用戶i的任務(wù)t的標簽,是一個值。那么T個任務(wù)的訓(xùn)練數(shù)據(jù)樣本表示如下所示:

        {{(x11,y11),…,(x1n,y1n)},…,

        {(xT1,yT1),…,(xTn,yTn)}}

        因此,新浪微博用戶大五人格預(yù)測的目標就是學(xué)習(xí)5個函數(shù),如下

        fi,f2,…,fT,ft(xit)=Xitwt≈yit.

        (1)

        式中:t=1,2,…,5,每個函數(shù)代表一種人格維度的預(yù)測模型。

        對于每種人格預(yù)測任務(wù)來說,學(xué)習(xí)的目標最終轉(zhuǎn)化為參數(shù)wt的優(yōu)化求解,如下

        wt=argminL(Xt,yt,wt)+λΩ(wt).

        (2)

        式中:wt∈Rn為模型參數(shù);L(·,·)為訓(xùn)練數(shù)據(jù)集上的損失函數(shù);Ω(wt)為參數(shù)wt的正則化項;λ為正則化參數(shù),用于平衡損失函數(shù)和正則化項。在單任務(wù)學(xué)習(xí)中,添加正則化項的目的是使模型避免數(shù)據(jù)過擬合,保證模型得到最小化訓(xùn)練誤差。

        本文提出的基于多任務(wù)學(xué)習(xí)的新浪微博的大五人格預(yù)測問題,相當于并行學(xué)習(xí)5種人格預(yù)測,因此輸入矩陣X、輸出矩陣Y以及關(guān)聯(lián)矩陣W分別如下所示:

        這樣基于多任務(wù)學(xué)習(xí)方法的大五人格預(yù)測的目標,則表示為

        f(X)=WX≈Y.

        (3)

        多任務(wù)學(xué)習(xí)目的就是學(xué)習(xí)模型參數(shù)矩陣W,矩陣中行表示每個任務(wù)的特征向量,列表示某種特征屬性。同樣利用損失函數(shù)和正則化項進行建模,尋找參數(shù)矩陣W中列之間的關(guān)系或者行之間的關(guān)系,從而實現(xiàn)多個任務(wù)之間的并行學(xué)習(xí),同時避免訓(xùn)練過程中的過擬合現(xiàn)象,提高模型的泛化性能。

        2.2 模型建立

        基于多任務(wù)正則化方法的新浪微博大五人格預(yù)測目標如公式(3)所示,最終通過添加正則化約束,實現(xiàn)多個任務(wù)之間特征相關(guān)性的學(xué)習(xí),將目標轉(zhuǎn)化為優(yōu)化求解公式

        (4)

        (5)

        (6)

        社交網(wǎng)絡(luò)用戶大五人格預(yù)測學(xué)習(xí)過程中,其中大五人格模型是使用統(tǒng)計學(xué)方法研究出來的人格特質(zhì)理論,能夠全面描述人的人格特征,且五維度內(nèi)部之間的關(guān)系穩(wěn)定且僅存在一定的相關(guān)性。采集的新浪微博用戶的人格標簽數(shù)據(jù)顯示(如圖1),宜人性較高的得分個體其盡責(zé)性的分也偏向較高;神經(jīng)質(zhì)特征得分較高的個體,其宜人性特征得分偏向較低;而神經(jīng)質(zhì)與開放性以及開放性與宜人性之間并不存在顯著相關(guān),也就是說新浪微博用戶大五人格從得分數(shù)據(jù)上看,既存在著相關(guān)性,也存在不相關(guān)性,因此使用一般的多任務(wù)正則化模型難以實現(xiàn)預(yù)測的效果的提高,相反可能會帶來更差的效果。

        針對這種現(xiàn)象,采取能夠識別異常任務(wù)存在的魯棒多任務(wù)學(xué)習(xí)方法,進行社交網(wǎng)絡(luò)用戶大五人格的建模,將參數(shù)模型進行分解,分解為一個結(jié)構(gòu)項和一個異常項。正則化項也對應(yīng)地分解為兩項,分別是結(jié)構(gòu)信息和異常結(jié)構(gòu)信息,既能識別模型的共性,共享隱藏的信息,也能檢測出不相關(guān)任務(wù)信息,避免不相關(guān)任務(wù)之間的相互影響。

        因此對于T個任務(wù)的模型關(guān)聯(lián)矩陣W,W=[w1,w2,…,wt]∈Rd×t,將被分為兩部分W=P+Q,P用于約束低秩,挖掘任務(wù)之間的相關(guān)性,Q用于約束組稀疏,識別出不相關(guān)任務(wù),其中:

        P=[p1,p2,…pt]∈Rd×t

        Q=[q1,q2,…qt]∈Rd×t

        采用最小平方損失函數(shù)和核范數(shù)、L1/L2范數(shù)進行建模,則微博用戶大五人格預(yù)測模型的目標函數(shù)可表示為

        ρ1‖P‖*+ρ2‖Q‖1,2.

        (7)

        式中:Wi為第i個任務(wù)的模型參數(shù);Xi為第i個任務(wù)的訓(xùn)練數(shù)據(jù)集;Yi為第i個任務(wù)標簽數(shù)據(jù);ρ1,ρ2是正則化參數(shù);ρ1用于控制低秩正則項矩陣P,ρ2用于控制矩陣Q的L1,2范數(shù)。

        矩陣P的核范數(shù)表示為

        (8)

        式中:r是矩陣P的秩,σi(P)為矩陣P的奇異值,核范數(shù)能夠?qū)崿F(xiàn)矩陣的稀疏表示,因此可以挖掘任務(wù)的相關(guān)性。

        圖1 人格維度之間的關(guān)系Fig.1 Relationship between the Big-Five personality dimensions

        矩陣Q的L1,2范數(shù)表示為

        (9)

        即為矩陣列向量的L2范數(shù)之和。L1,2范數(shù)能夠?qū)崿F(xiàn)變量組水平上的稀疏性,具有變量組選擇能力,利用L1,2范數(shù)目的是辨別出異常任務(wù)。因此針對結(jié)構(gòu)項矩陣P與異常任務(wù)矩陣Q,對應(yīng)使用核范數(shù)與L1,2范數(shù)進行約束學(xué)習(xí),將多任務(wù)學(xué)習(xí)問題轉(zhuǎn)化為求解正則約束的優(yōu)化問題。

        2.3 模型求解

        近端梯度求解正式針對minf(x)+h(x)形式的優(yōu)化問題求解。對于式(7),

        設(shè)平滑項

        (10)

        設(shè)非平滑項

        h(W)=ρ1‖P‖*+ρ2‖Q‖1,2.

        (11)

        近端梯度算法得到迭代公式為

        (12)

        對于凸函數(shù)h(W),其近端算子為

        (13)

        因此對于式(12),即變?yōu)?/p>

        ρ1‖Pw‖*+ρ2‖Qw‖1,2.

        (14)

        加速近端梯度算法求解步驟:

        輸入:Xi:第i個任務(wù)的訓(xùn)練數(shù)據(jù)矩陣;

        yi:第i個任務(wù)的人格標簽向量。

        1:初始化γk,β∈(0,1)

        2:γ=γk

        3:do

        5: break if

        6:更新步長γ=βγ

        7:whileγk+1=γWk+1=Z.

        本文將采用加速近端梯度算法進行多任務(wù)學(xué)習(xí)優(yōu)化求解[20]。加速近端梯度算法通過在搜索步長的過程中增加一步外插值操作,其算法是:

        Zk+1=Wk+θk(Wk-Wk-1),

        (15)

        (16)

        3 實驗驗證

        3.1 數(shù)據(jù)采集

        實驗采用中科院心理所征集的新浪微博用戶數(shù)據(jù),并通過在線填寫大五人格問卷,通過篩選確定有效的問卷結(jié)果,然后選取新浪微博活躍用戶,最終確定1 604名有效新浪微博用戶數(shù)據(jù)。其中大五人格問卷采取的是目前國際上心理學(xué)界都認可的NEO大五人格問卷。篩選有效數(shù)據(jù)的方法是:首先過濾掉填寫有規(guī)律的問卷以及全是一種選擇的問卷,然后確定新浪微博活躍的用戶,其活躍狀態(tài)表現(xiàn)為用戶的狀態(tài)數(shù)大于50,在采集微博數(shù)據(jù)前3個月都發(fā)布過微博。

        在得到1 604名新浪微博用戶微博數(shù)據(jù)以及人格標簽數(shù)據(jù)之后,首先要進行數(shù)據(jù)預(yù)處理。

        微博數(shù)據(jù)特征的處理:

        1)將性別特征固定為0或1值;

        2)將用戶昵稱以及自我描述,計算其長度值;

        3)將所在地域信息,數(shù)值化,首先要制定一系列的數(shù)值對應(yīng),如北京對應(yīng)001,天津?qū)?yīng)002。

        4)將其他非數(shù)值類型轉(zhuǎn)換為數(shù)值型,如是否認證,將ture轉(zhuǎn)換為1,將false轉(zhuǎn)化為0。

        微博內(nèi)容的處理:

        5)將所有微博內(nèi)容為空、僅僅是超鏈接的微博、轉(zhuǎn)發(fā)的微博以及圖片、視頻的微博內(nèi)容過濾掉;

        6)提取微博文本信息特征,首先將同一個用戶的所有微博整合在一起,然后通過中科院心理所的文心處理系統(tǒng)(http:∥ccpl.psych.ac.cn/textmind/)將文本內(nèi)容提取出文本特征,包括第一人稱單/復(fù)數(shù)代名詞、第二人稱單/復(fù)數(shù)代名詞、第三人稱單/復(fù)數(shù)代名詞、情感詞、正/負向情緒詞、心理詞匯、@數(shù)、表情數(shù)等102個維度。

        最終確定994名被試者的微博數(shù)據(jù)及大五人格數(shù)據(jù),其中391名男性,平均年齡24.6歲,分布在全國各地19省市。這994名新浪微博用戶的大五人格得分分布情況如圖2所示。數(shù)據(jù)具有一定的代表性和真實性。

        3.2 特征分析

        本實驗共挖掘新浪微博用戶114個特征,包括靜態(tài)特征、行為特征和文本特征3類,其中靜態(tài)特征包括性別、地址、昵稱、是否認證、自我描述等7類,行為特征包括發(fā)狀態(tài)數(shù)、粉絲數(shù)、關(guān)注數(shù)、收藏數(shù)、互粉數(shù)等5類,文本特征包括發(fā)布的微博文本信息中提取出的102維特征。實驗中,對994名新浪微博用戶的114維微博特征和5維的人格特征進行相關(guān)性分析,分析結(jié)果如表1所示。可以看出新浪微博用戶的大五人格在社交網(wǎng)絡(luò)中的表現(xiàn)以及與每種人格維度相關(guān)的數(shù)據(jù)特征。

        神經(jīng)質(zhì)特質(zhì)表現(xiàn)的是個體的情緒不穩(wěn)定性,心理學(xué)上認為神經(jīng)質(zhì)得分高的個體常常表現(xiàn)為易煩惱、安全感差以及好自憐。神經(jīng)質(zhì)得分高的個體往往表現(xiàn)為缺乏責(zé)任感、偏內(nèi)向、無情、懷疑心重且不易合作。該類個體上升為人格障礙時,表現(xiàn)為情緒不穩(wěn)定和沖動控制缺乏,易發(fā)生暴力或恐嚇行為,尤其在受到他人批評時。

        新浪微博用戶與神經(jīng)質(zhì)正相關(guān)的特征有:第三人稱單數(shù)、自我描述長度、收藏數(shù)等,與神經(jīng)質(zhì)負相關(guān)的特征有互粉數(shù)。也就是說神經(jīng)質(zhì)得分較高的用戶,在新浪微博中更多使用第三人稱形式,喜歡收藏,同時自我描述的字數(shù)相對較多,而互粉數(shù),即與其他用戶互相關(guān)注的數(shù)目較少。

        宜人性特質(zhì)表現(xiàn)的是個體對他人的態(tài)度方面,心理學(xué)上認為宜人性得分高者,表現(xiàn)得信任他人,坦率真誠,關(guān)心他人,樂于助人,不具攻擊性,謙遜,富有同情心。

        圖2 新浪微博用戶大五人格得分分布圖Fig.2 Big-Five personality score distributions of Sina Microblog users

        新浪微博用戶與宜人性正相關(guān)的特征有:積極情緒詞,與宜人性負相關(guān)的特征有臟話。也就是說宜人性得分較高的用戶更加傾向于使用積極的情緒詞,如愉快、信任等等,而不喜歡說臟話??梢钥闯鲆巳诵缘梅指叩娜吮容^樂觀,友好和善。

        外向性特質(zhì)表現(xiàn)的是個體的人際關(guān)系方面,心理學(xué)上認為外向性得分高的個體常常表現(xiàn)為喜歡與人接觸,熱情、合群、有說服力、快節(jié)奏生活并且喜歡尋求刺激。

        新浪微博用戶與外向性正相關(guān)的特征有:粉絲數(shù)、收藏數(shù)、互粉數(shù)、第二人稱復(fù)數(shù)、@數(shù)、驚嘆、縮寫、表情等等,與外向性負相關(guān)的特征有微博信息中英文單詞比例。也就是說外向性得分較高的用戶,關(guān)注他的以及互相關(guān)注的用戶數(shù)目較多,喜歡收藏,多使用第二人稱復(fù)數(shù)形式,喜歡引起好友的注意,縮寫形式以及表情的使用較多,驚嘆語氣詞使用較多。可見新浪微博外向性得分高的用戶廣交朋友,互動能力較強,善于傳遞正能量。

        表1 新浪微博用戶數(shù)據(jù)特征與大五人格相關(guān)系數(shù)

        *. 在0.05水平上顯著相關(guān);**. 在0.01水平上顯著相關(guān)。

        盡責(zé)性特質(zhì)表現(xiàn)的是個體對自身各種情緒的控制能力,心理學(xué)上認為盡責(zé)性得分高的個體自信、高效、有條理、有很強的責(zé)任心、追求成功、不懼困難、邏輯性強、不易沖動。

        新浪微博用戶與盡責(zé)性正相關(guān)的特征有:分號、粉絲數(shù)等,與盡責(zé)性負相關(guān)的特征有收藏數(shù)。也就是說盡責(zé)性得分較高的用戶,粉絲多,不喜歡收藏,在微博中,不喜歡使用分號形式。與盡責(zé)性強相關(guān)的特征較少,這也與盡責(zé)性個體自身的控制能力強相一致。

        開放性特質(zhì)表現(xiàn)的是個體的認知風(fēng)格,心理學(xué)上認為神經(jīng)質(zhì)得分高的個體極富想象力、追求美、崇尚自然、敏感、喜歡嘗試、求知欲強、不循規(guī)蹈矩。

        新浪微博用戶與開放性正相關(guān)的特征有:粉絲數(shù)、狀態(tài)數(shù)、發(fā)表微博長度、第一人稱單數(shù)、第三人稱單復(fù)數(shù)、焦慮、情緒詞等多種特征相關(guān)。也就是說開放性得分較高的用戶粉絲多,發(fā)狀態(tài)頻率較高,微博內(nèi)容的篇幅較長,傾向于使用第一人稱和第三人稱形式,并且更多地使用情緒詞以及焦慮詞進行表達。可見新浪微博開放性得分高的用戶朋友多,交流多,談?wù)摰脑掝}涉及到各個方面,而且能夠大方的表達自己的情緒,這與開放性人格特點是一致的。

        3.3 實驗結(jié)果

        使用獲取的新浪微博用戶人格標簽數(shù)據(jù)以及微博數(shù)據(jù)集進行驗證。將五種人格維度的預(yù)測作為五類任務(wù),訓(xùn)練數(shù)據(jù)采用同樣的數(shù)據(jù)集,也就是說數(shù)據(jù)樣本為994,數(shù)據(jù)集維度為114,同時學(xué)習(xí)5種任務(wù)。采取本文引入的魯棒多任務(wù)學(xué)習(xí)方法(RMTL),不基于任何假設(shè)的多任務(wù)學(xué)習(xí)框架,通過對預(yù)測模型使用混合結(jié)構(gòu)范數(shù)進行建模,自動挖掘不同類別之間的內(nèi)在關(guān)系,并識別出不相關(guān)任務(wù),采用最小平方損失和與混合范數(shù)(核范數(shù)和L1/L2范數(shù))進行建模。

        實驗中選取了4種經(jīng)典的單任務(wù)學(xué)習(xí)方法,包括樸素貝葉斯(NB)、邏輯回歸(LR)、隨機森林(RF)以及RepTree算法進行對比,并且與使用最小平方損失和與Lasso范數(shù)進行計算建模的經(jīng)典多任務(wù)學(xué)習(xí)方法(MTL)進行比較,采用5折交叉驗證,從預(yù)測模型的準確率、精確率以及召回率進行了對比。

        對數(shù)據(jù)集進行訓(xùn)練的過程中,通過隨機分配訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)比例,最終當訓(xùn)練比為0.7的時候,模型效果最佳。并通過與其他5種經(jīng)典的單任務(wù)學(xué)習(xí)方法以及傳統(tǒng)多任務(wù)學(xué)習(xí)方法的對比,可以看出,對于小規(guī)模訓(xùn)練數(shù)據(jù)集的情況,采取魯棒多任務(wù)學(xué)習(xí)方法(RMTL)預(yù)測結(jié)果優(yōu)于傳統(tǒng)的單任務(wù)學(xué)習(xí)算法。

        同時將魯棒的多任務(wù)學(xué)習(xí)與傳統(tǒng)的基于所有任務(wù)都具有相關(guān)性假設(shè)的多任務(wù)進行對比,我們采用最小平方損失和與Lasso范數(shù)進行多任務(wù)計算建模[24],其模型為

        最終驗證魯棒的多任務(wù)學(xué)習(xí)模型性能優(yōu)于Lasso范數(shù)建模的多任務(wù)學(xué)習(xí)模型。

        魯棒多任務(wù)學(xué)習(xí)算法主要包括2個重要的參數(shù):ρ1和ρ2,前者用于控制組結(jié)構(gòu)的低秩約束,后者是控制組稀疏約束,針對任務(wù)聚類和異常任務(wù)同時存在的情況設(shè)計。在實驗過程中,經(jīng)過訓(xùn)練得到正則化參數(shù),當ρ1=400,ρ2=-20的時候,模型效果最佳,預(yù)測準確率最高。

        圖3是幾種方法的正確率、精確率和召回率的圖形結(jié)果。這是基于新浪微博用戶的數(shù)據(jù),在提取出相同的特征基礎(chǔ)上,進行訓(xùn)練的結(jié)果??梢钥闯鲈谡_率、精確率以及召回率上,本文提出的基于魯棒多任務(wù)學(xué)習(xí)預(yù)測新浪微博用戶的大五人格方法優(yōu)于其他幾種方法。魯棒多任務(wù)學(xué)習(xí)方法有效利用5種任務(wù)之間的關(guān)聯(lián)信息,同時避免不相關(guān)信息帶來的干擾,在訓(xùn)練數(shù)據(jù)樣本小的環(huán)境下,提高了模型的預(yù)測性能。

        圖3 6種方法比較Fig.3 Comparison among the six methods

        3.4 結(jié)果分析

        社交網(wǎng)絡(luò)用戶的人格數(shù)據(jù)獲取非常困難,實驗中,基于994名新浪微博用戶的大五人格數(shù)據(jù),提取出微博的靜態(tài)數(shù)據(jù)、動態(tài)數(shù)據(jù)以及文本數(shù)據(jù),共114維特征。在訓(xùn)練樣本數(shù)量少,維度低的情況下,使用傳統(tǒng)的單任務(wù)學(xué)習(xí)方法,極易會造成結(jié)果過擬合現(xiàn)象,因此泛化性能不高。同時由于5種任務(wù)之間存在著一定的相關(guān)性,而傳統(tǒng)的單任務(wù)學(xué)習(xí)方法并沒有充分利用其關(guān)聯(lián)信息。多任務(wù)學(xué)習(xí)方法正好彌補了這兩個缺陷。但是多任務(wù)學(xué)習(xí)是基于多個任務(wù)之間都存在相關(guān)這樣很強的假設(shè)前提的,而5類人格預(yù)測任務(wù)之間并不都是存在著很強的相關(guān)性,因此使用一般的多任務(wù)學(xué)習(xí)在并行學(xué)習(xí)5個維度的人格預(yù)測任務(wù)過程中,由于不能識別存在的異常任務(wù),造成預(yù)測結(jié)果不佳。所以使用魯棒的多任務(wù)學(xué)習(xí)方法對新浪微博用戶進行大五人格預(yù)測,取得了較高的結(jié)果,既能有效利用任務(wù)之間的相關(guān)信息,又能識別出異常任務(wù),因此提高了模型的泛化性能。

        4 結(jié)束語

        隨著社交網(wǎng)絡(luò)在現(xiàn)實生活中的盛行,并且由于社交網(wǎng)絡(luò)中用戶行為數(shù)據(jù)的便于記錄、獲取、存儲與分析,因此將人格理論與社交網(wǎng)絡(luò)相結(jié)合的研究也越來越受到研究者的重視。但是這一方面的研究僅僅出于初步階段,大部分還都是采用單任務(wù)建模的方法,忽略了多個任務(wù)之間的潛在聯(lián)系,因此本文,提出了采用多任務(wù)學(xué)習(xí)的思路預(yù)測社交媒體用戶的人格變量,并通過真實的新浪微博用戶的數(shù)據(jù)進行了驗證,同時通過在相同數(shù)據(jù)集上采取傳統(tǒng)的單任務(wù)學(xué)習(xí)方法進行比較,實驗證明多任務(wù)學(xué)習(xí)方法的預(yù)測效果更優(yōu)于傳統(tǒng)單任務(wù)方法,也優(yōu)于傳統(tǒng)的假設(shè)所有任務(wù)都相關(guān)的多任務(wù)學(xué)習(xí)方法。

        社交網(wǎng)絡(luò)預(yù)測用戶人格研究還存在很大的研究空間,不同的社交網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)的不同,造成了預(yù)測模型的差異,可以在建模過程中合理利用多任務(wù)之間的共享信息,并且在數(shù)據(jù)特征提取方面還需要更進一步的研究,本實驗也將會繼續(xù)擴大實驗規(guī)模,采集更多的社交網(wǎng)站用戶數(shù)據(jù),比如采集微博的動態(tài)數(shù)據(jù),也就是一些隨著時間變化的數(shù)據(jù)特征,并且考慮提取視頻和圖片信息,同時考慮更多的多任務(wù)學(xué)習(xí)方法,修改預(yù)測模型,更大幅度地提高預(yù)測模型精度及泛化性能。

        猜你喜歡
        多任務(wù)范數(shù)人格
        共產(chǎn)黨人的人格力量
        遠去的平凡背影,光輝的偉大人格
        基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認知障礙診斷
        基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
        矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
        基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
        論君子人格的養(yǎng)成
        基于多任務(wù)異步處理的電力系統(tǒng)序網(wǎng)絡(luò)拓撲分析
        電測與儀表(2016年5期)2016-04-22 01:13:46
        一類具有準齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
        未知環(huán)境下基于粒子群優(yōu)化的多任務(wù)聯(lián)盟生成
        計算機工程(2014年6期)2014-02-28 01:26:17
        久久精品国产亚洲av无码偷窥| av深夜福利在线| 特级毛片a级毛片在线播放www| 亚洲av网一区二区三区成人| 午夜视频在线瓜伦| 亚洲日本va中文字幕| 亚洲成a人片在线| 亚洲又黄又大又爽毛片| 国产午夜免费啪视频观看| 亚洲日韩国产av无码无码精品| 色一情一乱一伦一区二区三区| 国产又色又爽又刺激在线播放| 日本少妇人妻xxxxx18| 欧美亚洲h在线一区二区| 国产毛片视频一区二区三区在线 | 久久国产精品免费一区二区| 国产精品日本中文在线| 曰批免费视频播放免费| 在线亚洲午夜理论av大片| 亚洲色成人WWW永久在线观看| 一级二级三一片内射视频| 亚洲精品无码av人在线观看国产| 国产人妻人伦精品1国产盗摄| 亚洲自拍另类欧美综合| 国产av一区二区三区在线 | 日产国产精品亚洲系列| 国产激情在观看| 久久HEZYO色综合| 尤物国产一区二区三区在线观看| 国产免费一区二区三区免费视频| 亚洲av无码国产精品麻豆天美 | 欧美一区二区三区激情| 国产艳妇av在线出轨| 中文字幕亚洲中文第一| 欧美老肥妇做爰bbww| 人人做人人妻人人精| 偷拍女厕尿尿在线免费看| 亚洲成人av在线第一页| 被黑人猛躁10次高潮视频| 国产清品夜色一区二区三区不卡| 中文字幕在线亚洲精品一区|