蔡天鴻 鄧 金 史國陽 朱 晉 懷麗波
(延邊大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智能信息處理研究室 吉林 延吉 133002)
個(gè)體人格與個(gè)人發(fā)展息息相關(guān),人格研究可以幫助人們達(dá)到美好的人生和成功的事業(yè)。在群體生活中,群體成員心理存在社會(huì)標(biāo)準(zhǔn)化傾向,對(duì)于外界事物的認(rèn)知和判斷會(huì)發(fā)生類化,彼此互相影響,如流行于群體中的歌曲、衣著、飲食等在內(nèi)的習(xí)俗化表現(xiàn)。群體人格研究能夠讓人們從更多角度理解某群體的語言,包括一些獨(dú)特的想法、習(xí)慣、情感在內(nèi)的群體文化和群體人格,增強(qiáng)對(duì)某群體的理解和認(rèn)識(shí)。
本文從特定模擬情境入手,記錄大學(xué)生群體在該條件下的文本語言表達(dá),采用多種自然語言處理技術(shù)相結(jié)合的方法獲得該群體的人格分布。依據(jù)實(shí)驗(yàn)所得到的結(jié)果了解學(xué)生的性格,可以因地制宜地教學(xué),對(duì)改善學(xué)習(xí)效果、提高教學(xué)質(zhì)量等研究提供一定的參考價(jià)值。
美國心理學(xué)家茨霍恩最早提出情景模擬法。隨著人類社會(huì)的進(jìn)步和發(fā)展,管理、教學(xué)等領(lǐng)域?qū)θ瞬诺男枨髽O大,將情景模擬測(cè)試運(yùn)用到各個(gè)領(lǐng)域可以更有效地選拔人才。目前把情景測(cè)試法歸納為以下五種:公文處理、無領(lǐng)導(dǎo)的小組討論、角色扮演、起草公文、案例分析。情景模擬法具備趣味性濃、真實(shí)感強(qiáng)的優(yōu)勢(shì),特別是在教學(xué)和人力資源管理方面運(yùn)用得非常廣泛[1]。
隨著對(duì)情景模擬的了解越來越深,近年來,合理運(yùn)用情景模擬法已經(jīng)逐漸成為很多領(lǐng)域不可缺少的一部分。如根據(jù)對(duì)突發(fā)性事件的應(yīng)急場景的模擬,可以測(cè)試相關(guān)人員的合格程度[2];根據(jù)對(duì)急診搶救場景進(jìn)行模擬,讓實(shí)習(xí)護(hù)士學(xué)會(huì)將理論知識(shí)應(yīng)用于實(shí)際操作;將情景模擬教學(xué)與財(cái)務(wù)會(huì)計(jì)相結(jié)合,提高學(xué)生學(xué)習(xí)興趣和實(shí)踐操作能力[3]。情景模擬的應(yīng)用還在不斷擴(kuò)展中,本文將情景模擬應(yīng)用進(jìn)行拓展,用于大學(xué)生群體人物人格分析。
九型人格從古中亞開始發(fā)展,距今已有近兩千五百多年的歷史,在Naranjo、Hudson、David Daniels等來自不同國家的心理學(xué)研究學(xué)者的廣泛推廣下,九型人格逐漸走入現(xiàn)代心理學(xué)體系[4]。作為人格研究工具,RHETI量表是到目前為止九型人格領(lǐng)域使用最多、傳播最廣、影響力最大的量表,該量表被認(rèn)定了充分的信度和效度,以及內(nèi)部的高度一致性[5]。近年來涉及九型人格的領(lǐng)域愈加廣泛,如醫(yī)療、教育、企業(yè)、人才培養(yǎng)等[6]。如2012年柴佳就給出了大學(xué)生教育中個(gè)體人格的分析對(duì)教育的影響[7],但涉及大學(xué)生群體性格研究的文獻(xiàn)相對(duì)較少。本文則采用機(jī)器學(xué)習(xí)分析群體人格,具有一定的研究意義。
文本表示如今普遍采用Salton等提出的向量空間模型。在這個(gè)模型中不必考慮文本中語義單元的順序,而是將文本簡化為一個(gè)BOW(Bag-of-Word),并表示為特征權(quán)重的向量。向量空間模型主要以詞作為特征,以詞頻矩陣為基礎(chǔ)計(jì)算權(quán)重[8]。常用的特征提取方法有文檔頻率、信息增益、互信息、卡方檢驗(yàn)、期望交叉熵、TF-IDF方法和特征降維[9]?,F(xiàn)有的特征降維技術(shù)有PCA等,此外小波變換壓縮數(shù)字信號(hào)的特點(diǎn)也能用來進(jìn)行特征提取[10]。
文本分類是基于內(nèi)容的文本信息挖掘的基本技術(shù)之一,目前常用的文本分類方法主要有樸素貝葉斯分類算法、決策樹分類算法、神經(jīng)網(wǎng)絡(luò)分類算法、K-最近鄰(KNN)分類算法、支持向量機(jī)(SVM)分類算法等。其中SVM算法分類器訓(xùn)練時(shí)間長,而決策樹算法的效率也會(huì)因?yàn)閿?shù)據(jù)量的增大而降低。而KNN算法在準(zhǔn)確率和穩(wěn)定性方面均有優(yōu)勢(shì),它不需要預(yù)先訓(xùn)練模型,同時(shí)具有很好的魯棒性。
情景模擬方法具有一定的情境特征,是一種行為測(cè)試手段。情境模擬規(guī)則是模擬特定的情境,并在一定的情境壓力下對(duì)其進(jìn)行評(píng)估。此外,由于許多人參與測(cè)評(píng),可以為評(píng)價(jià)者提供條件的比較,使評(píng)價(jià)結(jié)果更加準(zhǔn)確。情景模擬是在動(dòng)態(tài)中考核,在動(dòng)態(tài)評(píng)價(jià)中可以提高評(píng)價(jià)的真實(shí)性、有效性。
九型人格也被稱為人格型態(tài)學(xué)。在眾多的人格測(cè)試和劃分方法中,與其他人格分類法不同,九型人格揭示了人們內(nèi)在最深層的價(jià)值觀和注意力焦點(diǎn),它不受外在行為的變化影響。按照一個(gè)人的核心焦點(diǎn)和深層的動(dòng)機(jī)的不同,將人的人格劃分為九類:1號(hào)完美型、2號(hào)助人型、3號(hào)成就型、4號(hào)自我型、5號(hào)理智型、6號(hào)疑惑型、7號(hào)活躍型、8號(hào)領(lǐng)袖型、9號(hào)和平型[11]。2000年后九型人格作為一門理論,開始逐漸在企業(yè)管理、教育、精神治療等領(lǐng)域發(fā)揮作用。另外,機(jī)器學(xué)習(xí)技術(shù)不斷發(fā)展成熟,將九型人格理論和機(jī)器學(xué)習(xí)相結(jié)合將成為可預(yù)見的事實(shí)。
在VSM模型中,單詞權(quán)重計(jì)算最為有效的實(shí)現(xiàn)方法是TF-IDF。它的計(jì)算公式如下:
W(ti,dj)=tf(ti,dj)×idf(ti,d)
(1)
式中:W(ti,dj)是特征項(xiàng)ti在文本dj的權(quán)重取值;tf(ti,dj)是特征項(xiàng)ti在文本dj中出現(xiàn)的頻率,用于計(jì)算該詞描述文檔內(nèi)容的能力;idf(ti,d)是特征項(xiàng)ti在文本集d中出現(xiàn)文本頻率數(shù)的反比,稱為反文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力[12]。
PCA降維方法將高維的詞語特征-文檔空間轉(zhuǎn)換為一個(gè)低維度的正交矩陣,從中選擇最有辨別能力的特征。Wavelet是時(shí)間(空間)頻率的局部化分析,它通過伸縮平移運(yùn)算對(duì)信號(hào)(函數(shù))逐步進(jìn)行多尺度細(xì)化,最終達(dá)到高頻處時(shí)間細(xì)分,低頻處頻率細(xì)分,能自動(dòng)適應(yīng)時(shí)頻信號(hào)分析的要求,從而可聚焦到信號(hào)的任意細(xì)節(jié)。
KNN分類算法能夠確定待分類樣本與訓(xùn)練樣本之間的相似程度,從而確定與待分類樣本距離最近的K個(gè)訓(xùn)練樣本。其最關(guān)鍵的因素是相似性度量方法,最常采用的相似性度量方法是余弦距離,如下所示:
(2)
式中:X,Y代表兩個(gè)文檔表示向量。對(duì)于一個(gè)待分類文本,根據(jù)相似性度量函數(shù)從整個(gè)訓(xùn)練集中找到與文本最相似的K(K是預(yù)先設(shè)定的一個(gè)整數(shù))個(gè)文本,然后根據(jù)K個(gè)近鄰文本所屬的類別給的候選類別評(píng)分。
本文以情景模擬法入手,利用文本分析方法對(duì)大學(xué)生群體人物性格進(jìn)行群體人格判別,具體流程如圖1所示。
圖1 分析方法整體框架圖
首先需要得到有效的訓(xùn)練樣本。讓100位志愿者登錄官網(wǎng)進(jìn)行專業(yè)的九型人格測(cè)試,然后按志愿者人格類型分為九個(gè)小組,并讓每個(gè)小組內(nèi)的志愿者回答設(shè)定的情景模擬題,進(jìn)而得到100個(gè)已經(jīng)標(biāo)定好人格類型的文本樣本。
讀取100個(gè)模板文本樣本,去掉特殊符號(hào)和停頓詞等,剩余詞語為關(guān)鍵詞。為了減少計(jì)算量,本文利用TF-IDF特征提取方法對(duì)關(guān)鍵詞進(jìn)行排序,選取TF-IDF值較大的詞作為類別關(guān)鍵詞,之后根據(jù)篩選好的類別關(guān)鍵詞構(gòu)建向量空間模型a。
逆向文件頻率(IDF)本質(zhì)上是對(duì)噪聲數(shù)據(jù)的加權(quán),本文中如果單純認(rèn)為文本詞頻越小越有用、頻數(shù)越大越無用是片面的,需要加入其他算法對(duì)類別關(guān)鍵詞進(jìn)行優(yōu)化。分別利用PCA特征提取方法和Wavelet特征提取方法對(duì)文本語言表達(dá)集進(jìn)行特征提取,得到PCA空間b、Wavelet空間c。
分別對(duì)提取到的空間a、b、c使用KNN算法進(jìn)行分類,測(cè)試時(shí)選取3×K個(gè)候選項(xiàng),以3×K個(gè)候選項(xiàng)中出現(xiàn)次數(shù)最多的人格類型作為最終判別人格。
本文以“假如去一孤島只能帶三樣?xùn)|西并闡述理由”作為情景模擬,共收集500位大學(xué)生志愿者的回答文本。選取100位志愿者,讓其在九型人格官方測(cè)試網(wǎng)站選取180題的測(cè)試選項(xiàng)進(jìn)行測(cè)試,選取準(zhǔn)確率較高的180題測(cè)試網(wǎng)站作為標(biāo)準(zhǔn),且假定測(cè)試結(jié)果準(zhǔn)確。
為了獲得較好的分類器,從最初獲得的100個(gè)樣本中隨機(jī)選取一定比例的訓(xùn)練樣本和測(cè)試樣本進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1和表2所示。
表1 實(shí)驗(yàn)樣本個(gè)數(shù)為100時(shí)分類器的準(zhǔn)確率
表2 訓(xùn)練樣本數(shù)/測(cè)試樣本數(shù)為4/1時(shí)分類器的準(zhǔn)確率
計(jì)算出分類器的準(zhǔn)確率約在72.3%,該結(jié)果是在假定模板為絕對(duì)正確的前提下進(jìn)行的,所以是相對(duì)結(jié)果。而180題測(cè)試的準(zhǔn)確率約為75%,故實(shí)際準(zhǔn)確率約為0.75×72.3%=54.2%,而常見的測(cè)評(píng)網(wǎng)站例如144題、80題、36題等準(zhǔn)確率一般在50%左右[4]。本文方法與常規(guī)測(cè)評(píng)準(zhǔn)確率接近,可以作為人格測(cè)評(píng)的依據(jù)。前100個(gè)標(biāo)定樣本的分布圖如圖2所示??梢钥闯觯撼?型人格,其他八類人格在訓(xùn)練樣本中分布差別不大,這能有效地縮小分類誤差。
圖2 100個(gè)標(biāo)記樣本群體人格類型分布
1) 在參數(shù)已設(shè)定好的情況下對(duì)其余400個(gè)未標(biāo)定的文本話語進(jìn)行了人格分類,人格分類結(jié)果如圖3所示??梢钥闯?,在整體中九種人格所占比例分別為:1型占3%,2型占9%,3型占45%,4型占17%,5型占6%,6型占4%,7型占8%,8型占4%,9型占4%。其中:所占比例最高的為3型人格,幾乎占到整體的一半;所占比例最低的為1型人格,僅僅只占整體的3%。
圖3 未標(biāo)定的400樣本對(duì)應(yīng)群體人格類型分布
2) 500個(gè)數(shù)據(jù)樣本總分布圖如圖4所示??梢钥闯?,在整體中九種人格所占比例分別為:1型占4%,2型占9%,3型占40%,4型占17%,5型占7%,6型占5%,7型占8%,8型占5%,9型占5%。其中:所占比例最高人格類型為3型(成就型)人格;所占比例最低的為1型(完美型)人格。由此可以發(fā)現(xiàn),這一群體的主流人格為成就型人格。成就型人格的主要特征是在擁有強(qiáng)烈的好奇心,同時(shí)喜歡與人比較,將成就作為衡量自己價(jià)值高低的媒介。不僅如此,擁有該人格的人物自信、積極進(jìn)取、具有接受挑戰(zhàn)的欲望。上述特質(zhì)和實(shí)驗(yàn)研究群體即當(dāng)代大學(xué)生的積極、向上的主流思想特點(diǎn)相吻合,基于TF-IDF方法的文本人物群體人格分析方法是可行且合理的。
圖4 500個(gè)樣本對(duì)應(yīng)群體人格類型分布
針對(duì)日益增長的人物群體人格分析的需求,本文提出了一種基于TF-IDF方法的文本人物群體人格分析的方法。實(shí)驗(yàn)表明,該方法不但能極大地縮短了預(yù)測(cè)人格的時(shí)間,而且具有相當(dāng)大的可信度。本文提出的文本人物群體人格分析則能在短時(shí)間內(nèi)高效地獲取學(xué)生人格分析結(jié)果,真正做到因材施教。下一步需做的工作有如何進(jìn)一步提高分類器可信度以及引入人物的動(dòng)作神態(tài)指標(biāo)等。