葉又銘 蔣杰
【摘 要】目前高中生填報高考專業(yè)具有很大的盲目性,導(dǎo)致對未來的職業(yè)發(fā)展和人才培養(yǎng)質(zhì)量產(chǎn)生不良影響。為解決該問題,本文基于一個主題情感混合最大熵LDA模型,對高校專業(yè)在線評論進行細(xì)粒度觀點挖掘,獲取相關(guān)主題(專業(yè))的情感極性,生成細(xì)粒度的主題情感摘要,為高中生的專業(yè)選擇提供有價值的指導(dǎo)信息,實驗驗證了本文所提出理論的有效性。
【關(guān)鍵詞】LDA模型 細(xì)粒度觀點挖掘 專業(yè)選擇 情感摘要
高中畢業(yè)生填報高考專業(yè)志愿的過程是對未來職業(yè)生涯發(fā)展規(guī)劃做出重要職業(yè)決策的過程,它關(guān)系到學(xué)生個人的發(fā)展,也關(guān)系到社會對專業(yè)人才的需求。另外,每個大學(xué)都有自己的辦學(xué)特色和優(yōu)勢專業(yè),能否恰當(dāng)選擇心儀學(xué)校的特色專業(yè)會影響考生未來的職業(yè)發(fā)展前途,同時也會對高校招生生源素質(zhì)及培養(yǎng)人才質(zhì)量產(chǎn)生影響[1]。
每年高考成績公布與志愿填報之間的時間非常短,高中畢業(yè)生需要在短短的幾天內(nèi)對自己的專業(yè)填報做出決策[2]。而此時高中生正處于從少年階段向青年階段過渡的時候,自我認(rèn)知不明,在面臨高考專業(yè)選擇這種重大決策時,容易盲目和無所適從,進而做出倉促選擇,很多學(xué)生選擇了心儀學(xué)校的不滿意專業(yè),這樣可能會導(dǎo)致在進入大學(xué)后出現(xiàn)對所選專業(yè)感到后悔并產(chǎn)生厭學(xué)情緒[3]。
一項北京某高校的調(diào)查顯示,在接受調(diào)查的840名大學(xué)生中,有42.1%的學(xué)生對所學(xué)專業(yè)不滿意,如果可以重新選擇專業(yè),有65.5%的學(xué)生表示將另選專業(yè);有研究表明,大約50%的美國大學(xué)生最終都調(diào)整了他們的專業(yè)方向[2]。產(chǎn)生這種現(xiàn)象的主要原因有兩個:(1)大學(xué)生的心理發(fā)育比中學(xué)時期更加成熟和穩(wěn)定,自我認(rèn)知更加清晰;(2)在大學(xué)特定的生活和學(xué)習(xí)環(huán)境下,大學(xué)生的獨立個性和認(rèn)知水平得到發(fā)展,會對先前盲目做出的專業(yè)選擇進行重新思考。
因此,與高中生相比,高校學(xué)生對專業(yè)結(jié)構(gòu)和學(xué)校特色有著更深刻的認(rèn)識,從他們那里獲取高考專業(yè)選擇的相關(guān)觀點會對高考志愿填報產(chǎn)生積極的影響[4],因此對高校學(xué)生關(guān)于專業(yè)選擇的在線評論進行觀點挖掘和分析具有一定的研究意義。
網(wǎng)絡(luò)在線評論中,評價者通常會對學(xué)校不同專業(yè)持有不同的情感傾向,而參考者更希望獲取每個學(xué)校具體專業(yè)方面有價值的評價,只有使用細(xì)粒度的觀點挖掘方法和模型進行分析,從詞語級別進行更細(xì)化的情感分類[5],才能挖掘更深層次的觀點來滿足高考專業(yè)選擇的實際應(yīng)用需求。
近年來,很多學(xué)者將LDA(Latent Dirichlet Allocation)模型應(yīng)用到觀點挖掘領(lǐng)域,標(biāo)準(zhǔn)LDA模型要加以改進后才能用于細(xì)粒度觀點挖掘[6]。文獻[5]在綜合以上模型優(yōu)點的基礎(chǔ)上提出主題情感混合最大熵LDA模型,通過在傳統(tǒng)LDA模型中加入最大熵組件來區(qū)分背景詞、特征詞和觀點詞,并對特征詞和觀點詞進行局部和全局的劃分,在主題層和單詞層之間加入情感層,實現(xiàn)詞語級別的細(xì)粒度情感分析,獲取每個主題的情感極性。該模型克服了標(biāo)準(zhǔn)LDA詞袋模型的不足,充分利用了詞的位置和語義信息,將主題和情感分析細(xì)化到詞語級別,提高了觀點挖掘的精確度,可以為參考者提供更有實用價值的反饋信息。
本文擬采用TSH MaxEnt-LDA模型對高校關(guān)于專業(yè)的在線評論進行細(xì)粒度觀點挖掘,為高考畢業(yè)生的專業(yè)選擇提供有價值的指導(dǎo)信息,幫助他們對未來職業(yè)發(fā)展規(guī)劃做出更準(zhǔn)確的決策。
1 模型描述
TSH MaxEnt-LDA模型的生成過程描述如下[5]:
1.1 對一個語料庫
(1)得出單詞分布Φ~ Dir(β)(背景詞:ΦB,全局特征詞:ΦA(chǔ),g,全局觀點詞:ΦO,g,局部特征詞:{ΦA(chǔ),t,s}, 局部觀點詞:{ΦO,t,s}(s=0,1 t=1,.....,T),
(2)得出詞型分布ρ ~ Beta(η);
1.2 對語料庫中每一篇文檔d
(1)得出文檔的主題分布θd ~Dir(α),
(2)對文檔中每個主題z,得出對應(yīng)情感分布πd,z~Beta(γ);
1.3 對文檔d中每個句子m
(1)選擇對應(yīng)主題zd,m,其中zd,m~ Multinomial(θd),
(2)對給定主題zd,m,選擇其對應(yīng)情感sd,m,z,其中sd,m,z~Bernoulli(πd,z);
1.4 對句子m 中每個詞n (wd,m,n)
(1)得出單詞wd,m,n 對應(yīng)的主題zd,m和情感sd,m,z,它與所在句子具有相同的主題和情感,
(2)選擇對應(yīng)詞型ud,m,n,其中ud,m,n~ Bernoulli(ρ),
(3)選擇對應(yīng)詞類yd,m,n,其中yd,m,n~ Multinomial(xd,m,n),
(4)wd,m,n 的對應(yīng)分布如下:
。
TSH MaxEnt-LDA模型的假設(shè)前提為:1.每個句子只屬于一種主題和情感,每個單詞和所在句子有著相同的主題和情感;2.在情感分類中只考慮正向和負(fù)向兩種情感極性,通過計算取概率值大的那個極性值。TSH MaxEnt-LDA模型是在詞語級別產(chǎn)生情感和主題標(biāo)簽,粒度更細(xì),進而獲取每個主題的情感極性,生成細(xì)粒度主題情感摘要,它采用Gibbs采樣來估計模型中的相關(guān)參數(shù)ρ, θ, π and Φ,進而計算得到第d篇文檔中每個詞的主題和情感標(biāo)簽[5]。
本文在熱點貼吧和高校論壇上采集了關(guān)于學(xué)校專業(yè)的評論作為研究的語料庫,基于TSH MaxEnt-LDA模型,關(guān)于專業(yè)選擇的在線評論對應(yīng)術(shù)語描述如下:
語料庫中的所有評論涉及到的專業(yè)總數(shù)為T,對應(yīng)于模型中的主題;語料庫中每一篇文檔d∈D,它都是關(guān)于某個高校相關(guān)專業(yè)的評論,是由T個主題(專業(yè))按照一定比例混合而成。在評論中對每個主題(專業(yè))都具有一定的情感傾向。
對本文中所研究的高校專業(yè)評論語料庫,對任一文檔d∈D,TSH MaxEnt-LDA模型下相關(guān)的Gibbs采樣過程如圖1所示,通過文獻[5]中相關(guān)采樣估計和條件概率公式,可以得到本語料庫所有文檔中詞的主題和情感標(biāo)簽,在此基礎(chǔ)上獲取每個主題(專業(yè))的情感極性,生成細(xì)粒度主題情感摘要。
2 實驗
本文實驗采用的語料數(shù)據(jù)來自百度貼吧、校園BBS、考研論壇等信息門戶中對華中師范大學(xué)專業(yè)學(xué)科的在線評論,其中大部分為心理學(xué)、教育學(xué)、計算機科學(xué)等學(xué)科的評價內(nèi)容。實驗中手動整理了273篇評論,約1470條句子,采用中國科學(xué)院計算技術(shù)研究所提供的漢語詞法分析系統(tǒng)ICTCLAS進行分詞。實驗中Gibbs采樣參數(shù)設(shè)置如下:迭代次數(shù)=500,α=30/T,β=0.1,γ=1,η=0.5,τ=1,主題數(shù)目T設(shè)置為7。
實驗過程如下:首先對詞性和詞類進行分析,區(qū)分出全局和局部的特征詞與情感詞,在此基礎(chǔ)上進行主題與情感極性分析,最后生成細(xì)粒度主題情感摘要,并將聚類結(jié)果歸為三個主題:心理學(xué),教育學(xué),計算機科學(xué),按照情感的正負(fù)極性,列出每一主題下出現(xiàn)頻率最高且十分具有代表性的局部特征詞與情感詞,其中P代表正向情感,N代表負(fù)向情感,實驗結(jié)果如表1所示。
由表1可知,每個主題(專業(yè))下的局部特征詞都非常具有代表性,對應(yīng)的局部觀點詞也是專門用來形容相應(yīng)主題的情感評價詞,從表中數(shù)據(jù)可以得出:高校熱議專業(yè)相關(guān)熱門話題的關(guān)鍵詞和相應(yīng)觀點、專業(yè)就業(yè)的難易程度與前景也都是評論者所關(guān)心的問題,與實際情況相符,語料庫中高校在讀學(xué)生的在線評論數(shù)據(jù),在使用TSH MaxEnt-LDA模型進行細(xì)粒度觀點挖掘后,能夠為高考畢業(yè)生的專業(yè)選擇提供有價值的指導(dǎo)信息,減少報考志愿的盲目性。
參考文獻:
[1]王勤,童腮軍.高考學(xué)生專業(yè)選擇與專業(yè)興趣相符性研究.黑龍江高教研究,2004年第9期總第125期:20-22.
[2]徐芃,葉浩生,陸財深.專業(yè)志愿選擇影響職業(yè)決策的統(tǒng)計模型分析.華中師范大學(xué)學(xué)報(人文社會科學(xué)版),2014年7月,第53卷第4期:171-176.
[3]曹明樂.高考志愿填報專業(yè)選擇行為探析.2009年12月號中旬刊:121-123.
[4]羅丹.生源減縮背景下高考學(xué)生專業(yè)志愿選報研究.教育與考試,2013年第3期:5-9.
[5]馬長林,謝羅迪,王夢,司琪.基于主題情感混合模型的細(xì)粒度觀點挖掘.華中科技大學(xué)學(xué)報(自然科學(xué)版),2015年10月,v43(sI):66-70.
[6]Brody S,Elhadad N.An unsuper-vised.aspect-sentiment.model.for.online.reviews[C] //In.Proceedings.of.Human.Language.Technologies:The.Annual.Conference.of.the North.American.Chapter.of.the.Association.for.Computational.Linguistics,2010: 804-812.
[7]Yohan.J,Alice.HO.Aspect.and.sentiment.unification.model,for.online.review.analysis[C] //Proceedings.of.the.fourth ACM international.conference.on.Websearch and data mining.(2011).ACM,2011:815-824.