亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代心理學(xué)文本分析技術(shù)
        ——“主題模型”的應(yīng)用*

        2018-05-14 05:54:38任志洪林秀彬升賴麗足江光榮
        心理科學(xué)進(jìn)展 2018年5期
        關(guān)鍵詞:文本模型研究

        曹 奔 夏 勉 任志洪 林秀彬 徐 升賴麗足 王 琪 江光榮

        (1華中師范大學(xué)心理學(xué)院暨湖北省人的發(fā)展與心理健康重點(diǎn)實(shí)驗(yàn)室,青少年網(wǎng)絡(luò)心理與行為教育部重點(diǎn)實(shí)驗(yàn)室,武漢 430079)

        (2福州大學(xué)應(yīng)用心理學(xué)系,福州 350108)

        (3 Department of Counseling Psychology,University of Wisconsin-Madison,Wisconsin 53703,USA)

        人的語(yǔ)言活動(dòng)包含復(fù)雜的心理過(guò)程,并且語(yǔ)言也參與諸如知覺(jué)、記憶和思維等許多復(fù)雜的心理活動(dòng)(王甦,汪圣安,2006),因此詞匯和語(yǔ)言是人們將自己的內(nèi)心想法和情感轉(zhuǎn)化成其他人能理解的內(nèi)容最普遍且可靠的方式,是認(rèn)知、人格、臨床和社會(huì)心理學(xué)家試圖了解人類的重要媒介(Tausczik &Pennebaker,2010)。通過(guò)語(yǔ)言文字研究人類的心理活動(dòng),伴隨著心理學(xué)發(fā)展的整個(gè)過(guò)程。

        但利用傳統(tǒng)方法對(duì)大文本進(jìn)行研究面臨困境,需要新的研究手段。比如,長(zhǎng)期以來(lái)心理咨詢領(lǐng)域積累的大量咨詢逐字稿文本沒(méi)有被利用(Greenberg&Newman,1996),從上世紀(jì)40年代羅杰斯第一次對(duì)心理咨詢過(guò)程進(jìn)行錄音以來(lái),對(duì)心理咨詢?cè)u(píng)估的方法就沒(méi)有什么改變(Weusthoff et al.,2016)。此外,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們?cè)谏缃痪W(wǎng)絡(luò)中發(fā)表了大量包含各種思想、情感、觀點(diǎn)的文本信息,這些文本包含著豐富的心理學(xué)含義(樂(lè)國(guó)安,董穎紅,陳浩,賴凱聲,2013)。面對(duì)大規(guī)模富含研究?jī)r(jià)值的文本數(shù)據(jù),使用傳統(tǒng)的心理學(xué)研究處理方法將帶來(lái)巨大的人力與時(shí)間消耗(朱廷劭,2016)??上驳氖?隨著計(jì)算機(jī)文本挖掘技術(shù)及其與統(tǒng)計(jì)技術(shù)的結(jié)合,所發(fā)展的計(jì)算機(jī)化文本分析技術(shù)(Computerized Text Analysis)為研究者提供了新的文本研究工具,使得大規(guī)模的文本數(shù)據(jù)研究變得可行(Graesser,McNamara,&Kulikowich,2011;Tausczik&Pennebaker,2010)。

        “主題模型” (Topic Model)是計(jì)算機(jī)化文本分析的重要方法之一,也被稱為隱含的狄利克雷分布(Latent Dirichlet Allocation,LDA;Blei,Ng,&Jordan,2003;Griffiths,Steyver &Griffiths,2007),由于對(duì)大文本具有強(qiáng)大的分析與建模能力,目前在計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、管理科學(xué)等領(lǐng)域得到了廣泛的應(yīng)用,在心理學(xué)領(lǐng)域也有諸多的研究與應(yīng)用(Kosinski,Wang,Lakkaraju,&Leskovec,2016;Lee et al.,2017)。本文在對(duì)主題模型的原理進(jìn)行闡述的基礎(chǔ)上,對(duì)國(guó)內(nèi)外心理學(xué)領(lǐng)域利用主題模型開(kāi)展的研究及其局限進(jìn)行系統(tǒng)梳理,并對(duì)未來(lái)的研究方向作展望。

        1 主題模型

        1.1 主題模型的發(fā)展

        計(jì)算機(jī)化文本分析主要基于兩個(gè)層面,第一個(gè)層面是基于詞頻統(tǒng)計(jì)與情感傾向分析對(duì)文本特征進(jìn)行提取,這種分析方法的思想認(rèn)為人的詞語(yǔ)語(yǔ)言的使用是其特質(zhì)和心理過(guò)程的反映,通過(guò)對(duì)詞語(yǔ)的量化統(tǒng)計(jì)來(lái)探索語(yǔ)言詞語(yǔ)的使用和心理過(guò)程之間的關(guān)系。目前在心理學(xué)領(lǐng)域應(yīng)用較廣的是Pennebaker等人在上世紀(jì) 90年代開(kāi)發(fā)的“語(yǔ)言探索與字詞計(jì)數(shù)”軟件(Linguistic Inquiry and Word Count,LIWC;Pennebaker,Chung,Ireland,Gonzales,&Booth,2007),LIWC在人格特征、注意指向、思維方式、親密關(guān)系、社會(huì)關(guān)系、情緒與心理健康等眾多研究領(lǐng)域有著大量的應(yīng)用(Tausczik &Pennebaker,2010)。參照LIWC和我國(guó)臺(tái)灣學(xué)者編制的能夠處理繁體中文文本的CLIWC,國(guó)內(nèi)研究者高銳等人(2013)開(kāi)發(fā)了“文心” (TextMind)中文語(yǔ)義分析系統(tǒng),其詞庫(kù)、文字和符號(hào)等處理方法專門(mén)針對(duì)簡(jiǎn)體中文語(yǔ)境,詞庫(kù)分類體系也與LIWC兼容一致(朱廷劭,2016)。雖然基于詞頻統(tǒng)計(jì)和情感傾向的文本分析方法取得了很多成果,但是以心理詞典為基礎(chǔ)的文本分析只是在處理詞語(yǔ)的階段,對(duì)文本的分析也只能受限于詞典所創(chuàng)建的詞匯類別,并且詞典也無(wú)法理解語(yǔ)境、反話、同義詞對(duì)于語(yǔ)義的影響,更無(wú)法從句子、段落等更高的意義單元來(lái)理解文本(Pennebaker,Mehl,&Niederhoffer,2003;Imel,Steyvers,&Atkin,2015)。

        為了從更高的意義單元理解文本,獲取準(zhǔn)確的語(yǔ)義信息,需要結(jié)合文本背景信息探索文本語(yǔ)義結(jié)構(gòu),這也是計(jì)算機(jī)化文本分析的第二個(gè)層面,這種方法源于Deerwester,Dumais,Furnas,Landauer和Harshman (1990)提出潛在語(yǔ)義分析(Latent Semantic Analysis,LSA),該方法認(rèn)為可以從整個(gè)語(yǔ)言的統(tǒng)計(jì)分布中學(xué)習(xí)單詞的含義,并提出了類似于“主題”的“人工概念” (artificial concept)。目前 LSA 在心理學(xué)領(lǐng)域有諸多應(yīng)用,例如它是語(yǔ)義空間研究的主要方法之一(魯忠義,孫錦繡,2007),但由于一個(gè)詞語(yǔ)只能屬于一個(gè)人工概念,LSA無(wú)法解決“一詞多義”的問(wèn)題(Deerwester et al.,1990;Abdi &Williams,2010)。并且LSA提取的人工概念可理解性較差,最為重要的是LSA無(wú)法加入文本元數(shù)據(jù)(作者信息、文本發(fā)表時(shí)間、學(xué)術(shù)論文間的引用、論文發(fā)表會(huì)議名稱等)和領(lǐng)域知識(shí)(其他文本研究領(lǐng)域的研究成果,如人工定義的語(yǔ)義概念的層次結(jié)構(gòu)),這就使得LSA的靈活性差,應(yīng)用范圍相對(duì)狹小(丁軼群,2010)。

        第一個(gè)真正意義上的主題模型是概率性潛在語(yǔ)義分析(Probabilistic Latent Semantic Analysis/Indexing,PLSA/PLSI;Hofmann,1999),它借鑒了LSA方法的長(zhǎng)處,并且LSA的三個(gè)問(wèn)題在PLSA中都得到了解決,PLSA圖模型圖1所示。

        圖1 PLSA示意圖

        圖中的白色圓圈代表隱藏著的隨機(jī)變量,一般是指主題等潛在語(yǔ)義結(jié)構(gòu),灰色的圓圈代表我們可觀測(cè)到的文本,M代表文檔數(shù),N代表文檔的長(zhǎng)度,d代表文檔,z代表隱含的主題,w代表單詞,在PLSA中文本生成過(guò)程如下:

        (1)隨機(jī)選擇一個(gè)文檔d~p (d);

        (2)根據(jù)p (z|d)選擇一個(gè)隱含的主題;

        (3)根據(jù)主題選擇w~p (w|z),直至文檔中所有單詞重復(fù)上述過(guò)程。

        由于 PLSA模型中單詞可以以概率的形式在多個(gè)主題中存在,所以一詞多義的問(wèn)題得到了解決(Hofmann,1999)。此外PLSA以貝葉斯網(wǎng)絡(luò)為理論基礎(chǔ),元數(shù)據(jù)和領(lǐng)域知識(shí)可以作為額外的隨機(jī)變量添加至模型中,并且 PLSA提取的主題比人工概念更容易理解(Cohn &Hofmann,2001)。但由于在PLSA中隱含的主題中p (z|d)的參數(shù)沒(méi)有生成的方法,而是直接以模型參數(shù)的方式表達(dá),所以PLSA 并沒(méi)有被認(rèn)為是完整的概率性文本生成模型(徐戈,王厚峰,2011)。直至 Blei,Ng和Jordan (2003)提出隱含的狄利克雷分布(Latent Dirichlet Allocation,LDA),第一個(gè)完整的概率性語(yǔ)義生成模型正式出現(xiàn),現(xiàn)在主題模型一般都指LDA模型。

        1.2 主題模型的含義

        LDA模型通常也被稱為語(yǔ)義模型(Semantic Model),以及在LDA模型基礎(chǔ)上的擴(kuò)展模型。它是利用無(wú)監(jiān)督的機(jī)器學(xué)習(xí)(Unsupervised learning)程序在一系列文檔中發(fā)現(xiàn)隱含語(yǔ)義結(jié)構(gòu)的一種統(tǒng)計(jì)模型,隱含語(yǔ)義結(jié)構(gòu)由一組相關(guān)的主題構(gòu)成,而文本以概率抽樣的方式從該潛在語(yǔ)義結(jié)構(gòu)中生成(Blei et al.,2003;Griffiths et al.,2007)。LDA 模型可以用貝葉斯網(wǎng)絡(luò)進(jìn)行表達(dá),具體如圖2所示。

        圖2 LDA模型示意圖

        圖中圓圈的含義與圖1相同,φ代表主題k中詞項(xiàng)的概率分布,θd代表文檔 d的主題概率分布,兩者還作為多項(xiàng)式分布的參數(shù)分別生成主題和單詞。M代表文檔數(shù),N代表文檔的長(zhǎng)度,K代表主題數(shù)。wd,n代表第d篇文檔中的第n個(gè)單詞,zd,n代表第d篇文檔中的第n個(gè)主題。α和β是狄利克雷分布的參數(shù)。文本由抽樣的方式從LDA模型生成,文本集合D中長(zhǎng)度為N的某文本d生成過(guò)程如下:

        (1)從泊松分布Poisson (ξ)隨機(jī)抽樣長(zhǎng)度為N的文檔d,

        (2)從狄利克雷分布 Dirichlet(α) 中抽樣文本和各主題之間的聯(lián)系θd,

        (3)對(duì)文本d中的每一個(gè)單詞wd,n∈,n{1,2,…,Nd}依次進(jìn)行如下操作:

        a 從多項(xiàng)分布Multinomial (θd)抽樣單詞wd,n的主題zd,n;

        b 從多項(xiàng)分布 Multinomial (wd,n|zd,n,φ)中抽取單詞wd,n。

        可以看出在文本生成之前會(huì)有一個(gè)表示文本和主題關(guān)系的θd先生成,它是一個(gè)代表K個(gè)主題的K維向量,其中的元素值之和為1,每個(gè)元素值表示該主題在文本中出現(xiàn)的概率,接著是文本中單詞wd,n的生成,先抽取單詞wd,n所屬的主題zd,n,然后再?gòu)脑撝黝}中抽取單詞 zd,n,然后重復(fù)以上過(guò)程直至抽取文檔中的所有單詞。主題模型的參數(shù)有多種估計(jì)方法,如變分貝葉斯推斷(Variational Bayesian Inference,VB;Blei,Ng,&Jordan,2003),目前最常用的方法是Gibbs抽樣法。

        1.3 主題模型的優(yōu)點(diǎn)

        1.3.1 突出的數(shù)據(jù)降維能力

        有效的計(jì)算機(jī)化文本分析技術(shù)需要能夠?qū)ξ谋具M(jìn)行高質(zhì)量的降維,LDA是常用的降低大數(shù)據(jù)集維數(shù)的方法之一,其他的降低數(shù)據(jù)維數(shù)的方法還包含主成分分析(Principal Component Analysis,PCA)以及奇異值分解(Singular Value Decomposition,SVD)等(Kosinski,Matz,Gosling,Popov,&Stillwell,2015;Park et al.,2015)。由于大數(shù)據(jù)集中通常存在著比用戶數(shù)更多的變量,在這種情況下減少數(shù)據(jù)的維度就顯得十分的必要,因?yàn)榇蠖鄶?shù)統(tǒng)計(jì)分析要求變量數(shù)小于樣本量,并且即使是樣本量大于變量的情況,降低數(shù)據(jù)維度會(huì)降低數(shù)據(jù)過(guò)度擬合的風(fēng)險(xiǎn),提高統(tǒng)計(jì)檢驗(yàn)力;其次,通過(guò)對(duì)數(shù)據(jù)進(jìn)行分組,可以消除數(shù)據(jù)中的多重共線性和冗余(redundancy)問(wèn)題;第三,一個(gè)小的維度或集群的數(shù)據(jù),比成百上千的獨(dú)立變量更容易對(duì)問(wèn)題進(jìn)行解釋;最后,降低維度數(shù)能夠減少進(jìn)一步分析所占用的內(nèi)存以及計(jì)算時(shí)間(Kosinski et al.,2016)。另外和 PLSA模型一樣,主題模型解決了一詞多義的問(wèn)題,并且對(duì)數(shù)據(jù)的降維也自動(dòng)解決了多詞一義的問(wèn)題。

        1.3.2 靈活的模型擴(kuò)展能力

        由于主題模型以貝葉斯網(wǎng)絡(luò)為理論基礎(chǔ),因此元數(shù)據(jù)和領(lǐng)域知識(shí)可以作為額外的隨機(jī)變量添加至模型中,也能夠把不同的主題模型合并形成一個(gè)新的主題模型(丁軼群,2010)。自第一個(gè)LDA模型提出來(lái)以后,眾多研究人員根據(jù)不同研究的需要,在主題模型中成功加入了各種元數(shù)據(jù)信息從而構(gòu)建出了不同的主題模型,如相關(guān)主題模型(Blei &Lafferty,2005)、時(shí)間主題模型(Wang,Blei,&Heckerman,2012)等,這些擴(kuò)展模型極大的豐富了主題模型的應(yīng)用范圍。

        另外研究人員通過(guò)在 LDA模型中加入單詞之間的關(guān)系、語(yǔ)法知識(shí)等信息,在一定程度上能夠克服詞袋模型(bag of words)帶來(lái)的問(wèn)題。詞袋模型將文本看作是獨(dú)立詞語(yǔ)的集合,而不考慮詞語(yǔ)出現(xiàn)的順序,也不考慮文本的句法和語(yǔ)義信息,雖然極大的提高了文本分析的效率,但是也存在明顯的缺陷,因?yàn)樵~匯的分布順序、詞的結(jié)構(gòu)以及語(yǔ)法信息都會(huì)影響對(duì)詞匯含義的理解(Wallach,2006)。將這些詞匯信息加入到主題模型能夠幫助我們獲取更準(zhǔn)確的語(yǔ)義。例如 Andrews和 Vigliocco(2010)提出隱含馬爾科夫主題模型(Hidden Markov Topic Model,HMTM),通過(guò)關(guān)注句子之間順序和一般語(yǔ)法關(guān)系,從語(yǔ)言中獲取語(yǔ)法和語(yǔ)義相關(guān)性,從而對(duì)語(yǔ)義做出更為有效的推斷。Body-Graber和 Blei (2009)將語(yǔ)法樹(shù)結(jié)構(gòu)加入到主題模型中構(gòu)建了語(yǔ)法主題模型(Syntactic Topic Models,STM)。雖然不同的擴(kuò)展模型之間存在差異,但它們都應(yīng)用于文本主題識(shí)別以及文本主題之間關(guān)系的研究(丁軼群,2010)。

        總的來(lái)說(shuō),LDA模型在目前看來(lái)是一種較為優(yōu)秀的計(jì)算機(jī)化文本分析方法。一方面,LDA模型在一定程度上克服了基于詞頻統(tǒng)計(jì)和情感傾向分析的計(jì)算機(jī)化文本分析方法的局限性;另一方面,由于LDA模型在LSA以及PLSA的基礎(chǔ)上發(fā)展而來(lái),能夠從更高的語(yǔ)義層面進(jìn)行文本分析的同時(shí),也在一定程度上克服了LSA及PLSA的不足。

        2 主題模型在心理學(xué)文本分析領(lǐng)域的具體應(yīng)用

        由于主題模型強(qiáng)大的文本分析能力,目前在文本分析領(lǐng)域有著豐富的研究與應(yīng)用。近年來(lái),主題模型在心理學(xué)文本分析領(lǐng)域的應(yīng)用也逐漸增多,我們可以將目前主題模型在心理學(xué)領(lǐng)域的應(yīng)用,分為利用心理咨詢文本研究和網(wǎng)絡(luò)行為數(shù)據(jù)研究。接下來(lái)結(jié)合具體研究應(yīng)用分別進(jìn)行介紹。

        2.1 心理咨詢領(lǐng)域的研究

        在心理咨詢領(lǐng)域,主題模型被用作無(wú)監(jiān)督或監(jiān)督的學(xué)習(xí)模型(John Lu,2010)。主題模型本身是一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)的統(tǒng)計(jì)模型,無(wú)監(jiān)督的機(jī)器學(xué)習(xí)是指通過(guò)數(shù)據(jù)內(nèi)在的一些屬性和聯(lián)系,將數(shù)據(jù)自動(dòng)分類;此外機(jī)器學(xué)習(xí)還有監(jiān)督學(xué)習(xí)(Supervised Learning)和半監(jiān)督學(xué)習(xí)(Semi- Supervised Learning)。監(jiān)督學(xué)習(xí)是指在知道數(shù)據(jù)包含類別情況下,我們可以先對(duì)一部分?jǐn)?shù)據(jù)(訓(xùn)練數(shù)據(jù))標(biāo)注類別,并將此通過(guò)算法推廣到剩余數(shù)據(jù)中;半監(jiān)督學(xué)習(xí)是指利用大量的無(wú)標(biāo)注數(shù)據(jù)來(lái)改進(jìn)監(jiān)督學(xué)習(xí),利用觀察數(shù)據(jù)(包括已標(biāo)識(shí)數(shù)據(jù)和未標(biāo)識(shí)數(shù)據(jù))及相關(guān)的知識(shí)對(duì)未標(biāo)識(shí)的觀察數(shù)據(jù)的標(biāo)識(shí)做出適當(dāng)合理的推斷,從而訓(xùn)練出更好的分類器(陳凱,朱鈺,2007)。

        作為無(wú)監(jiān)督學(xué)習(xí)模型,主題模型主要用于探索性資料分析,該模型利用提供的咨詢逐字稿的文本,來(lái)探索、發(fā)現(xiàn)和總結(jié)文本中討論的主題類型;而監(jiān)督學(xué)習(xí)模型,主要是利用主題模型來(lái)預(yù)測(cè)一些變量,例如利用標(biāo)記主題模型(Labeled Topic Model)將行為編碼分配至不同的咨詢文本之中(Weusthoff et al.,2016)。

        2.1.1 心理咨詢文本的探索性研究

        主題模型的分析結(jié)果通常描述了咨詢過(guò)程中咨詢師和來(lái)訪者之間的會(huì)談主題,它通過(guò)統(tǒng)計(jì)單詞之間的共現(xiàn)(co-occurrence)關(guān)系將單個(gè)單詞與主題相關(guān)聯(lián),和其他單詞共同出現(xiàn)的詞往往被放在同一主題中,即主題由單詞列表的形式呈現(xiàn)。Atkins等人(2012)第一次利用主題模型對(duì)約有650萬(wàn)字的夫妻治療逐字稿進(jìn)行主題抽取,研究發(fā)現(xiàn)諸如“家人、關(guān)系、經(jīng)濟(jì)、性、工作、交通”六個(gè)主題會(huì)在夫妻治療中經(jīng)常出現(xiàn)。與此類似,Imel等人(2015)利用主題模型對(duì) 1,533次咨詢會(huì)談進(jìn)行相似主題提取,模型確定了咨詢過(guò)程中發(fā)生的一些主題,例如關(guān)系類主題(包含家庭角色、性、親密關(guān)系等子類別)、治療類主題(包含行為模式、藥物、目標(biāo)設(shè)定等子類別)、情緒類主題(包括焦慮、抑郁、享受等子類別)及其他類別。

        利用主題模型可以發(fā)現(xiàn)咨詢過(guò)程中的特定內(nèi)容,例如特定干預(yù)或重要話題、藥物和酒精使用等(Weusthoff et al.,2016)。由于在不同的會(huì)談水平,如談話輪(talk turns)或整個(gè)會(huì)談(session),主題模型的結(jié)果會(huì)以概率分布的形式呈現(xiàn),因此可識(shí)別具有特定內(nèi)容(例如特定干預(yù)或重要主題)的單個(gè)談話輪,例如Gaut,Steyvers,Imel,Atkins和Smyth(2017)使用主題模型對(duì)咨詢逐字稿談話輪水平進(jìn)行主題抽取,發(fā)現(xiàn)主題模型能夠較好的提取關(guān)于“物質(zhì)使用”等主題。

        在擁有健康體魄的基礎(chǔ)上,應(yīng)對(duì)兒童進(jìn)行各種訓(xùn)練,使其適應(yīng)抗戰(zhàn)建國(guó)的需要。1938年,賴學(xué)文和林仲愷都強(qiáng)調(diào)對(duì)兒童進(jìn)行精神訓(xùn)練、體魄訓(xùn)練、技能訓(xùn)練、生活訓(xùn)練、知識(shí)訓(xùn)練等。其中,精神訓(xùn)練是培養(yǎng)兒童以愛(ài)護(hù)民族國(guó)家為重,培養(yǎng)其愛(ài)國(guó)觀念,啟發(fā)其民族意識(shí);體魄訓(xùn)練以體育鍛煉為主,培養(yǎng)兒童身強(qiáng)體健,精神煥發(fā);技能訓(xùn)練主要是讓兒童熟練應(yīng)付抗戰(zhàn)時(shí)期的基本技能,比如防毒、消防、救護(hù)、宣傳、偵查等等;生活訓(xùn)練是培養(yǎng)兒童在生活中形成守紀(jì)律、尚禮貌、吃苦耐勞、互相合作的品德;知識(shí)訓(xùn)練是給兒童灌輸戰(zhàn)時(shí)知識(shí),明了國(guó)內(nèi)的形勢(shì)、抗戰(zhàn)的局勢(shì),認(rèn)識(shí)國(guó)際關(guān)系以及國(guó)際現(xiàn)狀等[18]。

        另外可以利用主題模型比較不同心理治療方法的語(yǔ)言相似性(Rubin,Chambers,Smyth,&Steyvers,2012)。Imel等人(2015)利用主題模型對(duì)4種不同療法的咨詢逐字稿(N = 1,553)主題提取結(jié)果對(duì)每個(gè)會(huì)談進(jìn)行比較,這 4種療法分別是藥物療法、心理動(dòng)力學(xué)療法、認(rèn)知行為療法和人文/存在療法,結(jié)果發(fā)現(xiàn)盡管每種療法內(nèi)部存在某些差異,但是相同的治療方法在語(yǔ)言上傾向于相似。

        2.1.2 行為編碼

        標(biāo)記主題模型是一般主題模型的一種擴(kuò)展形式,可以利用它來(lái)預(yù)測(cè)行為編碼(Atkins,Steyvers,Imel,&Smyth,2014;Gaut et al.,2017)。目前對(duì)于心理治療的有效成分的研究并不直接依靠咨詢過(guò)程中的語(yǔ)言,而是主要依靠來(lái)訪者或治療師的自我報(bào)告或者行為編碼系統(tǒng)來(lái)量化會(huì)談信息。一方面利用編碼手冊(cè)對(duì)咨詢文本進(jìn)行編碼相當(dāng)耗時(shí),并且擴(kuò)大咨詢會(huì)談評(píng)估規(guī)模意味著更大的人力投入,例如隨著咨詢文本長(zhǎng)度的增加,人工編碼耗時(shí)也會(huì)成倍的增加。另外一方面建立一套編碼系統(tǒng)通常面臨幾個(gè)限制,首先由于人工編碼會(huì)花費(fèi)大量的時(shí)間和精力;其次人工編碼經(jīng)過(guò)了事先定義,難以發(fā)現(xiàn)文本中新的內(nèi)容;并且非標(biāo)準(zhǔn)化編碼系統(tǒng)無(wú)法擴(kuò)展到更大的數(shù)據(jù)集;從編碼者角度來(lái)看,編碼者的主觀性難以避免,并且他們?cè)u(píng)定消極色彩的文本時(shí)情緒可能會(huì)受到干擾,評(píng)分者信度也難以保證(Tucker &Rosenberg,1975;Tausczik&Pennebaker,2010;Atkins et al.,2012;Gaut et al.,2017);此外,行為編碼系統(tǒng)一般不能跨文化直接使用,這也阻礙了人工編碼系統(tǒng)的運(yùn)用和推廣(Zimmermann,Baucom,Irvine,&Heinrichs,2015)。由于主題模型的結(jié)果并不是直接能夠得到的編碼,但主題與行為或內(nèi)容編碼(如癥狀)或潛在的背景編碼相對(duì)應(yīng),因此可以利用標(biāo)記主題模型學(xué)習(xí)單詞與主題之間的相關(guān),并利用編碼表示咨詢談話輪或會(huì)談的內(nèi)容,這樣可以在一定程度上能夠代替人工編碼,節(jié)省人工編碼的人財(cái)物消耗。

        目前利用標(biāo)記主題模型進(jìn)行行為編碼有諸多研究,越來(lái)越多的研究結(jié)果表明利用標(biāo)記主題模型等方法能夠有效的預(yù)測(cè)咨詢會(huì)談中的行為編碼(Tanana,Hallgren,Imel,Atkins,&Srikumar,2016)。Atkins等人(2014)基于動(dòng)機(jī)式訪談技巧編碼手冊(cè)(MISC,Motivational Interviewing Skills Code;Miller,Moyers,Ernst,&Amrhein,2008),利用人工編碼的方式對(duì) 899個(gè)動(dòng)機(jī)式訪談的會(huì)談隨機(jī)抽取的148個(gè)進(jìn)行編碼,然后利用標(biāo)記主題模型學(xué)習(xí)一部分被編碼的會(huì)談。使用ROC曲線(AUC)下的面積來(lái)評(píng)估標(biāo)記主題模型正確識(shí)別人造編碼的能力,其中 AUC取值范圍為 0.5(機(jī)會(huì)性能)至 1(完美預(yù)測(cè)),模型結(jié)果(AUC = 0.75)明顯優(yōu)于機(jī)會(huì)性能(AUC = 0.5),在幾個(gè)編碼上(如 Complex Reflections,Information Giving)模型的可靠性與人相當(dāng),但對(duì)于其他編碼(如Change Talk,Sustain Talk)人的可靠性明顯優(yōu)于模型的性能,如果將人工編碼誤差考慮進(jìn)去,在某些編碼項(xiàng)目上標(biāo)簽主題模型的編碼方法會(huì)對(duì)人工編碼的方法產(chǎn)生很大的挑戰(zhàn)。Gaut等人(2017)利用標(biāo)記主題模型學(xué)習(xí)咨詢會(huì)談中的“焦慮、抑郁、憤怒、低自尊、情緒易感染”五個(gè)癥狀類主題,將標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)分類器?套索邏輯回歸(Lasso Logistic Regression,LLR)作為對(duì)標(biāo)記主題模型進(jìn)行比較的基準(zhǔn)模型,結(jié)果顯示兩種模型的編碼預(yù)測(cè)結(jié)果都優(yōu)于隨機(jī)編碼水平,標(biāo)記主題模型顯示出比 LLR模型更高的預(yù)測(cè)精度,并且準(zhǔn)確度接近受訓(xùn)的人工編碼者。

        2.2 社交媒體與心理健康

        網(wǎng)絡(luò)對(duì)我們的生活造成了不可逆轉(zhuǎn)的影響,每天數(shù) 10億的用戶在網(wǎng)絡(luò)上留下的痕跡會(huì)產(chǎn)生海量數(shù)據(jù),將這些數(shù)據(jù)記錄保存下來(lái)可以用于探究用戶在互聯(lián)網(wǎng)使用中的相關(guān)心理因素(朱廷劭,汪靜瑩,趙楠,劉曉倩,2015)。很多心理障礙患者需要長(zhǎng)期持續(xù)的支持系統(tǒng)來(lái)提供幫助,利用網(wǎng)絡(luò)進(jìn)行社交對(duì)于與心理障礙長(zhǎng)期斗爭(zhēng)的人來(lái)說(shuō)具有獨(dú)特的價(jià)值,他們會(huì)在社交網(wǎng)絡(luò)上發(fā)表自己的言論并尋求各種信息,因此社交媒體被認(rèn)為是一些心理健康調(diào)查資料來(lái)源的新場(chǎng)所(de Choudhury,Gamon,Counts,&Horvitz,2013)。主題模型也因此也被用于探索他們的語(yǔ)言使用特點(diǎn)、捕捉他們行為和心理特征。

        2.2.1 探索心理健康內(nèi)容

        利用不同心理障礙人群在社交媒體上發(fā)布的信息,可以獲得他們關(guān)注的問(wèn)題,也能夠幫助我們獲得關(guān)于不同心理障礙的見(jiàn)解。對(duì)抑郁癥患者在社交網(wǎng)絡(luò)上發(fā)布的信息進(jìn)行主題提取,Preotiuc-Pietro等(2015)發(fā)現(xiàn)抑郁癥患者的語(yǔ)言內(nèi)容清晰的與郁抑癥癥狀標(biāo)準(zhǔn)相映射;劉郁文(2017)使用主題模型對(duì)中國(guó)臺(tái)灣地區(qū)三個(gè)醫(yī)療網(wǎng)站和一個(gè)線上同儕支持性論壇上關(guān)于抑郁癥的文本資料進(jìn)行文本分析,發(fā)現(xiàn)醫(yī)患之間主要討論的是抑郁癥狀、藥物使用、治療方式和家庭相關(guān)的4個(gè)主題,同儕之間的討論則與負(fù)面情緒發(fā)生原因、壓力來(lái)源、非藥物治療、同儕支持與鼓勵(lì)以及醫(yī)療資訊共享五個(gè)主題相關(guān)。Mitchell,Hollingshead和Coppersmith (2015)通過(guò)對(duì)174個(gè)精神分裂癥患者在Twitter上發(fā)表的內(nèi)容進(jìn)行主題建模,發(fā)現(xiàn)精神分裂癥患者Twitter內(nèi)容會(huì)包含其他心理健康問(wèn)題,這與我們知道的精神疾病之間通常存在著共病的認(rèn)識(shí)相一致。

        另外通過(guò)將文本內(nèi)容與元數(shù)據(jù)統(tǒng)一起來(lái)進(jìn)行主題建模,能夠幫助我們?cè)讷@得某一類精神障礙患者言談主題的同時(shí)也能夠更好地理解他們的活動(dòng)模式。Ji等人(2014)使用阿斯伯格綜合癥論壇的29,947個(gè)帖子,并將972個(gè)用戶信息以及1,939個(gè)帖子和作者之間的關(guān)系的線程結(jié)構(gòu)(Thread Structure)作為元數(shù)據(jù)構(gòu)建主題模型。之后,模型結(jié)果發(fā)現(xiàn),他們對(duì)心理健康和社會(huì)福利等問(wèn)題有較多的擔(dān)憂,會(huì)更多的討論如何生活得更好的策略等。另外由于元數(shù)據(jù)的加入,主題提取結(jié)果也提供了更多有利于深入理解癥狀的細(xì)節(jié),比如,涉及具體個(gè)人衛(wèi)生相關(guān)的主題(例如如何刮胡子,這對(duì)于阿斯伯格綜合癥患者而言是困難的,因?yàn)樗麄兛赡軙?huì)被剃須刀產(chǎn)生的聲音和震動(dòng)嚇倒)。

        2.2.2 識(shí)別精神障礙

        主題模型對(duì)于社交媒體中的文本進(jìn)行分析,能夠發(fā)現(xiàn)包含心理障礙的各類疾病,此外利用主題模型的提取結(jié)果能夠有效區(qū)分健康人群和精神障礙患者。Paul和Dredze (2014)對(duì)2011年至2013年的1.44億條Twitter消息自動(dòng)提取健康主題,結(jié)果表明主題模型可以發(fā)現(xiàn)許多身心疾病(如焦慮、抑郁癥、流感、腸應(yīng)激綜合征等),這些疾病與真實(shí)監(jiān)測(cè)和調(diào)查數(shù)據(jù)顯著相關(guān)。Preotiuc-Pietro等人(2015)對(duì)選取的包含抑郁癥、PTSD患者以及健康人群(對(duì)照組)的 1,145名 Twitter用戶的內(nèi)容進(jìn)行主題提取,利用提取主題結(jié)果構(gòu)建標(biāo)簽訓(xùn)練了三個(gè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)的二進(jìn)制分類器,使用ROC曲線(AUC)下的面積評(píng)估標(biāo)記主題模型正確區(qū)分不同精神障礙的能力,抑郁癥組和控制組、PTSD組和控制組、抑郁癥組和PTSD三組的AUC值分別是0.871、0.883、0.801。Nguyen,Phung,Dao,Venkatesh和Berk (2014)通過(guò)抓取在線抑郁社區(qū)及控制組社區(qū)的網(wǎng)絡(luò)文本,利用 LIWC及主題模型對(duì)這兩個(gè)文檔集進(jìn)行分析,利用 LIWC比較兩個(gè)人群的使用區(qū)別,并構(gòu)建一個(gè)主題數(shù)為50的主題模型分別對(duì)文本進(jìn)行主題抽取。為比較哪些特征對(duì)抑郁癥社區(qū)有更好的預(yù)測(cè)力,文中使用正規(guī)化的回歸模型Lasso分別對(duì)1,000名抑郁患者和1,000名控制組被試進(jìn)行區(qū)分,發(fā)現(xiàn) LIWC和主題模型提取結(jié)果都能有效的區(qū)分這兩類人,但是主題模型結(jié)果(93%)略優(yōu)于LIWC的結(jié)果(88%)。

        有些精神障礙(例如,抑郁癥)是隨著時(shí)間而變化的連續(xù)結(jié)構(gòu),而不僅僅只是診斷有或者沒(méi)有這種障礙,Schwartz等人(2014)利用 n-gram主題模型(Wang,McCallum,&We,2007)的結(jié)果及詞語(yǔ)使用對(duì)28,749位Facebook用戶的不斷更新的狀態(tài)構(gòu)建回歸模型并預(yù)測(cè)用戶的抑郁癥狀與時(shí)間變化之間的關(guān)系,利用模型來(lái)估計(jì)用戶在不同季節(jié)的抑郁變化,發(fā)現(xiàn)與文獻(xiàn)研究一致(Golder &Macy,2011),用戶的抑郁程度從夏季到冬季的時(shí)間段內(nèi)通常會(huì)提高。

        2.3 人格計(jì)算

        主題模型也被應(yīng)用于人格研究之中。人格是心理科學(xué)領(lǐng)域的一個(gè)基本研究范疇,目的是探索共同的心理現(xiàn)象在個(gè)體身上表現(xiàn)的差異性,傳統(tǒng)人格測(cè)量一般通過(guò)自陳式量表或者投射測(cè)驗(yàn)的方法進(jìn)行,早期研究發(fā)現(xiàn)詞匯使用具有穩(wěn)定的個(gè)體差異且人格與自陳式報(bào)告可靠相關(guān)(Pennebaker &King,1999)。但由于自陳量表需要人工填寫(xiě),難以有效實(shí)現(xiàn)針對(duì)大規(guī)模用戶的實(shí)時(shí)測(cè)量,因此需要進(jìn)一步完善(朱廷劭,2016),社交媒體上的文本數(shù)據(jù)通常是個(gè)體在自然的社會(huì)環(huán)境中書(shū)寫(xiě)的關(guān)于自己真實(shí)生活內(nèi)容的表達(dá)(Back et al.,2010),因此社交媒體上的語(yǔ)言是研究人格特征的一個(gè)非常豐富的數(shù)據(jù)庫(kù),近年來(lái)利用社交媒體針對(duì)大規(guī)模人群的人格研究?jī)?nèi)容十分豐富(Hughes,Rowe,Batey,&Lee,2012;Quercia,Lambiotte,Stillwell,Kosinski,&Crowcroft,2012;Schwartz et al.,2013;Ortigos,Carro,&Quiroga,2014),并且有研究比較人類和利用計(jì)算機(jī)模型的人格判斷的準(zhǔn)確性,結(jié)果表明計(jì)算機(jī)預(yù)測(cè)(r = 0.56)比參與者的Facebook好友使用人格問(wèn)卷預(yù)測(cè)(r = 0.49)結(jié)果更準(zhǔn)確(Wu,Kosinski,&Stillwell,2015)。

        在人格研究領(lǐng)域主題模型最初用于探索主題使用和人格之間的關(guān)系。Schwartz等人(2013)第一次利用 LDA提取的主題特征來(lái)構(gòu)建大五人格特征的函數(shù),發(fā)現(xiàn)諸多關(guān)于人格特征與主題使用之間的聯(lián)系,例如情緒穩(wěn)定的人提到更多的體育和生活活動(dòng),外向的人更多的和派對(duì)相關(guān)聯(lián)等。隨著研究的發(fā)展,人格主題模型也被不斷提出來(lái)。Liu,Wang和Jiang (2016)建立PT-LDA模型用來(lái)預(yù)測(cè)社交網(wǎng)絡(luò)用戶的個(gè)性特征,模型假設(shè)主題的選擇決定了人格類型。Hu,Liu,Zhang和Xu (2017)提出一個(gè)新的人格主題模型,和 PT-LDA相反,該模型假設(shè)人格類型(Personality)決定了主題的選擇,主題是服從高斯分布的人格特點(diǎn)(Personality Traits)的集合,人格特點(diǎn)又通過(guò)服從多項(xiàng)分布的單詞來(lái)表現(xiàn),模型利用MyPersonality dataset進(jìn)行測(cè)驗(yàn),結(jié)果表明該模型對(duì)于人格有良好的預(yù)測(cè)。

        2.4 主題模型的擴(kuò)展

        近年來(lái)面對(duì)不同的需要,結(jié)合具體文本背景信息的主題模型在心理學(xué)領(lǐng)域有著諸多應(yīng)用。例如許多語(yǔ)義認(rèn)知心理學(xué)理論認(rèn)為概念通過(guò)特征來(lái)表示,但由于人類提取特征的經(jīng)驗(yàn)過(guò)程依賴于明確判斷,這限制了利用特征表示概念的范圍,Steyvers,Smyth和Chemuduganta (2011)將De Deyne等人(2008)研究的特征規(guī)范(feature norms)添加到主題模型中,模型結(jié)果表明利用特征信息能更準(zhǔn)確的推斷文檔中的新概念。Steyvers等(2011)利用人工定義的語(yǔ)義概念的層次結(jié)構(gòu)與主題模型相結(jié)合,從而構(gòu)建了概念層次結(jié)構(gòu)主題模型,該模型結(jié)果表明當(dāng)有額外的背景信息時(shí),模型結(jié)果的解釋能力增強(qiáng)。Griffiths,Steyvers和Tenenbaum (2007)通過(guò)對(duì)1967年以來(lái)的《心理評(píng)論》(Psychological Review)中所有的文章摘要構(gòu)建層次主題模型,準(zhǔn)確地還原了 40年間在該期刊上發(fā)表文章的主題之間的層次化關(guān)系以及研究主題。Priva和Austerweil (2015)對(duì)《認(rèn)知》(Cognition)期刊中1980~2014年間發(fā)表的3,014篇文章的摘要進(jìn)行主題建模,并加入文章發(fā)表時(shí)間元數(shù)據(jù),以此跟蹤道德認(rèn)知、語(yǔ)言加工、青少年發(fā)展等5個(gè)研究主題隨著時(shí)間的變化的冷熱程度,此外還發(fā)現(xiàn)認(rèn)知心理學(xué)的研究隨著時(shí)間的推移,從注重建立抽象理論轉(zhuǎn)向更多實(shí)驗(yàn)研究。

        總之,目前在心理學(xué)領(lǐng)域,研究人員利用主題模型開(kāi)展了較為豐富的研究。這些研究探索了大規(guī)模的心理咨詢文本、社交媒體數(shù)據(jù);結(jié)合具體文本背景信息的主題模型在心理學(xué)領(lǐng)域也有著諸多應(yīng)用。這些研究拓展了心理學(xué)的研究范圍,豐富了文本分析研究方法的研究?jī)?nèi)容,在一定程度上克服了傳統(tǒng)文本分析方法難以開(kāi)展大文本分析的局限。

        3 主題模型自身局限、改進(jìn)及應(yīng)用促進(jìn)

        3.1 主題模型自身局限及改進(jìn)

        作為一種實(shí)用的計(jì)算機(jī)化文本分析方法,主題模型雖然在眾多領(lǐng)域得到了應(yīng)用,但是它并不是一種可以開(kāi)箱即用的工具,主題模型配置的復(fù)雜性和主題質(zhì)量問(wèn)題是目前主題模型使用者遇到的一個(gè)普遍性問(wèn)題。首先,對(duì)于非專家而言,主題模型很多配置可能難以理解。參數(shù)設(shè)置上,對(duì)于狄利克雷分布參數(shù)α和β的取值一般為α = 50/K,β = 0.01,其中K代表主題數(shù),這樣取值是為了起到平滑數(shù)據(jù)的作用,在一些情況下,也可以使用語(yǔ)料對(duì)α和β進(jìn)行經(jīng)驗(yàn)貝葉斯估計(jì)(徐戈,王厚峰,2011)。對(duì)于主題數(shù)的確定,經(jīng)驗(yàn)的取值方法一般是設(shè)置為20、50、100、200等數(shù)值,然后在每個(gè)主題下提取 10個(gè)關(guān)鍵詞(劉郁文,2017),但對(duì)于不同的文本如何確定合適的主題數(shù)并沒(méi)有明確的解決方法。

        另外為生成高質(zhì)量的主題,使用者先要對(duì)文本做很多預(yù)處理,例如刪除停止詞、抽取短語(yǔ)(Chunking)(Lee et al.,2017)。針對(duì)這些問(wèn)題,領(lǐng)域?qū)<以诓粩鄡?yōu)化算法、擴(kuò)展主題模型形式的基礎(chǔ)上,也在為使用主題模型的用戶提供更便利的操作方法來(lái)幫助用戶,如果對(duì)主題模型提取的結(jié)果不滿意,用戶在不重新配置或者重新建模的基礎(chǔ)上也可以通過(guò)一些優(yōu)化策略來(lái)改進(jìn)結(jié)果。例如允許用戶直接在主題下面添加、刪除或者突出顯示單詞(Hu,Boyd-Graber,Satinoff,&Smith,2014),也可以在主題中調(diào)整單詞的權(quán)重、合并或者分割主題并創(chuàng)建新的主題(Choo,Lee,Reddy,&Park,2013),Lee,Kihm,Choo,Stasko 和 Park (2012)則允許用戶將文檔重新分配給其他主題。在對(duì)以往主題模型操作改進(jìn)方法進(jìn)行總結(jié)的基礎(chǔ)上,Lee等人(2017)通過(guò)設(shè)計(jì)實(shí)驗(yàn)考察了非專家對(duì)主題模型的感知及對(duì)主題模型結(jié)果的優(yōu)化策略的選擇,幫助非專家更好的使用主題模型。

        最后,由于中文的特殊性,中文分詞是中文自然語(yǔ)言處理的固有問(wèn)題。李湘東、高凡和丁叢(2017)比較了目前最廣泛使用的三種中文分詞方法在LDA模型下對(duì)文本分類性能的影響,研究結(jié)果顯示三種方法都能有效的進(jìn)行分詞,但是對(duì)于不同的文本三種方法在分詞的準(zhǔn)確性上有著差異,并且不同的中文分詞方法對(duì)文本分類的結(jié)果有一定影響。

        3.2 主題模型的應(yīng)用問(wèn)題及促進(jìn)

        在心理咨詢領(lǐng)域,利用主題模型的一個(gè)重要的限制可能是轉(zhuǎn)錄工作帶來(lái)的。在使用主題模型之前研究人員需要轉(zhuǎn)錄成千上萬(wàn)份的會(huì)談逐字稿,這是一項(xiàng)耗時(shí)耗力的工作。但從長(zhǎng)遠(yuǎn)來(lái)看這項(xiàng)工作是值得的,因?yàn)榇笮妥稍兾谋緮?shù)據(jù)庫(kù)的建立對(duì)于心理咨詢研究的潛在影響是不可估量的,并且隨著自動(dòng)化語(yǔ)音識(shí)別技術(shù)的發(fā)展,轉(zhuǎn)錄需要人工參與的部分可能會(huì)越來(lái)越少。

        另外,利用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行研究一個(gè)重要的問(wèn)題是對(duì)倫理隱私的保護(hù)?;ヂ?lián)網(wǎng)信息技術(shù)的發(fā)展,使得網(wǎng)絡(luò)上的個(gè)人隱私和非隱私之間的界限似乎變得十分模糊,并且前所未有的數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)測(cè)以及更全面的監(jiān)控技術(shù)的發(fā)展,使得對(duì)個(gè)人隱私的保護(hù)也變得更為困難(薛孚,陳紅兵,2015)。利用主題模型對(duì)各類心理健康問(wèn)題的識(shí)別、監(jiān)控和預(yù)測(cè),或進(jìn)行人格計(jì)算等研究,都需要挖掘相關(guān)的網(wǎng)絡(luò)數(shù)據(jù),在互聯(lián)網(wǎng)信息技術(shù)發(fā)展帶來(lái)的變革中,研究者需要在風(fēng)險(xiǎn)和創(chuàng)新之間找到一個(gè)平衡點(diǎn),規(guī)避數(shù)據(jù)隱私倫理問(wèn)題。

        總之,主題模型自身以及應(yīng)用上目前還存在著諸多局限,尤其在漢語(yǔ)語(yǔ)言背景下,這些局限限制了主題模型在心理學(xué)研究領(lǐng)域的使用范圍。目前研究者也在不斷地在對(duì)這些局限進(jìn)行改進(jìn),以提高主題模型的質(zhì)量及使用范圍。另外在目前信息與技術(shù)高速發(fā)展的時(shí)代,也需要我們心理學(xué)研究者與其他領(lǐng)域的研究人員開(kāi)展跨領(lǐng)域合作研究,從而更好地解決我們?cè)谘芯恐杏龅降膯?wèn)題。

        4 小結(jié)與展望

        4.1 小結(jié)

        作為一種計(jì)算機(jī)化文本分析的方法,主題模型被用來(lái)探索心理咨詢和社交媒體上人們的語(yǔ)言內(nèi)容。在心理咨詢領(lǐng)域研究人員探索了在咨詢過(guò)程中來(lái)訪者和咨詢師討論的主要話題和咨詢師的干預(yù)措施,區(qū)分不同的治療流派,并嘗試?yán)弥黝}模型進(jìn)行編碼;利用社交媒體上的數(shù)據(jù),研究人員探索了不同心理障礙群體主要談?wù)摰膬?nèi)容,探索他們關(guān)注的問(wèn)題,并且利用主題模型的結(jié)果對(duì)不同的心理障礙進(jìn)行區(qū)分和預(yù)測(cè);另外僅僅利用人們?cè)谏缃幻襟w上發(fā)布的動(dòng)態(tài),主題模型以高度準(zhǔn)確的方式對(duì)發(fā)布者的人格進(jìn)行了預(yù)測(cè)。主題模型在心理學(xué)研究中取得了諸多研究成果,但是由于某些局限性使得需要對(duì)這一研究方法進(jìn)行進(jìn)一步的改進(jìn)。不過(guò)從現(xiàn)有研究結(jié)果來(lái)看,主題模型在心理學(xué)文本分析領(lǐng)域的研究中有著較大潛力,未來(lái)也需要我們進(jìn)一步拓展和使用該方法在心理學(xué)領(lǐng)域的研究。

        4.2 研究展望

        長(zhǎng)期以來(lái),本土的心理學(xué)重問(wèn)卷、實(shí)驗(yàn)等量化研究,而相對(duì)輕文本分析等質(zhì)性研究的局面一直沒(méi)有改變,其中一個(gè)重要的原因是經(jīng)濟(jì)有效的文本分析方法沒(méi)有被研究者所掌握(張信勇,2015)。一方面在臨床心理學(xué)、管理心理學(xué)等領(lǐng)域存在著大量的咨詢會(huì)談或訪談文本記錄;另一方面互聯(lián)網(wǎng)也記錄了海量的人類心理和行為的文本數(shù)據(jù),但這些富含研究?jī)r(jià)值的文本資料并沒(méi)有得到有效的使用。諸如LIWC、潛在語(yǔ)義分析(LSA)和本文提到的主題模型等計(jì)算機(jī)化文本分析方法并沒(méi)有在本土心理學(xué)的研究中得到廣泛的使用。雖然這些研究方法并不完美,但是目前這些方法的使用,對(duì)于我們開(kāi)展心理學(xué)中關(guān)于文本分析的研究有著重要的價(jià)值。

        我們通過(guò)語(yǔ)言來(lái)表達(dá)對(duì)自我和世界的認(rèn)識(shí),也通過(guò)語(yǔ)言和世界建立聯(lián)系,正如海格德?tīng)査f(shuō),語(yǔ)言是存在的家園,人先天地就被語(yǔ)言所貫穿、所引導(dǎo)(Heidegger,2009),諸多文本中包含著重要的研究?jī)r(jià)值。為不使明珠蒙塵,在未來(lái)的研究中,研究者可以積極利用主題模型開(kāi)展相關(guān)的研究,將主題模型等文本分析工具應(yīng)用到咨詢會(huì)談、訪談文本以及互聯(lián)網(wǎng)中的各種文本數(shù)據(jù)中,探索中文環(huán)境下不同類型文本的豐富內(nèi)涵;也可以開(kāi)展跨文化比較研究,探索中西方文化下不同情境中出現(xiàn)的主題差異及背后的原因;此外,由于主題模型在算法和操作上也在不斷的發(fā)展,未來(lái)可以通過(guò)多種途徑對(duì)主題模型改進(jìn),如通過(guò)整合關(guān)于時(shí)間和句法結(jié)構(gòu)的信息等途徑(Weusthoff et al.,2016),來(lái)改善心理學(xué)領(lǐng)域中利用主題模型開(kāi)展的文本分析。

        參考文獻(xiàn)

        陳凱,朱鈺.(2007).機(jī)器學(xué)習(xí)及其相關(guān)算法綜述.統(tǒng)計(jì)與信息論壇,22(5),105–112.

        丁軼群.(2010).基于概率生成模型的文本主題建模及其應(yīng)用(博士學(xué)位論文).浙江大學(xué),杭州.

        高銳,郝碧波,李琳,白朔天,朱廷紹.(2013).中文語(yǔ)言心理分析軟件系統(tǒng)的建立.心理學(xué)與創(chuàng)新能力提升——第十六屆全國(guó)心理學(xué)學(xué)術(shù)會(huì)議論文集.南京.

        Heidegger,M.(2009).路標(biāo) (孫周興 譯) 上海: 商務(wù)印書(shū)館.

        樂(lè)國(guó)安,董穎紅,陳浩,賴凱生.(2013).在線文本情感分析技術(shù)及應(yīng)用.心理科學(xué)進(jìn)展,21(10),1711–1719.

        李湘東,高凡,丁叢.(2017).Lda模型下不同分詞方法對(duì)文本分類性能的影響研究.計(jì)算機(jī)應(yīng)用研究,34(1),62–66.

        劉郁文.(2017).憂郁癥線上討論言談之主題分析 (碩士學(xué)位論文).臺(tái)灣大學(xué),臺(tái)北.

        魯忠義,孫錦繡.(2007).語(yǔ)義空間的研究方法.心理學(xué)探新,27(3),22–28.

        王甦,汪安圣.(2006).認(rèn)知心理學(xué).北京: 北京大學(xué)出版社.徐戈,王厚峰.(2011).自然語(yǔ)言處理中主題模型的發(fā)展.計(jì)算機(jī)學(xué)報(bào),34(8),1423–1436.

        薛孚,陳紅兵.(2015).大數(shù)據(jù)隱私倫理問(wèn)題探究.自然辯證法研究,31(2),44–48.

        張信勇.(2015).LIWC: 一種基于語(yǔ)詞計(jì)量的文本分析工具.西南民族大學(xué)學(xué)報(bào): 人文社會(huì)科學(xué)版,36(4),101–104.朱廷劭.(2016).大數(shù)據(jù)時(shí)代的心理學(xué)研究及應(yīng)用.北京:科學(xué)出版社.

        朱廷劭,汪靜瑩,趙楠,劉曉倩.(2015).論大數(shù)據(jù)時(shí)代的心理學(xué)研究變革.新疆師范大學(xué)學(xué)報(bào): 哲學(xué)社會(huì)科學(xué)版,(4),100–107.

        Abdi,H.,&Williams,L.J.(2010).Principal component analysis.Wiley Interdisciplinary Reviews: Computational Statistics,2(4),433–459.

        Andrews,M.,&Vigliocco,G.(2010).The hidden Markov topic model: A probabilistic model of semantic representation.Topics in Cognitive Science,2(1),101–113.

        Atkins,C.,Rubin,T.N.,Steyvers,M.,Doeden,M.A.,Baucom,B.R.,&Christensen,A.(2012).Topic models:A novel method for modeling couple and family text data.Journal of Family Psychology,26(5),816–827.

        Atkins,D.C.,Steyvers,M.,Imel,Z.E.,&Smyth,P.(2014).Scaling up the evaluation of psychotherapy: Evaluating motivational interviewing fidelity via statistical text classification.Implementation Science,9,49.

        Back,M.D.,Stopfer,J.M.,Vazire,S.,Gaddis,S.,Schmukle,S.C.,Egloff,B.,&Gosling,S.D.(2010).Facebook profiles reflect actual personality,not self-idealization.Psychological Science,21(3),372–374.

        Blei,D.M.,&Lafferty,J.D.(2005).Correlated topic models.In Proceedings of the 18th international conference on neural information processing systems (pp.147–154).Vancouver,British Columbia,Canada: MIT Press.

        Blei,D.M.,Ng,A.Y.,&Jordan,M.I.(2003).Latent Dirichlet Allocation.Journal of Machine Learning Research 3,993–1022.

        Boyd-Graber,J.L.,&Blei,D.M.(2009).Syntactic topic models.In Advances in Neural Information Processing Systems 26 (pp.185–192).Lake Tahoe,Nevada,USA:MIT Press.

        Choo,J.,Lee,C.,Reddy,C.K.,&Park,H.(2013).Utopian:User-driven topic modeling based on interactive nonnegative matrix factorization.IEEE Transactions on Visualization and Computer Graphics,19(12),1992–2001.

        Cohn,D.A.,&Hofmann,T.(2001).The missing link-a probabilistic model of document content and hypertext connectivity.In Advances in Neural Information Processing Systems 13 (pp.430–436).London,England: MIT Press.

        de Choudhury,M.,Gamon,M.,Counts,S.,&Horvitz,E.(2013).Predicting depression via social media.In Proceedings of the Seventh international AAAI conference on weblogs and social media (pp.128–137).Boston,MA: AAAI Publications.

        De Deyne,S.,Verheyen,S.,Ameel,E.,Vanpaemel,W.,Dry,M.,Voorspoels,W.,&Storms,G.(2008).Exemplar by feature applicability matrices and other Dutch normative data for semantic concepts.Behavior Research Methods,40(4),1030–1048.

        Deerwester,S.,Dumais,S.T.,Furnas,G.W.,Landauer,T.K.,&Harshman,R.(1990).Indexing by latent semantic analysis.Journal of the American Society for Information Science,41(6),391–407.

        Gaut,G.,Steyvers,M.,Imel,Z.E.,Atkins,D.C.,&Smyth,P.(2017).Content coding of psychotherapy transcripts using labeled topic models.IEEE Journal of Biomedical and Health Informatics,21(2),476–487.

        Golder,S.A.,&Macy,M.W.(2011).Diurnal and seasonal mood vary with work,sleep,and daylength across diverse cultures.Science,333(6051),1878–1881.

        Graesser,A.C.,McNamara,D.S.,&Kulikowich,J.M.(2011).Coh-Metrix: Providing multilevel analyses of text characteristics.Educational Researcher,40(5),223–234.Greenberg,L.S.,&Newman,F.L.(1996).An approach to psychotherapy change process research: Introduction to the special section.Journal of Consulting and Clinical Psychology,64(3),435–438.

        Griffiths,T.L.,Steyvers,M.,&Tenenbaum,J.B.(2007).Topics in semantic representation.Psychological Review,114(2),211–244.

        Hofmann,T.(1999,August).Probabilistic latent semantic indexing.In Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval (pp.50–57).Berkeley,California,USA: ACM.

        Hughes,D.J.,Rowe,M.,Batey,M.,&Lee,A.(2012).A tale of two sites: Twitter vs.Facebook and the personality predictors of social media usage.Computers in Human Behavior,28(2),561–569.

        Hu,Y.N.,Boyd-Graber,J.,Satinoff,B.,&Smith,A.(2014).Interactive topic modeling.Machine Learning,95(3),423–469.

        Hu,Z.,Liu,Y.S.,Zhang,C.H.,&Xu,Y.N.(2017,June).The analysis of topic's personality traits using a new topic model.In 2017 2nd international conference on image,vision and computing (ICIVC)(pp.1079–1083).Chengdu:IEEE.

        Imel,Z.E.,Steyvers,M.,&Atkins,D.C.(2015).Computational psychotherapy research: Scaling up the evaluation of patient–provider interactions.Psychotherapy,52(1),19–30.

        Ji,Y.F.,Hong,H.,Arriaga,R.,Rozga,A.,Abowd,G.,&Eisenstein,J.(2014).Mining themes and interests in the Asperger’s and autism community.In Workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp.97–106).Baltimore,Maryland USA: ACL.

        John Lu,Z.Q.(2010).The elements of statistical learning:Data mining,inference,and prediction.Journal of the Royal Statistical Society: Series A (Statistics in Society),173(3),693–694.

        Kosinski,M.,Matz,S.C.,Gosling,S.D.,Popov,V.,&Stillwell,D.(2015).Facebook as a research tool for the social sciences: Opportunities,challenges,ethical considerations,and practical guidelines.American Psychologist,70(6),543–556.

        Kosinski,M.,Wang,Y.L.,Lakkaraju,H.,&Leskovec,J.(2016).Mining big data to extract patterns and predict real-life outcomes.Psychological Methods,21(4),493–506.

        Lee,H.,Kihm,J.,Choo,J.,Stasko,J.,&Park,H.(2012).iVisClustering: An interactive visual document clustering via topic modeling.Computer Graphics Forum,31,1155–1164.

        Lee,T.Y.,Smith,A.,Seppi,K.,Elmqvist,N.,Boyd-Graber,J.,&Findlater,L.(2017).The human touch: How nonexpert users perceive,interpret,and fix topic models.International Journal of Human-Computer Studies,105,28–42.

        Liu,Y.Z.,Wang,J.J.,&Jiang,Y.C.(2016).PT-LDA: A latent variable model to predict personality traits of social network users.Neurocomputing,210,155–163.

        Miller,W.R.,Moyers,T.B.,Ernst,D.,&Amrhein,P.(2008).Manual for the Motivational Interviewing Skill Code(MISC).Version 2.1.University of New Mexico,Center on Alcoholism.

        Mitchell,M.,Hollingshead,K.,&Coppersmith,G.(2015,June).Quantifying the language of schizophrenia in social media.In Proceedings of the 2nd workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp.11–20).Denver,Colorado: ACL.

        Nguyen,T.,Phung,D.,Dao,B.,Venkatesh,S.,&Berk,M.(2014).Affective and content analysis of online depression communities.IEEE Transactions on Affective Computing,5(3),217–226.

        Ortigosa,A.,Carro,R.M.,&Quiroga,J.I.(2014).Predicting user personality by mining social interactions in Facebook.Journal of Computer and System Sciences,80(1),57–71.

        Park,G.,Schwartz,H.A.,Eichstaedt,J.C.,Kern,M.L.,Kosinski,M.,Stillwell,D.J.,...Seligman,M.E.P.(2015).Automatic personality assessment through social media language.Journal of Personality and Social Psychology,108(6),934–952.

        Paul,M.J.,&Dredze,M.(2014).Discovering health topics in social media using topic models.PLoS One,9(8),e103408.

        Pennebaker,J.W.,Chung,C.K.,Ireland,M.,Gonzales,A.,&Booth,R.J.(2007).The development and psychometric properties of liwc2007.Austin,29(11),1020–1025.

        Pennebaker,J.W.,&King,L.A.(1999).Linguistic styles:Language use as an individual difference.Journal of Personality and Social Psychology,77(6),1296–1312.

        Pennebaker,J.W.,Mehl,M.R.,&Niederhoffer,K.G.(2003).Psychological aspects of natural language use: Our words,our selves.Annual Review of Psychology,54(1),547–577.

        Preotiuc-Pietro,D.,Eichstaedt,J.,Park,G.,Sap,M.,Smith,L.,Tobolsky,V.,...Ungar,L.(2015,June).The role of personality,age and gender in tweeting about mental illnesses.In Proceedings of the 2nd workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp.21–30).Denver,Colorado: Association for Computational Linguistics.

        Priva,U.C.,&Austerweil,J.L.(2015).Analyzing the history of Cognition using topic models.Cognition,135,4–9.

        Quercia,D.,Lambiotte,R.,Stillwell,D.,Kosinski,M.,&Crowcroft,J.(2012,February).The personality of popular Facebook users.In Proceedings of the ACM 2012 conference on computer supported cooperative work (pp.955–964).Seattle,Washington,USA: ACM.

        Rubin,T.N.,Chambers,A.,Smyth,P.,&Steyvers,M.(2012).Statistical topic models for multi-label document classification.Machine Learning,88(1-2),157–208.

        Schwartz,H.A.,Eichstaedt,J.C.,Kern,M.L.,Dziurzynski,L.,Ramones,S.M.,Agrawal,M.,...Ungar,L.H.(2013).Personality,gender,and age in the language of social media:The open-vocabulary approach.PLoS One,8(9),e73791.

        Schwartz,H.A.,Eichstaedt,J.,Kern,M.L.,Park,G.,Sap,M.,Stillwell,D.,...Ungar,L.(2014,June).Towards assessing changes in degree of depression through Facebook.In Proceedings of the workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp.118–125).Baltimore,Maryland USA: Association for Computational Linguistics.

        Steyvers,M.,Smyth,P.,&Chemuduganta,C.(2011).Combining background knowledge and learned topics.Topics in Cognitive Science,3(1),18–47.

        Tanana,M.,Hallgren,K.A.,Imel,Z.E.,Atkins,D.C.,&Srikumar,V.(2016).A comparison of natural language processing methods for automated coding of motivational interviewing.Journal of Substance Abuse Treatment,65,43–50.

        Tausczik,Y.R.,&Pennebaker,J.W.(2010).The psychological meaning of words: LIWC and computerized text analysis methods.Journal of Language and Social Psychology,29(1),24–54.

        Tucker,G.J.,&Rosenberg,S.D.(1975).Computer content analysis of schizophrenic speech: A preliminary report.The American Journal of Psychiatry,132(6),611–616.

        Wallach,H.M.(2006,June).Topic modeling: Beyond bag-of-words.In Proceedings of the 23rd international conference on machine learning (pp.977–984).Pittsburgh,Pennsylvania,USA: ACM.

        Wang,C.,Blei,D.,&Heckerman,D.(2012).Continuous time dynamic topic models.arXiv preprint arXiv:1206.3298.Wang,X.R.,McCallum,A.,&Wei,X.(2007,October).Topical n-grams: Phrase and topic discovery,with an application to information retrieval.In Seventh IEEE international conference on data mining,2007 (pp.697–702).Omaha,NE: IEEE.

        Weusthoff,S.,Gaut,G.,Steyvers,M.,Atkins,D.C.,Hahlweg,K.,Hogan,J.,...Narayanan,S.(2016).The Language of Interpersonal Interaction: An Interdisciplinary Approach to Assessing and Processing Vocal and Speech Data.The European Journal of Counselling Psychology.

        Wu,Y.Y.,Kosinski,M.,&Stillwell,D.(2015).Computer-based personality judgments are more accurate than those made by humans.Proceedings of the National Academy of Sciences of the United States of America,112(4),1036–1040.

        Zimmermann,T.,Baucom,D.H.,Irvin,J.T.,&Heinrichs,N.(2015).Cross-country perspectives on social support in couples coping with breast cancer.Frontiers in Psychological and Behavioral Science,4(4),52–61.

        猜你喜歡
        文本模型研究
        一半模型
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        在808DA上文本顯示的改善
        EMA伺服控制系統(tǒng)研究
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        一边摸一边做爽的视频17国产| 色系免费一区二区三区| 中文字幕乱码av在线| 午夜免费观看国产视频| 久久久久亚洲av无码专区喷水| 日产精品久久久久久久蜜臀 | 中文字幕午夜AV福利片| 亚洲男同免费视频网站| 国内最真实的xxxx人伦 | 在线免费欧美| 午夜视频在线观看国产| 亚洲国产精品久久久久久无码| 午夜不卡av免费| 亚洲一区二区三区在线观看播放| 中文字幕精品久久一区二区三区| 精品香蕉一区二区三区| 免费观看黄网站| 精品三级久久久久久久| av在线不卡免费中文网| 成年女人vr免费视频| 中文无码成人免费视频在线观看| 亚洲一二三四五区中文字幕| 日本一区二区视频在线| 久久久精品人妻无码专区不卡| 操出白浆在线观看| 日本高清无卡一区二区三区| 久久亚洲中文字幕精品一区| aaaaaa级特色特黄的毛片| 国产精品欧美成人片| 亚洲一区二区三区国产| 最近中文字幕完整版免费| 国产aⅴ夜夜欢一区二区三区| 翘臀诱惑中文字幕人妻| 国产a在亚洲线播放| 欧美成人一区二区三区在线观看| 欧美精品一本久久男人的天堂| 精品国产一区二区三区性色| 亚洲精品无amm毛片| 91精品国产免费久久久久久青草| 国产av一啪一区二区| 日本无码欧美一区精品久久 |