文/胡安寧
在過(guò)去的十幾年中,隨著以算法為基礎(chǔ)的各種機(jī)器學(xué)習(xí)技術(shù)的發(fā)展與普及,社會(huì)科學(xué)研究者對(duì)文本的探索也日漸從傳統(tǒng)的以詮釋為導(dǎo)向的內(nèi)容分析法轉(zhuǎn)向以預(yù)測(cè)和因果推斷為導(dǎo)向的大規(guī)模文本挖掘。這一方法論的變化趨勢(shì)為社會(huì)科學(xué)研究者提供了越來(lái)越多的新興研究工具,極大地拓展了社會(huì)科學(xué)文本分析的研究空間。本文擬從三個(gè)方面對(duì)以文本為分析基礎(chǔ)的社會(huì)科學(xué)研究進(jìn)行討論。首先,對(duì)目前社會(huì)科學(xué)文本探索的多重方法進(jìn)行回顧,將其劃歸為以詮釋為導(dǎo)向的方法、詮釋與結(jié)構(gòu)探索并重的方法和以結(jié)構(gòu)為導(dǎo)向的方法三類(lèi),以此呈現(xiàn)出社會(huì)科學(xué)文本研究工具的多樣性。其次,針對(duì)社會(huì)科學(xué)文本探索的方法論發(fā)展,圍繞研究目標(biāo)、研究手段和研究對(duì)象三個(gè)基本維度,系統(tǒng)展示從以詮釋為導(dǎo)向的內(nèi)容分析向以結(jié)構(gòu)為導(dǎo)向的文本挖掘的過(guò)渡過(guò)程。最后,針對(duì)日漸興起的以算法為導(dǎo)向的文本探索方法,討論其潛在的局限性及進(jìn)一步發(fā)展的方向。
與任何一種體系化的方法論框架一樣,以文本為基礎(chǔ)的社會(huì)科學(xué)研究涉及多種不同的具體策略,本文將這些經(jīng)驗(yàn)分析策略大致分為三類(lèi),即以詮釋為導(dǎo)向的文本探索方法、詮釋與結(jié)構(gòu)并重的文本探索方法和以結(jié)構(gòu)為導(dǎo)向的文本探索方法。
以詮釋為導(dǎo)向的文本探索方法的范例是傳統(tǒng)的內(nèi)容分析法。作為一個(gè)經(jīng)典的社會(huì)科學(xué)研究方法,內(nèi)容分析法強(qiáng)調(diào)通過(guò)對(duì)特定文本內(nèi)容的編碼,將文本信息提煉為圍繞特定主題的系統(tǒng)化的編碼信息,之后通過(guò)解讀編碼信息,研究者就可以跳過(guò)紛繁復(fù)雜的文本內(nèi)容本身,從而在分析過(guò)程中更為聚焦,得出具有實(shí)質(zhì)意義的結(jié)論。傳統(tǒng)內(nèi)容分析法的重點(diǎn)是通過(guò)編碼來(lái)簡(jiǎn)化內(nèi)容??梢哉f(shuō),編碼的過(guò)程本質(zhì)上是對(duì)文本內(nèi)容的詮釋和抽取,通過(guò)這種“轉(zhuǎn)化”,研究者可以更加聚焦于文本在某些分析維度上的內(nèi)容特點(diǎn)。然而,這種以詮釋為導(dǎo)向的分析策略也并非沒(méi)有局限。一個(gè)被廣泛提及的問(wèn)題是,不同的研究者對(duì)于同樣的內(nèi)容所作出的詮釋與編碼可能存在很大的差異。詮釋與結(jié)構(gòu)并重的文本探索方法可以看作是對(duì)傳統(tǒng)內(nèi)容分析法的一種拓展。這里拓展的關(guān)鍵在于,通過(guò)計(jì)算機(jī)輔助的分析手段來(lái)對(duì)文本中的某些關(guān)鍵點(diǎn)進(jìn)行結(jié)構(gòu)化的分析和展示。詮釋與結(jié)構(gòu)并重的文本探索方法可以有很多具體的例證。比如,語(yǔ)義網(wǎng)(semantic network)分析是指利用網(wǎng)絡(luò)分析手段展示某一文本中特定的具有實(shí)質(zhì)意義的詞語(yǔ)彼此之間的復(fù)雜網(wǎng)絡(luò)關(guān)系。詮釋與結(jié)構(gòu)并重的文本探索方法所分析的對(duì)象并不局限于內(nèi)容分析法所抽離出的特定關(guān)鍵詞或者主題詞之間的網(wǎng)絡(luò)結(jié)構(gòu),社會(huì)科學(xué)研究者還會(huì)通過(guò)考察其他的關(guān)涉結(jié)構(gòu)的統(tǒng)計(jì)量來(lái)進(jìn)行文本分析。例如,通過(guò)使用伽羅瓦格(Galois Lattices),研究者可以展現(xiàn)出一個(gè)文本中描述的主體(actor)和事件(event)之間的復(fù)雜關(guān)聯(lián),從而建構(gòu)出所謂的二部圖(two-mode)網(wǎng)絡(luò)。詮釋與結(jié)構(gòu)并重的另外一個(gè)典型方法是量化敘事分析(quantitative narrative analysis)。隨著計(jì)算機(jī)算力和算法效率的提升,社會(huì)科學(xué)領(lǐng)域?qū)τ谖谋镜姆治鲋饾u引入了越來(lái)越多的計(jì)算機(jī)分析手段,這一趨勢(shì)使得社會(huì)科學(xué)的文本探索越發(fā)傾向于對(duì)文本進(jìn)行結(jié)構(gòu)化的考察。這方面比較有代表性的方法是主題模型和詞嵌入模型。
在上面的討論中,本文展示了不同的社會(huì)科學(xué)文本探索工具,這些工具的提出和集中使用發(fā)生在不同的歷史時(shí)期,因此與特定歷史階段的研究重點(diǎn)、計(jì)算機(jī)算力限制和理論關(guān)懷相關(guān)聯(lián)。通過(guò)考察這些方法,可以近似勾勒出社會(huì)科學(xué)文本探索的方法論變遷特征,本文從研究目標(biāo)、研究手段和研究對(duì)象三個(gè)維度來(lái)進(jìn)行討論。
在研究目標(biāo)方面,無(wú)論是早期的內(nèi)容分析編碼,還是日漸興起的基于算法的文本挖掘技術(shù),其共通點(diǎn)在于對(duì)紛繁復(fù)雜的文本內(nèi)容進(jìn)行某種簡(jiǎn)化。但是,在對(duì)簡(jiǎn)化后的內(nèi)容如何使用方面,卻呈現(xiàn)出從詮釋導(dǎo)向到因果/預(yù)測(cè)導(dǎo)向的變化。傳統(tǒng)的內(nèi)容分析基于人工編碼,相對(duì)而言,編碼后的數(shù)據(jù)所呈現(xiàn)出的信息比較簡(jiǎn)單,研究者完全可以通過(guò)直接審讀這些編碼信息來(lái)間接把握文本的內(nèi)容。但是,詮釋與結(jié)構(gòu)并重的文本探索方法在詮釋之外開(kāi)拓出了結(jié)構(gòu)分析這一新的關(guān)注點(diǎn)。這種針對(duì)結(jié)構(gòu)特征的分析在今天的算法模型中得到了更為直接的體現(xiàn)。在基于算法的各種工具的幫助下,文本結(jié)構(gòu)性因素變得日漸“可見(jiàn)”。之后,研究者們便可以把這些結(jié)構(gòu)性特征作為常規(guī)意義上的變量納入各種結(jié)構(gòu)化的模型分析(如回歸模型)中,從而達(dá)到因果推論甚至預(yù)測(cè)的目的。
除了研究目標(biāo),在研究手段方面,社會(huì)科學(xué)文本探索的方法也體現(xiàn)出一系列的歷時(shí)性變化,其中最為重要的一點(diǎn)就是研究者人工因素的逐漸淡化。如果說(shuō)傳統(tǒng)的內(nèi)容分析法受社會(huì)科學(xué)研究者和其合作者(如其他編碼人員)主導(dǎo)的話,那么到了諸如語(yǔ)義網(wǎng)分析這樣的詮釋與結(jié)構(gòu)并重的方法這里,計(jì)算機(jī)輔助分析開(kāi)始變得日漸重要。這種基于“機(jī)器”的分析過(guò)程既是特定算法實(shí)現(xiàn)的現(xiàn)實(shí)需要,也是處理體量日漸增大的數(shù)據(jù)的必然要求。這種“人工”的式微到了以算法為基礎(chǔ)的文本挖掘這里,變得更為明顯。
在研究對(duì)象方面,社會(huì)科學(xué)文本探索的方法論呈現(xiàn)出從“意義”向“結(jié)構(gòu)”的變化。如果說(shuō)意義是一系列可以幫助我們理解特定社會(huì)現(xiàn)象的“說(shuō)法”或者“故事”,那么結(jié)構(gòu)則強(qiáng)調(diào)了不同因素之間的客觀互動(dòng)關(guān)聯(lián)。顯然,傳統(tǒng)內(nèi)容分析的編碼結(jié)果鮮有對(duì)結(jié)構(gòu)特征的呈現(xiàn),到了詮釋與結(jié)構(gòu)并重的文本探索方法和后面以結(jié)構(gòu)為導(dǎo)向的分析方法那里,結(jié)構(gòu)性信息就變得越發(fā)重要。當(dāng)結(jié)構(gòu)因素成為承載科研結(jié)果的主要面向,研究者們便不再刻意追求特定的文本本身的意義,轉(zhuǎn)而討論結(jié)構(gòu)性特征所具有的“意義”,或者說(shuō)對(duì)結(jié)構(gòu)性特征進(jìn)行某種“二次”詮釋。除了從意義向結(jié)構(gòu)的變化,研究對(duì)象上的轉(zhuǎn)向還體現(xiàn)在文本信息的載體變化上。由于人工分析能力的局限,傳統(tǒng)的內(nèi)容分析法所使用的是比較小的數(shù)據(jù)。與這種分析對(duì)象相比,今天基于算法的分析對(duì)象可以是所謂的大數(shù)據(jù)甚至流(stream)數(shù)據(jù)。借助于迅速提升的計(jì)算機(jī)硬件算力和日漸高效的算法設(shè)計(jì),文本挖掘的對(duì)象可以是人類(lèi)目前為止所積累的海量書(shū)籍資料,也可以是某一領(lǐng)域全部的文本資料(如全唐詩(shī)),此時(shí)所使用的數(shù)據(jù)甚至可以稱(chēng)為“全”數(shù)據(jù),這種對(duì)海量數(shù)據(jù)的分析能力是傳統(tǒng)文本探索技術(shù)所不具備的。
上文展示了社會(huì)科學(xué)文本探索的方法論變遷特征,考慮到以算法為導(dǎo)向的文本挖掘技術(shù)在社會(huì)科學(xué)不同學(xué)科內(nèi)的迅速應(yīng)用,這一部分將著重對(duì)這一新興發(fā)展趨勢(shì)進(jìn)行討論。由于這一類(lèi)方法的介紹性書(shū)籍與論文頗多,研究者們對(duì)于它們的強(qiáng)項(xiàng)已經(jīng)有很多直觀的感受,因此,下文重點(diǎn)分析這一類(lèi)方法存在的限制和進(jìn)一步發(fā)展的方向。
數(shù)據(jù)清洗:與傳統(tǒng)的量化數(shù)據(jù)分析一樣,在進(jìn)行文本分析的時(shí)候,從一開(kāi)始的原始數(shù)據(jù)到最后可用于分析的數(shù)據(jù)之間存在著一系列的數(shù)據(jù)清洗過(guò)程。具體而言,對(duì)于文本數(shù)據(jù),數(shù)據(jù)清洗意味著需要對(duì)文本中存在的虛詞、標(biāo)點(diǎn)符號(hào)等詞語(yǔ)進(jìn)行去除,以及對(duì)同義詞和近義詞進(jìn)行統(tǒng)一。和傳統(tǒng)的定量研究相比,文本數(shù)據(jù)的清洗對(duì)于最后結(jié)果的呈現(xiàn)有著更為直接和深遠(yuǎn)的影響。正因?yàn)槿绱?,未?lái)社會(huì)科學(xué)文本挖掘分析的一個(gè)重要的發(fā)展方向是數(shù)據(jù)清洗過(guò)程的標(biāo)準(zhǔn)化和流程化,以求提升分析結(jié)論的可比性。這也是可重復(fù)性研究的直接要求和題中之義。
過(guò)擬合:與傳統(tǒng)內(nèi)容分析不同,基于算法的文本研究所使用的量化分析手段更為復(fù)雜。例如,在算法的參數(shù)設(shè)定上,可以有不同的選擇。在實(shí)踐中,研究者往往通過(guò)多次試錯(cuò)來(lái)最后獲得一個(gè)所謂的“最優(yōu)”參數(shù)和“最優(yōu)”模型。從數(shù)據(jù)分析的角度來(lái)看,對(duì)某一數(shù)據(jù)反復(fù)試錯(cuò)來(lái)調(diào)整參數(shù)的一個(gè)最大的危害在于會(huì)出現(xiàn)過(guò)擬合問(wèn)題,即模型對(duì)于數(shù)據(jù)的特征把握得過(guò)分好,以至于數(shù)據(jù)本身的噪聲也被看作是有意義的信號(hào)。顯然,這時(shí)的數(shù)據(jù)分析結(jié)論缺乏足夠的泛化能力。
驗(yàn)證:通過(guò)算法獲得的文本分析結(jié)果一直以來(lái)都因?yàn)槿狈ψ銐虻尿?yàn)證手段而受到詬病。例如,主題模型獲得的主題在多大程度上可以作為是對(duì)原始文本信息有“代表性”的抽離,這一問(wèn)題一直以來(lái)缺乏一個(gè)被廣泛接受的指標(biāo)。傳統(tǒng)的分析過(guò)程可以使用主題詞語(yǔ)義一致性得分或者兩兩互信息得分來(lái)進(jìn)行衡量,這兩種方法都是一種內(nèi)樣本(in-sample)的評(píng)估手段,即在獲得主題估計(jì)之后,觀察特定主題的關(guān)鍵詞內(nèi)部的一致性。但是,由于主題模型的擬合過(guò)程就是通過(guò)這些主題詞的詞頻或者逆文檔頻率來(lái)構(gòu)建主題的,因此這種內(nèi)樣本評(píng)估很難看出主題的泛化能力。一個(gè)比較合理的評(píng)估和驗(yàn)證手段應(yīng)當(dāng)是外樣本(out-of-sample)評(píng)估,這方面社會(huì)學(xué)的計(jì)算民族志分析已經(jīng)有了一些開(kāi)拓性的探索,或許也應(yīng)當(dāng)是未來(lái)文本挖掘方法的重要發(fā)展方向之一。
關(guān)于驗(yàn)證的另外一個(gè)問(wèn)題是如何確定文本和變量之間的關(guān)系。正如上文所言,研究者對(duì)文本進(jìn)行挖掘之后所形成的一系列結(jié)構(gòu)性信息可以作為變量納入一系列的因果關(guān)系模型甚至預(yù)測(cè)模型中。以文本作為基礎(chǔ)進(jìn)行此類(lèi)分析需要對(duì)文本所測(cè)量的變量究竟是什么有著清晰的認(rèn)識(shí),但是到目前為止,這方面的工作還有很多挑戰(zhàn)。例如,以文本進(jìn)行因果推斷時(shí),文本中既包含了研究者關(guān)心的變量,也包含了一些其他混淆因素。此時(shí),以文本為單位所做的分析無(wú)法排除混淆因素的作用(即出現(xiàn)所謂的效應(yīng)替代[aliasing])。此外,文本中的詞語(yǔ)彼此相聯(lián)系,因此以文本進(jìn)行因果推斷有可能違反了所謂的分析單位獨(dú)立性假設(shè)。這些問(wèn)題的核心在于我們對(duì)文本加工后所獲得的信息在多大程度上能夠代表研究者所需要的信息,其本質(zhì)關(guān)涉的是測(cè)量的質(zhì)量和效度。
圍繞文本信息,社會(huì)科學(xué)研究者有著多種分析工具可供選擇,這些分析工具或以詮釋為主導(dǎo),或以結(jié)構(gòu)分析為主導(dǎo),或者二者并立。從傳統(tǒng)的內(nèi)容分析到新近的以算法為導(dǎo)向的文本挖掘技術(shù),在研究目標(biāo)、研究手段和研究對(duì)象三個(gè)維度上呈現(xiàn)出明顯的過(guò)渡特點(diǎn)。而圍繞著機(jī)器學(xué)習(xí)為基礎(chǔ)的文本挖掘,本文從數(shù)據(jù)清洗、過(guò)擬合和數(shù)據(jù)驗(yàn)證三個(gè)方面討論了其潛在的局限性和未來(lái)的發(fā)展方向。
盡管我們勾勒出了社會(huì)科學(xué)文本研究的一個(gè)大致的發(fā)展趨勢(shì),但是我們并不認(rèn)為新近的方法可以取代早期的方法。相反,我們認(rèn)為,不同的文本探索手段雖然在不同的歷史時(shí)期開(kāi)發(fā)出來(lái),但其都有擅長(zhǎng)處理的特定研究問(wèn)題。因此,對(duì)于社會(huì)科學(xué)研究者而言,選取最新的方法不一定就是最好的,而是應(yīng)當(dāng)根據(jù)自身的研究問(wèn)題特點(diǎn),有針對(duì)性地選擇最“適合”的研究方法。例如,如果對(duì)于文本的敘事感興趣,那么自然圍繞敘事展開(kāi)的量化分析手段更有優(yōu)勢(shì),盡管新的文本挖掘手段可以在分析效率上對(duì)前者有所增益和補(bǔ)充??傊?,方法畢竟是達(dá)成研究目標(biāo)的工具,何種工具最恰當(dāng)是由研究問(wèn)題決定的。此外,針對(duì)同一問(wèn)題采用多種手段也可以起到方法互補(bǔ)或者互相驗(yàn)證的效果,這也是經(jīng)驗(yàn)研究者可以考慮的綜合性分析策略。
社會(huì)科學(xué)的文本分析和計(jì)算機(jī)領(lǐng)域內(nèi)的自然語(yǔ)言處理方法之間的界限隨著大數(shù)據(jù)時(shí)代的到來(lái)開(kāi)始變得越發(fā)模糊。實(shí)際上,無(wú)論是分詞等數(shù)據(jù)預(yù)處理技術(shù),還是主題模型這樣的新興技術(shù),都來(lái)自自然語(yǔ)言處理領(lǐng)域。但是,社會(huì)科學(xué)的研究旨趣與自然語(yǔ)言處理的主要任務(wù)之間還是有所區(qū)別。從某種意義上講,這種區(qū)別有些類(lèi)似于布雷曼所談的兩種統(tǒng)計(jì)分析文化:社會(huì)科學(xué)研究者希望能夠利用文本分析來(lái)理解和詮釋某種社會(huì)現(xiàn)象,但是自然語(yǔ)言處理的主要功能在于對(duì)文本進(jìn)行簡(jiǎn)化、分類(lèi)和預(yù)測(cè)。正因?yàn)槿绱耍芏鄷r(shí)候,如果社會(huì)科學(xué)研究者直接把自然語(yǔ)言處理的方法拿來(lái)使用的話,會(huì)有種隔閡感,或許這種隔膜就來(lái)自?xún)膳裳芯康闹既ず湍繕?biāo)差異。鑒于此,盡管在可預(yù)期的未來(lái),自然語(yǔ)言處理的技術(shù)會(huì)越來(lái)越多地被社會(huì)科學(xué)研究者所使用,但是這種使用的目標(biāo)卻有學(xué)科差異。
可以想見(jiàn)的是,隨著算法工具的日漸豐富,基于文本探索的社會(huì)科學(xué)研究者將會(huì)大有可為。但是如文中所指出的,文本的分析切不可掉入“重機(jī)器輕人工”的陷阱。由于文本本身的復(fù)雜和多義,單純通過(guò)一些表面特征獲取的文本簡(jiǎn)化信息必定是不完全的。因此,未來(lái)社會(huì)科學(xué)文本分析的努力方向應(yīng)當(dāng)是尋找一種人機(jī)協(xié)作互動(dòng)的工作方案。這方面比較成功的探索往往是先用機(jī)器做一些探索性和數(shù)據(jù)簡(jiǎn)化的工作,之后研究者參與進(jìn)來(lái)對(duì)機(jī)器所呈現(xiàn)的結(jié)果進(jìn)行詮釋和理解。在這種人機(jī)協(xié)作的工作模式中,機(jī)器的作用在于探索,至于這種探索是否有學(xué)科層面上的理論價(jià)值和實(shí)際生活的現(xiàn)實(shí)意義,則由具有理論素養(yǎng)的研究者來(lái)進(jìn)行研究。從這個(gè)意義上講,機(jī)器和人工之間存在某種分工,各自負(fù)責(zé)自己所擅長(zhǎng)的部分,以共同完成某一研究。
最后,需要提及的是,文本的價(jià)值和意義并非文本本身的屬性。實(shí)際上,大量的文化社會(huì)學(xué)理論早已指出,文本的意義是在作者和讀者互動(dòng)過(guò)程中產(chǎn)生的。因此,單純關(guān)注文本特征,或者僅僅考慮作者信息,對(duì)于理解文本而言都是片面的。如何更好地整合讀者信息,從而將作者—文本—讀者三元一體納入現(xiàn)有的社會(huì)科學(xué)分析框架,應(yīng)當(dāng)是未來(lái)社會(huì)科學(xué)文本分析需要考慮的問(wèn)題之一。