□陳偉
內(nèi)容提要 大數(shù)據(jù)時代,在數(shù)據(jù)驅(qū)動下人文社會科學的研究方法在某些領域已發(fā)生改變,由定性研究為主轉(zhuǎn)向定量研究為主,以語言作為研究對象的語言哲學也是如此。定量分析法之所以越來越受到重視,是因為它能夠適應大數(shù)據(jù)和云計算的需求,可以提高精度以及保證處理結(jié)果的準確性和可靠性。語言哲學中定量分析法主要有基于模型技術(shù)(計算機模擬、數(shù)學模型)的方法,和數(shù)據(jù)驅(qū)動(實驗哲學、語料庫)的方法,這些方法使得語言哲學的研究對象發(fā)生轉(zhuǎn)變,而且為人文社科研究提供新范式,并可對相關(guān)研究實踐進行重構(gòu)。大數(shù)據(jù)時代背景下,數(shù)據(jù)已成為比自然語言更加精準、便利、可操作、可計算的科學語言,語言哲學研究也將由此發(fā)生數(shù)據(jù)化的變革。
人類智力的進步可歸結(jié)為科技的進步,當今科技的發(fā)展以信息技術(shù)開發(fā)和利用為主要手段,與此同時大數(shù)據(jù)時代的到來,引發(fā)了人類思維模式和科技發(fā)展模式的變革。繼第三次工業(yè)革命之后,信息化和數(shù)據(jù)化腳步逐漸加快,自然科學領域中的互聯(lián)網(wǎng)、人工智能、人機交互等技術(shù)手段都需要有大數(shù)據(jù)作為支撐,那么人文社會科學研究也相應地發(fā)生改變,可謂是面臨著機遇與挑戰(zhàn)。大數(shù)據(jù)不僅僅是信息技術(shù)的創(chuàng)新,從哲學方法論來看,以海量數(shù)據(jù)匯集、處理與利用的現(xiàn)代化社會必然會引發(fā)科學研究對象、范式、方法的轉(zhuǎn)變。在信息爆炸的時代,人們的生活形式具有海量數(shù)據(jù)存儲的特點,大數(shù)據(jù)勢必會為語言認知、自然語言處理帶來巨大變化①。大數(shù)據(jù)技術(shù)為哲學社會科學開啟新的研究領域②。
上個世紀被稱為“分析哲學時代”,由于數(shù)理邏輯的應用,認知研究的語言轉(zhuǎn)向使認知研究語言更加嚴謹、明確,更加符合邏輯規(guī)范,并因此開辟了分析哲學、語言哲學等認知研究新領域。但是,經(jīng)過近一個世紀的發(fā)展,語言轉(zhuǎn)向并沒有實現(xiàn)當初的學術(shù)愿景。分析哲學家對形而上學語言的邏輯分析和邏輯重構(gòu)難以進行,語言哲學家對自然語言的邏輯分析又讓自然語言支離破碎,因此20世紀的語言轉(zhuǎn)向雖然取得了不少成績,但最后基本上都以逐漸衰落而告終③。以往,哲學分析的一個顯著特征是對定性的研究方法高度依賴,而大數(shù)據(jù)時代的標志是數(shù)據(jù)的海量匯集與處理,大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)無法再用常規(guī)的方法和工具處理,需要基于模型和數(shù)據(jù)驅(qū)動的方法才能更加精確無誤地應對。
以往哲學分析的一個顯著特征是嚴重依賴定性的方法,即采用自然語言論證的方式,但定性的分析方法無法以現(xiàn)代數(shù)理邏輯為工具對特定現(xiàn)象進行分析。如上個世紀以克里普克(Kripke)和劉易斯(Lewis)對模態(tài)現(xiàn)實主義的辯護中可以看到,他們的論點完全是定性的,數(shù)理工具起不到任何作用,他們的成果二十世紀備受矚目,這種分析法是當時分析哲學的主流。但是,完全依賴于定性的方法對于哲學的發(fā)展是不利的。首先,其他學科的常規(guī)分析法往往會用數(shù)理邏輯為工具,比如語言學、社會學、物理學等,這樣哲學家很難與其他領域的學者進行有意義的對話,哲學就會與其他學科隔離開來,因此人們普遍聲稱的哲學與科學的普遍相關(guān)性,在方法論上是孤立的;其次,定性分析以價值判斷為主,多數(shù)是根據(jù)經(jīng)驗、觀察、回顧等非量化手段進行分析,具有主觀性較強的特點;再者,以往哲學家對定性研究方法的偏愛似乎與他們所倡導的對分析精度和清晰度的承諾相矛盾,在許多情況下,定性的方法會使哲學話語變得不精確和不可靠,即使不是晦澀難懂也難以處理。當然,這并不是說定性的方法沒有其使用價值,只是在哲學的某些領域確實產(chǎn)生了一些問題。
從庫恩《科學革命的結(jié)構(gòu)》一書自1962年出版以來,科學研究的信息化和數(shù)據(jù)化腳步逐漸加快,科學研究進入大數(shù)據(jù)時代(Big Data Era)正在“催生最大的數(shù)據(jù)變革”④。新技術(shù)的出現(xiàn)為人文社會科學開辟新的領域,哲學及相關(guān)學科研究方法也在變革。大數(shù)據(jù)時代的數(shù)據(jù)挖掘不僅因?qū)嵱脙r值越來越重要,而且在方法論上也越來越復雜,涉及的領域越來越寬,因此,正確的方法論是大數(shù)據(jù)時代所急需的哲學指導⑤。
大數(shù)據(jù)時代要有大數(shù)據(jù)思維,處理大量信息的迫切需求促使我們思考計算機如何為承擔這些繁重的任務提供幫助,如信息提取及機器翻譯,計算語言學和自然語言信息處理等相關(guān)學科都需要計算機進行信息處理。在大數(shù)據(jù)背景下,定量的研究方法越來越盛行,這種方法的應用能夠很好地適應數(shù)據(jù)分析與處理的要求,并可以很好地解決哲學方法論中定性分析方法不足的空缺。定量方法包括各種各樣的工具,從基于模型的技術(shù)(數(shù)學模型和計算機模擬)到數(shù)據(jù)驅(qū)動的方法(實驗哲學和語料研究)。定量方法具有多樣性的特點,基本都是以數(shù)學工具來制定和解決哲學問題的。
語言是信息的主要載體,在大數(shù)據(jù)浪潮之下語言學研究方法從某種程度上來說正是迎合信息傳遞和運算的需求。在語言學學科領域,旨在探索語言結(jié)構(gòu)和模式的計量語言學已悄然興起,采用定量的統(tǒng)計方法來解釋語言學問題。傳統(tǒng)語言學重在分析特定示例,或利用語言直覺來尋求語言結(jié)構(gòu)的規(guī)則,許多情況下通過內(nèi)省的方法進行語言的研究。與傳統(tǒng)語言學不同的是,定量語言學將語言識別為復雜的自適應系統(tǒng),利用真實的語言數(shù)據(jù)并依靠定量方法來探索語言的結(jié)構(gòu)化并不斷發(fā)展,簡而言之,它具有準確性、真實性、動態(tài)性⑥。傳統(tǒng)的語言學研究成果很少被自然科學所運用,如人工智能處理、大數(shù)據(jù)分析等,主要原因是缺乏準確性、科學性以及可操作性。定量語言學作為語言學的一個分支,它的分析則是基于一種事實判斷,是建立在實證主義的方法論基礎上的,依照客觀真實的文本數(shù)據(jù),分析探索語言的結(jié)構(gòu)并建立模型,從而獲得更全面的信息。這種分析模式與自然科學相似,更有利于智能分析和處理。
以邏輯為工具在語言哲學研究中很常見,但多是基于形式邏輯,這種研究方式在處理有關(guān)語言的哲學問題方面有著悠久的傳統(tǒng)。相對而言,基于模型和數(shù)據(jù)驅(qū)動的方法直到最近才在語言哲學中獲得突出地位,這些方法比邏輯推理在大數(shù)據(jù)時代更加適用,在多數(shù)情況下,基于模型和數(shù)據(jù)驅(qū)動的方法可以提高精度,提高結(jié)果的準確性和可靠性,并通過與相鄰學科中的有關(guān)方法相聯(lián)系,推動語言哲學的發(fā)展。然而,盡管有諸多益處,但迄今為止尚無任何研究對語言哲學中的定量方法進行全面的處理。我們試圖通過梳理定量研究方法在語言哲學領域的基本路徑和重要意義,為該領域的研究提供方法論上的借鑒。
大數(shù)據(jù)時代的典型特征是數(shù)據(jù)的大量匯集,海量信息的捕捉和處理無法用傳統(tǒng)的方法進行,隨著對大數(shù)據(jù)認識的深化,人們發(fā)現(xiàn)大數(shù)據(jù)具有“七極”的特征,極大、極速、極多、極高、極真、極易變化和極為復雜,除了為人類帶來的效率和效用以外,其極易變化和極為復雜的負面特征也凸顯出來,因此正確的“數(shù)據(jù)挖掘”(data-mining)至關(guān)重要⑦。在語言哲學研究中進行“數(shù)據(jù)挖掘”具體要使用什么樣的定量工具呢?
模型是目前語言哲學中爭議最小的量化工具,數(shù)學模型采用的是數(shù)學運算的方式來分析客觀現(xiàn)象與數(shù)學對象之間的關(guān)系。數(shù)學模型在科學研究中無處不在,有豐富的哲學文獻可用于解釋它們的本質(zhì),并可用于深入的探討⑧。事實上,哲學家現(xiàn)在經(jīng)常依靠代數(shù)、概率論和微分方程來解決跟語言相關(guān)的一些問題。
除數(shù)學模型外,計算模型在語言哲學中也相當普遍。計算模型通過將目標系統(tǒng)表示為存儲在內(nèi)存和算法中的數(shù)據(jù)包(即更新控制系統(tǒng)行為的規(guī)則)來模擬研究的對象。通過在不連續(xù)的時間步長中迭代更新,可得出有關(guān)系統(tǒng)軌跡和最終狀態(tài)的數(shù)據(jù),以供進一步處理和分析?;诖淼哪P褪怯嬎銠C進行模擬的一種特別普遍的類型,通常是模擬自治或半自治代理之間的交互過程。無論其形式如何,計算機模擬通常是通過闡明過于復雜而無法進行分析處理的內(nèi)部工作原理,目的是為了補充數(shù)學模型。
但這拋開了如何證明在哲學中使用模型的合理性問題。哲學家為什么要訴諸數(shù)學和計算模型?在什么條件下應該怎樣做?雖然很難詳盡地回答這些問題,但模型在研究生物和文化進化產(chǎn)生的現(xiàn)象時特別有用。這是因為生物和文化領域變化的主要動因是進化,如選擇和漂移。而充滿定性論證的冗長散文往往難以追蹤其進化過程,而以數(shù)學和計算機模型為工具的定量分析則表現(xiàn)出色,這使得數(shù)學和計算模型成為極富啟發(fā)性的工具,可用于研究傳統(tǒng)上困擾哲學家的各種現(xiàn)象。既然語言是生物和文化進化的產(chǎn)物,那么語言哲學也可以從模型的使用中受益,模型有時會在言語推理失敗的情況下提供良好的結(jié)果。在不求助于數(shù)學和計算工具的情況下,要追蹤作為交流基礎的理性決策和進化過程將是極其困難的。模型可以提供一般通過口頭推理而無法獲得的結(jié)果,可以提高哲學研究的可靠性。
模型的另一個好處在于其精確性。例如,語言哲學中的模型可以設置哪些是應該出現(xiàn)的條件,哪些是不應該出現(xiàn)的,有了明確的規(guī)定就可以進行言語處理,否則數(shù)量龐雜的言語現(xiàn)象將無法有效地處理。例如,著名的語言哲學家格萊斯(Grice)(1975)提出的對話交流過程中的“合作原則(Cooperative Principle)”,包括“量的準則”“質(zhì)的準則”“關(guān)系準則”“方式準則”。但格萊斯所謂的“合作”到底指的是什么?而溝通的量又需要多少呢?這些問題,格賴斯的口頭論證是無法回答的,但是利用語用學中的數(shù)學模型可以很容易地解決⑨。至少可以說,在純粹定性方法的基礎上得出的結(jié)論是很難站住腳的,即便是有些語言哲學家為其辯護也很難找到充分的條件。
語言哲學研究中所使用的數(shù)學和計算模型,其實都來源于哲學以外的領域。哲學家主要是從經(jīng)濟學(理性選擇理論)和進化生物學(進化博弈論)等領域借鑒了這些方法,這種跨學科進行研究的方式為語言哲學的研究帶來了生機。
人類信息化的普及和大數(shù)據(jù)時代的到來,是新技術(shù)革命成功的結(jié)果,同時又由此引發(fā)了新一輪的技術(shù)與方法的變革。數(shù)據(jù)的運用和處理無疑成為了一系列學科關(guān)注的熱點。數(shù)據(jù)在過去主要是指由數(shù)字和計量單位一起構(gòu)成的對事物量化的描述,在人類對世界的量化認識中起著重要的作用⑩。大數(shù)據(jù)發(fā)展的基石就是數(shù)據(jù)量的指數(shù)增加,無論是數(shù)據(jù)挖掘、文本處理、自然語言處理還是機器模型的構(gòu)建,大多都是基于一定量的數(shù)據(jù),數(shù)據(jù)規(guī)模達到一定程度,然后采用基于規(guī)則的方法或者概率統(tǒng)計學的方法進行模型構(gòu)建,知識的獲取才更有意義?。
語言哲學家對自然語言或人工語言的功能及結(jié)構(gòu)的分析,以往以調(diào)查或觀察為主,如今隨著語言數(shù)據(jù)的海量匯集,使我們能夠采用與計算機科學密切相關(guān)的大數(shù)據(jù)平臺,如利用計算仿真實驗和語料庫分析等,為語言哲學提供實證研究。語料庫的運用與實驗哲學分析在大數(shù)據(jù)時代背景下日漸普及開來。德維特(Devitt)指出,語言哲學家應更多地依賴于實際用法的證據(jù),包括語料庫的句子和受控實驗中的句子,來自調(diào)查數(shù)據(jù)的證據(jù)顯然是參與者對問題和命題的直觀判斷,而不是實際的語言使用?。為了收集使用真實語言的數(shù)據(jù),我們需要訴諸大數(shù)據(jù)方法。
語言哲學中一種相當常見的定量研究形式是實驗哲學。實驗哲學通常借用人文社會科學,特別是語言學和心理學的方法對指定的對象進行研究。例如,在認識論中,溫伯格(Weinberg)、尼克爾斯(Nichols)和斯蒂克(Stich)依靠實驗數(shù)據(jù)來論證,關(guān)于構(gòu)成知識的直覺是不可靠的,事實證明它們會隨著理論無關(guān)的因素而變化?;在科學哲學中,斯托茨(Stotz),格里菲斯(Griffiths)和奈特(Knight)分析了調(diào)查數(shù)據(jù),表明生物學家對基因有不同的概念,這取決于他們的專業(yè)領域?;在語言哲學中,實驗哲學的一個經(jīng)典例子是(Machery),馬?。∕allon),尼克爾斯(Nichols)以及斯蒂克(Stich)對克里普克(Kripke)思想實驗的處理,發(fā)現(xiàn)關(guān)于參照的判斷在不同文化中呈現(xiàn)出不穩(wěn)定性?。以上實驗哲學的研究曾引發(fā)一場關(guān)于是依靠直覺還是依靠試驗數(shù)據(jù)的激烈辯論。
實驗哲學家沒有自己的方法論,但是他們在研究中借鑒了許多來自社會心理學和認知科學的各種實驗工具和方法。最常用的實驗哲學中的一種方法是問卷調(diào)查,用于引起人們對有關(guān)問題的直觀判斷。在特定情況下的問題或命題。盡管如此,人們已經(jīng)意識到調(diào)查只是一項可供哲學家使用的實驗性工具,而且仍然有許多不同類型的實驗方法可用于哲學研究。
盡管最近實驗哲學獲得了大量關(guān)注,但哲學領域的數(shù)據(jù)驅(qū)動研究不應局限于實驗工作。在哲學領域,語料庫研究依靠語料庫數(shù)據(jù)來解決哲學家感興趣的問題。
特別是基于語料庫的方法為語言哲學研究提供了一系列幫助,使它們成為實驗工具的重要補充。語料庫僅僅是口語或書面語的樣本,不是在實驗室環(huán)境中產(chǎn)生的,而是在特定領域內(nèi)收集的。與其他形式的數(shù)據(jù)驅(qū)動研究中使用的實驗數(shù)據(jù)相比,語料庫包含觀察數(shù)據(jù)。但是,語料庫語言學的研究表明,基于語料庫和實驗數(shù)據(jù)集的結(jié)果有時會出現(xiàn)分歧?。這說明,語料庫研究和實驗技術(shù)應該相互補充,以評估和提高結(jié)果的準確性和可靠性。
因此,語言哲學家也應該在考慮實驗數(shù)據(jù)的同時考慮語料庫數(shù)據(jù),特別是那些對我們實際語言行為的歸納及相關(guān)語料的收集,語料庫形式的觀察數(shù)據(jù)也應該用于語言哲學理論的建構(gòu)中。當然,在某些情況下,為哲學領域感興趣的問題去探究具有普遍意義的語料庫是具有挑戰(zhàn)性的。因此,哲學家有時可能更適合研究在實驗室里產(chǎn)生的語言數(shù)據(jù)?。但如今隨著信息量的增加,大數(shù)據(jù)技術(shù)的介入,在更多情況下,也許可以使用語料庫數(shù)據(jù)來解決哲學家們長期以來感興趣的問題。
語料庫方法在涉及語言問題時有巨大的潛力。語料庫研究可以為日益廣泛的網(wǎng)絡語言提取、歸納、分析提供依據(jù)。針對網(wǎng)絡語言暴力、未成年不良網(wǎng)絡社交行為、低俗言語泛濫、網(wǎng)絡流行語使用不當?shù)痊F(xiàn)象,以往研究是分析其語義內(nèi)容得到片面的主觀的結(jié)論,雖然相關(guān)學者提出很多提議,也用哲學分析的一些方法對照實際語言對其進行評價,但是一些問題始終不能回答。比如,污言穢語如果出自同一個主體,是否每次都會有冒犯性,是否其目標具有一致性?在恰當?shù)恼Z境中使用侮蔑語的頻率有多高?這些雖然是具有哲學意義的問題,但最好使用語料庫數(shù)據(jù)來解決,因為語料庫研究可以通過對照實際語言用法及用例對這些問題進行精準的評價。
在一般科學方法論中,馬克思將“研究方法”與“敘述方法”區(qū)別開來,“研究方法”是指科學發(fā)現(xiàn)的方法,“敘述方法”是指理論構(gòu)建的方法。馬克思在研究方法上認為,研究必須充分地占有材料,分析它的各種發(fā)展形勢,探尋這些不同形式的內(nèi)在聯(lián)系,只有在這項工作完成后,現(xiàn)實的運動才能適當?shù)財⑹龀鰜???茖W發(fā)現(xiàn)的方法也就是“研究方法”,務必要靠大量的、充分的、基于事實的資料才能構(gòu)建出科學的理論,所謂的資料即數(shù)據(jù)資源。
在大數(shù)據(jù)和云計算背景下,世界萬物皆可用數(shù)據(jù)表征,諸如文字、聲音、圖像、語言等等,數(shù)據(jù)像語言一樣是一種通用的表達工具。數(shù)據(jù)最基本的分析方法是定量分析,通過定量分析對事物發(fā)展的方向、人類的行為、各領域的情況進行總結(jié)或預測,得出的結(jié)論甚至會超越人類的認知。所以,在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”?。以數(shù)據(jù)作為支撐能夠解決以往因為不夠全面精確而帶來的分析不足的短板,由對現(xiàn)象“怎么看”向現(xiàn)象“是什么”轉(zhuǎn)變,質(zhì)性研究向量性研究的變化使得人們的認知也能夠更加的真實、客觀。
大數(shù)據(jù)時代的到來產(chǎn)生了一系列的變化,不僅語言哲學研究方法發(fā)生變化,研究對象也隨之改變。在布雷斯南(Joan Bresnan)的《語言學的花園與灌木叢》(Linguistics:The Garden and the Bush)一文中?,布雷斯南回憶了她如何從“花園”到“灌木叢”,認為大多數(shù)傳統(tǒng)的語言理論本質(zhì)上背離了社會對語言理論的要求。作為“花園”,包含生成語法的傳統(tǒng)語言學關(guān)注的是語言學家通過內(nèi)省仔細選擇或培養(yǎng)的語言現(xiàn)象,并使用語法樹和短語等符號定性地概括它們。相比之下,“灌木叢”又稱“田野語言學”,它關(guān)注的是人們在日常交流中實際使用的語言,以條件概率和信息內(nèi)容為基礎進行定量分析。從“花園”到“灌木叢”的轉(zhuǎn)變,其實意味著研究對象發(fā)生了變化(范圍由微觀到宏觀),研究方法(定量方法)和性質(zhì)(形而上到實用主義)也發(fā)生變化。
語言是信息的主要載體,對它的研究在信息化時代應同時滿足人機需求。自然語言處理需要轉(zhuǎn)化為語言數(shù)據(jù)。一般來說,科學研究涉及抽象建模。模型的特征代表了被建模對象的可觀察屬性。通過利用抽象創(chuàng)建的模型和模型所代表的內(nèi)容,以一種間接的方式解釋現(xiàn)實世界。因此,理論的構(gòu)建依賴于模型和現(xiàn)實之間的對應關(guān)系,從一個忽略本質(zhì)和不能反映真實色彩的模型中得出的結(jié)論是很難應用到實際的。
大數(shù)據(jù)是一項工具,定量研究是一種方法,這種工具和方法既可以處理形式語言也可以處理自然語言,而以往分析方法只能處理自然語言。語言學研究模式發(fā)生變化,那么為迎合實際需求,語言哲學也要迎接信息時代的重大轉(zhuǎn)變。
知識的發(fā)現(xiàn)和證明是哲學認識論中兩個重要階段。在大數(shù)據(jù)時代,用定量的方法對已有知識進行重新整合并論證,可以使已有結(jié)果更加可靠,或會產(chǎn)生新的發(fā)現(xiàn)。語言哲學基本的研究方式是用邏輯方法對相關(guān)語言材料進行分析,今后語言哲學關(guān)注的焦點將是語言數(shù)據(jù)的發(fā)現(xiàn)和證明。
大數(shù)據(jù)時代的到來,對于人文社科領域可謂是充滿了機遇。將原有語言文本轉(zhuǎn)化成數(shù)據(jù),用量化的方法進行統(tǒng)計分析。比如在文學領域,小說文本電子化、電子檔案的普及、大型數(shù)據(jù)庫建設完備和跨庫檢索、智能分析技術(shù)發(fā)展完善后,文學研究具備了宏觀研究的必要條件。比如對于《紅樓夢》成書過程的研究:公認的說法是前80回由曹雪芹著,后40回由高鶚續(xù)寫的說法。后來通過數(shù)據(jù)分析發(fā)現(xiàn)結(jié)果并非如此,并否定了之前的說法。原因是人的認識具有主觀性,即便是知名學者也難免會陷入誤區(qū)。窮盡式的大數(shù)據(jù)語言風格定量分析,能夠精準的把握作者的言語模式,因此能夠有新的發(fā)現(xiàn)。
實驗哲學研究表明靠人類直覺獲得的概念是不可靠的,無論是自然科學還是人文社會科學靠實驗的方法來論證更為可靠。莫萊蒂(Moretti)于2010年成立的斯坦福文學實驗室,就是將文學文本數(shù)據(jù)化后再進行量化分析的典范。這種對待文學研究有如對待一般科學研究的處理方式,對于文學領域來說是一個挑戰(zhàn)。通過從歷史傳統(tǒng)和文學研究的內(nèi)在需求來看,基于數(shù)理邏輯與數(shù)據(jù)實證的文藝研究方法具有合理性,把審美特性與科學邏輯相結(jié)合,帶來革命性的轉(zhuǎn)折。由此引發(fā)了一些新的學科提法,如“統(tǒng)計文藝學”“計量文學”等。將人文學科與數(shù)理邏輯、語料庫分析等相結(jié)合,用定量分析的方式進行分析,普及開來后將會產(chǎn)生革命性的變革。
數(shù)據(jù)轉(zhuǎn)向是大勢所趨,研究范式隨之改變。與人類社會相關(guān)的如社會學、新聞與傳播學、教育學、法學、經(jīng)管類等實用性較強的社會學科更為適用。大數(shù)據(jù)時代讓一切看似不可能解決的問題有了解決的可能,在對哲學意義的追問中更為系統(tǒng)、形象。
第一,緩解定性和定量兩種不同取向的研究范式。在邏輯實證主義(Logical positivism)的鼎盛時期,艾耶爾(Ayer)認為哲學應該只關(guān)心語言和邏輯的事實在那個時期大部分的爭論一直圍繞著認知狀態(tài)先驗和后驗方法,以及推理和依靠感覺經(jīng)驗的方法。一直以來仍有學者堅持觀念推理在哲學話語中起著重要的作用。例如,比勒(Bealer)認為哲學中的先驗直覺不僅獨立于科學中的經(jīng)驗工作,而且具有更大的認識價值但其他人強烈反對這種觀點,因為在很大程度上忽視了定量研究方法在處理相關(guān)問題時的重要性。最近的一個例子是馬歇瑞(Machery),他認為來自思維實驗的先驗直覺是不可靠的,因為思維實驗得出的結(jié)論過于牽強和理想化。關(guān)于定性觀念理念和定量工具理念的爭論在語言哲學及其他領域持續(xù)了半個多世紀。
然而,目前的研究實踐表明,定性和定量分析是哲學研究方法中不同的研究方式。比如當研究語言哲學中語言意義演變的進化現(xiàn)象時,用到動態(tài)模型和計算機模擬,這種情況下需要定量處理;當通過海量規(guī)模的樣本數(shù)據(jù),直接能夠發(fā)現(xiàn)語言規(guī)律或現(xiàn)象,既不用檢測變量又可避免樣本偏差時,直接定性處理就可以。以大數(shù)據(jù)為背景的研究,可以說是使定性和定量研究范式發(fā)生了轉(zhuǎn)變,在兩者之間出現(xiàn)了交叉的地帶。大數(shù)據(jù)海量的數(shù)據(jù)規(guī)模和全新的數(shù)據(jù)特征使得定量研究與定性研究在資料獲得與分析方法方面逐步走向趨同,這在某種程度上緩解甚至重構(gòu)了定量研究與定性研究間的關(guān)系。
第二,大數(shù)據(jù)背景下的定量分析能夠優(yōu)化變量測量。定量分析方法的一個重要價值體現(xiàn)在與大數(shù)據(jù)的結(jié)合。以往利用小數(shù)據(jù)對變量進行定量分析往往是管中窺豹缺乏說服力。在大數(shù)據(jù)驅(qū)動下,可以極大范圍地鞏固語料庫,使語料庫的完備程度達到空前的高度,在這種情況下再進行歷時和共時兩個維度的定量分析,使變量得以優(yōu)化,并能產(chǎn)生意想不到的效應。
隨著觀測范圍的擴大,重新利用定量測量方法對已有的研究進行二次分析,比如某個研究對象的變化趨勢、形成的路徑等。雖然對于傳統(tǒng)研究進行用這種方式回爐重造的不多,但是大數(shù)據(jù)背景下的定量分析為人文社科領域的研究提供新的維度。
第三,定量分析能夠使展示方式更加精確、生動。面對海量數(shù)據(jù)構(gòu)成的結(jié)果,不同的人有不同的展示方法,如何簡單有效地展示也是一項務必要完成的工作。最為常用的是數(shù)據(jù)可視化技術(shù),其實是知識的一種再生產(chǎn)方式。研究者用定量分析的得出結(jié)論,以圖形、時間序列、地圖、流、矩陣、網(wǎng)絡、層次和信息圖形為基本元素,把要表達的內(nèi)容進行匯集組合,進而將較為宏大的理論或觀念簡潔明了地解釋出來。
哲學在古代集中探討“世界是什么”,這種關(guān)于本體論的思考由于缺乏合適的認識工具,跟不上自然科學的快速發(fā)展,所以哲學一直沒能夠有長足的進步。后來自然科學找到了自己的科學語言工具,而哲學卻缺乏自己獨特的表述工具因而只能用多義的自然語言,因此,20世紀初的哲學家們終于找到了哲學停步不前的問題癥結(jié)是語言工具問題21世紀隨著信息技術(shù)的發(fā)展,出現(xiàn)了大數(shù)據(jù)和云計算,促進了自然科學和人文社會科學的融合發(fā)展,傳統(tǒng)研究理念及方法受到巨大的沖擊。
定量分析法雖然在自然科學領域由來已久,但在語言哲學研究中尚未啟動,通過分析得知定量分析法在大數(shù)據(jù)背景下的語言哲學研究中具有很大潛力。以往的研究表明,語言哲學家根據(jù)實際需要有時會建立模型和分析數(shù)據(jù),語言哲學不應該被視為一門完全依賴定性方法的學科。語言哲學可以從定量方法中獲益,實驗和行為哲學為此提供了重要的見解?;谡Z料庫的方法在處理關(guān)于語言的哲學問題時,可以繞過一些實驗和行為協(xié)議固有的限制,數(shù)學和計算模型可以為研究具有哲學意義的進化現(xiàn)象提供一個有價值的視角,如涉及語言行為的研究。但當涉及到解決這些問題時,應該考慮使用定量和定性兼顧的方法。這些考慮不僅對語言哲學的方法論產(chǎn)生了影響,而且對哲學的其他幾個分支學科也會產(chǎn)生影響。
在移動互聯(lián)網(wǎng)、超級計算、人工智能、腦科學等新理論及新技術(shù)大步向前的今天,大數(shù)據(jù)驅(qū)動下的語言信息處理也在加速發(fā)展,深刻影響人類社會經(jīng)濟形勢和科技進步。利用恰當?shù)墓ぞ吆头椒ㄈシ治龊A繑?shù)據(jù)資源并從中受益,對于多學科多領域的學者來說充滿了挑戰(zhàn)和機遇。語言哲學的研究也將因此發(fā)生數(shù)據(jù)化的變革。
注釋:
①Agerri,R.,et al.Big data for Natural Language Processing:A streaming approach,Knowledge-Based Systems,2015,79(5).
②Iacus S M.,Big Data and Social Science-A Practical Guide to Methods and Tools,Journal of statistical software,2017,78(Book Review 2).
③陳波、江怡:《分析哲學:回顧與反?。ㄉ暇恚罚袊嗣翊髮W出版社2018年版,第20頁。
④涂子沛:《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》,廣西師范大學出版社2013年版,第285頁。
⑤杜世洪:《大數(shù)據(jù)時代的語言哲學研究——從概念變化到范式轉(zhuǎn)變》,《外語學刊》2017年第6期。
⑥Liu H T,Lin Y N,University Z,et al,Methodology and Trends of Linguistic Research in the Era of Big Data,Journal of Xinjiang Normal University(Edition of Philosophy and Social Sciences),2018.
⑦Changqing JI,Yu LI,Qiu W,et al,Big Data Processing:Big Challenges And Opportunities,Journal of Interconnection Networks,2012,13.
⑧Weisberg M,Simulation and Similarity:Using Models to Understand the World,Oxford Studies in the Philosophy of Science,2013.
⑨參見Huttegger,S.M.,Skyrms,B.,Smead,R.,Zollman,K.J.,Evolutionary dynamics of Lewis signaling games:Signaling systems vs.partial pooling,Synthese,2010,172(1).
?羅剛、張子憲:《自然語言處理原理與技術(shù)實現(xiàn)》,電子工業(yè)出版社2016年版,第173~174頁。
?Devitt,M.,Linguistic Intuitions Are Not“The Voice Of Competence”,in Matthew Haug,eds.,Philosophical Methodology:The Armchair or the Laboratory?London:Routledge,2014,p.268.
?Weinberg,J.M.,Nichols,S.,Stich,S.,Normativity and epistemic intuitions,Philosophical Topics,2001,29(1/2).
?Stotz,K.,Griffiths,P.E.,Knight,R.,How biologists conceptualize genes:an empirical study,Studies in History and Philosophy of Science Part C:Studies in History and Philosophy of Biological and Biomedical Sciences,2004,35(4).
?Machery,E.,Mallon,R.,Nichols,S.,Stich,S.P.,Semantics,cross-cultural style,Cognition,2004,92(3).
?Arppe,A.,J?rvikivi,J.,Every method counts:Combining corpus-based and experimental evidence in the study of Synonymy,Corpus Linguistics and Linguistic Theory,2007,3(2).
?Devitt,M.,Testing theories of reference,in J.Haukioja(Ed.),Advances in experimental philosophy of language,London and New York:Bloomsburry,2015,pp.31~63.
?馬克思:《資本論》第1卷,人民出版社2004版,第21~22頁。
?維克托·邁爾-舍恩伯格,肯尼思·庫克耶:《大數(shù)據(jù)時代:生活,工作與思維的大變革》,盛楊燕,周濤譯,浙江人民出版社2013年版。
?Bresnan,J.,Linguistics:The Garden and the Bush.,Computational Linguistics,2016,42(4).