薛 歡 王一川
(華北理工大學(xué),唐山063009)
提 要:語言預(yù)測是20 世紀(jì)80 年代中期產(chǎn)生的多學(xué)科交叉的領(lǐng)域。 在追溯語言預(yù)測研究發(fā)展歷程的基礎(chǔ)上,本文論述它的研究現(xiàn)狀,并展望今后的發(fā)展趨勢。 同時,本文探討混沌理論和大數(shù)據(jù)預(yù)測算法對語言預(yù)測研究的重要意義,通過把握語言變化中的內(nèi)在規(guī)律性,以期在一定程度上對語言的走勢進(jìn)行前瞻式的分析。
從古至今,從西方到東方,人類對未知事物的探索都有驚人的相似歷程。 中國人通過《易經(jīng)》衍生出龜甲卜筮,重演現(xiàn)實(shí)中萬物變化過程及其規(guī)律;巴比倫人依靠占星術(shù)理解時間與空間、天體運(yùn)行與人類命運(yùn)之間的聯(lián)系;吉普賽人通過塔羅牌揭示命運(yùn)的軌跡。 隨著科技的發(fā)展,這種先驗(yàn)的認(rèn)知活動逐漸從樸素的、自發(fā)的狀態(tài)走向科學(xué)。預(yù)測是根據(jù)事物的發(fā)展規(guī)律和發(fā)展趨勢進(jìn)行評估的過程,是關(guān)于未來如何發(fā)生的陳述,它通常并不總是基于經(jīng)驗(yàn)知識。 雖然預(yù)測和預(yù)言之間有很多重疊,但是預(yù)言只是預(yù)期結(jié)果的陳述,預(yù)測則包含一系列可能的結(jié)果,如姜子牙的《乾坤萬年歌》、袁天罡和李淳風(fēng)的《推背圖》、劉伯溫的《燒餅歌》、諸葛亮的《隆中對》和《馬前課》、邵雍的《梅花詩》等。 “具體之所以具體,因?yàn)樗窃S多規(guī)定的綜合,因而是多樣性的統(tǒng)一。”(馬克思 恩格斯1972:103)預(yù)測按屬性可分為定性預(yù)測和定量預(yù)測。 定性預(yù)測指預(yù)測者根據(jù)事物的性質(zhì)特點(diǎn)和規(guī)律,依賴個人或集體的經(jīng)驗(yàn)、直覺、判斷,對未來的發(fā)展?fàn)顟B(tài)和變化趨勢作出推測和估計(jì)的方法。 主要方法包括:特爾菲法、交叉概率法、趨勢外推法、類比法、形態(tài)學(xué)法等。 定量預(yù)測是依據(jù)歷史數(shù)據(jù)或因素變量,運(yùn)用統(tǒng)計(jì)方法和數(shù)學(xué)模型,近似地揭示預(yù)測對象及其影響因素之間規(guī)律性的數(shù)量變動關(guān)系,以預(yù)測或推測未來的發(fā)展變化情況。 定量預(yù)測可進(jìn)一步分為時序預(yù)測法和因果分析法。 時序預(yù)測法是根據(jù)系統(tǒng)對象過去的變化趨勢,考慮系統(tǒng)變量隨時間的變化規(guī)律及偶然因素的影響,對系統(tǒng)的發(fā)展趨勢進(jìn)行定量預(yù)測,即承認(rèn)事物發(fā)展的延續(xù)性,把未來作為過去歷史的延伸。 時序預(yù)測法包括移動平均法、指數(shù)平滑法、季節(jié)變動預(yù)測法和馬爾可夫鏈預(yù)測法。 因果分析法根據(jù)事物發(fā)展變化過程中原因和結(jié)果所構(gòu)成的錯綜復(fù)雜的依存關(guān)系而進(jìn)行預(yù)測,它包括一元回歸法、多元回歸法和投入產(chǎn)出法。 本文回顧語言預(yù)測學(xué)研究的發(fā)展歷程及主要學(xué)術(shù)觀點(diǎn),論述當(dāng)前的研究現(xiàn)狀,并探討未來的發(fā)展態(tài)勢。
20 世紀(jì)80 年代中期,國內(nèi)學(xué)者認(rèn)為,語言學(xué)作為一門領(lǐng)先的學(xué)科,不能僅僅滿足于語言事實(shí)的描寫及語言現(xiàn)象的解釋,還應(yīng)該對語言的演變做出預(yù)測,由此開始探討語言預(yù)測問題并提出“語言預(yù)測學(xué)”,即將語言置于全息的系統(tǒng)內(nèi)進(jìn)行前瞻性的研究。 語言預(yù)測有內(nèi)部和外部兩個前提:內(nèi)部前提是語言對事物關(guān)系的反映;外部前提包括事物之間的關(guān)系、社會氛圍、交際的深度和寬度。 語言預(yù)測的成功取決于語言活動的規(guī)律性、重復(fù)性、一致性和連續(xù)性。
“基礎(chǔ)科學(xué)研究也是一條向前不斷流去的長河,是有方向的,不是不可知的。” (錢學(xué)森1989:3 -8)語言預(yù)測研究的目的就是尋求語言規(guī)律背后的理據(jù),探索語言演化的動因及趨勢。 “影響預(yù)測難易有四種變量,即冗余信息的多少、問題的差別、口語和書面語的區(qū)別及語言場合的不同。預(yù)測大致可以分為三個層次:形式預(yù)測、語義預(yù)測及非語言學(xué)性預(yù)測?!保▍墙ㄐ?987:118 -120)王希杰通過對語言動態(tài)本質(zhì)的研究,提出語言潛顯理論(王希杰1994:66 -67)。 類似的實(shí)例,我們還可以在索緒爾關(guān)于共時態(tài)和歷時態(tài)的區(qū)分、組合關(guān)系和聚合關(guān)系的區(qū)分、喬姆斯基關(guān)于語言能力和語言運(yùn)用的區(qū)分、維特根斯坦關(guān)于表層語法和深層語法的區(qū)分中找到。 王希杰進(jìn)一步指出,語言預(yù)測學(xué)最重要的一個出發(fā)點(diǎn)就是語言的發(fā)展演變有規(guī)律可循(同上1996:119 -123)。 隨著語言預(yù)測研究的深入,語言潛顯理論逐漸受到重視。 “語言潛顯理論的提出,有助于我們重新科學(xué)地認(rèn)識語言的本質(zhì),建立新的語言觀;充實(shí)現(xiàn)代語言學(xué)的理論系統(tǒng),由它派生出來的潛語言運(yùn)動學(xué)、語言未來學(xué)、語言預(yù)測學(xué)以及動態(tài)性理論、層次性理論等,正在逐漸顯示出學(xué)術(shù)價值,成為現(xiàn)代語言學(xué)理論體系中的重要組成部分;還有助于更新語言研究方法,增強(qiáng)語言學(xué)的解釋力,提高語言學(xué)的科學(xué)品味?!保ㄏ闹腥A2002:13 -18)“語言的潛在性是靜態(tài)的波動,即與動態(tài)變化性相對立的特定時間下的不穩(wěn)定性,在某一時期內(nèi)呈變化趨勢。”(馬泰休斯2005:68)這一階段的語言預(yù)測研究主要是歸納現(xiàn)實(shí)中使用的語言單位的修辭方式,進(jìn)而對語言發(fā)展進(jìn)行預(yù)測。 例如,新詞的預(yù)測主要著眼于語素和語素之間的排列組合,通過仿造、簡縮、合力3 種方式進(jìn)行預(yù)測;新義的預(yù)測主要著眼于語素義之間的排列組合,即潛義是由于顯詞中有一個多義語素(周洪波1996:72 -78)。由于預(yù)測處于初始階段,所以研究僅限于運(yùn)用類推原理、相關(guān)性原理和確定性原理,依據(jù)語言的顯性狀態(tài)研究語言的潛性狀態(tài)。 在根據(jù)前期語料進(jìn)行類推時,往往會忽視預(yù)測對象的規(guī)模和范圍,不能充分考慮隨機(jī)因素對預(yù)測對象造成的影響,使預(yù)測的連貫性降低或相互抵消。 盡管如此,預(yù)測研究仍具有很大的借鑒意義和實(shí)用價值。 “對語言未來發(fā)展方向的正確預(yù)測有助于語言總體規(guī)劃,可以作為制定語言政策的重要依據(jù),有利于促進(jìn)語言的規(guī)范和協(xié)調(diào)?!保ㄖ車?010:49)
自2005 年,國家語言文字工作委員會連續(xù)發(fā)布了《中國語言生活狀況報告》(2005 -2020)(以下簡稱《狀況報告》),對中國語言生活的狀況進(jìn)行描寫、分析、建議、預(yù)測。 《狀況報告》包括年度媒體用字用語調(diào)查、年度新詞語調(diào)查、年度流行語調(diào)查等各種報告和數(shù)據(jù),它使語言工作者能從理性層面把握實(shí)際的語言狀況。 其中,在年度新詞語調(diào)查中,從詞語長度、詞語構(gòu)成材料、結(jié)構(gòu)方式、詞性分布、使用頻次等多個維度對當(dāng)年新詞語發(fā)展變化趨勢進(jìn)行實(shí)態(tài)描述;在歷年新詞語的跟蹤調(diào)查中,則從新詞語的隱退率和復(fù)現(xiàn)率進(jìn)行標(biāo)準(zhǔn)比較分析。 在年度流行語調(diào)查中,主要根據(jù)流行語的使用頻度、散布度及流行周期做出統(tǒng)計(jì)分析。這一階段的語言預(yù)測逐漸從定性預(yù)測過渡到定量預(yù)測,主要采用趨勢外推法和回歸分析法。 趨勢外推法建立在兩個假設(shè)基礎(chǔ)上,一是事物發(fā)展過程沒有跳躍式突變,即事物的發(fā)展變化是漸進(jìn)型的;二是所研究的系統(tǒng)結(jié)構(gòu)、功能等基本保持不變,即假定根據(jù)過去資料建立的趨勢外推模型能適合未來,能代表未來的變化趨勢。 索緒爾認(rèn)為,“歷時語言學(xué)要既有隨著時間進(jìn)展的前瞻的展望,又有往上追溯的回顧的展望,……前瞻的方法無異是一種簡單的敘述,要以文獻(xiàn)的考訂為基礎(chǔ);回顧的展望卻需要一種重建的方法,以比較為依據(jù)”。 他還指出,在基本性質(zhì)方面,語言中量與量之間的關(guān)系可以用數(shù)學(xué)公式有規(guī)律地表達(dá)出來(索緒爾1980:296) 。 回歸分析法根據(jù)自變量和因變量之間的關(guān)系進(jìn)行預(yù)測,回歸分析等價于函數(shù)擬合,即構(gòu)擬一條函數(shù)曲線使其擬合已知數(shù)據(jù)且能很好地預(yù)測未知數(shù)據(jù),保證整體預(yù)測值趨于期望值,離差平方和最小。 例如,蘇劍和葛加國(2016:53 -60)根據(jù)語言趨同理論假說構(gòu)建模型:lang =f(gni, land, geo, fre, gen, ε),其中l(wèi)ang 表示語言種類或者語言多樣化指數(shù),gni 表示人均收入,land 表示國土面積,geo 表示某國的地形,fre 表示經(jīng)濟(jì)自由度,gen 表示語言譜系,ε 表示其他因素。 “任何一個預(yù)測問題,首先要解決的是正確識別預(yù)測對象發(fā)展變化的模式,然后,在預(yù)測對象發(fā)展變化模式保持一定的連貫性的前提下,應(yīng)用近大遠(yuǎn)小原則建立預(yù)測模型,估計(jì)預(yù)測參數(shù)。 然后,對預(yù)測對象的未來做出概率性的預(yù)測。此外,預(yù)測作為一個動態(tài)過程還需要反饋預(yù)測偏差,并結(jié)合預(yù)測對象的其他一些新信息對預(yù)測模型作出調(diào)整、修正?!保ê驴?987:16)也有部分學(xué)者采用馬爾可夫鏈對語言發(fā)展趨勢進(jìn)行預(yù)測(張勁逸 劉燕晶2018:47,吳傲庭等2018:62 -63),“隨機(jī)過程的一個重要特征是前后符號的相關(guān)性,也就是說,從消息的歷史,可以預(yù)測信息的將來。 隨著馬爾可夫鏈重?cái)?shù)的增大,我們就越能根據(jù)前面的語言成分正確地預(yù)測下一個語言成分的出現(xiàn)情況”(馮志偉2011:92)。 馬爾可夫鏈?zhǔn)蔷哂旭R爾可夫性質(zhì)的離散時間隨機(jī)過程,即過程在時刻t0所處的狀態(tài)已知條件下,在時刻t >t0所處狀態(tài)的條件分布與在時刻t0之前所處的狀態(tài)無關(guān)。 分布函數(shù)可表示為:設(shè)有隨機(jī)過程{Xn, n∈T},其狀態(tài)空間為S,對于任意的整數(shù)n∈T 和任意的i0,i1,...,in+1∈I,條件概率滿足:
則稱{Xn, n∈T}為馬爾可夫鏈。
運(yùn)用統(tǒng)計(jì)方法進(jìn)行語言預(yù)測可能會把研究對象描述成一個線性疊加的系統(tǒng)。 “現(xiàn)實(shí)生活很復(fù)雜,許多語言因素糾纏在一起,控制這些因素并非易事,而且統(tǒng)計(jì)方法的使用也有是否得當(dāng)?shù)膯栴},如使用不當(dāng)往往會導(dǎo)致錯誤的結(jié)論。 但只要是和數(shù)字打交道,就不可能離開統(tǒng)計(jì)方法,而且不使用統(tǒng)計(jì)方法,也不見得就能解決使用統(tǒng)計(jì)方法所帶來的問題(如控制因素)?!保ü鹪姶?017:141)馬爾可夫鏈也僅適用于隨機(jī)變量及無后效性的事物。 “黑天鵝”在現(xiàn)實(shí)世界中比比皆是,“它具有意外性,即它在通常的預(yù)期之外,也就是在過去沒有任何能夠確定它發(fā)生的可能性的證據(jù),因此它會產(chǎn)生極端的影響。 雖然它具有意外性,但人的本性促使我們在事后為它的發(fā)生編制理由,并且或多或少地認(rèn)為,它是可解釋和可預(yù)測的” (塔勒布2008:6)。 也就是說,對任何一個變量的精確測量,都會增大另一個變量的不確定度。 在進(jìn)行量化預(yù)測過程中,我們往往會賦予每一個語言影響因素一定的權(quán)重,再根據(jù)已有的所有信息的權(quán)重來判斷哪種路徑的概率最大。 系統(tǒng)包含的影響因素越多,賦予的權(quán)重也就越準(zhǔn)確,那么語言系統(tǒng)演變的可能性也就越大。 此外,量化分析以觀測到的語言系統(tǒng)演變的歷史關(guān)聯(lián)性和走勢為基礎(chǔ),如果社會、經(jīng)濟(jì)、文化、心理等因素引起關(guān)聯(lián)性發(fā)生變化,量化模式可能會在預(yù)測拐點(diǎn)處失效。 因此,無論采用哪一種量化測量方法進(jìn)行語言預(yù)測,其各有不同的適用條件,如實(shí)際情況不能很好地滿足預(yù)測模式的應(yīng)用條件,就需要對預(yù)測模式進(jìn)行驗(yàn)證。
語言學(xué)作為一個多學(xué)科、多層次交叉的領(lǐng)域,它與物理學(xué)、計(jì)算機(jī)科學(xué)等自然科學(xué)密不可分。 語言學(xué)與物理學(xué)之間的關(guān)系和情節(jié)源于人們對如何使用最恰當(dāng)?shù)恼Z言來描述“物質(zhì)世界”或“物理世界”的關(guān)切(Steciag 2013:686 -691);喬姆斯基的《句法結(jié)構(gòu)》推動語言學(xué)邁出“語言科學(xué)”的歷史性一步,同時也促進(jìn)語言學(xué)和計(jì)算機(jī)科學(xué)的融合。
混沌學(xué)是20 世紀(jì)重大科學(xué)發(fā)現(xiàn)之一,被譽(yù)為繼相對論和量子力學(xué)后的第三次物理革命。 混沌一詞源于希臘語χαoσ,指宇宙誕生之初的原始狀態(tài)或無盡深淵。 混沌思想自古有之,《周易·乾鑿度》有言,“混沌者,言萬物相混而未相離”,即精、氣、神混融一體。 《道德經(jīng)》中,老子的“道”天然地包含混沌思想,“有物混成,先天地生。 寂兮寥兮。 獨(dú)立而不改,周行而不殆,可以為先天母”。 “道之為物,惟恍惟惚”。 《論語·雍也篇》中,孔子認(rèn)為,混沌即中庸之道。 《莊子·應(yīng)帝王》中也有,“南海之帝為儵,北海之帝為忽,中央之帝為混沌”。 赫柏林認(rèn)為,混沌并非簡單的無序,而是類似于無周期性和無明顯對稱特征的一種有序形態(tài)。 錢學(xué)森指出,混沌是宏觀無序、微觀有序的現(xiàn)象。 Haken 認(rèn)為,混沌性為來源于決定性方程的無規(guī)運(yùn)動。 Feigenbaum 將混沌定義為確定系統(tǒng)的內(nèi)在隨機(jī)運(yùn)動。 Lorenz 將混沌描述為確定性的非周期現(xiàn)象。 Schuster 和Just 認(rèn)為,“混沌表示一種無序和不規(guī)則的狀態(tài)”(Schuster, Just 2005:26)。 “混沌學(xué)這一理論有廣義和狹義之分。 從狹義上講,它等同于確定性混沌的數(shù)學(xué)理論及其應(yīng)用,因此也等同于從有序到無序相變?yōu)榍疤岬姆蔷€性系統(tǒng);從廣義上講,它可指從有序到混沌或從混沌(或無序)到有序的不連續(xù)過程?!保∕ayntz 1991:298 -323)該理論為我們觀察和分析世界提供一種全新的方法論,“未來混沌理論將與非線性偏微分方程和其他無限維動力系統(tǒng)聯(lián)系在一起,在那里我們可以發(fā)現(xiàn)意想不到的景象”(Sinai 2010:2 -7)。
20 世紀(jì)80 年代,張公瑾將混沌理論和方法引入語言學(xué)領(lǐng)域,用于解釋語言演化的多樣性和復(fù)雜性。 語言系統(tǒng)作為一種復(fù)雜的、非線性的混沌動態(tài)系統(tǒng),是有序性和無序性、確定性和隨機(jī)性的統(tǒng)一。 首先,在語言發(fā)展演變過程中,貌似復(fù)雜的、隨機(jī)性的行為其實(shí)由語言系統(tǒng)內(nèi)在確定性引起,短期內(nèi)的發(fā)展趨勢有規(guī)律可循。 “語言的演變受社會、人等外因影響。 為及時滿足社會的需要,語言要演變,并且有一定的規(guī)律。 語言又是個巨系統(tǒng),演變還有一定的內(nèi)部規(guī)律?!保ㄓ诟?999:32)其次,混沌系統(tǒng)對初始條件極其敏感,初始狀態(tài)的測量誤差隨時間呈指數(shù)增長,運(yùn)行軌跡不可能長期預(yù)測,但系統(tǒng)相鄰軌道在短期內(nèi)發(fā)散較小,短期和局部可以預(yù)測。 再次,奇異吸引子具有整體的穩(wěn)定性。 吸引子的運(yùn)動軌跡始終局限于一個確定范圍的相空間中,無論混沌系統(tǒng)內(nèi)部多么不穩(wěn)定,它的軌跡都不會走出混沌吸引域。因此系統(tǒng)只能在吸引中心態(tài)附近漲落,一切吸引子之外的運(yùn)動向它趨近,而一切到達(dá)吸引子內(nèi)的成分,只有在距離平衡態(tài)的某個臨界閾才會發(fā)生失穩(wěn)(呈指數(shù)分離),才會導(dǎo)致其對初值的敏感性,才開始進(jìn)行非線性運(yùn)動。 需要指出的是,相空間中的臨界閾是確定的,吸引子的統(tǒng)計(jì)特征或發(fā)展趨向也是確定的。 最后,由于混沌系統(tǒng)在一定程度上的周期性和有序性,系統(tǒng)運(yùn)行過程中呈現(xiàn)出綜合相似性,即系統(tǒng)在不同層次上也具有跨尺度的自相似性。 自相似性是跨越不同尺度的對稱性,是系統(tǒng)的某些結(jié)構(gòu)或過程從不同的時間尺度或空間尺度來看具有相同的統(tǒng)計(jì)特征,它意味著遞歸,有限規(guī)則的無限復(fù)用;意味著嵌套,圖案之中套圖案。 “語言的持續(xù)發(fā)展如同它固有的本性一樣自然?!保ê諣柕?998:32)由于語言演變過程中表現(xiàn)出混沌的特征,雖然很難從整體上對語言進(jìn)行全面預(yù)測,但語言系統(tǒng)在不同層次的演化過程中表現(xiàn)出的特性包含系統(tǒng)的長期演化信息,因此可以對語言各個子系統(tǒng)在某一時期的發(fā)展作短期預(yù)測。 下面,我們以一階近似擬合的局域法為例進(jìn)行討論。 局域法是從相空間預(yù)測點(diǎn)的最鄰近點(diǎn)著手,將最鄰近點(diǎn)在軌跡上的下一點(diǎn)作為預(yù)測值輸出,一階近似擬合可采用Y(t +1) =a +bY(t)公式來擬合第n 點(diǎn)周圍的領(lǐng)域。 設(shè)第n 點(diǎn)的領(lǐng)域包括t1,t2,t3,...tp,則上式可表述為:
其中,a,b 可由最小二乘法求得,再通過Y(n +1) =a +bY(n)得到相空間中軌跡的趨勢。
大數(shù)據(jù)時代已然到來,人們擁有更多的渠道和途徑去獲取信息和資源。 “Internet Trend 2019”表明,2018 年全球互聯(lián)網(wǎng)用戶已達(dá)38 億,占全球總?cè)丝诘?1%,高于2017 年的49% (36億)。 互聯(lián)網(wǎng)用戶增長穩(wěn)定但正在減緩,2018 年和2017 年同比增長率分別為6% 和7%。 2018年,中國互聯(lián)網(wǎng)用戶規(guī)模已達(dá)到8 億,位居排行榜第一。 就大數(shù)據(jù)而言,中國的移動互聯(lián)網(wǎng)用戶既是數(shù)據(jù)的“接收者”,也是“發(fā)送者”,信息消費(fèi)、信息交互等活動已成為人們?nèi)粘9ぷ髋c生活的重要內(nèi)容,中國的未來將會是互聯(lián)網(wǎng)與大數(shù)據(jù)融合的時代。 大數(shù)據(jù)預(yù)測就是計(jì)算機(jī)根據(jù)極近過去的原始大數(shù)據(jù)總結(jié)一般規(guī)律,并延伸到樣本外極近未來的預(yù)測情況的過程。 總之,大數(shù)據(jù)可以用于與時間維度有關(guān)的時間序列預(yù)測和基于結(jié)果影響因素的事件預(yù)測,通過算法(如遞歸算法)和模型(如狀態(tài)空間模型)來預(yù)測未來。 在小數(shù)據(jù)時代,由于計(jì)算機(jī)能力不足,大部分的相關(guān)分析僅限于尋求線性關(guān)系;而大數(shù)據(jù)的核心是建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測。 “在越來越多的情況下,使用所有可獲取的數(shù)據(jù)變得更為可能,但為此也要付出一定的代價。 數(shù)據(jù)量的大幅增加會造成結(jié)果的不準(zhǔn)確,與此同時,一些錯誤的數(shù)據(jù)也會混進(jìn)數(shù)據(jù)庫。 然而,重點(diǎn)是我們能夠努力避免這些問題,這就是由‘小數(shù)據(jù)’到‘大數(shù)據(jù)’的重要轉(zhuǎn)變之一?!保ㄉ岫鞑?庫皮耶2012:21)
語言進(jìn)化內(nèi)秉突變性和自然適應(yīng)性、一致性和多樣性以及簡約完美性和復(fù)雜冗余性(俞建梁2019:1 -6),同時兼具高度的跨學(xué)科性。 計(jì)算機(jī)科學(xué)和語言學(xué)都是信息處理科學(xué),隨著大數(shù)據(jù)、云計(jì)算、深度學(xué)習(xí)等人工智能技術(shù)的發(fā)展,語言預(yù)測研究面臨著從歸納抽象的“語言能力”向分析具體的“語言使用”的變革。 如何從海量的語言數(shù)據(jù)合集中提取一定的語言使用的規(guī)律,從而進(jìn)行一些對未來的準(zhǔn)確推測和預(yù)知已然成為關(guān)注的問題。 大數(shù)據(jù)時代的到來,一方面,語言預(yù)測工作者不再僅僅探究語言系統(tǒng)中某個特殊現(xiàn)象或個別事實(shí),而是從多方位、立體化的角度分析問題,同時也使文本更具真實(shí)性和客觀性。 語言數(shù)據(jù)不再是隨機(jī)樣本數(shù)據(jù),而是全樣本數(shù)據(jù);不再是內(nèi)省的語料,而是真實(shí)的、多樣化的語料;不再是混雜、交織的數(shù)據(jù),而是聚塊內(nèi)斂的數(shù)據(jù)。 另一方面,依據(jù)不同語言問題間的相關(guān)性,可以發(fā)現(xiàn)數(shù)據(jù)呈現(xiàn)出的發(fā)展趨勢和規(guī)律。 大數(shù)據(jù)預(yù)測以數(shù)據(jù)為基礎(chǔ),對相關(guān)性問題的研究基于歸納邏輯,即從大量的特殊到一般,大數(shù)據(jù)預(yù)測的這種迭代價值和衍生價值使我們能夠更大范圍地觀察語言事實(shí)的相關(guān)程度和演變過程。 盡管如此,預(yù)測仍不可避免地受到“黑天鵝事件”“薛定諤的貓”等影響。 這些小概率事件在一次實(shí)驗(yàn)中不太可能出現(xiàn),而在大量的重復(fù)實(shí)驗(yàn)中則可能發(fā)生。 然而,在當(dāng)今社會,沒有預(yù)測,就沒有真正的決策和和生存的自由。 只有重視未來,善于科學(xué)地預(yù)測未來,進(jìn)而才能選擇、改變、創(chuàng)造,最終贏得未來(繆再生1986:9 -14)。 采用大數(shù)據(jù)進(jìn)行語言預(yù)測,在調(diào)用語言系統(tǒng)歷史數(shù)據(jù)進(jìn)行變量間相關(guān)系數(shù)計(jì)算時,往往會忽視語言演變外部因素的干擾,預(yù)測成功與否依賴于過去和未來兩種情境之間的相似性或同一性。 大數(shù)據(jù)因其體量巨大、種類繁多、價值密度低等特點(diǎn),已經(jīng)成為一種整合資源的趨勢。 “只要預(yù)測的準(zhǔn)確率超過毫無依據(jù)的猜測,那么即便預(yù)測結(jié)果不是那么準(zhǔn)確,預(yù)測也會創(chuàng)造真正的價值。在預(yù)測未來的過程中,盡管迷霧存在,那也遠(yuǎn)勝于在黑暗中盲目前行?!保ㄎ鞲駹?014:29)
“語言是人類認(rèn)識世界并進(jìn)行表述的方式和過程?!保ㄅ宋膰?020:1 -7)“要全面研究語言,就得考慮例外,即靜態(tài)之中的動態(tài)因素:一方面,存在著由古代承襲下來的但已不符合現(xiàn)代系統(tǒng)的殘余形式;另一方面,又有一些預(yù)示將來狀態(tài)但尚不符合現(xiàn)代系統(tǒng)的創(chuàng)新成分。”(Филин 1973:15)混沌學(xué)使我們看到,語言作為一個復(fù)雜的、非線性的、遠(yuǎn)離平衡態(tài)的、具有混沌的自適應(yīng)動態(tài)系統(tǒng),它的演化呈現(xiàn)出多樣性、漲落性和自相似性,是有跡可循的;大數(shù)據(jù)使我們能最大限度地應(yīng)用語言數(shù)據(jù)進(jìn)行實(shí)證研究,從探尋語言背后的相關(guān)因素、因果聯(lián)系轉(zhuǎn)向探尋語言事實(shí)之間的關(guān)系。 語言演變呈現(xiàn)出多樣性的特點(diǎn),既有確定性又有不確定性,這就是為什么語言預(yù)測研究大多是定性研究的緣故,然而隨著技術(shù)及方法的完善,靜態(tài)分析向動態(tài)預(yù)測將日趨模式化。